사고의 위상학: 임베딩 공간 속의 Obsidian

15,800개의 노트. 49,746개의 청크. 각 청크는 256차원 벡터입니다. 전체 데이터셋에 UMAP을 적용해 3차원으로 투영한 뒤 화면에서 천천히 회전시켜 봤습니다. 제 세컨드 브레인에는 형태가 있었고, 그 형태는 노트 자체로는 알 수 없었던 사실을 드러냈습니다. 제 지적 작업은 세 개의 밀집 허브(Claude Code, 디자인 시스템, AI 연구)를 중심으로 클러스터링되어 있었고, 교차 노트로 이루어진 얇은 다리로 연결되며, 아무것도 연결되지 않은 고립된 신호들의 희박한 후광에 둘러싸여 있었습니다.

지식의 형태는 어디서 사고하고, 어디서 사고를 회피하며, 어디서 아이디어가 충돌할 여지가 있는지를 알려줍니다. 에이전트 행동을 구조화하는 것과 동일한 컨텍스트 아키텍처가 인간의 지식도 구조화합니다.

요약: 15,800개의 Obsidian 노트를 256차원 임베딩 공간에 투영하면 세 가지 지식 위상—중앙집중형, 분산형, 분배형—이 드러나며, 각각 고유한 실패 모드를 가지고 있습니다. 클러스터 간 브릿지 노트가 가장 참신한 인사이트를 만들어내며, 상전이 연구에 따르면 부주의한 큐레이션은 급격한 임계점에서 지식 구조를 붕괴시킬 수 있습니다.

TL;DR

임베딩 공간은 지식 베이스에 공간적 구조를 부여하고, 이를 통해 지적 위상을 드러냅니다. Kat(@poetengineer__)은 Obsidian 볼트에 대해 세 가지 위상을 제시했습니다: 중앙집중형(하나의 핵심 아이디어가 모든 것을 연결), 분산형(주제별 허브 클러스터), 분배형(의미적 관계로 레이블이 붙은 아이디어 간 엣지).¹ 49,746개 청크로 구성된 제 15,800개 파일 볼트는 세 개의 지배적 클러스터를 가진 분산형 위상을 보입니다. Pesce 외의 신경망 가지치기 상전이 연구는 단순화(큐레이션, 아카이빙, 필터링)가 지식 구조의 기능을 깨뜨리는 임계점을 넘는 시점을 이해하기 위한 수학적 프레임워크를 제공합니다.² 아래에서는 임베딩이 포착하는 것, 실제 볼트 데이터를 활용한 세 가지 지식 위상, 자신의 위상을 진단하는 방법, 그리고 제 실제 볼트로 구축한 인터랙티브 탐색기를 다룹니다.

임베딩이 실제로 포착하는 것

텍스트 임베딩은 텍스트 구절을 숫자 목록으로 변환합니다. 토크나이제이션 시각화 포스트에서 텍스트가 토큰이 되는 과정을 다뤘습니다. 임베딩은 한 걸음 더 나아갑니다. 토큰이 고차원 공간의 좌표가 되어 거리가 의미에 대응하게 됩니다.

“컨텍스트 주입을 위한 Claude Code 훅”에 대한 두 구절은 임베딩 공간에서 가까이 위치합니다. “Claude Code 훅”에 대한 구절과 “iOS SwiftUI 내비게이션”에 대한 구절은 멀리 떨어져 있습니다. 이 거리는 키워드 중복이 아닙니다. 두 구절이 단어를 하나도 공유하지 않아도 같은 개념을 논의하면 가까이 위치할 수 있습니다. 반대로 많은 단어를 공유해도(“시스템이 데이터를 처리한다”) 주변 맥락이 다르면 멀리 떨어질 수 있습니다.

제 볼트는 Model2Vec의 potion-base-8M 모델을 사용합니다. 760만 개의 파라미터로 256차원 임베딩을 생성합니다.³ 이 모델은 더 큰 문장 트랜스포머(bge-base-en-v1.5)에서 증류되었으며, all-MiniLM-L6-v2 성능의 약 90%를 달성하면서도 정적 모델로 작동해 CPU와 GPU 모두에서 훨씬 빠릅니다. 볼트의 49,746개 청크 각각이 256차원 공간의 한 점이 됩니다.

256차원은 직접 시각화할 수 없습니다. UMAP 같은 차원 축소 기법은 고차원 구조를 2D나 3D로 투영하면서 로컬 이웃 관계를 보존합니다.⁴ 256차원에서 가까웠던 점들은 3차원에서도 가까이 유지됩니다. 전역 구조는 근사적이지만 클러스터는 실제입니다.

세 가지 지식 위상

Kat의 Obsidian 노트 임베딩 탐구에서 세 가지 뚜렷한 지식 위상을 확인했습니다.¹ 각 위상은 서로 다른 지적 구조를 반영하며, 각각 다른 실패 모드를 가집니다.

중앙집중형: 하나의 핵심 아이디어가 모든 것을 연결

중앙집중형 위상에서는 대부분의 노트가 하나의 지배적 주제를 통해 연결됩니다. 임베딩 공간에서는 중심에 하나의 밀집 클러스터가 있고 얇은 촉수가 바깥으로 뻗어 나가는 형태입니다. React에 대해서만 글을 쓰는 개발자라면 이 위상을 보게 됩니다. React가 허브이고, 테스팅, 상태 관리, 배포, 도구에 대한 모든 노트가 이를 통해 연결됩니다.

강점: 핵심 도메인에 대한 깊은 전문성. 대부분의 쿼리가 같은 이웃에 도달하므로 검색이 잘 작동합니다.

실패 모드: 취약성. 핵심 주제가 무관해지면(경력 전환, 기술의 쇠퇴) 전체 지식 구조의 조직 원리가 사라집니다. 중심과의 관계 속에서만 의미를 가졌던 노트들이 고아가 됩니다.

분산형: 주제별 허브 클러스터

분산형 위상에서는 노트들이 브릿지 노트로 연결된 여러 개의 뚜렷한 클러스터를 형성합니다. 제 볼트는 세 개의 지배적 허브를 가진 이 위상을 보입니다:

클러스터	청크 수	전체 비율	주요 주제
AI & ML	~13,100	26%	Claude Code, 에이전트 아키텍처, LLM 연구
디자인	~7,200	14%	UI 시스템, 타이포그래피, 색채 과학, 비주얼 디자인
개발	~5,100	10%	FastAPI, SwiftUI, 웹 엔지니어링, 데이터베이스
인박스 (미처리)	~13,700	28%	원시 신호, 미분류 캡처

나머지 22%는 영감, 생산성, 과학 및 소규모 카테고리에 분포합니다.

강점: 복원력. 하나의 클러스터를 잃어도 나머지가 파괴되지 않습니다. 클러스터 경계에서 학제 간 연결이 형성되어 가장 참신한 인사이트를 만들어냅니다.

실패 모드: 단편화. 클러스터 간 브릿지 노트가 너무 얇으면 클러스터가 지적 사일로가 됩니다. 제 볼트에는 디자인과 Claude Code 사이에 얇은 다리(에이전트 UI 설계, 프롬프트 인터페이스 패턴에 대한 노트)가 있지만, 디자인과 순수 개발(백엔드 아키텍처 노트가 비주얼 디자인과 거의 연결되지 않음) 사이에는 다리가 거의 없습니다. 이 간극은 사각지대입니다. 저는 디자인에 대해 그리고 백엔드 엔지니어링에 대해 생각하지만, 둘을 함께 생각하는 경우는 드뭅니다.

분배형: 관계로 레이블된 엣지

분배형 위상에서는 노트 간 연결이 아이디어가 어떻게 관련되는지를 설명하는 의미적 레이블을 가집니다. Kat의 구현에서는 LLM을 사용해 인접 노트 간 엣지 레이블을 생성했습니다.¹ 익명의 근접성 대신, 각 연결에 “모순됨”, “확장함”, “근거 제공”, “다른 도메인에 적용”과 같은 설명이 붙습니다.

강점: 탐색성. 분배형 위상은 “무엇이 관련되는가?”뿐만 아니라 “어떻게 관련되는가?”에도 답합니다. 레이블링은 고차원 추론을 가능하게 합니다. 논제를 단순히 언급하는 노트가 아니라 반박하는 노트를 찾을 수 있습니다.

실패 모드: 비용. 모든 연결 쌍에 대해 엣지 레이블을 생성하면 이차적으로 확장됩니다. 제 볼트의 49,746개 청크에 대해 완전한 엣지 레이블링을 하려면 약 12억 번의 LLM 호출이 필요합니다. 실용적인 구현에서는 유사도 임계값 내의 엣지만 레이블링합니다.

상전이: 단순화가 구조를 깨뜨리는 순간

Pesce, He, Caldarelli는 신경망 가지치기의 상전이를 연구하면서 급격한 임계점을 발견했습니다. 네트워크는 “협력적이고 기능적인 상태에서 성능이 붕괴된 무질서한 상태로의 전이”를 보입니다.² 임계점 아래에서는 연결을 제거해도 기능에 거의 영향이 없습니다. 임계점에서는 기능이 갑자기 붕괴합니다. 이 전이는 2차 임계 거동과 일치하는 스케일링 법칙을 따릅니다—얼음이 물로 녹는 것을 설명하는 것과 같은 수학입니다.

지식 큐레이션과의 유사성은 직접적입니다. 제 신호 점수 파이프라인은 관련성 임계값을 통해 인박스를 14,771개에서 5,886개로 줄였습니다. 에이전트 메모리가 가치를 축적하게 만드는 것과 같은 복합 컨텍스트 역학이 여기에도 적용됩니다. 각 노트의 가치는 내용뿐만 아니라 연결에 의해 결정됩니다. 축소는 검색 품질을 개선했습니다. 관련성 낮은 결과가 줄고, 클러스터가 더 타이트해지고, 검색이 빨라졌습니다. 하지만 신호가 손실되었을까요? 단순화가 상전이 임계점을 넘었을까요?

가지치기 연구에 따르면 답은 수량이 아니라 연결성에 달려 있습니다. 고립된 노드(의미적 이웃이 없는 노트)를 제거하면 네트워크 기능에 미치는 영향은 무시할 수준입니다. 반면 브릿지 노드(그렇지 않으면 분리될 클러스터를 연결하는 노트)를 제거하면, 제거된 노트가 개별적으로는 중요하지 않아 보여도 구조가 붕괴될 수 있습니다.

제 분류 파이프라인은 관련성 임계값을 0.30에서 0.40으로 올렸습니다. 인박스 크기의 60% 감소는 수량으로 측정한 것입니다. 위상에 대한 영향은 측정하지 않았습니다. 상전이를 인식하는 큐레이션 전략은 다음과 같을 것입니다:

필터링 전에 브릿지 노트를 식별 (유사도 그래프에서 매개 중심성이 높은 노트)
개별 점수에 관계없이 관련성 필터링에서 브릿지 노트를 면제
각 큐레이션 패스 후 클러스터 연결성 지표를 모니터링
큐레이션 단계가 클러스터 간 브릿지 밀도를 임계값 이하로 줄이면 경고

# Sketch: bridge note detection before curation
def identify_bridge_notes(embeddings, threshold=0.7):
    """Find notes that connect otherwise-separate clusters."""
    from sklearn.neighbors import NearestNeighbors
    nn = NearestNeighbors(n_neighbors=10, metric='cosine')
    nn.fit(embeddings)
    distances, indices = nn.kneighbors(embeddings)

    # Bridge score: how many of a note's neighbors are from
    # different clusters than the note itself
    bridge_scores = []
    for i, neighbors in enumerate(indices):
        own_cluster = labels[i]
        cross_cluster = sum(1 for n in neighbors if labels[n] != own_cluster)
        bridge_scores.append(cross_cluster / len(neighbors))

    return bridge_scores

자신의 지식 위상 진단하기

지식 위상을 분석하는 데 15,000개의 노트가 필요하지 않습니다. 임베딩이 있는 100개 이상의 노트 컬렉션이면 구조가 드러납니다. Obsidian을 AI 인프라로 사용하고 있다면 이미 원재료가 있습니다—제 볼트의 17,000개의 신호도 단순한 일일 캡처에서 시작했습니다. 세 가지 진단 질문을 살펴보겠습니다.

1. 클러스터가 몇 개 존재하는가?

임베딩에 k-means나 DBSCAN을 실행하고 뚜렷한 클러스터를 세어보세요. 3개 미만이면 중앙집중형 위상을 시사합니다. 3~8개는 분산형입니다. 8개 이상이면 진정한 분배형 위상이거나 불충분한 큐레이션(많은 클러스터는 많은 주제를 의미하며, 어디에도 깊이가 없을 수 있음)을 나타낼 수 있습니다.

2. 브릿지가 얼마나 밀집되어 있는가?

각 클러스터 쌍에 대해, 양쪽 클러스터에 최근접 이웃이 있는 노트 수를 세어보세요. 브릿지 밀도가 작은 클러스터 크기의 2% 미만이면 잠재적 사일로를 나타냅니다. 제 디자인-개발 브릿지는 약 1.4%로—임계값 이하이며, 관찰했던 사각지대를 확인해 줍니다.

3. 고아 비율은 얼마인가?

고아 노트는 코사인 유사도 임계값(일반적으로 0.7) 내에 이웃이 없는 노트입니다. 고아 노트가 반드시 나쁜 것은 아닙니다—진정으로 참신한 아이디어를 나타낼 수 있습니다. 하지만 고아 비율이 15%를 초과하면 일관성 없는 캡처(지식 도메인과 맞지 않는 노트)나 임베딩 품질 문제를 시사합니다.

제 볼트의 고아 비율은 약 8%입니다. 대부분의 고아는 구조화된 노트로 처리되지 않은 원시 인박스 캡처입니다. 인박스를 제외하면 고아 비율은 3%로 떨어지며, 처리된 노트가 기존 위상에 잘 통합됨을 나타냅니다.

임베딩 공간 탐색기: 이 인터랙티브 컴포넌트는 15,800개 파일 볼트에서 추출한 500개 샘플 노트를 3D 공간에 투영하여 표시합니다. 점은 주제 클러스터별로 색상 구분됩니다. 호버하면 노트 제목과 최근접 이웃을 볼 수 있습니다. 유사도 임계값을 조절하여 연결 위상을 확인할 수 있습니다—낮은 임계값은 타이트한 클러스터만 보여주고, 높은 임계값은 주제 간 브릿지 연결을 드러냅니다.

클러스터가 드러내는 것

위의 시각화는 제 볼트에서 무작위로 추출한 500개의 청크를 사용합니다. 클러스터는 실제 지적 이웃에 대응합니다.

AI & ML 허브(청크의 26%)가 가장 밀집된 클러스터입니다. Claude Code 아키텍처, 에이전트 설계 패턴, LLM 연구 논문, 프롬프트 엔지니어링 기법이 타이트한 이웃을 형성합니다. 밀도는 볼륨을 반영합니다—다른 어떤 카테고리보다 AI/ML 콘텐츠를 더 많이 읽고 캡처합니다. 밀도는 또한 검색 품질 이점을 만들어냅니다—임베딩 공간이 잘 채워져 있어 이 도메인의 쿼리가 높은 관련성의 결과를 반환합니다.

디자인 허브(14%)는 AI & ML에서 떨어진 위치에 있습니다. 타이포그래피 시스템, 색채 과학, UI 컴포넌트 패턴, 비주얼 디자인 레퍼런스가 자체 클러스터를 형성합니다. 분리는 적절합니다. 디자인과 AI 엔지니어링은 서로 다른 어휘, 다른 추론 프레임워크, 다른 평가 기준을 사용합니다. 하지만 이 분리는 “에이전트 출력을 개발자 리뷰용으로 어떻게 포맷해야 하는가” 같은 쿼리가 두 클러스터 사이의 간극에 빠지게 만들기도 합니다. 한쪽이나 다른 쪽의 결과는 반환되지만 교차점의 결과는 거의 반환되지 않습니다.

개발 허브(10%)는 디자인보다 AI & ML과 더 많이 겹칩니다. FastAPI 패턴, 데이터베이스 설계, SwiftUI 아키텍처가 AI 엔지니어링 노트와 개념적 어휘를 공유합니다(둘 다 코드, 아키텍처, 테스팅을 논의). 어휘 중복은 에이전트를 위한 DevOps와 AI를 위한 인프라 노트가 존재하는 혼합 지대를 만들어냅니다.

인박스 후광(28%)이 모든 것을 둘러싸고 있습니다. 원시 캡처, 미분류 신호, 미처리 북마크가 기존 클러스터와의 약한 연결을 가진 희박한 구름을 형성합니다. 인박스를 14,771개에서 5,886개로 줄인 신호 점수 파이프라인은 주로 이 후광에서 제거했습니다—기존 클러스터와의 유사도가 낮은 노트들입니다.

영감 클러스터(6%)는 디자인과 인박스 사이에 위치합니다. 키네틱 타이포그래피 레퍼런스, 모션 디자인 스터디, 비주얼 아트 캡처가 느슨한 이웃을 형성합니다. 이 클러스터는 비주얼 영감을 일관되게 캡처하지만 그 캡처를 구조화된 노트로 처리하는 경우가 드물기 때문에 존재합니다. 이 클러스터는 하나의 패턴을 드러냅니다. 비주얼 영감은 넓게 소비하지만 디자인 작업은 좁게 생산합니다. 소비와 생산 사이의 간극은 위상에서 높은 유입 밀도(캡처)를 가지지만 낮은 발신 연결(영감을 기반으로 구축하는 노트)을 가진 클러스터로 가시화됩니다.

클러스터 간 브릿지가 가장 흥미로운 특징입니다. 가장 얇은 브릿지는 디자인과 개발을 연결합니다. 작은 클러스터 노트의 약 1.4%가 양쪽 클러스터에 최근접 이웃을 가집니다. AI-개발 브릿지의 8.3%와 비교해 보면, 이는 개발 작업의 상당 부분이 AI 인프라를 포함한다는 것을 반영합니다. 브릿지 밀도는 참신한 작업이 어디서 나타날지를 예측합니다. 제 보이드에서 에이전트로 포스트는 창발적 행동 연구(AI & ML 클러스터)와 플로킹 알고리즘 구현(개발 클러스터)을 연결하는 브릿지 노트에서 탄생했습니다. 브릿지가 없었다면 이 두 노트 그룹은 결코 충돌하지 않았을 것입니다.

위상은 검색 품질에도 영향을 줍니다. 제 볼트 검색을 구동하는 하이브리드 검색기는 BM25 키워드 매칭과 벡터 유사도를 모두 사용합니다—하지만 그 효과는 기저의 클러스터 구조에 달려 있습니다. 밀집된 클러스터에 도달하는 쿼리는 정확한 결과를 반환하고, 클러스터 사이에 빠지는 쿼리는 간극을 메우기 위해 BM25 폴백이 필요합니다.

볼트와 함께 두 번째 임베딩 데이터베이스가 존재합니다. 653개 파일에 걸친 4,518개 청크의 도구 체인 검색 DB입니다.⁵ 도구 체인 위상은 근본적으로 다릅니다. 하나의 밀집 클러스터(Claude Code 설정)에 테스팅, 훅, 스킬을 위한 작은 위성 클러스터가 있습니다. 단일문화 위상은 도구 체인에는 적합합니다—도구 체인은 단일 목적을 가지기 때문입니다. 단일문화 위상을 가진 지식 볼트는 경고 신호일 것입니다.

위상 재구성하기

위상은 고정되어 있지 않습니다. 네 가지 의도적인 행동이 지식 구조를 재구성합니다.

브릿지 노트를 작성하세요. 두 클러스터 사이에 연결이 부족하면, 개념을 명시적으로 연결하는 노트를 작성하세요. 제 디자인-AI 브릿지가 얇은 이유는 에이전트 인터페이스 설계에 대해 거의 쓰지 않기 때문입니다. 디자인 원칙과 에이전트 아키텍처 연구를 모두 인용하는 “에이전트 출력을 위한 UX 패턴”이라는 노트가 브릿지 포인트를 만들 것입니다.

고아를 감지하세요. 매월 고아 스캔을 실행하고 결정하세요: 통합, 아카이빙, 또는 삭제. 새로운 아이디어를 나타내는 고아 노트는 브릿지 노트를 통해 기존 클러스터에 연결해야 합니다. 일회성 참조를 나타내는 고아 노트는 아카이빙할 수 있습니다.

큐레이션 후 모니터링하세요. 대량 큐레이션(삭제, 아카이빙, 필터링) 전후에 클러스터 연결성을 측정하세요. 클러스터 간 브릿지 밀도가 떨어지면 보존해야 할 브릿지 노트가 제거된 것입니다.

경계에서 읽으세요. 가장 가치 있는 독서 대상은 가장 밀집된 클러스터를 더 깊이 파고드는 것이 아닙니다. 클러스터 사이의 경계에 있습니다. AI 엔지니어링과 비주얼 디자인을 연결하는 논문이 이미 밀집된 AI 클러스터를 더 깊게 만드는 논문보다 더 많은 참신한 연결을 생성할 것입니다.

핵심 요약

임베딩 공간은 지식 베이스에 형태를 부여합니다. 그 형태는 지적 위상을 드러냅니다—주의를 집중하는 곳, 회피하는 곳, 아이디어가 도메인을 넘어 연결되는 곳.
세 가지 위상은 각각 다른 실패 모드를 가집니다. 중앙집중형은 취약합니다. 분산형은 브릿지 노트 없이 단편화됩니다. 분배형은 유지 비용이 높지만 탐색에 가장 풍부합니다.
상전이는 큐레이션을 비선형적으로 만듭니다. 임계값 이하의 노트를 제거하면 구조에 거의 영향이 없습니다. 임계점에서 기능이 붕괴합니다. 대량 큐레이션 전에 브릿지 노트를 식별하고 보호해야 합니다.
인박스 후광은 큐레이션의 최전선입니다. 원시 캡처가 기존 클러스터 주위에 희박한 구름을 형성합니다. 신호 점수가 후광을 필터링하지만, 위상은 필터링이 브릿지 연결을 보존했는지 파괴했는지를 드러냅니다.
경계에서 읽으세요. 가장 높은 가치를 가진 노트는 클러스터를 깊게 만드는 것이 아니라 연결하는 것입니다. 고아 감지와 브릿지 밀도 지표가 독서 우선순위를 안내합니다.

FAQ

텍스트 임베딩이란 무엇이며, 지식을 어떻게 표현하나요?

텍스트 임베딩은 텍스트 구절을 고차원 공간의 숫자 목록(벡터)으로 변환하며, 이 공간에서 거리는 의미적 유사성에 대응합니다. 비슷한 주제에 대한 두 구절은 단어를 공유하는지 여부와 관계없이 가까이 위치합니다. potion-base-8M 같은 256차원 임베딩 모델은 각 텍스트 청크를 256개의 좌표로 변환합니다. 전체 지식 베이스에 적용하면 벡터 컬렉션이 공간적 구조를 형성하여, 클러스터, 브릿지, 간극이 콘텐츠의 지적 위상을 드러냅니다.

내 Obsidian 볼트의 임베딩 공간을 어떻게 시각화할 수 있나요?

문장 임베딩 모델(Model2Vec의 potion-base-8M이 빠르고 무료)을 사용해 노트의 임베딩을 생성한 뒤, UMAP을 사용해 고차원 벡터를 2D나 3D로 투영하세요. 임베딩을 데이터베이스(vec 확장이 있는 SQLite가 잘 작동)에 저장하고, UMAP 투영을 실행한 뒤, 아무 3D 플로팅 라이브러리로 시각화하면 됩니다. 결과 점 구름은 볼트의 클러스터 구조를 드러냅니다—자주 쓰는 영역의 밀집 지역, 주제 간 희박한 간극, 그리고 서로 다른 도메인이 교차하는 브릿지 영역.

지식 큐레이션에서 상전이란 무엇인가요?

지식 큐레이션에서의 상전이는 노트 제거가 점진적 저하가 아닌 갑작스러운 지식 구조 붕괴를 일으키는 임계점입니다. 신경망 가지치기 연구에 따르면 네트워크는 연결이 제거되어도 기능을 유지하다가 급격한 임계점에서 성능이 붕괴합니다. 지식 베이스에도 같은 역학이 적용됩니다. 고립되고 가치가 낮은 노트를 제거하면 영향이 미미하지만, 클러스터를 연결하는 브릿지 노트를 제거하면 그 노트가 개별적으로 중요하지 않아 보여도 위상이 단편화될 수 있습니다. 상전이를 인식하는 큐레이션은 필터링 전에 브릿지 노트를 식별하고 보호합니다.

의미 있는 위상 분석에 노트가 몇 개 필요한가요?

의미 있는 클러스터 구조는 임베딩이 있는 약 100개의 노트에서 나타납니다. 100개 미만은 뚜렷한 클러스터를 형성하지 못할 수 있습니다. 100~500개의 노트는 기본 위상(2~4개 클러스터)을 드러냅니다. 500~5,000개의 노트는 브릿지 영역과 고아 패턴을 포함한 세밀한 구조를 드러냅니다. 5,000개 이상이 되면 위상이 안정화되어 추가 노트는 새 클러스터를 만들기보다 기존 클러스터를 깊게 만듭니다. 핵심 지표는 총 수가 아니라 클러스터 다양성입니다—노트가 최소 세 개의 서로 다른 주제 영역에 걸쳐 있나요?

Obsidian 임베딩은 지식 그래프와 어떻게 다른가요?

지식 그래프는 수동으로 만든 명시적 링크(백링크, 태그, MOC)를 통해 노트를 연결합니다. 임베딩은 모델이 자동으로 발견한 의미적 유사성을 통해 노트를 연결합니다. 둘은 상호 보완적입니다. 지식 그래프는 의도적 구조를 포착하고, 임베딩은 명시적으로 만들지 않은 잠재적 구조를 드러냅니다. 백링크를 공유하지 않는 노트도 다른 어휘로 관련 개념을 논의하면 임베딩 공간에서 가까이 위치할 수 있습니다. 둘을 함께 운영하면—그래프는 탐색용, 임베딩은 발견용—그렇지 않으면 놓쳤을 연결을 표면화하는 세컨드 브레인이 만들어집니다.

대규모 Obsidian 볼트에 가장 좋은 검색 전략은 무엇인가요?

BM25 키워드 검색과 벡터 유사도를 결합한 하이브리드 검색이 어느 한쪽만 사용하는 것보다 우수합니다. BM25는 임베딩이 놓칠 수 있는 정확한 용어 매칭을 잡아내고, 임베딩은 키워드 검색이 감지할 수 없는 개념적 유사성을 잡아냅니다. Reciprocal Rank Fusion(RRF)이 두 결과 목록을 병합합니다. 10,000개 이상의 노트가 있는 볼트에서는 초기 검색 후 리랭킹 단계를 추가하면 정밀도가 더 향상됩니다. 볼트의 위상이 어떤 전략이 우세한지에 영향을 줍니다. 밀집된 클러스터는 벡터 검색이 유리하고, 희박하거나 어휘가 풍부한 영역은 BM25가 유리합니다.

참고문헌

Kat (@poetengineer__), “Exploring shapes of thoughts: extracted my Obsidian notes’ embeddings and arranged them as a 3D network using 3 different topologies,” posted on X, February 2026. Three topologies: centralized, decentralized, distributed with LLM-labeled edges. ↩↩↩
Pesce, Diego, Yang-Hui He, and Guido Caldarelli, “Phase Transitions in Neural Networks Pruning,” arXiv:2602.15224, February 2026. arxiv.org. Sharp transition from cooperative/functional phase to disordered phase, scaling laws consistent with second-order critical behavior. ↩↩
MinishLab, “Model2Vec: Fast State-of-the-Art Static Embeddings,” 2024. github.com/MinishLab/model2vec. potion-base-8M: 7.6M parameters, 256-dim embeddings, ~90% of all-MiniLM-L6-v2 performance. ↩
McInnes, Leland, John Healy, and James Melville, “UMAP: Uniform Manifold Approximation and Projection for Dimension Reduction,” arXiv:1802.03426, 2018. arxiv.org. Preserves global structure better than t-SNE with superior runtime performance. ↩
Author’s semantic memory system. Model2Vec + sqlite-vec + FTS5 BM25 + RRF hybrid search across 49,746 chunks. Modules: embedder.py, vector_index.py, chunker.py, retriever.py in ~/.claude/lib/memory/. ↩
Author’s signal scoring pipeline. Reduced Inbox from 14,771 to 5,886 notes (60% reduction) through relevance threshold tuning. Documented in The Signal Scoring Pipeline. ↩
Author’s vault topology analysis. 500-point random sample from 49,746 chunks, topic classification by vault directory structure, PCA projection to 3D for interactive visualization. ↩