思考のトポロジー:埋め込み空間におけるObsidian
15,800件のノート。49,746個のチャンク。各チャンクは256次元のベクトル。データセット全体にUMAPを適用し、3次元に射影して、その結果を画面上でゆっくり回転させました。私のセカンドブレインには形があり、その形はノート自体が決して教えてくれなかったことを明らかにしました——知的作業が3つの密集ハブ(Claude Code、デザインシステム、AI研究)を中心にクラスタリングされ、交差ノートの細いブリッジで接続され、何にもつながらない孤立シグナルのまばらなハローに囲まれていたのです。
知識の形は、どこで思考し、どこで思考を避け、どこでアイデアが衝突する余地があるかを示します。エージェントの振る舞いを構造化するコンテキストアーキテクチャと同じ原理が、人間の知識構造にも当てはまります。
要約: 15,800件のObsidianノートを256次元の埋め込み空間に投影すると、集中型、分散型、分配型という3つの知識トポロジーが浮かび上がります。それぞれに固有の障害モードがあり、クラスター間のブリッジノートが最も斬新な洞察を生み出します。また、相転移研究によれば、不注意なキュレーションは鋭い閾値で知識構造を崩壊させる可能性があることが示されています。
TL;DR
埋め込み空間は知識ベースに空間構造を与え、知的トポロジーを可視化します。Kat(@poetengineer__)はObsidianボルトに対して3つのトポロジーを実証しました:集中型(1つの中核アイデアがすべてを接続)、分散型(トピック別のクラスターハブ)、分配型(意味的関係でラベル付けされたエッジ)。1 私の15,800ファイル、49,746チャンクのボルトは、3つの主要クラスターを持つ分散型トポロジーを示しています。Pesceらのニューラルネットワーク剪定における相転移に関する研究は、簡素化(キュレーション、アーカイブ、フィルタリング)が知識構造の機能を破壊する閾値を超えるタイミングを理解するための数学的枠組みを提供しています。2 以下では、埋め込みが捉えるもの、実際のボルトデータに基づく3つの知識トポロジー、自分のトポロジーを診断する方法、そして実際のボルトから構築したインタラクティブなエクスプローラーについて解説します。
埋め込みが実際に捉えるもの
テキスト埋め込みは、テキストの一節を数値のリストに変換します。トークナイゼーションビジュアライザーの記事では、テキストがトークンになる仕組みを解説しました。埋め込みはさらに先へ進みます——トークンが高次元空間の座標となり、距離が意味に対応するのです。
「コンテキスト注入のためのClaude Codeフック」に関する2つの文章は、埋め込み空間で近くに位置します。一方、「Claude Codeフック」に関する文章と「iOS SwiftUIナビゲーション」に関する文章は離れた位置に配置されます。この距離はキーワードの重複ではありません。2つの文章が単語を一つも共有していなくても、同じ概念を論じていれば近くに着地します。逆に、多くの単語を共有していても(「システムがデータを処理する」など)、周囲のコンテキストが異なれば離れた位置になります。
私のボルトではModel2Vecのpotion-base-8Mモデルを使用しています:760万パラメータで256次元の埋め込みを生成します。3 このモデルはより大規模なセンテンストランスフォーマー(bge-base-en-v1.5)から蒸留されており、all-MiniLM-L6-v2の約90%の性能を、静的モデルとして——CPUでもGPUでも桁違いに高速に——実現します。ボルト内の49,746チャンクそれぞれが、256次元空間の一点となります。
256次元を直接可視化することは不可能です。UMAPのような次元削減手法が、局所的な近傍構造を保持しながら高次元構造を2Dまたは3Dに射影します。4 256次元で近かった点は3次元でも近いままです。大域構造は近似的ですが、クラスターは実在するものです。
知識の3つのトポロジー
KatのObsidianノート埋め込み探索は、3つの異なる知識トポロジーを特定しました。1 各トポロジーは異なる知的構造を反映し、それぞれ異なる障害モードを持っています。
集中型:1つの中核アイデアがすべてを接続
集中型トポロジーでは、ほとんどのノートが単一の支配的テーマを通じて接続されます。埋め込み空間では、中心に1つの密集クラスターがあり、そこから細い触手が外側に伸びる形状が見られます。Reactについてのみ書く開発者はこのトポロジーを示すでしょう——Reactがハブとなり、テスト、状態管理、デプロイ、ツールに関するすべてのノートがそこを通じて接続されます。
強み: 中心領域における深い専門性。クエリのほとんどが同じ近傍に着地するため、検索が効果的に機能します。
障害モード: 脆弱性。中心テーマが無関係になった場合(キャリア変更、技術の終焉など)、知識構造全体が組織原理を失います。中心との関係でのみ意味を持つノートは孤立してしまいます。
分散型:トピック別のクラスターハブ
分散型トポロジーでは、ノートがブリッジノートで接続された複数の異なるクラスターを形成します。私のボルトはこのトポロジーを示しており、3つの主要ハブがあります:
| クラスター | チャンク数 | 全体に占める割合 | 主要テーマ |
|---|---|---|---|
| AI & ML | 約13,100 | 26% | Claude Code、エージェントアーキテクチャ、LLM研究 |
| デザイン | 約7,200 | 14% | UIシステム、タイポグラフィ、色彩科学、ビジュアルデザイン |
| 開発 | 約5,100 | 10% | FastAPI、SwiftUI、Webエンジニアリング、データベース |
| 受信箱(未処理) | 約13,700 | 28% | 生のシグナル、未分類のキャプチャ |
残りの22%は、インスピレーション、生産性、サイエンス、その他の小カテゴリに分布しています。
強み: レジリエンス。1つのクラスターを失っても他のクラスターは破壊されません。学際的な接続がクラスターの境界で形成され、最も斬新な洞察を生み出します。
障害モード: 断片化。クラスター間のブリッジノートが薄すぎると、クラスターが知的サイロになります。私のボルトではデザインとClaude Codeの間に細いブリッジ(エージェントUIのデザイン、プロンプトインターフェースパターンに関するノート)がありますが、デザインと生の開発(バックエンドアーキテクチャのノートがビジュアルデザインに接続されることはほとんどない)の間にはほぼブリッジがありません。このギャップは盲点です——デザインについて考え、バックエンドエンジニアリングについても考えますが、両者を一緒に考えることはめったにないのです。
分配型:関係性でラベル付けされたエッジ
分配型トポロジーでは、ノート間の接続にアイデアの関係性を記述する意味的ラベルが付与されます。Katの実装では、隣接するノート間のエッジラベルをLLMで生成しました。1 匿名の近接性の代わりに、各接続に「矛盾する」「拡張する」「証拠を提供する」「異なるドメインに適用される」といった説明が付きます。
強み: ナビゲーション性。分配型トポロジーは「何が関連しているか?」だけでなく「どのように関連しているか?」にも答えます。ラベリングにより高次の推論が可能になります——論点に言及するノートだけでなく、論点に矛盾するノートを見つけることができます。
障害モード: コスト。すべての接続ペアに対するエッジラベル生成は二次的にスケールします。私のボルトの49,746チャンクに対して網羅的なエッジラベリングを行うと、約12億回のLLM呼び出しが必要になります。実用的な実装では、類似度閾値内のエッジのみにラベルを付けます。
相転移:簡素化が構造を破壊するとき
Pesce、He、Caldarelliはニューラルネットワーク剪定における相転移を研究し、鋭い閾値を発見しました——ネットワークは「協調的で機能的なフェーズから、性能が崩壊した無秩序なフェーズへの遷移」を示します。2 閾値以下では、接続を除去しても機能にほとんど影響しません。閾値に達すると、機能が突然崩壊します。この遷移は二次臨界挙動と一致するスケーリング則に従います——氷が水に溶ける現象と同じ数学です。
知識キュレーションとの並行関係は直接的です。私のシグナルスコアリングパイプラインは、関連性閾値を通じて受信箱を14,771件から5,886件に削減しました。エージェントメモリが価値を蓄積する複合コンテキストのダイナミクスと同じ原理がここにも当てはまります——各ノートの価値は内容だけでなく、接続に依存するのです。削減により検索品質は向上しました——関連性の低い結果が減り、クラスターがタイトになり、検索が高速化しました。しかし、シグナルは失われたのでしょうか?簡素化は相転移の閾値を超えたのでしょうか?
剪定研究は、答えが量ではなく接続性に依存することを示唆しています。孤立ノード(意味的近傍を持たないノート)の除去は、ネットワークの機能にほとんど影響しません。ブリッジノード(それがなければ分離されるクラスターを接続するノート)の除去は、個々のノートが重要でないように見えても構造を崩壊させる可能性があります。
私のトリアージパイプラインは関連性閾値を0.30から0.40に引き上げました。受信箱サイズの60%削減は件数で測定されました。トポロジーへの影響は測定していません。相転移を考慮したキュレーション戦略は次のようになるでしょう:
- フィルタリング前にブリッジノートを特定する(類似度グラフにおける媒介中心性が高いノート)
- 個別スコアに関係なく、ブリッジノートを関連性フィルタリングから除外する
- 各キュレーションパス後にクラスター接続性メトリクスを監視する
- キュレーションステップがクラスター間のブリッジ密度を閾値以下に低下させた場合にアラートを発する
# Sketch: bridge note detection before curation
def identify_bridge_notes(embeddings, threshold=0.7):
"""Find notes that connect otherwise-separate clusters."""
from sklearn.neighbors import NearestNeighbors
nn = NearestNeighbors(n_neighbors=10, metric='cosine')
nn.fit(embeddings)
distances, indices = nn.kneighbors(embeddings)
# Bridge score: how many of a note's neighbors are from
# different clusters than the note itself
bridge_scores = []
for i, neighbors in enumerate(indices):
own_cluster = labels[i]
cross_cluster = sum(1 for n in neighbors if labels[n] != own_cluster)
bridge_scores.append(cross_cluster / len(neighbors))
return bridge_scores
知識トポロジーの診断方法
トポロジーを分析するのに15,000件のノートは必要ありません。埋め込みを持つ100件以上のノートコレクションがあれば、構造が見えてきます。ObsidianをAIインフラとして使用しているなら、素材はすでに揃っています——私のボルトにある17,000のシグナルも、シンプルな日々のキャプチャから始まりました。3つの診断質問を紹介します。
1. クラスターはいくつ存在するか?
埋め込みに対してk-meansまたはDBSCANを実行し、異なるクラスターを数えます。3未満であれば集中型トポロジーを示唆します。3から8の間であれば分散型です。8を超える場合は、本当に分配型トポロジーであるか、キュレーションが不十分である(多くのクラスターは多くのトピックを意味し、どれにも深さがない可能性がある)ことを示しています。
2. ブリッジの密度はどれくらいか?
各クラスターペアについて、両方のクラスターに最近傍を持つノートを数えます。ブリッジ密度が小さい方のクラスターサイズの2%未満であれば、潜在的なサイロを示します。私のデザインから開発へのブリッジは約1.4%——閾値を下回っており、観察された盲点を裏付けています。
3. 孤立しているノートの割合は?
孤立ノートとは、コサイン類似度の閾値(通常0.7)内に近傍を持たないノートです。孤立ノートは必ずしも悪いものではありません——真に斬新なアイデアを表している可能性があります。ただし、孤立率が15%を超える場合は、一貫性のないキャプチャ(知識ドメインに一致しないノート)か、埋め込み品質の問題を示唆しています。
私のボルトの孤立率は約8%です。ほとんどの孤立ノートは、構造化されたノートに処理されていない生の受信箱キャプチャです。受信箱を除外すると孤立率は3%に低下し、処理済みノートが既存のトポロジーにうまく統合されていることを示しています。
クラスターが明かすもの
上の可視化は、ボルトから500個のチャンクをランダムサンプリングしたものです。クラスターは実際の知的近傍にマッピングされています。
AI & MLハブ(チャンクの26%)は最も密集したクラスターです。Claude Codeアーキテクチャ、エージェント設計パターン、LLMの研究論文、プロンプトエンジニアリング技術が密接な近傍を形成しています。この密度はボリュームを反映しています——他のどのカテゴリよりも多くのAI/MLコンテンツを読み、キャプチャしているのです。密度はまた検索品質の優位性も生み出します——埋め込み空間が十分に充填されているため、このドメインのクエリは高い関連性の結果を返します。
デザインハブ(14%)はAI & MLから離れた位置にあります。タイポグラフィシステム、色彩科学、UIコンポーネントパターン、ビジュアルデザインのリファレンスが独自のクラスターを形成しています。この分離は適切です——デザインとAIエンジニアリングは異なる語彙、異なる推論フレームワーク、異なる評価基準を使用します。しかし、この分離は「エージェントの出力は開発者レビューのためにどうフォーマットすべきか」のようなクエリが2つのクラスターの間の隙間に落ち、一方の側からの結果を返しても、交差点からの結果をほとんど返さないことも意味します。
開発ハブ(10%)はデザインよりもAI & MLとの重なりが大きくなっています。FastAPIパターン、データベース設計、SwiftUIアーキテクチャは、AIエンジニアリングのノートと概念的語彙を共有しています(どちらもコード、アーキテクチャ、テストについて議論する)。この語彙の重なりが、エージェント向けDevOpsやAI向けインフラのノートが存在するブレンドゾーンを生み出しています。
受信箱のハロー(28%)はすべてを取り囲んでいます。生のキャプチャ、未分類のシグナル、未処理のブックマークが、確立されたクラスターへの弱い接続を持つまばらな雲を形成します。受信箱を14,771件から5,886件に削減したシグナルスコアリングパイプラインは、主にこのハローから除去しました——既存のどのクラスターとも類似度が低いノートです。
インスピレーションクラスター(6%)はデザインと受信箱の間の位置を占めています。キネティックタイポグラフィのリファレンス、モーションデザインの研究、ビジュアルアートのキャプチャが緩やかな近傍を形成しています。このクラスターが存在するのは、ビジュアルインスピレーションを一貫してキャプチャしているものの、それらを構造化されたノートに処理することがほとんどないためです。クラスターはあるパターンを明らかにしています——ビジュアルインスピレーションを幅広く消費していますが、デザイン作業は狭い範囲で生産しているのです。消費と生産のギャップは、トポロジー上では高い受信密度(キャプチャ)と低い送信接続(インスピレーションに基づくノート)を持つクラスターとして可視化されています。
クラスター間ブリッジは最も興味深い特徴です。最も薄いブリッジはデザインと開発を接続するもので、小さい方のクラスターのノートの約1.4%のみが両方のクラスターに最近傍を持っています。これに対し、AIから開発へのブリッジは8.3%であり、開発作業の多くがAIインフラに関わっていることを反映しています。ブリッジ密度は新しい作業がどこから生まれるかを予測します。私のBoidsからエージェントへの記事は、創発的行動研究(AI & MLクラスター)とフロッキングアルゴリズムの実装(開発クラスター)を接続するブリッジノートから生まれました。ブリッジがなければ、これら2つのノート群は決して衝突することはなかったでしょう。
トポロジーは検索品質にも影響を与えます。ボルト検索を駆動するハイブリッドリトリーバーはBM25キーワードマッチングとベクトル類似度の両方を使用しますが、その有効性は基礎となるクラスター構造に依存します。密集したクラスターに着地するクエリは精度の高い結果を返し、クラスター間に落ちるクエリはギャップを埋めるためにBM25フォールバックを必要とします。
ボルトと並んで、もう1つの埋め込みデータベースが存在します:653ファイル、4,518チャンクのツールチェーン検索DBです。5 ツールチェーンのトポロジーは根本的に異なります——1つの密集クラスター(Claude Code設定)に、テスト、フック、スキルの小さなサテライトクラスターが付随する形です。ツールチェーンは単一の目的を持つため、モノカルチャートポロジーが機能します。しかし、モノカルチャートポロジーを持つ知識ボルトは警告サインとなるでしょう。
トポロジーの再構築
トポロジーは固定されたものではありません。4つの意図的なアクションが知識構造を再形成します。
ブリッジノートを書く。 2つのクラスターに接続がなければ、それらの間の概念を明示的に接続するノートを書きましょう。私のデザインからAIへのブリッジが薄いのは、エージェントインターフェースのデザインについてほとんど書かないためです。デザイン原則とエージェントアーキテクチャ研究の両方を引用する「エージェント出力のUXパターン」というタイトルのノートが、ブリッジポイントを作り出すでしょう。
孤立ノートを検出する。 月次で孤立スキャンを実行し、統合、アーカイブ、削除のいずれかを判断します。萌芽的なアイデアを表す孤立ノートは、ブリッジノートを通じて既存のクラスターに接続すべきです。一度限りのリファレンスを表す孤立ノートはアーカイブできます。
キュレーション後にモニタリングする。 一括キュレーション(削除、アーカイブ、フィルタリング)の前後で、クラスター接続性を測定します。クラスター間のブリッジ密度が低下した場合、保存すべきブリッジノートがキュレーションで除去されています。
境界で読む。 最も価値のある読書対象は、最も密度の高いクラスターのさらに深い部分ではありません。クラスター間のエッジにあるのです。AIエンジニアリングとビジュアルデザインを橋渡しする論文は、すでに密度の高いAIクラスターをさらに深める別の論文よりも、多くの新しい接続を生み出すでしょう。
重要なポイント
- 埋め込み空間は知識ベースに形を与えます。 その形は知的トポロジーを明らかにします——どこに注意を集中し、どこで避け、どこでアイデアがドメインを超えて接続されているかが見えるのです。
- 3つのトポロジーにはそれぞれ異なる障害モードがあります。 集中型は脆弱です。分散型はブリッジノートがなければ断片化します。分配型は維持コストが高いものの、ナビゲーションにおいて最も豊かです。
- 相転移によりキュレーションは非線形になります。 閾値以下でのノート除去は構造にほとんど影響しません。閾値に達すると、機能が崩壊します。一括キュレーションの前に、ブリッジノートを特定し保護する必要があります。
- 受信箱のハローはキュレーションのフロンティアです。 生のキャプチャが確立されたクラスターの周囲にまばらな雲を形成します。シグナルスコアリングがハローをフィルタリングしますが、トポロジーはフィルタリングがブリッジ接続を保存したのか破壊したのかを明らかにします。
- 境界で読みましょう。 最も価値の高いノートはクラスターを深めるのではなく、接続するものです。孤立検出とブリッジ密度メトリクスが読書の優先順位をガイドします。
FAQ
テキスト埋め込みとは何か、知識をどのように表現するのか?
テキスト埋め込みは、テキストの一節を高次元空間における数値のリスト(ベクトル)に変換し、距離が意味的な類似性に対応するようにします。類似のトピックに関する2つの文章は、単語を共有していなくても近くに配置されます。potion-base-8Mのような256次元の埋め込みモデルは、各テキストチャンクを256個の座標に変換します。知識ベース全体に適用すると、ベクトルの集合が空間構造を形成し、クラスター、ブリッジ、ギャップがコンテンツの知的トポロジーを明らかにします。
Obsidianボルトの埋め込み空間をどのように可視化できるか?
センテンス埋め込みモデル(Model2Vecのpotion-base-8Mは高速かつ無料)を使用してノートの埋め込みを生成し、UMAPで高次元ベクトルを2Dまたは3Dに射影します。埋め込みをデータベース(vec拡張機能を備えたSQLiteが有効)に保存し、UMAP射影を実行し、任意の3Dプロッティングライブラリで可視化します。得られるポイントクラウドは、ボルトのクラスター構造を明らかにします——頻繁に書くテーマの密集領域、トピック間のまばらなギャップ、異なるドメインが交差するブリッジゾーンが見えてきます。
知識キュレーションにおける相転移とは?
知識キュレーションにおける相転移とは、ノートの除去が緩やかに劣化するのではなく、知識構造を突然崩壊させる閾値のことです。ニューラルネットワーク剪定の研究は、接続を除去してもネットワークが機能を維持する一方、鋭い閾値で性能が崩壊することを示しています。同じダイナミクスが知識ベースにも当てはまります——孤立した低価値のノートを除去しても影響は最小限ですが、クラスターを接続するブリッジノートを除去すると、個々のノートが重要でないように見えても、トポロジーが断片化する可能性があります。相転移を考慮したキュレーションは、フィルタリング前にブリッジノートを特定し保護します。
意味のあるトポロジー分析には何件のノートが必要か?
意味のあるクラスター構造は、埋め込みを持つ約100件のノートから出現します。100件未満では明確なクラスターが形成されない可能性があります。100から500件の間で基本的なトポロジー(2〜4クラスター)が明らかになります。500から5,000件の間では、ブリッジゾーンや孤立パターンを含む詳細な構造が見えてきます。5,000件を超えると、トポロジーは安定し、追加のノートは新しいクラスターを作るよりも既存クラスターを深化させる傾向があります。重要なメトリクスは総数ではなく、クラスターの多様性です——ノートは少なくとも3つの異なるトピック領域にまたがっていますか?
Obsidianの埋め込みとナレッジグラフの違いは?
ナレッジグラフは、手動で作成した明示的なリンク(バックリンク、タグ、MOC)を通じてノートを接続します。埋め込みは、モデルが自動的に発見する意味的類似性を通じてノートを接続します。両者は補完的です——ナレッジグラフは意図的な構造をキャプチャし、埋め込みは明示的に作成しなかった潜在的な構造を明らかにします。バックリンクを共有しないノートでも、異なる語彙で関連する概念を論じていれば、埋め込み空間で近くに位置する可能性があります。両方を併用すること——ナビゲーション用のグラフと発見用の埋め込み——により、見逃していたであろう接続を浮かび上がらせるセカンドブレインが実現します。
大規模なObsidianボルトに最適な検索戦略は?
BM25キーワード検索とベクトル類似度を組み合わせたハイブリッド検索は、いずれか単独よりも優れた性能を発揮します。BM25は埋め込みが見逃す可能性のある正確な用語の一致をキャッチし、埋め込みはキーワード検索では検出できない概念的類似性をキャッチします。Reciprocal Rank Fusion(RRF)が2つの結果リストを統合します。10,000件以上のノートを持つボルトでは、初期検索後にリランキングステップを追加することで精度がさらに向上します。ボルトのトポロジーがどの戦略が優位になるかに影響します——密集したクラスターはベクトル検索に有利で、まばらまたは語彙が豊富な領域はBM25に有利です。
参考文献
-
Kat(@poetengineer__)、「Exploring shapes of thoughts: extracted my Obsidian notes’ embeddings and arranged them as a 3D network using 3 different topologies」、Xに投稿、2026年2月。3つのトポロジー:集中型、分散型、LLMラベル付きエッジによる分配型。 ↩↩↩
-
Pesce, Diego, Yang-Hui He, and Guido Caldarelli, “Phase Transitions in Neural Networks Pruning,” arXiv:2602.15224, February 2026. arxiv.org. 協調的・機能的フェーズから無秩序なフェーズへの鋭い遷移、二次臨界挙動と一致するスケーリング則。 ↩↩
-
MinishLab, “Model2Vec: Fast State-of-the-Art Static Embeddings,” 2024. github.com/MinishLab/model2vec. potion-base-8M:760万パラメータ、256次元埋め込み、all-MiniLM-L6-v2の約90%の性能。 ↩
-
McInnes, Leland, John Healy, and James Melville, “UMAP: Uniform Manifold Approximation and Projection for Dimension Reduction,” arXiv:1802.03426, 2018. arxiv.org. t-SNEよりも優れたランタイム性能で大域構造を保存。 ↩
-
著者のセマンティックメモリシステム。Model2Vec + sqlite-vec + FTS5 BM25 + RRFハイブリッド検索、49,746チャンク対応。モジュール:
embedder.py、vector_index.py、chunker.py、retriever.py(~/.claude/lib/memory/内)。 ↩ -
著者のシグナルスコアリングパイプライン。関連性閾値のチューニングにより受信箱を14,771件から5,886件に削減(60%削減)。The Signal Scoring Pipelineに記載。 ↩
-
著者のボルトトポロジー分析。49,746チャンクから500ポイントのランダムサンプル、ボルトディレクトリ構造によるトピック分類、インタラクティブ可視化のためのPCA 3D射影。 ↩