← Alle Beitrage

Topologien des Denkens: Obsidian im Embedding-Raum

15.800 Notizen. 49.746 Chunks. Jeder Chunk ein 256-dimensionaler Vektor. Ich ließ UMAP über den gesamten Datensatz laufen, projizierte ihn in drei Dimensionen und drehte das Ergebnis langsam auf dem Bildschirm. Mein zweites Gehirn hatte eine Form, und diese Form enthüllte etwas, das die Notizen selbst mir nie verraten hatten: Meine intellektuelle Arbeit gruppiert sich um drei dichte Knotenpunkte (Claude Code, Designsysteme, KI-Forschung), verbunden durch dünne Brücken aus Schnittstellennotizen, umgeben von einem spärlichen Halo verwaister Signale, die mit nichts verbunden sind.

Die Form Ihres Wissens verrät Ihnen, wo Sie denken, wo Sie das Denken vermeiden und wo Ihre Ideen Raum haben, aufeinanderzuprallen. Dieselbe Kontextarchitektur, die das Verhalten von Agenten strukturiert, strukturiert auch menschliches Wissen.

Kurzfassung: Die Projektion von 15.800 Obsidian-Notizen in einen 256-dimensionalen Embedding-Raum offenbart drei Wissenstopologien — zentralisiert, dezentralisiert und verteilt — jeweils mit unterschiedlichen Fehlermodi. Brückennotizen zwischen Clustern erzeugen die neuartigsten Erkenntnisse, und Forschung zu Phasenübergängen zeigt, dass unvorsichtige Kuratierung Ihre Wissensstruktur an einer scharfen Schwelle kollabieren lassen kann.

TL;DR

Embedding-Räume verleihen Wissensbasen eine räumliche Struktur, die ihre intellektuelle Topologie offenbart. Kat (@poetengineer__) demonstrierte drei Topologien für Obsidian-Vaults: zentralisiert (eine Kernidee verbindet alles), dezentralisiert (geclusterte Themenknotenpunkte) und verteilt (Kanten zwischen Ideen, beschriftet nach semantischen Beziehungen).1 Mein Vault mit 15.800 Dateien und 49.746 Chunks weist eine dezentralisierte Topologie mit drei dominanten Clustern auf. Die Arbeit von Pesce et al. zu Phasenübergängen beim Pruning neuronaler Netze liefert einen mathematischen Rahmen, um zu verstehen, wann Vereinfachung (Kuratierung, Archivierung, Filterung) eine Schwelle überschreitet, die die Funktion der Wissensstruktur zerstört.2 Im Folgenden: was Embeddings erfassen, drei Wissenstopologien mit realen Vault-Daten, wie Sie Ihre eigene Topologie diagnostizieren und ein interaktiver Explorer, der aus meinem tatsächlichen Vault erstellt wurde.


Was Embeddings tatsächlich erfassen

Ein Text-Embedding wandelt einen Textabschnitt in eine Liste von Zahlen um. Der Beitrag zum Tokenisierungs-Visualizer behandelte, wie Text zu Tokens wird. Embeddings gehen weiter: Tokens werden zu Koordinaten in einem hochdimensionalen Raum, in dem Distanz Bedeutung entspricht.

Zwei Abschnitte über „Claude Code-Hooks zur Kontextinjektion” liegen im Embedding-Raum nahe beieinander. Ein Abschnitt über „Claude Code-Hooks” und ein Abschnitt über „iOS-SwiftUI-Navigation” liegen weit auseinander. Die Distanz ist keine Schlüsselwort-Überlappung. Zwei Abschnitte können kein einziges Wort teilen und dennoch nahe beieinander landen, wenn sie dieselben Konzepte behandeln. Zwei Abschnitte können viele Wörter teilen („das System verarbeitet die Daten”) und dennoch weit auseinander landen, wenn der umgebende Kontext sich unterscheidet.

Mein Vault verwendet das potion-base-8M-Modell von Model2Vec: 7,6 Millionen Parameter, die 256-dimensionale Embeddings erzeugen.3 Das Modell destilliert aus einem größeren Sentence Transformer (bge-base-en-v1.5) und erreicht etwa 90 % der Leistung von all-MiniLM-L6-v2 — bei Ausführung als statisches Modell, also um Größenordnungen schneller sowohl auf CPU als auch auf GPU. Jeder der 49.746 Chunks in meinem Vault wird zu einem Punkt im 256-dimensionalen Raum.

256 Dimensionen lassen sich nicht direkt visualisieren. Dimensionsreduktionstechniken wie UMAP projizieren die hochdimensionale Struktur auf 2D oder 3D und bewahren dabei lokale Nachbarschaften.4 Punkte, die in 256 Dimensionen nahe beieinander lagen, bleiben in 3 Dimensionen nahe beieinander. Die globale Struktur ist eine Annäherung, doch die Cluster sind real.


Drei Topologien des Wissens

Kats Erkundung von Obsidian-Notiz-Embeddings identifizierte drei unterschiedliche Wissenstopologien.1 Jede Topologie spiegelt eine andere intellektuelle Struktur wider, und jede hat unterschiedliche Fehlermodi.

Zentralisiert: Eine Kernidee verbindet alles

In einer zentralisierten Topologie sind die meisten Notizen über ein einziges dominantes Thema verbunden. Der Embedding-Raum zeigt einen dichten Cluster im Zentrum mit dünnen Ausläufern nach außen. Ein Entwickler, der ausschließlich über React schreibt, würde diese Topologie sehen: React ist der Knotenpunkt, und jede Notiz zu Testing, State Management, Deployment und Tooling verbindet sich darüber.

Stärke: Tiefe Expertise in der zentralen Domäne. Die Suche funktioniert gut, weil die meisten Anfragen in derselben Nachbarschaft landen.

Fehlermodus: Fragilität. Wird das zentrale Thema irrelevant (ein Karrierewechsel, das Ende einer Technologie), verliert die gesamte Wissensstruktur ihr Ordnungsprinzip. Notizen, die nur in Bezug auf das Zentrum Sinn ergeben, werden zu Waisen.

Dezentralisiert: Geclusterte Themenknotenpunkte

In einer dezentralisierten Topologie bilden Notizen mehrere distinkte Cluster, die durch Brückennotizen verbunden sind. Mein Vault weist diese Topologie mit drei dominanten Knotenpunkten auf:

Cluster Chunks % des Gesamten Kernthemen
KI & ML ~13.100 26 % Claude Code, Agentenarchitektur, LLM-Forschung
Design ~7.200 14 % UI-Systeme, Typografie, Farbwissenschaft, visuelles Design
Entwicklung ~5.100 10 % FastAPI, SwiftUI, Web-Engineering, Datenbanken
Posteingang (unverarbeitet) ~13.700 28 % Rohsignale, unsortierte Erfassungen

Die verbleibenden 22 % verteilen sich auf Inspiration, Produktivität, Wissenschaft und kleinere Kategorien.

Stärke: Resilienz. Der Verlust eines Clusters zerstört nicht die anderen. Interdisziplinäre Verbindungen entstehen an den Grenzen zwischen Clustern und erzeugen die neuartigsten Erkenntnisse.

Fehlermodus: Fragmentierung. Sind die Brückennotizen zwischen Clustern zu dünn, werden die Cluster zu intellektuellen Silos. Mein Vault hat eine dünne Brücke zwischen Design und Claude Code (Notizen zum Entwurf von Agenten-UIs, Prompt-Interface-Mustern), aber fast keine Brücke zwischen Design und reiner Entwicklung (Backend-Architekturnotizen verbinden sich selten mit visuellem Design). Die Lücke ist ein blinder Fleck: Ich denke über Design nach und ich denke über Backend-Engineering nach, aber ich denke selten über beides zusammen.

Verteilt: Kanten beschriftet nach Beziehungen

In einer verteilten Topologie tragen die Verbindungen zwischen Notizen semantische Beschriftungen, die beschreiben, wie Ideen zusammenhängen. Kats Implementierung verwendete ein LLM, um Kantenbeschriftungen zwischen benachbarten Notizen zu generieren.1 Statt anonymer Nähe hat jede Verbindung eine Beschreibung: „widerspricht”, „erweitert”, „liefert Belege für”, „wird in anderer Domäne angewendet”.

Stärke: Navigierbarkeit. Eine verteilte Topologie beantwortet nicht nur „Was ist verwandt?”, sondern „Wie ist es verwandt?” Die Beschriftung ermöglicht Schlussfolgerungen höherer Ordnung: Notizen finden, die einer These widersprechen, nicht nur Notizen, die sie erwähnen.

Fehlermodus: Kosten. Die Generierung von Kantenbeschriftungen für jedes Verbindungspaar skaliert quadratisch. Für die 49.746 Chunks meines Vaults würde eine vollständige Kantenbeschriftung etwa 1,2 Milliarden LLM-Aufrufe erfordern. Praktische Implementierungen beschriften nur Kanten innerhalb einer Ähnlichkeitsschwelle.


Phasenübergänge: Wenn Vereinfachung die Struktur zerstört

Pesce, He und Caldarelli untersuchten Phasenübergänge beim Pruning neuronaler Netze und fanden eine scharfe Schwelle: Netzwerke zeigen „einen Übergang von einer kooperativen, funktionalen Phase zu einer ungeordneten Phase mit kollabierter Leistung”.2 Unterhalb der Schwelle beeinträchtigt das Entfernen von Verbindungen die Funktion kaum. An der Schwelle kollabiert die Funktion abrupt. Der Übergang folgt Skalierungsgesetzen, die mit kritischem Verhalten zweiter Ordnung konsistent sind — dieselbe Mathematik, die das Schmelzen von Eis zu Wasser beschreibt.

Die Parallele zur Wissenskuratierung ist direkt. Meine Signal-Scoring-Pipeline reduzierte den Posteingang von 14.771 auf 5.886 Notizen durch eine Relevanzschwelle. Dieselbe Compound-Context-Dynamik, die den Wert von Agentenspeicher akkumulieren lässt, gilt auch hier: Der Wert jeder Notiz hängt von ihren Verbindungen ab, nicht nur von ihrem Inhalt. Die Reduktion verbesserte die Suchqualität: weniger irrelevante Ergebnisse, engere Cluster, schnellerer Abruf. Doch ging dabei Signal verloren? Überschritt die Vereinfachung eine Phasenübergangsschwelle?

Die Pruning-Forschung legt nahe, dass die Antwort von der Konnektivität abhängt, nicht von der Menge. Das Entfernen isolierter Knoten (Notizen ohne semantische Nachbarn) hat vernachlässigbare Auswirkungen auf die Funktion des Netzwerks. Das Entfernen von Brückenknoten (Notizen, die ansonsten separate Cluster verbinden) kann die Struktur kollabieren lassen, selbst wenn die entfernten Notizen einzeln betrachtet unwichtig erscheinen.

Meine Triage-Pipeline hob die Relevanzschwelle von 0,30 auf 0,40 an. Die 60-prozentige Reduktion der Posteingangsgröße wurde nach Anzahl gemessen. Die Auswirkung auf die Topologie habe ich nicht gemessen. Eine phasenübergangsbewusste Kuratierungsstrategie würde:

  1. Brückennotizen vor dem Filtern identifizieren (Notizen mit hoher Betweenness-Zentralität im Ähnlichkeitsgraphen)
  2. Brückennotizen von der Relevanzfilterung ausnehmen, unabhängig von ihren individuellen Scores
  3. Cluster-Konnektivitätsmetriken nach jedem Kuratierungsdurchlauf überwachen
  4. Warnen, wenn ein Kuratierungsschritt die Inter-Cluster-Brückendichte unter eine Schwelle senkt
# Sketch: bridge note detection before curation
def identify_bridge_notes(embeddings, threshold=0.7):
    """Find notes that connect otherwise-separate clusters."""
    from sklearn.neighbors import NearestNeighbors
    nn = NearestNeighbors(n_neighbors=10, metric='cosine')
    nn.fit(embeddings)
    distances, indices = nn.kneighbors(embeddings)

    # Bridge score: how many of a note's neighbors are from
    # different clusters than the note itself
    bridge_scores = []
    for i, neighbors in enumerate(indices):
        own_cluster = labels[i]
        cross_cluster = sum(1 for n in neighbors if labels[n] != own_cluster)
        bridge_scores.append(cross_cluster / len(neighbors))

    return bridge_scores

Diagnostik Ihrer Wissenstopologie

Sie brauchen keine 15.000 Notizen, um Ihre Wissenstopologie zu analysieren. Jede Sammlung von über 100 Notizen mit Embeddings wird Struktur offenbaren. Wenn Sie Obsidian als KI-Infrastruktur nutzen, haben Sie bereits das Rohmaterial — die siebzehntausend Signale in meinem Vault begannen als einfache tägliche Erfassungen. Drei diagnostische Fragen:

1. Wie viele Cluster existieren?

Führen Sie k-means oder DBSCAN auf Ihren Embeddings aus und zählen Sie die distinkten Cluster. Weniger als 3 deutet auf eine zentralisierte Topologie hin. Zwischen 3 und 8 deutet auf dezentralisiert hin. Mehr als 8 kann entweder eine wirklich verteilte Topologie oder unzureichende Kuratierung anzeigen (viele Cluster bedeuten viele Themen, was mangelnde Tiefe in jedem einzelnen bedeuten kann).

2. Wie dicht sind die Brücken?

Zählen Sie für jedes Cluster-Paar die Notizen, die nächste Nachbarn in beiden Clustern haben. Eine Brückendichte unter 2 % der Größe des kleineren Clusters deutet auf ein potenzielles Silo hin. Meine Design-zu-Entwicklung-Brücke liegt bei etwa 1,4 % — unterhalb der Schwelle, was den beobachteten blinden Fleck bestätigt.

3. Welcher Prozentsatz ist verwaist?

Eine verwaiste Notiz hat keinen Nachbarn innerhalb einer Kosinus-Ähnlichkeitsschwelle (typischerweise 0,7). Verwaiste Notizen sind nicht zwangsläufig schlecht — sie können genuines neuartiges Denken repräsentieren. Allerdings deutet eine Verwaisungsrate über 15 % entweder auf inkonsistente Erfassung (Notizen, die nicht zu Ihrer Wissensdomäne passen) oder auf Probleme mit der Embedding-Qualität hin.

Meine Vault-Verwaisungsrate: etwa 8 %. Die meisten Waisen sind unverarbeitete Posteingangs-Erfassungen. Die Verwaisungsrate sinkt auf 3 %, wenn der Posteingang ausgeschlossen wird — ein Zeichen dafür, dass verarbeitete Notizen sich gut in die bestehende Topologie integrieren.


Was die Cluster enthüllen

Die obige Visualisierung verwendet 500 zufällig ausgewählte Chunks aus meinem Vault. Die Cluster bilden reale intellektuelle Nachbarschaften ab.

Der KI-&-ML-Knotenpunkt (26 % der Chunks) ist der dichteste Cluster. Claude Code-Architektur, Agenten-Designmuster, LLM-Forschungsarbeiten und Prompt-Engineering-Techniken bilden eine enge Nachbarschaft. Die Dichte spiegelt das Volumen wider: Ich lese und erfasse mehr KI/ML-Inhalte als in jeder anderen Kategorie. Dichte erzeugt zudem einen Suchqualitätsvorteil — Anfragen in dieser Domäne liefern hochrelevante Ergebnisse, weil der Embedding-Raum gut besiedelt ist.

Der Design-Knotenpunkt (14 %) befindet sich in einiger Entfernung von KI & ML. Typografiesysteme, Farbwissenschaft, UI-Komponentenmuster und visuelle Designreferenzen bilden ihren eigenen Cluster. Die Trennung ist angemessen: Design und KI-Engineering verwenden unterschiedliche Vokabulare, unterschiedliche Denkrahmen und unterschiedliche Bewertungskriterien. Allerdings bedeutet die Trennung auch, dass Anfragen wie „Wie sollte Agentenausgabe für die Entwicklerüberprüfung formatiert werden?” in die Lücke zwischen beiden Clustern fallen und Ergebnisse von der einen oder anderen Seite zurückliefern, aber selten aus der Schnittmenge.

Der Entwicklungs-Knotenpunkt (10 %) überlappt stärker mit KI & ML als mit Design. FastAPI-Muster, Datenbankdesign und SwiftUI-Architektur teilen konzeptuelles Vokabular mit den KI-Engineering-Notizen (beide behandeln Code, Architektur, Testing). Die Vokabularüberlappung erzeugt eine Mischzone, in der DevOps-für-Agenten- und Infrastruktur-für-KI-Notizen angesiedelt sind.

Der Posteingangs-Halo (28 %) umgibt alles. Roherfassungen, unsortierte Signale und unverarbeitete Lesezeichen bilden eine spärliche Wolke mit schwachen Verbindungen zu etablierten Clustern. Die Signal-Scoring-Pipeline, die den Posteingang von 14.771 auf 5.886 Notizen reduzierte, eliminierte hauptsächlich aus diesem Halo: Notizen mit geringer Ähnlichkeit zu einem etablierten Cluster.

Der Inspirations-Cluster (6 %) nimmt eine Position zwischen Design und Posteingang ein. Kinetische Typografie-Referenzen, Motion-Design-Studien und Erfassungen visueller Kunst bilden eine lose Nachbarschaft. Der Cluster existiert, weil ich visuelle Inspiration konsistent erfasse, diese Erfassungen aber selten in strukturierte Notizen verarbeite. Der Cluster offenbart ein Muster: Ich konsumiere visuelle Inspiration breit, produziere aber Designarbeit eng. Die Kluft zwischen Konsum und Produktion ist in der Topologie sichtbar — als Cluster mit hoher eingehender Dichte (Erfassungen), aber geringen ausgehenden Verbindungen (Notizen, die auf der Inspiration aufbauen).

Cluster-übergreifende Brücken sind die interessantesten Merkmale. Die dünnste Brücke verbindet Design und Entwicklung: etwa 1,4 % der Notizen des kleineren Clusters haben nächste Nachbarn in beiden Clustern. Zum Vergleich: Die KI-zu-Entwicklung-Brücke liegt bei 8,3 %, was widerspiegelt, wie viel meiner Entwicklungsarbeit KI-Infrastruktur betrifft. Die Brückendichte sagt voraus, wo neuartige Arbeit entsteht. Mein Boids-zu-Agenten-Beitrag entstand aus einer Brückennotiz, die Forschung zu emergentem Verhalten (KI-&-ML-Cluster) mit der Implementierung von Schwarmverhalten-Algorithmen (Entwicklungs-Cluster) verband. Ohne die Brücke wären diese beiden Wissensbestände nie aufeinandergetroffen.

Die Topologie prägt auch die Abrufqualität. Der hybride Retriever, der die Suche in meinem Vault antreibt, nutzt sowohl BM25-Schlüsselwortabgleich als auch Vektorähnlichkeit — seine Effektivität hängt jedoch von der zugrunde liegenden Clusterstruktur ab. Anfragen, die in dichten Clustern landen, liefern präzise Ergebnisse; Anfragen, die zwischen Cluster fallen, benötigen den BM25-Fallback, um die Lücke zu überbrücken.

Neben dem Vault existiert eine zweite Embedding-Datenbank: die Toolchain-Such-DB mit 4.518 Chunks über 653 Dateien.5 Die Toolchain-Topologie unterscheidet sich radikal: ein einzelner dichter Cluster (Claude Code-Konfiguration) mit kleinen Satellitenclustren für Testing, Hooks und Skills. Die Monokultur-Topologie funktioniert für eine Toolchain, weil eine Toolchain einen einzigen Zweck hat. Ein Wissens-Vault mit Monokultur-Topologie wäre ein Warnsignal.


Ihre Topologie umgestalten

Die Topologie ist nicht statisch. Vier gezielte Maßnahmen formen die Wissensstruktur um.

Brückennotizen schreiben. Fehlen zwei Clustern Verbindungen, schreiben Sie Notizen, die explizit Konzepte über sie hinweg verknüpfen. Meine Design-zu-KI-Brücke ist dünn, weil ich selten über die Gestaltung von Agentenoberflächen schreibe. Eine Notiz mit dem Titel „UX-Muster für Agentenausgaben”, die sowohl Designprinzipien als auch Agentenarchitektur-Forschung zitiert, würde einen Brückenpunkt schaffen.

Waisen erkennen. Führen Sie monatlich einen Waisen-Scan durch und entscheiden Sie: integrieren, archivieren oder löschen. Verwaiste Notizen, die aufkeimende Ideen repräsentieren, sollten durch Brückennotizen mit bestehenden Clustern verbunden werden. Verwaiste Notizen, die einmalige Referenzen darstellen, können archiviert werden.

Nach Kuratierung überwachen. Messen Sie vor und nach jeder Massenkuratierung (Löschen, Archivieren, Filtern) die Cluster-Konnektivität. Sinkt die Inter-Cluster-Brückendichte, hat die Kuratierung Brückennotizen entfernt, die hätten bewahrt werden sollen.

An den Grenzen lesen. Die wertvollsten Lesetargets liegen nicht tiefer in Ihrem dichtesten Cluster. Sie liegen an den Rändern zwischen Clustern. Ein Paper, das KI-Engineering und visuelles Design verbindet, wird mehr neuartige Verbindungen erzeugen als ein weiteres Paper, das den ohnehin dichten KI-Cluster vertieft.


Kernerkenntnisse

  • Embedding-Räume geben Wissensbasen eine Form. Diese Form offenbart die intellektuelle Topologie: wo Sie Aufmerksamkeit konzentrieren, wo Sie sie vermeiden und wo Ideen domänenübergreifend verbunden sind.
  • Drei Topologien haben unterschiedliche Fehlermodi. Zentralisiert ist fragil. Dezentralisiert fragmentiert ohne Brückennotizen. Verteilt ist aufwendig in der Pflege, aber am reichsten für die Navigation.
  • Phasenübergänge machen Kuratierung nichtlinear. Das Entfernen von Notizen unterhalb einer Schwelle beeinflusst die Struktur kaum. An der Schwelle kollabiert die Funktion. Brückennotizen müssen vor jeder Massenkuratierung identifiziert und geschützt werden.
  • Der Posteingangs-Halo ist die Kuratierungsgrenze. Roherfassungen bilden eine spärliche Wolke um etablierte Cluster. Signal-Scoring filtert den Halo, doch die Topologie zeigt, ob das Filtern Brückenverbindungen bewahrt oder zerstört hat.
  • An den Grenzen lesen. Die wertvollsten Notizen verbinden Cluster, statt sie zu vertiefen. Waisen-Erkennung und Brückendichte-Metriken leiten Lesepriotitäten.

FAQ

Was sind Text-Embeddings und wie repräsentieren sie Wissen?

Text-Embeddings wandeln Textabschnitte in Zahlenlisten (Vektoren) in einem hochdimensionalen Raum um, in dem Distanz semantischer Bedeutung entspricht. Zwei Abschnitte über ähnliche Themen liegen nahe beieinander, unabhängig davon, ob sie Wörter teilen. Ein 256-dimensionales Embedding-Modell wie potion-base-8M wandelt jeden Textchunk in 256 Koordinaten um. Angewendet auf eine gesamte Wissensbasis bildet die Sammlung von Vektoren eine räumliche Struktur, in der Cluster, Brücken und Lücken die intellektuelle Topologie des Inhalts offenbaren.

Wie kann ich den Embedding-Raum meines Obsidian-Vaults visualisieren?

Generieren Sie Embeddings für Ihre Notizen mit einem Sentence-Embedding-Modell (Model2Vecs potion-base-8M ist schnell und kostenlos), dann projizieren Sie die hochdimensionalen Vektoren mit UMAP auf 2D oder 3D. Speichern Sie die Embeddings in einer Datenbank (SQLite mit der vec-Erweiterung funktioniert gut), führen Sie die UMAP-Projektion aus und visualisieren Sie mit einer beliebigen 3D-Plotting-Bibliothek. Die resultierende Punktwolke zeigt die Clusterstruktur Ihres Vaults: dichte Regionen, in denen Sie häufig schreiben, spärliche Lücken zwischen Themen und Brückenzonen, in denen verschiedene Domänen sich überschneiden.

Was ist ein Phasenübergang bei der Wissenskuratierung?

Ein Phasenübergang bei der Wissenskuratierung ist eine Schwelle, an der das Entfernen von Notizen dazu führt, dass die Wissensstruktur abrupt kollabiert, statt sich graduell zu verschlechtern. Forschung zum Pruning neuronaler Netze zeigt, dass Netzwerke ihre Funktion beibehalten, während Verbindungen entfernt werden — bis zu einer scharfen Schwelle, an der die Leistung einbricht. Dieselbe Dynamik gilt für Wissensbasen: Das Entfernen isolierter, minderwertiger Notizen hat minimale Auswirkungen, aber das Entfernen von Brückennotizen, die Cluster verbinden, kann die Topologie fragmentieren, selbst wenn diese Notizen einzeln betrachtet unwichtig erscheinen. Phasenübergangsbewusste Kuratierung identifiziert und schützt Brückennotizen vor dem Filtern.

Wie viele Notizen brauche ich für eine aussagekräftige Topologieanalyse?

Aussagekräftige Clusterstrukturen zeigen sich ab etwa 100 Notizen mit Embeddings. Weniger als 100 Notizen bilden möglicherweise keine distinkten Cluster. Zwischen 100 und 500 Notizen wird eine grundlegende Topologie sichtbar (2–4 Cluster). Zwischen 500 und 5.000 Notizen zeigen sich nuancierte Strukturen mit Brückenzonen und Verwaisungsmustern. Oberhalb von 5.000 Notizen stabilisiert sich die Topologie, und zusätzliche Notizen vertiefen bestehende Cluster mehr, als dass sie neue schaffen. Die entscheidende Metrik ist nicht die Gesamtzahl, sondern die Clusterdiversität: Umspannen Ihre Notizen mindestens drei distinkte Themenbereiche?

Wie unterscheiden sich Obsidian-Embeddings von einem Wissensgraphen?

Ein Wissensgraph verbindet Notizen über explizite Links, die Sie manuell erstellen (Backlinks, Tags, MOCs). Embeddings verbinden Notizen über semantische Ähnlichkeit, die das Modell automatisch entdeckt. Beide Ansätze ergänzen sich: Ein Wissensgraph erfasst Ihre beabsichtigte Struktur, während Embeddings latente Strukturen offenbaren, die Sie nie explizit angelegt haben. Notizen ohne gemeinsame Backlinks können im Embedding-Raum nahe beieinander liegen, weil sie verwandte Konzepte in unterschiedlichem Vokabular behandeln. Beides zusammen einzusetzen — Graph für die Navigation, Embeddings für die Entdeckung — erzeugt ein zweites Gehirn, das Verbindungen aufdeckt, die Sie sonst übersehen würden.

Welche Retrieval-Strategie eignet sich am besten für einen großen Obsidian-Vault?

Hybrides Retrieval, das BM25-Schlüsselwortsuche mit Vektorähnlichkeit kombiniert, übertrifft beide Methoden einzeln. BM25 findet exakte Terminologie-Übereinstimmungen, die Embeddings möglicherweise übersehen, während Embeddings konzeptuelle Ähnlichkeit erkennen, die die Schlüsselwortsuche nicht erfassen kann. Reciprocal Rank Fusion (RRF) führt die beiden Ergebnislisten zusammen. Bei Vaults mit über 10.000 Notizen verbessert ein zusätzlicher Reranking-Schritt nach dem initialen Retrieval die Präzision weiter. Die Topologie Ihres Vaults beeinflusst, welche Strategie dominiert: Dichte Cluster begünstigen die Vektorsuche, spärliche oder vokabularintensive Bereiche begünstigen BM25.


Referenzen


  1. Kat (@poetengineer__), „Exploring shapes of thoughts: extracted my Obsidian notes’ embeddings and arranged them as a 3D network using 3 different topologies”, veröffentlicht auf X, Februar 2026. Drei Topologien: zentralisiert, dezentralisiert, verteilt mit LLM-beschrifteten Kanten. 

  2. Pesce, Diego, Yang-Hui He und Guido Caldarelli, „Phase Transitions in Neural Networks Pruning”, arXiv:2602.15224, Februar 2026. arxiv.org. Scharfer Übergang von kooperativer/funktionaler Phase zu ungeordneter Phase, Skalierungsgesetze konsistent mit kritischem Verhalten zweiter Ordnung. 

  3. MinishLab, „Model2Vec: Fast State-of-the-Art Static Embeddings”, 2024. github.com/MinishLab/model2vec. potion-base-8M: 7,6 Mio. Parameter, 256-dim Embeddings, ~90 % der Leistung von all-MiniLM-L6-v2. 

  4. McInnes, Leland, John Healy und James Melville, „UMAP: Uniform Manifold Approximation and Projection for Dimension Reduction”, arXiv:1802.03426, 2018. arxiv.org. Bewahrt die globale Struktur besser als t-SNE bei überlegener Laufzeitleistung. 

  5. Semantisches Gedächtnissystem des Autors. Model2Vec + sqlite-vec + FTS5 BM25 + RRF-Hybridsuche über 49.746 Chunks. Module: embedder.py, vector_index.py, chunker.py, retriever.py in ~/.claude/lib/memory/

  6. Signal-Scoring-Pipeline des Autors. Reduzierte den Posteingang von 14.771 auf 5.886 Notizen (60 % Reduktion) durch Feinabstimmung der Relevanzschwelle. Dokumentiert in The Signal Scoring Pipeline

  7. Topologieanalyse des Vaults des Autors. 500-Punkte-Zufallsstichprobe aus 49.746 Chunks, Themenklassifikation nach Vault-Verzeichnisstruktur, PCA-Projektion auf 3D für interaktive Visualisierung. 

Verwandte Beiträge

Von Vogelschwärmen zu Agenten: Schwarmregeln für KI-Systeme

Craig Reynolds’ Boids-Algorithmus zeigt, wie drei lokale Regeln globale Koordination erzeugen. Dieselben Prinzipien und …

11 Min. Lesezeit

GLSL für Builder: Ein Shader-Lab, das du wirklich nutzen kannst

Ein praxisnahes GLSL-Playground für schnellen Aufbau von Shader-Intuition: Presets, Live-Controls und WebGL ohne Framewo…

4 Min. Lesezeit

KI-Agenten-Speicherarchitektur, die tatsächlich funktioniert

Hybrides BM25+Vektor-Retrieval, Skills als Markdown, Drift-Erkennung. Fünf Forschungsarbeiten vom März 2026 validieren d…

9 Min. Lesezeit