Topologie myśli: Obsidian w przestrzeni embeddingów

15 800 notatek. 49 746 fragmentów. Każdy fragment to 256-wymiarowy wektor. Uruchomiłem UMAP na pełnym zbiorze danych, zrzutowałem go do trzech wymiarów i powoli obracałem wynik na ekranie. Mój drugi mózg miał kształt, a ten kształt ujawnił coś, czego same notatki nigdy mi nie powiedziały: moja praca intelektualna skupia się wokół trzech gęstych węzłów (Claude Code, systemy projektowe, badania nad AI) połączonych cienkimi mostami notatek na przecięciu tematów, otoczonych rzadką aureolą osieroconych sygnałów, które nie łączą się z niczym.

Kształt wiedzy pokazuje, gdzie myślisz, czego unikasz w myśleniu i gdzie pomysły mają przestrzeń do zderzenia. Ta sama architektura kontekstu, która strukturyzuje zachowanie agentów, strukturyzuje również ludzką wiedzę.

W skrócie: Rzutowanie 15 800 notatek Obsidian w 256-wymiarową przestrzeń embeddingów ujawnia trzy topologie wiedzy — scentralizowaną, zdecentralizowaną i rozproszoną — każda z odrębnymi trybami awarii. Notatki pomostowe między klastrami generują najbardziej nowatorskie spostrzeżenia, a badania nad przejściami fazowymi pokazują, że nieostrożna kuracja może załamać strukturę wiedzy przy ostrym progu.

TL;DR

Przestrzenie embeddingów nadają bazom wiedzy strukturę przestrzenną, która ujawnia topologię intelektualną. Kat (@poetengineer__) zademonstrowała trzy topologie dla skarbców Obsidian: scentralizowaną (jeden centralny pomysł łączący wszystko), zdecentralizowaną (skupiska tematyczne) i rozproszoną (krawędzie między pomysłami oznaczone relacjami semantycznymi).¹ Mój skarbiec z 15 800 plikami i 49 746 fragmentami wykazuje zdecentralizowaną topologię z trzema dominującymi klastrami. Prace Pesce i in. nad przejściami fazowymi w przycinaniu sieci neuronowych dostarczają matematycznych ram do zrozumienia, kiedy upraszczanie (kuracja, archiwizacja, filtrowanie) przekracza próg, który niszczy funkcję struktury wiedzy.² Poniżej: co embeddingi rejestrują, trzy topologie wiedzy z rzeczywistymi danymi ze skarbca, jak zdiagnozować własną topologię oraz interaktywny eksplorator zbudowany z mojego rzeczywistego skarbca.

Co embeddingi faktycznie rejestrują

Embedding tekstowy przekształca fragment tekstu w listę liczb. Wpis o wizualizatorze tokenizacji opisywał, jak tekst staje się tokenami. Embeddingi idą dalej: tokeny stają się współrzędnymi w wielowymiarowej przestrzeni, gdzie odległość odpowiada znaczeniu.

Dwa fragmenty o „Claude Code hooks do wstrzykiwania kontekstu” znajdują się blisko siebie w przestrzeni embeddingów. Fragment o „Claude Code hooks” i fragment o „nawigacji iOS SwiftUI” leżą daleko od siebie. Odległość to nie pokrywanie się słów kluczowych. Dwa fragmenty mogą nie mieć ani jednego wspólnego słowa, a mimo to wylądować blisko siebie, jeśli omawiają te same koncepcje. Dwa fragmenty mogą dzielić wiele słów („system przetwarza dane”), a wylądować daleko od siebie, jeśli otaczający kontekst się różni.

Mój skarbiec korzysta z modelu potion-base-8M z Model2Vec: 7,6 miliona parametrów generujących 256-wymiarowe embeddingi.³ Model jest destylacją większego transformera zdaniowego (bge-base-en-v1.5) i osiąga około 90% wydajności all-MiniLM-L6-v2, działając jako model statyczny — o rzędy wielkości szybciej zarówno na CPU, jak i GPU. Każdy z 49 746 fragmentów w moim skarbcu staje się punktem w 256-wymiarowej przestrzeni.

256 wymiarów jest niemożliwych do bezpośredniej wizualizacji. Techniki redukcji wymiarowości, takie jak UMAP, rzutują wielowymiarową strukturę do 2D lub 3D, zachowując lokalne sąsiedztwa.⁴ Punkty, które były blisko w 256 wymiarach, pozostają blisko w 3 wymiarach. Struktura globalna jest przybliżona, ale klastry są rzeczywiste.

Trzy topologie wiedzy

Eksploracja embeddingów notatek Obsidian przeprowadzona przez Kat zidentyfikowała trzy odrębne topologie wiedzy.¹ Każda topologia odzwierciedla inną strukturę intelektualną i ma inne tryby awarii.

Scentralizowana: jeden centralny pomysł łączący wszystko

W topologii scentralizowanej większość notatek łączy się przez jeden dominujący temat. Przestrzeń embeddingów pokazuje jeden gęsty klaster w centrum z cienkimi mackami rozciągającymi się na zewnątrz. Programista piszący wyłącznie o React zobaczyłby tę topologię: React jest węzłem centralnym, a każda notatka o testowaniu, zarządzaniu stanem, wdrażaniu i narzędziach łączy się przez niego.

Mocna strona: Głęboka ekspertyza w centralnej domenie. Wyszukiwanie działa dobrze, ponieważ większość zapytań trafia w to samo sąsiedztwo.

Tryb awarii: Kruchość. Jeśli centralny temat staje się nieistotny (zmiana kariery, wygaśnięcie technologii), cała struktura wiedzy traci swoją zasadę organizacyjną. Notatki, które mają sens wyłącznie w relacji do centrum, stają się osierocone.

Zdecentralizowana: skupiska tematyczne

W topologii zdecentralizowanej notatki tworzą kilka odrębnych klastrów połączonych notatkami pomostowymi. Mój skarbiec wykazuje tę topologię z trzema dominującymi węzłami:

Klaster	Fragmenty	% całości	Główne tematy
AI & ML	~13 100	26%	Claude Code, architektura agentów, badania LLM
Design	~7 200	14%	Systemy UI, typografia, nauka o kolorze, projektowanie wizualne
Development	~5 100	10%	FastAPI, SwiftUI, inżynieria webowa, bazy danych
Inbox (nieprzetworzone)	~13 700	28%	Surowe sygnały, nieposortowane przechwycenia

Pozostałe 22% rozkłada się między Inspirację, Produktywność, Naukę i mniejsze kategorie.

Mocna strona: Odporność. Utrata jednego klastra nie niszczy pozostałych. Połączenia interdyscyplinarne tworzą się na granicach między klastrami, generując najbardziej nowatorskie spostrzeżenia.

Tryb awarii: Fragmentacja. Jeśli notatki pomostowe między klastrami są zbyt cienkie, klastry stają się intelektualnymi silosami. Mój skarbiec ma cienki most między Design a Claude Code (notatki o projektowaniu interfejsów agentów, wzorce interfejsów promptów), ale niemal żadnego mostu między Design a surowym Development (notatki o architekturze backendu rzadko łączą się z projektowaniem wizualnym). Ta luka to martwy punkt: myślę o designie i myślę o inżynierii backendu, ale rzadko myślę o nich razem.

Rozproszona: krawędzie oznaczone relacjami

W topologii rozproszonej połączenia między notatkami niosą etykiety semantyczne opisujące jak pomysły się do siebie odnoszą. Implementacja Kat wykorzystywała LLM do generowania etykiet krawędzi między sąsiednimi notatkami.¹ Zamiast anonimowej bliskości każde połączenie ma opis: „zaprzecza”, „rozszerza”, „dostarcza dowodów na”, „stosuje się w innej domenie”.

Mocna strona: Nawigacyjność. Rozproszona topologia odpowiada nie tylko na pytanie „co jest powiązane?”, ale „jak jest powiązane?”. Etykietowanie umożliwia rozumowanie wyższego rzędu: znajdowanie notatek, które zaprzeczają tezie, a nie tylko takich, które ją wspominają.

Tryb awarii: Koszt. Generowanie etykiet krawędzi dla każdej pary połączeń skaluje się kwadratowo. Dla 49 746 fragmentów mojego skarbca wyczerpujące etykietowanie krawędzi wymagałoby około 1,2 miliarda wywołań LLM. Praktyczne implementacje etykietują jedynie krawędzie w ramach progu podobieństwa.

Przejścia fazowe: kiedy upraszczanie niszczy strukturę

Pesce, He i Caldarelli badali przejścia fazowe w przycinaniu sieci neuronowych i odkryli ostry próg: sieci wykazują „przejście z kooperatywnej, funkcjonalnej fazy do nieuporzadkowanej fazy z załamaniem wydajności”.² Poniżej progu usuwanie połączeń ledwo wpływa na funkcję. Przy progu funkcja załamuje się gwałtownie. Przejście podlega prawom skalowania spójnym z krytycznym zachowaniem drugiego rzędu — ta sama matematyka, która opisuje topnienie lodu w wodę.

Analogia do kuracji wiedzy jest bezpośrednia. Mój potok oceny sygnałów zredukował Inbox z 14 771 notatek do 5 886 poprzez próg istotności. Te same dynamiki złożonego kontekstu, które sprawiają, że pamięć agenta akumuluje wartość, mają tu zastosowanie: wartość każdej notatki zależy od jej połączeń, nie tylko od jej treści. Redukcja poprawiła jakość wyszukiwania: mniej mało istotnych wyników, ciaśniejsze klastry, szybsze wyszukiwanie. Ale czy utracono sygnał? Czy uproszczenie przekroczyło próg przejścia fazowego?

Badania nad przycinaniem sugerują, że odpowiedź zależy od łączności, nie od liczebności. Usunięcie izolowanych węzłów (notatek bez semantycznych sąsiadów) ma znikomy wpływ na funkcję sieci. Usunięcie węzłów pomostowych (notatek łączących w przeciwnym razie oddzielne klastry) może załamać strukturę, nawet jeśli usunięte notatki wydają się indywidualnie nieważne.

Mój potok triażu podniósł próg istotności z 0,30 do 0,40. 60% redukcja rozmiaru inboxu była mierzona liczbą. Nie zmierzyłem wpływu na topologię. Strategia kuracji uwzględniająca przejścia fazowe powinna:

Identyfikować notatki pomostowe przed filtrowaniem (notatki o wysokiej centralności pośrednictwa w grafie podobieństwa)
Wykluczać notatki pomostowe z filtrowania pod kątem istotności, niezależnie od ich indywidualnych wyników
Monitorować metryki łączności klastrów po każdym cyklu kuracji
Alarmować, gdy krok kuracji redukuje gęstość mostów międzyklastrowych poniżej progu

# Sketch: bridge note detection before curation
def identify_bridge_notes(embeddings, threshold=0.7):
    """Find notes that connect otherwise-separate clusters."""
    from sklearn.neighbors import NearestNeighbors
    nn = NearestNeighbors(n_neighbors=10, metric='cosine')
    nn.fit(embeddings)
    distances, indices = nn.kneighbors(embeddings)

    # Bridge score: how many of a note's neighbors are from
    # different clusters than the note itself
    bridge_scores = []
    for i, neighbors in enumerate(indices):
        own_cluster = labels[i]
        cross_cluster = sum(1 for n in neighbors if labels[n] != own_cluster)
        bridge_scores.append(cross_cluster / len(neighbors))

    return bridge_scores

Diagnozowanie topologii wiedzy

Nie potrzeba 15 000 notatek, aby przeanalizować topologię wiedzy. Każda kolekcja powyżej 100 notatek z embeddingami ujawni strukturę. Jeśli korzystasz z Obsidian jako infrastruktury AI, masz już surowy materiał — siedemnaście tysięcy sygnałów w moim skarbcu zaczęło się jako proste codzienne przechwycenia. Trzy pytania diagnostyczne:

1. Ile klastrów istnieje?

Uruchom k-means lub DBSCAN na embeddingach i policz odrębne klastry. Mniej niż 3 sugeruje topologię scentralizowaną. Między 3 a 8 sugeruje zdecentralizowaną. Powyżej 8 może wskazywać na topologię genuinnie rozproszoną lub niewystarczającą kurację (wiele klastrów oznacza wiele tematów, co może oznaczać brak głębi w żadnym z nich).

2. Jak gęste są mosty?

Dla każdej pary klastrów policz notatki, które mają najbliższych sąsiadów w obu klastrach. Gęstość mostów poniżej 2% rozmiaru mniejszego klastra wskazuje na potencjalny silos. Mój most Design-do-Development wynosi około 1,4% — poniżej progu, co potwierdza zaobserwowany martwy punkt.

3. Jaki procent jest osierocony?

Osierocona notatka nie ma sąsiada w ramach progu podobieństwa kosinusowego (zazwyczaj 0,7). Osierocone notatki niekoniecznie są złe — mogą reprezentować genuinnie nowatorskie pomysły. Ale wskaźnik osierocenia powyżej 15% sugeruje albo niespójne przechwytywanie (notatki niezgodne z domeną wiedzy), albo problemy z jakością embeddingów.

Wskaźnik osierocenia mojego skarbca: około 8%. Większość osieroconych notatek to surowe przechwycenia z Inboxu, które nie zostały przetworzone na notatki strukturyzowane. Wskaźnik osierocenia spada do 3% po wykluczeniu Inboxu, co wskazuje, że przetworzone notatki dobrze integrują się z istniejącą topologią.

Eksplorator przestrzeni embeddingów: Ten interaktywny komponent wyświetla 500 przykładowych notatek ze skarbca o 15 800 plikach, zrzutowanych do przestrzeni 3D. Punkty są oznaczone kolorami według klastrów tematycznych. Najedź kursorem, aby zobaczyć tytuły notatek i najbliższych sąsiadów. Dostosuj próg podobieństwa, aby ujawnić topologię połączeń — niskie progi pokazują tylko ciasne klastry, wysokie progi ujawniają połączenia pomostowe między tematami.

Co ujawniają klastry

Powyższa wizualizacja wykorzystuje 500 losowo wybranych fragmentów z mojego skarbca. Klastry odpowiadają rzeczywistym sąsiedztwom intelektualnym.

Węzeł AI & ML (26% fragmentów) to najgęstszy klaster. Architektura Claude Code, wzorce projektowe agentów, artykuły badawcze o LLM i techniki inżynierii promptów tworzą ciasne sąsiedztwo. Gęstość odzwierciedla objętość: czytam i przechwytuję więcej treści AI/ML niż z jakiejkolwiek innej kategorii. Gęstość tworzy również przewagę jakości wyszukiwania — zapytania w tej domenie zwracają wysoce trafne wyniki, ponieważ przestrzeń embeddingów jest dobrze zaludniona.

Węzeł Design (14%) leży w oddaleniu od AI & ML. Systemy typograficzne, nauka o kolorze, wzorce komponentów UI i odniesienia do projektowania wizualnego tworzą własny klaster. Separacja jest uzasadniona: design i inżynieria AI używają różnych słowników, różnych ram rozumowania i różnych kryteriów oceny. Niemniej separacja oznacza również, że zapytania takie jak „jak powinien być formatowany output agenta do przeglądu przez programistę” trafiają w lukę między dwoma klastrami, zwracając wyniki z jednej lub drugiej strony, ale rzadko z przecięcia.

Węzeł Development (10%) pokrywa się bardziej z AI & ML niż z Design. Wzorce FastAPI, projektowanie baz danych i architektura SwiftUI dzielą pojęciowy słownik z notatkami o inżynierii AI (obie dyskutują o kodzie, architekturze, testowaniu). Pokrywanie się słownictwa tworzy strefę mieszaną, w której żyją notatki o DevOps-dla-agentów i infrastrukturze-dla-AI.

Aureola Inboxu (28%) otacza wszystko. Surowe przechwycenia, nieposortowane sygnały i nieprzetworzone zakładki tworzą rzadką chmurę ze słabymi połączeniami do ustalonych klastrów. Potok oceny sygnałów, który zredukował Inbox z 14 771 do 5 886 notatek, eliminował głównie z tej aureoli: notatki o niskim podobieństwie do jakiegokolwiek ustalonego klastra.

Klaster Inspiracji (6%) zajmuje pozycję między Design a Inboxem. Odniesienia do typografii kinetycznej, studia motion designu i przechwycenia sztuki wizualnej tworzą luźne sąsiedztwo. Klaster istnieje, ponieważ konsekwentnie przechwytuję wizualną inspirację, ale rzadko przetwarzam te przechwycenia na notatki strukturyzowane. Klaster ujawnia wzorzec: konsumuję wizualną inspirację szeroko, ale tworzę prace projektowe wąsko. Luka między konsumpcją a produkcją jest widoczna w topologii jako klaster o wysokiej gęstości przychodzących (przechwycenia), ale niskiej liczbie połączeń wychodzących (notatki, które budują na inspiracji).

Mosty międzyklastrowe to najciekawsze cechy. Najcieńszy most łączy Design i Development: około 1,4% notatek mniejszego klastra ma najbliższych sąsiadów w obu klastrach. Dla porównania most AI-do-Development wynosi 8,3%, co odzwierciedla, jak duża część mojej pracy programistycznej dotyczy infrastruktury AI. Gęstość mostów pozwala przewidzieć, gdzie rodzi się nowatorska praca. Mój wpis o boidach i agentach powstał z notatki pomostowej, która połączyła badania nad zachowaniami emergentymi (klaster AI & ML) z implementacją algorytmu stadnego (klaster Development). Bez mostu te dwa zbiory notatek nigdy by się nie zderzyły.

Topologia kształtuje również jakość wyszukiwania. Hybrydowy retriever, który napędza wyszukiwanie w moim skarbcu, wykorzystuje zarówno dopasowanie słów kluczowych BM25, jak i podobieństwo wektorowe — ale jego skuteczność zależy od leżącej u podstaw struktury klastrów. Zapytania trafiające w gęste klastry zwracają precyzyjne wyniki; zapytania, które trafiają między klastry, potrzebują fallbacku BM25, aby wypełnić lukę.

Obok skarbca istnieje druga baza embeddingów: baza wyszukiwania narzędzi z 4 518 fragmentami w 653 plikach.⁵ Topologia narzędzi jest radykalnie inna: jeden gęsty klaster (konfiguracja Claude Code) z małymi klastrami satelitarnymi dla testowania, hooków i umiejętności. Monokulturowa topologia sprawdza się w przypadku narzędzi, ponieważ narzędzia mają jeden cel. Skarbiec wiedzy z monokulturową topologią byłby sygnałem ostrzegawczym.

Przekształcanie topologii

Topologia nie jest niezmienna. Cztery celowe działania przekształcają strukturę wiedzy.

Pisanie notatek pomostowych. Jeśli dwa klastry nie mają połączeń, warto pisać notatki, które explicite łączą koncepcje między nimi. Mój most Design-do-AI jest cienki, ponieważ rzadko piszę o projektowaniu interfejsów agentów. Notatka zatytułowana „Wzorce UX dla outputu agentów”, która cytuje zarówno zasady projektowania, jak i badania nad architekturą agentów, stworzyłaby punkt pomostowy.

Wykrywanie osieroconych notatek. Comiesięczne skanowanie osieroconych notatek i podejmowanie decyzji: integracja, archiwizacja lub usunięcie. Osierocone notatki reprezentujące zarodkowe pomysły powinny zostać połączone przez notatki pomostowe z istniejącymi klastrami. Osierocone notatki stanowiące jednorazowe odniesienia można zarchiwizować.

Monitorowanie po kuracji. Przed i po każdej masowej kuracji (usuwanie, archiwizacja, filtrowanie) należy mierzyć łączność klastrów. Jeśli gęstość mostów międzyklastrowych spada, kuracja usunęła notatki pomostowe, które powinny zostać zachowane.

Czytanie na granicach. Najcenniejsze cele lektury to nie głębsze wchodzenie w najgęstszy klaster, lecz krawędzie między klastrami. Artykuł łączący inżynierię AI z projektowaniem wizualnym wygeneruje więcej nowatorskich połączeń niż kolejny artykuł pogłębiający i tak już gęsty klaster AI.

Kluczowe wnioski

Przestrzenie embeddingów nadają bazom wiedzy kształt. Ten kształt ujawnia topologię intelektualną: gdzie koncentrujesz uwagę, czego unikasz i gdzie pomysły łączą się między domenami.
Trzy topologie mają różne tryby awarii. Scentralizowana jest krucha. Zdecentralizowana fragmentaryzuje się bez notatek pomostowych. Rozproszona jest kosztowna w utrzymaniu, ale najbogatsza do nawigacji.
Przejścia fazowe czynią kurację nieliniową. Usuwanie notatek poniżej progu ledwo wpływa na strukturę. Przy progu funkcja się załamuje. Notatki pomostowe muszą zostać zidentyfikowane i chronione przed jakąkolwiek masową kuracją.
Aureola Inboxu to granica kuracji. Surowe przechwycenia tworzą rzadką chmurę wokół ustalonych klastrów. Ocena sygnałów filtruje aureolę, ale topologia ujawnia, czy filtrowanie zachowało, czy zniszczyło połączenia pomostowe.
Czytanie na granicach. Notatki o najwyższej wartości łączą klastry, a nie je pogłębiają. Wykrywanie osieroconych notatek i metryki gęstości mostów wyznaczają priorytety lektury.

FAQ

Czym są embeddingi tekstowe i jak reprezentują wiedzę?

Embeddingi tekstowe przekształcają fragmenty tekstu w listy liczb (wektory) w wielowymiarowej przestrzeni, gdzie odległość odpowiada znaczeniu semantycznemu. Dwa fragmenty o podobnych tematach leżą blisko siebie, niezależnie od tego, czy dzielą słowa. 256-wymiarowy model embeddingów, taki jak potion-base-8M, konwertuje każdy fragment tekstu na 256 współrzędnych. Zastosowane do całej bazy wiedzy, wektory tworzą strukturę przestrzenną, w której klastry, mosty i luki ujawniają topologię intelektualną treści.

Jak mogę zwizualizować przestrzeń embeddingów mojego skarbca Obsidian?

Wygeneruj embeddingi dla notatek za pomocą modelu embeddingów zdaniowych (potion-base-8M z Model2Vec jest szybki i darmowy), a następnie zrzutuj wielowymiarowe wektory do 2D lub 3D za pomocą UMAP. Zapisz embeddingi w bazie danych (SQLite z rozszerzeniem vec dobrze się sprawdza), uruchom projekcję UMAP i zwizualizuj dowolną biblioteką do wykresów 3D. Powstała chmura punktów ujawnia strukturę klastrów skarbca: gęste regiony, w których piszesz często, rzadkie luki między tematami oraz strefy pomostowe, gdzie różne domeny się przecinają.

Czym jest przejście fazowe w kuracji wiedzy?

Przejście fazowe w kuracji wiedzy to próg, przy którym usuwanie notatek powoduje gwałtowne załamanie struktury wiedzy zamiast stopniowej degradacji. Badania nad przycinaniem sieci neuronowych pokazują, że sieci utrzymują funkcję w miarę usuwania połączeń, aż do ostrego progu, przy którym wydajność się załamuje. Ta sama dynamika dotyczy baz wiedzy: usuwanie izolowanych, mało wartościowych notatek ma minimalny wpływ, ale usunięcie notatek pomostowych łączących klastry może sfragmentaryzować topologię, nawet jeśli te notatki wydają się indywidualnie nieistotne. Kuracja uwzględniająca przejścia fazowe identyfikuje i chroni notatki pomostowe przed filtrowaniem.

Ile notatek potrzebuję do sensownej analizy topologii?

Znacząca struktura klastrów wyłania się z około 100 notatek z embeddingami. Mniej niż 100 notatek może nie tworzyć odrębnych klastrów. Między 100 a 500 notatek ujawnia podstawową topologię (2–4 klastry). Między 500 a 5 000 notatek ujawnia zniuansowaną strukturę ze strefami pomostowymi i wzorcami osieroconych notatek. Powyżej 5 000 notatek topologia stabilizuje się i dodatkowe notatki pogłębiają istniejące klastry bardziej niż tworzą nowe. Kluczową metryką nie jest łączna liczba, ale różnorodność klastrów: czy notatki obejmują co najmniej trzy odrębne obszary tematyczne?

Czym różnią się embeddingi Obsidian od grafu wiedzy?

Graf wiedzy łączy notatki przez explicite linki tworzone ręcznie (backlinki, tagi, MOC). Embeddingi łączą notatki przez podobieństwo semantyczne, które model odkrywa automatycznie. Oba podejścia są komplementarne: graf wiedzy uchwytuje zamierzoną strukturę, podczas gdy embeddingi ujawniają ukrytą strukturę, której nigdy explicite nie stworzyłeś. Notatki nieposiadające wspólnych backlinków mogą leżeć blisko w przestrzeni embeddingów, ponieważ omawiają powiązane koncepcje różnym słownictwem. Połączenie obu — grafu do nawigacji, embeddingów do odkrywania — tworzy drugi mózg, który wydobywa połączenia, które w przeciwnym razie zostałyby przeoczone.

Jaka jest najlepsza strategia wyszukiwania dla dużego skarbca Obsidian?

Wyszukiwanie hybrydowe łączące wyszukiwanie słów kluczowych BM25 z podobieństwem wektorowym przewyższa każdą z tych metod stosowaną osobno. BM25 wychwytuje dokładne dopasowania terminologii, które embeddingi mogą pominąć, podczas gdy embeddingi wychwytują podobieństwo pojęciowe, którego wyszukiwanie słów kluczowych nie jest w stanie wykryć. Reciprocal Rank Fusion (RRF) łączy obie listy wyników. Dla skarbców powyżej 10 000 notatek dodanie etapu rerankingu po początkowym wyszukiwaniu dodatkowo poprawia precyzję. Topologia skarbca wpływa na to, która strategia dominuje: gęste klastry faworyzują wyszukiwanie wektorowe, rzadkie lub nasycone słownictwem regiony faworyzują BM25.

Bibliografia

Kat (@poetengineer__), „Exploring shapes of thoughts: extracted my Obsidian notes’ embeddings and arranged them as a 3D network using 3 different topologies,” opublikowane na X, luty 2026. Trzy topologie: scentralizowana, zdecentralizowana, rozproszona z krawędziami oznaczonymi przez LLM. ↩↩↩
Pesce, Diego, Yang-Hui He i Guido Caldarelli, „Phase Transitions in Neural Networks Pruning,” arXiv:2602.15224, luty 2026. arxiv.org. Ostre przejście z kooperatywnej/funkcjonalnej fazy do nieuporzadkowanej fazy, prawa skalowania spójne z krytycznym zachowaniem drugiego rzędu. ↩↩
MinishLab, „Model2Vec: Fast State-of-the-Art Static Embeddings,” 2024. github.com/MinishLab/model2vec. potion-base-8M: 7,6 mln parametrów, embeddingi 256-wymiarowe, ~90% wydajności all-MiniLM-L6-v2. ↩
McInnes, Leland, John Healy i James Melville, „UMAP: Uniform Manifold Approximation and Projection for Dimension Reduction,” arXiv:1802.03426, 2018. arxiv.org. Zachowuje globalną strukturę lepiej niż t-SNE przy wyższej wydajności obliczeniowej. ↩
System pamięci semantycznej autora. Model2Vec + sqlite-vec + FTS5 BM25 + wyszukiwanie hybrydowe RRF na 49 746 fragmentach. Moduły: embedder.py, vector_index.py, chunker.py, retriever.py w ~/.claude/lib/memory/. ↩
Potok oceny sygnałów autora. Zredukował Inbox z 14 771 do 5 886 notatek (redukcja o 60%) poprzez dostosowanie progu istotności. Udokumentowane w The Signal Scoring Pipeline. ↩
Analiza topologii skarbca autora. 500-punktowa losowa próbka z 49 746 fragmentów, klasyfikacja tematyczna według struktury katalogów skarbca, projekcja PCA do 3D na potrzeby interaktywnej wizualizacji. ↩