Topologias do Pensamento: Obsidian no Espaço de Embeddings

15.800 notas. 49.746 chunks. Cada chunk um vetor de 256 dimensões. Executei UMAP no dataset completo, projetei em três dimensões e rotacionei o resultado lentamente na tela. Meu segundo cérebro tinha uma forma, e essa forma revelou algo que as notas em si nunca me disseram: meu trabalho intelectual se agrupa em torno de três núcleos densos (Claude Code, sistemas de design, pesquisa em IA) conectados por pontes finas de notas de interseção, cercados por um halo esparso de sinais órfãos que não se conectam a nada.

A forma do seu conhecimento revela onde você pensa, onde evita pensar e onde suas ideias têm espaço para colidir. A mesma arquitetura de contexto que estrutura o comportamento de agentes estrutura o conhecimento humano.

Resumo: Projetar 15.800 notas do Obsidian em um espaço de embeddings de 256 dimensões revela três topologias de conhecimento — centralizada, descentralizada e distribuída — cada uma com modos de falha distintos. Notas-ponte entre clusters geram os insights mais originais, e pesquisas sobre transições de fase mostram que uma curadoria descuidada pode colapsar sua estrutura de conhecimento em um limiar abrupto.

TL;DR

Espaços de embeddings conferem às bases de conhecimento uma estrutura espacial que revela a topologia intelectual. Kat (@poetengineer__) demonstrou três topologias para vaults do Obsidian: centralizada (uma ideia central conectando tudo), descentralizada (hubs temáticos em clusters) e distribuída (arestas entre ideias rotuladas por relações semânticas).¹ Meu vault de 15.800 arquivos com 49.746 chunks exibe uma topologia descentralizada com três clusters dominantes. O trabalho de Pesce et al. sobre transições de fase na poda de redes neurais oferece um framework matemático para entender quando a simplificação (curadoria, arquivamento, filtragem) cruza um limiar que quebra a função da estrutura de conhecimento.² A seguir: o que embeddings capturam, três topologias de conhecimento com dados reais do vault, como diagnosticar sua própria topologia e um explorador interativo construído a partir do meu vault real.

O Que Embeddings Realmente Capturam

Um text embedding converte uma passagem de texto em uma lista de números. O post sobre o visualizador de tokenização explicou como texto se transforma em tokens. Embeddings vão além: tokens se tornam coordenadas em um espaço de alta dimensionalidade onde distância corresponde a significado.

Duas passagens sobre “hooks do Claude Code para injeção de contexto” ficam próximas no espaço de embeddings. Uma passagem sobre “hooks do Claude Code” e uma passagem sobre “navegação SwiftUI no iOS” ficam distantes. A distância não é sobreposição de palavras-chave. Duas passagens podem não compartilhar nenhuma palavra e ainda assim ficarem próximas se discutem os mesmos conceitos. Duas passagens podem compartilhar muitas palavras (“o sistema processa os dados”) e ficarem distantes se o contexto ao redor difere.

Meu vault usa o modelo potion-base-8M do Model2Vec: 7,6 milhões de parâmetros produzindo embeddings de 256 dimensões.³ O modelo é destilado a partir de um sentence transformer maior (bge-base-en-v1.5) e atinge aproximadamente 90% do desempenho do all-MiniLM-L6-v2 enquanto roda como modelo estático — ordens de magnitude mais rápido tanto em CPU quanto em GPU. Cada um dos 49.746 chunks do meu vault se torna um ponto no espaço de 256 dimensões.

256 dimensões são impossíveis de visualizar diretamente. Técnicas de redução de dimensionalidade como UMAP projetam a estrutura de alta dimensão para 2D ou 3D preservando vizinhanças locais.⁴ Pontos que eram próximos em 256 dimensões permanecem próximos em 3 dimensões. A estrutura global é aproximada, mas os clusters são reais.

Três Topologias do Conhecimento

A exploração de Kat sobre embeddings de notas do Obsidian identificou três topologias distintas de conhecimento.¹ Cada topologia reflete uma estrutura intelectual diferente, e cada uma tem modos de falha diferentes.

Centralizada: Uma Ideia Central Conectando Tudo

Em uma topologia centralizada, a maioria das notas se conecta por meio de um único tema dominante. O espaço de embeddings mostra um cluster denso no centro com tentáculos finos se estendendo para fora. Um desenvolvedor que escreve exclusivamente sobre React veria essa topologia: React é o hub, e cada nota sobre testes, gerenciamento de estado, deploy e ferramentas se conecta por meio dele.

Ponto forte: Expertise profunda no domínio central. A busca funciona bem porque a maioria das consultas cai na mesma vizinhança.

Modo de falha: Fragilidade. Se o tema central se torna irrelevante (uma mudança de carreira, o fim de uma tecnologia), toda a estrutura de conhecimento perde seu princípio organizador. Notas que só fazem sentido em relação ao centro ficam órfãs.

Descentralizada: Hubs Temáticos em Clusters

Em uma topologia descentralizada, as notas formam vários clusters distintos conectados por notas-ponte. Meu vault exibe essa topologia com três hubs dominantes:

Cluster	Chunks	% do Total	Temas Principais
IA & ML	~13.100	26%	Claude Code, arquitetura de agentes, pesquisa em LLM
Design	~7.200	14%	Sistemas de UI, tipografia, ciência da cor, design visual
Desenvolvimento	~5.100	10%	FastAPI, SwiftUI, engenharia web, bancos de dados
Inbox (não processado)	~13.700	28%	Sinais brutos, capturas não classificadas

Os 22% restantes se distribuem entre Inspiração, Produtividade, Ciência e categorias menores.

Ponto forte: Resiliência. Perder um cluster não destrói os outros. Conexões interdisciplinares se formam nas fronteiras entre clusters, gerando os insights mais originais.

Modo de falha: Fragmentação. Se as notas-ponte entre clusters são muito finas, os clusters se tornam silos intelectuais. Meu vault tem uma ponte fina entre Design e Claude Code (notas sobre design de interfaces de agentes, padrões de interface de prompts), mas quase nenhuma ponte entre Design e Desenvolvimento puro (notas sobre arquitetura de backend raramente se conectam a design visual). A lacuna é um ponto cego: eu penso sobre design e penso sobre engenharia de backend, mas raramente penso sobre eles juntos.

Distribuída: Arestas Rotuladas por Relações

Em uma topologia distribuída, as conexões entre notas carregam rótulos semânticos descrevendo como as ideias se relacionam. A implementação de Kat usou um LLM para gerar rótulos de arestas entre notas vizinhas.¹ Em vez de proximidade anônima, cada conexão tem uma descrição: “contradiz”, “estende”, “fornece evidência para”, “aplica em domínio diferente”.

Ponto forte: Navegabilidade. Uma topologia distribuída responde não apenas “o que é relacionado?” mas “como é relacionado?” A rotulação permite raciocínio de ordem superior: encontrar notas que contradizem uma tese, não apenas notas que a mencionam.

Modo de falha: Custo. Gerar rótulos de arestas para cada par de conexões escala quadraticamente. Para os 49.746 chunks do meu vault, a rotulação exaustiva de arestas exigiria aproximadamente 1,2 bilhão de chamadas ao LLM. Implementações práticas rotulam apenas arestas dentro de um limiar de similaridade.

Transições de Fase: Quando a Simplificação Quebra a Estrutura

Pesce, He e Caldarelli estudaram transições de fase na poda de redes neurais e encontraram um limiar abrupto: redes exibem “uma transição de uma fase cooperativa e funcional para uma fase desordenada com desempenho colapsado”.² Abaixo do limiar, remover conexões mal afeta a função. No limiar, a função colapsa abruptamente. A transição segue leis de escala consistentes com comportamento crítico de segunda ordem — a mesma matemática que descreve gelo derretendo em água.

O paralelo com a curadoria de conhecimento é direto. Meu pipeline de pontuação de sinais reduziu o Inbox de 14.771 notas para 5.886 por meio de um limiar de relevância. As mesmas dinâmicas de contexto composto que fazem a memória de agentes acumular valor também se aplicam aqui: o valor de cada nota depende de suas conexões, não apenas do seu conteúdo. A redução melhorou a qualidade da busca: menos resultados de baixa relevância, clusters mais coesos, recuperação mais rápida. Porém, sinais foram perdidos? A simplificação cruzou um limiar de transição de fase?

A pesquisa sobre poda sugere que a resposta depende da conectividade, não da quantidade. Remover nós isolados (notas sem vizinhos semânticos) tem impacto negligenciável na função da rede. Remover nós-ponte (notas que conectam clusters que de outra forma estariam separados) pode colapsar a estrutura mesmo que as notas removidas pareçam individualmente pouco importantes.

Meu pipeline de triagem elevou o limiar de relevância de 0,30 para 0,40. A redução de 60% no tamanho do inbox foi medida por contagem. Eu não medi o impacto na topologia. Uma estratégia de curadoria consciente de transições de fase deveria:

Identificar notas-ponte antes da filtragem (notas com alta centralidade de intermediação no grafo de similaridade)
Isentar notas-ponte da filtragem por relevância independentemente de suas pontuações individuais
Monitorar métricas de conectividade entre clusters após cada passo de curadoria
Alertar quando um passo de curadoria reduz a densidade de pontes inter-cluster abaixo de um limiar

# Sketch: bridge note detection before curation
def identify_bridge_notes(embeddings, threshold=0.7):
    """Find notes that connect otherwise-separate clusters."""
    from sklearn.neighbors import NearestNeighbors
    nn = NearestNeighbors(n_neighbors=10, metric='cosine')
    nn.fit(embeddings)
    distances, indices = nn.kneighbors(embeddings)

    # Bridge score: how many of a note's neighbors are from
    # different clusters than the note itself
    bridge_scores = []
    for i, neighbors in enumerate(indices):
        own_cluster = labels[i]
        cross_cluster = sum(1 for n in neighbors if labels[n] != own_cluster)
        bridge_scores.append(cross_cluster / len(neighbors))

    return bridge_scores

Diagnosticando Sua Topologia de Conhecimento

Você não precisa de 15.000 notas para analisar sua topologia de conhecimento. Qualquer coleção de 100+ notas com embeddings revelará estrutura. Se você usa o Obsidian como infraestrutura de IA, já tem a matéria-prima — os dezessete mil sinais no meu vault começaram como capturas diárias simples. Três perguntas diagnósticas:

1. Quantos Clusters Existem?

Execute k-means ou DBSCAN nos seus embeddings e conte os clusters distintos. Menos de 3 sugere topologia centralizada. Entre 3 e 8 sugere descentralizada. Mais de 8 pode indicar uma topologia genuinamente distribuída ou curadoria insuficiente (muitos clusters significa muitos tópicos, o que pode significar nenhuma profundidade em nenhum deles).

2. Quão Densas São as Pontes?

Para cada par de clusters, conte as notas que têm vizinhos mais próximos em ambos os clusters. Uma densidade de ponte abaixo de 2% do tamanho do cluster menor indica um potencial silo. Minha ponte Design-para-Desenvolvimento é de aproximadamente 1,4% — abaixo do limiar, confirmando o ponto cego que observei.

3. Qual Percentual Está Órfão?

Uma nota órfã não tem vizinho dentro de um limiar de similaridade de cosseno (tipicamente 0,7). Notas órfãs não são necessariamente ruins — podem representar ideias genuinamente originais. Porém, uma taxa de órfãos acima de 15% sugere captura inconsistente (notas que não correspondem ao seu domínio de conhecimento) ou problemas na qualidade dos embeddings.

Taxa de órfãos do meu vault: aproximadamente 8%. A maioria dos órfãos são capturas brutas do Inbox que ainda não foram processadas em notas estruturadas. A taxa cai para 3% ao excluir o Inbox, indicando que notas processadas se integram bem à topologia existente.

Explorador do Espaço de Embeddings: Este componente interativo exibe 500 notas de amostra de um vault de 15.800 arquivos projetadas em espaço 3D. Os pontos são codificados por cor segundo o cluster temático. Passe o mouse para ver títulos das notas e vizinhos mais próximos. Ajuste o limiar de similaridade para revelar a topologia de conexões — limiares baixos mostram apenas clusters coesos, limiares altos revelam conexões-ponte entre tópicos.

O Que os Clusters Revelam

A visualização acima usa 500 chunks amostrados aleatoriamente do meu vault. Os clusters mapeiam vizinhanças intelectuais reais.

O hub de IA & ML (26% dos chunks) é o cluster mais denso. Arquitetura Claude Code, padrões de design de agentes, artigos de pesquisa em LLM e técnicas de engenharia de prompts formam uma vizinhança coesa. A densidade reflete volume: eu leio e capturo mais conteúdo de IA/ML do que qualquer outra categoria. A densidade também cria uma vantagem na qualidade da busca — consultas nesse domínio retornam resultados altamente relevantes porque o espaço de embeddings é bem populado.

O hub de Design (14%) fica a uma distância do hub de IA & ML. Sistemas tipográficos, ciência da cor, padrões de componentes de UI e referências de design visual formam seu próprio cluster. A separação é apropriada: design e engenharia de IA usam vocabulários diferentes, frameworks de raciocínio diferentes e critérios de avaliação diferentes. Contudo, a separação também significa que consultas como “como a saída de um agente deve ser formatada para revisão por desenvolvedores” caem na lacuna entre os dois clusters, retornando resultados de um lado ou do outro, mas raramente da interseção.

O hub de Desenvolvimento (10%) se sobrepõe mais com IA & ML do que com Design. Padrões FastAPI, design de bancos de dados e arquitetura SwiftUI compartilham vocabulário conceitual com as notas de engenharia de IA (ambos discutem código, arquitetura, testes). A sobreposição de vocabulário produz uma zona híbrida onde notas de DevOps-para-agentes e infraestrutura-para-IA coexistem.

O halo do Inbox (28%) envolve tudo. Capturas brutas, sinais não classificados e bookmarks não processados formam uma nuvem esparsa com conexões fracas aos clusters estabelecidos. O pipeline de pontuação de sinais que reduziu o Inbox de 14.771 para 5.886 notas eliminou principalmente desse halo: notas com baixa similaridade a qualquer cluster estabelecido.

O cluster de Inspiração (6%) ocupa uma posição entre Design e Inbox. Referências de tipografia cinética, estudos de motion design e capturas de arte visual formam uma vizinhança solta. O cluster existe porque eu capturo inspiração visual de forma consistente, mas raramente processo essas capturas em notas estruturadas. O cluster revela um padrão: eu consumo inspiração visual amplamente, mas produzo trabalho de design de forma restrita. A lacuna entre consumo e produção é visível na topologia como um cluster com alta densidade de entrada (capturas) mas poucas conexões de saída (notas que constroem sobre a inspiração).

Pontes entre clusters são as características mais interessantes. A ponte mais fina conecta Design e Desenvolvimento: aproximadamente 1,4% das notas do cluster menor têm vizinhos mais próximos em ambos os clusters. Compare com a ponte IA-para-Desenvolvimento em 8,3%, que reflete o quanto do meu trabalho de desenvolvimento envolve infraestrutura de IA. A densidade das pontes prevê onde trabalho original emerge. Meu post sobre boids-para-agentes surgiu de uma nota-ponte que conectava pesquisa sobre comportamento emergente (cluster de IA & ML) com implementação de algoritmos de flocking (cluster de Desenvolvimento). Sem a ponte, esses dois corpos de notas nunca teriam colidido.

A topologia também molda a qualidade da recuperação. O recuperador híbrido que alimenta a busca do meu vault usa tanto correspondência de palavras-chave BM25 quanto similaridade vetorial — mas sua eficácia depende da estrutura de clusters subjacente. Consultas que caem em clusters densos retornam resultados precisos; consultas que caem entre clusters precisam do fallback BM25 para cobrir a lacuna.

Um segundo banco de dados de embeddings existe ao lado do vault: o DB de busca do toolchain com 4.518 chunks em 653 arquivos.⁵ A topologia do toolchain é radicalmente diferente: um único cluster denso (configuração do Claude Code) com pequenos clusters satélite para testes, hooks e skills. A topologia de monocultura funciona para um toolchain porque um toolchain tem um único propósito. Um vault de conhecimento com topologia de monocultura seria um sinal de alerta.

Remodelando Sua Topologia

A topologia não é fixa. Quatro ações deliberadas remodelam a estrutura de conhecimento.

Escreva notas-ponte. Se dois clusters carecem de conexões, escreva notas que conectem explicitamente conceitos entre eles. Minha ponte Design-para-IA é fina porque raramente escrevo sobre design de interfaces de agentes. Uma nota intitulada “Padrões de UX para Saída de Agentes” que cita tanto princípios de design quanto pesquisa em arquitetura de agentes criaria um ponto de ponte.

Detecte órfãos. Execute uma varredura mensal de órfãos e decida: integrar, arquivar ou deletar. Notas órfãs que representam ideias nascentes devem ser conectadas por meio de notas-ponte aos clusters existentes. Notas órfãs que representam referências pontuais podem ser arquivadas.

Monitore após a curadoria. Antes e depois de qualquer curadoria em lote (deletar, arquivar, filtrar), meça a conectividade entre clusters. Se a densidade de pontes inter-cluster cair, a curadoria removeu notas-ponte que deveriam ser preservadas.

Leia nas fronteiras. Os alvos de leitura mais valiosos não estão mais fundo no seu cluster mais denso. Estão nas bordas entre clusters. Um artigo que faz ponte entre engenharia de IA e design visual gerará mais conexões originais do que outro artigo aprofundando o cluster de IA já denso.

Principais Conclusões

Espaços de embeddings dão forma às bases de conhecimento. Essa forma revela a topologia intelectual: onde você concentra atenção, onde a evita e onde ideias se conectam entre domínios.
Três topologias têm modos de falha diferentes. Centralizada é frágil. Descentralizada se fragmenta sem notas-ponte. Distribuída é cara de manter, mas a mais rica para navegação.
Transições de fase tornam a curadoria não-linear. Remover notas abaixo de um limiar mal afeta a estrutura. No limiar, a função colapsa. Notas-ponte devem ser identificadas e protegidas antes de qualquer curadoria em lote.
O halo do Inbox é a fronteira da curadoria. Capturas brutas formam uma nuvem esparsa ao redor dos clusters estabelecidos. A pontuação de sinais filtra o halo, mas a topologia revela se a filtragem preservou ou destruiu conexões-ponte.
Leia nas fronteiras. As notas de maior valor conectam clusters, não os aprofundam. Detecção de órfãos e métricas de densidade de pontes orientam as prioridades de leitura.

FAQ

O que são text embeddings e como representam conhecimento?

Text embeddings convertem passagens de texto em listas de números (vetores) em um espaço de alta dimensionalidade onde distância corresponde a significado semântico. Duas passagens sobre tópicos similares ficam próximas independentemente de compartilharem palavras. Um modelo de embeddings de 256 dimensões como o potion-base-8M converte cada chunk de texto em 256 coordenadas. Quando aplicado a uma base de conhecimento inteira, a coleção de vetores forma uma estrutura espacial onde clusters, pontes e lacunas revelam a topologia intelectual do conteúdo.

Como posso visualizar o espaço de embeddings do meu vault do Obsidian?

Gere embeddings para suas notas usando um modelo de embeddings de sentenças (o potion-base-8M do Model2Vec é rápido e gratuito), depois projete os vetores de alta dimensão para 2D ou 3D usando UMAP. Armazene os embeddings em um banco de dados (SQLite com a extensão vec funciona bem), execute a projeção UMAP e visualize com qualquer biblioteca de plotagem 3D. A nuvem de pontos resultante revela a estrutura de clusters do seu vault: regiões densas onde você escreve frequentemente, lacunas esparsas entre tópicos e zonas de ponte onde diferentes domínios se cruzam.

O que é uma transição de fase na curadoria de conhecimento?

Uma transição de fase na curadoria de conhecimento é um limiar onde a remoção de notas causa o colapso abrupto da estrutura de conhecimento, em vez de uma degradação gradual. Pesquisas sobre poda de redes neurais mostram que redes mantêm sua função conforme conexões são removidas, até um limiar abrupto onde o desempenho colapsa. A mesma dinâmica se aplica a bases de conhecimento: remover notas isoladas e de baixo valor tem impacto mínimo, mas remover notas-ponte que conectam clusters pode fragmentar a topologia mesmo que essas notas pareçam individualmente pouco importantes. A curadoria consciente de transições de fase identifica e protege notas-ponte antes da filtragem.

Quantas notas preciso para uma análise de topologia significativa?

Estrutura significativa de clusters emerge a partir de aproximadamente 100 notas com embeddings. Menos de 100 notas podem não formar clusters distintos. Entre 100 e 500 notas revela topologia básica (2-4 clusters). Entre 500 e 5.000 notas revela estrutura detalhada com zonas de ponte e padrões de órfãos. Acima de 5.000 notas, a topologia se estabiliza e notas adicionais aprofundam clusters existentes mais do que criam novos. A métrica-chave não é a contagem total, mas a diversidade de clusters: suas notas abrangem pelo menos três áreas temáticas distintas?

Como embeddings do Obsidian diferem de um knowledge graph?

Um knowledge graph conecta notas por meio de links explícitos que você cria manualmente (backlinks, tags, MOCs). Embeddings conectam notas por meio de similaridade semântica que o modelo descobre automaticamente. Os dois são complementares: um knowledge graph captura sua estrutura intencional, enquanto embeddings revelam estrutura latente que você nunca criou explicitamente. Notas que não compartilham backlinks podem ficar próximas no espaço de embeddings porque discutem conceitos relacionados em vocabulários diferentes. Usar ambos juntos — grafo para navegação, embeddings para descoberta — produz um segundo cérebro que revela conexões que você de outra forma não perceberia.

Qual é a melhor estratégia de recuperação para um vault grande do Obsidian?

Recuperação híbrida combinando busca por palavras-chave BM25 com similaridade vetorial supera qualquer método isolado. BM25 captura correspondências exatas de terminologia que embeddings podem perder, enquanto embeddings capturam similaridade conceitual que busca por palavras-chave não consegue detectar. Reciprocal Rank Fusion (RRF) mescla as duas listas de resultados. Para vaults acima de 10.000 notas, adicionar uma etapa de re-ranking após a recuperação inicial melhora ainda mais a precisão. A topologia do seu vault afeta qual estratégia predomina: clusters densos favorecem busca vetorial, regiões esparsas ou ricas em vocabulário favorecem BM25.

Referências

Kat (@poetengineer__), “Exploring shapes of thoughts: extracted my Obsidian notes’ embeddings and arranged them as a 3D network using 3 different topologies,” posted on X, February 2026. Three topologies: centralized, decentralized, distributed with LLM-labeled edges. ↩↩↩
Pesce, Diego, Yang-Hui He, and Guido Caldarelli, “Phase Transitions in Neural Networks Pruning,” arXiv:2602.15224, February 2026. arxiv.org. Sharp transition from cooperative/functional phase to disordered phase, scaling laws consistent with second-order critical behavior. ↩↩
MinishLab, “Model2Vec: Fast State-of-the-Art Static Embeddings,” 2024. github.com/MinishLab/model2vec. potion-base-8M: 7.6M parameters, 256-dim embeddings, ~90% of all-MiniLM-L6-v2 performance. ↩
McInnes, Leland, John Healy, and James Melville, “UMAP: Uniform Manifold Approximation and Projection for Dimension Reduction,” arXiv:1802.03426, 2018. arxiv.org. Preserves global structure better than t-SNE with superior runtime performance. ↩
Author’s semantic memory system. Model2Vec + sqlite-vec + FTS5 BM25 + RRF hybrid search across 49,746 chunks. Modules: embedder.py, vector_index.py, chunker.py, retriever.py in ~/.claude/lib/memory/. ↩
Author’s signal scoring pipeline. Reduced Inbox from 14,771 to 5,886 notes (60% reduction) through relevance threshold tuning. Documented in The Signal Scoring Pipeline. ↩
Author’s vault topology analysis. 500-point random sample from 49,746 chunks, topic classification by vault directory structure, PCA projection to 3D for interactive visualization. ↩