Topologías del pensamiento: Obsidian en el espacio de embeddings
15.800 notas. 49.746 fragmentos. Cada fragmento, un vector de 256 dimensiones. Ejecuté UMAP sobre el conjunto de datos completo, lo proyecté a tres dimensiones y roté el resultado lentamente en pantalla. Mi segundo cerebro tenía una forma, y esa forma revelaba algo que las notas por sí solas nunca me dijeron: mi trabajo intelectual se agrupa en torno a tres núcleos densos (Claude Code, sistemas de diseño, investigación en IA) conectados por puentes delgados de notas de intersección, rodeados de un halo disperso de señales huérfanas que no se conectan con nada.
La forma de tu conocimiento te dice dónde piensas, dónde evitas pensar y dónde tus ideas tienen espacio para colisionar. La misma arquitectura de contexto que estructura el comportamiento de los agentes estructura el conocimiento humano.
En resumen: Proyectar 15.800 notas de Obsidian en un espacio de embeddings de 256 dimensiones revela tres topologías de conocimiento — centralizada, descentralizada y distribuida — cada una con modos de fallo distintos. Las notas puente entre clústeres impulsan las ideas más novedosas, y la investigación sobre transiciones de fase demuestra que una curación descuidada puede colapsar la estructura de tu conocimiento en un umbral abrupto.
TL;DR
Los espacios de embeddings otorgan a las bases de conocimiento una estructura espacial que revela su topología intelectual. Kat (@poetengineer__) demostró tres topologías para bóvedas de Obsidian: centralizada (una idea central que conecta todo), descentralizada (núcleos temáticos agrupados) y distribuida (aristas entre ideas etiquetadas por relaciones semánticas).1 Mi bóveda de 15.800 archivos con 49.746 fragmentos exhibe una topología descentralizada con tres clústeres dominantes. El trabajo de Pesce et al. sobre transiciones de fase en la poda de redes neuronales proporciona un marco matemático para comprender cuándo la simplificación (curación, archivado, filtrado) cruza un umbral que quiebra la función de la estructura de conocimiento.2 A continuación: qué capturan los embeddings, tres topologías de conocimiento con datos reales de la bóveda, cómo diagnosticar tu propia topología y un explorador interactivo construido a partir de mi bóveda real.
Qué capturan realmente los embeddings
Un embedding de texto convierte un pasaje de texto en una lista de números. El post sobre el visualizador de tokenización cubrió cómo el texto se convierte en tokens. Los embeddings van más allá: los tokens se transforman en coordenadas en un espacio de alta dimensionalidad donde la distancia corresponde al significado.
Dos pasajes sobre “hooks de Claude Code para inyección de contexto” quedan cerca en el espacio de embeddings. Un pasaje sobre “hooks de Claude Code” y un pasaje sobre “navegación SwiftUI en iOS” quedan lejos. La distancia no es coincidencia de palabras clave. Dos pasajes pueden no compartir ninguna palabra y aun así quedar cerca si discuten los mismos conceptos. Dos pasajes pueden compartir muchas palabras (“el sistema procesa los datos”) y quedar lejos si el contexto circundante difiere.
Mi bóveda usa el modelo potion-base-8M de Model2Vec: 7,6 millones de parámetros que producen embeddings de 256 dimensiones.3 El modelo se destila de un sentence transformer más grande (bge-base-en-v1.5) y alcanza aproximadamente el 90% del rendimiento de all-MiniLM-L6-v2 mientras funciona como modelo estático — órdenes de magnitud más rápido tanto en CPU como en GPU. Cada uno de los 49.746 fragmentos de mi bóveda se convierte en un punto en un espacio de 256 dimensiones.
256 dimensiones son imposibles de visualizar directamente. Las técnicas de reducción de dimensionalidad como UMAP proyectan la estructura de alta dimensionalidad a 2D o 3D preservando los vecindarios locales.4 Los puntos que estaban cerca en 256 dimensiones permanecen cerca en 3 dimensiones. La estructura global es aproximada, pero los clústeres son reales.
Tres topologías del conocimiento
La exploración de Kat sobre embeddings de notas de Obsidian identificó tres topologías de conocimiento distintas.1 Cada topología refleja una estructura intelectual diferente, y cada una tiene modos de fallo distintos.
Centralizada: una idea central que conecta todo
En una topología centralizada, la mayoría de las notas se conectan a través de un único tema dominante. El espacio de embeddings muestra un clúster denso en el centro con tentáculos delgados que se extienden hacia afuera. Un desarrollador que escribe exclusivamente sobre React vería esta topología: React es el núcleo, y cada nota sobre testing, gestión de estado, despliegue y herramientas se conecta a través de él.
Fortaleza: Experiencia profunda en el dominio central. La búsqueda funciona bien porque la mayoría de las consultas aterrizan en el mismo vecindario.
Modo de fallo: Fragilidad. Si el tema central se vuelve irrelevante (un cambio de carrera, la obsolescencia de una tecnología), toda la estructura de conocimiento pierde su principio organizador. Las notas que solo tienen sentido en relación con el centro quedan huérfanas.
Descentralizada: núcleos temáticos agrupados
En una topología descentralizada, las notas forman varios clústeres distintos conectados por notas puente. Mi bóveda exhibe esta topología con tres núcleos dominantes:
| Clúster | Fragmentos | % del total | Temas clave |
|---|---|---|---|
| IA & ML | ~13.100 | 26% | Claude Code, arquitectura de agentes, investigación en LLM |
| Diseño | ~7.200 | 14% | Sistemas de UI, tipografía, ciencia del color, diseño visual |
| Desarrollo | ~5.100 | 10% | FastAPI, SwiftUI, ingeniería web, bases de datos |
| Bandeja de entrada (sin procesar) | ~13.700 | 28% | Señales sin filtrar, capturas sin clasificar |
El 22% restante se distribuye entre Inspiración, Productividad, Ciencia y categorías menores.
Fortaleza: Resiliencia. Perder un clúster no destruye los demás. Las conexiones interdisciplinarias se forman en las fronteras entre clústeres, generando las ideas más novedosas.
Modo de fallo: Fragmentación. Si las notas puente entre clústeres son demasiado escasas, los clústeres se convierten en silos intelectuales. Mi bóveda tiene un puente delgado entre Diseño e Claude Code (notas sobre diseño de interfaces de agentes, patrones de interfaz de prompts) pero casi ningún puente entre Diseño y Desarrollo puro (las notas de arquitectura backend rara vez se conectan con el diseño visual). La brecha es un punto ciego: pienso en diseño y pienso en ingeniería backend, pero rara vez pienso en ambos juntos.
Distribuida: aristas etiquetadas por relaciones
En una topología distribuida, las conexiones entre notas llevan etiquetas semánticas que describen cómo se relacionan las ideas. La implementación de Kat usó un LLM para generar etiquetas de aristas entre notas vecinas.1 En lugar de proximidad anónima, cada conexión tiene una descripción: “contradice”, “extiende”, “proporciona evidencia para”, “se aplica en un dominio diferente”.
Fortaleza: Navegabilidad. Una topología distribuida responde no solo “¿qué está relacionado?” sino “¿cómo está relacionado?” El etiquetado permite razonamiento de orden superior: encontrar notas que contradicen una tesis, no solo notas que la mencionan.
Modo de fallo: Costo. Generar etiquetas de aristas para cada par de conexiones escala cuadráticamente. Para los 49.746 fragmentos de mi bóveda, el etiquetado exhaustivo de aristas requeriría aproximadamente 1.200 millones de llamadas al LLM. Las implementaciones prácticas etiquetan solo aristas dentro de un umbral de similitud.
Transiciones de fase: cuando la simplificación quiebra la estructura
Pesce, He y Caldarelli estudiaron las transiciones de fase en la poda de redes neuronales y encontraron un umbral abrupto: las redes exhiben “una transición de una fase cooperativa y funcional a una fase desordenada con rendimiento colapsado”.2 Por debajo del umbral, eliminar conexiones apenas afecta la función. En el umbral, la función colapsa abruptamente. La transición sigue leyes de escala consistentes con comportamiento crítico de segundo orden — la misma matemática que describe el hielo derritiéndose en agua.
El paralelismo con la curación del conocimiento es directo. Mi pipeline de puntuación de señales redujo la bandeja de entrada de 14.771 notas a 5.886 mediante un umbral de relevancia. La misma dinámica de contexto compuesto que hace que la memoria de los agentes acumule valor se aplica aquí: el valor de cada nota depende de sus conexiones, no solo de su contenido. La reducción mejoró la calidad de búsqueda: menos resultados de baja relevancia, clústeres más compactos, recuperación más rápida. Pero, ¿se perdió señal? ¿La simplificación cruzó un umbral de transición de fase?
La investigación sobre poda sugiere que la respuesta depende de la conectividad, no de la cantidad. Eliminar nodos aislados (notas sin vecinos semánticos) tiene un impacto insignificante en la función de la red. Eliminar nodos puente (notas que conectan clústeres que de otro modo estarían separados) puede colapsar la estructura incluso si las notas eliminadas parecen individualmente poco importantes.
Mi pipeline de triaje elevó el umbral de relevancia de 0,30 a 0,40. La reducción del 60% en el tamaño de la bandeja de entrada se midió por cantidad. No medí el impacto en la topología. Una estrategia de curación consciente de las transiciones de fase debería:
- Identificar notas puente antes del filtrado (notas con alta centralidad de intermediación en el grafo de similitud)
- Eximir a las notas puente del filtrado por relevancia independientemente de sus puntuaciones individuales
- Monitorear métricas de conectividad de clústeres después de cada pase de curación
- Alertar cuando un paso de curación reduce la densidad de puentes inter-clúster por debajo de un umbral
# Sketch: bridge note detection before curation
def identify_bridge_notes(embeddings, threshold=0.7):
"""Find notes that connect otherwise-separate clusters."""
from sklearn.neighbors import NearestNeighbors
nn = NearestNeighbors(n_neighbors=10, metric='cosine')
nn.fit(embeddings)
distances, indices = nn.kneighbors(embeddings)
# Bridge score: how many of a note's neighbors are from
# different clusters than the note itself
bridge_scores = []
for i, neighbors in enumerate(indices):
own_cluster = labels[i]
cross_cluster = sum(1 for n in neighbors if labels[n] != own_cluster)
bridge_scores.append(cross_cluster / len(neighbors))
return bridge_scores
Cómo diagnosticar tu topología de conocimiento
No necesitas 15.000 notas para analizar tu topología de conocimiento. Cualquier colección de más de 100 notas con embeddings revelará estructura. Si usas Obsidian como infraestructura de IA, ya tienes la materia prima — las diecisiete mil señales en mi bóveda comenzaron como capturas diarias simples. Tres preguntas diagnósticas:
1. ¿Cuántos clústeres existen?
Ejecuta k-means o DBSCAN sobre tus embeddings y cuenta los clústeres distintos. Menos de 3 sugiere topología centralizada. Entre 3 y 8 sugiere descentralizada. Más de 8 puede indicar una topología genuinamente distribuida o curación insuficiente (muchos clústeres significan muchos temas, lo que puede significar poca profundidad en ninguno de ellos).
2. ¿Qué tan densos son los puentes?
Para cada par de clústeres, cuenta las notas que tienen vecinos más cercanos en ambos clústeres. Una densidad de puente inferior al 2% del tamaño del clúster más pequeño indica un silo potencial. Mi puente Diseño-Desarrollo es de aproximadamente 1,4% — por debajo del umbral, confirmando el punto ciego que observé.
3. ¿Qué porcentaje está huérfano?
Una nota huérfana no tiene ningún vecino dentro de un umbral de similitud coseno (típicamente 0,7). Las notas huérfanas no son necesariamente malas — pueden representar ideas genuinamente novedosas. Pero una tasa de orfandad superior al 15% sugiere captura inconsistente (notas que no coinciden con tu dominio de conocimiento) o problemas con la calidad de los embeddings.
La tasa de orfandad de mi bóveda: aproximadamente 8%. La mayoría de las huérfanas son capturas sin procesar de la bandeja de entrada que no han sido transformadas en notas estructuradas. La tasa de orfandad baja al 3% al excluir la bandeja de entrada, lo que indica que las notas procesadas se integran bien en la topología existente.
Qué revelan los clústeres
La visualización anterior usa 500 fragmentos muestreados aleatoriamente de mi bóveda. Los clústeres se corresponden con vecindarios intelectuales reales.
El núcleo de IA & ML (26% de los fragmentos) es el clúster más denso. Arquitectura de Claude Code, patrones de diseño de agentes, artículos de investigación en LLM y técnicas de ingeniería de prompts forman un vecindario compacto. La densidad refleja volumen: leo y capturo más contenido de IA/ML que de cualquier otra categoría. La densidad también crea una ventaja en la calidad de búsqueda — las consultas en este dominio devuelven resultados altamente relevantes porque el espacio de embeddings está bien poblado.
El núcleo de Diseño (14%) se sitúa a distancia del de IA & ML. Sistemas tipográficos, ciencia del color, patrones de componentes de UI y referencias de diseño visual forman su propio clúster. La separación es apropiada: diseño e ingeniería de IA usan vocabularios diferentes, marcos de razonamiento diferentes y criterios de evaluación diferentes. Pero la separación también significa que consultas como “¿cómo debería formatearse la salida de un agente para revisión por desarrolladores?” caen en la brecha entre ambos clústeres, devolviendo resultados de un lado o del otro, pero rara vez de la intersección.
El núcleo de Desarrollo (10%) se superpone más con IA & ML que con Diseño. Patrones de FastAPI, diseño de bases de datos y arquitectura SwiftUI comparten vocabulario conceptual con las notas de ingeniería de IA (ambos discuten código, arquitectura, testing). La superposición de vocabulario produce una zona mixta donde conviven las notas de DevOps para agentes e infraestructura para IA.
El halo de la bandeja de entrada (28%) rodea todo lo demás. Capturas sin filtrar, señales sin clasificar y marcadores sin procesar forman una nube dispersa con conexiones débiles hacia los clústeres establecidos. El pipeline de puntuación de señales que redujo la bandeja de entrada de 14.771 a 5.886 notas eliminó principalmente de este halo: notas con baja similitud hacia cualquier clúster establecido.
El clúster de Inspiración (6%) ocupa una posición entre Diseño y la bandeja de entrada. Referencias de tipografía cinética, estudios de motion design y capturas de arte visual forman un vecindario difuso. El clúster existe porque capturo inspiración visual de forma consistente pero rara vez proceso esas capturas en notas estructuradas. El clúster revela un patrón: consumo inspiración visual de forma amplia pero produzco trabajo de diseño de forma estrecha. La brecha entre consumo y producción es visible en la topología como un clúster con alta densidad entrante (capturas) pero pocas conexiones salientes (notas que construyen sobre la inspiración).
Los puentes entre clústeres son las características más interesantes. El puente más delgado conecta Diseño y Desarrollo: aproximadamente el 1,4% de las notas del clúster más pequeño tienen vecinos más cercanos en ambos clústeres. Compara eso con el puente IA-Desarrollo al 8,3%, que refleja cuánto de mi trabajo de desarrollo involucra infraestructura de IA. La densidad de los puentes predice dónde surge el trabajo más novedoso. Mi post sobre boids-to-agents surgió de una nota puente que conectaba investigación sobre comportamiento emergente (clúster de IA & ML) con implementación de algoritmos de bandada (clúster de Desarrollo). Sin el puente, esos dos cuerpos de notas nunca habrían colisionado.
La topología también moldea la calidad de la recuperación. El recuperador híbrido que impulsa la búsqueda en mi bóveda usa tanto coincidencia de palabras clave BM25 como similitud vectorial — pero su efectividad depende de la estructura de clústeres subyacente. Las consultas que aterrizan en clústeres densos devuelven resultados precisos; las consultas que caen entre clústeres necesitan el respaldo de BM25 para cerrar la brecha.
Existe una segunda base de datos de embeddings junto a la bóveda: la base de búsqueda del toolchain con 4.518 fragmentos distribuidos en 653 archivos.5 La topología del toolchain es radicalmente diferente: un único clúster denso (configuración de Claude Code) con pequeños clústeres satélite para testing, hooks y skills. La topología de monocultivo funciona para un toolchain porque un toolchain tiene un propósito único. Una bóveda de conocimiento con topología de monocultivo sería una señal de alerta.
Cómo remodelar tu topología
La topología no es fija. Cuatro acciones deliberadas remodelan la estructura del conocimiento.
Escribe notas puente. Si dos clústeres carecen de conexiones, escribe notas que conecten explícitamente conceptos entre ellos. Mi puente Diseño-IA es delgado porque rara vez escribo sobre diseño de interfaces de agentes. Una nota titulada “Patrones de UX para salida de agentes” que cite tanto principios de diseño como investigación en arquitectura de agentes crearía un punto de puente.
Detecta huérfanas. Ejecuta un escaneo mensual de huérfanas y decide: integrar, archivar o eliminar. Las notas huérfanas que representan ideas nacientes deben conectarse mediante notas puente a clústeres existentes. Las notas huérfanas que representan referencias puntuales pueden archivarse.
Monitorea después de curar. Antes y después de cualquier curación masiva (eliminar, archivar, filtrar), mide la conectividad entre clústeres. Si la densidad de puentes inter-clúster disminuye, la curación eliminó notas puente que deberían haberse preservado.
Lee en las fronteras. Los objetivos de lectura más valiosos no están más adentro de tu clúster más denso. Están en los bordes entre clústeres. Un artículo que conecte ingeniería de IA y diseño visual generará más conexiones novedosas que otro artículo profundizando el ya denso clúster de IA.
Conclusiones clave
- Los espacios de embeddings dan forma a las bases de conocimiento. Esa forma revela la topología intelectual: dónde concentras tu atención, dónde la evitas y dónde las ideas se conectan entre dominios.
- Tres topologías tienen modos de fallo diferentes. La centralizada es frágil. La descentralizada se fragmenta sin notas puente. La distribuida es costosa de mantener pero la más rica para la navegación.
- Las transiciones de fase hacen que la curación sea no lineal. Eliminar notas por debajo de un umbral apenas afecta la estructura. En el umbral, la función colapsa. Las notas puente deben identificarse y protegerse antes de cualquier curación masiva.
- El halo de la bandeja de entrada es la frontera de curación. Las capturas sin procesar forman una nube dispersa alrededor de los clústeres establecidos. La puntuación de señales filtra el halo, pero la topología revela si el filtrado preservó o destruyó las conexiones puente.
- Lee en las fronteras. Las notas de mayor valor conectan clústeres, no los profundizan. La detección de huérfanas y las métricas de densidad de puentes guían las prioridades de lectura.
Preguntas frecuentes
¿Qué son los embeddings de texto y cómo representan el conocimiento?
Los embeddings de texto convierten pasajes de texto en listas de números (vectores) en un espacio de alta dimensionalidad donde la distancia corresponde al significado semántico. Dos pasajes sobre temas similares quedan cerca independientemente de si comparten palabras. Un modelo de embeddings de 256 dimensiones como potion-base-8M convierte cada fragmento de texto en 256 coordenadas. Cuando se aplica a toda una base de conocimiento, la colección de vectores forma una estructura espacial donde los clústeres, puentes y vacíos revelan la topología intelectual del contenido.
¿Cómo puedo visualizar el espacio de embeddings de mi bóveda de Obsidian?
Genera embeddings para tus notas usando un modelo de embeddings de oraciones (potion-base-8M de Model2Vec es rápido y gratuito), luego proyecta los vectores de alta dimensionalidad a 2D o 3D usando UMAP. Almacena los embeddings en una base de datos (SQLite con la extensión vec funciona bien), ejecuta la proyección UMAP y visualiza con cualquier biblioteca de gráficos 3D. La nube de puntos resultante revela la estructura de clústeres de tu bóveda: regiones densas donde escribes frecuentemente, vacíos dispersos entre temas y zonas puente donde diferentes dominios se intersectan.
¿Qué es una transición de fase en la curación de conocimiento?
Una transición de fase en la curación de conocimiento es un umbral donde eliminar notas causa que la estructura de conocimiento colapse abruptamente en lugar de degradarse gradualmente. La investigación sobre poda de redes neuronales demuestra que las redes mantienen su función a medida que se eliminan conexiones, hasta un umbral abrupto donde el rendimiento colapsa. La misma dinámica se aplica a las bases de conocimiento: eliminar notas aisladas de bajo valor tiene un impacto mínimo, pero eliminar notas puente que conectan clústeres puede fragmentar la topología incluso si esas notas parecen individualmente poco importantes. La curación consciente de las transiciones de fase identifica y protege las notas puente antes de filtrar.
¿Cuántas notas necesito para un análisis de topología significativo?
La estructura de clústeres significativa emerge a partir de aproximadamente 100 notas con embeddings. Menos de 100 notas pueden no formar clústeres distintos. Entre 100 y 500 notas revela topología básica (2-4 clústeres). Entre 500 y 5.000 notas revela estructura matizada con zonas puente y patrones de orfandad. Por encima de 5.000 notas, la topología se estabiliza y las notas adicionales profundizan los clústeres existentes más de lo que crean nuevos. La métrica clave no es la cantidad total sino la diversidad de clústeres: ¿tus notas abarcan al menos tres áreas temáticas distintas?
¿En qué se diferencian los embeddings de Obsidian de un grafo de conocimiento?
Un grafo de conocimiento conecta notas mediante enlaces explícitos que creas manualmente (backlinks, etiquetas, MOCs). Los embeddings conectan notas mediante similitud semántica que el modelo descubre automáticamente. Ambos son complementarios: un grafo de conocimiento captura tu estructura intencional, mientras que los embeddings revelan estructura latente que nunca creaste explícitamente. Notas que no comparten ningún backlink pueden quedar cerca en el espacio de embeddings porque discuten conceptos relacionados con vocabulario diferente. Usar ambos juntos — el grafo para navegación, los embeddings para descubrimiento — produce un segundo cerebro que revela conexiones que de otro modo pasarías por alto.
¿Cuál es la mejor estrategia de recuperación para una bóveda grande de Obsidian?
La recuperación híbrida que combina búsqueda por palabras clave BM25 con similitud vectorial supera a cualquiera de los dos métodos por separado. BM25 captura coincidencias exactas de terminología que los embeddings pueden pasar por alto, mientras que los embeddings capturan similitud conceptual que la búsqueda por palabras clave no puede detectar. Reciprocal Rank Fusion (RRF) fusiona las dos listas de resultados. Para bóvedas con más de 10.000 notas, agregar un paso de reranking después de la recuperación inicial mejora aún más la precisión. La topología de tu bóveda afecta qué estrategia domina: los clústeres densos favorecen la búsqueda vectorial, las regiones dispersas o con vocabulario especializado favorecen BM25.
Referencias
-
Kat (@poetengineer__), “Exploring shapes of thoughts: extracted my Obsidian notes’ embeddings and arranged them as a 3D network using 3 different topologies,” publicado en X, febrero de 2026. Tres topologías: centralizada, descentralizada, distribuida con aristas etiquetadas por LLM. ↩↩↩
-
Pesce, Diego, Yang-Hui He, y Guido Caldarelli, “Phase Transitions in Neural Networks Pruning,” arXiv:2602.15224, febrero de 2026. arxiv.org. Transición abrupta de fase cooperativa/funcional a fase desordenada, leyes de escala consistentes con comportamiento crítico de segundo orden. ↩↩
-
MinishLab, “Model2Vec: Fast State-of-the-Art Static Embeddings,” 2024. github.com/MinishLab/model2vec. potion-base-8M: 7,6M de parámetros, embeddings de 256 dimensiones, ~90% del rendimiento de all-MiniLM-L6-v2. ↩
-
McInnes, Leland, John Healy, y James Melville, “UMAP: Uniform Manifold Approximation and Projection for Dimension Reduction,” arXiv:1802.03426, 2018. arxiv.org. Preserva la estructura global mejor que t-SNE con rendimiento superior en tiempo de ejecución. ↩
-
Sistema de memoria semántica del autor. Model2Vec + sqlite-vec + FTS5 BM25 + búsqueda híbrida RRF a través de 49.746 fragmentos. Módulos:
embedder.py,vector_index.py,chunker.py,retriever.pyen~/.claude/lib/memory/. ↩ -
Pipeline de puntuación de señales del autor. Redujo la bandeja de entrada de 14.771 a 5.886 notas (reducción del 60%) mediante ajuste del umbral de relevancia. Documentado en The Signal Scoring Pipeline. ↩
-
Análisis de topología de la bóveda del autor. Muestra aleatoria de 500 puntos de 49.746 fragmentos, clasificación temática por estructura de directorios de la bóveda, proyección PCA a 3D para visualización interactiva. ↩