Arquitectura de memoria para agentes de IA que realmente funciona

En febrero de 2026, construí un sistema de memoria semántica para un harness de orquestación de agentes de IA. El sistema indexa 49.746 fragmentos de texto en 15.800 archivos dentro de una base de datos SQLite local, los recupera mediante búsqueda híbrida BM25 y vectorial fusionada con Reciprocal Rank Fusion, y utiliza similitud coseno entre embeddings de tareas y acciones recientes del agente para detectar cuándo este se desvía de su objetivo.¹ El modelo de embeddings ocupa 8 megabytes. La base de datos ocupa 83 megabytes. Todo el sistema corre en un portátil sin dependencia de la nube.

No leí ningún paper antes de construirlo. Resolví los problemas que tenía: el agente olvidaba contexto entre sesiones, repetía errores que ya había cometido y se desviaba de la tarea sin que nada lo detectara. La arquitectura emergió de esos fallos.

En marzo de 2026, cinco papers de investigación llegaron a la misma arquitectura.

TL;DR

La convergencia: Cinco papers publicados en marzo de 2026 validan de forma independiente los mismos patrones de memoria para agentes que los constructores en producción habían lanzado meses antes. Recuperación híbrida con fusión RRF, skills almacenados como markdown estructurado, minería de trayectorias para modos de fallo y memoria con compuerta para prevenir la deriva.
La evidencia: Structured Distillation probó 20 configuraciones de búsqueda vectorial y 20 configuraciones BM25 en 4.182 conversaciones. La búsqueda vectorial pura resultó estadísticamente no significativa. BM25 puro degradó el rendimiento. Solo la recuperación híbrida cross-layer funcionó.² Mi sistema usa exactamente esta arquitectura.
Los números en producción: 49.746 fragmentos, 15.800 archivos, base de datos de 83 MB, modelo de embeddings de 8 MB, 12 incidentes de deriva detectados con 100% de precisión en un umbral de coseno de 0,30.¹
Los números de investigación: Memento-Skills logró una mejora relativa del 116% en Humanity’s Last Exam usando skills almacenados como archivos markdown.³ Trajectory-Informed Memory alcanzó una mejora de 28,5 puntos porcentuales en tareas complejas.⁴ SuperLocalMemory obtuvo 74,8% en LoCoMo sin ninguna llamada a la nube.⁵
Qué significa esto: Los patrones son correctos. Cuando constructores e investigadores convergen en la misma arquitectura sin coordinarse, es probable que esa arquitectura sea óptima para el espacio del problema. La memoria de agentes no es un problema de investigación esperando un avance. Es un problema de ingeniería con soluciones conocidas que la mayoría de los equipos aún no ha implementado.

Cinco papers que validan la misma arquitectura de memoria para agentes

La recuperación híbrida es la única arquitectura que funciona

Sydney Lewis probó 40 configuraciones de recuperación en 4.182 conversaciones que contenían 14.340 intercambios de seis proyectos de ingeniería de software.² El estudio comprimió cada intercambio de un promedio de 371 tokens a 38 tokens usando un formato estructurado de cuatro campos, y luego probó cada combinación de búsqueda vectorial y búsqueda por palabras clave BM25.

El resultado fue inequívoco. Las 20 configuraciones de solo vectores fueron estadísticamente no significativas tras la corrección de Bonferroni. Las 20 configuraciones de solo BM25 degradaron significativamente. Solo la recuperación híbrida cross-layer (combinando ambas) produjo resultados confiables, alcanzando un MRR de 0,759 frente a 0,745 para recuperación verbatim — una compresión de 11x sin pérdida en calidad de recuperación.²

Mi sistema usa FTS5 BM25 para búsqueda por palabras clave y sqlite-vec para búsqueda vectorial de 256 dimensiones, fusionadas mediante Reciprocal Rank Fusion.¹ Elegí esta arquitectura porque la búsqueda vectorial pura fallaba con términos técnicos exactos (nombres de funciones, códigos de error, rutas de archivos), mientras que la búsqueda por palabras clave pura fallaba con similitud semántica. El enfoque híbrido surgió de depurar fallos de recuperación, no de leer la literatura. El paper de Lewis proporciona la prueba estadística de lo que se sentía obvio en la práctica.

Skills como archivos markdown

Memento-Skills introdujo un framework de aprendizaje por refuerzo basado en memoria donde los skills reutilizables se almacenan como archivos markdown estructurados.³ Un ciclo de aprendizaje reflexivo Read-Write selecciona skills relevantes durante la ejecución (Read) y actualiza la biblioteca de skills a partir de nueva experiencia (Write). El sistema logró una mejora relativa del 26,2% en el benchmark General AI Assistants y una mejora relativa del 116,2% en Humanity’s Last Exam, todo sin actualizar parámetros del modelo. La adaptación ocurre enteramente a través de la evolución de skills externalizados.³

Construí exactamente lo mismo diez meses antes. El sistema Learner v2 en mi harness de orquestación detecta patrones de flujo de trabajo semánticos a partir de historiales de sesión usando huellas de rutas de archivos, genera archivos de skills como markdown estructurado con metadatos en frontmatter, y los almacena para activación automática en sesiones futuras.⁶ La biblioteca de skills contiene actualmente 48 skills que van desde evaluación de blogs hasta rutinas de nightcheck y verificación de despliegues. Cada skill comenzó como unas pocas líneas dirigidas a un fallo específico y creció conforme el agente encontraba nuevos casos límite.

Thariq Shihipar de Anthropic confirmó el mismo patrón internamente: “La mayoría de los skills comenzaron como unas pocas líneas y un solo gotcha, y luego crecieron conforme Claude encontraba nuevos casos límite”. Anthropic tiene cientos de skills en uso activo, agrupados en nueve categorías que se mapean limpiamente a las categorías que desarrollé de forma independiente.⁷

La convergencia no es coincidencia. Los archivos markdown son la abstracción correcta para skills de agentes porque son legibles por humanos, controlables por versiones y pueden cargarse en contexto sin overhead de serialización. El modelo puede leerlos, modificarlos y extenderlos usando las mismas capacidades de procesamiento de texto que utiliza para código. Sin fine-tuning, sin actualizaciones de parámetros, sin pipeline de entrenamiento. El archivo de skill es la memoria.

Minería de trayectorias para modos de fallo

Trajectory-Informed Memory Generation, de IBM Research, introdujo un pipeline de cuatro etapas para extraer aprendizajes de las trayectorias de ejecución de agentes.⁴ El sistema analiza patrones semánticos en el razonamiento del agente, identifica decisiones de fallo y recuperación, genera tips de estrategia y optimización, e inyecta aprendizajes personalizados en prompts futuros. En escenarios de AppWorld, el sistema logró ganancias de hasta 14,3 puntos porcentuales en cumplimiento de objetivos, con una mejora de 28,5 puntos porcentuales en tareas complejas — un incremento relativo del 149%.⁴

Yo hice esto a mano. A lo largo de más de 500 sesiones autónomas de codificación entre mayo de 2025 y febrero de 2026, revisé el log de conversación de cada sesión y la telemetría de hooks cuando se requirió intervención humana, luego atribuí una causa raíz principal basada en el primer fallo no detectado en la cadena. Siete modos representan el 94% de todos los fallos: Shortcut Spiral (23%), Confidence Mirage (19%), Good-Enough Plateau (15%), Tunnel Vision (14%), Phantom Verification (12%), Deferred Debt (9%) y Hollow Report (8%).⁸

El paper de IBM automatiza lo que hice manualmente. Su pipeline de cuatro etapas es una formalización del proceso: observar trayectorias, identificar patrones de fallo, extraer aprendizajes, inyectarlos en ejecuciones futuras. El formato de salida difiere (su sistema genera tips en lenguaje natural, el mío genera hooks de shell que interceptan patrones específicos de llamadas a herramientas), pero la arquitectura es la misma. El comentario al NIST que envié en febrero de 2026 argumentaba que las amenazas de agentes son conductuales y que los frameworks existentes no abordan modos de fallo conductuales. El paper de IBM proporciona evidencia independiente de la misma tesis.

La memoria con compuerta previene la deriva

CraniMem introdujo compuertas condicionadas por objetivos con etiquetado de utilidad para sistemas de memoria de agentes.⁹ Un buffer episódico acotado maneja la continuidad a corto plazo. Un grafo de conocimiento estructurado a largo plazo maneja el recall duradero. Un ciclo programado de consolidación reproduce trazas de alta utilidad mientras poda las de baja utilidad. Tanto con entradas limpias como con ruido inyectado, CraniMem superó a RAG vanilla y a Mem0.⁹

Mi sistema de detección de deriva es una versión más simple del mismo principio. Cada 25 llamadas a herramientas, un detector calcula la similitud coseno entre el embedding del prompt original del usuario y una ventana deslizante de las acciones recientes del agente. Cuando la puntuación cae por debajo de 0,30, el sistema inyecta una advertencia que contiene el prompt original. En las doce activaciones por debajo del umbral a lo largo de 60 sesiones, el agente había perdido verificablemente el hilo de la tarea. Por encima del umbral, ninguna sesión requirió intervención manual por deriva.¹

CraniMem aplica compuertas a la memoria en la capa de almacenamiento: evita que información irrelevante entre en la memoria a largo plazo. Mi sistema aplica compuertas al comportamiento en la capa de ejecución: detecta cuándo las acciones actuales del agente divergen de la tarea asignada. Ambos abordan el mismo modo de fallo — la contaminación de contexto — en capas diferentes. El principio de compuerta es el mismo. La información irrelevante degrada el rendimiento del agente ya sea que entre en la memoria o en el contexto de ejecución actual.

Memoria local-first a escala de producción

SuperLocalMemory alcanzó 74,8% en el benchmark LoCoMo sin ninguna llamada a la nube de API, superando a Mem0 (66,9%) por 16 puntos porcentuales.⁵ El sistema utiliza Reciprocal Rank Fusion de cuatro canales: recuperación geométrica Fisher-Rao, recuperación léxica BM25, recorrido de grafo de entidades y recuperación temporal. Con una capa de síntesis LLM añadida, la puntuación alcanza 87,7%.⁵

Mi sistema usa RRF de dos canales (vectorial + BM25) sobre la misma arquitectura fundamental.¹ SuperLocalMemory agrega distancia geométrica Fisher-Rao y recorrido de grafo de entidades como canales de recuperación adicionales. Los canales extra mejoran la precisión en benchmarks conversacionales. Si importan para la memoria de agentes en flujos de trabajo de codificación es una pregunta abierta — mi sistema de dos canales no ha producido fallos de recuperación que un tercer o cuarto canal habría detectado.

El hallazgo significativo no es la cantidad específica de canales. El hallazgo significativo es que la memoria local-first con recuperación híbrida supera a los sistemas dependientes de la nube que usan modelos más grandes e infraestructura más costosa. El Modo A de SuperLocalMemory (sin nube) supera al sistema de Mem0 con nube. Mi sistema corre sobre un modelo de embeddings de 8 MB en una base de datos SQLite local. El techo de rendimiento para la memoria de agentes no está limitado por el tamaño del modelo o el cómputo en la nube. Está limitado por la arquitectura de recuperación.

La memoria de agentes es un problema de ingeniería, no de investigación

La relación habitual entre investigación y producción es: los investigadores descubren, los profesionales implementan. La memoria de agentes en marzo de 2026 invirtió esta dinámica. Los constructores en producción lanzaron primero. Los investigadores formalizaron los mismos patrones semanas o meses después, con evaluación rigurosa que confirmó lo que los constructores habían observado empíricamente.

Este patrón de convergencia tiene una implicación específica: la memoria de agentes no es un problema de investigación esperando un avance. La arquitectura es conocida. Recuperación híbrida con fusión RRF. Skills externalizados como texto estructurado. Minería de trayectorias para patrones de fallo. Memoria con compuerta para prevenir la contaminación de contexto. Cada componente existe, funciona y ha sido validado independientemente tanto por despliegue en producción como por investigación controlada.

La brecha no es de conocimiento. La brecha es de adopción. Una encuesta de marzo de 2026 sobre mecanismos de memoria para agentes encontró que la mayoría de los sistemas en producción aún usan memoria no persistente o simple stuffing de ventana de contexto.¹⁰ Solo el 21% de los ejecutivos empresariales tiene visibilidad completa sobre lo que acceden sus agentes, y el 86% reporta no tener visibilidad sobre las aproximadamente 1.200 aplicaciones de IA no oficiales en su organización.¹¹ Los agentes que fallan de forma más peligrosa no son los que carecen de modelos capaces. Son los que no tienen memoria de sus propios fallos.

Los papers de investigación que llegaron en marzo de 2026 no están descubriendo territorio nuevo. Están dibujando el mapa de un territorio donde los constructores ya vivían. El mapa es útil. La prueba estadística de Structured Distillation de que la recuperación híbrida supera a la búsqueda vectorial pura le ahorra al próximo constructor tener que redescubrirlo mediante depuración. La demostración de Memento-Skills de que skills-as-markdown logra una mejora del 116% sin actualizaciones de parámetros le da al próximo equipo confianza para saltarse el pipeline de fine-tuning. El paper de trayectorias de IBM automatiza lo que yo hice manualmente a lo largo de 500 sesiones.

Pero el mapa existe porque el territorio ya estaba poblado. Los constructores llegaron primero.

FAQ

¿Qué modelo de embeddings debería usar para memoria de agentes?

Para aplicaciones local-first sensibles a la latencia, el potion-base-8M de Model2Vec (256 dimensiones, 8 MB en disco) ofrece la mejor relación entre calidad y velocidad — 50 veces más pequeño y 500 veces más rápido que los embeddings de transformers completos.¹² Para recuperación de mayor calidad donde la latencia es menos crítica, potion-base-32M o un modelo sentence transformer completo lo superará. El modelo de embeddings importa menos que la arquitectura de recuperación. Un buen sistema de recuperación híbrida con un modelo de embeddings pequeño supera a la búsqueda vectorial pura con uno grande.²

¿Es suficiente RAG para memoria de agentes?

RAG vanilla (recuperar fragmentos, meterlos en contexto) es mejor que no tener memoria y peor que la memoria estructurada. El paper de CraniMem lo demostró directamente: la memoria con compuerta y poda basada en utilidad supera a RAG vanilla tanto en condiciones limpias como ruidosas.⁹ El modo de fallo práctico de RAG vanilla en sistemas de agentes es la contaminación de contexto — recuperar información tangencialmente relevante que hace que el agente se desvíe de la tarea. La compuerta (decidir qué no recuperar) importa tanto como la calidad de recuperación.

¿Necesito una base de datos vectorial?

No. SQLite con la extensión sqlite-vec maneja 49.746 vectores en un archivo de 83 MB con tiempos de consulta por debajo del segundo.¹ A menos que estés indexando millones de documentos o necesites acceso distribuido, una base de datos SQLite local es más simple, más rápida de configurar y elimina una dependencia de infraestructura. SuperLocalMemory alcanzó 74,8% en LoCoMo sin ninguna llamada a la nube usando una arquitectura local.⁵

¿Cómo detecto la deriva de un agente?

Calcula la similitud coseno entre el embedding del prompt de la tarea original y una ventana deslizante de las acciones recientes del agente (yo uso las 25 llamadas a herramientas más recientes). Establece un umbral empíricamente. El mío es 0,30, calibrado a lo largo de 60 sesiones: las 12 activaciones por debajo del umbral fueron deriva verdadera, ninguna sesión por encima del umbral requirió intervención. El umbral variará según el dominio de la tarea y el modelo de embeddings. Empieza en 0,30 y ajusta según la tasa de falsos positivos.¹

¿Cuál es la relación entre la memoria de agentes y la seguridad de agentes?

Directa. Los siete modos de fallo que catalogué de más de 500 sesiones son patrones conductuales que se repiten entre agentes, modelos y tareas. Sin memoria de fallos pasados, cada sesión redescubre los mismos errores. El paper de minería de trayectorias de IBM lo demostró cuantitativamente: los agentes con acceso a aprendizajes de trayectorias previas lograron una mejora del 149% en tareas complejas.⁴ La memoria no solo mejora la capacidad. Evita que el agente repita patrones de fallo conocidos.

Blake Crosley, “What I Told NIST About AI Agent Security,” blakecrosley.com, February 2026. Memory system architecture: Model2Vec potion-base-8M, sqlite-vec + FTS5 BM25, RRF fusion, 49,746 chunks, 15,800 files, 83MB database. ↩↩↩↩↩↩↩
Sydney Lewis, “Structured Distillation for Personalized Agent Memory,” arXiv:2603.13017, March 2026. 4,182 conversations, 14,340 exchanges, 11x compression, MRR 0.759 (hybrid) vs 0.745 (verbatim). ↩↩↩↩
Huichi Zhou et al., “Memento-Skills: Let Agents Design Agents,” arXiv:2603.18743, March 2026. 17 authors. 116.2% relative improvement on Humanity’s Last Exam. ↩↩↩
Gaodan Fang et al., “Trajectory-Informed Memory Generation for Self-Improving Agent Systems,” arXiv:2603.10600, March 2026. IBM Research. 14.3pp gains, 28.5pp on complex tasks (149% relative increase). ↩↩↩↩
SuperLocalMemory, GitHub and arXiv:2603.14588, March 2026. 4-channel RRF fusion. Mode A (zero cloud): 74.8% LoCoMo. Mode C: 87.7%. ↩↩↩↩
Blake Crosley, “What Actually Breaks When You Run AI Agents Unsupervised,” blakecrosley.com, February 2026. Learner v2 skill generation from semantic workflow detection. ↩
Thariq Shihipar, “Lessons from Building Claude Code: How We Use Skills,” LinkedIn, March 2026. Nine skill categories, hundreds in active use at Anthropic. ↩
Blake Crosley, “What Actually Breaks When You Run AI Agents Unsupervised,” blakecrosley.com, February 2026. Seven failure modes from 500+ sessions: Shortcut Spiral, Confidence Mirage, Good-Enough Plateau, Tunnel Vision, Phantom Verification, Deferred Debt, Hollow Report. ↩
Pearl Mody et al., “CraniMem: Cranial Inspired Gated and Bounded Memory for Agentic Systems,” arXiv:2603.15642, March 2026. Goal-conditioned gating, utility-based pruning. ↩↩↩
Pengfei Du, “Memory for Autonomous LLM Agents: Mechanisms, Evaluation, and Emerging Frontiers,” arXiv:2603.07670, March 2026. Survey of five mechanism families. ↩
Help Net Security, “Enterprise AI Agent Security in 2026,” March 2026. ↩
Model2Vec, GitHub. potion-base-8M: 256 dimensions, 8MB, 50x size reduction, 500x faster inference. ↩