Arquitetura de memória para agentes de IA que realmente funciona

Em fevereiro de 2026, construí um sistema de memória semântica para um harness de orquestração de agentes de IA. O sistema indexa 49.746 fragmentos de texto de 15.800 arquivos em um banco de dados SQLite local, recupera-os por meio de busca híbrida BM25 e vetorial fundida com Reciprocal Rank Fusion, e usa similaridade de cosseno entre embeddings de tarefas e ações recentes do agente para detectar quando ele se desvia do objetivo.¹ O modelo de embedding tem 8 megabytes. O banco de dados tem 83 megabytes. O sistema inteiro roda em um laptop sem dependência de nuvem.

Não li nenhum artigo antes de construí-lo. Resolvi os problemas que tinha: o agente perdia contexto entre sessões, repetia erros que já havia cometido e se desviava do objetivo sem detecção. A arquitetura emergiu dessas falhas.

Em março de 2026, cinco artigos de pesquisa chegaram à mesma arquitetura.

TL;DR

A convergência: Cinco artigos publicados em março de 2026 validam independentemente os mesmos padrões de memória de agentes que desenvolvedores em produção já haviam entregue meses antes. Recuperação híbrida com fusão RRF, skills armazenadas como markdown estruturado, mineração de trajetórias para modos de falha e memória com controle de acesso para prevenir desvio.
A evidência: Structured Distillation testou 20 configurações de busca vetorial e 20 configurações BM25 em 4.182 conversas. Busca vetorial pura foi estatisticamente não significativa. BM25 puro degradou. Apenas recuperação híbrida cross-layer funcionou.² Meu sistema usa exatamente essa arquitetura.
Os números de produção: 49.746 fragmentos, 15.800 arquivos, banco de dados de 83MB, modelo de embedding de 8MB, 12 incidentes de desvio detectados com 100% de precisão em um limiar de cosseno de 0,30.¹
Os números da pesquisa: Memento-Skills alcançou 116% de melhoria relativa no Humanity’s Last Exam usando skills armazenadas como arquivos markdown.³ Trajectory-Informed Memory alcançou 28,5 pontos percentuais de melhoria em tarefas complexas.⁴ SuperLocalMemory alcançou 74,8% no LoCoMo sem nenhuma chamada à nuvem.⁵
O que isso significa: Os padrões estão corretos. Quando desenvolvedores e pesquisadores convergem para a mesma arquitetura sem coordenação, a arquitetura provavelmente é ótima para o espaço do problema. Memória de agentes não é um problema de pesquisa esperando por uma descoberta. É um problema de engenharia com soluções conhecidas que a maioria das equipes ainda não implementou.

Cinco artigos validando a mesma arquitetura de memória para agentes

Recuperação híbrida é a única arquitetura que funciona

Sydney Lewis testou 40 configurações de recuperação em 4.182 conversas contendo 14.340 trocas de seis projetos de engenharia de software.² O estudo comprimiu cada troca de uma média de 371 tokens para 38 tokens usando um formato estruturado de quatro campos, depois testou cada combinação de busca vetorial e busca por palavras-chave BM25.

O resultado foi inequívoco. Todas as 20 configurações somente vetoriais foram estatisticamente não significativas após correção de Bonferroni. Todas as 20 configurações somente BM25 degradaram significativamente. Apenas recuperação híbrida cross-layer (combinando ambas) produziu resultados confiáveis, alcançando MRR 0,759 comparado a 0,745 para recuperação literal — uma compressão de 11x sem perda na qualidade de recuperação.²

Meu sistema usa FTS5 BM25 para busca por palavras-chave e sqlite-vec para busca vetorial de 256 dimensões, fundidas por Reciprocal Rank Fusion.¹ Escolhi essa arquitetura porque busca vetorial pura perdia termos técnicos exatos (nomes de funções, códigos de erro, caminhos de arquivos) enquanto busca por palavras-chave pura perdia similaridade semântica. A abordagem híbrida surgiu da depuração de falhas de recuperação, não da leitura da literatura. O artigo de Lewis fornece a prova estatística para o que parecia óbvio na prática.

Skills como arquivos markdown

Memento-Skills introduziu um framework de aprendizado por reforço baseado em memória onde skills reutilizáveis são armazenadas como arquivos markdown estruturados.³ Um ciclo de Aprendizado Reflexivo de Leitura-Escrita seleciona skills relevantes durante a execução (Leitura) e atualiza a biblioteca de skills a partir de novas experiências (Escrita). O sistema alcançou 26,2% de melhoria relativa no benchmark General AI Assistants e 116,2% de melhoria relativa no Humanity’s Last Exam, tudo sem atualizar parâmetros do modelo. A adaptação acontece inteiramente por meio da evolução de skills externalizadas.³

Construí a mesma coisa dez meses antes. O sistema Learner v2 no meu harness de orquestração detecta padrões semânticos de fluxo de trabalho a partir de históricos de sessão usando fingerprints de caminhos de arquivo, gera arquivos de skill como markdown estruturado com metadados em frontmatter, e os armazena para ativação automática em sessões futuras.⁶ A biblioteca de skills atualmente contém 48 skills que vão desde avaliação de blog até rotinas de verificação noturna e verificação de deploy. Cada skill começou com algumas linhas abordando uma falha específica e cresceu conforme o agente encontrava novos casos extremos.

Thariq Shihipar da Anthropic confirmou o mesmo padrão internamente: “A maioria das skills começou com algumas linhas e um único problema, depois cresceu conforme o Claude encontrava novos casos extremos.” A Anthropic tem centenas de skills em uso ativo, agrupadas em nove categorias que se alinham perfeitamente com as categorias que desenvolvi independentemente.⁷

A convergência não é coincidência. Arquivos markdown são a abstração certa para skills de agentes porque são legíveis por humanos, controláveis por versionamento e podem ser carregados no contexto sem sobrecarga de serialização. O modelo pode lê-los, modificá-los e estendê-los usando as mesmas capacidades de processamento de texto que usa para código. Sem fine-tuning, sem atualização de parâmetros, sem pipeline de treinamento. O arquivo de skill é a memória.

Mineração de trajetórias para modos de falha

Trajectory-Informed Memory Generation, da IBM Research, introduziu um pipeline de quatro estágios para extrair aprendizados de trajetórias de execução de agentes.⁴ O sistema analisa padrões semânticos no raciocínio do agente, identifica decisões de falha e recuperação, gera dicas de estratégia e otimização, e injeta aprendizados sob medida em prompts futuros. Em cenários do AppWorld, o sistema alcançou até 14,3 pontos percentuais de ganho na conclusão de objetivos, com 28,5 pontos percentuais de melhoria em tarefas complexas — um aumento relativo de 149%.⁴

Fiz isso manualmente. Ao longo de mais de 500 sessões de codificação autônoma entre maio de 2025 e fevereiro de 2026, revisei o log de conversa e a telemetria de hooks de cada sessão quando intervenção humana foi necessária, depois atribuí uma causa-raiz primária com base na primeira falha não detectada na cadeia. Sete modos representam 94% de todas as falhas: Espiral de Atalhos (23%), Miragem de Confiança (19%), Platô do Bom o Suficiente (15%), Visão de Túnel (14%), Verificação Fantasma (12%), Dívida Adiada (9%) e Relatório Vazio (8%).⁸

O artigo da IBM automatiza o que fiz manualmente. O pipeline de quatro estágios deles é uma formalização do processo: observar trajetórias, identificar padrões de falha, extrair aprendizados, injetá-los em execuções futuras. O formato de saída difere (o sistema deles gera dicas em linguagem natural, o meu gera hooks de shell que interceptam padrões específicos de chamadas de ferramentas), mas a arquitetura é a mesma. O comentário ao NIST que submeti em fevereiro de 2026 argumentava que ameaças de agentes são comportamentais e que frameworks existentes não abordam modos de falha comportamentais. O artigo da IBM fornece evidência independente para a mesma tese.

Memória com controle de acesso previne desvio

CraniMem introduziu filtragem condicionada por objetivo com etiquetagem de utilidade para sistemas de memória de agentes.⁹ Um buffer episódico limitado lida com continuidade de curto prazo. Um grafo de conhecimento estruturado de longo prazo lida com recordação durável. Um ciclo de consolidação programado reproduz traços de alta utilidade enquanto elimina itens de baixa utilidade. Tanto com entradas limpas quanto com ruído injetado, CraniMem superou RAG padrão e Mem0.⁹

Meu sistema de detecção de desvio é uma versão mais simples do mesmo princípio. A cada 25 chamadas de ferramentas, um detector calcula a similaridade de cosseno entre o embedding do prompt original do usuário e uma janela deslizante das ações recentes do agente. Quando a pontuação cai abaixo de 0,30, o sistema injeta um aviso contendo o prompt original. Em todos os doze disparos abaixo do limiar ao longo de 60 sessões, o agente havia verificadamente perdido o foco da tarefa. Acima do limiar, nenhuma sessão exigiu intervenção manual por desvio.¹

CraniMem filtra a memória no nível de armazenamento: impede que informações irrelevantes entrem na memória de longo prazo. Meu sistema filtra o comportamento no nível de execução: detecta quando as ações atuais do agente divergem da tarefa atribuída. Ambos abordam o mesmo modo de falha — poluição de contexto — em camadas diferentes. O princípio de filtragem é o mesmo. Informações irrelevantes degradam o desempenho do agente, seja entrando na memória ou no contexto de execução atual.

Memória local-first em escala de produção

SuperLocalMemory alcançou 74,8% no benchmark LoCoMo sem nenhuma chamada de API à nuvem, superando o Mem0 (66,9%) por 16 pontos percentuais.⁵ O sistema usa Reciprocal Rank Fusion de quatro canais: recuperação geométrica Fisher-Rao, recuperação lexical BM25, travessia de grafo de entidades e recuperação temporal. Com uma camada de síntese LLM adicionada, a pontuação chega a 87,7%.⁵

Meu sistema usa RRF de dois canais (vetorial + BM25) na mesma arquitetura fundamental.¹ SuperLocalMemory adiciona distância geométrica Fisher-Rao e travessia de grafo de entidades como canais de recuperação adicionais. Os canais extras melhoram a precisão em benchmarks conversacionais. Se eles importam para memória de agentes em fluxos de trabalho de codificação é uma questão em aberto — meu sistema de dois canais não produziu falhas de recuperação que um terceiro ou quarto canal teriam resolvido.

A descoberta significativa não é a contagem específica de canais. A descoberta significativa é que memória local-first com recuperação híbrida supera sistemas dependentes de nuvem que usam modelos maiores e infraestrutura mais cara. O Mode A do SuperLocalMemory (zero nuvem) supera o sistema baseado em nuvem do Mem0. Meu sistema roda em um modelo de embedding de 8MB em um banco de dados SQLite local. O teto de desempenho para memória de agentes não é limitado pelo tamanho do modelo ou computação em nuvem. É limitado pela arquitetura de recuperação.

Memória de agentes é um problema de engenharia, não de pesquisa

A relação usual entre pesquisa e produção é: pesquisadores descobrem, praticantes implementam. A memória de agentes em março de 2026 inverteu isso. Desenvolvedores em produção entregaram primeiro. Pesquisadores formalizaram os mesmos padrões semanas ou meses depois, com avaliação rigorosa confirmando o que os desenvolvedores observaram empiricamente.

Esse padrão de convergência tem uma implicação específica: memória de agentes não é um problema de pesquisa esperando por uma descoberta. A arquitetura é conhecida. Recuperação híbrida com fusão RRF. Skills externalizadas como texto estruturado. Mineração de trajetórias para padrões de falha. Memória com controle de acesso para prevenir poluição de contexto. Cada componente existe, funciona e foi validado independentemente tanto por implantação em produção quanto por pesquisa controlada.

A lacuna não é de conhecimento. A lacuna é de adoção. Uma pesquisa de março de 2026 sobre mecanismos de memória de agentes descobriu que a maioria dos sistemas em produção ainda usa ou nenhuma memória persistente ou simples preenchimento de janela de contexto.¹⁰ Apenas 21% dos executivos empresariais têm visibilidade completa sobre o que seus agentes acessam, e 86% relatam nenhuma visibilidade sobre os aproximadamente 1.200 aplicativos não oficiais de IA em sua organização.¹¹ Os agentes que falham de forma mais perigosa não são os sem modelos capazes. São os sem memória de suas próprias falhas.

Os artigos de pesquisa que chegaram em março de 2026 não estão descobrindo território novo. Estão desenhando o mapa de um território que desenvolvedores já habitavam. O mapa é útil. A prova estatística do Structured Distillation de que recuperação híbrida supera busca vetorial pura poupa o próximo desenvolvedor de redescobrir isso por meio de depuração. A demonstração do Memento-Skills de que skills-como-markdown alcança 116% de melhoria sem atualização de parâmetros dá à próxima equipe confiança para pular o pipeline de fine-tuning. O artigo de trajetórias da IBM automatiza o que fiz manualmente ao longo de 500 sessões.

Porém o mapa existe porque o território já estava colonizado. Os desenvolvedores chegaram primeiro.

FAQ

Qual modelo de embedding devo usar para memória de agentes?

Para aplicações local-first sensíveis à latência, o potion-base-8M do Model2Vec (256 dimensões, 8MB em disco) oferece o melhor equilíbrio entre qualidade e velocidade — 50x menor e 500x mais rápido que embeddings de transformers completos.¹² Para recuperação de maior qualidade onde a latência é menos crítica, o potion-base-32M ou um modelo completo de sentence transformer terá desempenho superior. O modelo de embedding importa menos que a arquitetura de recuperação. Um bom sistema de recuperação híbrida com um modelo de embedding pequeno supera busca vetorial pura com um modelo grande.²

RAG é suficiente para memória de agentes?

RAG padrão (recuperar fragmentos, inserir no contexto) é melhor que nenhuma memória e pior que memória estruturada. O artigo do CraniMem mostrou isso diretamente: memória com filtragem e eliminação baseada em utilidade supera RAG padrão tanto em condições limpas quanto ruidosas.⁹ O modo de falha prático do RAG padrão em sistemas de agentes é poluição de contexto — recuperar informações tangencialmente relevantes que fazem o agente se desviar do objetivo. A filtragem (decidir o que não recuperar) importa tanto quanto a qualidade da recuperação.

Preciso de um banco de dados vetorial?

Não. SQLite com a extensão sqlite-vec lida com 49.746 vetores em um arquivo de 83MB com tempos de consulta abaixo de um segundo.¹ A menos que você esteja indexando milhões de documentos ou precise de acesso distribuído, um banco de dados SQLite local é mais simples, mais rápido de configurar e elimina uma dependência de infraestrutura. SuperLocalMemory alcançou 74,8% no LoCoMo sem nenhuma chamada à nuvem usando uma arquitetura local.⁵

Como detecto desvio do agente?

Calcule a similaridade de cosseno entre o embedding do prompt da tarefa original e uma janela deslizante das ações recentes do agente (eu uso as 25 chamadas de ferramentas mais recentes). Defina um limiar empiricamente. O meu é 0,30, calibrado ao longo de 60 sessões: todos os 12 disparos abaixo do limiar foram desvio real, nenhuma sessão acima do limiar precisou de intervenção. O limiar vai variar por domínio de tarefa e modelo de embedding. Comece em 0,30 e ajuste com base na taxa de falsos positivos.¹

Qual é a relação entre memória de agentes e segurança de agentes?

Direta. Os sete modos de falha que cataloguei a partir de mais de 500 sessões são padrões comportamentais que se repetem entre agentes, modelos e tarefas. Sem memória de falhas passadas, cada sessão redescobre os mesmos erros. O artigo de mineração de trajetórias da IBM demonstrou isso quantitativamente: agentes com acesso a aprendizados de trajetórias anteriores alcançaram 149% de melhoria em tarefas complexas.⁴ Memória não apenas melhora a capacidade. Ela impede que o agente repita padrões de falha conhecidos.

Blake Crosley, “What I Told NIST About AI Agent Security,” blakecrosley.com, February 2026. Memory system architecture: Model2Vec potion-base-8M, sqlite-vec + FTS5 BM25, RRF fusion, 49,746 chunks, 15,800 files, 83MB database. ↩↩↩↩↩↩↩
Sydney Lewis, “Structured Distillation for Personalized Agent Memory,” arXiv:2603.13017, March 2026. 4,182 conversations, 14,340 exchanges, 11x compression, MRR 0.759 (hybrid) vs 0.745 (verbatim). ↩↩↩↩
Huichi Zhou et al., “Memento-Skills: Let Agents Design Agents,” arXiv:2603.18743, March 2026. 17 authors. 116.2% relative improvement on Humanity’s Last Exam. ↩↩↩
Gaodan Fang et al., “Trajectory-Informed Memory Generation for Self-Improving Agent Systems,” arXiv:2603.10600, March 2026. IBM Research. 14.3pp gains, 28.5pp on complex tasks (149% relative increase). ↩↩↩↩
SuperLocalMemory, GitHub and arXiv:2603.14588, March 2026. 4-channel RRF fusion. Mode A (zero cloud): 74.8% LoCoMo. Mode C: 87.7%. ↩↩↩↩
Blake Crosley, “What Actually Breaks When You Run AI Agents Unsupervised,” blakecrosley.com, February 2026. Learner v2 skill generation from semantic workflow detection. ↩
Thariq Shihipar, “Lessons from Building Claude Code: How We Use Skills,” LinkedIn, March 2026. Nine skill categories, hundreds in active use at Anthropic. ↩
Blake Crosley, “What Actually Breaks When You Run AI Agents Unsupervised,” blakecrosley.com, February 2026. Seven failure modes from 500+ sessions: Shortcut Spiral, Confidence Mirage, Good-Enough Plateau, Tunnel Vision, Phantom Verification, Deferred Debt, Hollow Report. ↩
Pearl Mody et al., “CraniMem: Cranial Inspired Gated and Bounded Memory for Agentic Systems,” arXiv:2603.15642, March 2026. Goal-conditioned gating, utility-based pruning. ↩↩↩
Pengfei Du, “Memory for Autonomous LLM Agents: Mechanisms, Evaluation, and Emerging Frontiers,” arXiv:2603.07670, March 2026. Survey of five mechanism families. ↩
Help Net Security, “Enterprise AI Agent Security in 2026,” March 2026. ↩
Model2Vec, GitHub. potion-base-8M: 256 dimensions, 8MB, 50x size reduction, 500x faster inference. ↩