Architecture de mémoire pour agents IA qui fonctionne réellement

En février 2026, j’ai construit un système de mémoire sémantique pour un harnais d’orchestration d’agents IA. Le système indexe 49 746 fragments de texte répartis sur 15 800 fichiers dans une base de données SQLite locale, les récupère via une recherche hybride BM25 et vectorielle fusionnée par Reciprocal Rank Fusion, et utilise la similarité cosinus entre les embeddings de tâche et les actions récentes de l’agent pour détecter quand celui-ci dévie de sa mission.¹ Le modèle d’embedding pèse 8 mégaoctets. La base de données fait 83 mégaoctets. L’ensemble du système tourne sur un ordinateur portable sans aucune dépendance cloud.

Je n’ai lu aucun article de recherche avant de le construire. J’ai résolu les problèmes que j’avais : l’agent perdait le contexte entre les sessions, répétait des erreurs déjà commises et déviait de sa tâche sans détection. L’architecture a émergé de ces défaillances.

En mars 2026, cinq articles de recherche sont arrivés à la même architecture.

En bref

La convergence : cinq articles publiés en mars 2026 valident indépendamment les mêmes schémas de mémoire d’agent que les développeurs en production avaient livrés des mois plus tôt. Récupération hybride avec fusion RRF, compétences stockées en markdown structuré, exploration de trajectoires pour identifier les modes de défaillance, et mémoire à filtrage pour prévenir la dérive.
Les preuves : Structured Distillation a testé 20 configurations de recherche vectorielle et 20 configurations BM25 sur 4 182 conversations. La recherche vectorielle pure s’est avérée statistiquement non significative. Le BM25 pur dégradait les résultats. Seule la récupération hybride inter-couches a fonctionné.² Mon système utilise exactement cette architecture.
Les chiffres en production : 49 746 fragments, 15 800 fichiers, base de données de 83 Mo, modèle d’embedding de 8 Mo, 12 incidents de dérive détectés avec une précision de 100 % à un seuil cosinus de 0,30.¹
Les chiffres de la recherche : Memento-Skills a atteint une amélioration relative de 116 % sur Humanity’s Last Exam en utilisant des compétences stockées sous forme de fichiers markdown.³ Trajectory-Informed Memory a obtenu une amélioration de 28,5 points de pourcentage sur les tâches complexes.⁴ SuperLocalMemory a atteint 74,8 % sur LoCoMo sans aucun appel cloud.⁵
Ce que cela signifie : les schémas sont corrects. Quand développeurs et chercheurs convergent vers la même architecture sans coordination, cette architecture est vraisemblablement optimale pour l’espace du problème. La mémoire d’agent n’est pas un problème de recherche en attente d’une percée. C’est un problème d’ingénierie avec des solutions connues que la plupart des équipes n’ont pas encore implémentées.

Cinq articles validant la même architecture de mémoire d’agent

La récupération hybride est la seule architecture qui fonctionne

Sydney Lewis a testé 40 configurations de récupération sur 4 182 conversations contenant 14 340 échanges issus de six projets d’ingénierie logicielle.² L’étude a compressé chaque échange d’une moyenne de 371 tokens à 38 tokens en utilisant un format structuré à quatre champs, puis a testé toutes les combinaisons de recherche vectorielle et de recherche par mots-clés BM25.

Le résultat était sans ambiguïté. Les 20 configurations vectorielles pures se sont révélées statistiquement non significatives après correction de Bonferroni. Les 20 configurations BM25 pures ont significativement dégradé les performances. Seule la récupération hybride inter-couches (combinant les deux) a produit des résultats fiables, atteignant un MRR de 0,759 contre 0,745 pour la récupération verbatim — une compression de 11x sans perte de qualité de récupération.²

Mon système utilise FTS5 BM25 pour la recherche par mots-clés et sqlite-vec pour la recherche vectorielle en 256 dimensions, fusionnées via Reciprocal Rank Fusion.¹ J’ai choisi cette architecture parce que la recherche vectorielle pure manquait les termes techniques exacts (noms de fonctions, codes d’erreur, chemins de fichiers) tandis que la recherche par mots-clés pure manquait la similarité sémantique. L’approche hybride a émergé du débogage des échecs de récupération, pas de la lecture de la littérature. L’article de Lewis fournit la preuve statistique de ce qui semblait évident en pratique.

Les compétences sous forme de fichiers markdown

Memento-Skills a introduit un cadre d’apprentissage par renforcement basé sur la mémoire où les compétences réutilisables sont stockées sous forme de fichiers markdown structurés.³ Un cycle d’apprentissage réflectif Read-Write sélectionne les compétences pertinentes pendant l’exécution (Read) et met à jour la bibliothèque de compétences à partir de nouvelles expériences (Write). Le système a atteint une amélioration relative de 26,2 % sur le benchmark General AI Assistants et de 116,2 % sur Humanity’s Last Exam, le tout sans mettre à jour les paramètres du modèle. L’adaptation se fait entièrement par l’évolution de compétences externalisées.³

J’ai construit la même chose dix mois plus tôt. Le système Learner v2 de mon harnais d’orchestration détecte les schémas de workflow sémantiques à partir des historiques de session en utilisant des empreintes de chemins de fichiers, génère des fichiers de compétences en markdown structuré avec des métadonnées frontmatter, et les stocke pour une activation automatique dans les sessions futures.⁶ La bibliothèque de compétences contient actuellement 48 compétences allant de l’évaluation de blog aux routines nightcheck en passant par la vérification de déploiement. Chaque compétence a commencé par quelques lignes adressant une défaillance spécifique et a grandi à mesure que l’agent rencontrait de nouveaux cas limites.

Thariq Shihipar d’Anthropic a confirmé le même schéma en interne : « Most skills began as a few lines and a single gotcha, then grew as Claude hit new edge cases. » Anthropic possède des centaines de compétences en utilisation active, regroupées en neuf catégories qui correspondent parfaitement aux catégories que j’ai développées indépendamment.⁷

Cette convergence n’est pas une coïncidence. Les fichiers markdown sont la bonne abstraction pour les compétences d’agent parce qu’ils sont lisibles par l’humain, versionnables, et peuvent être chargés dans le contexte sans surcoût de sérialisation. Le modèle peut les lire, les modifier et les étendre en utilisant les mêmes capacités de traitement de texte qu’il utilise pour le code. Pas de fine-tuning, pas de mise à jour de paramètres, pas de pipeline d’entraînement. Le fichier de compétence est la mémoire.

L’exploration de trajectoires pour les modes de défaillance

Trajectory-Informed Memory Generation, issu d’IBM Research, a introduit un pipeline en quatre étapes pour extraire des apprentissages des trajectoires d’exécution d’agents.⁴ Le système analyse les schémas sémantiques dans le raisonnement de l’agent, identifie les décisions de défaillance et de récupération, génère des conseils de stratégie et d’optimisation, et injecte des apprentissages adaptés dans les prompts futurs. Sur les scénarios AppWorld, le système a atteint jusqu’à 14,3 points de pourcentage de gains sur l’achèvement des objectifs, avec une amélioration de 28,5 points de pourcentage sur les tâches complexes — soit une augmentation relative de 149 %.⁴

J’ai fait cela manuellement. Au fil de plus de 500 sessions de codage autonome entre mai 2025 et février 2026, j’ai examiné le journal de conversation et la télémétrie des hooks de chaque session quand une intervention humaine était nécessaire, puis attribué une cause racine principale basée sur la première défaillance non détectée dans la chaîne. Sept modes représentent 94 % de toutes les défaillances : Shortcut Spiral (23 %), Confidence Mirage (19 %), Good-Enough Plateau (15 %), Tunnel Vision (14 %), Phantom Verification (12 %), Deferred Debt (9 %) et Hollow Report (8 %).⁸

L’article d’IBM automatise ce que j’ai fait manuellement. Leur pipeline en quatre étapes est une formalisation du processus : observer les trajectoires, identifier les schémas de défaillance, extraire les apprentissages, les injecter dans les exécutions futures. Le format de sortie diffère (leur système génère des conseils en langage naturel, le mien génère des hooks shell qui interceptent des schémas spécifiques d’appels d’outils), mais l’architecture est la même. Le commentaire NIST que j’ai soumis en février 2026 soutenait que les menaces des agents sont comportementales et que les cadres existants ne traitent pas les modes de défaillance comportementaux. L’article d’IBM fournit une preuve indépendante de la même thèse.

La mémoire à filtrage prévient la dérive

CraniMem a introduit un filtrage conditionné par les objectifs avec étiquetage d’utilité pour les systèmes de mémoire d’agents.⁹ Un tampon épisodique borné gère la continuité à court terme. Un graphe de connaissances structuré à long terme gère le rappel durable. Une boucle de consolidation programmée rejoue les traces à haute utilité tout en élaguant les éléments à faible utilité. Avec des entrées propres comme avec du bruit injecté, CraniMem a surpassé le RAG classique et Mem0.⁹

Mon système de détection de dérive est une version plus simple du même principe. Toutes les 25 invocations d’outils, un détecteur calcule la similarité cosinus entre l’embedding du prompt utilisateur original et une fenêtre glissante des actions récentes de l’agent. Quand le score descend en dessous de 0,30, le système injecte un avertissement contenant le prompt original. Sur les douze déclenchements en dessous du seuil à travers 60 sessions, l’agent avait effectivement perdu le fil de la tâche. Au-dessus du seuil, aucune session n’a nécessité d’intervention manuelle pour cause de dérive.¹

CraniMem filtre la mémoire au niveau du stockage : empêcher les informations non pertinentes d’entrer dans la mémoire à long terme. Mon système filtre le comportement au niveau de l’exécution : détecter quand les actions actuelles de l’agent divergent de la tâche assignée. Les deux adressent le même mode de défaillance — la pollution du contexte — à des couches différentes. Le principe de filtrage est le même. Les informations non pertinentes dégradent les performances de l’agent qu’elles entrent dans la mémoire ou dans le contexte d’exécution courant.

La mémoire locale d’abord à l’échelle de la production

SuperLocalMemory a atteint 74,8 % sur le benchmark LoCoMo avec zéro appel cloud API, surpassant Mem0 (66,9 %) de 16 points de pourcentage.⁵ Le système utilise une fusion Reciprocal Rank Fusion à quatre canaux : récupération géométrique Fisher-Rao, récupération lexicale BM25, parcours de graphe d’entités et récupération temporelle. Avec une couche de synthèse LLM ajoutée, le score atteint 87,7 %.⁵

Mon système utilise un RRF à deux canaux (vecteur + BM25) sur la même architecture fondamentale.¹ SuperLocalMemory ajoute la distance géométrique de Fisher-Rao et le parcours de graphe d’entités comme canaux de récupération supplémentaires. Les canaux supplémentaires améliorent la précision sur les benchmarks conversationnels. Leur pertinence pour la mémoire d’agent dans les workflows de codage reste une question ouverte — mon système à deux canaux n’a pas produit d’échecs de récupération qu’un troisième ou quatrième canal aurait rattrapés.

La découverte significative n’est pas le nombre de canaux spécifique. La découverte significative est que la mémoire locale d’abord avec récupération hybride surpasse les systèmes dépendants du cloud qui utilisent des modèles plus grands et une infrastructure plus coûteuse. Le Mode A de SuperLocalMemory (zéro cloud) bat le système cloud de Mem0. Mon système tourne sur un modèle d’embedding de 8 Mo dans une base de données SQLite locale. Le plafond de performance pour la mémoire d’agent n’est pas conditionné par la taille du modèle ou la puissance de calcul cloud. Il est conditionné par l’architecture de récupération.

La mémoire d’agent est un problème d’ingénierie, pas un problème de recherche

La relation habituelle entre recherche et production est : les chercheurs découvrent, les praticiens implémentent. La mémoire d’agent en mars 2026 a inversé ce schéma. Les développeurs en production ont livré en premier. Les chercheurs ont formalisé les mêmes schémas des semaines ou des mois plus tard, avec des évaluations rigoureuses confirmant ce que les développeurs avaient observé empiriquement.

Ce schéma de convergence a une implication précise : la mémoire d’agent n’est pas un problème de recherche en attente d’une percée. L’architecture est connue. Récupération hybride avec fusion RRF. Compétences externalisées sous forme de texte structuré. Exploration de trajectoires pour les schémas de défaillance. Mémoire à filtrage pour prévenir la pollution du contexte. Chaque composant existe, fonctionne, et a été validé indépendamment à la fois par le déploiement en production et par la recherche contrôlée.

Le fossé n’est pas la connaissance. Le fossé est l’adoption. Une enquête de mars 2026 sur les mécanismes de mémoire d’agent a révélé que la plupart des systèmes en production utilisent encore soit aucune mémoire persistante, soit un simple bourrage de fenêtre de contexte.¹⁰ Seulement 21 % des dirigeants d’entreprise ont une visibilité complète sur ce à quoi leurs agents accèdent, et 86 % déclarent n’avoir aucune visibilité sur les quelque 1 200 applications IA non officielles de leur organisation.¹¹ Les agents qui échouent le plus dangereusement ne sont pas ceux qui manquent de modèles performants. Ce sont ceux sans mémoire de leurs propres défaillances.

Les articles de recherche arrivés en mars 2026 ne découvrent pas un nouveau territoire. Ils dressent la carte d’un territoire que les développeurs habitent déjà. La carte est utile. La preuve statistique de Structured Distillation montrant que la récupération hybride surpasse la recherche vectorielle pure évite au prochain développeur de la redécouvrir par le débogage. La démonstration de Memento-Skills qu’un système de compétences en markdown atteint 116 % d’amélioration sans mise à jour de paramètres donne à la prochaine équipe la confiance de sauter le pipeline de fine-tuning. L’article d’IBM sur les trajectoires automatise ce que j’ai fait manuellement sur 500 sessions.

Mais la carte existe parce que le territoire était déjà colonisé. Les développeurs y étaient les premiers.

FAQ

Quel modèle d’embedding utiliser pour la mémoire d’agent ?

Pour les applications locales sensibles à la latence, le modèle potion-base-8M de Model2Vec (256 dimensions, 8 Mo sur disque) offre le meilleur compromis entre qualité et vitesse — 50x plus petit et 500x plus rapide que les embeddings de transformers complets.¹² Pour une récupération de meilleure qualité quand la latence est moins critique, potion-base-32M ou un modèle sentence transformer complet le surpassera. Le modèle d’embedding compte moins que l’architecture de récupération. Un bon système de récupération hybride avec un petit modèle d’embedding surpasse la recherche vectorielle pure avec un grand modèle.²

Le RAG suffit-il pour la mémoire d’agent ?

Le RAG classique (récupérer des fragments, les insérer dans le contexte) est mieux que pas de mémoire et moins bien que la mémoire structurée. L’article CraniMem l’a montré directement : la mémoire à filtrage avec élagage basé sur l’utilité surpasse le RAG classique dans des conditions propres comme bruitées.⁹ Le mode de défaillance pratique du RAG classique dans les systèmes d’agents est la pollution du contexte — récupérer des informations tangentiellement pertinentes qui font dériver l’agent. Le filtrage (décider quoi ne pas récupérer) compte autant que la qualité de la récupération.

Ai-je besoin d’une base de données vectorielle ?

Non. SQLite avec l’extension sqlite-vec gère 49 746 vecteurs dans un fichier de 83 Mo avec des temps de requête inférieurs à la seconde.¹ À moins d’indexer des millions de documents ou d’avoir besoin d’un accès distribué, une base de données SQLite locale est plus simple, plus rapide à configurer et élimine une dépendance d’infrastructure. SuperLocalMemory a atteint 74,8 % sur LoCoMo avec zéro appel cloud en utilisant une architecture locale.⁵

Comment détecter la dérive d’un agent ?

Calculez la similarité cosinus entre l’embedding du prompt de tâche original et une fenêtre glissante des actions récentes de l’agent (j’utilise les 25 invocations d’outils les plus récentes). Définissez un seuil empiriquement. Le mien est 0,30, calibré sur 60 sessions : les 12 déclenchements en dessous du seuil étaient de vraies dérives, aucune session au-dessus du seuil n’a nécessité d’intervention. Le seuil variera selon le domaine de la tâche et le modèle d’embedding. Commencez à 0,30 et ajustez en fonction du taux de faux positifs.¹

Quel est le lien entre mémoire d’agent et sécurité des agents ?

Direct. Les sept modes de défaillance que j’ai catalogués à partir de plus de 500 sessions sont des schémas comportementaux qui se répètent d’un agent à l’autre, d’un modèle à l’autre et d’une tâche à l’autre. Sans mémoire des défaillances passées, chaque session redécouvre les mêmes erreurs. L’article d’IBM sur l’exploration de trajectoires l’a démontré quantitativement : les agents ayant accès aux apprentissages des trajectoires précédentes ont atteint 149 % d’amélioration sur les tâches complexes.⁴ La mémoire n’améliore pas seulement les capacités. Elle empêche l’agent de répéter des schémas de défaillance connus.

Blake Crosley, “What I Told NIST About AI Agent Security,” blakecrosley.com, February 2026. Memory system architecture: Model2Vec potion-base-8M, sqlite-vec + FTS5 BM25, RRF fusion, 49,746 chunks, 15,800 files, 83MB database. ↩↩↩↩↩↩↩
Sydney Lewis, “Structured Distillation for Personalized Agent Memory,” arXiv:2603.13017, March 2026. 4,182 conversations, 14,340 exchanges, 11x compression, MRR 0.759 (hybrid) vs 0.745 (verbatim). ↩↩↩↩
Huichi Zhou et al., “Memento-Skills: Let Agents Design Agents,” arXiv:2603.18743, March 2026. 17 authors. 116.2% relative improvement on Humanity’s Last Exam. ↩↩↩
Gaodan Fang et al., “Trajectory-Informed Memory Generation for Self-Improving Agent Systems,” arXiv:2603.10600, March 2026. IBM Research. 14.3pp gains, 28.5pp on complex tasks (149% relative increase). ↩↩↩↩
SuperLocalMemory, GitHub and arXiv:2603.14588, March 2026. 4-channel RRF fusion. Mode A (zero cloud): 74.8% LoCoMo. Mode C: 87.7%. ↩↩↩↩
Blake Crosley, “What Actually Breaks When You Run AI Agents Unsupervised,” blakecrosley.com, February 2026. Learner v2 skill generation from semantic workflow detection. ↩
Thariq Shihipar, “Lessons from Building Claude Code: How We Use Skills,” LinkedIn, March 2026. Nine skill categories, hundreds in active use at Anthropic. ↩
Blake Crosley, “What Actually Breaks When You Run AI Agents Unsupervised,” blakecrosley.com, February 2026. Seven failure modes from 500+ sessions: Shortcut Spiral, Confidence Mirage, Good-Enough Plateau, Tunnel Vision, Phantom Verification, Deferred Debt, Hollow Report. ↩
Pearl Mody et al., “CraniMem: Cranial Inspired Gated and Bounded Memory for Agentic Systems,” arXiv:2603.15642, March 2026. Goal-conditioned gating, utility-based pruning. ↩↩↩
Pengfei Du, “Memory for Autonomous LLM Agents: Mechanisms, Evaluation, and Emerging Frontiers,” arXiv:2603.07670, March 2026. Survey of five mechanism families. ↩
Help Net Security, “Enterprise AI Agent Security in 2026,” March 2026. ↩
Model2Vec, GitHub. potion-base-8M: 256 dimensions, 8MB, 50x size reduction, 500x faster inference. ↩