← Tous les articles

Votre agent a une mémoire que vous n'avez pas écrite

From the guide: Claude Code Comprehensive Guide

J’ai passé l’essentiel de ma journée à rédiger une référence pratique pour Hermes Agent. L’une des sections centrales porte sur SOUL.md — le fichier où vous fixez l’identité de votre agent. Voix, ton, préférences, garde-fous comportementaux. Tout le postulat de cette section est que vous y placez l’identité, que l’agent la lit en tête de chaque system prompt, et qu’il se comporte en conséquence. Mémoire explicite. Déclarative. Auditable. Versionnée. Le bon type de mémoire, celui dont un praticien sérieux devrait se soucier.

Un article est tombé hier sur arxiv, que j’ai repéré ce soir lors d’une analyse de signaux, et sa lecture m’a amené à tenir le postulat de SOUL.md de manière plus souple que je ne le faisais plus tôt dans la journée.1

L’article s’intitule ImplicitMemBench : Measuring Unconscious Behavioral Adaptation in Large Language Models.1 Les auteurs le décrivent comme le premier benchmark systématique de la mémoire implicite dans les LLMs — la mémoire qui (dans leur cadre) façonne ce qu’un agent exécute automatiquement, à distinguer de la mémoire explicite qui façonne ce qu’il rappelle consciemment.1 Les meilleurs obtiennent des scores inférieurs à 66 %.1 Les auteurs rapportent également une asymétrie « spectaculaire » à l’intérieur de ce score,1 que je décortiquerai avec les réserves appropriées plus loin.

TL;DR

Les benchmarks de mémoire existants mesurent le rappel explicite — étant donné un fait que vous avez dit au modèle, peut-il le retrouver. ImplicitMemBench mesure un système de mémoire différent : celui qui (selon les auteurs) façonne le comportement automatique « sans rappel conscient », tiré de construits standard des sciences cognitives (mémoire procédurale, amorçage, conditionnement classique).1 Sur un benchmark de 300 items noté au premier essai, aucun modèle testé par les auteurs n’a dépassé 66 % au total : DeepSeek-R1 a obtenu 65,3 %, Qwen3-32B 64,1 %, GPT-5 63,0 %, et les auteurs décrivent les meilleurs performeurs comme « bien en dessous des niveaux humains ».1 Le chiffre phare n’est pas toute l’histoire — le résumé rapporte également une asymétrie « spectaculaire » : 17,6 % sur l’inhibition contre 75,0 % sur la préférence, un écart d’environ 4×, présenté comme un « goulot d’étranglement universel » qui, selon les auteurs, nécessite des « innovations architecturales au-delà de la mise à l’échelle des paramètres ».1 Je lis cette asymétrie — avec la réserve que le résumé ne publie pas la méthodologie complète derrière ces deux chiffres — comme cohérente avec un mode de défaillance folklorique que j’observe dans le travail avec les agents : des systèmes qui renforcent rapidement les préférences récemment observées et qui échouent à désapprendre les défaillances récemment observées. Si cette lecture est juste, elle recadre la conversation sur l’identité des agents, la sécurité et l’évolution des compétences, en passant de « qu’avez-vous mis dans le prompt ? » à « que la session pourrait-elle façonner silencieusement sans que vos ancrages explicites puissent l’auditer ? ». Ce recadrage est mon extension de l’article, pas une affirmation propre à l’article.

Points clés à retenir

Les puces ci-dessous reflètent ma lecture des implications des résultats de l’article pour les praticiens, et non des affirmations faites par l’article lui-même. L’article teste 17 LLMs sur un benchmark de sciences cognitives de 300 items ; il n’évalue pas les harnais d’agents de production ni les stratégies de prompting. J’étiquette chaque point en conséquence.

  • Extension : fixer l’identité dans SOUL.md, AGENTS.md, CLAUDE.md, les system prompts ou les fichiers de mémoire persistante relève de la mémoire déclarative explicite, pour laquelle les benchmarks existants montrent déjà que les modèles performent bien. ImplicitMemBench mesure un système de mémoire entièrement différent, et les modèles y obtiennent moins de 66 %.1 L’implication pour les praticiens — que les ancrages d’identité explicites pourraient ne pas se propager au comportement automatique du premier essai — est mon inférence, pas celle de l’article.
  • Extension : l’asymétrie 17,6 % contre 75,0 %, si elle se généralise au-delà du benchmark, prédirait un agent qui absorbe rapidement les préférences récemment observées et qui est lent à cesser de répéter les défaillances récemment observées. L’article rapporte les deux chiffres et les qualifie de « spectaculaires » et « universels »,1 mais ne publie pas la méthodologie item par item sur la manière dont « préférence » et « inhibition » ont été opérationnalisées, et ne teste pas ce schéma dans des harnais d’agents. La lecture en termes de comportement de production est la mienne.
  • Extension : chaque token qui atterrit dans la fenêtre de contexte via un appel d’outil, une réponse de MCP, une page web scrappée ou une tentative d’injection de prompt constitue une influence comportementale en contexte — pas un entraînement au sens d’une mise à jour des poids, mais une influence sur la prochaine réponse au premier essai que la couche du prompt explicite ne peut pas auditer proprement. L’article ne fait pas cette affirmation directement ; j’étends le cadre de la mémoire implicite au contenu de la fenêtre de contexte.
  • Affirmation de l’article : l’évaluation sur 17 modèles révèle des « limitations sévères », des « asymétries spectaculaires » et des « goulots d’étranglement universels nécessitant des innovations architecturales au-delà de la mise à l’échelle des paramètres ».1 Les auteurs présentent l’écart comme architectural. Je lis cela comme une preuve faible contre « davantage de prompt engineering résoudra cela », mais l’article ne teste pas spécifiquement les mitigations par prompting, alors traitez cette lecture comme mon hypothèse, pas la leur.

Ce que mesure l’article

Le cadre de l’article est que les benchmarks de mémoire existants pour les agents LLM « évaluent le rappel explicite de faits, mais négligent la mémoire implicite où l’expérience devient un comportement automatisé sans rappel conscient ».1 L’écart qu’ils identifient : « des assistants efficaces doivent appliquer automatiquement les procédures apprises ou éviter les actions ayant échoué sans rappels explicites ».1 Si la seule manière pour votre agent d’éviter une erreur est que vous lui redisiez de ne pas la commettre à chaque tour, vous ne bâtissez pas sur la mémoire implicite ; vous payez le coût de la mémoire explicite à chaque requête.

ImplicitMemBench teste trois construits tirés directement des théories des sciences cognitives sur la mémoire non déclarative, cités depuis le résumé :1

  1. Mémoire procédurale — « acquisition d’une compétence en un coup après interférence ». Le modèle peut-il, après avoir vu comment faire quelque chose une fois, l’exécuter à nouveau plus tard alors que d’autres instructions sont intervenues ? C’est le système de mémoire qui permet à un humain d’apprendre à faire du vélo : vous ne vous souvenez pas de comment rouler, vous faites rouler, même après des années sans vélo.
  2. Amorçage — « biais thématique via des instances expérimentales/contrôle appariées ». Le fait de voir une classe de choses rend-il le modèle plus susceptible de produire cette classe de choses sur la prochaine tâche sans rapport, sans que le modèle soit conscient que l’amorçage s’est produit ?
  3. Conditionnement classique — « associations Stimulus Conditionnel–Stimulus Inconditionnel (SC–SI) façonnant les premières décisions ». Si le modèle a été exposé à un appariement stimulus-réponse, cet appariement se manifeste-t-il comme un biais sur une tâche totalement nouvelle où ni le SC ni le SI ne sont l’objet de la question ?

Les auteurs utilisent une suite de 300 items selon un « protocole Apprentissage/Amorçage-Interférence-Test unifié avec scoring au premier essai ».1 Le scoring au premier essai est important. Un modèle capable de s’auto-corriger après qu’on lui a dit qu’il s’était trompé, c’est très bien — mais la question de recherche ici est de savoir si la mémoire a façonné la réponse automatique initiale. Si la première réponse est erronée et que la correction ne survient qu’après un retour explicite, le système de mémoire implicite (tel que l’article le définit) a échoué sur cet item. Les auteurs résument leur contribution par une ligne que je veux reprendre directement : le benchmark « recadre l’évaluation depuis “ce que les agents rappellent” vers “ce qu’ils exécutent automatiquement” ».1

Les résultats

Le chiffre phare : « aucun modèle ne dépasse 66 % au total ».1

  • DeepSeek-R1 — 65,3 %
  • Qwen3-32B — 64,1 %
  • GPT-5 — 63,0 %

Les meilleurs performeurs ci-dessus sont décrits comme « bien en dessous des niveaux humains », bien que le résumé ne publie pas le chiffre exact du niveau humain ni un classement complet par modèle.1 Dix-sept modèles au total sont évalués dans l’article.1

Le chiffre phare masque le sous-résultat. Les auteurs écrivent que « l’analyse révèle des asymétries spectaculaires (inhibition 17,6 % contre préférence 75,0 %) et des goulots d’étranglement universels nécessitant des innovations architecturales au-delà de la mise à l’échelle des paramètres ».1 Je veux être prudent ici sur ce que signifient ces chiffres — le résumé ne donne pas une décomposition méthodologique complète sur la manière dont ces deux chiffres ont été calculés, donc ma glose les concernant est une inférence à partir de la formulation du résumé, et non une lecture des définitions internes de l’article. Avec cette réserve signalée :

  • Préférence : 75,0 % (chiffre de l’article). Ma glose, en attendant l’article complet : ce chiffre semble cohérent avec des modèles relativement bons pour montrer qu’ils ont été implicitement attirés vers un stimulus — l’amorçage et les appariements SC–SI qui biaisent le comportement dans une direction particulière s’inscrivent correctement environ trois fois sur quatre.
  • Inhibition : 17,6 % (chiffre de l’article). Ma glose, en attendant l’article complet : ce chiffre semble cohérent avec des modèles qui sont spectaculairement moins bons pour montrer qu’ils ont été implicitement poussés à l’écart d’un stimulus — le signal « ne refais pas cela » s’inscrivant correctement moins d’une fois sur cinq. J’infère le sens comportemental à partir du mot « inhibition » et du cadre du conditionnement classique adopté par l’article ; le résumé ne détaille pas l’opérationnalisation.

Les auteurs qualifient explicitement l’asymétrie de « spectaculaire » et l’attribuent à des « goulots d’étranglement universels »,1 et le mot universels compte : les auteurs présentent cela comme un schéma transversal à leur évaluation sur 17 modèles, et non comme un artefact d’un seul modèle. Je ne vais pas affirmer que le goulot d’étranglement est un « problème de prompting » ou « pas un problème de prompting » — l’article ne teste pas le prompting comme mitigation, et affirmer l’une ou l’autre dépasserait ce que le résumé soutient.

Ce que l’asymétrie signifie réellement

Je veux être précis sur ce que j’affirme ici, parce que c’est la partie où il est tentant de sur-interpréter un benchmark.

Ce que l’article montre. Sur un benchmark de 300 items ancré cognitivement, noté sur les réponses au premier essai, les LLMs sont spectaculairement moins bons pour démontrer une inhibition implicite qu’une préférence implicite, selon un facteur d’environ quatre, sur chaque modèle testé. Les auteurs appellent cela un goulot d’étranglement universel qui ne peut pas être corrigé par la mise à l’échelle.

Ce que j’affirme — séparément de l’article. Ce schéma d’asymétrie correspond à un mode de défaillance que j’observe depuis des mois dans mon propre travail avec les agents, sans avoir eu jusqu’ici de nom pour le désigner. Les harnais d’agents (d’après mon expérience) semblent étonnamment bons pour absorber du contexte qui pointe vers un style, un outil ou une approche préférés — le comportement de l’agent dérive rapidement vers ce que vous lui avez fourni le plus récemment. Ils semblent étonnamment mauvais pour ne pas répéter une défaillance qu’ils viennent juste d’observer — l’agent essaie la même commande cassée, le même mauvais outil, le même chemin obsolète, même après que ceux-ci ont échoué dans la même session. C’est du folklore, pas une mesure — c’est mon impression de praticien, pas une étude contrôlée. Les chiffres d’ImplicitMemBench sont cohérents avec ce folklore, et c’est pourquoi je tiens à cet article. Ils ne valident pas à eux seuls le folklore — et je ne veux pas affirmer que l’article donne « un chiffre » à mon folklore alors que l’article a mesuré quelque chose de plus serré et de plus contrôlé que tout ce que j’ai observé.

Ce que je n’affirme pas. Je n’affirme pas qu’ImplicitMemBench ait spécifiquement mesuré le comportement des harnais d’agents ou les workflows de production Claude Code / Cursor / Codex. Ce n’est pas le cas. Il a mesuré 17 modèles face à un protocole structuré de sciences cognitives. Le passage du benchmark au comportement de production est mon extension, étiquetée comme telle, et je ne veux pas que quiconque lisant ceci pense que l’article a fait cette affirmation à ma place.

Ces étiquettes posées : la distinction que trace le benchmark — entre le rappel explicite d’une instruction et le comportement automatique au premier essai sous amorçage/conditionnement — est la distinction que je veux que mon propre travail avec les agents commence à prendre au sérieux. Vous pouvez dire à l’agent « ne fais pas X » et le rappel explicite fonctionnera probablement — il peut vous répéter « ne fais pas X » quand on le lui demande. Ce que mesure ImplicitMemBench est différent : l’agent, automatiquement, ne fait-il pas X dans sa prochaine décision au premier essai, en l’absence de tout rappel explicite ? Je ne sais pas si les harnais d’agents de production héritent du chiffre agrégé de 17,6 % d’inhibition du benchmark sur le comportement au premier essai en conditions réelles — ce mapping n’est pas testé, et je ne l’affirme pas. J’affirme quelque chose de plus faible : la distinction entre « pouvoir rappeler la règle » et « exécuter automatiquement la règle » est plus nette que je ne la traitais, et les résultats de l’article sont l’une des raisons pour lesquelles.

L’illusion SOUL.md

Le guide Hermes que je rédigeais aujourd’hui traite SOUL.md comme l’ancrage d’identité principal de l’agent. Emplacement n° 1 dans chaque system prompt. Ton, voix, garde-fous. Le guide reprend une version de l’argument que tous les systèmes de mémoire persistante pour agents ont avancé ces deux dernières années : si vous placez l’identité dans le bon fichier de mémoire déclarative, le comportement de l’agent reste aligné avec elle.

Cet argument n’est pas faux, mais ImplicitMemBench me donne une raison d’être moins confiant quant à sa portée complète. SOUL.md relève de la mémoire déclarative explicite — le système de mémoire que les benchmarks existants mesurent déjà et sur lequel les modèles performent déjà bien. Les modèles peuvent rappeler son contenu à la demande ; c’est la partie facile. La question plus difficile, et celle à laquelle SOUL.md ne répond pas, je pense : l’ancrage explicite prime-t-il de manière significative sur l’amorçage implicite, le conditionnement et le biais au premier essai qui s’accumulent à mesure qu’une session se remplit de sorties d’outils, de documents récupérés, de tours précédents de l’assistant, de corrections de l’utilisateur et de tout ce qui façonne le comportement au premier essai sans aucune étape de rappel ? Je ne sais pas. L’article ne teste pas SOUL.md ni aucun fichier d’ancrage d’identité équivalent, et je ne veux pas affirmer qu’il répond à cette question à ma place.

Voici l’inquiétude, présentée comme une hypothèse plutôt que comme un résultat. Si vous ancrez une identité dans SOUL.md qui dit « sois concis et factuel », puis que la session se remplit d’un long fil de conversation narratif de la part de l’utilisateur, le cadre de la mémoire implicite prédit que le comportement au premier essai au tour suivant devrait être façonné en partie par l’amorçage, même si l’ancrage explicite tient encore au rappel. Que l’amorçage l’emporte réellement en moyenne en production — je ne peux pas le prouver à partir de cet article, et je ne vais pas essayer. L’illusion SOUL.md, telle que je la nomme : la possibilité que vous ayez ancré le rappel de l’identité plutôt que son exécution automatique, et que ces deux choses ne soient pas identiques.

Je ne dis pas qu’il ne faut pas écrire SOUL.md. Je vais encore l’écrire — et le guide Hermes le recommandera toujours — parce que la mémoire déclarative explicite est porteuse pour les choses pour lesquelles elle est bonne. Ce que je dis, étiqueté clairement comme ma propre extrapolation : si vous construisez quoi que ce soit qui dépende du fait que l’agent ne répète pas une erreur, ne dérive pas vers un style récemment observé, ne soit pas détourné de sa tâche par un signal d’amorçage non intentionnel, je ne parierais pas le budget de fiabilité sur SOUL.md seul, et je ne supposerais pas que rendre SOUL.md plus long ou plus spécifique résout le problème. L’article utilise l’expression « innovations architecturales au-delà de la mise à l’échelle des paramètres »,1 que je lis — prudemment — comme une preuve faible que les mitigations par prompt engineering ne combleront pas l’écart que mesure le benchmark. L’article lui-même ne teste pas les mitigations par prompt engineering, donc je ne peux pas dire qu’il prouve qu’elles échouent ; je peux seulement dire qu’il ne me donne pas confiance qu’elles fonctionneront.

Ce que l’article ne dit pas (et ce que j’y ajoute)

L’article est un article de benchmark. Il mesure un écart, le quantifie, soutient que l’écart est architectural. Il ne prescrit pas de mitigations spécifiques au niveau du harnais ni n’affirme quoi que ce soit sur des systèmes d’agents de production spécifiques. Tout ce qui figure dans cette section est mon cadre, pas celui de l’article.

Implication 1 : chaque token dans la fenêtre de contexte constitue une influence comportementale en contexte. Si le cadre de la mémoire implicite tient au-delà du benchmark — et je spécule ici, je ne rapporte pas — chaque token atterrissant dans la fenêtre de contexte via un appel d’outil, un document récupéré ou une réponse intermédiaire façonne le comportement au premier essai du tour suivant d’une manière que la lecture du prompt explicite ne peut pas auditer proprement. J’ai déjà écrit sur la surface d’attaque d’exfiltration silencieuse (sorties d’outils non fiables véhiculant des instructions injectées) et sur le fait que votre agent a un intermédiaire que vous n’avez pas vérifié (routeurs API LLM non fiables entre votre client et le modèle). Aucun de ces billets ne revendiquait la mémoire implicite comme mécanisme causal — ils revendiquaient l’injection de prompt et la compromission de la chaîne d’approvisionnement comme mécanismes. ImplicitMemBench offre un prisme additionnel possible sur la raison pour laquelle ces attaques fonctionnent comme elles le font : même si la sortie d’outil hostile ou le routeur compromis ne « dit » jamais explicitement à l’agent quoi faire, le contenu de ce qu’il renvoie pourrait amorcer la prochaine décision de l’agent. C’est une hypothèse cohérente avec ImplicitMemBench, pas un résultat rapporté par l’article.

Implication 2 : la longueur de session pourrait être un risque de fiabilité, et pas seulement un risque de coût. L’observation folklorique est que les agents se dégradent sur de longues sessions et l’explication folklorique est la pression sur la fenêtre de contexte. ImplicitMemBench n’est pas du tout une étude sur la longueur de session — c’est un benchmark de 300 items noté au premier essai selon un protocole Apprentissage/Amorçage-Interférence-Test,1 qui mesure quelque chose de différent de « ce qui se passe sur 30 tours dans une session de production ». Je ne veux pas prétendre qu’il se mappe directement sur les sessions de production. Ce que je suggère — en tant qu’hypothèse — c’est que le mécanisme nommé par l’article (l’amorçage implicite et le conditionnement classique s’inscrivant dans les décisions au premier essai sans rappel) est une explication alternative candidate pour la dérive folklorique, et qu’il mérite d’être pris au sérieux même si l’article ne le teste pas sous cet angle. Ma règle opérationnelle en attendant : faites tourner des sessions plus courtes que ce que votre fenêtre de contexte permet, pas aussi longues qu’elle l’autorise. C’est une assurance bon marché contre ce que sera le vrai mécanisme.

Implication 3 : l’argument « les compétences statiques sont des compétences mortes » nécessite une note de bas de page. J’ai écrit Les compétences statiques sont des compétences mortes plus tôt cette semaine, soutenant que les compétences cessent de s’améliorer dès qu’elles sont déployées, à moins de bâtir une boucle de rétroaction de trajectoire. Cet argument supposait que le mode de défaillance était l’absence — absence d’agrégation, absence d’un détecteur de motifs, absence d’un évoluteur. En lisant ImplicitMemBench à la lumière de ce billet antérieur, je veux signaler un second mode de défaillance possible superposé : même avec des mises à jour de compétences pilotées par la trajectoire, la mise à jour atterrissant dans le fichier de compétence (mémoire déclarative explicite) pourrait ne pas se propager proprement au comportement automatique au premier essai si ce comportement est piloté par quelque chose qui opère plus près de la couche de mémoire implicite. Je ne sais pas si c’est le cas — l’article ne teste pas les mises à jour de compétences — mais c’est une préoccupation que je n’avais pas lorsque j’ai écrit le billet précédent, et je la signale comme une préoccupation plutôt que comme une conclusion.

Implication 4 : le problème de mesure pour la qualité des agents devient peut-être plus difficile. La plupart des évaluations d’agents existantes mesurent soit l’achèvement fonctionnel des tâches (l’agent a-t-il résolu le problème), soit le rappel explicite de faits (l’agent s’est-il souvenu de ce que vous lui avez dit). ImplicitMemBench introduit, selon son propre protocole, une troisième dimension : le comportement automatique au premier essai sous amorçage implicite. Si cette dimension s’avère importante en production — ce que je ne sais pas, et que l’article ne teste pas — toute boucle de qualité sérieuse pour le travail avec les agents a besoin d’un hook de mesure pour elle, et la plupart des boucles aujourd’hui n’en ont pas. Je traite cela comme un TODO pour mon propre système de qualité plutôt que comme une prescription pour le vôtre.

Que faire concrètement

Rien dans cette section n’est prescrit ni testé par l’article. C’est ma lecture — en partant de mes propres arguments antérieurs, en utilisant ImplicitMemBench comme une pièce supplémentaire — de ce que les résultats impliquent pour les praticiens qui construisent contre les harnais actuels. Étiquetez en conséquence.

Cessez de supposer que les ancrages explicites suffisent. Continuez à écrire SOUL.md, AGENTS.md, CLAUDE.md et des fichiers de mémoire — mais traitez-les comme nécessaires et non suffisants. Ce que je mets à jour, c’est ma propre hypothèse par défaut selon laquelle « si c’est dans le system prompt, cela tient ». L’article ne teste pas cette hypothèse ; il teste des questions adjacentes et rapporte des scores qui me donnent envie de tenir mon hypothèse plus souplement qu’hier.

Raccourcissez les sessions délibérément. L’observation folklorique est que les agents se dégradent sur de longues sessions. L’explication folklorique que j’utilisais est « pression de contexte ». ImplicitMemBench n’est pas une étude sur la longueur de session — il utilise un protocole contrôlé Apprentissage/Amorçage-Interférence-Test, et non des sessions de production de longue durée1 — mais le mécanisme qu’il nomme (amorçage implicite et conditionnement classique s’inscrivant sans rappel) est une explication alternative candidate à ce folklore. La règle opérationnelle que j’adopte : quand une session dérive, ne la combattez pas avec davantage de corrections explicites — /new la session et recommencez à zéro. Que la dérive soit due à la pression sur la fenêtre de contexte, à l’amorçage implicite ou à autre chose, une session propre réinitialise celle qui en est réellement la cause.

Traitez l’inhibition comme difficile à imposer dans le prompt. Si vous avez besoin que votre agent ne fasse pas quelque chose, ne vous fiez pas au fait de le lui avoir dit. Construisez un garde-fou structurel — un linter, un hook pré-outil, une politique de sandbox, un outil qui refuse l’appel — qui impose l’interdiction au niveau du code. Mon argument dans la boucle qualité Jiro a été que les barrières strictes doivent être en dehors du modèle pour une raison ; je tenais déjà cette position avant cet article. ImplicitMemBench ajoute un schéma spécifique (le chiffre agrégé de 17,6 % d’inhibition1) qui est cohérent avec l’argument que je défends, bien que l’article lui-même ne teste ni le prompting ni les harnais d’agents, et je ne veux pas sur-revendiquer qu’il prouve la position.

Auditez le contexte pour ce qu’il amorce, pas seulement pour son nombre de tokens. Le nombre de tokens est la mesure dont tout le monde dispose. Si le cadre de l’amorçage implicite est un prisme utile — et je le traite comme une hypothèse que je veux tester, pas comme un résultat établi — alors un contexte de 20k tokens rempli de contenu narratif de persona utilisateur pourrait façonner le comportement au premier essai vers des sorties narratives davantage qu’un contexte de 60k tokens rempli de code structuré. Je n’ai pas encore d’outillage pour ce genre d’audit sur l’axe du contenu, et je ne suis pas sûr que quiconque en ait. La version minimale viable est : regardez vos sessions récentes et demandez-vous « vers quoi un humain lisant ce contexte serait-il amorcé ? ». Que cette question soit réellement prédictive du comportement de l’agent est empirique et je ne vais pas prétendre que l’article tranche.

Journalisez la disposition au premier essai, pas seulement la disposition finale. Si vous menez une forme quelconque de capture de trajectoire contre vos compétences, séparez « ce que l’agent a tenté en premier » de « ce sur quoi l’agent s’est arrêté après correction ». Le protocole de scoring au premier essai d’ImplicitMemBench1 est l’argument méthodologique de l’importance de cette séparation : la disposition finale mesure l’agent plus la boucle de correction, tandis que le premier essai mesure ce que l’agent a réellement produit avant tout retour externe. Pour toute boucle qualité où l’expérience utilisateur dépend du fait que la première réponse tombe juste, vous avez besoin du chiffre au premier essai, et presque rien ne le journalise séparément aujourd’hui.


FAQ

ImplicitMemBench teste-t-il un harnais d’agent spécifique ?

Non. Il teste 17 LLMs directement sur un benchmark de 300 items selon un protocole Apprentissage/Amorçage-Interférence-Test avec scoring au premier essai.1 Ce n’est pas un benchmark de harnais. Il n’évalue pas Claude Code, Cursor, Codex, Hermes ni aucune boucle d’agent de production. Le mapping que je trace dans ce billet entre les résultats du benchmark et le comportement de production des harnais d’agents est mon extension, étiquetée comme telle tout du long, et n’est pas un résultat de l’article.

L’asymétrie 17,6 % contre 75,0 % est-elle un résultat par modèle ou agrégé ?

Le résumé décrit l’asymétrie comme faisant partie de l’analyse des auteurs sur les résultats globaux du benchmark à travers les modèles, et la qualifie de preuve de « goulots d’étranglement universels ».1 Je lis cela comme l’asymétrie apparaissant de manière cohérente à travers les 17 modèles testés, les chiffres spécifiques reflétant le schéma agrégé. Le résumé ne publie pas de décomposition par modèle, et je ne vais pas en inventer une. Pour la décomposition complète par modèle, l’article est la source.

Pourquoi cela pourrait-il avoir plus d’importance pour les agents de production que pour les benchmarks existants ?

Réserve partielle ici. ImplicitMemBench lui-même utilise un protocole multi-étapes (Apprentissage/Amorçage-Interférence-Test),1 il n’est donc pas vrai que ce benchmark soit « à coup unique » — je ne veux pas répéter la ligne habituelle et négligente sur les benchmarks. Ce qui me semble — en tant que spéculation de praticien, pas en tant que résultat de l’article — mériter d’être signalé, c’est que la plupart des autres évaluations d’agents que les gens regardent mesurent soit l’achèvement fonctionnel des tâches, soit le rappel explicite de faits, deux choses qui favorisent les modèles. Si l’écart de mémoire implicite rapporté par cet article est réel au-delà de son propre protocole (et je ne sais pas qu’il le soit), ces autres évaluations manquent une dimension du comportement de production que les utilisateurs vivent réellement dans des sessions de longue durée. Je traite cela comme une hypothèse testable, pas comme une conclusion.

Cela contredit-il votre conseil SOUL.md dans le guide Hermes ?

Non — cela ajoute une condition aux limites. Le guide Hermes recommande SOUL.md comme ancrage d’identité principal parce que la mémoire déclarative explicite reste porteuse pour ce qu’elle fait bien : rappel cohérent de l’identité, contrôle de version auditable, comportement prévisible face à un questionnement direct. Ce que le guide Hermes ne couvrait pas — parce que rien n’existait pour le mesurer jusqu’à ce que cet article paraisse — c’est que l’ancrage d’identité explicite ne se propage pas automatiquement au comportement automatique du premier essai sous amorçage et conditionnement classique. Vous voulez toujours SOUL.md. Vous voulez aussi des garde-fous structurels en dehors.

Le prompt engineering peut-il résoudre une partie de cela ?

La réponse honnête est que l’article ne teste pas le prompting comme stratégie de mitigation, donc je ne peux pas vous le dire avec l’autorité de l’article. Ce que je peux dire : les auteurs présentent l’écart comme « nécessitant des innovations architecturales au-delà de la mise à l’échelle des paramètres »,1 ce qui est une affirmation plus forte que « de meilleurs prompts aideront », mais pas tout à fait « aucun prompt ne peut aider ». Pour le versant inhibition spécifiquement (17,6 % agrégé), mon intuition de praticien — que vous devriez relativiser par rapport à l’article lui-même — est que des garde-fous structurels en dehors du modèle constituent un pari plus sûr que des instructions dans le prompt. Mais c’est moi, pas l’article.

Est-ce l’un des articles de « benchmark de mémoire » que j’ai beaucoup vu récemment ?

Non, et l’article se distingue explicitement d’eux. Le cadre du résumé est que les benchmarks de mémoire existants évaluent le rappel explicite de faits — vous donnez au modèle un fait, vous demandez au modèle de le retrouver. ImplicitMemBench mesure quelque chose d’entièrement différent : l’adaptation comportementale automatique sans aucune étape de rappel.1 C’est la contribution de l’article et la raison pour laquelle il a été accepté à la conférence principale ACL 2026.1

Comment cela se situe-t-il par rapport à vos billets précédents sur la mémoire des agents ?

Ce billet est un compagnon direct de Les compétences statiques sont des compétences mortes. Ce billet antérieur soutenait que les compétences ont besoin d’une agrégation de trajectoire pour rester vivantes, et je supposais que le mode de défaillance était la pure absence — si vous pouviez simplement obtenir les données de trajectoire et faire tourner un détecteur de motifs, tout irait bien. ImplicitMemBench me dit qu’il y a un second mode de défaillance superposé : même avec des mises à jour de compétences parfaitement pilotées par la trajectoire, le comportement au premier essai pourrait ne pas refléter la mise à jour, parce que la mise à jour a atterri dans la mémoire explicite et que les décisions sont pilotées par la mémoire implicite. Le billet antérieur est toujours correct sur ce qu’il affirmait ; ce billet-ci est une mise à jour sur ce qu’il ne savait pas devoir affirmer.

Cela pourrait-il être un artefact de mesure ?

Possible. L’article est nouveau — soumis le 9 avril 2026, accepté à la conférence principale ACL 2026 — et des benchmarks isolés peuvent mesurer des artefacts de leurs protocoles spécifiques aussi facilement qu’ils mesurent de véritables phénomènes.1 Je ne vais pas prétendre le contraire. La raison pour laquelle je pense que ce n’est pas seulement un artefact, c’est que le mode de défaillance qu’il décrit — des agents renforçant rapidement les préférences tout en échouant à désapprendre les défaillances — est un folklore que j’observe sans nom depuis plus d’un an. Le benchmark n’a pas besoin d’être parfaitement calibré pour que la direction du résultat soit ce sur quoi les praticiens devraient agir.


Références


  1. Chonghan Qin, Xiachong Feng, Weitao Ma, Xiaocheng Feng, Lingpeng Kong, « ImplicitMemBench: Measuring Unconscious Behavioral Adaptation in Large Language Models », arXiv:2604.08064 [cs.AI], soumis le 9 avril 2026, accepté à la conférence principale ACL 2026. Source primaire pour : le cadre de la mémoire explicite contre implicite chez les agents LLM (« les benchmarks de mémoire existants pour les agents LLM évaluent le rappel explicite de faits, mais négligent la mémoire implicite où l’expérience devient un comportement automatisé sans rappel conscient ») ; les trois construits cognitivement ancrés du benchmark (Mémoire procédurale = « acquisition d’une compétence en un coup après interférence » ; Amorçage = « biais thématique via des instances expérimentales/contrôle appariées » ; Conditionnement classique = « associations Stimulus Conditionnel–Stimulus Inconditionnel (SC–SI) façonnant les premières décisions ») ; la conception du benchmark (suite de 300 items, protocole unifié Apprentissage/Amorçage-Interférence-Test avec scoring au premier essai) ; la couverture de l’évaluation (17 modèles) ; les scores spécifiques des meilleurs performeurs (DeepSeek-R1 65,3 %, Qwen3-32B 64,1 %, GPT-5 63,0 %, aucun modèle ne dépassant 66 % au total, tous décrits comme « bien en dessous des niveaux humains ») ; le résultat d’asymétrie (« asymétries spectaculaires (inhibition 17,6 % contre préférence 75,0 %) et goulots d’étranglement universels nécessitant des innovations architecturales au-delà de la mise à l’échelle des paramètres ») ; et l’expression de recadrage (« recadre l’évaluation depuis “ce que les agents rappellent” vers “ce qu’ils exécutent automatiquement” »). Toutes les citations directes dans ce billet proviennent du résumé publié. Les affirmations sur la manière dont les résultats du benchmark s’appliquent aux harnais d’agents de production, y compris SOUL.md, AGENTS.md, Claude Code, Hermes, MCP et les effets de la longueur de session, relèvent de mon propre cadre, clairement étiqueté comme tel tout du long, et ne sont pas attribuées à l’article. 

Articles connexes

Context Is the New Memory

Context engineering is the highest-impact skill in agent development. Three compression layers turn a 200K token window …

15 min de lecture

The Forgetting Agent: Why Multi-Turn Conversations Collapse

LLMs degrade 39% in multi-turn use across 200K conversations. Three mechanisms drive the collapse, and longer context wi…

16 min de lecture