← Alle Beitrage

Ihr Agent hat ein Gedächtnis, das Sie nicht geschrieben haben

From the guide: Claude Code Comprehensive Guide

Ich habe heute den größten Teil des Tages damit verbracht, eine Praxis-Referenz für Hermes Agent zu schreiben. Einer der tragenden Abschnitte dreht sich um SOUL.md — die Datei, in der Sie die Identität Ihres Agenten festlegen. Stimme, Ton, Präferenzen, Verhaltensleitplanken. Die gesamte Prämisse des Abschnitts lautet: Sie hinterlegen dort die Identität, der Agent liest sie zu Beginn jedes System-Prompts, und der Agent verhält sich entsprechend. Explizites Gedächtnis. Deklarativ. Prüfbar. Versionskontrolliert. Die richtige Art von Gedächtnis, die Art, um die sich ein ernsthafter Praktiker kümmern sollte.

Gestern landete ein Paper auf arxiv, das ich heute Abend bei einem Signal-Scan aufgegriffen habe, und das Lesen hat dazu geführt, dass ich die SOUL.md-Prämisse lockerer halte als noch heute früh.1

Das Paper heißt ImplicitMemBench: Measuring Unconscious Behavioral Adaptation in Large Language Models.1 Die Autoren beschreiben es als den ersten systematischen Benchmark für implizites Gedächtnis in LLMs — das Gedächtnis, das (in ihrer Rahmung) formt, was ein Agent automatisch ausführt, im Unterschied zum expliziten Gedächtnis, das formt, was er bewusst abruft.1 Die Spitzenreiter erreichen weniger als 66 %.1 Die Autoren berichten zudem von einer „dramatischen” Asymmetrie innerhalb dieses Scores,1 die ich weiter unten mit angemessener Zurückhaltung entpacken werde.

TL;DR

Bestehende Gedächtnis-Benchmarks messen expliziten Abruf — wenn Sie dem Modell eine Tatsache mitgeteilt haben, kann es sie abrufen? ImplicitMemBench misst ein anderes Gedächtnissystem: jenes, das (laut den Autoren) automatisches Verhalten „ohne bewussten Abruf” formt und aus Standardkonstrukten der Kognitionswissenschaft abgeleitet ist (prozedurales Gedächtnis, Priming, klassische Konditionierung).1 Auf einem 300 Items umfassenden Benchmark mit Erstversuchs-Wertung überschritt kein Modell, das die Autoren getestet haben, insgesamt 66 %: DeepSeek-R1 erzielte 65,3 %, Qwen3-32B 64,1 %, GPT-5 63,0 %, und die Autoren beschreiben die Spitzenreiter als „weit unter menschlichen Baselines”.1 Die Schlagzeilen-Zahl ist nicht die ganze Geschichte — das Abstract berichtet zudem von einer „dramatischen” Asymmetrie: 17,6 % bei Inhibition gegenüber 75,0 % bei Präferenz, eine etwa vierfache Lücke, gerahmt als „universeller Engpass”, der laut den Autoren „architektonische Innovationen jenseits von Parameterskalierung” erfordert.1 Ich lese die Asymmetrie — mit dem Vorbehalt, dass das Abstract nicht die vollständige Methodik hinter diesen beiden Zahlen veröffentlicht — als konsistent mit einem folkloristischen Fehlermodus, den ich in der Agentenarbeit beobachte: Systeme, die kürzlich gesehene Präferenzen schnell verstärken und kürzlich gesehene Fehlschläge nicht verlernen. Falls diese Lesart stimmt, verschiebt sie das Gespräch über Agentenidentität, Sicherheit und Skill-Evolution von „Was haben Sie in den Prompt geschrieben?” zu „Was könnte die Session still und leise formen, das Ihre expliziten Pins nicht prüfen können?” Diese Umdeutung ist meine Erweiterung des Papers, nicht die eigene Aussage des Papers.

Zentrale Erkenntnisse

Die untenstehenden Punkte sind meine Lesart dessen, was die Ergebnisse des Papers für Praktiker implizieren, nicht Aussagen, die das Paper selbst trifft. Das Paper testet 17 LLMs auf einem 300 Items umfassenden kognitionswissenschaftlichen Benchmark; es bewertet keine Produktions-Agent-Harnesses oder Prompting-Strategien. Ich kennzeichne jede Erkenntnis entsprechend.

  • Erweiterung: Identität in SOUL.md, AGENTS.md, CLAUDE.md, System-Prompts oder persistenten Memory-Dateien festzulegen ist explizites deklaratives Gedächtnis, und bestehende Benchmarks zeigen bereits, dass Modelle darin gut sind. ImplicitMemBench misst ein völlig anderes Gedächtnissystem, und Modelle erzielen dort weniger als 66 %.1 Die praktische Implikation — dass explizite Identitäts-Pins sich möglicherweise nicht auf automatisches Verhalten beim ersten Versuch übertragen — ist meine Schlussfolgerung, nicht die des Papers.
  • Erweiterung: die 17,6%-vs.-75,0%-Asymmetrie, sofern sie über den Benchmark hinaus generalisiert, würde einen Agenten vorhersagen, der kürzlich gesehene Präferenzen schnell absorbiert und kürzlich gesehene Fehlschläge nur langsam nicht mehr wiederholt. Das Paper berichtet die beiden Zahlen und bezeichnet sie als „dramatisch” und „universell”,1 veröffentlicht jedoch keine Item-Ebene-Methodik dazu, wie „Präferenz” und „Inhibition” operationalisiert wurden, und testet dieses Muster nicht in Agent-Harnesses. Die Lesart im Hinblick auf Produktionsverhalten ist meine.
  • Erweiterung: jedes Token, das aus einem Tool-Aufruf, einer MCP-Antwort, einer gescrapten Webseite oder einem Prompt-Injection-Versuch im Kontextfenster landet, ist In-Context-Verhaltenseinfluss — kein Training im Sinne einer Gewichtsaktualisierung, sondern Einfluss auf die nächste Erstversuchs-Antwort, den die explizite Prompt-Ebene nicht sauber prüfen kann. Das Paper erhebt diesen Anspruch nicht direkt; ich erweitere die Implizit-Gedächtnis-Rahmung auf Kontextfenster-Inhalte.
  • Aussage des Papers: die Auswertung von 17 Modellen offenbart „schwerwiegende Einschränkungen”, „dramatische Asymmetrien” und „universelle Engpässe, die architektonische Innovationen jenseits von Parameterskalierung erfordern”.1 Die Autoren rahmen die Lücke als architektonisch. Ich lese das als schwaches Indiz gegen „mehr Prompt-Engineering wird das beheben”, aber das Paper testet Prompting-Maßnahmen nicht spezifisch, behandeln Sie diese Lesart also als meine Hypothese, nicht die ihre.

Was das Paper misst

Die Rahmung des Papers lautet, dass bestehende Gedächtnis-Benchmarks für LLM-Agenten „den expliziten Abruf von Fakten bewerten, jedoch implizites Gedächtnis übersehen, bei dem Erfahrung ohne bewussten Abruf zu automatisiertem Verhalten wird.”1 Die Lücke, die sie identifizieren: „Effektive Assistenten müssen erlernte Prozeduren automatisch anwenden oder gescheiterte Handlungen ohne explizite Erinnerungen vermeiden.”1 Wenn der einzige Weg, auf dem Ihr Agent einen Fehler vermeiden kann, darin besteht, dass Sie ihm jede Runde erneut sagen, den Fehler nicht zu machen, dann bauen Sie nicht auf implizitem Gedächtnis auf; Sie zahlen bei jeder Anfrage explizite Gedächtniskosten.

ImplicitMemBench testet drei Konstrukte, die direkt aus kognitionswissenschaftlichen Darstellungen des nicht-deklarativen Gedächtnisses entnommen sind, zitiert aus dem Abstract:1

  1. Prozedurales Gedächtnis — „One-Shot-Erwerb einer Fertigkeit nach Interferenz.” Kann das Modell, nachdem ihm einmal gezeigt wurde, wie etwas zu tun ist, es später tatsächlich erneut ausführen, wenn andere Anweisungen dazwischengekommen sind? Dies ist das Gedächtnissystem, das einem Menschen erlaubt, Fahrradfahren zu lernen: Sie erinnern sich nicht, wie man fährt, Sie fahren, selbst nach Jahren ohne Rad.
  2. Priming — „themengetriebene Verzerrung durch gepaarte experimentelle/Kontroll-Instanzen.” Macht es das Modell durch das Sehen einer Klasse von Dingen wahrscheinlicher, dass es diese Klasse von Dingen bei der nächsten unabhängigen Aufgabe produziert, ohne dass dem Modell bewusst wäre, dass das Priming stattgefunden hat?
  3. Klassische Konditionierung — „Konditionierter-Stimulus–Unkonditionierter-Stimulus (CS–US)-Assoziationen, die Erstentscheidungen formen.” Wenn das Modell einer Reiz-Reaktions-Kopplung ausgesetzt war, zeigt sich diese Kopplung als Verzerrung bei einer völlig neuen Aufgabe, in der weder CS noch US der Kern der Frage sind?

Die Autoren verwenden eine 300 Items umfassende Suite unter einem einheitlichen „Learning/Priming-Interfere-Test-Protokoll mit Erstversuchs-Wertung.”1 Die Erstversuchs-Wertung ist wichtig. Ein Modell, das sich selbst korrigieren kann, nachdem ihm gesagt wurde, dass es etwas falsch gemacht hat, ist in Ordnung — aber die Forschungsfrage hier lautet, ob das Gedächtnis die automatische erste Antwort geformt hat. Wenn die erste Antwort falsch ist und die Korrektur erst nach explizitem Feedback erfolgt, ist das implizite Gedächtnissystem (wie das Paper es definiert) bei diesem Item gescheitert. Die Autoren fassen ihren Beitrag mit einer Zeile zusammen, die ich direkt übernehmen möchte: Der Benchmark „verschiebt die Bewertung von ‚was Agenten abrufen’ zu ‚was sie automatisch ausführen’.”1

Die Ergebnisse

Die Schlagzeilen-Zahl: „Kein Modell überschreitet insgesamt 66 %.”1

  • DeepSeek-R1 — 65,3 %
  • Qwen3-32B — 64,1 %
  • GPT-5 — 63,0 %

Die oben genannten Spitzenreiter werden als „weit unter menschlichen Baselines” beschrieben, obwohl das Abstract weder die exakte Human-Baseline-Zahl noch ein vollständiges Ranking pro Modell veröffentlicht.1 Insgesamt werden in dem Paper siebzehn Modelle evaluiert.1

Die Schlagzeile verbirgt das Unterergebnis. Die Autoren schreiben, dass „die Analyse dramatische Asymmetrien (Inhibition 17,6 % vs. Präferenz 75,0 %) und universelle Engpässe aufdeckt, die architektonische Innovationen jenseits von Parameterskalierung erfordern.”1 Ich möchte hier vorsichtig damit sein, was die Zahlen bedeuten — das Abstract liefert keine vollständige methodische Aufschlüsselung, wie diese beiden Zahlen berechnet wurden, daher ist meine Deutung eine Schlussfolgerung aus der Formulierung des Abstracts, nicht eine Lesart der internen Definitionen des Papers. Mit diesem Vorbehalt:

  • Präferenz: 75,0 % (Zahl des Papers). Meine Deutung, vorbehaltlich des vollständigen Papers: Diese Zahl erscheint konsistent damit, dass Modelle relativ gut darin sind zu zeigen, dass sie implizit in Richtung eines Reizes gezogen wurden — Priming- und CS–US-Kopplungen, die Verhalten in eine bestimmte Richtung verzerren, landen etwa in drei Vierteln der Fälle korrekt.
  • Inhibition: 17,6 % (Zahl des Papers). Meine Deutung, vorbehaltlich des vollständigen Papers: Diese Zahl erscheint konsistent damit, dass Modelle dramatisch schlechter darin sind zu zeigen, dass sie implizit von einem Reiz weggedrängt wurden — das „Tu das nicht wieder”-Signal landet in weniger als einem von fünf Fällen korrekt. Ich schließe die Verhaltensbedeutung aus dem Wort „Inhibition” und der Rahmung des Papers zur klassischen Konditionierung; das Abstract buchstabiert die Operationalisierung nicht aus.

Die Autoren bezeichnen die Asymmetrie ausdrücklich als „dramatisch” und schreiben sie „universellen Engpässen” zu,1 und das Wort universell ist bedeutsam: Die Autoren präsentieren dies als ein Muster quer über ihre Auswertung von 17 Modellen, nicht als Einzel-Modell-Artefakt. Ich werde nicht behaupten, dass der Engpass ein „Prompting-Problem” oder „kein Prompting-Problem” ist — das Paper testet Prompting nicht als Maßnahme, und beides zu behaupten ginge über das hinaus, was das Abstract stützt.

Was die Asymmetrie tatsächlich bedeutet

Ich möchte hier präzise sein mit dem, was ich behaupte, denn dies ist der Teil, bei dem es verlockend ist, einen Benchmark überzuinterpretieren.

Was das Paper zeigt. Auf einem 300 Items umfassenden, kognitionswissenschaftlich fundierten Benchmark mit Erstversuchs-Wertung sind LLMs dramatisch schlechter darin, implizite Inhibition zu demonstrieren als implizite Präferenz, um etwa einen Faktor vier, quer über jedes getestete Modell. Die Autoren nennen dies einen universellen Engpass, der nicht durch Skalierung behoben werden kann.

Was ich behaupte — getrennt vom Paper. Dieses Asymmetrie-Muster passt auf einen Fehlermodus, den ich in meiner eigenen Agentenarbeit seit Monaten beobachte, ohne vorher einen Namen dafür gehabt zu haben. Agent-Harnesses (nach meiner Erfahrung) scheinen überraschend gut darin, Kontext zu absorbieren, der in Richtung eines bevorzugten Stils, Werkzeugs oder Ansatzes weist — das Verhalten des Agenten driftet schnell zu dem, womit Sie es zuletzt gefüttert haben. Sie scheinen überraschend schlecht darin, einen Fehlschlag, den sie gerade haben passieren sehen, nicht zu wiederholen — der Agent probiert denselben kaputten Befehl, dasselbe falsche Werkzeug, denselben veralteten Pfad, selbst nachdem diese in derselben Session gescheitert sind. Das ist Folklore, keine Messung — es ist mein Eindruck als Praktiker, keine kontrollierte Studie. Die ImplicitMemBench-Zahlen sind konsistent mit dieser Folklore, und genau deshalb interessiert mich das Paper. Sie validieren die Folklore für sich allein nicht — und ich will nicht behaupten, das Paper gebe meiner Folklore „eine Zahl”, wenn das Paper etwas Engeres und Kontrollierteres gemessen hat als alles, was ich beobachtet habe.

Was ich nicht behaupte. Ich behaupte nicht, dass ImplicitMemBench spezifisch Agent-Harness-Verhalten oder Produktions-Claude Code-/Cursor-/Codex-Workflows gemessen hat. Das hat es nicht. Es hat 17 Modelle gegen ein strukturiertes kognitionswissenschaftliches Protokoll gemessen. Die Abbildung vom Benchmark auf das Produktionsverhalten ist meine Erweiterung, als solche gekennzeichnet, und ich möchte nicht, dass jemand, der dies liest, denkt, das Paper habe diese Behauptung für mich aufgestellt.

Mit diesen Kennzeichnungen: Die Unterscheidung, die der Benchmark zieht — zwischen explizitem Abruf einer Anweisung und automatischem Erstversuchs-Verhalten unter Priming/Konditionierung — ist die Unterscheidung, die ich in meiner eigenen Agentenarbeit ernster nehmen will. Sie können dem Agenten sagen „tu X nicht”, und der explizite Abruf wird wahrscheinlich funktionieren — er kann „tu X nicht” zurückgeben, wenn Sie ihn fragen. Was ImplicitMemBench misst, ist etwas anderes: Tut der Agent X bei der nächsten Erstversuchs-Entscheidung automatisch nicht, in Abwesenheit jeglicher expliziter Erinnerung? Ich weiß nicht, ob Produktions-Agent-Harnesses die aggregierte Inhibitions-Zahl von 17,6 % des Benchmarks für Erstversuchs-Verhalten in freier Wildbahn erben — diese Abbildung ist ungetestet, und ich behaupte sie nicht. Ich behaupte etwas Schwächeres: Die Unterscheidung zwischen „kann die Regel abrufen” und „führt die Regel automatisch aus” ist schärfer, als ich sie behandelt hatte, und die Ergebnisse des Papers sind ein Teil des Grundes dafür.

Die SOUL.md-Illusion

Der Hermes-Leitfaden, den ich heute schrieb, behandelt SOUL.md als den primären Identitäts-Pin des Agenten. Slot Nr. 1 in jedem System-Prompt. Ton, Stimme, Leitplanken. Der Leitfaden vertritt eine Version des Arguments, das jedes persistente Memory-System für Agenten in den letzten zwei Jahren vertreten hat: Wenn Sie die Identität in die richtige deklarative Memory-Datei legen, bleibt das Verhalten des Agenten damit im Einklang.

Dieses Argument ist nicht falsch, aber ImplicitMemBench gibt mir einen Grund, weniger zuversichtlich zu sein, wie vollständig es gilt. SOUL.md ist explizites deklaratives Gedächtnis — das Gedächtnissystem, das bestehende Benchmarks bereits messen und in dem Modelle bereits gut abschneiden. Modelle können seinen Inhalt auf Abruf wiedergeben; das ist der einfache Teil. Die härtere Frage, und diejenige, auf die SOUL.md meiner Ansicht nach keine Antwort gibt: Überschreibt der explizite Pin sinnvoll das implizite Priming, die Konditionierung und die Erstversuchs-Verzerrung, die sich aufbauen, während sich eine Session mit Tool-Ausgaben, abgerufenen Dokumenten, vorherigen Assistenten-Runden, Nutzerkorrekturen und allem anderen füllt, was das Erstversuchs-Verhalten ohne jeglichen Abrufschritt formt? Ich weiß es nicht. Das Paper testet SOUL.md oder eine äquivalente Identitäts-Pin-Datei nicht, und ich möchte nicht behaupten, es beantworte diese Frage für mich.

Hier die Sorge, gerahmt als Hypothese, nicht als Befund. Wenn Sie in SOUL.md eine Identität festlegen, die lautet „sei knapp und sachlich”, und sich dann die Session mit einem langen, narrativen Gesprächsstrang vom Nutzer füllt, sagt die Implizit-Gedächtnis-Rahmung voraus, dass das Erstversuchs-Verhalten in der nächsten Runde teilweise durch das Priming geformt werden sollte, selbst während der explizite Pin auf Abrufebene noch gilt. Ob das Priming in der Produktion tatsächlich im Durchschnitt gewinnt — das kann ich aus diesem Paper nicht beweisen, und ich werde es nicht versuchen. Die SOUL.md-Illusion, wie ich sie benenne: die Möglichkeit, dass Sie den Abruf der Identität festgelegt haben statt deren automatische Ausführung, und dass diese beiden Dinge nicht dasselbe sind.

Ich sage nicht, schreiben Sie kein SOUL.md. Ich werde es weiterhin schreiben — und der Hermes-Leitfaden wird es weiterhin empfehlen —, weil explizites deklaratives Gedächtnis tragend ist für die Dinge, in denen es gut ist. Was ich wohl sage, klar als meine eigene Extrapolation gekennzeichnet: Wenn Sie etwas bauen, das davon abhängt, dass der Agent einen Fehler nicht wiederholt, nicht zu einem kürzlich gesehenen Stil driftet, nicht von einem Priming-Signal, das Sie nicht beabsichtigt haben, vom Ziel abgezogen wird, würde ich das Zuverlässigkeitsbudget nicht allein auf SOUL.md setzen, und ich würde nicht annehmen, dass SOUL.md länger oder spezifischer zu machen das Problem löst. Das Paper verwendet die Formulierung „architektonische Innovationen jenseits von Parameterskalierung”,1 was ich — vorsichtig — als schwaches Indiz dafür lese, dass Prompt-Engineering-Maßnahmen die vom Benchmark gemessene Lücke nicht schließen werden. Das Paper selbst testet keine Prompt-Engineering-Maßnahmen, daher kann ich nicht sagen, es beweise, dass sie scheitern; ich kann nur sagen, es gibt mir keine Zuversicht, dass sie funktionieren werden.

Was das Paper nicht sagt (und was ich hinzufüge)

Das Paper ist ein Benchmark-Paper. Es misst eine Lücke, quantifiziert sie und argumentiert, die Lücke sei architektonisch. Es verschreibt keine spezifischen Harness-Ebene-Maßnahmen und behauptet nichts über spezifische Produktions-Agent-Systeme. Alles in diesem Abschnitt ist meine Rahmung, nicht die des Papers.

Implikation 1: Jedes Token im Kontextfenster ist In-Context-Verhaltenseinfluss. Wenn die Implizit-Gedächtnis-Rahmung außerhalb des Benchmarks hält — und ich spekuliere hier, berichte nicht — formt jedes Token, das aus einem Tool-Aufruf, einem abgerufenen Dokument oder einer zwischengeschalteten Antwort im Kontextfenster landet, das Erstversuchs-Verhalten der nächsten Runde auf eine Weise, die das Lesen des expliziten Prompts nicht sauber prüfen kann. Ich habe zuvor über die stille Egress-Angriffsfläche geschrieben (nicht vertrauenswürdige Tool-Ausgaben, die injizierte Anweisungen tragen) und darüber, dass Ihr Agent einen Mittelsmann hat, den Sie nicht geprüft haben (nicht vertrauenswürdige LLM-API-Router zwischen Ihrem Client und dem Modell). Keiner dieser Beiträge beanspruchte implizites Gedächtnis als den kausalen Mechanismus — sie beanspruchten Prompt Injection und Lieferketten-Kompromittierung als Mechanismen. ImplicitMemBench bietet eine mögliche zusätzliche Linse darauf, warum diese Angriffe so funktionieren, wie sie es tun: Selbst wenn die feindliche Tool-Ausgabe oder der kompromittierte Router dem Agenten nie explizit „sagt”, was er tun soll, könnte der Inhalt dessen, was er zurückgibt, die nächste Entscheidung des Agenten primen. Das ist eine Hypothese, mit der ImplicitMemBench konsistent ist, kein Befund, den das Paper berichtet.

Implikation 2: Session-Länge könnte ein Zuverlässigkeitsrisiko sein, nicht nur ein Kostenrisiko. Die folkloristische Beobachtung lautet, dass Agenten über lange Sessions schlechter werden, und die folkloristische Erklärung lautet Kontextfenster-Druck. ImplicitMemBench ist überhaupt keine Studie zur Session-Länge — es ist ein 300 Items umfassender Benchmark mit Erstversuchs-Wertung unter einem Learning/Priming-Interfere-Test-Protokoll,1 das etwas anderes misst als „was über 30 Runden in einer Produktions-Session passiert”. Ich möchte nicht so tun, als ob er direkt auf Produktions-Sessions abgebildet werden könnte. Was ich — als Hypothese — vorschlage: Der Mechanismus, den das Paper benennt (implizites Priming und klassische Konditionierung, die in Erstversuchs-Entscheidungen ohne Abruf landen), ist eine alternative Erklärungskandidatin für die folkloristische Drift, und es lohnt sich, ihn ernst zu nehmen, auch wenn das Paper ihn in diesem Rahmen nicht testet. Meine operative Regel in der Zwischenzeit: Führen Sie Sessions kürzer, als Ihr Kontextfenster erlaubt, nicht so lang, wie es zulässt. Das ist eine billige Versicherung gegen welchen tatsächlichen Mechanismus auch immer sich herausstellt.

Implikation 3: Das Argument „statische Skills sind tote Skills” braucht eine Fußnote. Ich habe Anfang dieser Woche Static Skills Are Dead Skills geschrieben, in dem ich argumentierte, dass Skills sich im Moment ihrer Auslieferung nicht mehr verbessern, sofern Sie keine Trajektorien-Feedback-Schleife bauen. Dieses Argument ging davon aus, dass der Fehlermodus Abwesenheit sei — Abwesenheit einer Aggregation, Abwesenheit eines Musterdetektors, Abwesenheit eines Evolvers. Liest man ImplicitMemBench gegen diesen früheren Beitrag, möchte ich einen möglichen zweiten Fehlermodus kennzeichnen, der darüber gelagert ist: Selbst mit trajektoriengetriebenen Skill-Updates könnte sich das Update, das in der Skill-Datei (explizites deklaratives Gedächtnis) landet, nicht sauber auf das automatische Erstversuchs-Verhalten übertragen, wenn das Erstversuchs-Verhalten von etwas getrieben wird, das näher an der Implizit-Gedächtnis-Schicht operiert. Ich weiß nicht, ob es so ist — das Paper testet keine Skill-Updates —, aber es ist eine Sorge, die ich beim Schreiben des früheren Beitrags nicht hatte, und ich kennzeichne sie als Sorge, nicht als Schlussfolgerung.

Implikation 4: Das Messproblem für Agentenqualität könnte schwieriger werden. Die meisten bestehenden Agent-Evals messen entweder den funktionalen Aufgabenabschluss (hat der Agent das Problem gelöst) oder den expliziten Faktenabruf (hat der Agent sich erinnert, was Sie ihm gesagt haben). ImplicitMemBench führt auf seinem eigenen Protokoll eine dritte Dimension ein: automatisches Erstversuchs-Verhalten unter implizitem Priming. Falls sich diese Dimension in der Produktion als bedeutsam herausstellt — was ich nicht weiß und das Paper nicht testet — braucht jede ernsthafte Qualitätsschleife für Agentenarbeit einen Messhaken dafür, und die meisten Schleifen heute haben keinen. Ich behandle das eher als TODO für mein eigenes Qualitätssystem denn als Vorschrift für Ihres.

Was tatsächlich tun

Nichts in diesem Abschnitt wird vom Paper vorgeschrieben oder getestet. Dies ist meine Lesart — fortgeführt aus meinen eigenen früheren Argumenten, mit ImplicitMemBench als einem weiteren Beweisstück —, was die Befunde für Praktiker implizieren, die gegen aktuelle Harnesses bauen. Kennzeichnen Sie es entsprechend.

Hören Sie auf anzunehmen, dass explizite Pins ausreichen. Schreiben Sie weiterhin SOUL.md, AGENTS.md, CLAUDE.md und Memory-Dateien — aber behandeln Sie sie als notwendig, nicht hinreichend. Woran ich arbeite, ist meine eigene Standardannahme, dass „wenn es im System-Prompt steht, gilt es.” Das Paper testet diese Annahme nicht; es testet angrenzende Fragen und berichtet Werte, die mich wollen lassen, meine eigene Annahme lockerer zu halten als gestern.

Kürzen Sie Sessions bewusst. Die folkloristische Beobachtung lautet, dass Agenten über lange Sessions schlechter werden. Die folkloristische Erklärung, die ich verwendet habe, lautet „Kontextdruck”. ImplicitMemBench ist keine Studie zur Session-Länge — es verwendet ein kontrolliertes Learning/Priming-Interfere-Test-Protokoll, keine langlaufenden Produktions-Sessions1 —, aber der Mechanismus, den es benennt (implizites Priming und klassische Konditionierung, die ohne Abruf landen), ist ein alternativer Erklärungskandidat für diese Folklore. Die operative Regel, die ich übernehme: Wenn eine Session driftet, bekämpfen Sie sie nicht mit mehr expliziter Korrektur — machen Sie /new und fangen Sie frisch an. Ob die Drift Kontextfenster-Druck, implizites Priming oder etwas anderes ist, eine saubere Session setzt zurück, was auch immer davon tatsächlich die Ursache ist.

Behandeln Sie Inhibition als schwer im Prompt durchsetzbar. Wenn Ihr Agent etwas nicht tun soll, verlassen Sie sich nicht darauf, ihm gesagt zu haben, es nicht zu tun. Bauen Sie eine strukturelle Schutzvorrichtung — einen Linter, einen Pre-Tool-Hook, eine Sandbox-Richtlinie, ein Tool, das den Aufruf ablehnt —, die das Verbot auf Code-Ebene durchsetzt. Mein Argument der Jiro-Qualitätsschleife lautete, dass harte Gates aus einem Grund außerhalb des Modells liegen müssen; ich vertrat diese Position bereits vor diesem Paper. ImplicitMemBench fügt ein spezifisches Muster hinzu (die aggregierte Inhibitions-Zahl von 17,6 %1), das konsistent ist mit dem Argument, das ich vertrete, obwohl das Paper selbst weder Prompting noch Agent-Harnesses testet, und ich möchte nicht überreizt behaupten, es beweise die Position.

Prüfen Sie Kontext daraufhin, wozu er primt, nicht nur wie viele Token er umfasst. Die Token-Zahl ist die Messgröße, die jeder hat. Falls die Implizit-Priming-Rahmung eine nützliche Linse ist — und ich behandle sie als Hypothese, die ich testen möchte, nicht als gesichertes Ergebnis —, dann könnte ein 20k-Token-Kontext voller narrativer Nutzer-Persona-Inhalte das Erstversuchs-Verhalten stärker in Richtung narrativer Ausgaben formen als ein 60k-Token-Kontext voller strukturierter Codes. Ich habe noch kein Tooling für diese Art von Inhalts-Achsen-Audit, und ich bin nicht sicher, ob jemand welches hat. Die minimal-lebensfähige Version lautet: Schauen Sie auf Ihre letzten Sessions und fragen Sie: „Worauf würde ein Mensch, der diesen Kontext liest, geprimt werden?” Ob diese Frage tatsächlich prädiktiv für Agentenverhalten ist, ist empirisch, und ich werde nicht so tun, als ob das Paper es entscheidet.

Protokollieren Sie die Erstversuchs-Disposition, nicht nur die endgültige Disposition. Wenn Sie irgendeine Art von Trajektorien-Erfassung gegen Ihre Skills laufen lassen, trennen Sie „was der Agent zuerst versucht hat” von „woran der Agent nach Korrektur gelandet ist”. Das Erstversuchs-Wertungs-Protokoll von ImplicitMemBench1 ist das methodische Argument dafür, warum diese Trennung wichtig ist: Die endgültige Disposition misst den Agenten plus die Korrekturschleife, während der Erstversuch misst, was der Agent tatsächlich vor externem Feedback produziert hat. Für jede Qualitätsschleife, bei der die Nutzererfahrung davon abhängt, dass die erste Antwort richtig landet, brauchen Sie die Erstversuchs-Zahl, und heute protokolliert fast nichts sie separat.


FAQ

Testet ImplicitMemBench spezifisch irgendeinen Agent-Harness?

Nein. Es testet 17 LLMs direkt auf einem 300 Items umfassenden Benchmark unter einem Learning/Priming-Interfere-Test-Protokoll mit Erstversuchs-Wertung.1 Es ist kein Harness-Benchmark. Es bewertet weder Claude Code, Cursor, Codex, Hermes noch irgendeine Produktions-Agent-Schleife. Die Abbildung, die ich in diesem Beitrag von den Benchmark-Ergebnissen auf das Agent-Harness-Produktionsverhalten ziehe, ist meine Erweiterung, durchweg als solche gekennzeichnet, und ist kein Befund aus dem Paper.

Ist die Asymmetrie von 17,6 % vs. 75,0 % ein Ergebnis pro Modell oder ein Aggregat?

Das Abstract beschreibt die Asymmetrie als Teil der Analyse der Autoren zu den Gesamt-Benchmark-Ergebnissen über Modelle hinweg und kennzeichnet sie als Beleg für „universelle Engpässe”.1 Ich lese das so, dass die Asymmetrie konsistent über die 17 getesteten Modelle hinweg auftritt, wobei die spezifischen Zahlen das aggregierte Muster widerspiegeln. Das Abstract veröffentlicht keine Aufschlüsselung pro Modell, und ich werde keine erfinden. Für die vollständige Aufschlüsselung pro Modell ist das Paper die Quelle.

Warum könnte dies für Produktions-Agenten mehr bedeuten als für bestehende Benchmarks?

Partieller Vorbehalt hierzu. ImplicitMemBench selbst verwendet ein mehrstufiges Protokoll (Learning/Priming-Interfere-Test),1 es ist also nicht der Fall, dass dieser Benchmark „Single-Shot” ist — ich möchte nicht die übliche nachlässige Floskel über Benchmarks wiederholen. Was mir — als praktische Spekulation, nicht als Befund des Papers — erwähnenswert erscheint, ist, dass die meisten anderen Agent-Evals, die man sich anschaut, entweder funktionalen Aufgabenabschluss oder expliziten Faktenabruf messen, wovon beides Modelle begünstigt. Wenn die von diesem Paper berichtete Implizit-Gedächtnis-Lücke jenseits seines eigenen Protokolls real ist (und ich weiß nicht, ob sie es ist), fehlt diesen anderen Evals eine Dimension des Produktionsverhaltens, die Nutzer in langlaufenden Sessions tatsächlich erleben. Ich behandle das als überprüfbare Hypothese, nicht als Schlussfolgerung.

Widerspricht dies Ihrem SOUL.md-Rat im Hermes-Leitfaden?

Nein — es fügt eine Randbedingung hinzu. Der Hermes-Leitfaden empfiehlt SOUL.md als primären Identitäts-Pin, weil explizites deklaratives Gedächtnis für das, was es gut macht, nach wie vor tragend ist: konsistenter Abruf der Identität, prüfbare Versionskontrolle, vorhersehbares Verhalten bei direkter Befragung. Was der Hermes-Leitfaden nicht abdeckte — weil nichts existierte, um es zu messen, bis dieses Paper erschien —, ist, dass sich der explizite Identitäts-Pin nicht automatisch auf automatisches Erstversuchs-Verhalten unter Priming und klassischer Konditionierung überträgt. Sie wollen immer noch SOUL.md. Sie wollen auch strukturelle Schutzvorrichtungen außerhalb davon.

Kann Prompt-Engineering irgendetwas davon beheben?

Die ehrliche Antwort lautet, dass das Paper Prompting nicht als Minderungsstrategie testet, daher kann ich es Ihnen nicht mit Paper-Autorität sagen. Was ich sagen kann: Die Autoren rahmen die Lücke als „architektonische Innovationen jenseits von Parameterskalierung erfordernd”,1 was eine stärkere Behauptung ist als „bessere Prompts werden helfen”, aber nicht ganz „kein Prompt kann helfen”. Speziell für die Inhibitions-Seite (17,6 % aggregiert) lautet meine Praktiker-Intuition — die Sie relativ zum Paper selbst herabsetzen sollten —, dass strukturelle Schutzvorrichtungen außerhalb des Modells eine sicherere Wette sind als Prompt-Anweisungen. Aber das bin ich, nicht das Paper.

Ist dies eines der „Memory-Benchmark”-Papers, von denen ich in letzter Zeit viele sehe?

Nein, und das Paper unterscheidet sich ausdrücklich von ihnen. Die Rahmung des Abstracts lautet, dass bestehende Gedächtnis-Benchmarks expliziten Faktenabruf bewerten — geben Sie dem Modell eine Tatsache, bitten Sie das Modell, sie abzurufen. ImplicitMemBench misst etwas völlig anderes: automatische Verhaltensanpassung ohne jeglichen Abrufschritt.1 Das ist der Beitrag des Papers und der Grund, warum es zur ACL 2026 Main Conference angenommen wurde.1

Wo steht dies im Verhältnis zu Ihren früheren Beiträgen zum Agentengedächtnis?

Dieser Beitrag ist ein direkter Begleiter zu Static Skills Are Dead Skills. Jener frühere Beitrag argumentierte, dass Skills Trajektorien-Aggregation brauchen, um am Leben zu bleiben, und ich nahm an, der Fehlermodus sei reine Abwesenheit — wenn Sie nur die Trajektoriendaten erhalten und einen Musterdetektor laufen lassen könnten, wären Sie in Ordnung. ImplicitMemBench sagt mir, dass es einen zweiten Fehlermodus darüber gibt: Selbst mit perfekten trajektoriengetriebenen Skill-Updates spiegelt das Erstversuchs-Verhalten das Update möglicherweise nicht wider, weil das Update im expliziten Gedächtnis gelandet ist und die Entscheidungen vom impliziten Gedächtnis getrieben werden. Der frühere Beitrag ist immer noch korrekt in dem, was er behauptete; dieser Beitrag ist ein Update darüber, was er nicht wusste, um es zu behaupten.

Könnte dies ein Messartefakt sein?

Möglicherweise. Das Paper ist neu — eingereicht am 9. April 2026, angenommen zur ACL 2026 Main Conference — und einzelne Benchmarks können genauso leicht Artefakte ihrer spezifischen Protokolle messen wie reale Phänomene.1 Ich werde nicht so tun, als wäre es anders. Der Grund, warum ich denke, dass es nicht nur ein Artefakt ist, liegt darin, dass der Fehlermodus, den es beschreibt — Agenten, die Präferenzen schnell verstärken und gleichzeitig Fehlschläge nicht verlernen —, Folklore ist, die ich seit mehr als einem Jahr ohne Namen beobachte. Der Benchmark muss nicht perfekt kalibriert sein, damit die Richtung des Ergebnisses dasjenige ist, wonach Praktiker handeln sollten.


Referenzen


  1. Chonghan Qin, Xiachong Feng, Weitao Ma, Xiaocheng Feng, Lingpeng Kong, “ImplicitMemBench: Measuring Unconscious Behavioral Adaptation in Large Language Models,” arXiv:2604.08064 [cs.AI], eingereicht am 9. April 2026, angenommen zur ACL 2026 Main Conference. Primärquelle für: die Rahmung von explizitem versus implizitem Gedächtnis in LLM-Agenten („existing memory benchmarks for LLM agents evaluate explicit recall of facts, yet overlook implicit memory where experience becomes automated behavior without conscious retrieval”); die drei kognitionswissenschaftlich fundierten Konstrukte des Benchmarks (Prozedurales Gedächtnis = „one-shot skill acquisition after interference”; Priming = „theme-driven bias via paired experimental/control instances”; Klassische Konditionierung = „Conditioned Stimulus–Unconditioned Stimulus (CS–US) associations shaping first decisions”); das Benchmark-Design (300 Items umfassende Suite, einheitliches Learning/Priming-Interfere-Test-Protokoll mit Erstversuchs-Wertung); die Auswertungsabdeckung (17 Modelle); die spezifischen Top-Performer-Werte (DeepSeek-R1 65,3 %, Qwen3-32B 64,1 %, GPT-5 63,0 %, kein Modell überschreitet insgesamt 66 %, alle beschrieben als „far below human baselines”); den Asymmetrie-Befund („dramatic asymmetries (inhibition 17.6% vs. preference 75.0%) and universal bottlenecks requiring architectural innovations beyond parameter scaling”); und die Umdeutungs-Phrase („reframes evaluation from ‘what agents recall’ to ‘what they automatically enact’”). Alle direkten Zitate in diesem Beitrag stammen aus dem veröffentlichten Abstract. Aussagen darüber, wie die Benchmark-Befunde auf Produktions-Agent-Harnesses anzuwenden sind, einschließlich SOUL.md, AGENTS.md, Claude Code, Hermes, MCP und Effekten der Session-Länge, sind meine eigene Rahmung, durchweg klar als solche gekennzeichnet, und werden nicht dem Paper zugeschrieben. 

Verwandte Beiträge

Context Is the New Memory

Context engineering is the highest-impact skill in agent development. Three compression layers turn a 200K token window …

15 Min. Lesezeit

The Forgetting Agent: Why Multi-Turn Conversations Collapse

LLMs degrade 39% in multi-turn use across 200K conversations. Three mechanisms drive the collapse, and longer context wi…

16 Min. Lesezeit