Ihr Agent hat ein Gedächtnis, das Sie nicht geschrieben haben

Q: Warum könnte das für produktive Agenten wichtiger sein als für bestehende Benchmarks?

Teilweiser Vorbehalt hierzu. ImplicitMemBench selbst verwendet ein mehrstufiges Protokoll (Learning/Priming-Interfere-Test),1 daher trifft es nicht zu, dass der Benchmark „Single-Shot” ist. Ich möchte nicht die übliche nachlässige Formulierung über Benchmarks wiederholen. Was hervorgehoben zu werden scheint (als Praktikerspekulation, nicht als Befund des Papers): Die meisten anderen Agenten-Evaluierungen, die Menschen betrachten, messen entweder funktionale Aufgabenerfüllung oder explizites Faktenerinnern, beides begünstigt Modelle. Falls die vom Paper berichtete Implizites-Gedächtnis-Lücke über das eigene Protokoll hinaus real ist (und ich weiß nicht, ob sie es ist), verpassen diese anderen Evaluierungen eine Dimension des Produktionsverhaltens, die Nutzer in langlaufenden Sitzungen tatsächlich erleben. Ich behandle das als testbare Hypothese, nicht als Schlussfolgerung.

20 Min. Lesezeit

From the guide: Claude Code Comprehensive Guide

LLMs entwickeln ein unbewusstes Verhaltensgedächtnis, das bestehende Evaluierungen vollständig übersehen. Ein ACL-2026-Paper hat festgestellt, dass Spitzenmodelle beim Erkennen ihrer eigenen erlernten Verhaltensmuster unter 66 % liegen – Muster, die ohne explizite Speicherung sitzungsübergreifend bestehen bleiben. Das explizite Gedächtnis, das Sie schreiben (SOUL.md, CLAUDE.md), ist nur die halbe Wahrheit.

Den größten Teil des heutigen Tages habe ich damit verbracht, eine Praktiker-Referenz für den Hermes Agent zu verfassen. Einer der tragenden Abschnitte behandelt SOUL.md, die Datei, in der Sie die Identität Ihres Agenten festhalten. Stimme, Ton, Präferenzen, Verhaltensleitplanken. Die gesamte Prämisse des Abschnitts lautet, dass Sie die Identität dort ablegen, der Agent sie am Anfang jedes System-Prompts liest und sich entsprechend verhält. Explizites Gedächtnis. Deklarativ. Auditierbar. Versionskontrolliert. Die richtige Art von Gedächtnis, die Art, die einem ernsthaften Praktiker am Herzen liegen sollte.

Gestern ist ein Paper auf arxiv erschienen, das ich heute Abend bei einem Signal-Scan entdeckt habe, und nach der Lektüre halte ich die SOUL.md-Prämisse lockerer, als ich es heute früher getan hätte.¹

Das Paper trägt den Titel ImplicitMemBench: Measuring Unconscious Behavioral Adaptation in Large Language Models.¹ Die Autoren beschreiben es als den ersten systematischen Benchmark für implizites Gedächtnis in LLMs: das Gedächtnis, das (in ihrer Rahmung) prägt, was ein Agent automatisch ausführt, im Unterschied zum expliziten Gedächtnis, das prägt, woran er sich bewusst erinnert.¹ Spitzenmodelle erreichen unter 66 %.¹ Die Autoren berichten außerdem von einer „dramatischen” Asymmetrie innerhalb dieses Wertes,¹ die ich weiter unten mit angemessener Zurückhaltung aufschlüssele.

TL;DR

Bestehende Gedächtnis-Benchmarks messen explizite Erinnerung: Kann das Modell, wenn Sie ihm eine Tatsache mitgeteilt haben, diese abrufen? ImplicitMemBench misst ein anderes Gedächtnissystem, jenes, das (laut Autoren) automatisches Verhalten „ohne bewussten Abruf” prägt und aus standardmäßigen kognitionswissenschaftlichen Konstrukten (prozedurales Gedächtnis, Priming, klassische Konditionierung) abgeleitet ist.¹ Bei einem 300-Item-Benchmark mit Bewertung des ersten Versuchs überschritt kein vom Autorenteam getestetes Modell insgesamt 66 %: DeepSeek-R1 erzielte 65,3 %, Qwen3-32B 64,1 %, GPT-5 63,0 %, und die Autoren beschreiben die Spitzenreiter als „weit unter den menschlichen Baselines”.¹ Die Schlagzeilenzahl erzählt nur die Hälfte. Die Zusammenfassung berichtet außerdem von einer „dramatischen” Asymmetrie: 17,6 % bei Inhibition gegenüber 75,0 % bei Präferenz, eine Lücke von etwa dem Faktor 4, eingeordnet als „universeller Flaschenhals”, der laut Autoren „architektonische Innovationen jenseits der Parameter-Skalierung” benötige.¹ Ich lese die Asymmetrie (mit dem Hinweis, dass die Zusammenfassung die vollständige Methodik hinter diesen beiden Zahlen nicht veröffentlicht) als konsistent mit einem Folklore-Fehlermuster, das ich in der Agenten-Arbeit beobachtet habe: Systeme, die kürzlich gesehene Präferenzen schnell verstärken und kürzlich gesehene Fehler nicht wieder verlernen. Falls diese Lesart trägt, verlagert sie das Gespräch über Agenten-Identität, Sicherheit und Skill-Entwicklung von „Was haben Sie in den Prompt geschrieben?” zu „Was formt die Sitzung möglicherweise still, das Ihre expliziten Pins nicht auditieren können?” Diese Umrahmung ist meine Erweiterung des Papers, nicht die Aussage des Papers selbst.

Zentrale Erkenntnisse

Die folgenden Stichpunkte sind meine Lesart dessen, was die Ergebnisse des Papers für Praktiker bedeuten, nicht Behauptungen, die das Paper selbst aufstellt. Das Paper testet 17 LLMs an einem kognitionswissenschaftlichen 300-Item-Benchmark; es evaluiert weder produktive Agenten-Harness-Systeme noch Prompting-Strategien. Ich kennzeichne jede Erkenntnis entsprechend.

Erweiterung: Das Festlegen der Identität in SOUL.md, AGENTS.md, CLAUDE.md, System-Prompts oder persistenten Memory-Dateien ist explizites deklaratives Gedächtnis, bei dem bestehende Benchmarks bereits zeigen, dass Modelle gut abschneiden. ImplicitMemBench misst ein völlig anderes Gedächtnissystem, und Modelle erreichen dort unter 66 %.¹ Die Praktiker-Implikation (dass explizite Identitäts-Pins möglicherweise nicht auf das automatische Verhalten beim ersten Versuch übertragen werden) ist meine Schlussfolgerung, nicht die des Papers.
Erweiterung: Die Asymmetrie 17,6 % vs. 75,0 %, falls sie über den Benchmark hinaus generalisiert, würde einen Agenten vorhersagen, der kürzlich gesehene Präferenzen schnell aufnimmt und kürzlich gesehene Fehler langsam zu wiederholen aufhört. Das Paper berichtet die beiden Zahlen und bezeichnet sie als „dramatisch” und „universell”,¹ veröffentlicht jedoch keine Methodik pro Item, wie „Präferenz” und „Inhibition” operationalisiert wurden, und testet dieses Muster nicht in Agenten-Harness-Systemen. Die Lesart für das Produktionsverhalten stammt von mir.
Erweiterung: Jedes Token, das aus einem Tool-Aufruf, einer MCP-Antwort, einer gescrapten Webseite oder einem Prompt-Injection-Versuch im Kontextfenster landet, ist In-Context-Verhaltensbeeinflussung. Kein Training im Sinne einer Gewichtsaktualisierung, aber Einfluss auf die nächste Erstversuchsantwort, den die explizite Prompt-Ebene nicht sauber auditieren kann. Das Paper stellt diese Behauptung nicht direkt auf; ich erweitere die Rahmung des impliziten Gedächtnisses auf den Inhalt des Kontextfensters.
Paper-Behauptung: Die Auswertung von 17 Modellen offenbart „gravierende Einschränkungen”, „dramatische Asymmetrien” und „universelle Flaschenhälse, die architektonische Innovationen jenseits der Parameter-Skalierung erfordern”.¹ Die Autoren rahmen die Lücke als architektonisch. Ich lese das als schwaches Indiz gegen „Mehr Prompt Engineering wird das beheben”, doch das Paper testet Prompting-Abhilfen nicht explizit, weshalb diese Lesart als meine Hypothese, nicht als ihre, zu behandeln ist.

Was das Paper misst

Die Rahmung des Papers lautet, dass bestehende Gedächtnis-Benchmarks für LLM-Agenten „das explizite Erinnern von Fakten evaluieren, dabei aber das implizite Gedächtnis übersehen, in dem Erfahrung ohne bewussten Abruf zu automatisiertem Verhalten wird”.¹ Die Lücke, die sie identifizieren: „Effektive Assistenten müssen gelernte Prozeduren automatisch anwenden oder fehlgeschlagene Aktionen ohne explizite Erinnerungen vermeiden.”¹ Wenn die einzige Möglichkeit, dass Ihr Agent einen Fehler vermeidet, darin besteht, dass Sie ihm bei jeder Runde erneut sagen, den Fehler nicht zu machen, bauen Sie nicht auf implizitem Gedächtnis auf; Sie zahlen bei jeder Anfrage explizite Gedächtniskosten.

ImplicitMemBench testet drei Konstrukte, die direkt aus kognitionswissenschaftlichen Darstellungen des nicht-deklarativen Gedächtnisses stammen, zitiert aus der Zusammenfassung:¹

Prozedurales Gedächtnis: „One-Shot-Fähigkeitserwerb nach Interferenz”. Kann das Modell, nachdem ihm einmal gezeigt wurde, wie etwas funktioniert, es später tatsächlich erneut ausführen, wenn andere Anweisungen dazwischengekommen sind? Prozedurales Gedächtnis ermöglicht es einem Menschen, Fahrradfahren zu lernen: Sie erinnern sich nicht daran, wie man fährt, Sie fahren, selbst nach Jahren ohne Fahrrad.
Priming: „Themengetriebene Verzerrung über gepaarte experimentelle/Kontroll-Instanzen”. Macht das Betrachten einer Sache das Modell wahrscheinlicher, bei der nächsten, unabhängigen Aufgabe eine Sache dieser Klasse zu produzieren, ohne dass sich das Modell des Primings bewusst ist?
Klassische Konditionierung: „Konditionierter-Reiz-Unkonditionierter-Reiz (CS-US)-Assoziationen, die erste Entscheidungen prägen”. Wenn das Modell einer Reiz-Reaktions-Paarung ausgesetzt war, zeigt sich diese Paarung als Verzerrung bei einer völlig neuen Aufgabe, bei der weder der CS noch der US Gegenstand der Frage ist?

Die Autoren verwenden eine 300-Item-Suite unter einem einheitlichen „Learning/Priming-Interfere-Test-Protokoll mit Bewertung des ersten Versuchs”.¹ Die Bewertung des ersten Versuchs ist wichtig. Ein Modell, das sich selbst korrigieren kann, nachdem man ihm gesagt hat, dass es etwas falsch gemacht hat, ist in Ordnung, aber die Forschungsfrage hier lautet, ob das Gedächtnis die automatische erste Antwort geformt hat. Wenn die erste Antwort falsch ist und die Korrektur erst nach explizitem Feedback erfolgt, ist das implizite Gedächtnissystem (wie es das Paper definiert) bei diesem Item gescheitert. Die Autoren fassen ihren Beitrag mit einer Zeile zusammen, die ich direkt hervorheben möchte: Der Benchmark „rahmt die Evaluierung neu: von ‘woran sich Agenten erinnern’ zu ‘was sie automatisch ausführen’”.¹

Die Ergebnisse

Die Schlagzeile: „Kein Modell überschreitet insgesamt 66 %.”¹

DeepSeek-R1: 65,3 %
Qwen3-32B: 64,1 %
GPT-5: 63,0 %

Die obigen Spitzenreiter werden als „weit unter den menschlichen Baselines” beschrieben, obwohl die Zusammenfassung weder die exakte menschliche Baseline-Zahl noch eine vollständige Rangliste pro Modell veröffentlicht.¹ Insgesamt werden im Paper siebzehn Modelle evaluiert.¹

Die Schlagzeile verbirgt das Teilergebnis. Die Autoren schreiben, dass „die Analyse dramatische Asymmetrien (Inhibition 17,6 % vs. Präferenz 75,0 %) und universelle Flaschenhälse aufdeckt, die architektonische Innovationen jenseits der Parameter-Skalierung erfordern”.¹ Ich möchte hier vorsichtig sein, was die Zahlen bedeuten. Die Zusammenfassung bietet keine vollständige Methodenaufschlüsselung dafür, wie die Autoren diese beiden Zahlen berechnet haben, weshalb meine Erläuterung dazu eine Schlussfolgerung aus der Formulierung der Zusammenfassung ist, keine Lesart der internen Definitionen des Papers. Mit diesem Vorbehalt:

Präferenz: 75,0 % (Zahl des Papers). Meine Erläuterung, vorbehaltlich des vollständigen Papers: Modelle scheinen relativ gut darin zu sein, zu zeigen, dass implizite Exposition sie zu einem Reiz hingezogen hat. Priming und CS-US-Paarungen, die das Verhalten in eine bestimmte Richtung verzerren, treffen etwa drei Viertel der Zeit korrekt.
Inhibition: 17,6 % (Zahl des Papers). Meine Erläuterung, vorbehaltlich des vollständigen Papers: Modelle scheinen dramatisch schlechter darin zu sein, zu zeigen, dass implizite Exposition sie von einem Reiz weg gedrängt hat. Das „Tu das nicht wieder”-Signal trifft seltener als einmal in fünf Fällen korrekt. Ich schließe die Verhaltensbedeutung aus dem Wort „Inhibition” und der Rahmung der klassischen Konditionierung im Paper; die Zusammenfassung erläutert die Operationalisierung nicht.

Die Autoren bezeichnen die Asymmetrie explizit als „dramatisch” und führen sie auf „universelle Flaschenhälse” zurück,¹ und das Wort universell ist bedeutsam: Die Autoren präsentieren dies als Muster über ihre Evaluierung von 17 Modellen hinweg, nicht als Artefakt eines einzelnen Modells. Ich werde nicht behaupten, dass der Flaschenhals ein „Prompting-Problem” oder „kein Prompting-Problem” ist. Das Paper testet Prompting nicht als Abhilfe, und beides zu sagen ginge über das hinaus, was die Zusammenfassung stützt.

Was die Asymmetrie tatsächlich bedeutet

Ich möchte hier präzise sein, was ich behaupte, denn dies ist der Teil, in dem es verlockend ist, einen Benchmark zu überinterpretieren.

Was das Paper zeigt. In einem kognitiv fundierten 300-Item-Benchmark, der auf Erstversuchsantworten bewertet wird, sind LLMs dramatisch schlechter darin, implizite Inhibition zu zeigen als implizite Präferenz, um ungefähr den Faktor vier, über alle getesteten Modelle hinweg. Die Autoren nennen dies einen universellen Flaschenhals, der nicht durch Skalierung behoben werden kann.

Was ich behaupte – getrennt vom Paper. Das Asymmetriemuster deckt sich mit einem Fehlermodus, den ich in meiner eigenen Agenten-Arbeit seit Monaten beobachte, ohne ihm zuvor einen Namen gegeben zu haben. Agenten-Harness-Systeme (nach meiner Erfahrung) scheinen überraschend gut darin zu sein, Kontext aufzunehmen, der auf einen bevorzugten Stil, ein Werkzeug oder einen Ansatz hinweist. Das Verhalten des Agenten driftet schnell zu dem hin, was Sie ihm zuletzt gefüttert haben. Sie scheinen überraschend schlecht darin zu sein, einen Fehler, den sie gerade beobachten mussten, nicht zu wiederholen. Der Agent versucht denselben kaputten Befehl, dasselbe falsche Werkzeug, denselben veralteten Pfad, selbst nachdem diese in derselben Sitzung gescheitert sind. Das ist Folklore, keine Messung; es ist mein Praktiker-Eindruck, keine kontrollierte Studie. Die ImplicitMemBench-Zahlen sind konsistent mit dieser Folklore, weshalb mich das Paper interessiert. Sie validieren die Folklore für sich genommen nicht, und ich möchte nicht behaupten, das Paper gebe meiner Folklore „eine Zahl”, wenn das Paper etwas enger und kontrollierter gemessen hat als alles, was ich beobachtet habe.

Was ich nicht behaupte. Ich behaupte nicht, dass ImplicitMemBench speziell Agenten-Harness-Verhalten oder produktive Claude Code-/Cursor-/Codex-Workflows gemessen hat. Das hat es nicht. Es hat 17 Modelle gegen ein strukturiertes kognitionswissenschaftliches Protokoll gemessen. Die Abbildung vom Benchmark auf Produktionsverhalten ist meine Erweiterung, als solche gekennzeichnet, und ich möchte nicht, dass jemand beim Lesen denkt, das Paper habe diese Behauptung für mich aufgestellt.

Mit diesen Kennzeichnungen ist die Unterscheidung, die der Benchmark zwischen explizitem Erinnern einer Anweisung und automatischem Erstversuchsverhalten unter Priming/Konditionierung zieht, die Unterscheidung, die ich in meiner eigenen Agenten-Arbeit ernster zu nehmen beginnen möchte. Sie können dem Agenten „Tu X nicht” sagen, und das explizite Erinnern wird wahrscheinlich funktionieren; er kann „Tu X nicht” auf Nachfrage wiedergeben. Was ImplicitMemBench misst, ist etwas anderes: Unterlässt der Agent automatisch X bei der nächsten Erstversuchsentscheidung, ohne jede explizite Erinnerung? Ich weiß nicht, ob produktive Agenten-Harness-Systeme die aggregierte Inhibitionszahl des Benchmarks von 17,6 % beim Erstversuchsverhalten in der Praxis übernehmen. Diese Abbildung ist ungetestet, und ich behaupte sie nicht. Ich behaupte etwas Schwächeres: Die Unterscheidung zwischen „kann die Regel erinnern” und „führt die Regel automatisch aus” ist schärfer, als ich sie behandelt hatte, und die Ergebnisse des Papers sind ein Grund dafür.

Die SOUL.md-Illusion

Der Hermes-Leitfaden, den ich heute geschrieben habe, behandelt SOUL.md als primären Identitäts-Pin des Agenten. Slot 1 in jedem System-Prompt. Ton, Stimme, Leitplanken. Der Leitfaden bringt eine Version des Arguments vor, das jedes Persistent-Memory-System für Agenten in den letzten zwei Jahren vorgebracht hat: Wenn Sie die Identität in die richtige deklarative Gedächtnisdatei schreiben, bleibt das Verhalten des Agenten damit im Einklang.

Dieses Argument ist nicht falsch, aber ImplicitMemBench gibt mir einen Grund, weniger zuversichtlich zu sein, wie vollständig es trägt. SOUL.md ist explizites deklaratives Gedächtnis, das Gedächtnissystem, das bestehende Benchmarks bereits messen und Modelle bereits gut beherrschen. Modelle können seinen Inhalt auf Anfrage abrufen; das ist der einfache Teil. Die schwierigere Frage, und diejenige, die SOUL.md meines Erachtens nicht beantwortet: Überschreibt der explizite Pin sinnvoll das implizite Priming, die Konditionierung und die Erstversuchsverzerrung, die sich aufbauen, wenn eine Sitzung mit Tool-Ausgaben, abgerufenen Dokumenten, vorherigen Assistentenrunden, Nutzerkorrekturen und allem anderen gefüllt wird, was das Erstversuchsverhalten ohne jeden Abrufschritt prägt? Ich weiß es nicht. Das Paper testet weder SOUL.md noch eine entsprechende Identitäts-Pin-Datei, und ich möchte nicht behaupten, es beantworte diese Frage für mich.

Hier die Sorge, als Hypothese formuliert statt als Befund. Wenn Sie eine Identität in SOUL.md festlegen, die „sei knapp und sachlich” vorgibt, und sich die Sitzung dann mit einem langen, narrativ gehaltenen Gesprächsverlauf des Nutzers füllt, sagt die Rahmung des impliziten Gedächtnisses voraus, dass das Priming das Erstversuchsverhalten bei der nächsten Runde teilweise formen sollte, auch während der explizite Pin beim Erinnern weiterhin gilt. Ob das Priming tatsächlich in der Produktion im Durchschnitt gewinnt, kann ich aus diesem Paper nicht beweisen, und ich werde es nicht versuchen. Die SOUL.md-Illusion, wie ich sie benenne: die Möglichkeit, dass Sie das Erinnern der Identität gepinnt haben statt der automatischen Ausführung, und diese beiden Dinge nicht dasselbe sind.

Ich sage nicht: Schreiben Sie SOUL.md nicht. Ich werde es weiterhin schreiben, und der Hermes-Leitfaden wird es weiterhin empfehlen, weil explizites deklaratives Gedächtnis tragend ist für die Dinge, die es gut macht. Was ich sage, klar als meine eigene Extrapolation gekennzeichnet: Wenn Sie etwas bauen, das darauf angewiesen ist, dass der Agent einen Fehler nicht wiederholt, nicht zu einem kürzlich gesehenen Stil driftet, nicht durch ein unbeabsichtigtes Priming-Signal vom Kurs abgelenkt wird, würde ich das Zuverlässigkeitsbudget nicht allein auf SOUL.md setzen, und ich würde nicht annehmen, dass ein längeres oder spezifischeres SOUL.md das löst. Das Paper verwendet die Formulierung „architektonische Innovationen jenseits der Parameter-Skalierung”,¹ was ich (vorsichtig) als schwaches Indiz dafür lese, dass Prompt-Engineering-Abhilfen die Lücke nicht schließen werden, die der Benchmark misst. Das Paper selbst testet keine Prompt-Engineering-Abhilfen, weshalb ich nicht sagen kann, es beweise, dass sie scheitern; ich kann nur sagen, dass es mir keine Zuversicht gibt, dass sie funktionieren werden.

Was das Paper nicht sagt (und was ich ergänze)

Das Paper ist ein Benchmark-Paper. Es misst eine Lücke, quantifiziert sie, argumentiert, dass die Lücke architektonisch ist. Es schreibt keine spezifischen Harness-Level-Abhilfen vor und behauptet nichts über konkrete produktive Agentensysteme. Alles in diesem Abschnitt ist meine Rahmung, nicht die des Papers.

Implikation 1: Jedes Token im Kontextfenster ist In-Context-Verhaltensbeeinflussung. Falls die Rahmung des impliziten Gedächtnisses außerhalb des Benchmarks trägt (und ich spekuliere hier, nicht berichte), formt jedes Token, das aus einem Tool-Aufruf, einem abgerufenen Dokument oder einer Zwischenantwort im Kontextfenster landet, das Erstversuchsverhalten der nächsten Runde auf eine Weise, die das Lesen des expliziten Prompts nicht sauber auditieren kann. Ich habe zuvor über die stille Egress-Angriffsfläche geschrieben (nicht vertrauenswürdige Tool-Ausgaben, die injizierte Anweisungen transportieren) und darüber, dass Ihr Agent einen Mittelsmann hat, den Sie nicht geprüft haben (nicht vertrauenswürdige LLM-API-Router zwischen Ihrem Client und dem Modell). Keiner dieser Beiträge hat implizites Gedächtnis als kausalen Mechanismus benannt. Beide haben Prompt Injection und Supply-Chain-Kompromittierung als Mechanismen genannt. ImplicitMemBench bietet eine mögliche zusätzliche Perspektive darauf, warum diese Angriffe so funktionieren, wie sie funktionieren: Selbst wenn die feindliche Tool-Ausgabe oder der kompromittierte Router dem Agenten nie explizit „sagt”, was er tun soll, könnten die Inhalte dessen, was zurückgegeben wird, die nächste Entscheidung des Agenten primen. Das ist eine Hypothese, mit der ImplicitMemBench konsistent ist, kein Befund, den das Paper berichtet.

Implikation 2: Sitzungslänge könnte ein Zuverlässigkeits- statt nur ein Kostenrisiko sein. Die Folklore-Beobachtung lautet, dass Agenten über lange Sitzungen hinweg schlechter werden, und die Folklore-Erklärung ist Kontextfensterdruck. ImplicitMemBench ist überhaupt keine Studie zur Sitzungslänge. Es ist ein 300-Item-Erstversuchs-Benchmark unter einem Learning/Priming-Interfere-Test-Protokoll,¹ das etwas anderes misst als „was in einer Produktionssitzung über 30 Runden passiert”. Ich möchte nicht so tun, als ließe es sich direkt auf Produktionssitzungen abbilden. Was ich hypothetisch nahelegen möchte: Der vom Paper benannte Mechanismus (implizites Priming und klassische Konditionierung, die ohne Abruf in Erstversuchsentscheidungen landen) ist eine alternative Erklärung für den Folklore-Drift, und er verdient ernsthafte Beachtung, auch wenn das Paper ihn nicht in diesem Rahmen testet. Meine operative Regel bis dahin: Führen Sie Sitzungen kürzer durch, als Ihr Kontextfenster erlaubt, nicht so lang, wie es zulässt. Günstige Versicherung gegen welchen Mechanismus auch immer sich als der tatsächliche herausstellt.

Implikation 3: Das Argument „Statische Skills sind tote Skills” braucht eine Fußnote. Ich habe diese Woche Static Skills Are Dead Skills geschrieben und argumentiert, dass Skills ab dem Moment, in dem sie ausgeliefert werden, aufhören sich zu verbessern, es sei denn, Sie bauen eine Trajektorien-Feedback-Schleife auf. Dieses Argument ging davon aus, dass der Fehlermodus Abwesenheit sei: Abwesenheit von Aggregation, Abwesenheit eines Mustererkenners, Abwesenheit eines Evolvers. Wenn ich ImplicitMemBench gegen diesen früheren Beitrag lese, möchte ich auf einen möglichen zweiten Fehlermodus hinweisen, der darauf aufsetzt: Selbst mit trajektoriengetriebenen Skill-Aktualisierungen wird sich das im Skill-File gelandete Update (explizites deklaratives Gedächtnis) möglicherweise nicht sauber auf das automatische Erstversuchsverhalten übertragen, falls etwas, das näher an der impliziten Gedächtnisebene liegt, die Erstversuchsentscheidungen steuert. Ich weiß nicht, dass das so ist. Das Paper testet keine Skill-Updates. Aber es ist eine Sorge, die ich beim Schreiben des früheren Beitrags nicht hatte, und ich kennzeichne sie als Sorge, nicht als Schlussfolgerung.

Implikation 4: Das Messproblem für Agentenqualität könnte schwieriger werden. Die meisten bestehenden Agenten-Evaluierungen messen entweder funktionale Aufgabenerfüllung (hat der Agent das Problem gelöst) oder explizites Faktenerinnern (hat sich der Agent gemerkt, was Sie ihm gesagt haben). ImplicitMemBench führt mit seinem eigenen Protokoll eine dritte Dimension ein: automatisches Erstversuchsverhalten unter implizitem Priming. Falls diese Dimension sich in der Produktion als relevant erweist (was ich nicht weiß und was das Paper nicht testet), benötigt jede ernsthafte Qualitätsschleife für Agenten-Arbeit einen Messmechanismus dafür, und die meisten Schleifen haben heute keinen. Ich behandle das als TODO für mein eigenes Qualitätssystem, nicht als Vorschrift für Ihres.

Implikation 5: Alignment ist ein Abruf-Tor, kein Löschmechanismus. Ein separates Paper von Liu et al. stärkt die Rahmung des impliziten Gedächtnisses aus einem anderen Winkel.² Sie zeigen, dass Fine-Tuning auf semantisch verwandtem Text (selbst gemeinfreien Romanen) das wörtliche Erinnern urheberrechtlich geschützter Bücher reaktiviert, die das Modell während des Pretrainings gespeichert hatte, deren Abruf aber durch Alignment unterdrückt worden war: bis zu 85–90 % wörtliche Reproduktion, einzelne Spans über 460 Wörter, Generalisierung über 30+ unabhängige Autoren, wenn nur auf einen fine-getuned wird, mit r ≥ 0,90 cross-modeller Korrelation über GPT-4o, Gemini-2.5-Pro und DeepSeek-V3.1.² Der Mechanismus ist für das Implizites-Gedächtnis-Argument bedeutsam: Die Memorierung war bereits in den Pretraining-Gewichten codiert. Fine-Tuning hat kein neues Wissen injiziert – es hat das Alignment-Tor umgangen, das den Abruf blockierte. Wenn Alignment als Tor statt als Radiergummi fungiert, ist der tatsächliche Gedächtnis-Fußabdruck des Modells größer und weniger kontrollierbar, als was explizite Mechanismen (Alignment, System-Prompts, Identitäts-Pins) offenlegen. ImplicitMemBench stellt dieselbe strukturelle Behauptung von der Verhaltensseite auf: Das Modell hat ein Gedächtnis, sowohl verhaltensmäßig als auch inhaltlich, das Ihre expliziten Pins nicht regieren. Das Finetuning-Paper und ImplicitMemBench messen unterschiedliche Ausprägungen derselben zugrundeliegenden Realität. (Wie zuvor ist die Verbindung zwischen diesen beiden Papers meine Rahmung, keine Behauptung, die eines der Papers macht.)

Was tatsächlich zu tun ist

Keines der Papers schreibt irgendetwas in diesem Abschnitt vor oder testet es. Was folgt, ist meine Lesart, ausgehend von meinen eigenen früheren Argumenten und unter Verwendung von ImplicitMemBench und der Alignment-Tor-Erkenntnis als zusätzlichen Beweisstücken, was die Ergebnisse für Praktiker bedeuten, die gegen aktuelle Harness-Systeme bauen. Kennzeichnen Sie entsprechend.

Hören Sie auf anzunehmen, dass explizite Pins ausreichen. Schreiben Sie weiterhin SOUL.md, AGENTS.md, CLAUDE.md und Memory-Dateien, aber behandeln Sie sie als notwendig, nicht hinreichend. Der Beitrag AGENTS.md patterns dokumentiert, wie man diese Dateien effektiv strukturiert; dieser Beitrag fügt eine Randbedingung hinzu, was sie garantieren können. Was ich aktualisiere, ist meine eigene Standardannahme, dass „wenn es im System-Prompt steht, gilt es”. Das Paper testet diese Annahme nicht; es testet angrenzende Fragen und berichtet Werte, die mich meine eigene Annahme lockerer halten lassen als gestern.

Verkürzen Sie Sitzungen bewusst. Die Folklore-Beobachtung lautet, dass Agenten über lange Sitzungen hinweg schlechter werden. Die Folklore-Erklärung, die ich verwende, ist „Kontextdruck”. ImplicitMemBench ist keine Studie zur Sitzungslänge. Es nutzt ein kontrolliertes Learning/Priming-Interfere-Test-Protokoll, keine langlaufenden Produktionssitzungen.¹ Doch der Mechanismus, den es benennt (implizites Priming und klassische Konditionierung, die ohne Abruf landen), ist eine alternative Erklärung für diese Folklore. Die operative Regel, die ich übernehme: Wenn eine Sitzung driftet, bekämpfen Sie es nicht mit weiterer expliziter Korrektur. Setzen Sie mit /new eine neue Sitzung auf und starten Sie frisch. Ob der Drift Kontextfensterdruck, implizites Priming oder etwas anderes ist – eine saubere Sitzung setzt zurück, was auch immer die tatsächliche Ursache ist.

Behandeln Sie Inhibition als im Prompt schwer durchzusetzen. Wenn Ihr Agent etwas nicht tun soll, verlassen Sie sich nicht darauf, es ihm gesagt zu haben. Bauen Sie eine strukturelle Absicherung (einen Linter, einen Pre-Tool-Hook, eine Sandbox-Richtlinie, ein Tool, das den Aufruf verweigert), die das Verbot auf der Code-Ebene durchsetzt. Mein Argument zur Jiro-Qualitätsschleife lautet, dass harte Gates aus einem Grund außerhalb des Modells liegen müssen; diese Position hatte ich bereits vor diesem Paper vertreten. ImplicitMemBench fügt ein spezifisches Muster hinzu (die aggregierte Inhibitionszahl von 17,6 %¹), das konsistent mit dem Argument ist, das ich vorgebracht habe, obwohl das Paper selbst weder Prompting noch Agenten-Harness-Systeme testet, und ich möchte nicht überziehen, indem ich behaupte, es beweise die Position.

Auditieren Sie den Kontext auf das, was er primt, nicht nur auf die Tokenzahl. Tokenzahl ist die Messgröße, die jeder hat. Falls die Implizites-Priming-Rahmung eine nützliche Perspektive ist (und ich behandle sie als Hypothese, die ich testen möchte, nicht als gefestigtes Ergebnis), könnte ein Kontext von 20k Tokens voller erzählerischer Nutzer-Persona-Inhalte das Erstversuchsverhalten stärker zu narrativen Ausgaben hin formen als ein Kontext von 60k Tokens voller strukturiertem Code. Ich habe für diese Art inhaltlicher Audit noch keine Werkzeuge, und ich bin mir nicht sicher, ob jemand welche hat. Die Mindestversion lautet: Schauen Sie sich Ihre jüngsten Sitzungen an und fragen Sie „Worauf würde ein Mensch beim Lesen dieses Kontexts geprimet werden?” Ob diese Frage tatsächlich prädiktiv für Agentenverhalten ist, ist empirisch, und ich werde nicht so tun, als entscheide das Paper dies.

Protokollieren Sie die Erstversuchsdisposition, nicht nur die endgültige Disposition. Wenn Sie irgendeine Form von Trajektorienerfassung gegen Ihre Skills laufen lassen, trennen Sie „was der Agent zuerst versucht hat” von „worauf der Agent nach Korrektur gelandet ist”. Das Erstversuchs-Bewertungsprotokoll von ImplicitMemBench¹ ist das methodische Argument, warum diese Trennung wichtig ist: Die endgültige Disposition misst den Agenten plus die Korrekturschleife, während der Erstversuch misst, was der Agent tatsächlich produziert hat, bevor externes Feedback eintraf. Für jede Qualitätsschleife, bei der die Nutzererfahrung davon abhängt, dass die erste Antwort stimmt, benötigen Sie die Erstversuchszahl, und fast nichts protokolliert sie heute getrennt.

FAQ

Testet ImplicitMemBench ein bestimmtes Agenten-Harness-System?

Nein. Es testet 17 LLMs direkt an einem 300-Item-Benchmark unter einem Learning/Priming-Interfere-Test-Protokoll mit Bewertung des ersten Versuchs.¹ Es ist kein Harness-Benchmark. Es evaluiert weder Claude Code, Cursor, Codex, Hermes noch irgendeine produktive Agentenschleife. Die Abbildung, die ich in diesem Beitrag von den Benchmark-Ergebnissen auf produktives Agenten-Harness-Verhalten ziehe, ist meine Erweiterung, durchgängig als solche gekennzeichnet, und ist kein Befund des Papers.

Ist die Asymmetrie 17,6 % vs. 75,0 % ein Ergebnis pro Modell oder ein Aggregat?

Die Zusammenfassung beschreibt die Asymmetrie als Teil der Autorenanalyse der Gesamtergebnisse des Benchmarks über Modelle hinweg und kennzeichnet sie als Beleg für „universelle Flaschenhälse”.¹ Ich lese das so, dass die Asymmetrie über die 17 getesteten Modelle hinweg konsistent auftaucht, wobei die spezifischen Zahlen das aggregierte Muster widerspiegeln. Die Zusammenfassung veröffentlicht keine Aufschlüsselung pro Modell, und ich werde keine erfinden. Für die vollständige Aufschlüsselung pro Modell ist das Paper die Quelle.

Warum könnte das für produktive Agenten wichtiger sein als für bestehende Benchmarks?

Teilweiser Vorbehalt hierzu. ImplicitMemBench selbst verwendet ein mehrstufiges Protokoll (Learning/Priming-Interfere-Test),¹ daher trifft es nicht zu, dass der Benchmark „Single-Shot” ist. Ich möchte nicht die übliche nachlässige Formulierung über Benchmarks wiederholen. Was hervorgehoben zu werden scheint (als Praktikerspekulation, nicht als Befund des Papers): Die meisten anderen Agenten-Evaluierungen, die Menschen betrachten, messen entweder funktionale Aufgabenerfüllung oder explizites Faktenerinnern, beides begünstigt Modelle. Falls die vom Paper berichtete Implizites-Gedächtnis-Lücke über das eigene Protokoll hinaus real ist (und ich weiß nicht, ob sie es ist), verpassen diese anderen Evaluierungen eine Dimension des Produktionsverhaltens, die Nutzer in langlaufenden Sitzungen tatsächlich erleben. Ich behandle das als testbare Hypothese, nicht als Schlussfolgerung.

Widerspricht das Ihrem `SOUL.md`-Rat im Hermes-Leitfaden?

Nein. Es fügt eine Randbedingung hinzu. Der Hermes-Leitfaden empfiehlt SOUL.md als primären Identitäts-Pin, weil explizites deklaratives Gedächtnis tragend bleibt für das, was es gut macht: konsistentes Erinnern der Identität, auditierbare Versionskontrolle, vorhersagbares Verhalten bei direkter Befragung. Der Hermes-Leitfaden behandelte nicht (weil es nichts zu messen gab, bis dieses Paper erschien), dass sich der explizite Identitäts-Pin nicht automatisch auf das automatische Erstversuchsverhalten unter Priming und klassischer Konditionierung überträgt. Sie wollen weiterhin SOUL.md. Sie wollen auch strukturelle Absicherungen außerhalb davon.

Kann Prompt Engineering irgendetwas davon beheben?

Die ehrliche Antwort lautet, dass das Paper Prompting nicht als Abhilfe-Strategie testet, daher kann ich es Ihnen nicht mit Paper-Autorität sagen. Was ich sagen kann: Die Autoren rahmen die Lücke als „architektonische Innovationen jenseits der Parameter-Skalierung erfordernd”,¹ was eine stärkere Behauptung ist als „bessere Prompts werden helfen”, aber nicht ganz „kein Prompt kann helfen”. Für die Inhibitionsseite im Speziellen (17,6 % aggregiert) ist meine Praktiker-Intuition (die Sie gegenüber dem Paper selbst abwerten sollten), dass strukturelle Absicherungen außerhalb des Modells eine sicherere Wette sind als Prompt-Anweisungen. Aber das bin ich, nicht das Paper.

Ist das eines der „Gedächtnis-Benchmark”-Papers, von denen ich in letzter Zeit viele sehe?

Nein, und das Paper unterscheidet sich ausdrücklich davon. Die Rahmung der Zusammenfassung lautet, dass bestehende Gedächtnis-Benchmarks explizites Erinnern von Fakten evaluieren: Geben Sie dem Modell eine Tatsache, bitten Sie das Modell, sie abzurufen. ImplicitMemBench misst etwas völlig anderes, nämlich automatische Verhaltensanpassung ohne jeden Abrufschritt.¹ Diese Unterscheidung ist der Beitrag des Papers und der Grund, warum es die Annahme auf der ACL 2026 Main Conference erhalten hat.¹

Wo steht das im Verhältnis zu Ihren früheren Beiträgen zum Agenten-Gedächtnis?

Der Beitrag liegt innerhalb des AI-Engineering-Hubs und ist ein direkter Begleiter zu Static Skills Are Dead Skills. Context is architecture macht den strukturellen Fall, warum das, was in das Kontextfenster gelangt, wichtig ist; compound context beschreibt die Infrastruktur, die sich über Sitzungen hinweg ansammelt. Der frühere Beitrag argumentierte, dass Skills Trajektorien-Aggregation benötigen, um am Leben zu bleiben, und ich nahm an, der Fehlermodus sei reine Abwesenheit: Wenn Sie nur die Trajektoriendaten bekommen und einen Mustererkenner laufen lassen könnten, wäre alles gut. ImplicitMemBench verweist auf einen zweiten, darauf aufsetzenden Fehlermodus: Selbst mit perfekten trajektoriengetriebenen Skill-Aktualisierungen spiegelt das Erstversuchsverhalten die Aktualisierung möglicherweise nicht wider, weil das Update im expliziten Gedächtnis gelandet ist und das implizite Gedächtnis die tatsächlichen Entscheidungen steuert. Der frühere Beitrag ist weiterhin korrekt in dem, was er behauptete; der vorliegende Beitrag aktualisiert, was er nicht zu behaupten wusste.

Könnte dies ein Messartefakt sein?

Möglicherweise. Das Paper ist neu (eingereicht am 9. April 2026, angenommen auf der ACL 2026 Main Conference), und einzelne Benchmarks können Artefakte ihrer spezifischen Protokolle ebenso leicht messen wie reale Phänomene.¹ Ich werde nicht so tun, als wäre es anders. Der Grund, warum ich denke, dass es nicht nur ein Artefakt ist: Der Fehlermodus, den es beschreibt (Agenten, die Präferenzen schnell verstärken und Fehler nicht verlernen), ist Folklore, die ich seit über einem Jahr ohne Namen dafür beobachte. Der Benchmark muss nicht perfekt kalibriert sein, damit die Richtung des Ergebnisses das ist, worauf Praktiker handeln sollten.

Referenzen

Chonghan Qin, Xiachong Feng, Weitao Ma, Xiaocheng Feng, Lingpeng Kong, “ImplicitMemBench: Measuring Unconscious Behavioral Adaptation in Large Language Models,” arXiv:2604.08064 [cs.AI], eingereicht am 9. April 2026, angenommen auf der ACL 2026 Main Conference. Primärquelle für: die Rahmung von explizitem versus implizitem Gedächtnis in LLM-Agenten („existing memory benchmarks for LLM agents evaluate explicit recall of facts, yet overlook implicit memory where experience becomes automated behavior without conscious retrieval”); die drei kognitiv fundierten Konstrukte des Benchmarks (Prozedurales Gedächtnis = „one-shot skill acquisition after interference”; Priming = „theme-driven bias via paired experimental/control instances”; Klassische Konditionierung = „Conditioned Stimulus–Unconditioned Stimulus (CS–US) associations shaping first decisions”); das Benchmark-Design (300-Item-Suite, einheitliches Learning/Priming-Interfere-Test-Protokoll mit Bewertung des ersten Versuchs); die Evaluierungsabdeckung (17 Modelle); die spezifischen Spitzenwerte (DeepSeek-R1 65,3 %, Qwen3-32B 64,1 %, GPT-5 63,0 %, kein Modell überschreitet insgesamt 66 %, alle beschrieben als „far below human baselines”); den Asymmetrie-Befund („dramatic asymmetries (inhibition 17.6% vs. preference 75.0%) and universal bottlenecks requiring architectural innovations beyond parameter scaling”); und die Umrahmungs-Formulierung („reframes evaluation from ‘what agents recall’ to ‘what they automatically enact’”). Alle direkten Zitate in diesem Beitrag stammen aus der veröffentlichten Zusammenfassung. Behauptungen darüber, wie die Benchmark-Befunde auf produktive Agenten-Harness-Systeme zutreffen, einschließlich SOUL.md, AGENTS.md, Claude Code, Hermes, MCP und Sitzungslängeneffekten, sind meine eigene Rahmung, durchgängig als solche gekennzeichnet, und werden dem Paper nicht zugeschrieben. ↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩
Xinyue Liu, Niloofar Mireshghallah, Jane C. Ginsburg, Tuhin Chakrabarty, “Alignment Whack-a-Mole: Finetuning Activates Verbatim Recall of Copyrighted Books in Large Language Models,” arXiv:2603.20957, eingereicht am 21. März 2026 (Preprint, unter Begutachtung). Primärquelle für: den Befund, dass Fine-Tuning auf semantisch verwandtem Text das wörtliche Erinnern urheberrechtlich geschützter Bücher reaktiviert, die während des Pretrainings bereits memoriert, durch Alignment aber unterdrückt worden waren (bis zu 85–90 % wörtliche Reproduktion; einzelne Spans über 460 Wörter); Cross-Author-Generalisierung (Fine-Tuning auf einen Autor extrahiert 30+ unabhängige Autoren); Cross-Model-Replikation (GPT-4o, Gemini-2.5-Pro, DeepSeek-V3.1, r ≥ 0,90 Memorierungs-Korrelation); und die strukturelle Schlussfolgerung, dass Alignment als Abruf-Tor fungiert, nicht als Löschmechanismus: Die Memorierung war in den Pretraining-Gewichten codiert, nicht durch Fine-Tuning injiziert. In diesem Beitrag verwendet, um das Argument zu stützen, dass der tatsächliche Gedächtnis-Fußabdruck des Modells das übersteigt, was explizite Mechanismen offenlegen. Die Verbindung zwischen diesem Paper und ImplicitMemBench ist meine Rahmung, keine Behauptung, die eines der Papers aufstellt. ↩↩

Ihr Agent hat ein Gedächtnis, das Sie nicht geschrieben haben

TL;DR

Zentrale Erkenntnisse

Was das Paper misst

Die Ergebnisse

Was die Asymmetrie tatsächlich bedeutet

Die SOUL.md-Illusion

Was das Paper nicht sagt (und was ich ergänze)

Was tatsächlich zu tun ist

FAQ

Testet ImplicitMemBench ein bestimmtes Agenten-Harness-System?

Ist die Asymmetrie 17,6 % vs. 75,0 % ein Ergebnis pro Modell oder ein Aggregat?

Warum könnte das für produktive Agenten wichtiger sein als für bestehende Benchmarks?

Widerspricht das Ihrem `SOUL.md`-Rat im Hermes-Leitfaden?

Kann Prompt Engineering irgendetwas davon beheben?

Ist das eines der „Gedächtnis-Benchmark”-Papers, von denen ich in letzter Zeit viele sehe?

Wo steht das im Verhältnis zu Ihren früheren Beiträgen zum Agenten-Gedächtnis?

Könnte dies ein Messartefakt sein?

Referenzen

Verwandte Beiträge

Belohnen Sie das Tool vor der Antwort

Die Werkbank, die ich trage

TL;DR

Zentrale Erkenntnisse

Was das Paper misst

Die Ergebnisse

Was die Asymmetrie tatsächlich bedeutet

Die SOUL.md-Illusion

Was das Paper nicht sagt (und was ich ergänze)

Was tatsächlich zu tun ist

FAQ

Testet ImplicitMemBench ein bestimmtes Agenten-Harness-System?

Ist die Asymmetrie 17,6 % vs. 75,0 % ein Ergebnis pro Modell oder ein Aggregat?

Warum könnte das für produktive Agenten wichtiger sein als für bestehende Benchmarks?

Widerspricht das Ihrem SOUL.md-Rat im Hermes-Leitfaden?

Kann Prompt Engineering irgendetwas davon beheben?

Ist das eines der „Gedächtnis-Benchmark”-Papers, von denen ich in letzter Zeit viele sehe?

Wo steht das im Verhältnis zu Ihren früheren Beiträgen zum Agenten-Gedächtnis?

Könnte dies ein Messartefakt sein?

Referenzen

Verwandte Beiträge

Belohnen Sie das Tool vor der Antwort

Die Werkbank, die ich trage

Widerspricht das Ihrem `SOUL.md`-Rat im Hermes-Leitfaden?