Kontext-Kompaktierung ist eine Entscheidung, kein Schwellenwert

9 Min. Lesezeit

Eine lange Agenten-Trajektorie stößt an ihr Kontextlimit, das Gerüst fasst alles Bisherige in einer kompakten Notiz zusammen, und die Zusammenfassung landet mitten in einem halbfertigen Beweis. Der Agent hatte drei von vier Lemmata in der Hand. Jetzt hat er einen Absatz, der besagt, dass er „an einem Beweis gearbeitet” habe, und vier Lemmata, die er neu entdecken muss. Die Kompaktierung schlug nicht fehl, weil die Zusammenfassung schlecht war. Sie löste zum falschen Zeitpunkt aus.

Die meisten Coding-Agenten kompaktieren den Kontext über einen festen Auslöser: Sobald die angesammelten Tokens einen Schwellenwert überschreiten, wird zusammengefasst und fortgefahren. Der Auslöser ist numerisch, doch die Kosten der Kompaktierung sind struktureller Natur. Löst sie mitten in einer Herleitung aus, verwirft sie Teilergebnisse, die das Modell anschließend rekonstruieren muss, und das ist der teuerste Moment zum Vergessen. Eine Arbeit vom Juni 2026, Self-Compacting Language Model Agents, vertritt die These, dass das Modell entscheiden sollte, wann und wie kompaktiert wird, und zeigt, dass die entscheidungsbasierte Variante den Schwellenwert bei einem Bruchteil seiner Token-Kosten erreicht oder übertrifft.¹

Das Ergebnis rückt ein Problem in neues Licht, das ich bisher als Installationsdetail behandelt habe. Kontext-Kompaktierung ist keine Pflicht der Speicherverwaltung, die über einen Zähler ausgelöst wird. Sie ist eine Ermessensentscheidung darüber, wann Vergessen sicher ist, und der Agent ist besser in der Lage, diese Entscheidung zu treffen, als ein Token-Budget es ist.

Kurzfassung

Agenten-Gerüste, Claude Code inbegriffen, kompaktieren den Kontext, wenn er sich dem Fenster-Limit nähert. Der Auslöser ist eine Token-Zahl, weshalb er ohne Rücksicht darauf auslöst, wo der Agent in seiner Arbeit steht.
Mitten in einer Herleitung oder Suche auszulösen ist der schlimmste Fall: Die Zusammenfassung wirft Teilergebnisse weg, die das Modell zu berechnen bezahlt hat und dann erneut berechnen muss.
Self-Compacting Language Model Agents (2026) kombiniert ein Kompaktierungswerkzeug, das das Modell aufrufen kann, mit einer Richtlinie, die ihm sagt, wann es auslösen soll (eine Teilaufgabe ist gelöst, die Trajektorie konvergiert) und wann es sich zurückhalten soll (mitten in einer Herleitung, festgefahren). Keine der beiden Hälften funktioniert allein.
Die Methode benötigt kein Fine-Tuning und keine externe Aufsicht. Über sechs Benchmarks und sieben Modelle hinweg übertraf sie eine Baseline ohne Zusammenfassung um bis zu 18,1 Punkte bei Mathematik und um 5 bis 9 bei agentischer Suche, und das bei 30 bis 70 Prozent geringeren Kosten pro Frage.
Die Lehre lässt sich über die Zusammenfassung hinaus verallgemeinern: Der richtige Auslöser zum Vergessen ist semantisch (befindet sich die Arbeit an einer sicheren Grenze?), nicht numerisch (ist der Puffer voll?).

Der Schwellenwert ist der falsche Auslöser

Kompaktierung existiert, weil lange Trajektorien verrotten. Gedankenketten und Werkzeugaufrufe häufen sich an, veralteter Inhalt verankert spätere Generierungen, und schließlich wächst die Spur über das Fenster hinaus. Die Standardlösung besteht darin, in festen Abständen zusammenzufassen, ausgelöst, sobald die Token-Summe einen Schwellenwert überschreitet.¹ Es ist der naheliegende technische Schritt, und genau das tun produktive Gerüste, wenn eine Sitzung lange läuft: Claude Code „kompaktiert laut eigener Dokumentation automatisch, sobald Sie sich dem Limit nähern”.²

Das Problem ist, dass der Schwellenwert die Größe des Kontexts kennt, aber nichts über dessen Gestalt weiß. Ein Token-Zähler kann nicht den Unterschied zwischen einer Trajektorie erkennen, die gerade eine Teilaufgabe sauber abgeschlossen hat, und einer, die drei Schritte in eine fünfschrittige Herleitung hineinreicht. Beide sehen für einen Zähler identisch aus: eine Zahl, die eine Linie überschritten hat. Also kompaktiert das Gerüst beide auf dieselbe Weise, und im zweiten Fall fasst es genau die Zwischenergebnisse weg, die der Agent zum Abschließen benötigt.

Ich habe das in meinen eigenen autonomen Schleifen beobachtet. Ein langer Durchlauf stößt während eines Refactorings über mehrere Dateien an das Limit, das Gerüst kompaktiert, und der Agent kehrt zurück, ohne sich daran zu erinnern, welche Dateien er bereits bearbeitet hatte. Die Arbeit war in keinem katastrophalen Sinne verloren. Der Agent leitete sie neu her. Doch die Neuherleitung ist der Preis, und es ist ein Preis, den der Schwellenwert blind auferlegt, weil er nicht erkennen kann, dass der Moment schlecht war.

Der Fehlschlag unterscheidet sich von dem, über den ich beim Aufeinanderaufbauen von Kontext geschrieben habe. Beim Aufeinanderaufbauen geht es darum, was ein Projekt über Sitzungen hinweg bewahrt: die Konventionen, Hooks und Erinnerungen, die Sitzung 500 schneller machen als Sitzung 1. Bei der Kompaktierung geht es darum, was eine einzelne Sitzung innerhalb ihrer selbst verwirft. Beide ziehen in entgegengesetzte Richtungen, und die Kompaktierung ist diejenige, die niemand abstimmt, weil der Schwellenwert sie automatisch erscheinen lässt.

Was SelfCompact verändert

Der Vorschlag der Arbeit, SelfCompact, verlagert die Entscheidung vom Gerüst auf das Modell. Er kombiniert zwei Bausteine zur Inferenzzeit.¹

Ein Kompaktierungswerkzeug. Das Modell erhält ein Werkzeug, das es aufrufen kann, um seinen angesammelten Kontext zusammenzufassen, genauso, wie es jedes andere Werkzeug aufruft. Die Kompaktierung wird zu einer Handlung, die der Agent vornimmt, und nicht zu einer Unterbrechung, die die Laufzeitumgebung aufzwingt.

Eine Richtlinie für den Auslösezeitpunkt. Eine leichtgewichtige Anweisung sagt dem Modell, wann eine Kompaktierung angemessen ist (eine Teilaufgabe wurde gelöst, oder die Trajektorie konvergiert) und wann sie zu unterdrücken ist (das Modell befindet sich mitten in einer Herleitung oder ist festgefahren). Die Richtlinie ist das Ermessen, das dem Token-Zähler fehlt.

Die Arbeit sagt unmissverständlich, dass beide Hälften notwendig sind, und der Grund ist der interessante Teil. Open-Weight-Modelle nutzen das Werkzeug uneinheitlich: Sie rufen es zu unpassenden Momenten auf oder überspringen es ganz. Sich selbst überlassen sind Modelle nicht zuverlässig darin, ihre eigene Kontextverrottung zu bemerken. Die Richtlinie allein kann nichts ausrichten, denn sie ist nur eine Anweisung ohne Mechanismus, um danach zu handeln. Gemeinsam erzeugen sie eine adaptive Kompaktierung ohne jegliches Fine-Tuning und ohne externe Aufsicht.¹ Das Modell besitzt bereits die Fähigkeit, gut zusammenzufassen; was ihm fehlt, ist das metakognitive Gespür dafür, wann das Zusammenfassen den Verlust wert ist. Die Richtlinie liefert dieses Gespür.

Die Rahmung ist deshalb wichtig, weil sie zwei Fähigkeiten trennt, die man gern vermengt. Zu wissen, wie man eine Trajektorie komprimiert, ist eine Generierungsfähigkeit, und Spitzenmodelle beherrschen sie. Zu wissen, wann das Komprimieren sicher ist, ist eine Fähigkeit zur Selbstbeobachtung, und ohne Aufforderung sind Modelle darin schlecht. SelfCompact versucht nicht, das Modell beim Zusammenfassen klüger zu machen. Es gibt dem Modell eine Checkliste für die zeitliche Entscheidung, die es sonst falsch träfe.

Die Zahlen

Die Auswertung umfasst sechs Benchmarks aus den Bereichen Wettbewerbsmathematik und agentische Suche, über sieben Modelle hinweg.¹ Die Vergleichspunkte sind eine Baseline ohne Zusammenfassung und der Ansatz mit festem Schwellenwert-Intervall.

Gegenüber der Variante ohne Zusammenfassung verbesserte SelfCompact die Ergebnisse um bis zu 18,1 Punkte bei Mathematik und um 5 bis 9 Punkte bei agentischer Suche, und das bei 30 bis 70 Prozent geringeren Kosten pro Frage.¹ Diese Differenz ist der Preis der Kontextverrottung: Ein Modell, das in seiner eigenen veralteten Spur ertrinkt, schneidet messbar schlechter ab und zahlt mehr als eines, das intelligent ausdünnt.

Gegenüber der Zusammenfassung in festen Intervallen lautet die Schlagzeile: Effizienz. SelfCompact erreichte oder übertraf die Qualität des Schwellenwerts bei einem Bruchteil seiner Token-Kosten.¹ Nach Ermessen statt nach der Uhr zu kompaktieren bedeutet, dass der Agent seltener und zu besseren Momenten kompaktiert, sodass er für weniger Zusammenfassungsdurchläufe zahlt und weniger verworfene Ergebnisse rekonstruiert. Der Schwellenwert war nicht nur gelegentlich falsch getaktet. Er war systematisch teurer bei gleicher oder schlechterer Qualität.

Eine Kostensenkung von 30 bis 70 Prozent bei Aufgaben mit langem Horizont ist kein Rundungsfehler. Für jeden, der Agenten in großem Umfang betreibt, ist die Kompaktierungsrichtlinie ein Kostenposten, und die Arbeit besagt, dass die Standardrichtlinie, mit der die meisten Gerüste ausgeliefert werden, für Zusammenfassungsdurchläufe zahlt, die sie nicht benötigt.

Was das für Menschen bedeutet, die Agenten betreiben

Die praktische Lehre lautet nicht „setzen Sie SelfCompact sofort um”. Die meisten Betreiber steuern den Kompaktierungsauslöser ihres Agenten nicht direkt. Die Lehre lautet, dass die Kompaktierung eine einstellbare Richtlinie mit echten Folgen für Qualität und Kosten ist und dass der Schwellenwert als Standardeinstellung in Frage gestellt werden sollte.

Behandeln Sie Kompaktierungsgrenzen als semantisch, nicht als numerisch. Wenn Sie eine lange Aufgabe strukturieren, geben Sie dem Agenten natürliche Haltepunkte: eine Datei fertigstellen, eine Teilaufgabe abschließen, einen Kontrollpunkt erreichen. Ein Agent, der an einer Teilaufgabengrenze kompaktiert, verliert nichts, was er benötigt. Ein Agent, der an einer Token-Grenze kompaktiert, verliert, was auch immer er gerade in der Hand hatte. Die Aufgabe des Betreibers besteht zum Teil darin, die Trajektorie so zu formen, dass die sicheren Momente und die Kompaktierungsmomente zusammenfallen.

Achten Sie auf Neuherleitung als Symptom. Wenn ein Agent aus einer Kompaktierung zurückkehrt und Arbeit wiederholt, die er bereits erledigt hatte, löste der Auslöser an der falschen Stelle aus. Neuherleitung ist die beobachtbare Signatur einer falsch getakteten Kompaktierung, und es ist ein Preis, den Sie in der Spur sehen können, wenn Sie danach suchen.

Rechnen Sie damit, dass der Auslöser in das Modell wandert. SelfCompact benötigt kein Fine-Tuning, was bedeutet, dass es ein Prompt-und-Werkzeug-Muster ist, das jedes Gerüst übernehmen kann. Das saubere Ergebnis bei Open-Weight-Modellen legt nahe, dass dies zum Standard wird: Agenten, die ihre eigene Kompaktierung entscheiden, statt darauf zu warten, dass die Laufzeitumgebung sie erzwingt. Der Schwellenwert wird im Rückblick wie ein Relikt aussehen, das den Kontext als zu leerenden Puffer behandelt hat statt als zu verwaltenden Arbeitsspeicher.

Das umfassendere Muster ist eines, auf das ich bei Agenten immer wieder stoße. Der schwierige Teil ist selten die Fähigkeit. Spitzenmodelle können eine Trajektorie gut zusammenfassen. Der schwierige Teil ist die Metakognition: zu wissen, wann das zu tun ist, was sie bereits zu tun wissen. Der Zeitpunkt der Kompaktierung ist, wie das Wissen, wann man um Bestätigung bitten sollte oder wann man eine Forschungsschleife anhalten sollte, eine Entscheidung zur Selbstbeobachtung, und die Selbstbeobachtung ist genau dort, wo die aktuelle Generation am schwächsten ist. Die Lösung hat in jedem Fall dieselbe Form, die SelfCompact verwendet: Hören Sie auf zu hoffen, dass das Modell es bemerkt, und reichen Sie ihm eine ausdrückliche Richtlinie für das Ermessen.

Wichtige Erkenntnisse

Für Agentenbetreiber: - Prüfen Sie, wann Ihr Gerüst kompaktiert. Wenn es über einen Token-Schwellenwert auslöst, löst es aus, ohne zu berücksichtigen, ob der Agent mitten in einer Aufgabe steckt. - Strukturieren Sie lange Aufgaben um ausdrückliche Kontrollpunkte herum, damit Kompaktierungsgrenzen an sicheren Momenten statt an beliebigen liegen. - Behandeln Sie Neuherleitung nach einer Kompaktierung als Fehler im Auslöser, nicht als Eigenart des Modells.

Für Menschen, die Gerüste bauen: - Ein Kompaktierungswerkzeug plus eine Auslösen-oder-Unterdrücken-Richtlinie schlägt ein festes Intervall zu geringeren Kosten, und das ohne erforderliches Fine-Tuning. - Trennen Sie die beiden Fähigkeiten: Modelle fassen gut zusammen, beurteilen den Zeitpunkt aber schlecht. Investieren Sie Ihre Entwurfsarbeit in die Zeitpunkt-Richtlinie, nicht in den Zusammenfasser.

Für alle, die Agenten-Durchläufe budgetieren: - Die Kompaktierungsrichtlinie ist ein Kostenposten. Ein ermessensbasierter Auslöser senkte in der Studie die Kosten pro Frage um 30 bis 70 Prozent, bei gleicher oder besserer Qualität.

FAQ

Was ist Kontext-Kompaktierung?

Kontext-Kompaktierung bedeutet, die angesammelte Trajektorie eines Agenten (seine Gedankenkette und seine Werkzeugaufrufe) in eine kürzere Form zusammenzufassen, damit die Spur nicht über das Kontextfenster des Modells hinauswächst. Sie tauscht Detail gegen Raum. Gut gemacht, entfernt sie veralteten Inhalt und bewahrt zugleich, was der Agent noch benötigt. Zum falschen Zeitpunkt gemacht, verwirft sie Teilergebnisse, die der Agent neu berechnen muss.

Warum ist ein Token-Schwellenwert ein schlechter Kompaktierungsauslöser?

Ein Token-Schwellenwert misst die Größe des Kontexts, aber nicht seine Struktur. Er kann nicht erkennen, ob der Agent gerade eine Teilaufgabe abgeschlossen hat oder mitten in einer Herleitung steckt. Im zweiten Fall auszulösen wirft Zwischenergebnisse weg, die das Modell zu berechnen bezahlt hat, und erzwingt eine teure Neuherleitung. Der Auslöser sollte widerspiegeln, wo der Agent in seiner Arbeit steht, was ein Zähler nicht erkennen kann.

Wie entscheidet SelfCompact, wann kompaktiert wird?

Es kombiniert ein Kompaktierungswerkzeug, das das Modell aufrufen kann, mit einer Richtlinie, die festlegt, wann auszulösen ist (eine Teilaufgabe ist gelöst, die Trajektorie konvergiert) und wann zu unterdrücken ist (mitten in einer Herleitung oder festgefahren). Das Modell fasst bereits gut zusammen; die Richtlinie liefert das Zeitpunkt-Ermessen, das ihm ohne Aufforderung fehlt. Der Ansatz erfordert kein Fine-Tuning und keine externe Aufsicht.

Erfordert dies ein besonderes Modell?

Nein. Die Arbeit wertete sieben Modelle aus, darunter Open-Weight-Modelle, und das Muster funktioniert allein über Prompting und Werkzeugnutzung. Das macht es für jedes Gerüst ohne erneutes Training übernehmbar.

Wie viel spart eine ermessensbasierte Kompaktierung?

In der Studie erreichte oder übertraf SelfCompact die Zusammenfassung in festen Intervallen, während es 30 bis 70 Prozent weniger pro Frage ausgab, und übertraf eine Baseline ohne Zusammenfassung um bis zu 18,1 Punkte bei Mathematik und um 5 bis 9 bei agentischer Suche.

Quellen

Tianjian Li, Jingyu Zhang, William Jurayj, Xi Wang, Chuanyang Jin, Mehrdad Farajtabar, Eric Nalisnick und Daniel Khashabi, „Self-Compacting Language Model Agents”, arXiv, 22. Juni 2026: arxiv.org/abs/2606.23525
Anthropic, „Explore the context window”, Claude Code-Dokumentation, zur automatischen Kompaktierung nahe dem Kontextlimit: code.claude.com/docs/en/context-window
Verwandte Praxiserfahrung zu autonomen Schleifen und Kontextverwaltung: Ralph-Agentenarchitektur, Aufeinanderaufbauen von Kontext und das Handbuch für Agentenbetreiber

Li et al., „Self-Compacting Language Model Agents”, arXiv:2606.23525 (22. Juni 2026). Die Zusammenfassung berichtet über den Entwurf aus Werkzeug und Richtlinie, die Notwendigkeit beider Komponenten, das Ergebnis ohne Fine-Tuning, die Auswertung über sechs Benchmarks und sieben Modelle sowie die quantitativen Gewinne: gegenüber einer Baseline ohne Zusammenfassung bis zu 18,1 Punkte bei Mathematik und 5 bis 9 Punkte bei agentischer Suche bei 30 bis 70 Prozent geringeren Kosten pro Frage; und das Erreichen oder Übertreffen der Zusammenfassung in festen Intervallen bei einem Bruchteil der Token-Kosten. ↩↩↩↩↩↩↩
Anthropic, „Explore the context window”, Claude Code-Dokumentation: „Claude Code compacts automatically as you approach the limit, so a full context window doesn’t end your session.” code.claude.com/docs/en/context-window ↩