Le compactage du contexte est une décision, pas un seuil

10 min de lecture

Une longue trajectoire d’agent atteint sa limite de contexte, l’échafaudage résume tout ce qui précède en une note compacte, et le résumé tombe au beau milieu d’une démonstration à moitié terminée. L’agent avait trois lemmes sur quatre en main. Il dispose maintenant d’un paragraphe indiquant qu’il « travaillait sur une démonstration » et de quatre lemmes qu’il doit redécouvrir. Le compactage n’a pas échoué parce que le résumé était mauvais. Il s’est déclenché au mauvais moment.

La plupart des agents de codage compactent le contexte sur un déclencheur fixe : lorsque les jetons accumulés franchissent un seuil, ils résument et continuent. Le déclencheur est numérique, mais le coût du compactage est structurel. Se déclencher en pleine dérivation jette des résultats partiels que le modèle doit ensuite reconstruire, ce qui est le moment le plus coûteux pour oublier. Un article de juin 2026, Self-Compacting Language Model Agents, défend l’idée que c’est le modèle qui devrait décider quand et comment compacter, et montre que la version fondée sur la décision égale ou surpasse le seuil pour une fraction de son coût en jetons.¹

Ce résultat reformule un problème que je traitais comme un détail de plomberie. Le compactage du contexte n’est pas une corvée de gestion de mémoire qui se déclenche sur un compteur. C’est un jugement sur le moment où l’oubli est sans danger, et l’agent est mieux placé pour porter ce jugement qu’un budget de jetons.

En bref

Les échafaudages d’agents, y compris Claude Code, compactent le contexte lorsqu’ils approchent de la limite de la fenêtre. Le déclencheur est un décompte de jetons, il se déclenche donc sans tenir compte de l’endroit où l’agent en est dans son travail.
Se déclencher en pleine dérivation ou en pleine recherche est le pire cas : le résumé écarte des résultats partiels que le modèle a payé pour calculer et doit ensuite recalculer.
Self-Compacting Language Model Agents (2026) associe un outil de compactage que le modèle peut invoquer à une grille indiquant quand se déclencher (une sous-tâche résolue, la trajectoire converge) et quand s’abstenir (en pleine dérivation, bloqué). Aucune des deux moitiés ne fonctionne seule.
La méthode ne nécessite ni ajustement fin ni supervision externe. Sur six bancs d’essai et sept modèles, elle a dépassé une référence sans résumé de jusqu’à 18,1 points en mathématiques et de 5 à 9 points en recherche agentique, pour un coût par question inférieur de 30 à 70 %.
La leçon dépasse le simple résumé : le bon déclencheur pour l’oubli est sémantique (le travail est-il à une frontière sûre ?) et non numérique (le tampon est-il plein ?).

Le seuil est le mauvais déclencheur

Le compactage existe parce que les longues trajectoires se dégradent. Les chaînes de pensée et les appels d’outils s’accumulent, le contenu obsolète influence les générations ultérieures, et finalement la trace déborde de la fenêtre. La solution standard consiste à résumer à intervalle fixe, déclenché lorsque le total de jetons franchit un seuil.¹ C’est la démarche d’ingénierie évidente, et c’est ce que font les échafaudages de production lorsqu’une session se prolonge : Claude Code, selon sa propre documentation, « compacte automatiquement à mesure que vous approchez de la limite ».²

Le problème est que le seuil connaît la taille du contexte et rien de sa forme. Un compteur de jetons ne peut pas faire la différence entre une trajectoire qui vient de clôturer proprement une sous-tâche et une autre qui en est à trois étapes d’une dérivation en cinq étapes. Toutes deux paraissent identiques à un compteur : un nombre qui a franchi une ligne. L’échafaudage compacte donc les deux de la même manière, et dans le second cas il résume justement les résultats intermédiaires dont l’agent a besoin pour terminer.

J’ai vu cela se produire dans mes propres boucles autonomes. Une longue exécution atteint la limite pendant un remaniement multifichier, l’échafaudage compacte, et l’agent revient en ayant oublié quels fichiers il avait déjà modifiés. Le travail n’a pas été perdu au sens catastrophique du terme. L’agent l’a redérivé. Mais la redérivation est le coût, et c’est un coût que le seuil impose aveuglément, parce que le seuil ne peut pas voir que le moment était mauvais.

Cet échec diffère de celui dont j’ai parlé dans le contexte composé. Le composé concerne ce qu’un projet conserve d’une session à l’autre : les conventions, les hooks et les mémoires qui rendent la session 500 plus rapide que la session 1. Le compactage concerne ce qu’une seule session écarte d’elle-même. Les deux tirent dans des directions opposées, et le compactage est celui que personne ne règle, parce que le seuil le fait paraître automatique.

Ce que change SelfCompact

La proposition de l’article, SelfCompact, déplace la décision de l’échafaudage vers le modèle. Elle associe deux éléments au moment de l’inférence.¹

Un outil de compactage. Le modèle dispose d’un outil qu’il peut invoquer pour résumer son contexte accumulé, de la même manière qu’il invoque tout autre outil. Le compactage devient une action que l’agent entreprend, et non une interruption que l’environnement d’exécution lui impose.

Une grille indiquant quand se déclencher. Une instruction légère indique au modèle quand le compactage est approprié (une sous-tâche s’est résolue, ou la trajectoire converge) et quand le supprimer (le modèle est en pleine dérivation, ou bloqué). La grille est le jugement qui manque au compteur de jetons.

L’article affirme sans détour que les deux moitiés sont nécessaires, et la raison en est la partie intéressante. Les modèles à poids ouverts utilisent l’outil de façon inégale : ils l’invoquent à des moments inutiles ou l’évitent complètement. Livrés à leurs propres instincts, les modèles ne sont pas fiables pour remarquer leur propre dégradation de contexte. La grille seule ne peut rien faire, parce qu’il ne s’agit que d’instructions dépourvues de tout mécanisme pour agir. Ensemble, elles produisent un compactage adaptatif sans aucun ajustement fin ni supervision externe.¹ Le modèle possède déjà la capacité de bien résumer ; ce qui lui manque, c’est le sens métacognitif du moment où le résumé vaut la perte. La grille fournit ce sens.

Ce cadrage importe parce qu’il sépare deux aptitudes que l’on a tendance à confondre. Savoir comment comprimer une trajectoire est une compétence de génération, et les modèles de pointe y excellent. Savoir quand la compression est sûre est une compétence d’auto-surveillance, et les modèles y sont mauvais sans incitation. SelfCompact ne cherche pas à rendre le modèle plus habile à résumer. Il donne au modèle une liste de contrôle pour la décision de synchronisation qu’il prendrait autrement à tort.

Les chiffres

L’évaluation couvre six bancs d’essai allant des mathématiques de compétition à la recherche agentique, sur sept modèles.¹ Les points de comparaison sont une référence sans résumé et l’approche du seuil à intervalle fixe.

Par rapport à l’absence de résumé, SelfCompact a amélioré les résultats de jusqu’à 18,1 points en mathématiques et de 5 à 9 points en recherche agentique, pour un coût par question inférieur de 30 à 70 %.¹ Cet écart est le coût de la dégradation du contexte : un modèle qui se noie dans sa propre trace obsolète obtient des résultats mesurablement inférieurs, et paie davantage, qu’un modèle qui élague intelligemment.

Par rapport au résumé à intervalle fixe, l’essentiel tient à l’efficacité. SelfCompact a égalé ou dépassé la qualité du seuil pour une fraction de son coût en jetons.¹ Compacter sur jugement plutôt que sur horloge signifie que l’agent compacte moins souvent et à de meilleurs moments, de sorte qu’il paie moins de passes de résumé et reconstruit moins de résultats écartés. Le seuil n’était pas mal synchronisé de temps à autre. Il était systématiquement plus coûteux pour une qualité égale ou inférieure.

Une réduction de coût de 30 à 70 % sur les tâches à long horizon n’est pas une erreur d’arrondi. Pour quiconque exploite des agents à grande échelle, la politique de compactage est un poste de dépense, et l’article affirme que la politique par défaut livrée par la plupart des échafaudages paie pour des passes de résumé dont elle n’a pas besoin.

Ce que cela signifie pour ceux qui exploitent des agents

L’enseignement pratique n’est pas « allez implémenter SelfCompact tout de suite ». La plupart des opérateurs ne contrôlent pas directement le déclencheur de compactage de leur agent. L’enseignement est que le compactage est une politique réglable aux conséquences réelles sur la qualité et le coût, et que le seuil par défaut mérite d’être remis en question.

Traitez les frontières de compactage comme sémantiques, non numériques. Lorsque vous structurez une tâche longue, donnez à l’agent des points d’arrêt naturels : terminer un fichier, clôturer une sous-tâche, atteindre un point de contrôle. Un agent qui compacte à la frontière d’une sous-tâche ne perd rien dont il a besoin. Un agent qui compacte à une frontière de jetons perd tout ce qu’il se trouvait à détenir. Le travail de l’opérateur consiste en partie à façonner la trajectoire pour que les moments sûrs et les moments de compactage coïncident.

Surveillez la redérivation comme symptôme. Si un agent revient d’un compactage et refait un travail qu’il avait déjà effectué, le déclencheur s’est déclenché au mauvais endroit. La redérivation est la signature observable d’un compactage mal synchronisé, et c’est un coût que vous pouvez voir dans la trace si vous le cherchez.

Attendez-vous à ce que le déclencheur migre vers le modèle. SelfCompact ne nécessite aucun ajustement fin, ce qui signifie qu’il s’agit d’un motif d’invite et d’outil que tout échafaudage peut adopter. Le résultat net sur les modèles à poids ouverts suggère que cela devient une valeur par défaut : des agents qui décident de leur propre compactage au lieu d’attendre que l’environnement d’exécution les y contraigne. Le seuil paraîtra, rétrospectivement, comme un artéfact issu du fait de traiter le contexte comme un tampon à vider plutôt que comme une mémoire de travail à gérer.

Le motif plus large est de ceux que je rencontre sans cesse avec les agents. La partie difficile est rarement la capacité. Les modèles de pointe savent bien résumer une trajectoire. La partie difficile est la métacognition : savoir quand faire la chose qu’ils savent déjà faire. La synchronisation du compactage, comme savoir quand demander une confirmation ou quand arrêter une boucle de recherche, est une décision d’auto-surveillance, et l’auto-surveillance est là où la génération actuelle est la plus faible. Le remède, dans chaque cas, a la même forme que celle qu’emploie SelfCompact : cessez d’espérer que le modèle s’en aperçoive, et donnez-lui une grille explicite pour le jugement.

Points clés à retenir

Pour les opérateurs d’agents : - Auditez le moment où votre échafaudage compacte. S’il se déclenche sur un seuil de jetons, il se déclenche sans tenir compte de savoir si l’agent est en pleine tâche. - Structurez les tâches longues autour de points de contrôle explicites afin que les frontières de compactage tombent à des moments sûrs plutôt qu’arbitraires. - Traitez la redérivation après un compactage comme un bogue du déclencheur, et non comme une bizarrerie du modèle.

Pour ceux qui construisent des échafaudages : - Un outil de compactage assorti d’une grille de déclenchement/suppression surpasse un intervalle fixe à moindre coût, sans aucun ajustement fin requis. - Séparez les deux aptitudes : les modèles résument bien mais jugent mal la synchronisation. Consacrez votre effort de conception à la grille de synchronisation, non au résumeur.

Pour quiconque budgétise des exécutions d’agents : - La politique de compactage est un poste de dépense. Un déclencheur fondé sur le jugement a réduit le coût par question de 30 à 70 % dans l’étude, pour une qualité égale ou supérieure.

FAQ

Qu’est-ce que le compactage du contexte ?

Le compactage du contexte consiste à résumer la trajectoire accumulée d’un agent (sa chaîne de pensée et ses appels d’outils) sous une forme plus courte afin que la trace ne déborde pas de la fenêtre de contexte du modèle. Il échange du détail contre de la place. Bien fait, il retire le contenu obsolète tout en préservant ce dont l’agent a encore besoin. Fait au mauvais moment, il écarte des résultats partiels que l’agent doit recalculer.

Pourquoi un seuil de jetons est-il un mauvais déclencheur de compactage ?

Un seuil de jetons mesure la taille du contexte mais non sa structure. Il ne peut pas dire si l’agent vient de terminer une sous-tâche ou s’il en est à mi-chemin d’une dérivation. Se déclencher dans le second cas jette des résultats intermédiaires que le modèle a payé pour calculer, forçant une redérivation coûteuse. Le déclencheur devrait refléter l’endroit où l’agent en est dans son travail, ce qu’un compteur ne peut pas voir.

Comment SelfCompact décide-t-il du moment de compacter ?

Il associe un outil de compactage que le modèle peut invoquer à une grille qui précise quand se déclencher (une sous-tâche résolue, la trajectoire converge) et quand supprimer (en pleine dérivation, ou bloqué). Le modèle résume déjà bien ; la grille fournit le jugement de synchronisation qui lui manque sans incitation. L’approche ne nécessite aucun ajustement fin ni supervision externe.

Cela nécessite-t-il un modèle particulier ?

Non. L’article a évalué sept modèles, dont des modèles à poids ouverts, et le motif fonctionne par la seule invite et le seul usage d’outils. Cela le rend adoptable par tout échafaudage sans réentraînement.

Combien le compactage fondé sur le jugement permet-il d’économiser ?

Dans l’étude, SelfCompact a égalé ou dépassé le résumé à intervalle fixe tout en dépensant de 30 à 70 % de moins par question, et a dépassé une référence sans résumé de jusqu’à 18,1 points en mathématiques et de 5 à 9 points en recherche agentique.

Sources

Tianjian Li, Jingyu Zhang, William Jurayj, Xi Wang, Chuanyang Jin, Mehrdad Farajtabar, Eric Nalisnick et Daniel Khashabi, « Self-Compacting Language Model Agents », arXiv, 22 juin 2026 : arxiv.org/abs/2606.23525
Anthropic, « Explore the context window », documentation de Claude Code, sur le compactage automatique près de la limite de contexte : code.claude.com/docs/en/context-window
Expérience de production connexe sur les boucles autonomes et la gestion du contexte : architecture de l’agent Ralph, le contexte composé et le manuel de l’opérateur d’agents

Li et al., « Self-Compacting Language Model Agents », arXiv:2606.23525 (22 juin 2026). Le résumé rend compte de la conception outil-plus-grille, de la nécessité des deux composants, du résultat sans ajustement fin, de l’évaluation sur six bancs d’essai et sept modèles, et des gains quantitatifs : par rapport à une référence sans résumé, jusqu’à 18,1 points en mathématiques et de 5 à 9 points en recherche agentique pour un coût par question inférieur de 30 à 70 % ; et égalant ou dépassant le résumé à intervalle fixe pour une fraction du coût en jetons. ↩↩↩↩↩↩↩
Anthropic, « Explore the context window », documentation de Claude Code : « Claude Code compacts automatically as you approach the limit, so a full context window doesn’t end your session. » code.claude.com/docs/en/context-window ↩