La compactación de contexto es una decisión, no un umbral
Una trayectoria larga de un agente alcanza su límite de contexto, el andamiaje resume todo lo ocurrido hasta el momento en una nota compacta y el resumen cae en medio de una demostración a medio terminar. El agente tenía tres de cuatro lemas en la mano. Ahora tiene un párrafo que dice que estaba “trabajando en una demostración” y cuatro lemas que tiene que redescubrir. La compactación no falló porque el resumen fuera malo. Se disparó en el momento equivocado.
La mayoría de los agentes de programación compactan el contexto con un disparador fijo: cuando los tokens acumulados cruzan un umbral, se resume y se continúa. El disparador es numérico, pero el costo de compactar es estructural. Dispararse a mitad de una derivación descarta resultados parciales que el modelo luego tiene que reconstruir, que es el momento más caro para olvidar. Un artículo de junio de 2026, Self-Compacting Language Model Agents, sostiene que el modelo debería decidir cuándo y cómo compactar, y muestra que la versión basada en decisiones iguala o supera al umbral a una fracción de su costo en tokens.1
El resultado replantea un problema que yo venía tratando como un detalle de plomería. La compactación de contexto no es una tarea rutinaria de gestión de memoria que se dispara con un contador. Es un juicio sobre cuándo es seguro olvidar, y el agente está en mejor posición para tomar esa decisión que un presupuesto de tokens.
En resumen
- Los andamiajes de agentes, incluido Claude Code, compactan el contexto cuando se acercan al límite de la ventana. El disparador es un conteo de tokens, así que se activa sin tener en cuenta dónde está el agente en su trabajo.
- Dispararse a mitad de una derivación o a mitad de una búsqueda es el peor de los casos: el resumen desecha resultados parciales que el modelo pagó por calcular y que luego tiene que volver a calcular.
- Self-Compacting Language Model Agents (2026) combina una herramienta de compactación que el modelo puede invocar con una rúbrica que le indica cuándo dispararla (una subtarea resuelta, la trayectoria está convergiendo) y cuándo contenerse (a mitad de una derivación, atascado). Ninguna de las dos mitades funciona por sí sola.
- El método no necesita ajuste fino ni supervisión externa. A lo largo de seis benchmarks y siete modelos, superó a una base de referencia sin resúmenes por hasta 18,1 puntos en matemáticas y entre 5 y 9 en búsqueda agéntica, con un costo por pregunta entre un 30 y un 70 por ciento menor.
- La lección se generaliza más allá del resumen: el disparador correcto para olvidar es semántico (¿el trabajo está en un límite seguro?), no numérico (¿el búfer está lleno?).
El umbral es el disparador equivocado
La compactación existe porque las trayectorias largas se pudren. Las cadenas de pensamiento y las llamadas a herramientas se acumulan, el contenido obsoleto ancla las generaciones posteriores y, con el tiempo, la traza desborda la ventana. La solución estándar es resumir a un intervalo fijo, disparado cuando el total de tokens cruza un umbral.1 Es la jugada de ingeniería obvia, y es lo que hacen los andamiajes de producción cuando una sesión se alarga: Claude Code, según su propia documentación, “compacta automáticamente a medida que te acercas al límite”.2
El problema es que el umbral conoce el tamaño del contexto y nada sobre su forma. Un contador de tokens no puede distinguir entre una trayectoria que acaba de cerrar una subtarea de manera limpia y otra que va por el tercer paso de una derivación de cinco. Ambas se ven idénticas para un contador: un número que cruzó una línea. Así que el andamiaje compacta ambas de la misma manera, y en el segundo caso resume y descarta justamente los resultados intermedios que el agente necesita para terminar.
He visto que esto sucede en mis propios bucles autónomos. Una ejecución larga alcanza el límite durante una refactorización de varios archivos, el andamiaje compacta y el agente regresa habiendo olvidado qué archivos ya había editado. El trabajo no se perdió en ningún sentido catastrófico. El agente lo volvió a derivar. Pero la rederivación es el costo, y es un costo que el umbral impone a ciegas, porque el umbral no puede ver que el momento era malo.
El fallo difiere del que describí en el contexto compuesto. La composición tiene que ver con lo que un proyecto conserva entre sesiones: las convenciones, los hooks y las memorias que hacen que la sesión 500 sea más rápida que la sesión 1. La compactación tiene que ver con lo que una sola sesión descarta dentro de sí misma. Las dos tiran en direcciones opuestas, y la compactación es la que nadie ajusta, porque el umbral la hace sentir automática.
Qué cambia SelfCompact
La propuesta del artículo, SelfCompact, traslada la decisión del andamiaje al modelo. Combina dos piezas en tiempo de inferencia.1
Una herramienta de compactación. El modelo recibe una herramienta que puede invocar para resumir su contexto acumulado, de la misma manera en que invoca cualquier otra herramienta. La compactación se convierte en una acción que el agente toma, no en una interrupción que el entorno de ejecución impone.
Una rúbrica para saber cuándo dispararla. Una instrucción ligera le indica al modelo cuándo es apropiado compactar (una subtarea se ha resuelto, o la trayectoria está convergiendo) y cuándo suprimirla (el modelo está a mitad de una derivación, o atascado). La rúbrica es el juicio del que carece el contador de tokens.
El artículo es directo al señalar que ambas mitades son necesarias, y la razón es la parte interesante. Los modelos de pesos abiertos usan la herramienta de manera desigual: la invocan en momentos poco útiles o la omiten por completo. Librados a sus propios instintos, los modelos no son confiables para notar su propia putrefacción de contexto. La rúbrica por sí sola no puede hacer nada, porque son solo instrucciones sin ningún mecanismo para actuar sobre ellas. Juntas producen una compactación adaptativa sin ningún ajuste fino ni supervisión externa.1 El modelo ya tiene la capacidad de resumir bien; lo que le falta es el sentido metacognitivo de cuándo resumir vale la pérdida. La rúbrica aporta ese sentido.
El encuadre importa porque separa dos habilidades que la gente tiende a confundir. Saber cómo comprimir una trayectoria es una habilidad de generación, y los modelos de frontera son buenos en ella. Saber cuándo comprimir es seguro es una habilidad de autosupervisión, y los modelos son malos en ella sin que se les indique. SelfCompact no intenta hacer al modelo más inteligente al resumir. Le da al modelo una lista de verificación para la decisión de tiempo que de otro modo tomaría mal.
Los números
La evaluación abarca seis benchmarks que cubren matemáticas competitivas y búsqueda agéntica, a lo largo de siete modelos.1 Los puntos de comparación son una base de referencia sin resúmenes y el enfoque del umbral de intervalo fijo.
Frente a la ausencia de resúmenes, SelfCompact mejoró los resultados por hasta 18,1 puntos en matemáticas y entre 5 y 9 puntos en búsqueda agéntica, con un costo por pregunta entre un 30 y un 70 por ciento menor.1 Esa brecha es el costo de la putrefacción de contexto: un modelo que se ahoga en su propia traza obsoleta lo hace medibemente peor, y paga más, que uno que poda de manera inteligente.
Frente al resumen de intervalo fijo, el titular es la eficiencia. SelfCompact igualó o superó la calidad del umbral a una fracción de su costo en tokens.1 Compactar según el juicio en lugar de según un reloj significa que el agente compacta con menos frecuencia y en mejores momentos, así que paga por menos pasadas de resumen y reconstruye menos resultados descartados. El umbral no estaba ocasionalmente mal sincronizado. Era sistemáticamente más caro para una calidad igual o peor.
Una reducción de costo de entre el 30 y el 70 por ciento en tareas de horizonte largo no es un error de redondeo. Para cualquiera que ejecute agentes a gran volumen, la política de compactación es una partida del presupuesto, y el artículo dice que la política predeterminada que la mayoría de los andamiajes traen consigo está pagando por pasadas de resumen que no necesita.
Qué significa esto para quienes ejecutan agentes
La conclusión práctica no es “ve a implementar SelfCompact ahora mismo”. La mayoría de los operadores no controlan directamente el disparador de compactación de su agente. La conclusión es que la compactación es una política ajustable con consecuencias reales de calidad y costo, y vale la pena cuestionar el umbral predeterminado.
Trata los límites de compactación como semánticos, no numéricos. Cuando estructures una tarea larga, dale al agente puntos de parada naturales: terminar un archivo, cerrar una subtarea, alcanzar un punto de control. Un agente que compacta en el límite de una subtarea no pierde nada que necesite. Un agente que compacta en un límite de tokens pierde lo que sea que estuviera sosteniendo. El trabajo del operador consiste en parte en darle forma a la trayectoria para que los momentos seguros y los momentos de compactación coincidan.
Vigila la rederivación como síntoma. Si un agente regresa de una compactación y rehace trabajo que ya había hecho, el disparador se activó en el lugar equivocado. La rederivación es la firma observable de una compactación mal sincronizada, y es un costo que puedes ver en la traza si lo buscas.
Espera que el disparador se mueva hacia el modelo. SelfCompact no necesita ajuste fino, lo que significa que es un patrón de prompt y herramienta que cualquier andamiaje puede adoptar. El resultado limpio en modelos de pesos abiertos sugiere que esto se convierte en un valor predeterminado: agentes que deciden su propia compactación en lugar de esperar a que el entorno de ejecución la fuerce. El umbral parecerá, en retrospectiva, un artefacto de tratar el contexto como un búfer que vaciar en lugar de una memoria de trabajo que gestionar.
El patrón más amplio es uno con el que me topo una y otra vez con los agentes. La parte difícil rara vez es la capacidad. Los modelos de frontera pueden resumir bien una trayectoria. La parte difícil es la metacognición: saber cuándo hacer aquello que ya sabe hacer. El momento de la compactación, igual que saber cuándo pedir confirmación o cuándo detener un bucle de investigación, es una decisión de autosupervisión, y la autosupervisión es donde la generación actual es más débil. La solución en todos los casos tiene la misma forma que usa SelfCompact: deja de esperar a que el modelo lo note, y dale una rúbrica explícita para el juicio.
Conclusiones clave
Para operadores de agentes: - Audita cuándo compacta tu andamiaje. Si se dispara con un umbral de tokens, se está disparando sin tener en cuenta si el agente está a mitad de una tarea. - Estructura las tareas largas en torno a puntos de control explícitos para que los límites de compactación caigan en momentos seguros en lugar de arbitrarios. - Trata la rederivación tras una compactación como un error del disparador, no como una peculiaridad del modelo.
Para quienes construyen andamiajes: - Una herramienta de compactación más una rúbrica de disparar/suprimir superan a un intervalo fijo a un costo menor, sin necesidad de ajuste fino. - Separa las dos habilidades: los modelos resumen bien pero juzgan mal el momento. Invierte tu esfuerzo de diseño en la rúbrica de tiempo, no en el resumidor.
Para cualquiera que presupueste ejecuciones de agentes: - La política de compactación es una partida de costo. Un disparador basado en el juicio redujo el costo por pregunta entre un 30 y un 70 por ciento en el estudio, con calidad igual o mejor.
Preguntas frecuentes
¿Qué es la compactación de contexto?
La compactación de contexto consiste en resumir la trayectoria acumulada de un agente (su cadena de pensamiento y sus llamadas a herramientas) en una forma más corta para que la traza no desborde la ventana de contexto del modelo. Intercambia detalle por espacio. Bien hecha, elimina el contenido obsoleto mientras conserva lo que el agente todavía necesita. Hecha en el momento equivocado, descarta resultados parciales que el agente tiene que volver a calcular.
¿Por qué un umbral de tokens es un mal disparador de compactación?
Un umbral de tokens mide el tamaño del contexto pero no su estructura. No puede saber si el agente acaba de terminar una subtarea o va por la mitad de una derivación. Dispararse en el segundo caso desecha resultados intermedios que el modelo pagó por calcular, forzando una rederivación costosa. El disparador debería reflejar dónde está el agente en su trabajo, algo que un contador no puede ver.
¿Cómo decide SelfCompact cuándo compactar?
Combina una herramienta de compactación que el modelo puede invocar con una rúbrica que especifica cuándo dispararla (una subtarea resuelta, la trayectoria está convergiendo) y cuándo suprimirla (a mitad de una derivación, o atascado). El modelo ya resume bien; la rúbrica aporta el juicio de tiempo que le falta sin que se le indique. El enfoque no requiere ajuste fino ni supervisión externa.
¿Esto requiere un modelo especial?
No. El artículo evaluó siete modelos, incluidos algunos de pesos abiertos, y el patrón funciona únicamente mediante prompting y uso de herramientas. Eso lo hace adoptable por cualquier andamiaje sin reentrenamiento.
¿Cuánto ahorra la compactación basada en el juicio?
En el estudio, SelfCompact igualó o superó al resumen de intervalo fijo gastando entre un 30 y un 70 por ciento menos por pregunta, y superó a una base de referencia sin resúmenes por hasta 18,1 puntos en matemáticas y entre 5 y 9 en búsqueda agéntica.
Fuentes
- Tianjian Li, Jingyu Zhang, William Jurayj, Xi Wang, Chuanyang Jin, Mehrdad Farajtabar, Eric Nalisnick y Daniel Khashabi, “Self-Compacting Language Model Agents”, arXiv, 22 de junio de 2026: arxiv.org/abs/2606.23525
- Anthropic, “Explore the context window”, documentación de Claude Code, sobre la compactación automática cerca del límite de contexto: code.claude.com/docs/en/context-window
- Experiencia de producción relacionada sobre bucles autónomos y gestión de contexto: Arquitectura del agente Ralph, el contexto compuesto y el manual del operador de agentes
-
Li et al., “Self-Compacting Language Model Agents”, arXiv:2606.23525 (22 de junio de 2026). El resumen reporta el diseño de herramienta más rúbrica, la necesidad de ambos componentes, el resultado sin ajuste fino, la evaluación de seis benchmarks y siete modelos, y las ganancias cuantitativas: sobre una base de referencia sin resúmenes, hasta 18,1 puntos en matemáticas y entre 5 y 9 puntos en búsqueda agéntica con un costo por pregunta entre un 30 y un 70 por ciento menor; e igualando o superando al resumen de intervalo fijo a una fracción del costo en tokens. ↩↩↩↩↩↩↩
-
Anthropic, “Explore the context window”, documentación de Claude Code: “Claude Code compacta automáticamente a medida que te acercas al límite, así que una ventana de contexto llena no termina tu sesión”. code.claude.com/docs/en/context-window ↩