Los agentes de IA necesitan puntos de control de exploración
El 15 de mayo de 2026, Ziang Ye y sus coautores publicaron “Look Before You Leap”, un artículo que le da un nombre medible a una falla común de los agentes: explotación prematura.1
Un agente observa un entorno parcial, asume que las partes que faltan se parecen a algo conocido y actúa antes de haberse ganado el plan. La falla puede parecer confianza. También puede parecer velocidad. Pero el defecto real aparece antes: el agente se saltó el descubrimiento.
Los agentes de IA necesitan puntos de control de exploración. Antes de actuar en un entorno desconocido, un agente debería demostrar qué estados, objetos, posibilidades de acción, restricciones y casos de falla descubrió.
TL;DR
Los agentes de IA no deberían iniciar una ejecución importante a partir de un plan genérico. Primero deben mapear el entorno lo suficiente como para eliminar supuestos frágiles.
“Look Before You Leap” introduce Exploration Checkpoint Coverage, una métrica que mide cuánto de un conjunto predefinido de datos importantes sobre el entorno descubre un agente durante la exploración.1 El artículo también propone Explore-then-Act: una fase de exploración separada antes de ejecutar la tarea.1
La regla práctica es simple: dale al agente un presupuesto de exploración, exige evidencia de los puntos de control y, recién entonces, permite que empiece la ejecución. Un punto de control puede ser un objeto verificado, un estado alcanzable, una posibilidad de uso de una herramienta, una restricción de UI, un límite de la base de código, una afirmación de una fuente o una acción fallida que cambia el plan.
Los puntos de control de exploración importan porque un contexto largo, llamadas rápidas a herramientas y una prosa segura no demuestran descubrimiento. El agente tiene que mostrar el mapa.
Ideas clave
Para quienes crean agentes: - Separa la exploración de la ejecución cuando el entorno pueda sorprender al agente. - Registra estados, objetos, posibilidades de acción, restricciones y supuestos fallidos descubiertos.
Para equipos de producto: - Muestra a los revisores qué puntos de control cubrió el agente antes de actuar. - Bloquea pasos destructivos o costosos hasta que se aprueben los puntos de control requeridos.
Para equipos de evaluación: - Mide la cobertura del descubrimiento, no solo el éxito final de la tarea. - Penaliza la exploración repetitiva y los modelos genéricos del mundo que afirman conocimiento sin evidencia.
Para operadores: - Pregunta qué verificó el agente antes de aceptar el plan. - Desconfía de una respuesta rápida cuando el entorno era desconocido.
¿Por qué los agentes actúan demasiado pronto?
La mayoría de los bucles de agentes premian el progreso visible.
El agente recibe un objetivo. Razona, llama a una herramienta, observa el resultado, actualiza el plan y llama a otra herramienta. ReAct volvió útil ese entrelazado al permitir que los modelos de lenguaje produjeran trazas de razonamiento y acciones específicas de la tarea dentro de un mismo bucle.2 Muchos sistemas modernos de agentes todavía heredan ese ritmo básico: pensar, actuar, observar, continuar.
Ese ritmo tiene un sesgo oculto. Un agente condicionado por un objetivo quiere resolver la tarea asignada. Cuando el entorno parece lo bastante familiar, puede gastar su presupuesto de interacción en ejecutar antes de entender las reglas locales.
“Look Before You Leap” llama a ese comportamiento explotación prematura. Los autores describen agentes que se aferran a supuestos previos aprendidos durante el entrenamiento antes de adquirir suficiente información específica del entorno.1 El artículo identifica dos modos de falla recurrentes: agentes que carecen de un punto de partida claro y caen en acciones sin rumbo o mal informadas, y agentes que interpretan mal semánticas propias del entorno, como argumentos de herramientas o posibilidades de acción en la UI.1
Esas fallas coinciden con el trabajo real de los agentes:
| Entorno | Cómo se ve la explotación prematura |
|---|---|
| Base de código | El agente edita antes de leer límites de propiedad, pruebas o puntos de llamada. |
| Aplicación web | El agente recorre un flujo con clics antes de revisar estado oculto, controles deshabilitados o reglas de validación. |
| Tarea de investigación | El agente escribe una síntesis antes de encontrar la fuente primaria faltante. |
| Tarea de datos | El agente transforma filas antes de revisar unidades, semántica de nulos o procedencia de columnas. |
| Sistema local | El agente finaliza o cambia procesos antes de identificar trabajo propiedad del usuario. |
En casos fáciles, la ejecución puede salir bien de todos modos. Los entornos familiares perdonan los supuestos. Los entornos desconocidos los castigan.
¿Qué es Exploration Checkpoint Coverage?
Exploration Checkpoint Coverage le da una puntuación al descubrimiento.
El artículo define un conjunto finito de puntos de control para cada entorno. Cada punto representa un hecho o una posibilidad de acción específica del entorno que un explorador competente debería descubrir: ubicaciones alcanzables, objetos importantes, objetivos válidos de interacción, estados funcionales, posibilidades relevantes para la acción o restricciones locales.1
La métrica plantea una pregunta acotada: durante una trayectoria de exploración, ¿el agente alcanzó, observó o verificó cada punto de control? El artículo calcula la cobertura como la fracción de puntos de control que cubre el agente.1
La decisión de diseño importante es que ECC puede usar señales del entorno en lugar de un juez lingüístico. En el apéndice del artículo, los puntos de control provienen de detalles internos del entorno, como estados de juego PDDL, árboles de objetos, espacios de acción y grafos de recetas; la verificación puede usar evidencia determinista de observaciones y acciones.1
Ese enfoque les da a los equipos un patrón de ingeniería útil:
| Tipo de punto de control | Ejemplo de evidencia |
|---|---|
| Estado | El agente observó la ruta, pantalla, archivo, tabla o estado del proceso. |
| Objeto | El agente identificó el botón, función, columna, fuente o dependencia relevante. |
| Posibilidad de acción | El agente verificó qué operación funciona y cuál falla. |
| Restricción | El agente encontró un límite de permisos, esquema, política, tasa, propiedad o pruebas. |
| Caso de falla | El agente hizo una prueba inocua y registró por qué esa ruta no puede funcionar. |
| Impacto en el plan | El agente cambió el plan por la evidencia descubierta. |
Un punto de control no necesita ser sofisticado. Necesita poder inspeccionarse. El revisor debería ver qué descubrió el agente y por qué ese descubrimiento cambió la ejecución.
¿Qué mostró el artículo?
“Look Before You Leap” evaluó la exploración en ALFWorld, ScienceWorld, TextCraft y variantes perturbadas de ALFWorld.1
Los primeros resultados exponen una brecha entre resolver tareas y explorar. En entornos sin tarea, con un presupuesto de exploración de 100 pasos, Qwen2.5-7B alcanzó una ECC promedio de 22,2%, Qwen3-4B llegó a 28,5% y LLaMA3.1-8B alcanzó 30,9%.1 El artículo informa que GRPO orientado a tareas redujo la ECC promedio de Qwen3-4B de 28,5% a 18,8%, lo que respalda la idea de que la recompensa por tarea, por sí sola, puede estrechar la conducta exploratoria.1
El artículo también informa que una exploración débil puede perjudicar la ejecución. Bajo Explore-then-Act, una mala exploración puede agregar contexto ruidoso o incompleto en vez de orientación útil.1 Ese punto importa para el diseño de producto. Una fase de exploración separada solo ayuda cuando el agente explora lo suficiente como para producir conocimiento fundamentado.
Luego, los autores entrenan agentes con objetivos sensibles a la exploración. Comparan la ejecución directa con Explore-then-Act en dos arquitecturas base. Para Qwen3-4B, GRPO Interleaved informa una tasa promedio de éxito directo de 77,2% y una tasa de éxito con Explore-then-Act de 79,5%, mientras que GRPO Task-Only informa 73,9% y 73,5%.1 El artículo presenta la mejora como evidencia de que el entrenamiento sensible a la exploración permite que un agente convierta un presupuesto exploratorio en información útil para la tarea.1
El ejemplo cualitativo más fuerte pesa más que la tabla. En una habitación de ALFWorld, un modelo orientado a tareas recibe una instrucción de exploración sin objetivo y se detiene después de un paso con ECC 0. En el mismo entorno, un modelo sensible a la exploración cubre 87% de los puntos de control en 49 pasos.1 El primer modelo escribe un modelo genérico del mundo. El segundo se gana uno.
¿Por qué falla un modelo genérico del mundo?
Un modelo genérico del mundo suena plausible porque los modelos de lenguaje conocen muchos patrones comunes.
El modelo sabe que las habitaciones tienen camas, cajones, mesas y objetos. Sabe que los contenedores pueden abrirse. Sabe que los agentes quizá deban recoger, mover, examinar, calentar, enfriar, limpiar o cortar objetos. Nada de eso demuestra que el entorno local contenga el objeto, exponga la acción o acepte el comando.
El estudio de caso del artículo separa el conocimiento declarado del conocimiento fundamentado. El modelo orientado a tareas termina la exploración de inmediato y luego produce un modelo del mundo que nombra reglas domésticas amplias, mientras admite que los objetos específicos siguen siendo desconocidos.1 El modelo sensible a la exploración interactúa con la habitación, examina objetos, prueba acciones y construye evidencia local.1
Esa separación aplica más allá de los juegos de texto.
Un agente de programación puede saber que “las aplicaciones React tienen componentes” y aun así pasar por alto un límite de proveedor específico del proyecto. Un agente de navegador puede saber que “los formularios tienen botones de envío” y aun así ignorar una regla de estado deshabilitado. Un agente de investigación puede saber que “los artículos contienen afirmaciones” y aun así citar una subafirmación equivocada. Un agente de despliegue puede saber que “existen verificaciones de salud” y aun así no detectar la capa de caché que mantiene contenido obsoleto en vivo.
El conocimiento genérico ayuda al agente a empezar. La evidencia de puntos de control le dice si ese inicio coincide con la realidad.
¿Cómo debería explorar un agente antes de actuar?
Una fase de exploración necesita presupuesto y registro.
Sin presupuesto, la exploración puede volverse deambulación. Sin registro, se vuelve imposible de revisar. Sin objetivos de puntos de control, puede reunir trivia mientras pasa por alto la operación que importa.
El esquema Explore-then-Act del artículo ofrece el patrón básico. Primero, el agente explora sin una tarea específica durante un número fijo de pasos; luego resume el conocimiento descubierto en un artefacto estructurado; después ejecuta la tarea posterior con ese conocimiento en contexto.1
Los agentes de producción pueden adaptar la idea sin volver a entrenar un modelo:
| Fase | Salida del agente | Control |
|---|---|---|
| Descubrir | Estados, objetos, posibilidades de acción y restricciones candidatas. | ¿El agente inspeccionó la superficie correcta? |
| Probar | Acciones o lecturas de bajo riesgo que verifican posibilidades de acción. | ¿La evidencia confirmó la operación? |
| Registrar | Lista de puntos de control con observaciones fuente y pruebas fallidas. | ¿Un revisor puede inspeccionar el descubrimiento? |
| Planear | Plan de ejecución vinculado a puntos de control. | ¿Cada paso riesgoso depende de hechos verificados? |
| Actuar | Llamadas a herramientas, ediciones, escrituras, despliegues o envíos. | ¿La ejecución se mantuvo dentro de límites verificados? |
El control debe bloquear de forma estricta el trabajo de alto riesgo. Un agente no debería borrar datos, ejecutar una migración, desplegar un servicio, cambiar permisos ni gastar dinero solo porque un plan genérico parece razonable.
Primero debe demostrar que el entorno que ve coincide con el entorno que planea cambiar.
¿Qué cuenta como un buen punto de control?
Un buen punto de control cambia la ejecución.
Punto de control débil: “Leer el repositorio”. La frase nombra esfuerzo, no evidencia.
Mejor punto de control: “Identificó el comando de pruebas que cubre el módulo modificado, verificó que corre localmente y registró el modo de falla si no lo hace”. Ese punto de control le da al agente y al revisor un hecho específico.
Usa cinco pruebas:
| Prueba | Pregunta |
|---|---|
| Localidad | ¿El punto de control describe el entorno real en vez de un patrón general? |
| Verificabilidad | ¿El agente puede mostrar una observación, salida de comando, respuesta de ruta o línea fuente? |
| Posibilidad de acción | ¿El punto de control revela qué acción funciona o falla? |
| Impacto en el plan | ¿Un resultado distinto del punto de control cambiaría el plan? |
| Valor de revisión | ¿Una persona puede usar el punto de control para aceptar, rechazar o redirigir la ejecución? |
El diseño de puntos de control debe mantenerse pequeño. Una lista con 10 hechos respaldados por evidencia vale más que una narración larga de navegación, lectura y conjeturas.
¿Cómo se conectan los puntos de control de exploración con la memoria del agente?
Los puntos de control de exploración pertenecen cerca de la memoria, pero la memoria por sí sola no resuelve el problema.
Voyager muestra una versión de conocimiento útil y persistente para agentes. El agente de Minecraft usa un currículo automático, una biblioteca de habilidades de código ejecutable y uso iterativo de indicaciones con retroalimentación del entorno y autoverificación.3 El artículo informa 3,3 veces más objetos únicos, 2,3 veces más distancia recorrida y hitos del árbol tecnológico alcanzados hasta 15,3 veces más rápido que en sistemas anteriores.3
Voyager importa porque trata la interacción exitosa como conocimiento reutilizable. El agente no solo conversa sobre el mundo. Almacena habilidades funcionales que las tareas futuras pueden recuperar.3
Los puntos de control de exploración deberían alimentar un bucle similar, pero con un límite más estricto:
| Objeto de memoria | Uso |
|---|---|
| Habilidad estable | Reutilizarla cuando la misma posibilidad de acción sigue funcionando. |
| Punto de control local | Confiar en él solo dentro del entorno verificado. |
| Prueba fallida | Evitar repetir malas acciones. |
| Nota de alcance | Marcar dónde deja de aplicar el descubrimiento. |
| Paquete de revisión | Permitir que una persona inspeccione la evidencia antes de reutilizarla. |
Un agente no debería promover cada descubrimiento local a memoria duradera. Algunos hechos pertenecen solo al repositorio, página, cuenta, conjunto de datos o estado de máquina actual. El registro del punto de control debe conservar la fuente y el alcance para que la reutilización sea honesta.
¿Por qué los puntos de control necesitan una descripción de contexto?
Los agentes también necesitan saber dónde entra la evidencia de los puntos de control en el contexto.
ACDL sostiene que la construcción de contexto para agentes carece de un lenguaje descriptivo compartido. Los autores señalan que los equipos suelen comunicar la evolución de las indicaciones mediante prosa informal, diagramas ad hoc o inspección directa de código; ACDL especifica mensajes de rol, contenido dinámico, referencias indexadas por tiempo y estructura condicional o iterativa.4
Los puntos de control de exploración agregan otro requisito de contexto. Un agente puede reunir evidencia excelente y luego perderla o enterrarla antes de la ejecución. La pregunta se vuelve estructural:
| Pregunta de contexto | Falla si falta |
|---|---|
| ¿Dónde entra la evidencia de puntos de control en el contexto de instrucciones? | El agente actúa desde conocimiento genérico obsoleto. |
| ¿Qué puntos de control sobreviven a la compactación? | El agente olvida la restricción local. |
| ¿Qué pruebas fallidas siguen visibles? | El agente repite una ruta insegura. |
| ¿Qué hechos expiran después de una llamada a herramienta? | El agente confía en un estado que cambió. |
| ¿Qué notas del revisor anulan el plan? | El agente ignora la corrección humana. |
ACDL da vocabulario para el lado contextual del problema. ECC da vocabulario para el lado del descubrimiento. Los productos de agentes necesitan ambos.
¿Cómo encajan los puntos de control con los grafos de evidencia?
Los puntos de control de exploración preguntan qué descubrió el agente antes de ejecutar. Los grafos de evidencia preguntan qué respalda la respuesta final.
Argus usa un Searcher y un Navigator para investigación profunda. El Searcher reúne trazas de evidencia. El Navigator mantiene un grafo de evidencia compartido, revisa qué piezas siguen faltando, asigna trabajo de búsqueda y produce una respuesta con fuentes trazables.5
Un punto de control de exploración puede convertirse en un nodo del grafo de evidencia:
| Antes de la ejecución | Después de la ejecución |
|---|---|
| Objeto encontrado | La afirmación depende del objeto. |
| Posibilidad de acción verificada | La acción depende de esa posibilidad. |
| Restricción encontrada | El plan excluye la ruta prohibida. |
| Brecha pendiente | El revisor ve la dependencia no resuelta. |
| Prueba fallida registrada | El agente evita repetir la falla. |
La forma se mantiene consistente en investigación, programación, navegación y operaciones. El agente no solo debería decir qué hizo. Debería mostrar qué hechos descubiertos hicieron válida la acción.
La evidencia a nivel de artículo necesita el mismo tratamiento. paper.json propone IDs estables de afirmaciones, una lista de lo que no se afirma, comandos exactos por figura e IDs estables de definiciones para que los agentes puedan citar artículos y actuar sobre ellos con granularidad de subafirmación.6 Un agente que explora un artículo antes de citarlo debería cubrir primero esos puntos de control de afirmación y alcance.
¿Dónde deberían poner el control los equipos de producto?
Pon el control antes de la acción irreversible.
Un control de puntos de exploración no debería ralentizar cada lectura inocua. Debe proteger los pasos que mutan estado, publican resultados, gastan dinero, exponen datos o crean carga de reversión.
Controles útiles:
| Acción | Evidencia requerida del punto de control |
|---|---|
| Edición de código | Archivos relevantes, límite de propiedad, puntos de llamada, pruebas y restricciones de estilo. |
| Cambio de base de datos | Esquema, ruta de respaldo, filas afectadas, plan de reversión y salida de simulación. |
| Lanzamiento web | Renderizado de rutas, metadatos, archivos de descubrimiento, comportamiento de caché y marcador en vivo. |
| Respuesta de investigación externa | Fuentes primarias, afirmaciones faltantes, conflictos y límites de alcance. |
| Transacción en navegador | Estado actual de la página, validación del formulario, contexto de cuenta y pantalla de confirmación. |
| Limpieza del sistema | Propietario del proceso, impacto visible para el usuario, ruta de reinicio y aplicaciones protegidas. |
El control debería producir un pequeño paquete de puntos de control:
goal:
environment:
checkpoint_evidence:
- observed:
source:
plan_impact:
- failed_probe:
source:
plan_impact:
required_before_action:
remaining_unknowns:
decision:
Ese paquete debería viajar con la respuesta final del agente, el mensaje de commit, la nota de despliegue o el paquete de revisión. No necesita ceremonia. Necesita evidencia suficiente para que un revisor decida si la ejecución se ganó la confianza.
¿Qué deberían medir ahora las evaluaciones?
El éxito final de la tarea no puede cargar con toda la evaluación.
Un buen banco de pruebas para agentes debería informar:
| Métrica | Qué captura |
|---|---|
| Éxito de la tarea | ¿El resultado final fue satisfactorio? |
| Cobertura de puntos de control | ¿El agente descubrió los hechos locales importantes? |
| Calidad de las pruebas | ¿La exploración probó posibilidades de acción útiles o repitió ruido? |
| Revisión del plan | ¿El descubrimiento cambió realmente el plan? |
| Retraso de acciones inseguras | ¿El agente esperó hasta aprobar los puntos de control requeridos? |
| Retención de evidencia | ¿La evidencia de puntos de control siguió visible durante la ejecución? |
| Carga de revisión | ¿Una persona puede inspeccionar la prueba con rapidez? |
AgentForesight apunta en una dirección compatible. El artículo plantea la falla multiagente como un problema de auditoría en línea: un auditor observa una trayectoria en desarrollo y debe alertar en el primer error decisivo, sin ver los pasos futuros.7 Los controles de puntos de exploración pueden darles a esos auditores mejores señales tempranas. La falta de un punto de control antes de una acción riesgosa suele predecir la falla antes de que el artefacto final se rompa.
Las evaluaciones deberían premiar a los agentes que se detienen para hacer el descubrimiento correcto, no a los que simplemente actúan más rápido.
¿Qué deberían construir ahora los equipos?
Los equipos pueden agregar puntos de control de exploración sin esperar un modelo nuevo.
Empieza con tres reglas operativas:
- Define puntos de control específicos del entorno para tareas recurrentes de alto riesgo.
- Exige evidencia de puntos de control antes de mutar, publicar, comprar, eliminar o enviar algo hacia afuera.
- Guarda el paquete de puntos de control junto a la traza, commit, revisión o nota de lanzamiento.
Luego haz visible la regla en el producto:
| Superficie del producto | Visualización útil |
|---|---|
| Panel de tareas del agente | Puntos de control cubiertos, puntos faltantes y acciones bloqueadas. |
| Pantalla de revisión | Fragmentos de evidencia vinculados a cada paso riesgoso planificado. |
| Resumen de commit | Archivos inspeccionados, pruebas identificadas y límites de propiedad. |
| Resumen de despliegue | Rutas revisadas, caché purgada y marcadores en vivo verificados. |
| Respuesta de investigación | Afirmaciones, fuentes, brechas, conflictos y notas de alcance. |
El usuario no debería tener que inferir si el agente exploró. La interfaz debería mostrar la prueba.
Preguntas frecuentes
¿Qué es un punto de control de exploración para un agente de IA?
Un punto de control de exploración es un hecho verificable que un agente descubre antes de ejecutar. Algunos ejemplos son un estado alcanzable, una acción disponible de una herramienta, una posibilidad de acción de la UI, un límite de propiedad del código, una afirmación de una fuente, una restricción de datos o una prueba fallida que cambia el plan.
¿En qué se diferencia Exploration Checkpoint Coverage del éxito de la tarea?
El éxito de la tarea mide si el resultado final fue satisfactorio. Exploration Checkpoint Coverage mide si el agente descubrió hechos importantes del entorno antes de actuar. Ambas cosas pueden divergir porque una tarea puede completarse con éxito en un entorno fácil mientras el mismo comportamiento falla después de un pequeño cambio en el entorno.
¿Cuándo debería un producto exigir puntos de control de exploración?
Un producto debería exigir puntos de control antes de acciones que muten estado, publiquen contenido, gasten dinero, expongan datos, eliminen recursos o creen carga de reversión. Las lecturas de bajo riesgo pueden mantenerse ligeras.
¿Los puntos de control de exploración reemplazan la revisión humana?
No. Los puntos de control de exploración vuelven más precisa la revisión porque muestran qué verificó el agente, qué no logró verificar y por qué cambió el plan. Los revisores humanos siguen decidiendo si la evidencia alcanza para el riesgo.
¿Los agentes existentes pueden usar puntos de control de exploración sin volver a entrenarse?
Sí. Los agentes existentes pueden ejecutar una fase de descubrimiento separada, registrar evidencia y bloquear acciones riesgosas antes de la ejecución. El entrenamiento puede mejorar la calidad de la exploración, pero los controles de producto y los paquetes de revisión pueden imponer el comportamiento desde hoy.
Referencias
-
Ziang Ye, Wentao Shi, Yuxin Liu, Yu Wang, Zhengzhou Cai, Yaorui Shi, Qi Gu, Xunliang Cai y Fuli Feng, “Look Before You Leap: Autonomous Exploration for LLM Agents,” arXiv:2605.16143v1, enviado el 15 de mayo de 2026. Fuente de explotación prematura, Exploration Checkpoint Coverage, Explore-then-Act, experimentos en ALFWorld, ScienceWorld, TextCraft y resultados reportados de ECC/éxito de tarea. ↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩
-
Shunyu Yao, Jeffrey Zhao, Dian Yu, Nan Du, Izhak Shafran, Karthik Narasimhan y Yuan Cao, “ReAct: Synergizing Reasoning and Acting in Language Models,” arXiv:2210.03629v3, revisado el 10 de marzo de 2023. Fuente de bucles entrelazados de razonamiento/acción, interacción con el entorno y mejoras reportadas en tasas de éxito en ALFWorld/WebShop. ↩
-
Guanzhi Wang, Yuqi Xie, Yunfan Jiang, Ajay Mandlekar, Chaowei Xiao, Yuke Zhu, Linxi Fan y Anima Anandkumar, “Voyager: An Open-Ended Embodied Agent with Large Language Models,” arXiv:2305.16291v2, revisado el 19 de octubre de 2023. Fuente de currículo automático, biblioteca de habilidades ejecutables, uso iterativo de indicaciones, autoverificación y ganancias reportadas en exploración/árbol tecnológico. ↩↩↩
-
Noga Peleg Pelc, Gal A. Kaminka y Yoav Goldberg, “A Language for Describing Agentic LLM Contexts,” arXiv:2605.01920v1, enviado el 3 de mayo de 2026. Fuente de ACDL, estructura de contexto, contenido dinámico, referencias indexadas por tiempo y falta de un estándar compartido para describir la evolución del contexto de agentes. ↩
-
Zhen Zhang, Liangcai Su, Zhuo Chen, Xiang Lin, Haotian Xu, Simon Shaolei Du, Kaiyu Yang, Bo An, Lidong Bing y Xinyu Wang, “Argus: Evidence Assembly for Scalable Deep Research Agents,” arXiv:2605.16217v1, enviado el 15 de mayo de 2026. Fuente de roles Searcher/Navigator, grafos de evidencia compartidos, asignación de piezas faltantes y respuestas con trazabilidad de fuentes. ↩
-
Arquimedes Canedo, “paper.json: A Coordination Convention for LLM-Agent-Actionable Papers,” arXiv:2605.16194v1, enviado el 15 de mayo de 2026. Fuente de IDs estables de afirmaciones, listas de lo que no se afirma, comandos por figura, IDs de definiciones y estructura de artículos accionables por agentes. ↩
-
Boxuan Zhang, Jianing Zhu, Zeru Shi, Dongfang Liu y Ruixiang Tang, “AgentForesight: Online Auditing for Early Failure Prediction in Multi-Agent Systems,” arXiv:2605.08715v2, revisado el 13 de mayo de 2026. Fuente de auditoría en línea, detección de errores decisivos durante trayectorias en desarrollo, AFTraj-2K y mejoras reportadas en predicción temprana de fallas. ↩