Las trazas de ejecución de agentes son el contrato del entorno de ejecución

Tres nuevos artículos sobre agentes llegan a la misma conclusión desde ángulos distintos: la respuesta final es la unidad menos confiable. SHEPHERD convierte la ejecución de un agente en una traza tipada que se puede ramificar y reutilizar. La propuesta de tienda de flujos de trabajo de IA sostiene que el trabajo repetido de los agentes debería ejecutarse como flujos de trabajo reutilizables y diseñados con rigor, no como planes improvisados. WildClawBench evalúa agentes dentro de entornos nativos de línea de comandos, con herramientas reales, auditorías de efectos secundarios y revisión de trayectorias, no solo con respuestas finales.¹²³

La confiabilidad de los agentes ahora vive en la traza de ejecución, el artefacto de flujo de trabajo y el evaluador del entorno de ejecución. Una transcripción de chat puede explicar lo que el agente dice que hizo. Una traza puede mostrar qué tocó. Un flujo de trabajo puede restringir lo que podrá hacer la próxima vez. Una prueba en entorno nativo puede medir si el modelo, las herramientas, el estado y el bucle de control funcionaron en conjunto.

Ya sostuve que los agentes gestionados están absorbiendo la infraestructura del entorno de ejecución. También argumenté que la capa de limpieza es el verdadero mercado de los agentes de IA. Esta publicación es más específica: el contrato que sostiene ambos argumentos es el registro de ejecución del agente. Si no puedes inspeccionar, ramificar, reproducir, reutilizar y evaluar la traza, todavía no tienes un sistema de agentes confiable a escala.

Las piezas cercanas cubren la superficie de control, el umbral de evidencia y el ciclo de habilidades: El chat es la interfaz equivocada para los agentes de IA, El umbral de evidencia y Las habilidades estáticas son habilidades muertas. El contrato de la traza está debajo de las tres.

TL;DR

Los sistemas de agentes se alejan cada vez más de la evaluación basada en respuestas finales. SHEPHERD registra cada interacción entre agente y entorno como un evento tipado en una traza similar a Git, donde los estados anteriores se pueden ramificar y reproducir.¹ La tienda de flujos de trabajo de IA propone flujos de trabajo reutilizables y robustecidos que amortizan el diseño correcto, las pruebas, la evaluación adversarial y el despliegue por etapas entre muchos usuarios, en lugar de pagar ese costo en cada instrucción.² WildClawBench muestra por qué importa el entorno de ejecución: sus 60 tareas de largo horizonte corren dentro de entornos reales de agentes CLI, con herramientas reales, duran en promedio unos 8 minutos, usan más de 20 llamadas a herramientas y aplican una evaluación híbrida que audita artefactos y efectos secundarios del entorno.³

El cambio práctico es este: deja de preguntar solo si la respuesta es correcta. Pregunta si la traza se puede inspeccionar, si el flujo de trabajo se puede reutilizar y si la evaluación ocurrió en el mismo entorno donde el agente trabaja de verdad.

Ideas clave

Para quienes construyen agentes: - Trata la traza de ejecución como el contrato del producto. Registra llamadas a herramientas, argumentos, estados de salida, cambios en archivos, efectos secundarios y puntos de decisión en una estructura que otro proceso pueda inspeccionar. - Convierte las tareas repetidas y de alto riesgo en flujos de trabajo revisados. La improvisación pertenece a la exploración; el trabajo repetido merece un artefacto reutilizable con pruebas y restricciones.

Para equipos de evaluación: - Evalúa el modelo junto con el entorno de ejecución, no el modelo aislado. WildClawBench informa que cambiar solo el entorno CLI puede mover hasta 18 puntos el resultado de un mismo modelo.³ - Mantén las verificaciones deterministas separadas del juicio semántico. La existencia de archivos, la validez del formato, la limpieza del espacio de trabajo y los efectos secundarios en servicios no deberían requerir un juez LLM.³

Para operadores: - No compres “confiabilidad de agentes” si el proveedor no puede mostrar la traza. Una transcripción, un diff o una frase de éxito no bastan. - Mantén las reglas de criterio local cerca del producto. Las trazas gestionadas pueden mostrar qué ocurrió; no pueden decidir qué merece publicarse.

¿Por qué la respuesta final es demasiado débil?

Las respuestas finales comprimen la información equivocada.

Un agente puede afirmar que las pruebas pasaron sin haberlas ejecutado. Puede describir una migración sin leer a quienes consumen ese código aguas abajo. Puede producir el artefacto final correcto mediante una ruta de herramientas que tocó datos que el usuario nunca quiso exponer. La respuesta puede verse limpia mientras el recorrido por el entorno de ejecución sigue siendo inseguro, derrochador o imposible de reproducir.

Ese es el argumento central de Premia la herramienta antes que la respuesta: la respuesta no se puede puntuar cuando falta la evidencia de herramientas que la respalda. La investigación reciente lleva la misma idea por debajo del informe de finalización. La traza misma se convierte en el objeto que otros agentes, evaluadores y operadores necesitan inspeccionar.

WildClawBench nombra la versión del problema desde el lado de las pruebas comparativas. Sus autores sostienen que muchas evaluaciones de agentes todavía dependen de sandboxes sintéticos, tareas cortas, API simuladas y verificaciones de respuesta final. En cambio, su evaluación ejecuta agentes CLI reales dentro de contenedores Docker y califica los artefactos producidos, el estado del entorno y criterios semánticos después de que el agente termina.³ La diferencia importa porque el trabajo de largo horizonte falla por efectos secundarios y decisiones del entorno de ejecución, no solo por texto incorrecto.

¿Qué aporta SHEPHERD?

SHEPHERD trata la ejecución de un agente como un objeto de primera clase sobre el que otro agente puede operar.¹

El artículo define a los metaagentes como agentes de orden superior que supervisan, optimizan o entrenan a otros agentes. Esos metaagentes necesitan más que una transcripción. Necesitan leer la ejecución mientras ocurre, ramificar antes de pasos riesgosos, reproducir desde estados anteriores y comparar ramas sin contaminar la ejecución principal.

SHEPHERD les da ese sustrato. El entorno de ejecución registra cada interacción entre agente y entorno como un evento tipado en una traza de ejecución similar a Git. Cada acción pasa a formar parte de un grafo de commits. Un metaagente puede suscribirse al flujo de eventos tipados, revisar un commit anterior, ramificar un ámbito, reproducir el tramo final y fusionar la rama que prefiera.¹

La traza contiene una promesa semántica que los registros de chat normales no tienen:

Propiedad	Por qué importa
Eventos tipados	Los supervisores pueden razonar sobre operaciones en lugar de analizar prosa.
Retroceso exacto	Una ruta fallida puede volver a un estado previo conocido.
Rama aislada	Las ramas alternativas no pueden filtrar cambios a la ejecución principal.
Reproducción	Un evaluador puede volver a ejecutar solo el tramo afectado en vez de empezar de nuevo.
Reutilización de caché	Ramificar se vuelve lo bastante barato como para usarlo durante trabajo real de agentes.

Los números reportados hacen concreto ese sustrato. En la evaluación de los autores, SHEPHERD ramifica el proceso del agente y el sistema de archivos más rápido que Docker, y reporta una reutilización de caché de instrucciones superior al 95 % durante la reproducción. En sus ejemplos, un supervisor en vivo eleva la tasa de aprobación conjunta de CooperBench de 28,8 % a 54,7 %, y una configuración Tree-RL sube el rendimiento en TerminalBench-2 de 34,2 % a 39,4 % en la configuración reportada.¹

No conviene leer esos números como una garantía universal de producción. Lo importante es la forma: la supervisión, la optimización y el entrenamiento mejoran cuando el entorno de ejecución le da a otro proceso acceso estructurado a la ejecución, no solo un resultado final.

¿Qué aporta la tienda de flujos de trabajo de IA?

El artículo sobre la tienda de flujos de trabajo de IA ataca el mismo problema de confiabilidad desde el lado de la reutilización.²

Sus autores argumentan que el bucle común de agentes le pide a un modelo sintetizar y ejecutar un plan en segundos o minutos. Esa velocidad se salta los procesos que hicieron tolerable el software convencional: trabajo de requisitos, diseño, pruebas, evaluación adversarial, despliegue por etapas, monitoreo y retroalimentación. El artículo describe muchas ejecuciones improvisadas de agentes como algo más cercano a prototipos sobre la marcha que a sistemas de nivel producción.²

La respuesta propuesta no es “haz que el modelo piense más tiempo”. La respuesta es una tienda compartida de flujos de trabajo robustecidos y reutilizables. Un agente debería asociar la solicitud de un usuario con un flujo de trabajo revisado cuando exista, parametrizarlo con los detalles del usuario y ejecutar ese flujo restringido en lugar de inventar una nueva cadena de herramientas cada vez.²

Esa idea afina la conversación sobre habilidades. Un archivo de habilidad que solo dice “así se hace X” todavía deja demasiada improvisación dentro del entorno de ejecución. Una tienda de flujos de trabajo exige un artefacto más fuerte:

Artefacto débil	Artefacto más fuerte
Patrón de instrucción	Flujo de trabajo parametrizado
Solución puntual de un usuario	Capacidad reutilizable
Plan de herramientas de mejor esfuerzo	Secuencia probada con restricciones
Instrucción de seguridad	Límite determinista
Costo por instrucción	Costo de ingeniería amortizado

La afirmación económica clave del artículo es práctica: la ingeniería rigurosa puede costar más tiempo y cómputo que una ejecución improvisada, así que ese costo tiene que amortizarse entre usuarios y solicitudes repetidas.² Ese argumento encaja con cómo ya se siente el trabajo serio con agentes. La primera vez que haces un flujo de alto riesgo, exploras. La segunda y la tercera, deberías dejar de explorarlo todo desde cero.

¿Qué aporta WildClawBench?

WildClawBench ofrece la versión evaluativa del contrato.³

La evaluación contiene 60 tareas escritas por humanos en seis categorías. Incluye trabajo bilingüe y multimodal. Cada tarea corre dentro de un contenedor Docker reproducible que aloja un entorno CLI real, como OpenClaw, Claude Code, Codex o Hermes Agent. Las tareas usan herramientas reales en lugar de API de servicios simulados, y los autores reportan un promedio cercano a 8 minutos y más de 20 llamadas a herramientas por ejecución.³

El diseño de evaluación importa más que la tabla de posiciones. WildClawBench combina verificaciones deterministas de artefactos, auditorías del estado del entorno para detectar efectos secundarios y un juez LLM/VLM solo cuando la verificación semántica lo necesita. La evaluación retiene los recursos usados únicamente para calificar hasta después de que el agente termina, lo que impide que el agente vea la clave de respuestas durante la ejecución.³

El resultado principal: la mejor configuración reportada alcanza 62,2 % en general, todos los demás modelos quedan por debajo del 60 % en la ejecución con OpenClaw, y cambiar el entorno de ejecución puede mover hasta 18 puntos la puntuación de un modelo.³ La conclusión del artículo se desprende de ahí: el entorno de ejecución forma parte del sistema evaluado. El modelo por sí solo no es el producto.

Ese resultado debería volver más cuidadosos a los equipos con las pruebas comparativas de agentes. Una puntuación alta en una evaluación corta, sintética y basada en respuestas finales no responde la pregunta que más les importa a los operadores: ¿puede el agente realizar una tarea larga en el entorno real, con las herramientas reales, dejando el entorno en el estado previsto?

¿Cuál es el contrato?

Si unes los tres artículos, el contrato queda claro.

Capa	Artefacto	La pregunta que responde
Ejecución	Traza tipada	¿Qué hizo el agente, en qué orden y con qué efectos secundarios?
Reutilización	Artefacto de flujo de trabajo	¿El trabajo repetido pasa por una ruta revisada o por una improvisación nueva?
Evaluación	Prueba en entorno nativo	¿El modelo más el entorno completan trabajo realista bajo restricciones reales de herramientas?
Criterio	Estándar de producto	¿El resultado verificado merece publicarse?

Cada capa evita una mentira distinta.

La traza impide que el agente convierta una llamada a herramienta ausente en una respuesta plausible. El flujo de trabajo impide que una tarea repetida finja que siempre necesita improvisación fresca. La prueba en entorno nativo impide que una puntuación de modelo finja que el entorno de ejecución no importa. El estándar de producto impide que un artefacto verificado finja ser digno solo porque pasó verificaciones.

Esa última capa todavía importa. Una traza puede probar qué ocurrió. Un flujo de trabajo puede restringir lo que ocurre. Una evaluación puede medir la finalización de una tarea. Ninguna de esas capas puede decidir si el resultado respeta al usuario, al producto o al estándar detrás del trabajo. Esa decisión sigue perteneciendo al equipo.

¿Qué deberían cambiar ahora los operadores?

Empieza por la completitud de la traza.

Si el entorno de ejecución no puede producir un registro estructurado de llamadas a herramientas, argumentos, códigos de salida, cambios en archivos, agentes generados y artefactos emitidos, corrige eso antes de añadir más autonomía. Una traza débil encarece la verificación de cualquier afirmación posterior.

Luego separa la evaluación de la traza de la evaluación de la respuesta. Un informe de finalización que afirma que las pruebas pasaron primero debería probar que el comando de pruebas se ejecutó y terminó correctamente. Un informe que nombra un archivo modificado debería probar que el archivo fue leído o escrito. Un informe que resume una acción externa debería probar que los efectos secundarios de esa acción coinciden con el estado esperado. Solo después de que la traza respalde la afirmación debería juzgarse la calidad de la respuesta.

Después, identifica los flujos de trabajo repetidos. Todo trabajo recurrente de agentes debería llevar una pregunta de promoción: ¿la próxima ejecución merece un artefacto de flujo de trabajo reutilizable? La revisión de fuentes, la actualización de guías, las publicaciones de traducción, las actualizaciones de dependencias, la clasificación de incidentes y la publicación de contenido mejoran cuando el entorno de ejecución deja de reinventar la secuencia.

Por último, evalúa en el entorno que publicas. Las herramientas simuladas y las tareas sintéticas todavía pueden ayudar durante el desarrollo, pero no deberían sostener la decisión de lanzamiento. Esa decisión necesita los mismos límites de herramientas, estado del sistema de archivos, presupuestos de tiempo y verificaciones de efectos secundarios que enfrentará el agente real.

Resumen rápido

La traza del agente se está convirtiendo en el contrato de confiabilidad. SHEPHERD muestra cómo los metaagentes pueden supervisar y ramificar ejecuciones cuando el entorno expone trazas tipadas y reproducibles. La tienda de flujos de trabajo de IA sostiene que el trabajo repetido debería pasar de la improvisación sobre la marcha a flujos de trabajo diseñados y reutilizables. WildClawBench muestra que el entorno nativo, las herramientas, los efectos secundarios y las auditorías de trayectoria cambian materialmente el rendimiento medido. Las respuestas finales todavía importan, pero están al final del contrato, no en el centro.

FAQ

¿Una traza de ejecución es lo mismo que observabilidad?

No. La observabilidad les dice a los operadores qué ocurrió. Una traza de ejecución con calidad de contrato también debe estar lo bastante estructurada como para que otro proceso pueda inspeccionarla, ramificarla, reproducirla y evaluarla. Los registros ayudan a los humanos a depurar. Las trazas tipadas permiten que supervisores, evaluadores y constructores de flujos de trabajo operen directamente sobre la ejecución.

¿SHEPHERD vuelve seguros a los agentes automáticamente?

No. SHEPHERD ofrece un sustrato para observación, ramificación, reproducción e intervención de metaagentes. Un mal supervisor todavía puede tomar malas decisiones. La mejora está en que el supervisor puede actuar sobre un objeto de ejecución estructurado, en lugar de analizar una transcripción de chat.

¿La tienda de flujos de trabajo de IA significa que los agentes nunca deberían improvisar?

No. Los agentes todavía necesitan explorar cuando no existe un flujo de trabajo revisado o cuando la tarea es genuinamente nueva. El punto es la promoción. Una vez que una tarea se repite y tiene consecuencias reales, el sistema debería convertir la ruta exitosa en un flujo de trabajo reutilizable con restricciones, pruebas y mantenimiento.

¿WildClawBench prueba que un entorno de agentes es el mejor?

No. WildClawBench muestra que la elección del entorno de ejecución cambia materialmente el rendimiento medido bajo su conjunto de tareas y su configuración experimental. Tómalo como evidencia de que el entorno pertenece a la evaluación, no como una clasificación permanente de productos.

¿Qué debería construir primero un equipo?

Construye primero la traza. Luego añade umbrales que rechacen afirmaciones sin respaldo. Después promueve el trabajo recurrente a flujos de trabajo. La orquestación sofisticada sin una traza confiable solo hace que las fallas sean más difíciles de reconstruir.

Referencias

Simon Yu, Derek Chong, Ananjan Nandi, Dilara Soylu, Jiuding Sun, Christopher D. Manning, and Weiyan Shi, “SHEPHERD: A Runtime Substrate Empowering Meta-Agents with a Formalized Execution Trace,” arXiv:2605.10913v1, 11 de mayo de 2026. Fuente principal para la traza de ejecución tipada similar a Git de SHEPHERD, la semántica de ramificación y reproducción, las operaciones centrales mecanizadas en Lean, las mediciones de ramificación y reutilización de caché de instrucciones, el resultado de CooperBench y el resultado de TerminalBench-2. ↩↩↩↩↩
Roxana Geambasu, Mariana Raykova, Pierre Tholoniat, Trishita Tiwari, Lillian Tsai, and Wen Zhang, “Engineering Robustness into Personal Agents with the AI Workflow Store,” arXiv:2605.10907v1, 11 de mayo de 2026. Fuente principal para la crítica al bucle de agentes sobre la marcha, la propuesta de tienda de flujos de trabajo de IA, el encuadre de flujos de trabajo reutilizables robustecidos, los requisitos del ciclo de vida de la ingeniería de software y el argumento de reutilización amortizada. ↩↩↩↩↩↩
Shuangrui Ding et al., “WildClawBench: A Benchmark for Real-World, Long-Horizon Agent Evaluation,” arXiv:2605.10912v1, 11 de mayo de 2026. Fuente principal para la evaluación de 60 tareas en entorno nativo, la mezcla de tareas bilingües y multimodales, los entornos CLI reales, los promedios de alrededor de 8 minutos y más de 20 llamadas a herramientas, el diseño de evaluación híbrida, la puntuación máxima reportada de 62,2 % y los cambios de puntuación según la elección del arnés. ↩↩↩↩↩↩↩↩↩