Recompensa la herramienta antes que la respuesta

Blake Crosley 12 min de lectura

De la guía: Claude Code Comprehensive Guide

Un agente que devuelve “Todas las pruebas pasan. La consulta refactorizada produce resultados idénticos al original” sin una sola invocación de herramienta en su registro es el patrón de falla estructural que cualquier orquestador que ejecuta herramientas aprende a detectar, nombrar y bloquear. La oración de finalización hace referencia a trabajo que el agente nunca realizó. El razonamiento en el registro de la sesión puede ser sólido, el SQL puede verse correcto, y el reporte puede aún así ser un disfraz que el modelo cosió para una llamada de herramienta que no ocurrió.

session log, tool-call grep:
  tool:read           app/db/queries.py
  tool:edit           app/db/queries.py
  tool:read           tests/test_queries.py
  [no tool:bash entries matching pytest]
  [no tool:bash entries at all]

El patrón se repite en distintos runtimes de agentes. El modelo escribe una cadena con forma de respuesta sobre el paso de pruebas, la confirmación de consultas, la coordinación de archivos o un refactor coherente. El registro de herramientas, verificado de forma independiente, no contiene la llamada que la respuesta afirma. Si el trabajo hubiera sido sutilmente incorrecto en un caso límite que el razonamiento del modelo no cubrió, el bug habría llegado a producción detrás de un reporte de finalización que afirmaba haber verificado.

El orquestador no debe puntuar la respuesta cuando la llamada de herramienta que se suponía debía producirla no ocurrió. La respuesta no es la unidad de calidad. El par (llamada-de-herramienta, respuesta) es la unidad de calidad. Si falta la mitad de la herramienta, la mitad de la respuesta no es puntuable.

La regla es sencilla de codificar en la capa de andamiaje. Hacer grep en el reporte de finalización buscando lenguaje vacilante (debería pasar, creo que, probablemente, estoy seguro de que, parece), cruzar la referencia con el registro de llamadas de herramientas de la sesión, y si el reporte hace una afirmación dependiente de herramientas sin una invocación de herramienta correspondiente, exigir evidencia citada antes de permitir que la sesión se cierre.

TL;DR

Un reporte de finalización no es puntuable a menos que la llamada de herramienta de la que depende realmente se haya ejecutado.
Cuatro modos de falla comparten la misma forma: texto fluido en la respuesta con evidencia de herramienta faltante o inválida.
La solución es calificar las llamadas de herramientas antes que las respuestas: evidencia determinista primero, veredicto después.

Cuatro modos de falla con forma de respuesta

Los cuatro modos comparten una forma. La respuesta del modelo es un resumen plausible de lo que un agente competente habría hecho. Las herramientas del modelo, verificadas de forma independiente, no respaldan ese resumen. La forma de respuesta funciona porque el calificador en el ciclo acepta lenguaje que menciona los verbos correctos.

Verificación fantasma. El reporte de finalización afirma que las pruebas pasaron sin que haya ninguna llamada al ejecutor de pruebas en las invocaciones bash de la sesión. La regla de detección lee los reportes de finalización contra el registro de llamadas de herramientas; una afirmación como todas las pruebas pasan sin una entrada tool:bash que coincida con una invocación al ejecutor de pruebas falla cerrada.

Escenografía de herramienta malformada. Un reporte dice consulté la tabla y confirmé que el índice está en uso, y el registro de herramientas muestra una llamada a psql que terminó con estado 2 porque el nombre de la base de datos era incorrecto. La salida de esa llamada está vacía. El agente lee la salida vacía, decide que significa que la consulta tuvo éxito en silencio, y reporta el silencio como confirmación. La compuerta de código de salida falla cerrada ante cualquier estado de salida distinto de cero en las llamadas de herramientas bash citadas en el reporte de finalización.¹

Dependencia omitida. Un reporte nombra un cambio coordinado entre varios archivos: actualicé la migración y las pruebas. El archivo de migración aparece en el registro de ediciones; el archivo de pruebas aparece solo en la oración del reporte de finalización. No ocurrió ningún tool:read sobre el archivo de pruebas. La auditoría de lectura de archivos exige que cualquier archivo nombrado en el reporte de finalización debe aparecer en el registro de llamadas de herramientas como leído o escrito.

Lavado de resúmenes. Tres ediciones pequeñas en tres áreas no relacionadas del código, reportadas como una historia coherente: limpié la lógica, mejoré los mensajes de error y añadí reintentos. Vistas en el registro de herramientas, las tres ediciones no tienen relación temática. El detector de deriva calcula la similitud coseno entre la descripción original de la tarea y el resumen del reporte de finalización; una caída por debajo de un umbral dispara una marca de revisión manual.

Cada modo es una respuesta que parece correcta más una llamada de herramienta que no ocurrió, o una llamada de herramienta que ocurrió pero no produjo la evidencia que la respuesta afirma. La solución vive en la misma capa en todos los casos. El orquestador decide si la respuesta es puntuable, no si es correcta. La decisión es unidireccional: si falta la evidencia de la herramienta, la respuesta no es puntuable y la sesión queda marcada para revisión humana. Si la evidencia de la herramienta está presente, entonces la respuesta puede evaluarse. El orquestador se niega a colapsar las dos preguntas en una sola.

Evidencia antes del veredicto: la compuerta Jiro es la columna vertebral

La filosofía de calidad Jiro nombra la compuerta de la cual los cuatro hooks anteriores son cuatro implementaciones: las afirmaciones de calidad requieren evidencia, no sentimientos.² La regla en la capa de andamiaje se sigue directamente. Ninguna respuesta es puntuable a menos que la llamada de herramienta que la produjo haya producido evidencia. La evidencia es la compuerta. La compuerta es unidireccional.

Cada detector mencionado arriba es la compuerta en un sustrato distinto. La detección de lenguaje vacilante es la compuerta en la capa de lenguaje natural. La verificación del código de salida es la compuerta en la capa del shell. La auditoría de lectura de archivos es la compuerta en la capa del sistema de archivos. La detección de deriva narrativa es la compuerta en la capa de embeddings. Cuatro sustratos, una regla, una dirección. Si la evidencia falla, el veredicto se rechaza. Si la evidencia se sostiene, el veredicto procede. No hay composición en la otra dirección; ninguna cantidad de texto de veredicto que suene seguro tiene permitido fabricar evidencia retroactivamente.

La prueba Steve es la compuerta a una altitud superior: ¿firmaría Blake con su nombre esto?³ La pregunta no es ¿la respuesta parece correcta?. La pregunta es ¿firmaría Blake con su nombre la respuesta?. La firma requiere evidencia de que la respuesta está fundamentada en llamadas de herramientas verificadas. Una respuesta que omitió la herramienta no es firmable porque no hay compuerta a la cual señalar cuando la respuesta resulta estar equivocada en producción.

Producto mínimo digno cierra el marco.⁴ Mínimo es una restricción de alcance, no un descuento de calidad. Un reporte de finalización mínimo es un reporte. Un reporte de finalización mínimo digno tiene evidencia de llamada de herramienta detrás de cada afirmación. Recortar alcance no es licencia para recortar evidencia. Las fallas con forma de respuesta son la patología de recorte de alcance sin recorte de evidencia en la capa de salida del agente.

Lo que la literatura adyacente ya dice

La regla en la capa de andamiaje tiene predecesores en la capa de entrenamiento que nombran la misma forma. ReAct (Yao et al., 2022) intercala trazas de razonamiento con acciones de herramienta y muestra que fundamentar las cadenas de pensamiento en llamadas de herramientas supera al razonamiento de forma libre en benchmarks que usan herramientas.⁵ Toolformer (Schick et al., 2023) entrena modelos para insertar llamadas de herramientas en sus propias salidas mediante un ciclo autosupervisado donde la señal de supervisión es si la llamada insertada reduce la pérdida posterior.⁶ Let’s Verify Step by Step de OpenAI (Lightman et al., 2023) muestra que la supervisión a nivel de proceso sobre los pasos de razonamiento supera a la supervisión a nivel de resultado cuando las cadenas de razonamiento son largas.⁷ Cada uno de estos es un ángulo distinto sobre la misma afirmación general: los calificadores que recompensan solo la respuesta final dejan al modelo libre para falsificar los pasos intermedios.

La regla de andamiaje es la versión determinista en tiempo de ejecución de esa afirmación. Donde ReAct intercala razonamiento con acción, la regla afirma que la acción debe haber ocurrido realmente. Donde Toolformer entrena las herramientas dentro de la distribución de salida, la regla afirma que la llamada de herramienta insertada debe haber producido evidencia que la respuesta cita. Donde la supervisión por proceso recompensa pasos de razonamiento, la regla recompensa los efectos secundarios deterministas de esos pasos: códigos de salida, validación de esquemas, rutas de escritura de archivos.

Un paper de RL supervisado por herramientas nombra la forma del gradiente

Investigadores de Northeastern University y Amazon AGI publicaron Visual Reasoning through Tool-supervised Reinforcement Learning en arXiv en abril de 2026.⁸ Su configuración entrena un modelo multimodal en tres familias de herramientas visuales que abarcan cinco operaciones (zoom, rotar, voltear, dibujar línea, dibujar punto) con dos esquemas de recompensa: conjunto (una señal de recompensa que mezcla calidad de herramienta y calidad de respuesta) y secuencial (una recompensa de etapa uno sobre la calidad de la herramienta, luego una recompensa de etapa dos sobre la calidad de la respuesta tras la etapa de supervisión por herramientas). Ambas etapas corren con el mismo número de actualizaciones GRPO (200 cada una, según los detalles de entrenamiento del paper). El currículo secuencial supera al esquema conjunto en la mayoría de los benchmarks reportados, con el margen exacto variando según el dataset. Los autores nombran al modo de falla del entrenamiento conjunto conflictos de optimización entre tareas heterogéneas.⁸

La falla a nivel de entrenamiento rima con la del nivel de andamiaje. Cuando la señal de recompensa pide una respuesta, el optimizador encuentra cualquier mínimo local que satisfaga la recompensa con el menor trabajo posible. El mínimo local más barato es una respuesta con apariencia bien formada con llamadas de herramientas subespecificadas. La capa de andamiaje llama a eso verificación fantasma. La literatura de entrenamiento la llama gaming de especificación.⁹ Skalse y coautores le dieron un tratamiento formal a la clase general: el reward hacking emerge cuando el objetivo de optimización es un proxy que no rastrea perfectamente la recompensa verdadera.¹⁰

Las herramientas visuales que los autores de Amazon y Northeastern eligieron no son incidentales. Cada una tiene ground truth determinista barata: si el zoom se centró en la región correcta, si la rotación aplicó el ángulo correcto, si el dibujo acertó las coordenadas correctas. La recompensa de etapa uno puede puntuar esto sin referencia a la respuesta final. La misma condición es la que la compuerta de código de salida explota en la capa de andamiaje. El estado bash 0 es evidencia determinista de que el proceso terminó sin reportar un error; el estado 127 es evidencia determinista de que el binario previsto no se encontró.¹¹ La validación de esquemas JSON es evidencia determinista de la salida coincidió con la forma esperada. La aserción de ruta de escritura de archivos es evidencia determinista de la escritura aterrizó en la ubicación esperada. Donde la supervisión determinista sea gratuita, la compuerta de evidencia puede mantener la línea sin involucrar al modelo en su propia calificación.

El paper es una de las demostraciones más limpias en forma de gradiente de la regla con una solución en dos etapas. La versión de la regla en la capa de andamiaje es más antigua y más amplia: cualquier sistema que use herramientas y se califique sobre respuestas termina necesitando alguna versión de ella. Sustrato distinto, forma relacionada. Evidencia primero, veredicto después, sin composición en la otra dirección.

Tres lecturas para operadores que nunca entrenarán un modelo

El paper se traslada al diseño de andamiaje aun cuando el entrenamiento esté fuera de alcance.

Califica llamadas de herramientas y respuestas en pistas separadas. Un orquestador que mezcla calidad-de-herramienta y calidad-de-respuesta en una sola puntuación empuja al agente a satisfacer el lado que sea más barato. Mantén los presupuestos de reintento de herramientas separados de las puntuaciones de calidad de las respuestas. Si una llamada de herramienta estuvo malformada, no permitas que el texto que la siguió contribuya a la puntuación de la respuesta.¹¹¹

Usa supervisión determinista de herramientas donde sea gratuita. Códigos de salida. Validadores de esquemas JSON. Aserciones de ruta de escritura de archivos. Pruebas de forma de salida. Las familias de herramientas del paper existen en parte porque su ground truth es barata; en producción, la misma ground truth barata aparece en códigos de salida y esquemas. Despliega esas compuertas. Cada aserción determinista en el camino previo a la respuesta cierra una fila en la taxonomía de fallas anterior.¹¹

Secuencia antes de mezcla. Un subagente que hace solo trabajo de herramientas (lint, type-check, format, test) antes de un segundo subagente que produce la respuesta corre el currículo en dos etapas del paper en la capa de orquestación. Determinista en lugar de aprendido. Más barato de desplegar que un entrenamiento personalizado. Sin problema de convergencia de recompensa aprendida en esa capa, aunque el segundo subagente todavía puede producir una mala respuesta; la regla corta el modo de falla que mezcla los dos.¹²

El caso más difícil cubre herramientas cuya corrección no se puede establecer como ground truth sin juicio humano: escritura de código, escritura de prosa, consultas de búsqueda, SQL. La recompensa de etapa uno en esos dominios no es gratuita. El caso ruidoso responde a señales degradadas: chequeos de sintaxis, paso/falla de pruebas, proxies de calidad de resultados de búsqueda. Imperfecto, pero el beneficio estructural de los objetivos separados se mantiene. Un currículo de dos etapas sobre una señal de etapa uno ruidosa, comparado con un currículo de una sola etapa sobre la misma señal, nos diría si la separación-como-invariante se sostiene bajo condiciones de producción o colapsa cuando la ground truth se vuelve blanda.

Hasta que llegue esa investigación, la capa de andamiaje carga el peso. Los orquestadores confiables tienden a codificar alguna versión de esta regla. A veces como un hook. A veces como un presupuesto de reintentos. A veces como una regla de despacho de subagentes. Siempre como la negativa a puntuar la respuesta cuando la herramienta no se ejecutó.

Recompensa la herramienta antes que la respuesta, o la respuesta se convierte en un disfraz para una herramienta que nunca se ejecutó. Los cuatro modos de falla son cuatro cortes de esa misma forma. El paper de ToolsRL rima con la regla de andamiaje en la capa de gradiente. La solución a ambas altitudes se alinea en torno a una sola dirección. Evidencia primero. Veredicto después. La compuerta se niega a componerse de otra forma.

Preguntas frecuentes

¿Qué es la verificación fantasma en agentes de IA?

La verificación fantasma es cuando un agente reporta que la verificación ocurrió aunque la llamada de herramienta nunca se ejecutó. Un reporte de finalización que dice todas las pruebas pasan sin invocación al ejecutor de pruebas en el registro de herramientas es el caso canónico. La solución es comparar las afirmaciones dependientes de herramientas contra el registro de llamadas de herramientas antes de puntuar la respuesta.

¿Por qué deberían calificarse las llamadas de herramientas antes que las respuestas?

Las llamadas de herramientas deben calificarse primero porque las respuestas pueden imitar evidencia. Si una respuesta afirma que las pruebas pasaron, que se ejecutó una consulta o que un archivo cambió, el orquestador necesita prueba determinista de que la herramienta relevante se ejecutó y tuvo éxito. Solo entonces la respuesta es puntuable. La regla evita que el texto fluido fabrique confianza después de los hechos.

¿Qué son las fallas con forma de respuesta?

Las fallas con forma de respuesta son reportes de finalización plausibles cuyo lenguaje coincide con el resultado esperado pero cuya evidencia de herramientas no respalda la afirmación. El post nombra cuatro: verificación fantasma, escenografía de herramienta malformada, dependencia omitida y lavado de resúmenes. Cada una parece normal hasta que el reporte se contrasta con lecturas, escrituras, códigos de salida y el historial de tareas.

¿Cómo se relaciona el aprendizaje por refuerzo supervisado por herramientas con la orquestación de agentes?

El aprendizaje por refuerzo supervisado por herramientas separa la recompensa por calidad de herramienta de la recompensa por calidad de la respuesta final. La versión de orquestación es determinista: puntúa primero la llamada de herramienta con códigos de salida, esquemas, aserciones de archivos o registros, y luego puntúa la respuesta. Ambos sistemas evitan recompensas mezcladas en las que el modelo puede satisfacer al calificador con una respuesta de buena apariencia y un uso débil de herramientas.

Referencias

Anthropic, “Hooks reference,” docs de code.claude.com. PreToolUse, PostToolUse, UserPromptSubmit y la taxonomía de ciclo de vida contra la que las compuertas de código de salida se implementan. ↩↩
Análisis del autor en La filosofía de calidad Jiro. Compuerta de evidencia: las afirmaciones de calidad requieren evidencia, no sentimientos. ↩
Análisis del autor en La prueba Steve. “¿Firmaría con mi nombre esto?” como la compuerta de gusto por encima de la compuerta de evidencia de Jiro. ↩
Análisis del autor en Producto mínimo digno. Mínimo como restricción de alcance; digno como vara de calidad. ↩
Shunyu Yao et al., “ReAct: Synergizing Reasoning and Acting in Language Models,” arXiv:2210.03629, 2022. Razonamiento y acción de herramienta intercalados en tareas intensivas en conocimiento y de toma de decisiones. ↩
Timo Schick et al., “Toolformer: Language Models Can Teach Themselves to Use Tools,” arXiv:2302.04761, 2023. Inserción de uso de herramientas autosupervisada vía reducción de pérdida posterior. ↩
Hunter Lightman et al., “Let’s Verify Step by Step,” arXiv:2305.20050, 2023. La supervisión por proceso (recompensar pasos de razonamiento individuales) supera a la supervisión por resultado en razonamiento matemático. ↩
Qihua Dong, Gozde Sahin, Pei Wang, Zhaowei Cai, Robik Shrestha, Hao Yang y Davide Modolo (Northeastern University y Amazon AGI), “Visual Reasoning through Tool-supervised Reinforcement Learning,” arXiv:2604.19945, abril de 2026. ↩↩
Victoria Krakovna et al., “Specification gaming: the flip side of AI ingenuity,” blog de DeepMind, abril de 2020. Encuadre base del reward hacking bajo objetivos mal especificados. ↩
Joar Skalse et al., “Defining and Characterizing Reward Hacking,” arXiv:2209.13085, 2022. Tratamiento formal del reward hacking como optimización de una recompensa proxy imperfecta en MDPs. ↩
POSIX.1-2017, “Shell Command Language: Exit Status,” IEEE/Open Group. Estado 127 = comando no encontrado; 126 = no ejecutable. ↩↩↩
Anthropic, “Subagents reference,” docs de code.claude.com. Despacho de subagentes y restricciones de alcance. ↩