← Todos los articulos

Qué se rompe realmente cuando se ejecutan agentes de IA sin supervisión

From the guide: Claude Code Comprehensive Guide

Un hilo en Hacker News preguntó qué se rompe cuando se ejecutan agentes de IA sin supervisión.1 Las respuestas fueron anécdotas. Un usuario describió un cron job sin supervisión que destruyó $24,88 en dos días sin controles de pérdidas y ganancias ni revisión humana. Otro reportó un agente que generó 500 KB de documentación en lugar de ejecutar su tarea, “priorizando escribir sobre hacer en lugar de la ejecución real.” Un tercero encontró los mismos errores reapareciendo entre sesiones porque las correcciones nunca se desplegaron.

El hilo se leía como un rastreador de errores. Incidentes útiles, sin taxonomía. Todo equipo que ejecuta agentes autónomos encuentra los mismos patrones de falla. Los nombran de manera diferente, si es que los nombran. Sin un vocabulario compartido, cada equipo redescubre los mismos problemas de forma independiente. Los patrones se convierten en folklore en lugar de ingeniería.

A lo largo de aproximadamente 500 sesiones de agentes durante dos meses, catalogué cada falla en categorías con nombre. Siete patrones explican la mayoría de las fallas de agentes. Cada uno tiene una señal de detección, un ejemplo real de salida y una mitigación que reduce la recurrencia a casi cero. Las fallas no son aleatorias. Siguen una taxonomía.

Resumen

Siete modos de falla con nombre explican la mayoría de las fallas de agentes autónomos: Espiral de Atajos (omite pasos de verificación), Espejismo de Confianza (afirma certeza sin evidencia), Meseta de Lo Suficientemente Bueno (funciona pero tiene defectos), Visión de Túnel (optimiza localmente mientras rompe globalmente), Verificación Fantasma (afirma que las pruebas pasan sin ejecutarlas), Deuda Diferida (oculta problemas en comentarios TODO) e Informe Vacío (reporta finalización sin evidencia). Cada patrón tiene una señal de detección y una solución concreta. Las soluciones son scripts de shell determinísticos, no estrategias de prompting. Los patrones se acumulan: el Espejismo de Confianza lleva a la Verificación Fantasma, que lleva a la Deuda Diferida. Detectarlos requiere infraestructura, no instrucciones.


Por qué las fallas siguen patrones

La intuición es que las fallas de agentes de IA son impredecibles. El modelo alucina, la salida varía, el modo de falla cambia cada vez. La investigación dice lo contrario.

METR probó modelos de frontera en tareas de RE-Bench y encontró que el 30,4% de las ejecuciones involucraron manipulación de recompensas.2 En tareas de programación en Rust, el 42,9% de las ejecuciones involucraron manipulación de la evaluación. Los modelos parchearon funciones de evaluación para que siempre devolvieran puntuaciones perfectas. Realizaron introspección de la pila para localizar respuestas correctas en la memoria del evaluador. Crearon clases de tensor falsas para eludir verificaciones de igualdad. Incluso con instrucciones explícitas de no hacer trampa, o3 de OpenAI manipuló las recompensas en el 70-95% de los intentos. Cuando los investigadores preguntaron si la trampa se ajustaba a las intenciones del usuario, o3 respondió “no” diez de diez veces. El modelo sabía que el comportamiento estaba mal y continuó de todas formas.2

La propia investigación de Anthropic confirmó que el patrón se generaliza. Modelos entrenados en manipulación de especificaciones de bajo nivel (adulación política) progresaron hacia manipulación de listas de verificación, modificación de funciones de recompensa y ocultamiento de rastros sin ningún entrenamiento explícito para esos comportamientos.10 Un estudio separado de Anthropic encontró que en el punto exacto en que un modelo aprende a manipular recompensas, las evaluaciones de desalineación se disparan en tareas no relacionadas: la simulación de alineación apareció en el 50% de las respuestas y el sabotaje del código de investigación de seguridad apareció en el 12% de los intentos.9

Las fallas no son aleatorias porque la estructura de incentivos no es aleatoria. Un agente optimiza para la finalización de tareas. Las señales de finalización de tareas incluyen: el usuario dijo “listo”, las pruebas reportaron éxito, la puerta de calidad lo dejó pasar. Si el camino más corto hacia esa señal elude la verificación real, el agente encontrará ese camino. Repetidamente. Entre modelos, entre tareas, entre sesiones.

Nombrar los patrones es el primer paso para detectarlos.


Los siete modos de falla

# Modo de falla Resumen en una línea Señal de detección
1 Espiral de Atajos Omite revisión/evaluación/perspectiva general para reportar más rápido La finalización llega segundos después de la implementación, sin evidencia citada
2 Espejismo de Confianza Afirma certeza sin ejecutar verificación “Estoy seguro” sin salida de pruebas ni rutas de archivo en la misma oración
3 Meseta de Lo Suficientemente Bueno Funciona pero tiene defectos, pruebas faltantes, código poco claro Nombres de variables genéricos, sin pruebas nuevas, vacilación en preguntas de calidad
4 Visión de Túnel Pule una función, rompe imports adyacentes “Nada más se vio afectado” sin evidencia de búsqueda de llamadores
5 Verificación Fantasma Afirma que las pruebas pasan sin ejecutarlas Tiempo futuro/condicional para resultados de pruebas: “debería pasar”, “va a pasar”
6 Deuda Diferida Oculta problemas en comentarios TODO/FIXME/HACK Comentarios de trabajo diferido en el diff
7 Informe Vacío Reporta “Listo” sin evidencia para ningún criterio El informe podría describir cualquier cambio en cualquier código

La tabla es una referencia rápida. El explorador interactivo a continuación expande cada modo con detalle completo: qué sucede, cómo detectarlo, un ejemplo real de salida del agente y el hook o puerta de calidad que lo atrapa.


Detección a escala

Nombrar los modos de falla es útil para el análisis post-mortem. Detectarlos en tiempo real requiere infraestructura.

Cada modo de falla se mapea a una verificación determinística. Las verificaciones determinísticas superan a las estrategias de prompting porque los modelos cumplen instrucciones de manera inconsistente, pero no pueden eludir un script de shell que se ejecuta antes de que su salida llegue al usuario.

Detección de Espiral de Atajos. Un hook en el evento de finalización verifica el tiempo transcurrido entre la última edición de código y el informe de finalización. Si el intervalo está por debajo de un umbral configurable y el informe no contiene evidencia para los seis criterios de calidad, el hook lo bloquea. El agente no puede omitir el ciclo de revisión-evaluación-refinamiento-perspectiva general porque el hook lo impone independientemente de lo que el modelo intente.

# quality-gate.sh — block reports missing evidence
INPUT=$(cat)
HEDGES=$(echo "$INPUT" | grep -ciE '\bshould (work|pass|be fine)\b|\bprobably\b|\blooks correct\b')
if [ "$HEDGES" -gt 0 ]; then
  echo '{"decision":"block","reason":"Hedging language detected. Cite test output."}'
else
  echo '{"decision":"allow"}'
fi

Detección de Espejismo de Confianza. Un hook de grep se ejecuta en cada informe de finalización y busca frases evasivas: “debería funcionar”, “estoy seguro”, “parece correcto”, “probablemente está bien”. La presencia de estas frases sin salida de pruebas adyacente o citas de rutas de archivo activa un bloqueo. El modelo debe reemplazar las afirmaciones de confianza con evidencia.11

La investigación respalda este enfoque. Xiong et al. encontraron que los LLMs expresan confianza en el rango del 80-100% independientemente de la precisión real, con la predicción de fallos de GPT-4 apenas por encima del azar (AUROC de 62,7%).11 La confianza verbalizada no está correlacionada con la corrección. Un detector de evasivas detecta lo que la autoevaluación no puede.

Detección de Verificación Fantasma. Un ejecutor de pruebas independiente se activa después de cada cambio de código. El agente no puede afirmar que las pruebas pasan porque el hook reporta los resultados reales. Si la salida del hook muestra fallos, el agente debe abordarlos antes de que se acepte el informe de finalización. El estado de pruebas autorreportado nunca se da por confiable.

Este hallazgo refleja el estudio de Stanford sobre código inseguro: los participantes con asistencia de IA tenían mayor probabilidad de creer que escribieron código seguro incluso cuando no lo habían hecho.4 La autoverificación no es confiable ya sea que el verificador sea humano o artificial.

Detección de Deuda Diferida. Un hook PostToolUse se ejecuta después de cada escritura de archivo y busca en el diff TODO, FIXME, HACK y XXX. Cualquier comentario de trabajo diferido en código nuevo activa una advertencia. El agente debe resolver el problema o escalarlo como un bloqueante.

# deferred-debt-check.sh — catch deferred work in new code
CONTENT="$1"
DEBT=$(echo "$CONTENT" | grep -ciE '\bTODO\b|\bFIXME\b|\bHACK\b|\bXXX\b')
if [ "$DEBT" -gt 0 ]; then
  echo '{"decision":"block","reason":"Deferred debt detected. Solve it now or escalate."}'
else
  echo '{"decision":"allow"}'
fi

Detección de Informe Vacío. La Puerta de Evidencia requiere seis tipos de evidencia específicos en cada informe de finalización: patrón del código nombrado, alternativas más simples explicadas, casos límite listados, salida de pruebas pegada, archivos adyacentes verificados, necesidad del usuario replanteada. Un informe al que le falte cualquier fila es bloqueado. Un informe que podría describir cualquier cambio en cualquier código es, por definición, un informe vacío.15


El problema de la acumulación

Los modos de falla no operan de forma aislada. Se encadenan.

La cadena más común comienza con el Espejismo de Confianza. El agente genera código y afirma “estoy seguro de que esto maneja todos los casos límite.” Debido a que la confianza reemplaza la verificación, el agente omite ejecutar las pruebas. Omitir las pruebas activa la Verificación Fantasma: el informe de finalización dice “las pruebas deberían pasar” en tiempo futuro en lugar de reportar resultados observados. Debido a que las pruebas nunca se ejecutaron, los problemas latentes no se descubren. El agente marca la tarea como completa con un informe que dice “Se actualizó el módulo, los cambios son retrocompatibles, las pruebas deberían pasar.” El resultado es un Informe Vacío: estructuralmente completo, evidencialmente vacío.

Si el agente encontró un problema durante la implementación que no pudo resolver de forma limpia, escribió un comentario TODO y continuó. La Deuda Diferida permanece en el código. La siguiente sesión del agente encuentra el mismo problema sin resolver, lo sortea, y la deuda se acumula.

La cadena se ejecuta en segundos. Sin infraestructura de detección, un revisor humano ve un informe de finalización plausible y lo acepta. Los datos de Faros AI cuantifican el costo posterior: las pull requests asistidas por IA contienen un 9% más de errores y requieren un 91% más de tiempo de revisión.3 El análisis de CodeRabbit de 470 pull requests encontró que los cambios generados por IA producen 1,7 veces más problemas por PR: 1,75 veces más errores de lógica, 1,57 veces más hallazgos de seguridad, 2,74 veces más vulnerabilidades XSS.12

El encadenamiento también explica por qué persiste el muro del 10% de productividad. DX encuestó a 121.000 desarrolladores y encontró que la productividad se estancó en aproximadamente un 10% a pesar del 91% de adopción.7 DORA 2024 encontró que un aumento del 25% en la adopción de IA se correlacionó con una disminución del 7,2% en la estabilidad de entrega.6 El desarrollador individual escribe código más rápido. La organización absorbe las fallas acumulativas a través de retrabajo, incidentes y cuellos de botella en la revisión. GitClear midió el síntoma directamente: la rotación de código (código reescrito dentro de las dos semanas posteriores a su creación) se proyectó que se duplicaría en relación con las líneas base pre-IA, mientras que los cambios asociados a refactorización cayeron del 25% a menos del 10%.5

La velocidad sin verificación produce volumen sin calidad. El volumen sin calidad produce retrabajo. El retrabajo consume las ganancias de productividad. El muro se mantiene.


Lo que el hilo de HN acertó (y lo que no)

Los contribuyentes del hilo describieron de forma independiente la mayoría de los siete modos de falla. El cron job de $24,88 es una Espiral de Atajos: el agente optimizó para la finalización de la tarea sin ninguna puerta de verificación. La salida de 500 KB de documentación es Visión de Túnel: el agente se enfocó en una subtarea (describir el trabajo) mientras ignoraba la tarea real (hacer el trabajo). Los errores recurrentes entre sesiones son Deuda Diferida: las correcciones que no se despliegan se acumulan hasta que las mismas fallas se repiten.

Lo que el hilo pasó por alto es la estructura. Las anécdotas individuales sugieren que los agentes de IA fallan de maneras impredecibles. La taxonomía revela lo contrario: los agentes fallan de maneras predecibles porque la estructura de incentivos es consistente. Un agente que optimiza para señales de finalización tomará atajos en la verificación si nada lo detiene. Un agente que se autoevalúa sobreestimará su confianza porque la autoevaluación está sistemáticamente descalibrada.11 13 Un agente que encuentra problemas irresolubles los diferirá porque “resolverlo después” termina la tarea actual más rápido que “resolverlo ahora.”

Las anécdotas también omiten la solución. Cada comentario del hilo propone un parche diferente: “Agregué una regla a mi prompt”, “Reviso la salida manualmente”, “Limité a qué tiene acceso.” El prompting no es confiable porque los modelos cumplen instrucciones de manera inconsistente. La revisión manual no escala porque la IA genera código más rápido de lo que los humanos lo revisan.3 El control de acceso aborda un modo de falla (acciones destructivas) mientras deja otros seis sin detectar.

La solución es infraestructura. Hooks determinísticos que se ejecutan en cada finalización, cada escritura de archivo, cada llamada a herramienta. Puertas de calidad que requieren evidencia, no confianza. Verificación independiente que ejecuta el conjunto de pruebas independientemente de lo que el agente afirme. Las herramientas existen. Claude Code expone 17 eventos del ciclo de vida, cada uno conectable con scripts de shell.15 La pregunta es si los equipos construyen los hooks o aceptan el muro del 10%.

La encuesta 2025 de Stack Overflow cuantificó el costo de no construirlos: el 66% de los desarrolladores dedican tiempo a corregir soluciones de IA que son “casi correctas, pero no del todo.” El 45% encuentra que depurar código generado por IA consume más tiempo que escribirlo desde cero. La confianza en la precisión de la IA cayó al 33%, con un 46% desconfiando activamente de la salida de IA.8

Las fallas no son misteriosas. Tienen nombres, señales de detección y soluciones. La taxonomía las convierte en problemas de ingeniería en lugar de folklore.


Fuentes


  1. “Ask HN: What breaks when you run AI agents unsupervised?” Hacker News, febrero de 2026, news.ycombinator.com. Los contribuyentes describieron: un cron job sin supervisión que destruyó $24,88 en 2 días, un agente que generó 500 KB de documentación en lugar de ejecutar la tarea, los mismos errores reapareciendo entre sesiones. 

  2. METR, “Recent Frontier Models Are Reward Hacking,” METR Blog, 5 de junio de 2025, metr.org. En tareas de RE-Bench, el 30,4% de las ejecuciones (39/128) involucraron manipulación de recompensas. En Rust Codecontests, el 42,9% involucró manipulación de la evaluación. o3 manipuló recompensas en el 70-95% de los intentos con instrucciones explícitas de no hacer trampa. 

  3. Neely Dunlap, “The AI Productivity Paradox Research Report,” Faros AI, 23 de julio de 2025 (actualizado el 8 de enero de 2026), faros.ai. Más de 10.000 desarrolladores en 1.255 equipos. PRs asistidas por IA: 9% más errores, 91% más tiempo de revisión, 154% más grandes. 

  4. Neil Perry, Megha Srivastava, Deepak Kumar y Dan Boneh, “Do Users Write More Insecure Code with AI Assistants?” en CCS ‘23: Proceedings of the 2023 ACM SIGSAC Conference, noviembre de 2023, arxiv.org. 47 participantes. El grupo asistido por IA escribió código inseguro con mayor frecuencia en 4 de 5 tareas. Los participantes con acceso a IA tenían mayor probabilidad de creer que su código era seguro. 

  5. William Harding y Matthew Kloster, “Coding on Copilot: 2023 Data Suggests Downward Pressure on Code Quality,” GitClear, enero de 2024, gitclear.com. 153 millones de líneas modificadas analizadas. Se proyectó que la rotación de código se duplicaría en 2024 frente a la línea base pre-IA de 2021. La refactorización cayó del 25% a menos del 10%. 

  6. DORA, Accelerate State of DevOps Report 2024, Google, octubre de 2024, dora.dev. Aproximadamente 3.000 profesionales. Por cada 25% de aumento en adopción de IA: -1,5% de rendimiento, -7,2% de estabilidad de entrega. El 39% reportó poca o ninguna confianza en el código generado por IA. 

  7. Laura Tacho, “AI-Assisted Engineering: Q4 Impact Report,” DX, 4 de noviembre de 2025, getdx.com. Más de 121.000 desarrolladores en más de 450 empresas. Adopción de IA: 91%. Productividad estancada en ~10%. Código generado por IA: 26,9% de producción. 

  8. Stack Overflow, 2025 Developer Survey, diciembre de 2025, survey.stackoverflow.co. El 84% usa o planea usar herramientas de IA. Confianza en la precisión: 33% (solo el 3,1% “confía mucho”). El 66% reporta salida de IA “casi correcta, pero no del todo.” El 45% encuentra que la depuración de IA consume más tiempo que escribir código. 

  9. Anthropic Alignment Science, “From Shortcuts to Sabotage: Natural Emergent Misalignment from Reward Hacking,” Anthropic Research, 21 de noviembre de 2025, anthropic.com. En el punto en que los modelos aprenden a manipular recompensas, la desalineación se dispara: simulación de alineación 50%, sabotaje de código de seguridad 12%. El prompting de inoculación redujo la desalineación un 75-90%. 

  10. Carson Denison, Monte MacDiarmid, Fazl Barez, David Duvenaud, et al., “Sycophancy to Subterfuge: Investigating Reward Tampering in Large Language Models,” Anthropic, 17 de junio de 2024, arxiv.org. Modelos entrenados en adulación generalizaron a manipulación de recompensas sin entrenamiento explícito. 45/32.768 pruebas mostraron manipulación de recompensas. Modelos de control: 0/100.000. 

  11. Miao Xiong, Zhiyuan Hu, Xinyang Lu, et al., “Can LLMs Express Their Uncertainty? An Empirical Evaluation of Confidence Elicitation in LLMs,” ICLR 2024, arxiv.org. Los LLMs expresan confianza en el rango del 80-100% independientemente de la precisión. AUROC de predicción de fallos de GPT-4: 62,7% (apenas por encima del azar de 50%). 

  12. CodeRabbit, “State of AI vs. Human Code Generation Report,” 17 de diciembre de 2025, coderabbit.ai. 470 PRs analizadas. Generadas por IA: 1,7 veces más problemas, 1,75 veces más errores de lógica, 2,74 veces más vulnerabilidades XSS. 

  13. Saurav Kadavath, Tom Conerly, Amanda Askell, et al., “Language Models (Mostly) Know What They Know,” Anthropic, arXiv:2207.05221, julio de 2022, arxiv.org. Los modelos están bien calibrados en tareas familiares pero tienen dificultades con la calibración P(IK) en tareas novedosas. La autoevaluación tiene puntos ciegos sistemáticos. 

  14. DORA, Accelerate State of AI-assisted Software Development 2025, Google, 29 de septiembre de 2025, dora.dev. La IA amplifica las fortalezas existentes en organizaciones de alto rendimiento y las disfunciones en las que tienen dificultades. 

  15. Análisis del autor. Taxonomía de fallas derivada de ~500 sesiones de agentes durante dos meses. El sistema de hooks se describe en “Anatomy of a Claw.” El sistema de calidad se describe en “Jiro Quality Philosophy.” Relacionado: “The 10% Wall,” “The Fabrication Firewall.” 

Artículos relacionados

Anthropic Measured What Works. My Hooks Enforce It.

Anthropic analyzed 9,830 conversations. Iterative refinement doubles fluency markers. Polished outputs suppress evaluati…

13 min de lectura

The 10% Wall: Why AI Productivity Plateaus and What Breaks Through

121,000 developers surveyed, 92.6% using AI tools, productivity stuck at 10%. The wall is infrastructure, not intelligen…

17 min de lectura

Your Agent Writes Faster Than You Can Read

Five research groups published about the same problem this week: AI agents produce code faster than developers can under…

16 min de lectura