← Todos los articulos

Anthropic midió lo que funciona. Mis hooks lo hacen obligatorio.

From the guide: Claude Code Comprehensive Guide

Anthropic analizó 9.830 conversaciones en Claude.ai durante una sola semana en enero de 2026.1 El análisis utilizó CLIO, una herramienta que preserva la privacidad y clasifica patrones de conversación sin leer mensajes individuales. Los investigadores rastrearon 11 comportamientos observables de un Marco de Fluidez en IA de 24 comportamientos desarrollado por los profesores Rick Dakan y Joseph Feller.2

El hallazgo central: el 85,7% de las conversaciones incluyen iteración y refinamiento. Las conversaciones iterativas exhiben 2,67 comportamientos de fluidez en promedio, aproximadamente el doble de los 1,33 en conversaciones no iterativas. Los usuarios en conversaciones iterativas tienen 5,6 veces más probabilidad de cuestionar el razonamiento del modelo y 4 veces más probabilidad de identificar contexto faltante.1

La iteración es la variable que separa el uso efectivo de la IA del uso mediocre. Anthropic lo midió. La pregunta es si la iteración ocurre de manera consistente o solo cuando los humanos recuerdan hacerlo.

Resumen

El Índice de Fluidez en IA de Anthropic encontró que el refinamiento iterativo duplica los marcadores de fluidez en 9.830 conversaciones. La “paradoja del artefacto” explica por qué la iteración no ocurre por defecto: cuando el modelo produce resultados pulidos, los usuarios se vuelven más directivos pero menos evaluativos. La verificación de hechos cae 3,7 puntos porcentuales. La identificación de contexto faltante cae 5,2 puntos porcentuales. El cuestionamiento del razonamiento cae 3,1 puntos porcentuales. El mecanismo cognitivo es la fluidez de procesamiento: los resultados pulidos activan la confianza automática (Sistema 1 de Kahneman) y suprimen la evaluación crítica (Sistema 2). Un ciclo de calidad fuerza la iteración que el paso único omite: revisión obligatoria, puerta de evidencia, verificación de integración y repetición hasta que todos los criterios citen evidencia. Los hooks hacen obligatorio lo que Anthropic midió. El modelo no puede omitir la iteración porque la infraestructura lo exige.


Lo que Anthropic midió

El Índice de Fluidez en IA rastrea comportamientos observables, no evaluaciones subjetivas de calidad. El marco define la fluidez en IA como “la capacidad de trabajar de manera efectiva, eficiente, ética y segura dentro de las modalidades emergentes de interacción Humano-IA.”2 Los 24 comportamientos abarcan cuatro dimensiones: Delegación, Descripción, Discernimiento y Diligencia. Once son directamente observables en la conversación. Los trece restantes ocurren fuera de la interfaz de chat (evaluar resultados en producción, compartir resultados con colegas, verificar contra fuentes externas).

Los 11 comportamientos observables incluyen iteración y refinamiento, cuestionar el razonamiento, identificar contexto faltante, clarificar objetivos, especificar formatos, proporcionar ejemplos y verificar hechos. Los investigadores clasificaron cada conversación según esta taxonomía utilizando Claude Sonnet como modelo de análisis.

Tres hallazgos importan para la infraestructura de ingeniería.

Hallazgo 1: La iteración es la señal más fuerte. El 85,7% de las conversaciones incluyen al menos algo de iteración. Las conversaciones con iteración muestran aproximadamente el doble de comportamientos de fluidez (2,67 vs 1,33). Los usuarios que iteran tienen 5,6 veces más probabilidad de cuestionar el razonamiento y 4 veces más probabilidad de identificar brechas.1 La iteración no es un lujo. Es el comportamiento más fuertemente asociado con el uso efectivo de la IA.

Hallazgo 2: Los resultados pulidos suprimen la evaluación. El 12,3% de las conversaciones involucraron generación de artefactos (código, documentos, herramientas interactivas). Cuando el modelo produce artefactos, los usuarios se vuelven más directivos: la clarificación de objetivos aumentó 14,7 puntos porcentuales, la especificación de formato aumentó 14,5 puntos, proporcionar ejemplos aumentó 13,4 puntos. Pero la evaluación cayó: la identificación de contexto faltante cayó 5,2 puntos, la verificación de hechos cayó 3,7 puntos, el cuestionamiento del razonamiento cayó 3,1 puntos.1 Los usuarios dirigieron mejor pero evaluaron menos.

Hallazgo 3: Pocos usuarios establecen la colaboración. Solo el 30% de las conversaciones incluyeron instrucciones explícitas de colaboración como “cuestione si mis suposiciones son incorrectas” o “dígame lo que me falta.”1 El modo predeterminado es la delegación, no el diálogo. La mayoría de los usuarios tratan al modelo como un ejecutor en lugar de un colaborador.


La paradoja del artefacto

Anthropic nombró el patrón pero no nombró el mecanismo. La ciencia cognitiva tiene un término preciso para ello: fluidez de procesamiento.

La fluidez de procesamiento es la experiencia subjetiva de facilidad o dificultad asociada con una tarea mental. Alter y Oppenheimer documentaron que los estímulos que están semánticamente preparados, visualmente claros o son fáciles de procesar se juzgan como más verdaderos, más confiables y más dignos de confianza, independientemente de la precisión real.3 Oppenheimer demostró que la heurística de fluidez opera automáticamente: las personas usan la facilidad de procesamiento como un sustituto de la calidad sin conciencia deliberada.4

El marco de Sistema 1/Sistema 2 de Kahneman explica por qué. El Sistema 1 procesa información automáticamente, asociando la facilidad cognitiva con la verdad. El Sistema 2 involucra análisis deliberado pero requiere esfuerzo y motivación. Los resultados pulidos de la IA tienen alta fluidez de procesamiento. El código compila. El formato está limpio. La explicación es coherente. El Sistema 1 lo marca como “bueno” antes de que el Sistema 2 tenga oportunidad de evaluar si es correcto.5

Kahneman identificó el modo de falla específico: “Es un error que las personas tengan confianza en un juicio porque resultó en una buena historia cuando, de hecho, la confianza debería basarse en la calidad y cantidad de la evidencia.”5 Reemplace “buena historia” con “código limpio” y la paradoja del artefacto es WYSIATI (What You See Is All There Is — Lo que se ve es todo lo que hay) aplicado a los resultados generados por IA.

West et al. formalizaron el hallazgo complementario desde el lado del modelo. En dos artículos presentados en ICLR 2024, demostraron que los modelos generativos adquieren capacidades de producción que exceden sus capacidades de evaluación.6 El modelo genera código de nivel experto en segundos mientras comete errores que ningún experto humano cometería. El modelo no puede evaluar de manera confiable sus propios resultados porque la generación y la evaluación son capacidades separadas que escalan de manera diferente.

La paradoja se multiplica: el modelo produce resultados pulidos que no puede evaluar adecuadamente, y el humano, al encontrar ese pulido, reduce su propia evaluación. Ninguna de las partes verifica. Ambas asumen corrección. Jeff Gothelf capturó la versión organizacional: “Parte de las ganancias de productividad proviene de la apariencia de calidad en los resultados producidos por IA. Se ve bien, se ve pulido, se ve terminado.”7

La paradoja del artefacto no es un problema de educación del usuario. La educación ayuda, pero los datos de Anthropic muestran que incluso los usuarios que iteran (85,7% de las conversaciones) evalúan menos cuando hay artefactos presentes. La caída en la verificación de hechos y la identificación de contexto faltante ocurre en toda la población, no solo entre usuarios novatos. El mecanismo es cognitivo, no informativo. Saber sobre el sesgo no lo elimina.

La infraestructura lo elimina.


Mapeando hallazgos a infraestructura

Cada hallazgo de Anthropic se mapea a un componente de infraestructura específico. La tabla a continuación muestra la cadena desde el comportamiento medido hasta el mecanismo de aplicación.

Comportamiento de fluidez Hallazgo de Anthropic Solución de infraestructura Implementación
Iteración y refinamiento 2x marcadores de fluidez cuando está presente Ciclo de calidad obligatorio Ciclo de 7 pasos: implementar, revisar, evaluar, refinar, ampliar perspectiva, repetir, reportar. Un hook bloquea la finalización si se omite algún paso.
Cuestionar el razonamiento 5,6x más probable en conversaciones iterativas Puerta de evidencia 6 criterios que requieren pruebas específicas. “Estoy seguro” no es evidencia. Las frases evasivas activan un bloqueo.
Identificar contexto faltante 4x más probable; -5,2pp con artefactos Paso de ampliar perspectiva Búsqueda obligatoria de llamadores, verificación de importaciones y prueba de integración antes de la finalización.
Verificación de hechos -3,7pp con artefactos Ejecutor de pruebas independiente El conjunto de pruebas se ejecuta después de cada cambio de código. El agente no puede auto-reportar resultados de pruebas.
Instrucciones de colaboración Solo el 30% de las conversaciones Contexto auto-inyectado 9 hooks se activan en cada prompt, inyectando fecha, rama, convenciones e instrucciones explícitas para cuestionar suposiciones.

Los hooks hacen obligatorio lo que Anthropic midió. El modelo no necesita recordar iterar porque la infraestructura lo exige. El usuario no necesita recordar incluir instrucciones de colaboración porque los hooks las inyectan en cada prompt. La verificación de hechos no depende de la fluidez de procesamiento del usuario porque un ejecutor de pruebas independiente reporta resultados independientemente de cuán pulido parezca el código.


Por qué el paso único falla

El ciclo de calidad descrito en Filosofía de calidad Jiro ejecuta siete pasos: implementar, revisar, evaluar, refinar, ampliar perspectiva, repetir, reportar. Un agente de paso único ejecuta el paso 1 y el paso 7, omitiendo cinco pasos intermedios. Los datos de Anthropic cuantifican lo que cuesta cada paso omitido.

Omitir la revisión significa que el agente no relee sus propios resultados. El paso de revisión detecta la clase de errores que el agente notaría si mirara de nuevo: errores tipográficos, nombres poco claros, errores de uno. Sin revisión, estos errores llegan al reporte de finalización como si no existieran.

Omitir la evaluación significa que la puerta de evidencia nunca se ejecuta. Los seis criterios (sigue patrones del código base, solución más simple, casos límite manejados, pruebas pasan, sin regresiones, resuelve el problema real) nunca reciben evidencia. El reporte de finalización contiene afirmaciones, no pruebas. El hallazgo de Anthropic de que la iteración duplica los marcadores de fluidez se mapea directamente aquí: la puerta de evidencia fuerza la iteración al bloquear reportes que carecen de evidencia.

Omitir el refinamiento significa que los problemas descubiertos se difieren, no se corrigen. Un comentario TODO reemplaza una solución. La deuda diferida se acumula. GitClear midió el efecto descendente: los cambios asociados a refactorización cayeron del 25% a menos del 10% de todos los cambios en bases de código asistidas por IA, mientras que la duplicación de código subió del 8,3% al 12,3%.8

Omitir ampliar perspectiva significa que el agente nunca verifica la integración. La función funciona. Los llamadores se rompen. La visión de túnel pasa desapercibida. La caída de -5,2 puntos porcentuales de Anthropic en “identificar contexto faltante” cuando hay artefactos presentes describe la misma falla desde el lado humano: los resultados pulidos hacen invisibles las brechas de contexto.

Omitir repetir significa que un solo paso por la puerta de evidencia se trata como suficiente. El primer paso detecta problemas. Corregir esos problemas puede introducir nuevos. Sin un segundo paso, la calidad de la corrección no está verificada. El ciclo de calidad itera hasta que los seis criterios citan evidencia en el mismo paso. El paso único nunca alcanza ese estándar.

De los datos del harness: el ciclo de calidad promedio detecta 3,2 problemas por cambio no trivial. De esos, 1,1 se detectan durante la revisión (paso 2), 0,8 durante la evaluación (paso 3) y 1,3 durante ampliar perspectiva (paso 5). Un agente de paso único enviaría los 3,2 problemas. La secuencia revisión-evaluación-ampliar perspectiva los elimina antes del reporte de finalización.


El problema del lenguaje evasivo

Anthropic encontró que los usuarios iterativos tienen 5,6 veces más probabilidad de cuestionar el razonamiento del modelo.1 El lenguaje evasivo es la señal inversa: el modelo expresando certeza sin ser cuestionado.

Las frases evasivas incluyen “debería funcionar,” “estoy seguro,” “parece correcto,” “probablemente está bien” y “creo que.” Cada frase sustituye una predicción por una observación. “Las pruebas deberían pasar” significa que el agente predice el resultado. “14 pruebas pasaron, 0 fallaron” significa que el agente observó el resultado. La distinción es la diferencia entre Verificación Fantasma y verificación real.

Xiong et al. encontraron que los LLMs expresan confianza en el rango del 80-100% independientemente de la precisión real, con la predicción de fallas de GPT-4 apenas por encima de la adivinación aleatoria (AUROC 62,7%).9 Kadavath et al. en Anthropic encontraron que los modelos están bien calibrados en tareas familiares pero tienen dificultades con las nuevas, con el calificador “mayormente” ocultando puntos ciegos sistemáticos.10 La confianza verbalizada no está correlacionada con la corrección. Un modelo que dice “estoy seguro” proporciona cero información sobre si el código funciona.

El detector de evasivas detecta este patrón. Un hook de grep se activa en cada reporte de finalización y busca patrones de evasión configurables. La presencia de lenguaje evasivo sin resultados de pruebas adyacentes o citas de rutas de archivo activa un bloqueo. El modelo debe reemplazar la evasiva con evidencia. El hook hace obligatorio el comportamiento de cuestionamiento que Anthropic encontró en conversaciones iterativas, excepto que opera de manera determinista en cada conversación, no probabilísticamente en el 85,7%.

#!/bin/bash
# hedge-detector.sh — block hedging without evidence
INPUT=$(cat)
HEDGES=$(echo "$INPUT" | grep -ciE '\bshould (work|pass|be fine)\b|\bprobably\b|\blooks correct\b|\bI.m confident\b')
if [ "$HEDGES" -gt 0 ]; then
  echo '{"decision":"block","reason":"Hedging language detected. Replace with test output or file paths."}'
else
  echo '{"decision":"allow"}'
fi

Lo que puede implementar hoy

Los datos de Anthropic apuntan a tres intervenciones mínimas que capturan los comportamientos de fluidez de mayor valor.

Un hook de colaboración. Inyecte instrucciones en cada prompt que le indiquen al modelo cuestionar suposiciones, identificar contexto faltante y cuestionar su propio razonamiento. Anthropic encontró que solo el 30% de los usuarios hace esto manualmente. Un hook lo hace en el 100% de los prompts. Cinco líneas de bash.

#!/bin/bash
# inject-collaboration.sh — force evaluative behavior
echo "INSTRUCTIONS: Push back if assumptions are wrong."
echo "Identify missing context before proceeding."
echo "Question your own reasoning at each step."

Una puerta de evidencia. Bloquee los reportes de finalización que usan lenguaje evasivo en lugar de citar evidencia. La puerta operacionaliza el hallazgo de Anthropic de que la iteración duplica los marcadores de fluidez al hacer la iteración obligatoria. El modelo no puede reportar “listo” sin evidencia para cada criterio de calidad.

Un verificador independiente. Ejecute el conjunto de pruebas después de cada cambio de código e inyecte los resultados en la conversación. El verificador aborda la paradoja del artefacto directamente: independientemente de cuán pulido parezca el resultado, los resultados de las pruebas reportan lo que realmente funciona. La verificación de hechos no depende de la fluidez de procesamiento del humano porque el hook la automatiza.

Los tres hooks juntos hacen obligatorios los tres comportamientos que Anthropic encontró más fuertemente asociados con el uso efectivo de la IA: iteración, cuestionamiento del razonamiento e identificación de contexto faltante. Cada hook es determinista. Cada uno se activa en cada interacción. Ninguno depende de que el usuario recuerde activarlo.

Anthropic midió lo que funciona. Los hooks lo hacen no opcional.


Fuentes


  1. Kyle Swanson, Daniel Bent, Zack Ludwig, Rick Dakan, and Joseph Feller, “Anthropic Education Report: The AI Fluency Index,” Anthropic Research, February 23, 2026, anthropic.com. 9,830 anonymized conversations on Claude.ai, January 20-26, 2026. Iterative conversations: 2.67 fluency behaviors (vs 1.33 non-iterative). 5.6x more likely to question reasoning. Artifact paradox: -5.2pp missing context identification, -3.7pp fact-checking. 

  2. Rick Dakan and Joseph Feller, “The AI Fluency Framework,” developed in collaboration with Anthropic, supported by Ireland’s Higher Education Authority, 2025, aifluencyframework.org. 24 behaviors across 4 dimensions: Delegation, Description, Discernment, Diligence. Definition: “The ability to work effectively, efficiently, ethically, and safely within emerging modalities of Human-AI interaction.” 

  3. Adam L. Alter and Daniel M. Oppenheimer, “Uniting the Tribes of Fluency to Form a Metacognitive Nation,” Personality and Social Psychology Review, 13(3), 219-235, 2009, doi.org. Processing fluency causes stimuli to be judged as more true, reliable, and trustworthy regardless of actual accuracy. 

  4. Daniel M. Oppenheimer, “The Secret Life of Fluency,” Trends in Cognitive Sciences, 12(6), 237-241, 2008, sciencedirect.com. The fluency heuristic operates automatically: processing ease serves as a proxy for quality without conscious awareness. 

  5. Daniel Kahneman, Thinking, Fast and Slow (New York: Farrar, Straus and Giroux, 2011). System 1 (automatic) associates cognitive ease with truth. System 2 (deliberate) requires effort. WYSIATI: conclusions drawn from available information without accounting for what is missing. Quote: “It’s a mistake for people to have confidence in a judgment because it made for a good story when in fact confidence should be based on the quality and quantity of evidence.” 

  6. Peter West et al., “The Generative AI Paradox: What It Can Create, It May Not Understand,” ICLR 2024, arxiv.org; Peter West et al., “The Generative AI Paradox on Evaluation: What It Can Solve, It May Not Evaluate,” arXiv:2402.06204, 2024, arxiv.org. Generative capabilities exceed evaluation capabilities. Models produce expert-level output they cannot reliably self-evaluate. 

  7. Jeff Gothelf, “Confusing Artifact Quality with Certainty,” 2024, jeffgothelf.com. “Part of productivity gains comes from the appearance of quality in AI-produced output. It looks good, it looks polished, it looks done.” 

  8. William Harding and Matthew Kloster, “Coding on Copilot: 2023 Data Suggests Downward Pressure on Code Quality,” GitClear, January 2024, gitclear.com. 153 million changed lines. Refactoring fell from 25% to under 10%. Code duplication rose from 8.3% to 12.3%. 

  9. Miao Xiong, Zhiyuan Hu, Xinyang Lu, et al., “Can LLMs Express Their Uncertainty? An Empirical Evaluation of Confidence Elicitation in LLMs,” ICLR 2024, arxiv.org. LLMs express confidence in 80-100% range regardless of accuracy. GPT-4 failure prediction AUROC: 62.7%. 

  10. Saurav Kadavath, Tom Conerly, Amanda Askell, et al., “Language Models (Mostly) Know What They Know,” Anthropic, arXiv:2207.05221, July 2022, arxiv.org. Well-calibrated on familiar tasks, systematic blind spots on novel tasks. 

  11. CodeRabbit, “State of AI vs. Human Code Generation Report,” December 17, 2025, coderabbit.ai. 470 PRs analyzed. AI-authored: 1.7x more issues, 1.75x more logic errors. Polished output masks higher defect rates. 

  12. Laura Tacho, “AI-Assisted Engineering: Q4 Impact Report,” DX, November 4, 2025, getdx.com. 121,000+ developers. Productivity plateaued at ~10% despite 91% adoption. 

  13. Author’s analysis. Quality loop described in “Jiro Quality Philosophy.” Hook system described in “Anatomy of a Claw.” Failure modes described in “What Actually Breaks When You Run AI Agents Unsupervised.” 10% wall explained in “The 10% Wall.” 

Artículos relacionados

What Actually Breaks When You Run AI Agents Unsupervised

7 named failure modes from 500+ agent sessions. Each has a detection signal, a real output example, and a concrete fix. …

13 min de lectura

The 10% Wall: Why AI Productivity Plateaus and What Breaks Through

121,000 developers surveyed, 92.6% using AI tools, productivity stuck at 10%. The wall is infrastructure, not intelligen…

17 min de lectura

Your Agent Writes Faster Than You Can Read

Five research groups published about the same problem this week: AI agents produce code faster than developers can under…

16 min de lectura