Anthropic midió lo que funciona. Mis hooks lo imponen.

14 min de lectura

From the guide: Claude Code Comprehensive Guide

Anthropic analizó 9.830 conversaciones en Claude.ai durante una sola semana en enero de 2026.¹ El análisis utilizó CLIO, una herramienta que preserva la privacidad y clasifica patrones de conversación sin leer mensajes individuales. Los investigadores rastrearon 11 comportamientos observables de un Marco de Fluidez en IA de 24 comportamientos desarrollado por los profesores Rick Dakan y Joseph Feller.²

El hallazgo central: el 85,7% de las conversaciones incluyen iteración y refinamiento. Las conversaciones iterativas exhiben 2,67 comportamientos de fluidez en promedio, aproximadamente el doble del 1,33 en conversaciones no iterativas. Los usuarios en conversaciones iterativas tienen 5,6 veces más probabilidades de cuestionar el razonamiento del modelo y 4 veces más probabilidades de identificar contexto faltante.¹

La iteración es la variable que separa el uso efectivo de la IA del uso mediocre. Anthropic lo midió. La encuesta de DX a 135.000 desarrolladores encontró que, a pesar de una adopción del 91%, la IA ahorraba a los desarrolladores aproximadamente cuatro horas por semana, una cifra que se estancó en trimestres recientes a pesar del aumento en la adopción, lo que sugiere que la adopción sin infraestructura de iteración alcanza un techo.¹² La pregunta es si la iteración ocurre de manera consistente o solo cuando los humanos recuerdan hacerla.

TL;DR

El Índice de Fluidez en IA de Anthropic encontró que el refinamiento iterativo duplica los marcadores de fluidez en 9.830 conversaciones. La paradoja del artefacto explica por qué la iteración falla por defecto: el resultado pulido suprime la evaluación (la verificación de hechos cae 3,7pp, la identificación de contexto faltante cae 5,2pp, el cuestionamiento del razonamiento cae 3,1pp). El mecanismo es la fluidez de procesamiento: el Sistema 1 marca el código limpio como correcto antes de que el Sistema 2 evalúe si realmente funciona. Un ciclo de calidad fuerza la iteración que el paso único omite: revisión obligatoria, puerta de evidencia, verificación de integración y repetición hasta que todos los criterios citen evidencia. Los hooks imponen lo que Anthropic midió.

Lo que Anthropic midió

El Índice de Fluidez en IA rastrea comportamientos observables, no evaluaciones subjetivas de calidad. El marco define la fluidez en IA como “la capacidad de trabajar de manera efectiva, eficiente, ética y segura dentro de las modalidades emergentes de interacción Humano-IA.”² Los 24 comportamientos abarcan cuatro dimensiones: Delegación, Descripción, Discernimiento y Diligencia. Once son directamente observables en la conversación. Los trece restantes ocurren fuera de la interfaz de chat (evaluar el resultado en producción, compartir resultados con colegas, verificar contra fuentes externas).

Los 11 comportamientos observables incluyen iteración y refinamiento, cuestionamiento del razonamiento, identificación de contexto faltante, clarificación de objetivos, especificación de formatos, provisión de ejemplos y verificación de hechos. Los investigadores clasificaron cada conversación según esta taxonomía utilizando Claude Sonnet como modelo de análisis.

Tres hallazgos importan para la infraestructura de ingeniería.

Hallazgo 1: La iteración es la señal más fuerte. El 85,7% de las conversaciones incluyen al menos algo de iteración. Las conversaciones con iteración muestran aproximadamente el doble de comportamientos de fluidez (2,67 vs 1,33). Los usuarios que iteran tienen 5,6 veces más probabilidades de cuestionar el razonamiento y 4 veces más probabilidades de identificar brechas.¹ La iteración no es algo opcional. Es el comportamiento más fuertemente asociado con el uso efectivo de la IA.

Hallazgo 2: El resultado pulido suprime la evaluación. El 12,3% de las conversaciones involucraron generación de artefactos (código, documentos, herramientas interactivas). Cuando el modelo produce artefactos, los usuarios se vuelven más directivos: la clarificación de objetivos aumentó 14,7 puntos porcentuales, la especificación de formato aumentó 14,5 puntos, la provisión de ejemplos aumentó 13,4 puntos. Pero la evaluación cayó: la identificación de contexto faltante cayó 5,2 puntos, la verificación de hechos cayó 3,7 puntos, el cuestionamiento del razonamiento cayó 3,1 puntos.¹ Los usuarios dirigieron mejor pero evaluaron menos.

Hallazgo 3: Pocos usuarios establecen colaboración. Solo el 30% de las conversaciones incluyeron instrucciones explícitas de colaboración como “objeta si mis suposiciones son incorrectas” o “dime qué me falta.”¹ El modo predeterminado es la delegación, no el diálogo. La mayoría de los usuarios tratan al modelo como un ejecutor en lugar de un colaborador.

La paradoja del artefacto

Anthropic nombró el patrón pero no nombró el mecanismo. La ciencia cognitiva tiene un término preciso para ello: fluidez de procesamiento.

La fluidez de procesamiento es la experiencia subjetiva de facilidad o dificultad asociada con una tarea mental. Alter y Oppenheimer documentaron que los estímulos que están semánticamente preparados, son visualmente claros o fáciles de procesar se juzgan como más verdaderos, más confiables y más dignos de confianza, independientemente de la precisión real.³ Oppenheimer demostró que la heurística de fluidez opera automáticamente: las personas usan la facilidad de procesamiento como un proxy de calidad sin conciencia deliberada.⁴

El marco de Sistema 1/Sistema 2 de Kahneman explica por qué. El Sistema 1 procesa información automáticamente, asociando la facilidad cognitiva con la verdad. El Sistema 2 emplea análisis deliberado pero requiere esfuerzo y motivación. El resultado pulido de la IA tiene alta fluidez de procesamiento. El código compila. El formato está limpio. La explicación es coherente. El Sistema 1 lo marca como “bueno” antes de que el Sistema 2 tenga la oportunidad de evaluar si es correcto.⁵

Kahneman identificó el modo de fallo específico: “Es un error que las personas tengan confianza en un juicio porque constituía una buena historia cuando, de hecho, la confianza debería basarse en la calidad y cantidad de la evidencia.”⁵ Reemplace “buena historia” por “código limpio” y la paradoja del artefacto es WYSIATI (What You See Is All There Is — Lo que se ve es todo lo que hay) aplicado a los resultados generados por IA.

West et al. formalizaron el hallazgo complementario desde el lado del modelo. En un artículo en ICLR 2024 y un preprint complementario, demostraron que los modelos generativos adquieren capacidades de producción que exceden sus capacidades de evaluación.⁶ El modelo genera código de nivel experto en segundos mientras comete errores que ningún experto humano cometería. El modelo no puede evaluar de manera confiable su propio resultado porque la generación y la evaluación son capacidades separadas que escalan de manera diferente.

La paradoja se compone: el modelo produce resultados pulidos que no puede evaluar adecuadamente, y el humano, al encontrarse con ese pulido, reduce su propia evaluación. Ninguna de las partes verifica. Ambas asumen corrección. El análisis de CodeRabbit de 470 pull requests encontró que el código escrito por IA tenía 1,7 veces más problemas y 1,75 veces más errores de lógica, a pesar de verse pulido en la revisión.¹¹ Jeff Gothelf capturó la versión organizacional: “Parte de las ganancias de productividad proviene de la apariencia de calidad en los resultados producidos por IA. Se ve bien, se ve pulido, se ve terminado.”⁷

La paradoja del artefacto no es un problema de educación del usuario. La educación ayuda, pero los datos de Anthropic muestran que incluso los usuarios que iteran (85,7% de las conversaciones) evalúan menos cuando los artefactos están presentes. La caída en la verificación de hechos y la identificación de contexto faltante ocurre en toda la población, no solo entre usuarios novatos. El mecanismo es cognitivo, no informativo. Conocer el sesgo no lo elimina.

La infraestructura lo elimina.

Mapeando hallazgos a infraestructura

Cada hallazgo de Anthropic se mapea a un componente de infraestructura específico. La tabla a continuación muestra la cadena desde el comportamiento medido hasta el mecanismo de imposición.

Comportamiento de fluidez	Hallazgo de Anthropic	Solución de infraestructura	Implementación
Iteración y refinamiento	2x marcadores de fluidez cuando está presente	Ciclo de calidad obligatorio	Ciclo de 7 pasos: implementar, revisar, evaluar, refinar, ampliar la vista, repetir, reportar. Un hook bloquea la finalización si se omite algún paso.
Cuestionamiento del razonamiento	5,6x más probable en conversaciones iterativas	Puerta de evidencia	6 criterios que requieren pruebas específicas. “Estoy seguro” no es evidencia. Las frases evasivas activan un bloqueo.
Identificación de contexto faltante	4x más probable; -5,2pp con artefactos	Paso de ampliar la vista	Búsqueda obligatoria de llamadores, verificación de importaciones y prueba de integración antes de la finalización.
Verificación de hechos	-3,7pp con artefactos	Ejecutor de pruebas independiente	La suite de pruebas se ejecuta después de cada cambio de código. El agente no puede auto-reportar resultados de pruebas.
Instrucciones de colaboración	Solo el 30% de las conversaciones	Contexto auto-inyectado	9 hooks se ejecutan en cada prompt, inyectando fecha, rama, convenciones e instrucciones explícitas para objetar suposiciones.

Los hooks imponen lo que Anthropic midió. El modelo no necesita recordar iterar porque la infraestructura lo requiere. El usuario no necesita recordar incluir instrucciones de colaboración porque los hooks las inyectan en cada prompt. La verificación de hechos no depende de la fluidez de procesamiento del usuario porque un ejecutor de pruebas independiente reporta resultados sin importar cuán pulido se vea el código.

Simulador del ciclo de calidad: Recorra paso a paso un escenario concreto donde un agente escribe un validador de correo electrónico. Siete fases muestran lo que cada paso del ciclo de calidad detecta: resultado inicial (nada detectado, paradoja del artefacto activa), revisión (errores de regex, nombres poco claros), evaluación (0/6 criterios de evidencia cumplidos, verificación fantasma detectada), refinamiento (todos los problemas corregidos, sin TODOs), ampliar la vista (2 archivos que lo llaman rotos por cambio de firma), repetición (los 6 criterios ahora citan evidencia) y reporte final ("Listo" de paso único vs reporte completo con evidencia).

Por qué el paso único falla

El ciclo de calidad descrito en Filosofía de calidad Jiro ejecuta siete pasos: implementar, revisar, evaluar, refinar, ampliar la vista, repetir, reportar. Un agente de paso único ejecuta el paso 1 y el paso 7, omitiendo cinco pasos intermedios. Los datos de Anthropic cuantifican lo que cuesta cada paso omitido.

Omitir la revisión significa que el agente no relee su propio resultado. El paso de revisión detecta la clase de errores que el agente notaría si volviera a mirar: errores tipográficos, nombres poco claros, errores de uno más o uno menos. Sin revisión, estos errores llegan al reporte de finalización como si no existieran.

Omitir la evaluación significa que la puerta de evidencia nunca se ejecuta. Los seis criterios (sigue patrones del código base, solución más simple, casos extremos manejados, pruebas pasan, sin regresiones, resuelve el problema real) nunca reciben evidencia. El reporte de finalización contiene afirmaciones, no pruebas. El hallazgo de Anthropic de que la iteración duplica los marcadores de fluidez se mapea directamente aquí: la puerta de evidencia fuerza la iteración al bloquear reportes que carecen de evidencia.

Omitir el refinamiento significa que los problemas descubiertos se difieren, no se corrigen. Un comentario TODO reemplaza una solución. La deuda diferida se acumula. GitClear midió el efecto posterior: los cambios asociados con refactorización cayeron del 25% a menos del 10% de todos los cambios en bases de código asistidas por IA, mientras que la duplicación de código subió del 8,3% al 12,3%.⁸

Omitir ampliar la vista significa que el agente nunca verifica la integración. La función funciona. Los llamadores se rompen. La visión de túnel pasa desapercibida. La caída de -5,2 puntos porcentuales de Anthropic en “identificación de contexto faltante” cuando los artefactos están presentes describe la misma falla desde el lado humano: el resultado pulido hace invisibles las brechas de contexto.

Omitir la repetición significa que un solo paso por la puerta de evidencia se trata como suficiente. El primer paso detecta problemas. Corregir esos problemas puede introducir nuevos. Sin un segundo paso, la calidad de la corrección no está verificada. El ciclo de calidad itera hasta que los seis criterios citen evidencia en el mismo paso. El paso único nunca alcanza ese estándar.

De los datos del ciclo de calidad a lo largo de más de 500 sesiones (cada una registrada con telemetría de hooks y metadatos estructurados):¹³ el ciclo de calidad promedio detecta 3,2 problemas por cambio no trivial. De estos, 1,1 se detectan durante la revisión (paso 2), 0,8 durante la evaluación (paso 3) y 1,3 durante ampliar la vista (paso 5). Un agente de paso único enviaría los 3,2 problemas. La secuencia revisión-evaluación-ampliar la vista los elimina antes del reporte de finalización.

El problema del lenguaje evasivo

Anthropic encontró que los usuarios iterativos tienen 5,6 veces más probabilidades de cuestionar el razonamiento del modelo.¹ El lenguaje evasivo es la señal inversa: el modelo expresando certeza sin ser cuestionado.

Las frases evasivas incluyen “debería funcionar”, “estoy seguro”, “parece correcto”, “probablemente está bien” y “creo que”. Cada frase sustituye una predicción por una observación. “Las pruebas deberían pasar” significa que el agente predice el resultado. “14 pruebas pasaron, 0 fallaron” significa que el agente observó el resultado. La distinción es la diferencia entre verificación fantasma y verificación real.

Xiong et al. encontraron que los LLM expresan confianza en el rango del 80-100% independientemente de la precisión real, con AUROC de predicción de fallos en todos los modelos en el rango de 0,5-0,6, apenas por encima de la adivinación aleatoria.⁹ Kadavath et al. en Anthropic encontraron que los modelos están bien calibrados en tareas familiares pero tienen dificultades con las novedosas, con el calificador “mayormente” ocultando puntos ciegos sistemáticos.¹⁰ La confianza verbalizada no está correlacionada con la corrección. Un modelo que dice “estoy seguro” proporciona cero información sobre si el código funciona.

El detector de evasivas detecta este patrón. Un hook de grep se ejecuta en cada reporte de finalización y busca patrones de evasión configurables. La presencia de lenguaje evasivo sin resultados de pruebas adyacentes o citas de rutas de archivos activa un bloqueo. El modelo debe reemplazar la evasiva con evidencia. El hook impone el comportamiento de cuestionamiento que Anthropic encontró en las conversaciones iterativas, excepto que opera de manera determinista en cada conversación, no probabilísticamente en el 85,7%.

#!/bin/bash
# hedge-detector.sh — block hedging without evidence
INPUT=$(cat)
HEDGES=$(echo "$INPUT" | grep -ciE '\bshould (work|pass|be fine)\b|\bprobably\b|\blooks correct\b|\bI.m confident\b')
if [ "$HEDGES" -gt 0 ]; then
  echo '{"decision":"block","reason":"Hedging language detected. Replace with test output or file paths."}'
else
  echo '{"decision":"allow"}'
fi

Lo que puede implementar hoy

Los datos de Anthropic señalan tres intervenciones mínimas que capturan los comportamientos de fluidez de mayor valor.

Un hook de colaboración. Inyecte instrucciones en cada prompt que le digan al modelo que objete las suposiciones, identifique contexto faltante y cuestione su propio razonamiento. Anthropic encontró que solo el 30% de los usuarios hacen esto manualmente. Un hook lo hace en el 100% de los prompts. Cinco líneas de bash.

#!/bin/bash
# inject-collaboration.sh — force evaluative behavior
echo "INSTRUCTIONS: Push back if assumptions are wrong."
echo "Identify missing context before proceeding."
echo "Question your own reasoning at each step."

Una puerta de evidencia. Bloquee reportes de finalización que usen lenguaje evasivo en lugar de citar evidencia. La puerta operacionaliza el hallazgo de Anthropic de que la iteración duplica los marcadores de fluidez al hacer la iteración obligatoria. El modelo no puede reportar “listo” sin evidencia para cada criterio de calidad.

Un verificador independiente. Ejecute la suite de pruebas después de cada cambio de código e inyecte los resultados en la conversación. El verificador aborda la paradoja del artefacto directamente: sin importar cuán pulido se vea el resultado, los resultados de las pruebas reportan lo que realmente funciona. La verificación de hechos no depende de la fluidez de procesamiento humana porque el hook la automatiza.

Los tres hooks juntos imponen los tres comportamientos que Anthropic encontró más fuertemente asociados con el uso efectivo de la IA: iteración, cuestionamiento del razonamiento e identificación de contexto faltante. Cada hook es determinista. Cada uno se ejecuta en cada interacción. Ninguno depende de que el usuario recuerde activarlo.

Anthropic midió lo que funciona. Los hooks lo hacen no opcional.

Conclusiones clave

Para desarrolladores individuales. Agregue un hook de colaboración que inyecte “objeta si las suposiciones son incorrectas” e “identifica contexto faltante” en cada prompt. Anthropic encontró que solo el 30% de los usuarios establecen instrucciones de colaboración manualmente.¹ El hook hace que el comportamiento evaluativo sea automático en el 100% de las interacciones.

Para líderes de equipo. La iteración es la señal, no la adopción. Anthropic midió 2x marcadores de fluidez en conversaciones iterativas versus no iterativas.¹ Construya infraestructura que fuerce la iteración (puertas de evidencia, pasos de revisión obligatorios) en lugar de recompensar el resultado de primer paso. Los datos de DX lo confirman: a pesar de una adopción del 91%, las ganancias de productividad se estancaron en trimestres recientes.¹²

Para ingenieros de plataforma. Aborde la paradoja del artefacto con un ejecutor de pruebas independiente. El resultado pulido de la IA activa la confianza automática a través de la fluidez de procesamiento, reduciendo la verificación de hechos en 3,7 puntos porcentuales cuando los artefactos están presentes.¹ Un verificador independiente que ejecute la suite de pruebas después de cada cambio de código evita la fluidez de procesamiento por completo al reportar lo que realmente funciona sin importar cómo se vea el código.

Fuentes

Kyle Swanson, Daniel Bent, Zack Ludwig, Rick Dakan, and Joseph Feller, “Anthropic Education Report: The AI Fluency Index,” Anthropic Research, February 23, 2026, anthropic.com. 9,830 anonymized conversations on Claude.ai, January 20-26, 2026. Iterative conversations: 2.67 fluency behaviors (vs 1.33 non-iterative). 5.6x more likely to question reasoning. Artifact paradox: -5.2pp missing context identification, -3.7pp fact-checking. ↩↩↩↩↩↩↩↩↩
Rick Dakan and Joseph Feller, “The AI Fluency Framework,” developed in collaboration with Anthropic, supported by Ireland’s Higher Education Authority, 2025, aifluencyframework.org. 24 behaviors across 4 dimensions: Delegation, Description, Discernment, Diligence. Definition: “The ability to work effectively, efficiently, ethically, and safely within emerging modalities of Human-AI interaction.” ↩↩
Adam L. Alter and Daniel M. Oppenheimer, “Uniting the Tribes of Fluency to Form a Metacognitive Nation,” Personality and Social Psychology Review, 13(3), 219-235, 2009, doi.org. Processing fluency causes stimuli to be judged as more true, reliable, and trustworthy regardless of actual accuracy. ↩
Daniel M. Oppenheimer, “The Secret Life of Fluency,” Trends in Cognitive Sciences, 12(6), 237-241, 2008, sciencedirect.com. The fluency heuristic operates automatically: processing ease serves as a proxy for quality without conscious awareness. ↩
Daniel Kahneman, Thinking, Fast and Slow (New York: Farrar, Straus and Giroux, 2011). System 1 (automatic) associates cognitive ease with truth. System 2 (deliberate) requires effort. WYSIATI: conclusions drawn from available information without accounting for what is missing. Quote: “It’s a mistake for people to have confidence in a judgment because it made for a good story when in fact confidence should be based on the quality and quantity of evidence.” ↩↩
Peter West et al., “The Generative AI Paradox: What It Can Create, It May Not Understand,” ICLR 2024, arxiv.org; Peter West et al., “The Generative AI Paradox on Evaluation: What It Can Solve, It May Not Evaluate,” arXiv:2402.06204, 2024, arxiv.org. Generative capabilities exceed evaluation capabilities. Models produce expert-level output they cannot reliably self-evaluate. ↩
Jeff Gothelf, “Confusing Artifact Quality with Certainty,” 2026, jeffgothelf.com. “Part of productivity gains comes from the appearance of quality in AI-produced output. It looks good, it looks polished, it looks done.” ↩
William Harding and Matthew Kloster, “Coding on Copilot: 2023 Data Suggests Downward Pressure on Code Quality,” GitClear, January 2024, gitclear.com. 153 million changed lines. Refactoring fell from 25% to under 10%. Code duplication rose from 8.3% to 12.3%. ↩
Miao Xiong, Zhiyuan Hu, Xinyang Lu, et al., “Can LLMs Express Their Uncertainty? An Empirical Evaluation of Confidence Elicitation in LLMs,” ICLR 2024, arxiv.org. LLMs express confidence in 80-100% range regardless of accuracy. Failure prediction AUROC across models ranges 0.5-0.6, barely above random. ↩
Saurav Kadavath, Tom Conerly, Amanda Askell, et al., “Language Models (Mostly) Know What They Know,” Anthropic, arXiv:2207.05221, July 2022, arxiv.org. Well-calibrated on familiar tasks, systematic blind spots on novel tasks. ↩
CodeRabbit, “State of AI vs. Human Code Generation Report,” December 17, 2025, coderabbit.ai. 470 PRs analyzed. AI-authored: 1.7x more issues, 1.75x more logic errors. Polished output masks higher defect rates. ↩
Laura Tacho, “AI-Assisted Engineering: Q4 Impact Report,” DX, November 4, 2025, getdx.com. 135,000+ developers across 435 companies. Average savings of about four hours per week despite 91% adoption. ↩↩
Author’s analysis. Quality loop described in “Jiro Quality Philosophy.” Hook system described in “Anatomy of a Claw.” Failure modes described in “What Actually Breaks When You Run AI Agents Unsupervised.” 10% wall explained in “The 10% Wall.” ↩