Anthropic Mediu o Que Funciona. Meus Hooks Garantem a Execução.
Anthropic analisou 9.830 conversas no Claude.ai durante uma única semana em janeiro de 2026.1 A análise utilizou CLIO, uma ferramenta que preserva a privacidade e classifica padrões de conversa sem ler mensagens individuais. Os pesquisadores rastrearam 11 comportamentos observáveis de um Framework de Fluência em IA com 24 comportamentos, desenvolvido pelos professores Rick Dakan e Joseph Feller.2
A descoberta central: 85,7% das conversas incluem iteração e refinamento. Conversas iterativas exibem 2,67 comportamentos de fluência em média, aproximadamente o dobro dos 1,33 em conversas não iterativas. Usuários em conversas iterativas têm 5,6x mais probabilidade de questionar o raciocínio do modelo e 4x mais probabilidade de identificar contexto ausente.1
A iteração é a variável que separa o uso eficaz de IA do uso medíocre. Anthropic mediu isso. A questão é se a iteração acontece de forma consistente ou apenas quando os humanos lembram de fazê-la.
TL;DR
O AI Fluency Index da Anthropic descobriu que o refinamento iterativo dobra os marcadores de fluência em 9.830 conversas. O “paradoxo do artefato” explica por que a iteração não acontece por padrão: quando o modelo produz uma saída polida, os usuários se tornam mais diretivos, mas menos avaliativos. A verificação de fatos cai 3,7 pontos percentuais. A identificação de contexto ausente cai 5,2 pontos percentuais. O questionamento do raciocínio cai 3,1 pontos percentuais. O mecanismo cognitivo é a fluência de processamento: a saída polida aciona confiança automática (Sistema 1 de Kahneman) e suprime a avaliação crítica (Sistema 2). Um loop de qualidade força a iteração que a passagem única ignora: revisão obrigatória, gate de evidência, verificação de integração e repetição até que todos os critérios citem evidências. Os hooks garantem o que Anthropic mediu. O modelo não pode pular a iteração porque a infraestrutura a exige.
O Que Anthropic Mediu
O AI Fluency Index rastreia comportamentos observáveis, não avaliações subjetivas de qualidade. O framework define fluência em IA como “a capacidade de trabalhar de forma eficaz, eficiente, ética e segura dentro de modalidades emergentes de interação Humano-IA.”2 Os 24 comportamentos abrangem quatro dimensões: Delegação, Descrição, Discernimento e Diligência. Onze são diretamente observáveis na conversa. Os treze restantes ocorrem fora da interface de chat (avaliar a saída em produção, compartilhar resultados com colegas, verificar contra fontes externas).
Os 11 comportamentos observáveis incluem iteração e refinamento, questionamento de raciocínio, identificação de contexto ausente, esclarecimento de objetivos, especificação de formatos, fornecimento de exemplos e verificação de fatos. Os pesquisadores classificaram cada conversa contra essa taxonomia usando Claude Sonnet como modelo de análise.
Três descobertas importam para infraestrutura de engenharia.
Descoberta 1: Iteração é o sinal mais forte. 85,7% das conversas incluem pelo menos alguma iteração. Conversas com iteração mostram aproximadamente o dobro dos comportamentos de fluência (2,67 vs 1,33). Usuários que iteram têm 5,6x mais probabilidade de questionar o raciocínio e 4x mais probabilidade de identificar lacunas.1 Iteração não é algo desejável. É o comportamento mais fortemente associado ao uso eficaz de IA.
Descoberta 2: Saída polida suprime a avaliação. 12,3% das conversas envolveram geração de artefatos (código, documentos, ferramentas interativas). Quando o modelo produz artefatos, os usuários se tornam mais diretivos: esclarecimento de objetivos aumentou 14,7 pontos percentuais, especificação de formato aumentou 14,5 pontos, fornecimento de exemplos aumentou 13,4 pontos. Mas a avaliação caiu: identificação de contexto ausente caiu 5,2 pontos, verificação de fatos caiu 3,7 pontos, questionamento de raciocínio caiu 3,1 pontos.1 Usuários direcionaram melhor, mas avaliaram menos.
Descoberta 3: Poucos usuários configuram colaboração. Apenas 30% das conversas incluíram instruções explícitas de colaboração, como “questione se minhas suposições estiverem erradas” ou “me diga o que estou deixando passar.”1 O modo padrão é delegação, não diálogo. A maioria dos usuários trata o modelo como um executor, não como um colaborador.
O Paradoxo do Artefato
Anthropic nomeou o padrão, mas não nomeou o mecanismo. A ciência cognitiva tem um termo preciso para isso: fluência de processamento.
Fluência de processamento é a experiência subjetiva de facilidade ou dificuldade associada a uma tarefa mental. Alter e Oppenheimer documentaram que estímulos que são semanticamente preparados, visualmente claros ou fáceis de processar são julgados como mais verdadeiros, mais confiáveis e mais dignos de confiança, independentemente da precisão real.3 Oppenheimer demonstrou que a heurística de fluência opera automaticamente: as pessoas usam a facilidade de processamento como um indicador de qualidade sem consciência disso.4
O framework Sistema 1/Sistema 2 de Kahneman explica o porquê. O Sistema 1 processa informações automaticamente, associando facilidade cognitiva à verdade. O Sistema 2 engaja análise deliberada, mas requer esforço e motivação. A saída polida de IA tem alta fluência de processamento. O código compila. A formatação está limpa. A explicação é coerente. O Sistema 1 a classifica como “boa” antes que o Sistema 2 tenha chance de avaliar se ela está correta.5
Kahneman identificou o modo de falha específico: “É um erro as pessoas terem confiança em um julgamento porque ele contou uma boa história quando, na verdade, a confiança deveria ser baseada na qualidade e quantidade de evidências.”5 Substitua “boa história” por “código limpo” e o paradoxo do artefato é WYSIATI (What You See Is All There Is — O Que Você Vê É Tudo Que Existe) aplicado à saída gerada por IA.
West et al. formalizaram a descoberta complementar do lado do modelo. Em dois artigos apresentados na ICLR 2024, eles demonstraram que modelos generativos adquirem capacidades de produção que excedem suas capacidades de avaliação.6 O modelo gera código de nível especialista em segundos enquanto comete erros que nenhum especialista humano cometeria. O modelo não consegue avaliar de forma confiável sua própria saída porque geração e avaliação são capacidades separadas que escalam de maneira diferente.
O paradoxo se compõe: o modelo produz saída polida que não consegue avaliar adequadamente, e o humano, ao encontrar esse polimento, reduz sua própria avaliação. Nenhuma das partes verifica. Ambas assumem correção. Jeff Gothelf capturou a versão organizacional: “Parte dos ganhos de produtividade vem da aparência de qualidade na saída produzida por IA. Parece bom, parece polido, parece pronto.”7
O paradoxo do artefato não é um problema de educação do usuário. A educação ajuda, mas os dados da Anthropic mostram que mesmo usuários que iteram (85,7% das conversas) avaliam menos quando artefatos estão presentes. A queda na verificação de fatos e na identificação de contexto ausente ocorre em toda a população, não apenas entre usuários novatos. O mecanismo é cognitivo, não informacional. Saber sobre o viés não o elimina.
Infraestrutura o elimina.
Mapeando Descobertas para Infraestrutura
Cada descoberta da Anthropic mapeia para um componente específico de infraestrutura. A tabela abaixo mostra a cadeia do comportamento medido ao mecanismo de aplicação.
| Comportamento de Fluência | Descoberta da Anthropic | Correção na Infraestrutura | Implementação |
|---|---|---|---|
| Iteração e refinamento | 2x marcadores de fluência quando presente | Loop de qualidade obrigatório | Loop de 7 etapas: implementar, revisar, avaliar, refinar, ampliar visão, repetir, relatar. Um hook bloqueia a conclusão se qualquer etapa for pulada. |
| Questionamento de raciocínio | 5,6x mais provável em conversas iterativas | Gate de Evidência | 6 critérios exigindo prova específica. “Estou confiante” não é evidência. Frases evasivas acionam um bloqueio. |
| Identificação de contexto ausente | 4x mais provável; -5,2pp com artefatos | Etapa de Ampliar Visão | Busca obrigatória de chamadores, verificação de imports e teste de integração antes da conclusão. |
| Verificação de fatos | -3,7pp com artefatos | Executor de testes independente | A suíte de testes roda após cada alteração de código. O agente não pode auto-relatar resultados de testes. |
| Instruções de colaboração | Apenas 30% das conversas | Contexto injetado automaticamente | 9 hooks disparam em cada prompt, injetando data, branch, convenções e instruções explícitas para questionar suposições. |
Os hooks garantem o que Anthropic mediu. O modelo não precisa lembrar de iterar porque a infraestrutura exige. O usuário não precisa lembrar de incluir instruções de colaboração porque os hooks as injetam em cada prompt. A verificação de fatos não depende da fluência de processamento do usuário porque um executor de testes independente reporta resultados independentemente de quão polido o código pareça.
Por Que a Passagem Única Falha
O loop de qualidade descrito em Jiro Quality Philosophy executa sete etapas: implementar, revisar, avaliar, refinar, ampliar visão, repetir, relatar. Um agente de passagem única executa a etapa 1 e a etapa 7, pulando cinco etapas intermediárias. Os dados da Anthropic quantificam o custo de cada etapa pulada.
Pular a revisão significa que o agente não relê sua própria saída. A etapa de revisão captura a classe de erros que o agente notaria se olhasse novamente: erros de digitação, nomenclatura obscura, erros de off-by-one. Sem revisão, esses erros chegam ao relatório de conclusão como se não existissem.
Pular a avaliação significa que o Gate de Evidência nunca é executado. Os seis critérios (segue padrões do codebase, solução mais simples, casos extremos tratados, testes passam, sem regressões, resolve o problema real) nunca recebem evidências. O relatório de conclusão contém afirmações, não provas. A descoberta da Anthropic de que a iteração dobra os marcadores de fluência mapeia diretamente aqui: o Gate de Evidência força a iteração ao bloquear relatórios que carecem de evidência.
Pular o refinamento significa que problemas descobertos são adiados, não corrigidos. Um comentário TODO substitui uma solução. Deferred Debt se acumula. A GitClear mediu o efeito downstream: mudanças associadas a refatoração caíram de 25% para menos de 10% de todas as mudanças em codebases assistidos por IA, enquanto a duplicação de código subiu de 8,3% para 12,3%.8
Pular a ampliação de visão significa que o agente nunca verifica a integração. A função funciona. Os chamadores quebram. A Visão de Túnel passa despercebida. A queda de -5,2 pontos percentuais da Anthropic em “identificação de contexto ausente” quando artefatos estão presentes descreve a mesma falha do lado humano: a saída polida torna as lacunas de contexto invisíveis.
Pular a repetição significa que uma passagem pelo Gate de Evidência é tratada como suficiente. A primeira passagem captura problemas. Corrigir esses problemas pode introduzir novos. Sem uma segunda passagem, a qualidade da correção não é verificada. O loop de qualidade itera até que todos os seis critérios citem evidência na mesma passagem. A passagem única nunca alcança esse padrão.
Dos dados do harness: o loop de qualidade médio captura 3,2 problemas por mudança não trivial. Desses, 1,1 são capturados durante a revisão (etapa 2), 0,8 durante a avaliação (etapa 3) e 1,3 durante a ampliação de visão (etapa 5). Um agente de passagem única enviaria todos os 3,2 problemas. A sequência revisão-avaliação-ampliação de visão os elimina antes do relatório de conclusão.
O Problema da Linguagem Evasiva
Anthropic descobriu que usuários iterativos têm 5,6x mais probabilidade de questionar o raciocínio do modelo.1 A linguagem evasiva é o sinal inverso: o modelo expressando certeza sem ser questionado.
Frases evasivas incluem “deveria funcionar”, “estou confiante”, “parece correto”, “provavelmente está bem” e “acredito que”. Cada frase substitui uma previsão por uma observação. “Os testes devem passar” significa que o agente prevê o resultado. “14 testes passaram, 0 falharam” significa que o agente observou o resultado. A distinção é a diferença entre Verificação Fantasma e verificação real.
Xiong et al. descobriram que LLMs expressam confiança na faixa de 80-100% independentemente da precisão real, com a previsão de falha do GPT-4 mal acima da adivinhação aleatória (AUROC 62,7%).9 Kadavath et al. na Anthropic descobriram que modelos são bem calibrados em tarefas familiares, mas têm dificuldade em tarefas novas, com o qualificador “na maioria” ocultando pontos cegos sistemáticos.10 Confiança verbalizada não está correlacionada com correção. Um modelo dizendo “estou confiante” fornece zero informação sobre se o código funciona.
O detector de evasivas captura esse padrão. Um hook grep dispara em cada relatório de conclusão e busca por padrões evasivos configuráveis. A presença de linguagem evasiva sem saída de testes adjacente ou citações de caminho de arquivo aciona um bloqueio. O modelo deve substituir a evasiva por evidência. O hook garante o comportamento de questionamento que Anthropic encontrou em conversas iterativas, exceto que opera de forma determinística em cada conversa, não probabilisticamente em 85,7%.
#!/bin/bash
# hedge-detector.sh — block hedging without evidence
INPUT=$(cat)
HEDGES=$(echo "$INPUT" | grep -ciE '\bshould (work|pass|be fine)\b|\bprobably\b|\blooks correct\b|\bI.m confident\b')
if [ "$HEDGES" -gt 0 ]; then
echo '{"decision":"block","reason":"Hedging language detected. Replace with test output or file paths."}'
else
echo '{"decision":"allow"}'
fi
O Que Você Pode Implementar Hoje
Os dados da Anthropic apontam para três intervenções mínimas que capturam os comportamentos de fluência de maior valor.
Um hook de colaboração. Injete instruções em cada prompt que dizem ao modelo para questionar suposições, identificar contexto ausente e questionar seu próprio raciocínio. Anthropic descobriu que apenas 30% dos usuários fazem isso manualmente. Um hook faz isso em 100% dos prompts. Cinco linhas de bash.
#!/bin/bash
# inject-collaboration.sh — force evaluative behavior
echo "INSTRUCTIONS: Push back if assumptions are wrong."
echo "Identify missing context before proceeding."
echo "Question your own reasoning at each step."
Um gate de evidência. Bloqueie relatórios de conclusão que usam linguagem evasiva em vez de citar evidências. O gate operacionaliza a descoberta da Anthropic de que a iteração dobra os marcadores de fluência, tornando a iteração obrigatória. O modelo não pode relatar “pronto” sem evidência para cada critério de qualidade.
Um verificador independente. Execute a suíte de testes após cada alteração de código e injete os resultados na conversa. O verificador aborda o paradoxo do artefato diretamente: independentemente de quão polida a saída pareça, os resultados dos testes reportam o que realmente funciona. A verificação de fatos não depende da fluência de processamento humana porque o hook a automatiza.
Os três hooks juntos garantem os três comportamentos que Anthropic encontrou mais fortemente associados ao uso eficaz de IA: iteração, questionamento de raciocínio e identificação de contexto ausente. Cada hook é determinístico. Cada um dispara em cada interação. Nenhum depende do usuário lembrar de ativá-lo.
Anthropic mediu o que funciona. Os hooks tornam isso não opcional.
Fontes
-
Kyle Swanson, Daniel Bent, Zack Ludwig, Rick Dakan, and Joseph Feller, “Anthropic Education Report: The AI Fluency Index,” Anthropic Research, February 23, 2026, anthropic.com. 9.830 conversas anonimizadas no Claude.ai, 20-26 de janeiro de 2026. Conversas iterativas: 2,67 comportamentos de fluência (vs 1,33 não iterativas). 5,6x mais probabilidade de questionar raciocínio. Paradoxo do artefato: -5,2pp identificação de contexto ausente, -3,7pp verificação de fatos. ↩↩↩↩↩↩
-
Rick Dakan and Joseph Feller, “The AI Fluency Framework,” developed in collaboration with Anthropic, supported by Ireland’s Higher Education Authority, 2025, aifluencyframework.org. 24 comportamentos em 4 dimensões: Delegação, Descrição, Discernimento, Diligência. Definição: “A capacidade de trabalhar de forma eficaz, eficiente, ética e segura dentro de modalidades emergentes de interação Humano-IA.” ↩↩
-
Adam L. Alter and Daniel M. Oppenheimer, “Uniting the Tribes of Fluency to Form a Metacognitive Nation,” Personality and Social Psychology Review, 13(3), 219-235, 2009, doi.org. A fluência de processamento faz com que estímulos sejam julgados como mais verdadeiros, confiáveis e dignos de confiança, independentemente da precisão real. ↩
-
Daniel M. Oppenheimer, “The Secret Life of Fluency,” Trends in Cognitive Sciences, 12(6), 237-241, 2008, sciencedirect.com. A heurística de fluência opera automaticamente: a facilidade de processamento serve como indicador de qualidade sem consciência. ↩
-
Daniel Kahneman, Thinking, Fast and Slow (New York: Farrar, Straus and Giroux, 2011). O Sistema 1 (automático) associa facilidade cognitiva à verdade. O Sistema 2 (deliberado) requer esforço. WYSIATI: conclusões tiradas da informação disponível sem considerar o que está faltando. Citação: “É um erro as pessoas terem confiança em um julgamento porque ele contou uma boa história quando, na verdade, a confiança deveria ser baseada na qualidade e quantidade de evidências.” ↩↩
-
Peter West et al., “The Generative AI Paradox: What It Can Create, It May Not Understand,” ICLR 2024, arxiv.org; Peter West et al., “The Generative AI Paradox on Evaluation: What It Can Solve, It May Not Evaluate,” arXiv:2402.06204, 2024, arxiv.org. Capacidades generativas excedem capacidades de avaliação. Modelos produzem saída de nível especialista que não conseguem auto-avaliar de forma confiável. ↩
-
Jeff Gothelf, “Confusing Artifact Quality with Certainty,” 2024, jeffgothelf.com. “Parte dos ganhos de produtividade vem da aparência de qualidade na saída produzida por IA. Parece bom, parece polido, parece pronto.” ↩
-
William Harding and Matthew Kloster, “Coding on Copilot: 2023 Data Suggests Downward Pressure on Code Quality,” GitClear, January 2024, gitclear.com. 153 milhões de linhas alteradas. Refatoração caiu de 25% para menos de 10%. Duplicação de código subiu de 8,3% para 12,3%. ↩
-
Miao Xiong, Zhiyuan Hu, Xinyang Lu, et al., “Can LLMs Express Their Uncertainty? An Empirical Evaluation of Confidence Elicitation in LLMs,” ICLR 2024, arxiv.org. LLMs expressam confiança na faixa de 80-100% independentemente da precisão. AUROC de previsão de falha do GPT-4: 62,7%. ↩
-
Saurav Kadavath, Tom Conerly, Amanda Askell, et al., “Language Models (Mostly) Know What They Know,” Anthropic, arXiv:2207.05221, July 2022, arxiv.org. Bem calibrados em tarefas familiares, pontos cegos sistemáticos em tarefas novas. ↩
-
CodeRabbit, “State of AI vs. Human Code Generation Report,” December 17, 2025, coderabbit.ai. 470 PRs analisados. Código gerado por IA: 1,7x mais problemas, 1,75x mais erros lógicos. Saída polida mascara taxas de defeito mais altas. ↩
-
Laura Tacho, “AI-Assisted Engineering: Q4 Impact Report,” DX, November 4, 2025, getdx.com. 121.000+ desenvolvedores. Produtividade estabilizou em ~10% apesar de 91% de adoção. ↩
-
Análise do autor. Loop de qualidade descrito em “Jiro Quality Philosophy.” Sistema de hooks descrito em “Anatomy of a Claw.” Modos de falha descritos em “What Actually Breaks When You Run AI Agents Unsupervised.” Muro dos 10% explicado em “The 10% Wall.” ↩