A Anthropic mediu o que funciona. Meus hooks garantem o cumprimento.

13 min read

From the guide: Claude Code Comprehensive Guide

A Anthropic analisou 9.830 conversas no Claude.ai durante uma única semana em janeiro de 2026.¹ A análise utilizou o CLIO, uma ferramenta que preserva a privacidade e classifica padrões de conversa sem ler mensagens individuais. Os pesquisadores rastrearam 11 comportamentos observáveis de um Framework de Fluência em IA com 24 comportamentos, desenvolvido pelos professores Rick Dakan e Joseph Feller.²

A descoberta central: 85,7% das conversas incluem iteração e refinamento. Conversas iterativas apresentam 2,67 comportamentos de fluência em média, aproximadamente o dobro dos 1,33 em conversas não iterativas. Usuários em conversas iterativas têm 5,6x mais probabilidade de questionar o raciocínio do modelo e 4x mais probabilidade de identificar contexto ausente.¹

Iteração é a variável que separa o uso eficaz de IA do uso medíocre. A Anthropic mediu isso. A pesquisa da DX com 135.000 desenvolvedores revelou que, apesar de 91% de adoção, a IA economizou para os desenvolvedores aproximadamente quatro horas por semana, um número que estagnou nos trimestres recentes apesar do aumento na adoção, sugerindo que adoção sem infraestrutura de iteração atinge um teto.¹² A questão é se a iteração acontece de forma consistente ou apenas quando os humanos se lembram de fazê-la.

Resumo

O AI Fluency Index da Anthropic descobriu que o refinamento iterativo dobra os marcadores de fluência em 9.830 conversas. O paradoxo do artefato explica por que a iteração falha por padrão: saídas polidas suprimem a avaliação (verificação de fatos cai 3,7pp, identificação de contexto ausente cai 5,2pp, questionamento do raciocínio cai 3,1pp). O mecanismo é a fluência de processamento: o Sistema 1 marca código limpo como correto antes que o Sistema 2 avalie se ele realmente funciona. Um loop de qualidade força a iteração que a passagem única ignora: revisão obrigatória, portão de evidências, verificação de integração e repetição até que todos os critérios citem evidências. Os hooks garantem o que a Anthropic mediu.

O que a Anthropic mediu

O AI Fluency Index rastreia comportamentos observáveis, não avaliações subjetivas de qualidade. O framework define fluência em IA como “a capacidade de trabalhar de forma eficaz, eficiente, ética e segura dentro das modalidades emergentes de interação Humano-IA.”² Os 24 comportamentos abrangem quatro dimensões: Delegação, Descrição, Discernimento e Diligência. Onze são diretamente observáveis na conversa. Os treze restantes ocorrem fora da interface de chat (avaliar a saída em produção, compartilhar resultados com colegas, verificar contra fontes externas).

Os 11 comportamentos observáveis incluem iteração e refinamento, questionamento do raciocínio, identificação de contexto ausente, esclarecimento de objetivos, especificação de formatos, fornecimento de exemplos e verificação de fatos. Os pesquisadores classificaram cada conversa contra essa taxonomia usando Claude Sonnet como modelo de análise.

Três descobertas importam para infraestrutura de engenharia.

Descoberta 1: Iteração é o sinal mais forte. 85,7% das conversas incluem pelo menos alguma iteração. Conversas com iteração mostram aproximadamente o dobro dos comportamentos de fluência (2,67 vs 1,33). Usuários que iteram têm 5,6x mais probabilidade de questionar o raciocínio e 4x mais probabilidade de identificar lacunas.¹ Iteração não é algo opcional. É o comportamento mais fortemente associado ao uso eficaz de IA.

Descoberta 2: Saída polida suprime a avaliação. 12,3% das conversas envolveram geração de artefatos (código, documentos, ferramentas interativas). Quando o modelo produz artefatos, os usuários se tornam mais diretivos: esclarecimento de objetivos aumentou 14,7 pontos percentuais, especificação de formato aumentou 14,5 pontos, fornecimento de exemplos aumentou 13,4 pontos. Mas a avaliação caiu: identificação de contexto ausente caiu 5,2 pontos, verificação de fatos caiu 3,7 pontos, questionamento do raciocínio caiu 3,1 pontos.¹ Usuários direcionaram melhor, mas avaliaram menos.

Descoberta 3: Poucos usuários configuram colaboração. Apenas 30% das conversas incluíram instruções explícitas de colaboração como “questione se minhas premissas estiverem erradas” ou “me diga o que está faltando.”¹ O modo padrão é delegação, não diálogo. A maioria dos usuários trata o modelo como um executor, e não como um colaborador.

O paradoxo do artefato

A Anthropic nomeou o padrão, mas não nomeou o mecanismo. A ciência cognitiva tem um termo preciso para isso: fluência de processamento.

Fluência de processamento é a experiência subjetiva de facilidade ou dificuldade associada a uma tarefa mental. Alter e Oppenheimer documentaram que estímulos semanticamente preparados, visualmente claros ou fáceis de processar são julgados como mais verdadeiros, mais confiáveis e mais dignos de confiança, independentemente da precisão real.³ Oppenheimer demonstrou que a heurística de fluência opera automaticamente: as pessoas usam a facilidade de processamento como um substituto para qualidade sem consciência disso.⁴

O framework Sistema 1/Sistema 2 de Kahneman explica por quê. O Sistema 1 processa informações automaticamente, associando facilidade cognitiva com verdade. O Sistema 2 realiza análise deliberada, mas requer esforço e motivação. Saída polida de IA tem alta fluência de processamento. O código compila. A formatação é limpa. A explicação é coerente. O Sistema 1 marca como “bom” antes que o Sistema 2 tenha chance de avaliar se está correto.⁵

Kahneman identificou o modo de falha específico: “É um erro as pessoas terem confiança em um julgamento porque fez uma boa história quando, na verdade, a confiança deveria se basear na qualidade e quantidade de evidências.”⁵ Substitua “boa história” por “código limpo” e o paradoxo do artefato é o WYSIATI (What You See Is All There Is — O que você vê é tudo que existe) aplicado à saída gerada por IA.

West et al. formalizaram a descoberta complementar do lado do modelo. Em um artigo no ICLR 2024 e em um preprint complementar, demonstraram que modelos generativos adquirem capacidades de produção que excedem suas capacidades de avaliação.⁶ O modelo gera código de nível especialista em segundos enquanto comete erros que nenhum especialista humano cometeria. O modelo não consegue avaliar de forma confiável sua própria saída porque geração e avaliação são capacidades separadas que escalam de forma diferente.

O paradoxo se compõe: o modelo produz saída polida que não consegue avaliar adequadamente, e o humano, ao encontrar esse polimento, reduz sua própria avaliação. Nenhuma das partes verifica. Ambas assumem correção. A análise da CodeRabbit de 470 pull requests revelou que código de autoria de IA tinha 1,7x mais problemas e 1,75x mais erros de lógica, apesar de parecer polido na revisão.¹¹ Jeff Gothelf capturou a versão organizacional: “Parte dos ganhos de produtividade vem da aparência de qualidade na saída produzida por IA. Parece bom, parece polido, parece pronto.”⁷

O paradoxo do artefato não é um problema de educação do usuário. Educação ajuda, mas os dados da Anthropic mostram que até usuários que iteram (85,7% das conversas) avaliam menos quando artefatos estão presentes. A queda na verificação de fatos e na identificação de contexto ausente ocorre em toda a população, não apenas entre usuários novatos. O mecanismo é cognitivo, não informacional. Saber sobre o viés não o elimina.

Infraestrutura o elimina.

Mapeando descobertas para infraestrutura

Cada descoberta da Anthropic mapeia para um componente específico de infraestrutura. A tabela abaixo mostra a cadeia do comportamento medido ao mecanismo de aplicação.

Comportamento de fluência	Descoberta da Anthropic	Correção de infraestrutura	Implementação
Iteração e refinamento	2x marcadores de fluência quando presente	Loop de qualidade obrigatório	Loop de 7 etapas: implementar, revisar, avaliar, refinar, ampliar visão, repetir, relatar. Um hook bloqueia a conclusão se qualquer etapa for pulada.
Questionamento do raciocínio	5,6x mais provável em conversas iterativas	Portão de evidências	6 critérios exigindo prova específica. “Tenho confiança” não é evidência. Frases evasivas acionam um bloqueio.
Identificação de contexto ausente	4x mais provável; -5,2pp com artefatos	Etapa de ampliar visão	Busca obrigatória de chamadores, verificação de imports e teste de integração antes da conclusão.
Verificação de fatos	-3,7pp com artefatos	Executor de testes independente	Suite de testes executa após cada alteração de código. O agente não pode auto-relatar resultados de testes.
Instruções de colaboração	Apenas 30% das conversas	Contexto injetado automaticamente	9 hooks disparam a cada prompt, injetando data, branch, convenções e instruções explícitas para questionar premissas.

Os hooks garantem o que a Anthropic mediu. O modelo não precisa se lembrar de iterar porque a infraestrutura exige. O usuário não precisa se lembrar de incluir instruções de colaboração porque hooks as injetam a cada prompt. A verificação de fatos não depende da fluência de processamento do usuário porque um executor de testes independente relata resultados independentemente de quão polido o código parece.

Simulador do Loop de Qualidade: Percorra um cenário concreto onde um agente escreve um validador de e-mail. Sete fases mostram o que cada etapa do loop de qualidade detecta: saída inicial (nada detectado, paradoxo do artefato ativo), revisão (bugs de regex, nomenclatura confusa), avaliação (0/6 critérios de evidência atendidos, Verificação Fantasma detectada), refinamento (todos os problemas corrigidos, sem TODOs), ampliar visão (2 arquivos chamadores quebrados por mudança de assinatura), repetição (todos os 6 critérios agora citam evidências) e relatório final (passagem única "Pronto" vs relatório completo com evidências).

Por que a passagem única falha

O loop de qualidade descrito em Filosofia de Qualidade Jiro executa sete etapas: implementar, revisar, avaliar, refinar, ampliar visão, repetir, relatar. Um agente de passagem única executa a etapa 1 e a etapa 7, pulando cinco etapas intermediárias. Os dados da Anthropic quantificam o custo de cada etapa pulada.

Pular a revisão significa que o agente não relê sua própria saída. A etapa de revisão detecta a classe de erros que o agente notaria se olhasse novamente: erros de digitação, nomenclatura confusa, erros de off-by-one. Sem revisão, esses erros chegam ao relatório de conclusão como se não existissem.

Pular a avaliação significa que o Portão de Evidências nunca é executado. Os seis critérios (segue padrões do codebase, solução mais simples, casos extremos tratados, testes passam, sem regressões, resolve o problema real) nunca recebem evidências. O relatório de conclusão contém afirmações, não provas. A descoberta da Anthropic de que iteração dobra os marcadores de fluência se mapeia diretamente aqui: o Portão de Evidências força a iteração ao bloquear relatórios que carecem de evidências.

Pular o refinamento significa que problemas descobertos são adiados, não corrigidos. Um comentário TODO substitui uma solução. Dívida adiada se acumula. A GitClear mediu o efeito downstream: mudanças associadas a refatoração caíram de 25% para menos de 10% de todas as mudanças em codebases assistidos por IA, enquanto duplicação de código subiu de 8,3% para 12,3%.⁸

Pular ampliar visão significa que o agente nunca verifica a integração. A função funciona. Os chamadores quebram. A Visão de Túnel passa despercebida. A queda de -5,2 pontos percentuais da Anthropic em “identificação de contexto ausente” quando artefatos estão presentes descreve a mesma falha do lado humano: saída polida torna lacunas de contexto invisíveis.

Pular a repetição significa que uma passagem pelo Portão de Evidências é tratada como suficiente. A primeira passagem detecta problemas. Corrigir esses problemas pode introduzir novos. Sem uma segunda passagem, a qualidade da correção não é verificada. O loop de qualidade itera até que todos os seis critérios citem evidências na mesma passagem. A passagem única nunca atinge esse padrão.

A partir dos dados do loop de qualidade em mais de 500 sessões (cada uma registrada com telemetria de hooks e metadados estruturados):¹³ o loop de qualidade médio detecta 3,2 problemas por mudança não trivial. Desses, 1,1 são detectados durante a revisão (etapa 2), 0,8 durante a avaliação (etapa 3) e 1,3 durante ampliar visão (etapa 5). Um agente de passagem única entregaria todos os 3,2 problemas. A sequência revisão-avaliação-ampliar visão os elimina antes do relatório de conclusão.

O problema da linguagem evasiva

A Anthropic descobriu que usuários iterativos têm 5,6x mais probabilidade de questionar o raciocínio do modelo.¹ A linguagem evasiva é o sinal inverso: o modelo expressando certeza sem ser questionado.

Frases evasivas incluem “deveria funcionar”, “tenho confiança”, “parece correto”, “provavelmente está bem” e “acredito que”. Cada frase substitui uma previsão por uma observação. “Os testes devem passar” significa que o agente prevê o resultado. “14 testes passaram, 0 falharam” significa que o agente observou o resultado. A distinção é a diferença entre Verificação Fantasma e verificação real.

Xiong et al. descobriram que LLMs expressam confiança na faixa de 80-100% independentemente da precisão real, com AUROC de previsão de falha entre modelos na faixa de 0,5-0,6, mal acima de adivinhação aleatória.⁹ Kadavath et al. na Anthropic descobriram que modelos são bem calibrados em tarefas familiares, mas têm dificuldade em tarefas novas, com o qualificador “na maioria” ocultando pontos cegos sistemáticos.¹⁰ Confiança verbalizada não está correlacionada com correção. Um modelo dizendo “tenho confiança” fornece zero informação sobre se o código funciona.

O detector de evasivas detecta esse padrão. Um hook grep dispara em cada relatório de conclusão e busca padrões configuráveis de linguagem evasiva. A presença de linguagem evasiva sem saída de teste adjacente ou citações de caminhos de arquivo aciona um bloqueio. O modelo deve substituir a evasiva por evidência. O hook garante o comportamento de questionamento que a Anthropic encontrou em conversas iterativas, exceto que opera de forma determinística em cada conversa, não probabilisticamente em 85,7%.

#!/bin/bash
# hedge-detector.sh — block hedging without evidence
INPUT=$(cat)
HEDGES=$(echo "$INPUT" | grep -ciE '\bshould (work|pass|be fine)\b|\bprobably\b|\blooks correct\b|\bI.m confident\b')
if [ "$HEDGES" -gt 0 ]; then
  echo '{"decision":"block","reason":"Hedging language detected. Replace with test output or file paths."}'
else
  echo '{"decision":"allow"}'
fi

O que você pode implementar hoje

Os dados da Anthropic apontam para três intervenções mínimas que capturam os comportamentos de fluência de maior valor.

Um hook de colaboração. Injete instruções em cada prompt que dizem ao modelo para questionar premissas, identificar contexto ausente e questionar seu próprio raciocínio. A Anthropic descobriu que apenas 30% dos usuários fazem isso manualmente. Um hook faz isso em 100% dos prompts. Cinco linhas de bash.

#!/bin/bash
# inject-collaboration.sh — force evaluative behavior
echo "INSTRUCTIONS: Push back if assumptions are wrong."
echo "Identify missing context before proceeding."
echo "Question your own reasoning at each step."

Um portão de evidências. Bloqueie relatórios de conclusão que usam linguagem evasiva em vez de citar evidências. O portão operacionaliza a descoberta da Anthropic de que iteração dobra marcadores de fluência ao tornar a iteração obrigatória. O modelo não pode relatar “pronto” sem evidências para cada critério de qualidade.

Um verificador independente. Execute a suite de testes após cada alteração de código e injete os resultados na conversa. O verificador aborda o paradoxo do artefato diretamente: independentemente de quão polida a saída pareça, os resultados dos testes relatam o que realmente funciona. A verificação de fatos não depende da fluência de processamento humano porque o hook a automatiza.

Os três hooks juntos garantem os três comportamentos que a Anthropic encontrou mais fortemente associados ao uso eficaz de IA: iteração, questionamento do raciocínio e identificação de contexto ausente. Cada hook é determinístico. Cada um dispara em cada interação. Nenhum depende de o usuário se lembrar de ativá-lo.

A Anthropic mediu o que funciona. Os hooks tornam isso não opcional.

Pontos-chave

Para desenvolvedores individuais. Adicione um hook de colaboração que injete “questione se premissas estiverem erradas” e “identifique contexto ausente” em cada prompt. A Anthropic descobriu que apenas 30% dos usuários configuram instruções de colaboração manualmente.¹ O hook torna o comportamento avaliativo automático em 100% das interações.

Para líderes de equipe. Iteração é o sinal, não adoção. A Anthropic mediu 2x marcadores de fluência em conversas iterativas versus não iterativas.¹ Construa infraestrutura que force iteração (portões de evidências, etapas de revisão obrigatórias) em vez de recompensar saída de primeira passagem. Os dados da DX confirmam: apesar de 91% de adoção, ganhos de produtividade estagnaram nos trimestres recentes.¹²

Para engenheiros de plataforma. Aborde o paradoxo do artefato com um executor de testes independente. Saída polida de IA aciona confiança automática por meio da fluência de processamento, reduzindo a verificação de fatos em 3,7 pontos percentuais quando artefatos estão presentes.¹ Um verificador independente que executa a suite de testes após cada alteração de código contorna a fluência de processamento inteiramente, relatando o que realmente funciona independentemente da aparência do código.

Fontes

Kyle Swanson, Daniel Bent, Zack Ludwig, Rick Dakan, and Joseph Feller, “Anthropic Education Report: The AI Fluency Index,” Anthropic Research, February 23, 2026, anthropic.com. 9,830 anonymized conversations on Claude.ai, January 20-26, 2026. Iterative conversations: 2.67 fluency behaviors (vs 1.33 non-iterative). 5.6x more likely to question reasoning. Artifact paradox: -5.2pp missing context identification, -3.7pp fact-checking. ↩↩↩↩↩↩↩↩↩
Rick Dakan and Joseph Feller, “The AI Fluency Framework,” developed in collaboration with Anthropic, supported by Ireland’s Higher Education Authority, 2025, aifluencyframework.org. 24 behaviors across 4 dimensions: Delegation, Description, Discernment, Diligence. Definition: “The ability to work effectively, efficiently, ethically, and safely within emerging modalities of Human-AI interaction.” ↩↩
Adam L. Alter and Daniel M. Oppenheimer, “Uniting the Tribes of Fluency to Form a Metacognitive Nation,” Personality and Social Psychology Review, 13(3), 219-235, 2009, doi.org. Processing fluency causes stimuli to be judged as more true, reliable, and trustworthy regardless of actual accuracy. ↩
Daniel M. Oppenheimer, “The Secret Life of Fluency,” Trends in Cognitive Sciences, 12(6), 237-241, 2008, sciencedirect.com. The fluency heuristic operates automatically: processing ease serves as a proxy for quality without conscious awareness. ↩
Daniel Kahneman, Thinking, Fast and Slow (New York: Farrar, Straus and Giroux, 2011). System 1 (automatic) associates cognitive ease with truth. System 2 (deliberate) requires effort. WYSIATI: conclusions drawn from available information without accounting for what is missing. Quote: “It’s a mistake for people to have confidence in a judgment because it made for a good story when in fact confidence should be based on the quality and quantity of evidence.” ↩↩
Peter West et al., “The Generative AI Paradox: What It Can Create, It May Not Understand,” ICLR 2024, arxiv.org; Peter West et al., “The Generative AI Paradox on Evaluation: What It Can Solve, It May Not Evaluate,” arXiv:2402.06204, 2024, arxiv.org. Generative capabilities exceed evaluation capabilities. Models produce expert-level output they cannot reliably self-evaluate. ↩
Jeff Gothelf, “Confusing Artifact Quality with Certainty,” 2026, jeffgothelf.com. “Part of productivity gains comes from the appearance of quality in AI-produced output. It looks good, it looks polished, it looks done.” ↩
William Harding and Matthew Kloster, “Coding on Copilot: 2023 Data Suggests Downward Pressure on Code Quality,” GitClear, January 2024, gitclear.com. 153 million changed lines. Refactoring fell from 25% to under 10%. Code duplication rose from 8.3% to 12.3%. ↩
Miao Xiong, Zhiyuan Hu, Xinyang Lu, et al., “Can LLMs Express Their Uncertainty? An Empirical Evaluation of Confidence Elicitation in LLMs,” ICLR 2024, arxiv.org. LLMs express confidence in 80-100% range regardless of accuracy. Failure prediction AUROC across models ranges 0.5-0.6, barely above random. ↩
Saurav Kadavath, Tom Conerly, Amanda Askell, et al., “Language Models (Mostly) Know What They Know,” Anthropic, arXiv:2207.05221, July 2022, arxiv.org. Well-calibrated on familiar tasks, systematic blind spots on novel tasks. ↩
CodeRabbit, “State of AI vs. Human Code Generation Report,” December 17, 2025, coderabbit.ai. 470 PRs analyzed. AI-authored: 1.7x more issues, 1.75x more logic errors. Polished output masks higher defect rates. ↩
Laura Tacho, “AI-Assisted Engineering: Q4 Impact Report,” DX, November 4, 2025, getdx.com. 135,000+ developers across 435 companies. Average savings of about four hours per week despite 91% adoption. ↩↩
Author’s analysis. Quality loop described in “Jiro Quality Philosophy.” Hook system described in “Anatomy of a Claw.” Failure modes described in “What Actually Breaks When You Run AI Agents Unsupervised.” 10% wall explained in “The 10% Wall.” ↩