Anthropic a mesuré ce qui fonctionne. Mes hooks l'imposent.

14 min de lecture

From the guide: Claude Code Comprehensive Guide

Anthropic a analysé 9 830 conversations sur Claude.ai au cours d’une seule semaine en janvier 2026.¹ L’analyse a utilisé CLIO, un outil préservant la vie privée qui classifie les schémas de conversation sans lire les messages individuels. Les chercheurs ont suivi 11 comportements observables tirés d’un cadre de maîtrise de l’IA à 24 comportements développé par les professeurs Rick Dakan et Joseph Feller.²

La conclusion principale : 85,7 % des conversations incluent de l’itération et du raffinement. Les conversations itératives présentent en moyenne 2,67 comportements de maîtrise, soit environ le double des 1,33 dans les conversations non itératives. Les utilisateurs en conversations itératives sont 5,6 fois plus susceptibles de questionner le raisonnement du modèle et 4 fois plus susceptibles d’identifier le contexte manquant.¹

L’itération est la variable qui sépare l’utilisation efficace de l’IA de l’utilisation médiocre. Anthropic l’a mesuré. L’enquête de DX auprès de 135 000 développeurs a révélé que malgré un taux d’adoption de 91 %, l’IA faisait gagner aux développeurs environ quatre heures par semaine, un chiffre qui a plafonné au cours des trimestres récents malgré l’adoption croissante, suggérant que l’adoption sans infrastructure d’itération atteint un plafond.¹² La question est de savoir si l’itération se produit de manière consistante ou seulement quand les humains pensent à la déclencher.

En bref

L’AI Fluency Index d’Anthropic a révélé que le raffinement itératif double les marqueurs de maîtrise à travers 9 830 conversations. Le paradoxe de l’artefact explique pourquoi l’itération échoue par défaut : une production soignée inhibe l’évaluation (la vérification des faits chute de 3,7 pp, l’identification du contexte manquant de 5,2 pp, le questionnement du raisonnement de 3,1 pp). Le mécanisme est la fluence de traitement : le Système 1 signale le code propre comme correct avant que le Système 2 n’évalue s’il fonctionne réellement. Une boucle de qualité impose l’itération que la passe unique ignore : revue obligatoire, porte d’évidence, vérification d’intégration, et répétition jusqu’à ce que tous les critères citent des preuves. Les hooks imposent ce qu’Anthropic a mesuré.

Ce qu’Anthropic a mesuré

L’AI Fluency Index suit les comportements observables, pas les évaluations subjectives de qualité. Le cadre définit la maîtrise de l’IA comme « la capacité à travailler de manière efficace, efficiente, éthique et sûre dans les modalités émergentes d’interaction Humain-IA ».² Les 24 comportements couvrent quatre dimensions : Délégation, Description, Discernement et Diligence. Onze sont directement observables dans la conversation. Les treize restants se produisent en dehors de l’interface de chat (évaluer la production en production, partager les résultats avec des collègues, vérifier par rapport à des sources externes).

Les 11 comportements observables incluent l’itération et le raffinement, le questionnement du raisonnement, l’identification du contexte manquant, la clarification des objectifs, la spécification des formats, la fourniture d’exemples et la vérification des faits. Les chercheurs ont classifié chaque conversation selon cette taxonomie en utilisant Claude Sonnet comme modèle d’analyse.

Trois conclusions comptent pour l’infrastructure d’ingénierie.

Conclusion 1 : L’itération est le signal le plus fort. 85,7 % des conversations incluent au moins une forme d’itération. Les conversations avec itération présentent environ le double des comportements de maîtrise (2,67 contre 1,33). Les utilisateurs qui itèrent sont 5,6 fois plus susceptibles de questionner le raisonnement et 4 fois plus susceptibles d’identifier les lacunes.¹ L’itération n’est pas un luxe. C’est le comportement le plus fortement associé à une utilisation efficace de l’IA.

Conclusion 2 : Une production soignée inhibe l’évaluation. 12,3 % des conversations impliquaient la génération d’artefacts (code, documents, outils interactifs). Quand le modèle produit des artefacts, les utilisateurs deviennent plus directifs : la clarification des objectifs a augmenté de 14,7 points de pourcentage, la spécification du format de 14,5 points, la fourniture d’exemples de 13,4 points. Mais l’évaluation a chuté : l’identification du contexte manquant a baissé de 5,2 points, la vérification des faits de 3,7 points, le questionnement du raisonnement de 3,1 points.¹ Les utilisateurs dirigeaient mieux mais évaluaient moins.

Conclusion 3 : Peu d’utilisateurs configurent la collaboration. Seules 30 % des conversations incluaient des instructions de collaboration explicites comme « conteste mes hypothèses si elles sont fausses » ou « dis-moi ce qui me manque ».¹ Le mode par défaut est la délégation, pas le dialogue. La plupart des utilisateurs traitent le modèle comme un exécutant plutôt que comme un collaborateur.

Le paradoxe de l’artefact

Anthropic a nommé le schéma mais n’a pas nommé le mécanisme. La science cognitive a un terme précis pour cela : la fluence de traitement.

La fluence de traitement est l’expérience subjective de facilité ou de difficulté associée à une tâche mentale. Alter et Oppenheimer ont documenté que les stimuli qui sont amorcés sémantiquement, visuellement clairs ou faciles à traiter sont jugés comme plus vrais, plus fiables et plus dignes de confiance, indépendamment de leur exactitude réelle.³ Oppenheimer a montré que l’heuristique de fluence opère automatiquement : les gens utilisent la facilité de traitement comme indicateur de qualité sans en avoir conscience.⁴

Le cadre Système 1/Système 2 de Kahneman explique pourquoi. Le Système 1 traite l’information automatiquement, associant la facilité cognitive à la vérité. Le Système 2 engage une analyse délibérée mais nécessite effort et motivation. La production soignée de l’IA est forte en fluence de traitement. Le code compile. Le formatage est propre. L’explication est cohérente. Le Système 1 la signale comme « bonne » avant que le Système 2 n’ait la chance d’évaluer si elle est correcte.⁵

Kahneman a identifié le mode de défaillance spécifique : « C’est une erreur pour les gens d’avoir confiance dans un jugement parce qu’il constituait une bonne histoire alors qu’en fait la confiance devrait être basée sur la qualité et la quantité des preuves. »⁵ Remplacez « bonne histoire » par « code propre » et le paradoxe de l’artefact est le WYSIATI (What You See Is All There Is) appliqué à la production générée par l’IA.

West et al. ont formalisé la conclusion complémentaire du côté du modèle. Dans un article à ICLR 2024 et un preprint compagnon, ils ont démontré que les modèles génératifs acquièrent des capacités de production qui dépassent leurs capacités d’évaluation.⁶ Le modèle génère du code de niveau expert en quelques secondes tout en commettant des erreurs qu’aucun expert humain ne ferait. Le modèle ne peut pas évaluer de manière fiable sa propre production parce que génération et évaluation sont des capacités distinctes qui évoluent différemment.

Le paradoxe se compose : le modèle produit une sortie soignée qu’il ne peut pas correctement évaluer, et l’humain, face à cette finition, réduit sa propre évaluation. Aucune des deux parties ne vérifie. Les deux présument la justesse. L’analyse de CodeRabbit sur 470 pull requests a révélé que le code écrit par l’IA avait 1,7 fois plus de problèmes et 1,75 fois plus d’erreurs de logique, malgré une apparence soignée lors de la revue.¹¹ Jeff Gothelf a capturé la version organisationnelle : « Une partie des gains de productivité provient de l’apparence de qualité dans la production de l’IA. Ça a l’air bon, ça a l’air soigné, ça a l’air terminé. »⁷

Le paradoxe de l’artefact n’est pas un problème d’éducation des utilisateurs. L’éducation aide, mais les données d’Anthropic montrent que même les utilisateurs qui itèrent (85,7 % des conversations) évaluent moins quand des artefacts sont présents. La baisse de la vérification des faits et de l’identification du contexte manquant se produit à travers toute la population, pas seulement chez les utilisateurs novices. Le mécanisme est cognitif, pas informationnel. Connaître le biais ne l’élimine pas.

L’infrastructure l’élimine.

Correspondance entre conclusions et infrastructure

Chaque conclusion d’Anthropic correspond à un composant d’infrastructure spécifique. Le tableau ci-dessous montre la chaîne du comportement mesuré au mécanisme d’application.

Comportement de maîtrise	Conclusion d’Anthropic	Correctif d’infrastructure	Implémentation
Itération et raffinement	2x les marqueurs de maîtrise quand présent	Boucle de qualité obligatoire	Boucle en 7 étapes : implémenter, revoir, évaluer, raffiner, prendre du recul, répéter, rapporter. Un hook bloque la complétion si une étape est sautée.
Questionner le raisonnement	5,6x plus probable en conversations itératives	Porte d’évidence	6 critères exigeant des preuves spécifiques. « Je suis confiant » n’est pas une preuve. Les formules de couverture déclenchent un blocage.
Identifier le contexte manquant	4x plus probable ; -5,2 pp avec artefacts	Étape Prendre du recul	Recherche obligatoire des appelants, vérification des imports et test d’intégration avant complétion.
Vérification des faits	-3,7 pp avec artefacts	Exécuteur de tests indépendant	La suite de tests s’exécute après chaque modification de code. L’agent ne peut pas auto-rapporter les résultats des tests.
Instructions de collaboration	Seulement 30 % des conversations	Contexte injecté automatiquement	9 hooks se déclenchent à chaque prompt, injectant la date, la branche, les conventions et des instructions explicites pour contester les hypothèses.

Les hooks imposent ce qu’Anthropic a mesuré. Le modèle n’a pas besoin de se souvenir d’itérer car l’infrastructure l’exige. L’utilisateur n’a pas besoin de se souvenir d’inclure des instructions de collaboration car les hooks les injectent à chaque prompt. La vérification des faits ne dépend pas de la fluence de traitement de l’utilisateur car un exécuteur de tests indépendant rapporte les résultats indépendamment de l’apparence soignée du code.

Simulateur de boucle de qualité : Parcourez un scénario concret où un agent écrit un validateur d'e-mail. Sept phases montrent ce que chaque étape de la boucle de qualité détecte : production initiale (rien détecté, paradoxe de l'artefact actif), revue (bugs de regex, nommage peu clair), évaluation (0/6 critères d'évidence remplis, Vérification Fantôme détectée), raffinement (tous les problèmes corrigés, aucun TODO), prise de recul (2 fichiers appelants cassés par le changement de signature), répétition (les 6 critères citent maintenant des preuves), et rapport final (« Terminé » en passe unique vs rapport d'évidence complet).

Pourquoi la passe unique échoue

La boucle de qualité décrite dans Jiro Quality Philosophy exécute sept étapes : implémenter, revoir, évaluer, raffiner, prendre du recul, répéter, rapporter. Un agent en passe unique exécute l’étape 1 et l’étape 7, sautant cinq étapes entre les deux. Les données d’Anthropic quantifient le coût de chaque étape sautée.

Sauter la revue signifie que l’agent ne relit pas sa propre production. L’étape de revue détecte la catégorie d’erreurs que l’agent remarquerait s’il regardait à nouveau : coquilles, nommage peu clair, erreurs de décalage d’un. Sans revue, ces erreurs atteignent le rapport de complétion comme si elles n’existaient pas.

Sauter l’évaluation signifie que la Porte d’évidence ne s’exécute jamais. Les six critères (suit les patterns du codebase, solution la plus simple, cas limites gérés, tests passent, pas de régressions, résout le problème réel) ne reçoivent jamais de preuves. Le rapport de complétion contient des affirmations, pas des preuves. La conclusion d’Anthropic selon laquelle l’itération double les marqueurs de maîtrise s’applique directement ici : la Porte d’évidence force l’itération en bloquant les rapports qui manquent de preuves.

Sauter le raffinement signifie que les problèmes découverts sont reportés, pas corrigés. Un commentaire TODO remplace une solution. La dette différée s’accumule. GitClear a mesuré l’effet en aval : les changements associés au refactoring sont passés de 25 % à moins de 10 % de tous les changements dans les codebases assistés par l’IA, tandis que la duplication de code est passée de 8,3 % à 12,3 %.⁸

Sauter la prise de recul signifie que l’agent ne vérifie jamais l’intégration. La fonction marche. Les appelants cassent. La Vision Tunnel passe inaperçue. La baisse de 5,2 points de pourcentage d’Anthropic dans « l’identification du contexte manquant » quand des artefacts sont présents décrit la même défaillance du côté humain : une production soignée rend les lacunes de contexte invisibles.

Sauter la répétition signifie qu’une seule passe à travers la Porte d’évidence est considérée comme suffisante. La première passe détecte les problèmes. Corriger ces problèmes peut en introduire de nouveaux. Sans seconde passe, la qualité de la correction n’est pas vérifiée. La boucle de qualité itère jusqu’à ce que les six critères citent des preuves lors de la même passe. La passe unique n’atteint jamais ce standard.

D’après les données de la boucle de qualité sur plus de 500 sessions (chacune journalisée avec la télémétrie des hooks et des métadonnées structurées) :¹³ la boucle de qualité moyenne détecte 3,2 problèmes par changement non trivial. Parmi ceux-ci, 1,1 sont détectés pendant la revue (étape 2), 0,8 pendant l’évaluation (étape 3) et 1,3 pendant la prise de recul (étape 5). Un agent en passe unique expédierait les 3,2 problèmes. La séquence revue-évaluation-prise de recul les élimine avant le rapport de complétion.

Le problème du langage évasif

Anthropic a constaté que les utilisateurs itératifs sont 5,6 fois plus susceptibles de questionner le raisonnement du modèle.¹ Le langage évasif est le signal inverse : le modèle exprimant de la certitude sans être questionné.

Les formules évasives incluent « devrait fonctionner », « je suis confiant », « semble correct », « probablement bon » et « je crois ». Chaque formule substitue une prédiction à une observation. « Les tests devraient passer » signifie que l’agent prédit le résultat. « 14 tests passés, 0 échoué » signifie que l’agent a observé le résultat. La distinction est la différence entre la Vérification Fantôme et la vérification réelle.

Xiong et al. ont constaté que les LLMs expriment leur confiance dans la plage de 80-100 % indépendamment de l’exactitude réelle, avec une AUROC de prédiction d’échec à travers les modèles dans la plage 0,5-0,6, à peine au-dessus du hasard.⁹ Kadavath et al. chez Anthropic ont constaté que les modèles sont bien calibrés sur les tâches familières mais peinent sur les tâches nouvelles, le qualificatif « la plupart du temps » dissimulant des angles morts systématiques.¹⁰ La confiance verbalisée n’est pas corrélée avec l’exactitude. Un modèle disant « je suis confiant » ne fournit aucune information sur le fonctionnement réel du code.

Le détecteur de formules évasives intercepte ce schéma. Un hook grep se déclenche à chaque rapport de complétion et recherche des patterns de couverture configurables. La présence de langage évasif sans résultat de test ou citation de chemin de fichier adjacent déclenche un blocage. Le modèle doit remplacer la formule évasive par une preuve. Le hook impose le comportement de questionnement qu’Anthropic a trouvé dans les conversations itératives, sauf qu’il opère de manière déterministe sur chaque conversation, pas de manière probabiliste sur 85,7 %.

#!/bin/bash
# hedge-detector.sh — block hedging without evidence
INPUT=$(cat)
HEDGES=$(echo "$INPUT" | grep -ciE '\bshould (work|pass|be fine)\b|\bprobably\b|\blooks correct\b|\bI.m confident\b')
if [ "$HEDGES" -gt 0 ]; then
  echo '{"decision":"block","reason":"Hedging language detected. Replace with test output or file paths."}'
else
  echo '{"decision":"allow"}'
fi

Ce que vous pouvez implémenter dès aujourd’hui

Les données d’Anthropic pointent vers trois interventions minimales qui captent les comportements de maîtrise à plus forte valeur.

Un hook de collaboration. Injectez des instructions à chaque prompt qui indiquent au modèle de contester les hypothèses, d’identifier le contexte manquant et de questionner son propre raisonnement. Anthropic a constaté que seuls 30 % des utilisateurs le font manuellement. Un hook le fait sur 100 % des prompts. Cinq lignes de bash.

#!/bin/bash
# inject-collaboration.sh — force evaluative behavior
echo "INSTRUCTIONS: Push back if assumptions are wrong."
echo "Identify missing context before proceeding."
echo "Question your own reasoning at each step."

Une porte d’évidence. Bloquez les rapports de complétion qui utilisent un langage évasif au lieu de citer des preuves. La porte opérationnalise la conclusion d’Anthropic selon laquelle l’itération double les marqueurs de maîtrise en rendant l’itération obligatoire. Le modèle ne peut pas rapporter « terminé » sans preuve pour chaque critère de qualité.

Un vérificateur indépendant. Exécutez la suite de tests après chaque modification de code et injectez les résultats dans la conversation. Le vérificateur adresse directement le paradoxe de l’artefact : indépendamment de l’apparence soignée de la production, les résultats des tests rapportent ce qui fonctionne réellement. La vérification des faits ne dépend pas de la fluence de traitement humaine car le hook l’automatise.

Les trois hooks ensemble imposent les trois comportements qu’Anthropic a trouvés les plus fortement associés à une utilisation efficace de l’IA : l’itération, le questionnement du raisonnement et l’identification du contexte manquant. Chaque hook est déterministe. Chacun se déclenche à chaque interaction. Aucun ne dépend du souvenir de l’utilisateur de l’activer.

Anthropic a mesuré ce qui fonctionne. Les hooks le rendent non optionnel.

Points clés

Pour les développeurs individuels. Ajoutez un hook de collaboration qui injecte « conteste les hypothèses si elles sont fausses » et « identifie le contexte manquant » à chaque prompt. Anthropic a constaté que seuls 30 % des utilisateurs configurent des instructions de collaboration manuellement.¹ Le hook rend le comportement évaluatif automatique sur 100 % des interactions.

Pour les responsables d’équipe. L’itération est le signal, pas l’adoption. Anthropic a mesuré 2 fois plus de marqueurs de maîtrise dans les conversations itératives par rapport aux non itératives.¹ Construisez une infrastructure qui force l’itération (portes d’évidence, étapes de revue obligatoires) plutôt que de récompenser la production en première passe. Les données de DX confirment : malgré un taux d’adoption de 91 %, les gains de productivité ont plafonné au cours des trimestres récents.¹²

Pour les ingénieurs plateforme. Adressez le paradoxe de l’artefact avec un exécuteur de tests indépendant. La production soignée de l’IA déclenche une confiance automatique via la fluence de traitement, réduisant la vérification des faits de 3,7 points de pourcentage quand des artefacts sont présents.¹ Un vérificateur indépendant qui exécute la suite de tests après chaque modification de code contourne entièrement la fluence de traitement en rapportant ce qui fonctionne réellement indépendamment de l’apparence du code.

Sources

Kyle Swanson, Daniel Bent, Zack Ludwig, Rick Dakan, and Joseph Feller, “Anthropic Education Report: The AI Fluency Index,” Anthropic Research, February 23, 2026, anthropic.com. 9,830 anonymized conversations on Claude.ai, January 20-26, 2026. Iterative conversations: 2.67 fluency behaviors (vs 1.33 non-iterative). 5.6x more likely to question reasoning. Artifact paradox: -5.2pp missing context identification, -3.7pp fact-checking. ↩↩↩↩↩↩↩↩↩
Rick Dakan and Joseph Feller, “The AI Fluency Framework,” developed in collaboration with Anthropic, supported by Ireland’s Higher Education Authority, 2025, aifluencyframework.org. 24 behaviors across 4 dimensions: Delegation, Description, Discernment, Diligence. Definition: “The ability to work effectively, efficiently, ethically, and safely within emerging modalities of Human-AI interaction.” ↩↩
Adam L. Alter and Daniel M. Oppenheimer, “Uniting the Tribes of Fluency to Form a Metacognitive Nation,” Personality and Social Psychology Review, 13(3), 219-235, 2009, doi.org. Processing fluency causes stimuli to be judged as more true, reliable, and trustworthy regardless of actual accuracy. ↩
Daniel M. Oppenheimer, “The Secret Life of Fluency,” Trends in Cognitive Sciences, 12(6), 237-241, 2008, sciencedirect.com. The fluency heuristic operates automatically: processing ease serves as a proxy for quality without conscious awareness. ↩
Daniel Kahneman, Thinking, Fast and Slow (New York: Farrar, Straus and Giroux, 2011). System 1 (automatic) associates cognitive ease with truth. System 2 (deliberate) requires effort. WYSIATI: conclusions drawn from available information without accounting for what is missing. Quote: “It’s a mistake for people to have confidence in a judgment because it made for a good story when in fact confidence should be based on the quality and quantity of evidence.” ↩↩
Peter West et al., “The Generative AI Paradox: What It Can Create, It May Not Understand,” ICLR 2024, arxiv.org; Peter West et al., “The Generative AI Paradox on Evaluation: What It Can Solve, It May Not Evaluate,” arXiv:2402.06204, 2024, arxiv.org. Generative capabilities exceed evaluation capabilities. Models produce expert-level output they cannot reliably self-evaluate. ↩
Jeff Gothelf, “Confusing Artifact Quality with Certainty,” 2026, jeffgothelf.com. “Part of productivity gains comes from the appearance of quality in AI-produced output. It looks good, it looks polished, it looks done.” ↩
William Harding and Matthew Kloster, “Coding on Copilot: 2023 Data Suggests Downward Pressure on Code Quality,” GitClear, January 2024, gitclear.com. 153 million changed lines. Refactoring fell from 25% to under 10%. Code duplication rose from 8.3% to 12.3%. ↩
Miao Xiong, Zhiyuan Hu, Xinyang Lu, et al., “Can LLMs Express Their Uncertainty? An Empirical Evaluation of Confidence Elicitation in LLMs,” ICLR 2024, arxiv.org. LLMs express confidence in 80-100% range regardless of accuracy. Failure prediction AUROC across models ranges 0.5-0.6, barely above random. ↩
Saurav Kadavath, Tom Conerly, Amanda Askell, et al., “Language Models (Mostly) Know What They Know,” Anthropic, arXiv:2207.05221, July 2022, arxiv.org. Well-calibrated on familiar tasks, systematic blind spots on novel tasks. ↩
CodeRabbit, “State of AI vs. Human Code Generation Report,” December 17, 2025, coderabbit.ai. 470 PRs analyzed. AI-authored: 1.7x more issues, 1.75x more logic errors. Polished output masks higher defect rates. ↩
Laura Tacho, “AI-Assisted Engineering: Q4 Impact Report,” DX, November 4, 2025, getdx.com. 135,000+ developers across 435 companies. Average savings of about four hours per week despite 91% adoption. ↩↩
Analyse de l’auteur. Boucle de qualité décrite dans « Jiro Quality Philosophy ». Système de hooks décrit dans « Anatomy of a Claw ». Modes de défaillance décrits dans « What Actually Breaks When You Run AI Agents Unsupervised ». Le mur des 10 % expliqué dans « The 10% Wall ». ↩