← Tous les articles

Anthropic a mesuré ce qui fonctionne. Mes hooks l'imposent.

From the guide: Claude Code Comprehensive Guide

Anthropic a analysé 9 830 conversations sur Claude.ai au cours d’une seule semaine en janvier 2026.1 L’analyse a utilisé CLIO, un outil préservant la confidentialité qui classifie les schémas conversationnels sans lire les messages individuels. Les chercheurs ont suivi 11 comportements observables tirés d’un cadre de maîtrise de l’IA à 24 comportements développé par les professeurs Rick Dakan et Joseph Feller.2

La conclusion principale : 85,7 % des conversations incluent de l’itération et du raffinement. Les conversations itératives présentent en moyenne 2,67 comportements de maîtrise, soit environ le double des 1,33 des conversations non itératives. Les utilisateurs en conversation itérative sont 5,6 fois plus susceptibles de remettre en question le raisonnement du modèle et 4 fois plus susceptibles d’identifier le contexte manquant.1

L’itération est la variable qui sépare l’utilisation efficace de l’IA de l’utilisation médiocre. Anthropic l’a mesuré. La question est de savoir si l’itération se produit de manière systématique ou seulement quand les humains pensent à la faire.

En bref

L’AI Fluency Index de Anthropic a révélé que le raffinement itératif double les marqueurs de maîtrise sur 9 830 conversations. Le « paradoxe de l’artefact » explique pourquoi l’itération ne se produit pas par défaut : lorsque le modèle produit un résultat soigné, les utilisateurs deviennent plus directifs mais moins évaluatifs. La vérification factuelle chute de 3,7 points de pourcentage. L’identification du contexte manquant chute de 5,2 points de pourcentage. La remise en question du raisonnement chute de 3,1 points de pourcentage. Le mécanisme cognitif est l’aisance de traitement : un résultat soigné déclenche la confiance automatique (Système 1 de Kahneman) et inhibe l’évaluation critique (Système 2). Une boucle de qualité impose l’itération que le passage unique ignore : revue obligatoire, barrière d’évidence, vérification d’intégration, et répétition jusqu’à ce que tous les critères citent des preuves. Les hooks imposent ce que Anthropic a mesuré. Le modèle ne peut pas sauter l’itération car l’infrastructure l’exige.


Ce que Anthropic a mesuré

L’AI Fluency Index suit des comportements observables, pas des évaluations de qualité subjectives. Le cadre définit la maîtrise de l’IA comme « la capacité à travailler efficacement, de manière efficiente, éthique et sûre au sein des modalités émergentes d’interaction Humain-IA ».2 Les 24 comportements couvrent quatre dimensions : Délégation, Description, Discernement et Diligence. Onze sont directement observables en conversation. Les treize restants se produisent en dehors de l’interface de chat (évaluation des résultats en production, partage des résultats avec des collègues, vérification par rapport à des sources externes).

Les 11 comportements observables incluent l’itération et le raffinement, la remise en question du raisonnement, l’identification du contexte manquant, la clarification des objectifs, la spécification des formats, la fourniture d’exemples et la vérification factuelle. Les chercheurs ont classifié chaque conversation selon cette taxonomie en utilisant Claude Sonnet comme modèle d’analyse.

Trois conclusions importent pour l’infrastructure d’ingénierie.

Conclusion 1 : L’itération est le signal le plus fort. 85,7 % des conversations incluent au moins une forme d’itération. Les conversations avec itération montrent environ le double des comportements de maîtrise (2,67 contre 1,33). Les utilisateurs qui itèrent sont 5,6 fois plus susceptibles de remettre en question le raisonnement et 4 fois plus susceptibles d’identifier les lacunes.1 L’itération n’est pas un bonus. C’est le comportement le plus fortement associé à une utilisation efficace de l’IA.

Conclusion 2 : Le résultat soigné inhibe l’évaluation. 12,3 % des conversations impliquaient la génération d’artefacts (code, documents, outils interactifs). Lorsque le modèle produit des artefacts, les utilisateurs deviennent plus directifs : la clarification des objectifs augmente de 14,7 points de pourcentage, la spécification du format de 14,5 points, la fourniture d’exemples de 13,4 points. Mais l’évaluation chute : l’identification du contexte manquant baisse de 5,2 points, la vérification factuelle de 3,7 points, la remise en question du raisonnement de 3,1 points.1 Les utilisateurs dirigent mieux mais évaluent moins.

Conclusion 3 : Peu d’utilisateurs instaurent la collaboration. Seulement 30 % des conversations incluaient des instructions de collaboration explicites telles que « conteste mes hypothèses si elles sont fausses » ou « dis-moi ce qui manque ».1 Le mode par défaut est la délégation, pas le dialogue. La plupart des utilisateurs traitent le modèle comme un exécutant plutôt que comme un collaborateur.


Le paradoxe de l’artefact

Anthropic a nommé le phénomène mais n’a pas nommé le mécanisme. La science cognitive dispose d’un terme précis : l’aisance de traitement.

L’aisance de traitement est l’expérience subjective de facilité ou de difficulté associée à une tâche mentale. Alter et Oppenheimer ont documenté que les stimuli qui sont sémantiquement amorcés, visuellement clairs ou faciles à traiter sont jugés comme plus vrais, plus fiables et plus dignes de confiance, indépendamment de leur exactitude réelle.3 Oppenheimer a montré que l’heuristique d’aisance opère automatiquement : les gens utilisent la facilité de traitement comme un indicateur de qualité sans en avoir conscience.4

Le cadre Système 1/Système 2 de Kahneman explique pourquoi. Le Système 1 traite l’information automatiquement, associant l’aisance cognitive à la vérité. Le Système 2 engage l’analyse délibérée mais nécessite effort et motivation. Le résultat soigné de l’IA possède une forte aisance de traitement. Le code compile. Le formatage est propre. L’explication est cohérente. Le Système 1 le signale comme « bon » avant que le Système 2 n’ait eu le temps d’évaluer s’il est correct.5

Kahneman a identifié le mode de défaillance spécifique : « C’est une erreur pour les gens d’avoir confiance en un jugement parce qu’il fait une bonne histoire alors qu’en réalité la confiance devrait être fondée sur la qualité et la quantité des preuves. »5 Remplacez « bonne histoire » par « code propre » et le paradoxe de l’artefact est le WYSIATI (What You See Is All There Is — ce que vous voyez est tout ce qui existe) appliqué aux résultats générés par l’IA.

West et al. ont formalisé la conclusion complémentaire du côté du modèle. Dans deux articles présentés à ICLR 2024, ils ont démontré que les modèles génératifs acquièrent des capacités de production qui dépassent leurs capacités d’évaluation.6 Le modèle génère du code de niveau expert en quelques secondes tout en commettant des erreurs qu’aucun expert humain ne ferait. Le modèle ne peut pas évaluer de manière fiable ses propres résultats car génération et évaluation sont des capacités distinctes qui évoluent différemment.

Le paradoxe se renforce : le modèle produit un résultat soigné qu’il ne peut pas correctement évaluer, et l’humain, face à ce résultat soigné, réduit sa propre évaluation. Ni l’un ni l’autre ne vérifie. Les deux supposent que c’est correct. Jeff Gothelf a capturé la version organisationnelle : « Une partie des gains de productivité provient de l’apparence de qualité des résultats produits par l’IA. Ça a l’air bien, ça a l’air soigné, ça a l’air terminé. »7

Le paradoxe de l’artefact n’est pas un problème d’éducation des utilisateurs. L’éducation aide, mais les données de Anthropic montrent que même les utilisateurs qui itèrent (85,7 % des conversations) évaluent moins en présence d’artefacts. La chute de la vérification factuelle et de l’identification du contexte manquant se produit dans toute la population, pas seulement parmi les utilisateurs novices. Le mécanisme est cognitif, pas informationnel. Connaître le biais ne l’élimine pas.

L’infrastructure l’élimine.


Correspondance entre les conclusions et l’infrastructure

Chaque conclusion de Anthropic correspond à un composant d’infrastructure spécifique. Le tableau ci-dessous montre la chaîne entre le comportement mesuré et le mécanisme d’application.

Comportement de maîtrise Conclusion de Anthropic Correctif infrastructurel Implémentation
Itération et raffinement 2x marqueurs de maîtrise quand présent Boucle de qualité obligatoire Boucle en 7 étapes : implémenter, revoir, évaluer, affiner, prendre du recul, répéter, rapporter. Un hook bloque la complétion si une étape est sautée.
Remise en question du raisonnement 5,6x plus probable en conversations itératives Barrière d’évidence 6 critères exigeant des preuves spécifiques. « J’ai confiance » n’est pas une preuve. Les formulations évasives déclenchent un blocage.
Identification du contexte manquant 4x plus probable ; -5,2pp avec artefacts Étape de prise de recul Recherche obligatoire des appelants, vérification des imports et test d’intégration avant complétion.
Vérification factuelle -3,7pp avec artefacts Exécuteur de tests indépendant La suite de tests s’exécute après chaque modification de code. L’agent ne peut pas auto-rapporter les résultats des tests.
Instructions de collaboration Seulement 30 % des conversations Contexte injecté automatiquement 9 hooks se déclenchent à chaque prompt, injectant la date, la branche, les conventions et des instructions explicites pour contester les hypothèses.

Les hooks imposent ce que Anthropic a mesuré. Le modèle n’a pas besoin de se souvenir d’itérer car l’infrastructure l’exige. L’utilisateur n’a pas besoin de se souvenir d’inclure des instructions de collaboration car les hooks les injectent à chaque prompt. La vérification factuelle ne dépend pas de l’aisance de traitement de l’utilisateur car un exécuteur de tests indépendant rapporte les résultats indépendamment de l’apparence soignée du code.


Pourquoi le passage unique échoue

La boucle de qualité décrite dans Jiro Quality Philosophy comporte sept étapes : implémenter, revoir, évaluer, affiner, prendre du recul, répéter, rapporter. Un agent en passage unique exécute l’étape 1 et l’étape 7, sautant cinq étapes intermédiaires. Les données de Anthropic quantifient le coût de chaque étape sautée.

Sauter la revue signifie que l’agent ne relit pas ses propres résultats. L’étape de revue détecte la catégorie d’erreurs que l’agent remarquerait s’il regardait à nouveau : fautes de frappe, nommage flou, erreurs de décalage d’un. Sans revue, ces erreurs atteignent le rapport de complétion comme si elles n’existaient pas.

Sauter l’évaluation signifie que la barrière d’évidence ne s’exécute jamais. Les six critères (suit les conventions du codebase, solution la plus simple, cas limites gérés, tests passent, pas de régressions, résout le vrai problème) ne reçoivent jamais de preuves. Le rapport de complétion contient des affirmations, pas des preuves. La conclusion de Anthropic selon laquelle l’itération double les marqueurs de maîtrise correspond directement ici : la barrière d’évidence force l’itération en bloquant les rapports dépourvus de preuves.

Sauter l’affinage signifie que les problèmes découverts sont reportés, pas corrigés. Un commentaire TODO remplace une solution. La dette reportée s’accumule. GitClear a mesuré l’effet en aval : les changements liés au refactoring sont passés de 25 % à moins de 10 % de l’ensemble des modifications dans les codebases assistés par l’IA, tandis que la duplication de code est passée de 8,3 % à 12,3 %.8

Sauter la prise de recul signifie que l’agent ne vérifie jamais l’intégration. La fonction marche. Les appelants cassent. La vision tunnel passe inaperçue. La chute de 5,2 points de pourcentage mesurée par Anthropic pour « l’identification du contexte manquant » en présence d’artefacts décrit la même défaillance côté humain : le résultat soigné rend les lacunes de contexte invisibles.

Sauter la répétition signifie qu’un seul passage par la barrière d’évidence est considéré comme suffisant. Le premier passage détecte des problèmes. Les corriger peut en introduire de nouveaux. Sans second passage, la qualité de la correction n’est pas vérifiée. La boucle de qualité itère jusqu’à ce que les six critères citent des preuves au même passage. Le passage unique n’atteint jamais ce standard.

D’après les données du harnais : la boucle de qualité moyenne détecte 3,2 problèmes par changement non trivial. Parmi ceux-ci, 1,1 sont détectés pendant la revue (étape 2), 0,8 pendant l’évaluation (étape 3) et 1,3 pendant la prise de recul (étape 5). Un agent en passage unique livrerait les 3,2 problèmes. La séquence revue-évaluation-prise de recul les élimine avant le rapport de complétion.


Le problème du langage évasif

Anthropic a constaté que les utilisateurs itératifs sont 5,6 fois plus susceptibles de remettre en question le raisonnement du modèle.1 Le langage évasif est le signal inverse : le modèle exprimant de la certitude sans être questionné.

Les formulations évasives incluent « devrait fonctionner », « j’ai confiance », « semble correct », « probablement bon » et « je pense que ». Chaque formulation substitue une prédiction à une observation. « Les tests devraient passer » signifie que l’agent prédit le résultat. « 14 tests passés, 0 échecs » signifie que l’agent a observé le résultat. La distinction est la différence entre la Vérification fantôme et la vérification réelle.

Xiong et al. ont constaté que les LLMs expriment une confiance dans la plage 80-100 % indépendamment de l’exactitude réelle, la prédiction d’échec de GPT-4 étant à peine au-dessus du hasard (AUROC 62,7 %).9 Kadavath et al. chez Anthropic ont constaté que les modèles sont bien calibrés sur les tâches familières mais peinent sur les tâches nouvelles, le qualificatif « en grande partie » dissimulant des angles morts systématiques.10 La confiance verbalisée n’est pas corrélée à l’exactitude. Un modèle disant « j’ai confiance » fournit zéro information sur le fonctionnement réel du code.

Le détecteur de langage évasif détecte ce schéma. Un hook grep se déclenche à chaque rapport de complétion et recherche des formulations évasives configurables. La présence de langage évasif sans résultat de test adjacent ni citation de chemin de fichier déclenche un blocage. Le modèle doit remplacer la formulation évasive par des preuves. Le hook impose le comportement de remise en question que Anthropic a trouvé dans les conversations itératives, sauf qu’il opère de manière déterministe sur chaque conversation, pas de manière probabiliste sur 85,7 %.

#!/bin/bash
# hedge-detector.sh — block hedging without evidence
INPUT=$(cat)
HEDGES=$(echo "$INPUT" | grep -ciE '\bshould (work|pass|be fine)\b|\bprobably\b|\blooks correct\b|\bI.m confident\b')
if [ "$HEDGES" -gt 0 ]; then
  echo '{"decision":"block","reason":"Hedging language detected. Replace with test output or file paths."}'
else
  echo '{"decision":"allow"}'
fi

Ce que vous pouvez implémenter dès aujourd’hui

Les données de Anthropic désignent trois interventions minimales qui capturent les comportements de maîtrise à plus forte valeur.

Un hook de collaboration. Injectez des instructions à chaque prompt demandant au modèle de contester les hypothèses, d’identifier le contexte manquant et de remettre en question son propre raisonnement. Anthropic a constaté que seulement 30 % des utilisateurs le font manuellement. Un hook le fait sur 100 % des prompts. Cinq lignes de bash.

#!/bin/bash
# inject-collaboration.sh — force evaluative behavior
echo "INSTRUCTIONS: Push back if assumptions are wrong."
echo "Identify missing context before proceeding."
echo "Question your own reasoning at each step."

Une barrière d’évidence. Bloquez les rapports de complétion qui utilisent un langage évasif au lieu de citer des preuves. La barrière opérationnalise la conclusion de Anthropic selon laquelle l’itération double les marqueurs de maîtrise en rendant l’itération obligatoire. Le modèle ne peut pas rapporter « terminé » sans preuve pour chaque critère de qualité.

Un vérificateur indépendant. Exécutez la suite de tests après chaque modification de code et injectez les résultats dans la conversation. Le vérificateur traite directement le paradoxe de l’artefact : indépendamment de l’apparence soignée du résultat, les résultats des tests rapportent ce qui fonctionne réellement. La vérification factuelle ne dépend pas de l’aisance de traitement humaine car le hook l’automatise.

Les trois hooks ensemble imposent les trois comportements que Anthropic a trouvés comme les plus fortement associés à une utilisation efficace de l’IA : l’itération, la remise en question du raisonnement et l’identification du contexte manquant. Chaque hook est déterministe. Chacun se déclenche à chaque interaction. Aucun ne dépend du fait que l’utilisateur se souvienne de l’activer.

Anthropic a mesuré ce qui fonctionne. Les hooks le rendent non optionnel.


Sources


  1. Kyle Swanson, Daniel Bent, Zack Ludwig, Rick Dakan, and Joseph Feller, “Anthropic Education Report: The AI Fluency Index,” Anthropic Research, February 23, 2026, anthropic.com. 9,830 anonymized conversations on Claude.ai, January 20-26, 2026. Iterative conversations: 2.67 fluency behaviors (vs 1.33 non-iterative). 5.6x more likely to question reasoning. Artifact paradox: -5.2pp missing context identification, -3.7pp fact-checking. 

  2. Rick Dakan and Joseph Feller, “The AI Fluency Framework,” developed in collaboration with Anthropic, supported by Ireland’s Higher Education Authority, 2025, aifluencyframework.org. 24 behaviors across 4 dimensions: Delegation, Description, Discernment, Diligence. Definition: “The ability to work effectively, efficiently, ethically, and safely within emerging modalities of Human-AI interaction.” 

  3. Adam L. Alter and Daniel M. Oppenheimer, “Uniting the Tribes of Fluency to Form a Metacognitive Nation,” Personality and Social Psychology Review, 13(3), 219-235, 2009, doi.org. Processing fluency causes stimuli to be judged as more true, reliable, and trustworthy regardless of actual accuracy. 

  4. Daniel M. Oppenheimer, “The Secret Life of Fluency,” Trends in Cognitive Sciences, 12(6), 237-241, 2008, sciencedirect.com. The fluency heuristic operates automatically: processing ease serves as a proxy for quality without conscious awareness. 

  5. Daniel Kahneman, Thinking, Fast and Slow (New York: Farrar, Straus and Giroux, 2011). System 1 (automatic) associates cognitive ease with truth. System 2 (deliberate) requires effort. WYSIATI: conclusions drawn from available information without accounting for what is missing. Quote: “It’s a mistake for people to have confidence in a judgment because it made for a good story when in fact confidence should be based on the quality and quantity of evidence.” 

  6. Peter West et al., “The Generative AI Paradox: What It Can Create, It May Not Understand,” ICLR 2024, arxiv.org; Peter West et al., “The Generative AI Paradox on Evaluation: What It Can Solve, It May Not Evaluate,” arXiv:2402.06204, 2024, arxiv.org. Generative capabilities exceed evaluation capabilities. Models produce expert-level output they cannot reliably self-evaluate. 

  7. Jeff Gothelf, “Confusing Artifact Quality with Certainty,” 2024, jeffgothelf.com. “Part of productivity gains comes from the appearance of quality in AI-produced output. It looks good, it looks polished, it looks done.” 

  8. William Harding and Matthew Kloster, “Coding on Copilot: 2023 Data Suggests Downward Pressure on Code Quality,” GitClear, January 2024, gitclear.com. 153 million changed lines. Refactoring fell from 25% to under 10%. Code duplication rose from 8.3% to 12.3%. 

  9. Miao Xiong, Zhiyuan Hu, Xinyang Lu, et al., “Can LLMs Express Their Uncertainty? An Empirical Evaluation of Confidence Elicitation in LLMs,” ICLR 2024, arxiv.org. LLMs express confidence in 80-100% range regardless of accuracy. GPT-4 failure prediction AUROC: 62.7%. 

  10. Saurav Kadavath, Tom Conerly, Amanda Askell, et al., “Language Models (Mostly) Know What They Know,” Anthropic, arXiv:2207.05221, July 2022, arxiv.org. Well-calibrated on familiar tasks, systematic blind spots on novel tasks. 

  11. CodeRabbit, “State of AI vs. Human Code Generation Report,” December 17, 2025, coderabbit.ai. 470 PRs analyzed. AI-authored: 1.7x more issues, 1.75x more logic errors. Polished output masks higher defect rates. 

  12. Laura Tacho, “AI-Assisted Engineering: Q4 Impact Report,” DX, November 4, 2025, getdx.com. 121,000+ developers. Productivity plateaued at ~10% despite 91% adoption. 

  13. Author’s analysis. Quality loop described in “Jiro Quality Philosophy.” Hook system described in “Anatomy of a Claw.” Failure modes described in “What Actually Breaks When You Run AI Agents Unsupervised.” 10% wall explained in “The 10% Wall.” 

Articles connexes

What Actually Breaks When You Run AI Agents Unsupervised

7 named failure modes from 500+ agent sessions. Each has a detection signal, a real output example, and a concrete fix. …

13 min de lecture

The 10% Wall: Why AI Productivity Plateaus and What Breaks Through

121,000 developers surveyed, 92.6% using AI tools, productivity stuck at 10%. The wall is infrastructure, not intelligen…

17 min de lecture

Your Agent Writes Faster Than You Can Read

Five research groups published about the same problem this week: AI agents produce code faster than developers can under…

16 min de lecture