← Alle Beitrage

Anthropic hat gemessen, was funktioniert. Meine Hooks setzen es durch.

From the guide: Claude Code Comprehensive Guide

Anthropic analysierte 9.830 Gespräche auf Claude.ai während einer einzigen Woche im Januar 2026.1 Die Analyse verwendete CLIO, ein datenschutzkonformes Werkzeug, das Gesprächsmuster klassifiziert, ohne einzelne Nachrichten zu lesen. Die Forscher verfolgten 11 beobachtbare Verhaltensweisen aus einem 24 Verhaltensweisen umfassenden AI Fluency Framework, das von den Professoren Rick Dakan und Joseph Feller entwickelt wurde.2

Die zentrale Erkenntnis: 85,7 % der Gespräche beinhalten Iteration und Verfeinerung. Iterative Gespräche zeigen durchschnittlich 2,67 Fluency-Verhaltensweisen — etwa doppelt so viele wie die 1,33 in nicht-iterativen Gesprächen. Nutzer in iterativen Gesprächen hinterfragen mit 5,6-facher Wahrscheinlichkeit die Argumentation des Modells und identifizieren mit 4-facher Wahrscheinlichkeit fehlenden Kontext.1

Iteration ist die Variable, die effektive KI-Nutzung von mittelmäßiger KI-Nutzung trennt. Anthropic hat sie gemessen. Die Frage ist, ob Iteration konsistent stattfindet oder nur dann, wenn Menschen daran denken.

Zusammenfassung

Der AI Fluency Index von Anthropic ergab, dass iterative Verfeinerung Fluency-Marker über 9.830 Gespräche hinweg verdoppelt. Das „Artefakt-Paradoxon” erklärt, warum Iteration nicht standardmäßig stattfindet: Wenn das Modell polierten Output produziert, werden Nutzer direktiver, aber weniger evaluierend. Faktenprüfung sinkt um 3,7 Prozentpunkte. Die Identifizierung fehlenden Kontexts sinkt um 5,2 Prozentpunkte. Das Hinterfragen der Argumentation sinkt um 3,1 Prozentpunkte. Der kognitive Mechanismus ist Verarbeitungsflüssigkeit: Polierter Output löst automatisches Vertrauen aus (Kahnemans System 1) und unterdrückt kritische Bewertung (System 2). Eine Qualitätsschleife erzwingt die Iteration, die ein einzelner Durchlauf überspringt: verpflichtende Überprüfung, Evidenz-Gate, Integrationsprüfung und Wiederholung, bis alle Kriterien durch Belege gestützt sind. Die Hooks setzen durch, was Anthropic gemessen hat. Das Modell kann die Iteration nicht überspringen, weil die Infrastruktur sie verlangt.


Was Anthropic gemessen hat

Der AI Fluency Index verfolgt beobachtbare Verhaltensweisen, keine subjektiven Qualitätsbewertungen. Das Framework definiert KI-Fluency als „die Fähigkeit, effektiv, effizient, ethisch und sicher innerhalb emergierender Modalitäten der Mensch-KI-Interaktion zu arbeiten.”2 Die 24 Verhaltensweisen erstrecken sich über vier Dimensionen: Delegation, Beschreibung, Urteilsvermögen und Sorgfalt. Elf davon sind direkt im Gespräch beobachtbar. Die übrigen dreizehn finden außerhalb der Chat-Oberfläche statt (Bewertung der Ausgabe in der Produktion, Teilen von Ergebnissen mit Kollegen, Verifizierung anhand externer Quellen).

Die 11 beobachtbaren Verhaltensweisen umfassen Iteration und Verfeinerung, Hinterfragen der Argumentation, Identifizierung fehlenden Kontexts, Klärung von Zielen, Spezifizierung von Formaten, Bereitstellung von Beispielen und Faktenprüfung. Die Forscher klassifizierten jedes Gespräch anhand dieser Taxonomie unter Verwendung von Claude Sonnet als Analysemodell.

Drei Erkenntnisse sind für die Engineering-Infrastruktur relevant.

Erkenntnis 1: Iteration ist das stärkste Signal. 85,7 % der Gespräche beinhalten zumindest eine gewisse Iteration. Gespräche mit Iteration zeigen etwa doppelt so viele Fluency-Verhaltensweisen (2,67 vs. 1,33). Nutzer, die iterieren, hinterfragen mit 5,6-facher Wahrscheinlichkeit die Argumentation und identifizieren mit 4-facher Wahrscheinlichkeit Lücken.1 Iteration ist kein Nice-to-have. Sie ist das Verhalten, das am stärksten mit effektiver KI-Nutzung assoziiert ist.

Erkenntnis 2: Polierter Output unterdrückt die Bewertung. 12,3 % der Gespräche beinhalteten Artefakt-Generierung (Code, Dokumente, interaktive Werkzeuge). Wenn das Modell Artefakte produziert, werden Nutzer direktiver: Zielklärung stieg um 14,7 Prozentpunkte, Formatspezifikation stieg um 14,5 Punkte, Bereitstellung von Beispielen stieg um 13,4 Punkte. Aber die Bewertung sank: Identifizierung fehlenden Kontexts fiel um 5,2 Punkte, Faktenprüfung fiel um 3,7 Punkte, Hinterfragen der Argumentation fiel um 3,1 Punkte.1 Nutzer dirigierten besser, bewerteten aber weniger.

Erkenntnis 3: Wenige Nutzer richten eine Zusammenarbeit ein. Nur 30 % der Gespräche enthielten explizite Zusammenarbeitsanweisungen wie „Widersprechen Sie, wenn meine Annahmen falsch sind” oder „Sagen Sie mir, was mir fehlt.”1 Der Standardmodus ist Delegation, nicht Dialog. Die meisten Nutzer behandeln das Modell als Ausführenden statt als Kollaborationspartner.


Das Artefakt-Paradoxon

Anthropic benannte das Muster, aber nicht den Mechanismus. Die Kognitionswissenschaft hat einen präzisen Begriff dafür: Verarbeitungsflüssigkeit.

Verarbeitungsflüssigkeit ist die subjektive Erfahrung von Leichtigkeit oder Schwierigkeit bei einer mentalen Aufgabe. Alter und Oppenheimer dokumentierten, dass Stimuli, die semantisch geprimt, visuell klar oder leicht zu verarbeiten sind, als wahrer, zuverlässiger und vertrauenswürdiger beurteilt werden — unabhängig von der tatsächlichen Genauigkeit.3 Oppenheimer zeigte, dass die Fluency-Heuristik automatisch funktioniert: Menschen nutzen Verarbeitungsleichtigkeit als Proxy für Qualität, ohne sich dessen bewusst zu sein.4

Kahnemans System-1/System-2-Rahmenwerk erklärt warum. System 1 verarbeitet Informationen automatisch und assoziiert kognitive Leichtigkeit mit Wahrheit. System 2 betreibt bewusste Analyse, erfordert aber Anstrengung und Motivation. Polierter KI-Output hat eine hohe Verarbeitungsflüssigkeit. Der Code kompiliert. Die Formatierung ist sauber. Die Erklärung ist kohärent. System 1 stuft ihn als „gut” ein, bevor System 2 die Chance hat zu bewerten, ob er korrekt ist.5

Kahneman identifizierte den spezifischen Fehlermodus: „Es ist ein Fehler, Vertrauen in ein Urteil zu haben, weil es eine gute Geschichte ergab, wenn das Vertrauen tatsächlich auf der Qualität und Quantität der Belege basieren sollte.”5 Ersetzen Sie „gute Geschichte” durch „sauberen Code”, und das Artefakt-Paradoxon ist WYSIATI (What You See Is All There Is), angewandt auf KI-generierten Output.

West et al. formalisierten die komplementäre Erkenntnis von der Modellseite. In zwei Arbeiten, die auf der ICLR 2024 präsentiert wurden, zeigten sie, dass generative Modelle Produktionsfähigkeiten erwerben, die ihre Bewertungsfähigkeiten übersteigen.6 Das Modell generiert in Sekunden Code auf Expertenniveau und macht dabei Fehler, die kein menschlicher Experte machen würde. Das Modell kann seinen eigenen Output nicht zuverlässig bewerten, weil Generierung und Bewertung separate Fähigkeiten sind, die unterschiedlich skalieren.

Das Paradoxon verstärkt sich: Das Modell produziert polierten Output, den es nicht richtig bewerten kann, und der Mensch, der auf diese Politur trifft, reduziert seine eigene Bewertung. Keine Seite verifiziert. Beide nehmen Korrektheit an. Jeff Gothelf erfasste die organisatorische Version: „Ein Teil der Produktivitätsgewinne stammt vom Anschein der Qualität in KI-produziertem Output. Er sieht gut aus, er sieht poliert aus, er sieht fertig aus.”7

Das Artefakt-Paradoxon ist kein Problem der Nutzerbildung. Bildung hilft, aber die Daten von Anthropic zeigen, dass selbst Nutzer, die iterieren (85,7 % der Gespräche), weniger bewerten, wenn Artefakte vorhanden sind. Der Rückgang bei Faktenprüfung und Identifizierung fehlenden Kontexts tritt über die gesamte Population auf, nicht nur bei unerfahrenen Nutzern. Der Mechanismus ist kognitiv, nicht informationell. Das Wissen über die Verzerrung eliminiert sie nicht.

Infrastruktur eliminiert sie.


Zuordnung der Erkenntnisse zur Infrastruktur

Jede Erkenntnis von Anthropic lässt sich einer spezifischen Infrastrukturkomponente zuordnen. Die folgende Tabelle zeigt die Kette von gemessenem Verhalten bis zum Durchsetzungsmechanismus.

Fluency-Verhalten Erkenntnis von Anthropic Infrastruktur-Lösung Implementierung
Iteration und Verfeinerung 2x Fluency-Marker wenn vorhanden Verpflichtende Qualitätsschleife 7-Schritte-Schleife: Implementieren, Überprüfen, Bewerten, Verfeinern, Herauszoomen, Wiederholen, Berichten. Ein Hook blockiert den Abschluss, wenn ein Schritt übersprungen wird.
Hinterfragen der Argumentation 5,6x wahrscheinlicher in iterativen Gesprächen Evidenz-Gate 6 Kriterien, die spezifische Belege erfordern. „Ich bin zuversichtlich” ist kein Beleg. Abschwächende Formulierungen lösen eine Blockierung aus.
Identifizierung fehlenden Kontexts 4x wahrscheinlicher; -5,2 PP bei Artefakten Herauszoomen-Schritt Verpflichtende Aufrufer-Suche, Import-Verifizierung und Integrationstest vor dem Abschluss.
Faktenprüfung -3,7 PP bei Artefakten Unabhängiger Test-Runner Die Testsuite läuft nach jeder Code-Änderung. Der Agent kann keine Testergebnisse selbst melden.
Zusammenarbeitsanweisungen Nur 30 % der Gespräche Automatisch injizierter Kontext 9 Hooks feuern bei jedem Prompt und injizieren Datum, Branch, Konventionen und explizite Anweisungen, Annahmen zu hinterfragen.

Die Hooks setzen durch, was Anthropic gemessen hat. Das Modell muss sich nicht daran erinnern zu iterieren, weil die Infrastruktur es verlangt. Der Nutzer muss sich nicht daran erinnern, Zusammenarbeitsanweisungen einzufügen, weil Hooks sie bei jedem Prompt injizieren. Faktenprüfung hängt nicht von der Verarbeitungsflüssigkeit des Nutzers ab, weil ein unabhängiger Test-Runner Ergebnisse meldet — unabhängig davon, wie poliert der Code aussieht.


Warum ein einzelner Durchlauf scheitert

Die Qualitätsschleife, beschrieben in Jiro Quality Philosophy, umfasst sieben Schritte: Implementieren, Überprüfen, Bewerten, Verfeinern, Herauszoomen, Wiederholen, Berichten. Ein Agent mit einzelnem Durchlauf führt Schritt 1 und Schritt 7 aus und überspringt fünf Schritte dazwischen. Die Daten von Anthropic quantifizieren, was jeder übersprungene Schritt kostet.

Überprüfung überspringen bedeutet, dass der Agent seinen eigenen Output nicht erneut liest. Der Überprüfungsschritt fängt die Klasse von Fehlern ab, die der Agent bemerken würde, wenn er noch einmal hinschaut: Tippfehler, unklare Benennung, Off-by-one-Fehler. Ohne Überprüfung gelangen diese Fehler in den Abschlussbericht, als ob sie nicht existierten.

Bewertung überspringen bedeutet, dass das Evidenz-Gate nie ausgeführt wird. Die sechs Kriterien (folgt Codebase-Mustern, einfachste Lösung, Randfälle behandelt, Tests bestanden, keine Regressionen, löst das eigentliche Problem) erhalten nie Belege. Der Abschlussbericht enthält Behauptungen, keine Beweise. Die Erkenntnis von Anthropic, dass Iteration Fluency-Marker verdoppelt, zeigt sich hier direkt: Das Evidenz-Gate erzwingt Iteration, indem es Berichte blockiert, denen Belege fehlen.

Verfeinerung überspringen bedeutet, dass entdeckte Probleme aufgeschoben statt behoben werden. Ein TODO-Kommentar ersetzt eine Lösung. Deferred Debt akkumuliert. GitClear maß den Folgeeffekt: Refactoring-assoziierte Änderungen fielen von 25 % auf unter 10 % aller Änderungen in KI-unterstützten Codebases, während Code-Duplikation von 8,3 % auf 12,3 % stieg.8

Herauszoomen überspringen bedeutet, dass der Agent nie die Integration prüft. Die Funktion funktioniert. Die Aufrufer brechen. Tunnelblick bleibt unentdeckt. Der Rückgang von Anthropic um -5,2 Prozentpunkte bei „Identifizierung fehlenden Kontexts” bei vorhandenen Artefakten beschreibt denselben Fehler von der menschlichen Seite: Polierter Output macht Kontextlücken unsichtbar.

Wiederholung überspringen bedeutet, dass ein einzelner Durchlauf durch das Evidenz-Gate als ausreichend behandelt wird. Der erste Durchlauf findet Probleme. Das Beheben dieser Probleme kann neue einführen. Ohne einen zweiten Durchlauf ist die Qualität der Korrektur nicht verifiziert. Die Qualitätsschleife iteriert, bis alle sechs Kriterien im selben Durchlauf Belege zitieren. Ein einzelner Durchlauf erreicht diesen Standard nie.

Aus den Harness-Daten: Die durchschnittliche Qualitätsschleife findet 3,2 Probleme pro nicht-trivialer Änderung. Davon werden 1,1 während der Überprüfung (Schritt 2) entdeckt, 0,8 während der Bewertung (Schritt 3) und 1,3 während des Herauszoomen (Schritt 5). Ein Agent mit einzelnem Durchlauf würde alle 3,2 Probleme ausliefern. Die Sequenz Überprüfung-Bewertung-Herauszoomen eliminiert sie vor dem Abschlussbericht.


Das Problem der abschwächenden Sprache

Anthropic stellte fest, dass iterative Nutzer mit 5,6-facher Wahrscheinlichkeit die Argumentation des Modells hinterfragen.1 Abschwächende Sprache ist das inverse Signal: Das Modell drückt Gewissheit aus, ohne hinterfragt zu werden.

Abschwächende Formulierungen umfassen „sollte funktionieren”, „ich bin zuversichtlich”, „sieht korrekt aus”, „wahrscheinlich in Ordnung” und „ich glaube”. Jede Formulierung ersetzt eine Vorhersage durch eine Beobachtung. „Tests sollten bestehen” bedeutet, dass der Agent das Ergebnis vorhersagt. „14 Tests bestanden, 0 fehlgeschlagen” bedeutet, dass der Agent das Ergebnis beobachtet hat. Der Unterschied ist die Differenz zwischen Phantom-Verifizierung und tatsächlicher Verifizierung.

Xiong et al. stellten fest, dass LLMs Konfidenz im Bereich von 80-100 % ausdrücken, unabhängig von der tatsächlichen Genauigkeit, wobei die Fehlervorhersage von GPT-4 kaum über dem Zufallsniveau liegt (AUROC 62,7 %).9 Kadavath et al. bei Anthropic stellten fest, dass Modelle bei vertrauten Aufgaben gut kalibriert sind, aber bei neuartigen Aufgaben Schwierigkeiten haben, wobei der Zusatz „meistens” systematische blinde Flecken verbirgt.10 Verbalisierte Konfidenz korreliert nicht mit Korrektheit. Wenn ein Modell sagt „Ich bin zuversichtlich”, liefert das null Information darüber, ob der Code funktioniert.

Der Hedge-Detektor fängt dieses Muster ab. Ein Grep-Hook feuert bei jedem Abschlussbericht und sucht nach konfigurierbaren Abschwächungsmustern. Das Vorhandensein abschwächender Sprache ohne angrenzende Testausgabe oder Dateipfad-Zitate löst eine Blockierung aus. Das Modell muss die Abschwächung durch Belege ersetzen. Der Hook setzt das hinterfragende Verhalten durch, das Anthropic in iterativen Gesprächen fand, mit dem Unterschied, dass er deterministisch bei jedem Gespräch arbeitet, nicht probabilistisch bei 85,7 %.

#!/bin/bash
# hedge-detector.sh — block hedging without evidence
INPUT=$(cat)
HEDGES=$(echo "$INPUT" | grep -ciE '\bshould (work|pass|be fine)\b|\bprobably\b|\blooks correct\b|\bI.m confident\b')
if [ "$HEDGES" -gt 0 ]; then
  echo '{"decision":"block","reason":"Hedging language detected. Replace with test output or file paths."}'
else
  echo '{"decision":"allow"}'
fi

Was Sie heute implementieren können

Die Daten von Anthropic weisen auf drei Mindestinterventionen hin, die die wertvollsten Fluency-Verhaltensweisen abdecken.

Ein Zusammenarbeits-Hook. Injizieren Sie bei jedem Prompt Anweisungen, die das Modell auffordern, Annahmen zu hinterfragen, fehlenden Kontext zu identifizieren und seine eigene Argumentation in Frage zu stellen. Anthropic stellte fest, dass nur 30 % der Nutzer dies manuell tun. Ein Hook tut es bei 100 % der Prompts. Fünf Zeilen Bash.

#!/bin/bash
# inject-collaboration.sh — force evaluative behavior
echo "INSTRUCTIONS: Push back if assumptions are wrong."
echo "Identify missing context before proceeding."
echo "Question your own reasoning at each step."

Ein Evidenz-Gate. Blockieren Sie Abschlussberichte, die abschwächende Sprache verwenden, statt Belege zu zitieren. Das Gate operationalisiert die Erkenntnis von Anthropic, dass Iteration Fluency-Marker verdoppelt, indem es Iteration verpflichtend macht. Das Modell kann nicht „fertig” melden, ohne Belege für jedes Qualitätskriterium vorzulegen.

Ein unabhängiger Verifizierer. Führen Sie die Testsuite nach jeder Code-Änderung aus und injizieren Sie die Ergebnisse in das Gespräch. Der Verifizierer adressiert das Artefakt-Paradoxon direkt: Unabhängig davon, wie poliert der Output aussieht, melden die Testergebnisse, was tatsächlich funktioniert. Faktenprüfung hängt nicht von der menschlichen Verarbeitungsflüssigkeit ab, weil der Hook sie automatisiert.

Die drei Hooks zusammen setzen die drei Verhaltensweisen durch, die Anthropic als am stärksten mit effektiver KI-Nutzung assoziiert identifizierte: Iteration, Hinterfragen der Argumentation und Identifizierung fehlenden Kontexts. Jeder Hook ist deterministisch. Jeder feuert bei jeder Interaktion. Keiner hängt davon ab, dass der Nutzer sich daran erinnert, ihn zu aktivieren.

Anthropic hat gemessen, was funktioniert. Die Hooks machen es verbindlich.


Quellen


  1. Kyle Swanson, Daniel Bent, Zack Ludwig, Rick Dakan, and Joseph Feller, “Anthropic Education Report: The AI Fluency Index,” Anthropic Research, February 23, 2026, anthropic.com. 9,830 anonymized conversations on Claude.ai, January 20-26, 2026. Iterative conversations: 2.67 fluency behaviors (vs 1.33 non-iterative). 5.6x more likely to question reasoning. Artifact paradox: -5.2pp missing context identification, -3.7pp fact-checking. 

  2. Rick Dakan and Joseph Feller, “The AI Fluency Framework,” developed in collaboration with Anthropic, supported by Ireland’s Higher Education Authority, 2025, aifluencyframework.org. 24 behaviors across 4 dimensions: Delegation, Description, Discernment, Diligence. Definition: “The ability to work effectively, efficiently, ethically, and safely within emerging modalities of Human-AI interaction.” 

  3. Adam L. Alter and Daniel M. Oppenheimer, “Uniting the Tribes of Fluency to Form a Metacognitive Nation,” Personality and Social Psychology Review, 13(3), 219-235, 2009, doi.org. Processing fluency causes stimuli to be judged as more true, reliable, and trustworthy regardless of actual accuracy. 

  4. Daniel M. Oppenheimer, “The Secret Life of Fluency,” Trends in Cognitive Sciences, 12(6), 237-241, 2008, sciencedirect.com. The fluency heuristic operates automatically: processing ease serves as a proxy for quality without conscious awareness. 

  5. Daniel Kahneman, Thinking, Fast and Slow (New York: Farrar, Straus and Giroux, 2011). System 1 (automatic) associates cognitive ease with truth. System 2 (deliberate) requires effort. WYSIATI: conclusions drawn from available information without accounting for what is missing. Quote: “It’s a mistake for people to have confidence in a judgment because it made for a good story when in fact confidence should be based on the quality and quantity of evidence.” 

  6. Peter West et al., “The Generative AI Paradox: What It Can Create, It May Not Understand,” ICLR 2024, arxiv.org; Peter West et al., “The Generative AI Paradox on Evaluation: What It Can Solve, It May Not Evaluate,” arXiv:2402.06204, 2024, arxiv.org. Generative capabilities exceed evaluation capabilities. Models produce expert-level output they cannot reliably self-evaluate. 

  7. Jeff Gothelf, “Confusing Artifact Quality with Certainty,” 2024, jeffgothelf.com. “Part of productivity gains comes from the appearance of quality in AI-produced output. It looks good, it looks polished, it looks done.” 

  8. William Harding and Matthew Kloster, “Coding on Copilot: 2023 Data Suggests Downward Pressure on Code Quality,” GitClear, January 2024, gitclear.com. 153 million changed lines. Refactoring fell from 25% to under 10%. Code duplication rose from 8.3% to 12.3%. 

  9. Miao Xiong, Zhiyuan Hu, Xinyang Lu, et al., “Can LLMs Express Their Uncertainty? An Empirical Evaluation of Confidence Elicitation in LLMs,” ICLR 2024, arxiv.org. LLMs express confidence in 80-100% range regardless of accuracy. GPT-4 failure prediction AUROC: 62.7%. 

  10. Saurav Kadavath, Tom Conerly, Amanda Askell, et al., “Language Models (Mostly) Know What They Know,” Anthropic, arXiv:2207.05221, July 2022, arxiv.org. Well-calibrated on familiar tasks, systematic blind spots on novel tasks. 

  11. CodeRabbit, “State of AI vs. Human Code Generation Report,” December 17, 2025, coderabbit.ai. 470 PRs analyzed. AI-authored: 1.7x more issues, 1.75x more logic errors. Polished output masks higher defect rates. 

  12. Laura Tacho, “AI-Assisted Engineering: Q4 Impact Report,” DX, November 4, 2025, getdx.com. 121,000+ developers. Productivity plateaued at ~10% despite 91% adoption. 

  13. Author’s analysis. Quality loop described in “Jiro Quality Philosophy.” Hook system described in “Anatomy of a Claw.” Failure modes described in “What Actually Breaks When You Run AI Agents Unsupervised.” 10% wall explained in “The 10% Wall.” 

Verwandte Beiträge

What Actually Breaks When You Run AI Agents Unsupervised

7 named failure modes from 500+ agent sessions. Each has a detection signal, a real output example, and a concrete fix. …

13 Min. Lesezeit

The 10% Wall: Why AI Productivity Plateaus and What Breaks Through

121,000 developers surveyed, 92.6% using AI tools, productivity stuck at 10%. The wall is infrastructure, not intelligen…

17 Min. Lesezeit

Your Agent Writes Faster Than You Can Read

Five research groups published about the same problem this week: AI agents produce code faster than developers can under…

16 Min. Lesezeit