← Alle Beitrage

Anthropic hat gemessen, was funktioniert. Meine Hooks setzen es durch.

From the guide: Claude Code Comprehensive Guide

Anthropic analysierte 9.830 Konversationen auf Claude.ai während einer einzigen Woche im Januar 2026.1 Die Analyse verwendete CLIO, ein datenschutzkonformes Tool, das Konversationsmuster klassifiziert, ohne einzelne Nachrichten zu lesen. Die Forscher verfolgten 11 beobachtbare Verhaltensweisen aus einem 24-Verhaltens-AI-Fluency-Framework, das von den Professoren Rick Dakan und Joseph Feller entwickelt wurde.2

Das zentrale Ergebnis: 85,7 % der Konversationen beinhalten Iteration und Verfeinerung. Iterative Konversationen weisen durchschnittlich 2,67 Fluency-Verhaltensweisen auf, ungefähr das Doppelte der 1,33 in nicht-iterativen Konversationen. Nutzer in iterativen Konversationen hinterfragen 5,6-mal häufiger die Argumentation des Modells und identifizieren 4-mal häufiger fehlenden Kontext.1

Iteration ist die Variable, die effektive KI-Nutzung von mittelmäßiger KI-Nutzung trennt. Anthropic hat sie gemessen. Die Umfrage von DX unter 135.000 Entwicklern ergab, dass KI trotz 91 % Akzeptanz den Entwicklern nur etwa vier Stunden pro Woche einsparte – eine Zahl, die in den letzten Quartalen stagnierte, obwohl die Akzeptanz stieg, was darauf hindeutet, dass Akzeptanz ohne Iterations-Infrastruktur an eine Grenze stößt.12 Die Frage ist, ob Iteration konsistent stattfindet oder nur dann, wenn Menschen daran denken.

TL;DR

Anthropics AI Fluency Index ergab, dass iterative Verfeinerung Fluency-Marker über 9.830 Konversationen hinweg verdoppelt. Das Artefakt-Paradoxon erklärt, warum Iteration standardmäßig scheitert: Polierte Ausgaben unterdrücken die Evaluation (Faktenprüfung sinkt um 3,7 Prozentpunkte, Identifikation fehlenden Kontexts sinkt um 5,2 Prozentpunkte, Hinterfragen der Argumentation sinkt um 3,1 Prozentpunkte). Der Mechanismus ist Processing Fluency: System 1 markiert sauberen Code als korrekt, bevor System 2 bewertet, ob er tatsächlich funktioniert. Ein Quality Loop erzwingt die Iteration, die ein Single-Pass überspringt: obligatorische Überprüfung, Evidence Gate, Integrationsprüfung und Wiederholung, bis alle Kriterien Belege anführen. Die Hooks setzen durch, was Anthropic gemessen hat.


Was Anthropic gemessen hat

Der AI Fluency Index verfolgt beobachtbare Verhaltensweisen, keine subjektiven Qualitätsbewertungen. Das Framework definiert AI Fluency als „die Fähigkeit, effektiv, effizient, ethisch und sicher innerhalb aufkommender Modalitäten der Mensch-KI-Interaktion zu arbeiten”.2 Die 24 Verhaltensweisen umfassen vier Dimensionen: Delegation, Description, Discernment und Diligence. Elf sind direkt in Konversationen beobachtbar. Die verbleibenden dreizehn finden außerhalb der Chat-Oberfläche statt (Bewertung der Ausgabe in Produktion, Teilen von Ergebnissen mit Kollegen, Verifizierung anhand externer Quellen).

Die 11 beobachtbaren Verhaltensweisen umfassen Iteration und Verfeinerung, Hinterfragen der Argumentation, Identifizieren fehlenden Kontexts, Klären von Zielen, Spezifizieren von Formaten, Bereitstellen von Beispielen und Faktenprüfung. Die Forscher klassifizierten jede Konversation anhand dieser Taxonomie unter Verwendung von Claude Sonnet als Analysemodell.

Drei Ergebnisse sind für Engineering-Infrastruktur relevant.

Ergebnis 1: Iteration ist das stärkste Signal. 85,7 % der Konversationen beinhalten mindestens etwas Iteration. Konversationen mit Iteration zeigen ungefähr doppelt so viele Fluency-Verhaltensweisen (2,67 vs. 1,33). Nutzer, die iterieren, hinterfragen 5,6-mal häufiger die Argumentation und identifizieren 4-mal häufiger Lücken.1 Iteration ist kein Nice-to-have. Sie ist das Verhalten, das am stärksten mit effektiver KI-Nutzung assoziiert ist.

Ergebnis 2: Polierte Ausgaben unterdrücken die Evaluation. 12,3 % der Konversationen beinhalteten die Erstellung von Artefakten (Code, Dokumente, interaktive Tools). Wenn das Modell Artefakte produziert, werden Nutzer direktiver: Klärung von Zielen stieg um 14,7 Prozentpunkte, Formatspezifikation stieg um 14,5 Punkte, Bereitstellung von Beispielen stieg um 13,4 Punkte. Aber die Evaluation sank: Identifikation fehlenden Kontexts fiel um 5,2 Punkte, Faktenprüfung fiel um 3,7 Punkte, Hinterfragen der Argumentation fiel um 3,1 Punkte.1 Nutzer gaben bessere Anweisungen, bewerteten aber weniger.

Ergebnis 3: Wenige Nutzer richten Zusammenarbeit ein. Nur 30 % der Konversationen enthielten explizite Zusammenarbeitsanweisungen wie „widersprich mir, wenn meine Annahmen falsch sind” oder „sag mir, was mir fehlt”.1 Der Standardmodus ist Delegation, nicht Dialog. Die meisten Nutzer behandeln das Modell als Ausführenden und nicht als Kollaborateur.


Das Artefakt-Paradoxon

Anthropic benannte das Muster, aber nicht den Mechanismus. Die Kognitionswissenschaft hat einen präzisen Begriff dafür: Processing Fluency.

Processing Fluency ist das subjektive Erleben von Leichtigkeit oder Schwierigkeit bei einer mentalen Aufgabe. Alter und Oppenheimer dokumentierten, dass Stimuli, die semantisch geprimt, visuell klar oder leicht zu verarbeiten sind, als wahrer, zuverlässiger und vertrauenswürdiger bewertet werden – unabhängig von der tatsächlichen Genauigkeit.3 Oppenheimer zeigte, dass die Fluency-Heuristik automatisch operiert: Menschen nutzen Verarbeitungsleichtigkeit als Stellvertreter für Qualität, ohne sich dessen bewusst zu sein.4

Kahnemans System-1/System-2-Framework erklärt, warum. System 1 verarbeitet Informationen automatisch und assoziiert kognitive Leichtigkeit mit Wahrheit. System 2 aktiviert bewusste Analyse, erfordert aber Anstrengung und Motivation. Polierte KI-Ausgaben haben eine hohe Processing Fluency. Der Code kompiliert. Die Formatierung ist sauber. Die Erklärung ist kohärent. System 1 markiert es als „gut”, bevor System 2 die Chance hat zu bewerten, ob es korrekt ist.5

Kahneman identifizierte den spezifischen Fehlermodus: „Es ist ein Fehler, wenn Menschen Vertrauen in ein Urteil haben, weil es eine gute Geschichte ergab, obwohl das Vertrauen tatsächlich auf der Qualität und Menge der Belege basieren sollte.”5 Ersetzen Sie „gute Geschichte” durch „sauberen Code”, und das Artefakt-Paradoxon ist WYSIATI (What You See Is All There Is), angewandt auf KI-generierte Ausgaben.

West et al. formalisierten den komplementären Befund von der Seite des Modells. In einem Paper auf der ICLR 2024 und einem begleitenden Preprint zeigten sie, dass generative Modelle Produktionsfähigkeiten erwerben, die ihre Evaluationsfähigkeiten übersteigen.6 Das Modell generiert Code auf Expertenniveau in Sekunden, während es Fehler macht, die kein menschlicher Experte machen würde. Das Modell kann seine eigene Ausgabe nicht zuverlässig bewerten, weil Generierung und Evaluation separate Fähigkeiten sind, die unterschiedlich skalieren.

Das Paradoxon verstärkt sich: Das Modell produziert polierte Ausgaben, die es nicht richtig bewerten kann, und der Mensch reduziert angesichts dieser Politur seine eigene Evaluation. Keine Seite verifiziert. Beide nehmen Korrektheit an. Die Analyse von CodeRabbit über 470 Pull Requests ergab, dass von KI verfasster Code 1,7-mal mehr Probleme und 1,75-mal mehr Logikfehler aufwies, obwohl er im Review poliert aussah.11 Jeff Gothelf erfasste die organisatorische Version: „Ein Teil der Produktivitätsgewinne kommt vom Anschein der Qualität in KI-produzierter Ausgabe. Es sieht gut aus, es sieht poliert aus, es sieht fertig aus.”7

Das Artefakt-Paradoxon ist kein Problem der Nutzerbildung. Bildung hilft, aber Anthropics Daten zeigen, dass selbst Nutzer, die iterieren (85,7 % der Konversationen), weniger evaluieren, wenn Artefakte vorhanden sind. Der Rückgang bei Faktenprüfung und Identifikation fehlenden Kontexts tritt in der gesamten Population auf, nicht nur bei unerfahrenen Nutzern. Der Mechanismus ist kognitiv, nicht informationell. Das Wissen um den Bias beseitigt ihn nicht.

Infrastruktur beseitigt ihn.


Abbildung der Ergebnisse auf Infrastruktur

Jedes Ergebnis von Anthropic lässt sich einer spezifischen Infrastrukturkomponente zuordnen. Die folgende Tabelle zeigt die Kette vom gemessenen Verhalten bis zum Durchsetzungsmechanismus.

Fluency-Verhalten Anthropics Ergebnis Infrastruktur-Lösung Implementierung
Iteration und Verfeinerung 2x Fluency-Marker wenn vorhanden Obligatorischer Quality Loop 7-Schritte-Loop: Implementieren, Überprüfen, Evaluieren, Verfeinern, Herauszoomen, Wiederholen, Berichten. Ein Hook blockiert den Abschluss, wenn ein Schritt übersprungen wird.
Hinterfragen der Argumentation 5,6x wahrscheinlicher in iterativen Konversationen Evidence Gate 6 Kriterien, die spezifische Belege erfordern. „Ich bin zuversichtlich” ist kein Beleg. Ausweichende Formulierungen lösen eine Blockierung aus.
Identifizieren fehlenden Kontexts 4x wahrscheinlicher; -5,2 PP bei Artefakten Zoom-Out-Schritt Obligatorische Caller-Suche, Import-Verifizierung und Integrationstest vor dem Abschluss.
Faktenprüfung -3,7 PP bei Artefakten Unabhängiger Test-Runner Testsuite läuft nach jeder Codeänderung. Der Agent kann Testergebnisse nicht selbst berichten.
Zusammenarbeitsanweisungen Nur 30 % der Konversationen Automatisch injizierter Kontext 9 Hooks feuern bei jedem Prompt und injizieren Datum, Branch, Konventionen und explizite Anweisungen, Annahmen zu hinterfragen.

Die Hooks setzen durch, was Anthropic gemessen hat. Das Modell muss sich nicht an Iteration erinnern, weil die Infrastruktur sie verlangt. Der Nutzer muss keine Zusammenarbeitsanweisungen einfügen, weil Hooks sie bei jedem Prompt injizieren. Faktenprüfung hängt nicht von der Processing Fluency des Nutzers ab, weil ein unabhängiger Test-Runner die Ergebnisse berichtet, unabhängig davon, wie poliert der Code aussieht.


Warum Single-Pass scheitert

Der Quality Loop, beschrieben in Jiro Quality Philosophy, umfasst sieben Schritte: Implementieren, Überprüfen, Evaluieren, Verfeinern, Herauszoomen, Wiederholen, Berichten. Ein Single-Pass-Agent führt Schritt 1 und Schritt 7 aus und überspringt fünf Schritte dazwischen. Anthropics Daten quantifizieren, was jeder übersprungene Schritt kostet.

Überprüfung überspringen bedeutet, dass der Agent seine eigene Ausgabe nicht erneut liest. Der Überprüfungsschritt fängt die Klasse von Fehlern ab, die der Agent bemerken würde, wenn er noch einmal hinschaute: Tippfehler, unklare Benennung, Off-by-One-Fehler. Ohne Überprüfung gelangen diese Fehler in den Abschlussbericht, als würden sie nicht existieren.

Evaluation überspringen bedeutet, dass das Evidence Gate nie ausgeführt wird. Die sechs Kriterien (folgt Codebase-Mustern, einfachste Lösung, Randfälle behandelt, Tests bestanden, keine Regressionen, löst das tatsächliche Problem) erhalten nie Belege. Der Abschlussbericht enthält Behauptungen, keine Beweise. Anthropics Ergebnis, dass Iteration Fluency-Marker verdoppelt, bildet sich hier direkt ab: Das Evidence Gate erzwingt Iteration, indem es Berichte blockiert, denen Belege fehlen.

Verfeinerung überspringen bedeutet, dass entdeckte Probleme aufgeschoben, nicht behoben werden. Ein TODO-Kommentar ersetzt eine Lösung. Deferred Debt häuft sich an. GitClear maß den nachgelagerten Effekt: Refactoring-bezogene Änderungen fielen von 25 % auf unter 10 % aller Änderungen in KI-unterstützten Codebasen, während Code-Duplikation von 8,3 % auf 12,3 % stieg.8

Herauszoomen überspringen bedeutet, dass der Agent nie die Integration prüft. Die Funktion funktioniert. Die Aufrufer brechen. Tunnel Vision bleibt unentdeckt. Anthropics Rückgang von -5,2 Prozentpunkten bei „Identifizieren fehlenden Kontexts” bei vorhandenen Artefakten beschreibt dasselbe Versagen aus der menschlichen Perspektive: Polierte Ausgaben machen Kontextlücken unsichtbar.

Wiederholung überspringen bedeutet, dass ein einziger Durchlauf durch das Evidence Gate als ausreichend betrachtet wird. Der erste Durchlauf findet Probleme. Das Beheben dieser Probleme kann neue einführen. Ohne einen zweiten Durchlauf ist die Qualität der Korrektur nicht verifiziert. Der Quality Loop iteriert, bis alle sechs Kriterien im selben Durchlauf Belege anführen. Single-Pass erreicht diesen Standard nie.

Aus den Quality-Loop-Daten über 500+ Sitzungen (jeweils protokolliert mit Hook-Telemetrie und strukturierten Metadaten):13 Der durchschnittliche Quality Loop findet 3,2 Probleme pro nicht-trivialer Änderung. Davon werden 1,1 während der Überprüfung (Schritt 2), 0,8 während der Evaluation (Schritt 3) und 1,3 beim Herauszoomen (Schritt 5) gefunden. Ein Single-Pass-Agent würde alle 3,2 Probleme ausliefern. Die Sequenz aus Überprüfung-Evaluation-Herauszoomen eliminiert sie vor dem Abschlussbericht.


Das Problem der ausweichenden Sprache

Anthropic stellte fest, dass iterative Nutzer 5,6-mal häufiger die Argumentation des Modells hinterfragen.1 Ausweichende Sprache ist das inverse Signal: Das Modell drückt Gewissheit aus, ohne hinterfragt zu werden.

Ausweichende Formulierungen umfassen „sollte funktionieren”, „ich bin zuversichtlich”, „sieht korrekt aus”, „wahrscheinlich in Ordnung” und „ich glaube”. Jede Formulierung ersetzt eine Vorhersage durch eine Beobachtung. „Tests sollten bestehen” bedeutet, dass der Agent das Ergebnis vorhersagt. „14 Tests bestanden, 0 fehlgeschlagen” bedeutet, dass der Agent das Ergebnis beobachtet hat. Der Unterschied ist der zwischen Phantom Verification und tatsächlicher Verifikation.

Xiong et al. fanden heraus, dass LLMs Konfidenz im Bereich von 80-100 % ausdrücken, unabhängig von der tatsächlichen Genauigkeit, wobei die AUROC für Fehlervorhersage über Modelle hinweg im Bereich von 0,5-0,6 liegt, kaum über dem Zufallsniveau.9 Kadavath et al. bei Anthropic fanden, dass Modelle bei vertrauten Aufgaben gut kalibriert sind, aber bei neuen Aufgaben Schwierigkeiten haben, wobei das Wort „meistens” systematische blinde Flecken verbirgt.10 Verbalisierte Konfidenz korreliert nicht mit Korrektheit. Ein Modell, das sagt „Ich bin zuversichtlich”, liefert null Informationen darüber, ob der Code funktioniert.

Der Hedge-Detektor fängt dieses Muster ab. Ein Grep-Hook feuert bei jedem Abschlussbericht und sucht nach konfigurierbaren Hedging-Mustern. Das Vorhandensein ausweichender Sprache ohne angrenzende Testausgabe oder Dateipfad-Verweise löst eine Blockierung aus. Das Modell muss die ausweichende Formulierung durch Belege ersetzen. Der Hook setzt das hinterfragende Verhalten durch, das Anthropic in iterativen Konversationen fand, nur operiert er deterministisch bei jeder Konversation, nicht probabilistisch bei 85,7 %.

#!/bin/bash
# hedge-detector.sh — block hedging without evidence
INPUT=$(cat)
HEDGES=$(echo "$INPUT" | grep -ciE '\bshould (work|pass|be fine)\b|\bprobably\b|\blooks correct\b|\bI.m confident\b')
if [ "$HEDGES" -gt 0 ]; then
  echo '{"decision":"block","reason":"Hedging language detected. Replace with test output or file paths."}'
else
  echo '{"decision":"allow"}'
fi

Was Sie heute implementieren können

Anthropics Daten weisen auf drei minimale Interventionen hin, die die wertvollsten Fluency-Verhaltensweisen erfassen.

Ein Collaboration-Hook. Injizieren Sie bei jedem Prompt Anweisungen, die dem Modell sagen, Annahmen zu hinterfragen, fehlenden Kontext zu identifizieren und die eigene Argumentation in Frage zu stellen. Anthropic stellte fest, dass nur 30 % der Nutzer dies manuell tun. Ein Hook tut es bei 100 % der Prompts. Fünf Zeilen Bash.

#!/bin/bash
# inject-collaboration.sh — force evaluative behavior
echo "INSTRUCTIONS: Push back if assumptions are wrong."
echo "Identify missing context before proceeding."
echo "Question your own reasoning at each step."

Ein Evidence Gate. Blockieren Sie Abschlussberichte, die ausweichende Sprache verwenden, anstatt Belege anzuführen. Das Gate operationalisiert Anthropics Ergebnis, dass Iteration Fluency-Marker verdoppelt, indem es Iteration obligatorisch macht. Das Modell kann nicht „fertig” berichten, ohne Belege für jedes Qualitätskriterium vorzulegen.

Ein unabhängiger Verifier. Führen Sie die Testsuite nach jeder Codeänderung aus und injizieren Sie die Ergebnisse in die Konversation. Der Verifier adressiert das Artefakt-Paradoxon direkt: Unabhängig davon, wie poliert die Ausgabe aussieht, berichten die Testergebnisse, was tatsächlich funktioniert. Faktenprüfung hängt nicht von der Processing Fluency des Menschen ab, weil der Hook sie automatisiert.

Die drei Hooks zusammen setzen die drei Verhaltensweisen durch, die Anthropic am stärksten mit effektiver KI-Nutzung assoziiert fand: Iteration, Hinterfragen der Argumentation und Identifizieren fehlenden Kontexts. Jeder Hook ist deterministisch. Jeder feuert bei jeder Interaktion. Keiner hängt davon ab, dass der Nutzer daran denkt, ihn zu aktivieren.

Anthropic hat gemessen, was funktioniert. Die Hooks machen es verpflichtend.


Wichtigste Erkenntnisse

Für einzelne Entwickler. Fügen Sie einen Collaboration-Hook hinzu, der bei jedem Prompt „widersprich, wenn Annahmen falsch sind” und „identifiziere fehlenden Kontext” injiziert. Anthropic stellte fest, dass nur 30 % der Nutzer manuell Zusammenarbeitsanweisungen einrichten.1 Der Hook macht evaluatives Verhalten bei 100 % der Interaktionen automatisch.

Für Teamleiter. Iteration ist das Signal, nicht Akzeptanz. Anthropic maß 2x Fluency-Marker in iterativen Konversationen gegenüber nicht-iterativen.1 Bauen Sie Infrastruktur, die Iteration erzwingt (Evidence Gates, obligatorische Überprüfungsschritte), anstatt First-Pass-Ausgaben zu belohnen. Die Daten von DX bestätigen: Trotz 91 % Akzeptanz stagnierten die Produktivitätsgewinne in den letzten Quartalen.12

Für Plattform-Ingenieure. Adressieren Sie das Artefakt-Paradoxon mit einem unabhängigen Test-Runner. Polierte KI-Ausgaben lösen automatisches Vertrauen durch Processing Fluency aus, wodurch die Faktenprüfung um 3,7 Prozentpunkte sinkt, wenn Artefakte vorhanden sind.1 Ein unabhängiger Verifier, der die Testsuite nach jeder Codeänderung ausführt, umgeht die Processing Fluency vollständig, indem er berichtet, was tatsächlich funktioniert, unabhängig davon, wie der Code aussieht.


Quellen


  1. Kyle Swanson, Daniel Bent, Zack Ludwig, Rick Dakan, and Joseph Feller, “Anthropic Education Report: The AI Fluency Index,” Anthropic Research, February 23, 2026, anthropic.com. 9.830 anonymisierte Konversationen auf Claude.ai, 20.–26. Januar 2026. Iterative Konversationen: 2,67 Fluency-Verhaltensweisen (vs. 1,33 nicht-iterativ). 5,6x häufiger Hinterfragen der Argumentation. Artefakt-Paradoxon: -5,2 PP Identifikation fehlenden Kontexts, -3,7 PP Faktenprüfung. 

  2. Rick Dakan and Joseph Feller, “The AI Fluency Framework,” developed in collaboration with Anthropic, supported by Ireland’s Higher Education Authority, 2025, aifluencyframework.org. 24 Verhaltensweisen über 4 Dimensionen: Delegation, Description, Discernment, Diligence. Definition: „Die Fähigkeit, effektiv, effizient, ethisch und sicher innerhalb aufkommender Modalitäten der Mensch-KI-Interaktion zu arbeiten.” 

  3. Adam L. Alter and Daniel M. Oppenheimer, “Uniting the Tribes of Fluency to Form a Metacognitive Nation,” Personality and Social Psychology Review, 13(3), 219-235, 2009, doi.org. Processing Fluency bewirkt, dass Stimuli als wahrer, zuverlässiger und vertrauenswürdiger bewertet werden, unabhängig von der tatsächlichen Genauigkeit. 

  4. Daniel M. Oppenheimer, “The Secret Life of Fluency,” Trends in Cognitive Sciences, 12(6), 237-241, 2008, sciencedirect.com. Die Fluency-Heuristik operiert automatisch: Verarbeitungsleichtigkeit dient als Stellvertreter für Qualität ohne bewusstes Gewahrsein. 

  5. Daniel Kahneman, Thinking, Fast and Slow (New York: Farrar, Straus and Giroux, 2011). System 1 (automatisch) assoziiert kognitive Leichtigkeit mit Wahrheit. System 2 (bewusst) erfordert Anstrengung. WYSIATI: Schlussfolgerungen aus verfügbaren Informationen ohne Berücksichtigung dessen, was fehlt. Zitat: „Es ist ein Fehler, wenn Menschen Vertrauen in ein Urteil haben, weil es eine gute Geschichte ergab, obwohl das Vertrauen tatsächlich auf der Qualität und Menge der Belege basieren sollte.” 

  6. Peter West et al., “The Generative AI Paradox: What It Can Create, It May Not Understand,” ICLR 2024, arxiv.org; Peter West et al., “The Generative AI Paradox on Evaluation: What It Can Solve, It May Not Evaluate,” arXiv:2402.06204, 2024, arxiv.org. Generative Fähigkeiten übersteigen Evaluationsfähigkeiten. Modelle produzieren Ausgaben auf Expertenniveau, die sie nicht zuverlässig selbst bewerten können. 

  7. Jeff Gothelf, “Confusing Artifact Quality with Certainty,” 2026, jeffgothelf.com. „Ein Teil der Produktivitätsgewinne kommt vom Anschein der Qualität in KI-produzierter Ausgabe. Es sieht gut aus, es sieht poliert aus, es sieht fertig aus.” 

  8. William Harding and Matthew Kloster, “Coding on Copilot: 2023 Data Suggests Downward Pressure on Code Quality,” GitClear, January 2024, gitclear.com. 153 Millionen geänderte Zeilen. Refactoring fiel von 25 % auf unter 10 %. Code-Duplikation stieg von 8,3 % auf 12,3 %. 

  9. Miao Xiong, Zhiyuan Hu, Xinyang Lu, et al., “Can LLMs Express Their Uncertainty? An Empirical Evaluation of Confidence Elicitation in LLMs,” ICLR 2024, arxiv.org. LLMs drücken Konfidenz im Bereich von 80-100 % aus, unabhängig von der Genauigkeit. AUROC für Fehlervorhersage über Modelle hinweg liegt bei 0,5-0,6, kaum über dem Zufallsniveau. 

  10. Saurav Kadavath, Tom Conerly, Amanda Askell, et al., “Language Models (Mostly) Know What They Know,” Anthropic, arXiv:2207.05221, July 2022, arxiv.org. Gut kalibriert bei vertrauten Aufgaben, systematische blinde Flecken bei neuen Aufgaben. 

  11. CodeRabbit, “State of AI vs. Human Code Generation Report,” December 17, 2025, coderabbit.ai. 470 PRs analysiert. KI-verfasst: 1,7x mehr Probleme, 1,75x mehr Logikfehler. Polierte Ausgaben maskieren höhere Fehlerraten. 

  12. Laura Tacho, “AI-Assisted Engineering: Q4 Impact Report,” DX, November 4, 2025, getdx.com. 135.000+ Entwickler in 435 Unternehmen. Durchschnittliche Einsparung von etwa vier Stunden pro Woche trotz 91 % Akzeptanz. 

  13. Analyse des Autors. Quality Loop beschrieben in „Jiro Quality Philosophy.” Hook-System beschrieben in „Anatomy of a Claw.” Fehlermodi beschrieben in „What Actually Breaks When You Run AI Agents Unsupervised.” 10-%-Wand erklärt in „The 10% Wall.” 

Verwandte Beiträge

What Actually Breaks When You Run AI Agents Unsupervised

Seven named failure modes from 500+ autonomous agent sessions. Each has a detection signal, a real example, and a concre…

16 Min. Lesezeit

The 10% Wall: Why AI Productivity Plateaus

121,000 developers surveyed, 92.6% using AI tools, productivity stuck at 10%. The wall is infrastructure, not intelligen…

18 Min. Lesezeit

Your Agent Writes Faster Than You Can Read

Five research groups published about the same problem this week: AI agents produce code faster than developers can under…

16 Min. Lesezeit