Ihr Agent schreibt schneller, als Sie lesen können

Letzten Dienstag schloss mein autonomer Coding-Agent ein Refactoring über 47 Dateien in 9 Minuten ab. Tests bestanden. Linting bestanden. Die Qualitäts-Gates fanden null Verstöße. Ich mergte den PR, deployte und machte weiter. Drei Tage später fragte ein Teamkollege, warum die Retry-Logik im Payment-Service von exponentiellem Backoff auf Fixed-Interval-Polling umgestellt worden war. Ich wusste nicht, dass sie sich geändert hatte. Die Commit-Nachricht des Agenten lautete „refactor: standardize retry patterns across services.” Die Änderung war technisch korrekt. Ich habe Zeile 847 von Datei 31 nie gelesen.

Diese Lücke zwischen dem, was ausgeliefert wurde, und dem, was ich verstanden habe, ist kognitive Schuld.

TL;DR

Fünf unabhängige Forschungsteams veröffentlichten in einer Woche Arbeiten zum selben strukturellen Problem: Coding-Agenten erzeugen Output schneller, als Entwickler ihn verifizieren, verstehen und warten können. Margaret-Anne Storey gab dem Muster den Namen „kognitive Schuld” (Cognitive Debt). Forscher bei Microsoft, der ETH Zürich und mehreren Universitäten bauen Systeme zur Erkennung von Agent-Fehlverhalten, zur transaktionalen Gestaltung von Tool-Aufrufen und zur Benchmarking-Messung, wie Agenten durch Interaktion lernen. Die Konvergenz ist bedeutsam, weil sie signalisiert, dass die Forschungsgemeinschaft ein Problem einholt, das Praktiker bisher mit Ad-hoc-Qualitäts-Gates gelöst haben. Das Problem der Agent-Zuverlässigkeit hat nun einen Namen, eine Taxonomie und fünf konkurrierende Ansätze. Im Folgenden: die Forschung, wie Sie kognitive Schuld in Ihrem eigenen Workflow erkennen und eine minimal praktikable Intervention, die Sie heute umsetzen können.

Fünf Paper, eine Woche, ein Problem

Zwischen dem 15. und 21. Februar 2026 veröffentlichten fünf unabhängige Gruppen Arbeiten, die dasselbe strukturelle Versagen bei KI-Coding-Agenten adressieren. Keine zitierte die andere. Jede näherte sich dem Problem aus einem anderen Blickwinkel. Alle konvergierten zur selben Schlussfolgerung: Der Engpass in der agentengestützten Entwicklung ist nicht mehr die Code-Qualität. Der Engpass ist das menschliche Verständnis.

Margaret-Anne Storey formulierte das Konzept der „kognitiven Schuld”, um zu beschreiben, was sich ansammelt, wenn Agenten Code produzieren, der sauber, getestet und gut strukturiert sein kann, während Entwickler den Überblick verlieren, was der Code tatsächlich tut.¹ Technische Schuld lebt in der Codebasis. Kognitive Schuld lebt im Kopf des Entwicklers. Storeys Rahmung verschiebt die Frage der Agent-Zuverlässigkeit von „funktioniert der Code?” zu „versteht der Entwickler den Code?”

Nanda et al. bei Microsoft veröffentlichten Wink, ein System zur automatischen Erkennung und Behebung von Fehlverhalten bei Coding-Agenten.² Ihre Taxonomie identifiziert drei Fehlermodi: Abweichung von Anweisungen (der Agent tut etwas anderes als angefragt), repetitive Schleifen (der Agent versucht wiederholt denselben fehlschlagenden Ansatz) und Tool-Missbrauch (der Agent ruft das falsche Tool auf oder übergibt falsche Argumente). Wink überwacht das Verhalten des Agenten in Echtzeit und greift ein, bevor sich das Fehlverhalten potenziert.

Mohammadi et al. an der ETH Zürich stellten Atomix vor, eine Laufzeitumgebung, die Tool-Aufrufe von Agenten in Transaktionen einbettet.³ Wenn ein mehrstufiger Plan eines Agenten auf halbem Weg fehlschlägt, macht Atomix die Seiteneffekte rückgängig. Die Erkenntnis: Agenten wirken auf externe Systeme (Datenbanken, APIs, Dateisysteme), und diese Aktionen haben Konsequenzen, die der Agent ohne explizite Rollback-Infrastruktur nicht rückgängig machen kann.

Hallinan et al. erstellten OpaqueToolsBench, einen Benchmark, der misst, wie Agenten Tool-Verhalten durch Interaktion statt durch Dokumentation erlernen.⁴ Reale Tools sind schlecht dokumentiert. Der Benchmark testet, ob Agenten Fehlermodi, Best Practices und Grenzfälle durch Versuch und Irrtum entdecken können. Das Ergebnis: Agenten, die Tool-Verhalten eigenständig erkunden, liefern bessere Resultate als Agenten, denen perfekte Dokumentation gegeben wird, die sie nie verifizieren.

Deng et al. evaluierten 28 LLM-basierte Penetration-Testing-Systeme und identifizierten zwei unterschiedliche Fehlerkategorien.⁵ Typ-A-Fehler stammen von fehlenden Fähigkeiten (falsche Tools, schlechte Prompts), die durch Engineering leicht behoben werden können. Typ-B-Fehler bestehen unabhängig von der Ausstattung fort, weil dem Agenten das Urteilsvermögen fehlt, seine eigenen Ergebnisse zu bewerten. Typ B ist das Problem der kognitiven Schuld als Sicherheitsrisiko ausgedrückt: Der Agent findet sechs von sieben Schwachstellen, meldet aber zuversichtlich, das System sei sicher.

Die Konvergenz zählt mehr als jedes einzelne Paper

Ein Paper über Agent-Zuverlässigkeit ist interessant. Fünf Paper in einer Woche von unabhängigen Teams sind ein Signal. Die Forschungsgemeinschaft gelangt unabhängig zu derselben Schlussfolgerung, die Praktiker durch Produktionsfehler entdeckt haben.

Ich habe das Jiro-Qualitätssystem ab Mai 2025 aufgebaut. Das System erzwingt eine 7-stufige Qualitätsschleife, ein 6-Kriterien-Evidenz-Gate und 7 benannte Fehlermodi, die direkt den Mustern entsprechen, die diese Paper beschreiben:

Forschungsergebnis	Jiro-Äquivalent	Erkennungsmethode
Wink: Abweichung von Anweisungen	Tunnel Vision	Zoom-Out-Schritt verifiziert Integrationspunkte
Wink: repetitive Schleifen	Circuit Breaker	Beendet Retry nach 3 identischen Fehlern
Wink: Tool-Missbrauch	Confidence Mirage	Evidenz-Gate lehnt „Ich bin zuversichtlich” ohne Beweis ab
Atomix: nicht rückgängig machbare Seiteneffekte	Deliberation Gates	Multi-Agent-Konsens vor irreversiblen Aktionen
Deng: Typ-B-Urteilsfehler	Hollow Report	Fordert spezifische Evidenz für jede Behauptung

Die zeitliche Abfolge ist wichtig. Neun Monate Trial-and-Error-Debugging in Produktion, Aufbau von Qualitäts-Gates einen Fehler nach dem anderen, resultierten in einer Architektur, die fünf Forschungspapiere nun unabhängig formalisieren. Die strukturellen Probleme sind real. Die Ad-hoc-Lösungen funktionieren. Die Forschung holt mit Frameworks, Taxonomien und Benchmarks auf, die die Lösungen reproduzierbar machen.

Die drei Gesetze der kognitiven Schuld

Storeys Rahmung kristallisiert, was ich über 11 Monate autonomer Agent-Entwicklung beobachtet habe. Drei Muster gelten unabhängig von Modell, Tooling oder Domäne:

1. Kognitive Schuld potenziert sich mit der Geschwindigkeit. Mein Agent produziert durchschnittlich 140–200 Zeilen bedeutsamer Code-Änderungen pro Minute über eine Refactoring-Sitzung (gemessen aus Git-Diffs, ohne Whitespace). Ein fokussierter menschlicher Entwickler produziert etwa 20–40 Zeilen pro Minute bei aktivem Coding.⁸ Die Ralph-Schleife, die Claude für 10 $/Stunde ausführt, produziert nicht das 5-fache der kognitiven Schuld eines menschlichen Entwicklers. Sie produziert weitaus mehr, weil die Tippgeschwindigkeit des menschlichen Entwicklers an seine Denkgeschwindigkeit gekoppelt ist. Die Output-Geschwindigkeit des Agenten hat keine Kopplung an Ihre Verständnisgeschwindigkeit. Der Output verdoppelt sich; das Verständnis bleibt konstant; die Schuld potenziert sich.

2. Bestandene Tests tilgen keine kognitive Schuld. Jedes Paper in diesem Wochen-Cluster behandelt bestandene Tests als notwendiges, aber unzureichendes Signal. Die Typ-B-Fehler von Deng et al. bestehen alle automatisierten Prüfungen. Winks Fehlverhalten-Taxonomie umfasst Agenten, die funktionierenden Code produzieren, der nicht der Intention entspricht. Mein Evidenz-Gate erfordert sechs Kriterien über „Tests bestanden” hinaus, und das am schwersten zu verifizierende Kriterium bleibt „versteht der Entwickler, was sich geändert hat?”⁶

Hier ein konkretes Beispiel. Mein Agent refaktorierte eine Datenbankabfrage zur Verwendung eines CTE (Common Table Expression) anstelle einer Subquery. Beide Ansätze lieferten identische Ergebnisse. Tests bestanden. Die CTE-Version lief 3x langsamer auf unserem Datensatz, weil der Query-Planner die Prädikate nicht in den CTE pushen konnte. Ich entdeckte es bei einer routinemäßigen EXPLAIN ANALYZE-Prüfung zwei Wochen später. Die Tests des Agenten verifizierten die Korrektheit. Nichts in der Test-Suite verifizierte die Performance-Charakteristiken. Die kognitive Schuld war nicht „schlechter Code.” Die kognitive Schuld war „Ich wusste nicht, dass sich der Ausführungsplan geändert hatte.”

3. Kognitive Schuld ist unsichtbar, bis sie es nicht mehr ist. Technische Schuld kündigt sich durch langsame Builds, instabile Tests und Merge-Konflikte an. Kognitive Schuld ist still, bis jemand fragt „warum verwendet der Payment-Service Fixed-Interval-Polling?” und niemand es weiß. Storeys Beitrag besteht darin, dem unsichtbaren Problem einen Namen zu geben.

Fünf Warnsignale, dass Sie kognitive Schuld ansammeln

Bevor Sie das Problem beheben können, müssen Sie es sehen. Diese fünf Signale zeigen sich vor Produktionsvorfällen:

1. Sie können den letzten Agent-PR nicht erklären, ohne ihn erneut zu lesen. Öffnen Sie den letzten PR, den Ihr Agent erstellt hat. Beschreiben Sie, ohne den Diff anzuschauen, was sich geändert hat und warum. Wenn Sie es nicht können, haben Sie Code gemergt, den Sie nicht verstehen. Ich verfolge dies, indem ich meinem Review-Prozess eine einzeilige „Zusammenfassungsprüfung” hinzufüge: Vor der Genehmigung schreibe ich eine Ein-Satz-Erklärung in den PR-Kommentar. Wenn ich den Satz nicht schreiben kann, habe ich nicht gründlich genug geprüft.

2. Ihr git log --stat zeigt Sitzungen mit 20+ geänderten Dateien. Führen Sie das jetzt aus:

git log --stat --since="1 week ago" --author="$(git config user.name)" | \
  awk '/files? changed/ {files+=$1} END {print files, "files changed this week"}'

Vergleichen Sie die Zahl mit der Anzahl der Dateien, die Sie aus dem Gedächtnis beschreiben könnten. Die Differenz ist Ihr Rückstand an kognitiver Schuld.

3. Sie prüfen Diffs durch Scrollen, nicht durch Lesen. Scrollen ist Mustererkennung: „das sieht richtig aus.” Lesen ist Verstehen: „dies ändert das Retry-Intervall von exponentiell auf fest, was bedeutet, dass der nachgelagerte Service ein anderes Traffic-Muster sehen wird.” Wenn Ihre Prüfung weniger als eine Minute pro 100 Zeilen Diff dauert, scrollen Sie.

4. Ihre Commit-Nachrichten beschreiben WAS, nicht WARUM. „Refactor: standardize retry patterns” beschreibt, was der Agent getan hat. „Fix: exponential backoff caused thundering herd after service restart” beschreibt, warum. Wenn die Commit-Nachrichten Ihres Agenten wie das erste Beispiel klingen und Sie sie nicht umschreiben, wird niemand (einschließlich Ihres zukünftigen Ichs) die Begründung hinter der Änderung kennen.

5. Sie fühlen sich produktiv, können aber nicht aufzählen, was sich geändert hat. Schreiben Sie am Ende eines Tages mit Agent-Nutzung die drei bedeutendsten Code-Änderungen aus dem Gedächtnis auf. Wenn es Ihnen schwerfällt, war der Agent produktiv. Sie waren es nicht. Die Schuld hat sich angesammelt, während Sie sich effizient fühlten.

Kognitive-Schuld-Verhältnis: Teilen Sie die Anzahl der Dateien, die Ihr Agent in der letzten Sitzung geändert hat, durch die Anzahl derer, die Sie danach vollständig gelesen haben. Wenn das Verhältnis 3:1 übersteigt, sammelt sich Ihre kognitive Schuld schneller an, als Sie sie abbauen können.

Beginnen Sie hier: Das Drei-Dateien-Protokoll

Sie brauchen keine 95 Hooks, 7 benannte Fehlermodi oder ein Multi-Agent-Deliberationssystem, um kognitive Schuld zu managen. Beginnen Sie mit einer Regel und bauen Sie darauf auf.

Die Regel: Lesen Sie nach jeder Agent-Sitzung drei Dateien vollständig. Nicht überfliegen. Nicht scrollen. Lesen Sie jede Zeile der drei Dateien mit den größten Diffs.

Warum drei? Weil drei Dateien erreichbar sind (Sie werden es tatsächlich tun) und diagnostisch (Sie werden feststellen, ob die Änderungen des Agenten mit Ihrem mentalen Modell übereinstimmen). Wenn sie übereinstimmen, ist Ihre Schuld beherrschbar. Wenn nicht, haben Sie einen Frühindikator, dass auch die übrigen Änderungen der Sitzung von Ihrem Verständnis abweichen.

Umsetzung

Nachdem Ihr Agent fertig ist, führen Sie aus:

# Show the 3 files with the largest diffs from the last commit
git diff HEAD~1 --stat | sort -t'|' -k2 -rn | head -3

Lesen Sie dann diese drei Dateien. Nicht den Diff. Die vollständige Datei. Kontext ist entscheidend: Der Diff zeigt, was sich geändert hat, aber die Datei zeigt, was die Änderung im Zusammenhang bedeutet.

Ausbaustufen

Sobald das Drei-Dateien-Protokoll zur Gewohnheit geworden ist (etwa eine Woche), fügen Sie jeweils eine Ebene hinzu:

Woche	Ergänzung	Was sie erkennt
1	Drei-Dateien-Lektüre	Verständnislücken
2	Ein-Satz-PR-Zusammenfassung (vor der Genehmigung geschrieben)	Absichtsabweichung
3	`EXPLAIN ANALYZE` für jede geänderte Abfrage	Performance-Regressionen
4	Commit-Nachrichten umschreiben (von WAS zu WARUM)	Verlorene Begründung
5+	Benannte Fehlermodi für die wiederkehrenden Muster Ihres Teams	Strukturelle Blindheit

Jede Ebene tilgt eine bestimmte Kategorie kognitiver Schuld. Die Drei-Dateien-Lektüre erkennt Verständnislücken. Die PR-Zusammenfassung erkennt Absichtsabweichungen. Die Abfrage-Prüfung erkennt den oben beschriebenen CTE-Vorfall. Das Umschreiben der Commit-Nachrichten bewahrt Begründungen, die sonst verfliegen würden. Benannte Fehlermodi verhindern wiederholte Fehler.

Was die Forschung vorschlägt (und was tatsächlich funktioniert)

Die fünf Paper deuten auf vier strukturelle Interventionen hin. Alle vier existieren in irgendeiner Form in meiner Claude Code Toolchain, gebaut bevor die Paper veröffentlicht wurden, validiert durch dieselben Muster, die die Paper beschreiben.

Unabhängige Verifizierung. Wink überwacht das Verhalten des Agenten gegen die erklärte Absicht. Meine Qualitätsschleife erfordert das erneute Lesen jeder geschriebenen Zeile und verbietet explizit den Phantom-Verification-Fehlermodus (behaupten, Tests bestehen, ohne sie in der aktuellen Sitzung ausgeführt zu haben).⁷ Die Lösung ist strukturell: Die Verifizierung muss von einem anderen Prozess durchgeführt werden als dem, der den Output produziert hat.

In der Praxis erzwinge ich dies mit einem Post-Session-Hook, der die Test-Suite unabhängig ausführt, anstatt dem Bericht des Agenten zu vertrauen:

# Post-session verification hook (simplified)
# Agent says "tests pass" — verify independently
cd "$PROJECT_DIR"
test_output=$(python -m pytest --tb=short -q 2>&1)
exit_code=$?

if [ $exit_code -ne 0 ]; then
  echo "AGENT CLAIMED TESTS PASS. INDEPENDENT RUN FAILED:"
  echo "$test_output"
  exit 1
fi

Der Agent meldete „alle Tests bestanden” und meinte es ernst. Der unabhängige Lauf erkennt Umgebungsunterschiede, fehlende Fixtures und Tests, die durch Seiteneffekte statt durch Korrektheit bestehen. In 11 Monaten Betrieb dieses Hooks hat er 23 falsch-positive Ergebnisse aus Agent-Selbstberichten erkannt.⁹

Transaktionale Grenzen. Atomix verpackt Tool-Aufrufe in Transaktionen mit Rollback. Mein Deliberationssystem sichert irreversible Aktionen durch Konsens mehrerer unabhängiger Agenten ab. Beide Ansätze fügen an den Stellen Reibung zur Agent-Ausführung hinzu, an denen Fehler am kostspieligsten sind. Die praktische Version für die meisten Teams: Fordern Sie einen manuellen Genehmigungsschritt vor jeder vom Agenten initiierten Datenbankmigration, jedem Deployment oder jedem externen API-Aufruf.

Verhaltenstaxonomien. Winks drei Fehlermodi (Abweichung, Schleifen, Tool-Missbrauch) und meine sieben benannten Fehlermodi (Shortcut Spiral, Confidence Mirage, Good-Enough Plateau, Tunnel Vision, Phantom Verification, Deferred Debt, Hollow Report) dienen demselben Zweck: Sie machen unsichtbare Fehler sichtbar, indem sie ihnen Namen geben.⁷ Ein Entwickler, der sagen kann „der Agent zeigt Tunnel Vision” kann eingreifen, bevor sich die Schuld potenziert. Beginnen Sie mit drei Namen für die drei häufigsten Agent-Fehler Ihres Teams. Die Namen sind wichtiger als die Taxonomie.

Selektives Engagement. Die Typ-A/Typ-B-Unterscheidung von Deng et al. und das Konfidenzmodul in meinem Deliberationssystem kodieren beide dieselbe Erkenntnis: Nicht jeder Agent-Output verdient dasselbe Maß an Prüfung. Eine nützliche Heuristik:

Agent-Output	Prüfungsniveau	Warum
Test-Datei-Ergänzungen	Überfliegen	Geringe Auswirkungsreichweite, leicht durch Ausführen zu verifizieren
Konfigurations-/Abhängigkeitsänderungen	Vollständig lesen	Stille Produktionsauswirkung
Datenbankschema oder -abfragen	Vollständig lesen + EXPLAIN	Performance ist in Tests unsichtbar
Authentifizierung/Autorisierung	Vollständig lesen + Sicherheitsprüfung	Typ-B-Fehler von Deng häufen sich hier
Refactoring über 10+ Dateien	Drei-Dateien-Protokoll + Stichproben	Vollständiges Verständnis in diesem Umfang unmöglich

Die Frage, die noch niemand beantwortet hat

Alle fünf Paper beschreiben das Problem. Wink, Atomix und OpaqueToolsBench schlagen Teillösungen vor. Keines von ihnen beantwortet die Frage, die am meisten zählt: Wie misst man kognitive Schuld?

Technische Schuld hat Näherungswerte: zyklomatische Komplexität, Testabdeckung, Alter der Abhängigkeiten. Kognitive Schuld hat keine gleichwertige Metrik. Mein Evidenz-Gate fragt „versteht der Entwickler, was sich geändert hat?” erzwingt die Antwort aber durch Selbstauskunft – was genau die Verifizierungsmethode ist, die der Confidence-Mirage-Fehlermodus ausnutzt.

Eine nützliche Metrik würde das Delta zwischen dem, was der Agent geändert hat, und dem, was der Entwickler erklären kann, verfolgen. Die Dateianzahl ist ein grober Näherungswert. Diff-Komplexität (nicht Zeilenanzahl, sondern semantische Änderungsdichte) ist besser. Die ideale Metrik würde mit der Wahrscheinlichkeit eines Produktionsvorfalls korrelieren, der durch ein Missverständnis von Agent-generiertem Code verursacht wird. Diese Metrik hat noch niemand gebaut. Der interaktive Rechner oben approximiert das Verhältnis, aber ein Verhältnis ist kein Schwellenwert. Wir wissen noch nicht, wo die Grenze zwischen „beherrschbarer Schuld” und „Vorfall, der darauf wartet zu passieren” liegt.

Bis jemand diese Metrik baut, bleibt die praktische Antwort dieselbe wie vor KI-Agenten: den Code lesen. Die Geschwindigkeit des Agenten macht das Lesen jeder Zeile unpraktikabel. Das Drei-Dateien-Protokoll, Verhaltenstaxonomien und transaktionale Grenzen reduzieren das Volumen an Code, das menschliche Aufmerksamkeit erfordert. Die kognitive Schuld, die nach diesen Filtern verbleibt, ist die Schuld, die zählt.

Kernaussagen

Fünf unabhängige Forschungsgruppen konvergierten in einer Woche zum selben Problem. Wenn unabhängige Teams gleichzeitig zur selben Schlussfolgerung gelangen, ist das zugrunde liegende Problem strukturell, nicht theoretisch.
Kognitive Schuld ist der Engpass, nicht Code-Qualität. Agenten produzieren korrekten Code schneller, als Entwickler ihn verstehen können. Tests, Linter und Qualitäts-Gates reduzieren das Problem, können es aber nicht eliminieren.
Beginnen Sie mit dem Drei-Dateien-Protokoll. Lesen Sie nach jeder Agent-Sitzung die drei Dateien mit den größten Diffs vollständig. Ergänzen Sie weitere Ebenen (PR-Zusammenfassungen, Abfrage-Prüfungen, Commit-Umschreibungen, benannte Fehlermodi) im Wochentakt.
Benennen Sie die Fehlermodi. Winks Taxonomie und Jiros benannte Fehlermodi dienen demselben Zweck: unsichtbare Probleme sichtbar machen. Wenn Ihr Agent-System keine Namen für seine Fehlermuster hat, können Sie sie nicht erkennen.
Fügen Sie Reibung an irreversiblen Grenzen hinzu. Transaktionale Tool-Aufrufe (Atomix) und Multi-Agent-Konsens (Deliberation) verursachen beide Kosten an den Punkten, an denen Fehler am teuersten sind. Die Kosten lohnen sich.

FAQ

Was ist kognitive Schuld in der Softwareentwicklung?

Kognitive Schuld ist die Lücke zwischen dem, was Code tut, und dem, was Entwickler über den Code verstehen. Margaret-Anne Storey formulierte das Konzept, um es von technischer Schuld zu unterscheiden, die in der Codebasis lebt. Kognitive Schuld lebt im Kopf des Entwicklers. KI-Coding-Agenten beschleunigen kognitive Schuld, weil sie funktionierenden Code schneller produzieren, als Entwickler ihn lesen, prüfen und verinnerlichen können.

Wie erkennt man, dass sich kognitive Schuld ansammelt?

Fünf praktische Signale: Sie können den letzten Agent-PR nicht erklären, ohne ihn erneut zu lesen; das Git-Log zeigt 20+ geänderte Dateien pro Sitzung; Sie prüfen Diffs durch Scrollen statt durch Lesen; Commit-Nachrichten beschreiben, was sich geändert hat, aber nicht warum; und Sie fühlen sich produktiv, können aber nicht aufzählen, was sich geändert hat. Das Verhältnis von geänderten zu geprüften Dateien ist der einfachste quantitative Näherungswert.

Sollten Entwickler jede Zeile prüfen, die ein KI-Agent schreibt?

Jede Zeile zu prüfen ist bei der Output-Geschwindigkeit von Agenten unpraktikabel. Das Drei-Dateien-Protokoll bietet eine praktische Alternative: Lesen Sie nach jeder Agent-Sitzung die drei Dateien mit den größten Diffs vollständig. Selektive Prüfung nach Risiko füllt die verbleibende Lücke. Routineänderungen mit hoher Testabdeckung brauchen weniger Aufmerksamkeit. Architekturänderungen, Sicherheitsmodifikationen, Datenbankabfragen und irreversible Aktionen erfordern vollständige Prüfung. Die Typ-A/Typ-B-Fehlerklassifikation von Deng et al. liefert den Rahmen: Typ-A-Fehler (fehlende Tools, schlechte Prompts) werden durch automatische Prüfungen erkannt. Typ-B-Fehler (Urteilslücken) erfordern menschliche Überprüfung.

Was ist die minimal praktikable Intervention gegen kognitive Schuld?

Beginnen Sie mit dem Drei-Dateien-Protokoll: Führen Sie nach jeder Agent-Sitzung git diff HEAD~1 --stat | sort -t'|' -k2 -rn | head -3 aus, um die drei am stärksten geänderten Dateien zu finden, und lesen Sie dann jede Datei vollständig (nicht den Diff, die vollständige Datei im Kontext). Fügen Sie eine Ebene pro Woche hinzu: PR-Zusammenfassungssätze, EXPLAIN ANALYZE für geänderte Abfragen, Umschreiben von Commit-Nachrichten von „was" zu „warum" und benannte Fehlermodi für wiederkehrende Muster.

Referenzen

Storey, Margaret-Anne, „How Generative and Agentic AI Shift Concern from Technical Debt to Cognitive Debt.” Referenziert über Simon Willison, 15. Februar 2026. simonwillison.net. ↩
Nanda, Rahul, et al., „Wink: Recovering from Misbehaviors in Coding Agents,” arXiv:2602.17037, Februar 2026. arxiv.org. ↩
Mohammadi, Bardia, et al., „Atomix: Timely, Transactional Tool Use for Reliable Agentic Workflows,” arXiv:2602.14849, Februar 2026. arxiv.org. ↩
Hallinan, Skyler, et al., „OpaqueToolsBench: Learning Nuances of Tool Behavior Through Interaction,” arXiv:2602.15197, Februar 2026. arxiv.org. ↩
Deng, Gelei, et al., „What Makes a Good LLM Agent for Real-world Penetration Testing?” arXiv:2602.17622, Februar 2026. arxiv.org. ↩
Jiro-Qualitätssystem-Evidenz-Gate des Autors. Sechs Kriterien: folgt Codebasis-Mustern, einfachste funktionierende Lösung, Grenzfälle behandelt, Tests bestanden, keine Regressionen, löst das tatsächliche Problem. Implementierung in Warum mein KI-Agent eine Qualitätsphilosophie hat. ↩
Benannte Fehlermodus-Taxonomie des Autors. Sieben Modi dokumentiert im Jiro-Qualitätssystem, durchgesetzt durch 95 Hooks in der Claude Code Toolchain. Siehe Qualitätsphilosophie für die vollständige Taxonomie und Erkennungsmethoden. ↩↩
Agent-Output gemessen aus git diff --stat über 30 Ralph-Loop-Sitzungen im Januar–Februar 2026, durchschnittlich 140–200 bedeutsame Zeilen pro Minute (ohne Whitespace, Imports und Boilerplate). Menschliche Basislinie geschätzt aus der eigenen Pre-Agent-Commit-Historie des Autors: 20–40 Zeilen pro Minute in fokussierten Coding-Sitzungen. Diese Zahlen sind illustrativ und variieren je nach Aufgabentyp. ↩
Post-Session-Verifizierungsprotokolle des Autors, erfasst in ~/.claude/state/verification/. 23 falsch-positive Ergebnisse erkannt über ungefähr 400 Agent-Sitzungen von Mai 2025 bis Februar 2026 (5,75 % Falsch-Positiv-Rate bei Agent-Selbstberichten zum Teststatus). ↩