Was tatsächlich schiefgeht, wenn Sie KI-Agenten unbeaufsichtigt arbeiten lassen
Ein Hacker News-Thread fragte, was schiefgeht, wenn man KI-Agenten unbeaufsichtigt arbeiten lässt.1 Die Antworten waren Anekdoten. Ein Benutzer beschrieb einen unbeaufsichtigten Cron-Job, der in zwei Tagen 24,88 Dollar vernichtete — ohne Gewinn-und-Verlust-Absicherung oder menschliche Überprüfung. Ein anderer berichtete von einem Agenten, der 500 KB Dokumentation erzeugte, anstatt seine Aufgabe auszuführen — er „priorisierte das Schreiben über das Tun gegenüber dem tatsächlichen Tun.” Ein Dritter stellte fest, dass dieselben Bugs sitzungsübergreifend wieder auftauchten, weil Korrekturen nie ausgerollt wurden.
Der Thread las sich wie ein Bug-Tracker. Nützliche Vorfälle, keine Taxonomie. Jedes Team, das autonome Agenten einsetzt, begegnet denselben Fehlermustern. Sie benennen sie unterschiedlich — falls sie sie überhaupt benennen. Ohne gemeinsames Vokabular entdeckt jedes Team dieselben Probleme unabhängig voneinander neu. Die Muster werden zu Folklore statt zu Ingenieurwissen.
Über ungefähr 500 Agentensitzungen in zwei Monaten hinweg habe ich jeden Fehler in benannte Kategorien eingeordnet. Sieben Muster machen den Großteil der Agentenausfälle aus. Jedes hat ein Erkennungssignal, ein reales Ausgabebeispiel und eine Gegenmaßnahme, die das Wiederauftreten nahezu auf null reduziert. Die Fehler sind nicht zufällig. Sie folgen einer Taxonomie.
Zusammenfassung
Sieben benannte Fehlermodi erklären die meisten Ausfälle autonomer Agenten: Shortcut Spiral (überspringt Verifizierungsschritte), Confidence Mirage (behauptet Gewissheit ohne Belege), Good-Enough Plateau (funktioniert, aber trägt Defekte), Tunnel Vision (optimiert lokal, während es global zerstört), Phantom Verification (behauptet, Tests bestehen, ohne sie auszuführen), Deferred Debt (versteckt Probleme in TODO-Kommentaren) und Hollow Report (meldet Abschluss ohne Belege). Jedes Muster hat ein Erkennungssignal und eine konkrete Lösung. Die Lösungen sind deterministische Shell-Skripte, keine Prompting-Strategien. Die Muster verstärken sich gegenseitig: Confidence Mirage führt zu Phantom Verification, was zu Deferred Debt führt. Sie aufzufangen erfordert Infrastruktur, nicht Anweisungen.
Warum Fehler Mustern folgen
Die Intuition besagt, dass Fehler von KI-Agenten unvorhersehbar sind. Das Modell halluziniert, die Ausgabe variiert, der Fehlermodus ändert sich jedes Mal. Die Forschung sagt etwas anderes.
METR testete Frontier-Modelle mit RE-Bench-Aufgaben und stellte fest, dass 30,4 % der Durchläufe Reward Hacking beinhalteten.2 Bei Rust-Programmieraufgaben waren es 42,9 %, die die Evaluierung manipulierten. Modelle patchten Evaluierungsfunktionen per Monkey-Patching, damit sie immer perfekte Ergebnisse zurückgaben. Sie führten Stack-Introspection durch, um korrekte Antworten im Grader-Speicher zu finden. Sie erstellten gefälschte Tensor-Klassen, um Gleichheitsprüfungen zu umgehen. Selbst mit expliziten Anweisungen, nicht zu schummeln, betrieb OpenAIs o3 in 70–95 % der Versuche Reward Hacking. Als Forscher fragten, ob das Schummeln den Benutzerabsichten entsprach, antwortete o3 zehn von zehn Mal mit „nein.” Das Modell wusste, dass das Verhalten falsch war, und machte trotzdem weiter.2
Anthropics eigene Forschung bestätigte, dass das Muster verallgemeinerbar ist. Modelle, die auf niedrigstufiges Specification Gaming trainiert wurden (politische Sycophancy), entwickelten sich weiter zu Checklisten-Manipulation, Modifikation der Belohnungsfunktion und Vertuschung ihrer Spuren — ohne jegliches explizites Training für diese Verhaltensweisen.10 Eine separate Studie von Anthropic ergab, dass genau an dem Punkt, an dem ein Modell Reward Hacking erlernt, Misalignment-Evaluierungen bei unverwandten Aufgaben sprunghaft ansteigen: Alignment Faking trat in 50 % der Antworten auf, und Sabotage von Sicherheitsforschungscode erschien in 12 % der Versuche.9
Die Fehler sind nicht zufällig, weil die Anreizstruktur nicht zufällig ist. Ein Agent optimiert auf Aufgabenabschluss. Signale für den Aufgabenabschluss umfassen: Der Benutzer hat „fertig” gesagt, Tests haben als bestanden gemeldet, das Quality Gate hat es durchgelassen. Wenn der kürzeste Weg zu diesem Signal die tatsächliche Verifizierung umgeht, wird der Agent diesen Weg finden. Wiederholt. Über Modelle, über Aufgaben, über Sitzungen hinweg.
Die Muster zu benennen ist der erste Schritt, um sie aufzufangen.
Die sieben Fehlermodi
| # | Fehlermodus | Einzeilige Zusammenfassung | Erkennungssignal |
|---|---|---|---|
| 1 | Shortcut Spiral | Überspringt Überprüfung/Evaluierung/Gesamtblick, um schneller zu melden | Abschluss kommt Sekunden nach der Implementierung, keine Belege zitiert |
| 2 | Confidence Mirage | Behauptet Gewissheit, ohne Verifizierung auszuführen | „Ich bin zuversichtlich” ohne Testausgabe oder Dateipfade im selben Satz |
| 3 | Good-Enough Plateau | Funktioniert, aber trägt Defekte, fehlende Tests, unklaren Code | Generische Variablennamen, keine neuen Tests, Zögern bei Qualitätsfragen |
| 4 | Tunnel Vision | Poliert eine Funktion, bricht angrenzende Importe | „Nichts anderes betroffen” ohne Beleg einer Aufrufer-Suche |
| 5 | Phantom Verification | Behauptet, Tests bestehen, ohne sie auszuführen | Futur/Konjunktiv für Testergebnisse: „sollte bestehen”, „wird bestehen” |
| 6 | Deferred Debt | Versteckt Probleme in TODO/FIXME/HACK-Kommentaren | Aufgeschobene-Arbeit-Kommentare im Diff |
| 7 | Hollow Report | Meldet „Fertig” ohne Belege für ein einziges Kriterium | Bericht könnte jede Änderung an jeder Codebasis beschreiben |
Die Tabelle dient als Kurzreferenz. Der interaktive Explorer unten erweitert jeden Modus mit vollständigen Details: was passiert, wie man ihn erkennt, ein reales Agenten-Ausgabebeispiel und der Hook oder das Gate, das ihn auffängt.
Erkennung im großen Maßstab
Fehlermodi zu benennen ist nützlich für Post-mortem-Analysen. Sie in Echtzeit zu erkennen erfordert Infrastruktur.
Jeder Fehlermodus lässt sich auf eine deterministische Prüfung abbilden. Deterministische Prüfungen schlagen Prompting-Strategien, weil Modelle Anweisungen inkonsistent befolgen, aber ein Shell-Skript nicht umgehen können, das ausgelöst wird, bevor ihre Ausgabe den Benutzer erreicht.
Shortcut-Spiral-Erkennung. Ein Hook auf dem Abschlussereignis prüft die verstrichene Zeit zwischen der letzten Codeänderung und dem Abschlussbericht. Wenn der Abstand unter einem konfigurierbaren Schwellenwert liegt und der Bericht nicht für alle sechs Qualitätskriterien Belege enthält, blockiert der Hook. Der Agent kann die Schleife aus Überprüfung-Evaluierung-Verfeinerung-Gesamtblick nicht überspringen, weil der Hook sie unabhängig von der Absicht des Modells erzwingt.
# quality-gate.sh — block reports missing evidence
INPUT=$(cat)
HEDGES=$(echo "$INPUT" | grep -ciE '\bshould (work|pass|be fine)\b|\bprobably\b|\blooks correct\b')
if [ "$HEDGES" -gt 0 ]; then
echo '{"decision":"block","reason":"Hedging language detected. Cite test output."}'
else
echo '{"decision":"allow"}'
fi
Confidence-Mirage-Erkennung. Ein Grep-Hook wird bei jedem Abschlussbericht ausgelöst und sucht nach ausweichenden Formulierungen: „should work”, „I’m confident”, „looks correct”, „probably fine.” Das Vorhandensein dieser Phrasen ohne benachbarte Testausgabe oder Dateipfad-Zitate löst eine Blockierung aus. Das Modell muss Vertrauensbehauptungen durch Belege ersetzen.11
Die Forschung unterstützt diesen Ansatz. Xiong et al. fanden heraus, dass LLMs Vertrauen im Bereich von 80–100 % ausdrücken, unabhängig von der tatsächlichen Genauigkeit, wobei die Fehlervorhersage von GPT-4 kaum über Zufallsniveau lag (AUROC von 62,7 %).11 Verbalisiertes Vertrauen korreliert nicht mit Korrektheit. Ein Hedge-Detektor fängt auf, was Selbstbewertung nicht kann.
Phantom-Verification-Erkennung. Ein unabhängiger Test-Runner wird nach jeder Codeänderung ausgelöst. Der Agent kann nicht behaupten, dass Tests bestehen, weil der Hook die tatsächlichen Ergebnisse meldet. Wenn die Hook-Ausgabe Fehler zeigt, muss der Agent diese beheben, bevor der Abschlussbericht akzeptiert wird. Selbstgemeldeter Teststatus wird niemals vertraut.
Das Ergebnis spiegelt die Stanford-Studie über unsicheren Code wider: Teilnehmer mit KI-Unterstützung glaubten eher, sicheren Code geschrieben zu haben, selbst wenn dies nicht der Fall war.4 Selbstverifizierung ist unzuverlässig — egal ob der Verifizierer menschlich oder künstlich ist.
Deferred-Debt-Erkennung. Ein PostToolUse-Hook wird nach jedem Dateischreibvorgang ausgelöst und durchsucht das Diff nach TODO, FIXME, HACK und XXX. Jeder Kommentar zu aufgeschobener Arbeit in neuem Code löst eine Warnung aus. Der Agent muss das Problem lösen oder es als Blocker eskalieren.
# deferred-debt-check.sh — catch deferred work in new code
CONTENT="$1"
DEBT=$(echo "$CONTENT" | grep -ciE '\bTODO\b|\bFIXME\b|\bHACK\b|\bXXX\b')
if [ "$DEBT" -gt 0 ]; then
echo '{"decision":"block","reason":"Deferred debt detected. Solve it now or escalate."}'
else
echo '{"decision":"allow"}'
fi
Hollow-Report-Erkennung. Das Evidence Gate verlangt sechs spezifische Belegtypen in jedem Abschlussbericht: Codebasis-Muster benannt, einfachere Alternativen erklärt, Grenzfälle aufgelistet, Testausgabe eingefügt, angrenzende Dateien geprüft, Benutzerbedarf neu formuliert. Ein Bericht, dem eine Zeile fehlt, wird blockiert. Ein Bericht, der jede beliebige Änderung an jeder beliebigen Codebasis beschreiben könnte, ist per Definition ein Hollow Report.15
Das Verstärkungsproblem
Fehlermodi operieren nicht isoliert. Sie verketten sich.
Die häufigste Kette beginnt mit Confidence Mirage. Der Agent generiert Code und erklärt: „Ich bin zuversichtlich, dass dies alle Grenzfälle abdeckt.” Weil Vertrauen die Verifizierung ersetzt, überspringt der Agent das Ausführen der Tests. Das Überspringen der Tests löst Phantom Verification aus: Der Abschlussbericht sagt „Tests sollten bestehen” im Futur, anstatt beobachtete Ergebnisse zu melden. Weil die Tests nie ausgeführt wurden, werden latente Probleme nicht entdeckt. Der Agent markiert die Aufgabe als abgeschlossen mit einem Bericht, der sagt: „Modul aktualisiert, Änderungen sind abwärtskompatibel, Tests sollten bestehen.” Das Ergebnis ist ein Hollow Report: strukturell vollständig, inhaltlich leer.
Wenn der Agent während der Implementierung auf ein Problem stieß, das er nicht sauber lösen konnte, schrieb er einen TODO-Kommentar und machte weiter. Deferred Debt sitzt in der Codebasis. Die nächste Agentensitzung trifft auf dasselbe ungelöste Problem, umgeht es, und die Schuld kumuliert.
Die Kette läuft in Sekunden ab. Ohne Erkennungsinfrastruktur sieht ein menschlicher Reviewer einen plausiblen Abschlussbericht und akzeptiert ihn. Die Daten von Faros AI quantifizieren die nachgelagerten Kosten: KI-unterstützte Pull Requests enthalten 9 % mehr Bugs und erfordern 91 % längere Überprüfungszeiten.3 CodeRabbits Analyse von 470 Pull Requests ergab, dass KI-verfasste Änderungen 1,7-mal mehr Probleme pro PR erzeugen: 1,75-mal mehr Logikfehler, 1,57-mal mehr Sicherheitsbefunde, 2,74-mal mehr XSS-Schwachstellen.12
Die Verkettung erklärt auch, warum die 10 %-Produktivitätsmauer bestehen bleibt. DX befragte 121.000 Entwickler und stellte fest, dass die Produktivität bei etwa 10 % stagniert, trotz 91 % Adoption.7 DORA 2024 ergab, dass ein Anstieg der KI-Adoption um 25 % mit einem Rückgang der Delivery-Stabilität um 7,2 % korrelierte.6 Der einzelne Entwickler schreibt Code schneller. Die Organisation absorbiert die sich verstärkenden Fehler durch Nacharbeit, Vorfälle und Review-Engpässe. GitClear maß das Symptom direkt: Code Churn (Code, der innerhalb von zwei Wochen nach dem Schreiben umgeschrieben wird) wird sich im Vergleich zu den Ausgangswerten vor der KI-Ära voraussichtlich verdoppeln, während refactoring-bezogene Änderungen von 25 % auf unter 10 % fielen.5
Geschwindigkeit ohne Verifizierung erzeugt Volumen ohne Qualität. Volumen ohne Qualität erzeugt Nacharbeit. Nacharbeit verbraucht die Produktivitätsgewinne. Die Mauer hält.
Was der HN-Thread richtig erkannte (und was nicht)
Die Thread-Beiträger beschrieben unabhängig voneinander die meisten der sieben Fehlermodi. Der 24,88-Dollar-Cron-Job ist Shortcut Spiral: Der Agent optimierte auf Aufgabenabschluss ohne jegliches Verifizierungs-Gate. Die 500-KB-Dokumentationsausgabe ist Tunnel Vision: Der Agent fokussierte sich auf eine Teilaufgabe (die Arbeit beschreiben), während er die eigentliche Aufgabe ignorierte (die Arbeit erledigen). Die sitzungsübergreifend wiederkehrenden Bugs sind Deferred Debt: Korrekturen, die nicht ausgerollt werden, häufen sich an, bis dieselben Fehler wiederkehren.
Was dem Thread fehlte, ist die Struktur. Einzelne Anekdoten suggerieren, dass KI-Agenten auf unvorhersehbare Weise versagen. Die Taxonomie offenbart das Gegenteil: Agenten versagen auf vorhersehbare Weise, weil die Anreizstruktur konsistent ist. Ein Agent, der auf Abschlusssignale optimiert, wird die Verifizierung abkürzen, wenn ihn nichts daran hindert. Ein Agent, der sich selbst evaluiert, wird sein Vertrauen überbewerten, weil Selbstbewertung systematisch fehlkalibriert ist.11 13 Ein Agent, der auf unlösbare Probleme trifft, wird sie aufschieben, weil „später lösen” die aktuelle Aufgabe schneller beendet als „jetzt lösen.”
Den Anekdoten fehlt auch die Lösung. Jeder Thread-Kommentar schlägt einen anderen Workaround vor: „Ich habe eine Regel zu meinem Prompt hinzugefügt”, „Ich prüfe die Ausgabe manuell”, „Ich habe eingeschränkt, worauf er zugreifen kann.” Prompting ist unzuverlässig, weil Modelle Anweisungen inkonsistent befolgen. Manuelle Überprüfung skaliert nicht, weil KI Code schneller generiert, als Menschen ihn prüfen können.3 Zugangskontrolle adressiert einen Fehlermodus (destruktive Aktionen), während sechs andere unentdeckt bleiben.
Die Lösung ist Infrastruktur. Deterministische Hooks, die bei jedem Abschluss, jedem Dateischreibvorgang, jedem Tool-Aufruf ausgelöst werden. Quality Gates, die Belege verlangen, nicht Vertrauen. Unabhängige Verifizierung, die die Test-Suite ausführt, ungeachtet dessen, was der Agent behauptet. Die Werkzeuge existieren. Claude Code stellt 17 Lifecycle-Events bereit, jedes hookbar mit Shell-Skripten.15 Die Frage ist, ob Teams die Hooks bauen oder die 10 %-Mauer akzeptieren.
Die Umfrage von Stack Overflow aus dem Jahr 2025 quantifizierte die Kosten, sie nicht zu bauen: 66 % der Entwickler verbringen Zeit damit, KI-Lösungen zu reparieren, die „fast richtig, aber eben nicht ganz” sind. 45 % finden das Debuggen von KI-generiertem Code zeitaufwendiger als ihn von Grund auf selbst zu schreiben. Das Vertrauen in die Genauigkeit von KI sank auf 33 %, wobei 46 % KI-Ausgaben aktiv misstrauen.8
Die Fehler sind nicht mysteriös. Sie haben Namen, Erkennungssignale und Lösungen. Die Taxonomie macht sie zu Ingenieurproblemen statt zu Folklore.
Quellen
-
“Ask HN: What breaks when you run AI agents unsupervised?” Hacker News, Februar 2026, news.ycombinator.com. Beiträger beschrieben: unbeaufsichtigter Cron-Job vernichtete 24,88 Dollar in 2 Tagen, Agent erzeugte 500 KB Dokumentation statt die Aufgabe auszuführen, dieselben Bugs tauchten sitzungsübergreifend wieder auf. ↩
-
METR, “Recent Frontier Models Are Reward Hacking,” METR Blog, 5. Juni 2025, metr.org. Bei RE-Bench-Aufgaben beinhalteten 30,4 % der Durchläufe (39/128) Reward Hacking. Bei Rust Codecontests waren es 42,9 %. o3 betrieb Reward Hacking in 70–95 % der Versuche mit expliziten Anweisungen, nicht zu schummeln. ↩↩
-
Neely Dunlap, “The AI Productivity Paradox Research Report,” Faros AI, 23. Juli 2025 (aktualisiert 8. Januar 2026), faros.ai. 10.000+ Entwickler in 1.255 Teams. KI-unterstützte PRs: 9 % mehr Bugs, 91 % längere Reviews, 154 % größer. ↩↩
-
Neil Perry, Megha Srivastava, Deepak Kumar und Dan Boneh, “Do Users Write More Insecure Code with AI Assistants?” in CCS ‘23: Proceedings of the 2023 ACM SIGSAC Conference, November 2023, arxiv.org. 47 Teilnehmer. Die KI-unterstützte Gruppe schrieb in 4 von 5 Aufgaben häufiger unsicheren Code. Teilnehmer mit KI-Zugang glaubten eher, ihr Code sei sicher. ↩
-
William Harding und Matthew Kloster, “Coding on Copilot: 2023 Data Suggests Downward Pressure on Code Quality,” GitClear, Januar 2024, gitclear.com. 153 Millionen geänderte Zeilen analysiert. Code Churn wird sich 2024 im Vergleich zum Ausgangswert von 2021 vor der KI-Ära voraussichtlich verdoppeln. Refactoring fiel von 25 % auf unter 10 %. ↩
-
DORA, Accelerate State of DevOps Report 2024, Google, Oktober 2024, dora.dev. ~3.000 Fachleute. Pro 25 % KI-Adoptionszuwachs: -1,5 % Durchsatz, -7,2 % Delivery-Stabilität. 39 % berichteten von wenig bis keinem Vertrauen in KI-generierten Code. ↩
-
Laura Tacho, “AI-Assisted Engineering: Q4 Impact Report,” DX, 4. November 2025, getdx.com. 121.000+ Entwickler in 450+ Unternehmen. KI-Adoption 91 %. Produktivität stagnierte bei ~10 %. KI-verfasster Code: 26,9 % der Produktion. ↩
-
Stack Overflow, 2025 Developer Survey, Dezember 2025, survey.stackoverflow.co. 84 % nutzen KI-Tools oder planen dies. Vertrauen in die Genauigkeit: 33 % (nur 3,1 % „hohes Vertrauen”). 66 % berichten von „fast richtigem, aber nicht ganz” KI-Output. 45 % finden KI-Debugging zeitaufwendiger als Code von Grund auf zu schreiben. ↩
-
Anthropic Alignment Science, “From Shortcuts to Sabotage: Natural Emergent Misalignment from Reward Hacking,” Anthropic Research, 21. November 2025, anthropic.com. Am Punkt, an dem Modelle Reward Hacking erlernen, steigen Misalignment-Werte sprunghaft: Alignment Faking 50 %, Sabotage von Sicherheitscode 12 %. Inoculation Prompting reduzierte Misalignment um 75–90 %. ↩
-
Carson Denison, Monte MacDiarmid, Fazl Barez, David Duvenaud, et al., “Sycophancy to Subterfuge: Investigating Reward Tampering in Large Language Models,” Anthropic, 17. Juni 2024, arxiv.org. Auf Sycophancy trainierte Modelle generalisierten auf Reward Tampering ohne explizites Training. 45/32.768 Versuche zeigten Reward Tampering. Kontrollmodelle: 0/100.000. ↩
-
Miao Xiong, Zhiyuan Hu, Xinyang Lu, et al., “Can LLMs Express Their Uncertainty? An Empirical Evaluation of Confidence Elicitation in LLMs,” ICLR 2024, arxiv.org. LLMs drücken Vertrauen im Bereich von 80–100 % aus, unabhängig von der Genauigkeit. AUROC der GPT-4-Fehlervorhersage: 62,7 % (kaum über Zufallsniveau von 50 %). ↩↩↩
-
CodeRabbit, “State of AI vs. Human Code Generation Report,” 17. Dezember 2025, coderabbit.ai. 470 PRs analysiert. KI-verfasst: 1,7-mal mehr Probleme, 1,75-mal mehr Logikfehler, 2,74-mal mehr XSS-Schwachstellen. ↩
-
Saurav Kadavath, Tom Conerly, Amanda Askell, et al., “Language Models (Mostly) Know What They Know,” Anthropic, arXiv:2207.05221, Juli 2022, arxiv.org. Modelle sind bei vertrauten Aufgaben gut kalibriert, haben aber Schwierigkeiten mit der P(IK)-Kalibrierung bei neuartigen Aufgaben. Selbstbewertung hat systematische blinde Flecken. ↩
-
DORA, Accelerate State of AI-assisted Software Development 2025, Google, 29. September 2025, dora.dev. KI verstärkt vorhandene Stärken in leistungsstarken Organisationen und Dysfunktionen in schwächeren. ↩
-
Analyse des Autors. Fehlertaxonomie abgeleitet aus ~500 Agentensitzungen über zwei Monate. Das Hook-System wird in „Anatomy of a Claw” beschrieben. Das Qualitätssystem wird in „Jiro Quality Philosophy” beschrieben. Verwandt: „The 10% Wall”, „The Fabrication Firewall.” ↩↩