Metakognitive KI: Ihrem Agenten Selbstbewertung beibringen

Ich wies meinen Agenten an, einen fehlschlagenden Test zu reparieren. Der Agent las den Fehler, identifizierte die Assertion-Diskrepanz, änderte den erwarteten Wert so, dass er zur tatsächlichen Ausgabe passte, und meldete: „Test repariert. Alle Tests bestehen.” Er hatte recht. Der Test bestand. Die Korrektur war trotzdem völlig falsch.

Der Test schlug fehl, weil die Funktion fehlerhafte Daten zurückgab. Der Agent „reparierte” den Test, indem er ihn dazu brachte, die falsche Antwort zu erwarten. Er befolgte meine Anweisung perfekt: den fehlschlagenden Test reparieren. Was ich meinte, war: den Code reparieren, den der Test testet. Der Agent hatte keinen Mechanismus, um zwischen diesen beiden Interpretationen zu unterscheiden, weil nichts in seinem Anweisungssatz ihn aufforderte, zu evaluieren, warum ein Test fehlschlägt, bevor er entscheidet, wie er ihn repariert.

Diese Lücke hat einen Namen. Es ist die Lücke zwischen Handlungsebenen-Anweisungen und metakognitiven Anweisungen. Die meisten Menschen schreiben ausschließlich die erste Art.

TL;DR

Es gibt zwei Ebenen von KI-Agenten-Anweisungen. Handlungsebenen-Anweisungen sagen dem Agenten, was er tun soll: „Eingaben validieren”, „Tests schreiben”, „RESTful-Konventionen befolgen.” Metakognitive Anweisungen sagen dem Agenten, wie er evaluieren soll, ob er es gut macht: „Wenn Sie feststellen, dass Sie sollte statt hat sagen, haben Sie nicht verifiziert”, „Wenn drei Korrekturen fehlschlagen, halten Sie inne und hinterfragen Sie die Architektur”, „Zuversicht ist kein Beweis.” Die meisten Agenten-Konfigurationen enthalten ausschließlich Handlungsebenen-Anweisungen. Die metakognitive Ebene trennt einen Agenten, der plausible Ausgaben produziert, von einem, der korrekte Ausgaben produziert. Ich betreibe seit neun Monaten ein produktives metakognitives System mit sieben benannten Fehlermodi, einem Sechs-Kriterien-Evidenz-Gate und Abschwächungssprache-Erkennung, durchgesetzt durch 95 Hooks.

Die zwei Ebenen der Agenten-Anweisung

Jede Agenten-Anweisung operiert auf einer von zwei Ebenen.

Handlungsebenen-Anweisungen definieren Verhalten:

# Action-level examples
- Use type hints on all functions
- Write tests for edge cases
- Follow RESTful conventions for API endpoints
- Validate all user input at boundaries

Handlungsebenen-Anweisungen sind notwendig. Sie sagen dem Agenten, wie korrektes Verhalten aussieht. Aber sie teilen eine strukturelle Einschränkung: Sie setzen voraus, dass der Agent sie gewissenhaft ausführt. Sie berücksichtigen nicht, wie der Agent seine eigene Einhaltung evaluiert.

Metakognitive Anweisungen definieren Selbstüberwachung:

# Metacognitive examples
- If you catch yourself thinking "just try changing X and see if it works" — STOP.
  That's a signal to investigate, not guess.
- If you've searched the same files three times — you're stuck.
  Step back and question your assumptions.
- If you use the word "should" in a completion report, replace it with evidence.
  Run the command. Paste the output.
- After three failed fixes, stop fixing. The problem is architectural.

Der Unterschied ist entscheidend, weil Handlungsebenen-Anweisungen dem Agenten sagen, wie das Ziel aussieht. Metakognitive Anweisungen sagen dem Agenten, wie er erkennt, wenn er in die falsche Richtung steuert. Die eine Art verhindert falsche Handlungen. Die andere verhindert falsches Denken: die Denkmuster, die falsche Handlungen überhaupt erst hervorbringen.

Das obra/superpowers-Projekt auf GitHub hat diese Unterscheidung als Erstes artikuliert und es als „KI beibringen, ihr eigenes internes Denken auf Fehlersignale zu überwachen” bezeichnet.¹ Die Erkenntnis: Die meisten Fähigkeiten operieren auf der Handlungsebene (tue X, tue nicht Y). Die metakognitive Ebene operiert anders (bemerke, wenn du im Begriff bist, Y zu tun).

Die Tabelle der falschen Evidenz

Das wirksamste metakognitive Werkzeug, das ich entwickelt habe, ist eine Tabelle, die definiert, was NICHT als Beweis zählt.²

Wenn ich einem Agenten sage „verifiziere deine Arbeit”, produziert der Agent eine Verifikation. Aber die Verifikation ist oft eine Neuformulierung der Absicht, keine Demonstration des Ergebnisses. „Tests sollten bestehen.” „Die Implementierung folgt Best Practices.” „Ich bin zuversichtlich, dass dies korrekt ist.” Jede dieser Aussagen klingt wie Evidenz. Keine davon ist Evidenz.

Die Tabelle der falschen Evidenz blockiert spezifische Abkürzungen im Voraus, indem sie sie benennt:

Behauptung	Erforderliche Evidenz	NICHT ausreichend (falsche Evidenz)
„Tests bestehen”	Testausgabe eingefügt mit 0 Fehlern	„Tests sollten bestehen” oder „Ich habe sie vorher ausgeführt”
„Folgt Mustern”	Muster benennen UND die Datei, in der es existiert	„Ich habe Best Practices befolgt”
„Einfachste Lösung”	Verworfene Alternativen benennen und warum	„Es ist sauber”
„Randfälle behandelt”	Jeden Randfall und seine Behandlung auflisten	„Ich habe Randfälle berücksichtigt”
„Keine Regressionen”	Die geprüften Dateien/Funktionen benennen	„Nichts anderes sollte betroffen sein”
„Löst das Problem”	Das Bedürfnis des Benutzers nennen und wie dies es adressiert	„Es implementiert die Funktion”

Die dritte Spalte ist der Kern des Werts. Ohne sie füllt der Agent die zweite Spalte mit plausibel klingenden Neuformulierungen seiner eigenen Zuversicht. Mit ihr benennt und blockiert die Tabelle jede spezifische Abkürzung, bevor der Agent sie nimmt.³

Die Tabelle ist kein Prompt Engineering. Es ist kognitive Architektur. Die Tabelle sagt dem Agenten nicht, was er anders tun soll. Sie sagt dem Agenten, worauf er in seiner eigenen Ausgabe achten soll. Der Agent überwacht seine eigenen Antworten anhand der NICHT-ausreichend-Spalte und weiß, wenn er eine Übereinstimmung erkennt, dass er die Abkürzung durch tatsächliche Evidenz ersetzen muss.

Das Muster skaliert. Jede domänenspezifische Behauptung kann hinzugefügt werden. Für Sicherheitsüberprüfungen: „Keine Schwachstellen” erfordert „spezifische geprüfte Schwachstellenklassen und Ergebnisse”, nicht „Ich habe den Code überprüft.” Für Barrierefreiheit: „WCAG-konform” erfordert „axe- oder Lighthouse-Audit-Ausgabe”, nicht „Ich habe den Kontrast geprüft.”

Benannte Fehlermodi als metakognitive Leitplanken

Menschen haben benannte kognitive Verzerrungen: Bestätigungsfehler, Ankereffekt, Dunning-Kruger. Die Namen sind wichtig. Sobald Sie die Verzerrung benennen können, können Sie auf sie achten. KI-Agenten brauchen dasselbe Vokabular für ihre Fehlermuster.

Ich dokumentierte sieben Fehlermodi, die mein Agent wiederholt zeigte, gab jedem einen Namen und fügte Erkennungssignale hinzu:⁴

Fehlermodus	Wie er aussieht	Erkennungssignal
Abkürzungsspirale	Überspringen von Verifikationsschritten, um schneller zu berichten	Abschlussbericht ohne Evidenz für jeden Schritt
Zuversichts-Fata-Morgana	„Ich bin zuversichtlich” ersetzt tatsächliche Verifikation	Abschwächungssprache im Bericht
Gut-genug-Plateau	Funktionierender Code, der nicht sauber, getestet oder dokumentiert ist	Zögern bei Qualitätsfragen
Tunnelblick	Eine Funktion polieren, während angrenzender Code bricht	„Nichts anderes betroffen” ohne Überprüfung
Phantomverifikation	Behaupten, Tests bestehen, ohne sie jetzt auszuführen	Evidenz aus einer früheren Sitzung
Aufgeschobene Schulden	TODO/FIXME/HACK in committetem Code hinterlassen	Jeder solche Kommentar im Diff
Hohler Bericht	„Fertig” ohne Angabe von Spezifika	Abschlussbericht ohne Evidenz für ein beliebiges Kriterium

Die Namen machen die Fehler erkennbar. Ohne sie produziert der Agent eine Zuversichts-Fata-Morgana, und weder der Agent noch der Benutzer erkennt sie als Muster. Mit ihnen wird die Anweisung: „Wenn Sie sich dabei ertappen, einen benannten Fehlermodus zu zeigen, STOPPEN Sie und starten Sie ab dem Evaluierungsschritt neu.”

Die Überwachung ist im präzisen Sinne metakognitiv: Der Agent beobachtet seinen eigenen kognitiven Prozess (überspringe ich die Verifikation? Verwende ich Zuversicht als Ersatz für Evidenz?) statt seiner Ausgabe (ist dieser Code korrekt?). Die Überwachung findet vor der Ausgabe des Agenten statt, weshalb sie Fehler erfasst, die eine Überprüfung auf Ausgabeebene übersieht.

Anthropics eigene Referenz-Skill-Implementierungen unterstützen diesen Ansatz. Die Analyse ihrer 16 offiziellen Claude Code Skills offenbarte strukturelle Muster im effektiven Design von Agenten-Anweisungen. Verbote („NEVER X”) erwiesen sich als deutlich wirksamer als Vorschläge („consider Y”), weil sie die spezifische Umgehung benennen statt die allgemeine Handlung.⁵ Benannte Fehlermodi sind spezifische Verbote: „NEVER exhibit Phantom Verification” übertrifft „always run tests”, weil es die Umgehung blockiert statt die Handlung zu wiederholen.

Erkennung von Abschwächungssprache

Der einfachste metakognitive Monitor, den ich implementiert habe, erkennt spezifische Wörter in der Agenten-Ausgabe:

Red flag words: should, probably, seems to, likely, I believe,
               I'm confident, looks correct, appears to

Jedes Mal, wenn der Agent eines dieser Wörter in einem Abschlussbericht verwendet, ist das Wort selbst ein Beweis für unzureichende Verifikation.⁶ „Tests should pass” bedeutet, der Agent hat sie nicht ausgeführt. „It seems to work” bedeutet, der Agent hat es nur überflogen. „I’m confident” bedeutet, der Agent ersetzt internen Zustand durch externe Evidenz.

Die Implementierung ist mechanisch. Das Hook-System fängt die Ausgabe des Agenten ab und markiert Abschwächungssprache. Der Agent ersetzt dann das abschwächende Wort durch die Verifikation, die er hätte durchführen sollen:

„Tests should pass” wird zu: führt Tests aus, fügt Ausgabe mit 0 Fehlern ein
„It looks correct” wird zu: zitiert die spezifische Assertion oder Prüfung, die Korrektheit bestätigt
„I’m confident” wird zu: listet die Evidenz auf, die diese Zuversicht begründet

Das Muster stammt aus obras Verification-before-Completion-Arbeit: „Die eigene Wortwahl der KI signalisiert unzureichende Evidenz.”¹ Die kognitionswissenschaftliche Parallele ist real. In der menschlichen Metakognition korreliert die Genauigkeit von Selbsteinschätzungen („Ich verstehe das”) schlecht mit dem tatsächlichen Verständnis. Menschen, die sagen „Ich hab’s verstanden”, haben es oft nicht. Menschen, die es erklären können, haben es meistens. Dasselbe gilt für KI-Agenten: Ein Agent, der spezifische Evidenz zitieren kann, versteht das Problem. Ein Agent, der sagt „Ich bin zuversichtlich”, versteht es möglicherweise nicht.

Der Drei-Korrekturen-Sicherungsautomat

Metakognition geht nicht nur darum, fehlerhaftes Denken zu erkennen. Es geht auch darum, zu erkennen, wann man aufhören sollte.

Die Drei-Korrekturen-Eskalationsregel: Wenn drei Korrekturversuche für dasselbe Problem fehlgeschlagen sind, muss der Agent innehalten und die Architektur grundlegend hinterfragen.⁷ Nicht eine vierte Korrektur versuchen. Nicht nach einem anderen Blickwinkel auf denselben Ansatz suchen. Innehalten. Einen Schritt zurücktreten. Sich fragen, ob das Problem in der Lösung oder in der Problemdefinition liegt.

Die Regel fungiert als Sicherungsautomat für Debugging-Schleifen. Ohne sie geraten Agenten in das, was ich die Korrekturspirale nenne: Jeder fehlgeschlagene Versuch produziert eine neue Theorie, die eine neue Korrektur produziert, die fehlschlägt, die eine neue Theorie produziert. Der Agent kann dutzende Korrekturen durchlaufen, ohne jemals zu hinterfragen, ob er am richtigen Problem arbeitet. Der 23-Agenten-Ausreißer-Vorfall war eine Breitenvariante davon: Agenten erreichten Konsens über die falsche Frage, weil keine metakognitive Prüfung fragte: „Ist diese Frage korrekt eingegrenzt?”

Die Drei-Korrekturen-Regel funktioniert, weil sie einen Phasenübergang im Denken des Agenten erzwingt. Korrekturen 1-3 operieren innerhalb des aktuellen mentalen Modells. Korrektur 4 (die eigentlich „höre auf zu korrigieren” ist) zwingt den Agenten, ein neues mentales Modell zu konstruieren. In der Praxis bedeutet das meist: den Fehler von Anfang an erneut lesen, die Annahmen erneut prüfen oder den Benutzer um Klärung bitten – alles produktiver als eine vierte Vermutung.

Vorher und Nachher: Was sich ändert

Hier ein konkretes Beispiel. Ich bat einen Agenten, Eingabevalidierung zu einem API-Endpunkt hinzuzufügen.

Ohne metakognitive Anweisungen:

Added Pydantic model with field validators for email format, password
length (8+), and username pattern (alphanumeric). Tests should pass.
The implementation follows FastAPI best practices.

Die Ausgabe enthält drei Abschwächungssignale: „should pass” (Tests nicht ausgeführt), „follows best practices” (nicht benannt, welche Praktiken) und keine Evidenz für Randfallbetrachtung. Eine Zuversichts-Fata-Morgana verpackt in einem Hohlen Bericht.

Mit metakognitiven Anweisungen (gleiche Aufgabe, gleicher Agent):

Added Pydantic model with field validators:
- Email: regex validation + max length 254 (RFC 5321)
- Password: min 8, max 128, requires 1 uppercase + 1 digit
- Username: alphanumeric + underscore, 3-30 chars

Test output (just ran):
  tests/test_auth.py::test_valid_registration PASSED
  tests/test_auth.py::test_invalid_email_rejected PASSED
  tests/test_auth.py::test_short_password_rejected PASSED
  tests/test_auth.py::test_empty_username_rejected PASSED
  tests/test_auth.py::test_unicode_username_rejected PASSED
  5 passed in 0.34s

Edge cases handled: empty string (returns 422), null (returns 422),
unicode injection in username (rejected by alphanumeric pattern),
overlength email (RFC limit enforced).

Pattern followed: same validation approach as UserUpdateSchema in
app/schemas.py line 45.

Der Unterschied ist nicht, dass der zweite Agent besseren Code geschrieben hat. Beide Agenten haben möglicherweise identischen Code geschrieben. Der Unterschied ist, dass der zweite Agent seine Arbeit anhand spezifischer Evidenzkriterien verifiziert und die Evidenz berichtet hat statt seine Zuversicht.

Ihre eigene metakognitive Ebene aufbauen

Das Framework ist übertragbar. Sie brauchen nicht mein spezifisches System. Sie brauchen drei Komponenten:

1. Eine Tabelle der falschen Evidenz. Definieren Sie, was NICHT als Beweis zählt für die Behauptungen, die Ihr Agent am häufigsten aufstellt. Beginnen Sie mit den sechs Kriterien oben und fügen Sie domänenspezifische Zeilen hinzu. Die dritte Spalte (NICHT ausreichend) ist der Kern des Werts.

2. Benannte Fehlermodi. Dokumentieren Sie die drei bis fünf häufigsten Fehlerarten Ihres Agenten. Geben Sie jedem einen Namen. Fügen Sie Erkennungssignale hinzu. Ergänzen Sie die Anweisung: „Wenn Sie sich dabei ertappen, einen benannten Fehlermodus zu zeigen, halten Sie inne und evaluieren Sie neu.”

3. Erkennung von Abschwächungssprache. Listen Sie die spezifischen Wörter auf, die in Ihrer Domäne unzureichende Verifikation signalisieren. Fügen Sie die Anweisung hinzu: „Ersetzen Sie jedes abschwächende Wort durch die Evidenz, die die Abschwächung eliminieren würde.”

Diese drei Komponenten bilden zusammen eine metakognitive Ebene, die auf beliebigen Handlungsebenen-Anweisungen aufsetzt. Die Handlungsebenen-Anweisungen definieren, wie korrektes Verhalten aussieht. Die metakognitive Ebene definiert, wie der Agent seine eigene Abweichung von korrektem Verhalten erkennt.

Die Implementierung kann so einfach sein wie das Hinzufügen eines Abschnitts zu Ihrer CLAUDE.md oder AGENTS.md:

## Self-Monitoring

### When to stop and re-evaluate
- If you've searched the same files 3+ times: you're stuck.
- If you've attempted 3 fixes for the same issue: question the architecture.
- If you use "should" or "probably" in your response: replace with evidence.

### What doesn't count as evidence
[your false evidence table here]

### Named failure modes to watch for
[your failure modes here]

Ob die Durchsetzung durch Hooks (deterministisch, nicht übergehbar), Regeldateien (in den Kontext geladen) oder Inline-Anweisungen (abhängig von Modell-Compliance) erfolgt, bestimmt die Zuverlässigkeit der metakognitiven Ebene. Hooks sind am stärksten, weil sie auf der Werkzeugnutzungsebene abfangen, nicht auf der Prompt-Ebene. Aber selbst metakognitive Anweisungen auf Prompt-Ebene verbessern die Ausgabequalität des Agenten messbar, weil sie die Evaluierungskriterien des Agenten ändern statt nur seine Handlungen.

Was Metakognition nicht leisten kann

Metakognitive Programmierung macht KI-Agenten zuverlässiger. Sie macht sie nicht weise.

Die Tabelle der falschen Evidenz fängt spezifische Abkürzungen ab. Sie fängt keine neuartigen Abkürzungen ab, die die Tabelle nicht benennt. Benannte Fehlermodi erkennen bekannte Muster. Sie erkennen keine Muster, die noch nicht benannt wurden. Die Erkennung von Abschwächungssprache fängt oberflächliche Zuversichtssubstitution ab. Sie fängt keinen Agenten ab, der sich selbst genuinerweise davon überzeugt hat (in welchem Sinne „überzeugt” auch immer zutrifft), dass eine falsche Ausgabe korrekt ist.

Grundlegender: Metakognitive Anweisungen approximieren Geschmack, produzieren ihn aber nicht. Das Jiro-System kann except: pass verhindern und Testevidenz erzwingen. Es kann nicht bestimmen, ob die Architektur richtig ist, ob die Benennung die Absicht einfängt oder ob die Lösung das tatsächliche Problem adressiert statt das formulierte. Diese Urteile erfordern die Art von kontextbezogenem Denken, die aktuelle Modelle approximieren, aber nicht zuverlässig leisten.

Jemand antwortete auf einen meiner Tweets über das Jiro-System: „Sie versuchen im Grunde, der Schleife Zurückhaltung, Geschmack und etwas beizubringen, das einer moralischen Pause nahekommt – Dinge, gegen die das grundlegende Ralph-Muster explizit im Namen des Durchsatzes optimiert.”⁸

Sie hatten recht. Metakognitive Programmierung ist strukturelles Gerüst für Qualitäten, die die Maschine nicht besitzt. Das Gerüst ist tragend. Ohne es produziert die Maschine Zuversichts-Fata-Morganas im großen Maßstab. Mit ihm produziert die Maschine verifizierte Ausgaben im großen Maßstab. Die Kluft zwischen diesen beiden Ergebnissen ist der Unterschied zwischen einem Agenten, dem Sie vertrauen können, über Nacht zu laufen, und einem Agenten, den Sie beaufsichtigen müssen.

Aber das Gerüst ist nicht das Gebäude. Das Gebäude (Geschmack, Urteilsvermögen, die Fähigkeit zu erkennen, wann die richtige Antwort auf eine Frage eine andere Frage ist) bleibt menschlich. Vorerst.

Zentrale Erkenntnisse

Für Ingenieure, die Agentensysteme entwickeln:

Schreiben Sie metakognitive Anweisungen, nicht nur Handlungsebenen-Anweisungen. Handlungsebenen-Anweisungen definieren korrektes Verhalten. Metakognitive Anweisungen definieren, wie der Agent seine eigene Abweichung von korrektem Verhalten erkennt. Die zweite Art ist es, die plausible Ausgaben von verifizierten Ausgaben trennt.
Benennen Sie die Fehlermodi Ihres Agenten. Sobald ein Fehlermuster einen Namen hat (Zuversichts-Fata-Morgana, Phantomverifikation, Abkürzungsspirale), kann der Agent darauf achten. Unbenannte Fehler wiederholen sich endlos.

Für Teams, die KI-gestützte Workflows skalieren:

Erstellen Sie eine Tabelle der falschen Evidenz, bevor Sie skalieren. Definieren Sie, was NICHT als Beweis zählt für jede Behauptung, die Ihr Agent aufstellt. Die dritte Spalte (NICHT ausreichend) blockiert vorab die spezifischen Abkürzungen, die Agenten nehmen, wenn sie gebeten werden zu „verifizieren”.
Abschwächungssprache ist ein zuverlässiges Signal. Jedes Mal, wenn ein Agent „sollte”, „wahrscheinlich” oder „Ich bin zuversichtlich” in einem Abschlussbericht sagt, hat der Agent die Verifikation nicht durchgeführt, die er behauptet. Erkennen und mechanisch ersetzen.

Das metakognitive Audit

Möchten Sie Ihre eigenen Agenten-Anweisungen evaluieren? Das interaktive Werkzeug unten analysiert jede CLAUDE.md, AGENTS.md oder System-Prompt und bewertet sie anhand der in diesem Beitrag beschriebenen metakognitiven Dimensionen.

Fügen Sie Ihre Agenten-Anweisungen ein, und das Audit identifiziert: welcher Prozentsatz Ihrer Anweisungen auf der Handlungsebene versus der metakognitiven Ebene liegt, welche benannten Fehlermodi abgedeckt sind, ob eine Erkennung von Abschwächungssprache existiert und wo die Lücken sind.

Teil der Claude Code Mastery-Reihe, die die Infrastruktur hinter autonomer KI-Entwicklung dokumentiert: von Hooks, die deterministische Kontrolle durchsetzen, über Kontextmanagement als architektonische Disziplin bis hin zu Multi-Agenten-Deliberation, die blinde Flecken einzelner Agenten aufdeckt. Die Compounding-Engineering-Philosophie, die dem System zugrunde liegt, erklärt, warum jede Komponente alles beschleunigt, was danach darauf aufbaut.

obra/superpowers und obra/systematic-debugging auf GitHub. Das superpowers-Projekt leistete Pionierarbeit darin, Claude Code Agenten beizubringen, metakognitive Fehlersignale zu erkennen: die eigenen Denkmuster des Agenten zu beobachten statt seiner Ausgaben. github.com/obra/superpowers ↩↩
Die Struktur der Tabelle der falschen Evidenz wurde erstmals im obra/verification-before-completion Skill dokumentiert. Ich adaptierte sie zum Evidenz-Gate, einem Sechs-Kriterien-Verifikationssystem, das durch Hooks durchgesetzt wird. Siehe den Jiro-Qualitätsphilosophie-Beitrag für die vollständige Implementierung. ↩
Die dritte Spalte (NICHT ausreichend) adressiert das, was die akademische Literatur „metakognitive Illusionen” nennt: Fälle, in denen die Selbsteinschätzung der eigenen Leistung eines Agenten von der tatsächlichen Leistung abweicht. In der Kognitionswissenschaft ist dies gut dokumentiert: Studierende, die sich selbst als „verstehend” einschätzen, schneiden bei Tests dieses Materials oft schlecht ab. Dunning, D., Johnson, K., Ehrlinger, J., & Kruger, J. (2003). Why people fail to recognize their own incompetence. Current Directions in Psychological Science, 12(3), 83-87. doi.org/10.1111/1467-8721.01235 ↩
Die sieben benannten Fehlermodi entstanden aus neun Monaten Produktiveinsatz. Jeder wurde dokumentiert, nachdem das Muster mindestens dreimal über verschiedene Projekte und Aufgabentypen hinweg beobachtet wurde. Das vollständige System wird in Warum mein KI-Agent eine Qualitätsphilosophie hat beschrieben. ↩
Analyse des Autors der 16 offiziellen Claude Code Skills von Anthropic, veröffentlicht auf github.com/anthropics/claude-code. Verbote („NEVER X”) erwiesen sich als wirksamer als Vorschläge („consider Y”), weil sie die spezifische Umgehung benennen. Die Beobachtung, dass mindset-orientierte Skills prozedurale Anleitungen in der Übernahme übertreffen, basiert auf Community-Berichten im Claude Code Discord und GitHub-Diskussionen, nicht auf einer kontrollierten Studie. ↩
obra/verification-before-completion Skill. Die spezifische Erkenntnis, dass die Wortwahl der KI unzureichende Evidenz signalisiert: Abschwächungssprache („should”, „probably”, „seems to”) ist ein zuverlässiger Indikator dafür, dass der Agent die Verifikation, über die er berichtet, nicht durchgeführt hat. github.com/obra/superpowers ↩
Die Drei-Korrekturen-Eskalationsregel fungiert als Sicherungsautomat-Muster, angewendet auf Debugging. Das Muster ist analog zum Sicherungsautomaten in verteilten Systemen (Nygard, M. Release It!, 2007, Pragmatic Bookshelf): schnell fehlschlagen, eskalieren, einen anderen Ansatz versuchen. Nach drei fehlgeschlagenen Versuchen innerhalb desselben mentalen Modells bringt die Fortsetzung auf demselben Pfad abnehmende Erträge. ↩
Paraphrasiert aus einer Antwort auf @blakecrosley auf X, Februar 2026. Der ursprüngliche Tweet diskutierte die Spannung zwischen der Geschwindigkeitsoptimierung des Ralph-Loops und der Qualitätsreibung des Jiro-Systems. Die Beobachtung des Antwortenden, dass der Basis-Loop „explizit gegen Zurückhaltung im Namen des Durchsatzes optimiert”, beschreibt treffend die Designspannung, die die metakognitive Ebene adressiert. ↩