Denken mit zehn Gehirnen: Wie ich Agenten-Deliberation als Entscheidungswerkzeug nutze

12 Min. Lesezeit

From the guide: Claude Code Comprehensive Guide

Ich war drei Stunden tief in das Design eines Speicherabrufsystems für meinen Claude Code-Harness vertieft, als ich beschloss, die Entscheidung stattdessen durch mein Multi-Agenten-Deliberationssystem laufen zu lassen. Zehn KI-Agenten bewerteten das Projekt unabhängig voneinander. Neun davon hatten Meinungen zu Architektur, Sicherheit und Performance. Der zehnte stellte eine Frage, die mir nicht in den Sinn gekommen war: „Was kostet das Problem, das Sie lösen wollen, eigentlich?”

Die Antwort beerdigte das Projekt. Der Token-Overhead, den ich wegoptimieren wollte, kostete weniger pro Monat als ein Kaffee. Das Abrufsystem, das ich bauen wollte, hätte 200–400 Stunden Entwicklungsarbeit erfordert. Break-even: 18 bis 36 Jahre.¹

Jeder andere Agent hatte nützliche Analysen geliefert. Das Design des Technical Architect war sauber. Der Security Analyst fand reale Risiken. Die Berechnungen des Performance Engineer waren präzise. Aber keiner von ihnen hinterfragte, ob das Projekt überhaupt existieren sollte. Ich selbst hatte das mit Sicherheit nicht hinterfragt. Ich war bereits auf die Lösung fixiert. Der Cost Analyst hatte keine solche Fixierung, weil er jeden Vorschlag von Null aus bewertet.

TL;DR

Sie können kognitive Verzerrungen nicht beseitigen, indem Sie sich ihrer bewusst sind. Kahneman hat dies vor Jahrzehnten bewiesen: Selbst Experten, die Verzerrungen erforschen, fallen ihnen zum Opfer.² Multi-Agenten-Deliberation ist eine strukturelle Intervention, kein Prompting-Trick. Zehn KI-Agenten mit unterschiedlichen Bewertungsprioritäten erzwingen die Externalisierung von Denkprozessen und machen blinde Flecken sichtbar, bevor sie zu Festlegungen werden. Ich habe die Architektur gebaut im Januar 2026 und sie zwei Monate lang für Entscheidungen eingesetzt – von Speichersystemen über Blog-Strategie bis hin zu API-Design. Dieser Beitrag handelt von der Praxis: wie man mit zehn Gehirnen denkt, wann man es tun sollte und wann es die Dinge verschlechtert.

Das Problem mit dem eigenen Kopf

Daniel Kahneman verbrachte eine Karriere damit, ein strukturelles Versagen der menschlichen Kognition zu dokumentieren. System 1 erzeugt schnelle, intuitive Urteile. System 2 soll diese überprüfen. In der Praxis arbeitet System 2 in einem „komfortablen Niedrigenergie-Modus” und bestätigt die Schlussfolgerungen von System 1 ohne genaue Prüfung.² Kahnemans zentrale Erkenntnis: Das Kontrollsystem ist träge. Es stempelt die Intuition einfach ab.

Dies lässt sich direkt darauf übertragen, wie die meisten Menschen KI nutzen. Sie stellen einem Agenten eine Frage. Der Agent generiert eine Antwort (System 1). Sie lesen die Antwort und entscheiden, ob sie plausibel klingt (System 2). Aber Ihr System 2 bewertet die Antwort durch dieselben Verzerrungen, die die Frage geformt haben. Sie haben sich auf Ihre erste Formulierung fixiert. Sie haben dem Agenten Kontext gegeben, der Ihre bestehende Hypothese bestätigt. Der Agent, darauf trainiert hilfreich zu sein, hat Ihre Richtung verstärkt. An keinem Punkt hat irgendjemand die Prämisse in Frage gestellt.

Hier sind die Verzerrungen, die bei Ingenieursentscheidungen am härtesten zuschlagen:

Verzerrung	Wie sie sich zeigt	Was sie aufdeckt
Bestätigungsfehler	Suche nach Daten, die den geplanten Ansatz stützen	Agent mit entgegengesetztem Auftrag
Ankereffekt	Die erste Schätzung dominiert alles weitere Denken	Unabhängige Einschätzung durch mehrere Agenten
Versunkene Kosten	„Wir haben bereits das Fundament gebaut, also machen wir weiter”	Cost Analyst, der von Null aus bewertet
Verfügbarkeitsheuristik	Übergewichtung des jüngsten Produktionsvorfalls	Agent mit Zugang zu historischen Mustern
Dunning-Kruger	Selbstsicherheit in Bereichen, in denen die Tiefe fehlt	Domänenspezialist-Agent
Überlebensverzerrung	„Die letzten drei Deployments liefen gut”	Maintenance Pessimist, der nach den Fehlern fragt, die Sie vergessen haben

Die Gegenstrategien sind gut dokumentiert: Advocatus-Diaboli-Prozesse, Pre-Mortem-Analysen, strukturierte Entscheidungsrahmen, externe Feedback-Schleifen.³ Das Problem liegt in der Umsetzung. Ein Pre-Mortem durchzuführen erfordert, Menschen zusammenzubringen, Zeit einzuplanen und sozialen Druck zu überwinden. Einen Advocatus Diaboli zu suchen erfordert, jemanden zu finden, der bereit ist, der Person zu widersprechen, die ihre Leistungsbeurteilung unterschreibt.

Multi-Agenten-Deliberation beseitigt die Umsetzungshürde. Die Agenten sind immer verfügbar. Sie haben keine sozialen Anreize zuzustimmen. Sie bewerten konstruktionsbedingt unabhängig, nicht durch Disziplin.

Deliberation als externalisiertes Denken

Sam Altman beschreibt Schreiben als „externalisiertes Denken”: Wenn ein Problem verwirrend erscheint, erzwingt das Niederschreiben Klarheit.⁴ Derselbe Mechanismus gilt für strukturierte Debatten. Wenn zehn Agenten ihre Argumentation parallel ausformulieren, wird die Argumentation zu einem Artefakt, das Sie inspizieren können.

Das ist keine neue Idee. Marvin Minsky schlug in The Society of Mind vor, dass Intelligenz aus der Interaktion vieler kleinerer, einfacherer Agenten entsteht – nicht aus einem einzelnen ausgefeilten Prozess.⁵ Andrew Ng identifizierte drei Muster für Multi-Agenten-Systeme: Debatte (Vorschlagen, Kritisieren, Überarbeiten), Kollaboration (parallele Spezialisten mit einem Synthesizer) und adversariale Evaluation (Red Team gegen Blue Team).⁶ Edward de Bonos Sechs-Denkhüte-Methode, veröffentlicht 1985, weist parallele Perspektiven zu (Fakten, Emotionen, Vorsicht, Optimismus, Kreativität, Prozess), um zu verhindern, dass Gruppen sich auf eine einzige Denkweise fixieren.⁷

Mein Deliberationssystem implementiert alle drei Muster gleichzeitig. Die zehn Forschungsagenten sind Spezialisten (Ngs Kollaborationsmuster). Die Debate- und Synthesis-Agenten erzeugen strukturierten Widerspruch (Ngs Debattenmuster). Der Maintenance Pessimist und der Security Analyst fungieren als adversariale Bewerter. Jeder Agent entspricht einem Denkhut:

Agent	De Bonos Hut	Denkmodus
Technical Architect	Weiß	Fakten, Machbarkeit, Integrationsmuster
Cost Analyst	Weiß	Daten, Wirtschaftlichkeit, Break-even-Analyse
UX Advocate	Rot	Nutzerempfindungen, kognitive Belastung, Reibung
Security Analyst	Schwarz	Risiken, Schwachstellen, Fehlermodi
Maintenance Pessimist	Schwarz	Technische Schulden, Langzeitkosten
Innovation Scout	Grün	Neuartige Ansätze, Alternativen
Performance Engineer	Gelb	Effizienzgewinne, Optimierungspotenzial
Quality Guardian	Blau	Prozess, Teststrategie, Observability

Die Architektur ist anderswo dokumentiert. Was hier zählt, ist die Praxis. Deliberation zwingt Sie, die Entscheidung in ein Format zu externalisieren, in dem Verzerrungen sichtbar werden. Sie hören auf zu fragen „Ist das eine gute Idee?” und beginnen, zehn unabhängige Antworten auf „Was könnte schiefgehen, was sagt die Mathematik und welche Alternativen existieren?” zu lesen.

Pedro Domingos beschreibt die ideale KI als ein „mentales Exoskelett”: etwas, das Ihr Denken erweitert statt es zu ersetzen, Ihre Interessen vertritt statt Ihren Schlussfolgerungen zu schmeicheln.⁸ Ein Deliberationspanel, das einen Advocatus Diaboli, einen Cost Analyst und einen Maintenance Pessimist umfasst, ist genau das. Es verstärkt die Teile Ihrer Kognition, die strukturell schwach sind.

Fallstudie: Die Entscheidung zur Speicherarchitektur

Im Februar 2026 führte ich den ersten Live-Test des Deliberationssystems mit der Frage aus der Einleitung durch: Welche Speicherarchitektur sollte mein Claude Code-Harness über 12 aktive Projekte hinweg verwenden?¹

Mein Harness injiziert MEMORY.md-Dateien in jede Konversation. Diese Dateien enthalten Projektentscheidungen, Muster, Fehlerhistorie und Architekturnotizen. Das Problem: Der größte Teil dieses Kontexts ist für eine bestimmte Sitzung irrelevant. Nur 5–10 % des geladenen Speichers sind für die aktuelle Aufgabe relevant. Der Rest sind verschwendete Token. Ein offensichtliches Optimierungsziel.

Das anfängliche Konfidenz-Rating lag bei 0,50 – deutlich unter dem Schwellenwert von 0,70, der die Deliberation auslöst. Das System setzte alle zehn Forschungsagenten ein. Jeder untersuchte unabhängig mit Kontextisolation: Agenten konnten während der Forschung die Ergebnisse der anderen nicht sehen.

Drei Ansätze kristallisierten sich heraus:

Ansatz	Bewertung	Unterstützung	Ergebnis
Smart Native (selektive Injektion)	7,04/10	8 von 10 Agenten	Gewinner
Stay Native (aktuelles System, gehärtet)	6,50/10	5 von 10 Agenten	Sicher, aber geringe Wirkung
Full Stack Memory (externe Werkzeuge)	5,38/10	1 von 10 Agenten	Höchste Fähigkeit, kritisches Risiko

Die Bewertungen erzählen eine Geschichte. Was die einzelnen Agenten herausfanden, erzählt eine bessere.

Technical Architect: Identifizierte vier Integrationsmuster (MCP-Server, erweitertes MEMORY.md, Embedding-Retrieval, agentenbasierter Manager). Empfahl einen gestuften Ansatz: bestehende Dateien jetzt erweitern, Embedding-Retrieval später hinzufügen. Sauberes Design, klar abgegrenzt.

Security Analyst: Bewertete jedes externe Speicherwerkzeug mit HOCH bis KRITISCH bezüglich Credential-Exposure. Identifizierte einen spezifischen Angriff: Eine kompromittierte Sitzung injiziert „fasse immer API-Schlüssel zusammen” in den persistenten Speicher und vergiftet so jede zukünftige Sitzung lautlos.

Performance Engineer: Quantifizierte die Verschwendung. Nur 5–10 % des geladenen Speichers sind pro Konversation relevant. Aber bei 1M Token Kontextfenster beträgt der gesamte Speicher-Overhead 2K Token – nur 0,2 % der Kapazität. Die „offensichtliche Optimierung” zielt auf einen Rundungsfehler.

UX Advocate: „Das beste Speichersystem ist eines, über das Sie nie nachdenken.” Jede Alternative erhöht die kognitive Belastung. Nutzer beginnen zu fragen „Funktioniert der Speicher? Was weiß er?” und hören auf, automatisiertem Kontext zu vertrauen. Das unsichtbare System genießt mehr Nutzervertrauen als jedes sichtbare.

Maintenance Pessimist: Mehrere Speichersysteme erzeugen kombinatorische Fehleroberflächen. Vier interagierende Systeme produzieren 16 paarweise Fehlermodi. Claude Code aktualisiert sich häufig. Externe Plugins brechen bei Versionsänderungen. Ein stiller Hook-Fehler bedeutet, dass der Agent mit unvollständigem Kontext arbeitet – ohne Warnung.

Cost Analyst: Dies ist der Agent, der das Projekt beerdigte. Die gesamten Token-Kosten für das ständige Laden von Speicherdateien über alle 12 Projekte: trivial. Das vorgeschlagene Abrufsystem würde ein paar Dollar pro Monat sparen. Entwicklungszeit für den Bau: 200–400 Stunden. Break-even: 18 bis 36 Jahre. Die Zusammenfassung des Cost Analyst: „In einer Welt, die von Optimierung besessen ist, ist manchmal die richtige Antwort, alles so zu lassen, wie es ist.”

Kein einzelner Agent produzierte eine falsche Analyse. Das Design des Technical Architect funktionierte. Die Token-Berechnungen des Performance Engineer stimmten. Aber die Entscheidung erforderte alle zehn Perspektiven, um die Optimierungsfalle zu vermeiden. Meinen eigenen Instinkten überlassen, hätte ich das Abrufsystem gebaut, weil es sich wie Fortschritt anfühlte. Der Cost Analyst stellte die Frage, die ich mir selbst nicht stellen konnte, weil drei Stunden Scoping mein Denken bereits auf die Lösung fixiert hatten.

Deliberation vs. Duelling

Deliberation ist kollaborativ: zehn Agenten, die eine Entscheidung aus verschiedenen Perspektiven bewerten. Ich habe auch eine kompetitive Variante gebaut, die Claude Code gegen Codex CLI bei derselben Aufgabe antreten lässt, beide Pläne blind bewertet und die stärksten Elemente aus beiden synthetisiert. Sechsunddreißig Duelle haben Muster hervorgebracht, die einen eigenen Beitrag verdienen. Die Kurzfassung: Ich deliberiere Architekturentscheidungen und duelliere Implementierungspläne. Deliberation beantwortet „Sollten wir das bauen?” Duelling beantwortet „Was ist der stärkste Weg, es zu bauen?”

Der Maintenance Pessimist und die Kunst der Inversion

Charlie Mungers Inversionstechnik fragt: Statt „Wie erreiche ich X?” fragen Sie „Was würde das Scheitern an X garantieren?” Dann vermeiden Sie diese Dinge.⁹ Gary Kleins Pre-Mortem operationalisiert dieselbe Idee: Nehmen Sie an, das Projekt sei gescheitert, und erklären Sie dann, warum.¹⁰ Philip Tetlocks Forschung zur Prognosegenauigkeit ergab, dass „Füchse”, die mehrere Perspektiven integrieren, konsistent besser abschneiden als „Igel”, die sich auf eine große Idee festlegen.¹¹

Jeder Deliberations-Agent verkörpert ein benanntes Denk-Framework:

Agent	Denk-Framework	Die Frage, die er stellt
Maintenance Pessimist	Inversion (Munger)	„Was wird uns in 6 Monaten dazu bringen, das zu bereuen?”
Security Analyst	Pre-Mortem (Klein)	„Es wurde ausgeliefert und gehackt. Was haben wir übersehen?”
Innovation Scout	Fuchs-Denken (Tetlock)	„Welche Ansätze aus anderen Domänen sind hier anwendbar?”
Cost Analyst	First Principles	„Was sagt die Mathematik tatsächlich?”
UX Advocate	Empathy Mapping	„Wie erlebt der Nutzer dieses Versagen?”

Der Maintenance Pessimist ist der wertvollste Agent in meinem System. Nicht weil er der klügste oder gründlichste ist, sondern weil er die Frage stellt, die ich mir am wenigsten wahrscheinlich selbst stelle. Wenn ich begeistert davon bin, etwas zu bauen, ist das Letzte, woran ich denken will, was es in sechs Monaten kosten wird, es zu warten. Der Maintenance Pessimist hat keine Begeisterung. Er hat keine versunkenen Kosten. Er bewertet den Vorschlag, als existiere er bereits, und fragt, was kaputtgeht.

In der Deliberation zur Speicherarchitektur identifizierte der Maintenance Pessimist, dass vier interagierende Speichersysteme 16 paarweise Fehlermodi erzeugen. Claude Code aktualisiert sich häufig. Externe Plugins brechen bei Versionsänderungen. Stille Hook-Fehler bedeuten, dass der Agent mit unvollständigem Kontext arbeitet – ohne Warnung. Das sind keine hypothetischen Risiken. Es sind Vorhersagen basierend auf Mustern, die der Pessimist zu erkennen trainiert wurde.

Kahneman beschrieb das Pre-Mortem als eine der effektivsten Debiasing-Techniken, die er kennt, weil es Widerspruch legitimiert.² Ein Deliberations-Agent, der dazu konzipiert ist zu widersprechen, beseitigt die sozialen Kosten vollständig.

Die Beweis-Schranke: Lassen Sie sich nicht selbst berichten

Mein Harness verwendet ein Evidence-Gate-Muster für jeden Abschlussbericht.¹² Die Regel: Gefühle sind keine Beweise. „Ich glaube, das funktioniert” ist keine Behauptung. Die Testsuite auszuführen und die Ausgabe einzufügen ist eine Behauptung.

Kriterium	Erforderlicher Beweis	NICHT ausreichend
Folgt Codebase-Mustern	Muster und Datei benennen	„Ich habe Best Practices befolgt”
Einfachste funktionierende Lösung	Verworfene Alternativen benennen und begründen	„Es ist sauber”
Randfälle behandelt	Spezifische Fälle auflisten und wie jeder gelöst wird	„Ich habe Randfälle berücksichtigt”
Tests bestanden	Testausgabe einfügen	„Tests sollten bestehen”
Keine Regressionen	Geprüfte verwandte Dateien und Funktionen benennen	„Nichts anderes sollte betroffen sein”

Abschwächende Sprache ist ein Warnsignal: „sollte”, „wahrscheinlich”, „scheint”, „ich glaube”, „sieht korrekt aus”. Jedes dieser Wörter signalisiert, dass keine Verifizierung stattgefunden hat.¹² Dies gilt auch für menschliches Denken. Wenn Sie sich dabei ertappen zu sagen „Ich bin ziemlich sicher, dass das der richtige Ansatz ist”, ist das kein Beweis. Das ist System 2, das System 1 abnickt.

Multi-Agenten-Deliberation erzwingt die Beweis-Schranke strukturell. Der Cost Analyst sagt nicht „Das ergibt wahrscheinlich wirtschaftlich Sinn.” Er sagt „9 $/Monat aktuelle Kosten, 5 $/Monat Einsparung, 200–400 Stunden Bauzeit, 18–36 Jahre Break-even.” Der Security Analyst sagt nicht „Die Sicherheitslage sieht vertretbar aus.” Er sagt „Speichervergiftungs-Szenario: Kompromittierte Sitzung injiziert Credential-Harvesting-Anweisungen in den persistenten Speicher.”

Der effektivste Debiasing-Mechanismus, den ich gefunden habe, ist keine Checkliste und keine Philosophie. Es ist ein System, in dem die Agenten nicht selbst berichten können. Sie müssen Beweise liefern, und diese Beweise werden von anderen Agenten bewertet, die keinen Anreiz haben zuzustimmen.

Wann Sie NICHT deliberieren sollten

Deliberation hat auch Fehlermodi. Das System fügt 2–4 Minuten und 2–3 $ pro Aufruf bei voller Skalierung hinzu. Noch wichtiger: Es kann überkorrigieren.

Ich führte eine Deliberation zu einem unkomplizierten API-Endpoint-Refactoring durch. Zehn Agenten produzierten Bedenken bezüglich Abwärtskompatibilität, Migrationspfaden, Rate-Limiting, Fehlerbehandlung, Monitoring und Dokumentation. Der Endpoint bediente zwei interne Konsumenten. Die Deliberation erzeugte 14 Maßnahmenpunkte für eine Änderung, die eigentlich 20 Zeilen hätte umfassen sollen. Ich ignorierte 12 davon und schiffte das Refactoring. Die Deliberation war technisch korrekt – die Risiken waren real –, aber die Entscheidung war eine Zweiwegetür.¹³

Jeff Bezos unterscheidet Typ-1-Entscheidungen (irreversibel, Einwegetüren) von Typ-2-Entscheidungen (reversibel, Zweiwegetüren). Typ-1-Entscheidungen erfordern sorgfältige Deliberation: Datenbank-Schema-Änderungen, Sicherheitsarchitektur, öffentliche API-Verträge. Typ-2-Entscheidungen erfordern Geschwindigkeit: interne Refactorings, Dokumentations-Updates, Feature-Flag-Experimente.¹³ Einen Schwergewichtsprozess auf Leichtgewichtsentscheidungen anzuwenden ist eine eigene Form der Verschwendung.

Regeln, die ich befolge:

Deliberieren Sie, wenn: - Die Entscheidung irreversibel oder teuer rückgängig zu machen ist - Mehrere Abwägungen eine Spezialistenbewertung erfordern - Ihre Konfidenz unter 0,70 liegt (Sie fühlen sich unsicher, können aber nicht artikulieren, warum) - Die Domäne außerhalb Ihrer Kernkompetenz liegt

Entscheiden Sie einfach, wenn: - Die Änderung hinter einem Feature-Flag steht oder leicht rückgängig gemacht werden kann - Der Umfang begrenzt ist (eine Datei, eine Funktion, ein Endpoint) - Sie diese Art von Entscheidung schon erfolgreich getroffen haben - Die Kosten eines Fehlers niedriger sind als die Kosten der Deliberation

Deliberieren Sie niemals bei: - Dokumentationskorrekturen - Variablenumbenennungen - Test-Fixture-Updates - Änderungen an Log-Nachrichten

Die 10 % der Entscheidungen, die Deliberation rechtfertigen, produzieren 90 % des Werts. Über alles zu deliberieren erzeugt Analyselähmung. Über nichts zu deliberieren liefert die Verzerrungen aus, die Sie nicht sehen können.

Was ich in zwei Monaten gelernt habe

Das System hat seit Januar 2026 etwa 40 Deliberationen durchgeführt. Muster:

Der Cost Analyst ist der am meisten unterschätzte Agent. Ingenieure greifen instinktiv zum Performance Engineer und Security Analyst. Der Cost Analyst hat mehr schlechte Ideen beerdigt als jede andere Persona, indem er die eine Frage stellte, die Ingenieure hassen: „Was kostet das eigentlich?”
Konsens unter 0,70 bedeutet, dass die Frage falsch ist. Wenn Agenten sich nicht einigen können, liegt das Problem meist in einer mehrdeutigen Fragestellung, nicht in echtem Dissens. Die Frage neu zu formulieren und erneut zu starten, liefert bessere Ergebnisse als Konvergenz zu erzwingen.
Der Maintenance Pessimist findet, was Post-Mortems zu spät entdecken. Jedes Bedenken, das der Maintenance Pessimist bezüglich der Speicherarchitektur äußerte, wurde seither durch die tatsächliche Erfahrung mit der Wartung einfacherer Systeme bestätigt.
Zwei Agenten erfassen 80 % des Werts. Das minimal tragfähige Muster: Ein Agent argumentiert DAFÜR, einer argumentiert DAGEGEN. Unabhängigkeit ist der Mechanismus. Zehn Agenten sind besser, aber zwei Agenten sind unendlich besser als einer.
Deliberation verbessert die Frage, nicht nur die Antwort. Das häufigste Ergebnis ist nicht „der gewinnende Ansatz”. Es ist „die Frage, so umformuliert, dass die Antwort offensichtlich wird.”

Referenzen

Author’s deliberation session delib-20260207-082618-9105e6. 10 research agents, 3 approaches generated, winning approach scored 7.04/10 with 8/10 agent support. Full session record in Obsidian vault. ↩↩
Kahneman, Daniel, Thinking, Fast and Slow, Farrar, Straus and Giroux, 2011. System 2 operates in “a comfortable low-effort mode” and endorses System 1 conclusions without scrutiny. ↩↩↩
Author’s vault note, “20 Cognitive Biases That Mess Up Your Decisions.” Counter-strategies: devil’s advocate process, pre-mortem analysis, structured decision frameworks, external feedback loops. ↩
Altman, Sam. “I think of writing as externalized thinking. If I have a very hard problem or if I feel a little bit confused about something, I have to write it down.” Via @StartupArchive_. ↩
Minsky, Marvin, The Society of Mind, Simon & Schuster, 1986. Intelligence emerges from the interaction of many smaller, simpler agents, not from a single sophisticated process. ↩
Ng, Andrew. Multi-agent AI patterns: debate (propose-critique-revise), collaboration (parallel specialists with synthesizer), adversarial (red team vs. blue team). Reported March 2024. ↩
de Bono, Edward, Six Thinking Hats, Little, Brown and Company, 1985. Six parallel perspectives prevent anchoring on a single thinking mode. ↩
Domingos, Pedro. AI as “mental exoskeleton”: extend rather than replace human cognition, represent user interests rather than flattering conclusions. ↩
Munger, Charlie. Inversion thinking: instead of “How do I achieve X?”, ask “What would guarantee failure at X?” Then avoid those things. Frequently cited in Berkshire Hathaway shareholder meetings. ↩
Klein, Gary, “Performing a Project Premortem,” Harvard Business Review, September 2007. Assume the project failed, then explain why. Based on research by Mitchell, Russo, and Pennington (1989) showing prospective hindsight increases identification of failure reasons by 30%. ↩
Tetlock, Philip E., Expert Political Judgment: How Good Is It? How Can We Know?, Princeton University Press, 2005. “Foxes” who integrate multiple perspectives consistently outperform “hedgehogs” who commit to one idea. Expanded in Superforecasting (Crown, 2015). ↩
Author’s Evidence Gate pattern. Implementation in Quality Loop rules (~/.claude/rules/quality-loop.md). Hedging language triggers mandatory re-verification. See also Jiro Quality Philosophy. ↩↩
Bezos, Jeff, 2015 Letter to Amazon Shareholders (SEC filing). Type 1 decisions: irreversible, one-way doors requiring careful deliberation. Type 2 decisions: reversible, two-way doors requiring speed. ↩↩