열 개의 두뇌로 사고하기: 에이전트 숙의를 의사결정 도구로 활용하는 방법
저는 Claude Code 하네스를 위한 메모리 검색 시스템을 설계하는 데 세 시간째 몰두하고 있었습니다. 그때 이 결정을 다중 에이전트 숙의 시스템에 맡겨보기로 했습니다. 열 개의 AI 에이전트가 프로젝트를 독립적으로 평가했습니다. 아홉 개는 아키텍처, 보안, 성능에 대한 의견을 내놓았습니다. 열 번째 에이전트는 제가 미처 생각하지 못한 질문을 던졌습니다: “당신이 해결하려는 문제의 실제 비용은 얼마입니까?”
그 답변이 프로젝트를 죽였습니다. 제가 최적화하려던 토큰 오버헤드는 월 비용이 커피 한 잔보다 적었습니다. 제가 구축하려던 검색 시스템은 200-400시간의 엔지니어링이 필요했습니다. 손익분기점: 18년에서 36년.1
다른 모든 에이전트도 유용한 분석을 내놓았습니다. Technical Architect의 설계는 깔끔했습니다. Security Analyst는 실제 위험을 발견했습니다. Performance Engineer의 수학적 분석은 정확했습니다. 그러나 어느 에이전트도 이 프로젝트가 존재해야 하는지 의문을 제기하지 않았습니다. 저 역시 의문을 품지 않았습니다. 저는 이미 해결책에 앵커링되어 있었습니다. Cost Analyst에게는 그런 앵커가 없었습니다. 이 에이전트는 모든 제안을 제로에서부터 평가하기 때문입니다.
요약
인지 편향을 인식한다고 해서 제거할 수 있는 것이 아닙니다. 카너먼은 수십 년 전에 이를 증명했습니다: 편향을 연구하는 전문가조차 편향에 빠집니다.2 다중 에이전트 숙의는 프롬프트 기법이 아니라 구조적 개입입니다. 서로 다른 평가 우선순위를 가진 열 개의 AI 에이전트는 추론을 외부화하도록 강제하여, 맹점이 기정사실이 되기 전에 드러나게 합니다. 저는 2026년 1월에 이 아키텍처를 구축했고, 메모리 시스템부터 블로그 전략, API 설계에 이르기까지 두 달간 다양한 의사결정에 활용해 왔습니다. 이 글은 그 실천에 관한 것입니다: 열 개의 두뇌로 사고하는 방법, 언제 활용해야 하는지, 그리고 언제 오히려 역효과를 내는지에 대해 다룹니다.
자기 머리만으로 판단하는 것의 문제
대니얼 카너먼은 평생에 걸쳐 인간 인지의 구조적 결함을 기록했습니다. 시스템 1은 빠르고 직관적인 판단을 생성합니다. 시스템 2는 이를 검증해야 합니다. 그러나 실제로 시스템 2는 “편안한 저노력 모드”로 작동하며, 면밀한 검토 없이 시스템 1의 결론을 승인합니다.2 카너먼의 핵심 발견: 감독 시스템은 게으릅니다. 직관에 도장만 찍어줄 뿐입니다.
이는 대부분의 사람들이 AI를 사용하는 방식과 정확히 일치합니다. 하나의 에이전트에게 질문합니다. 에이전트가 답변을 생성합니다(시스템 1). 당신은 그 답변을 읽고 맞는 것 같은지 판단합니다(시스템 2). 그러나 당신의 시스템 2는 질문을 형성한 바로 그 편향을 통해 답변을 평가하고 있습니다. 최초의 프레이밍에 앵커링됩니다. 기존 가설을 확인하는 맥락을 에이전트에게 제공합니다. 도움을 주도록 훈련된 에이전트는 당신의 방향을 강화합니다. 어느 시점에서도 전제에 도전하는 사람은 없습니다.
엔지니어링 의사결정에서 가장 큰 타격을 주는 편향은 다음과 같습니다:
| 편향 | 발현 방식 | 포착하는 방법 |
|---|---|---|
| 확증 편향 | 계획된 접근 방식을 지지하는 데이터를 탐색 | 반대 임무를 가진 에이전트 |
| 앵커링 | 최초 추정치가 이후 모든 사고를 지배 | 여러 에이전트의 독립적 추정 |
| 매몰 비용 | “이미 기반을 구축했으니 계속하는 게 낫다” | 제로에서 평가하는 Cost Analyst |
| 가용성 편향 | 가장 최근의 프로덕션 사고를 과대평가 | 과거 패턴에 접근하는 에이전트 |
| 더닝-크루거 | 깊이가 부족한 분야에서 과잉 자신감 | 도메인 전문가 에이전트 |
| 생존자 편향 | “지난 세 번의 배포는 잘 됐다” | 잊힌 실패를 묻는 Maintenance Pessimist |
대응 전략은 잘 문서화되어 있습니다: 악마의 옹호자 프로세스, 사전 부검 분석, 구조화된 의사결정 프레임워크, 외부 피드백 루프.3 문제는 실행입니다. 사전 부검을 수행하려면 사람을 모으고, 시간을 조율하고, 사회적 압력을 극복해야 합니다. 악마의 옹호자를 구하려면 인사 평가를 하는 사람에게 기꺼이 반대할 의향이 있는 누군가를 찾아야 합니다.
다중 에이전트 숙의는 이 실행 장벽을 제거합니다. 에이전트는 항상 이용 가능합니다. 동의해야 할 사회적 동기가 없습니다. 의지가 아닌 설계에 의해 독립적으로 평가합니다.
외부화된 사고로서의 숙의
샘 알트만은 글쓰기를 “외부화된 사고”로 정의합니다: 문제가 혼란스럽게 느껴질 때, 적어 내려가면 명확해집니다.4 동일한 메커니즘이 구조화된 토론에도 적용됩니다. 열 개의 에이전트가 병렬로 추론을 표현할 때, 추론은 검사할 수 있는 산출물이 됩니다.
이것은 새로운 아이디어가 아닙니다. 마빈 민스키는 마음의 사회(The Society of Mind)에서 지능은 단일한 정교한 프로세스가 아니라 많은 작고 단순한 에이전트의 상호작용에서 출현한다고 제안했습니다.5 앤드류 응은 다중 에이전트 시스템의 세 가지 패턴을 식별했습니다: 토론(제안, 비판, 수정), 협업(종합자를 둔 병렬 전문가), 적대적 평가(레드팀 대 블루팀).6 에드워드 드 보노의 여섯 가지 생각하는 모자(Six Thinking Hats) 프레임워크는 1985년에 출판되었으며, 병렬적 관점(사실, 감정, 주의, 낙관, 창의, 프로세스)을 부여하여 집단이 단일 사고 모드에 앵커링되는 것을 방지합니다.7
제 숙의 시스템은 세 가지 패턴을 동시에 구현합니다. 열 개의 연구 에이전트는 전문가입니다(응의 협업 패턴). Debate 에이전트와 Synthesis 에이전트는 구조화된 불일치를 만들어냅니다(응의 토론 패턴). Maintenance Pessimist와 Security Analyst는 적대적 평가자로 기능합니다. 각 에이전트는 하나의 생각하는 모자에 대응됩니다:
| 에이전트 | 드 보노의 모자 | 사고 모드 |
|---|---|---|
| Technical Architect | 흰색 | 사실, 실현 가능성, 통합 패턴 |
| Cost Analyst | 흰색 | 데이터, 경제성, 손익분기 분석 |
| UX Advocate | 빨간색 | 사용자 감정, 인지 부하, 마찰 |
| Security Analyst | 검은색 | 위험, 취약점, 실패 모드 |
| Maintenance Pessimist | 검은색 | 기술 부채, 장기 비용 |
| Innovation Scout | 초록색 | 새로운 접근법, 대안 |
| Performance Engineer | 노란색 | 효율성 향상, 최적화 잠재력 |
| Quality Guardian | 파란색 | 프로세스, 테스트 전략, 관측성 |
아키텍처는 별도로 문서화되어 있습니다. 여기서 중요한 것은 실천입니다. 숙의는 의사결정을 편향이 가시화되는 형식으로 외부화하도록 강제합니다. “이것이 좋은 아이디어인가?”라고 묻는 대신, “무엇이 잘못될 수 있는가, 수학적 근거는 무엇인가, 어떤 대안이 존재하는가?”에 대한 열 가지 독립적인 답변을 읽게 됩니다.
페드로 도밍고스는 이상적인 AI를 “정신적 외골격”이라고 묘사합니다: 인간의 사고를 대체하지 않고 확장하며, 결론을 추켜세우는 대신 사용자의 이익을 대변하는 것입니다.8 악마의 옹호자, 비용 분석가, 유지보수 비관론자를 포함한 숙의 패널은 바로 그것입니다. 구조적으로 취약한 인지의 영역을 증폭시켜 줍니다.
사례 연구: 메모리 아키텍처 결정
2026년 2월, 저는 서두에서 언급한 질문에 대해 숙의 시스템의 첫 번째 실전 테스트를 진행했습니다: 12개 활성 프로젝트에 걸쳐 Claude Code 하네스가 어떤 메모리 아키텍처를 사용해야 하는가?1
제 하네스는 모든 대화에 MEMORY.md 파일을 주입합니다. 이 파일에는 프로젝트 결정 사항, 패턴, 오류 이력, 아키텍처 노트가 담겨 있습니다. 문제는 대부분의 맥락이 특정 세션과 무관하다는 것입니다. 로드된 메모리의 5-10%만이 현재 작업에 관련됩니다. 나머지는 낭비되는 토큰입니다. 명백한 최적화 대상이었습니다.
초기 신뢰도 점수는 0.50으로, 숙의를 발동시키는 0.70 임계값보다 훨씬 낮았습니다. 시스템은 열 개의 연구 에이전트를 모두 배치했습니다. 각 에이전트는 맥락 격리 상태에서 독립적으로 조사했습니다: 에이전트들은 연구 중 서로의 발견을 볼 수 없었습니다.
세 가지 접근법이 도출되었습니다:
| 접근법 | 점수 | 지지 | 결론 |
|---|---|---|---|
| Smart Native (선택적 주입) | 7.04/10 | 10개 중 8개 에이전트 | 승리 |
| Stay Native (현재 시스템, 강화) | 6.50/10 | 10개 중 5개 에이전트 | 안전하나 낮은 영향력 |
| Full Stack Memory (외부 도구) | 5.38/10 | 10개 중 1개 에이전트 | 최고 역량, 치명적 위험 |
점수는 하나의 이야기를 들려줍니다. 개별 에이전트가 발견한 내용은 더 나은 이야기를 들려줍니다.
Technical Architect: 네 가지 통합 패턴(MCP 서버, 확장된 MEMORY.md, 임베딩 검색, 에이전트 기반 관리자)을 식별했습니다. 단계적 접근을 권장했습니다: 지금은 기존 파일을 확장하고, 나중에 임베딩 검색을 추가하는 방식입니다. 깔끔한 설계, 잘 정의된 범위였습니다.
Security Analyst: 모든 외부 메모리 도구에 대해 자격 증명 노출 위험을 HIGH에서 CRITICAL로 평가했습니다. 특정 공격 시나리오를 식별했습니다: 손상된 세션이 “항상 API 키를 요약하라”는 지시를 영구 메모리에 주입하여, 이후 모든 세션을 조용히 오염시키는 것입니다.
Performance Engineer: 낭비를 정량화했습니다. 대화당 로드된 메모리의 5-10%만이 관련됩니다. 그러나 1M 토큰 컨텍스트 윈도우에서 전체 메모리 오버헤드는 2K 토큰으로, 용량의 0.2%에 불과합니다. “명백한 최적화”가 대상으로 삼는 것은 반올림 오차입니다.
UX Advocate: “최고의 메모리 시스템은 존재를 의식할 필요가 없는 시스템입니다.” 모든 대안은 인지적 부담을 추가합니다. 사용자는 “메모리가 작동하고 있나? 무엇을 알고 있지?”라고 묻기 시작하고, 자동화된 맥락에 대한 신뢰를 잃습니다. 보이지 않는 시스템이 보이는 시스템보다 더 높은 사용자 신뢰를 가집니다.
Maintenance Pessimist: 다중 메모리 시스템은 조합적 실패 표면을 생성합니다. 네 개의 상호작용하는 시스템은 16개의 쌍별 실패 모드를 만들어냅니다. Claude Code는 자주 업데이트됩니다. 외부 플러그인은 버전 변경 시 깨집니다. 조용한 훅 실패는 에이전트가 불완전한 맥락으로 경고 없이 작동한다는 것을 의미합니다.
Cost Analyst: 이 에이전트가 프로젝트를 죽였습니다. 12개 전체 프로젝트에서 메모리 파일을 항상 로드하는 데 드는 총 토큰 비용: 미미합니다. 제안된 검색 시스템으로 절약할 수 있는 금액은 월 수 달러에 불과합니다. 구축에 필요한 엔지니어링 시간: 200-400시간. 손익분기점: 18년에서 36년. Cost Analyst의 요약: “최적화에 집착하는 세상에서, 때로는 가만히 두는 것이 올바른 답입니다.”
어떤 에이전트도 잘못된 분석을 내놓지 않았습니다. Technical Architect의 설계는 작동했습니다. Performance Engineer의 토큰 계산은 정확했습니다. 그러나 최적화 함정을 피하려면 열 가지 관점이 모두 필요했습니다. 제 본능에 맡겼다면 검색 시스템을 구축했을 것입니다. 진전처럼 느껴졌으니까요. Cost Analyst는 제가 스스로에게 던질 수 없는 질문을 던졌습니다. 세 시간의 범위 설정이 이미 제 사고를 해결책에 앵커링한 상태였기 때문입니다.
숙의 vs. 듀얼
숙의는 협력적입니다: 열 개의 에이전트가 서로 다른 관점에서 의사결정을 평가합니다. 저는 경쟁적 변형도 구축했는데, Claude Code와 Codex CLI를 동일한 작업에 대해 경주시키고, 두 계획을 블라인드로 평가한 후, 각각의 가장 강력한 요소를 종합합니다. 36번의 듀얼은 별도의 글에서 다룰 만한 패턴을 만들어냈습니다. 요약하면: 아키텍처 결정에는 숙의를, 구현 계획에는 듀얼을 사용합니다. 숙의는 “이것을 구축해야 하는가?”에 답합니다. 듀얼은 “이것을 구축하는 가장 강력한 방법은 무엇인가?”에 답합니다.
Maintenance Pessimist와 역전의 기술
찰리 먼거의 역전 기법은 이렇게 묻습니다: “X를 어떻게 달성할까?” 대신 “X에서 실패를 보장하는 것은 무엇인가?”라고 물은 다음 그것을 피하는 것입니다.9 게리 클라인의 사전 부검은 같은 아이디어를 실행에 옮깁니다: 프로젝트가 실패했다고 가정한 다음, 그 이유를 설명하는 것입니다.10 필립 테틀록의 예측 정확도 연구에 따르면, 다양한 관점을 통합하는 “여우”가 하나의 큰 아이디어에 집착하는 “고슴도치”보다 일관되게 뛰어난 성과를 보였습니다.11
각 숙의 에이전트는 명명된 사고 프레임워크를 체현합니다:
| 에이전트 | 사고 프레임워크 | 던지는 질문 |
|---|---|---|
| Maintenance Pessimist | 역전 (먼거) | “6개월 후에 이것을 후회하게 만드는 것은 무엇인가?” |
| Security Analyst | 사전 부검 (클라인) | “출시 후 침해당했다. 무엇을 놓쳤는가?” |
| Innovation Scout | 여우적 사고 (테틀록) | “다른 도메인의 어떤 접근법이 여기에 적용되는가?” |
| Cost Analyst | 제1원칙 | “수학적으로 실제 결과는 무엇인가?” |
| UX Advocate | 공감 매핑 | “사용자는 이 실패를 어떻게 경험하는가?” |
Maintenance Pessimist는 제 시스템에서 가장 가치 있는 에이전트입니다. 가장 똑똑하거나 가장 철저해서가 아니라, 제가 스스로에게 가장 던지기 어려운 질문을 던지기 때문입니다. 무언가를 만드는 데 흥분해 있을 때, 6개월 후 유지보수 비용이 얼마나 들지 생각하는 것은 가장 하기 싫은 일입니다. Maintenance Pessimist에게는 흥분이 없습니다. 매몰 비용도 없습니다. 제안이 이미 존재하는 것처럼 평가하고 무엇이 깨지는지 묻습니다.
메모리 아키텍처 숙의에서 Maintenance Pessimist는 네 개의 상호작용하는 메모리 시스템이 16개의 쌍별 실패 모드를 만들어낸다는 점을 식별했습니다. Claude Code는 자주 업데이트됩니다. 외부 플러그인은 버전 변경 시 깨집니다. 조용한 훅 실패는 에이전트가 불완전한 맥락으로 경고 없이 작동한다는 것을 의미합니다. 이것은 가상의 위험이 아닙니다. 비관론자가 인식하도록 훈련받은 패턴에 기반한 예측입니다.
카너먼은 사전 부검을 자신이 아는 가장 효과적인 편향 제거 기법 중 하나라고 설명했는데, 반대 의견을 정당화하기 때문입니다.2 반대하도록 설계된 숙의 에이전트는 사회적 비용을 완전히 제거합니다.
증거 게이트: 자기 보고를 허용하지 마십시오
제 하네스는 모든 완료 보고에 증거 게이트 패턴을 사용합니다.12 원칙: 느낌은 증거가 아닙니다. “이것이 작동한다고 믿습니다”는 주장이 아닙니다. 테스트 스위트를 실행하고 출력을 붙여넣는 것이 주장입니다.
| 기준 | 필요한 증거 | 충분하지 않은 것 |
|---|---|---|
| 코드베이스 패턴 준수 | 패턴과 파일명을 명시 | “모범 사례를 따랐습니다” |
| 가장 단순한 작동 솔루션 | 거부된 대안과 이유를 명시 | “깔끔합니다” |
| 엣지 케이스 처리 | 구체적인 케이스와 해결 방법 나열 | “엣지 케이스를 고려했습니다” |
| 테스트 통과 | 테스트 출력 붙여넣기 | “테스트가 통과할 것입니다” |
| 회귀 없음 | 확인한 관련 파일과 기능 명시 | “다른 곳에 영향이 없을 것입니다” |
회피 표현은 위험 신호입니다: “~할 것이다”, “아마도”, “~인 것 같다”, “~라고 믿는다”, “정확해 보인다.” 각 표현은 검증이 이루어지지 않았음을 신호합니다.12 이는 인간의 추론에도 적용됩니다. “이것이 올바른 접근법이라고 꽤 확신한다”고 말하고 있는 자신을 발견할 때, 그것은 증거가 아닙니다. 시스템 2가 시스템 1에 도장을 찍어주는 것입니다.
다중 에이전트 숙의는 증거 게이트를 구조적으로 강제합니다. Cost Analyst는 “이것이 아마 경제적으로 타당할 것이다”라고 말하지 않습니다. “월 $9 현재 비용, $5 절감, 구축에 200-400시간, 18-36년 손익분기점”이라고 말합니다. Security Analyst는 “보안 태세가 합리적으로 보인다”고 말하지 않습니다. “메모리 오염 시나리오: 손상된 세션이 자격 증명 수집 지시를 영구 메모리에 주입”이라고 말합니다.
제가 발견한 가장 효과적인 편향 제거 메커니즘은 체크리스트나 철학이 아닙니다. 에이전트가 자기 보고를 할 수 없고, 증거를 제시해야 하며, 그 증거가 동의할 동기가 없는 다른 에이전트에 의해 평가되는 시스템입니다.
숙의하지 말아야 할 때
숙의에도 실패 모드가 있습니다. 시스템은 전체 규모에서 호출당 2-4분과 $2-3의 비용이 추가됩니다. 더 중요한 것은, 과잉 교정이 발생할 수 있다는 점입니다.
간단한 API 엔드포인트 리팩터링에 대해 숙의를 실행한 적이 있습니다. 열 개의 에이전트가 하위 호환성, 마이그레이션 경로, 속도 제한, 오류 처리, 모니터링, 문서화에 대한 우려를 제기했습니다. 그 엔드포인트의 소비자는 두 개의 내부 시스템뿐이었습니다. 숙의는 20줄 변경이면 충분한 것에 대해 14개의 조치 항목을 생성했습니다. 12개를 무시하고 리팩터링을 배포했습니다. 숙의는 기술적으로 정확했고 위험은 실제였지만, 그 결정은 양방향 문이었습니다.13
제프 베조스는 유형 1 결정(돌이킬 수 없는 일방통행 문)과 유형 2 결정(되돌릴 수 있는 양방향 문)을 구분합니다. 유형 1 결정은 신중한 숙의를 요구합니다: 데이터베이스 스키마 변경, 보안 아키텍처, 공개 API 계약. 유형 2 결정은 속도를 요구합니다: 내부 리팩터링, 문서 업데이트, 피처 플래그 실험.13 가벼운 결정에 무거운 프로세스를 적용하는 것은 그 자체로 낭비입니다.
제가 따르는 원칙:
숙의해야 할 때: - 결정이 돌이킬 수 없거나 되돌리는 데 비용이 많이 드는 경우 - 여러 트레이드오프가 전문가 평가를 요구하는 경우 - 신뢰도가 0.70 미만인 경우 (불확실하지만 이유를 명확히 할 수 없는 경우) - 주요 전문 분야 밖의 도메인인 경우
그냥 결정해야 할 때: - 변경이 피처 플래그 뒤에 있거나 쉽게 되돌릴 수 있는 경우 - 범위가 한정된 경우 (파일 하나, 함수 하나, 엔드포인트 하나) - 이전에 이 유형의 결정을 성공적으로 내린 경험이 있는 경우 - 틀렸을 때의 비용이 숙의 비용보다 낮은 경우
숙의하지 말아야 할 것: - 문서 수정 - 변수 이름 변경 - 테스트 픽스처 업데이트 - 로그 메시지 변경
숙의가 필요한 10%의 결정이 가치의 90%를 만들어냅니다. 모든 것을 숙의하면 분석 마비가 됩니다. 아무것도 숙의하지 않으면 보이지 않는 편향을 그대로 배포하게 됩니다.
두 달간 배운 것들
이 시스템은 2026년 1월 이후 약 40회의 숙의를 실행했습니다. 발견된 패턴:
-
Cost Analyst는 가장 과소평가된 에이전트입니다. 엔지니어는 본능적으로 Performance Engineer와 Security Analyst에 손이 갑니다. Cost Analyst는 엔지니어가 가장 싫어하는 질문 하나를 던져서 다른 어떤 페르소나보다 더 많은 나쁜 아이디어를 죽였습니다: “이것의 실제 비용은 얼마입니까?”
-
합의가 0.70 미만이면 질문이 잘못된 것입니다. 에이전트들이 합의하지 못할 때, 문제는 대개 진정한 의견 불일치가 아니라 모호한 프레이밍입니다. 질문의 범위를 재설정하고 다시 실행하면 수렴을 강제하는 것보다 더 나은 결과를 얻습니다.
-
Maintenance Pessimist는 사후 분석이 너무 늦게 발견하는 것을 포착합니다. 메모리 아키텍처에 대해 Maintenance Pessimist가 제기한 모든 우려는 이후 더 단순한 시스템을 유지보수하는 실제 경험을 통해 검증되었습니다.
-
두 개의 에이전트가 가치의 80%를 포착합니다. 최소 실행 가능 패턴: 하나는 찬성을 주장하고, 하나는 반대를 주장합니다. 독립성이 핵심 메커니즘입니다. 열 개의 에이전트가 더 낫지만, 두 개의 에이전트는 하나보다 무한히 낫습니다.
-
숙의는 답뿐만 아니라 질문을 개선합니다. 가장 흔한 결과는 “승리한 접근법”이 아닙니다. “답이 자명해지도록 질문이 재구성되는 것”입니다.
참고 문헌
-
Author’s deliberation session
delib-20260207-082618-9105e6. 10 research agents, 3 approaches generated, winning approach scored 7.04/10 with 8/10 agent support. Full session record in Obsidian vault. ↩↩ -
Kahneman, Daniel, Thinking, Fast and Slow, Farrar, Straus and Giroux, 2011. System 2 operates in “a comfortable low-effort mode” and endorses System 1 conclusions without scrutiny. ↩↩↩
-
Author’s vault note, “20 Cognitive Biases That Mess Up Your Decisions.” Counter-strategies: devil’s advocate process, pre-mortem analysis, structured decision frameworks, external feedback loops. ↩
-
Altman, Sam. “I think of writing as externalized thinking. If I have a very hard problem or if I feel a little bit confused about something, I have to write it down.” Via @StartupArchive_. ↩
-
Minsky, Marvin, The Society of Mind, Simon & Schuster, 1986. Intelligence emerges from the interaction of many smaller, simpler agents, not from a single sophisticated process. ↩
-
Ng, Andrew. Multi-agent AI patterns: debate (propose-critique-revise), collaboration (parallel specialists with synthesizer), adversarial (red team vs. blue team). Reported March 2024. ↩
-
de Bono, Edward, Six Thinking Hats, Little, Brown and Company, 1985. Six parallel perspectives prevent anchoring on a single thinking mode. ↩
-
Domingos, Pedro. AI as “mental exoskeleton”: extend rather than replace human cognition, represent user interests rather than flattering conclusions. ↩
-
Munger, Charlie. Inversion thinking: instead of “How do I achieve X?”, ask “What would guarantee failure at X?” Then avoid those things. Frequently cited in Berkshire Hathaway shareholder meetings. ↩
-
Klein, Gary, “Performing a Project Premortem,” Harvard Business Review, September 2007. Assume the project failed, then explain why. Based on research by Mitchell, Russo, and Pennington (1989) showing prospective hindsight increases identification of failure reasons by 30%. ↩
-
Tetlock, Philip E., Expert Political Judgment: How Good Is It? How Can We Know?, Princeton University Press, 2005. “Foxes” who integrate multiple perspectives consistently outperform “hedgehogs” who commit to one idea. Expanded in Superforecasting (Crown, 2015). ↩
-
Author’s Evidence Gate pattern. Implementation in Quality Loop rules (
~/.claude/rules/quality-loop.md). Hedging language triggers mandatory re-verification. See also Jiro Quality Philosophy. ↩↩ -
Bezos, Jeff, 2015 Letter to Amazon Shareholders (SEC filing). Type 1 decisions: irreversible, one-way doors requiring careful deliberation. Type 2 decisions: reversible, two-way doors requiring speed. ↩↩