10の頭脳で考える:意思決定ツールとしてのエージェント討議の活用法
Claude Codeハーネスのメモリ検索システムを設計して3時間が経った頃、私はその判断をマルチエージェント討議システムにかけることにしました。10体のAIエージェントがそれぞれ独立してプロジェクトを評価しました。9体はアーキテクチャ、セキュリティ、パフォーマンスについて意見を述べました。残りの1体は、私が思いもしなかった問いを投げかけました。「あなたが解決しようとしている問題の実際のコストはいくらですか?」
その答えがプロジェクトを葬りました。私が最適化で削減しようとしていたトークンのオーバーヘッドは、月額コーヒー1杯にも満たない金額でした。構築しようとしていた検索システムには200〜400時間のエンジニアリング工数がかかります。損益分岐点:18年から36年。1
他のすべてのエージェントは有用な分析を行いました。テクニカルアーキテクトの設計は洗練されていました。セキュリティアナリストは実際のリスクを発見しました。パフォーマンスエンジニアの計算は正確でした。しかし、誰一人としてそのプロジェクトが存在すべきかどうかを疑問視しませんでした。私自身も疑問に思っていませんでした。すでにソリューションにアンカリングされていたのです。コストアナリストにはそのようなアンカーがありません。すべての提案をゼロから評価するからです。
TL;DR(要約)
認知バイアスは、それを意識するだけでは取り除けません。カーネマンは数十年前にこれを証明しています。バイアスを研究する専門家でさえ、バイアスの罠にはまるのです。2 マルチエージェント討議は、プロンプトのテクニックではなく構造的介入です。異なる評価優先度を持つ10体のAIエージェントが推論の外在化を強制し、盲点がコミットメントになる前に可視化します。私は2026年1月にアーキテクチャを構築し、メモリシステムからブログ戦略、API設計に至るまで、2ヶ月間にわたりさまざまな意思決定に活用してきました。この記事はその実践について書いたものです。10の頭脳でどう考えるか、いつそうすべきか、そしていつ逆効果になるかについてお伝えします。
自分の頭だけで考えることの問題
ダニエル・カーネマンは、人間の認知における構造的欠陥をキャリアをかけて記録してきました。システム1は高速で直感的な判断を生成します。システム2はそれをチェックするはずです。しかし実際には、システム2は「快適な低負荷モード」で動作し、システム1の結論を精査せずに追認してしまいます。2 カーネマンの中心的発見は、監視システムは怠惰であるということです。直感にお墨付きを与えるだけなのです。
これは、ほとんどの人がAIを使う方法にそのまま当てはまります。1つのエージェントに質問します。エージェントが回答を生成します(システム1)。あなたはその回答を読み、正しそうかどうかを判断します(システム2)。しかし、あなたのシステム2は、質問を形作ったのと同じバイアスを通じて回答を評価しています。最初のフレーミングにアンカリングされています。既存の仮説を裏付けるコンテキストをエージェントに与えています。エージェントは役に立つよう訓練されているため、あなたの方向性を強化します。誰も前提を疑問視する瞬間がないのです。
エンジニアリングの意思決定で最も影響が大きいバイアスは以下の通りです:
| バイアス | 現れ方 | 何がそれを捉えるか |
|---|---|---|
| 確証バイアス | 計画中のアプローチを支持するデータを探す | 対立する使命を持つエージェント |
| アンカリング | 最初の見積もりがその後のすべての思考を支配する | 複数エージェントによる独立した見積もり |
| サンクコスト | 「すでに基盤を作ったのだから、続けるべきだ」 | ゼロから評価するコストアナリスト |
| 利用可能性 | 直近の本番インシデントを過大評価する | 過去のパターンにアクセスできるエージェント |
| ダニング=クルーガー効果 | 深い知識がない分野で自信を持つ | ドメイン専門家エージェント |
| 生存者バイアス | 「直近3回のデプロイはうまくいった」 | あなたが忘れた失敗について問うメンテナンスペシミスト |
対策は十分に文書化されています。悪魔の代弁者プロセス、プリモーテム分析、構造化された意思決定フレームワーク、外部フィードバックループなどです。3 問題は実行にあります。プリモーテムを実施するには、人を集め、時間を確保し、社会的プレッシャーを克服する必要があります。悪魔の代弁者を探すには、自分の人事評価を書く人に反論してくれる誰かを見つけなければなりません。
マルチエージェント討議は、この実行の障壁を取り除きます。エージェントは常に利用可能です。合意する社会的インセンティブを持ちません。規律によってではなく、設計によって独立した評価を行います。
外在化された思考としての討議
サム・アルトマンは、ライティングを「外在化された思考」と表現しています。問題が混乱して感じるとき、書き出すことで明確さが生まれます。4 同じメカニズムが構造化された議論にも当てはまります。10体のエージェントが並行して推論を言語化すると、その推論は検査可能なアーティファクトになります。
これは新しいアイデアではありません。マーヴィン・ミンスキーは『心の社会』の中で、知能は単一の高度なプロセスからではなく、多数のより小さくシンプルなエージェントの相互作用から生まれると提唱しました。5 アンドリュー・ングはマルチエージェントシステムの3つのパターンを特定しました。議論(提案、批評、修正)、協調(並列の専門家と統合者)、敵対的評価(レッドチーム対ブルーチーム)です。6 エドワード・デ・ボノの「6つの思考の帽子」フレームワークは1985年に発表されたもので、並列の視点(事実、感情、注意、楽観、創造性、プロセス)を割り当てることで、グループが単一の思考モードにアンカリングされることを防ぎます。7
私の討議システムは、3つのパターンすべてを同時に実装しています。10体のリサーチエージェントは専門家です(ングの協調パターン)。議論エージェントと統合エージェントが構造化された不一致を生み出します(ングの議論パターン)。メンテナンスペシミストとセキュリティアナリストは敵対的評価者として機能します。各エージェントは思考の帽子に対応しています:
| エージェント | デ・ボノの帽子 | 思考モード |
|---|---|---|
| テクニカルアーキテクト | 白 | 事実、実現可能性、統合パターン |
| コストアナリスト | 白 | データ、経済性、損益分岐分析 |
| UXアドボケイト | 赤 | ユーザーの感情、認知負荷、摩擦 |
| セキュリティアナリスト | 黒 | リスク、脆弱性、障害モード |
| メンテナンスペシミスト | 黒 | 技術的負債、長期コスト |
| イノベーションスカウト | 緑 | 新しいアプローチ、代替案 |
| パフォーマンスエンジニア | 黄 | 効率改善、最適化の可能性 |
| クオリティガーディアン | 青 | プロセス、テスト戦略、可観測性 |
アーキテクチャは別の記事で文書化しています。ここで重要なのは実践です。討議は、バイアスが可視化される形式へと意思決定を外在化することを強制します。「これは良いアイデアか?」と自問するのをやめ、「何がうまくいかない可能性があるか、数学は何を示しているか、どのような代替案があるか」という10の独立した回答を読むようになります。
ペドロ・ドミンゴスは、理想的なAIを「メンタル・エクソスケルトン(精神の外骨格)」と表現しています。思考を置き換えるのではなく拡張し、結論にお世辞を言うのではなくユーザーの利益を代表するものです。8 悪魔の代弁者、コストアナリスト、メンテナンスペシミストを含む討議パネルは、まさにそれです。構造的に弱い認知の部分を増幅するのです。
ケーススタディ:メモリアーキテクチャの意思決定
2026年2月、冒頭の問いについて討議システムの初のライブテストを実施しました。12のアクティブプロジェクトにまたがるClaude Codeハーネスにどのメモリアーキテクチャを使用すべきか、という問いです。1
私のハーネスは、すべての会話にMEMORY.mdファイルを注入します。これらのファイルにはプロジェクトの決定事項、パターン、エラー履歴、アーキテクチャのメモが含まれています。問題は、そのコンテキストの大部分がどのセッションにも無関係だということです。ロードされたメモリのうち、現在のタスクに関連するのはわずか5〜10%です。残りは無駄なトークンです。明らかな最適化対象に見えます。
初期の確信度スコアは0.50で、討議をトリガーする0.70の閾値を大きく下回りました。システムは10体のリサーチエージェントすべてをデプロイしました。各エージェントはコンテキスト分離のもと独立して調査を行いました。リサーチ中、エージェント同士は互いの発見を見ることができません。
3つのアプローチが浮上しました:
| アプローチ | スコア | 支持 | 判定 |
|---|---|---|---|
| スマートネイティブ(選択的注入) | 7.04/10 | 10体中8体 | 勝者 |
| ステイネイティブ(現行システム強化版) | 6.50/10 | 10体中5体 | 安全だが影響小 |
| フルスタックメモリ(外部ツール) | 5.38/10 | 10体中1体 | 最高の能力だが重大リスク |
スコアは1つのストーリーを語ります。各エージェントが発見した内容は、より良いストーリーを語ります。
テクニカルアーキテクト: 4つの統合パターン(MCPサーバー、拡張MEMORY.md、エンベディング検索、エージェントベースマネージャー)を特定しました。段階的アプローチを推奨:まず既存ファイルを拡張し、後からエンベディング検索を追加する。洗練された設計で、スコープも適切でした。
セキュリティアナリスト: すべての外部メモリツールについて、認証情報の漏洩リスクを高〜重大と評価しました。具体的な攻撃を特定:侵害されたセッションが永続メモリに「常にAPIキーを要約する」という指示を注入し、以降のすべてのセッションを静かに汚染するというものです。
パフォーマンスエンジニア: 無駄を定量化しました。ロードされたメモリのうち、会話ごとに関連するのはわずか5〜10%です。しかし、100万トークンのコンテキストウィンドウでは、メモリのオーバーヘッド合計は2Kトークン、つまり容量のわずか0.2%です。「明らかな最適化」は丸め誤差を対象にしていたのです。
UXアドボケイト: 「最高のメモリシステムとは、その存在を意識しないシステムです。」あらゆる代替案は認知的な負担を追加します。ユーザーは「メモリは動いているか?何を知っているのか?」と気にし始め、自動コンテキストへの信頼を失います。見えないシステムの方が、見えるどのシステムよりもユーザーの信頼度が高いのです。
メンテナンスペシミスト: 複数のメモリシステムは組み合わせ的な障害面を生み出します。4つの相互作用するシステムは16の対の障害モードを生みます。Claude Codeは頻繁にアップデートされます。外部プラグインはバージョン変更で壊れます。サイレントなフック障害は、エージェントが不完全なコンテキストで警告なく動作することを意味します。
コストアナリスト: このエージェントがプロジェクトを葬りました。12プロジェクトすべてでメモリファイルを常時ロードするトークンコストの合計:ごくわずか。提案された検索システムが節約するのは月に数ドル。構築に必要なエンジニアリング時間:200〜400時間。損益分岐点:18年から36年。コストアナリストの要約:「最適化に取り憑かれた世界で、時には正解は現状のままにしておくことです。」
どのエージェントも間違った分析をしたわけではありません。テクニカルアーキテクトの設計は機能しました。パフォーマンスエンジニアのトークン計算は正確でした。しかし、最適化の罠を避けるには、10の視点すべてが必要でした。自分の直感に任せていたら、進歩しているように感じられるという理由で検索システムを構築していたでしょう。コストアナリストは、3時間のスコーピングがすでに私の思考をソリューションにアンカリングしていたために、私自身では問えなかった質問を問いかけたのです。
討議 vs. デュエル
討議は協調的です。10体のエージェントが異なる視点から意思決定を評価します。私はまた競争的なバリアントも構築しました。同じタスクでClaude CodeとCodex CLIを競わせ、両方の計画をブラインドでスコアリングし、それぞれの最も強い要素を統合するものです。36回のデュエルから、独自の記事にまとめる価値のあるパターンが生まれました。簡潔に言えば、アーキテクチャの意思決定には討議を、実装計画にはデュエルを使います。討議は「これを作るべきか?」に答えます。デュエルは「最も強力な構築方法は何か?」に答えます。
メンテナンスペシミストと反転の技法
チャーリー・マンガーの反転思考法は、「Xをどう達成するか?」ではなく「Xの失敗を確実にするものは何か?」と問いかけます。そしてそれを避けるのです。9 ゲイリー・クラインのプリモーテムは同じアイデアを実用化します。プロジェクトが失敗したと仮定し、その理由を説明するのです。10 フィリップ・テトロックの予測精度に関する研究では、複数の視点を統合する「キツネ型」が、1つの大きなアイデアに固執する「ハリネズミ型」を一貫して上回ることがわかっています。11
各討議エージェントは、名前のついた思考フレームワークを体現しています:
| エージェント | 思考フレームワーク | 問いかける質問 |
|---|---|---|
| メンテナンスペシミスト | 反転思考(マンガー) | 「6ヶ月後に後悔させるものは何か?」 |
| セキュリティアナリスト | プリモーテム(クライン) | 「出荷後に侵害された。何を見落としたか?」 |
| イノベーションスカウト | キツネ型思考(テトロック) | 「他のドメインからどのアプローチが適用できるか?」 |
| コストアナリスト | 第一原理思考 | 「数学は実際に何を示しているか?」 |
| UXアドボケイト | 共感マッピング | 「ユーザーはこの障害をどう体験するか?」 |
メンテナンスペシミストは、私のシステムで最も価値のあるエージェントです。最も賢いからでも最も徹底的だからでもなく、私が自分自身に最も問いかけにくい質問をするからです。何かを作ることに興奮しているとき、6ヶ月後の保守コストについて考えることは最後にしたいことです。メンテナンスペシミストには興奮がありません。サンクコストもありません。提案がすでに存在するかのように評価し、何が壊れるかを問います。
メモリアーキテクチャの討議では、メンテナンスペシミストは4つの相互作用するメモリシステムが16の対の障害モードを生むことを特定しました。Claude Codeは頻繁にアップデートされます。外部プラグインはバージョン変更で壊れます。サイレントなフック障害は、エージェントが不完全なコンテキストで警告なく動作することを意味します。これらは仮説上のリスクではありません。ペシミストが認識するよう訓練されたパターンに基づく予測です。
カーネマンは、プリモーテムを自身が知る中で最も効果的なバイアス除去技法の1つだと述べています。それが反対意見を正当化するからです。2 反論するように設計された討議エージェントは、その社会的コストを完全に排除します。
エビデンスゲート:自己申告を許さない
私のハーネスは、すべての完了報告にエビデンスゲートパターンを使用しています。12 ルール:感覚はエビデンスではありません。「これは機能すると思います」は主張ではありません。テストスイートを実行してその出力を貼り付けることが主張です。
| 基準 | 必要なエビデンス | 不十分なもの |
|---|---|---|
| コードベースのパターンに準拠 | パターン名とそれが存在するファイルを示す | 「ベストプラクティスに従いました」 |
| 最もシンプルな動作するソリューション | 却下した代替案とその理由を示す | 「きれいです」 |
| エッジケースの処理 | 具体的なケースと各々の解決方法を列挙 | 「エッジケースを検討しました」 |
| テスト合格 | テスト出力を貼り付ける | 「テストは通るはずです」 |
| リグレッションなし | 確認した関連ファイルと機能を示す | 「他に影響はないはずです」 |
曖昧な表現はレッドフラグです。「〜はずです」「おそらく」「〜のようです」「〜と思います」「正しく見えます」。これらの言葉は、検証が行われなかったことを示しています。12 これは人間の推論にも当てはまります。「このアプローチでかなり確信がある」と自分が言っていることに気づいたとき、それはエビデンスではありません。システム2がシステム1を追認しているだけです。
マルチエージェント討議は、エビデンスゲートを構造的に強制します。コストアナリストは「これはおそらく経済的に合理的です」とは言いません。「月額$9の現在コスト、$5の削減、構築に200〜400時間、損益分岐点18〜36年」と言います。セキュリティアナリストは「セキュリティ態勢は妥当に見えます」とは言いません。「メモリポイズニングシナリオ:侵害されたセッションが永続メモリに認証情報収集の指示を注入する」と言います。
私が見つけた最も効果的なバイアス除去メカニズムは、チェックリストでも哲学でもありません。エージェントが自己申告できないシステムです。エビデンスを提示しなければならず、そのエビデンスは合意するインセンティブを持たない他のエージェントによって評価されます。
討議すべきでない場合
討議にも失敗モードがあります。フルスケールでは1回あたり2〜4分と$2〜3のコストが加わります。さらに重要なのは、過剰修正を引き起こす可能性があることです。
単純なAPIエンドポイントのリファクタリングに対して討議を実行しました。10体のエージェントが後方互換性、移行パス、レート制限、エラーハンドリング、モニタリング、ドキュメンテーションについて懸念を示しました。そのエンドポイントのコンシューマーは内部の2つだけでした。討議は20行の変更であるべきものに対して14のアクションアイテムを生成しました。12を無視してリファクタリングをシップしました。討議は技術的には正しく、リスクは実在しましたが、その決定は双方向ドアでした。13
ジェフ・ベゾスは、タイプ1の決定(不可逆、一方通行のドア)とタイプ2の決定(可逆、双方向のドア)を区別しています。タイプ1の決定は慎重な討議を必要とします。データベーススキーマの変更、セキュリティアーキテクチャ、パブリックAPI契約などです。タイプ2の決定はスピードを必要とします。内部リファクタリング、ドキュメント更新、フィーチャーフラグの実験などです。13 軽量な決定に重量級のプロセスを適用すること自体が、無駄の一形態です。
私が守っているルール:
討議すべき場合: - 決定が不可逆、または元に戻すコストが高い - 複数のトレードオフに専門家の評価が必要 - 確信度が0.70未満(不確かだが、その理由を言語化できない) - ドメインが自分の主要な専門分野外
即断すべき場合: - 変更がフィーチャーフラグの背後にある、または容易に元に戻せる - スコープが限定的(1ファイル、1関数、1エンドポイント) - このタイプの決定を過去に成功裏に行ったことがある - 間違えるコストが討議のコストより低い
決して討議すべきでないもの: - ドキュメントの修正 - 変数名の変更 - テストフィクスチャの更新 - ログメッセージの変更
討議に値する10%の意思決定が、価値の90%を生み出します。すべてを討議すると分析麻痺に陥ります。何も討議しないと、見えないバイアスをそのままシップすることになります。
2ヶ月で学んだこと
このシステムは2026年1月以降、約40回の討議を実行しました。そのパターンを共有します:
-
コストアナリストは最も過小評価されているエージェントです。 エンジニアは本能的にパフォーマンスエンジニアとセキュリティアナリストに手を伸ばします。コストアナリストは、エンジニアが最も嫌う問い「これの実際のコストはいくらですか?」を問うことで、他のどのペルソナよりも多くの悪いアイデアを葬ってきました。
-
合意が0.70未満の場合、質問が間違っています。 エージェントが合意できないとき、問題は通常、真の意見の相違ではなく曖昧なフレーミングにあります。質問のスコープを再設定して再実行する方が、合意を強制するよりも良い結果を生みます。
-
メンテナンスペシミストは、ポストモーテムでは遅すぎる発見を先に捕捉します。 メモリアーキテクチャについてメンテナンスペシミストが提起したすべての懸念は、その後、よりシンプルなシステムを保守する実際の経験によって検証されました。
-
2体のエージェントで価値の80%を得られます。 最小限の実用パターン:1体が賛成を主張し、1体が反対を主張します。独立性がメカニズムです。10体の方が優れていますが、2体は1体よりも無限に優れています。
-
討議は答えだけでなく、問いを改善します。 最も多い結果は「勝利するアプローチ」ではありません。「答えが明白になるように問いが再フレーミングされること」です。
参考文献
-
Author’s deliberation session
delib-20260207-082618-9105e6. 10 research agents, 3 approaches generated, winning approach scored 7.04/10 with 8/10 agent support. Full session record in Obsidian vault. ↩↩ -
Kahneman, Daniel, Thinking, Fast and Slow, Farrar, Straus and Giroux, 2011. System 2 operates in “a comfortable low-effort mode” and endorses System 1 conclusions without scrutiny. ↩↩↩
-
Author’s vault note, “20 Cognitive Biases That Mess Up Your Decisions.” Counter-strategies: devil’s advocate process, pre-mortem analysis, structured decision frameworks, external feedback loops. ↩
-
Altman, Sam. “I think of writing as externalized thinking. If I have a very hard problem or if I feel a little bit confused about something, I have to write it down.” Via @StartupArchive_. ↩
-
Minsky, Marvin, The Society of Mind, Simon & Schuster, 1986. Intelligence emerges from the interaction of many smaller, simpler agents, not from a single sophisticated process. ↩
-
Ng, Andrew. Multi-agent AI patterns: debate (propose-critique-revise), collaboration (parallel specialists with synthesizer), adversarial (red team vs. blue team). Reported March 2024. ↩
-
de Bono, Edward, Six Thinking Hats, Little, Brown and Company, 1985. Six parallel perspectives prevent anchoring on a single thinking mode. ↩
-
Domingos, Pedro. AI as “mental exoskeleton”: extend rather than replace human cognition, represent user interests rather than flattering conclusions. ↩
-
Munger, Charlie. Inversion thinking: instead of “How do I achieve X?”, ask “What would guarantee failure at X?” Then avoid those things. Frequently cited in Berkshire Hathaway shareholder meetings. ↩
-
Klein, Gary, “Performing a Project Premortem,” Harvard Business Review, September 2007. Assume the project failed, then explain why. Based on research by Mitchell, Russo, and Pennington (1989) showing prospective hindsight increases identification of failure reasons by 30%. ↩
-
Tetlock, Philip E., Expert Political Judgment: How Good Is It? How Can We Know?, Princeton University Press, 2005. “Foxes” who integrate multiple perspectives consistently outperform “hedgehogs” who commit to one idea. Expanded in Superforecasting (Crown, 2015). ↩
-
Author’s Evidence Gate pattern. Implementation in Quality Loop rules (
~/.claude/rules/quality-loop.md). Hedging language triggers mandatory re-verification. See also Jiro Quality Philosophy. ↩↩ -
Bezos, Jeff, 2015 Letter to Amazon Shareholders (SEC filing). Type 1 decisions: irreversible, one-way doors requiring careful deliberation. Type 2 decisions: reversible, two-way doors requiring speed. ↩↩