← すべての記事

深い調査を行うエージェントには証拠グラフが必要です

2026年5月15日、Zhen Zhang氏らは、調査を力任せの並列検索ではなく、証拠を組み立てる作業として扱う深い調査エージェントシステム、Argusを公開しました。1

この違いは重要です。

深い調査を行うエージェントは、多数の検索を実行し、多くのページを開き、長い回答を書くことができます。しかし、回答が長いからといって、欠けていた証拠を見つけたとは限りません。並列検索は同じ出典群を重複して集め、文脈に引用をさらに押し込みながら、それでも肝心な部分を裏付けないまま残すことがあります。

深い調査を行うエージェントには証拠グラフが必要です。 どの主張に裏付けが必要で、どの証拠がすでにあり、何がまだ欠けていて、最終回答のどの文がどの出典に依存しているのか。エージェント自身がそれを把握しているべきです。

要約

深い調査を行うエージェントは、検索を何回実行したか、文脈をどれだけ埋めたかで進捗を測るべきではありません。証拠の網羅度で測るべきです。

Argusは、この分野に有用な形を示しています。Searcherはサブクエリに対する証拠の追跡情報を集め、Navigatorは共有証拠グラフを管理し、どの要素がまだ欠けているかを確認し、追加の検索作業を割り当て、出典を追跡できる最終回答を生成します。1 これにより、深い調査は「もっと多くのエージェントを走らせる」方向から、「欠けている証明を組み立てる」方向へ進みます。

同じ型は、最近のエージェント研究にも見られます。paper.jsonは、論文の主張と適用範囲の制限を参照可能にします。2 ACDLは、エージェントの文脈を記述するための形式言語を提供します。3 探索に関する研究は、エージェントが行動する前に検証可能なチェックポイントを必要とすると論じています。4 ARISは、長期的な調査で中心的な失敗を、もっともらしいが裏付けのない成功として捉えます。5 AgentForesightは、マルチエージェント実行の中で決定的な誤りが連鎖する前に、オンライン監査を行う必要があると主張しています。6

実務上の規則は明快です。深い調査の回答はすべて、証拠グラフ、またはエージェントが何を証明し、何を推論し、何が未解決のままかを示せるレビューパケットを伴うべきです。

重要ポイント

エージェント開発者向け: - 証拠を、主張、出典、欠落、依存関係のグラフとして追跡します。 - 広いクエリを繰り返すのではなく、欠けている証拠に向けて検索作業を割り当てます。

プロダクトチーム向け: - 出典の網羅度、未解決の主張、重複検索による無駄を表示します。 - 最終回答がなぜ各出典を引用しているのか、レビュアーが確認できるようにします。

研究者向け: - 証拠収集と回答生成を分けます。 - 最終回答のスコアだけでなく、網羅度と追跡可能性を評価します。

運用担当者向け: - 自信ありげな長いレポートでも、証拠グラフの重要な欠落が閉じるまでは未完成として扱います。 - 回答を受け入れる前に、どの主張に一次情報の裏付けがまだないのかを確認します。

なぜ並列検索は行き詰まるのか

並列検索は、進んでいるように見えます。

同じ調査質問を10個のエージェントに渡せば、システムは動き出します。エージェントは検索し、要約し、比較し、部分的な発見を返します。記録には多くの出典が含まれるため、最終的な統合結果は綿密に見えることがあります。

失敗は、重複の中に隠れています。

並列検索の挙動 失敗モード
多くのエージェントが似た語句で検索する 出典が補完し合わず、重複します。
各エージェントが最初に有望そうな手がかりを追う 難しい欠落証拠が手つかずのまま残ります。
文脈が引用で埋まる 統合役が欠落について推論する余地を失います。
最終回答が要約を結合する 裏付けのない主張が結合後も残ることがあります。
レビューが最終文章から始まる レビュアーは証拠の網羅度を逆算しなければなりません。

Argusはこの問題を直接名指ししています。論文は、深い調査の回答は補完的な証拠要素を組み合わせるものだと述べています。一方で、並列実行はそれらの要素を完成させるのではなく、重複させがちです。1 実行回数を増やすと、欠けている部分を埋めないまま、集約用の文脈を上限に近づけてしまうことがあります。1

教訓は「並列化するな」ではありません。「地図に対して並列化せよ」です。

Argusは何を加えたのか

Argusは、深い調査を2つの役割に分けます。

Searcherは、ReAct型のやり取りを通じて、サブクエリの証拠追跡情報を収集します。1 Navigatorは、共有証拠グラフを管理し、どの要素がまだ欠けているかを検証し、その要素を集めるようSearcherに割り当て、完成したグラフに基づいて出典を追跡できる最終回答を生成します。1

この役割分担により、作業対象が変わります。

従来の作業対象 Argusの作業対象
検索記録 証拠追跡
出典の山 共有証拠グラフ
クエリのばらまき 欠けている要素への割り当て
最終文章 出典追跡付きの回答
広い統合 網羅度を意識した統合

Navigatorは、回答にまだ何が足りないかをエージェントに記憶させます。この層がなければ、並列ワーカーは同じ簡単な主張に対する証拠を返し続けてしまいます。

Argusは性能向上も報告しています。35B-A3B MoEバックボーンを使った場合、8つのベンチマーク平均で、Searcherが1つのときに5.5ポイント、8つの並列Searcherで12.7ポイント向上したと論文は報告しています。1 重要なのはスコアだけではありません。追加の検索役を有効にするアーキテクチャこそが重要です。

Searcherが役に立つのは、Navigatorが欠けている証拠に向けて誘導するからです。

証拠グラフは何を追跡すべきか

証拠グラフは、文章が固まる前の回答を表すべきです。

最低限、次のものを追跡します。

ノードの種類 目的
主張 回答が述べようとしている文またはサブ主張。
出典 主張を支える一次または二次出典。
証拠 正確な抜粋、表、図、コマンド出力、観察結果。
欠落 裏付けが弱い、欠けている、古い、または間接的な主張。
矛盾 互いに一致しない2つの出典または観察結果。
適用範囲の制限 過剰な主張を防ぐ境界。
定義 下流の主張に影響する用語の意味。
タスク上の判断 証拠の状態に基づいてエージェントが行った選択。

ノードよりもエッジのほうが重要です。

エッジ 意味
supports 証拠が主張を支えます。
limits 適用範囲の制限が主張を狭めます。
contradicts 出典が主張または出典と矛盾します。
depends_on 主張が別の主張または定義を必要とします。
missing_for 欠落が主張を妨げています。
dispatches NavigatorがSearcherに欠落の補完を依頼します。
used_in 最終回答の文が出典または証拠ノードに依存します。

グラフに、学術的なグラフデータベースの大掛かりな作法は不要です。JSONオブジェクト、追跡表、レビューパケットでも機能します。大切なのは検査可能性です。別のレビュアーが、なぜ回答がそう述べているのかを確認できることです。

なぜ証拠グラフはレビュアーを助けるのか

レビュアーには、記録全体よりも小さな対象が必要です。

深い調査の記録には、数十件のツール呼び出し、出典、要約、再試行、メモが含まれます。レビュアーが知りたいのは、たいていもっと鋭い問いです。

  • どの最終主張に直接の裏付けがあるのか。
  • どの主張が二次的な解釈に依存しているのか。
  • どの出典が、異なる要約の下で複数回出てきているのか。
  • エージェントはどの未解決の問いを追うのをやめたのか。
  • どの引用は背景説明だけを支え、重要な主張を支えていないのか。
  • どの制限が最終回答を狭めるべきなのか。

証拠グラフは、その確認面を提供します。

レビュアーの問い 証拠グラフの答え
重要な主張はどこから来たのか。 supportsエッジを持つ主張ノード。
エージェントは論文を誇張していないか。 主張に付いた適用範囲制限のエッジ。
ワーカーは作業を重複させたか。 欠落ノードが開いたまま、同じ簡単なノードを複数の出典が支えている状態。
回答を公開できるか。 高リスクな主張ノードに未裏付けが残っていません。
別のエージェントは次に何をすべきか。 未解決の欠落ノードからの割り当て。

この形は、レビューパケットと自然に組み合わさります。最終回答は文章だけを渡すべきではありません。その文章を生んだ証拠の状態も渡すべきです。

paper.jsonはどう関係するのか

証拠グラフには、よりよい出典オブジェクトが必要です。

すべての学術論文が1つの区別されないPDFとしてグラフに入るなら、グラフのノードはまだ粗いままです。主張ノードは論文にリンクできますが、サブ主張、適用範囲の制限、定義、再現コマンドへ簡単にはリンクできません。

paper.jsonは入力層を改善します。この提案は、論文に安定した主張ID、明示的な「主張していないこと」のリスト、図ごとのシェルコマンド、安定した定義IDを与えます。2 調査エージェントは、それらのIDをグラフノードとして利用できます。

論文上の要素 証拠グラフのノード
claims[].id 主張ノード。
does_not_claim[] 適用範囲制限ノード。
definitions[].id 定義ノード。
reproducibility.commands[] 証拠生成ノード。
Repository URL 出典ノード。
Schema version 来歴メタデータ。

この接続は、引用品質にとって重要です。回答は論文全体を漠然と引用するのではなく、その論文のC2を引用できます。グラフは、C2does_not_claim[]由来の制限を伴うことも記録できます。

証拠グラフと、エージェントが読める論文は、隣接する問題を解きます。論文ファイルは証拠を参照しやすくします。グラフは証拠を組み立てやすくします。

文脈記述はどう関係するのか

深い調査を行うエージェントは、何がいつ文脈に入ったのかも知る必要があります。

ACDL、Agentic Context Description Languageは、この問題をプロンプト層で扱います。論文は、エージェントシステムにはプロンプト構成と文脈の動きを記述する標準的な方法がなく、散文、図、コード確認に頼っていると論じています。3 ACDLは、役割メッセージ列、動的コンテンツ、時点付き参照、条件付きまたは反復的な構造を表す構成要素を提供します。3

証拠グラフは、文脈状態と接続されるべきです。

文脈上の事実 証拠上のリスク
主張より前に出典が文脈へ入った エージェントが引用または言い換える可能性があります。
適用範囲の制限が文脈へ入らなかった 最終文章が過剰な主張になる可能性があります。
矛盾する出典が遅れて入った 統合時に無視される可能性があります。
Searcherが1つの枝しか見ていない 証拠追跡が狭くなる可能性があります。
Navigatorが新しいクエリを割り当てた 欠落ノードが対象を絞った検索を引き起こしました。

文脈の形は、証拠の形に影響します。統合役が関連箇所を見ていなければ、その出典は回答を支えられません。誰も制限を文脈に入れなければ、その制限は回答を狭められません。

深い調査システムには、文脈記述と証拠グラフの両方が必要です。

なぜ探索が重要なのか

調査エージェントは、早すぎる活用に走ることがあります。

“Look Before You Leap”は、未知の環境にいるLLMエージェントの失敗モードとして、時期尚早な活用を挙げています。4 この論文は、タスク実行前にエージェントが重要な状態、オブジェクト、アフォーダンスを発見しているかを検証できる指標として、Exploration Checkpoint Coverageを導入しています。4

深い調査にも同じ構造があります。エージェントは、もっともらしい手がかりを1つ見つけただけで、出典空間を理解する前に回答を始めてしまうことがあります。

証拠グラフは、探索段階を保持するべきです。

  1. 回答に必要な主張の種類を特定します。
  2. 想定される出典の種類を整理します。
  3. 解説より前に一次情報を探します。
  4. 欠けている出典の種類を欠落ノードとして記録します。
  5. 欠落に向けて対象を絞った検索を割り当てます。
  6. 重要な欠落が閉じるか、明示的な留保が付くまで統合しません。

この探索段階により、エージェントが最初のよい出典を回答の中心として扱ってしまうのを防げます。

グラフは、探し続ける理由をエージェントに与えます。開いた欠落が見えるままだからです。

グラフがないと何が起きるのか

長時間動く調査エージェントは、壊れているように見えないまま失敗できます。

ARISは、中心的な失敗を、もっともらしいが裏付けのない成功として捉えます。長時間動くエージェントが、証拠の裏付けが不完全、誤報告、または自分自身の枠組みから継承された主張を生成する失敗です。5 最終レポートが整って見えるため、この失敗はざっとしたレビューを通過してしまうことがあります。

AgentForesightは、マルチエージェントシステムにおける関連問題に取り組みます。単一の決定的な誤りが長期的な軌跡全体に連鎖する一方、事後の原因特定は介入には遅すぎると論じています。6 オンライン監査役は現在の接頭部分だけを見て、全軌跡が終わる前に続行するか警告するかを判断しなければなりません。6

証拠グラフは、どちらの問題にも役立ちます。

失敗 グラフによる対応
もっともらしいが裏付けのない成功 未裏付けの主張ノードが見えるまま残ります。
出典による裏付けの誤報告 supportsエッジを抜粋と照合できます。
継承された枠組み 適用範囲と矛盾のノードが初期の枠組みに異議を出します。
決定的な誤りの連鎖 欠落または矛盾ノードが、統合前の停止を引き起こせます。
事後レビューの過負荷 レビュアーは最終文章だけでなく、グラフ状態を確認します。

グラフは真実を保証しません。真実をチームが監査できる構造にします。

深い調査プロダクトは何を表示すべきか

深い調査プロダクトは、証拠の状態を公開すべきです。

ユーザーが見るべきものは、脚注付きの最終回答だけではありません。インターフェースは次のものを示すべきです。

表示面 ユーザー価値
主張の網羅度 どの主張に直接、間接、または未裏付けの証拠があるか。
証拠グラフ 出典が回答セクションにどう接続しているか。
欠落リスト どの問いが未回答のままか。
重複出典クラスタ 検索ワーカーがどこで作業を繰り返したか。
矛盾リスト どの出典が一致していないか。
適用範囲の制限 どの留保が回答を制約するか。
出典追跡 どの検索または読み取りが各証拠ノードを生んだか。
レビュアー判断 維持、修正、ブロック、または追加調査。

このインターフェースにより、ユーザーは実行を方向づけられます。「もっと調査して」と言う代わりに、特定の欠落を埋めるようエージェントに依頼できます。回答全体を捨てずに、弱い主張だけを却下できます。十分な証拠が集まり、停止できるタイミングも見えます。

よい深い調査UXは、最終文章が欠落証拠を隠してしまう前に、それを見えるようにします。

チームはまず何を作るべきか

グラフエンジンを作る前に、単純な証拠表から始めましょう。

フィールド 最小構成
Claim ID claim_01claim_02、またはインポートされた論文の主張ID。
主張テキスト 回答が裏付けたい文。
Source URL 正規URLまたは論文ID。
証拠抜粋 出典に基づく短い箇所または結果。
裏付けの種類 直接、間接、背景、矛盾、または欠落。
適用範囲の制限 主張を狭める留保。
検索追跡 クエリ、ツール、タイムスタンプ、エージェントの役割。
状態 裏付けあり、弱い、矛盾あり、欠落、または拒否。

次に割り当てを追加します。

  1. 統合前に、価値の高い未解決の主張をすべて列挙します。
  2. 各未解決主張を、狭いクエリとともにSearcherへ送ります。
  3. Searcherに、証拠または明示的な不発を返すよう求めます。
  4. グラフを更新します。
  5. 裏付け済みで、必要な留保が付いた主張だけから統合します。

最初の版は素朴でかまいません。Markdownの表でも、証拠の網羅度をエージェントに示させるなら、見えない記録より有用です。

値する水準

深い調査を行うエージェントは、証拠構造を示すことで信頼を得るべきです。

検索を増やすことは役に立ちます。エージェントを増やすことも役に立ちます。長い文脈も役に立ちます。しかし、それらの入力はどれも、最終回答が欠けていた要素を網羅した証明にはなりません。

値する深い調査の実行は、4つの問いに答えられるべきです。

  • エージェントはどの主張を証明しようとしたのか。
  • 各主張をどの出典が支えているのか。
  • どの欠落や矛盾が残っているのか。
  • 最終回答のどの文が、どの証拠に依存しているのか。

これらの答えが見えていれば、ユーザーは作業をレビューできます。これらの答えが整った文章の中に消えてしまえば、ユーザーは証明の形を見ないまま要約を信じるしかありません。

深い調査に証拠グラフが必要なのは、調査が検索回数の問題ではないからです。調査は、欠けている要素の問題です。

簡単なまとめ

深い調査を行うエージェントには証拠グラフが必要です。並列検索は、重要な主張が未裏付けのまま残っていても、簡単な出典群を重複して集めてしまうからです。Argusは強い型を示しています。Searcherが証拠追跡を集め、Navigatorが共有証拠グラフを管理し、欠けている要素に向けて作業を割り当て、出典追跡付きの回答を生成します。1

同じ教訓は、隣接する研究にもつながります。paper.jsonは論文レベルの出典オブジェクトを改善します。2 ACDLは、文脈がエージェントシステムにどう入るかを記述します。3 探索チェックポイントは、情報収集を検証可能にします。4 ARISとAgentForesightは、整った長期出力に対して、誤りが連鎖する前の証拠とオンラインレビューがなぜ必要かを示しています。56

運用上の規則は単純です。深い調査エージェントに回答だけを求めてはいけません。その回答を可能にした証拠グラフも求めましょう。

FAQ

深い調査エージェントにおける証拠グラフとは何ですか?

証拠グラフは、主張、出典、抜粋、欠落、矛盾、適用範囲の制限、最終回答の文を接続するものです。深い調査回答の各部分をどの証拠が支えているのか、レビュアーが確認できます。

なぜ並列検索だけでは不十分なのですか?

並列検索は、欠けている証拠を見つけないまま、出典を重複させ、文脈を埋めることがあります。深い調査エージェントには、回答にまだ何が足りないのかを示す共有地図が必要です。

Argusは何を貢献しましたか?

Argusは、深い調査をSearcherとNavigatorの役割に分けました。Searcherは証拠追跡を集め、Navigatorは共有証拠グラフを管理し、欠けている要素の検索を割り当て、出典追跡付きの最終回答を生成します。1

paper.jsonは証拠グラフとどう関係しますか?

paper.jsonは、学術論文に安定した主張ID、適用範囲の制限、定義、再現コマンドを与えます。証拠グラフは、論文全体を大まかに引用する代わりに、それらのIDを精密なノードとして使えます。2

プロダクトはユーザーに何を表示すべきですか?

プロダクトは、ユーザーに最終文章を信頼してもらう前に、主張の網羅度、証拠リンク、未解決の欠落、重複検索クラスタ、出典の矛盾、適用範囲の制限、レビュー判断を表示すべきです。


参考文献


  1. Zhen Zhang, Liangcai Su, Zhuo Chen, Xiang Lin, Haotian Xu, Simon Shaolei Du, Kaiyu Yang, Bo An, Lidong Bing, and Xinyu Wang, “Argus: Evidence Assembly for Scalable Deep Research Agents,” arXiv:2605.16217v1, submitted May 15, 2026. Searcher/Navigator設計、共有証拠グラフ、欠けている要素への割り当て、出典追跡付き最終回答、報告されたスコア向上の出典。 

  2. Arquimedes Canedo, “paper.json: A Coordination Convention for LLM-Agent-Actionable Papers,” arXiv:2605.16194v1, submitted May 15, 2026. 安定した主張ID、明示的な「主張していないこと」のリスト、図ごとの再現コマンド、安定した定義ID、エージェントが読める論文表面の必要性の出典。 

  3. Noga Peleg Pelc, Gal A. Kaminka, and Yoav Goldberg, “A Language for Describing Agentic LLM Contexts,” arXiv:2605.01920v1, submitted May 3, 2026. ACDL、文脈構成、文脈の動き、役割メッセージ列、動的コンテンツ、時点付き参照、非形式的な文脈記述への批判の出典。 

  4. Ziang Ye, Wentao Shi, Yuxin Liu, Yu Wang, Zhengzhou Cai, Yaorui Shi, Qi Gu, Xunliang Cai, and Fuli Feng, “Look Before You Leap: Autonomous Exploration for LLM Agents,” arXiv:2605.16143v1, submitted May 15, 2026. 時期尚早な活用、Exploration Checkpoint Coverage、Explore-then-Actの枠組みの出典。 

  5. Ruofeng Yang, Yongcan Li, and Shuai Li, “ARIS: Autonomous Research via Adversarial Multi-Agent Collaboration,” arXiv:2605.03042v1, submitted May 4, 2026. 長時間動く調査エージェントにおける、もっともらしいが裏付けのない成功という失敗モードと、中間調査成果物に対する敵対的レビューの必要性の出典。 

  6. Yiming Zhang, Pei Zhou, Jiahao Liu, Yifan Chen, Runzhe Yang, Zhenhailong Wang, Jiayi Pan, Chen Qian, Dong Li, and Heng Ji, “AgentForesight: Online Auditing for Early Failure Prediction in Multi-Agent Systems,” arXiv:2605.08715v2, revised May 13, 2026. 決定的な誤りの連鎖、オンライン監査、軌跡の接頭部分レビュー、早期警告の枠組みの出典。 

関連記事

AIエージェントのスキルに必要なのはパス率ではなく行動監査です

AIエージェントのスキルは、パス率が横ばいでも動作を変えます。信頼する前に、トレース、宣言された機能、副作用を比較する行動監査が必要です。

3 分で読める

AIコードレビューに必要なのは合意ではなく異論です

AIコードレビューには、異論を残し、指摘を検証し、不確実性を人間へ戻し、チームがPRをマージする前に修正を再レビューする独立したエージェントが必要です。

2 分で読める

Ralphループ:自律型AIエージェントを一晩中稼働させる方法

ストップフック、スポーンバジェット、ファイルシステムメモリを備えた自律エージェントシステムを構築しました。失敗から学んだことと、実際にコードをシップする仕組みを紹介します。

3 分で読める