深度研究代理需要證據圖
2026年5月15日,Zhen Zhang與共同作者發表Argus。這套深度研究代理系統將研究視為證據組裝,而不是蠻力式的平行搜尋。1
這個差異很重要。
深度研究代理可以執行許多搜尋、開啟許多頁面,並寫出很長的回答。但回答很長,不代表代理找到了缺失的證據。平行搜尋可能只是重複探索同一批來源,把更多摘錄塞進上下文,最後仍然讓最困難的部分缺乏支持。
深度研究代理需要證據圖。代理應該知道哪些主張需要支持、哪些證據片段已經存在、哪些片段仍然缺漏,以及最終句子分別依賴哪些來源。
重點摘要
深度研究代理不應以執行了多少次搜尋,或填滿了多少上下文來衡量進度。真正的進度應該用證據覆蓋度來衡量。
Argus為這個領域提供了有用的架構。它的Searcher會為子查詢蒐集證據軌跡,而Navigator則維護共享證據圖、檢查哪些片段仍然缺漏、分派更多搜尋工作,並產出來源可追蹤的最終回答。1這讓深度研究從「派出更多代理」轉向「組裝缺失的證明」。
近期代理研究也反覆出現同樣模式。paper.json讓論文具備可定位的主張與範圍限制。2ACDL為代理上下文提供正式描述語言。3探索相關研究主張,代理在行動前需要可驗證的檢查點。4ARIS將長期研究任務的核心失敗描述為看似可信卻缺乏支持的成功。5AgentForesight則主張,在多代理執行過程中,應於決定性錯誤連鎖擴散之前進行線上稽核。6
實務規則很直接:每一個深度研究回答,都應附上證據圖或審查資料包,讓人看得出代理證明了什麼、推論了什麼,以及哪些問題仍未解決。
關鍵重點
給代理建構者: - 將證據追蹤成由主張、來源、缺口與依賴關係組成的圖。 - 把搜尋工作分派到缺失證據上,而不是反覆執行寬泛查詢。
給產品團隊: - 顯示來源覆蓋度、未解決主張,以及重複搜尋造成的浪費。 - 讓審查者檢視最終回答為何引用每個來源。
給研究人員: - 將證據蒐集與答案合成分開。 - 評估覆蓋度與可追蹤性,不要只看最終回答分數。
給營運者: - 在證據圖補上重要缺口之前,應把一份自信滿滿的長報告視為尚未完成。 - 接受答案前,先問哪些主張仍缺乏一手支持。
為什麼平行搜尋會停滯?
平行搜尋很容易讓人覺得有進展。
把同一個研究問題交給10個代理,系統看起來就動了起來。代理搜尋、摘要、比較,並回傳部分發現。由於紀錄裡有許多來源,最終整合看起來可能相當周全。
失敗藏在重複之中。
| 平行搜尋行為 | 失敗模式 |
|---|---|
| 許多代理查詢相似詞彙 | 來源彼此重疊,而不是互相補足。 |
| 每個代理都追著第一條看似有希望的線索走 | 困難的缺失證據仍無人處理。 |
| 上下文被摘錄填滿 | 整合器失去針對缺口推理的空間。 |
| 最終回答合併多份摘要 | 缺乏支持的主張可能在合併後存留下來。 |
| 審查從最終文稿開始 | 審查者必須反向推導證據覆蓋度。 |
Argus直接點出這個問題。論文主張,深度研究回答需要組合互補的證據片段;平行執行卻常常只是在重複相同片段,而不是把它們補齊。1更多執行分支可能把彙整上下文推向上限,卻沒有填上缺漏部分。1
教訓不是「永遠不要平行化」。教訓是「依照地圖來平行化」。
Argus增加了什麼?
Argus將深度研究分成兩個角色。
Searcher透過ReAct風格互動,為子查詢蒐集證據軌跡。1Navigator維護共享證據圖,驗證哪些片段仍然缺漏,分派Searcher去蒐集那些片段,並在完成的圖上推理,產出來源可追蹤的最終回答。1
這樣的角色分工改變了工作對象。
| 舊工作對象 | Argus工作對象 |
|---|---|
| 搜尋紀錄 | 證據軌跡 |
| 來源堆疊 | 共享證據圖 |
| 查詢發散 | 缺失片段分派 |
| 最終文稿 | 來源可追蹤的回答 |
| 寬泛合成 | 感知覆蓋度的合成 |
Navigator讓代理記得答案仍缺少什麼。沒有這一層,平行工作者可能一直為同一個容易的主張回傳證據。
Argus也回報了效能提升。使用35B-A3B MoE骨幹時,論文指出Argus在單一Searcher下平均提升5.5分,在8個平行Searcher下平均提升12.7分,結果來自8個基準測試。1重點不只是分數。更重要的是,這個架構讓額外搜尋者真正有用。
Searcher之所以有用,是因為Navigator會把它們指向缺失證據。
證據圖應追蹤什麼?
證據圖應該在答案凝固成文稿之前,先表徵答案的結構。
至少應追蹤:
| 節點類型 | 目的 |
|---|---|
| 主張 | 答案想提出的句子或子主張。 |
| 來源 | 支持某個主張的一手或二手來源。 |
| 證據 | 精確摘錄、表格、圖、命令輸出或觀察結果。 |
| 缺口 | 支持薄弱、缺失、過期或間接的主張。 |
| 衝突 | 兩個來源或觀察結果彼此不一致。 |
| 範圍限制 | 防止過度主張的邊界。 |
| 定義 | 會影響下游主張的術語意義。 |
| 任務決策 | 代理因證據狀態而做出的選擇。 |
邊比節點更重要。
| 邊 | 意義 |
|---|---|
supports |
證據支持某個主張。 |
limits |
範圍限制縮小某個主張。 |
contradicts |
來源與某個主張或來源衝突。 |
depends_on |
主張需要另一個主張或定義。 |
missing_for |
缺口阻擋某個主張。 |
dispatches |
Navigator要求Searcher填補缺口。 |
used_in |
最終回答句子依賴某個來源或證據節點。 |
證據圖不需要學術式圖資料庫的繁文縟節。JSON物件、追蹤表或審查資料包都可以。關鍵特性是可檢視性:另一位審查者能看出答案為何如此表述。
證據圖為何能幫助審查者?
審查者需要比完整紀錄更小的物件。
一份深度研究紀錄可能包含數十次工具呼叫、來源、摘要、重試與註記。審查者通常想回答更精準的問題:
- 哪些最終主張有直接支持?
- 哪些主張依賴二手詮釋?
- 哪個來源以不同摘要形式出現超過一次?
- 代理停止追查了哪個缺失問題?
- 哪個引用只支持背景,而不是關鍵主張?
- 哪個限制應該縮小最終回答?
證據圖提供了這個檢視面。
| 審查者問題 | 證據圖答案 |
|---|---|
| 關鍵主張從哪裡來? | 帶有supports邊的主張節點。 |
| 代理是否誇大了論文? | 附在主張上的範圍限制邊。 |
| 工作者是否重複投入? | 多個來源支持同一個容易節點,而缺口節點仍未關閉。 |
| 答案可以發布嗎? | 沒有高風險主張節點仍缺乏支持。 |
| 另一個代理下一步該做什麼? | 從未解決缺口節點分派工作。 |
這種結構很適合搭配審查資料包。最終回答不應只給文稿,也應給出產生文稿的證據狀態。
paper.json如何配合?
證據圖需要更好的來源物件。
如果每篇學術論文進入圖中時,都只是未分化的一份PDF,圖的節點仍然太粗。主張節點可以連到一篇論文,卻不容易連到子主張、範圍限制、定義或重現命令。
paper.json改善了輸入層。這項提案讓論文具備穩定的主張ID、明確的未主張清單、每張圖對應的shell命令,以及穩定的定義ID。2研究代理可以把這些ID用作圖節點。
| 論文資料面 | 證據圖節點 |
|---|---|
claims[].id |
主張節點。 |
does_not_claim[] |
範圍限制節點。 |
definitions[].id |
定義節點。 |
reproducibility.commands[] |
證據產生節點。 |
| 儲存庫URL | 來源節點。 |
| 結構描述版本 | 出處中繼資料。 |
這個連結對引用品質很重要。答案可以引用論文中的C2,而不是籠統引用整篇論文。圖也可以記錄C2受到does_not_claim[]中的限制約束。
證據圖與代理可讀論文解決的是相鄰問題。論文檔案讓證據更容易定位;證據圖讓證據更容易組裝。
上下文描述如何配合?
深度研究代理也需要知道哪些內容在何時進入上下文。
ACDL,也就是Agentic Context Description Language,從提示層處理這個問題。論文指出,代理系統缺乏標準方式來描述提示組成與上下文動態,只能依賴散文、圖表或程式碼檢查。3ACDL提供角色訊息序列、動態內容、時間索引參照,以及條件式或迭代結構等構造。3
證據圖應該連接上下文狀態。
| 上下文事實 | 證據風險 |
|---|---|
| 來源在主張之前進入上下文 | 代理可能引用或改寫它。 |
| 範圍限制沒有進入上下文 | 最終文稿可能過度主張。 |
| 衝突來源較晚抵達 | 合成時可能忽略它。 |
| Searcher只看見一個分支 | 證據軌跡可能過窄。 |
| Navigator分派新的查詢 | 缺口節點觸發了定向搜尋。 |
上下文結構會影響證據結構。如果整合器從未看見相關段落,某個來源就不能支持答案。如果沒有人把限制放入上下文,限制就無法約束答案。
深度研究系統需要兩種物件:上下文描述與證據圖。
為什麼探索很重要?
研究代理可能太早進入利用階段。
“Look Before You Leap”將過早利用命名為LLM代理在陌生環境中的失敗模式。4該論文提出Exploration Checkpoint Coverage,作為可驗證指標,用來判斷代理在執行任務前,是否發現關鍵狀態、物件與可用操作。4
深度研究也有相同結構。代理可能找到一條看似合理的線索,就在尚未理解來源空間之前開始作答。
證據圖應保留探索階段:
- 識別答案將需要的主張類別。
- 對可能的來源類型進行映射。
- 先搜尋一手來源,再搜尋評論。
- 將缺失的來源類型記錄為缺口節點。
- 針對缺口分派定向搜尋。
- 只在重要缺口關閉,或明確加上限制說明後,才進行合成。
這個探索階段能避免代理把第一個好來源當成答案中心。
圖會給代理繼續尋找的理由:未關閉的缺口仍清楚可見。
沒有證據圖會出什麼問題?
長時間執行的研究代理可能失敗,卻看起來沒有出問題。
ARIS將核心失敗描述為看似可信卻缺乏支持的成功:長時間執行的代理產生主張,但證據支持仍不完整、被誤報,或承襲自代理自己的問題框架。5這種失敗可能通過粗略審查,因為最終報告看起來很精緻。
AgentForesight處理多代理系統中的相關問題。它主張,單一決定性錯誤可能在長期軌跡中連鎖擴散,而事後歸因來得太晚,無法介入。6它的線上稽核器只能看到目前前綴,必須在完整軌跡結束之前決定要繼續,還是發出警報。6
證據圖有助於處理這兩類問題。
| 失敗 | 圖的回應 |
|---|---|
| 看似可信卻缺乏支持的成功 | 缺乏支持的主張節點仍保持可見。 |
| 來源支持被誤報 | 可用摘錄檢查supports邊。 |
| 承襲既有框架 | 範圍與衝突節點挑戰初始框架。 |
| 決定性錯誤連鎖擴散 | 缺口或衝突節點可在合成前觸發暫停。 |
| 事後審查負荷過重 | 審查者檢視圖狀態,而不只看最終文稿。 |
圖不保證真相。它提供一種結構,讓團隊能稽核真相。
深度研究產品應該顯示什麼?
深度研究產品應揭露證據狀態。
使用者不應只看見附註腳的最終答案。介面應該顯示:
| 介面 | 使用者價值 |
|---|---|
| 主張覆蓋度 | 哪些主張有直接、間接或缺失支持。 |
| 證據圖 | 來源如何連接到答案段落。 |
| 缺口清單 | 哪些問題仍未回答。 |
| 重複來源叢集 | 搜尋工作者在哪裡重複投入。 |
| 衝突清單 | 哪些來源彼此不一致。 |
| 範圍限制 | 哪些限制約束答案。 |
| 來源追蹤 | 哪次搜尋或讀取產生每個證據節點。 |
| 審查決策 | 保留、修訂、阻擋或繼續研究。 |
這樣的介面讓使用者能引導執行過程。他們可以要求代理填補特定缺口,而不是只說「多研究一點」。他們可以拒絕薄弱主張,而不必丟掉整份答案。他們也能看出代理何時已經有足夠證據可以停止。
好的深度研究UX應該在最終文稿掩蓋缺失之前,先讓缺失證據可見。
團隊應該先建什麼?
在建置圖引擎之前,先從簡單的證據表開始。
| 欄位 | 最小形式 |
|---|---|
| 主張ID | claim_01、claim_02,或匯入的論文主張ID。 |
| 主張文字 | 答案想支持的句子。 |
| 來源URL | 標準URL或論文ID。 |
| 證據摘錄 | 有來源支持的短段落或結果。 |
| 支持類型 | 直接、間接、背景、衝突或缺失。 |
| 範圍限制 | 縮小主張的限制說明。 |
| 搜尋追蹤 | 查詢、工具、時間戳記與代理角色。 |
| 狀態 | 已支持、薄弱、衝突、缺失或拒絕。 |
接著加入分派:
- 合成之前,列出所有高價值缺失主張。
- 將每個缺失主張交給Searcher,並附上範圍狹窄的查詢。
- 要求Searcher回傳證據,或明確回報未命中。
- 更新圖。
- 只從已有支持且附有限制說明的主張進行合成。
第一版可以保持樸素。只要能迫使代理顯示證據覆蓋度,一張Markdown表格就可能勝過一份不可見的紀錄。
值得信任的標準
深度研究代理應透過展示證據結構來贏得信任。
更多搜尋可能有幫助。更多代理可能有幫助。更長上下文可能有幫助。但這些輸入都不能證明最終回答補齊了缺失片段。
一次值得信任的深度研究執行,應回答4個問題:
- 代理試圖證明哪些主張?
- 哪些來源支持每個主張?
- 還有哪些缺口或衝突?
- 哪些最終句子依賴哪些證據?
當這些答案保持可見,使用者就能審查工作。當這些答案消失在潤飾過的文稿裡,使用者就只能在看不見證明結構的情況下信任摘要。
深度研究需要證據圖,因為研究不是搜尋次數問題。研究是缺失片段問題。
簡短總結
深度研究代理需要證據圖,因為平行搜尋可能重複容易取得的來源叢集,卻讓重要主張仍缺乏支持。Argus提供了強而有力的模式:Searcher蒐集證據軌跡,Navigator則追蹤共享證據圖、將工作分派到缺失片段,並產出來源可追蹤的回答。1
同樣教訓也連到相鄰研究。paper.json改善論文層級的來源物件。2ACDL描述上下文如何進入代理系統。3探索檢查點讓資訊蒐集變得可驗證。4ARIS與AgentForesight則說明,精緻的長期輸出在錯誤連鎖擴散前,需要證據與線上審查。56
操作規則很直接:不要只向深度研究代理索取答案。也要索取讓答案得以成立的證據圖。
FAQ
什麼是深度研究代理的證據圖?
證據圖連接主張、來源、摘錄、缺口、衝突、範圍限制,以及最終回答句子。它讓審查者看見哪些證據支持深度研究回答中的每個部分。
為什麼平行搜尋還不夠?
平行搜尋可能重複來源並填滿上下文,卻沒有找到缺失證據。深度研究代理需要一張共享地圖,顯示答案仍缺少什麼。
Argus貢獻了什麼?
Argus將深度研究拆成Searcher與Navigator兩個角色。Searcher蒐集證據軌跡;Navigator維護共享證據圖、針對缺失片段分派搜尋,並產出來源可追蹤的最終回答。1
paper.json與證據圖有什麼關係?
paper.json讓學術論文具備穩定的主張ID、範圍限制、定義與重現命令。證據圖可以把這些ID當成精確節點,而不是鬆散引用整篇論文。2
產品應該向使用者顯示什麼?
產品應在要求使用者信任最終文稿之前,先顯示主張覆蓋度、證據連結、未解決缺口、重複搜尋叢集、來源衝突、範圍限制與審查決策。
參考資料
-
Zhen Zhang, Liangcai Su, Zhuo Chen, Xiang Lin, Haotian Xu, Simon Shaolei Du, Kaiyu Yang, Bo An, Lidong Bing, and Xinyu Wang, “Argus: Evidence Assembly for Scalable Deep Research Agents,” arXiv:2605.16217v1,2026年5月15日提交。Searcher/Navigator設計、共享證據圖、缺失片段分派、來源可追蹤最終回答,以及回報分數提升的來源。 ↩↩↩↩↩↩↩↩↩
-
Arquimedes Canedo, “paper.json: A Coordination Convention for LLM-Agent-Actionable Papers,” arXiv:2605.16194v1,2026年5月15日提交。穩定主張ID、明確未主張清單、每張圖的重現命令、穩定定義ID,以及代理可讀論文資料面需求的來源。 ↩↩↩↩
-
Noga Peleg Pelc, Gal A. Kaminka, and Yoav Goldberg, “A Language for Describing Agentic LLM Contexts,” arXiv:2605.01920v1,2026年5月3日提交。ACDL、上下文組成、上下文動態、角色訊息序列、動態內容、時間索引參照,以及對非正式上下文描述之批判的來源。 ↩↩↩↩
-
Ziang Ye, Wentao Shi, Yuxin Liu, Yu Wang, Zhengzhou Cai, Yaorui Shi, Qi Gu, Xunliang Cai, and Fuli Feng, “Look Before You Leap: Autonomous Exploration for LLM Agents,” arXiv:2605.16143v1,2026年5月15日提交。過早利用、Exploration Checkpoint Coverage,以及先探索再行動框架的來源。 ↩↩↩↩
-
Ruofeng Yang, Yongcan Li, and Shuai Li, “ARIS: Autonomous Research via Adversarial Multi-Agent Collaboration,” arXiv:2605.03042v1,2026年5月4日提交。長時間研究代理中看似可信卻缺乏支持的成功失敗模式,以及對中間研究產物進行對抗式審查需求的來源。 ↩↩↩
-
Yiming Zhang, Pei Zhou, Jiahao Liu, Yifan Chen, Runzhe Yang, Zhenhailong Wang, Jiayi Pan, Chen Qian, Dong Li, and Heng Ji, “AgentForesight: Online Auditing for Early Failure Prediction in Multi-Agent Systems,” arXiv:2605.08715v2,2026年5月13日修訂。決定性錯誤連鎖擴散、線上稽核、軌跡前綴審查,以及早期警報框架的來源。 ↩↩↩↩