← 所有文章

深度研究代理需要證據圖

Q: paper.json與證據圖有什麼關係？

paper.json讓學術論文具備穩定的主張ID、範圍限制、定義與重現命令。證據圖可以把這些ID當成精確節點，而不是鬆散引用整篇論文。2

3分鐘閱讀

2026年5月15日，Zhen Zhang與共同作者發表Argus。這套深度研究代理系統將研究視為證據組裝，而不是蠻力式的平行搜尋。¹

這個差異很重要。

深度研究代理可以執行許多搜尋、開啟許多頁面，並寫出很長的回答。但回答很長，不代表代理找到了缺失的證據。平行搜尋可能只是重複探索同一批來源，把更多摘錄塞進上下文，最後仍然讓最困難的部分缺乏支持。

深度研究代理需要證據圖。代理應該知道哪些主張需要支持、哪些證據片段已經存在、哪些片段仍然缺漏，以及最終句子分別依賴哪些來源。

重點摘要

深度研究代理不應以執行了多少次搜尋，或填滿了多少上下文來衡量進度。真正的進度應該用證據覆蓋度來衡量。

Argus為這個領域提供了有用的架構。它的Searcher會為子查詢蒐集證據軌跡，而Navigator則維護共享證據圖、檢查哪些片段仍然缺漏、分派更多搜尋工作，並產出來源可追蹤的最終回答。¹這讓深度研究從「派出更多代理」轉向「組裝缺失的證明」。

近期代理研究也反覆出現同樣模式。paper.json讓論文具備可定位的主張與範圍限制。²ACDL為代理上下文提供正式描述語言。³探索相關研究主張，代理在行動前需要可驗證的檢查點。⁴ARIS將長期研究任務的核心失敗描述為看似可信卻缺乏支持的成功。⁵AgentForesight則主張，在多代理執行過程中，應於決定性錯誤連鎖擴散之前進行線上稽核。⁶

實務規則很直接：每一個深度研究回答，都應附上證據圖或審查資料包，讓人看得出代理證明了什麼、推論了什麼，以及哪些問題仍未解決。

關鍵重點

給代理建構者： - 將證據追蹤成由主張、來源、缺口與依賴關係組成的圖。 - 把搜尋工作分派到缺失證據上，而不是反覆執行寬泛查詢。

給產品團隊： - 顯示來源覆蓋度、未解決主張，以及重複搜尋造成的浪費。 - 讓審查者檢視最終回答為何引用每個來源。

給研究人員： - 將證據蒐集與答案合成分開。 - 評估覆蓋度與可追蹤性，不要只看最終回答分數。

給營運者： - 在證據圖補上重要缺口之前，應把一份自信滿滿的長報告視為尚未完成。 - 接受答案前，先問哪些主張仍缺乏一手支持。

為什麼平行搜尋會停滯？

平行搜尋很容易讓人覺得有進展。

把同一個研究問題交給10個代理，系統看起來就動了起來。代理搜尋、摘要、比較，並回傳部分發現。由於紀錄裡有許多來源，最終整合看起來可能相當周全。

失敗藏在重複之中。

平行搜尋行為	失敗模式
許多代理查詢相似詞彙	來源彼此重疊，而不是互相補足。
每個代理都追著第一條看似有希望的線索走	困難的缺失證據仍無人處理。
上下文被摘錄填滿	整合器失去針對缺口推理的空間。
最終回答合併多份摘要	缺乏支持的主張可能在合併後存留下來。
審查從最終文稿開始	審查者必須反向推導證據覆蓋度。

Argus直接點出這個問題。論文主張，深度研究回答需要組合互補的證據片段；平行執行卻常常只是在重複相同片段，而不是把它們補齊。¹更多執行分支可能把彙整上下文推向上限，卻沒有填上缺漏部分。¹

教訓不是「永遠不要平行化」。教訓是「依照地圖來平行化」。

Argus增加了什麼？

Argus將深度研究分成兩個角色。

Searcher透過ReAct風格互動，為子查詢蒐集證據軌跡。¹Navigator維護共享證據圖，驗證哪些片段仍然缺漏，分派Searcher去蒐集那些片段，並在完成的圖上推理，產出來源可追蹤的最終回答。¹

這樣的角色分工改變了工作對象。

舊工作對象	Argus工作對象
搜尋紀錄	證據軌跡
來源堆疊	共享證據圖
查詢發散	缺失片段分派
最終文稿	來源可追蹤的回答
寬泛合成	感知覆蓋度的合成

Navigator讓代理記得答案仍缺少什麼。沒有這一層，平行工作者可能一直為同一個容易的主張回傳證據。

Argus也回報了效能提升。使用35B-A3B MoE骨幹時，論文指出Argus在單一Searcher下平均提升5.5分，在8個平行Searcher下平均提升12.7分，結果來自8個基準測試。¹重點不只是分數。更重要的是，這個架構讓額外搜尋者真正有用。

Searcher之所以有用，是因為Navigator會把它們指向缺失證據。

證據圖應追蹤什麼？

證據圖應該在答案凝固成文稿之前，先表徵答案的結構。

至少應追蹤：

節點類型	目的
主張	答案想提出的句子或子主張。
來源	支持某個主張的一手或二手來源。
證據	精確摘錄、表格、圖、命令輸出或觀察結果。
缺口	支持薄弱、缺失、過期或間接的主張。
衝突	兩個來源或觀察結果彼此不一致。
範圍限制	防止過度主張的邊界。
定義	會影響下游主張的術語意義。
任務決策	代理因證據狀態而做出的選擇。

邊比節點更重要。

邊	意義
`supports`	證據支持某個主張。
`limits`	範圍限制縮小某個主張。
`contradicts`	來源與某個主張或來源衝突。
`depends_on`	主張需要另一個主張或定義。
`missing_for`	缺口阻擋某個主張。
`dispatches`	Navigator要求Searcher填補缺口。
`used_in`	最終回答句子依賴某個來源或證據節點。

證據圖不需要學術式圖資料庫的繁文縟節。JSON物件、追蹤表或審查資料包都可以。關鍵特性是可檢視性：另一位審查者能看出答案為何如此表述。

證據圖為何能幫助審查者？

審查者需要比完整紀錄更小的物件。

一份深度研究紀錄可能包含數十次工具呼叫、來源、摘要、重試與註記。審查者通常想回答更精準的問題：

哪些最終主張有直接支持？
哪些主張依賴二手詮釋？
哪個來源以不同摘要形式出現超過一次？
代理停止追查了哪個缺失問題？
哪個引用只支持背景，而不是關鍵主張？
哪個限制應該縮小最終回答？

證據圖提供了這個檢視面。

審查者問題	證據圖答案
關鍵主張從哪裡來？	帶有`supports`邊的主張節點。
代理是否誇大了論文？	附在主張上的範圍限制邊。
工作者是否重複投入？	多個來源支持同一個容易節點，而缺口節點仍未關閉。
答案可以發布嗎？	沒有高風險主張節點仍缺乏支持。
另一個代理下一步該做什麼？	從未解決缺口節點分派工作。

這種結構很適合搭配審查資料包。最終回答不應只給文稿，也應給出產生文稿的證據狀態。

paper.json如何配合？

證據圖需要更好的來源物件。

如果每篇學術論文進入圖中時，都只是未分化的一份PDF，圖的節點仍然太粗。主張節點可以連到一篇論文，卻不容易連到子主張、範圍限制、定義或重現命令。

paper.json改善了輸入層。這項提案讓論文具備穩定的主張ID、明確的未主張清單、每張圖對應的shell命令，以及穩定的定義ID。²研究代理可以把這些ID用作圖節點。

論文資料面	證據圖節點
`claims[].id`	主張節點。
`does_not_claim[]`	範圍限制節點。
`definitions[].id`	定義節點。
`reproducibility.commands[]`	證據產生節點。
儲存庫URL	來源節點。
結構描述版本	出處中繼資料。

這個連結對引用品質很重要。答案可以引用論文中的C2，而不是籠統引用整篇論文。圖也可以記錄C2受到does_not_claim[]中的限制約束。

證據圖與代理可讀論文解決的是相鄰問題。論文檔案讓證據更容易定位；證據圖讓證據更容易組裝。

上下文描述如何配合？

深度研究代理也需要知道哪些內容在何時進入上下文。

ACDL，也就是Agentic Context Description Language，從提示層處理這個問題。論文指出，代理系統缺乏標準方式來描述提示組成與上下文動態，只能依賴散文、圖表或程式碼檢查。³ACDL提供角色訊息序列、動態內容、時間索引參照，以及條件式或迭代結構等構造。³

證據圖應該連接上下文狀態。

上下文事實	證據風險
來源在主張之前進入上下文	代理可能引用或改寫它。
範圍限制沒有進入上下文	最終文稿可能過度主張。
衝突來源較晚抵達	合成時可能忽略它。
Searcher只看見一個分支	證據軌跡可能過窄。
Navigator分派新的查詢	缺口節點觸發了定向搜尋。

上下文結構會影響證據結構。如果整合器從未看見相關段落，某個來源就不能支持答案。如果沒有人把限制放入上下文，限制就無法約束答案。

深度研究系統需要兩種物件：上下文描述與證據圖。

為什麼探索很重要？

研究代理可能太早進入利用階段。

“Look Before You Leap”將過早利用命名為LLM代理在陌生環境中的失敗模式。⁴該論文提出Exploration Checkpoint Coverage，作為可驗證指標，用來判斷代理在執行任務前，是否發現關鍵狀態、物件與可用操作。⁴

深度研究也有相同結構。代理可能找到一條看似合理的線索，就在尚未理解來源空間之前開始作答。

證據圖應保留探索階段：

識別答案將需要的主張類別。
對可能的來源類型進行映射。
先搜尋一手來源，再搜尋評論。
將缺失的來源類型記錄為缺口節點。
針對缺口分派定向搜尋。
只在重要缺口關閉，或明確加上限制說明後，才進行合成。

這個探索階段能避免代理把第一個好來源當成答案中心。

圖會給代理繼續尋找的理由：未關閉的缺口仍清楚可見。

沒有證據圖會出什麼問題？

長時間執行的研究代理可能失敗，卻看起來沒有出問題。

ARIS將核心失敗描述為看似可信卻缺乏支持的成功：長時間執行的代理產生主張，但證據支持仍不完整、被誤報，或承襲自代理自己的問題框架。⁵這種失敗可能通過粗略審查，因為最終報告看起來很精緻。

AgentForesight處理多代理系統中的相關問題。它主張，單一決定性錯誤可能在長期軌跡中連鎖擴散，而事後歸因來得太晚，無法介入。⁶它的線上稽核器只能看到目前前綴，必須在完整軌跡結束之前決定要繼續，還是發出警報。⁶

證據圖有助於處理這兩類問題。

失敗	圖的回應
看似可信卻缺乏支持的成功	缺乏支持的主張節點仍保持可見。
來源支持被誤報	可用摘錄檢查`supports`邊。
承襲既有框架	範圍與衝突節點挑戰初始框架。
決定性錯誤連鎖擴散	缺口或衝突節點可在合成前觸發暫停。
事後審查負荷過重	審查者檢視圖狀態，而不只看最終文稿。

圖不保證真相。它提供一種結構，讓團隊能稽核真相。

深度研究產品應該顯示什麼？

深度研究產品應揭露證據狀態。

使用者不應只看見附註腳的最終答案。介面應該顯示：

介面	使用者價值
主張覆蓋度	哪些主張有直接、間接或缺失支持。
證據圖	來源如何連接到答案段落。
缺口清單	哪些問題仍未回答。
重複來源叢集	搜尋工作者在哪裡重複投入。
衝突清單	哪些來源彼此不一致。
範圍限制	哪些限制約束答案。
來源追蹤	哪次搜尋或讀取產生每個證據節點。
審查決策	保留、修訂、阻擋或繼續研究。

這樣的介面讓使用者能引導執行過程。他們可以要求代理填補特定缺口，而不是只說「多研究一點」。他們可以拒絕薄弱主張，而不必丟掉整份答案。他們也能看出代理何時已經有足夠證據可以停止。

好的深度研究UX應該在最終文稿掩蓋缺失之前，先讓缺失證據可見。

團隊應該先建什麼？

在建置圖引擎之前，先從簡單的證據表開始。

欄位	最小形式
主張ID	`claim_01`、`claim_02`，或匯入的論文主張ID。
主張文字	答案想支持的句子。
來源URL	標準URL或論文ID。
證據摘錄	有來源支持的短段落或結果。
支持類型	直接、間接、背景、衝突或缺失。
範圍限制	縮小主張的限制說明。
搜尋追蹤	查詢、工具、時間戳記與代理角色。
狀態	已支持、薄弱、衝突、缺失或拒絕。

接著加入分派：

合成之前，列出所有高價值缺失主張。
將每個缺失主張交給Searcher，並附上範圍狹窄的查詢。
要求Searcher回傳證據，或明確回報未命中。
更新圖。
只從已有支持且附有限制說明的主張進行合成。

第一版可以保持樸素。只要能迫使代理顯示證據覆蓋度，一張Markdown表格就可能勝過一份不可見的紀錄。

值得信任的標準

深度研究代理應透過展示證據結構來贏得信任。

更多搜尋可能有幫助。更多代理可能有幫助。更長上下文可能有幫助。但這些輸入都不能證明最終回答補齊了缺失片段。

一次值得信任的深度研究執行，應回答4個問題：

代理試圖證明哪些主張？
哪些來源支持每個主張？
還有哪些缺口或衝突？
哪些最終句子依賴哪些證據？

當這些答案保持可見，使用者就能審查工作。當這些答案消失在潤飾過的文稿裡，使用者就只能在看不見證明結構的情況下信任摘要。

深度研究需要證據圖，因為研究不是搜尋次數問題。研究是缺失片段問題。

簡短總結

深度研究代理需要證據圖，因為平行搜尋可能重複容易取得的來源叢集，卻讓重要主張仍缺乏支持。Argus提供了強而有力的模式：Searcher蒐集證據軌跡，Navigator則追蹤共享證據圖、將工作分派到缺失片段，並產出來源可追蹤的回答。¹

同樣教訓也連到相鄰研究。paper.json改善論文層級的來源物件。²ACDL描述上下文如何進入代理系統。³探索檢查點讓資訊蒐集變得可驗證。⁴ARIS與AgentForesight則說明，精緻的長期輸出在錯誤連鎖擴散前，需要證據與線上審查。⁵⁶

操作規則很直接：不要只向深度研究代理索取答案。也要索取讓答案得以成立的證據圖。

FAQ

什麼是深度研究代理的證據圖？

證據圖連接主張、來源、摘錄、缺口、衝突、範圍限制，以及最終回答句子。它讓審查者看見哪些證據支持深度研究回答中的每個部分。

為什麼平行搜尋還不夠？

平行搜尋可能重複來源並填滿上下文，卻沒有找到缺失證據。深度研究代理需要一張共享地圖，顯示答案仍缺少什麼。

Argus貢獻了什麼？

Argus將深度研究拆成Searcher與Navigator兩個角色。Searcher蒐集證據軌跡；Navigator維護共享證據圖、針對缺失片段分派搜尋，並產出來源可追蹤的最終回答。¹

paper.json與證據圖有什麼關係？

paper.json讓學術論文具備穩定的主張ID、範圍限制、定義與重現命令。證據圖可以把這些ID當成精確節點，而不是鬆散引用整篇論文。²

產品應該向使用者顯示什麼？

產品應在要求使用者信任最終文稿之前，先顯示主張覆蓋度、證據連結、未解決缺口、重複搜尋叢集、來源衝突、範圍限制與審查決策。

參考資料

Zhen Zhang, Liangcai Su, Zhuo Chen, Xiang Lin, Haotian Xu, Simon Shaolei Du, Kaiyu Yang, Bo An, Lidong Bing, and Xinyu Wang, “Argus: Evidence Assembly for Scalable Deep Research Agents,” arXiv:2605.16217v1，2026年5月15日提交。Searcher/Navigator設計、共享證據圖、缺失片段分派、來源可追蹤最終回答，以及回報分數提升的來源。 ↩↩↩↩↩↩↩↩↩
Arquimedes Canedo, “paper.json: A Coordination Convention for LLM-Agent-Actionable Papers,” arXiv:2605.16194v1，2026年5月15日提交。穩定主張ID、明確未主張清單、每張圖的重現命令、穩定定義ID，以及代理可讀論文資料面需求的來源。 ↩↩↩↩
Noga Peleg Pelc, Gal A. Kaminka, and Yoav Goldberg, “A Language for Describing Agentic LLM Contexts,” arXiv:2605.01920v1，2026年5月3日提交。ACDL、上下文組成、上下文動態、角色訊息序列、動態內容、時間索引參照，以及對非正式上下文描述之批判的來源。 ↩↩↩↩
Ziang Ye, Wentao Shi, Yuxin Liu, Yu Wang, Zhengzhou Cai, Yaorui Shi, Qi Gu, Xunliang Cai, and Fuli Feng, “Look Before You Leap: Autonomous Exploration for LLM Agents,” arXiv:2605.16143v1，2026年5月15日提交。過早利用、Exploration Checkpoint Coverage，以及先探索再行動框架的來源。 ↩↩↩↩
Ruofeng Yang, Yongcan Li, and Shuai Li, “ARIS: Autonomous Research via Adversarial Multi-Agent Collaboration,” arXiv:2605.03042v1，2026年5月4日提交。長時間研究代理中看似可信卻缺乏支持的成功失敗模式，以及對中間研究產物進行對抗式審查需求的來源。 ↩↩↩
Yiming Zhang, Pei Zhou, Jiahao Liu, Yifan Chen, Runzhe Yang, Zhenhailong Wang, Jiayi Pan, Chen Qian, Dong Li, and Heng Ji, “AgentForesight: Online Auditing for Early Failure Prediction in Multi-Agent Systems,” arXiv:2605.08715v2，2026年5月13日修訂。決定性錯誤連鎖擴散、線上稽核、軌跡前綴審查，以及早期警報框架的來源。 ↩↩↩↩