← 所有文章

深度研究代理需要證據圖

2026年5月15日,Zhen Zhang與共同作者發表Argus。這套深度研究代理系統將研究視為證據組裝,而不是蠻力式的平行搜尋。1

這個差異很重要。

深度研究代理可以執行許多搜尋、開啟許多頁面,並寫出很長的回答。但回答很長,不代表代理找到了缺失的證據。平行搜尋可能只是重複探索同一批來源,把更多摘錄塞進上下文,最後仍然讓最困難的部分缺乏支持。

深度研究代理需要證據圖。代理應該知道哪些主張需要支持、哪些證據片段已經存在、哪些片段仍然缺漏,以及最終句子分別依賴哪些來源。

重點摘要

深度研究代理不應以執行了多少次搜尋,或填滿了多少上下文來衡量進度。真正的進度應該用證據覆蓋度來衡量。

Argus為這個領域提供了有用的架構。它的Searcher會為子查詢蒐集證據軌跡,而Navigator則維護共享證據圖、檢查哪些片段仍然缺漏、分派更多搜尋工作,並產出來源可追蹤的最終回答。1這讓深度研究從「派出更多代理」轉向「組裝缺失的證明」。

近期代理研究也反覆出現同樣模式。paper.json讓論文具備可定位的主張與範圍限制。2ACDL為代理上下文提供正式描述語言。3探索相關研究主張,代理在行動前需要可驗證的檢查點。4ARIS將長期研究任務的核心失敗描述為看似可信卻缺乏支持的成功。5AgentForesight則主張,在多代理執行過程中,應於決定性錯誤連鎖擴散之前進行線上稽核。6

實務規則很直接:每一個深度研究回答,都應附上證據圖或審查資料包,讓人看得出代理證明了什麼、推論了什麼,以及哪些問題仍未解決。

關鍵重點

給代理建構者: - 將證據追蹤成由主張、來源、缺口與依賴關係組成的圖。 - 把搜尋工作分派到缺失證據上,而不是反覆執行寬泛查詢。

給產品團隊: - 顯示來源覆蓋度、未解決主張,以及重複搜尋造成的浪費。 - 讓審查者檢視最終回答為何引用每個來源。

給研究人員: - 將證據蒐集與答案合成分開。 - 評估覆蓋度與可追蹤性,不要只看最終回答分數。

給營運者: - 在證據圖補上重要缺口之前,應把一份自信滿滿的長報告視為尚未完成。 - 接受答案前,先問哪些主張仍缺乏一手支持。

為什麼平行搜尋會停滯?

平行搜尋很容易讓人覺得有進展。

把同一個研究問題交給10個代理,系統看起來就動了起來。代理搜尋、摘要、比較,並回傳部分發現。由於紀錄裡有許多來源,最終整合看起來可能相當周全。

失敗藏在重複之中。

平行搜尋行為 失敗模式
許多代理查詢相似詞彙 來源彼此重疊,而不是互相補足。
每個代理都追著第一條看似有希望的線索走 困難的缺失證據仍無人處理。
上下文被摘錄填滿 整合器失去針對缺口推理的空間。
最終回答合併多份摘要 缺乏支持的主張可能在合併後存留下來。
審查從最終文稿開始 審查者必須反向推導證據覆蓋度。

Argus直接點出這個問題。論文主張,深度研究回答需要組合互補的證據片段;平行執行卻常常只是在重複相同片段,而不是把它們補齊。1更多執行分支可能把彙整上下文推向上限,卻沒有填上缺漏部分。1

教訓不是「永遠不要平行化」。教訓是「依照地圖來平行化」。

Argus增加了什麼?

Argus將深度研究分成兩個角色。

Searcher透過ReAct風格互動,為子查詢蒐集證據軌跡。1Navigator維護共享證據圖,驗證哪些片段仍然缺漏,分派Searcher去蒐集那些片段,並在完成的圖上推理,產出來源可追蹤的最終回答。1

這樣的角色分工改變了工作對象。

舊工作對象 Argus工作對象
搜尋紀錄 證據軌跡
來源堆疊 共享證據圖
查詢發散 缺失片段分派
最終文稿 來源可追蹤的回答
寬泛合成 感知覆蓋度的合成

Navigator讓代理記得答案仍缺少什麼。沒有這一層,平行工作者可能一直為同一個容易的主張回傳證據。

Argus也回報了效能提升。使用35B-A3B MoE骨幹時,論文指出Argus在單一Searcher下平均提升5.5分,在8個平行Searcher下平均提升12.7分,結果來自8個基準測試。1重點不只是分數。更重要的是,這個架構讓額外搜尋者真正有用。

Searcher之所以有用,是因為Navigator會把它們指向缺失證據。

證據圖應追蹤什麼?

證據圖應該在答案凝固成文稿之前,先表徵答案的結構。

至少應追蹤:

節點類型 目的
主張 答案想提出的句子或子主張。
來源 支持某個主張的一手或二手來源。
證據 精確摘錄、表格、圖、命令輸出或觀察結果。
缺口 支持薄弱、缺失、過期或間接的主張。
衝突 兩個來源或觀察結果彼此不一致。
範圍限制 防止過度主張的邊界。
定義 會影響下游主張的術語意義。
任務決策 代理因證據狀態而做出的選擇。

邊比節點更重要。

意義
supports 證據支持某個主張。
limits 範圍限制縮小某個主張。
contradicts 來源與某個主張或來源衝突。
depends_on 主張需要另一個主張或定義。
missing_for 缺口阻擋某個主張。
dispatches Navigator要求Searcher填補缺口。
used_in 最終回答句子依賴某個來源或證據節點。

證據圖不需要學術式圖資料庫的繁文縟節。JSON物件、追蹤表或審查資料包都可以。關鍵特性是可檢視性:另一位審查者能看出答案為何如此表述。

證據圖為何能幫助審查者?

審查者需要比完整紀錄更小的物件。

一份深度研究紀錄可能包含數十次工具呼叫、來源、摘要、重試與註記。審查者通常想回答更精準的問題:

  • 哪些最終主張有直接支持?
  • 哪些主張依賴二手詮釋?
  • 哪個來源以不同摘要形式出現超過一次?
  • 代理停止追查了哪個缺失問題?
  • 哪個引用只支持背景,而不是關鍵主張?
  • 哪個限制應該縮小最終回答?

證據圖提供了這個檢視面。

審查者問題 證據圖答案
關鍵主張從哪裡來? 帶有supports邊的主張節點。
代理是否誇大了論文? 附在主張上的範圍限制邊。
工作者是否重複投入? 多個來源支持同一個容易節點,而缺口節點仍未關閉。
答案可以發布嗎? 沒有高風險主張節點仍缺乏支持。
另一個代理下一步該做什麼? 從未解決缺口節點分派工作。

這種結構很適合搭配審查資料包。最終回答不應只給文稿,也應給出產生文稿的證據狀態。

paper.json如何配合?

證據圖需要更好的來源物件。

如果每篇學術論文進入圖中時,都只是未分化的一份PDF,圖的節點仍然太粗。主張節點可以連到一篇論文,卻不容易連到子主張、範圍限制、定義或重現命令。

paper.json改善了輸入層。這項提案讓論文具備穩定的主張ID、明確的未主張清單、每張圖對應的shell命令,以及穩定的定義ID。2研究代理可以把這些ID用作圖節點。

論文資料面 證據圖節點
claims[].id 主張節點。
does_not_claim[] 範圍限制節點。
definitions[].id 定義節點。
reproducibility.commands[] 證據產生節點。
儲存庫URL 來源節點。
結構描述版本 出處中繼資料。

這個連結對引用品質很重要。答案可以引用論文中的C2,而不是籠統引用整篇論文。圖也可以記錄C2受到does_not_claim[]中的限制約束。

證據圖與代理可讀論文解決的是相鄰問題。論文檔案讓證據更容易定位;證據圖讓證據更容易組裝。

上下文描述如何配合?

深度研究代理也需要知道哪些內容在何時進入上下文。

ACDL,也就是Agentic Context Description Language,從提示層處理這個問題。論文指出,代理系統缺乏標準方式來描述提示組成與上下文動態,只能依賴散文、圖表或程式碼檢查。3ACDL提供角色訊息序列、動態內容、時間索引參照,以及條件式或迭代結構等構造。3

證據圖應該連接上下文狀態。

上下文事實 證據風險
來源在主張之前進入上下文 代理可能引用或改寫它。
範圍限制沒有進入上下文 最終文稿可能過度主張。
衝突來源較晚抵達 合成時可能忽略它。
Searcher只看見一個分支 證據軌跡可能過窄。
Navigator分派新的查詢 缺口節點觸發了定向搜尋。

上下文結構會影響證據結構。如果整合器從未看見相關段落,某個來源就不能支持答案。如果沒有人把限制放入上下文,限制就無法約束答案。

深度研究系統需要兩種物件:上下文描述與證據圖。

為什麼探索很重要?

研究代理可能太早進入利用階段。

“Look Before You Leap”將過早利用命名為LLM代理在陌生環境中的失敗模式。4該論文提出Exploration Checkpoint Coverage,作為可驗證指標,用來判斷代理在執行任務前,是否發現關鍵狀態、物件與可用操作。4

深度研究也有相同結構。代理可能找到一條看似合理的線索,就在尚未理解來源空間之前開始作答。

證據圖應保留探索階段:

  1. 識別答案將需要的主張類別。
  2. 對可能的來源類型進行映射。
  3. 先搜尋一手來源,再搜尋評論。
  4. 將缺失的來源類型記錄為缺口節點。
  5. 針對缺口分派定向搜尋。
  6. 只在重要缺口關閉,或明確加上限制說明後,才進行合成。

這個探索階段能避免代理把第一個好來源當成答案中心。

圖會給代理繼續尋找的理由:未關閉的缺口仍清楚可見。

沒有證據圖會出什麼問題?

長時間執行的研究代理可能失敗,卻看起來沒有出問題。

ARIS將核心失敗描述為看似可信卻缺乏支持的成功:長時間執行的代理產生主張,但證據支持仍不完整、被誤報,或承襲自代理自己的問題框架。5這種失敗可能通過粗略審查,因為最終報告看起來很精緻。

AgentForesight處理多代理系統中的相關問題。它主張,單一決定性錯誤可能在長期軌跡中連鎖擴散,而事後歸因來得太晚,無法介入。6它的線上稽核器只能看到目前前綴,必須在完整軌跡結束之前決定要繼續,還是發出警報。6

證據圖有助於處理這兩類問題。

失敗 圖的回應
看似可信卻缺乏支持的成功 缺乏支持的主張節點仍保持可見。
來源支持被誤報 可用摘錄檢查supports邊。
承襲既有框架 範圍與衝突節點挑戰初始框架。
決定性錯誤連鎖擴散 缺口或衝突節點可在合成前觸發暫停。
事後審查負荷過重 審查者檢視圖狀態,而不只看最終文稿。

圖不保證真相。它提供一種結構,讓團隊能稽核真相。

深度研究產品應該顯示什麼?

深度研究產品應揭露證據狀態。

使用者不應只看見附註腳的最終答案。介面應該顯示:

介面 使用者價值
主張覆蓋度 哪些主張有直接、間接或缺失支持。
證據圖 來源如何連接到答案段落。
缺口清單 哪些問題仍未回答。
重複來源叢集 搜尋工作者在哪裡重複投入。
衝突清單 哪些來源彼此不一致。
範圍限制 哪些限制約束答案。
來源追蹤 哪次搜尋或讀取產生每個證據節點。
審查決策 保留、修訂、阻擋或繼續研究。

這樣的介面讓使用者能引導執行過程。他們可以要求代理填補特定缺口,而不是只說「多研究一點」。他們可以拒絕薄弱主張,而不必丟掉整份答案。他們也能看出代理何時已經有足夠證據可以停止。

好的深度研究UX應該在最終文稿掩蓋缺失之前,先讓缺失證據可見。

團隊應該先建什麼?

在建置圖引擎之前,先從簡單的證據表開始。

欄位 最小形式
主張ID claim_01claim_02,或匯入的論文主張ID。
主張文字 答案想支持的句子。
來源URL 標準URL或論文ID。
證據摘錄 有來源支持的短段落或結果。
支持類型 直接、間接、背景、衝突或缺失。
範圍限制 縮小主張的限制說明。
搜尋追蹤 查詢、工具、時間戳記與代理角色。
狀態 已支持、薄弱、衝突、缺失或拒絕。

接著加入分派:

  1. 合成之前,列出所有高價值缺失主張。
  2. 將每個缺失主張交給Searcher,並附上範圍狹窄的查詢。
  3. 要求Searcher回傳證據,或明確回報未命中。
  4. 更新圖。
  5. 只從已有支持且附有限制說明的主張進行合成。

第一版可以保持樸素。只要能迫使代理顯示證據覆蓋度,一張Markdown表格就可能勝過一份不可見的紀錄。

值得信任的標準

深度研究代理應透過展示證據結構來贏得信任。

更多搜尋可能有幫助。更多代理可能有幫助。更長上下文可能有幫助。但這些輸入都不能證明最終回答補齊了缺失片段。

一次值得信任的深度研究執行,應回答4個問題:

  • 代理試圖證明哪些主張?
  • 哪些來源支持每個主張?
  • 還有哪些缺口或衝突?
  • 哪些最終句子依賴哪些證據?

當這些答案保持可見,使用者就能審查工作。當這些答案消失在潤飾過的文稿裡,使用者就只能在看不見證明結構的情況下信任摘要。

深度研究需要證據圖,因為研究不是搜尋次數問題。研究是缺失片段問題。

簡短總結

深度研究代理需要證據圖,因為平行搜尋可能重複容易取得的來源叢集,卻讓重要主張仍缺乏支持。Argus提供了強而有力的模式:Searcher蒐集證據軌跡,Navigator則追蹤共享證據圖、將工作分派到缺失片段,並產出來源可追蹤的回答。1

同樣教訓也連到相鄰研究。paper.json改善論文層級的來源物件。2ACDL描述上下文如何進入代理系統。3探索檢查點讓資訊蒐集變得可驗證。4ARIS與AgentForesight則說明,精緻的長期輸出在錯誤連鎖擴散前,需要證據與線上審查。56

操作規則很直接:不要只向深度研究代理索取答案。也要索取讓答案得以成立的證據圖。

FAQ

什麼是深度研究代理的證據圖?

證據圖連接主張、來源、摘錄、缺口、衝突、範圍限制,以及最終回答句子。它讓審查者看見哪些證據支持深度研究回答中的每個部分。

為什麼平行搜尋還不夠?

平行搜尋可能重複來源並填滿上下文,卻沒有找到缺失證據。深度研究代理需要一張共享地圖,顯示答案仍缺少什麼。

Argus貢獻了什麼?

Argus將深度研究拆成Searcher與Navigator兩個角色。Searcher蒐集證據軌跡;Navigator維護共享證據圖、針對缺失片段分派搜尋,並產出來源可追蹤的最終回答。1

paper.json與證據圖有什麼關係?

paper.json讓學術論文具備穩定的主張ID、範圍限制、定義與重現命令。證據圖可以把這些ID當成精確節點,而不是鬆散引用整篇論文。2

產品應該向使用者顯示什麼?

產品應在要求使用者信任最終文稿之前,先顯示主張覆蓋度、證據連結、未解決缺口、重複搜尋叢集、來源衝突、範圍限制與審查決策。


參考資料


  1. Zhen Zhang, Liangcai Su, Zhuo Chen, Xiang Lin, Haotian Xu, Simon Shaolei Du, Kaiyu Yang, Bo An, Lidong Bing, and Xinyu Wang, “Argus: Evidence Assembly for Scalable Deep Research Agents,” arXiv:2605.16217v1,2026年5月15日提交。Searcher/Navigator設計、共享證據圖、缺失片段分派、來源可追蹤最終回答,以及回報分數提升的來源。 

  2. Arquimedes Canedo, “paper.json: A Coordination Convention for LLM-Agent-Actionable Papers,” arXiv:2605.16194v1,2026年5月15日提交。穩定主張ID、明確未主張清單、每張圖的重現命令、穩定定義ID,以及代理可讀論文資料面需求的來源。 

  3. Noga Peleg Pelc, Gal A. Kaminka, and Yoav Goldberg, “A Language for Describing Agentic LLM Contexts,” arXiv:2605.01920v1,2026年5月3日提交。ACDL、上下文組成、上下文動態、角色訊息序列、動態內容、時間索引參照,以及對非正式上下文描述之批判的來源。 

  4. Ziang Ye, Wentao Shi, Yuxin Liu, Yu Wang, Zhengzhou Cai, Yaorui Shi, Qi Gu, Xunliang Cai, and Fuli Feng, “Look Before You Leap: Autonomous Exploration for LLM Agents,” arXiv:2605.16143v1,2026年5月15日提交。過早利用、Exploration Checkpoint Coverage,以及先探索再行動框架的來源。 

  5. Ruofeng Yang, Yongcan Li, and Shuai Li, “ARIS: Autonomous Research via Adversarial Multi-Agent Collaboration,” arXiv:2605.03042v1,2026年5月4日提交。長時間研究代理中看似可信卻缺乏支持的成功失敗模式,以及對中間研究產物進行對抗式審查需求的來源。 

  6. Yiming Zhang, Pei Zhou, Jiahao Liu, Yifan Chen, Runzhe Yang, Zhenhailong Wang, Jiayi Pan, Chen Qian, Dong Li, and Heng Ji, “AgentForesight: Online Auditing for Early Failure Prediction in Multi-Agent Systems,” arXiv:2605.08715v2,2026年5月13日修訂。決定性錯誤連鎖擴散、線上稽核、軌跡前綴審查,以及早期警報框架的來源。 

相關文章

AI代理技能需要行為稽核,而不是通過率

即使通過率持平,AI代理技能仍可能改變行為。建立信任之前,行為稽核會比較追蹤、宣稱能力與副作用。

2 分鐘閱讀

AI代理需要探索檢查點

探索檢查點讓AI代理在行動前證明自己發現了什麼,降低過早利用、脆弱計畫與泛泛世界模型的風險。

3 分鐘閱讀

Ralph 迴圈:我如何在夜間運行自主 AI 代理

我建構了一套自主代理系統,搭配停止鉤子、生成預算與檔案系統記憶體。以下是失敗經驗與真正能交付程式碼的方法。

3 分鐘閱讀