← 所有文章

深度研究代理需要证据图

Q: paper.json与证据图有什么关系？

paper.json为学术论文提供稳定的主张ID、范围限制、定义和复现实验命令。证据图可以把这些ID作为精确节点，而不是笼统引用整篇论文。2

3分钟阅读

2026年5月15日，Zhen Zhang及其合作者发布了Argus。它是一套深度研究代理系统，将研究视为证据组装，而不是依靠蛮力并行搜索。¹

这个区别很关键。

深度研究代理可以运行大量搜索，打开许多页面，并写出很长的答案。但答案长，并不等于代理找到了缺失的证据。并行搜索可能反复覆盖同一组来源，把更多摘录塞进上下文，却仍然让最难支撑的部分悬而未决。

深度研究代理需要证据图。代理应该知道哪些主张需要支撑，哪些证据已经存在，哪些证据仍然缺失，以及最终答案中的哪些句子依赖哪些来源。

TL;DR

深度研究代理不应以运行了多少次搜索、填充了多少上下文来衡量进度。真正的进度应由证据覆盖率来衡量。

Argus为这个领域提供了一个有用范式。它的Searcher为子查询收集证据追踪，Navigator则维护共享证据图，检查哪些证据仍然缺失，分派更多搜索任务，并生成带来源追踪的最终答案。¹这让深度研究从“运行更多代理”转向“补齐缺失证明”。

近期代理研究中也能看到同样的模式。paper.json让论文中的主张和范围限制可被精确引用。²ACDL为代理上下文提供正式描述语言。³关于探索的研究认为，代理在行动前需要可验证的检查点。⁴ARIS把长周期研究的核心失败归结为看似可信但缺乏支撑的成功。⁵AgentForesight则主张，在一个决定性错误沿多代理运行过程扩散之前，先进行在线审计。⁶

实用规则很直接：每个深度研究答案都应附带证据图或审阅包，清楚展示代理证明了什么、推断了什么，以及哪些问题仍未解决。

要点

给代理构建者： - 将证据跟踪为由主张、来源、缺口和依赖关系组成的图。 - 把搜索任务分派给缺失证据，而不是重复宽泛查询。

给产品团队： - 展示来源覆盖率、未解决主张和重复搜索造成的浪费。 - 让审阅者能检查最终答案为何引用每个来源。

给研究人员： - 将证据收集与答案综合分开。 - 评估覆盖率和可追踪性，而不仅是最终答案得分。

给运营人员： - 在证据图补齐重要缺口之前，应把一份自信的长报告视为未完成。 - 在接受答案前，先问清楚哪些主张仍缺少一手支持。

为什么并行搜索会停滞？

并行搜索很容易让人感觉正在推进。

把同一个研究问题交给10个代理，系统就会显得动起来了。代理会搜索、总结、比较，并返回局部发现。最终综合结果看上去可能很充分，因为运行记录里包含许多来源。

问题藏在冗余之中。

并行搜索行为	失败模式
多个代理查询相似术语	来源相互重叠，而不是彼此补充。
每个代理都沿着第一个看似有希望的线索前进	真正困难的缺失证据无人触及。
上下文被摘录填满	综合器失去围绕缺口推理的空间。
最终答案合并多个摘要	缺乏支撑的主张可能在合并中保留下来。
审阅从最终文稿开始	审阅者必须反向还原证据覆盖情况。

Argus直接指出了这个问题。论文认为，深度研究答案需要组合互补证据，而并行展开通常只是重复已有证据，并没有补齐缺失部分。¹更多展开可能把聚合上下文推向上限，却仍然没有填上缺口。¹

教训不是“永远不要并行化”。教训是“要对照地图并行化”。

Argus带来了什么？

Argus把深度研究拆成两个角色。

Searcher通过ReAct风格的交互，为子查询收集证据追踪。¹Navigator维护共享证据图，验证哪些证据仍然缺失，分派Searcher去收集这些证据，并基于已完成的图进行推理，生成带来源追踪的最终答案。¹

这种角色拆分改变了工作对象。

旧工作对象	Argus工作对象
搜索记录	证据追踪
来源堆	共享证据图
查询分发	缺失环节分派
最终文稿	来源追踪答案
宽泛综合	感知覆盖率的综合

Navigator让代理记住答案还缺什么。如果没有这一层，并行工作者可能持续为同一个容易证明的主张返回证据。

Argus还报告了性能提升。在使用35B-A3B MoE主干模型时，论文报告称，Argus在单个Searcher下平均提升5.5分，在8个并行Searcher下平均提升12.7分，结果覆盖8个基准测试。¹重点不只是分数。更重要的是，这种架构让额外Searcher变得有用。

Searcher之所以有用，是因为Navigator把它们指向缺失证据。

证据图应该跟踪什么？

证据图应在答案固化成文稿之前表示答案结构。

至少应跟踪：

节点类型	用途
主张	答案想要表达的句子或子主张。
来源	支撑某个主张的一手或二手来源。
证据	精确摘录、表格、图、命令输出或观察结果。
缺口	支持较弱、缺失、过期或间接的主张。
冲突	两个来源或观察结果相互矛盾。
范围限制	防止过度声称的边界。
定义	其含义会影响下游主张的术语。
任务决策	代理因证据状态而作出的选择。

边比节点更重要。

边	含义
`supports`	证据支撑某个主张。
`limits`	范围限制收窄某个主张。
`contradicts`	来源与某个主张或来源冲突。
`depends_on`	主张需要另一个主张或定义。
`missing_for`	缺口阻塞某个主张。
`dispatches`	Navigator要求Searcher补齐缺口。
`used_in`	最终答案句子依赖某个来源或证据节点。

证据图不需要采用学术式图数据库排场。一个JSON对象、追踪表或审阅包都可以发挥作用。关键属性是可检查性：另一位审阅者能够看清答案为什么这样写。

证据图为什么有助于审阅？

审阅者需要一个比完整运行记录更小的对象。

一份深度研究记录可能包含几十次工具调用、来源、摘要、重试和笔记。审阅者通常更想回答几个更尖锐的问题：

哪些最终主张有直接支持？
哪些主张依赖二手解释？
哪个来源在不同摘要下重复出现？
哪个缺失问题被代理停止追踪？
哪个引用只支撑背景信息，而不是关键主张？
哪个限制条件应该收窄最终答案？

证据图提供了这个审阅界面。

审阅者问题	证据图答案
关键主张来自哪里？	带有`supports`边的主张节点。
代理是否夸大了论文结论？	附着在该主张上的范围限制边。
工作者是否重复劳动？	多个来源支撑同一个容易节点，而缺口节点仍然未关闭。
答案能否发布？	没有高风险主张节点仍然缺乏支撑。
另一个代理下一步应该做什么？	从未解决缺口节点继续分派任务。

这种形态天然适合审阅包。最终答案不应只给出文稿。它还应给出生成该文稿的证据状态。

paper.json如何适配？

证据图需要更好的来源对象。

如果每篇学术论文进入图中时都只是一个未分化的PDF，图的节点仍然太粗。主张节点可以链接到论文，却很难链接到子主张、范围限制、定义或复现实验命令。

paper.json改进了输入层。该提案为论文提供稳定的主张ID、明确的“未声称”列表、按图配置的shell命令，以及稳定的定义ID。²研究代理可以把这些ID用作图节点。

论文表面	证据图节点
`claims[].id`	主张节点。
`does_not_claim[]`	范围限制节点。
`definitions[].id`	定义节点。
`reproducibility.commands[]`	证据生成节点。
仓库URL	来源节点。
Schema版本	溯源元数据。

这种连接对引用质量很重要。答案可以引用论文中的C2，而不是笼统引用整篇论文。图还可以记录C2受does_not_claim[]中的限制约束。

证据图和代理可读论文解决的是相邻问题。论文文件让证据更容易被寻址。证据图让证据更容易被组装。

上下文描述如何适配？

深度研究代理还需要知道什么内容在什么时候进入了上下文。

ACDL，即Agentic Context Description Language，正是在提示层处理这个问题。论文认为，代理系统缺少一种标准方式来描述提示组合和上下文动态，往往只能依靠散文说明、图示或代码检查。³ACDL为角色消息序列、动态内容、带时间索引的引用，以及条件或迭代结构提供了构造方式。³

证据图应连接上下文状态。

上下文事实	证据风险
来源先于主张进入上下文	代理可能引用或改写它。
范围限制没有进入上下文	最终文稿可能过度声称。
冲突来源较晚出现	综合过程可能忽略它。
Searcher只看到一个分支	证据追踪可能过窄。
Navigator分派了新查询	缺口节点触发了定向搜索。

上下文形态会影响证据形态。如果综合器从未看到相关段落，某个来源就无法支撑答案。如果没有人把限制条件放入上下文，它也无法约束答案。

深度研究系统需要两个对象：上下文描述和证据图。

为什么探索很重要？

研究代理可能过早利用已有线索。

“Look Before You Leap”把过早利用列为LLM代理在陌生环境中的一种失败模式。⁴该论文提出Exploration Checkpoint Coverage，作为一种可验证指标，用于判断代理在执行任务之前是否发现了关键状态、对象和可用操作。⁴

深度研究也具有同样形态。代理可能找到一条看似合理的线索，就在尚未理解来源空间之前开始作答。

证据图应保留一个探索阶段：

识别答案需要的主张类别。
映射可能的来源类型。
先搜索一手来源，再看评论材料。
将缺失的来源类别记录为缺口节点。
针对缺口分派定向搜索。
只有在重要缺口关闭或明确加上保留说明之后，才进行综合。

这个探索阶段可以避免代理把第一个优质来源当成答案中心。

证据图给了代理继续寻找的理由：未关闭的缺口始终可见。

没有证据图会出什么问题？

长时间运行的研究代理即使失败，也可能看不出明显破绽。

ARIS把核心失败定义为看似可信但缺乏支撑的成功：一个长时间运行的代理产出若干主张，但其证据支持并不完整、被错误报告，或继承自代理自身的初始框架。⁵这种失败可能通过粗略审阅，因为最终报告看起来很精致。

AgentForesight处理的是多代理系统中的相关问题。它认为，一个决定性错误可能沿着长周期轨迹级联扩散，而事后归因来得太晚，无法干预。⁶它的在线审计器只能看到当前前缀，并必须在完整轨迹结束前决定是继续还是报警。⁶

证据图有助于应对这两类问题。

失败	图的应对方式
看似可信但缺乏支撑的成功	未支撑的主张节点仍然可见。
错误报告来源支持	可以对照摘录检查`supports`边。
继承式框架	范围节点和冲突节点会挑战初始框架。
决定性错误级联	缺口或冲突节点可在综合前触发暂停。
事后审阅过载	审阅者检查图状态，而不只看最终文稿。

证据图不能保证真相。但它为真相提供了一种团队可以审计的结构。

深度研究产品应该展示什么？

深度研究产品应该暴露证据状态。

用户不应只看到一份带脚注的最终答案。界面应展示：

界面	用户价值
主张覆盖率	哪些主张有直接、间接或缺失支持。
证据图	来源如何连接到答案各部分。
缺口列表	哪些问题仍未回答。
重复来源簇	搜索工作者在哪里重复劳动。
冲突列表	哪些来源彼此矛盾。
范围限制	哪些保留条件约束答案。
来源追踪	哪次搜索或读取产生了每个证据节点。
审阅决策	保留、修订、阻止或继续研究。

这样的界面让用户能够掌控运行方向。用户可以要求代理补齐某个具体缺口，而不是泛泛地说“再研究一下”。他们可以拒绝一个薄弱主张，而不必丢弃整份答案。也能看到代理何时已经有足够证据可以停止。

优秀的深度研究UX应在最终文稿掩盖缺失证据之前，让缺失证据清晰可见。

团队应该先构建什么？

在构建图引擎之前，先从简单的证据表开始。

字段	最小形态
主张ID	`claim_01`、`claim_02`，或导入的论文主张ID。
主张文本	答案想要支撑的句子。
来源URL	规范URL或论文ID。
证据摘录	有来源支持的简短段落或结果。
支持类型	直接、间接、背景、冲突或缺失。
范围限制	收窄主张的保留条件。
搜索追踪	查询、工具、时间戳和代理角色。
状态	已支持、较弱、冲突、缺失或拒绝。

然后加入分派机制：

在综合前，列出所有高价值的缺失主张。
将每个缺失主张交给Searcher，并附上狭窄查询。
要求Searcher返回证据，或明确说明未找到。
更新证据图。
只基于已支持且带有必要保留条件的主张进行综合。

第一个版本可以保持朴素。如果一张Markdown表能迫使代理展示证据覆盖率，它就胜过一份不可见的运行记录。

值得交付的标准

深度研究代理应通过展示证据结构来赢得信任。

更多搜索可能有帮助。更多代理可能有帮助。更长上下文可能有帮助。但这些输入都不能证明最终答案覆盖了缺失环节。

一次值得信任的深度研究运行，应回答4个问题：

代理试图证明哪些主张？
哪些来源支撑每个主张？
哪些缺口或冲突仍然存在？
最终答案中的哪些句子依赖哪些证据？

当这些答案始终可见时，用户才能审阅工作。当这些答案消失在精致文稿中时，用户只能在看不见证明结构的情况下信任摘要。

深度研究需要证据图，因为研究不是搜索次数问题。研究是缺失环节问题。

快速总结

深度研究代理需要证据图，因为并行搜索可能重复容易找到的来源簇，而重要主张仍然缺乏支撑。Argus提供了一个有力模式：Searcher收集证据追踪，Navigator跟踪共享证据图，把任务分派到缺失环节，并生成来源追踪答案。¹

同样的经验也连接到相邻研究。paper.json改进了论文层面的来源对象。²ACDL描述上下文如何进入代理系统。³探索检查点让信息收集变得可验证。⁴ARIS和AgentForesight说明，在错误级联扩散之前，精致的长周期输出为什么需要证据和在线审阅。⁵⁶

操作规则很直接：不要只向深度研究代理索要答案。还要索要让答案成立的证据图。

FAQ

什么是面向深度研究代理的证据图？

证据图连接主张、来源、摘录、缺口、冲突、范围限制和最终答案句子。它让审阅者能够看到深度研究答案的每一部分由哪些证据支撑。

为什么并行搜索还不够？

并行搜索可能重复来源并填满上下文，却没有找到缺失证据。深度研究代理需要一张共享地图，标明答案还缺什么。

Argus贡献了什么？

Argus把深度研究拆分为Searcher和Navigator两个角色。Searcher收集证据追踪，Navigator维护共享证据图，为缺失环节分派搜索任务，并生成带来源追踪的最终答案。¹

paper.json与证据图有什么关系？

paper.json为学术论文提供稳定的主张ID、范围限制、定义和复现实验命令。证据图可以把这些ID作为精确节点，而不是笼统引用整篇论文。²

产品应该向用户展示什么？

产品应在要求用户信任最终文稿之前，展示主张覆盖率、证据链接、未解决缺口、重复搜索簇、来源冲突、范围限制和审阅决策。

参考文献

Zhen Zhang, Liangcai Su, Zhuo Chen, Xiang Lin, Haotian Xu, Simon Shaolei Du, Kaiyu Yang, Bo An, Lidong Bing和Xinyu Wang, “Argus: Evidence Assembly for Scalable Deep Research Agents,” arXiv:2605.16217v1，提交于2026年5月15日。Searcher/Navigator设计、共享证据图、缺失环节分派、来源追踪最终答案和所报告分数提升的来源。 ↩↩↩↩↩↩↩↩↩
Arquimedes Canedo, “paper.json: A Coordination Convention for LLM-Agent-Actionable Papers,” arXiv:2605.16194v1，提交于2026年5月15日。稳定主张ID、明确“未声称”列表、按图复现实验命令、稳定定义ID，以及代理可读论文表面需求的来源。 ↩↩↩↩
Noga Peleg Pelc, Gal A. Kaminka和Yoav Goldberg, “A Language for Describing Agentic LLM Contexts,” arXiv:2605.01920v1，提交于2026年5月3日。ACDL、上下文组合、上下文动态、角色消息序列、动态内容、带时间索引的引用，以及对非正式上下文描述批评的来源。 ↩↩↩↩
Ziang Ye, Wentao Shi, Yuxin Liu, Yu Wang, Zhengzhou Cai, Yaorui Shi, Qi Gu, Xunliang Cai和Fuli Feng, “Look Before You Leap: Autonomous Exploration for LLM Agents,” arXiv:2605.16143v1，提交于2026年5月15日。过早利用、Exploration Checkpoint Coverage和Explore-then-Act框架的来源。 ↩↩↩↩
Ruofeng Yang, Yongcan Li和Shuai Li, “ARIS: Autonomous Research via Adversarial Multi-Agent Collaboration,” arXiv:2605.03042v1，提交于2026年5月4日。长时间运行研究代理中看似可信但缺乏支撑这一失败模式，以及对中间研究产物进行对抗式审阅需求的来源。 ↩↩↩
Yiming Zhang, Pei Zhou, Jiahao Liu, Yifan Chen, Runzhe Yang, Zhenhailong Wang, Jiayi Pan, Chen Qian, Dong Li和Heng Ji, “AgentForesight: Online Auditing for Early Failure Prediction in Multi-Agent Systems,” arXiv:2605.08715v2，修订于2026年5月13日。决定性错误级联、在线审计、轨迹前缀审阅和早期报警框架的来源。 ↩↩↩↩