深度研究代理需要证据图
2026年5月15日,Zhen Zhang及其合作者发布了Argus。它是一套深度研究代理系统,将研究视为证据组装,而不是依靠蛮力并行搜索。1
这个区别很关键。
深度研究代理可以运行大量搜索,打开许多页面,并写出很长的答案。但答案长,并不等于代理找到了缺失的证据。并行搜索可能反复覆盖同一组来源,把更多摘录塞进上下文,却仍然让最难支撑的部分悬而未决。
深度研究代理需要证据图。代理应该知道哪些主张需要支撑,哪些证据已经存在,哪些证据仍然缺失,以及最终答案中的哪些句子依赖哪些来源。
TL;DR
深度研究代理不应以运行了多少次搜索、填充了多少上下文来衡量进度。真正的进度应由证据覆盖率来衡量。
Argus为这个领域提供了一个有用范式。它的Searcher为子查询收集证据追踪,Navigator则维护共享证据图,检查哪些证据仍然缺失,分派更多搜索任务,并生成带来源追踪的最终答案。1这让深度研究从“运行更多代理”转向“补齐缺失证明”。
近期代理研究中也能看到同样的模式。paper.json让论文中的主张和范围限制可被精确引用。2ACDL为代理上下文提供正式描述语言。3关于探索的研究认为,代理在行动前需要可验证的检查点。4ARIS把长周期研究的核心失败归结为看似可信但缺乏支撑的成功。5AgentForesight则主张,在一个决定性错误沿多代理运行过程扩散之前,先进行在线审计。6
实用规则很直接:每个深度研究答案都应附带证据图或审阅包,清楚展示代理证明了什么、推断了什么,以及哪些问题仍未解决。
要点
给代理构建者: - 将证据跟踪为由主张、来源、缺口和依赖关系组成的图。 - 把搜索任务分派给缺失证据,而不是重复宽泛查询。
给产品团队: - 展示来源覆盖率、未解决主张和重复搜索造成的浪费。 - 让审阅者能检查最终答案为何引用每个来源。
给研究人员: - 将证据收集与答案综合分开。 - 评估覆盖率和可追踪性,而不仅是最终答案得分。
给运营人员: - 在证据图补齐重要缺口之前,应把一份自信的长报告视为未完成。 - 在接受答案前,先问清楚哪些主张仍缺少一手支持。
为什么并行搜索会停滞?
并行搜索很容易让人感觉正在推进。
把同一个研究问题交给10个代理,系统就会显得动起来了。代理会搜索、总结、比较,并返回局部发现。最终综合结果看上去可能很充分,因为运行记录里包含许多来源。
问题藏在冗余之中。
| 并行搜索行为 | 失败模式 |
|---|---|
| 多个代理查询相似术语 | 来源相互重叠,而不是彼此补充。 |
| 每个代理都沿着第一个看似有希望的线索前进 | 真正困难的缺失证据无人触及。 |
| 上下文被摘录填满 | 综合器失去围绕缺口推理的空间。 |
| 最终答案合并多个摘要 | 缺乏支撑的主张可能在合并中保留下来。 |
| 审阅从最终文稿开始 | 审阅者必须反向还原证据覆盖情况。 |
Argus直接指出了这个问题。论文认为,深度研究答案需要组合互补证据,而并行展开通常只是重复已有证据,并没有补齐缺失部分。1更多展开可能把聚合上下文推向上限,却仍然没有填上缺口。1
教训不是“永远不要并行化”。教训是“要对照地图并行化”。
Argus带来了什么?
Argus把深度研究拆成两个角色。
Searcher通过ReAct风格的交互,为子查询收集证据追踪。1Navigator维护共享证据图,验证哪些证据仍然缺失,分派Searcher去收集这些证据,并基于已完成的图进行推理,生成带来源追踪的最终答案。1
这种角色拆分改变了工作对象。
| 旧工作对象 | Argus工作对象 |
|---|---|
| 搜索记录 | 证据追踪 |
| 来源堆 | 共享证据图 |
| 查询分发 | 缺失环节分派 |
| 最终文稿 | 来源追踪答案 |
| 宽泛综合 | 感知覆盖率的综合 |
Navigator让代理记住答案还缺什么。如果没有这一层,并行工作者可能持续为同一个容易证明的主张返回证据。
Argus还报告了性能提升。在使用35B-A3B MoE主干模型时,论文报告称,Argus在单个Searcher下平均提升5.5分,在8个并行Searcher下平均提升12.7分,结果覆盖8个基准测试。1重点不只是分数。更重要的是,这种架构让额外Searcher变得有用。
Searcher之所以有用,是因为Navigator把它们指向缺失证据。
证据图应该跟踪什么?
证据图应在答案固化成文稿之前表示答案结构。
至少应跟踪:
| 节点类型 | 用途 |
|---|---|
| 主张 | 答案想要表达的句子或子主张。 |
| 来源 | 支撑某个主张的一手或二手来源。 |
| 证据 | 精确摘录、表格、图、命令输出或观察结果。 |
| 缺口 | 支持较弱、缺失、过期或间接的主张。 |
| 冲突 | 两个来源或观察结果相互矛盾。 |
| 范围限制 | 防止过度声称的边界。 |
| 定义 | 其含义会影响下游主张的术语。 |
| 任务决策 | 代理因证据状态而作出的选择。 |
边比节点更重要。
| 边 | 含义 |
|---|---|
supports |
证据支撑某个主张。 |
limits |
范围限制收窄某个主张。 |
contradicts |
来源与某个主张或来源冲突。 |
depends_on |
主张需要另一个主张或定义。 |
missing_for |
缺口阻塞某个主张。 |
dispatches |
Navigator要求Searcher补齐缺口。 |
used_in |
最终答案句子依赖某个来源或证据节点。 |
证据图不需要采用学术式图数据库排场。一个JSON对象、追踪表或审阅包都可以发挥作用。关键属性是可检查性:另一位审阅者能够看清答案为什么这样写。
证据图为什么有助于审阅?
审阅者需要一个比完整运行记录更小的对象。
一份深度研究记录可能包含几十次工具调用、来源、摘要、重试和笔记。审阅者通常更想回答几个更尖锐的问题:
- 哪些最终主张有直接支持?
- 哪些主张依赖二手解释?
- 哪个来源在不同摘要下重复出现?
- 哪个缺失问题被代理停止追踪?
- 哪个引用只支撑背景信息,而不是关键主张?
- 哪个限制条件应该收窄最终答案?
证据图提供了这个审阅界面。
| 审阅者问题 | 证据图答案 |
|---|---|
| 关键主张来自哪里? | 带有supports边的主张节点。 |
| 代理是否夸大了论文结论? | 附着在该主张上的范围限制边。 |
| 工作者是否重复劳动? | 多个来源支撑同一个容易节点,而缺口节点仍然未关闭。 |
| 答案能否发布? | 没有高风险主张节点仍然缺乏支撑。 |
| 另一个代理下一步应该做什么? | 从未解决缺口节点继续分派任务。 |
这种形态天然适合审阅包。最终答案不应只给出文稿。它还应给出生成该文稿的证据状态。
paper.json如何适配?
证据图需要更好的来源对象。
如果每篇学术论文进入图中时都只是一个未分化的PDF,图的节点仍然太粗。主张节点可以链接到论文,却很难链接到子主张、范围限制、定义或复现实验命令。
paper.json改进了输入层。该提案为论文提供稳定的主张ID、明确的“未声称”列表、按图配置的shell命令,以及稳定的定义ID。2研究代理可以把这些ID用作图节点。
| 论文表面 | 证据图节点 |
|---|---|
claims[].id |
主张节点。 |
does_not_claim[] |
范围限制节点。 |
definitions[].id |
定义节点。 |
reproducibility.commands[] |
证据生成节点。 |
| 仓库URL | 来源节点。 |
| Schema版本 | 溯源元数据。 |
这种连接对引用质量很重要。答案可以引用论文中的C2,而不是笼统引用整篇论文。图还可以记录C2受does_not_claim[]中的限制约束。
证据图和代理可读论文解决的是相邻问题。论文文件让证据更容易被寻址。证据图让证据更容易被组装。
上下文描述如何适配?
深度研究代理还需要知道什么内容在什么时候进入了上下文。
ACDL,即Agentic Context Description Language,正是在提示层处理这个问题。论文认为,代理系统缺少一种标准方式来描述提示组合和上下文动态,往往只能依靠散文说明、图示或代码检查。3ACDL为角色消息序列、动态内容、带时间索引的引用,以及条件或迭代结构提供了构造方式。3
证据图应连接上下文状态。
| 上下文事实 | 证据风险 |
|---|---|
| 来源先于主张进入上下文 | 代理可能引用或改写它。 |
| 范围限制没有进入上下文 | 最终文稿可能过度声称。 |
| 冲突来源较晚出现 | 综合过程可能忽略它。 |
| Searcher只看到一个分支 | 证据追踪可能过窄。 |
| Navigator分派了新查询 | 缺口节点触发了定向搜索。 |
上下文形态会影响证据形态。如果综合器从未看到相关段落,某个来源就无法支撑答案。如果没有人把限制条件放入上下文,它也无法约束答案。
深度研究系统需要两个对象:上下文描述和证据图。
为什么探索很重要?
研究代理可能过早利用已有线索。
“Look Before You Leap”把过早利用列为LLM代理在陌生环境中的一种失败模式。4该论文提出Exploration Checkpoint Coverage,作为一种可验证指标,用于判断代理在执行任务之前是否发现了关键状态、对象和可用操作。4
深度研究也具有同样形态。代理可能找到一条看似合理的线索,就在尚未理解来源空间之前开始作答。
证据图应保留一个探索阶段:
- 识别答案需要的主张类别。
- 映射可能的来源类型。
- 先搜索一手来源,再看评论材料。
- 将缺失的来源类别记录为缺口节点。
- 针对缺口分派定向搜索。
- 只有在重要缺口关闭或明确加上保留说明之后,才进行综合。
这个探索阶段可以避免代理把第一个优质来源当成答案中心。
证据图给了代理继续寻找的理由:未关闭的缺口始终可见。
没有证据图会出什么问题?
长时间运行的研究代理即使失败,也可能看不出明显破绽。
ARIS把核心失败定义为看似可信但缺乏支撑的成功:一个长时间运行的代理产出若干主张,但其证据支持并不完整、被错误报告,或继承自代理自身的初始框架。5这种失败可能通过粗略审阅,因为最终报告看起来很精致。
AgentForesight处理的是多代理系统中的相关问题。它认为,一个决定性错误可能沿着长周期轨迹级联扩散,而事后归因来得太晚,无法干预。6它的在线审计器只能看到当前前缀,并必须在完整轨迹结束前决定是继续还是报警。6
证据图有助于应对这两类问题。
| 失败 | 图的应对方式 |
|---|---|
| 看似可信但缺乏支撑的成功 | 未支撑的主张节点仍然可见。 |
| 错误报告来源支持 | 可以对照摘录检查supports边。 |
| 继承式框架 | 范围节点和冲突节点会挑战初始框架。 |
| 决定性错误级联 | 缺口或冲突节点可在综合前触发暂停。 |
| 事后审阅过载 | 审阅者检查图状态,而不只看最终文稿。 |
证据图不能保证真相。但它为真相提供了一种团队可以审计的结构。
深度研究产品应该展示什么?
深度研究产品应该暴露证据状态。
用户不应只看到一份带脚注的最终答案。界面应展示:
| 界面 | 用户价值 |
|---|---|
| 主张覆盖率 | 哪些主张有直接、间接或缺失支持。 |
| 证据图 | 来源如何连接到答案各部分。 |
| 缺口列表 | 哪些问题仍未回答。 |
| 重复来源簇 | 搜索工作者在哪里重复劳动。 |
| 冲突列表 | 哪些来源彼此矛盾。 |
| 范围限制 | 哪些保留条件约束答案。 |
| 来源追踪 | 哪次搜索或读取产生了每个证据节点。 |
| 审阅决策 | 保留、修订、阻止或继续研究。 |
这样的界面让用户能够掌控运行方向。用户可以要求代理补齐某个具体缺口,而不是泛泛地说“再研究一下”。他们可以拒绝一个薄弱主张,而不必丢弃整份答案。也能看到代理何时已经有足够证据可以停止。
优秀的深度研究UX应在最终文稿掩盖缺失证据之前,让缺失证据清晰可见。
团队应该先构建什么?
在构建图引擎之前,先从简单的证据表开始。
| 字段 | 最小形态 |
|---|---|
| 主张ID | claim_01、claim_02,或导入的论文主张ID。 |
| 主张文本 | 答案想要支撑的句子。 |
| 来源URL | 规范URL或论文ID。 |
| 证据摘录 | 有来源支持的简短段落或结果。 |
| 支持类型 | 直接、间接、背景、冲突或缺失。 |
| 范围限制 | 收窄主张的保留条件。 |
| 搜索追踪 | 查询、工具、时间戳和代理角色。 |
| 状态 | 已支持、较弱、冲突、缺失或拒绝。 |
然后加入分派机制:
- 在综合前,列出所有高价值的缺失主张。
- 将每个缺失主张交给Searcher,并附上狭窄查询。
- 要求Searcher返回证据,或明确说明未找到。
- 更新证据图。
- 只基于已支持且带有必要保留条件的主张进行综合。
第一个版本可以保持朴素。如果一张Markdown表能迫使代理展示证据覆盖率,它就胜过一份不可见的运行记录。
值得交付的标准
深度研究代理应通过展示证据结构来赢得信任。
更多搜索可能有帮助。更多代理可能有帮助。更长上下文可能有帮助。但这些输入都不能证明最终答案覆盖了缺失环节。
一次值得信任的深度研究运行,应回答4个问题:
- 代理试图证明哪些主张?
- 哪些来源支撑每个主张?
- 哪些缺口或冲突仍然存在?
- 最终答案中的哪些句子依赖哪些证据?
当这些答案始终可见时,用户才能审阅工作。当这些答案消失在精致文稿中时,用户只能在看不见证明结构的情况下信任摘要。
深度研究需要证据图,因为研究不是搜索次数问题。研究是缺失环节问题。
快速总结
深度研究代理需要证据图,因为并行搜索可能重复容易找到的来源簇,而重要主张仍然缺乏支撑。Argus提供了一个有力模式:Searcher收集证据追踪,Navigator跟踪共享证据图,把任务分派到缺失环节,并生成来源追踪答案。1
同样的经验也连接到相邻研究。paper.json改进了论文层面的来源对象。2ACDL描述上下文如何进入代理系统。3探索检查点让信息收集变得可验证。4ARIS和AgentForesight说明,在错误级联扩散之前,精致的长周期输出为什么需要证据和在线审阅。56
操作规则很直接:不要只向深度研究代理索要答案。还要索要让答案成立的证据图。
FAQ
什么是面向深度研究代理的证据图?
证据图连接主张、来源、摘录、缺口、冲突、范围限制和最终答案句子。它让审阅者能够看到深度研究答案的每一部分由哪些证据支撑。
为什么并行搜索还不够?
并行搜索可能重复来源并填满上下文,却没有找到缺失证据。深度研究代理需要一张共享地图,标明答案还缺什么。
Argus贡献了什么?
Argus把深度研究拆分为Searcher和Navigator两个角色。Searcher收集证据追踪,Navigator维护共享证据图,为缺失环节分派搜索任务,并生成带来源追踪的最终答案。1
paper.json与证据图有什么关系?
paper.json为学术论文提供稳定的主张ID、范围限制、定义和复现实验命令。证据图可以把这些ID作为精确节点,而不是笼统引用整篇论文。2
产品应该向用户展示什么?
产品应在要求用户信任最终文稿之前,展示主张覆盖率、证据链接、未解决缺口、重复搜索簇、来源冲突、范围限制和审阅决策。
参考文献
-
Zhen Zhang, Liangcai Su, Zhuo Chen, Xiang Lin, Haotian Xu, Simon Shaolei Du, Kaiyu Yang, Bo An, Lidong Bing和Xinyu Wang, “Argus: Evidence Assembly for Scalable Deep Research Agents,” arXiv:2605.16217v1,提交于2026年5月15日。Searcher/Navigator设计、共享证据图、缺失环节分派、来源追踪最终答案和所报告分数提升的来源。 ↩↩↩↩↩↩↩↩↩
-
Arquimedes Canedo, “paper.json: A Coordination Convention for LLM-Agent-Actionable Papers,” arXiv:2605.16194v1,提交于2026年5月15日。稳定主张ID、明确“未声称”列表、按图复现实验命令、稳定定义ID,以及代理可读论文表面需求的来源。 ↩↩↩↩
-
Noga Peleg Pelc, Gal A. Kaminka和Yoav Goldberg, “A Language for Describing Agentic LLM Contexts,” arXiv:2605.01920v1,提交于2026年5月3日。ACDL、上下文组合、上下文动态、角色消息序列、动态内容、带时间索引的引用,以及对非正式上下文描述批评的来源。 ↩↩↩↩
-
Ziang Ye, Wentao Shi, Yuxin Liu, Yu Wang, Zhengzhou Cai, Yaorui Shi, Qi Gu, Xunliang Cai和Fuli Feng, “Look Before You Leap: Autonomous Exploration for LLM Agents,” arXiv:2605.16143v1,提交于2026年5月15日。过早利用、Exploration Checkpoint Coverage和Explore-then-Act框架的来源。 ↩↩↩↩
-
Ruofeng Yang, Yongcan Li和Shuai Li, “ARIS: Autonomous Research via Adversarial Multi-Agent Collaboration,” arXiv:2605.03042v1,提交于2026年5月4日。长时间运行研究代理中看似可信但缺乏支撑这一失败模式,以及对中间研究产物进行对抗式审阅需求的来源。 ↩↩↩
-
Yiming Zhang, Pei Zhou, Jiahao Liu, Yifan Chen, Runzhe Yang, Zhenhailong Wang, Jiayi Pan, Chen Qian, Dong Li和Heng Ji, “AgentForesight: Online Auditing for Early Failure Prediction in Multi-Agent Systems,” arXiv:2605.08715v2,修订于2026年5月13日。决定性错误级联、在线审计、轨迹前缀审阅和早期报警框架的来源。 ↩↩↩↩