← 所有文章

深度研究代理需要证据图

2026年5月15日,Zhen Zhang及其合作者发布了Argus。它是一套深度研究代理系统,将研究视为证据组装,而不是依靠蛮力并行搜索。1

这个区别很关键。

深度研究代理可以运行大量搜索,打开许多页面,并写出很长的答案。但答案长,并不等于代理找到了缺失的证据。并行搜索可能反复覆盖同一组来源,把更多摘录塞进上下文,却仍然让最难支撑的部分悬而未决。

深度研究代理需要证据图。代理应该知道哪些主张需要支撑,哪些证据已经存在,哪些证据仍然缺失,以及最终答案中的哪些句子依赖哪些来源。

TL;DR

深度研究代理不应以运行了多少次搜索、填充了多少上下文来衡量进度。真正的进度应由证据覆盖率来衡量。

Argus为这个领域提供了一个有用范式。它的Searcher为子查询收集证据追踪,Navigator则维护共享证据图,检查哪些证据仍然缺失,分派更多搜索任务,并生成带来源追踪的最终答案。1这让深度研究从“运行更多代理”转向“补齐缺失证明”。

近期代理研究中也能看到同样的模式。paper.json让论文中的主张和范围限制可被精确引用。2ACDL为代理上下文提供正式描述语言。3关于探索的研究认为,代理在行动前需要可验证的检查点。4ARIS把长周期研究的核心失败归结为看似可信但缺乏支撑的成功。5AgentForesight则主张,在一个决定性错误沿多代理运行过程扩散之前,先进行在线审计。6

实用规则很直接:每个深度研究答案都应附带证据图或审阅包,清楚展示代理证明了什么、推断了什么,以及哪些问题仍未解决。

要点

给代理构建者: - 将证据跟踪为由主张、来源、缺口和依赖关系组成的图。 - 把搜索任务分派给缺失证据,而不是重复宽泛查询。

给产品团队: - 展示来源覆盖率、未解决主张和重复搜索造成的浪费。 - 让审阅者能检查最终答案为何引用每个来源。

给研究人员: - 将证据收集与答案综合分开。 - 评估覆盖率和可追踪性,而不仅是最终答案得分。

给运营人员: - 在证据图补齐重要缺口之前,应把一份自信的长报告视为未完成。 - 在接受答案前,先问清楚哪些主张仍缺少一手支持。

为什么并行搜索会停滞?

并行搜索很容易让人感觉正在推进。

把同一个研究问题交给10个代理,系统就会显得动起来了。代理会搜索、总结、比较,并返回局部发现。最终综合结果看上去可能很充分,因为运行记录里包含许多来源。

问题藏在冗余之中。

并行搜索行为 失败模式
多个代理查询相似术语 来源相互重叠,而不是彼此补充。
每个代理都沿着第一个看似有希望的线索前进 真正困难的缺失证据无人触及。
上下文被摘录填满 综合器失去围绕缺口推理的空间。
最终答案合并多个摘要 缺乏支撑的主张可能在合并中保留下来。
审阅从最终文稿开始 审阅者必须反向还原证据覆盖情况。

Argus直接指出了这个问题。论文认为,深度研究答案需要组合互补证据,而并行展开通常只是重复已有证据,并没有补齐缺失部分。1更多展开可能把聚合上下文推向上限,却仍然没有填上缺口。1

教训不是“永远不要并行化”。教训是“要对照地图并行化”。

Argus带来了什么?

Argus把深度研究拆成两个角色。

Searcher通过ReAct风格的交互,为子查询收集证据追踪。1Navigator维护共享证据图,验证哪些证据仍然缺失,分派Searcher去收集这些证据,并基于已完成的图进行推理,生成带来源追踪的最终答案。1

这种角色拆分改变了工作对象。

旧工作对象 Argus工作对象
搜索记录 证据追踪
来源堆 共享证据图
查询分发 缺失环节分派
最终文稿 来源追踪答案
宽泛综合 感知覆盖率的综合

Navigator让代理记住答案还缺什么。如果没有这一层,并行工作者可能持续为同一个容易证明的主张返回证据。

Argus还报告了性能提升。在使用35B-A3B MoE主干模型时,论文报告称,Argus在单个Searcher下平均提升5.5分,在8个并行Searcher下平均提升12.7分,结果覆盖8个基准测试。1重点不只是分数。更重要的是,这种架构让额外Searcher变得有用。

Searcher之所以有用,是因为Navigator把它们指向缺失证据。

证据图应该跟踪什么?

证据图应在答案固化成文稿之前表示答案结构。

至少应跟踪:

节点类型 用途
主张 答案想要表达的句子或子主张。
来源 支撑某个主张的一手或二手来源。
证据 精确摘录、表格、图、命令输出或观察结果。
缺口 支持较弱、缺失、过期或间接的主张。
冲突 两个来源或观察结果相互矛盾。
范围限制 防止过度声称的边界。
定义 其含义会影响下游主张的术语。
任务决策 代理因证据状态而作出的选择。

边比节点更重要。

含义
supports 证据支撑某个主张。
limits 范围限制收窄某个主张。
contradicts 来源与某个主张或来源冲突。
depends_on 主张需要另一个主张或定义。
missing_for 缺口阻塞某个主张。
dispatches Navigator要求Searcher补齐缺口。
used_in 最终答案句子依赖某个来源或证据节点。

证据图不需要采用学术式图数据库排场。一个JSON对象、追踪表或审阅包都可以发挥作用。关键属性是可检查性:另一位审阅者能够看清答案为什么这样写。

证据图为什么有助于审阅?

审阅者需要一个比完整运行记录更小的对象。

一份深度研究记录可能包含几十次工具调用、来源、摘要、重试和笔记。审阅者通常更想回答几个更尖锐的问题:

  • 哪些最终主张有直接支持?
  • 哪些主张依赖二手解释?
  • 哪个来源在不同摘要下重复出现?
  • 哪个缺失问题被代理停止追踪?
  • 哪个引用只支撑背景信息,而不是关键主张?
  • 哪个限制条件应该收窄最终答案?

证据图提供了这个审阅界面。

审阅者问题 证据图答案
关键主张来自哪里? 带有supports边的主张节点。
代理是否夸大了论文结论? 附着在该主张上的范围限制边。
工作者是否重复劳动? 多个来源支撑同一个容易节点,而缺口节点仍然未关闭。
答案能否发布? 没有高风险主张节点仍然缺乏支撑。
另一个代理下一步应该做什么? 从未解决缺口节点继续分派任务。

这种形态天然适合审阅包。最终答案不应只给出文稿。它还应给出生成该文稿的证据状态。

paper.json如何适配?

证据图需要更好的来源对象。

如果每篇学术论文进入图中时都只是一个未分化的PDF,图的节点仍然太粗。主张节点可以链接到论文,却很难链接到子主张、范围限制、定义或复现实验命令。

paper.json改进了输入层。该提案为论文提供稳定的主张ID、明确的“未声称”列表、按图配置的shell命令,以及稳定的定义ID。2研究代理可以把这些ID用作图节点。

论文表面 证据图节点
claims[].id 主张节点。
does_not_claim[] 范围限制节点。
definitions[].id 定义节点。
reproducibility.commands[] 证据生成节点。
仓库URL 来源节点。
Schema版本 溯源元数据。

这种连接对引用质量很重要。答案可以引用论文中的C2,而不是笼统引用整篇论文。图还可以记录C2does_not_claim[]中的限制约束。

证据图和代理可读论文解决的是相邻问题。论文文件让证据更容易被寻址。证据图让证据更容易被组装。

上下文描述如何适配?

深度研究代理还需要知道什么内容在什么时候进入了上下文。

ACDL,即Agentic Context Description Language,正是在提示层处理这个问题。论文认为,代理系统缺少一种标准方式来描述提示组合和上下文动态,往往只能依靠散文说明、图示或代码检查。3ACDL为角色消息序列、动态内容、带时间索引的引用,以及条件或迭代结构提供了构造方式。3

证据图应连接上下文状态。

上下文事实 证据风险
来源先于主张进入上下文 代理可能引用或改写它。
范围限制没有进入上下文 最终文稿可能过度声称。
冲突来源较晚出现 综合过程可能忽略它。
Searcher只看到一个分支 证据追踪可能过窄。
Navigator分派了新查询 缺口节点触发了定向搜索。

上下文形态会影响证据形态。如果综合器从未看到相关段落,某个来源就无法支撑答案。如果没有人把限制条件放入上下文,它也无法约束答案。

深度研究系统需要两个对象:上下文描述和证据图。

为什么探索很重要?

研究代理可能过早利用已有线索。

“Look Before You Leap”把过早利用列为LLM代理在陌生环境中的一种失败模式。4该论文提出Exploration Checkpoint Coverage,作为一种可验证指标,用于判断代理在执行任务之前是否发现了关键状态、对象和可用操作。4

深度研究也具有同样形态。代理可能找到一条看似合理的线索,就在尚未理解来源空间之前开始作答。

证据图应保留一个探索阶段:

  1. 识别答案需要的主张类别。
  2. 映射可能的来源类型。
  3. 先搜索一手来源,再看评论材料。
  4. 将缺失的来源类别记录为缺口节点。
  5. 针对缺口分派定向搜索。
  6. 只有在重要缺口关闭或明确加上保留说明之后,才进行综合。

这个探索阶段可以避免代理把第一个优质来源当成答案中心。

证据图给了代理继续寻找的理由:未关闭的缺口始终可见。

没有证据图会出什么问题?

长时间运行的研究代理即使失败,也可能看不出明显破绽。

ARIS把核心失败定义为看似可信但缺乏支撑的成功:一个长时间运行的代理产出若干主张,但其证据支持并不完整、被错误报告,或继承自代理自身的初始框架。5这种失败可能通过粗略审阅,因为最终报告看起来很精致。

AgentForesight处理的是多代理系统中的相关问题。它认为,一个决定性错误可能沿着长周期轨迹级联扩散,而事后归因来得太晚,无法干预。6它的在线审计器只能看到当前前缀,并必须在完整轨迹结束前决定是继续还是报警。6

证据图有助于应对这两类问题。

失败 图的应对方式
看似可信但缺乏支撑的成功 未支撑的主张节点仍然可见。
错误报告来源支持 可以对照摘录检查supports边。
继承式框架 范围节点和冲突节点会挑战初始框架。
决定性错误级联 缺口或冲突节点可在综合前触发暂停。
事后审阅过载 审阅者检查图状态,而不只看最终文稿。

证据图不能保证真相。但它为真相提供了一种团队可以审计的结构。

深度研究产品应该展示什么?

深度研究产品应该暴露证据状态。

用户不应只看到一份带脚注的最终答案。界面应展示:

界面 用户价值
主张覆盖率 哪些主张有直接、间接或缺失支持。
证据图 来源如何连接到答案各部分。
缺口列表 哪些问题仍未回答。
重复来源簇 搜索工作者在哪里重复劳动。
冲突列表 哪些来源彼此矛盾。
范围限制 哪些保留条件约束答案。
来源追踪 哪次搜索或读取产生了每个证据节点。
审阅决策 保留、修订、阻止或继续研究。

这样的界面让用户能够掌控运行方向。用户可以要求代理补齐某个具体缺口,而不是泛泛地说“再研究一下”。他们可以拒绝一个薄弱主张,而不必丢弃整份答案。也能看到代理何时已经有足够证据可以停止。

优秀的深度研究UX应在最终文稿掩盖缺失证据之前,让缺失证据清晰可见。

团队应该先构建什么?

在构建图引擎之前,先从简单的证据表开始。

字段 最小形态
主张ID claim_01claim_02,或导入的论文主张ID。
主张文本 答案想要支撑的句子。
来源URL 规范URL或论文ID。
证据摘录 有来源支持的简短段落或结果。
支持类型 直接、间接、背景、冲突或缺失。
范围限制 收窄主张的保留条件。
搜索追踪 查询、工具、时间戳和代理角色。
状态 已支持、较弱、冲突、缺失或拒绝。

然后加入分派机制:

  1. 在综合前,列出所有高价值的缺失主张。
  2. 将每个缺失主张交给Searcher,并附上狭窄查询。
  3. 要求Searcher返回证据,或明确说明未找到。
  4. 更新证据图。
  5. 只基于已支持且带有必要保留条件的主张进行综合。

第一个版本可以保持朴素。如果一张Markdown表能迫使代理展示证据覆盖率,它就胜过一份不可见的运行记录。

值得交付的标准

深度研究代理应通过展示证据结构来赢得信任。

更多搜索可能有帮助。更多代理可能有帮助。更长上下文可能有帮助。但这些输入都不能证明最终答案覆盖了缺失环节。

一次值得信任的深度研究运行,应回答4个问题:

  • 代理试图证明哪些主张?
  • 哪些来源支撑每个主张?
  • 哪些缺口或冲突仍然存在?
  • 最终答案中的哪些句子依赖哪些证据?

当这些答案始终可见时,用户才能审阅工作。当这些答案消失在精致文稿中时,用户只能在看不见证明结构的情况下信任摘要。

深度研究需要证据图,因为研究不是搜索次数问题。研究是缺失环节问题。

快速总结

深度研究代理需要证据图,因为并行搜索可能重复容易找到的来源簇,而重要主张仍然缺乏支撑。Argus提供了一个有力模式:Searcher收集证据追踪,Navigator跟踪共享证据图,把任务分派到缺失环节,并生成来源追踪答案。1

同样的经验也连接到相邻研究。paper.json改进了论文层面的来源对象。2ACDL描述上下文如何进入代理系统。3探索检查点让信息收集变得可验证。4ARIS和AgentForesight说明,在错误级联扩散之前,精致的长周期输出为什么需要证据和在线审阅。56

操作规则很直接:不要只向深度研究代理索要答案。还要索要让答案成立的证据图。

FAQ

什么是面向深度研究代理的证据图?

证据图连接主张、来源、摘录、缺口、冲突、范围限制和最终答案句子。它让审阅者能够看到深度研究答案的每一部分由哪些证据支撑。

为什么并行搜索还不够?

并行搜索可能重复来源并填满上下文,却没有找到缺失证据。深度研究代理需要一张共享地图,标明答案还缺什么。

Argus贡献了什么?

Argus把深度研究拆分为Searcher和Navigator两个角色。Searcher收集证据追踪,Navigator维护共享证据图,为缺失环节分派搜索任务,并生成带来源追踪的最终答案。1

paper.json与证据图有什么关系?

paper.json为学术论文提供稳定的主张ID、范围限制、定义和复现实验命令。证据图可以把这些ID作为精确节点,而不是笼统引用整篇论文。2

产品应该向用户展示什么?

产品应在要求用户信任最终文稿之前,展示主张覆盖率、证据链接、未解决缺口、重复搜索簇、来源冲突、范围限制和审阅决策。


参考文献


  1. Zhen Zhang, Liangcai Su, Zhuo Chen, Xiang Lin, Haotian Xu, Simon Shaolei Du, Kaiyu Yang, Bo An, Lidong Bing和Xinyu Wang, “Argus: Evidence Assembly for Scalable Deep Research Agents,” arXiv:2605.16217v1,提交于2026年5月15日。Searcher/Navigator设计、共享证据图、缺失环节分派、来源追踪最终答案和所报告分数提升的来源。 

  2. Arquimedes Canedo, “paper.json: A Coordination Convention for LLM-Agent-Actionable Papers,” arXiv:2605.16194v1,提交于2026年5月15日。稳定主张ID、明确“未声称”列表、按图复现实验命令、稳定定义ID,以及代理可读论文表面需求的来源。 

  3. Noga Peleg Pelc, Gal A. Kaminka和Yoav Goldberg, “A Language for Describing Agentic LLM Contexts,” arXiv:2605.01920v1,提交于2026年5月3日。ACDL、上下文组合、上下文动态、角色消息序列、动态内容、带时间索引的引用,以及对非正式上下文描述批评的来源。 

  4. Ziang Ye, Wentao Shi, Yuxin Liu, Yu Wang, Zhengzhou Cai, Yaorui Shi, Qi Gu, Xunliang Cai和Fuli Feng, “Look Before You Leap: Autonomous Exploration for LLM Agents,” arXiv:2605.16143v1,提交于2026年5月15日。过早利用、Exploration Checkpoint Coverage和Explore-then-Act框架的来源。 

  5. Ruofeng Yang, Yongcan Li和Shuai Li, “ARIS: Autonomous Research via Adversarial Multi-Agent Collaboration,” arXiv:2605.03042v1,提交于2026年5月4日。长时间运行研究代理中看似可信但缺乏支撑这一失败模式,以及对中间研究产物进行对抗式审阅需求的来源。 

  6. Yiming Zhang, Pei Zhou, Jiahao Liu, Yifan Chen, Runzhe Yang, Zhenhailong Wang, Jiayi Pan, Chen Qian, Dong Li和Heng Ji, “AgentForesight: Online Auditing for Early Failure Prediction in Multi-Agent Systems,” arXiv:2605.08715v2,修订于2026年5月13日。决定性错误级联、在线审计、轨迹前缀审阅和早期报警框架的来源。 

相关文章

AI代理技能需要行为审计,而不是通过率

AI代理技能可能会改变行为,而通过率保持不变。建立信任之前,行为审计会对比执行轨迹、声明能力和副作用。

2 分钟阅读

AI代码审查需要异议,而不是共识

AI代码审查需要独立代理保留异议、验证发现、将不确定性转交给人类,并在团队合并PR前重新审查修复。

2 分钟阅读

Ralph循环:我如何在夜间运行自主AI代理

我构建了一个使用停止钩子、生成预算和文件系统记忆的自主代理系统。以下是失败经验以及真正能交付代码的方法。

3 分钟阅读