← 所有文章

研究论文需要智能体可读的论断文件

2026年5月15日,Arquimedes Canedo提出了paper.json:这是一个放在PDF旁边的配套JSON文件,用于让研究论文公开稳定的论断ID、明确的范围限制、逐图复现命令和稳定的定义ID。1

这个小文件指向了一个大问题。

研究智能体如今会阅读论文、提取论断、引用来源、复现图表、构建后续工作,并总结适用范围。1论文正文仍然服务于人类读者。但仅靠正文,会给智能体留下太多空间:误引子论断、超出证据范围泛化、编造复现命令,或凭记忆重建定义。

研究论文需要智能体可读的论断文件。论文应当为智能体提供一个类型明确的接口,说明论文主张什么、不主张什么,关键术语如何定义,以及证据如何连接到图表和代码。

摘要

智能体可读的论断文件把论文从“只有正文的产物”变成“论文加可寻址的证据层”。PDF仍然是面向人类的对象。论断文件则为智能体提供稳定ID、范围边界、定义和复现命令。

paper.json提案用具体的schema和完整仓库说明了这一点。草案描述了5项约定:稳定论断ID、明确的“不主张”列表、逐图精确shell命令、通过一个手写JSON文件实现最低可行合规,以及稳定定义ID。1配套仓库包含paper.jsonschema.jsonvalidator.pyresolve.py、PDF和Typst源文件。2

更广泛的智能体研究也支持同一方向。Argus把深度研究视为证据组装,而不是粗暴的并行搜索。3ACDL为智能体上下文提供正式描述语言。4探索研究表明,智能体在行动前需要可验证的检查点。5当智能体生成科学论断时,由智能体设计架构的研究也提高了论文级可复现性的要求。6

实践规则很简单:为人类发布正文,为智能体发布论断文件。

关键要点

对论文作者: - 为论断、定义、定理、图表和后续工作添加稳定ID。 - 将范围限制写成一等字段,而不是藏在文末附近的防御性表述中。

对审稿人: - 检查机器可读论断是否与论文一致,而不只是schema是否通过验证。 - 将过时或夸大的论断文件视为引用风险缺陷。

对研究智能体构建者: - 在总结、引用、复现或基于论文继续工作前,先获取论断文件。 - 当任务依赖精确范围时,引用论断ID和定义ID。

对期刊和仓库: - 在要求作者采用完整平台之前,先接受一个放在PDF旁边、使用门槛低的文件。 - 自动验证结构,把语义审查交给人类和专门智能体。

为什么论文正文会让研究智能体失败?

学术正文会把证据压缩成叙事。

这种叙事对人类有帮助。细心读者可以理解保留措辞、比较章节、推断哪项结果支持哪项论断,并注意论文的边界在哪里。智能体处理论文的方式往往不同。它们会在时间和上下文限制下扫描、分块、检索、引用、总结,并生成新的产物。

这会造成可预期的失败模式。

仅有正文的表层 智能体失败
论断出现在段落内部 智能体引用错误的子论断,或引用整篇论文。
范围限制出现在讨论部分 智能体把有边界的结果变成一般性论断。
图表命令位于仓库中 智能体编造一个看似合理的命令,或跳过复现。
定义只出现一次 智能体之后不准确地重建该术语。
后续工作写在正文中 智能体把开放问题当成已证明结果。

Canedo直接指出了其中几类失败:子论断缺少论文内部的引用句柄,范围过度扩展会通过正文摘要传播,图表命令也常常位于论文之外的代码仓库中。1

解决办法不是替换论文。解决办法是增加一个接口,让论文论断更容易被寻址。

论断文件应包含什么?

智能体可读的论断文件应公开那些最容易被智能体误用的部分。

字段 智能体任务
id 用稳定slug命名论文。
version 告诉智能体它读取的是哪个论断层版本。
claims[] 让智能体按稳定ID引用子论断。
does_not_claim[] 在摘要传播前阻止范围越界。
definitions[] 保留作者撰写的关键术语含义。
reproducibility.commands[] 为图表、表格或检查提供精确命令。
follow_up_work[] 将未来工作与已经展示的证据分开。
repository 为智能体提供规范代码和文件位置。
schema 让工具在使用前验证结构。

paper.json完整示例包含草案版本、仓库URL、作者元数据、摘要、论断、范围排除、复现命令,以及基于schema的验证。2它的schema要求idtitleversionstatusauthorsabstractclaimsdoes_not_claimreproducibility等核心字段。2

结构不能证明真实。结构让真实变得可审查。

这个区别很重要。paper.json文件明确说明,通过验证器并不能证明语义正确性、完整性或图表复现质量。2过时的论断文件可能比没有论断文件更有害,因为智能体可能会信任整洁字段,而不是复杂正文。

因此,标准需要两层:

  1. 结构验证:文件能否解析,是否包含必需字段,是否保留已声明ID?
  2. 语义审查:文件是否忠实代表论文?

作者可以自动化第一层。第二层必须由审稿人负责。

为什么稳定论断ID重要?

当唯一可寻址单位是整篇论文时,智能体引用会过于粗糙。

一篇论文可能包含方法论断、评估论断、限制论断、基准论断和后续论断。人类读者可以引用论文,并解释具体相关部分。智能体却常常把整篇论文引用变成一个模糊的权威标记。

稳定论断ID给智能体一个更小的目标。

引用目标 结果
整篇论文 “论文表明X。”
章节标题 “方法章节说X。”
稳定论断ID “论断C2在范围限制Y下陈述X。”

Canedo的草案报告了关于论断ID检索的试点证据。在更难的概念检索条件下,使用JSON论断的智能体平均得分为1.20/2,而搜索正文的智能体平均得分为0.60/2。2论文将该结果标注为试点证据,而不是大规模证明。2

这种谨慎反而让提案更强。重点并不在于假装第一次试点已经为整个领域盖棺定论。重点是要求作者创建一个更好的审查对象。

论断ID让审稿人可以提出更精准的问题:

  • 智能体引用的是C1,还是整篇论文?
  • 摘要是否保留了C2中的限定条件?
  • 下游系统是否在未检查命令的情况下基于C3继续构建?
  • 智能体是否把定义ID与结果论断混淆?

这些问题比“摘要听起来是否正确”更有价值。

为什么范围限制需要独立字段?

智能体常常夸大论文,因为限制条件隐藏在正文中。

论文可能说明其基准只覆盖5项任务,方法需要特定环境,或结果不能推广到受控设置之外。人类读者可以保留这种细微差别。智能体摘要经过一次改写后,限定条件就可能丢失。

明确的does_not_claim[]字段可以在复用前暴露范围限制。

隐藏的范围限制 论断文件形态
“我们不评估临床安全性。” does_not_claim: clinical safety
“我们的方法假设存在工具追踪。” does_not_claim: trace-free operation
“试点使用5个示例。” does_not_claim: population-level proof
“该命令只验证结构。” does_not_claim: semantic correctness

paper.json提案列出了其自身工作的多项排除项。它不声称C1、C2或C3已被证明,不声称验证器保证语义正确性,不声称该约定解决了智能体阅读问题,也不声称兼容所有学术元数据标准。2

这个列表给了智能体有用的东西:可以引用的边界。

范围字段也有助于评估者。如果智能体摘要写道“paper.json证明论断ID提高了智能体引用准确性”,评估者可以将该句与does_not_claim[]字段比较,并标记范围越界。如果没有这个字段,评估者只能从正文中推断范围。

为什么图表命令应与论断放在一起?

复现经常失败在命令边界。

许多论文会指向一个仓库。精确的图表命令可能存在于脚本、Make目标、notebook、README说明中,也可能没有明显位置。智能体可以搜索仓库,并组装一个看似合理的命令。未经运行的“合理命令”会制造危险的信心。

智能体可读的论断文件应直接列出复现命令。

paper.json完整示例包含生成验证器、根据paper.typ验证paper.json,以及将Typst论文编译为PDF的命令。2Canedo的草案报告了试点证据:与指向仓库的正文方法章节相比,由JSON提供的复现命令提升了图表命令检索效果。2

命令字段应保持克制:

要求 原因
精确命令 防止编造shell片段。
预期产物 让智能体检查输出形态。
环境说明 避免猜测隐藏依赖。
图表或表格ID 将命令连接到论文证据。
已知非目标 防止智能体把冒烟检查当成完整复现。

智能体不应把命令字段视为成功。命令字段只是给智能体一个可以运行、记录和报告的目标。

定义应放在哪里?

定义造成的损害可能比论断更大。

错误论断通常只影响一句话。错误定义会污染之后所有使用该术语的句子。智能体如果从正文重建定义,可能创造出一套听起来像论文内部术语、但已经偏离作者本意的词汇。

稳定定义ID可以降低这种风险。

Canedo的第5项约定为定义提供稳定ID,草案认为,在后续复用中,作者撰写的定义应优先于智能体重建的定义。1仓库中的解析器支持#C1#D1#T1#F1等片段,将ID映射到论断、定义、定理和后续事项。2

这一机制对下游系统很重要。

下游任务 定义风险
文献综述 智能体合并两篇论文中含义不同的术语。
基准提取 智能体把指标名称当成每篇论文都以相同方式定义。
代码生成 智能体因定义漂移而实现了错误对象。
后续实验 智能体优化了作者并未如此定义的术语。

论断文件应让术语可寻址。智能体在应用术语前,应引用或解析定义。

研究智能体应如何使用论断文件?

智能体需要一套阅读协议。

在总结或引用论文之前,研究智能体应当:

  1. 在可用时获取论文的论断文件。
  2. 验证文件结构。
  3. 解析所请求的论断、定义、图表、定理或后续工作ID。
  4. 当任务具有实际风险时,将解析出的项目与PDF交叉检查。
  5. 在每个摘要中保留范围限制。
  6. 只在合适的沙箱内运行复现命令。
  7. 将命令输出、缺失文件和失败检查作为证据报告。
  8. 仅当论断文件缺少所需项目时,才退回正文。

该协议应产出一个审查包:

包字段 证据
论文 标题、版本、仓库和PDF URL。
论断文件 URL、版本、schema状态和验证输出。
已解析ID 使用过的论断ID、定义ID、图表ID或后续工作ID。
范围限制 相关does_not_claim[]条目。
复现 运行的命令、输出、失败和环境。
人工检查 智能体无法从文件或PDF验证的任何论断。

目标不是增加文书工作。目标是减少无依据引用。

更广泛的智能体研究为何指向同一方向?

近期智能体研究不断回到同一个主题:智能体需要结构化证据层,而不是更多缺乏依据的流畅表达。

Argus把深度研究视为证据组装。系统使用Searcher和Navigator,其中Navigator追踪共享证据图,并将搜索工作派发给缺失证据片段。3这种设计强化了一个需求:论文应公开智能体可以组装的证据片段。

ACDL面向上下文描述。作者认为,智能体系统需要一种精确、可读的语言,用于描述提示和交互历史如何跨步骤演化。4论断文件在论文层做了类似工作:它描述论文中的论断、定义和命令应如何进入智能体上下文。

探索研究提供了另一个角度。“Look Before You Leap”提出Exploration Checkpoint Coverage,这是一种可验证指标,用于衡量智能体在行动前是否发现了关键状态、对象和可操作性。5研究智能体在引用或复用论文前也需要同样的纪律。它们应先发现论断、定义、限制和命令,再采取行动。

AIRA提高了风险等级。AIRA-Compose和AIRA-Design论文报告了多智能体架构搜索,能够提出新的基础模型架构,并在下游任务中取得相对基线的提升。6如果智能体能够生成科学设计论断,描述这些论断的论文就需要机器可读的边界和复现钩子。

ARIS指出了一种适用于整个类别的失败:长期运行的研究智能体可能在证据支持不完整、误报或继承执行者框架时,产出看似可信但缺乏支撑的成功结果。7论断文件减少了研究智能体只从正文继承无依据框架的空间。

模式很一致。严肃的研究智能体需要明确的证据对象。

作者现在可以发布什么?

作者无需等待期刊批准即可开始。

第一个版本可以放在论文旁边:

{
  "id": "my-paper",
  "title": "My Paper Title",
  "version": "0.1.0",
  "status": "draft",
  "repository": "https://github.com/example/my-paper",
  "claims": [
    {
      "id": "C1",
      "statement": "The method improves retrieval accuracy on benchmark X under condition Y.",
      "evidence": ["figure-2", "table-1"]
    }
  ],
  "does_not_claim": [
    "The method improves retrieval accuracy outside benchmark X."
  ],
  "definitions": [
    {
      "id": "D1",
      "term": "retrieval accuracy",
      "definition": "The percentage of queries whose top-ranked result matches the labeled answer."
    }
  ],
  "reproducibility": {
    "environment": "Python 3.11",
    "commands": ["python scripts/reproduce_figure_2.py"]
  }
}

第一个文件应回答5个问题:

  1. 智能体可以引用哪些精确论断?
  2. 哪些论断应被智能体拒绝推断?
  3. 哪些定义必须保持稳定?
  4. 哪些命令可以复现证据?
  5. 智能体读取的是哪个版本的论断层?

这个最低版本为智能体提供了更安全的起点,也让审稿人在论文变化时获得一个具体diff。

审稿人和平台应检查什么?

审稿人不应对有效的JSON文件直接盖章。

他们应将文件与论文进行比较。

检查 失败
论断一致性 论断文件说出的内容超过论文证明范围。
范围一致性 关键限制出现在正文中,却没有进入does_not_claim[]
定义一致性 JSON中的定义与作者表述冲突。
命令一致性 命令不再能复现命名产物。
版本一致性 PDF已变化,但论断文件仍然过时。
ID一致性 论文提到C1或D1,而JSON缺失;或JSON声明了孤立ID。

平台可以自动化其中一部分工作。

它们可以检查JSON语法、必需字段、ID格式、重复ID、缺失引用、URL可达性、命令存在性和版本元数据。它们也可以让智能体比较论断文件与正文,并为人类生成审查包。

意义仍由人工审查决定。自动化只是让漂移可见。

标准应拒绝什么?

智能体可读的论断文件应足够小,便于采用;也应足够严格,真正有用。

需要拒绝3种诱惑。

第一,拒绝平台依赖。放在PDF旁边的文件,比一个没有作者采用的新平台更有价值。Canedo的草案认为,最低可行合规应只要求一个手写JSON文件,而不是新工具或平台注册。1

第二,拒绝虚假确定性。schema可以验证形状,却不能证明语义真实。论断文件应说明它证明什么、不证明什么,以及审稿人如何检查漂移。

第三,拒绝隐藏策略。智能体需要证据句柄,而不是作者的私有提示。公开论断文件应公开论断、定义、限制和命令;不应公开私有同行评审备注、隐藏评估规则、凭据或未发布数据路径。

好的标准减少歧义,而不要求信任秘密机制。

值得采用的标准

值得信赖的论文不只说服人类读者。它还为未来读者、智能体、审稿人和构建者提供一种方式,使他们能够在不拉伸原意的情况下复用这项工作。

智能体可读的论断文件应让论文的边界更容易检查,从而让论文更容易被信任。

标准很简单:

  • 为每个重要论断提供地址。
  • 为每个范围限制提供字段。
  • 为每个关键定义提供稳定ID。
  • 为每个可复现图表提供精确命令。
  • 让每个智能体都有理由更精确地引用论文。

研究智能体会继续阅读论文。作者可以任由它们抓取正文,也可以给它们一个为证据而设计的表层。

第二条路会带来更好的引用、更安全的摘要,以及更少缺乏可靠锚点却看似合理的论断。

快速总结

研究论文需要智能体可读的论断文件,因为智能体已经在总结、引用、测试和复用学术工作。仅靠正文,会给智能体留下太多空间:引用整篇论文而不是子论断、夸大范围、编造命令,或让定义漂移。

paper.json提供了一个务实起点:稳定论断ID、明确范围排除、逐图命令、通过一个JSON文件实现最低可行采用,以及稳定定义ID。1它的完整仓库还提供schema验证、解析器和一个具体示例文件。2

最好的第一个版本应保持小而完整:论断、非论断、定义、复现命令、版本元数据和仓库链接。该文件不应替代论文,而应让智能体更安全地阅读论文。

FAQ

什么是智能体可读的论断文件?

智能体可读的论断文件是放在论文旁边的结构化文件,它以智能体可检索和引用的格式公开论断、范围限制、定义、复现命令及相关元数据。

paper.json会取代PDF吗?

不会。PDF仍然是面向人类可读的论文。论断文件为智能体提供可寻址的证据层,使其能够更安全地引用和测试论文论断。

paper.json试图解决什么问题?

paper.json针对反复出现的智能体阅读失败:错误引用子论断、范围过度扩展、隐藏图表命令和不稳定定义。1

通过schema是否证明论断文件正确?

不能。schema可以验证必需字段、ID和结构。仍然需要人类或专门智能体审查,确认论断文件是否忠实代表论文。

作者首先应包含什么?

作者应从稳定论断ID、does_not_claim[]部分、稳定定义、精确复现命令、仓库URL和论断文件版本开始。


参考文献


  1. Arquimedes Canedo, “paper.json: A Coordination Convention for LLM-Agent-Actionable Papers,” arXiv:2605.16194v1,提交于2026年5月15日。来源用于配套JSON提案、稳定论断ID、明确的“不主张”列表、逐图shell命令、最低可行合规声明、稳定定义ID,以及关于这些论断仍是开放假设的提醒。 

  2. Arquimedes Canedo, “paper-json,” GitHub仓库,访问于2026年5月18日。来源用于仓库文件,包括paper.jsonschema.jsonvalidator.pyresolve.pypaper.pdfpaper.typ、完整示例、schema必需字段、验证限制、复现命令和片段解析器行为。 

  3. Zhen Zhang, Liangcai Su, Zhuo Chen, Xiang Lin, Haotian Xu, Simon Shaolei Du, Kaiyu Yang, Bo An, Lidong Bing, and Xinyu Wang, “Argus: Evidence Assembly for Scalable Deep Research Agents,” arXiv:2605.16217v1,提交于2026年5月15日。来源用于Searcher/Navigator角色、共享证据图、缺失证据派发,以及深度研究智能体的证据组装框架。 

  4. Noga Peleg Pelc, Gal A. Kaminka, and Yoav Goldberg, “A Language for Describing Agentic LLM Contexts,” arXiv:2605.01920v1,提交于2026年5月3日。来源用于ACDL、描述智能体上下文组合与动态的需求,以及对非正式正文、临时图示和代码检查不足以描述上下文的批评。 

  5. Ziang Ye, Wentao Shi, Yuxin Liu, Yu Wang, Zhengzhou Cai, Yaorui Shi, Qi Gu, Xunliang Cai, and Fuli Feng, “Look Before You Leap: Autonomous Exploration for LLM Agents,” arXiv:2605.16143v1,提交于2026年5月15日。来源用于过早利用、Exploration Checkpoint Coverage和Explore-then-Act范式。 

  6. Alberto Pepe, Chien-Yu Lin, Despoina Magka, Bilge Acun, Yannan Nellie Wu, Anton Protopopov, Carole-Jean Wu, and Yoram Bachrach, “Agentic Discovery of Neural Architectures: AIRA-Compose and AIRA-Design,” arXiv:2605.15871v1,提交于2026年5月15日。来源用于多智能体神经架构发现、24小时探索、报告的架构族,以及下游准确率和扩展性声明。 

  7. Ruofeng Yang, Yongcan Li, and Shuai Li, “ARIS: Autonomous Research via Adversarial Multi-Agent Collaboration,” arXiv:2605.03042v1,提交于2026年5月4日。来源用于长期运行研究智能体中“看似可信但缺乏支撑的成功”这一失败模式,以及对中间研究产物进行对抗式审查的需求。 

相关文章

深度研究代理需要证据图

深度研究代理需要证据图,用于跟踪缺失环节、减少重复搜索,并生成可供审阅者检查的来源追踪答案。

3 分钟阅读

AI代理技能需要行为审计,而不是通过率

AI代理技能可能会改变行为,而通过率保持不变。建立信任之前,行为审计会对比执行轨迹、声明能力和副作用。

2 分钟阅读

Ralph循环:我如何在夜间运行自主AI代理

我构建了一个使用停止钩子、生成预算和文件系统记忆的自主代理系统。以下是失败经验以及真正能交付代码的方法。

3 分钟阅读