← 所有文章

研究论文需要智能体可读的论断文件

Q: paper.json试图解决什么问题？

paper.json针对反复出现的智能体阅读失败：错误引用子论断、范围过度扩展、隐藏图表命令和不稳定定义。1

Q: 作者首先应包含什么？

作者应从稳定论断ID、does_not_claim[]部分、稳定定义、精确复现命令、仓库URL和论断文件版本开始。

3分钟阅读

2026年5月15日，Arquimedes Canedo提出了paper.json：这是一个放在PDF旁边的配套JSON文件，用于让研究论文公开稳定的论断ID、明确的范围限制、逐图复现命令和稳定的定义ID。¹

这个小文件指向了一个大问题。

研究智能体如今会阅读论文、提取论断、引用来源、复现图表、构建后续工作，并总结适用范围。¹论文正文仍然服务于人类读者。但仅靠正文，会给智能体留下太多空间：误引子论断、超出证据范围泛化、编造复现命令，或凭记忆重建定义。

研究论文需要智能体可读的论断文件。论文应当为智能体提供一个类型明确的接口，说明论文主张什么、不主张什么，关键术语如何定义，以及证据如何连接到图表和代码。

摘要

智能体可读的论断文件把论文从“只有正文的产物”变成“论文加可寻址的证据层”。PDF仍然是面向人类的对象。论断文件则为智能体提供稳定ID、范围边界、定义和复现命令。

paper.json提案用具体的schema和完整仓库说明了这一点。草案描述了5项约定：稳定论断ID、明确的“不主张”列表、逐图精确shell命令、通过一个手写JSON文件实现最低可行合规，以及稳定定义ID。¹配套仓库包含paper.json、schema.json、validator.py、resolve.py、PDF和Typst源文件。²

更广泛的智能体研究也支持同一方向。Argus把深度研究视为证据组装，而不是粗暴的并行搜索。³ACDL为智能体上下文提供正式描述语言。⁴探索研究表明，智能体在行动前需要可验证的检查点。⁵当智能体生成科学论断时，由智能体设计架构的研究也提高了论文级可复现性的要求。⁶

实践规则很简单：为人类发布正文，为智能体发布论断文件。

关键要点

对论文作者： - 为论断、定义、定理、图表和后续工作添加稳定ID。 - 将范围限制写成一等字段，而不是藏在文末附近的防御性表述中。

对审稿人： - 检查机器可读论断是否与论文一致，而不只是schema是否通过验证。 - 将过时或夸大的论断文件视为引用风险缺陷。

对研究智能体构建者： - 在总结、引用、复现或基于论文继续工作前，先获取论断文件。 - 当任务依赖精确范围时，引用论断ID和定义ID。

对期刊和仓库： - 在要求作者采用完整平台之前，先接受一个放在PDF旁边、使用门槛低的文件。 - 自动验证结构，把语义审查交给人类和专门智能体。

为什么论文正文会让研究智能体失败？

学术正文会把证据压缩成叙事。

这种叙事对人类有帮助。细心读者可以理解保留措辞、比较章节、推断哪项结果支持哪项论断，并注意论文的边界在哪里。智能体处理论文的方式往往不同。它们会在时间和上下文限制下扫描、分块、检索、引用、总结，并生成新的产物。

这会造成可预期的失败模式。

仅有正文的表层	智能体失败
论断出现在段落内部	智能体引用错误的子论断，或引用整篇论文。
范围限制出现在讨论部分	智能体把有边界的结果变成一般性论断。
图表命令位于仓库中	智能体编造一个看似合理的命令，或跳过复现。
定义只出现一次	智能体之后不准确地重建该术语。
后续工作写在正文中	智能体把开放问题当成已证明结果。

Canedo直接指出了其中几类失败：子论断缺少论文内部的引用句柄，范围过度扩展会通过正文摘要传播，图表命令也常常位于论文之外的代码仓库中。¹

解决办法不是替换论文。解决办法是增加一个接口，让论文论断更容易被寻址。

论断文件应包含什么？

智能体可读的论断文件应公开那些最容易被智能体误用的部分。

字段	智能体任务
`id`	用稳定slug命名论文。
`version`	告诉智能体它读取的是哪个论断层版本。
`claims[]`	让智能体按稳定ID引用子论断。
`does_not_claim[]`	在摘要传播前阻止范围越界。
`definitions[]`	保留作者撰写的关键术语含义。
`reproducibility.commands[]`	为图表、表格或检查提供精确命令。
`follow_up_work[]`	将未来工作与已经展示的证据分开。
`repository`	为智能体提供规范代码和文件位置。
`schema`	让工具在使用前验证结构。

paper.json完整示例包含草案版本、仓库URL、作者元数据、摘要、论断、范围排除、复现命令，以及基于schema的验证。²它的schema要求id、title、version、status、authors、abstract、claims、does_not_claim和reproducibility等核心字段。²

结构不能证明真实。结构让真实变得可审查。

这个区别很重要。paper.json文件明确说明，通过验证器并不能证明语义正确性、完整性或图表复现质量。²过时的论断文件可能比没有论断文件更有害，因为智能体可能会信任整洁字段，而不是复杂正文。

因此，标准需要两层：

结构验证：文件能否解析，是否包含必需字段，是否保留已声明ID？
语义审查：文件是否忠实代表论文？

作者可以自动化第一层。第二层必须由审稿人负责。

为什么稳定论断ID重要？

当唯一可寻址单位是整篇论文时，智能体引用会过于粗糙。

一篇论文可能包含方法论断、评估论断、限制论断、基准论断和后续论断。人类读者可以引用论文，并解释具体相关部分。智能体却常常把整篇论文引用变成一个模糊的权威标记。

稳定论断ID给智能体一个更小的目标。

引用目标	结果
整篇论文	“论文表明X。”
章节标题	“方法章节说X。”
稳定论断ID	“论断C2在范围限制Y下陈述X。”

Canedo的草案报告了关于论断ID检索的试点证据。在更难的概念检索条件下，使用JSON论断的智能体平均得分为1.20/2，而搜索正文的智能体平均得分为0.60/2。²论文将该结果标注为试点证据，而不是大规模证明。²

这种谨慎反而让提案更强。重点并不在于假装第一次试点已经为整个领域盖棺定论。重点是要求作者创建一个更好的审查对象。

论断ID让审稿人可以提出更精准的问题：

智能体引用的是C1，还是整篇论文？
摘要是否保留了C2中的限定条件？
下游系统是否在未检查命令的情况下基于C3继续构建？
智能体是否把定义ID与结果论断混淆？

这些问题比“摘要听起来是否正确”更有价值。

为什么范围限制需要独立字段？

智能体常常夸大论文，因为限制条件隐藏在正文中。

论文可能说明其基准只覆盖5项任务，方法需要特定环境，或结果不能推广到受控设置之外。人类读者可以保留这种细微差别。智能体摘要经过一次改写后，限定条件就可能丢失。

明确的does_not_claim[]字段可以在复用前暴露范围限制。

隐藏的范围限制	论断文件形态
“我们不评估临床安全性。”	`does_not_claim: clinical safety`
“我们的方法假设存在工具追踪。”	`does_not_claim: trace-free operation`
“试点使用5个示例。”	`does_not_claim: population-level proof`
“该命令只验证结构。”	`does_not_claim: semantic correctness`

paper.json提案列出了其自身工作的多项排除项。它不声称C1、C2或C3已被证明，不声称验证器保证语义正确性，不声称该约定解决了智能体阅读问题，也不声称兼容所有学术元数据标准。²

这个列表给了智能体有用的东西：可以引用的边界。

范围字段也有助于评估者。如果智能体摘要写道“paper.json证明论断ID提高了智能体引用准确性”，评估者可以将该句与does_not_claim[]字段比较，并标记范围越界。如果没有这个字段，评估者只能从正文中推断范围。

为什么图表命令应与论断放在一起？

复现经常失败在命令边界。

许多论文会指向一个仓库。精确的图表命令可能存在于脚本、Make目标、notebook、README说明中，也可能没有明显位置。智能体可以搜索仓库，并组装一个看似合理的命令。未经运行的“合理命令”会制造危险的信心。

智能体可读的论断文件应直接列出复现命令。

paper.json完整示例包含生成验证器、根据paper.typ验证paper.json，以及将Typst论文编译为PDF的命令。²Canedo的草案报告了试点证据：与指向仓库的正文方法章节相比，由JSON提供的复现命令提升了图表命令检索效果。²

命令字段应保持克制：

要求	原因
精确命令	防止编造shell片段。
预期产物	让智能体检查输出形态。
环境说明	避免猜测隐藏依赖。
图表或表格ID	将命令连接到论文证据。
已知非目标	防止智能体把冒烟检查当成完整复现。

智能体不应把命令字段视为成功。命令字段只是给智能体一个可以运行、记录和报告的目标。

定义应放在哪里？

定义造成的损害可能比论断更大。

错误论断通常只影响一句话。错误定义会污染之后所有使用该术语的句子。智能体如果从正文重建定义，可能创造出一套听起来像论文内部术语、但已经偏离作者本意的词汇。

稳定定义ID可以降低这种风险。

Canedo的第5项约定为定义提供稳定ID，草案认为，在后续复用中，作者撰写的定义应优先于智能体重建的定义。¹仓库中的解析器支持#C1、#D1、#T1和#F1等片段，将ID映射到论断、定义、定理和后续事项。²

这一机制对下游系统很重要。

下游任务	定义风险
文献综述	智能体合并两篇论文中含义不同的术语。
基准提取	智能体把指标名称当成每篇论文都以相同方式定义。
代码生成	智能体因定义漂移而实现了错误对象。
后续实验	智能体优化了作者并未如此定义的术语。

论断文件应让术语可寻址。智能体在应用术语前，应引用或解析定义。

研究智能体应如何使用论断文件？

智能体需要一套阅读协议。

在总结或引用论文之前，研究智能体应当：

在可用时获取论文的论断文件。
验证文件结构。
解析所请求的论断、定义、图表、定理或后续工作ID。
当任务具有实际风险时，将解析出的项目与PDF交叉检查。
在每个摘要中保留范围限制。
只在合适的沙箱内运行复现命令。
将命令输出、缺失文件和失败检查作为证据报告。
仅当论断文件缺少所需项目时，才退回正文。

该协议应产出一个审查包：

包字段	证据
论文	标题、版本、仓库和PDF URL。
论断文件	URL、版本、schema状态和验证输出。
已解析ID	使用过的论断ID、定义ID、图表ID或后续工作ID。
范围限制	相关`does_not_claim[]`条目。
复现	运行的命令、输出、失败和环境。
人工检查	智能体无法从文件或PDF验证的任何论断。

目标不是增加文书工作。目标是减少无依据引用。

更广泛的智能体研究为何指向同一方向？

近期智能体研究不断回到同一个主题：智能体需要结构化证据层，而不是更多缺乏依据的流畅表达。

Argus把深度研究视为证据组装。系统使用Searcher和Navigator，其中Navigator追踪共享证据图，并将搜索工作派发给缺失证据片段。³这种设计强化了一个需求：论文应公开智能体可以组装的证据片段。

ACDL面向上下文描述。作者认为，智能体系统需要一种精确、可读的语言，用于描述提示和交互历史如何跨步骤演化。⁴论断文件在论文层做了类似工作：它描述论文中的论断、定义和命令应如何进入智能体上下文。

探索研究提供了另一个角度。“Look Before You Leap”提出Exploration Checkpoint Coverage，这是一种可验证指标，用于衡量智能体在行动前是否发现了关键状态、对象和可操作性。⁵研究智能体在引用或复用论文前也需要同样的纪律。它们应先发现论断、定义、限制和命令，再采取行动。

AIRA提高了风险等级。AIRA-Compose和AIRA-Design论文报告了多智能体架构搜索，能够提出新的基础模型架构，并在下游任务中取得相对基线的提升。⁶如果智能体能够生成科学设计论断，描述这些论断的论文就需要机器可读的边界和复现钩子。

ARIS指出了一种适用于整个类别的失败：长期运行的研究智能体可能在证据支持不完整、误报或继承执行者框架时，产出看似可信但缺乏支撑的成功结果。⁷论断文件减少了研究智能体只从正文继承无依据框架的空间。

模式很一致。严肃的研究智能体需要明确的证据对象。

作者现在可以发布什么？

作者无需等待期刊批准即可开始。

第一个版本可以放在论文旁边：

{
  "id": "my-paper",
  "title": "My Paper Title",
  "version": "0.1.0",
  "status": "draft",
  "repository": "https://github.com/example/my-paper",
  "claims": [
    {
      "id": "C1",
      "statement": "The method improves retrieval accuracy on benchmark X under condition Y.",
      "evidence": ["figure-2", "table-1"]
    }
  ],
  "does_not_claim": [
    "The method improves retrieval accuracy outside benchmark X."
  ],
  "definitions": [
    {
      "id": "D1",
      "term": "retrieval accuracy",
      "definition": "The percentage of queries whose top-ranked result matches the labeled answer."
    }
  ],
  "reproducibility": {
    "environment": "Python 3.11",
    "commands": ["python scripts/reproduce_figure_2.py"]
  }
}

第一个文件应回答5个问题：

智能体可以引用哪些精确论断？
哪些论断应被智能体拒绝推断？
哪些定义必须保持稳定？
哪些命令可以复现证据？
智能体读取的是哪个版本的论断层？

这个最低版本为智能体提供了更安全的起点，也让审稿人在论文变化时获得一个具体diff。

审稿人和平台应检查什么？

审稿人不应对有效的JSON文件直接盖章。

他们应将文件与论文进行比较。

检查	失败
论断一致性	论断文件说出的内容超过论文证明范围。
范围一致性	关键限制出现在正文中，却没有进入`does_not_claim[]`。
定义一致性	JSON中的定义与作者表述冲突。
命令一致性	命令不再能复现命名产物。
版本一致性	PDF已变化，但论断文件仍然过时。
ID一致性	论文提到C1或D1，而JSON缺失；或JSON声明了孤立ID。

平台可以自动化其中一部分工作。

它们可以检查JSON语法、必需字段、ID格式、重复ID、缺失引用、URL可达性、命令存在性和版本元数据。它们也可以让智能体比较论断文件与正文，并为人类生成审查包。

意义仍由人工审查决定。自动化只是让漂移可见。

标准应拒绝什么？

智能体可读的论断文件应足够小，便于采用；也应足够严格，真正有用。

需要拒绝3种诱惑。

第一，拒绝平台依赖。放在PDF旁边的文件，比一个没有作者采用的新平台更有价值。Canedo的草案认为，最低可行合规应只要求一个手写JSON文件，而不是新工具或平台注册。¹

第二，拒绝虚假确定性。schema可以验证形状，却不能证明语义真实。论断文件应说明它证明什么、不证明什么，以及审稿人如何检查漂移。

第三，拒绝隐藏策略。智能体需要证据句柄，而不是作者的私有提示。公开论断文件应公开论断、定义、限制和命令；不应公开私有同行评审备注、隐藏评估规则、凭据或未发布数据路径。

好的标准减少歧义，而不要求信任秘密机制。

值得采用的标准

值得信赖的论文不只说服人类读者。它还为未来读者、智能体、审稿人和构建者提供一种方式，使他们能够在不拉伸原意的情况下复用这项工作。

智能体可读的论断文件应让论文的边界更容易检查，从而让论文更容易被信任。

标准很简单：

为每个重要论断提供地址。
为每个范围限制提供字段。
为每个关键定义提供稳定ID。
为每个可复现图表提供精确命令。
让每个智能体都有理由更精确地引用论文。

研究智能体会继续阅读论文。作者可以任由它们抓取正文，也可以给它们一个为证据而设计的表层。

第二条路会带来更好的引用、更安全的摘要，以及更少缺乏可靠锚点却看似合理的论断。

快速总结

研究论文需要智能体可读的论断文件，因为智能体已经在总结、引用、测试和复用学术工作。仅靠正文，会给智能体留下太多空间：引用整篇论文而不是子论断、夸大范围、编造命令，或让定义漂移。

paper.json提供了一个务实起点：稳定论断ID、明确范围排除、逐图命令、通过一个JSON文件实现最低可行采用，以及稳定定义ID。¹它的完整仓库还提供schema验证、解析器和一个具体示例文件。²

最好的第一个版本应保持小而完整：论断、非论断、定义、复现命令、版本元数据和仓库链接。该文件不应替代论文，而应让智能体更安全地阅读论文。

FAQ

什么是智能体可读的论断文件？

智能体可读的论断文件是放在论文旁边的结构化文件，它以智能体可检索和引用的格式公开论断、范围限制、定义、复现命令及相关元数据。

paper.json会取代PDF吗？

不会。PDF仍然是面向人类可读的论文。论断文件为智能体提供可寻址的证据层，使其能够更安全地引用和测试论文论断。

paper.json试图解决什么问题？

paper.json针对反复出现的智能体阅读失败：错误引用子论断、范围过度扩展、隐藏图表命令和不稳定定义。¹

通过schema是否证明论断文件正确？

不能。schema可以验证必需字段、ID和结构。仍然需要人类或专门智能体审查，确认论断文件是否忠实代表论文。

作者首先应包含什么？

作者应从稳定论断ID、does_not_claim[]部分、稳定定义、精确复现命令、仓库URL和论断文件版本开始。

参考文献

Arquimedes Canedo, “paper.json: A Coordination Convention for LLM-Agent-Actionable Papers,” arXiv:2605.16194v1，提交于2026年5月15日。来源用于配套JSON提案、稳定论断ID、明确的“不主张”列表、逐图shell命令、最低可行合规声明、稳定定义ID，以及关于这些论断仍是开放假设的提醒。 ↩↩↩↩↩↩↩↩
Arquimedes Canedo, “paper-json,” GitHub仓库，访问于2026年5月18日。来源用于仓库文件，包括paper.json、schema.json、validator.py、resolve.py、paper.pdf、paper.typ、完整示例、schema必需字段、验证限制、复现命令和片段解析器行为。 ↩↩↩↩↩↩↩↩↩↩↩
Zhen Zhang, Liangcai Su, Zhuo Chen, Xiang Lin, Haotian Xu, Simon Shaolei Du, Kaiyu Yang, Bo An, Lidong Bing, and Xinyu Wang, “Argus: Evidence Assembly for Scalable Deep Research Agents,” arXiv:2605.16217v1，提交于2026年5月15日。来源用于Searcher/Navigator角色、共享证据图、缺失证据派发，以及深度研究智能体的证据组装框架。 ↩↩
Noga Peleg Pelc, Gal A. Kaminka, and Yoav Goldberg, “A Language for Describing Agentic LLM Contexts,” arXiv:2605.01920v1，提交于2026年5月3日。来源用于ACDL、描述智能体上下文组合与动态的需求，以及对非正式正文、临时图示和代码检查不足以描述上下文的批评。 ↩↩
Ziang Ye, Wentao Shi, Yuxin Liu, Yu Wang, Zhengzhou Cai, Yaorui Shi, Qi Gu, Xunliang Cai, and Fuli Feng, “Look Before You Leap: Autonomous Exploration for LLM Agents,” arXiv:2605.16143v1，提交于2026年5月15日。来源用于过早利用、Exploration Checkpoint Coverage和Explore-then-Act范式。 ↩↩
Alberto Pepe, Chien-Yu Lin, Despoina Magka, Bilge Acun, Yannan Nellie Wu, Anton Protopopov, Carole-Jean Wu, and Yoram Bachrach, “Agentic Discovery of Neural Architectures: AIRA-Compose and AIRA-Design,” arXiv:2605.15871v1，提交于2026年5月15日。来源用于多智能体神经架构发现、24小时探索、报告的架构族，以及下游准确率和扩展性声明。 ↩↩
Ruofeng Yang, Yongcan Li, and Shuai Li, “ARIS: Autonomous Research via Adversarial Multi-Agent Collaboration,” arXiv:2605.03042v1，提交于2026年5月4日。来源用于长期运行研究智能体中“看似可信但缺乏支撑的成功”这一失败模式，以及对中间研究产物进行对抗式审查的需求。 ↩