研究论文需要智能体可读的论断文件
2026年5月15日,Arquimedes Canedo提出了paper.json:这是一个放在PDF旁边的配套JSON文件,用于让研究论文公开稳定的论断ID、明确的范围限制、逐图复现命令和稳定的定义ID。1
这个小文件指向了一个大问题。
研究智能体如今会阅读论文、提取论断、引用来源、复现图表、构建后续工作,并总结适用范围。1论文正文仍然服务于人类读者。但仅靠正文,会给智能体留下太多空间:误引子论断、超出证据范围泛化、编造复现命令,或凭记忆重建定义。
研究论文需要智能体可读的论断文件。论文应当为智能体提供一个类型明确的接口,说明论文主张什么、不主张什么,关键术语如何定义,以及证据如何连接到图表和代码。
摘要
智能体可读的论断文件把论文从“只有正文的产物”变成“论文加可寻址的证据层”。PDF仍然是面向人类的对象。论断文件则为智能体提供稳定ID、范围边界、定义和复现命令。
paper.json提案用具体的schema和完整仓库说明了这一点。草案描述了5项约定:稳定论断ID、明确的“不主张”列表、逐图精确shell命令、通过一个手写JSON文件实现最低可行合规,以及稳定定义ID。1配套仓库包含paper.json、schema.json、validator.py、resolve.py、PDF和Typst源文件。2
更广泛的智能体研究也支持同一方向。Argus把深度研究视为证据组装,而不是粗暴的并行搜索。3ACDL为智能体上下文提供正式描述语言。4探索研究表明,智能体在行动前需要可验证的检查点。5当智能体生成科学论断时,由智能体设计架构的研究也提高了论文级可复现性的要求。6
实践规则很简单:为人类发布正文,为智能体发布论断文件。
关键要点
对论文作者: - 为论断、定义、定理、图表和后续工作添加稳定ID。 - 将范围限制写成一等字段,而不是藏在文末附近的防御性表述中。
对审稿人: - 检查机器可读论断是否与论文一致,而不只是schema是否通过验证。 - 将过时或夸大的论断文件视为引用风险缺陷。
对研究智能体构建者: - 在总结、引用、复现或基于论文继续工作前,先获取论断文件。 - 当任务依赖精确范围时,引用论断ID和定义ID。
对期刊和仓库: - 在要求作者采用完整平台之前,先接受一个放在PDF旁边、使用门槛低的文件。 - 自动验证结构,把语义审查交给人类和专门智能体。
为什么论文正文会让研究智能体失败?
学术正文会把证据压缩成叙事。
这种叙事对人类有帮助。细心读者可以理解保留措辞、比较章节、推断哪项结果支持哪项论断,并注意论文的边界在哪里。智能体处理论文的方式往往不同。它们会在时间和上下文限制下扫描、分块、检索、引用、总结,并生成新的产物。
这会造成可预期的失败模式。
| 仅有正文的表层 | 智能体失败 |
|---|---|
| 论断出现在段落内部 | 智能体引用错误的子论断,或引用整篇论文。 |
| 范围限制出现在讨论部分 | 智能体把有边界的结果变成一般性论断。 |
| 图表命令位于仓库中 | 智能体编造一个看似合理的命令,或跳过复现。 |
| 定义只出现一次 | 智能体之后不准确地重建该术语。 |
| 后续工作写在正文中 | 智能体把开放问题当成已证明结果。 |
Canedo直接指出了其中几类失败:子论断缺少论文内部的引用句柄,范围过度扩展会通过正文摘要传播,图表命令也常常位于论文之外的代码仓库中。1
解决办法不是替换论文。解决办法是增加一个接口,让论文论断更容易被寻址。
论断文件应包含什么?
智能体可读的论断文件应公开那些最容易被智能体误用的部分。
| 字段 | 智能体任务 |
|---|---|
id |
用稳定slug命名论文。 |
version |
告诉智能体它读取的是哪个论断层版本。 |
claims[] |
让智能体按稳定ID引用子论断。 |
does_not_claim[] |
在摘要传播前阻止范围越界。 |
definitions[] |
保留作者撰写的关键术语含义。 |
reproducibility.commands[] |
为图表、表格或检查提供精确命令。 |
follow_up_work[] |
将未来工作与已经展示的证据分开。 |
repository |
为智能体提供规范代码和文件位置。 |
schema |
让工具在使用前验证结构。 |
paper.json完整示例包含草案版本、仓库URL、作者元数据、摘要、论断、范围排除、复现命令,以及基于schema的验证。2它的schema要求id、title、version、status、authors、abstract、claims、does_not_claim和reproducibility等核心字段。2
结构不能证明真实。结构让真实变得可审查。
这个区别很重要。paper.json文件明确说明,通过验证器并不能证明语义正确性、完整性或图表复现质量。2过时的论断文件可能比没有论断文件更有害,因为智能体可能会信任整洁字段,而不是复杂正文。
因此,标准需要两层:
- 结构验证:文件能否解析,是否包含必需字段,是否保留已声明ID?
- 语义审查:文件是否忠实代表论文?
作者可以自动化第一层。第二层必须由审稿人负责。
为什么稳定论断ID重要?
当唯一可寻址单位是整篇论文时,智能体引用会过于粗糙。
一篇论文可能包含方法论断、评估论断、限制论断、基准论断和后续论断。人类读者可以引用论文,并解释具体相关部分。智能体却常常把整篇论文引用变成一个模糊的权威标记。
稳定论断ID给智能体一个更小的目标。
| 引用目标 | 结果 |
|---|---|
| 整篇论文 | “论文表明X。” |
| 章节标题 | “方法章节说X。” |
| 稳定论断ID | “论断C2在范围限制Y下陈述X。” |
Canedo的草案报告了关于论断ID检索的试点证据。在更难的概念检索条件下,使用JSON论断的智能体平均得分为1.20/2,而搜索正文的智能体平均得分为0.60/2。2论文将该结果标注为试点证据,而不是大规模证明。2
这种谨慎反而让提案更强。重点并不在于假装第一次试点已经为整个领域盖棺定论。重点是要求作者创建一个更好的审查对象。
论断ID让审稿人可以提出更精准的问题:
- 智能体引用的是C1,还是整篇论文?
- 摘要是否保留了C2中的限定条件?
- 下游系统是否在未检查命令的情况下基于C3继续构建?
- 智能体是否把定义ID与结果论断混淆?
这些问题比“摘要听起来是否正确”更有价值。
为什么范围限制需要独立字段?
智能体常常夸大论文,因为限制条件隐藏在正文中。
论文可能说明其基准只覆盖5项任务,方法需要特定环境,或结果不能推广到受控设置之外。人类读者可以保留这种细微差别。智能体摘要经过一次改写后,限定条件就可能丢失。
明确的does_not_claim[]字段可以在复用前暴露范围限制。
| 隐藏的范围限制 | 论断文件形态 |
|---|---|
| “我们不评估临床安全性。” | does_not_claim: clinical safety |
| “我们的方法假设存在工具追踪。” | does_not_claim: trace-free operation |
| “试点使用5个示例。” | does_not_claim: population-level proof |
| “该命令只验证结构。” | does_not_claim: semantic correctness |
paper.json提案列出了其自身工作的多项排除项。它不声称C1、C2或C3已被证明,不声称验证器保证语义正确性,不声称该约定解决了智能体阅读问题,也不声称兼容所有学术元数据标准。2
这个列表给了智能体有用的东西:可以引用的边界。
范围字段也有助于评估者。如果智能体摘要写道“paper.json证明论断ID提高了智能体引用准确性”,评估者可以将该句与does_not_claim[]字段比较,并标记范围越界。如果没有这个字段,评估者只能从正文中推断范围。
为什么图表命令应与论断放在一起?
复现经常失败在命令边界。
许多论文会指向一个仓库。精确的图表命令可能存在于脚本、Make目标、notebook、README说明中,也可能没有明显位置。智能体可以搜索仓库,并组装一个看似合理的命令。未经运行的“合理命令”会制造危险的信心。
智能体可读的论断文件应直接列出复现命令。
paper.json完整示例包含生成验证器、根据paper.typ验证paper.json,以及将Typst论文编译为PDF的命令。2Canedo的草案报告了试点证据:与指向仓库的正文方法章节相比,由JSON提供的复现命令提升了图表命令检索效果。2
命令字段应保持克制:
| 要求 | 原因 |
|---|---|
| 精确命令 | 防止编造shell片段。 |
| 预期产物 | 让智能体检查输出形态。 |
| 环境说明 | 避免猜测隐藏依赖。 |
| 图表或表格ID | 将命令连接到论文证据。 |
| 已知非目标 | 防止智能体把冒烟检查当成完整复现。 |
智能体不应把命令字段视为成功。命令字段只是给智能体一个可以运行、记录和报告的目标。
定义应放在哪里?
定义造成的损害可能比论断更大。
错误论断通常只影响一句话。错误定义会污染之后所有使用该术语的句子。智能体如果从正文重建定义,可能创造出一套听起来像论文内部术语、但已经偏离作者本意的词汇。
稳定定义ID可以降低这种风险。
Canedo的第5项约定为定义提供稳定ID,草案认为,在后续复用中,作者撰写的定义应优先于智能体重建的定义。1仓库中的解析器支持#C1、#D1、#T1和#F1等片段,将ID映射到论断、定义、定理和后续事项。2
这一机制对下游系统很重要。
| 下游任务 | 定义风险 |
|---|---|
| 文献综述 | 智能体合并两篇论文中含义不同的术语。 |
| 基准提取 | 智能体把指标名称当成每篇论文都以相同方式定义。 |
| 代码生成 | 智能体因定义漂移而实现了错误对象。 |
| 后续实验 | 智能体优化了作者并未如此定义的术语。 |
论断文件应让术语可寻址。智能体在应用术语前,应引用或解析定义。
研究智能体应如何使用论断文件?
智能体需要一套阅读协议。
在总结或引用论文之前,研究智能体应当:
- 在可用时获取论文的论断文件。
- 验证文件结构。
- 解析所请求的论断、定义、图表、定理或后续工作ID。
- 当任务具有实际风险时,将解析出的项目与PDF交叉检查。
- 在每个摘要中保留范围限制。
- 只在合适的沙箱内运行复现命令。
- 将命令输出、缺失文件和失败检查作为证据报告。
- 仅当论断文件缺少所需项目时,才退回正文。
该协议应产出一个审查包:
| 包字段 | 证据 |
|---|---|
| 论文 | 标题、版本、仓库和PDF URL。 |
| 论断文件 | URL、版本、schema状态和验证输出。 |
| 已解析ID | 使用过的论断ID、定义ID、图表ID或后续工作ID。 |
| 范围限制 | 相关does_not_claim[]条目。 |
| 复现 | 运行的命令、输出、失败和环境。 |
| 人工检查 | 智能体无法从文件或PDF验证的任何论断。 |
目标不是增加文书工作。目标是减少无依据引用。
更广泛的智能体研究为何指向同一方向?
近期智能体研究不断回到同一个主题:智能体需要结构化证据层,而不是更多缺乏依据的流畅表达。
Argus把深度研究视为证据组装。系统使用Searcher和Navigator,其中Navigator追踪共享证据图,并将搜索工作派发给缺失证据片段。3这种设计强化了一个需求:论文应公开智能体可以组装的证据片段。
ACDL面向上下文描述。作者认为,智能体系统需要一种精确、可读的语言,用于描述提示和交互历史如何跨步骤演化。4论断文件在论文层做了类似工作:它描述论文中的论断、定义和命令应如何进入智能体上下文。
探索研究提供了另一个角度。“Look Before You Leap”提出Exploration Checkpoint Coverage,这是一种可验证指标,用于衡量智能体在行动前是否发现了关键状态、对象和可操作性。5研究智能体在引用或复用论文前也需要同样的纪律。它们应先发现论断、定义、限制和命令,再采取行动。
AIRA提高了风险等级。AIRA-Compose和AIRA-Design论文报告了多智能体架构搜索,能够提出新的基础模型架构,并在下游任务中取得相对基线的提升。6如果智能体能够生成科学设计论断,描述这些论断的论文就需要机器可读的边界和复现钩子。
ARIS指出了一种适用于整个类别的失败:长期运行的研究智能体可能在证据支持不完整、误报或继承执行者框架时,产出看似可信但缺乏支撑的成功结果。7论断文件减少了研究智能体只从正文继承无依据框架的空间。
模式很一致。严肃的研究智能体需要明确的证据对象。
作者现在可以发布什么?
作者无需等待期刊批准即可开始。
第一个版本可以放在论文旁边:
{
"id": "my-paper",
"title": "My Paper Title",
"version": "0.1.0",
"status": "draft",
"repository": "https://github.com/example/my-paper",
"claims": [
{
"id": "C1",
"statement": "The method improves retrieval accuracy on benchmark X under condition Y.",
"evidence": ["figure-2", "table-1"]
}
],
"does_not_claim": [
"The method improves retrieval accuracy outside benchmark X."
],
"definitions": [
{
"id": "D1",
"term": "retrieval accuracy",
"definition": "The percentage of queries whose top-ranked result matches the labeled answer."
}
],
"reproducibility": {
"environment": "Python 3.11",
"commands": ["python scripts/reproduce_figure_2.py"]
}
}
第一个文件应回答5个问题:
- 智能体可以引用哪些精确论断?
- 哪些论断应被智能体拒绝推断?
- 哪些定义必须保持稳定?
- 哪些命令可以复现证据?
- 智能体读取的是哪个版本的论断层?
这个最低版本为智能体提供了更安全的起点,也让审稿人在论文变化时获得一个具体diff。
审稿人和平台应检查什么?
审稿人不应对有效的JSON文件直接盖章。
他们应将文件与论文进行比较。
| 检查 | 失败 |
|---|---|
| 论断一致性 | 论断文件说出的内容超过论文证明范围。 |
| 范围一致性 | 关键限制出现在正文中,却没有进入does_not_claim[]。 |
| 定义一致性 | JSON中的定义与作者表述冲突。 |
| 命令一致性 | 命令不再能复现命名产物。 |
| 版本一致性 | PDF已变化,但论断文件仍然过时。 |
| ID一致性 | 论文提到C1或D1,而JSON缺失;或JSON声明了孤立ID。 |
平台可以自动化其中一部分工作。
它们可以检查JSON语法、必需字段、ID格式、重复ID、缺失引用、URL可达性、命令存在性和版本元数据。它们也可以让智能体比较论断文件与正文,并为人类生成审查包。
意义仍由人工审查决定。自动化只是让漂移可见。
标准应拒绝什么?
智能体可读的论断文件应足够小,便于采用;也应足够严格,真正有用。
需要拒绝3种诱惑。
第一,拒绝平台依赖。放在PDF旁边的文件,比一个没有作者采用的新平台更有价值。Canedo的草案认为,最低可行合规应只要求一个手写JSON文件,而不是新工具或平台注册。1
第二,拒绝虚假确定性。schema可以验证形状,却不能证明语义真实。论断文件应说明它证明什么、不证明什么,以及审稿人如何检查漂移。
第三,拒绝隐藏策略。智能体需要证据句柄,而不是作者的私有提示。公开论断文件应公开论断、定义、限制和命令;不应公开私有同行评审备注、隐藏评估规则、凭据或未发布数据路径。
好的标准减少歧义,而不要求信任秘密机制。
值得采用的标准
值得信赖的论文不只说服人类读者。它还为未来读者、智能体、审稿人和构建者提供一种方式,使他们能够在不拉伸原意的情况下复用这项工作。
智能体可读的论断文件应让论文的边界更容易检查,从而让论文更容易被信任。
标准很简单:
- 为每个重要论断提供地址。
- 为每个范围限制提供字段。
- 为每个关键定义提供稳定ID。
- 为每个可复现图表提供精确命令。
- 让每个智能体都有理由更精确地引用论文。
研究智能体会继续阅读论文。作者可以任由它们抓取正文,也可以给它们一个为证据而设计的表层。
第二条路会带来更好的引用、更安全的摘要,以及更少缺乏可靠锚点却看似合理的论断。
快速总结
研究论文需要智能体可读的论断文件,因为智能体已经在总结、引用、测试和复用学术工作。仅靠正文,会给智能体留下太多空间:引用整篇论文而不是子论断、夸大范围、编造命令,或让定义漂移。
paper.json提供了一个务实起点:稳定论断ID、明确范围排除、逐图命令、通过一个JSON文件实现最低可行采用,以及稳定定义ID。1它的完整仓库还提供schema验证、解析器和一个具体示例文件。2
最好的第一个版本应保持小而完整:论断、非论断、定义、复现命令、版本元数据和仓库链接。该文件不应替代论文,而应让智能体更安全地阅读论文。
FAQ
什么是智能体可读的论断文件?
智能体可读的论断文件是放在论文旁边的结构化文件,它以智能体可检索和引用的格式公开论断、范围限制、定义、复现命令及相关元数据。
paper.json会取代PDF吗?
不会。PDF仍然是面向人类可读的论文。论断文件为智能体提供可寻址的证据层,使其能够更安全地引用和测试论文论断。
paper.json试图解决什么问题?
paper.json针对反复出现的智能体阅读失败:错误引用子论断、范围过度扩展、隐藏图表命令和不稳定定义。1
通过schema是否证明论断文件正确?
不能。schema可以验证必需字段、ID和结构。仍然需要人类或专门智能体审查,确认论断文件是否忠实代表论文。
作者首先应包含什么?
作者应从稳定论断ID、does_not_claim[]部分、稳定定义、精确复现命令、仓库URL和论断文件版本开始。
参考文献
-
Arquimedes Canedo, “paper.json: A Coordination Convention for LLM-Agent-Actionable Papers,” arXiv:2605.16194v1,提交于2026年5月15日。来源用于配套JSON提案、稳定论断ID、明确的“不主张”列表、逐图shell命令、最低可行合规声明、稳定定义ID,以及关于这些论断仍是开放假设的提醒。 ↩↩↩↩↩↩↩↩
-
Arquimedes Canedo, “paper-json,” GitHub仓库,访问于2026年5月18日。来源用于仓库文件,包括
paper.json、schema.json、validator.py、resolve.py、paper.pdf、paper.typ、完整示例、schema必需字段、验证限制、复现命令和片段解析器行为。 ↩↩↩↩↩↩↩↩↩↩↩ -
Zhen Zhang, Liangcai Su, Zhuo Chen, Xiang Lin, Haotian Xu, Simon Shaolei Du, Kaiyu Yang, Bo An, Lidong Bing, and Xinyu Wang, “Argus: Evidence Assembly for Scalable Deep Research Agents,” arXiv:2605.16217v1,提交于2026年5月15日。来源用于Searcher/Navigator角色、共享证据图、缺失证据派发,以及深度研究智能体的证据组装框架。 ↩↩
-
Noga Peleg Pelc, Gal A. Kaminka, and Yoav Goldberg, “A Language for Describing Agentic LLM Contexts,” arXiv:2605.01920v1,提交于2026年5月3日。来源用于ACDL、描述智能体上下文组合与动态的需求,以及对非正式正文、临时图示和代码检查不足以描述上下文的批评。 ↩↩
-
Ziang Ye, Wentao Shi, Yuxin Liu, Yu Wang, Zhengzhou Cai, Yaorui Shi, Qi Gu, Xunliang Cai, and Fuli Feng, “Look Before You Leap: Autonomous Exploration for LLM Agents,” arXiv:2605.16143v1,提交于2026年5月15日。来源用于过早利用、Exploration Checkpoint Coverage和Explore-then-Act范式。 ↩↩
-
Alberto Pepe, Chien-Yu Lin, Despoina Magka, Bilge Acun, Yannan Nellie Wu, Anton Protopopov, Carole-Jean Wu, and Yoram Bachrach, “Agentic Discovery of Neural Architectures: AIRA-Compose and AIRA-Design,” arXiv:2605.15871v1,提交于2026年5月15日。来源用于多智能体神经架构发现、24小时探索、报告的架构族,以及下游准确率和扩展性声明。 ↩↩
-
Ruofeng Yang, Yongcan Li, and Shuai Li, “ARIS: Autonomous Research via Adversarial Multi-Agent Collaboration,” arXiv:2605.03042v1,提交于2026年5月4日。来源用于长期运行研究智能体中“看似可信但缺乏支撑的成功”这一失败模式,以及对中间研究产物进行对抗式审查的需求。 ↩