研究論文需要代理可讀的主張檔案
2026年5月15日,Arquimedes Canedo提出paper.json:一個搭配論文使用的JSON檔案,讓研究論文能在PDF旁揭露穩定的主張ID、明確的範圍限制、每張圖的重現指令,以及穩定的定義ID。1
這個小檔案指向一個大問題。
研究代理如今會閱讀論文、擷取主張、引用來源、重現圖表、建立後續研究,並摘要適用範圍。1論文敘述仍然服務人類讀者,但單靠文字會給代理太多犯錯空間:引用錯誤的子主張、把證據過度外推、編造重現指令,或憑記憶重建定義。
研究論文需要代理可讀的主張檔案。論文應該提供一個型別化介面,讓代理知道論文主張什麼、不主張什麼、關鍵術語如何運作,以及證據如何連到圖表與程式碼。
重點摘要
代理可讀的主張檔案,會把論文從只有文字敘述的成果,轉成論文本身加上一個可定址的證據介面。PDF仍是給人閱讀的物件;主張檔案則提供代理穩定ID、範圍邊界、定義與重現指令。
paper.json提案用具體結構描述與完整範例儲存庫說明此事。草案描述5項慣例:穩定主張ID、明確的不主張清單、每張圖的精確shell指令、透過一個手寫JSON檔案達成最低可行合規,以及穩定定義ID。1搭配的儲存庫包含paper.json、schema.json、validator.py、resolve.py、PDF與Typst原始檔。2
更廣泛的代理研究群也指向同一方向。Argus把深度研究視為證據組裝,而不是蠻力式平行搜尋。3ACDL為代理脈絡提供正式描述語言。4探索研究顯示,代理在採取行動前需要可驗證的檢查點。5代理設計架構的研究則提高了論文層級可重現性的要求,因為代理已能產生科學主張。6
實務規則很簡單:把文字發表給人,把主張檔案發表給代理。
主要收穫
對論文作者: - 為主張、定義、定理、圖表與後續工作加入穩定ID。 - 將範圍限制寫成一等欄位,而不是藏在結尾附近的防衛性文字。
對審查者: - 檢查機器可讀主張是否符合論文,而不只是結構描述是否通過驗證。 - 將過期或誇大的主張檔案視為引用風險缺陷。
對研究代理建構者: - 在摘要、引用、重現或延伸論文前,先擷取主張檔案。 - 當任務仰賴精確範圍時,引用主張ID與定義ID。
對期刊與儲存庫平台: - 在要求作者採用完整平台前,先接受放在PDF旁、採用門檻低的檔案。 - 自動驗證結構,語意審查則交給人類與專門代理。
為什麼文字敘述型論文會讓研究代理失敗?
學術文字會把證據壓縮成敘事。
這種敘事對人有幫助。細心讀者能跟上保留語氣、比較章節、推論哪個結果支撐哪項主張,也能看出論文在哪裡止步。代理處理論文的方式往往不同。它們會在時間與脈絡限制下掃描、切塊、檢索、引用、摘要,並組成新產物。
這會產生可預期的失敗模式。
| 純文字介面 | 代理失敗 |
|---|---|
| 主張出現在段落內 | 代理引用錯誤的子主張,或引用整篇論文。 |
| 範圍限制出現在討論章節 | 代理把有邊界的結果變成一般性主張。 |
| 圖表指令放在儲存庫中 | 代理編造看似合理的指令,或略過重現。 |
| 定義只出現一次 | 代理後續不準確地重建術語。 |
| 後續工作寫在文字敘述中 | 代理把開放問題當成已證結果。 |
Canedo直接指出其中幾種失敗:子主張缺少論文內的引用定位點、範圍過度外推會在文字摘要中被延續,圖表指令也經常放在論文之外的程式碼儲存庫中。1
解法不需要取代論文。解法是新增一個介面,讓論文主張更容易被定址。
主張檔案應該包含什麼?
代理可讀的主張檔案應揭露代理最常誤用的部分。
| 欄位 | 代理任務 |
|---|---|
id |
用穩定slug命名論文。 |
version |
告訴代理它讀到的是哪個主張介面。 |
claims[] |
讓代理依穩定ID引用子主張。 |
does_not_claim[] |
在摘要擴散前阻止範圍外推。 |
definitions[] |
保留作者撰寫的關鍵術語含義。 |
reproducibility.commands[] |
提供圖表、表格或檢查的精確指令。 |
follow_up_work[] |
將未來工作與已呈現證據分開。 |
repository |
提供代理標準程式碼與檔案位置。 |
schema |
讓工具在使用前驗證結構。 |
paper.json完整範例包含草稿版本、儲存庫URL、作者中繼資料、摘要、主張、範圍排除、重現指令,以及由結構描述支援的驗證。2其結構描述要求核心欄位,例如id、title、version、status、authors、abstract、claims、does_not_claim與reproducibility。2
結構不能證明真實。結構讓真實變得可審查。
這個區別很重要。paper.json檔案明確指出,通過驗證器不代表能證明語意正確性、完整性,或圖表重現品質。2過期的主張檔案甚至可能比沒有主張檔案更有害,因為代理可能信任整齊欄位勝過雜亂文字。
因此標準需要兩層:
- 結構驗證:檔案是否能解析、是否包含必要欄位、是否保留宣告的ID?
- 語意審查:檔案是否忠實代表論文?
作者可以自動化第一層。第二層必須由審查者負責。
為什麼穩定主張ID很重要?
當唯一可定址單位是整篇論文時,代理引用會過於粗略。
一篇論文可能包含方法主張、評估主張、限制主張、基準主張與後續主張。人類讀者可以引用論文,並說明哪個部分重要。代理卻常把整篇論文的引用變成模糊的權威符號。
穩定主張ID給代理更小、更準的目標。
| 引用目標 | 結果 |
|---|---|
| 整篇論文 | 「這篇論文顯示X。」 |
| 章節標題 | 「方法章節說X。」 |
| 穩定主張ID | 「主張C2在範圍限制Y下陳述X。」 |
Canedo的草案回報了主張ID檢索的試點證據。在較困難的概念檢索條件下,使用JSON主張的代理平均得分為1.20/2,而搜尋文字敘述的代理平均得分為0.60/2。2該論文將此結果標示為試點證據,而不是大規模證明。2
這種謹慎讓提案更好。重點不在於假裝第一個試點已經定論,而是要求作者建立更好的審查物件。
主張ID讓審查者能提出更精準的問題:
- 代理引用的是C1,還是整篇論文?
- 摘要是否保留了C2中的限定條件?
- 下游系統是否在未檢查指令的情況下建立於C3之上?
- 代理是否把定義ID和結果主張混淆?
這些問題勝過「摘要聽起來對不對?」
為什麼範圍限制需要自己的欄位?
代理經常誇大論文,因為限制藏在文字裡。
論文可能說它的基準涵蓋5項任務、方法需要特定環境,或結果無法外推到受控設定之外。人類讀者能保留這些細節。代理摘要經過一次改寫後,限定條件可能就消失了。
明確的does_not_claim[]欄位能在再利用前讓範圍限制可見。
| 隱藏的範圍限制 | 主張檔案形狀 |
|---|---|
| 「我們不評估臨床安全性。」 | does_not_claim: clinical safety |
| 「我們的方法假設工具追蹤存在。」 | does_not_claim: trace-free operation |
| 「試點使用5個範例。」 | does_not_claim: population-level proof |
| 「此指令只驗證結構。」 | does_not_claim: semantic correctness |
paper.json提案列出其自身工作的多項排除。它不主張C1、C2或C3已被證明,不主張驗證器能保證語意正確性,不主張此慣例能解決代理閱讀問題,也不主張相容於所有學術中繼資料標準。2
這份清單給代理一個有用的東西:可引用的邊界。
範圍欄位也能幫助評估者。如果代理摘要寫「paper.json證明主張ID能改善代理引用準確度」,評估者就能把這句話與does_not_claim[]欄位比較,並標記外推過度。沒有欄位時,評估者只能從文字中推論範圍。
為什麼圖表指令應該放在主張旁?
重現經常失敗在指令邊界。
許多論文會指向儲存庫。精確的圖表指令可能位於腳本、Make目標、notebook、README註記,或根本沒有明顯位置。代理可以搜尋儲存庫,組出一個看似合理的指令。看似合理的指令若從未執行,會製造危險的信心。
代理可讀的主張檔案應直接列出重現指令。
paper.json完整範例包含產生驗證器、依paper.typ驗證paper.json,以及將Typst論文編譯成PDF的指令。2Canedo的草案回報試點證據指出,相較於指向儲存庫的文字方法章節,由JSON提供的重現指令改善了圖表指令檢索。2
指令欄位應保持克制:
| 要求 | 原因 |
|---|---|
| 精確指令 | 防止編造shell片段。 |
| 預期產物 | 讓代理檢查輸出形狀。 |
| 環境註記 | 避免猜測隱藏相依性。 |
| 圖表或表格ID | 將指令連到論文證據。 |
| 已知非目標 | 防止代理把煙霧測試當成完整重現。 |
代理不應把指令欄位視為成功。指令欄位只是給代理一個可執行、可記錄、可回報的目標。
定義應該放在哪裡?
定義造成的傷害可能比主張更大。
錯誤主張通常只會毀掉一句話。錯誤定義會感染後續每一句使用該術語的文字。從文字中重建定義的代理,可能創造出聽起來像論文內部術語、卻逐漸偏離作者原意的詞彙。
穩定定義ID可以處理這項風險。
Canedo的第5項慣例為定義提供穩定ID,草案也主張作者撰寫的定義應優先於代理重建的定義,以供後續再利用。1儲存庫的解析器支援#C1、#D1、#T1與#F1等片段,將ID對應到主張、定義、定理與後續項目。2
這套機制對下游系統很重要。
| 下游任務 | 定義風險 |
|---|---|
| 文獻回顧 | 代理合併兩篇論文中意義不同的術語。 |
| 基準擷取 | 代理把某個指標名稱當成所有論文都定義相同。 |
| 程式碼生成 | 代理因定義漂移而實作錯誤物件。 |
| 後續實驗 | 代理最佳化作者從未意指的術語。 |
主張檔案應讓術語可定址。代理在套用術語前,應引用或解析定義。
研究代理應如何使用主張檔案?
代理需要閱讀協議。
在摘要或引用論文前,研究代理應該:
- 若有主張檔案,先擷取該檔案。
- 驗證檔案結構。
- 解析所需的主張、定義、圖表、定理或後續ID。
- 任務有實質風險時,將解析出的項目與PDF交叉檢查。
- 在每份摘要中保留範圍限制。
- 只在適當沙箱內執行重現指令。
- 將指令輸出、缺失檔案與失敗檢查作為證據回報。
- 只有在主張檔案缺少所需項目時,才回退到文字敘述。
這套協議應產生一份審查封包:
| 封包欄位 | 證據 |
|---|---|
| 論文 | 標題、版本、儲存庫與PDF URL。 |
| 主張檔案 | URL、版本、結構描述狀態與驗證輸出。 |
| 已解析ID | 使用過的主張ID、定義ID、圖表ID或後續ID。 |
| 範圍限制 | 相關的does_not_claim[]項目。 |
| 重現 | 已執行指令、輸出、失敗與環境。 |
| 人工檢查 | 代理無法從檔案或PDF驗證的任何主張。 |
目標不是增加文書作業,而是減少沒有支撐的引用。
更廣泛的代理研究群如何指向同一方向?
近期代理研究反覆回到同一主題:代理需要結構化證據介面,而不是更多沒有根據的流暢文字。
Argus把深度研究視為證據組裝。系統使用Searcher與Navigator,其中Navigator追蹤共享證據圖,並把搜尋工作派發到缺失的證據片段。3這項設計強化了同一需求:論文應揭露代理可以組裝的證據片段。
ACDL著眼於脈絡描述。作者主張,代理系統需要一種精確且可讀的語言,用來描述提示與互動歷史如何跨步驟演變。4主張檔案在論文層做了平行工作:它們描述論文的主張、定義與指令應如何進入代理脈絡。
探索研究提供另一個角度。〈Look Before You Leap〉提出Exploration Checkpoint Coverage,這是一種可驗證指標,用來衡量代理在行動前是否發現關鍵狀態、物件與可供性。5研究代理在引用或再利用論文前也需要同樣紀律。它們應先發現主張、定義、限制與指令,再採取行動。
AIRA提高了利害關係。AIRA-Compose與AIRA-Design論文回報,多代理架構搜尋能提出新的基礎模型架構,並在下游相較基準取得提升。6如果代理能產生科學設計主張,描述這些主張的論文就需要機器可讀的邊界與重現掛鉤。
ARIS指出一種符合整個類別的失敗:長時間運行的研究代理,可能在證據支援不完整、回報失真,或承襲執行者框架時,產生看似可信卻沒有支撐的成功。7主張檔案能減少研究代理只從文字敘述繼承無支撐框架的空間。
模式一致。嚴肅的研究代理需要明確的證據物件。
作者現在可以發表什麼?
作者不需要等期刊核准才開始。
第一版可以放在論文旁:
{
"id": "my-paper",
"title": "My Paper Title",
"version": "0.1.0",
"status": "draft",
"repository": "https://github.com/example/my-paper",
"claims": [
{
"id": "C1",
"statement": "The method improves retrieval accuracy on benchmark X under condition Y.",
"evidence": ["figure-2", "table-1"]
}
],
"does_not_claim": [
"The method improves retrieval accuracy outside benchmark X."
],
"definitions": [
{
"id": "D1",
"term": "retrieval accuracy",
"definition": "The percentage of queries whose top-ranked result matches the labeled answer."
}
],
"reproducibility": {
"environment": "Python 3.11",
"commands": ["python scripts/reproduce_figure_2.py"]
}
}
第一個檔案應回答5個問題:
- 代理可以引用哪些精確主張?
- 代理應拒絕推論哪些主張?
- 哪些定義必須保持穩定?
- 哪些指令能重現證據?
- 代理讀到的是哪個版本的主張介面?
這個最低版本能給代理更安全的起點,也讓審查者在論文變更時有具體差異可看。
審查者與平台應檢查什麼?
審查者不應對有效的JSON檔案草率背書。
他們應將檔案與論文比對。
| 檢查 | 失敗 |
|---|---|
| 主張一致性 | 主張檔案陳述的內容超過論文所證明的範圍。 |
| 範圍一致性 | 關鍵限制出現在文字中,卻不在does_not_claim[]內。 |
| 定義一致性 | JSON中的定義與作者用語衝突。 |
| 指令一致性 | 指令已無法重現具名產物。 |
| 版本一致性 | PDF已變更,但主張檔案仍過期。 |
| ID一致性 | 論文提到C1或D1,但JSON缺少,或JSON宣告孤立ID。 |
平台可以自動化其中一部分。
它們可以檢查JSON語法、必要欄位、ID格式、重複ID、缺失參照、URL可達性、指令存在,以及版本中繼資料。平台也可以要求代理比較主張檔案與文字敘述,並為人類產生審查封包。
意義仍由人類審查決定。自動化只負責讓漂移可見。
標準應拒絕什麼?
代理可讀的主張檔案應該小到足以採用,也嚴格到真正有用。
拒絕3種誘惑。
第一,拒絕平台依賴。放在PDF旁的檔案,勝過沒有作者採用的新平台。Canedo的草案主張,最低可行合規應只需要一個手寫JSON檔案,而不是新工具或平台註冊。1
第二,拒絕假確定性。結構描述可以驗證形狀,不能證明語意真實。主張檔案應說清楚它證明什麼、不證明什麼,以及審查者如何檢查漂移。
第三,拒絕隱藏策略。代理需要證據定位點,而不是作者的私有提示。公開主張檔案應揭露主張、定義、限制與指令;不應揭露私有同儕審查筆記、隱藏評估規準、憑證,或未公開資料路徑。
好的標準會降低歧義,而不是要求大家信任祕密機制。
值得採用的標準
值得採用的論文,不只說服人類讀者。它也讓未來讀者、代理、審查者與建構者能再利用該工作,而不扭曲它。
代理可讀的主張檔案,應透過讓邊界更容易檢查,使論文更值得信任。
標準很簡單:
- 為每項重要主張提供地址。
- 為每項範圍限制提供欄位。
- 為每個關鍵定義提供穩定ID。
- 為每張可重現圖表提供精確指令。
- 讓每個代理都有理由精準引用論文。
研究代理會繼續閱讀論文。作者可以任由它們刮取文字,也可以提供一個為證據而設計的介面。
第二條路會帶來更好的引用、更安全的摘要,以及更少沒有可靠錨點卻貌似合理的主張。
快速摘要
研究論文需要代理可讀的主張檔案,因為代理已經在摘要、引用、測試與再利用學術工作。單靠文字會給代理太多空間:引用整篇論文而不是子主張、誇大範圍、編造指令,或讓定義漂移。
paper.json提供實務起點:穩定主張ID、明確範圍排除、每張圖的指令、透過一個JSON檔案達成最低可行採用,以及穩定定義ID。1其完整範例儲存庫加入結構描述驗證、解析器與具體範例檔案。2
最佳第一版很小:主張、非主張、定義、重現指令、版本中繼資料與儲存庫連結。這個檔案不應取代論文,而應讓代理能更安全地閱讀論文。
FAQ
什麼是代理可讀的主張檔案?
代理可讀的主張檔案,是放在論文旁的結構化檔案。它以代理可擷取與引用的格式揭露主張、範圍限制、定義、重現指令與相關中繼資料。
paper.json會取代PDF嗎?
不會。PDF仍是人類可讀的論文。主張檔案提供代理可定址的證據介面,讓它們能更安全地引用與測試論文主張。
paper.json試圖解決什麼問題?
paper.json針對反覆出現的代理閱讀失敗:錯誤子主張引用、範圍過度外推、隱藏的圖表指令,以及不穩定的定義。1
通過結構描述是否代表主張檔案正確?
不是。結構描述可以驗證必要欄位、ID與結構。人類或專門代理仍需審查主張檔案是否忠實代表論文。
作者應先包含什麼?
作者應先加入穩定主張ID、does_not_claim[]章節、穩定定義、精確重現指令、儲存庫URL,以及主張檔案版本。
參考資料
-
Arquimedes Canedo, “paper.json: A Coordination Convention for LLM-Agent-Actionable Papers,” arXiv:2605.16194v1,2026年5月15日提交。搭配JSON提案、穩定主張ID、明確不主張清單、每張圖shell指令、最低可行合規主張、穩定定義ID,以及提醒這些主張仍屬開放假說的來源。 ↩↩↩↩↩↩↩↩
-
Arquimedes Canedo, “paper-json,” GitHub儲存庫,2026年5月18日存取。儲存庫檔案的來源,包括
paper.json、schema.json、validator.py、resolve.py、paper.pdf、paper.typ、完整範例、結構描述必要欄位、驗證限制、重現指令,以及片段解析器行為。 ↩↩↩↩↩↩↩↩↩↩↩ -
Zhen Zhang, Liangcai Su, Zhuo Chen, Xiang Lin, Haotian Xu, Simon Shaolei Du, Kaiyu Yang, Bo An, Lidong Bing, and Xinyu Wang, “Argus: Evidence Assembly for Scalable Deep Research Agents,” arXiv:2605.16217v1,2026年5月15日提交。Searcher/Navigator角色、共享證據圖、缺失證據派發,以及深度研究代理之證據組裝框架的來源。 ↩↩
-
Noga Peleg Pelc, Gal A. Kaminka, and Yoav Goldberg, “A Language for Describing Agentic LLM Contexts,” arXiv:2605.01920v1,2026年5月3日提交。ACDL、描述代理脈絡組成與動態的需求,以及對非正式文字、臨時圖表與程式碼檢查不足以描述脈絡的批評來源。 ↩↩
-
Ziang Ye, Wentao Shi, Yuxin Liu, Yu Wang, Zhengzhou Cai, Yaorui Shi, Qi Gu, Xunliang Cai, and Fuli Feng, “Look Before You Leap: Autonomous Exploration for LLM Agents,” arXiv:2605.16143v1,2026年5月15日提交。過早利用、Exploration Checkpoint Coverage,以及Explore-then-Act範式的來源。 ↩↩
-
Alberto Pepe, Chien-Yu Lin, Despoina Magka, Bilge Acun, Yannan Nellie Wu, Anton Protopopov, Carole-Jean Wu, and Yoram Bachrach, “Agentic Discovery of Neural Architectures: AIRA-Compose and AIRA-Design,” arXiv:2605.15871v1,2026年5月15日提交。多代理神經架構發現、24小時探索、回報的架構家族,以及下游準確度/擴展主張的來源。 ↩↩
-
Ruofeng Yang, Yongcan Li, and Shuai Li, “ARIS: Autonomous Research via Adversarial Multi-Agent Collaboration,” arXiv:2605.03042v1,2026年5月4日提交。長時間研究代理中看似可信卻缺乏支撐的成功失敗模式,以及對中間研究產物進行對抗式審查需求的來源。 ↩