← 所有文章

研究論文需要代理可讀的主張檔案

Q: paper.json試圖解決什麼問題？

paper.json針對反覆出現的代理閱讀失敗：錯誤子主張引用、範圍過度外推、隱藏的圖表指令，以及不穩定的定義。1

Q: 作者應先包含什麼？

作者應先加入穩定主張ID、does_not_claim[]章節、穩定定義、精確重現指令、儲存庫URL，以及主張檔案版本。

3分鐘閱讀

2026年5月15日，Arquimedes Canedo提出paper.json：一個搭配論文使用的JSON檔案，讓研究論文能在PDF旁揭露穩定的主張ID、明確的範圍限制、每張圖的重現指令，以及穩定的定義ID。¹

這個小檔案指向一個大問題。

研究代理如今會閱讀論文、擷取主張、引用來源、重現圖表、建立後續研究，並摘要適用範圍。¹論文敘述仍然服務人類讀者，但單靠文字會給代理太多犯錯空間：引用錯誤的子主張、把證據過度外推、編造重現指令，或憑記憶重建定義。

研究論文需要代理可讀的主張檔案。論文應該提供一個型別化介面，讓代理知道論文主張什麼、不主張什麼、關鍵術語如何運作，以及證據如何連到圖表與程式碼。

重點摘要

代理可讀的主張檔案，會把論文從只有文字敘述的成果，轉成論文本身加上一個可定址的證據介面。PDF仍是給人閱讀的物件；主張檔案則提供代理穩定ID、範圍邊界、定義與重現指令。

paper.json提案用具體結構描述與完整範例儲存庫說明此事。草案描述5項慣例：穩定主張ID、明確的不主張清單、每張圖的精確shell指令、透過一個手寫JSON檔案達成最低可行合規，以及穩定定義ID。¹搭配的儲存庫包含paper.json、schema.json、validator.py、resolve.py、PDF與Typst原始檔。²

更廣泛的代理研究群也指向同一方向。Argus把深度研究視為證據組裝，而不是蠻力式平行搜尋。³ACDL為代理脈絡提供正式描述語言。⁴探索研究顯示，代理在採取行動前需要可驗證的檢查點。⁵代理設計架構的研究則提高了論文層級可重現性的要求，因為代理已能產生科學主張。⁶

實務規則很簡單：把文字發表給人，把主張檔案發表給代理。

主要收穫

對論文作者： - 為主張、定義、定理、圖表與後續工作加入穩定ID。 - 將範圍限制寫成一等欄位，而不是藏在結尾附近的防衛性文字。

對審查者： - 檢查機器可讀主張是否符合論文，而不只是結構描述是否通過驗證。 - 將過期或誇大的主張檔案視為引用風險缺陷。

對研究代理建構者： - 在摘要、引用、重現或延伸論文前，先擷取主張檔案。 - 當任務仰賴精確範圍時，引用主張ID與定義ID。

對期刊與儲存庫平台： - 在要求作者採用完整平台前，先接受放在PDF旁、採用門檻低的檔案。 - 自動驗證結構，語意審查則交給人類與專門代理。

為什麼文字敘述型論文會讓研究代理失敗？

學術文字會把證據壓縮成敘事。

這種敘事對人有幫助。細心讀者能跟上保留語氣、比較章節、推論哪個結果支撐哪項主張，也能看出論文在哪裡止步。代理處理論文的方式往往不同。它們會在時間與脈絡限制下掃描、切塊、檢索、引用、摘要，並組成新產物。

這會產生可預期的失敗模式。

純文字介面	代理失敗
主張出現在段落內	代理引用錯誤的子主張，或引用整篇論文。
範圍限制出現在討論章節	代理把有邊界的結果變成一般性主張。
圖表指令放在儲存庫中	代理編造看似合理的指令，或略過重現。
定義只出現一次	代理後續不準確地重建術語。
後續工作寫在文字敘述中	代理把開放問題當成已證結果。

Canedo直接指出其中幾種失敗：子主張缺少論文內的引用定位點、範圍過度外推會在文字摘要中被延續，圖表指令也經常放在論文之外的程式碼儲存庫中。¹

解法不需要取代論文。解法是新增一個介面，讓論文主張更容易被定址。

主張檔案應該包含什麼？

代理可讀的主張檔案應揭露代理最常誤用的部分。

欄位	代理任務
`id`	用穩定slug命名論文。
`version`	告訴代理它讀到的是哪個主張介面。
`claims[]`	讓代理依穩定ID引用子主張。
`does_not_claim[]`	在摘要擴散前阻止範圍外推。
`definitions[]`	保留作者撰寫的關鍵術語含義。
`reproducibility.commands[]`	提供圖表、表格或檢查的精確指令。
`follow_up_work[]`	將未來工作與已呈現證據分開。
`repository`	提供代理標準程式碼與檔案位置。
`schema`	讓工具在使用前驗證結構。

paper.json完整範例包含草稿版本、儲存庫URL、作者中繼資料、摘要、主張、範圍排除、重現指令，以及由結構描述支援的驗證。²其結構描述要求核心欄位，例如id、title、version、status、authors、abstract、claims、does_not_claim與reproducibility。²

結構不能證明真實。結構讓真實變得可審查。

這個區別很重要。paper.json檔案明確指出，通過驗證器不代表能證明語意正確性、完整性，或圖表重現品質。²過期的主張檔案甚至可能比沒有主張檔案更有害，因為代理可能信任整齊欄位勝過雜亂文字。

因此標準需要兩層：

結構驗證：檔案是否能解析、是否包含必要欄位、是否保留宣告的ID？
語意審查：檔案是否忠實代表論文？

作者可以自動化第一層。第二層必須由審查者負責。

為什麼穩定主張ID很重要？

當唯一可定址單位是整篇論文時，代理引用會過於粗略。

一篇論文可能包含方法主張、評估主張、限制主張、基準主張與後續主張。人類讀者可以引用論文，並說明哪個部分重要。代理卻常把整篇論文的引用變成模糊的權威符號。

穩定主張ID給代理更小、更準的目標。

引用目標	結果
整篇論文	「這篇論文顯示X。」
章節標題	「方法章節說X。」
穩定主張ID	「主張C2在範圍限制Y下陳述X。」

Canedo的草案回報了主張ID檢索的試點證據。在較困難的概念檢索條件下，使用JSON主張的代理平均得分為1.20/2，而搜尋文字敘述的代理平均得分為0.60/2。²該論文將此結果標示為試點證據，而不是大規模證明。²

這種謹慎讓提案更好。重點不在於假裝第一個試點已經定論，而是要求作者建立更好的審查物件。

主張ID讓審查者能提出更精準的問題：

代理引用的是C1，還是整篇論文？
摘要是否保留了C2中的限定條件？
下游系統是否在未檢查指令的情況下建立於C3之上？
代理是否把定義ID和結果主張混淆？

這些問題勝過「摘要聽起來對不對？」

為什麼範圍限制需要自己的欄位？

代理經常誇大論文，因為限制藏在文字裡。

論文可能說它的基準涵蓋5項任務、方法需要特定環境，或結果無法外推到受控設定之外。人類讀者能保留這些細節。代理摘要經過一次改寫後，限定條件可能就消失了。

明確的does_not_claim[]欄位能在再利用前讓範圍限制可見。

隱藏的範圍限制	主張檔案形狀
「我們不評估臨床安全性。」	`does_not_claim: clinical safety`
「我們的方法假設工具追蹤存在。」	`does_not_claim: trace-free operation`
「試點使用5個範例。」	`does_not_claim: population-level proof`
「此指令只驗證結構。」	`does_not_claim: semantic correctness`

paper.json提案列出其自身工作的多項排除。它不主張C1、C2或C3已被證明，不主張驗證器能保證語意正確性，不主張此慣例能解決代理閱讀問題，也不主張相容於所有學術中繼資料標準。²

這份清單給代理一個有用的東西：可引用的邊界。

範圍欄位也能幫助評估者。如果代理摘要寫「paper.json證明主張ID能改善代理引用準確度」，評估者就能把這句話與does_not_claim[]欄位比較，並標記外推過度。沒有欄位時，評估者只能從文字中推論範圍。

為什麼圖表指令應該放在主張旁？

重現經常失敗在指令邊界。

許多論文會指向儲存庫。精確的圖表指令可能位於腳本、Make目標、notebook、README註記，或根本沒有明顯位置。代理可以搜尋儲存庫，組出一個看似合理的指令。看似合理的指令若從未執行，會製造危險的信心。

代理可讀的主張檔案應直接列出重現指令。

paper.json完整範例包含產生驗證器、依paper.typ驗證paper.json，以及將Typst論文編譯成PDF的指令。²Canedo的草案回報試點證據指出，相較於指向儲存庫的文字方法章節，由JSON提供的重現指令改善了圖表指令檢索。²

指令欄位應保持克制：

要求	原因
精確指令	防止編造shell片段。
預期產物	讓代理檢查輸出形狀。
環境註記	避免猜測隱藏相依性。
圖表或表格ID	將指令連到論文證據。
已知非目標	防止代理把煙霧測試當成完整重現。

代理不應把指令欄位視為成功。指令欄位只是給代理一個可執行、可記錄、可回報的目標。

定義應該放在哪裡？

定義造成的傷害可能比主張更大。

錯誤主張通常只會毀掉一句話。錯誤定義會感染後續每一句使用該術語的文字。從文字中重建定義的代理，可能創造出聽起來像論文內部術語、卻逐漸偏離作者原意的詞彙。

穩定定義ID可以處理這項風險。

Canedo的第5項慣例為定義提供穩定ID，草案也主張作者撰寫的定義應優先於代理重建的定義，以供後續再利用。¹儲存庫的解析器支援#C1、#D1、#T1與#F1等片段，將ID對應到主張、定義、定理與後續項目。²

這套機制對下游系統很重要。

下游任務	定義風險
文獻回顧	代理合併兩篇論文中意義不同的術語。
基準擷取	代理把某個指標名稱當成所有論文都定義相同。
程式碼生成	代理因定義漂移而實作錯誤物件。
後續實驗	代理最佳化作者從未意指的術語。

主張檔案應讓術語可定址。代理在套用術語前，應引用或解析定義。

研究代理應如何使用主張檔案？

代理需要閱讀協議。

在摘要或引用論文前，研究代理應該：

若有主張檔案，先擷取該檔案。
驗證檔案結構。
解析所需的主張、定義、圖表、定理或後續ID。
任務有實質風險時，將解析出的項目與PDF交叉檢查。
在每份摘要中保留範圍限制。
只在適當沙箱內執行重現指令。
將指令輸出、缺失檔案與失敗檢查作為證據回報。
只有在主張檔案缺少所需項目時，才回退到文字敘述。

這套協議應產生一份審查封包：

封包欄位	證據
論文	標題、版本、儲存庫與PDF URL。
主張檔案	URL、版本、結構描述狀態與驗證輸出。
已解析ID	使用過的主張ID、定義ID、圖表ID或後續ID。
範圍限制	相關的`does_not_claim[]`項目。
重現	已執行指令、輸出、失敗與環境。
人工檢查	代理無法從檔案或PDF驗證的任何主張。

目標不是增加文書作業，而是減少沒有支撐的引用。

更廣泛的代理研究群如何指向同一方向？

近期代理研究反覆回到同一主題：代理需要結構化證據介面，而不是更多沒有根據的流暢文字。

Argus把深度研究視為證據組裝。系統使用Searcher與Navigator，其中Navigator追蹤共享證據圖，並把搜尋工作派發到缺失的證據片段。³這項設計強化了同一需求：論文應揭露代理可以組裝的證據片段。

ACDL著眼於脈絡描述。作者主張，代理系統需要一種精確且可讀的語言，用來描述提示與互動歷史如何跨步驟演變。⁴主張檔案在論文層做了平行工作：它們描述論文的主張、定義與指令應如何進入代理脈絡。

探索研究提供另一個角度。〈Look Before You Leap〉提出Exploration Checkpoint Coverage，這是一種可驗證指標，用來衡量代理在行動前是否發現關鍵狀態、物件與可供性。⁵研究代理在引用或再利用論文前也需要同樣紀律。它們應先發現主張、定義、限制與指令，再採取行動。

AIRA提高了利害關係。AIRA-Compose與AIRA-Design論文回報，多代理架構搜尋能提出新的基礎模型架構，並在下游相較基準取得提升。⁶如果代理能產生科學設計主張，描述這些主張的論文就需要機器可讀的邊界與重現掛鉤。

ARIS指出一種符合整個類別的失敗：長時間運行的研究代理，可能在證據支援不完整、回報失真，或承襲執行者框架時，產生看似可信卻沒有支撐的成功。⁷主張檔案能減少研究代理只從文字敘述繼承無支撐框架的空間。

模式一致。嚴肅的研究代理需要明確的證據物件。

作者現在可以發表什麼？

作者不需要等期刊核准才開始。

第一版可以放在論文旁：

{
  "id": "my-paper",
  "title": "My Paper Title",
  "version": "0.1.0",
  "status": "draft",
  "repository": "https://github.com/example/my-paper",
  "claims": [
    {
      "id": "C1",
      "statement": "The method improves retrieval accuracy on benchmark X under condition Y.",
      "evidence": ["figure-2", "table-1"]
    }
  ],
  "does_not_claim": [
    "The method improves retrieval accuracy outside benchmark X."
  ],
  "definitions": [
    {
      "id": "D1",
      "term": "retrieval accuracy",
      "definition": "The percentage of queries whose top-ranked result matches the labeled answer."
    }
  ],
  "reproducibility": {
    "environment": "Python 3.11",
    "commands": ["python scripts/reproduce_figure_2.py"]
  }
}

第一個檔案應回答5個問題：

代理可以引用哪些精確主張？
代理應拒絕推論哪些主張？
哪些定義必須保持穩定？
哪些指令能重現證據？
代理讀到的是哪個版本的主張介面？

這個最低版本能給代理更安全的起點，也讓審查者在論文變更時有具體差異可看。

審查者與平台應檢查什麼？

審查者不應對有效的JSON檔案草率背書。

他們應將檔案與論文比對。

檢查	失敗
主張一致性	主張檔案陳述的內容超過論文所證明的範圍。
範圍一致性	關鍵限制出現在文字中，卻不在`does_not_claim[]`內。
定義一致性	JSON中的定義與作者用語衝突。
指令一致性	指令已無法重現具名產物。
版本一致性	PDF已變更，但主張檔案仍過期。
ID一致性	論文提到C1或D1，但JSON缺少，或JSON宣告孤立ID。

平台可以自動化其中一部分。

它們可以檢查JSON語法、必要欄位、ID格式、重複ID、缺失參照、URL可達性、指令存在，以及版本中繼資料。平台也可以要求代理比較主張檔案與文字敘述，並為人類產生審查封包。

意義仍由人類審查決定。自動化只負責讓漂移可見。

標準應拒絕什麼？

代理可讀的主張檔案應該小到足以採用，也嚴格到真正有用。

拒絕3種誘惑。

第一，拒絕平台依賴。放在PDF旁的檔案，勝過沒有作者採用的新平台。Canedo的草案主張，最低可行合規應只需要一個手寫JSON檔案，而不是新工具或平台註冊。¹

第二，拒絕假確定性。結構描述可以驗證形狀，不能證明語意真實。主張檔案應說清楚它證明什麼、不證明什麼，以及審查者如何檢查漂移。

第三，拒絕隱藏策略。代理需要證據定位點，而不是作者的私有提示。公開主張檔案應揭露主張、定義、限制與指令；不應揭露私有同儕審查筆記、隱藏評估規準、憑證，或未公開資料路徑。

好的標準會降低歧義，而不是要求大家信任祕密機制。

值得採用的標準

值得採用的論文，不只說服人類讀者。它也讓未來讀者、代理、審查者與建構者能再利用該工作，而不扭曲它。

代理可讀的主張檔案，應透過讓邊界更容易檢查，使論文更值得信任。

標準很簡單：

為每項重要主張提供地址。
為每項範圍限制提供欄位。
為每個關鍵定義提供穩定ID。
為每張可重現圖表提供精確指令。
讓每個代理都有理由精準引用論文。

研究代理會繼續閱讀論文。作者可以任由它們刮取文字，也可以提供一個為證據而設計的介面。

第二條路會帶來更好的引用、更安全的摘要，以及更少沒有可靠錨點卻貌似合理的主張。

快速摘要

研究論文需要代理可讀的主張檔案，因為代理已經在摘要、引用、測試與再利用學術工作。單靠文字會給代理太多空間：引用整篇論文而不是子主張、誇大範圍、編造指令，或讓定義漂移。

paper.json提供實務起點：穩定主張ID、明確範圍排除、每張圖的指令、透過一個JSON檔案達成最低可行採用，以及穩定定義ID。¹其完整範例儲存庫加入結構描述驗證、解析器與具體範例檔案。²

最佳第一版很小：主張、非主張、定義、重現指令、版本中繼資料與儲存庫連結。這個檔案不應取代論文，而應讓代理能更安全地閱讀論文。

FAQ

什麼是代理可讀的主張檔案？

代理可讀的主張檔案，是放在論文旁的結構化檔案。它以代理可擷取與引用的格式揭露主張、範圍限制、定義、重現指令與相關中繼資料。

paper.json會取代PDF嗎？

不會。PDF仍是人類可讀的論文。主張檔案提供代理可定址的證據介面，讓它們能更安全地引用與測試論文主張。

paper.json試圖解決什麼問題？

paper.json針對反覆出現的代理閱讀失敗：錯誤子主張引用、範圍過度外推、隱藏的圖表指令，以及不穩定的定義。¹

通過結構描述是否代表主張檔案正確？

不是。結構描述可以驗證必要欄位、ID與結構。人類或專門代理仍需審查主張檔案是否忠實代表論文。

作者應先包含什麼？

作者應先加入穩定主張ID、does_not_claim[]章節、穩定定義、精確重現指令、儲存庫URL，以及主張檔案版本。

參考資料

Arquimedes Canedo, “paper.json: A Coordination Convention for LLM-Agent-Actionable Papers,” arXiv:2605.16194v1，2026年5月15日提交。搭配JSON提案、穩定主張ID、明確不主張清單、每張圖shell指令、最低可行合規主張、穩定定義ID，以及提醒這些主張仍屬開放假說的來源。 ↩↩↩↩↩↩↩↩
Arquimedes Canedo, “paper-json,” GitHub儲存庫，2026年5月18日存取。儲存庫檔案的來源，包括paper.json、schema.json、validator.py、resolve.py、paper.pdf、paper.typ、完整範例、結構描述必要欄位、驗證限制、重現指令，以及片段解析器行為。 ↩↩↩↩↩↩↩↩↩↩↩
Zhen Zhang, Liangcai Su, Zhuo Chen, Xiang Lin, Haotian Xu, Simon Shaolei Du, Kaiyu Yang, Bo An, Lidong Bing, and Xinyu Wang, “Argus: Evidence Assembly for Scalable Deep Research Agents,” arXiv:2605.16217v1，2026年5月15日提交。Searcher/Navigator角色、共享證據圖、缺失證據派發，以及深度研究代理之證據組裝框架的來源。 ↩↩
Noga Peleg Pelc, Gal A. Kaminka, and Yoav Goldberg, “A Language for Describing Agentic LLM Contexts,” arXiv:2605.01920v1，2026年5月3日提交。ACDL、描述代理脈絡組成與動態的需求，以及對非正式文字、臨時圖表與程式碼檢查不足以描述脈絡的批評來源。 ↩↩
Ziang Ye, Wentao Shi, Yuxin Liu, Yu Wang, Zhengzhou Cai, Yaorui Shi, Qi Gu, Xunliang Cai, and Fuli Feng, “Look Before You Leap: Autonomous Exploration for LLM Agents,” arXiv:2605.16143v1，2026年5月15日提交。過早利用、Exploration Checkpoint Coverage，以及Explore-then-Act範式的來源。 ↩↩
Alberto Pepe, Chien-Yu Lin, Despoina Magka, Bilge Acun, Yannan Nellie Wu, Anton Protopopov, Carole-Jean Wu, and Yoram Bachrach, “Agentic Discovery of Neural Architectures: AIRA-Compose and AIRA-Design,” arXiv:2605.15871v1，2026年5月15日提交。多代理神經架構發現、24小時探索、回報的架構家族，以及下游準確度/擴展主張的來源。 ↩↩
Ruofeng Yang, Yongcan Li, and Shuai Li, “ARIS: Autonomous Research via Adversarial Multi-Agent Collaboration,” arXiv:2605.03042v1，2026年5月4日提交。長時間研究代理中看似可信卻缺乏支撐的成功失敗模式，以及對中間研究產物進行對抗式審查需求的來源。 ↩