← 所有文章

研究論文需要代理可讀的主張檔案

2026年5月15日,Arquimedes Canedo提出paper.json:一個搭配論文使用的JSON檔案,讓研究論文能在PDF旁揭露穩定的主張ID、明確的範圍限制、每張圖的重現指令,以及穩定的定義ID。1

這個小檔案指向一個大問題。

研究代理如今會閱讀論文、擷取主張、引用來源、重現圖表、建立後續研究,並摘要適用範圍。1論文敘述仍然服務人類讀者,但單靠文字會給代理太多犯錯空間:引用錯誤的子主張、把證據過度外推、編造重現指令,或憑記憶重建定義。

研究論文需要代理可讀的主張檔案。論文應該提供一個型別化介面,讓代理知道論文主張什麼、不主張什麼、關鍵術語如何運作,以及證據如何連到圖表與程式碼。

重點摘要

代理可讀的主張檔案,會把論文從只有文字敘述的成果,轉成論文本身加上一個可定址的證據介面。PDF仍是給人閱讀的物件;主張檔案則提供代理穩定ID、範圍邊界、定義與重現指令。

paper.json提案用具體結構描述與完整範例儲存庫說明此事。草案描述5項慣例:穩定主張ID、明確的不主張清單、每張圖的精確shell指令、透過一個手寫JSON檔案達成最低可行合規,以及穩定定義ID。1搭配的儲存庫包含paper.jsonschema.jsonvalidator.pyresolve.py、PDF與Typst原始檔。2

更廣泛的代理研究群也指向同一方向。Argus把深度研究視為證據組裝,而不是蠻力式平行搜尋。3ACDL為代理脈絡提供正式描述語言。4探索研究顯示,代理在採取行動前需要可驗證的檢查點。5代理設計架構的研究則提高了論文層級可重現性的要求,因為代理已能產生科學主張。6

實務規則很簡單:把文字發表給人,把主張檔案發表給代理。

主要收穫

對論文作者: - 為主張、定義、定理、圖表與後續工作加入穩定ID。 - 將範圍限制寫成一等欄位,而不是藏在結尾附近的防衛性文字。

對審查者: - 檢查機器可讀主張是否符合論文,而不只是結構描述是否通過驗證。 - 將過期或誇大的主張檔案視為引用風險缺陷。

對研究代理建構者: - 在摘要、引用、重現或延伸論文前,先擷取主張檔案。 - 當任務仰賴精確範圍時,引用主張ID與定義ID。

對期刊與儲存庫平台: - 在要求作者採用完整平台前,先接受放在PDF旁、採用門檻低的檔案。 - 自動驗證結構,語意審查則交給人類與專門代理。

為什麼文字敘述型論文會讓研究代理失敗?

學術文字會把證據壓縮成敘事。

這種敘事對人有幫助。細心讀者能跟上保留語氣、比較章節、推論哪個結果支撐哪項主張,也能看出論文在哪裡止步。代理處理論文的方式往往不同。它們會在時間與脈絡限制下掃描、切塊、檢索、引用、摘要,並組成新產物。

這會產生可預期的失敗模式。

純文字介面 代理失敗
主張出現在段落內 代理引用錯誤的子主張,或引用整篇論文。
範圍限制出現在討論章節 代理把有邊界的結果變成一般性主張。
圖表指令放在儲存庫中 代理編造看似合理的指令,或略過重現。
定義只出現一次 代理後續不準確地重建術語。
後續工作寫在文字敘述中 代理把開放問題當成已證結果。

Canedo直接指出其中幾種失敗:子主張缺少論文內的引用定位點、範圍過度外推會在文字摘要中被延續,圖表指令也經常放在論文之外的程式碼儲存庫中。1

解法不需要取代論文。解法是新增一個介面,讓論文主張更容易被定址。

主張檔案應該包含什麼?

代理可讀的主張檔案應揭露代理最常誤用的部分。

欄位 代理任務
id 用穩定slug命名論文。
version 告訴代理它讀到的是哪個主張介面。
claims[] 讓代理依穩定ID引用子主張。
does_not_claim[] 在摘要擴散前阻止範圍外推。
definitions[] 保留作者撰寫的關鍵術語含義。
reproducibility.commands[] 提供圖表、表格或檢查的精確指令。
follow_up_work[] 將未來工作與已呈現證據分開。
repository 提供代理標準程式碼與檔案位置。
schema 讓工具在使用前驗證結構。

paper.json完整範例包含草稿版本、儲存庫URL、作者中繼資料、摘要、主張、範圍排除、重現指令,以及由結構描述支援的驗證。2其結構描述要求核心欄位,例如idtitleversionstatusauthorsabstractclaimsdoes_not_claimreproducibility2

結構不能證明真實。結構讓真實變得可審查。

這個區別很重要。paper.json檔案明確指出,通過驗證器不代表能證明語意正確性、完整性,或圖表重現品質。2過期的主張檔案甚至可能比沒有主張檔案更有害,因為代理可能信任整齊欄位勝過雜亂文字。

因此標準需要兩層:

  1. 結構驗證:檔案是否能解析、是否包含必要欄位、是否保留宣告的ID?
  2. 語意審查:檔案是否忠實代表論文?

作者可以自動化第一層。第二層必須由審查者負責。

為什麼穩定主張ID很重要?

當唯一可定址單位是整篇論文時,代理引用會過於粗略。

一篇論文可能包含方法主張、評估主張、限制主張、基準主張與後續主張。人類讀者可以引用論文,並說明哪個部分重要。代理卻常把整篇論文的引用變成模糊的權威符號。

穩定主張ID給代理更小、更準的目標。

引用目標 結果
整篇論文 「這篇論文顯示X。」
章節標題 「方法章節說X。」
穩定主張ID 「主張C2在範圍限制Y下陳述X。」

Canedo的草案回報了主張ID檢索的試點證據。在較困難的概念檢索條件下,使用JSON主張的代理平均得分為1.20/2,而搜尋文字敘述的代理平均得分為0.60/2。2該論文將此結果標示為試點證據,而不是大規模證明。2

這種謹慎讓提案更好。重點不在於假裝第一個試點已經定論,而是要求作者建立更好的審查物件。

主張ID讓審查者能提出更精準的問題:

  • 代理引用的是C1,還是整篇論文?
  • 摘要是否保留了C2中的限定條件?
  • 下游系統是否在未檢查指令的情況下建立於C3之上?
  • 代理是否把定義ID和結果主張混淆?

這些問題勝過「摘要聽起來對不對?」

為什麼範圍限制需要自己的欄位?

代理經常誇大論文,因為限制藏在文字裡。

論文可能說它的基準涵蓋5項任務、方法需要特定環境,或結果無法外推到受控設定之外。人類讀者能保留這些細節。代理摘要經過一次改寫後,限定條件可能就消失了。

明確的does_not_claim[]欄位能在再利用前讓範圍限制可見。

隱藏的範圍限制 主張檔案形狀
「我們不評估臨床安全性。」 does_not_claim: clinical safety
「我們的方法假設工具追蹤存在。」 does_not_claim: trace-free operation
「試點使用5個範例。」 does_not_claim: population-level proof
「此指令只驗證結構。」 does_not_claim: semantic correctness

paper.json提案列出其自身工作的多項排除。它不主張C1、C2或C3已被證明,不主張驗證器能保證語意正確性,不主張此慣例能解決代理閱讀問題,也不主張相容於所有學術中繼資料標準。2

這份清單給代理一個有用的東西:可引用的邊界。

範圍欄位也能幫助評估者。如果代理摘要寫「paper.json證明主張ID能改善代理引用準確度」,評估者就能把這句話與does_not_claim[]欄位比較,並標記外推過度。沒有欄位時,評估者只能從文字中推論範圍。

為什麼圖表指令應該放在主張旁?

重現經常失敗在指令邊界。

許多論文會指向儲存庫。精確的圖表指令可能位於腳本、Make目標、notebook、README註記,或根本沒有明顯位置。代理可以搜尋儲存庫,組出一個看似合理的指令。看似合理的指令若從未執行,會製造危險的信心。

代理可讀的主張檔案應直接列出重現指令。

paper.json完整範例包含產生驗證器、依paper.typ驗證paper.json,以及將Typst論文編譯成PDF的指令。2Canedo的草案回報試點證據指出,相較於指向儲存庫的文字方法章節,由JSON提供的重現指令改善了圖表指令檢索。2

指令欄位應保持克制:

要求 原因
精確指令 防止編造shell片段。
預期產物 讓代理檢查輸出形狀。
環境註記 避免猜測隱藏相依性。
圖表或表格ID 將指令連到論文證據。
已知非目標 防止代理把煙霧測試當成完整重現。

代理不應把指令欄位視為成功。指令欄位只是給代理一個可執行、可記錄、可回報的目標。

定義應該放在哪裡?

定義造成的傷害可能比主張更大。

錯誤主張通常只會毀掉一句話。錯誤定義會感染後續每一句使用該術語的文字。從文字中重建定義的代理,可能創造出聽起來像論文內部術語、卻逐漸偏離作者原意的詞彙。

穩定定義ID可以處理這項風險。

Canedo的第5項慣例為定義提供穩定ID,草案也主張作者撰寫的定義應優先於代理重建的定義,以供後續再利用。1儲存庫的解析器支援#C1#D1#T1#F1等片段,將ID對應到主張、定義、定理與後續項目。2

這套機制對下游系統很重要。

下游任務 定義風險
文獻回顧 代理合併兩篇論文中意義不同的術語。
基準擷取 代理把某個指標名稱當成所有論文都定義相同。
程式碼生成 代理因定義漂移而實作錯誤物件。
後續實驗 代理最佳化作者從未意指的術語。

主張檔案應讓術語可定址。代理在套用術語前,應引用或解析定義。

研究代理應如何使用主張檔案?

代理需要閱讀協議。

在摘要或引用論文前,研究代理應該:

  1. 若有主張檔案,先擷取該檔案。
  2. 驗證檔案結構。
  3. 解析所需的主張、定義、圖表、定理或後續ID。
  4. 任務有實質風險時,將解析出的項目與PDF交叉檢查。
  5. 在每份摘要中保留範圍限制。
  6. 只在適當沙箱內執行重現指令。
  7. 將指令輸出、缺失檔案與失敗檢查作為證據回報。
  8. 只有在主張檔案缺少所需項目時,才回退到文字敘述。

這套協議應產生一份審查封包:

封包欄位 證據
論文 標題、版本、儲存庫與PDF URL。
主張檔案 URL、版本、結構描述狀態與驗證輸出。
已解析ID 使用過的主張ID、定義ID、圖表ID或後續ID。
範圍限制 相關的does_not_claim[]項目。
重現 已執行指令、輸出、失敗與環境。
人工檢查 代理無法從檔案或PDF驗證的任何主張。

目標不是增加文書作業,而是減少沒有支撐的引用。

更廣泛的代理研究群如何指向同一方向?

近期代理研究反覆回到同一主題:代理需要結構化證據介面,而不是更多沒有根據的流暢文字。

Argus把深度研究視為證據組裝。系統使用Searcher與Navigator,其中Navigator追蹤共享證據圖,並把搜尋工作派發到缺失的證據片段。3這項設計強化了同一需求:論文應揭露代理可以組裝的證據片段。

ACDL著眼於脈絡描述。作者主張,代理系統需要一種精確且可讀的語言,用來描述提示與互動歷史如何跨步驟演變。4主張檔案在論文層做了平行工作:它們描述論文的主張、定義與指令應如何進入代理脈絡。

探索研究提供另一個角度。〈Look Before You Leap〉提出Exploration Checkpoint Coverage,這是一種可驗證指標,用來衡量代理在行動前是否發現關鍵狀態、物件與可供性。5研究代理在引用或再利用論文前也需要同樣紀律。它們應先發現主張、定義、限制與指令,再採取行動。

AIRA提高了利害關係。AIRA-Compose與AIRA-Design論文回報,多代理架構搜尋能提出新的基礎模型架構,並在下游相較基準取得提升。6如果代理能產生科學設計主張,描述這些主張的論文就需要機器可讀的邊界與重現掛鉤。

ARIS指出一種符合整個類別的失敗:長時間運行的研究代理,可能在證據支援不完整、回報失真,或承襲執行者框架時,產生看似可信卻沒有支撐的成功。7主張檔案能減少研究代理只從文字敘述繼承無支撐框架的空間。

模式一致。嚴肅的研究代理需要明確的證據物件。

作者現在可以發表什麼?

作者不需要等期刊核准才開始。

第一版可以放在論文旁:

{
  "id": "my-paper",
  "title": "My Paper Title",
  "version": "0.1.0",
  "status": "draft",
  "repository": "https://github.com/example/my-paper",
  "claims": [
    {
      "id": "C1",
      "statement": "The method improves retrieval accuracy on benchmark X under condition Y.",
      "evidence": ["figure-2", "table-1"]
    }
  ],
  "does_not_claim": [
    "The method improves retrieval accuracy outside benchmark X."
  ],
  "definitions": [
    {
      "id": "D1",
      "term": "retrieval accuracy",
      "definition": "The percentage of queries whose top-ranked result matches the labeled answer."
    }
  ],
  "reproducibility": {
    "environment": "Python 3.11",
    "commands": ["python scripts/reproduce_figure_2.py"]
  }
}

第一個檔案應回答5個問題:

  1. 代理可以引用哪些精確主張?
  2. 代理應拒絕推論哪些主張?
  3. 哪些定義必須保持穩定?
  4. 哪些指令能重現證據?
  5. 代理讀到的是哪個版本的主張介面?

這個最低版本能給代理更安全的起點,也讓審查者在論文變更時有具體差異可看。

審查者與平台應檢查什麼?

審查者不應對有效的JSON檔案草率背書。

他們應將檔案與論文比對。

檢查 失敗
主張一致性 主張檔案陳述的內容超過論文所證明的範圍。
範圍一致性 關鍵限制出現在文字中,卻不在does_not_claim[]內。
定義一致性 JSON中的定義與作者用語衝突。
指令一致性 指令已無法重現具名產物。
版本一致性 PDF已變更,但主張檔案仍過期。
ID一致性 論文提到C1或D1,但JSON缺少,或JSON宣告孤立ID。

平台可以自動化其中一部分。

它們可以檢查JSON語法、必要欄位、ID格式、重複ID、缺失參照、URL可達性、指令存在,以及版本中繼資料。平台也可以要求代理比較主張檔案與文字敘述,並為人類產生審查封包。

意義仍由人類審查決定。自動化只負責讓漂移可見。

標準應拒絕什麼?

代理可讀的主張檔案應該小到足以採用,也嚴格到真正有用。

拒絕3種誘惑。

第一,拒絕平台依賴。放在PDF旁的檔案,勝過沒有作者採用的新平台。Canedo的草案主張,最低可行合規應只需要一個手寫JSON檔案,而不是新工具或平台註冊。1

第二,拒絕假確定性。結構描述可以驗證形狀,不能證明語意真實。主張檔案應說清楚它證明什麼、不證明什麼,以及審查者如何檢查漂移。

第三,拒絕隱藏策略。代理需要證據定位點,而不是作者的私有提示。公開主張檔案應揭露主張、定義、限制與指令;不應揭露私有同儕審查筆記、隱藏評估規準、憑證,或未公開資料路徑。

好的標準會降低歧義,而不是要求大家信任祕密機制。

值得採用的標準

值得採用的論文,不只說服人類讀者。它也讓未來讀者、代理、審查者與建構者能再利用該工作,而不扭曲它。

代理可讀的主張檔案,應透過讓邊界更容易檢查,使論文更值得信任。

標準很簡單:

  • 為每項重要主張提供地址。
  • 為每項範圍限制提供欄位。
  • 為每個關鍵定義提供穩定ID。
  • 為每張可重現圖表提供精確指令。
  • 讓每個代理都有理由精準引用論文。

研究代理會繼續閱讀論文。作者可以任由它們刮取文字,也可以提供一個為證據而設計的介面。

第二條路會帶來更好的引用、更安全的摘要,以及更少沒有可靠錨點卻貌似合理的主張。

快速摘要

研究論文需要代理可讀的主張檔案,因為代理已經在摘要、引用、測試與再利用學術工作。單靠文字會給代理太多空間:引用整篇論文而不是子主張、誇大範圍、編造指令,或讓定義漂移。

paper.json提供實務起點:穩定主張ID、明確範圍排除、每張圖的指令、透過一個JSON檔案達成最低可行採用,以及穩定定義ID。1其完整範例儲存庫加入結構描述驗證、解析器與具體範例檔案。2

最佳第一版很小:主張、非主張、定義、重現指令、版本中繼資料與儲存庫連結。這個檔案不應取代論文,而應讓代理能更安全地閱讀論文。

FAQ

什麼是代理可讀的主張檔案?

代理可讀的主張檔案,是放在論文旁的結構化檔案。它以代理可擷取與引用的格式揭露主張、範圍限制、定義、重現指令與相關中繼資料。

paper.json會取代PDF嗎?

不會。PDF仍是人類可讀的論文。主張檔案提供代理可定址的證據介面,讓它們能更安全地引用與測試論文主張。

paper.json試圖解決什麼問題?

paper.json針對反覆出現的代理閱讀失敗:錯誤子主張引用、範圍過度外推、隱藏的圖表指令,以及不穩定的定義。1

通過結構描述是否代表主張檔案正確?

不是。結構描述可以驗證必要欄位、ID與結構。人類或專門代理仍需審查主張檔案是否忠實代表論文。

作者應先包含什麼?

作者應先加入穩定主張ID、does_not_claim[]章節、穩定定義、精確重現指令、儲存庫URL,以及主張檔案版本。


參考資料


  1. Arquimedes Canedo, “paper.json: A Coordination Convention for LLM-Agent-Actionable Papers,” arXiv:2605.16194v1,2026年5月15日提交。搭配JSON提案、穩定主張ID、明確不主張清單、每張圖shell指令、最低可行合規主張、穩定定義ID,以及提醒這些主張仍屬開放假說的來源。 

  2. Arquimedes Canedo, “paper-json,” GitHub儲存庫,2026年5月18日存取。儲存庫檔案的來源,包括paper.jsonschema.jsonvalidator.pyresolve.pypaper.pdfpaper.typ、完整範例、結構描述必要欄位、驗證限制、重現指令,以及片段解析器行為。 

  3. Zhen Zhang, Liangcai Su, Zhuo Chen, Xiang Lin, Haotian Xu, Simon Shaolei Du, Kaiyu Yang, Bo An, Lidong Bing, and Xinyu Wang, “Argus: Evidence Assembly for Scalable Deep Research Agents,” arXiv:2605.16217v1,2026年5月15日提交。Searcher/Navigator角色、共享證據圖、缺失證據派發,以及深度研究代理之證據組裝框架的來源。 

  4. Noga Peleg Pelc, Gal A. Kaminka, and Yoav Goldberg, “A Language for Describing Agentic LLM Contexts,” arXiv:2605.01920v1,2026年5月3日提交。ACDL、描述代理脈絡組成與動態的需求,以及對非正式文字、臨時圖表與程式碼檢查不足以描述脈絡的批評來源。 

  5. Ziang Ye, Wentao Shi, Yuxin Liu, Yu Wang, Zhengzhou Cai, Yaorui Shi, Qi Gu, Xunliang Cai, and Fuli Feng, “Look Before You Leap: Autonomous Exploration for LLM Agents,” arXiv:2605.16143v1,2026年5月15日提交。過早利用、Exploration Checkpoint Coverage,以及Explore-then-Act範式的來源。 

  6. Alberto Pepe, Chien-Yu Lin, Despoina Magka, Bilge Acun, Yannan Nellie Wu, Anton Protopopov, Carole-Jean Wu, and Yoram Bachrach, “Agentic Discovery of Neural Architectures: AIRA-Compose and AIRA-Design,” arXiv:2605.15871v1,2026年5月15日提交。多代理神經架構發現、24小時探索、回報的架構家族,以及下游準確度/擴展主張的來源。 

  7. Ruofeng Yang, Yongcan Li, and Shuai Li, “ARIS: Autonomous Research via Adversarial Multi-Agent Collaboration,” arXiv:2605.03042v1,2026年5月4日提交。長時間研究代理中看似可信卻缺乏支撐的成功失敗模式,以及對中間研究產物進行對抗式審查需求的來源。 

相關文章

深度研究代理需要證據圖

深度研究代理需要證據圖,才能追蹤缺失片段、減少重複搜尋,並產出可供審查者檢視來源脈絡的回答。

3 分鐘閱讀

AI代理技能需要行為稽核,而不是通過率

即使通過率持平,AI代理技能仍可能改變行為。建立信任之前,行為稽核會比較追蹤、宣稱能力與副作用。

2 分鐘閱讀

Ralph 迴圈:我如何在夜間運行自主 AI 代理

我建構了一套自主代理系統,搭配停止鉤子、生成預算與檔案系統記憶體。以下是失敗經驗與真正能交付程式碼的方法。

3 分鐘閱讀