Artykuły naukowe potrzebują plików z tezami czytelnych dla agentów
15 maja 2026 roku Arquimedes Canedo zaproponował paper.json: towarzyszący plik JSON, dzięki któremu artykuł naukowy może udostępnić obok PDF stabilne identyfikatory tez, jawne ograniczenia zakresu, polecenia odtwarzania dla poszczególnych rycin oraz stabilne identyfikatory definicji.1
Ten niewielki plik wskazuje na duży problem.
Agenci badawczy już czytają artykuły, wyodrębniają tezy, cytują źródła, odtwarzają ryciny, budują dalsze prace i streszczają zakres badań.1 Proza nadal służy ludziom. Sama proza zostawia jednak agentom zbyt wiele miejsca na zacytowanie niewłaściwej podtezy, uogólnienie wykraczające poza dowody, wymyślenie polecenia odtwarzania albo odtworzenie definicji z pamięci.
Artykuły naukowe potrzebują plików z tezami czytelnych dla agentów. Artykuł powinien dawać agentom ustrukturyzowaną warstwę opisującą, co artykuł twierdzi, czego nie twierdzi, jak działają kluczowe terminy oraz jak dowody łączą się z rycinami i kodem.
W skrócie
Pliki z tezami czytelne dla agentów zmieniają artykuł z artefaktu opartego wyłącznie na prozie w artykuł z adresowalną warstwą dowodową. PDF pozostaje obiektem dla człowieka. Plik z tezami daje agentom stabilne identyfikatory, granice zakresu, definicje i polecenia odtwarzania.
Propozycja paper.json pokazuje to na konkretnym schemacie i działającym repozytorium. Szkic opisuje 5 konwencji: stabilne identyfikatory tez, jawną listę tego, czego artykuł nie twierdzi, dokładne polecenia powłoki dla każdej ryciny, minimalną zgodność osiąganą przez jeden ręcznie napisany plik JSON oraz stabilne identyfikatory definicji.1 Towarzyszące repozytorium zawiera paper.json, schema.json, validator.py, resolve.py, PDF i źródło Typst.2
Szerszy obszar badań nad agentami prowadzi w tym samym kierunku. Argus traktuje pogłębione badania jako składanie dowodów, a nie siłowe równoległe przeszukiwanie.3 ACDL daje kontekstom agentów formalny język opisu.4 Badania nad eksploracją pokazują, że agenci potrzebują weryfikowalnych punktów kontrolnych przed działaniem.5 Prace nad architekturą projektowaną przez agentów podnoszą stawkę odtwarzalności na poziomie artykułu, gdy agenci generują twierdzenia naukowe.6
Praktyczna zasada jest prosta: prozę publikuje się dla ludzi, a plik z tezami dla agentów.
Najważniejsze wnioski
Dla autorów artykułów: - Dodać stabilne identyfikatory tez, definicji, twierdzeń, rycin i dalszych prac. - Zapisywać ograniczenia zakresu jako pola pierwszej klasy, nie jako defensywną prozę ukrytą pod koniec tekstu.
Dla recenzentów: - Sprawdzać, czy tezy czytelne maszynowo odpowiadają artykułowi, a nie tylko czy schemat przechodzi walidację. - Traktować nieaktualne lub przesadzone pliki z tezami jako wady zwiększające ryzyko błędnych cytowań.
Dla twórców agentów badawczych: - Pobierać plik z tezami przed streszczeniem, cytowaniem, odtwarzaniem lub budowaniem na podstawie artykułu. - Cytować identyfikatory tez i definicji, gdy zadanie zależy od dokładnego zakresu.
Dla czasopism i repozytoriów: - Przyjmować prosty plik obok PDF, zanim poprosi się autorów o przyjęcie pełnej platformy. - Automatycznie walidować strukturę, a ocenę semantyczną zostawić ludziom i wyspecjalizowanym agentom.
Dlaczego artykuły pisane prozą zawodzą agentów badawczych?
Proza akademicka kompresuje dowody w narrację.
Taka narracja pomaga ludziom. Uważny czytelnik potrafi śledzić zastrzeżenia, porównywać sekcje, wywnioskować, który wynik wspiera daną tezę, i zauważyć, gdzie artykuł się zatrzymuje. Agenci często przetwarzają artykuły inaczej. Skanują, dzielą na fragmenty, wyszukują, cytują, streszczają i tworzą nowe artefakty przy ograniczeniach czasu i kontekstu.
Powstają z tego przewidywalne tryby awarii.
| Warstwa oparta tylko na prozie | Awaria agenta |
|---|---|
| Teza pojawia się wewnątrz akapitu | Agent cytuje niewłaściwą podtezę albo cały artykuł. |
| Ograniczenie zakresu pojawia się w dyskusji | Agent zmienia wynik ograniczony zakresem w twierdzenie ogólne. |
| Polecenie dla ryciny znajduje się w repozytorium | Agent wymyśla wiarygodnie brzmiące polecenie albo pomija odtworzenie. |
| Definicja pojawia się raz | Agent później rekonstruuje termin niedokładnie. |
| Dalsze prace są opisane prozą | Agent traktuje otwarte pytanie jak udowodniony wynik. |
Canedo wskazuje kilka z tych błędów wprost: podtezy nie mają uchwytów cytowania poniżej poziomu artykułu, nadmierne rozszerzanie zakresu przechodzi przez streszczenia prozy, a polecenia dla rycin często znajdują się poza artykułem, w repozytoriach kodu.1
Naprawa nie wymaga zastąpienia artykułu. Wymaga dodania interfejsu, dzięki któremu tezy artykułu da się łatwiej adresować.
Co powinien zawierać plik z tezami?
Plik z tezami czytelny dla agentów powinien ujawniać te elementy, których agenci najczęściej używają błędnie.
| Pole | Zadanie agenta |
|---|---|
id |
Nazwać artykuł stabilnym identyfikatorem tekstowym. |
version |
Wskazać agentom, którą warstwę tez przeczytali. |
claims[] |
Pozwolić agentom cytować podtezy po stabilnym identyfikatorze. |
does_not_claim[] |
Zablokować przekroczenie zakresu, zanim streszczenie trafi dalej. |
definitions[] |
Zachować autorskie znaczenia kluczowych terminów. |
reproducibility.commands[] |
Podać dokładne polecenia dla rycin, tabel lub sprawdzeń. |
follow_up_work[] |
Oddzielić przyszłe prace od już pokazanych dowodów. |
repository |
Wskazać agentom kanoniczny kod i lokalizację plików. |
schema |
Umożliwić narzędziom walidację struktury przed użyciem. |
Przykład roboczy paper.json zawiera wersję szkicu, URL repozytorium, metadane autora, abstrakt, tezy, wyłączenia zakresu, polecenia odtwarzania i walidację opartą na schemacie.2 Jego schemat wymaga podstawowych pól, takich jak id, title, version, status, authors, abstract, claims, does_not_claim i reproducibility.2
Struktura nie dowodzi prawdy. Struktura sprawia, że prawdę można recenzować.
To rozróżnienie ma znaczenie. Plik paper.json mówi wprost, że przejście walidatora nie może dowieść poprawności semantycznej, kompletności ani jakości odtwarzania rycin.2 Nieaktualny plik z tezami może zaszkodzić bardziej niż jego brak, bo agenci mogą zaufać schludnemu polu bardziej niż nieporządnej prozie.
Standard potrzebuje więc 2 warstw:
- Walidacja strukturalna: czy plik się parsuje, zawiera wymagane pola i zachowuje zadeklarowane identyfikatory?
- Recenzja semantyczna: czy plik wiernie reprezentuje artykuł?
Autorzy mogą zautomatyzować pierwszą warstwę. Recenzenci muszą wziąć odpowiedzialność za drugą.
Dlaczego stabilne identyfikatory tez są ważne?
Agenci cytują zbyt szeroko, gdy jedyną adresowalną jednostką jest cały artykuł.
Artykuł może zawierać tezę metodologiczną, tezę ewaluacyjną, tezę o ograniczeniu, tezę benchmarkową i tezę dotyczącą dalszych prac. Człowiek może zacytować artykuł i wyjaśnić, która część jest istotna. Agent często zamienia cytowanie całego artykułu w niejasny token autorytetu.
Stabilne identyfikatory tez dają agentom mniejszy cel.
| Cel cytowania | Wynik |
|---|---|
| Cały artykuł | „Artykuł pokazuje X”. |
| Nagłówek sekcji | „Sekcja metody mówi X”. |
| Stabilny identyfikator tezy | „Teza C2 stwierdza X w ramach ograniczenia zakresu Y”. |
Szkic Canedo raportuje pilotażowe dowody dotyczące wyszukiwania po identyfikatorach tez. W trudniejszym warunku wyszukiwania konceptualnego agenci używający tez z JSON uzyskali średnio 1,20 na 2 punkty, podczas gdy agenci przeszukujący prozę uzyskali 0,60 na 2 punkty.2 Artykuł oznacza ten wynik jako dowód pilotażowy, a nie dowód w dużej skali.2
Ta ostrożność wzmacnia propozycję. Nie trzeba udawać, że pierwszy pilotaż rozstrzygnął całą dziedzinę. Chodzi o to, aby autorzy stworzyli lepszy obiekt do recenzji.
Identyfikatory tez pozwalają recenzentom zadawać ostrzejsze pytania:
- Czy agent zacytował C1, czy cały artykuł?
- Czy streszczenie zachowało kwalifikator z C2?
- Czy dalszy system zbudował coś na C3 bez sprawdzenia polecenia?
- Czy agent pomylił identyfikator definicji z tezą wynikową?
To lepsze pytania niż „czy streszczenie brzmiało poprawnie?”.
Dlaczego ograniczenia zakresu potrzebują własnego pola?
Agenci często wyolbrzymiają artykuły, bo ograniczenia są ukryte w prozie.
Artykuł może mówić, że benchmark obejmuje 5 zadań, metoda wymaga konkretnego środowiska albo wynik nie uogólnia się poza kontrolowaną konfigurację. Człowiek potrafi utrzymać ten niuans. Streszczenie agenta może zgubić kwalifikator po jednym przepisaniu.
Jawne pole does_not_claim[] pokazuje ograniczenia zakresu przed ponownym użyciem.
| Ukryte ograniczenie zakresu | Kształt w pliku z tezami |
|---|---|
| „Nie oceniamy bezpieczeństwa klinicznego”. | does_not_claim: clinical safety |
| „Nasza metoda zakłada istnienie śladów narzędzi”. | does_not_claim: trace-free operation |
| „Pilotaż używa 5 przykładów”. | does_not_claim: population-level proof |
| „Polecenie waliduje tylko strukturę”. | does_not_claim: semantic correctness |
Propozycja paper.json wymienia kilka wyłączeń dla własnej pracy. Nie twierdzi, że C1, C2 lub C3 zostały dowiedzione, nie twierdzi, że walidator gwarantuje poprawność semantyczną, nie twierdzi, że konwencja rozwiązuje problem czytania przez agentów, i nie twierdzi, że jest zgodna z każdym standardem metadanych naukowych.2
Taka lista daje agentom coś użytecznego: granice, które mogą zacytować.
Pola zakresu pomagają także ewaluatorom. Jeśli streszczenie agenta mówi: „paper.json dowodzi, że identyfikatory tez poprawiają dokładność cytowań agentów”, ewaluator może porównać to zdanie z polem does_not_claim[] i oznaczyć przekroczenie zakresu. Bez takiego pola musi wywnioskować zakres z prozy.
Dlaczego polecenia dla rycin powinny znajdować się obok tez?
Odtwarzanie często załamuje się na granicy polecenia.
Wiele artykułów odsyła do repozytorium. Dokładne polecenie dla ryciny może znajdować się w skrypcie, celu Make, notatniku, wzmiance w README albo w żadnym oczywistym miejscu. Agent może przeszukać repozytorium i złożyć polecenie, które wygląda wiarygodnie. Wiarygodne polecenia tworzą niebezpieczną pewność, gdy nigdy nie zostały uruchomione.
Plik z tezami czytelny dla agentów powinien bezpośrednio wymieniać polecenia odtwarzania.
Przykład roboczy paper.json zawiera polecenia służące do wygenerowania walidatora, walidacji paper.json względem paper.typ i kompilacji artykułu Typst do PDF.2 Szkic Canedo raportuje pilotażowe dowody, że polecenia odtwarzania dostarczone przez JSON poprawiły wyszukiwanie poleceń dla rycin względem sekcji metod w prozie, które odsyłają do repozytorium.2
Pole polecenia powinno pozostać skromne:
| Wymaganie | Powód |
|---|---|
| Dokładne polecenie | Zapobiega wymyślonym fragmentom powłoki. |
| Oczekiwany artefakt | Pozwala agentom sprawdzić kształt wyniku. |
| Uwaga o środowisku | Ogranicza zgadywanie ukrytych zależności. |
| Identyfikator ryciny lub tabeli | Łączy polecenie z dowodem w artykule. |
| Znany nie-cel | Nie pozwala agentom traktować testu dymnego jako pełnego odtworzenia. |
Agenci nie powinni traktować pola polecenia jako sukcesu. Pole polecenia daje agentowi cel do uruchomienia, zapisania i zaraportowania.
Gdzie mieszczą się definicje?
Definicje mogą wyrządzić więcej szkód niż tezy.
Błędna teza zwykle psuje jedno zdanie. Błędna definicja wpływa na każde późniejsze zdanie, które używa danego terminu. Agenci rekonstruujący definicje z prozy mogą stworzyć słownik, który brzmi jak wewnętrzny dla artykułu, a jednocześnie odpływa od znaczenia nadanego przez autora.
Stabilne identyfikatory definicji ograniczają to ryzyko.
Piąta konwencja Canedo nadaje definicjom stabilne identyfikatory, a szkic argumentuje, że definicje napisane przez autorów powinny mieć pierwszeństwo przed definicjami rekonstruowanymi przez agentów przy późniejszym użyciu.1 Mechanizm rozwiązywania odwołań w repozytorium obsługuje fragmenty takie jak #C1, #D1, #T1 i #F1, mapując identyfikatory na tezy, definicje, twierdzenia i elementy dalszych prac.2
Ten mechanizm ma znaczenie dla dalszych systemów.
| Dalsze zadanie | Ryzyko definicyjne |
|---|---|
| Przegląd literatury | Agent łączy terminy z 2 artykułów o różnych znaczeniach. |
| Wyodrębnianie benchmarków | Agent traktuje nazwę metryki tak, jakby każdy artykuł definiował ją identycznie. |
| Generowanie kodu | Agent implementuje niewłaściwy obiekt, bo definicja się przesunęła. |
| Eksperyment uzupełniający | Agent optymalizuje pod termin, którego autor nie miał na myśli. |
Pliki z tezami powinny sprawiać, że terminy są adresowalne. Agenci powinni cytować lub rozwiązywać definicje przed ich zastosowaniem.
Jak agenci badawczy powinni używać plików z tezami?
Agenci potrzebują protokołu czytania.
Przed streszczeniem lub zacytowaniem artykułu agent badawczy powinien:
- Pobrać plik z tezami artykułu, jeśli jest dostępny.
- Zweryfikować strukturę pliku.
- Rozwiązać żądaną tezę, definicję, rycinę, twierdzenie lub identyfikator dalszej pracy.
- Porównać rozwiązany element z PDF, gdy zadanie ma realną wagę.
- Zachować ograniczenia zakresu w każdym streszczeniu.
- Uruchamiać polecenia odtwarzania wyłącznie w odpowiednim izolowanym środowisku.
- Raportować wynik polecenia, brakujące pliki i nieudane sprawdzenia jako dowody.
- Wracać do prozy tylko wtedy, gdy plik z tezami nie zawiera potrzebnego elementu.
Taki protokół powinien tworzyć pakiet recenzyjny:
| Pole pakietu | Dowody |
|---|---|
| Artykuł | Tytuł, wersja, repozytorium i URL PDF. |
| Plik z tezami | URL, wersja, status schematu i wynik walidacji. |
| Rozwiązane identyfikatory | Użyte identyfikatory tez, definicji, rycin lub dalszych prac. |
| Ograniczenia zakresu | Istotne wpisy does_not_claim[]. |
| Odtwarzanie | Uruchomione polecenia, wyniki, błędy i środowisko. |
| Kontrola człowieka | Każda teza, której agent nie mógł zweryfikować na podstawie pliku lub PDF. |
Celem nie jest więcej formalności. Celem jest mniej niepodpartych cytowań.
Jak szerszy obszar badań nad agentami wskazuje ten sam kierunek?
Najnowsze badania nad agentami wciąż wracają do tego samego tematu: agenci potrzebują ustrukturyzowanych warstw dowodowych, nie większej nieugruntowanej płynności.
Argus traktuje pogłębione badania jako składanie dowodów. System używa ról Searcher i Navigator, przy czym Navigator śledzi współdzielony graf dowodów i kieruje pracę wyszukiwania ku brakującym elementom dowodowym.3 Taki projekt wzmacnia potrzebę, aby artykuły ujawniały elementy dowodowe, które agenci mogą składać.
ACDL dotyczy opisów kontekstu. Autorzy argumentują, że systemy agentowe potrzebują precyzyjnego, czytelnego języka opisującego, jak instrukcje wejściowe i historia interakcji zmieniają się między krokami.4 Pliki z tezami wykonują równoległą pracę na poziomie artykułu: opisują, jak tezy, definicje i polecenia z artykułu powinny trafić do kontekstu agenta.
Badania nad eksploracją dodają kolejny punkt widzenia. „Look Before You Leap” wprowadza Exploration Checkpoint Coverage, weryfikowalną metrykę tego, czy agent odkrywa kluczowe stany, obiekty i możliwości przed działaniem.5 Agenci badawczy potrzebują tej samej dyscypliny przed cytowaniem lub ponownym użyciem artykułu. Powinni odkryć tezy, definicje, ograniczenia i polecenia, zanim zaczną działać.
AIRA podnosi stawkę. Artykuł o AIRA-Compose i AIRA-Design opisuje wieloagentowe przeszukiwanie architektur, które proponuje nowe architektury modeli bazowych i późniejsze zyski względem punktów odniesienia.6 Jeśli agenci mogą generować naukowe twierdzenia projektowe, artykuły opisujące te twierdzenia potrzebują granic i punktów odtwarzania czytelnych maszynowo.
ARIS nazywa porażkę pasującą do całej kategorii: długo działający agenci badawczy mogą wytwarzać wiarygodny, ale niepodparty sukces, gdy wsparcie dowodowe pozostaje niekompletne, błędnie zaraportowane albo odziedziczone po ramie narzuconej przez wykonawcę.7 Pliki z tezami zostawiają agentom badawczym mniej miejsca na dziedziczenie niepodpartej ramy z samej prozy.
Wzorzec jest spójny. Poważni agenci badawczy potrzebują jawnych obiektów dowodowych.
Co autorzy mogą opublikować już teraz?
Autorzy nie potrzebują zgody czasopisma, aby zacząć.
Pierwsza wersja może leżeć obok artykułu:
{
"id": "my-paper",
"title": "My Paper Title",
"version": "0.1.0",
"status": "draft",
"repository": "https://github.com/example/my-paper",
"claims": [
{
"id": "C1",
"statement": "The method improves retrieval accuracy on benchmark X under condition Y.",
"evidence": ["figure-2", "table-1"]
}
],
"does_not_claim": [
"The method improves retrieval accuracy outside benchmark X."
],
"definitions": [
{
"id": "D1",
"term": "retrieval accuracy",
"definition": "The percentage of queries whose top-ranked result matches the labeled answer."
}
],
"reproducibility": {
"environment": "Python 3.11",
"commands": ["python scripts/reproduce_figure_2.py"]
}
}
Pierwszy plik powinien odpowiedzieć na 5 pytań:
- Które dokładne tezy agenci mogą cytować?
- Których tez agenci powinni odmówić wywnioskowania?
- Które definicje muszą pozostać stabilne?
- Które polecenia odtwarzają dowody?
- Którą wersję warstwy tez przeczytał agent?
Takie minimum daje agentom bezpieczniejszy punkt startu. Daje też recenzentom konkretną różnicę do sprawdzenia, gdy artykuł się zmienia.
Co powinni sprawdzać recenzenci i platformy?
Recenzenci nie powinni automatycznie akceptować poprawnego pliku JSON.
Powinni porównać plik z artykułem.
| Kontrola | Awaria |
|---|---|
| Zgodność tez | Plik z tezami mówi więcej, niż artykuł dowodzi. |
| Zgodność zakresu | Kluczowe ograniczenie pojawia się w prozie, ale nie w does_not_claim[]. |
| Zgodność definicji | Definicja w JSON jest sprzeczna z brzmieniem autora. |
| Zgodność poleceń | Polecenie nie odtwarza już nazwanego artefaktu. |
| Zgodność wersji | PDF się zmienił, ale plik z tezami pozostał nieaktualny. |
| Zgodność identyfikatorów | Artykuł wspomina C1 lub D1, którego nie ma w JSON, albo JSON deklaruje osierocone identyfikatory. |
Platformy mogą zautomatyzować część tej pracy.
Mogą sprawdzać składnię JSON, wymagane pola, format identyfikatorów, zduplikowane identyfikatory, brakujące odwołania, osiągalność URL, obecność poleceń i metadane wersji. Mogą też poprosić agenta o porównanie pliku z tezami z prozą i przygotowanie pakietu recenzyjnego dla ludzi.
Znaczenie nadal rozstrzyga recenzja człowieka. Automatyzacja jedynie uwidacznia rozjazd.
Czego standard powinien odmawiać?
Pliki z tezami czytelne dla agentów powinny być dość małe, aby dało się je przyjąć, i dość rygorystyczne, aby miały znaczenie.
Należy odmówić 3 pokusom.
Po pierwsze, odmówić zależności od platformy. Plik obok PDF jest lepszy niż nowa platforma, której żaden autor nie przyjmie. Szkic Canedo argumentuje, że minimalna realna zgodność powinna wymagać jednego ręcznie napisanego pliku JSON, a nie nowych narzędzi ani rejestracji na platformie.1
Po drugie, odmówić fałszywej pewności. Schemat może walidować kształt. Nie może dowieść prawdy semantycznej. Pliki z tezami powinny mówić, co dowodzą, czego nie dowodzą i jak recenzenci mogą sprawdzić rozjazd.
Po trzecie, odmówić ukrytej strategii. Agenci potrzebują uchwytów dowodowych, nie prywatnych instrukcji autora. Publiczny plik z tezami powinien ujawniać tezy, definicje, ograniczenia i polecenia. Nie powinien ujawniać prywatnych notatek recenzji, ukrytych rubryk ewaluacyjnych, danych uwierzytelniających ani ścieżek do nieopublikowanych danych.
Dobre standardy zmniejszają niejednoznaczność, nie wymagając zaufania do tajnej maszynerii.
Standard, który jest tego wart
Artykuł wart zaufania nie tylko przekonuje człowieka. Daje przyszłym czytelnikom, agentom, recenzentom i twórcom sposób na ponowne użycie pracy bez jej rozciągania.
Plik z tezami czytelny dla agentów powinien ułatwiać zaufanie do artykułu przez to, że ułatwia kontrolę jego granic.
Standard jest prosty:
- Dać każdej ważnej tezie adres.
- Dać każdemu ograniczeniu zakresu pole.
- Dać każdej kluczowej definicji stabilny identyfikator.
- Dać każdej odtwarzanej rycinie dokładne polecenie.
- Dać każdemu agentowi powód, by cytował artykuł wąsko.
Agenci badawczy będą nadal czytać artykuły. Autorzy mogą zostawić ich przy zeskrobywaniu prozy albo dać im warstwę zbudowaną dla dowodów.
Druga ścieżka tworzy lepsze cytowania, bezpieczniejsze streszczenia i mniej wiarygodnie brzmiących tez bez niezawodnego zakotwiczenia.
Krótkie podsumowanie
Artykuły naukowe potrzebują plików z tezami czytelnych dla agentów, ponieważ agenci już streszczają, cytują, testują i ponownie wykorzystują prace akademickie. Sama proza zostawia agentom zbyt wiele miejsca na cytowanie całych artykułów zamiast podtez, wyolbrzymianie zakresu, wymyślanie poleceń lub przesuwanie definicji.
paper.json oferuje praktyczny punkt startu: stabilne identyfikatory tez, jawne wyłączenia zakresu, polecenia dla poszczególnych rycin, minimalne przyjęcie przez jeden plik JSON oraz stabilne identyfikatory definicji.1 Jego robocze repozytorium dodaje walidację schematu, mechanizm rozwiązywania odwołań i konkretny przykładowy plik.2
Najlepsza pierwsza wersja jest mała: tezy, nie-tezy, definicje, polecenia odtwarzania, metadane wersji i link do repozytorium. Plik nie powinien zastępować artykułu. Powinien sprawiać, że artykuł jest bezpieczniejszy do czytania przez agentów.
FAQ
Czym jest plik z tezami czytelny dla agentów?
Plik z tezami czytelny dla agentów to ustrukturyzowany plik obok artykułu, który udostępnia tezy, ograniczenia zakresu, definicje, polecenia odtwarzania i powiązane metadane w formacie możliwym do pobrania i cytowania przez agentów.
Czy paper.json zastępuje PDF?
Nie. PDF pozostaje artykułem czytelnym dla ludzi. Plik z tezami daje agentom adresowalną warstwę dowodową, aby mogli bezpieczniej cytować i testować tezy artykułu.
Jaki problem próbuje rozwiązać paper.json?
paper.json celuje w powtarzające się błędy czytania przez agentów: błędne cytowania podtez, nadmierne rozszerzanie zakresu, ukryte polecenia dla rycin i niestabilne definicje.1
Czy przejście schematu dowodzi, że plik z tezami jest poprawny?
Nie. Schemat może zweryfikować wymagane pola, identyfikatory i strukturę. Recenzja człowieka lub wyspecjalizowanego agenta nadal musi sprawdzić, czy plik z tezami wiernie reprezentuje artykuł.
Co autorzy powinni uwzględnić najpierw?
Autorzy powinni zacząć od stabilnych identyfikatorów tez, sekcji does_not_claim[], stabilnych definicji, dokładnych poleceń odtwarzania, URL repozytorium i wersji pliku z tezami.
Źródła
-
Arquimedes Canedo, “paper.json: A Coordination Convention for LLM-Agent-Actionable Papers,” arXiv:2605.16194v1, przesłano 15 maja 2026. Źródło propozycji towarzyszącego pliku JSON, stabilnych identyfikatorów tez, jawnej listy tego, czego artykuł nie twierdzi, poleceń powłoki dla poszczególnych rycin, twierdzenia o minimalnej realnej zgodności, stabilnych identyfikatorów definicji oraz zastrzeżenia, że tezy pozostają otwartymi hipotezami. ↩↩↩↩↩↩↩↩
-
Arquimedes Canedo, “paper-json,” repozytorium GitHub, dostęp 18 maja 2026. Źródło plików repozytorium, w tym
paper.json,schema.json,validator.py,resolve.py,paper.pdf,paper.typ, przykładu roboczego, pól wymaganych przez schemat, ograniczeń walidacji, poleceń odtwarzania i działania mechanizmu rozwiązywania fragmentów. ↩↩↩↩↩↩↩↩↩↩↩ -
Zhen Zhang, Liangcai Su, Zhuo Chen, Xiang Lin, Haotian Xu, Simon Shaolei Du, Kaiyu Yang, Bo An, Lidong Bing i Xinyu Wang, “Argus: Evidence Assembly for Scalable Deep Research Agents,” arXiv:2605.16217v1, przesłano 15 maja 2026. Źródło ról Searcher/Navigator, współdzielonego grafu dowodów, kierowania pracą do brakujących dowodów i ramy składania dowodów dla agentów prowadzących pogłębione badania. ↩↩
-
Noga Peleg Pelc, Gal A. Kaminka i Yoav Goldberg, “A Language for Describing Agentic LLM Contexts,” arXiv:2605.01920v1, przesłano 3 maja 2026. Źródło ACDL, potrzeby opisywania kompozycji i dynamiki kontekstu agenta oraz krytyki nieformalnej prozy, doraźnych diagramów i inspekcji kodu jako niewystarczających opisów kontekstu. ↩↩
-
Ziang Ye, Wentao Shi, Yuxin Liu, Yu Wang, Zhengzhou Cai, Yaorui Shi, Qi Gu, Xunliang Cai i Fuli Feng, “Look Before You Leap: Autonomous Exploration for LLM Agents,” arXiv:2605.16143v1, przesłano 15 maja 2026. Źródło przedwczesnej eksploatacji, Exploration Checkpoint Coverage i paradygmatu Explore-then-Act. ↩↩
-
Alberto Pepe, Chien-Yu Lin, Despoina Magka, Bilge Acun, Yannan Nellie Wu, Anton Protopopov, Carole-Jean Wu i Yoram Bachrach, “Agentic Discovery of Neural Architectures: AIRA-Compose and AIRA-Design,” arXiv:2605.15871v1, przesłano 15 maja 2026. Źródło wieloagentowego odkrywania architektur neuronowych, 24-godzinnej eksploracji, raportowanych rodzin architektur oraz twierdzeń o późniejszej dokładności i skalowaniu. ↩↩
-
Ruofeng Yang, Yongcan Li i Shuai Li, “ARIS: Autonomous Research via Adversarial Multi-Agent Collaboration,” arXiv:2605.03042v1, przesłano 4 maja 2026. Źródło trybu awarii polegającego na wiarygodnym, lecz niepodpartym sukcesie w długo działających agentach badawczych oraz potrzeby kontradyktoryjnej recenzji pośrednich artefaktów badawczych. ↩