Forschungsarbeiten brauchen agentenlesbare Aussagendateien

Q: Welches Problem versucht paper.json zu lösen?

paper.json zielt auf wiederkehrende Fehler beim Lesen durch Agenten: falsche Zitation von Teilaussagen, überdehnte Geltungsbereiche, versteckte Abbildungsbefehle und instabile Definitionen.1

13 Min. Lesezeit

Am 15. Mai 2026 schlug Arquimedes Canedo paper.json vor: eine begleitende JSON-Datei, mit der eine Forschungsarbeit neben dem PDF stabile Aussagen-IDs, ausdrückliche Geltungsgrenzen, Reproduktionsbefehle pro Abbildung und stabile Definitions-IDs bereitstellen kann.¹

Diese kleine Datei verweist auf ein großes Problem.

Forschungsagenten lesen inzwischen wissenschaftliche Arbeiten, extrahieren Aussagen, zitieren Quellen, reproduzieren Abbildungen, entwickeln Anschlussarbeiten und fassen Geltungsbereiche zusammen.¹ Prosa bleibt für menschliche Leser wichtig. Für Agenten lässt Prosa allein jedoch zu viel Spielraum: Sie können die falsche Teilaussage zitieren, Evidenz über ihren Geltungsbereich hinaus verallgemeinern, Reproduktionsbefehle erfinden oder Definitionen aus dem Gedächtnis neu zusammensetzen.

Forschungsarbeiten brauchen agentenlesbare Aussagendateien. Eine Arbeit sollte Agenten eine typisierte Oberfläche dafür geben, was sie behauptet, was sie nicht behauptet, wie zentrale Begriffe funktionieren und wie Evidenz mit Abbildungen und Code verbunden ist.

Kurzfassung

Agentenlesbare Aussagendateien machen aus einer rein prosaischen Arbeit eine Arbeit plus adressierbare Evidenzoberfläche. Das PDF bleibt das Objekt für Menschen. Die Aussagendatei gibt Agenten stabile IDs, Geltungsgrenzen, Definitionen und Reproduktionsbefehle.

Der paper.json-Vorschlag zeigt das mit einem konkreten Schema und einem ausgearbeiteten Repository. Der Entwurf beschreibt fünf Konventionen: stabile Aussagen-IDs, eine ausdrückliche Liste dessen, was nicht behauptet wird, genaue Shell-Befehle pro Abbildung, Mindesttauglichkeit durch eine handgeschriebene JSON-Datei und stabile Definitions-IDs.¹ Das begleitende Repository enthält paper.json, schema.json, validator.py, resolve.py, das PDF und die Typst-Quelle.²

Auch der breitere Forschungsstrang zu Agenten weist in dieselbe Richtung. Argus behandelt tiefgehende Recherche als Zusammenbau von Evidenz statt als parallele Suche mit roher Kraft.³ ACDL gibt Agentenkontexten eine formale Beschreibungssprache.⁴ Explorationsforschung zeigt, dass Agenten vor dem Handeln überprüfbare Kontrollpunkte brauchen.⁵ Arbeiten zu agentenentworfenen Architekturen erhöhen den Anspruch an Reproduzierbarkeit auf Arbeitsebene, sobald Agenten wissenschaftliche Aussagen erzeugen.⁶

Die praktische Regel lautet: Veröffentlichen Sie die Prosa für Menschen und die Aussagendatei für Agenten.

Wichtigste Erkenntnisse

Für Autorinnen und Autoren wissenschaftlicher Arbeiten: - Ergänzen Sie stabile IDs für Aussagen, Definitionen, Theoreme, Abbildungen und Anschlussarbeiten. - Schreiben Sie Geltungsgrenzen als eigene Felder, nicht als defensive Prosa, die am Ende versteckt ist.

Für Gutachterinnen und Gutachter: - Prüfen Sie, ob maschinenlesbare Aussagen zur Arbeit passen, nicht nur, ob das Schema validiert. - Behandeln Sie veraltete oder überzogene Aussagendateien als Zitationsrisiko.

Für Entwickler von Forschungsagenten: - Rufen Sie die Aussagendatei ab, bevor Sie eine Arbeit zusammenfassen, zitieren, reproduzieren oder darauf aufbauen. - Zitieren Sie Aussagen-IDs und Definitions-IDs, wenn eine Aufgabe vom genauen Geltungsbereich abhängt.

Für Journals und Repositorien: - Akzeptieren Sie zunächst eine reibungsarme Datei neben dem PDF, bevor Sie Autorinnen und Autoren zu einer vollständigen Plattform drängen. - Validieren Sie die Struktur automatisch und überlassen Sie die semantische Prüfung Menschen und spezialisierten Agenten.

Warum scheitern Prosatexte bei Forschungsagenten?

Wissenschaftliche Prosa verdichtet Evidenz zu einer Erzählung.

Diese Erzählung hilft Menschen. Sorgfältige Leser können Einschränkungen verfolgen, Abschnitte vergleichen, ableiten, welches Ergebnis welche Aussage stützt, und erkennen, wo die Arbeit aufhört. Agenten verarbeiten Arbeiten oft anders. Sie scannen, zerlegen, rufen ab, zitieren, fassen zusammen und erstellen neue Artefakte unter Zeit- und Kontextgrenzen.

Dadurch entstehen vorhersehbare Fehlermuster.

Reine Prosaoberfläche	Agentenfehler
Aussage steht in einem Absatz	Der Agent zitiert die falsche Teilaussage oder die ganze Arbeit.
Geltungsgrenze steht in der Diskussion	Der Agent macht aus einem begrenzten Ergebnis eine allgemeine Aussage.
Abbildungsbefehl liegt in einem Repository	Der Agent erfindet einen plausiblen Befehl oder überspringt die Reproduktion.
Definition erscheint nur einmal	Der Agent rekonstruiert den Begriff später ungenau.
Anschlussarbeit steht in Prosa	Der Agent behandelt eine offene Frage als bewiesenes Ergebnis.

Canedo benennt mehrere dieser Fehler direkt: Teilaussagen haben keine Zitiergriffe unterhalb der Arbeitsebene, Geltungsbereiche werden in Prosa-Zusammenfassungen überdehnt, und Abbildungsbefehle liegen häufig außerhalb der Arbeit in Code-Repositorien.¹

Die Lösung besteht nicht darin, die Arbeit zu ersetzen. Die Lösung besteht darin, eine Schnittstelle zu ergänzen, über die Aussagen einer Arbeit leichter adressierbar werden.

Was sollte eine Aussagendatei enthalten?

Eine agentenlesbare Aussagendatei sollte die Teile offenlegen, die Agenten besonders häufig falsch verwenden.

Feld	Aufgabe des Agenten
`id`	Die Arbeit mit einem stabilen Slug benennen.
`version`	Agenten mitteilen, welche Aussagenoberfläche sie gelesen haben.
`claims[]`	Agenten erlauben, Teilaussagen über stabile IDs zu zitieren.
`does_not_claim[]`	Überdehnung des Geltungsbereichs blockieren, bevor sich eine Zusammenfassung verbreitet.
`definitions[]`	Von den Autorinnen und Autoren formulierte Bedeutungen zentraler Begriffe bewahren.
`reproducibility.commands[]`	Genaue Befehle für Abbildungen, Tabellen oder Prüfungen bereitstellen.
`follow_up_work[]`	Künftige Arbeit von bereits gezeigter Evidenz trennen.
`repository`	Agenten den kanonischen Code- und Dateispeicherort geben.
`schema`	Werkzeugen ermöglichen, die Struktur vor der Nutzung zu validieren.

Das ausgearbeitete paper.json-Beispiel enthält eine Entwurfsversion, Repository-URL, Autorenmetadaten, Abstract, Aussagen, Geltungsausschlüsse, Reproduktionsbefehle und schemagestützte Validierung.² Sein Schema verlangt Kernfelder wie id, title, version, status, authors, abstract, claims, does_not_claim und reproducibility.²

Struktur beweist keine Wahrheit. Struktur macht Wahrheit überprüfbar.

Diese Unterscheidung ist wichtig. Die Datei paper.json sagt ausdrücklich, dass ein bestandener Validator semantische Korrektheit, Vollständigkeit oder die Qualität der Abbildungsreproduktion nicht beweisen kann.² Eine veraltete Aussagendatei kann mehr schaden als gar keine, weil Agenten einem ordentlichen Feld eher vertrauen können als unübersichtlicher Prosa.

Der Standard braucht deshalb zwei Ebenen:

Strukturelle Validierung: Lässt sich die Datei parsen, enthält sie die Pflichtfelder und bewahrt sie die deklarierten IDs?
Semantische Prüfung: Gibt die Datei die Arbeit zuverlässig wieder?

Die erste Ebene können Autorinnen und Autoren automatisieren. Die zweite müssen Gutachterinnen und Gutachter verantworten.

Warum sind stabile Aussagen-IDs wichtig?

Agenten zitieren zu grob, wenn die ganze Arbeit die einzige adressierbare Einheit ist.

Eine Arbeit kann eine Methodenaussage, eine Evaluationsaussage, eine Einschränkung, eine Benchmark-Aussage und eine Anschlussaussage enthalten. Ein Mensch kann die Arbeit zitieren und erklären, welcher Teil zählt. Ein Agent macht aus der Gesamtzitation oft ein vages Autoritätssignal.

Stabile Aussagen-IDs geben Agenten ein kleineres Ziel.

Zitierziel	Ergebnis
Ganze Arbeit	„Die Arbeit zeigt X.”
Abschnittsüberschrift	„Der Methodenabschnitt sagt X.”
Stabile Aussagen-ID	„Aussage C2 besagt X unter Geltungsgrenze Y.”

Canedos Entwurf berichtet Pilot-Evidenz für das Abrufen über Aussagen-IDs. In der schwierigeren Bedingung für konzeptuelles Abrufen erzielten Agenten mit JSON-Aussagen im Durchschnitt 1,20 von 2 Punkten, während Agenten mit Prosasuche 0,60 von 2 Punkten erreichten.² Die Arbeit kennzeichnet dieses Ergebnis als Pilot-Evidenz, nicht als Beweis im großen Maßstab.²

Diese Vorsicht stärkt den Vorschlag. Es geht nicht darum, so zu tun, als hätte der erste Pilot das Feld entschieden. Es geht darum, Autorinnen und Autoren ein besseres Prüfobjekt erstellen zu lassen.

Aussagen-IDs erlauben schärfere Fragen:

Hat der Agent C1 oder die ganze Arbeit zitiert?
Hat die Zusammenfassung die Einschränkung in C2 bewahrt?
Hat das nachgelagerte System auf C3 aufgebaut, ohne den Befehl zu prüfen?
Hat der Agent eine Definitions-ID mit einer Ergebnisaussage verwechselt?

Diese Fragen sind besser als „klang die Zusammenfassung richtig?”

Warum brauchen Geltungsgrenzen ein eigenes Feld?

Agenten übertreiben Arbeiten häufig, weil Einschränkungen in Prosa versteckt sind.

Eine Arbeit kann sagen, dass ihr Benchmark fünf Aufgaben abdeckt, dass ihre Methode eine bestimmte Umgebung braucht oder dass ihr Ergebnis nicht über einen kontrollierten Aufbau hinaus verallgemeinert. Ein Mensch kann diese Nuance halten. Eine Agentenzusammenfassung kann die Einschränkung nach einer Umschreibung verlieren.

Ein ausdrückliches Feld does_not_claim[] macht Geltungsgrenzen vor der Wiederverwendung sichtbar.

Versteckte Geltungsgrenze	Form in der Aussagendatei
„Wir evaluieren keine klinische Sicherheit.”	`does_not_claim: clinical safety`
„Unsere Methode setzt vorhandene Tool-Spuren voraus.”	`does_not_claim: trace-free operation`
„Der Pilot nutzt fünf Beispiele.”	`does_not_claim: population-level proof`
„Der Befehl validiert nur die Struktur.”	`does_not_claim: semantic correctness`

Der paper.json-Vorschlag listet mehrere Ausschlüsse für die eigene Arbeit. Er behauptet nicht, dass C1, C2 oder C3 bewiesen seien, dass der Validator semantische Korrektheit garantiere, dass die Konvention das Lesen durch Agenten löse oder dass sie mit jedem wissenschaftlichen Metadatenstandard kompatibel sei.²

Diese Liste gibt Agenten etwas Nützliches: Grenzen, die sie zitieren können.

Geltungsfelder helfen auch bei Evaluationen. Wenn eine Agentenzusammenfassung sagt, „paper.json beweist, dass Aussagen-IDs die Zitiergenauigkeit von Agenten verbessern”, kann der Evaluator diesen Satz mit dem Feld does_not_claim[] vergleichen und Überdehnung markieren. Ohne Feld muss der Evaluator den Geltungsbereich aus Prosa ableiten.

Warum sollten Abbildungsbefehle neben Aussagen stehen?

Reproduktion scheitert oft an der Befehlsgrenze.

Viele Arbeiten verweisen auf ein Repository. Der genaue Abbildungsbefehl kann in einem Skript, einem Make-Target, einem Notebook, einem README-Hinweis oder an keiner offensichtlichen Stelle liegen. Ein Agent kann das Repository durchsuchen und einen Befehl zusammensetzen, der plausibel aussieht. Plausible Befehle erzeugen gefährliche Sicherheit, wenn sie nie gelaufen sind.

Eine agentenlesbare Aussagendatei sollte Reproduktionsbefehle direkt auflisten.

Das ausgearbeitete paper.json-Beispiel enthält Befehle zum Erzeugen des Validators, zum Validieren von paper.json gegen paper.typ und zum Kompilieren der Typst-Arbeit als PDF.² Canedos Entwurf berichtet Pilot-Evidenz dafür, dass von JSON bereitgestellte Reproduktionsbefehle das Abrufen von Abbildungsbefehlen gegenüber Prosamethodenabschnitten verbessern, die auf ein Repository verweisen.²

Das Befehlsfeld sollte bescheiden bleiben:

Anforderung	Grund
Exakter Befehl	Verhindert erfundene Shell-Fragmente.
Erwartetes Artefakt	Lässt Agenten die Ausgabeform prüfen.
Umgebungshinweis	Vermeidet versteckte Vermutungen zu Abhängigkeiten.
Abbildungs- oder Tabellen-ID	Verbindet den Befehl mit Evidenz in der Arbeit.
Bekannter Nichtzweck	Verhindert, dass Agenten einen Smoke-Test als vollständige Reproduktion behandeln.

Agenten sollten ein Befehlsfeld nicht als Erfolg behandeln. Das Befehlsfeld gibt dem Agenten ein Ziel, das er ausführen, protokollieren und berichten kann.

Wo gehören Definitionen hin?

Definitionen können mehr Schaden anrichten als Aussagen.

Eine falsche Aussage betrifft meist einen Satz. Eine falsche Definition infiziert jeden späteren Satz, der den Begriff verwendet. Agenten, die Definitionen aus Prosa rekonstruieren, können ein Vokabular erzeugen, das nach der Arbeit klingt, sich aber von der Bedeutung der Autorinnen und Autoren entfernt.

Stabile Definitions-IDs adressieren dieses Risiko.

Canedos fünfte Konvention gibt Definitionen stabile IDs, und der Entwurf argumentiert, dass von Autorinnen und Autoren geschriebene Definitionen für spätere Wiederverwendung besser sein sollten als von Agenten rekonstruierte Definitionen.¹ Der Resolver des Repositorys unterstützt Fragmente wie #C1, #D1, #T1 und #F1 und ordnet IDs Aussagen, Definitionen, Theoremen und Anschlussarbeiten zu.²

Dieser Mechanismus zählt für nachgelagerte Systeme.

Nachgelagerte Aufgabe	Definitionsrisiko
Literaturübersicht	Der Agent verschmilzt Begriffe aus zwei Arbeiten mit unterschiedlichen Bedeutungen.
Benchmark-Extraktion	Der Agent behandelt einen Metriknamen so, als definiere ihn jede Arbeit gleich.
Codegenerierung	Der Agent implementiert das falsche Objekt, weil die Definition abgedriftet ist.
Anschlussexperiment	Der Agent optimiert auf einen Begriff, den die Autorin oder der Autor nie gemeint hat.

Aussagendateien sollten Begriffe adressierbar machen. Agenten sollten Definitionen zitieren oder auflösen, bevor sie sie anwenden.

Wie sollten Forschungsagenten Aussagendateien nutzen?

Agenten brauchen ein Leseprotokoll.

Bevor ein Forschungsagent eine Arbeit zusammenfasst oder zitiert, sollte er:

Die Aussagendatei der Arbeit abrufen, sofern sie verfügbar ist.
Die Dateistruktur validieren.
Die angeforderte Aussage, Definition, Abbildung, das Theorem oder die Anschlussarbeits-ID auflösen.
Das aufgelöste Element mit dem PDF gegenprüfen, wenn die Aufgabe reale Tragweite hat.
Geltungsgrenzen in jeder Zusammenfassung bewahren.
Reproduktionsbefehle nur in einer geeigneten Sandbox ausführen.
Befehlsausgaben, fehlende Dateien und fehlgeschlagene Prüfungen als Evidenz berichten.
Nur dann auf Prosa zurückfallen, wenn die Aussagendatei das benötigte Element nicht enthält.

Dieses Protokoll sollte ein Prüfpaket erzeugen:

Paketfeld	Evidenz
Arbeit	Titel, Version, Repository und PDF-URL.
Aussagendatei	URL, Version, Schemastatus und Validierungsausgabe.
Aufgelöste IDs	Verwendete Aussagen-IDs, Definitions-IDs, Abbildungs-IDs oder Anschlussarbeits-IDs.
Geltungsgrenzen	Relevante `does_not_claim[]`-Einträge.
Reproduktion	Ausgeführte Befehle, Ausgaben, Fehler und Umgebung.
Menschliche Prüfung	Jede Aussage, die der Agent aus Datei oder PDF nicht verifizieren konnte.

Das Ziel ist nicht mehr Papierarbeit. Das Ziel sind weniger unbelegte Zitate.

Wie weist der breitere Forschungsstrang zu Agenten in dieselbe Richtung?

Aktuelle Agentenforschung kommt immer wieder auf dasselbe Thema zurück: Agenten brauchen strukturierte Evidenzoberflächen, nicht noch mehr ungeerdete Sprachgewandtheit.

Argus behandelt tiefgehende Recherche als Evidenzzusammenbau. Das System nutzt einen Searcher und einen Navigator; der Navigator verfolgt einen gemeinsamen Evidenzgraphen und verteilt Sucharbeit auf fehlende Evidenzstücke.³ Dieses Design verstärkt den Bedarf, dass Arbeiten Evidenzstücke offenlegen, die Agenten zusammensetzen können.

ACDL zielt auf Kontextbeschreibungen. Die Autorinnen und Autoren argumentieren, dass Agentensysteme eine präzise, lesbare Sprache dafür brauchen, wie Prompts und Interaktionsverlauf sich über Schritte hinweg entwickeln.⁴ Aussagendateien leisten auf Arbeitsebene eine parallele Aufgabe: Sie beschreiben, wie Aussagen, Definitionen und Befehle einer Arbeit in den Agentenkontext gelangen sollten.

Explorationsforschung ergänzt einen weiteren Blickwinkel. „Look Before You Leap” führt Exploration Checkpoint Coverage ein, eine überprüfbare Metrik dafür, ob ein Agent zentrale Zustände, Objekte und Handlungsmöglichkeiten entdeckt, bevor er handelt.⁵ Forschungsagenten brauchen dieselbe Disziplin, bevor sie eine Arbeit zitieren oder wiederverwenden. Sie sollten Aussagen, Definitionen, Grenzen und Befehle entdecken, bevor sie handeln.

AIRA erhöht den Einsatz. Die Arbeit zu AIRA-Compose und AIRA-Design berichtet von einer Multi-Agenten-Architektursuche, die neue Foundation-Model-Architekturen und nachgelagerte Verbesserungen gegenüber Baselines vorschlägt.⁶ Wenn Agenten wissenschaftliche Designaussagen erzeugen können, brauchen Arbeiten, die diese Aussagen beschreiben, maschinenlesbare Grenzen und Reproduktionsansätze.

ARIS benennt einen Fehler, der zur ganzen Kategorie passt: Langlaufende Forschungsagenten können plausibel wirkenden, aber unbelegten Erfolg produzieren, wenn Evidenzunterstützung unvollständig bleibt, falsch berichtet wird oder aus der Rahmung des ausführenden Systems übernommen wird.⁷ Aussagendateien geben Forschungsagenten weniger Raum, unbelegte Rahmungen allein aus Prosa zu übernehmen.

Das Muster ist konsistent. Ernsthafte Forschungsagenten brauchen explizite Evidenzobjekte.

Was können Autorinnen und Autoren jetzt veröffentlichen?

Autorinnen und Autoren brauchen keine Journal-Freigabe, um anzufangen.

Die erste Version kann neben der Arbeit liegen:

{
  "id": "my-paper",
  "title": "My Paper Title",
  "version": "0.1.0",
  "status": "draft",
  "repository": "https://github.com/example/my-paper",
  "claims": [
    {
      "id": "C1",
      "statement": "The method improves retrieval accuracy on benchmark X under condition Y.",
      "evidence": ["figure-2", "table-1"]
    }
  ],
  "does_not_claim": [
    "The method improves retrieval accuracy outside benchmark X."
  ],
  "definitions": [
    {
      "id": "D1",
      "term": "retrieval accuracy",
      "definition": "The percentage of queries whose top-ranked result matches the labeled answer."
    }
  ],
  "reproducibility": {
    "environment": "Python 3.11",
    "commands": ["python scripts/reproduce_figure_2.py"]
  }
}

Die erste Datei sollte fünf Fragen beantworten:

Welche genauen Aussagen können Agenten zitieren?
Welche Aussagen sollten Agenten nicht ableiten?
Welche Definitionen müssen stabil bleiben?
Welche Befehle reproduzieren die Evidenz?
Welche Version der Aussagenoberfläche hat der Agent gelesen?

Dieses Minimum gibt Agenten einen sichereren Ausgangspunkt. Außerdem gibt es Gutachterinnen und Gutachtern einen konkreten Diff, wenn sich die Arbeit ändert.

Was sollten Gutachter und Plattformen prüfen?

Gutachterinnen und Gutachter sollten eine gültige JSON-Datei nicht einfach abnicken.

Sie sollten die Datei mit der Arbeit vergleichen.

Prüfung	Fehler
Aussagenparität	Die Aussagendatei behauptet mehr, als die Arbeit beweist.
Geltungsparität	Eine zentrale Einschränkung steht in der Prosa, aber nicht in `does_not_claim[]`.
Definitionsparität	Eine Definition in JSON widerspricht der Formulierung der Autorinnen und Autoren.
Befehlsparität	Der Befehl reproduziert das benannte Artefakt nicht mehr.
Versionsparität	Das PDF wurde geändert, aber die Aussagendatei ist veraltet.
ID-Parität	Die Arbeit erwähnt C1 oder D1, die in JSON fehlen, oder JSON deklariert verwaiste IDs.

Plattformen können einen Teil dieser Arbeit automatisieren.

Sie können JSON-Syntax, Pflichtfelder, ID-Format, doppelte IDs, fehlende Verweise, URL-Erreichbarkeit, Befehlsvorhandensein und Versionsmetadaten prüfen. Sie können außerdem einen Agenten beauftragen, die Aussagendatei mit der Prosa zu vergleichen und ein Prüfpaket für Menschen zu erzeugen.

Über Bedeutung entscheidet weiterhin die menschliche Prüfung. Automatisierung macht nur Abweichungen sichtbar.

Was sollte der Standard ablehnen?

Agentenlesbare Aussagendateien sollten klein genug für die Einführung und streng genug für echte Wirkung bleiben.

Drei Versuchungen sollten abgelehnt werden.

Erstens: Plattformabhängigkeit. Eine Datei neben dem PDF ist besser als eine neue Plattform, die keine Autorin und kein Autor übernimmt. Canedos Entwurf argumentiert, dass Mindesttauglichkeit eine handgeschriebene JSON-Datei verlangen sollte, nicht neue Werkzeuge oder Plattformregistrierung.¹

Zweitens: falsche Gewissheit. Ein Schema kann Form validieren. Es kann keine semantische Wahrheit beweisen. Aussagendateien sollten sagen, was sie beweisen, was sie nicht beweisen und wie Gutachterinnen und Gutachter Abweichungen prüfen können.

Drittens: versteckte Strategie. Agenten brauchen Evidenzgriffe, keine privaten Autoren-Prompts. Eine öffentliche Aussagendatei sollte Aussagen, Definitionen, Grenzen und Befehle offenlegen. Sie sollte keine privaten Peer-Review-Notizen, versteckten Bewertungsrubriken, Zugangsdaten oder unveröffentlichten Datenpfade offenlegen.

Gute Standards reduzieren Mehrdeutigkeit, ohne Vertrauen in geheime Mechanik zu verlangen.

Der würdige Standard

Die würdige Forschungsarbeit überzeugt nicht nur menschliche Leser. Sie gibt künftigen Lesern, Agenten, Gutachterinnen und Entwicklern eine Möglichkeit, die Arbeit wiederzuverwenden, ohne sie zu überdehnen.

Eine agentenlesbare Aussagendatei sollte eine Arbeit vertrauenswürdiger machen, indem sie ihre Grenzen leichter überprüfbar macht.

Der Standard ist einfach:

Geben Sie jeder wichtigen Aussage eine Adresse.
Geben Sie jeder Geltungsgrenze ein Feld.
Geben Sie jeder zentralen Definition eine stabile ID.
Geben Sie jeder reproduzierten Abbildung einen exakten Befehl.
Geben Sie jedem Agenten einen Grund, die Arbeit eng zu zitieren.

Forschungsagenten werden weiterhin wissenschaftliche Arbeiten lesen. Autorinnen und Autoren können sie Prosa auskratzen lassen, oder sie können ihnen eine Oberfläche geben, die für Evidenz gebaut ist.

Der zweite Weg schafft bessere Zitate, sicherere Zusammenfassungen und weniger plausible Aussagen ohne verlässlichen Anker.

Kurzzusammenfassung

Forschungsarbeiten brauchen agentenlesbare Aussagendateien, weil Agenten wissenschaftliche Arbeiten bereits zusammenfassen, zitieren, prüfen und wiederverwenden. Prosa allein lässt Agenten zu viel Raum, ganze Arbeiten statt Teilaussagen zu zitieren, Geltungsbereiche zu überdehnen, Befehle zu erfinden oder bei Definitionen abzudriften.

paper.json bietet einen praktischen Ausgangspunkt: stabile Aussagen-IDs, ausdrückliche Geltungsausschlüsse, Befehle pro Abbildung, minimale Einführung über eine JSON-Datei und stabile Definitions-IDs.¹ Das ausgearbeitete Repository ergänzt Schemavalidierung, einen Resolver und eine konkrete Beispieldatei.²

Die beste erste Version ist klein: Aussagen, Nichtaussagen, Definitionen, Reproduktionsbefehle, Versionsmetadaten und ein Repository-Link. Die Datei sollte die Arbeit nicht ersetzen. Sie sollte sie für Agenten sicherer lesbar machen.

FAQ

Was ist eine agentenlesbare Aussagendatei?

Eine agentenlesbare Aussagendatei ist eine strukturierte Datei neben einer wissenschaftlichen Arbeit, die Aussagen, Geltungsgrenzen, Definitionen, Reproduktionsbefehle und zugehörige Metadaten in einem Format bereitstellt, das Agenten abrufen und zitieren können.

Ersetzt paper.json das PDF?

Nein. Das PDF bleibt die für Menschen lesbare Arbeit. Die Aussagendatei gibt Agenten eine adressierbare Evidenzoberfläche, damit sie Aussagen der Arbeit sicherer zitieren und prüfen können.

Welches Problem versucht paper.json zu lösen?

paper.json zielt auf wiederkehrende Fehler beim Lesen durch Agenten: falsche Zitation von Teilaussagen, überdehnte Geltungsbereiche, versteckte Abbildungsbefehle und instabile Definitionen.¹

Beweist ein bestandenes Schema, dass die Aussagendatei korrekt ist?

Nein. Ein Schema kann Pflichtfelder, IDs und Struktur validieren. Menschen oder spezialisierte Agenten müssen weiterhin prüfen, ob die Aussagendatei die Arbeit zuverlässig wiedergibt.

Was sollten Autorinnen und Autoren zuerst aufnehmen?

Autorinnen und Autoren sollten mit stabilen Aussagen-IDs, einem Abschnitt does_not_claim[], stabilen Definitionen, exakten Reproduktionsbefehlen, einer Repository-URL und einer Version für die Aussagendatei beginnen.

Quellen

Arquimedes Canedo, “paper.json: A Coordination Convention for LLM-Agent-Actionable Papers,” arXiv:2605.16194v1, eingereicht am 15. Mai 2026. Quelle für den begleitenden JSON-Vorschlag, stabile Aussagen-IDs, die ausdrückliche does-not-claim-Liste, Shell-Befehle pro Abbildung, die Behauptung zur Mindesttauglichkeit, stabile Definitions-IDs und den Hinweis, dass die Aussagen offene Hypothesen bleiben. ↩↩↩↩↩↩↩↩
Arquimedes Canedo, “paper-json,” GitHub-Repository, abgerufen am 18. Mai 2026. Quelle für Repository-Dateien einschließlich paper.json, schema.json, validator.py, resolve.py, paper.pdf, paper.typ, das ausgearbeitete Beispiel, schemapflichtige Felder, Validierungsgrenzen, Reproduktionsbefehle und das Verhalten des Fragment-Resolvers. ↩↩↩↩↩↩↩↩↩↩↩
Zhen Zhang, Liangcai Su, Zhuo Chen, Xiang Lin, Haotian Xu, Simon Shaolei Du, Kaiyu Yang, Bo An, Lidong Bing und Xinyu Wang, “Argus: Evidence Assembly for Scalable Deep Research Agents,” arXiv:2605.16217v1, eingereicht am 15. Mai 2026. Quelle für Searcher/Navigator-Rollen, gemeinsamen Evidenzgraphen, Dispatch fehlender Evidenz und die Rahmung tiefgehender Recherche als Evidenzzusammenbau. ↩↩
Noga Peleg Pelc, Gal A. Kaminka und Yoav Goldberg, “A Language for Describing Agentic LLM Contexts,” arXiv:2605.01920v1, eingereicht am 3. Mai 2026. Quelle für ACDL, den Bedarf, Zusammensetzung und Dynamik von Agentenkontexten zu beschreiben, sowie die Kritik daran, dass informelle Prosa, Ad-hoc-Diagramme und Codeinspektion als Kontextbeschreibungen nicht ausreichen. ↩↩
Ziang Ye, Wentao Shi, Yuxin Liu, Yu Wang, Zhengzhou Cai, Yaorui Shi, Qi Gu, Xunliang Cai und Fuli Feng, “Look Before You Leap: Autonomous Exploration for LLM Agents,” arXiv:2605.16143v1, eingereicht am 15. Mai 2026. Quelle für verfrühte Ausnutzung, Exploration Checkpoint Coverage und das Explore-then-Act-Paradigma. ↩↩
Alberto Pepe, Chien-Yu Lin, Despoina Magka, Bilge Acun, Yannan Nellie Wu, Anton Protopopov, Carole-Jean Wu und Yoram Bachrach, “Agentic Discovery of Neural Architectures: AIRA-Compose and AIRA-Design,” arXiv:2605.15871v1, eingereicht am 15. Mai 2026. Quelle für Multi-Agenten-Entdeckung neuronaler Architekturen, 24-stündige Exploration, berichtete Architekturfamilien und nachgelagerte Aussagen zu Genauigkeit und Skalierung. ↩↩
Ruofeng Yang, Yongcan Li und Shuai Li, “ARIS: Autonomous Research via Adversarial Multi-Agent Collaboration,” arXiv:2605.03042v1, eingereicht am 4. Mai 2026. Quelle für den Fehlermodus plausibler, aber unbelegter Erfolge in langlaufenden Forschungsagenten und den Bedarf an adversarialer Prüfung von Zwischenartefakten der Forschung. ↩