Deep-Research-Agenten brauchen Evidenzgraphen

Q: Wie hängt paper.json mit Evidenzgraphen zusammen?

paper.json gibt wissenschaftlichen Arbeiten stabile Aussage-IDs, Geltungsgrenzen, Definitionen und Reproduktionsbefehle. Evidenzgraphen können diese IDs als präzise Knoten verwenden, statt eine ganze Arbeit nur vage zu zitieren.2

12 Min. Lesezeit

Am 15. Mai 2026 veröffentlichten Zhen Zhang und Mitautoren Argus, ein System für Deep-Research-Agenten, das Recherche als Zusammenbau von Evidenz versteht, nicht als brachiale parallele Suche.¹

Dieser Unterschied ist entscheidend.

Deep-Research-Agenten können viele Suchen ausführen, viele Seiten öffnen und lange Antworten schreiben. Eine lange Antwort beweist aber nicht, dass der Agent die fehlende Evidenz gefunden hat. Parallele Suche kann denselben Quellencluster mehrfach erfassen, immer mehr Auszüge in den Kontext schieben und den schwierigen Teil trotzdem unbelegt lassen.

Deep-Research-Agenten brauchen Evidenzgraphen. Der Agent sollte wissen, welche Aussagen Belege brauchen, welche Evidenzbausteine bereits vorhanden sind, welche noch fehlen und welche Sätze der endgültigen Antwort von welchen Quellen abhängen.

Kurzfassung

Deep-Research-Agenten sollten Fortschritt nicht daran messen, wie viele Suchen sie ausgeführt oder wie viel Kontext sie gefüllt haben. Entscheidend ist die Evidenzabdeckung.

Argus gibt dem Feld dafür eine nützliche Form. Der Searcher sammelt Evidenzspuren für Teilabfragen, während der Navigator einen gemeinsamen Evidenzgraphen pflegt, fehlende Bausteine prüft, weitere Sucharbeit verteilt und eine quellenbelegte Endantwort erzeugt.¹ Damit verschiebt sich Deep Research weg von „mehr Agenten starten” hin zu „den fehlenden Nachweis zusammensetzen”.

Dasselbe Muster zeigt sich in aktueller Agentenforschung. paper.json macht Aussagen in wissenschaftlichen Arbeiten adressierbar und setzt klare Geltungsgrenzen.² ACDL gibt Agentenkontext eine formale Beschreibungssprache.³ Arbeiten zur Exploration argumentieren, dass Agenten vor dem Handeln überprüfbare Kontrollpunkte brauchen.⁴ ARIS beschreibt den zentralen Fehler bei langfristiger Recherche als plausibel wirkenden, aber unbelegten Erfolg.⁵ AgentForesight plädiert für laufende Prüfung, bevor ein entscheidender Fehler durch einen Multi-Agenten-Lauf kaskadiert.⁶

Die praktische Regel lautet: Jede Deep-Research-Antwort sollte einen Evidenzgraphen oder ein Prüfpaket mitführen, das zeigt, was der Agent belegt hat, was er abgeleitet hat und was ungelöst bleibt.

Wichtigste Erkenntnisse

Für Agentenentwickler: - Verfolgen Sie Evidenz als Graph aus Aussagen, Quellen, Lücken und Abhängigkeiten. - Richten Sie Sucharbeit auf fehlende Evidenz aus, statt breite Abfragen zu wiederholen.

Für Produktteams: - Zeigen Sie Quellenabdeckung, ungelöste Aussagen und Verschwendung durch doppelte Suchen. - Ermöglichen Sie Prüfenden, nachzuvollziehen, warum die Endantwort jede Quelle zitiert.

Für Forschende: - Trennen Sie Evidenzsammlung von Antwortsynthese. - Bewerten Sie Abdeckung und Nachvollziehbarkeit, nicht nur die Punktzahl der Endantwort.

Für Betreiber: - Behandeln Sie einen selbstsicher formulierten langen Bericht als unfertig, bis der Evidenzgraph seine wichtigen Lücken geschlossen hat. - Fragen Sie vor der Annahme der Antwort, welche Aussagen noch keine Primärbelege haben.

Warum kommt parallele Suche ins Stocken?

Parallele Suche fühlt sich nach Fortschritt an.

Geben Sie zehn Agenten dieselbe Recherchefrage, und das System erzeugt Bewegung. Agenten suchen, fassen zusammen, vergleichen und liefern Teilergebnisse zurück. Die endgültige Synthese kann gründlich wirken, weil das Protokoll viele Quellen enthält.

Der Fehler steckt in der Redundanz.

Verhalten paralleler Suche	Fehlermodus
Viele Agenten fragen ähnliche Begriffe ab	Quellen überschneiden sich, statt einander zu ergänzen.
Jeder Agent folgt der ersten vielversprechenden Spur	Schwierige fehlende Evidenz bleibt unberührt.
Der Kontext füllt sich mit Auszügen	Der Synthesizer verliert Raum, um über Lücken nachzudenken.
Die Endantwort führt Zusammenfassungen zusammen	Unbelegte Aussagen können die Zusammenführung überleben.
Die Prüfung beginnt beim endgültigen Text	Prüfende müssen die Evidenzabdeckung rückwärts rekonstruieren.

Argus benennt dieses Problem direkt. Die Arbeit argumentiert, dass Deep-Research-Antworten komplementäre Evidenzbausteine kombinieren, während parallele Durchläufe diese Bausteine oft duplizieren, statt sie zu vervollständigen.¹ Zusätzliche Durchläufe können den Aggregationskontext an seine Grenze bringen, ohne die fehlenden Teile zu füllen.¹

Die Lehre lautet nicht: „niemals parallelisieren”. Die Lehre lautet: „gegen eine Karte parallelisieren”.

Was fügt Argus hinzu?

Argus teilt Deep Research in zwei Rollen.

Der Searcher sammelt über ReAct-artige Interaktion Evidenzspuren für eine Teilabfrage.¹ Der Navigator pflegt einen gemeinsamen Evidenzgraphen, prüft, welche Bausteine fehlen, beauftragt Searcher mit deren Beschaffung und schließt aus dem vervollständigten Graphen auf eine quellenbelegte Endantwort.¹

Diese Rollenteilung verändert den Arbeitsgegenstand.

Alter Arbeitsgegenstand	Arbeitsgegenstand in Argus
Suchprotokoll	Evidenzspur
Quellenhaufen	Gemeinsamer Evidenzgraph
Abfrage-Auffächerung	Verteilung nach fehlenden Bausteinen
Endgültiger Text	Quellenbelegte Antwort
Breite Synthese	Abdeckungsbewusste Synthese

Der Navigator gibt dem Agenten ein Gedächtnis dafür, was der Antwort noch fehlt. Ohne diese Schicht können parallele Arbeitsagenten immer wieder Evidenz für dieselbe einfache Aussage zurückbringen.

Argus berichtet außerdem Leistungsgewinne. Mit einem 35B-A3B-MoE-Backbone meldet die Arbeit durchschnittlich über acht Benchmarks hinweg einen Zuwachs von 5,5 Punkten mit einem einzelnen Searcher und 12,7 Punkten mit acht parallelen Searchern.¹ Wichtig ist nicht nur die Punktzahl. Wichtig ist die Architektur, die zusätzliche Searcher nützlich macht.

Searcher werden nützlich, weil der Navigator sie auf fehlende Evidenz richtet.

Was sollte ein Evidenzgraph erfassen?

Ein Evidenzgraph sollte die Antwort darstellen, bevor sich der Text um sie herum verfestigt.

Mindestens erfassen sollte er:

Knotentyp	Zweck
Aussage	Der Satz oder die Teilaussage, die die Antwort machen will.
Quelle	Die Primär- oder Sekundärquelle, die eine Aussage stützt.
Evidenz	Der genaue Auszug, die Tabelle, Abbildung, Befehlsausgabe oder Beobachtung.
Lücke	Eine Aussage mit schwacher, fehlender, veralteter oder indirekter Stützung.
Konflikt	Zwei Quellen oder Beobachtungen, die einander widersprechen.
Geltungsgrenze	Eine Grenze, die Überbehauptungen verhindert.
Definition	Ein Begriff, dessen Bedeutung nachgelagerte Aussagen beeinflusst.
Aufgabenentscheidung	Eine Entscheidung, die der Agent wegen des Evidenzstands getroffen hat.

Kanten sind wichtiger als Knoten.

Kante	Bedeutung
`supports`	Evidenz stützt eine Aussage.
`limits`	Eine Geltungsgrenze verengt eine Aussage.
`contradicts`	Eine Quelle widerspricht einer Aussage oder Quelle.
`depends_on`	Eine Aussage braucht eine andere Aussage oder Definition.
`missing_for`	Eine Lücke blockiert eine Aussage.
`dispatches`	Der Navigator bittet einen Searcher, eine Lücke zu füllen.
`used_in`	Ein Satz der Endantwort hängt von einer Quelle oder einem Evidenzknoten ab.

Der Graph braucht kein akademisches Graphdatenbank-Zeremoniell. Ein JSON-Objekt, eine Spurentabelle oder ein Prüfpaket kann reichen. Entscheidend ist die Prüfbarkeit: Andere Prüfende können sehen, warum die Antwort sagt, was sie sagt.

Warum helfen Evidenzgraphen Prüfenden?

Prüfende brauchen ein kleineres Objekt als das gesamte Protokoll.

Ein Deep-Research-Protokoll kann Dutzende Tool-Aufrufe, Quellen, Zusammenfassungen, Wiederholungen und Notizen enthalten. Prüfende wollen meist Antworten auf schärfere Fragen:

Welche endgültigen Aussagen haben direkte Belege?
Welche Aussagen hängen von sekundärer Interpretation ab?
Welche Quelle erscheint mehrfach unter verschiedenen Zusammenfassungen?
Welche fehlende Frage hat der Agent nicht weiterverfolgt?
Welche Zitation stützt nur Hintergrund, nicht die Kernaussage?
Welche Einschränkung sollte die Endantwort verengen?

Ein Evidenzgraph gibt Prüfenden genau diese Oberfläche.

Frage der Prüfenden	Antwort des Evidenzgraphen
Woher stammt die Kernaussage?	Aussageknoten mit `supports`-Kanten.
Hat der Agent die wissenschaftliche Arbeit überzeichnet dargestellt?	Geltungsgrenzen-Kante an der Aussage.
Haben Arbeitsagenten Arbeit dupliziert?	Mehrere Quellen stützen denselben einfachen Knoten, während Lückenknoten offen bleiben.
Kann die Antwort veröffentlicht werden?	Keine risikoreichen Aussageknoten bleiben unbelegt.
Was sollte ein anderer Agent als Nächstes tun?	Arbeitsverteilung aus ungelösten Lückenknoten.

Diese Form passt natürlich zu Prüfpaketen. Eine Endantwort sollte nicht nur Text liefern. Sie sollte den Evidenzzustand liefern, der den Text hervorgebracht hat.

Wie passt paper.json dazu?

Evidenzgraphen brauchen bessere Quellenobjekte.

Wenn jede wissenschaftliche Arbeit als undifferenziertes PDF in den Graphen gelangt, bleiben die Knoten grob. Ein Aussageknoten kann auf eine Arbeit verweisen, aber nicht leicht auf eine Teilaussage, eine Geltungsgrenze, eine Definition oder einen Reproduktionsbefehl.

paper.json verbessert die Eingabeschicht. Der Vorschlag gibt wissenschaftlichen Arbeiten stabile Aussage-IDs, explizite Listen dessen, was nicht behauptet wird, Shell-Befehle pro Abbildung und stabile Definitions-IDs.² Ein Forschungsagent kann diese IDs als Graphknoten verwenden.

Oberfläche der wissenschaftlichen Arbeit	Knoten im Evidenzgraphen
`claims[].id`	Aussageknoten.
`does_not_claim[]`	Geltungsgrenzen-Knoten.
`definitions[].id`	Definitionsknoten.
`reproducibility.commands[]`	Knoten zur Evidenzerzeugung.
Repository-URL	Quellenknoten.
Schemaversion	Provenienzmetadaten.

Für die Zitierqualität ist diese Verbindung wichtig. Die Antwort kann C2 aus einer wissenschaftlichen Arbeit zitieren, statt vage auf die ganze Arbeit zu verweisen. Der Graph kann außerdem festhalten, dass C2 eine Einschränkung aus does_not_claim[] trägt.

Evidenzgraphen und agentenlesbare wissenschaftliche Arbeiten lösen benachbarte Probleme. Die Paper-Datei macht Evidenz leichter adressierbar. Der Graph macht Evidenz leichter zusammensetzbar.

Wie passt Kontextbeschreibung dazu?

Deep-Research-Agenten müssen außerdem wissen, was wann in den Kontext gelangt ist.

ACDL, die Agentic Context Description Language, zielt auf dieses Problem auf der Prompt-Ebene. Die Arbeit argumentiert, dass Agentensystemen ein Standard fehlt, um Prompt-Zusammensetzung und Kontextdynamik zu beschreiben; stattdessen stützen sie sich auf Prosa, Diagramme oder Codeinspektion.³ ACDL gibt Systemen Konstrukte für Sequenzen von Rollennachrichten, dynamische Inhalte, zeitindexierte Referenzen sowie bedingte oder iterative Strukturen.³

Ein Evidenzgraph sollte mit dem Kontextzustand verbunden sein.

Kontextfakt	Evidenzrisiko
Quelle gelangte vor einer Aussage in den Kontext	Der Agent könnte sie zitieren oder paraphrasieren.
Geltungsgrenze gelangte nicht in den Kontext	Der endgültige Text könnte zu viel behaupten.
Widersprechende Quelle kam spät hinzu	Die Synthese könnte sie ignorieren.
Searcher sah nur einen Zweig	Die Evidenzspur könnte eng sein.
Navigator beauftragte eine neue Abfrage	Ein Lückenknoten löste gezielte Suche aus.

Die Kontextform beeinflusst die Evidenzform. Eine Quelle kann die Antwort nicht stützen, wenn der Synthesizer die relevante Passage nie gesehen hat. Eine Einschränkung kann die Antwort nicht begrenzen, wenn sie niemand in den Kontext gelegt hat.

Deep-Research-Systeme brauchen beides: eine Kontextbeschreibung und einen Evidenzgraphen.

Warum ist Exploration wichtig?

Forschungsagenten können zu früh ausnutzen.

„Look Before You Leap” benennt voreilige Ausnutzung als Fehlermodus für LLM-Agenten in unbekannten Umgebungen.⁴ Die Arbeit führt Exploration Checkpoint Coverage als überprüfbare Metrik dafür ein, ob Agenten vor der Aufgabenbearbeitung zentrale Zustände, Objekte und Handlungsmöglichkeiten entdecken.⁴

Deep Research hat dieselbe Struktur. Agenten können eine plausibel wirkende Spur finden und mit dem Antworten beginnen, bevor sie den Quellenraum verstanden haben.

Ein Evidenzgraph sollte eine Explorationsphase bewahren:

Ermitteln, welche Aussageklassen die Antwort brauchen wird.
Wahrscheinliche Quellentypen kartieren.
Vor Kommentaren nach Primärquellen suchen.
Fehlende Quellenklassen als Lückenknoten festhalten.
Gezielte Suchen für Lücken beauftragen.
Erst synthetisieren, wenn wichtige Lücken geschlossen sind oder ausdrückliche Einschränkungen erhalten haben.

Diese Explorationsphase verhindert, dass der Agent die erste gute Quelle zum Zentrum der Antwort macht.

Der Graph gibt dem Agenten einen Grund weiterzusuchen: Eine offene Lücke bleibt sichtbar.

Was geht ohne Graphen schief?

Lang laufende Forschungsagenten können scheitern, ohne kaputt auszusehen.

ARIS beschreibt den zentralen Fehler als plausibel wirkenden, aber unbelegten Erfolg: Ein lang laufender Agent erzeugt Aussagen, deren Evidenzstützung unvollständig, falsch berichtet oder aus der eigenen Rahmung geerbt ist.⁵ Dieser Fehler kann eine oberflächliche Prüfung bestehen, weil der Abschlussbericht poliert aussieht.

AgentForesight adressiert ein verwandtes Problem in Multi-Agenten-Systemen. Es argumentiert, dass ein einzelner entscheidender Fehler durch eine langfristige Trajektorie kaskadieren kann, während nachträgliche Zuschreibung zu spät kommt, um einzugreifen.⁶ Der Online-Prüfer sieht nur das aktuelle Präfix und muss entscheiden, ob der Lauf fortgesetzt oder Alarm ausgelöst wird, bevor die vollständige Trajektorie endet.⁶

Evidenzgraphen helfen bei beiden Problemen.

Fehler	Graph-Antwort
Plausibel wirkender, aber unbelegter Erfolg	Unbelegte Aussageknoten bleiben sichtbar.
Falsch berichtete Quellenstützung	`supports`-Kanten können gegen Auszüge geprüft werden.
Geerbte Rahmung	Geltungs- und Konfliktknoten stellen den Ausgangsrahmen infrage.
Kaskadierender entscheidender Fehler	Lücken- oder Konfliktknoten können vor der Synthese eine Pause auslösen.
Überlastung durch nachträgliche Prüfung	Prüfende prüfen den Graphzustand, nicht nur den endgültigen Text.

Der Graph garantiert keine Wahrheit. Er gibt Wahrheit eine Struktur, die das Team prüfen kann.

Was sollten Deep-Research-Produkte zeigen?

Deep-Research-Produkte sollten den Evidenzzustand offenlegen.

Benutzer sollten nicht nur eine Endantwort mit Fußnoten sehen. Die Oberfläche sollte zeigen:

Oberfläche	Nutzen für Benutzer
Aussageabdeckung	Welche Aussagen direkte, indirekte oder fehlende Stützung haben.
Evidenzgraph	Wie Quellen mit Antwortabschnitten verbunden sind.
Lückenliste	Welche Fragen unbeantwortet bleiben.
Cluster doppelter Quellen	Wo Suchagenten Aufwand wiederholt haben.
Konfliktliste	Welche Quellen einander widersprechen.
Geltungsgrenzen	Welche Einschränkungen die Antwort begrenzen.
Quellenspur	Welche Suche oder Lektüre jeden Evidenzknoten erzeugt hat.
Prüfentscheidung	Behalten, überarbeiten, blockieren oder weiter recherchieren.

Diese Oberfläche gibt Benutzern eine Möglichkeit, den Lauf zu steuern. Sie können den Agenten bitten, eine bestimmte Lücke zu füllen, statt „recherchiere mehr” zu sagen. Sie können eine schwache Aussage ablehnen, ohne die ganze Antwort zu verwerfen. Sie können erkennen, wann der Agent genug Evidenz hat, um aufzuhören.

Gute Deep-Research-UX sollte fehlende Evidenz sichtbar machen, bevor endgültiger Text sie verdeckt.

Was sollten Teams zuerst bauen?

Beginnen Sie mit einer einfachen Evidenztabelle, bevor Sie eine Graph-Engine bauen.

Feld	Minimale Form
Aussage-ID	`claim_01`, `claim_02` oder importierte Paper-Aussage-ID.
Aussagetext	Der Satz, den die Antwort stützen will.
Quellen-URL	Kanonische URL oder Paper-ID.
Evidenzauszug	Kurze quellenbasierte Passage oder Ergebnis.
Stützungsart	Direkt, indirekt, Hintergrund, Konflikt oder fehlend.
Geltungsgrenze	Einschränkung, die die Aussage verengt.
Suchspur	Abfrage, Tool, Zeitstempel und Agentenrolle.
Status	Gestützt, schwach, widersprüchlich, fehlend oder abgelehnt.

Fügen Sie danach Arbeitsverteilung hinzu:

Vor der Synthese alle hochwertigen fehlenden Aussagen auflisten.
Jede fehlende Aussage mit einer engen Abfrage an einen Searcher senden.
Vom Searcher Evidenz oder einen ausdrücklichen Fehlfund verlangen.
Den Graphen aktualisieren.
Nur aus gestützten und eingeschränkten Aussagen synthetisieren.

Diese erste Version darf schlicht bleiben. Eine Markdown-Tabelle kann ein unsichtbares Protokoll schlagen, wenn sie den Agenten zwingt, Evidenzabdeckung zu zeigen.

Der würdige Standard

Deep-Research-Agenten sollten Vertrauen verdienen, indem sie ihre Evidenzstruktur zeigen.

Mehr Suchen können helfen. Mehr Agenten können helfen. Längerer Kontext kann helfen. Keine dieser Eingaben beweist, dass die Endantwort die fehlenden Bausteine abgedeckt hat.

Ein würdiger Deep-Research-Lauf sollte vier Fragen beantworten:

Welche Aussagen wollte der Agent belegen?
Welche Quellen stützen jede Aussage?
Welche Lücken oder Konflikte bleiben?
Welche Sätze der Endantwort hängen von welcher Evidenz ab?

Wenn diese Antworten sichtbar bleiben, können Benutzer die Arbeit prüfen. Wenn sie in poliertem Text verschwinden, müssen Benutzer einer Zusammenfassung vertrauen, ohne die Belegstruktur zu sehen.

Deep Research braucht Evidenzgraphen, weil Recherche kein Problem der Suchanzahl ist. Recherche ist ein Problem fehlender Bausteine.

Kurzzusammenfassung

Deep-Research-Agenten brauchen Evidenzgraphen, weil parallele Suche einfache Quellencluster duplizieren kann, während wichtige Aussagen unbelegt bleiben. Argus liefert ein starkes Muster: Ein Searcher sammelt Evidenzspuren, während ein Navigator einen gemeinsamen Evidenzgraphen verfolgt, Arbeit auf fehlende Bausteine ausrichtet und eine quellenbelegte Antwort erzeugt.¹

Dieselbe Lehre verbindet sich mit benachbarter Forschung. paper.json verbessert Quellenobjekte auf Ebene wissenschaftlicher Arbeiten.² ACDL beschreibt, wie Kontext in Agentensysteme gelangt.³ Explorationskontrollpunkte machen Informationssammlung überprüfbar.⁴ ARIS und AgentForesight zeigen, warum polierte langfristige Ergebnisse Evidenz und laufende Prüfung brauchen, bevor Fehler kaskadieren.⁵⁶

Die Betriebsregel ist direkt: Fragen Sie einen Deep-Research-Agenten nicht nur nach einer Antwort. Fragen Sie nach dem Evidenzgraphen, der die Antwort möglich gemacht hat.

FAQ

Was ist ein Evidenzgraph für Deep-Research-Agenten?

Ein Evidenzgraph verbindet Aussagen, Quellen, Auszüge, Lücken, Konflikte, Geltungsgrenzen und Sätze der Endantwort. Er lässt Prüfende erkennen, welche Evidenz jeden Teil einer Deep-Research-Antwort stützt.

Warum reicht parallele Suche nicht aus?

Parallele Suche kann Quellen duplizieren und Kontext füllen, ohne fehlende Evidenz zu finden. Deep-Research-Agenten brauchen eine gemeinsame Karte dessen, was der Antwort noch fehlt.

Was hat Argus beigetragen?

Argus teilt Deep Research in Searcher- und Navigator-Rollen. Der Searcher sammelt Evidenzspuren, während der Navigator einen gemeinsamen Evidenzgraphen pflegt, Suchen nach fehlenden Bausteinen beauftragt und eine quellenbelegte Endantwort erzeugt.¹

Wie hängt paper.json mit Evidenzgraphen zusammen?

paper.json gibt wissenschaftlichen Arbeiten stabile Aussage-IDs, Geltungsgrenzen, Definitionen und Reproduktionsbefehle. Evidenzgraphen können diese IDs als präzise Knoten verwenden, statt eine ganze Arbeit nur vage zu zitieren.²

Was sollte ein Produkt Benutzern zeigen?

Ein Produkt sollte Aussageabdeckung, Evidenzlinks, ungelöste Lücken, duplizierte Suchcluster, Quellenkonflikte, Geltungsgrenzen und Prüfentscheidungen zeigen, bevor es Benutzer bittet, dem endgültigen Text zu vertrauen.

Referenzen

Zhen Zhang, Liangcai Su, Zhuo Chen, Xiang Lin, Haotian Xu, Simon Shaolei Du, Kaiyu Yang, Bo An, Lidong Bing, and Xinyu Wang, “Argus: Evidence Assembly for Scalable Deep Research Agents,” arXiv:2605.16217v1, submitted May 15, 2026. Quelle für das Searcher/Navigator-Design, den gemeinsamen Evidenzgraphen, die Verteilung nach fehlenden Bausteinen, quellenbelegte Endantworten und die berichteten Punktgewinne. ↩↩↩↩↩↩↩↩↩
Arquimedes Canedo, “paper.json: A Coordination Convention for LLM-Agent-Actionable Papers,” arXiv:2605.16194v1, submitted May 15, 2026. Quelle für stabile Aussage-IDs, explizite Listen nicht behaupteter Punkte, Reproduktionsbefehle pro Abbildung, stabile Definitions-IDs und den Bedarf an agentenlesbaren Oberflächen für wissenschaftliche Arbeiten. ↩↩↩↩
Noga Peleg Pelc, Gal A. Kaminka, and Yoav Goldberg, “A Language for Describing Agentic LLM Contexts,” arXiv:2605.01920v1, submitted May 3, 2026. Quelle für ACDL, Kontextzusammensetzung, Kontextdynamik, Sequenzen von Rollennachrichten, dynamische Inhalte, zeitindexierte Referenzen und die Kritik an informellen Kontextbeschreibungen. ↩↩↩↩
Ziang Ye, Wentao Shi, Yuxin Liu, Yu Wang, Zhengzhou Cai, Yaorui Shi, Qi Gu, Xunliang Cai, and Fuli Feng, “Look Before You Leap: Autonomous Exploration for LLM Agents,” arXiv:2605.16143v1, submitted May 15, 2026. Quelle für voreilige Ausnutzung, Exploration Checkpoint Coverage und die Explore-then-Act-Rahmung. ↩↩↩↩
Ruofeng Yang, Yongcan Li, and Shuai Li, “ARIS: Autonomous Research via Adversarial Multi-Agent Collaboration,” arXiv:2605.03042v1, submitted May 4, 2026. Quelle für den Fehlermodus des plausibel wirkenden, aber unbelegten Erfolgs bei lang laufenden Forschungsagenten und den Bedarf an adversarial Prüfung von Zwischenartefakten der Recherche. ↩↩↩
Yiming Zhang, Pei Zhou, Jiahao Liu, Yifan Chen, Runzhe Yang, Zhenhailong Wang, Jiayi Pan, Chen Qian, Dong Li, and Heng Ji, “AgentForesight: Online Auditing for Early Failure Prediction in Multi-Agent Systems,” arXiv:2605.08715v2, revised May 13, 2026. Quelle für Kaskaden entscheidender Fehler, Online-Auditing, Trajektorienpräfixprüfung und die Rahmung früher Alarme. ↩↩↩↩