Agenci do pogłębionych badań potrzebują grafów dowodowych

Q: Jak paper.json wiąże się z grafami dowodowymi?

paper.json daje pracom naukowym stabilne identyfikatory twierdzeń, ograniczenia zakresu, definicje i polecenia reprodukcji. Grafy dowodowe mogą używać tych identyfikatorów jako precyzyjnych węzłów zamiast luźno cytować całą pracę.2

12 min read

15 maja 2026 roku Zhen Zhang i współautorzy opublikowali Argus, system agentów do pogłębionych badań, który traktuje badanie jako składanie dowodów, a nie jako równoległe wyszukiwanie siłowe.¹

Ta różnica jest istotna.

Agenci do pogłębionych badań mogą uruchamiać wiele wyszukiwań, otwierać wiele stron i pisać długie odpowiedzi. Sama długa odpowiedź nie dowodzi jednak, że agent znalazł brakujący dowód. Równoległe wyszukiwanie może powielać ten sam klaster źródeł, wpychać do kontekstu kolejne fragmenty i nadal zostawiać najtrudniejszy element bez wsparcia.

Agenci do pogłębionych badań potrzebują grafów dowodowych. Agent powinien wiedzieć, które twierdzenia wymagają uzasadnienia, jakie elementy dowodowe już istnieją, czego nadal brakuje i które zdania końcowej odpowiedzi zależą od których źródeł.

TL;DR

Postępu agentów do pogłębionych badań nie należy mierzyć liczbą uruchomionych wyszukiwań ani ilością wypełnionego kontekstu. Należy go mierzyć pokryciem dowodowym.

Argus nadaje tej dziedzinie użyteczny kształt. Searcher zbiera ślady dowodowe dla podzapytań, a Navigator utrzymuje współdzielony graf dowodowy, sprawdza, których elementów nadal brakuje, zleca dalsze wyszukiwania i tworzy końcową odpowiedź ze śladem źródłowym.¹ To przesuwa pogłębione badanie z logiki „uruchomić więcej agentów” w stronę „złożyć brakujący dowód”.

Ten sam wzorzec widać w nowszych badaniach nad agentami. paper.json nadaje pracom naukowym adresowalne twierdzenia i granice zakresu.² ACDL daje kontekstowi agenta formalny język opisu.³ Prace nad eksploracją pokazują, że agenci potrzebują weryfikowalnych punktów kontrolnych przed działaniem.⁴ ARIS ujmuje centralną porażkę długohoryzontowych badań jako wiarygodnie wyglądający sukces bez wsparcia.⁵ AgentForesight wskazuje na potrzebę audytu online, zanim jeden decydujący błąd rozleje się po przebiegu wielu agentów.⁶

Praktyczna zasada jest prosta: każda odpowiedź z pogłębionego badania powinna mieć graf dowodowy albo pakiet recenzencki pokazujący, co agent udowodnił, co wywnioskował i co pozostaje nierozstrzygnięte.

Najważniejsze wnioski

Dla osób budujących agentów: - Należy śledzić dowody jako graf twierdzeń, źródeł, luk i zależności. - Wyszukiwania należy kierować ku brakującym dowodom, zamiast powtarzać szerokie zapytania.

Dla zespołów produktowych: - Warto pokazywać pokrycie źródłowe, nierozwiązane twierdzenia i straty wynikające z powielonego wyszukiwania. - Recenzenci powinni móc sprawdzić, dlaczego końcowa odpowiedź cytuje każde źródło.

Dla badaczy: - Zbieranie dowodów należy oddzielić od syntezy odpowiedzi. - Oceniać trzeba pokrycie i śledzalność, a nie tylko wynik końcowej odpowiedzi.

Dla operatorów: - Pewnie brzmiący długi raport należy traktować jako niedokończony, dopóki graf dowodowy nie domknie ważnych luk. - Przed przyjęciem odpowiedzi warto zapytać, którym twierdzeniom nadal brakuje pierwotnego wsparcia.

Dlaczego równoległe wyszukiwanie się zacina?

Równoległe wyszukiwanie sprawia wrażenie postępu.

Wystarczy dać dziesięciu agentom to samo pytanie badawcze, a system zaczyna wyglądać na aktywny. Agenci wyszukują, streszczają, porównują i zwracają częściowe ustalenia. Końcowa synteza może wyglądać solidnie, bo transkrypt zawiera wiele źródeł.

Błąd ukrywa się w nadmiarowości.

Zachowanie wyszukiwania równoległego	Tryb awarii
Wielu agentów odpytuje podobne terminy	Źródła nakładają się na siebie zamiast się uzupełniać.
Każdy agent podąża pierwszym obiecującym tropem	Trudny brakujący dowód pozostaje nietknięty.
Kontekst wypełnia się fragmentami	Syntezator traci miejsce na rozumowanie o lukach.
Końcowa odpowiedź scala streszczenia	Niepoparte twierdzenia mogą przetrwać scalenie.
Recenzja zaczyna się od końcowej prozy	Recenzent musi odtwarzać pokrycie dowodowe wstecz.

Argus nazywa ten problem wprost. Autorzy pracy argumentują, że odpowiedzi z pogłębionych badań łączą uzupełniające się elementy dowodowe, podczas gdy równoległe przebiegi często powielają te elementy zamiast je dopełniać.¹ Większa liczba przebiegów może dopychać kontekst agregacji do limitu, nie uzupełniając brakujących części.¹

Lekcja nie brzmi „nigdy nie równoleglić”. Brzmi: „równoleglić względem mapy”.

Co wnosi Argus?

Argus dzieli pogłębione badanie na dwie role.

Searcher zbiera ślady dowodowe dla podzapytania poprzez interakcję w stylu ReAct.¹ Navigator utrzymuje współdzielony graf dowodowy, weryfikuje, których elementów nadal brakuje, wysyła Searcherów po te elementy i rozumuje na podstawie ukończonego grafu, aby stworzyć końcową odpowiedź ze śladem źródłowym.¹

Ten podział ról zmienia obiekt pracy.

Stary obiekt pracy	Obiekt pracy w Argus
Transkrypt wyszukiwania	Ślad dowodowy
Stos źródeł	Współdzielony graf dowodowy
Rozgałęzienie zapytań	Zlecanie brakujących elementów
Końcowa proza	Odpowiedź ze śladem źródłowym
Szeroka synteza	Synteza świadoma pokrycia

Navigator daje agentowi pamięć o tym, czego odpowiedzi nadal brakuje. Bez tej warstwy równolegli pracownicy mogą wciąż przynosić dowody dla tego samego łatwego twierdzenia.

Argus raportuje też wzrost wyników. Przy szkielecie 35B-A3B MoE praca podaje, że Argus zyskuje średnio 5,5 punktu z jednym Searcherem i 12,7 punktu z ośmioma równoległymi Searcherami w ośmiu benchmarkach.¹ Najważniejszy nie jest wyłącznie wynik. Ważna jest architektura, która sprawia, że dodatkowi wyszukujący są użyteczni.

Searcherzy stają się użyteczni, ponieważ Navigator kieruje ich do brakujących dowodów.

Co powinien śledzić graf dowodowy?

Graf dowodowy powinien reprezentować odpowiedź, zanim proza stwardnieje wokół niej.

Minimum obejmuje:

Typ węzła	Cel
Twierdzenie	Zdanie lub podtwierdzenie, które odpowiedź chce postawić.
Źródło	Źródło pierwotne lub wtórne wspierające twierdzenie.
Dowód	Dokładny fragment, tabela, figura, wynik polecenia albo obserwacja.
Luka	Twierdzenie ze słabym, brakującym, nieaktualnym albo pośrednim wsparciem.
Konflikt	Dwa źródła albo obserwacje, które się nie zgadzają.
Ograniczenie zakresu	Granica zapobiegająca nadmiernemu uogólnieniu.
Definicja	Termin, którego znaczenie wpływa na dalsze twierdzenia.
Decyzja zadaniowa	Wybór dokonany przez agenta ze względu na stan dowodów.

Krawędzie są ważniejsze niż węzły.

Krawędź	Znaczenie
`supports`	Dowód wspiera twierdzenie.
`limits`	Ograniczenie zakresu zawęża twierdzenie.
`contradicts`	Źródło jest sprzeczne z twierdzeniem albo źródłem.
`depends_on`	Twierdzenie wymaga innego twierdzenia albo definicji.
`missing_for`	Luka blokuje twierdzenie.
`dispatches`	Navigator prosi Searchera o wypełnienie luki.
`used_in`	Zdanie końcowej odpowiedzi zależy od źródła albo węzła dowodowego.

Graf nie potrzebuje akademickiej ceremonii bazy grafowej. Może wystarczyć obiekt JSON, tabela śladów albo pakiet recenzencki. Kluczowa właściwość to możliwość kontroli: inny recenzent widzi, dlaczego odpowiedź mówi to, co mówi.

Dlaczego grafy dowodowe pomagają recenzentom?

Recenzenci potrzebują obiektu mniejszego niż cały transkrypt.

Transkrypt pogłębionego badania może obejmować dziesiątki wywołań narzędzi, źródeł, streszczeń, ponowień i notatek. Recenzent zwykle chce odpowiedzi na ostrzejsze pytania:

Które końcowe twierdzenia mają bezpośrednie wsparcie?
Które twierdzenia zależą od interpretacji wtórnej?
Które źródło pojawia się więcej niż raz pod różnymi streszczeniami?
Jakie brakujące pytanie agent przestał ścigać?
Który cytat wspiera tylko tło, a nie kluczowe twierdzenie?
Jakie ograniczenie powinno zawęzić końcową odpowiedź?

Graf dowodowy daje recenzentom taką powierzchnię.

Pytanie recenzenta	Odpowiedź grafu dowodowego
Skąd pochodzi kluczowe twierdzenie?	Węzeł twierdzenia z krawędziami `supports`.
Czy agent przecenił wymowę pracy?	Krawędź ograniczenia zakresu przypięta do twierdzenia.
Czy pracownicy powielili wysiłek?	Wiele źródeł wspiera ten sam łatwy węzeł, podczas gdy węzły luk pozostają otwarte.
Czy odpowiedź można opublikować?	Brak niewspartych węzłów twierdzeń wysokiego ryzyka.
Co powinien zrobić następny agent?	Zlecenie wynikające z nierozwiązanych węzłów luk.

Ten kształt naturalnie łączy się z pakietami recenzenckimi. Końcowa odpowiedź nie powinna dostarczać wyłącznie prozy. Powinna też dostarczać stan dowodów, z którego ta proza powstała.

Jak pasuje do tego paper.json?

Grafy dowodowe potrzebują lepszych obiektów źródłowych.

Jeżeli każda praca naukowa trafia do grafu jako jeden nierozróżniony PDF, graf nadal ma zgrubne węzły. Węzeł twierdzenia może linkować do pracy, ale nie może łatwo linkować do podtwierdzenia, ograniczenia zakresu, definicji albo polecenia reprodukcji.

paper.json poprawia warstwę wejściową. Propozycja daje pracom stabilne identyfikatory twierdzeń, jawne listy tego, czego praca nie twierdzi, polecenia shellowe dla poszczególnych figur oraz stabilne identyfikatory definicji.² Agent badawczy może używać tych identyfikatorów jako węzłów grafu.

Powierzchnia pracy	Węzeł grafu dowodowego
`claims[].id`	Węzeł twierdzenia.
`does_not_claim[]`	Węzeł ograniczenia zakresu.
`definitions[].id`	Węzeł definicji.
`reproducibility.commands[]`	Węzeł wytwarzania dowodu.
URL repozytorium	Węzeł źródła.
Wersja schematu	Metadane pochodzenia.

To połączenie ma znaczenie dla jakości cytowania. Odpowiedź może cytować C2 z pracy, zamiast mgliście wskazywać całą pracę. Graf może też zapisać, że C2 niesie ograniczenie z does_not_claim[].

Grafy dowodowe i prace czytelne dla agentów rozwiązują sąsiednie problemy. Plik pracy ułatwia adresowanie dowodów. Graf ułatwia składanie dowodów.

Jak pasuje do tego opis kontekstu?

Agenci do pogłębionych badań muszą też wiedzieć, co trafiło do kontekstu i kiedy.

ACDL, czyli Agentic Context Description Language, celuje w ten problem na warstwie promptu. Autorzy pracy argumentują, że systemom agentowym brakuje standardowego sposobu opisywania kompozycji promptu i dynamiki kontekstu; zamiast tego polegają na prozie, diagramach albo inspekcji kodu.³ ACDL daje systemom konstrukcje dla sekwencji wiadomości ról, dynamicznej treści, odniesień indeksowanych czasowo oraz struktury warunkowej albo iteracyjnej.³

Graf dowodowy powinien łączyć się ze stanem kontekstu.

Fakt o kontekście	Ryzyko dowodowe
Źródło weszło do kontekstu przed twierdzeniem	Agent może je cytować albo parafrazować.
Ograniczenie zakresu nie weszło do kontekstu	Końcowa proza może nadmiernie uogólniać.
Sprzeczne źródło dotarło późno	Synteza może je pominąć.
Searcher zobaczył tylko jedną gałąź	Ślad dowodowy może być wąski.
Navigator zlecił nowe zapytanie	Węzeł luki spowodował ukierunkowane wyszukiwanie.

Kształt kontekstu wpływa na kształt dowodów. Źródło nie może wspierać odpowiedzi, jeśli syntezator nigdy nie zobaczył właściwego fragmentu. Ograniczenie nie może zawęzić odpowiedzi, jeśli nikt nie włożył go do kontekstu.

Systemy pogłębionego badania potrzebują obu obiektów: opisu kontekstu i grafu dowodowego.

Dlaczego eksploracja ma znaczenie?

Agenci badawczy mogą zbyt wcześnie przejść do eksploatacji.

„Look Before You Leap” nazywa przedwczesną eksploatację trybem awarii agentów LLM w nieznanych środowiskach.⁴ Praca wprowadza Exploration Checkpoint Coverage jako weryfikowalną metrykę tego, czy agenci odkrywają kluczowe stany, obiekty i możliwości działania przed wykonaniem zadania.⁴

Pogłębione badanie ma ten sam kształt. Agenci mogą znaleźć jeden wiarygodny trop i zacząć odpowiadać, zanim zrozumieją przestrzeń źródeł.

Graf dowodowy powinien zachować fazę eksploracji:

Określić klasy twierdzeń, których będzie wymagała odpowiedź.
Zmapować prawdopodobne typy źródeł.
Szukać źródeł pierwotnych przed komentarzami.
Zapisać brakujące klasy źródeł jako węzły luk.
Zlecić ukierunkowane wyszukiwania dla luk.
Syntezować dopiero po domknięciu ważnych luk albo opatrzeniu ich jawnymi zastrzeżeniami.

Taka faza eksploracji powstrzymuje agenta przed potraktowaniem pierwszego dobrego źródła jako centrum odpowiedzi.

Graf daje agentowi powód, by szukać dalej: otwarta luka pozostaje widoczna.

Co psuje się bez grafu?

Długotrwałe agenty badawcze mogą zawodzić, nie wyglądając na zepsute.

ARIS ujmuje centralną porażkę jako wiarygodnie wyglądający sukces bez wsparcia: długotrwały agent tworzy twierdzenia, których wsparcie dowodowe pozostaje niepełne, błędnie przedstawione albo odziedziczone po własnym ujęciu problemu.⁵ Taka porażka może przejść pobieżną recenzję, bo końcowy raport wygląda na dopracowany.

AgentForesight atakuje pokrewny problem w systemach wieloagentowych. Argumentuje, że jeden decydujący błąd może kaskadowo przejść przez długohoryzontową trajektorię, a atrybucja po fakcie przychodzi zbyt późno, by interweniować.⁶ Jego audytor online widzi tylko bieżący prefiks i musi zdecydować, czy kontynuować, czy podnieść alarm, zanim cała trajektoria się zakończy.⁶

Grafy dowodowe pomagają w obu problemach.

Awaria	Odpowiedź grafu
Wiarygodnie wyglądający sukces bez wsparcia	Niewspierane węzły twierdzeń pozostają widoczne.
Błędnie przedstawione wsparcie źródłowe	Krawędzie `supports` można sprawdzić względem fragmentów.
Odziedziczone ujęcie problemu	Węzły zakresu i konfliktu podważają początkową ramę.
Kaskadowy decydujący błąd	Węzły luk albo konfliktów mogą wywołać pauzę przed syntezą.
Przeciążenie recenzją po fakcie	Recenzent sprawdza stan grafu, a nie tylko końcową prozę.

Graf nie gwarantuje prawdy. Daje prawdzie strukturę, którą zespół może audytować.

Co powinny pokazywać produkty do pogłębionych badań?

Produkty do pogłębionych badań powinny ujawniać stan dowodów.

Użytkownik nie powinien widzieć wyłącznie końcowej odpowiedzi z przypisami. Interfejs powinien pokazywać:

Powierzchnia	Wartość dla użytkownika
Pokrycie twierdzeń	Które twierdzenia mają wsparcie bezpośrednie, pośrednie albo brakujące.
Graf dowodowy	Jak źródła łączą się z sekcjami odpowiedzi.
Lista luk	Które pytania pozostają bez odpowiedzi.
Klaster powielonych źródeł	Gdzie pracownicy wyszukiwania powtórzyli wysiłek.
Lista konfliktów	Które źródła się nie zgadzają.
Ograniczenia zakresu	Jakie zastrzeżenia zawężają odpowiedź.
Ślad źródłowy	Które wyszukiwanie albo odczyt wytworzył dany węzeł dowodowy.
Decyzja recenzenta	Zachować, poprawić, zablokować albo kontynuować badanie.

Taki interfejs daje użytkownikom sposób sterowania przebiegiem. Mogą poprosić agenta o wypełnienie konkretnej luki, zamiast mówić „proszę zbadać więcej”. Mogą odrzucić słabe twierdzenie bez wyrzucania całej odpowiedzi. Widzą też, kiedy agent ma wystarczająco dużo dowodów, aby się zatrzymać.

Dobre UX pogłębionego badania powinno uwidaczniać brakujące dowody, zanim końcowa proza je ukryje.

Co zespoły powinny zbudować najpierw?

Przed budową silnika grafowego warto zacząć od prostej tabeli dowodów.

Pole	Minimalny kształt
ID twierdzenia	`claim_01`, `claim_02` albo zaimportowany identyfikator twierdzenia z pracy.
Tekst twierdzenia	Zdanie, które odpowiedź chce wesprzeć.
URL źródła	Kanoniczny URL albo identyfikator pracy.
Fragment dowodowy	Krótki fragment albo wynik oparty na źródle.
Typ wsparcia	Bezpośrednie, pośrednie, tło, konflikt albo brak.
Ograniczenie zakresu	Zastrzeżenie zawężające twierdzenie.
Ślad wyszukiwania	Zapytanie, narzędzie, znacznik czasu i rola agenta.
Status	Wspierane, słabe, sprzeczne, brakujące albo odrzucone.

Następnie należy dodać zlecanie:

Przed syntezą wypisać wszystkie brakujące twierdzenia o wysokiej wartości.
Wysłać każde brakujące twierdzenie do Searchera z wąskim zapytaniem.
Wymagać od Searchera dowodu albo jawnego braku trafienia.
Zaktualizować graf.
Syntezować wyłącznie z twierdzeń wspartych i opatrzonych zastrzeżeniami.

Pierwsza wersja może pozostać prosta. Tabela Markdown może być lepsza niż niewidzialny transkrypt, jeśli zmusza agenta do pokazania pokrycia dowodowego.

Standard wart zaufania

Agenci do pogłębionych badań powinni zdobywać zaufanie przez ujawnianie struktury dowodów.

Więcej wyszukiwań może pomóc. Więcej agentów może pomóc. Dłuższy kontekst może pomóc. Żaden z tych wkładów nie dowodzi jednak, że końcowa odpowiedź pokryła brakujące elementy.

Wartościowy przebieg pogłębionego badania powinien odpowiadać na 4 pytania:

Jakie twierdzenia agent próbował udowodnić?
Które źródła wspierają każde twierdzenie?
Jakie luki albo konflikty pozostają?
Które zdania końcowe zależą od których dowodów?

Gdy te odpowiedzi pozostają widoczne, użytkownicy mogą recenzować pracę. Gdy znikają w dopracowanej prozie, użytkownicy muszą ufać streszczeniu, nie widząc kształtu dowodu.

Pogłębione badanie potrzebuje grafów dowodowych, bo badanie nie jest problemem liczby wyszukiwań. Jest problemem brakujących elementów.

Krótkie podsumowanie

Agenci do pogłębionych badań potrzebują grafów dowodowych, ponieważ równoległe wyszukiwanie może powielać łatwe klastry źródeł, podczas gdy ważne twierdzenia pozostają bez wsparcia. Argus daje mocny wzorzec: Searcher zbiera ślady dowodowe, a Navigator śledzi współdzielony graf dowodowy, zleca pracę nad brakującymi elementami i tworzy odpowiedź ze śladem źródłowym.¹

Ta sama lekcja łączy się z sąsiednimi badaniami. paper.json poprawia obiekty źródłowe na poziomie pracy.² ACDL opisuje, jak kontekst trafia do systemów agentowych.³ Punkty kontrolne eksploracji czynią zbieranie informacji weryfikowalnym.⁴ ARIS i AgentForesight pokazują, dlaczego dopracowane wyniki długohoryzontowe potrzebują dowodów i recenzji online, zanim błędy zaczną się kaskadowo rozchodzić.⁵⁶

Zasada operacyjna jest bezpośrednia: od agenta do pogłębionych badań nie należy żądać wyłącznie odpowiedzi. Należy zażądać grafu dowodowego, który tę odpowiedź umożliwił.

FAQ

Czym jest graf dowodowy dla agentów do pogłębionych badań?

Graf dowodowy łączy twierdzenia, źródła, fragmenty, luki, konflikty, ograniczenia zakresu i zdania końcowej odpowiedzi. Pozwala recenzentom zobaczyć, które dowody wspierają każdą część odpowiedzi z pogłębionego badania.

Dlaczego równoległe wyszukiwanie nie wystarcza?

Równoległe wyszukiwanie może powielać źródła i wypełniać kontekst bez znajdowania brakujących dowodów. Agenci do pogłębionych badań potrzebują współdzielonej mapy tego, czego odpowiedzi nadal brakuje.

Co wniósł Argus?

Argus podzielił pogłębione badanie na role Searchera i Navigatora. Searcher zbiera ślady dowodowe, a Navigator utrzymuje współdzielony graf dowodowy, zleca wyszukiwania brakujących elementów i tworzy końcową odpowiedź ze śladem źródłowym.¹

Jak paper.json wiąże się z grafami dowodowymi?

paper.json daje pracom naukowym stabilne identyfikatory twierdzeń, ograniczenia zakresu, definicje i polecenia reprodukcji. Grafy dowodowe mogą używać tych identyfikatorów jako precyzyjnych węzłów zamiast luźno cytować całą pracę.²

Co produkt powinien pokazywać użytkownikom?

Produkt powinien pokazywać pokrycie twierdzeń, linki dowodowe, nierozwiązane luki, klastry powielonego wyszukiwania, konflikty źródeł, ograniczenia zakresu i decyzje recenzenckie, zanim poprosi użytkowników o zaufanie końcowej prozie.

Źródła

Zhen Zhang, Liangcai Su, Zhuo Chen, Xiang Lin, Haotian Xu, Simon Shaolei Du, Kaiyu Yang, Bo An, Lidong Bing, and Xinyu Wang, “Argus: Evidence Assembly for Scalable Deep Research Agents,” arXiv:2605.16217v1, submitted May 15, 2026. Źródło dla projektu Searcher/Navigator, współdzielonego grafu dowodowego, zlecania brakujących elementów, końcowych odpowiedzi ze śladem źródłowym oraz raportowanego wzrostu wyników. ↩↩↩↩↩↩↩↩↩
Arquimedes Canedo, “paper.json: A Coordination Convention for LLM-Agent-Actionable Papers,” arXiv:2605.16194v1, submitted May 15, 2026. Źródło dla stabilnych identyfikatorów twierdzeń, jawnych list tego, czego praca nie twierdzi, poleceń reprodukcji dla poszczególnych figur, stabilnych identyfikatorów definicji oraz potrzeby powierzchni prac czytelnych dla agentów. ↩↩↩↩
Noga Peleg Pelc, Gal A. Kaminka, and Yoav Goldberg, “A Language for Describing Agentic LLM Contexts,” arXiv:2605.01920v1, submitted May 3, 2026. Źródło dla ACDL, kompozycji kontekstu, dynamiki kontekstu, sekwencji wiadomości ról, dynamicznej treści, odniesień indeksowanych czasowo oraz krytyki nieformalnych opisów kontekstu. ↩↩↩↩
Ziang Ye, Wentao Shi, Yuxin Liu, Yu Wang, Zhengzhou Cai, Yaorui Shi, Qi Gu, Xunliang Cai, and Fuli Feng, “Look Before You Leap: Autonomous Exploration for LLM Agents,” arXiv:2605.16143v1, submitted May 15, 2026. Źródło dla przedwczesnej eksploatacji, Exploration Checkpoint Coverage oraz ramy Explore-then-Act. ↩↩↩↩
Ruofeng Yang, Yongcan Li, and Shuai Li, “ARIS: Autonomous Research via Adversarial Multi-Agent Collaboration,” arXiv:2605.03042v1, submitted May 4, 2026. Źródło dla trybu awarii polegającego na wiarygodnie wyglądającym sukcesie bez wsparcia u długotrwałych agentów badawczych oraz potrzeby kontradyktoryjnej recenzji pośrednich artefaktów badawczych. ↩↩↩
Yiming Zhang, Pei Zhou, Jiahao Liu, Yifan Chen, Runzhe Yang, Zhenhailong Wang, Jiayi Pan, Chen Qian, Dong Li, and Heng Ji, “AgentForesight: Online Auditing for Early Failure Prediction in Multi-Agent Systems,” arXiv:2605.08715v2, revised May 13, 2026. Źródło dla kaskad decydujących błędów, audytu online, recenzji prefiksu trajektorii oraz ramy wczesnego alarmowania. ↩↩↩↩