Ślady wykonania agentów są kontraktem środowiska wykonawczego

Trzy nowe prace o agentach dochodzą do tego samego wniosku z różnych stron: końcowa odpowiedź jest najsłabszą jednostką zaufania. SHEPHERD zamienia wykonanie agenta w typowany ślad, który można rozgałęziać. Koncepcja magazynu przepływów pracy AI przekonuje, że powtarzalna praca agentów powinna działać jako zaprojektowane przepływy pracy wielokrotnego użytku, a nie jako improwizowane plany. WildClawBench ocenia agentów w natywnych środowiskach wiersza poleceń, z prawdziwymi narzędziami, audytami skutków ubocznych i kontrolą trajektorii, a nie wyłącznie na podstawie końcowych odpowiedzi.¹²³

Niezawodność agentów mieści się dziś w śladzie wykonania, artefakcie przepływu pracy i ewaluatorze środowiska wykonawczego. Transkrypcja czatu może wyjaśnić, co agent twierdzi, że zrobił. Ślad może pokazać, czego dotknął. Przepływ pracy może ograniczyć to, co wolno mu zrobić następnym razem. Benchmark w natywnym środowisku wykonawczym może zmierzyć, czy model, narzędzia, stan i pętla sterowania zadziałały razem.

Wcześniej argumentowałem już, że zarządzani agenci wchłaniają infrastrukturę środowiska wykonawczego. Pisałem też, że warstwa porządkowania jest prawdziwym rynkiem agentów AI. Ten tekst ma węższy zakres: kontraktem leżącym pod obiema tezami jest zapis wykonania agenta. Jeśli śladu nie da się sprawdzić, rozgałęzić, odtworzyć, użyć ponownie i ocenić, system agentowy nie jest jeszcze systemem, któremu można zaufać na dużą skalę.

Powiązane teksty opisują powierzchnię sterowania, próg dowodowy i pętlę umiejętności: Czat jest złym interfejsem dla agentów AI, Próg dowodowy i Statyczne umiejętności to martwe umiejętności. Kontrakt śladu leży pod wszystkimi trzema.

TL;DR

Systemy agentowe coraz bardziej odchodzą od ewaluacji końcowej odpowiedzi. SHEPHERD zapisuje każdą interakcję agenta ze środowiskiem jako typowane zdarzenie w śladzie podobnym do Git, w którym wcześniejsze stany można rozgałęziać i odtwarzać.¹ Koncepcja magazynu przepływów pracy AI proponuje utwardzone przepływy pracy wielokrotnego użytku, które rozkładają koszt właściwego projektu, testowania, ewaluacji adwersarialnej i etapowego wdrożenia na wielu użytkowników, zamiast ponosić go przy każdym zapytaniu.² WildClawBench pokazuje, dlaczego środowisko wykonawcze ma znaczenie: jego 60 długich zadań działa w prawdziwych środowiskach agentowych CLI z prawdziwymi narzędziami, trwa średnio około 8 minut, obejmuje ponad 20 wywołań narzędzi i korzysta z hybrydowego oceniania, które audytuje artefakty oraz skutki uboczne w środowisku.³

Praktyczna zmiana brzmi: nie wystarczy pytać, czy odpowiedź jest poprawna. Trzeba pytać, czy ślad da się sprawdzić, czy przepływ pracy nadaje się do ponownego użycia i czy ewaluacja odbyła się w tym środowisku wykonawczym, w którym agent naprawdę pracuje.

Najważniejsze wnioski

Dla twórców agentów: - Ślad wykonania należy traktować jak kontrakt produktu. Wywołania narzędzi, argumenty, stany wyjścia, zmiany w plikach, skutki uboczne i punkty decyzyjne powinny być logowane w strukturze, którą może sprawdzić inny proces. - Powtarzalne zadania o wysokiej stawce warto awansować do sprawdzonych przepływów pracy. Improwizacja pasuje do rozpoznania; powtarzalna praca zasługuje na artefakt wielokrotnego użytku, z testami i ograniczeniami.

Dla zespołów ewaluacyjnych: - Należy oceniać model razem ze środowiskiem wykonawczym, a nie model w izolacji. WildClawBench raportuje, że sama zmiana środowiska CLI może przesunąć wynik jednego modelu nawet o 18 punktów.³ - Kontrole deterministyczne trzeba oddzielać od ocen semantycznych. Istnienie pliku, poprawność formatu, czystość przestrzeni roboczej i skutki uboczne w usługach nie powinny wymagać sędziego LLM.³

Dla operatorów: - Nie należy kupować „niezawodności agentów”, jeśli dostawca nie potrafi pokazać śladu. Transkrypcja, diff albo zdanie o sukcesie nie wystarczają. - Lokalne reguły oceny warto trzymać blisko produktu. Zarządzane ślady mogą pokazać, co się wydarzyło; nie zdecydują, co zasługuje na publikację.

Dlaczego końcowa odpowiedź jest zbyt słaba?

Końcowe odpowiedzi kompresują niewłaściwe informacje.

Agent może napisać, że testy przeszły, choć ich nie uruchomił. Może opisać migrację bez przeczytania miejsc, które z niej korzystają niżej w systemie. Może wytworzyć poprawny końcowy artefakt ścieżką narzędziową, która dotknęła danych, jakich użytkownik nigdy nie chciał ujawniać. Odpowiedź może wyglądać czysto, podczas gdy ścieżka wykonania pozostaje niebezpieczna, rozrzutna albo niemożliwa do odtworzenia.

To główny argument tekstu Nagradzaj narzędzie przed odpowiedzią: odpowiedzi nie da się uczciwie punktować, gdy brakuje stojących za nią dowodów narzędziowych. Najnowsze badania przesuwają tę samą ideę pod raport końcowy. Sam ślad staje się obiektem, który muszą sprawdzać inni agenci, oceniający i operatorzy.

WildClawBench wskazuje benchmarkową wersję tego problemu. Autorzy twierdzą, że wiele benchmarków agentowych nadal opiera się na syntetycznych piaskownicach, krótkich zadaniach, atrapach API i kontrolach końcowej odpowiedzi. Ich benchmark uruchamia natomiast rzeczywistych agentów CLI w kontenerach Docker i po zakończeniu pracy agenta ocenia wytworzone artefakty, stan środowiska oraz kryteria semantyczne.³ Różnica jest ważna, bo długa praca psuje się przez skutki uboczne i wybory środowiska wykonawczego, a nie tylko przez błędny tekst.

Co wnosi SHEPHERD?

SHEPHERD traktuje wykonanie agenta jak obiekt pierwszej klasy, na którym może pracować inny agent.¹

Praca definiuje meta-agentów jako agentów wyższego rzędu, którzy nadzorują, optymalizują albo trenują innych agentów. Tacy meta-agenci potrzebują czegoś więcej niż transkrypcji. Muszą czytać wykonanie w trakcie, rozgałęziać przebieg przed ryzykownymi turami, odtwarzać wcześniejsze stany i porównywać gałęzie bez zanieczyszczania przebiegu nadrzędnego.

SHEPHERD daje im takie podłoże. Środowisko wykonawcze zapisuje każdą interakcję agenta ze środowiskiem jako typowane zdarzenie w śladzie wykonania podobnym do Git. Każde działanie staje się częścią grafu commitów. Meta-agent może subskrybować typowany strumień zdarzeń, pobrać wcześniejszy commit, rozgałęzić zakres, odtworzyć końcówkę i scalić wybraną gałąź.¹

Ślad niesie semantyczną obietnicę, której zwykłe logi czatu nie niosą:

Właściwość	Dlaczego ma znaczenie
Typowane zdarzenia	Nadzorcy mogą rozumować na operacjach, zamiast parsować prozę.
Dokładne cofnięcie	Nieudaną ścieżkę można przywrócić do znanego wcześniejszego stanu.
Izolowane rozgałęzienie	Alternatywne gałęzie nie mogą przepuszczać zmian do przebiegu nadrzędnego.
Odtwarzanie	Oceniający może ponownie uruchomić tylko dotkniętą końcówkę, zamiast zaczynać od początku.
Ponowne użycie pamięci podręcznej	Rozgałęzianie staje się na tyle tanie, że można je stosować podczas prawdziwej pracy agenta.

Raportowane liczby konkretyzują to podłoże. W benchmarku autorów SHEPHERD rozgałęzia proces agenta i system plików szybciej niż Docker, a przy odtwarzaniu raportuje ponowne użycie pamięci podręcznej zapytań powyżej 95%. W ich przykładach nadzorca działający na żywo podnosi łączny odsetek zaliczeń CooperBench z 28,8% do 54,7%, a konfiguracja Tree-RL poprawia wynik TerminalBench-2 z 34,2% do 39,4% w raportowanej konfiguracji.¹

Nie należy odczytywać tych liczb jako uniwersalnej gwarancji produkcyjnej. Ważny jest kształt rozwiązania: nadzór, optymalizacja i trening poprawiają się wtedy, gdy środowisko wykonawcze daje innemu procesowi ustrukturyzowany dostęp do wykonania, a nie tylko końcowy wynik.

Co wnosi magazyn przepływów pracy AI?

Praca o magazynie przepływów pracy AI atakuje ten sam problem niezawodności od strony ponownego użycia.²

Autorzy twierdzą, że typowa pętla agenta prosi model o zsyntetyzowanie i wykonanie planu w sekundy albo minuty. Ta szybkość omija procesy, dzięki którym tradycyjne oprogramowanie stało się znośne: pracę nad wymaganiami, projektowanie, testowanie, ewaluację adwersarialną, etapowe wdrażanie, monitoring i informacje zwrotne. W pracy wiele wykonywanych na bieżąco przebiegów agentowych opisano raczej jako improwizowane prototypy niż systemy klasy produkcyjnej.²

Proponowana odpowiedź nie brzmi: „niech model myśli dłużej”. Odpowiedzią jest wspólny magazyn utwardzonych przepływów pracy wielokrotnego użytku. Agent powinien dopasować żądanie użytkownika do sprawdzonego przepływu pracy, jeśli taki istnieje, sparametryzować go pod szczegóły użytkownika i wykonać ograniczony przepływ, zamiast za każdym razem wymyślać nowy łańcuch narzędzi.²

Ta idea wyostrza rozmowę o umiejętnościach. Plik umiejętności, który mówi tylko „oto jak zrobić X”, nadal zostawia zbyt dużo improwizacji w środowisku wykonawczym. Magazyn przepływów pracy wymaga mocniejszego artefaktu:

Słaby artefakt	Mocniejszy artefakt
Wzorzec polecenia	Sparametryzowany przepływ pracy
Obejście jednego użytkownika	Zdolność wielokrotnego użytku
Plan narzędziowy oparty na najlepszym wysiłku	Przetestowana sekwencja z ograniczeniami
Instrukcja bezpieczeństwa	Deterministyczna granica
Koszt na zapytanie	Zamortyzowany koszt inżynieryjny

Kluczowa teza ekonomiczna pracy jest praktyczna: rygorystyczna inżynieria może kosztować więcej czasu i mocy obliczeniowej niż przebieg tworzony na bieżąco, więc ten koszt musi się amortyzować na użytkownikach i powtarzalnych żądaniach.² Ten argument pasuje do tego, jak odczuwalna jest poważna praca z agentami. Gdy wykonuje się przepływ pracy o wysokiej stawce po raz pierwszy, prowadzi się rozpoznanie. Za drugim i trzecim razem nie powinno się już badać całej ścieżki od zera.

Co wnosi WildClawBench?

WildClawBench daje ewaluacyjną wersję kontraktu.³

Benchmark zawiera 60 zadań napisanych przez ludzi, podzielonych na sześć kategorii. Obejmuje pracę dwujęzyczną i multimodalną. Każde zadanie działa w odtwarzalnym kontenerze Docker, który hostuje rzeczywiste środowisko wykonawcze CLI, takie jak OpenClaw, Claude Code, Codex albo Hermes Agent. Zadania używają prawdziwych narzędzi zamiast atrap usług API, a autorzy raportują średnio około 8 minut i ponad 20 wywołań narzędzi na przebieg.³

Projekt oceniania jest ważniejszy niż tabela wyników. WildClawBench łączy deterministyczne kontrole artefaktów, audyty stanu środowiska dotyczące skutków ubocznych oraz sędziego LLM/VLM tylko tam, gdzie weryfikacja semantyczna naprawdę go potrzebuje. Benchmark ukrywa zasoby służące wyłącznie ocenianiu aż do zakończenia pracy agenta, co uniemożliwia agentowi zobaczenie klucza odpowiedzi podczas wykonania.³

Najważniejszy wynik: najlepsza raportowana konfiguracja osiąga łącznie 62,2%, każdy inny model pozostaje poniżej 60% w przebiegu OpenClaw, a zmiana środowiska wykonawczego może przesunąć wynik jednego modelu nawet o 18 punktów.³ Wniosek pracy jest jasny: środowisko wykonawcze jest częścią ocenianego systemu. Sam model nie jest produktem.

Ten wynik powinien skłonić zespoły do większej ostrożności przy benchmarkach agentów. Wysoki wynik w krótkim, syntetycznym benchmarku końcowych odpowiedzi nie odpowiada na pytanie, które najbardziej interesuje operatorów: czy agent potrafi wykonać długie zadanie w rzeczywistym środowisku wykonawczym, z rzeczywistymi narzędziami, zostawiając środowisko w zamierzonym stanie?

Na czym polega kontrakt?

Po złożeniu trzech prac kontrakt staje się jasny.

Warstwa	Artefakt	Pytanie, na które odpowiada
Wykonanie	Typowany ślad	Co agent zrobił, w jakiej kolejności i z jakimi skutkami ubocznymi?
Ponowne użycie	Artefakt przepływu pracy	Czy powtarzalna praca przechodzi przez sprawdzoną ścieżkę, czy przez świeżą improwizację?
Ewaluacja	Benchmark w natywnym środowisku wykonawczym	Czy model razem ze środowiskiem wykonawczym kończy realistyczną pracę pod prawdziwymi ograniczeniami narzędziowymi?
Ocena	Standard produktu	Czy zweryfikowany wynik zasługuje na publikację?

Każda warstwa zapobiega innemu kłamstwu.

Ślad uniemożliwia agentowi przepuszczenie brakującego wywołania narzędzia przez wiarygodnie brzmiącą odpowiedź. Przepływ pracy uniemożliwia powtarzalnemu zadaniu udawanie bez końca, że potrzebuje świeżej improwizacji. Benchmark w natywnym środowisku wykonawczym uniemożliwia wynikowi modelu udawanie, że środowisko wykonawcze nie ma znaczenia. Standard produktu uniemożliwia zweryfikowanemu artefaktowi udawanie, że jest wartościowy tylko dlatego, że przeszedł kontrole.

Ta ostatnia warstwa nadal ma znaczenie. Ślad może dowieść, co się wydarzyło. Przepływ pracy może ograniczyć to, co się wydarzy. Benchmark może zmierzyć ukończenie zadania. Żadna z tych warstw nie zdecyduje, czy wynik szanuje użytkownika, produkt i standard stojący za pracą. Ta decyzja nadal należy do zespołu.

Co operatorzy powinni zmienić teraz?

Najpierw kompletność śladu.

Jeśli środowisko wykonawcze nie potrafi wytworzyć ustrukturyzowanego zapisu wywołań narzędzi, argumentów, kodów wyjścia, zmian w plikach, uruchomionych agentów i wyemitowanych artefaktów, trzeba to naprawić przed dodaniem większej autonomii. Słaby ślad sprawia, że każde późniejsze twierdzenie staje się kosztowne do zweryfikowania.

Następnie należy oddzielić ocenianie śladu od oceniania odpowiedzi. Raport końcowy, który twierdzi, że testy przeszły, powinien najpierw dowieść, że polecenie testowe zostało uruchomione i zakończyło się sukcesem. Raport wskazujący zmieniony plik powinien dowieść, że plik został przeczytany albo zapisany. Raport streszczający działanie zewnętrzne powinien dowieść, że jego skutki uboczne pasują do oczekiwanego stanu. Dopiero gdy ślad wspiera twierdzenie, można oceniać jakość odpowiedzi.

Potem trzeba wskazać powtarzalne przepływy pracy. Każda cykliczna praca agenta powinna nieść pytanie o awans: czy następny przebieg zasługuje na artefakt przepływu pracy wielokrotnego użytku? Analiza źródeł, odświeżanie przewodników, wydania tłumaczeń, aktualizacje zależności, triage incydentów i publikacja treści stają się lepsze, gdy środowisko wykonawcze przestaje wymyślać sekwencję od nowa.

Na końcu należy ewaluować w środowisku wykonawczym, które trafia do użytkowników. Atrapy narzędzi i syntetyczne zadania nadal mogą pomagać podczas rozwoju, ale nie powinny przesądzać o wydaniu. Decyzja o wydaniu wymaga tych samych granic narzędziowych, stanu systemu plików, budżetów czasu i kontroli skutków ubocznych, z którymi zmierzy się prawdziwy agent.

Krótkie podsumowanie

Ślad agenta staje się kontraktem niezawodności. SHEPHERD pokazuje, jak meta-agenci mogą nadzorować i rozgałęziać wykonanie, gdy środowisko wykonawcze udostępnia typowane, odtwarzalne ślady. Koncepcja magazynu przepływów pracy AI przekonuje, że powtarzalna praca powinna przechodzić z improwizacji na bieżąco do zaprojektowanych przepływów pracy wielokrotnego użytku. WildClawBench pokazuje, że natywne środowisko wykonawcze, narzędzia, skutki uboczne i audyty trajektorii istotnie zmieniają mierzoną skuteczność. Końcowe odpowiedzi nadal mają znaczenie, ale stoją na końcu kontraktu, nie w jego centrum.

FAQ

Czy ślad wykonania jest tym samym co obserwowalność?

Nie. Obserwowalność mówi operatorom, co się wydarzyło. Ślad wykonania jakości kontraktowej musi być też na tyle ustrukturyzowany, aby inny proces mógł go sprawdzić, rozgałęzić, odtworzyć i ocenić. Logi pomagają ludziom debugować. Typowane ślady pozwalają nadzorcom, ewaluatorom i twórcom przepływów pracy działać bezpośrednio na wykonaniu.

Czy SHEPHERD automatycznie czyni agentów bezpiecznymi?

Nie. SHEPHERD dostarcza podłoże do obserwacji, rozgałęziania, odtwarzania i interwencji meta-agentów. Zły nadzorca nadal może podejmować złe decyzje. Zysk polega na tym, że nadzorca działa na ustrukturyzowanym obiekcie wykonania, zamiast parsować transkrypcję czatu.

Czy magazyn przepływów pracy AI oznacza, że agenci nigdy nie powinni improwizować?

Nie. Agenci nadal potrzebują rozpoznania, gdy nie istnieje sprawdzony przepływ pracy albo gdy zadanie jest naprawdę nowe. Chodzi o awans. Gdy zadanie się powtarza i ma realną stawkę, system powinien zamienić skuteczną ścieżkę w przepływ pracy wielokrotnego użytku, z ograniczeniami, testami i utrzymaniem.

Czy WildClawBench dowodzi, że jedno środowisko wykonawcze agentów jest najlepsze?

Nie. WildClawBench pokazuje, że wybór środowiska wykonawczego istotnie zmienia mierzoną skuteczność w jego zestawie zadań i konfiguracji eksperymentalnej. Należy traktować to jako dowód, że środowisko wykonawcze należy do ewaluacji, a nie jako trwały ranking produktów.

Co zespół powinien zbudować najpierw?

Najpierw ślad. Potem progi, które odrzucają twierdzenia bez dowodów. Następnie awans powtarzalnej pracy do przepływów pracy. Efektowna orkiestracja bez godnego zaufania śladu tylko utrudnia rekonstrukcję awarii.

Przypisy

Simon Yu, Derek Chong, Ananjan Nandi, Dilara Soylu, Jiuding Sun, Christopher D. Manning i Weiyan Shi, “SHEPHERD: A Runtime Substrate Empowering Meta-Agents with a Formalized Execution Trace,” arXiv:2605.10913v1, 11 maja 2026. Główne źródło informacji o typowanym śladzie wykonania SHEPHERD podobnym do Git, semantyce rozgałęziania i odtwarzania, podstawowych operacjach zmechanizowanych w Lean, pomiarach rozgałęziania i ponownego użycia pamięci podręcznej zapytań, wyniku CooperBench oraz wyniku TerminalBench-2. ↩↩↩↩↩
Roxana Geambasu, Mariana Raykova, Pierre Tholoniat, Trishita Tiwari, Lillian Tsai i Wen Zhang, “Engineering Robustness into Personal Agents with the AI Workflow Store,” arXiv:2605.10907v1, 11 maja 2026. Główne źródło krytyki pętli agenta działającej na bieżąco, propozycji AI Workflow Store, ramy utwardzonych przepływów pracy wielokrotnego użytku, wymagań cyklu życia inżynierii oprogramowania oraz argumentu o amortyzacji przez ponowne użycie. ↩↩↩↩↩↩
Shuangrui Ding et al., “WildClawBench: A Benchmark for Real-World, Long-Horizon Agent Evaluation,” arXiv:2605.10912v1, 11 maja 2026. Główne źródło informacji o 60-zadaniowym benchmarku w natywnym środowisku wykonawczym, dwujęzycznej i multimodalnej mieszance zadań, rzeczywistych środowiskach CLI, średnich około 8 minut i ponad 20 wywołań narzędzi, hybrydowym projekcie oceniania, najwyższym raportowanym wyniku 62,2% oraz przesunięciach wyników zależnych od wyboru lokalnego mechanizmu agenta. ↩↩↩↩↩↩↩↩↩