Managed agents kontra lokalne harnessy agentowe: co warto zachować

11 min read

From the guide: Codex CLI Comprehensive Guide

Anthropic oraz OpenAI przekształcają infrastrukturę środowiska wykonawczego dla agentów w powierzchnię produktową: hostowane sesje, piaskownice, śledzenie, pamięć, przekazania (handoffs), rubryki oraz strumienie zdarzeń znajdują się dziś bliżej dostawcy modelu niż prywatnego folderu ze skryptami zespołu.¹²

Jakie są kluczowe wnioski?

Managed Agents stają się warstwą środowiska wykonawczego. Sesje, piaskownice, ślady (traces), zdarzenia oraz wykonywanie asynchroniczne coraz częściej należą do zarządzanej infrastruktury, o ile dostawca spełnia wymagania bezpieczeństwa zespołu.¹²
Lokalne ramy agenta wciąż mają znaczenie. Warto zachować te elementy, które kodują smak, dowody, integralność publikowanych treści, granice prywatności, weryfikację źródeł oraz pamięć projektu.
Jednostką migracji jest zadanie, nie polecenie. Polecenie z ukośnikiem, umiejętność w Codex, przekazanie w SDK, serwer MCP lub zarządzany wynik mogą obsłużyć ten sam przepływ pracy, jeśli kryteria akceptacji zostaną zachowane.
Nie należy publikować prywatnej maszynerii. Publiczne wpisy powinny wyjaśniać wzorzec i kryteria akceptacji, a nie prywatne instrukcje, konkretne implementacje punktów zaczepienia, dane konta czy wewnętrzne reguły oceny.
Promocja wymaga dowodu. Należy zacząć w trybie jawnym, uruchomić jedno realne zadanie, zarejestrować rezultat i awansować dopiero wtedy, gdy ścieżka widoczna dla użytkownika rzeczywiście się poprawi.

Platformy zarządzanych agentów powinny przejąć rutynową pracę środowiska wykonawczego: wykonywanie w piaskownicy, sesje stanowe, strumienie zdarzeń, śledzenie, uruchamianie plików oraz asynchroniczne kończenie zadań. Lokalne ramy agenta nadal są ważne, lecz ich rola staje się węższa i ostrzejsza. Należy zachować elementy kodujące smak produktu, bramki dowodowe, integralność publikowanych treści, granice prywatności, weryfikację źródeł oraz pamięć operacyjną specyficzną dla projektu. Przenieść trzeba te części, które istnieją wyłącznie dlatego, że nikt wcześniej nie zapakował dla nas środowiska wykonawczego.

Złą migracją jest skasowanie własnych lokalnych ram agenta tylko dlatego, że dostawca dostarczył zarządzaną infrastrukturę. Drugą złą migracją jest zachowanie każdego lokalnego polecenia, punktu zaczepienia i prywatnej instrukcji wyłącznie dlatego, że kiedyś rozwiązywały realny problem. Właściwa migracja stawia jedno pytanie wobec każdego komponentu: czy koduje on moje standardy, czy tylko obsługuje maszynę?

Szersze ujęcie architektoniczne znajduje się w przewodniku po architekturze agentów AI. Wzorzec migracji lokalnej, który stoi za tym tekstem, opisują: przewodnik migracji Claude Code → Codex, wzorce AGENTS.md oraz filozofia jakości Jiro.

Stronę narzędzi lokalnych w tym podziale opisuje wpis Claude Code jako infrastruktura, wyjaśniający, dlaczego prywatne warstwy środowiska wykonawczego rosną, a Claude Code kontra Codex CLI 2026 porównuje powierzchnie aktywacji i bezpieczeństwa.

Co zmieniło się wraz z Managed Agents?

Claude Managed Agents daje deweloperom gotowe ramy agenta działające w zarządzanej infrastrukturze. Anthropic pozycjonuje rozwiązanie jako narzędzie do zadań długotrwałych i pracy asynchronicznej, z podstawowymi pojęciami: agentów, środowisk, sesji oraz zdarzeń.¹ Te same dokumenty opisują zarządzane środowisko, w którym Claude może czytać pliki, uruchamiać polecenia, przeglądać sieć, wykonywać kod, korzystać z serwerów MCP oraz utrzymywać historię zdarzeń po stronie serwera.¹

Tekst inżynierski Anthropic wyraża myśl architektoniczną wyraźniej niż dokumentacja produktowa. Zespół Managed Agents rozdzielił dziennik sesji, ramy agenta oraz piaskownicę tak, by każda część mogła zawodzić lub zmieniać się niezależnie.³ To rozdzielenie ma znaczenie, ponieważ zamienia kruchą pętlę agentową w jednym kontenerze w system z odzyskiwalnym stanem sesji, wymiennymi środowiskami wykonawczymi oraz węższą granicą bezpieczeństwa wokół poświadczeń.³

OpenAI zmierza w tym samym kierunku poprzez Agents SDK. Jego aktualizacja z 15 kwietnia 2026 wprowadziła natywne dla modelu ramy agenta, natywne wykonywanie w piaskownicy, abstrakcję manifestu dla obszarów roboczych oraz wsparcie dla typowych prymitywów: MCP, umiejętności, AGENTS.md, wykonywanie poleceń powłoki i nakładanie patchy.² Dokumentacja SDK udostępnia również sesje dla pamięci wieloprzebiegowej, śledzenie generacji LLM, wywołań narzędzi, przekazań, guardrails i zdarzeń własnych, a także przekazania umożliwiające przenoszenie pracy między wyspecjalizowanymi agentami.⁴⁵⁶

Tyle nowości. Pytanie strategiczne brzmi inaczej: skoro platformy dostarczają agentowe środowisko wykonawcze, czym powinny jeszcze zajmować się lokalne ramy agenta?

Na czym polega podział między środowiskiem wykonawczym a osądem?

Większość lokalnych ram agenta łączy dwie role, które niekoniecznie powinny mieszkać razem.

Pierwszą jest infrastruktura środowiska wykonawczego. Środowisko wykonawcze uruchamia sesje, przyznaje narzędzia, przygotowuje obszar roboczy, wykonuje polecenia, przechowuje zdarzenia, obsługuje przerwania, wznawia pracę, strumieniuje status oraz rejestruje ślady. To zadanie zyskuje na standaryzacji. Zyskuje też na inżynierii bezpieczeństwa, której większość zespołów nie powinna budować od zera bez ważnego powodu.

Drugą rolą jest osąd. Osąd mówi, jak wygląda dobra praca, które publiczne twierdzenia wymagają źródeł pierwotnych, kiedy przewodnik jest zbyt nieaktualny, by go publikować, kiedy punkt zaczepienia jest zbyt głośny, by go egzekwować, kiedy skanowanie źródeł powinno zostać prywatną notatką zamiast wpisem oraz kiedy agent powinien odmówić wykonania pracy technicznie poprawnej, lecz niegodnej. Ta rola pozostaje lokalna, bo pochodzi od produktu, zespołu i czytelnika.

Zarządzana infrastruktura potrafi prowadzić lepszą pętlę. Nie potrafi natomiast zdecydować, jaki ma być twój smak.

Co warto przenieść do Managed Agents?

Należy przenieść komponenty, które nie kodują standardów produktu.

Komponent lokalny	Lepsze miejsce, gdy platforma to wspiera	Dlaczego
Konfiguracja piaskownicy	Zarządzane środowisko lub piaskownica SDK	Dostawcy mogą utrzymywać izolację, setup, reguły sieciowe i adaptery dostawców.
Trwałość sesji	Zarządzany dziennik sesji lub magazyn sesji SDK	Praca długotrwała wymaga stanu, który przeżyje okno kontekstu i awarie workerów.
Strumienie zdarzeń i webhooki	Zarządzane zdarzenia lub kolejka zadań na poziomie aplikacji	Aplikacja powinna obserwować status, nie odpytując prywatnego stanu powłoki.
Śledzenie	Śledzenie po stronie dostawcy lub własny procesor śladów	Debugowanie agentów wymaga ustrukturyzowanych spanów dla wywołań modelu, narzędzi, guardrails i przekazań.
Spoiwo wykonania narzędzi	Zarządzane narzędzia, MCP lub adaptery narzędzi SDK	Wywołania narzędzi należą za stabilne interfejsy, nie za kruche konwencje promptowe.
Wieloagentowy fan-out	Zarządzana orkiestracja lub przekazania SDK	Delegacja wymaga widoczności, filtrów wejścia oraz jasnych kontraktów przekazania.

Funkcja Outcomes od Anthropic pokazuje, dokąd zmierza ten trend. Deweloper definiuje rubrykę, zarządzane ramy inicjują osobnego ewaluatora, a agent iteruje wobec jego informacji zwrotnej.⁷ To nie usuwa lokalnych standardów. Daje im miejsce w środowisku wykonawczym.

Ten sam wzorzec dotyczy śledzenia w OpenAI. SDK domyślnie śledzi przebieg, spany agentów, generacje, wywołania funkcji-narzędzi, guardrails oraz przekazania, z opcjami wyłączania śledzenia i procesorami dla innych miejsc docelowych.⁵ Lokalny skrypt potrafi to przybliżyć. System produkcyjny powinien zwykle preferować standaryzowany ślad i wysyłać go tam, gdzie zespół już debuguje pracę.

Co warto zachować lokalnie?

Należy zachować komponenty definiujące standardy, czytelnika lub prywatny kontekst operacyjny.

Smak produktowy. Platforma potrafi wykonać zadanie; nie potrafi ocenić, czy wynik poprawia całość produktu. Należy zachować reguły smaku odrzucające rezultaty rozproszone, generyczne lub pozbawione godności.

Bramki dowodowe. Należy zachować reguły wymagające dowodów z bieżącej sesji, weryfikacji ścieżki użytkownika, nazwanych luk oraz analizy przyczyny źródłowej. Zarządzane ślady mówią, co się wydarzyło. To twój standard rozstrzyga, czy dowód wystarcza.

Integralność publikowanych treści. Należy zachować reguły cytowań, poziomy zaufania źródeł, kontrole granic prywatności, kontrole SEO/AIO oraz bramki publikacyjne blisko serwisu. Dostawca modelu nie powinien rozstrzygać, które prywatne szczegóły przepływu pracy są bezpieczne do publikacji.

Pamięć projektu. Należy zachować zwięzłą doktrynę projektu, decyzje stylistyczne, znane zagrożenia, granice wydań oraz dzienniki operacyjne tam, gdzie zespół może je przeglądać. Przenieść warto wyłącznie warstwę magazynowania, jeśli zarządzany magazyn sesji rzeczywiście poprawia trwałość.

Wywiad źródłowy. Należy zachować redakcyjną warstwę routingu. Skaner może znaleźć 14 dobrych pozycji i wciąż wygenerować zero wpisów, jeśli właściwym ruchem jest monitoring, utrzymanie przewodnika lub prywatna notatka.

Polityka promocji. Należy zachować reguły wprowadzania zmian etapami. Umiejętność może startować wyłącznie w trybie jawnym, punkt zaczepienia może działać w trybie cienia (shadow), a plugin może pozostać w fazie install-pilot do czasu, aż realna praca dowiedzie, że pomaga bardziej, niż rozprasza.

Ta lista jest właściwymi ramami agenta. Pliki i polecenia są tylko ich implementacją.

Jakiego błędu migracyjnego powinny unikać zespoły?

Najłatwiejszym sposobem zepsucia tej migracji jest zachowanie kształtu zamiast zadania.

Polecenia z ukośnikiem Claude Code, umiejętności Codex, narzędzia SDK, zarządzane wyniki oraz serwery MCP to nie wymienne formy składniowe tego samego. To różne powierzchnie aktywacji. Polecenie z ukośnikiem może stać się umiejętnością. Umiejętność może stać się rubryką zarządzanego wyniku. Punkt zaczepienia może stać się procesorem śladów. Lokalny skrypt może stać się zbędny, gdy platforma udostępni sesje lub webhooki.

Tekst Anthropic o agentach długotrwałych formułuje tę myśl od drugiej strony: sama kompresja kontekstu nie wystarczyła, by uzyskać jakość produkcyjną, więc skuteczny wzorzec dodał listy funkcji, artefakty postępu, czyste stany przekazania oraz testy end-to-end.⁸ To nie konwencje UI. To zobowiązania dowodowe.

Migracja nie powinna pytać: „gdzie umieścić /scan-intel?”. Powinna pytać: „jakie zadanie pełnił przepływ pracy wywiadu źródłowego?”.

W przypadku skanera źródeł zadaniem nie jest „uruchomić polecenie”. Zadaniem jest skanować skonfigurowane źródła, dowodzić ich osiągalności, oceniać kandydatów, odmawiać szerokich, niskiej jakości zapisów, zachowywać prywatnie wartościowe notatki oraz kierować publiczne okazje do recenzji redakcyjnej. Dokładna fraza aktywacyjna może się zmienić bez utraty przepływu pracy.

Ta sama reguła dotyczy doktryny jakości. Nie należy publikować prywatnego pakietu instrukcji. Doktrynę warto przekształcić w obserwowalne bramki ukończenia: dowody, weryfikację ścieżki użytkownika, przegląd granic prywatności oraz prawo do odmowy pracy osłabiającej produkt.

Jak zastosować to do skanera wywiadu źródłowego?

Skaner wywiadu źródłowego konkretyzuje ten podział.

Strona środowiska wykonawczego może się przenieść. Zarządzana platforma może uruchamiać zadanie cykliczne, przechowywać sesję, wykonywać narzędzia przeglądania lub pobierania feedów, emitować zdarzenia oraz utrzymywać ślady. Jeśli skanowanie przekroczy limit czasu, zarządzana sesja powinna wiedzieć, co się wykonało, które źródła zawiodły i gdzie kolejne uruchomienie powinno wznowić pracę.

Strona osądu powinna pozostać lokalna. Skaner nadal potrzebuje prywatnej mapy źródeł, progów punktacji, kontroli duplikatów, limitów ilości zapisów oraz redakcyjnej trasy. Skanowanie znajdujące 14 kandydatów nie powinno automatycznie publikować 14 notatek ani jednego artykułu. Właściwym działaniem może być prywatna notatka, zadanie utrzymania przewodnika, kolejka monitoringu lub odmowa napisania czegokolwiek publicznego.

To rozróżnienie zamienia hałaśliwą automatyzację w użyteczny przepływ pracy:

Krok skanera	Warstwa zarządzana	Warstwa lokalnych ram agenta
Pobieranie źródeł	Narzędzia przeglądania, feedów, wyszukiwania lub MCP	Mapa źródeł i poziomy zaufania
Trwałość stanu uruchomienia	Dziennik sesji, zdarzenia, ślady	Rejestr tematów i pamięć wcześniejszego pokrycia
Ocena kandydatów	Opcjonalny przebieg modelu/narzędzia	Progi redakcyjne i reguły smaku
Zapisywanie wyników	Narzędzie plikowe lub notatkowe	Bramka limitu zapisu i kontrola granic prywatności
Routing kolejnego działania	Zdarzenie, webhook lub przekazanie	Decyzja: publikuj, zaktualizuj przewodnik, monitoruj lub no-op

Ta sama logika dotyczy przepływów pracy programistycznych, utrzymania przewodników, tłumaczeń oraz publikowania. Mechanikę wykonania należy przenieść tam, gdzie platforma robi to lepiej. Standard rozstrzygający, czy wynik zasługuje na istnienie, należy zachować.

Jakiej listy kontrolnej powinny używać zespoły przed przeniesieniem ram agenta?

Przed przeniesieniem dowolnego komponentu lokalnych ram agenta na platformę zarządzanych agentów warto skorzystać z poniższej listy kontrolnej.

Pytanie	Jeśli tak	Jeśli nie
Czy komponent obsługuje wyłącznie infrastrukturę środowiska wykonawczego?	Należy go przenieść w stronę zarządzanych sesji, piaskownic, śledzenia lub zdarzeń.	Należy zachować go lokalnie lub w obrębie projektu.
Czy komponent koduje smak, zaufanie lub standardy redakcyjne?	Należy zachować standard lokalnie; udostępnić jedynie bezpieczną rubrykę lub kryteria akceptacji.	Warto rozważyć jego wycofanie.
Czy komponent dotyka sekretów, stanu konta lub prywatnych instrukcji?	Prywatnych szczegółów nie umieszczać w paczkach publicznych ani w artykułach.	Może być publikowalny jako wzorzec generyczny.
Czy platforma potrafi wyrazić tę samą bramkę jako rubrykę, ślad, punkt zaczepienia lub procesor?	Należy pilotować wersję natywną dla platformy.	Należy utrzymać wersję lokalną wyłącznie w trybie jawnym.
Czy realna praca udowodniła to zachowanie?	Awansować z trybu jawnego do pilota lub trybu egzekwowanego.	Pozostawić w fazie etapowej.
Czy komponent generuje hałas?	Uprościć go, przenieść w cień lub usunąć.	Mierzyć go nadal względem realnych rezultatów.

Ścieżka promocji powinna pozostać nudna:

Zinwentaryzuj komponent.
Nazwij zadanie, które wykonuje.
Sklasyfikuj go jako: środowisko wykonawcze, osąd, pamięć, publikowanie, wywiad źródłowy lub bezpieczeństwo.
Przenieś najmniejszą użyteczną wersję.
Uruchom ją na jednym realnym zadaniu.
Zarejestruj, co się wydarzyło.
Awansuj, popraw lub usuń.

Cokolwiek bardziej rozbudowanego zwykle ukrywa niepewność.

Jak zespoły powinny dziś dzielić realne ramy agenta?

W przypadku poważnego setupu programistyczno-pisarskiego zastosowałbym następujący podział.

Warstwa dostawcy lub zarządzana:

tworzenie piaskownicy
wykonywanie plików
trwałe sesje
strumienie zdarzeń
webhooki
ślady i spany
odzyskiwanie pracy długotrwałej po awarii
podstawowa delegacja wieloagentowa
wykonywanie rubryk, gdy dostawca to wspiera

Warstwa lokalna lub projektowa:

AGENTS.md lub równoważna polityka projektu
standardy publicznego pisania
reguły cytowań i poziomów zaufania źródeł
doktryna jakości produktu
prywatna pamięć operacyjna
kontrole SEO/AIO specyficzne dla witryny
routing wywiadu źródłowego
końcowe bramki publikacyjne
polityka granic wydań dla pluginów i pakietów współdzielonych

Linia podziału nie przebiega między „zarządzanym” a „self-hosted”. Przebiega między „rutynowym środowiskiem wykonawczym” a „osądem produktowym”.

Gdzie Managed Agents wymagają nadal ostrożności?

Platformy zarządzanych agentów nie usuwają trudnych części. Przesuwają je.

Nadal potrzebny jest model bezpieczeństwa dla narzędzi, plików, dostępu sieciowego oraz poświadczeń. Architektura Anthropic wprost oddziela poświadczenia od piaskownicy, w której uruchamia się wygenerowany kod, co jest właściwym kierunkiem, ale zespoły wciąż muszą poprawnie skonfigurować zasoby, sejfy i granice dostępu.³

Nadal potrzebna jest obserwowalność. Ślad pokaże graf wywołań; nie powie, czy praca zasługiwała na wysyłkę. Ewaluator może ocenić rubrykę; nie wie, czy rubryka wyraża właściwy smak.

Nadal potrzebne są granice treści. Publiczny artykuł migracyjny może opisać wzorzec, lecz nie powinien zrzucać prywatnych instrukcji, konkretnych implementacji punktów zaczepienia, prywatnych ścieżek plików, list źródeł, danych konta ani autorskich zasad oceny redakcyjnej.

Nadal potrzebne jest etapowanie. Anthropic zaznacza, że Managed Agents pozostaje w fazie beta, a wszystkie endpointy wymagają nagłówka beta managed-agents-2026-04-01, przy czym niektóre funkcje wymagają dostępu preview.¹ Beta-środowisko wykonawcze może być użyteczne, nie stając się domyślną ścieżką dla każdego przepływu pracy.

Co zespoły powinny z tego wynieść?

Dla liderów inżynierii:

Pracę środowiska wykonawczego przenosić ku zarządzanym sesjom, piaskownicom, zdarzeniom i śladom, gdy platforma spełnia twoje wymagania bezpieczeństwa.
Zachować lokalne standardy dla dowodów, jakości źródeł, smaku produktu oraz granic wydań.
Zarządzane rubryki traktować jako sloty wykonawcze dla swoich standardów, nie jako ich zastępstwo.

Dla budujących agentów:

Nie przenosić poleceń jeden do jednego. Przenosić zadania-do-wykonania.
Zaczynać w trybie jawnym, awansować dopiero po tym, jak realne zadanie udowodni wartość.
Preferować ślady, dzienniki sesji oraz publiczne artefakty zamiast archeologii prywatnych instrukcji.

Dla osób piszących publicznie:

Prywatny proces zamieniać w publiczne kryteria akceptacji.
Cytować oficjalną dokumentację produktową dla aktualnego zachowania.
Odmawiać podsumowania, gdy lepszym artykułem jest sama rama decyzyjna.

Jakie jest krótkie podsumowanie?

Platformy zarządzanych agentów sprawiają, że lokalne ramy agenta stają się mniejsze, lecz nie nieistotne. Pracę środowiska wykonawczego należy przenosić do zarządzanych sesji, piaskownic, śladów, zdarzeń oraz orkiestracji, gdy platforma na to zaufanie zasługuje. Zachować trzeba lokalne standardy, które definiują jakość, dowody, prywatność, integralność publicznego pisania oraz to, jaka praca zasługuje na wysyłkę.

FAQ: Managed Agents i lokalne ramy agenta

Czy Managed Agents zastępują lokalne ramy agenta AI?

Nie. Zarządzane platformy zastępują większą część warstwy środowiska wykonawczego: sesje, piaskownice, strumienie zdarzeń, śledzenie oraz wykonywanie narzędzi. Lokalne ramy agenta nadal mają znaczenie, gdy kodują standardy produktu, bramki dowodowe, reguły publicznego pisania, granice prywatności, wywiad źródłowy oraz pamięć specyficzną dla projektu.

Co powinno pozostać w AGENTS.md lub CLAUDE.md?

Tam powinny znaleźć się trwałe reguły projektu: co produkt ceni, jak weryfikuje się ukończenie, których prywatnych szczegółów nie wolno publikować, jak kontroluje się publiczne pisanie oraz które ścieżki widoczne dla użytkownika muszą działać, zanim zadanie zostanie uznane za wykonane. W stałych plikach polityki projektu nie należy upychać przejściowych wyników narzędzi ani prywatnych szczegółów instrukcji modelu.

Kiedy zespół powinien sięgać po platformę zarządzanych agentów?

Zarządzaną infrastrukturę warto wybrać, gdy praca wymaga długotrwałego wykonywania, bezpiecznych kontenerów, trwałych sesji, strumieni zdarzeń, asynchronicznego kończenia, śledzenia lub zarządzanej orkiestracji wieloagentowej, a kontrole bezpieczeństwa, kosztu i danych po stronie dostawcy pasują do przypadku użycia.¹²

Czego nie należy przenosić do publicznego pakietu z ramami agenta?

Nie należy publikować prywatnych instrukcji, konkretnych implementacji punktów zaczepienia, wrażliwych ścieżek plików, identyfikatorów kont, obsługi tokenów, prywatnych list źródeł, autorskich zasad punktacji ani niczego, co pozwoliłoby obcej osobie odtworzyć wewnętrzny system operacyjny zespołu. Publikować należy wzorzec oraz kryteria akceptacji.

Bibliografia

Anthropic, „Claude Managed Agents — przegląd”. Dostęp: 7 maja 2026. ↩↩↩↩↩↩
OpenAI, „The next evolution of the Agents SDK”, 15 kwietnia 2026. ↩↩↩↩
Anthropic Engineering, „Scaling Managed Agents: Decoupling the brain from the hands”, 8 kwietnia 2026. ↩↩↩
OpenAI Agents SDK, „Sessions”. Dostęp: 7 maja 2026. ↩
OpenAI Agents SDK, „Tracing”. Dostęp: 7 maja 2026. ↩↩
OpenAI Agents SDK, „Handoffs”. Dostęp: 7 maja 2026. ↩
Anthropic, „Define outcomes”. Dostęp: 7 maja 2026. ↩
Anthropic Engineering, „Effective harnesses for long-running agents”, 26 listopada 2025. ↩