← Wszystkie wpisy

Pakiety przeglądowe pracy agentów AI to nowa odpowiedź końcowa

We wpisie ogłaszającym Codex OpenAI podaje, że Codex dostarcza weryfikowalne dowody przez cytowanie logów terminala i wyników testów, dzięki czemu użytkownicy mogą prześledzić kroki wykonane podczas realizacji zadania.1 To zdanie nazywa zmianę produktową. Sama odpowiedź końcowa już nie wystarcza.

Pakiety przeglądowe to nowa odpowiedź końcowa dla pracy agentów. System agentowy traktowany poważnie powinien kończyć pracę ustrukturyzowanym zestawem twierdzeń, śladów wykonania, zatwierdzeń, różnic, testów, weryfikacji źródeł, dowodów wdrożenia i nierozwiązanych luk. Płynna proza może podsumować wykonane działania. To pakiet buduje zaufanie.

TL;DR

Praca agentów obejmuje dziś planowanie, wywołania narzędzi, edycję plików, zatwierdzenia, testy, działające ścieżki, tłumaczenia i akceptację człowieka. Dokumentacja OpenAI dotycząca Codex cloud opisuje zadania działające w tle w odizolowanych środowiskach chmurowych, a Agents SDK udostępnia śledzenie generacji modelu, wywołań narzędzi, przekazań, zabezpieczeń i zdarzeń niestandardowych.23 Dokumentacja OpenAI dotycząca udziału człowieka w procesie pokazuje wstrzymywanie wykonania na czas decyzji o zatwierdzeniu, a hooks Claude Code firmy Anthropic udostępniają zdarzenia cyklu życia, takie jak PreToolUse, PostToolUse, PermissionRequest i Stop.45

Wszystkie te elementy prowadzą do tego samego artefaktu: pakietu przeglądowego. Pakiet zmienia końcowe twierdzenie agenta w coś, co człowiek może sprawdzić, odrzucić, zatwierdzić albo przekazać kolejnemu recenzentowi.

Najważniejsze wnioski

Dla twórców agentów: - Odpowiedź końcową należy traktować jak stronę tytułową. Dowody powinien nieść pakiet przeglądowy. - Każde istotne twierdzenie warto powiązać z plikiem, wynikiem polecenia, zdarzeniem śladu, źródłem, sprawdzeniem ścieżki, decyzją zatwierdzającą albo nierozwiązaną luką.

Dla projektantów produktów: - Pakiet trzeba projektować jako obiekt do szybkiego przeglądu, a nie eksport transkrypcji. Dowody należy grupować według decyzji użytkownika. - Stan weryfikacji przez człowieka powinien znaleźć się w pakiecie. „Sprawdzone maszynowo” i „zatwierdzone przez człowieka” to różne statusy.

Dla zespołów wdrażających agentów: - Pakiety przeglądowe powinny być wymagane przy publikacjach publicznych, zmianach produkcyjnych, tłumaczeniach, zmianach wrażliwych pod kątem bezpieczeństwa i pracy wpływającej na koszty lub przychody. - Nie należy przyjmować statusu „gotowe”, jeśli pakiet nie wskazuje, co pozostaje niezweryfikowane.

Czym jest pakiet przeglądowy pracy agenta AI?

Pakiet przeglądowy to ustrukturyzowany zestaw dowodów dotyczących pracy agenta.

Odpowiada na 7 pytań:

Pytanie Pole pakietu
O co poprosił użytkownik? Cel i zakres
Co agent zmienił? Pliki, różnice, artefakty, stan zewnętrzny
Co agent uruchomił? Polecenia, wywołania narzędzi, argumenty, stany zakończenia
Co zatwierdził człowiek? Decyzje zatwierdzające i uwagi o ryzyku
Co dowodzi wyniku? Testy, weryfikacje źródeł, wyrenderowane ścieżki, telemetria, zrzuty ekranu
Co nadal wymaga oceny? Zadania przeglądowe, macierz akceptacji, nierozwiązane twierdzenia
Co powinno wydarzyć się dalej? Scalenie, publikacja, odrzucenie, ponowienie albo eskalacja

Pakiet może istnieć jako Markdown, JSON, wiersz w bazie danych, szablon pull requestu albo osobny obiekt UI. Format jest mniej ważny niż struktura. Ten obiekt musi oddzielać dowody od narracji.

Odpowiedź końcowa mówi: „Przetłumaczyłem artykuł i go wdrożyłem”. Pakiet przeglądowy wskazuje, które wersje językowe się zmieniły, która bramka jakości przeszła, które wiersze D1 istnieją, który commit został wdrożony, które czyszczenie CDN uruchomiono, które działające ścieżki zwróciły zmieniony artykuł i które przeglądy przez rodzimych użytkowników języka pozostają w toku. Druga wersja daje człowiekowi powierzchnię decyzyjną.

Dlaczego odpowiedzi końcowe przestały działać?

Odpowiedzi końcowe przestały działać, ponieważ agenci działają teraz w czasie.

Odpowiedź chatbota można ocenić na powierzchni samej odpowiedzi. Agent programistyczny albo publikacyjny wytwarza ścieżkę: czyta pliki, wybiera źródła, wywołuje narzędzia, edytuje treść, uruchamia testy, pisze tłumaczenia, wdraża, czyści pamięć podręczną i weryfikuje produkcję. Końcowy akapit tylko opisuje tę ścieżkę. Nie dowodzi, że ta ścieżka rzeczywiście została wykonana.

Dokumentacja OpenAI Codex opisuje zadania chmurowe, które mogą czytać, edytować i uruchamiać kod w odizolowanych środowiskach chmurowych, w tym wiele zadań działających równolegle w tle.2 Równoległa praca w tle zwiększa różnicę między tym, co się wydarzyło, a tym, co może pomieścić odpowiedź końcowa. Im więcej robi agent, tym mniej podsumowanie transkrypcji zasługuje na rolę obiektu dowodowego.

Wpis OpenAI o bezpiecznym uruchamianiu Codex przedstawia ten sam problem operacyjny od strony bezpieczeństwa. Opisuje mechanizmy kontroli dotyczące sandboxingu, zatwierdzeń, zasad sieciowych, tożsamości, zarządzanej konfiguracji i telemetrii projektowanej z myślą o agentach; wymienia też eksport logów dla zdarzeń takich jak prompty, decyzje zatwierdzające, wyniki wykonania narzędzi, użycie MCP oraz zdarzenia zezwolenia lub odmowy w sieci.6 To składniki pakietu. Powinny znaleźć się w powierzchni przeglądu.

Odpowiedź końcowa nadal powinna istnieć. Powinna brzmieć jak streszczenie zarządcze. Ścieżkę audytu powinien nieść pakiet przeglądowy.

Co powinno znaleźć się w pakiecie?

Pakiet powinien grupować dowody według decyzji, a nie według wewnętrznej kolejności zdarzeń.

Sekcja Minimalne dowody
Cel Prośba użytkownika, kryteria akceptacji, wyłączenia z zakresu
Podsumowanie pracy Zmienione pliki, wygenerowane artefakty, dotknięty stan zewnętrzny
Ślad Istotne wywołania narzędzi, wyniki poleceń, niepowodzenia, ponowienia
Zatwierdzenie Ryzykowne działania, decyzje zatwierdzające, odmowy, odroczenia
Weryfikacja Testy, sprawdzenia źródeł, wyrenderowane ścieżki, sprawdzenia schematu, zrzuty ekranu
Wydanie Commit, stan wdrożenia, czyszczenie pamięci podręcznej, działające znaczniki zmian
Przegląd Stan akceptacji przez człowieka, stan przeglądu przez rodzimego użytkownika języka, nierozwiązane luki

Taka struktura utrzymuje czytelność pakietu. Surowy ślad może zawierać setki zdarzeń. Pakiet przeglądowy nie powinien zrzucać ich wszystkich do głównego widoku. W razie potrzeby pakiet powinien linkować do pełnego śladu albo pozwalać go rozwinąć, zachowując domyślny widok skupiony na decyzjach.

Standard dowodowy zmienia się zależnie od domeny:

Typ pracy Pakiet musi dowieść
Zmiana w kodzie Różnice, testy, wywołujący objęci wpływem, ścieżka wycofania
Artykuł publiczny Źródła, zgodność twierdzeń ze źródłami, metadane, schemat, działająca ścieżka
Tłumaczenie Pamięć podręczna wersji językowej, bramka jakości, wiersz D1, działająca ścieżka, stan przeglądu przez rodzimego użytkownika języka
Praca nad bezpieczeństwem Zagrożenie, mitygacja, test, ryzyko szczątkowe, zapis zatwierdzenia
Wdrożenie produkcyjne Commit, stan wdrożenia, świeżość pamięci podręcznej, działający znacznik zmiany

Zasada pozostaje stała: jeśli człowiek ma podpisać się pod pracą, pakiet powinien zawierać dowody, które czynią ten podpis odpowiedzialnym.

Jak ślady i zatwierdzenia zasilają pakiet?

Ślady i zatwierdzenia tworzą kręgosłup pakietu.

Dokumentacja śledzenia w OpenAI Agents SDK definiuje ślady i spany wokół uruchomienia agenta, w tym generacje LLM, wywołania narzędzi, przekazania, zabezpieczenia i zdarzenia niestandardowe.3 Te dane mówią pakietowi, co się wydarzyło. Dokumentacja OpenAI dotycząca udziału człowieka w procesie pokazuje, jak wykonanie może zostać wstrzymane na czas zatwierdzania narzędzi, zwracać oczekujące zatwierdzenia jako przerwania, serializować stan RunState i wznawiać pracę po decyzjach.4 Te dane mówią pakietowi, kto zezwolił na ryzykowne działanie.

Hooks Claude Code firmy Anthropic pokazują podobny kształt cyklu życia: mogą działać przed narzędziami, po narzędziach, przy prośbach o uprawnienia i wtedy, gdy Claude się zatrzymuje.5 Te zdarzenia są ważne, ponieważ pozwalają systemowi agentowemu zamienić zachowanie w fakty gotowe do przeglądu. Pakiet nie powinien polegać na tym, że model pamięta przebieg pracy. Środowisko wykonawcze powinno zapisywać istotne zdarzenia w chwili, gdy się dzieją.

Różnica jest zasadnicza:

Słabe zakończenie Zakończenie pakietem
„Testy przechodzą”. Polecenie, kod wyjścia, podsumowanie wyniku, ewentualne testy zakończone niepowodzeniem
„Źródła sprawdzone”. Adresy URL źródeł, status, zgodność twierdzeń, zablokowane adresy URL
„Wdrożenie się udało”. Identyfikator wdrożenia, stan środowiska wykonawczego, czyszczenie pamięci podręcznej, smoke test działającej ścieżki
„Tłumaczenia zakończone”. Lista wersji językowych, wynik bramki jakości, wiersze D1, stan przeglądu przez rodzimego użytkownika języka
„Zatwierdziłem polecenie”. Obiekt zatwierdzenia, powód, poziom ryzyka, aktor, znacznik czasu

Pakiet usuwa dwuznaczność. Agent nadal może napisać zwięzłe podsumowanie, ale dowody żyją poza prozą.

Jak powinien działać stan przeglądu przez człowieka?

Stan przeglądu przez człowieka powinien być osobnym polem, a nie przymiotnikiem.

Bramki maszynowe mogą potwierdzić strukturę, stan ścieżek, obecność schematu, dostępność źródeł i wiele kontroli zgodności. Nie mogą potwierdzić, że płynnie posługujący się językiem rodzimy recenzent sprawdził zlokalizowany artykuł. Pakiet powinien jasno podawać oba fakty:

Status Znaczenie
Maszynowo zaliczone Automatyczne bramki przeszły
Oczekuje na człowieka Wymagany przegląd przez człowieka jeszcze się nie odbył
Zatwierdzone przez człowieka Zapisano recenzenta, datę, wersję językową lub zakres oraz decyzję
Odrzucone Recenzent znalazł problem blokujący
Niewymagane Przepływ pracy nie wymaga akceptacji człowieka dla tego zakresu

Ta sama zasada działa poza tłumaczeniami. Bramka bezpieczeństwa może przejść, choć przegląd prawny nadal czeka. Zestaw testów może przejść, choć przegląd produktowy odrzuca zachowanie. Wdrożenie może się udać, choć CDN nadal serwuje nieaktualną treść. Stan przeglądu powinien opisywać pozostałą decyzję, a nie ozdabiać pewność agenta.

AI Risk Management Framework od NIST ujmuje wiarygodność jako coś, co zespoły włączają w projektowanie, rozwój, użycie i ocenę systemów AI.7 Pakiety przeglądowe operacjonalizują tę ramę. Zamieniają ocenę w widoczny artefakt, zamiast zostawiać ją jako twierdzenie w odpowiedzi końcowej.

Jak wygląda minimalny pakiet?

Na początku wystarczy mały pakiet:

# Review Packet: <work item>

## Decision
Status: ready for review | blocked | approved | rejected
Owner: <human or team>

## Goal
- User request:
- Acceptance criteria:
- Scope exclusions:

## Changes
- Files:
- Artifacts:
- External state:

## Evidence
| Claim | Proof | Result |
|---|---|---|
| Tests ran | `<command>` output | pass/fail |
| Public route works | `<url>` smoke | pass/fail |
| Sources support claims | source list | pass/fail |

## Approvals
| Action | Risk | Decision | Notes |
|---|---|---|---|

## Remaining Gaps
- <unverified work>

Na początku pakiet powinien pozostać zwyczajny. Tabele, linki i krótkie pola statusu działają lepiej niż piękny artefakt, który ukrywa dowody. Gdy struktura zacznie działać, projekt może ułatwić przeglądanie pakietu: poziomy ważności, grupowanie, filtry, zwijane ślady i wyraźne następne działania.

Ważna decyzja produktowa brzmi tak: pakiet staje się artefaktem, który mogą czytać inne systemy. Pull request może do niego linkować. Notatka wydania może go streścić. Rodzimy użytkownik języka może go podpisać. Przyszły agent może wznowić pracę na jego podstawie.

Jak to zmienia interfejsy agentów?

Pakiety przeglądowe łączą powierzchnie nadzoru z bramką dowodową.

Powierzchnia nadzoru pokazuje, co wymaga uwagi podczas pracy agenta. Bramka dowodowa zatrzymuje słabe zakończenia na końcu. Pakiet przeglądowy utrwala wynik. Razem tworzą pętlę:

  1. Operator deleguje cel.
  2. Agent działa pod kontrolą zatwierdzeń i śladów.
  3. System zapisuje dowody w chwili występowania zdarzeń.
  4. Agent podsumowuje pracę.
  5. Pakiet wiąże każde twierdzenie z dowodem.
  6. Człowiek zatwierdza, odrzuca albo odsyła pracę do poprawy.

Ta pętla zmienia również standard pisania dla agentów. Odpowiedź końcowa nie powinna udawać dowodu. Powinna wskazywać, gdzie dowód się znajduje, co przeszło i co pozostaje otwarte. Gdy zadanie dotyczy treści publicznych, danych klientów, pieniędzy, bezpieczeństwa, produkcji albo tłumaczeń, pakiet powinien przetrwać dłużej niż czat.

Krótkie podsumowanie

Pakiety przeglądowe powinny zastąpić odpowiedzi końcowe jako zaufany artefakt zakończenia poważnej pracy agentów. OpenAI Codex już wskazuje kierunek: weryfikowalne logi terminala, wyniki testów, zatwierdzenia, telemetria i ślady zadań chmurowych.12346 Cykl życia hooks w Claude Code firmy Anthropic pokazuje ten sam kształt środowiska wykonawczego w innym stosie agentowym.5 NIST dostarcza ramę zaufania: ocena należy do projektowania, rozwoju, użycia i ewaluacji systemów AI, a nie tylko do zachowania modelu.7

Praktyczny ruch jest prosty: odpowiedź końcowa powinna być krótka, a pakiet prawdziwy.

FAQ

Czym jest pakiet przeglądowy pracy agenta AI?

Pakiet przeglądowy to ustrukturyzowany zestaw dowodów, który zapisuje, o co poproszono agenta, co się zmieniło, które polecenia i narzędzia zostały uruchomione, jakie zatwierdzenia miały miejsce, które kontrole przeszły i co pozostaje niezweryfikowane. Daje ludzkiemu recenzentowi obiekt decyzyjny zamiast samego prozatorskiego twierdzenia o zakończeniu pracy.

Dlaczego odpowiedź końcowa nie wystarcza?

Odpowiedź końcowa podsumowuje pracę, ale nie dowodzi, że praca rzeczywiście została wykonana. Zadania agentów obejmują dziś wywołania narzędzi, edycję plików, testy, wdrożenia, tłumaczenia, zatwierdzenia i stan pamięci podręcznej. Te fakty potrzebują dołączonych dowodów. Odpowiedź końcowa może wskazać pakiet; to pakiet powinien nieść dowód.

Co powinno trafić do pakietu przeglądowego najpierw?

Warto zacząć od celu, zmienionych plików, dowodów poleceń i testów, sprawdzeń źródeł, decyzji zatwierdzających, dowodu wdrożenia lub ścieżki oraz nierozwiązanych luk. Pełne ślady, zrzuty ekranu, akceptację rodzimego użytkownika języka i uwagi o ryzyku należy dodać wtedy, gdy praca dotyka powierzchni publicznych, produkcyjnych, bezpieczeństwa, pieniędzy albo wpływu na klientów.

Czy każde zadanie agenta potrzebuje pakietu przeglądowego?

Nie. Eksploracyjne zadania o niskim ryzyku mogą kończyć się zwykłym podsumowaniem. Pakiety przeglądowe są ważne wtedy, gdy człowiek ma coś podpisać, scalić, opublikować, wdrożyć, wydać pieniądze, zatwierdzić albo później polegać na wyniku. Pakiet powinien rosnąć wraz z ryzykiem.

Jak pakiety przeglądowe mają się do śladów?

Ślady zapisują to, co wydarzyło się podczas uruchomienia agenta. Pakiety przeglądowe wybierają zdarzenia śladu istotne dla decyzji i wiążą je z twierdzeniami. Ślad jest surowym zapisem. Pakiet jest obiektem przeglądu.


Źródła


  1. OpenAI, „Introducing Codex,” OpenAI, 16 maja 2025. Źródło dla opisu Codex jako chmurowego agenta inżynierii oprogramowania oraz dla twierdzenia, że Codex dostarcza weryfikowalne dowody działań przez cytaty z logów terminala i wyników testów. 

  2. OpenAI, „Codex cloud,” OpenAI Developers. Źródło dla zadań chmurowych Codex, które czytają, modyfikują i uruchamiają kod w odizolowanych kontenerach chmurowych, w tym dla wykonywania zadań w tle i równolegle. 

  3. OpenAI, „Tracing,” OpenAI Agents SDK. Źródło dla wbudowanego śledzenia uruchomień agentów, spanów, generacji LLM, wywołań narzędzi, przekazań, zabezpieczeń i zdarzeń niestandardowych. 

  4. OpenAI, „Human-in-the-loop,” OpenAI Agents SDK. Źródło dla przerwań związanych z zatwierdzeniami, oczekujących zatwierdzeń, serializowanego RunState i wznawiania wykonania po decyzjach zatwierdzających. 

  5. Anthropic, „Hooks reference,” dokumentacja Claude Code. Źródło dla zdarzeń cyklu życia Claude Code, takich jak PreToolUse, PostToolUse, PermissionRequest i Stop

  6. OpenAI, „Running Codex safely at OpenAI,” OpenAI, 8 maja 2026. Źródło dla opisanych przez OpenAI mechanizmów kontroli Codex dotyczących sandboxingu, zatwierdzeń, zasad sieciowych, tożsamości, zarządzanej konfiguracji, eksportu logów OpenTelemetry, logów zgodności i telemetrii projektowanej z myślą o agentach. 

  7. National Institute of Standards and Technology, „AI Risk Management Framework,” NIST. Źródło dla włączania kwestii wiarygodności w projektowanie, rozwój, użycie i ocenę produktów, usług oraz systemów AI. 

Powiązane artykuły

Agenci potrzebują interfejsów nadzoru

Interfejsy nadzoru agentów zamieniają autonomiczną pracę AI w operacje, które można sprawdzić: zatwierdzenia, ślady, dow…

10 min czytania

Projektowanie agentowe to projektowanie powierzchni sterowania

Projektowanie agentowe nie polega na ładniejszym oknie czatu. To powierzchnia sterowania, dzięki której autonomiczne opr…

10 min czytania

Pętla Ralph: jak uruchamiam autonomiczne agenty AI na noc

Zbudowałem system autonomicznych agentów z hookami zatrzymania, budżetami spawnowania i pamięcią opartą na systemie plik…

6 min czytania