Własność agenta AI jest podstawowym mechanizmem zaufania

10 min read

15 maja 2026 roku badacze z Ben-Gurion University of the Negev, Northeastern University i Amrita Vishwa Vidyapeetham zdefiniowali przypisywanie agentów jako problem powiązania zaobserwowanej interakcji agenta AI z odpowiedzialnym kontem u dostawcy hostującego.¹

Samo sformułowanie brzmi wąsko. Problem wąski nie jest. Agent może spamować użytkowników, pobierać dane z systemów, podszywać się pod przedstawiciela wsparcia, wykonywać zadanie z cyberbezpieczeństwa, wywoływać narzędzia, wydawać pieniądze albo zmieniać infrastrukturę, podczas gdy strona poszkodowana widzi zachowanie, lecz nie potrafi ustalić, kto wdrożył agenta.¹

Własność agenta AI to brakujący podstawowy mechanizm zaufania. Każde autonomiczne działanie powinno wskazywać odpowiedzialne konto, sesję, zakres uprawnień, właściciela ludzkiego lub organizacyjnego oraz ścieżkę zatrzymania. Logi mówią, co się wydarzyło. Własność mówi, kto może za to odpowiedzieć.

W skrócie

Bezpieczeństwo agentów nie może kończyć się na uprawnieniach narzędzi, punktach kontrolnych środowiska wykonawczego ani dowodach w odpowiedzi końcowej. Te mechanizmy są ważne, ale nie odpowiadają na pytanie o rozliczalność: kto jest właścicielem działającego agenta?

Nowa praca o przypisywaniu agentów proponuje protokół pośredniczony przez dostawcę, który używa znaczników typu canary do powiązania zaobserwowanej szkodliwej interakcji z sesją i kontem u dostawcy.¹ Badanie dotyczy reagowania na nadużycia i odpowiedzialności prawnej. Zespoły produktowe potrzebują mniejszej, codziennej wersji we własnych systemach: każde uruchomienie agenta powinno mieć rekord własności łączący konto, sesję, zakres uprawnień, aktywność narzędzi, ścieżkę weryfikacji i wyłącznik awaryjny.

Najważniejsze wnioski

Dla zespołów platform agentowych: - Własność należy traktować jako pole środowiska wykonawczego, nie jako księgowy dopisek. - Do każdego uruchomienia agenta należy dołączać właściciela, konto, sesję, zakres narzędzi i mechanizmy zatrzymania.

Dla zespołów bezpieczeństwa: - Logi bez własności spowalniają reagowanie na incydenty. Własność bez logów osłabia dowody. - Potrzebne są oba elementy: ślad działania i ścieżka do odpowiedzialnego konta.

Dla zespołów produktowych: - Użytkownikom należy pokazywać, kto lub co działa w ich imieniu. - Delegowanie działania trzeba oddzielić od delegowania odpowiedzialności.

Dla zespołów polityki i zaufania: - Przypisywanie należy projektować z myślą o autoryzowanej reakcji, nie o swobodnej deanonimizacji. - Trzeba rejestrować tyle, ile wystarczy do zatrzymania szkody, sprawdzenia nadużycia i poszanowania należytego procesu.

Własność to nie nazwa profilu

Większość produktów pokazuje już jakąś formę tożsamości. Okno czatu może wyświetlać obszar roboczy, awatar użytkownika, nazwę bota, etykietę klucza API albo organizację. Taka warstwa pomaga ludziom się zorientować, ale nie dowodzi własności.

Własność agenta wymaga ściślejszej umowy:

Pole	Pytanie, na które odpowiada
Konto	Który klient, obszar roboczy albo konto u dostawcy sfinansowało uruchomienie?
Sesja	Które konkretne uruchomienie wytworzyło działanie?
Operator	Który człowiek, usługa albo polityka oddelegowały pracę?
Zakres uprawnień	Z których narzędzi, kluczy, budżetów i zasobów agent mógł korzystać?
Ślad działania	Jakie polecenia wejściowe, zatwierdzenia, wywołania narzędzi, wyniki i decyzje sieciowe wystąpiły?
Ścieżka zatrzymania	Kto może wstrzymać, cofnąć uprawnienia, ograniczyć albo zakończyć uruchomienie?
Ścieżka weryfikacji	Kto może przeprowadzić analizę po skardze albo alercie?

Ta lista wygląda operacyjnie, ponieważ własność jest operacyjna. Etykieta nie pomaga, gdy agent wysyła 2 000 szkodliwych wiadomości albo przeciąża zewnętrzny punkt końcowy. Zespół reagowania potrzebuje sesji, konta, zakresu uprawnień i ścieżki zatrzymania.

Klucze agentów potrzebują budżetów ryzyka opisuje stronę uprawnień: klucze powinny przyznawać wąskie możliwości egzekwowane po stronie serwera. Własność opisuje stronę odpowiedzialności: każde użycie tych uprawnień powinno prowadzić do odpowiedzialnego rekordu.

Co wnosi praca o przypisywaniu

Artykuł formalizuje lukę, którą operatorzy agentów szybko rozpoznają. Ofiara widzi zachowanie agenta. Dostawca widzi wywołania modelu i logi konta. Żadna ze stron sama nie widzi obu perspektyw.¹

Proponowany protokół łączy te perspektywy za pomocą znaczników typu canary. Uprawniona strona wstrzykuje znacznik do treści, którą podejrzany agent prawdopodobnie pobierze. Jeśli agent przekaże tę treść do wywołania modelu hostowanego przez dostawcę, dostawca może przeszukać wąskie okno czasowe logów sesji, znaleźć znacznik, odtworzyć sesję i powiązać ją z kontem.¹

Praca rozdziela przypadki łatwe i trudne:

Scenariusz	Praktyczna forma znacznika	Dlaczego działa
Nieadwersarialne nadużycie	Znacznik leksykalny, identyfikator albo unikalny ciąg znaków	Agent przekazuje treść do modelu bez filtrowania.
Nadużycie adwersarialne	Leksykalne lub semantyczne znaczniki niosące użyteczność	Usunięcie znacznika usuwa również treść potrzebną agentowi.
Reakcja dostawcy	Przeszukiwanie logów w wąskim oknie czasowym	Dostawca przeszukuje sesje w pobliżu czasu wstrzyknięcia, a nie całą historię logów.

Istotna jest koncepcja użyteczności. Agent oszust może potrzebować sygnałów emocjonalnych od celu. Agent internetowy może potrzebować widocznej treści strony. Agent do zadań z cyberbezpieczeństwa może potrzebować nazw plików i artefaktów odpowiedzi. Gdy operator filtruje zbyt agresywnie, agent traci skuteczność zadania razem z dowodami przypisania.¹

Eksperyment z agentem do zadań z cyberbezpieczeństwa konkretyzuje ten kompromis. Przeciwnik świadomy znaczników obniżył skuteczność rozwiązywania zadań przez agenta z 51% do 9%, gdy tłumienie usuwało artefakty istotne dla zadania. Nazwy plików i widoczne identyfikatory w treści nadal zachowywały dowody przypisania odpowiednio na poziomie 77% i 70%, a znaczniki semantyczne osiągnęły co najmniej 98% odsetka wyników prawdziwie pozytywnych w adwersarialnej ścieżce semantycznej.¹

Te liczby nie powinny stać się marketingiem produktu. Praca testuje konkretne agenty, nakładki i rodziny znaczników. Wniosek powinien jednak pozostać: przypisywanie działa najlepiej wtedy, gdy sygnał podróżuje z treścią, której agent rzeczywiście potrzebuje.

Logi są konieczne, ale niewystarczające

Wpis OpenAI o bezpieczeństwie Codex opisuje dojrzały układ kontroli: ograniczone wykonywanie, zatwierdzenia, zarządzaną politykę sieciową, przechowywanie poświadczeń, reguły, zarządzaną konfigurację i telemetrię natywną dla agentów.² Po stronie telemetrii obejmuje to rekordy OpenTelemetry dla poleceń wejściowych użytkownika, decyzji zatwierdzających, wyników wykonywania narzędzi, użycia serwera MCP oraz zdarzeń zezwolenia lub odmowy w proxy sieciowym.²

OpenAI opisuje także przepływ pracy klasyfikacji bezpieczeństwa, który używa logów Codex do sprawdzenia pierwotnego żądania, aktywności narzędzi, decyzji zatwierdzających, wyników narzędzi i decyzji polityki sieciowej wokół alertów dotyczących podejrzanych punktów końcowych.²

Te dowody są konieczne. Nadal potrzebują własności.

Ślad narzędzi może powiedzieć:

Dowód ze śladu	Brakujące pytanie o własność
Agent wywołał narzędzie powłoki	Które konto autoryzowało uruchomienie?
Agent natrafił na blokadę sieciową	Który właściciel polityki może sprawdzić blokadę?
Agent poprosił o zatwierdzenie	Kto zatwierdził, odrzucił albo oddelegował zatwierdzenie?
Agent użył serwera MCP	Który obszar roboczy skonfigurował ten serwer?
Agent wytworzył wynik	Który operator przyjmuje odpowiedzialność za publikację?

Ślady wykonywania agentów są kontraktem środowiska wykonawczego argumentuje, że ślady dowodzą ścieżki. Własność dowodzi odpowiedzialnej strony stojącej za tą ścieżką. Silne systemy potrzebują obu rekordów połączonych na poziomie sesji.

Codex pokazuje, że problem nie jest już teoretyczny

Ogłoszenie OpenAI z 14 maja dotyczące Codex mówi, że z Codex korzysta co tydzień ponad 4 miliony osób, i opisuje przepływ mobilny, w którym użytkownicy mogą sprawdzać wyniki, zatwierdzać polecenia, zmieniać modele, rozpoczynać pracę oraz śledzić z telefonu zrzuty ekranu, wynik terminala, diffy, wyniki testów i zatwierdzenia.³ To samo ogłoszenie informuje, że Remote SSH osiągnął ogólną dostępność, pozwalając Codex uruchamiać wątki na zdalnych maszynach i w środowiskach zarządzanych.³

Taki kształt produktu przenosi pracę agentów między urządzeniami, maszynami, wątkami, zatwierdzeniami, poświadczeniami i lokalnymi narzędziami. Jedno uruchomienie agenta może obejmować laptop, zatwierdzenie z telefonu, zdalny host, projekt, wtyczkę, przeglądarkę, powłokę i operację kontroli wersji.

Rekord własności musi podróżować razem z uruchomieniem. W przeciwnym razie system odpowie na pytanie „jakie polecenie zostało uruchomione?”, tracąc odpowiedź na pytanie „kto był właścicielem uruchomienia w chwili wykonania polecenia?”.

Punkty zaczepienia Codex sprawiają, że mechanizm agenta staje się realny ujmował punkty zaczepienia, zatwierdzenia, opiekę nad Gitem, dowody i wyczucie jakości jako warstwę operacyjną wokół pracy agentów. Własność należy do tej samej warstwy. Punkt zaczepienia może zablokować ryzykowne działanie. Ślad może wyjaśnić działanie zakończone. Własność łączy uruchomienie z kontem i operatorem, którzy mogą odpowiedzieć za oba wyniki.

Kontrakt własności w środowisku wykonawczym

Zespoły nie potrzebują pełnego protokołu przypisywania za pomocą znaczników typu canary dla każdego zadania wewnętrznego. Potrzebują własnego kontraktu własności, który czyni przypisywanie rutyną, zanim cokolwiek pójdzie źle.

Należy zacząć od jednego rekordu na uruchomienie agenta:

Pole rekordu własności	Minimalne zachowanie
`run_id`	Stabilny identyfikator sesji lub zadania agenta.
`account_id`	Klient, obszar roboczy, tenant albo organizacja będąca właścicielem uruchomienia.
`operator_id`	Człowiek, usługa, zaplanowane zadanie albo polityka, które zainicjowały uruchomienie.
`delegation_source`	Kliknięcie w UI, wywołanie API, zaplanowana reguła, zatwierdzenie mobilne albo token automatyzacji.
`authority_bundle`	Narzędzia, klucze, zakresy, budżety, zapisywalne katalogi główne, polityka sieciowa i domeny danych.
`approval_events`	Kto co zatwierdził, kiedy i na podstawie której polityki.
`trace_pointer`	Link do poleceń wejściowych, wywołań narzędzi, wyników, błędów i decyzji sieciowych.
`stop_controls`	Mechanizmy wstrzymania, cofnięcia uprawnień, ograniczenia, izolacji albo zakończenia.
`review_owner`	Zespół albo kolejka otrzymująca zgłoszenia nadużyć oraz sprawy dotyczące safety, bezpieczeństwa lub jakości.
`retention_policy`	Jak długo rekord pozostaje dostępny i kto może mieć do niego dostęp.

Rekord powinien znajdować się poniżej transkryptu czatu i powyżej surowych logów infrastruktury. Może z niego korzystać wsparcie produktu. Może z niego korzystać bezpieczeństwo. Może z niego korzystać zespół ds. zgodności. Może z niego korzystać inżynieria podczas wycofywania zmian.

Nazwy pól są mniej ważne niż niezmiennik: żadnego działania agenta bez odpowiedzialnego rekordu uruchomienia.

Własność potrzebuje granic prywatności

Przypisywanie może stać się nadużyciem, jeśli zespoły potraktują je jako zgodę na domyślne demaskowanie wszystkich. Praca o własności wskazuje to ryzyko wprost i osadza protokół w autoryzowanych, audytowalnych uprawnieniach, podstawie polityk i procesie prawnym.¹

Zespoły produktowe powinny skopiować tę powściągliwość.

Granica	Reguła produktu
Dostęp	Tylko upoważnieni recenzenci mogą sprawdzać rekordy właścicieli.
Cel	Wyłącznie nadużycia, safety, bezpieczeństwo, wsparcie, zgodność albo reagowanie na incydenty.
Ujawnienie	Ujawnienie zewnętrzne wymaga polityki, procesu albo podstawy prawnej.
Minimalizacja	Należy przechowywać tyle, ile wystarczy do zatrzymania szkody i sprawdzenia uruchomienia, a nie każdy prywatny szczegół bezterminowo.
Audyt	Należy logować każde sprawdzenie własności i każde ujawnienie.

Własność nie powinna stać się swobodnym nadzorem. Silne przypisywanie daje ofiarom, platformom, dostawcom i operatorom ścieżkę reakcji. Słabe zarządzanie zmienia ten sam mechanizm w kolejny problem zaufania.

Zasada projektowa jest prosta: każdy agent ma być rozliczalny wobec systemu, a każde sprawdzenie własności ma być rozliczalne wobec polityki.

Gdzie własność pasuje do istniejących mechanizmów kontroli agentów

Własność nie zastępuje reszty stosu.

Ogłoszenie OpenAI dotyczące Agents SDK wskazuje na ten sam warstwowy kształt. SDK daje agentom kontrolowane obszary robocze, inspekcję plików i narzędzi, MCP, umiejętności, AGENTS.md, powłokę, patchowanie, wykonywanie w sandboxie oraz obszary robocze oparte na manifestach.⁴ AgentTrust przedstawia uzupełniający argument bezpieczeństwa: należy sprawdzać wywołania narzędzi przed wykonaniem i zwracać ustrukturyzowane werdykty, takie jak allow, warn, block albo review.⁵

Te systemy decydują, co agent może zrobić dalej. Własność decyduje, kto odpowiada za uruchomienie.

Mechanizm kontroli	Zadanie	Co dodaje własność
Klucze z ograniczonym zakresem	Ograniczają, co agent może zrobić	Które konto i który operator przyznali ten zakres
Punkty zaczepienia środowiska wykonawczego	Przechwytują ryzykowne działania	Które uruchomienie wywołało punkt zaczepienia
Bramki zatwierdzania	Dodają ludzki osąd	Kto zatwierdził które rozszerzenie uprawnień
Ślady wykonywania	Pokazują, co się wydarzyło	Kto jest właścicielem śladu i kto może na niego zareagować
Pakiety weryfikacyjne	Pakują dowody	Który właściciel akceptuje wynik
Narzędzia modelowe	Wytwarzają typowane szacunki	Który system oddelegował uprawnienia modelowi

Agenci AI powinni wywoływać modele argumentuje, że agenci powinni wywoływać wytrenowane modele zamiast wymyślać szacunki. Własność rozszerza tę samą dyscyplinę na uprawnienia. System powinien wiedzieć, czy działanie pochodziło z kliknięcia człowieka, sesji agenta, narzędzia modelowego, zaplanowanej automatyzacji czy oddelegowanej polityki.

To rozróżnienie chroni użytkowników. Użytkownik nie powinien zgadywać, czy działanie pochodziło od niego, od asystenta działającego na jego koncie, z polityki organizacji czy ze skompromitowanej automatyzacji.

Agenci potrzebują powierzchni nadzoru opisuje widoczną dla użytkownika stronę tego problemu. Własność dostarcza rekord pod tą powierzchnią. Pakiety weryfikacyjne są nową odpowiedzią końcową opisuje artefakt ukończenia. Własność dostarcza stronę, która może ten artefakt zaakceptować, odrzucić albo cofnąć.

Reguła decyzyjna

Przed wdrożeniem agenta, który może wpływać na innych ludzi albo systemy zewnętrzne, warto zadać jedno pytanie:

Jeśli jutro ktoś poskarży się na tego agenta, czy potrafimy ustalić uruchomienie, konto, zakres uprawnień, zdarzenie zatwierdzające oraz osobę lub zespół, który może go zatrzymać?

Jeśli odpowiedź brzmi nie, agent nie jest gotowy produkcyjnie.

Produkt może już mieć logi. Może już mieć uprawnienia. Może już mieć polecenia mówiące modelowi, jak ma się zachowywać. Te elementy nie są własnością, dopóki nie łączą się w jeden rozliczalny rekord.

Własność agenta powinna stać się tak normalna jak identyfikatory żądań, logi audytowe i klucze API. Praca może brzmieć biurokratycznie, ale alternatywa jest gorsza: autonomiczne systemy, które mogą działać, choć nikt nie potrafi odpowiedzieć za działanie.

FAQ

Czym jest własność agenta AI?

Własność agenta AI to rekord z czasu działania, który łączy działanie agenta z kontem, sesją, operatorem, zakresem uprawnień, śladem i ścieżką zatrzymania odpowiedzialnymi za uruchomienie.

Czym własność agenta różni się od przypisywania agenta?

Własność agenta jest wewnętrznym kontraktem produktu. System rejestruje własność przed uruchomieniem i w jego trakcie. Przypisywanie agenta rozwiązuje trudniejszy problem po fakcie: powiązanie zaobserwowanego szkodliwego zachowania z odpowiedzialnym kontem u dostawcy, gdy strona poszkodowana nie zna jeszcze właściciela.¹

Dlaczego same logi zawodzą?

Logi mogą pokazać polecenia, wywołania narzędzi, zatwierdzenia i decyzje sieciowe. Zawodzą wtedy, gdy nie potrafią odpowiedzieć, kto oddelegował uruchomienie, kto był właścicielem zakresu uprawnień oraz kto może zatrzymać lub sprawdzić agenta.

Czy dostawcy powinni ujawniać właścicieli agentów każdemu, kto o to poprosi?

Nie. Sprawdzenie własności powinno wymagać autoryzowanego dostępu, podstawy w polityce i audytu. Ujawnienie zewnętrzne powinno wymagać właściwego procesu. Przypisywanie chroni zaufanie tylko wtedy, gdy ścieżka sprawdzenia ma własne zarządzanie.¹

Jakie jest minimalne wymaganie produkcyjne?

Każde uruchomienie agenta, które może wpływać na systemy zewnętrzne, powinno mieć identyfikator uruchomienia, identyfikator konta, identyfikator operatora, pakiet uprawnień, rekord zatwierdzenia, wskaźnik śladu, mechanizm zatrzymania, właściciela weryfikacji i politykę retencji.

Źródła

Ruben Chocron, Doron Jonathan Ben Chayim, Eyal Lenga, Gilad Gressel, Alina Oprea, and Yisroel Mirsky, “Who Owns This Agent? Tracing AI Agents Back to Their Owners,” arXiv:2605.16035v1, submitted May 15, 2026. Źródło definicji przypisywania agentów, modelu zagrożeń LLM hostowanego przez dostawcę, protokołu przypisywania opartego na znacznikach typu canary, taksonomii znaczników leksykalnych i semantycznych, kompromisu między użytecznością a unikaniem wykrycia, wyników ewaluacji agenta do zadań z cyberbezpieczeństwa, właściwości przeszukiwania w ograniczonym oknie czasowym, ograniczeń oraz ram etycznych dotyczących autoryzowanych i audytowalnych uprawnień. ↩↩↩↩↩↩↩↩↩↩
OpenAI, “Running Codex safely at OpenAI,” OpenAI, May 8, 2026. Źródło informacji o sandboxingu Codex, zatwierdzeniach, zarządzanej polityce sieciowej, kontrolach tożsamości i poświadczeń, zarządzanej konfiguracji, zdarzeniach OpenTelemetry, logach Compliance Platform oraz użyciu logów Codex przez OpenAI w klasyfikacji bezpieczeństwa. ↩↩↩
OpenAI, “Work with Codex from anywhere,” OpenAI, May 14, 2026. Źródło informacji o tygodniowym użyciu Codex, sterowaniu mobilnym, połączeniu z maszyną zdalną, stanie na żywo między wątkami i zatwierdzeniami, zrzutach ekranu, wyniku terminala, diffach, wynikach testów, ogólnej dostępności Remote SSH, ogólnej dostępności punktów zaczepienia oraz programistycznych tokenach dostępu. ↩↩
OpenAI, “The next evolution of the Agents SDK,” OpenAI, April 15, 2026. Źródło informacji o natywnej dla modeli pętli agenta w Agents SDK, kontrolowanych obszarach roboczych, inspekcji plików i narzędzi, MCP, umiejętnościach, AGENTS.md, powłoce, apply_patch, natywnym wykonywaniu w sandboxie, abstrakcji manifestu oraz rozdzieleniu orkiestracji agenta od środowisk obliczeniowych. ↩
Chenglin Yang, “AgentTrust: Runtime Safety Evaluation and Interception for AI Agent Tool Use,” arXiv:2605.04785v1, submitted May 6, 2026. Źródło informacji o przechwytywaniu wywołań narzędzi przed wykonaniem, werdyktach allow/warn/block/review, deobfuskacji powłoki, wykrywaniu RiskChain, zakresie benchmarku oraz integracji z serwerem MCP. ↩