← Wszystkie wpisy

Własność agenta AI jest podstawowym mechanizmem zaufania

15 maja 2026 roku badacze z Ben-Gurion University of the Negev, Northeastern University i Amrita Vishwa Vidyapeetham zdefiniowali przypisywanie agentów jako problem powiązania zaobserwowanej interakcji agenta AI z odpowiedzialnym kontem u dostawcy hostującego.1

Samo sformułowanie brzmi wąsko. Problem wąski nie jest. Agent może spamować użytkowników, pobierać dane z systemów, podszywać się pod przedstawiciela wsparcia, wykonywać zadanie z cyberbezpieczeństwa, wywoływać narzędzia, wydawać pieniądze albo zmieniać infrastrukturę, podczas gdy strona poszkodowana widzi zachowanie, lecz nie potrafi ustalić, kto wdrożył agenta.1

Własność agenta AI to brakujący podstawowy mechanizm zaufania. Każde autonomiczne działanie powinno wskazywać odpowiedzialne konto, sesję, zakres uprawnień, właściciela ludzkiego lub organizacyjnego oraz ścieżkę zatrzymania. Logi mówią, co się wydarzyło. Własność mówi, kto może za to odpowiedzieć.

W skrócie

Bezpieczeństwo agentów nie może kończyć się na uprawnieniach narzędzi, punktach kontrolnych środowiska wykonawczego ani dowodach w odpowiedzi końcowej. Te mechanizmy są ważne, ale nie odpowiadają na pytanie o rozliczalność: kto jest właścicielem działającego agenta?

Nowa praca o przypisywaniu agentów proponuje protokół pośredniczony przez dostawcę, który używa znaczników typu canary do powiązania zaobserwowanej szkodliwej interakcji z sesją i kontem u dostawcy.1 Badanie dotyczy reagowania na nadużycia i odpowiedzialności prawnej. Zespoły produktowe potrzebują mniejszej, codziennej wersji we własnych systemach: każde uruchomienie agenta powinno mieć rekord własności łączący konto, sesję, zakres uprawnień, aktywność narzędzi, ścieżkę weryfikacji i wyłącznik awaryjny.

Najważniejsze wnioski

Dla zespołów platform agentowych: - Własność należy traktować jako pole środowiska wykonawczego, nie jako księgowy dopisek. - Do każdego uruchomienia agenta należy dołączać właściciela, konto, sesję, zakres narzędzi i mechanizmy zatrzymania.

Dla zespołów bezpieczeństwa: - Logi bez własności spowalniają reagowanie na incydenty. Własność bez logów osłabia dowody. - Potrzebne są oba elementy: ślad działania i ścieżka do odpowiedzialnego konta.

Dla zespołów produktowych: - Użytkownikom należy pokazywać, kto lub co działa w ich imieniu. - Delegowanie działania trzeba oddzielić od delegowania odpowiedzialności.

Dla zespołów polityki i zaufania: - Przypisywanie należy projektować z myślą o autoryzowanej reakcji, nie o swobodnej deanonimizacji. - Trzeba rejestrować tyle, ile wystarczy do zatrzymania szkody, sprawdzenia nadużycia i poszanowania należytego procesu.

Własność to nie nazwa profilu

Większość produktów pokazuje już jakąś formę tożsamości. Okno czatu może wyświetlać obszar roboczy, awatar użytkownika, nazwę bota, etykietę klucza API albo organizację. Taka warstwa pomaga ludziom się zorientować, ale nie dowodzi własności.

Własność agenta wymaga ściślejszej umowy:

Pole Pytanie, na które odpowiada
Konto Który klient, obszar roboczy albo konto u dostawcy sfinansowało uruchomienie?
Sesja Które konkretne uruchomienie wytworzyło działanie?
Operator Który człowiek, usługa albo polityka oddelegowały pracę?
Zakres uprawnień Z których narzędzi, kluczy, budżetów i zasobów agent mógł korzystać?
Ślad działania Jakie polecenia wejściowe, zatwierdzenia, wywołania narzędzi, wyniki i decyzje sieciowe wystąpiły?
Ścieżka zatrzymania Kto może wstrzymać, cofnąć uprawnienia, ograniczyć albo zakończyć uruchomienie?
Ścieżka weryfikacji Kto może przeprowadzić analizę po skardze albo alercie?

Ta lista wygląda operacyjnie, ponieważ własność jest operacyjna. Etykieta nie pomaga, gdy agent wysyła 2 000 szkodliwych wiadomości albo przeciąża zewnętrzny punkt końcowy. Zespół reagowania potrzebuje sesji, konta, zakresu uprawnień i ścieżki zatrzymania.

Klucze agentów potrzebują budżetów ryzyka opisuje stronę uprawnień: klucze powinny przyznawać wąskie możliwości egzekwowane po stronie serwera. Własność opisuje stronę odpowiedzialności: każde użycie tych uprawnień powinno prowadzić do odpowiedzialnego rekordu.

Co wnosi praca o przypisywaniu

Artykuł formalizuje lukę, którą operatorzy agentów szybko rozpoznają. Ofiara widzi zachowanie agenta. Dostawca widzi wywołania modelu i logi konta. Żadna ze stron sama nie widzi obu perspektyw.1

Proponowany protokół łączy te perspektywy za pomocą znaczników typu canary. Uprawniona strona wstrzykuje znacznik do treści, którą podejrzany agent prawdopodobnie pobierze. Jeśli agent przekaże tę treść do wywołania modelu hostowanego przez dostawcę, dostawca może przeszukać wąskie okno czasowe logów sesji, znaleźć znacznik, odtworzyć sesję i powiązać ją z kontem.1

Praca rozdziela przypadki łatwe i trudne:

Scenariusz Praktyczna forma znacznika Dlaczego działa
Nieadwersarialne nadużycie Znacznik leksykalny, identyfikator albo unikalny ciąg znaków Agent przekazuje treść do modelu bez filtrowania.
Nadużycie adwersarialne Leksykalne lub semantyczne znaczniki niosące użyteczność Usunięcie znacznika usuwa również treść potrzebną agentowi.
Reakcja dostawcy Przeszukiwanie logów w wąskim oknie czasowym Dostawca przeszukuje sesje w pobliżu czasu wstrzyknięcia, a nie całą historię logów.

Istotna jest koncepcja użyteczności. Agent oszust może potrzebować sygnałów emocjonalnych od celu. Agent internetowy może potrzebować widocznej treści strony. Agent do zadań z cyberbezpieczeństwa może potrzebować nazw plików i artefaktów odpowiedzi. Gdy operator filtruje zbyt agresywnie, agent traci skuteczność zadania razem z dowodami przypisania.1

Eksperyment z agentem do zadań z cyberbezpieczeństwa konkretyzuje ten kompromis. Przeciwnik świadomy znaczników obniżył skuteczność rozwiązywania zadań przez agenta z 51% do 9%, gdy tłumienie usuwało artefakty istotne dla zadania. Nazwy plików i widoczne identyfikatory w treści nadal zachowywały dowody przypisania odpowiednio na poziomie 77% i 70%, a znaczniki semantyczne osiągnęły co najmniej 98% odsetka wyników prawdziwie pozytywnych w adwersarialnej ścieżce semantycznej.1

Te liczby nie powinny stać się marketingiem produktu. Praca testuje konkretne agenty, nakładki i rodziny znaczników. Wniosek powinien jednak pozostać: przypisywanie działa najlepiej wtedy, gdy sygnał podróżuje z treścią, której agent rzeczywiście potrzebuje.

Logi są konieczne, ale niewystarczające

Wpis OpenAI o bezpieczeństwie Codex opisuje dojrzały układ kontroli: ograniczone wykonywanie, zatwierdzenia, zarządzaną politykę sieciową, przechowywanie poświadczeń, reguły, zarządzaną konfigurację i telemetrię natywną dla agentów.2 Po stronie telemetrii obejmuje to rekordy OpenTelemetry dla poleceń wejściowych użytkownika, decyzji zatwierdzających, wyników wykonywania narzędzi, użycia serwera MCP oraz zdarzeń zezwolenia lub odmowy w proxy sieciowym.2

OpenAI opisuje także przepływ pracy klasyfikacji bezpieczeństwa, który używa logów Codex do sprawdzenia pierwotnego żądania, aktywności narzędzi, decyzji zatwierdzających, wyników narzędzi i decyzji polityki sieciowej wokół alertów dotyczących podejrzanych punktów końcowych.2

Te dowody są konieczne. Nadal potrzebują własności.

Ślad narzędzi może powiedzieć:

Dowód ze śladu Brakujące pytanie o własność
Agent wywołał narzędzie powłoki Które konto autoryzowało uruchomienie?
Agent natrafił na blokadę sieciową Który właściciel polityki może sprawdzić blokadę?
Agent poprosił o zatwierdzenie Kto zatwierdził, odrzucił albo oddelegował zatwierdzenie?
Agent użył serwera MCP Który obszar roboczy skonfigurował ten serwer?
Agent wytworzył wynik Który operator przyjmuje odpowiedzialność za publikację?

Ślady wykonywania agentów są kontraktem środowiska wykonawczego argumentuje, że ślady dowodzą ścieżki. Własność dowodzi odpowiedzialnej strony stojącej za tą ścieżką. Silne systemy potrzebują obu rekordów połączonych na poziomie sesji.

Codex pokazuje, że problem nie jest już teoretyczny

Ogłoszenie OpenAI z 14 maja dotyczące Codex mówi, że z Codex korzysta co tydzień ponad 4 miliony osób, i opisuje przepływ mobilny, w którym użytkownicy mogą sprawdzać wyniki, zatwierdzać polecenia, zmieniać modele, rozpoczynać pracę oraz śledzić z telefonu zrzuty ekranu, wynik terminala, diffy, wyniki testów i zatwierdzenia.3 To samo ogłoszenie informuje, że Remote SSH osiągnął ogólną dostępność, pozwalając Codex uruchamiać wątki na zdalnych maszynach i w środowiskach zarządzanych.3

Taki kształt produktu przenosi pracę agentów między urządzeniami, maszynami, wątkami, zatwierdzeniami, poświadczeniami i lokalnymi narzędziami. Jedno uruchomienie agenta może obejmować laptop, zatwierdzenie z telefonu, zdalny host, projekt, wtyczkę, przeglądarkę, powłokę i operację kontroli wersji.

Rekord własności musi podróżować razem z uruchomieniem. W przeciwnym razie system odpowie na pytanie „jakie polecenie zostało uruchomione?”, tracąc odpowiedź na pytanie „kto był właścicielem uruchomienia w chwili wykonania polecenia?”.

Punkty zaczepienia Codex sprawiają, że mechanizm agenta staje się realny ujmował punkty zaczepienia, zatwierdzenia, opiekę nad Gitem, dowody i wyczucie jakości jako warstwę operacyjną wokół pracy agentów. Własność należy do tej samej warstwy. Punkt zaczepienia może zablokować ryzykowne działanie. Ślad może wyjaśnić działanie zakończone. Własność łączy uruchomienie z kontem i operatorem, którzy mogą odpowiedzieć za oba wyniki.

Kontrakt własności w środowisku wykonawczym

Zespoły nie potrzebują pełnego protokołu przypisywania za pomocą znaczników typu canary dla każdego zadania wewnętrznego. Potrzebują własnego kontraktu własności, który czyni przypisywanie rutyną, zanim cokolwiek pójdzie źle.

Należy zacząć od jednego rekordu na uruchomienie agenta:

Pole rekordu własności Minimalne zachowanie
run_id Stabilny identyfikator sesji lub zadania agenta.
account_id Klient, obszar roboczy, tenant albo organizacja będąca właścicielem uruchomienia.
operator_id Człowiek, usługa, zaplanowane zadanie albo polityka, które zainicjowały uruchomienie.
delegation_source Kliknięcie w UI, wywołanie API, zaplanowana reguła, zatwierdzenie mobilne albo token automatyzacji.
authority_bundle Narzędzia, klucze, zakresy, budżety, zapisywalne katalogi główne, polityka sieciowa i domeny danych.
approval_events Kto co zatwierdził, kiedy i na podstawie której polityki.
trace_pointer Link do poleceń wejściowych, wywołań narzędzi, wyników, błędów i decyzji sieciowych.
stop_controls Mechanizmy wstrzymania, cofnięcia uprawnień, ograniczenia, izolacji albo zakończenia.
review_owner Zespół albo kolejka otrzymująca zgłoszenia nadużyć oraz sprawy dotyczące safety, bezpieczeństwa lub jakości.
retention_policy Jak długo rekord pozostaje dostępny i kto może mieć do niego dostęp.

Rekord powinien znajdować się poniżej transkryptu czatu i powyżej surowych logów infrastruktury. Może z niego korzystać wsparcie produktu. Może z niego korzystać bezpieczeństwo. Może z niego korzystać zespół ds. zgodności. Może z niego korzystać inżynieria podczas wycofywania zmian.

Nazwy pól są mniej ważne niż niezmiennik: żadnego działania agenta bez odpowiedzialnego rekordu uruchomienia.

Własność potrzebuje granic prywatności

Przypisywanie może stać się nadużyciem, jeśli zespoły potraktują je jako zgodę na domyślne demaskowanie wszystkich. Praca o własności wskazuje to ryzyko wprost i osadza protokół w autoryzowanych, audytowalnych uprawnieniach, podstawie polityk i procesie prawnym.1

Zespoły produktowe powinny skopiować tę powściągliwość.

Granica Reguła produktu
Dostęp Tylko upoważnieni recenzenci mogą sprawdzać rekordy właścicieli.
Cel Wyłącznie nadużycia, safety, bezpieczeństwo, wsparcie, zgodność albo reagowanie na incydenty.
Ujawnienie Ujawnienie zewnętrzne wymaga polityki, procesu albo podstawy prawnej.
Minimalizacja Należy przechowywać tyle, ile wystarczy do zatrzymania szkody i sprawdzenia uruchomienia, a nie każdy prywatny szczegół bezterminowo.
Audyt Należy logować każde sprawdzenie własności i każde ujawnienie.

Własność nie powinna stać się swobodnym nadzorem. Silne przypisywanie daje ofiarom, platformom, dostawcom i operatorom ścieżkę reakcji. Słabe zarządzanie zmienia ten sam mechanizm w kolejny problem zaufania.

Zasada projektowa jest prosta: każdy agent ma być rozliczalny wobec systemu, a każde sprawdzenie własności ma być rozliczalne wobec polityki.

Gdzie własność pasuje do istniejących mechanizmów kontroli agentów

Własność nie zastępuje reszty stosu.

Ogłoszenie OpenAI dotyczące Agents SDK wskazuje na ten sam warstwowy kształt. SDK daje agentom kontrolowane obszary robocze, inspekcję plików i narzędzi, MCP, umiejętności, AGENTS.md, powłokę, patchowanie, wykonywanie w sandboxie oraz obszary robocze oparte na manifestach.4 AgentTrust przedstawia uzupełniający argument bezpieczeństwa: należy sprawdzać wywołania narzędzi przed wykonaniem i zwracać ustrukturyzowane werdykty, takie jak allow, warn, block albo review.5

Te systemy decydują, co agent może zrobić dalej. Własność decyduje, kto odpowiada za uruchomienie.

Mechanizm kontroli Zadanie Co dodaje własność
Klucze z ograniczonym zakresem Ograniczają, co agent może zrobić Które konto i który operator przyznali ten zakres
Punkty zaczepienia środowiska wykonawczego Przechwytują ryzykowne działania Które uruchomienie wywołało punkt zaczepienia
Bramki zatwierdzania Dodają ludzki osąd Kto zatwierdził które rozszerzenie uprawnień
Ślady wykonywania Pokazują, co się wydarzyło Kto jest właścicielem śladu i kto może na niego zareagować
Pakiety weryfikacyjne Pakują dowody Który właściciel akceptuje wynik
Narzędzia modelowe Wytwarzają typowane szacunki Który system oddelegował uprawnienia modelowi

Agenci AI powinni wywoływać modele argumentuje, że agenci powinni wywoływać wytrenowane modele zamiast wymyślać szacunki. Własność rozszerza tę samą dyscyplinę na uprawnienia. System powinien wiedzieć, czy działanie pochodziło z kliknięcia człowieka, sesji agenta, narzędzia modelowego, zaplanowanej automatyzacji czy oddelegowanej polityki.

To rozróżnienie chroni użytkowników. Użytkownik nie powinien zgadywać, czy działanie pochodziło od niego, od asystenta działającego na jego koncie, z polityki organizacji czy ze skompromitowanej automatyzacji.

Agenci potrzebują powierzchni nadzoru opisuje widoczną dla użytkownika stronę tego problemu. Własność dostarcza rekord pod tą powierzchnią. Pakiety weryfikacyjne są nową odpowiedzią końcową opisuje artefakt ukończenia. Własność dostarcza stronę, która może ten artefakt zaakceptować, odrzucić albo cofnąć.

Reguła decyzyjna

Przed wdrożeniem agenta, który może wpływać na innych ludzi albo systemy zewnętrzne, warto zadać jedno pytanie:

Jeśli jutro ktoś poskarży się na tego agenta, czy potrafimy ustalić uruchomienie, konto, zakres uprawnień, zdarzenie zatwierdzające oraz osobę lub zespół, który może go zatrzymać?

Jeśli odpowiedź brzmi nie, agent nie jest gotowy produkcyjnie.

Produkt może już mieć logi. Może już mieć uprawnienia. Może już mieć polecenia mówiące modelowi, jak ma się zachowywać. Te elementy nie są własnością, dopóki nie łączą się w jeden rozliczalny rekord.

Własność agenta powinna stać się tak normalna jak identyfikatory żądań, logi audytowe i klucze API. Praca może brzmieć biurokratycznie, ale alternatywa jest gorsza: autonomiczne systemy, które mogą działać, choć nikt nie potrafi odpowiedzieć za działanie.

FAQ

Czym jest własność agenta AI?

Własność agenta AI to rekord z czasu działania, który łączy działanie agenta z kontem, sesją, operatorem, zakresem uprawnień, śladem i ścieżką zatrzymania odpowiedzialnymi za uruchomienie.

Czym własność agenta różni się od przypisywania agenta?

Własność agenta jest wewnętrznym kontraktem produktu. System rejestruje własność przed uruchomieniem i w jego trakcie. Przypisywanie agenta rozwiązuje trudniejszy problem po fakcie: powiązanie zaobserwowanego szkodliwego zachowania z odpowiedzialnym kontem u dostawcy, gdy strona poszkodowana nie zna jeszcze właściciela.1

Dlaczego same logi zawodzą?

Logi mogą pokazać polecenia, wywołania narzędzi, zatwierdzenia i decyzje sieciowe. Zawodzą wtedy, gdy nie potrafią odpowiedzieć, kto oddelegował uruchomienie, kto był właścicielem zakresu uprawnień oraz kto może zatrzymać lub sprawdzić agenta.

Czy dostawcy powinni ujawniać właścicieli agentów każdemu, kto o to poprosi?

Nie. Sprawdzenie własności powinno wymagać autoryzowanego dostępu, podstawy w polityce i audytu. Ujawnienie zewnętrzne powinno wymagać właściwego procesu. Przypisywanie chroni zaufanie tylko wtedy, gdy ścieżka sprawdzenia ma własne zarządzanie.1

Jakie jest minimalne wymaganie produkcyjne?

Każde uruchomienie agenta, które może wpływać na systemy zewnętrzne, powinno mieć identyfikator uruchomienia, identyfikator konta, identyfikator operatora, pakiet uprawnień, rekord zatwierdzenia, wskaźnik śladu, mechanizm zatrzymania, właściciela weryfikacji i politykę retencji.


Źródła


  1. Ruben Chocron, Doron Jonathan Ben Chayim, Eyal Lenga, Gilad Gressel, Alina Oprea, and Yisroel Mirsky, “Who Owns This Agent? Tracing AI Agents Back to Their Owners,” arXiv:2605.16035v1, submitted May 15, 2026. Źródło definicji przypisywania agentów, modelu zagrożeń LLM hostowanego przez dostawcę, protokołu przypisywania opartego na znacznikach typu canary, taksonomii znaczników leksykalnych i semantycznych, kompromisu między użytecznością a unikaniem wykrycia, wyników ewaluacji agenta do zadań z cyberbezpieczeństwa, właściwości przeszukiwania w ograniczonym oknie czasowym, ograniczeń oraz ram etycznych dotyczących autoryzowanych i audytowalnych uprawnień. 

  2. OpenAI, “Running Codex safely at OpenAI,” OpenAI, May 8, 2026. Źródło informacji o sandboxingu Codex, zatwierdzeniach, zarządzanej polityce sieciowej, kontrolach tożsamości i poświadczeń, zarządzanej konfiguracji, zdarzeniach OpenTelemetry, logach Compliance Platform oraz użyciu logów Codex przez OpenAI w klasyfikacji bezpieczeństwa. 

  3. OpenAI, “Work with Codex from anywhere,” OpenAI, May 14, 2026. Źródło informacji o tygodniowym użyciu Codex, sterowaniu mobilnym, połączeniu z maszyną zdalną, stanie na żywo między wątkami i zatwierdzeniami, zrzutach ekranu, wyniku terminala, diffach, wynikach testów, ogólnej dostępności Remote SSH, ogólnej dostępności punktów zaczepienia oraz programistycznych tokenach dostępu. 

  4. OpenAI, “The next evolution of the Agents SDK,” OpenAI, April 15, 2026. Źródło informacji o natywnej dla modeli pętli agenta w Agents SDK, kontrolowanych obszarach roboczych, inspekcji plików i narzędzi, MCP, umiejętnościach, AGENTS.md, powłoce, apply_patch, natywnym wykonywaniu w sandboxie, abstrakcji manifestu oraz rozdzieleniu orkiestracji agenta od środowisk obliczeniowych. 

  5. Chenglin Yang, “AgentTrust: Runtime Safety Evaluation and Interception for AI Agent Tool Use,” arXiv:2605.04785v1, submitted May 6, 2026. Źródło informacji o przechwytywaniu wywołań narzędzi przed wykonaniem, werdyktach allow/warn/block/review, deobfuskacji powłoki, wykrywaniu RiskChain, zakresie benchmarku oraz integracji z serwerem MCP. 

Powiązane artykuły

Bezpieczeństwo agentów AI: paradoks zaufania „wdrażaj i broń"

1 na 8 korporacyjnych naruszeń AI dotyczy agentów autonomicznych. Hooki uruchomieniowe, sandboxy na poziomie OS i wykryw…

15 min czytania

Co powiedziałem NIST o bezpieczeństwie agentów AI

Dowody produkcyjne przeslane do NIST: zagrozenia agentow AI sa behawioralne. 7 trybow awarii, 3-warstwowa obrona i luki …

9 min czytania

Pętla Ralph: jak uruchamiam autonomiczne agenty AI na noc

Zbudowałem system autonomicznych agentów z hookami zatrzymania, budżetami spawnowania i pamięcią opartą na systemie plik…

6 min czytania