Agenty obsługujące komputer domyślnie ujawniają zbyt wiele
Agent obsługujący komputer, którego poproszono o przesłanie „wyników za trzeci kwartał” współpracownikowi, musi rozstrzygnąć, co właściwie liczy się jako wyniki za trzeci kwartał, w którym pliku się one znajdują oraz czy arkusz kalkulacyjny otwarty obok nich powinien trafić do tej samej wiadomości. Test porównawczy z czerwca 2026 roku poddał 15 czołowych agentów tego rodzaju decyzjom i wykazał, że 11 z nich ujawniało prywatne informacje w ponad połowie badanych scenariuszy, ze średnim wskaźnikiem wycieku na poziomie 67,9%.1
Przyczyną naruszenia prywatności w agentach obsługujących komputer nie jest wstrzyknięcie instrukcji (prompt injection). Żaden przeciwnik niczego nie podkłada. Agent ujawnia dane, ponieważ stara się być pomocny i nie potrafi rozpoznać, które informacje należą do kontekstu, w którym działa. Nowa praca, Capable but Careless: Do Computer-Use Agents Follow Contextual Integrity?, nazywa ten tryb awarii, buduje dla niego test porównawczy i pokazuje, że zjawisko to jest powszechne wśród czołowych rozwiązań.1
Wynik ten zasługuje na uwagę, ponieważ izoluje ryzyko, które dyskusja o bezpieczeństwie agentów dotąd w większości pomijała. Pisałem już wcześniej o dwóch niezaufanych źródłach danych wejściowych oraz o awariach agentów korzystających z narzędzi wywoływanych przez atakującego. Nadmierne ujawnianie kontekstowe ma przeciwny charakter: niebezpieczeństwo jest wewnętrzne, tkwi we własnym osądzie agenta co do tego, jakie ujawnienie jest stosowne, i pojawia się nawet wtedy, gdy w pętli nie ma niczego złośliwego.
W skrócie
- Agenty obsługujące komputer (CUA) działają w obrębie aplikacji osobistych, takich jak poczta, kalendarze i listy zadań. Dostęp między aplikacjami bywa użyteczny, lecz pozwala agentowi przenosić informacje z jednego kontekstu do innego, do którego one nie należą.1
- Praca Capable but Careless (2026) wprowadza AgentCIBench, czyli test porównawczy, który przekształca to ryzyko w wykonywalne, deterministycznie oceniane scenariusze, oraz poddaje ewaluacji 15 czołowych agentów.1
- Test porównawczy obejmuje trzy tryby awarii: wizualne sąsiedztwo, nadmierne ujawnianie wynikające z niejednoznaczności zadania oraz niedopasowanie odbiorcy.1
- Jedenaście z 15 agentów ujawniało dane w ponad 50% scenariuszy, ze średnim wyciekiem 67,9%, a awarie utrzymywały się również wtedy, gdy agenty działały od początku do końca, aby ukończyć zadanie.1
- Ramą interpretacyjną jest integralność kontekstowa, czyli koncepcja Helen Nissenbaum, według której prywatność polega na przepływie informacji w sposób stosowny dla danego kontekstu, a nie na tajemnicy.2 Agenty są zdolne; brakuje im natomiast wyczucia, dokąd informacjom wolno trafić.
Inny rodzaj awarii niż wstrzyknięcie instrukcji
Większość prac nad bezpieczeństwem agentów, w tym moje własne, wychodzi od przeciwnika. Ktoś ukrywa instrukcję na stronie internetowej, w opisie narzędzia lub w dokumencie, a agent ją wykonuje. Obroną jest nieufność wobec danych wejściowych oraz ograniczanie tego, co agent może z nimi zrobić.
Nadmierne ujawnianie kontekstowe nie ma przeciwnika. Użytkownik formułuje rozsądną prośbę, agent stara się ją spełnić i przy okazji ujawnia coś, co było prywatne dla innego kontekstu. Praca ujmuje to przez pryzmat integralności kontekstowej, czyli teorii prywatności autorstwa Helen Nissenbaum, według której przepływy informacji niosą normy związane z kontekstem, w którym zachodzą.2 To, że terapeuta zna diagnozę pacjenta, jest stosowne. Przesłanie tej diagnozy przez terapeutę pracodawcy narusza normę, mimo że technicznie nie złamano żadnej tajemnicy, ponieważ informacja przekroczyła granicę kontekstu, której przekroczyć nie miała.
Agent obsługujący komputer działa jednocześnie w wielu takich kontekstach. Może widzieć kalendarz użytkownika podczas redagowania wiadomości, całą listę kontaktów podczas wysyłki do jednej osoby, całą listę zadań podczas odpowiadania na pytanie o jeden punkt. Każde takie sąsiedztwo to okazja, by przenieść coś stosownego w jednym miejscu tam, gdzie stosowne nie jest. Agent nie jest skompromitowany. Jest nadmiernie pomocny, a nadmierna pomocność w środowisku wielokontekstowym wygląda jak wyciek prywatnych danych.
Trzy sposoby, na jakie agenty ujawniają dane
AgentCIBench operacjonalizuje to ryzyko jako deterministycznie oceniane scenariusze obejmujące trzy tryby awarii i jest to część pracy warta przyswojenia, ponieważ każdy z trybów odpowiada realnemu interfejsowi, z którym agent ma styczność.1
Wizualne sąsiedztwo. Agent pobiera niedozwolone elementy, które w interfejsie sąsiadują z celem zadania. Poproszony o załączenie jednej faktury, chwyta także tę obok, ponieważ obie znajdowały się na ekranie, a bliskość odczytał jako trafność. To układ interfejsu, a nie zadanie, doprowadził do ujawnienia.
Nadmierne ujawnianie wynikające z niejednoznaczności zadania. Otrzymawszy niedoprecyzowane polecenie, agent wyrzuca z siebie gęsty zbiór danych osobowych, zamiast dopytać lub zawęzić zakres. „Powiedz im, nad czym pracuję” zamienia się w całą listę zadań, łącznie z pozycjami, których odbiorca nigdy nie powinien zobaczyć. Niejednoznaczność rozstrzyga się w stronę większego, a nie mniejszego ujawnienia.
Niedopasowanie odbiorcy. Agent wysyła treść do adresata, dla którego jest ona niewłaściwa. Właściwa informacja trafia do niewłaściwej osoby, niczym odruch odpowiedzi „do wszystkich” zastosowany do danych, które należały tylko do jednej relacji.
Te trzy tryby mają wspólną przyczynę źródłową. Agent traktuje dostęp jako przyzwolenie. Skoro może zobaczyć sąsiednią fakturę, całą listę zadań, szerszą pulę odbiorców, zachowuje się tak, jakby skorzystanie z tego dostępu było stosowne. Integralność kontekstowa to właśnie ten osąd, że dostęp i stosowność są dwiema różnymi rzeczami, a test porównawczy pokazuje, że obecne agenty nie dokonują tego rozróżnienia w sposób niezawodny.
Jak źle jest i dlaczego problem się utrzymuje
Najgłośniejsze liczby nie są marginalne. Spośród 15 czołowych agentów 11 ujawniało dane w ponad połowie scenariuszy, a średni wyciek sięgnął 67,9%.1 Tryb awarii pojawiający się dwa razy na trzy u większości badanych rozwiązań nie jest przypadkiem skrajnym. Jest zachowaniem domyślnym.
Szczegółem, który najbardziej liczy się dla każdego, kto wdraża agenty, jest to, że awarie utrzymywały się, gdy agenty działały od początku do końca w środowisku, aby ukończyć zadanie, a nie tylko w wyizolowanych sondach.1 Wyciek pojawiający się wyłącznie w sztucznych warunkach łatwo byłoby zlekceważyć. Wyciek, który przetrwa wykonywanie przez agenta realnej pracy, jest właściwością sposobu, w jaki agent działa, i właśnie dlatego praca pozycjonuje testowanie ujawnień kontekstowych jako kontrolę bezpieczeństwa przed wdrożeniem.1
Powodem, dla którego awaria się utrzymuje, jest to, że nic w normalnym celu agenta nie przeciwdziała jej. Agent jest nagradzany za ukończenie zadania. Ujawnienie zbyt wielu danych rzadko blokuje ukończenie zadania, więc nadmierne ujawnianie nie pociąga za sobą żadnego kosztu w pętli, która kształtuje zachowanie. Bez wyraźnego sygnału, że pewne dostępne informacje są w danym kontekście niedostępne, ścieżka pomocna i ścieżka prowadząca do wycieku to ta sama ścieżka.
Co z tym zrobić
Rozwiązaniem nie jest czynienie agentów mniej zdolnymi. Jest nim uczynienie stosowności ograniczeniem, które agent sprawdza, a nie normą, którą rzekomo sam wywnioskuje. Wzorzec ten pobrzmiewa tym, co argumentowałem na temat pytań o zgodę: agentowi nie należy ufać, że po cichu zadecyduje, co przekracza daną granicę.
Warunkuj ujawnienie od odbiorcy i kontekstu, a nie od dostępu. Zanim agent wyśle, załączy lub udostępni, istotne pytanie nie brzmi „czy agent może to zobaczyć”, lecz „czy to należy do tego przepływu, do tego odbiorcy”. Dostęp jest błędnym wyznacznikiem przyzwolenia, a wszystkie trzy tryby awarii są przypadkami używania go w tej roli.
Traktuj niejednoznaczność jako sygnał do zatrzymania, a nie jako przyzwolenie. Niedoprecyzowana prośba jest danymi wejściowymi o najwyższym ryzyku, ponieważ agent rozstrzyga ją w stronę ujawnienia. Agent, który zawęża zakres lub dopytuje, gdy prośba jest niejasna, ujawnia mniej niż taki, który wypełnia lukę wszystkim, co może zobaczyć.
Testuj pod kątem wycieku przed wdrożeniem. Wkład pracy to po części metoda: deterministycznie oceniane scenariusze, które przekształcają integralność kontekstową w coś mierzalnego. Traktowanie ujawnień kontekstowych jako kontroli przed wdrożeniem, obok kontroli obserwowalności i izolacji w piaskownicy, które wychwytują awarie wywoływane przez atakującego, domyka lukę, której tamte kontrole nie obejmują.
Szerszy wniosek brzmi tak, że bezpieczeństwo agentów ma dwie połowy. Jedna połowa ma charakter przeciwniczy: niezaufane dane wejściowe, wstrzyknięcie, zatruwanie narzędzi, awarie wywoływane przez atakującego. Druga połowa ma charakter dyspozycyjny: to, co agent robi z legalnym dostępem, gdy nikt go nie atakuje. Agenty obsługujące komputer są na tyle zdolne, by działać w obrębie każdego kontekstu, który posiadasz. Pytanie, czy powinny to robić, jest pytaniem, na które obecnie odpowiadają błędnie dwa razy na trzy.
Kluczowe wnioski
Dla osób wdrażających agenty obsługujące komputer: - Dodaj testowanie ujawnień kontekstowych do kontroli przed wdrożeniem. Ewaluacje skupione na atakującym nie wychwytują nadmiernego ujawniania. - Warunkuj działania związane z udostępnianiem od stosowności odbiorcy i kontekstu, a nie od tego, czy agent może uzyskać dostęp do danych. - Traktuj niejasne prośby jako przypadek o najwyższym ryzyku, ponieważ agenty rozstrzygają niejednoznaczność w stronę większego ujawnienia.
Dla twórców agentów i produktów: - Trzy tryby awarii (wizualne sąsiedztwo, nadmierne ujawnianie wynikające z niejednoznaczności zadania, niedopasowanie odbiorcy) odpowiadają konkretnym powierzchniom interfejsu. Projektuj każdą powierzchnię, zakładając, że bliskość zostanie odczytana jako trafność. - Nagroda za ukończenie zadania nie daje żadnego sygnału przeciw nadmiernemu ujawnianiu. Jeśli stosowność ma znaczenie, uczyń z niej wyraźne ograniczenie.
Dla recenzentów bezpieczeństwa i prywatności: - Integralność kontekstowa daje użyteczną ramę: oceniaj przepływy informacji względem norm kontekstu, a nie względem dychotomii tajne/jawne. - Średni wskaźnik wycieku na poziomie 67,9% wśród czołowych agentów oznacza, że obecne ustawienia domyślne są niebezpieczne w przypadku autonomicznego działania wielokontekstowego bez mechanizmów kontroli ujawnień.
FAQ
Czym jest integralność kontekstowa?
Integralność kontekstowa to teoria prywatności autorstwa Helen Nissenbaum, według której przepływy informacji niosą normy związane z kontekstem, w którym zachodzą. Prywatność jest zachowana, gdy informacja przemieszcza się w sposób stosowny dla swojego kontekstu, a naruszona, gdy przechodzi do kontekstu, w którym obowiązujące normy na to nie zezwalają, nawet jeśli technicznie nic nie było tajne.
Czym to się różni od wstrzyknięcia instrukcji?
Wstrzyknięcie instrukcji ma charakter przeciwniczy: atakujący ukrywa instrukcje, które przejmują kontrolę nad agentem. Nadmierne ujawnianie kontekstowe nie ma atakującego. Użytkownik formułuje uprawnioną prośbę, a agent, próbując pomóc, ujawnia informacje, które należały do innego kontekstu. Oba zjawiska wymagają odmiennych obron, a testowanie skupione na atakującym nie wykrywa nadmiernego ujawniania.
Czym jest AgentCIBench?
AgentCIBench to test porównawczy wprowadzony w pracy Capable but Careless, który przekształca wyciek między kontekstami w wykonywalne, deterministycznie oceniane scenariusze. Bada trzy tryby awarii (wizualne sąsiedztwo, nadmierne ujawnianie wynikające z niejednoznaczności zadania oraz niedopasowanie odbiorcy) i posłużył do ewaluacji 15 czołowych agentów obsługujących komputer.
Ile agentów zawiodło?
Spośród 15 testowanych czołowych agentów 11 ujawniało prywatne informacje w ponad 50% scenariuszy, ze średnim wskaźnikiem wycieku 67,9%. Awarie utrzymywały się, gdy agenty działały od początku do końca, aby ukończyć zadania, a nie tylko w wyizolowanych sondach.
Czy mogę to naprawić lepszym formułowaniem promptów?
Formułowanie promptów może pomóc, lecz ujęcie przyjęte w pracy sugeruje, że trwałe rozwiązanie jest strukturalne: warunkuj działania związane z ujawnianiem od stosowności odbiorcy i kontekstu, a nie od dostępu, oraz testuj pod kątem wycieku przed wdrożeniem. Ponieważ cele związane z ukończeniem zadania nie dają żadnego sygnału przeciw nadmiernemu ujawnianiu, stosowność trzeba egzekwować jako ograniczenie, a nie jako założenie.
Źródła
- Anmol Goel i Iryna Gurevych, „Capable but Careless: Do Computer-Use Agents Follow Contextual Integrity?”, arXiv, 22 czerwca 2026: arxiv.org/abs/2606.23189
- Helen Nissenbaum, „Privacy as Contextual Integrity”, Washington Law Review 79, nr 1 (2004), źródło tej ramy, rozwinięte później w Privacy in Context (Stanford University Press, 2010): Washington Law Review
- Powiązane teksty o bezpieczeństwie agentów: dwa niezaufane źródła danych wejściowych, pytania o zgodę to nie autoryzacja oraz niewidzialny agent
-
Goel i Gurevych, „Capable but Careless: Do Computer-Use Agents Follow Contextual Integrity?”, arXiv:2606.23189 (22 czerwca 2026). Streszczenie podaje test porównawczy AgentCIBench, trzy tryby awarii (wizualne sąsiedztwo, nadmierne ujawnianie wynikające z niejednoznaczności zadania, niedopasowanie odbiorcy), ewaluację 15 czołowych agentów, ustalenie, że 11 z 15 ujawnia dane w ponad 50% scenariuszy przy średnim wycieku 67,9%, utrzymywanie się awarii podczas wykonywania zadania od początku do końca oraz pozycjonowanie testowania ujawnień kontekstowych jako kontroli bezpieczeństwa przed wdrożeniem. ↩↩↩↩↩↩↩↩↩↩
-
Helen Nissenbaum, „Privacy as Contextual Integrity”, Washington Law Review 79, nr 1 (2004), oraz Privacy in Context: Technology, Policy, and the Integrity of Social Life (Stanford University Press, 2010). Integralność kontekstowa wiąże prywatność z względnymi dla kontekstu normami informacyjnymi, wymagając, by przepływy informacji były stosowne dla kontekstu, w którym zachodzą. ↩↩