Computer-Use-Agenten geben standardmäßig zu viel preis

Q: Was ist AgentCIBench?

AgentCIBench ist der in Capable but Careless eingeführte Benchmark, der kontextübergreifende Lecks in ausführbare, deterministisch bewertete Szenarien überführt. Er testet drei Fehlermodi (visuelle Ko-Lokation, Übermaß an Preisgabe bei Aufgabenmehrdeutigkeit und Empfänger-Fehlausrichtung) und wurde verwendet, um 15 führende Computer-Use-Agenten zu evaluieren.

8 Min. Lesezeit

From the guide: Claude Code Comprehensive Guide

Ein Computer-Use-Agent, der gebeten wird, „die Q3-Zahlen” an eine Kollegin weiterzuleiten, muss entscheiden, was als die Q3-Zahlen gilt, welche Datei sie enthält und ob die daneben geöffnete Tabelle in dieselbe E-Mail gehört. Ein Benchmark vom Juni 2026 unterzog 15 führende Agenten genau dieser Art von Entscheidung und stellte fest, dass 11 von ihnen bei mehr als der Hälfte der getesteten Szenarien private Informationen preisgaben, bei einer durchschnittlichen Leckrate von 67,9 %.¹

Das Datenschutzversagen bei Computer-Use-Agenten ist keine Prompt-Injection. Kein Angreifer schleust etwas ein. Der Agent gibt Informationen preis, weil er hilfreich sein will und nicht erkennen kann, welche Informationen in den Kontext gehören, in dem er handelt. Ein neues Paper, Capable but Careless: Do Computer-Use Agents Follow Contextual Integrity?, benennt diesen Fehlermodus, baut einen Benchmark dafür und zeigt, dass er über die gesamte Spitzenklasse hinweg verbreitet ist.¹

Das Ergebnis verdient Aufmerksamkeit, weil es ein Risiko isoliert, das die Debatte über Agentensicherheit weitgehend übersprungen hat. Ich habe bereits über zwei nicht vertrauenswürdige Eingaben und die angreibergetriebenen Fehler werkzeugnutzender Agenten geschrieben. Kontextbezogenes Übermaß an Preisgabe hat die entgegengesetzte Gestalt: Die Gefahr ist intern, sie liegt im eigenen Urteil des Agenten über angemessene Offenlegung, und sie tritt selbst dann auf, wenn nichts Böswilliges im Spiel ist.

Kurzfassung

Computer-Use-Agenten (CUAs) handeln über persönliche Apps hinweg, etwa E-Mail, Kalender und Aufgabenlisten. Anwendungsübergreifender Zugriff ist nützlich, aber er erlaubt es einem Agenten, Informationen aus einem Kontext in einen anderen zu ziehen, in den sie nicht gehören.¹
Capable but Careless (2026) führt AgentCIBench ein, einen Benchmark, der das Risiko in ausführbare, deterministisch bewertete Szenarien überführt, und evaluiert 15 führende Agenten.¹
Der Benchmark richtet sich auf drei Fehlermodi: visuelle Ko-Lokation, Übermaß an Preisgabe bei Aufgabenmehrdeutigkeit und Empfänger-Fehlausrichtung.¹
Elf von 15 Agenten leckten bei mehr als 50 % der Szenarien, im Durchschnitt zu 67,9 %, und die Fehler blieben bestehen, wenn die Agenten durchgängig handelten, um die Aufgabe abzuschließen.¹
Der Bezugsrahmen ist die kontextuelle Integrität, Helen Nissenbaums Idee, dass es beim Datenschutz darum geht, dass Informationen kontextgerecht fließen, und nicht um Geheimhaltung.² Die Agenten sind fähig; was ihnen fehlt, ist ein Gespür dafür, wohin Informationen gelangen dürfen.

Ein anderes Versagen als Prompt-Injection

Die meiste Arbeit zur Agentensicherheit, auch meine eigene, geht von einem Angreifer aus. Jemand versteckt eine Anweisung in einer Webseite, einer Werkzeugbeschreibung oder einem Dokument, und der Agent befolgt sie. Die Verteidigung besteht darin, Eingaben zu misstrauen und einzuschränken, was der Agent mit ihnen tun darf.

Kontextbezogenes Übermaß an Preisgabe hat keinen Angreifer. Die Benutzerin stellt eine vernünftige Anfrage, der Agent versucht, sie zu erfüllen, und gibt dabei etwas preis, das einem anderen Kontext privat war. Das Paper fasst dies über die kontextuelle Integrität, die Datenschutztheorie von Helen Nissenbaum, die besagt, dass Informationsflüsse Normen tragen, die an den Kontext gebunden sind, in dem sie auftreten.² Dass Ihre Therapeutin Ihre Diagnose kennt, ist angemessen. Dass Ihre Therapeutin sie an Ihren Arbeitgeber weiterleitet, verletzt die Norm, auch wenn technisch kein Geheimnis gebrochen wurde, weil die Information eine Kontextgrenze überschritt, die sie nicht hätte überschreiten dürfen.

Ein Computer-Use-Agent agiert über viele solcher Kontexte gleichzeitig. Er kann Ihren Kalender sehen, während er eine E-Mail entwirft, Ihre vollständige Kontaktliste, während er an eine einzige Person sendet, Ihre gesamte Aufgabenliste, während er eine Frage zu einem einzelnen Punkt beantwortet. Jede dieser Nachbarschaften ist eine Gelegenheit, etwas, das an einem Ort angemessen ist, an einen Ort zu ziehen, an dem es das nicht ist. Der Agent ist nicht kompromittiert. Er ist überhilfsbereit, und Überhilfsbereitschaft in einer Umgebung mit mehreren Kontexten sieht aus wie ein Datenleck.

Die drei Arten, auf die Agenten Informationen preisgeben

AgentCIBench operationalisiert das Risiko als deterministisch bewertete Szenarien über drei Fehlermodi hinweg, und das ist der Teil des Papers, den es sich zu verinnerlichen lohnt, denn jeder von ihnen entspricht einer realen Oberfläche, die ein Agent berührt.¹

Visuelle Ko-Lokation. Der Agent zieht verbotene Elemente heran, die im Interface neben dem Aufgabenziel liegen. Beim Auftrag, eine einzige Rechnung anzuhängen, greift er auch die benachbarte ab, weil beide auf dem Bildschirm waren und Nähe als Relevanz gelesen wurde. Das Layout der Benutzeroberfläche, nicht die Aufgabe, trieb die Offenlegung an.

Übermaß an Preisgabe bei Aufgabenmehrdeutigkeit. Bei einem unzureichend spezifizierten Prompt kippt der Agent dichten persönlichen Zustand aus, statt nachzufragen oder einzugrenzen. „Sag ihnen, woran ich arbeite” wird zur gesamten Aufgabenliste, einschließlich der Punkte, die die empfangende Person niemals sehen sollte. Mehrdeutigkeit löst sich in Richtung mehr Offenlegung auf, nicht weniger.

Empfänger-Fehlausrichtung. Der Agent sendet Inhalte an eine Adressatin, für die sie unangemessen sind. Die richtige Information geht an die falsche Person, ein Allen-antworten-Instinkt, angewandt auf Daten, die zu einer einzigen Beziehung gehörten.

Die drei Modi teilen eine gemeinsame Ursache. Der Agent behandelt Zugriff als Erlaubnis. Weil er die benachbarte Rechnung, die vollständige Aufgabenliste, den breiteren Empfängerkreis sehen kann, verhält er sich so, als sei die Nutzung dieses Zugriffs angemessen. Kontextuelle Integrität ist genau das Urteil, dass Zugriff und Angemessenheit verschiedene Dinge sind, und der Benchmark zeigt, dass aktuelle Agenten diese Unterscheidung nicht zuverlässig treffen.

Wie schlimm, und warum es bestehen bleibt

Die schlagzeilenträchtigen Zahlen sind nicht marginal. Über 15 führende Agenten hinweg leckten 11 bei mehr als der Hälfte der Szenarien, und die durchschnittliche Leckrate erreichte 67,9 %.¹ Ein Fehlermodus, der bei den meisten Vertretern des Feldes in zwei von drei Fällen auftaucht, ist kein Randfall. Er ist Standardverhalten.

Das Detail, das für alle, die Agenten ausliefern, am wichtigsten ist, lautet: Die Fehler blieben bestehen, wenn die Agenten in der Umgebung durchgängig handelten, um die Aufgabe abzuschließen, und nicht nur in isolierten Tests.¹ Ein Leck, das nur unter künstlichen Bedingungen aufträte, ließe sich leicht abtun. Ein Leck, das überlebt, während der Agent echte Arbeit verrichtet, ist eine Eigenschaft der Funktionsweise des Agenten, und das Paper positioniert die Prüfung kontextbezogener Offenlegung genau aus diesem Grund als Sicherheitskontrolle vor der Bereitstellung.¹

Der Grund, warum der Fehler bestehen bleibt, ist, dass nichts im normalen Ziel des Agenten gegen ihn drückt. Der Agent wird für den Abschluss der Aufgabe belohnt. Zu viel preiszugeben blockiert den Aufgabenabschluss selten, sodass übermäßige Offenlegung in der verhaltensprägenden Schleife keine Kosten verursacht. Ohne ein explizites Signal, dass manche zugänglichen Informationen in diesem Kontext tabu sind, sind der hilfreiche Weg und der leckende Weg derselbe Weg.

Was dagegen zu tun ist

Die Lösung besteht nicht darin, Agenten weniger fähig zu machen. Sie besteht darin, Angemessenheit zu einer Bedingung zu machen, die der Agent prüft, statt zu einer Norm, von der angenommen wird, dass er sie ableitet. Das Muster entspricht dem, was ich über Bestätigungsabfragen argumentiert habe: Dem Agenten sollte nicht zugetraut werden, im Stillen zu entscheiden, was eine Grenze überschreitet.

Knüpfen Sie Offenlegung an Empfänger und Kontext, nicht an Zugriff. Bevor ein Agent etwas sendet, anhängt oder teilt, lautet die maßgebliche Frage nicht „Kann der Agent das sehen”, sondern „Gehört das in diesen Fluss, an diese empfangende Person”. Zugriff ist der falsche Stellvertreter für Erlaubnis, und die drei Fehlermodi sind allesamt Fälle, in denen er als ein solcher verwendet wird.

Behandeln Sie Mehrdeutigkeit als Halt, nicht als Freibrief. Eine unzureichend spezifizierte Anfrage ist die risikoreichste Eingabe, weil der Agent sie in Richtung Offenlegung auflöst. Ein Agent, der eingrenzt oder nachfragt, wenn eine Anfrage vage ist, gibt weniger preis als einer, der die Lücke mit allem füllt, was er sehen kann.

Testen Sie vor der Bereitstellung auf Lecks. Der Beitrag des Papers ist zum Teil eine Methode: deterministisch bewertete Szenarien, die kontextuelle Integrität in etwas Messbares verwandeln. Kontextbezogene Offenlegung als Prüfung vor der Bereitstellung zu behandeln, neben den Prüfungen auf Beobachtbarkeit und Sandboxing, die angreibergetriebene Fehler abfangen, schließt eine Lücke, die jene Prüfungen nicht abdecken.

Der weiterreichende Punkt ist, dass Agentensicherheit zwei Hälften hat. Die eine Hälfte ist adversarial: nicht vertrauenswürdige Eingaben, Injection, Werkzeugvergiftung, die Fehler, die ein Angreifer verursacht. Die andere Hälfte betrifft die Veranlagung: das, was der Agent mit legitimem Zugriff tut, wenn ihn niemand angreift. Computer-Use-Agenten sind fähig genug, um über jeden Kontext hinweg zu handeln, der Ihnen gehört. Ob sie es sollten, ist eine Frage, die sie derzeit in zwei von drei Fällen falsch beantworten.

Wichtigste Erkenntnisse

Für Personen, die Computer-Use-Agenten bereitstellen: - Fügen Sie Ihren Prüfungen vor der Bereitstellung die Prüfung kontextbezogener Offenlegung hinzu. Angreiferzentrierte Evaluierungen erfassen Übermaß an Preisgabe nicht. - Knüpfen Sie Teilen-Aktionen an die Angemessenheit von Empfänger und Kontext, nicht daran, ob der Agent auf die Daten zugreifen kann. - Behandeln Sie vage Anfragen als risikoreichsten Fall, weil Agenten Mehrdeutigkeit in Richtung mehr Offenlegung auflösen.

Für Agenten- und Produktentwickler: - Die drei Fehlermodi (visuelle Ko-Lokation, Übermaß an Preisgabe bei Aufgabenmehrdeutigkeit, Empfänger-Fehlausrichtung) entsprechen konkreten UI-Oberflächen. Gestalten Sie jede Oberfläche unter der Annahme, dass Nähe als Relevanz gelesen wird. - Die Belohnung für den Aufgabenabschluss liefert kein Signal gegen übermäßige Offenlegung. Wenn Angemessenheit wichtig ist, machen Sie sie zu einer expliziten Bedingung.

Für Sicherheits- und Datenschutzprüfer: - Kontextuelle Integrität liefert einen brauchbaren Bezugsrahmen: Bewerten Sie Informationsflüsse anhand von Kontextnormen, nicht anhand einer binären Geheim-oder-nicht-Logik. - Eine durchschnittliche Leckrate von 67,9 % über führende Agenten hinweg bedeutet, dass die aktuellen Standardeinstellungen für autonomes, kontextübergreifendes Handeln ohne Offenlegungskontrollen unsicher sind.

FAQ

Was ist kontextuelle Integrität?

Kontextuelle Integrität ist eine Datenschutztheorie von Helen Nissenbaum, die besagt, dass Informationsflüsse Normen tragen, die an den Kontext gebunden sind, in dem sie auftreten. Datenschutz bleibt gewahrt, wenn Informationen sich auf eine ihrem Kontext angemessene Weise bewegen, und wird verletzt, wenn sie in einen Kontext übertreten, in dem die maßgeblichen Normen es nicht erlauben, selbst wenn technisch nichts geheim war.

Wie unterscheidet sich das von Prompt-Injection?

Prompt-Injection ist adversarial: Ein Angreifer versteckt Anweisungen, die den Agenten kapern. Kontextbezogenes Übermaß an Preisgabe hat keinen Angreifer. Die Benutzerin stellt eine legitime Anfrage, und der Agent gibt im Bemühen zu helfen Informationen preis, die zu einem anderen Kontext gehörten. Die beiden erfordern unterschiedliche Verteidigungen, und angreiferzentriertes Testen erkennt das Übermaß an Preisgabe nicht.

Was ist AgentCIBench?

AgentCIBench ist der in Capable but Careless eingeführte Benchmark, der kontextübergreifende Lecks in ausführbare, deterministisch bewertete Szenarien überführt. Er testet drei Fehlermodi (visuelle Ko-Lokation, Übermaß an Preisgabe bei Aufgabenmehrdeutigkeit und Empfänger-Fehlausrichtung) und wurde verwendet, um 15 führende Computer-Use-Agenten zu evaluieren.

Wie viele Agenten sind durchgefallen?

Von 15 getesteten führenden Agenten gaben 11 bei mehr als 50 % der Szenarien private Informationen preis, bei einer durchschnittlichen Leckrate von 67,9 %. Die Fehler blieben bestehen, wenn die Agenten durchgängig handelten, um Aufgaben abzuschließen, und nicht nur in isolierten Tests.

Lässt sich das mit besserem Prompting beheben?

Prompting kann helfen, aber der Bezugsrahmen des Papers legt nahe, dass die dauerhafte Lösung struktureller Natur ist: Knüpfen Sie Offenlegungsaktionen an die Angemessenheit von Empfänger und Kontext statt an den Zugriff, und testen Sie vor der Bereitstellung auf Lecks. Weil Ziele zum Aufgabenabschluss kein Signal gegen übermäßige Offenlegung liefern, muss Angemessenheit als Bedingung durchgesetzt und nicht vorausgesetzt werden.

Quellen

Anmol Goel und Iryna Gurevych, „Capable but Careless: Do Computer-Use Agents Follow Contextual Integrity?”, arXiv, 22. Juni 2026: arxiv.org/abs/2606.23189
Helen Nissenbaum, „Privacy as Contextual Integrity”, Washington Law Review 79, Nr. 1 (2004), der Ursprung des Bezugsrahmens, später entwickelt in Privacy in Context (Stanford University Press, 2010): Washington Law Review
Verwandte Texte zur Agentensicherheit: zwei nicht vertrauenswürdige Eingaben, Bestätigungsabfragen sind keine Autorisierung und der unsichtbare Agent

Goel und Gurevych, „Capable but Careless: Do Computer-Use Agents Follow Contextual Integrity?”, arXiv:2606.23189 (22. Juni 2026). Der Abstract berichtet über den Benchmark AgentCIBench, die drei Fehlermodi (visuelle Ko-Lokation, Übermaß an Preisgabe bei Aufgabenmehrdeutigkeit, Empfänger-Fehlausrichtung), die Evaluierung von 15 führenden Agenten, den Befund, dass 11 von 15 bei mehr als 50 % der Szenarien lecken, bei 67,9 % durchschnittlicher Leckrate, das Fortbestehen der Fehler beim durchgängigen Aufgabenabschluss und die Positionierung der Prüfung kontextbezogener Offenlegung als Sicherheitskontrolle vor der Bereitstellung. ↩↩↩↩↩↩↩↩↩↩
Helen Nissenbaum, „Privacy as Contextual Integrity”, Washington Law Review 79, Nr. 1 (2004), und Privacy in Context: Technology, Policy, and the Integrity of Social Life (Stanford University Press, 2010). Kontextuelle Integrität bindet den Datenschutz an kontextrelative informationelle Normen und verlangt, dass Informationsflüsse dem Kontext angemessen sind, in dem sie auftreten. ↩↩