Verantwortung für KI-Agenten ist der Vertrauensbaustein
Am 15. Mai 2026 definierten Forschende der Ben-Gurion University of the Negev, der Northeastern University und der Amrita Vishwa Vidyapeetham Agentenzuordnung als das Problem, eine beobachtete Interaktion eines KI-Agenten dem verantwortlichen Konto beim Hosting-Anbieter zuzuordnen.1
Das klingt eng gefasst. Ist es aber nicht. Ein Agent kann Benutzer mit Spam überziehen, Systeme auslesen, sich als Support-Mitarbeiter ausgeben, eine Cyberaufgabe ausführen, Tools aufrufen, Geld ausgeben oder Infrastruktur verändern, während die betroffene Partei zwar das Verhalten sieht, aber nicht erkennen kann, wer den Agenten eingesetzt hat.1
Verantwortung für KI-Agenten ist der fehlende Vertrauensbaustein. Jede autonome Handlung sollte einem verantwortlichen Konto, einer Sitzung, einem Berechtigungsumfang, einem menschlichen oder organisatorischen Eigentümer und einem Abschaltweg zugeordnet sein. Protokolle zeigen, was passiert ist. Verantwortung zeigt, wer dafür einstehen kann.
Kurzfassung
Agentensicherheit darf nicht bei Tool-Berechtigungen, Laufzeit-Hooks oder Belegen in der Schlussantwort enden. Diese Kontrollen sind wichtig, beantworten aber nicht die Rechenschaftsfrage: Wem gehört der laufende Agent?
Das neue Forschungsarbeit zur Agentenzuordnung schlägt ein vom Anbieter vermitteltes Protokoll vor, das über Canary-Markierungen eine beobachtete schädliche Interaktion mit einer Anbietersitzung und einem Konto verbindet.1 Diese Forschung zielt auf Missbrauchsreaktion und rechtliche Verantwortlichkeit. Produktteams brauchen in ihren eigenen Systemen eine kleinere Alltagsversion davon: Jeder Agentenlauf sollte einen Verantwortungsdatensatz tragen, der Konto, Sitzung, Berechtigungsumfang, Tool-Aktivität, Prüfweg und Abschaltmechanismus verbindet.
Wichtigste Erkenntnisse
Für Teams von Agentenplattformen: - Behandeln Sie Verantwortung als Laufzeitfeld, nicht als nachträgliches Abrechnungsdetail. - Hängen Sie Eigentümer, Konto, Sitzung, Tool-Umfang und Stoppkontrollen an jeden Agentenlauf.
Für Sicherheitsteams: - Protokolle ohne Verantwortung bremsen die Reaktion auf Vorfälle. Verantwortung ohne Protokolle schwächt die Beweislage. - Verlangen Sie beides: eine Handlungsspur und einen Pfad zum verantwortlichen Konto.
Für Produktteams: - Zeigen Sie Benutzern, wer oder was in ihrem Namen handelt. - Trennen Sie delegierte Handlung von delegierter Rechenschaft.
Für Policy- und Vertrauensteams: - Gestalten Sie Zuordnung für autorisierte Reaktion, nicht für beiläufige Deanonymisierung. - Erfassen Sie genug, um Schaden zu stoppen, Missbrauch zu prüfen und rechtsstaatliche Verfahren zu respektieren.
Verantwortung ist kein Profilname
Die meisten Produkte zeigen bereits irgendeine Form von Identität. In einem Chatfenster können ein Arbeitsbereich, ein Benutzeravatar, ein Bot-Name, eine API-Schlüsselbezeichnung oder eine Organisation sichtbar sein. Diese Oberfläche hilft Menschen bei der Orientierung, beweist aber keine Verantwortung.
Für Agentenverantwortung braucht es einen strengeren Vertrag:
| Feld | Welche Frage es beantwortet |
|---|---|
| Konto | Welcher Kunde, Arbeitsbereich oder Anbieteraccount hat den Lauf finanziert? |
| Sitzung | Welcher konkrete Lauf hat die Handlung erzeugt? |
| Operator | Welcher Mensch, Dienst oder welche Richtlinie hat die Arbeit delegiert? |
| Berechtigungsumfang | Welche Tools, Schlüssel, Budgets und Ressourcen durfte der Agent nutzen? |
| Handlungsspur | Welche Prompts, Freigaben, Tool-Aufrufe, Ausgaben und Netzwerkentscheidungen sind erfolgt? |
| Stoppweg | Wer kann den Lauf pausieren, Berechtigungen widerrufen, ihn drosseln oder beenden? |
| Prüfweg | Wer kann nach einer Beschwerde oder einem Alarm ermitteln? |
Diese Liste wirkt operativ, weil Verantwortung operativ ist. Ein Label hilft nicht, wenn ein Agent 2.000 problematische Nachrichten verschickt oder einen Drittanbieter-Endpunkt überlastet. Das Reaktionsteam braucht die Sitzung, das Konto, den Berechtigungsumfang und den Stoppweg.
Agentenschlüssel brauchen Risikobudgets behandelt die Berechtigungsseite: Schlüssel sollten enge, serverseitig durchgesetzte Fähigkeiten gewähren. Verantwortung behandelt die Rechenschaftsseite: Jede Nutzung dieser Berechtigung sollte auf einen verantwortlichen Datensatz zurückführen.
Was die Zuordnungsarbeit ergänzt
Die Forschungsarbeit formalisiert eine Lücke, die Betreiber von Agenten schnell wiedererkennen werden. Das Opfer sieht das Verhalten des Agenten. Der Anbieter sieht Modellaufrufe und Kontoprotokolle. Keine der beiden Parteien sieht allein beide Perspektiven.1
Das vorgeschlagene Protokoll verbindet diese Perspektiven mit Canary-Markierungen. Eine autorisierte Partei bringt eine Markierung in Inhalte ein, die der verdächtige Agent wahrscheinlich konsumieren wird. Wenn der Agent diese Inhalte in einen bei einem Anbieter gehosteten Modellaufruf weiterleitet, kann der Anbieter in einem engen Zeitfenster von Sitzungsprotokollen suchen, die Canary-Markierung finden, die Sitzung wiederherstellen und sie mit einem Konto verknüpfen.1
Die Forschungsarbeit unterscheidet einfache und schwierige Fälle:
| Szenario | Praktische Canary-Form | Warum es funktioniert |
|---|---|---|
| Nicht gegnerischer Missbrauch | Lexikalische Markierung, Kennung oder eindeutige Zeichenfolge | Der Agent gibt Inhalte ungefiltert an das Modell weiter. |
| Gegnerischer Missbrauch | Nutzwerttragende lexikalische oder semantische Canary-Markierungen | Wer die Canary-Markierung entfernt, entfernt zugleich Inhalte, die der Agent braucht. |
| Anbieterreaktion | Protokollsuche in engem Zeitfenster | Der Anbieter durchsucht Sitzungen in der Nähe des Einbringungszeitpunkts, nicht alle historischen Protokolle. |
Die Idee des Nutzwerts ist wichtig. Ein Scam-Agent braucht möglicherweise emotionale Hinweise eines Ziels. Ein Web-Agent braucht sichtbare Seiteninhalte. Ein Cyber-Agent braucht vielleicht Dateinamen und Antwortartefakte. Filtert der Betreiber zu aggressiv, verliert der Agent zusammen mit dem Zuordnungsbeleg auch Aufgabenleistung.1
Das Cyber-Agentenexperiment der Forschungsarbeit macht diesen Zielkonflikt konkret. Ein Canary-bewusster Gegner senkte die Lösungsrate des Agenten von 51 % auf 9 %, wenn die Unterdrückung aufgabenrelevante Artefakte entfernte. Dateinamen und sichtbare Body-Kennungen bewahrten Zuordnungsbelege weiterhin mit 77 % beziehungsweise 70 %, während semantische Canary-Markierungen im gegnerischen Semantiktest eine True-Positive-Rate von mindestens 98 % erreichten.1
Diese Zahlen sollten nicht zu Produktmarketing werden. Die Forschungsarbeit testet bestimmte Agenten, Wrapper und Canary-Familien. Die Lehre sollte dennoch Bestand haben: Zuordnung funktioniert am besten, wenn das Signal auf Inhalten mitreitet, die der Agent tatsächlich braucht.
Protokolle sind nötig, aber nicht genug
OpenAIs Sicherheitsbeitrag zu Codex beschreibt eine ausgereifte Kontrollform: begrenzte Ausführung, Freigaben, verwaltete Netzwerkrichtlinien, Speicherung von Zugangsdaten, Regeln, verwaltete Konfiguration und agentennahe Telemetrie.2 Zur Telemetrie gehören OpenTelemetry-Datensätze für Benutzerprompts, Freigabeentscheidungen, Ergebnisse von Tool-Ausführungen, Nutzung von MCP-Servern sowie Ereignisse, bei denen ein Netzwerkproxy Zugriff erlaubt oder verweigert.2
OpenAI beschreibt außerdem einen Sicherheits-Triage-Ablauf, der Codex-Protokolle nutzt, um die ursprüngliche Anfrage, Tool-Aktivität, Freigabeentscheidungen, Tool-Ergebnisse und Netzwerkrichtlinienentscheidungen rund um verdächtige Endpunktalarme zu untersuchen.2
Diese Belege sind nötig. Sie brauchen trotzdem Verantwortung.
Eine Tool-Spur kann zeigen:
| Beleg in der Spur | Fehlende Verantwortungsfrage |
|---|---|
| Der Agent hat ein Shell-Tool aufgerufen | Welches Konto hat den Lauf autorisiert? |
| Der Agent ist an einer Netzwerksperre hängengeblieben | Welcher Richtlinieneigentümer kann die Sperre prüfen? |
| Der Agent hat eine Freigabe angefordert | Wer hat die Freigabe erteilt, verweigert oder delegiert? |
| Der Agent hat einen MCP-Server genutzt | Welcher Arbeitsbereich hat diesen Server konfiguriert? |
| Der Agent hat eine Ausgabe erzeugt | Welcher Operator übernimmt die Verantwortung für die Veröffentlichung? |
Ausführungsspuren von Agenten sind der Laufzeitvertrag argumentiert, dass Spuren den Weg belegen. Verantwortung belegt die verantwortliche Partei hinter diesem Weg. Starke Systeme brauchen beide Datensätze, verbunden auf Sitzungsebene.
Codex zeigt, warum das Problem nicht mehr theoretisch ist
OpenAIs Codex-Ankündigung vom 14. Mai nennt mehr als 4 Millionen Menschen, die Codex wöchentlich nutzen, und beschreibt einen mobilen Arbeitsablauf, in dem Benutzer Ausgaben prüfen, Befehle freigeben, Modelle wechseln, Arbeit starten und Screenshots, Terminalausgaben, Diffs, Testergebnisse und Freigaben vom Smartphone aus verfolgen können.3 Dieselbe Ankündigung erklärt, dass Remote SSH allgemein verfügbar wurde und Codex damit Threads in Remote-Maschinen und verwalteten Umgebungen ausführen kann.3
Diese Produktform verschiebt Agentenarbeit über Geräte, Maschinen, Threads, Freigaben, Zugangsdaten und lokale Tools hinweg. Ein einzelner Agentenlauf kann einen Laptop, eine Freigabe per Smartphone, einen Remote-Host, ein Projekt, ein Plugin, einen Browser, eine Shell und einen Versionskontrollvorgang umfassen.
Der Verantwortungsdatensatz muss mit dem Lauf mitreisen. Andernfalls kann das System zwar beantworten, welcher Befehl ausgeführt wurde, verliert aber die Antwort darauf, wem der Lauf in diesem Moment gehörte.
Codex-Hooks machen das lokale Agentensystem real beschrieb Hooks, Freigaben, Git-Verantwortung, Belege und Urteilskraft als Betriebsschicht rund um Agentenarbeit. Verantwortung gehört in dieselbe Schicht. Ein Hook kann eine riskante Handlung blockieren. Eine Spur kann eine abgeschlossene Handlung erklären. Verantwortung verbindet den Lauf mit dem Konto und dem Operator, die für beide Ergebnisse einstehen können.
Der Laufzeitvertrag für Verantwortung
Teams brauchen nicht für jede interne Aufgabe das vollständige Canary-Zuordnungsprotokoll. Sie brauchen einen eigenen Verantwortungsvertrag, der Zuordnung zur Routine macht, bevor etwas schiefläuft.
Beginnen Sie mit einem Datensatz pro Agentenlauf:
| Feld des Verantwortungsdatensatzes | Mindestverhalten |
|---|---|
run_id |
Stabile ID für die Agentensitzung oder Aufgabe. |
account_id |
Kunde, Arbeitsbereich, Mandant oder Organisation, dem beziehungsweise der der Lauf gehört. |
operator_id |
Mensch, Dienst, geplanter Job oder Richtlinie, die den Lauf gestartet hat. |
delegation_source |
UI-Klick, API-Aufruf, geplante Regel, mobile Freigabe oder Automatisierungstoken. |
authority_bundle |
Tools, Schlüssel, Berechtigungsbereiche, Budgets, beschreibbare Roots, Netzwerkrichtlinie und Datendomänen. |
approval_events |
Wer was wann und unter welcher Richtlinie freigegeben hat. |
trace_pointer |
Verweis auf Prompts, Tool-Aufrufe, Ausgaben, Fehler und Netzwerkentscheidungen. |
stop_controls |
Kontrollen zum Pausieren, Widerrufen, Drosseln, Isolieren oder Beenden. |
review_owner |
Team oder Warteschlange für Missbrauchs-, Safety-, Security- oder Qualitätsprüfung. |
retention_policy |
Wie lange der Datensatz verfügbar bleibt und wer darauf zugreifen darf. |
Der Datensatz sollte unterhalb des Chatverlaufs und oberhalb roher Infrastrukturprotokolle liegen. Der Produktsupport kann ihn nutzen. Security kann ihn nutzen. Compliance kann ihn nutzen. Engineering kann ihn beim Rollback nutzen.
Die Feldnamen sind weniger wichtig als die Invariante: keine Agentenhandlung ohne verantwortlichen Laufdatensatz.
Verantwortung braucht Datenschutzgrenzen
Zuordnung kann missbräuchlich werden, wenn Teams sie als Erlaubnis verstehen, standardmäßig alle zu enttarnen. Die Ownership-Forschungsarbeit benennt dieses Risiko ausdrücklich und rahmt das Protokoll über autorisierte, auditierbare Stellen, Richtliniengrundlagen und rechtliche Verfahren.1
Produktteams sollten sich diese Zurückhaltung abschauen.
| Grenze | Produktregel |
|---|---|
| Zugriff | Nur autorisierte Prüfer dürfen Eigentümerdatensätze einsehen. |
| Zweck | Nur Missbrauch, Safety, Security, Support, Compliance oder Vorfallsreaktion. |
| Offenlegung | Externe Offenlegung erfordert Richtlinie, Verfahren oder Rechtsgrundlage. |
| Minimierung | Speichern Sie genug, um Schaden zu stoppen und den Lauf zu prüfen, nicht jedes private Detail für immer. |
| Audit | Protokollieren Sie jede Verantwortungsabfrage und jede Offenlegung. |
Verantwortung darf nicht zu beiläufiger Überwachung werden. Starke Zuordnung gibt Opfern, Plattformen, Anbietern und Betreibern einen Reaktionsweg. Schwache Governance verwandelt denselben Grundbaustein in ein weiteres Vertrauensproblem.
Das Gestaltungsprinzip ist einfach: Machen Sie jeden Agenten gegenüber dem System rechenschaftspflichtig, und machen Sie jede Verantwortungsabfrage gegenüber der Richtlinie rechenschaftspflichtig.
Wo Verantwortung in bestehende Agentenkontrollen passt
Verantwortung ersetzt nicht den Rest der Systemschichten.
OpenAIs Ankündigung zum Agents SDK weist in Richtung derselben geschichteten Form. Das SDK gibt Agenten kontrollierte Arbeitsbereiche, Datei- und Tool-Inspektion, MCP, Skills, AGENTS.md, Shell, Patching, Sandbox-Ausführung und manifestbasierte Arbeitsbereiche.4 AgentTrust ergänzt dieses Sicherheitsargument: Tool-Aufrufe vor der Ausführung prüfen und strukturierte Urteile wie allow, warn, block oder review zurückgeben.5
Diese Systeme entscheiden, was der Agent als Nächstes tun darf. Verantwortung entscheidet, wer für den Lauf einsteht.
| Kontrolle | Aufgabe | Verantwortung ergänzt |
|---|---|---|
| Begrenzte Schlüssel | Begrenzen, was der Agent tun kann | Welches Konto und welcher Operator diesen Umfang gewährt haben |
| Laufzeit-Hooks | Riskante Handlungen abfangen | Welcher Lauf den Hook ausgelöst hat |
| Freigabeschwellen | Menschliches Urteil einbringen | Wer welche Erweiterung der Berechtigung freigegeben hat |
| Ausführungsspuren | Zeigen, was passiert ist | Wem die Spur gehört und wer darauf handeln kann |
| Prüfpakete | Belege bündeln | Welcher Eigentümer das Ergebnis akzeptiert |
| Modell-Tools | Typisierte Schätzungen erzeugen | Welches System Modellberechtigung delegiert hat |
KI-Agenten sollten Modelle aufrufen argumentiert, dass Agenten trainierte Modelle aufrufen sollten, statt Schätzungen zu erfinden. Verantwortung überträgt dieselbe Disziplin auf Berechtigungen. Das System sollte wissen, ob eine Handlung aus einem menschlichen Klick, einer Agentensitzung, einem Modell-Tool, einer geplanten Automatisierung oder einer delegierten Richtlinie stammt.
Diese Unterscheidung schützt Benutzer. Niemand sollte raten müssen, ob eine Handlung von ihm selbst, von einem Assistenten unter seinem Konto, von einer Organisationsrichtlinie oder von einer kompromittierten Automatisierung stammt.
Agenten brauchen Aufsichtsflächen behandelt die benutzerseitige Oberfläche dieses Problems. Verantwortung liefert den Datensatz darunter. Prüfpakete sind die neue Schlussantwort behandelt das Abschlussartefakt. Verantwortung liefert die Partei, die dieses Artefakt akzeptieren, ablehnen oder widerrufen kann.
Die Entscheidungsregel
Bevor Sie einen Agenten einsetzen, der andere Menschen oder externe Systeme betreffen kann, stellen Sie eine Frage:
Wenn sich morgen jemand über diesen Agenten beschwert: Können wir den Lauf, das Konto, den Berechtigungsumfang, das freigebende Ereignis und die Person oder das Team identifizieren, die oder das ihn stoppen kann?
Wenn die Antwort Nein lautet, ist der Agent nicht produktionsreif.
Das Produkt hat vielleicht bereits Protokolle. Vielleicht hat es bereits Berechtigungen. Vielleicht hat es bereits Prompts, die dem Modell gutes Verhalten vorschreiben. Diese Teile ergeben erst dann Verantwortung, wenn sie zu einem einzigen rechenschaftsfähigen Datensatz verbunden sind.
Verantwortung für Agenten sollte so normal werden wie Request-IDs, Audit-Protokolle und API-Schlüssel. Die Arbeit mag bürokratisch klingen, aber die Alternative ist schlechter: autonome Systeme, die handeln können, während niemand für die Handlung einstehen kann.
FAQ
Was ist Verantwortung für KI-Agenten?
Verantwortung für KI-Agenten ist der Laufzeitdatensatz, der eine Agentenhandlung mit dem Konto, der Sitzung, dem Operator, dem Berechtigungsumfang, der Spur und dem Stoppweg verbindet, die für den Lauf verantwortlich sind.
Wie unterscheidet sich Agentenverantwortung von Agentenzuordnung?
Agentenverantwortung ist ein Produktvertrag des eigenen Systems. Das System erfasst Verantwortung vor und während eines Laufs. Agentenzuordnung löst das schwierigere nachträgliche Problem, beobachtetes schädliches Verhalten mit einem verantwortlichen Anbieterkonto zu verbinden, wenn die betroffene Partei den Eigentümer noch nicht kennt.1
Warum reichen Protokolle allein nicht aus?
Protokolle können Befehle, Tool-Aufrufe, Freigaben und Netzwerkentscheidungen zeigen. Sie scheitern, wenn sie nicht beantworten können, wer den Lauf delegiert hat, wem der Berechtigungsumfang gehörte und wer den Agenten stoppen oder prüfen kann.
Sollten Anbieter Agenteneigentümer jeder Person offenlegen, die danach fragt?
Nein. Verantwortungsabfragen sollten autorisierten Zugriff, eine Richtliniengrundlage und Auditierung erfordern. Externe Offenlegung sollte ein angemessenes Verfahren voraussetzen. Zuordnung schützt Vertrauen nur, wenn der Abfrageweg selbst Governance besitzt.1
Was ist die Mindestanforderung für den Produktiveinsatz?
Jeder Agentenlauf, der externe Systeme beeinflussen kann, sollte eine Lauf-ID, Konto-ID, Operator-ID, ein Berechtigungsbündel, einen Freigabedatensatz, einen Spurverweis, eine Stoppkontrolle, einen Prüfverantwortlichen und eine Aufbewahrungsrichtlinie haben.
Referenzen
-
Ruben Chocron, Doron Jonathan Ben Chayim, Eyal Lenga, Gilad Gressel, Alina Oprea und Yisroel Mirsky, “Who Owns This Agent? Tracing AI Agents Back to Their Owners,” arXiv:2605.16035v1, eingereicht am 15. Mai 2026. Quelle für die Definition von Agentenzuordnung, das bei Anbietern gehostete LLM-Bedrohungsmodell, das Canary-basierte Zuordnungsprotokoll, die Taxonomie lexikalischer und semantischer Canary-Markierungen, den Nutzwert-Ausweich-Zielkonflikt, die Bewertungszahlen zu Cyber-Agenten, die Eigenschaft der Suche in begrenzten Zeitfenstern, Einschränkungen und den ethischen Rahmen rund um autorisierte/auditierbare Stellen. ↩↩↩↩↩↩↩↩↩↩
-
OpenAI, “Running Codex safely at OpenAI,” OpenAI, 8. Mai 2026. Quelle für Codex-Sandboxing, Freigaben, verwaltete Netzwerkrichtlinien, Identitäts- und Zugangsdatenkontrollen, verwaltete Konfiguration, OpenTelemetry-Ereignisse, Compliance-Platform-Protokolle und OpenAIs Nutzung von Codex-Protokollen in der Sicherheits-Triage. ↩↩↩
-
OpenAI, “Work with Codex from anywhere,” OpenAI, 14. Mai 2026. Quelle für die wöchentliche Codex-Nutzung, mobile Steuerung, Verbindung mit Remote-Maschinen, Live-Status über Threads und Freigaben hinweg, Screenshots, Terminalausgaben, Diffs, Testergebnisse, allgemeine Verfügbarkeit von Remote SSH, allgemeine Verfügbarkeit von Hooks und programmatische Zugriffstoken. ↩↩
-
OpenAI, “The next evolution of the Agents SDK,” OpenAI, 15. April 2026. Quelle für die modellnative Agentenschleife des Agents SDK, kontrollierte Arbeitsbereiche, Datei- und Tool-Inspektion, MCP, Skills, AGENTS.md, Shell, apply_patch, native Sandbox-Ausführung, Manifestabstraktion und die Trennung von Agentenorchestrierung und Ausführungsumgebungen. ↩
-
Chenglin Yang, “AgentTrust: Runtime Safety Evaluation and Interception for AI Agent Tool Use,” arXiv:2605.04785v1, eingereicht am 6. Mai 2026. Quelle für Tool-Aufruf-Interception vor der Ausführung, allow/warn/block/review-Urteile, Shell-Deobfuskierung, RiskChain-Erkennung, Benchmark-Umfang und MCP-Serverintegration. ↩