Überwachung von KI-Agenten braucht Eingriffe zur Laufzeit

12 Min. Lesezeit

Am 15. Mai 2026 veröffentlichten Parand A. Alamdari, Toryn Q. Klassen und Sheila A. McIlraith eine Arbeit mit der These, dass KI-Governance Offline-Prüfungen, Online-Laufzeitüberwachung und Monitore braucht, die eingreifen können, bevor ein vorhergesagter Verstoß eintritt.¹

Dieses letzte Wort ist entscheidend.

Überwachung, die einen Fehler nur protokolliert, hilft der Nachanalyse. Überwachung, die den Agenten anhalten, blockieren, eingrenzen oder umlenken kann, verändert den laufenden Vorgang, solange das Ergebnis noch offen ist.

Überwachung von KI-Agenten braucht Eingriffe zur Laufzeit. Protokolle, Ablaufspuren, Dashboards und Genehmigungsnachweise geben Teams Belege. Eingriffe zur Laufzeit machen aus diesen Belegen eine Entscheidung, während der Agent die schädliche Handlung noch vermeiden kann.

Kurzfassung

Überwachung von KI-Agenten scheitert, wenn sie sich wie nachträgliche Forensik verhält. Eine ernst zu nehmende Agenten-Ausführungsumgebung sollte den aktiven Verlauf beobachten, Richtlinienverstöße und entscheidende Fehler erkennen und einen begrenzten Eingriff wählen: fortfahren, warnen, pausieren, blockieren, eingrenzen, wiederherstellen oder eskalieren.

Aktuelle Forschung weist aus mehreren Richtungen in dieselbe Richtung. Arbeiten zu formalen Methoden wenden temporale Logik auf Laufzeitüberwachung und eingreifende Monitore an.¹ AgentForesight versteht Fehlererkennung als Online-Prüfung, bevor ein Verlauf endet.² AgentTrust fängt riskante Tool-Aufrufe vor der Ausführung ab und gibt strukturierte Urteile zurück.³ AIR integriert Vorfallreaktion in die Agentenschleife, damit das System erkennen, eingrenzen, wiederherstellen und künftige Schutzregeln ableiten kann.⁴

Die praktische Lehre: Bleiben Sie nicht bei Beobachtbarkeit stehen. Bauen Sie den Teil der Ausführungsumgebung, der auf Grundlage der Beobachtung handeln kann.

Wichtigste Erkenntnisse

Für Agentenplattform-Teams: - Behandeln Sie Überwachung als Regelkreis, nicht nur als Dashboard. - Definieren Sie Eingriffshandlungen, bevor der Agent Werkzeuge mit hohem Risiko berührt.

Für Sicherheitsteams: - Wechseln Sie von nachträglicher Prüfung zu Online-Erkennung an Entscheidungspunkten. - Protokollieren Sie jeden Eingriff mit Regel, Belegen, Entscheidung und Ergebnis.

Für Produktteams: - Zeigen Sie Eingriffsereignisse als strukturierte Prüfobjekte. - Machen Sie sichtbar, warum der Durchlauf pausiert wurde, welche Belege die Pause ausgelöst haben und welche sicheren Optionen bleiben.

Für Betreiber: - Vertrauen Sie Ablaufspuren, die Verhalten verändern können, mehr als Spuren, die später nur Schaden erklären. - Fragen Sie, ob ein Monitor den nächsten schlechten Schritt stoppen kann, nicht nur den vorherigen rekonstruieren.

Warum scheitert Überwachung von KI-Agenten zu spät?

Die meiste Überwachung beginnt, nachdem der Agent bereits gehandelt hat.

Ein Protokoll kann zeigen, dass der Agent einen Shell-Befehl ausgeführt hat. Eine Ablaufspur kann zeigen, dass der Agent eine Webseite abgerufen, einen MCP-Server aufgerufen, eine Datei geschrieben oder eine Genehmigung angefordert hat. Ein Dashboard kann zeigen, dass eine Netzwerkrichtlinie eine Domain blockiert hat. Diese Aufzeichnungen sind wichtig, aber sie verändern die nächste Handlung nicht automatisch.

OpenAIs Beitrag zur Codex-Sicherheit beschreibt die richtige Beleggrundlage: begrenzte Ausführung, verwaltete Konfiguration, Netzwerkrichtlinien, Genehmigungen und agentennahe Telemetrie. Codex kann OpenTelemetry-Ereignisse für Benutzer-Prompts, Entscheidungen zu Tool-Genehmigungen, Ergebnisse von Tool-Ausführungen, MCP-Server-Nutzung sowie Erlaubt- oder Verweigert-Ereignisse des Netzwerkproxys exportieren.⁵ OpenAI beschreibt außerdem, wie Codex-Protokolle mit einem Sicherheits-Triage-Agenten genutzt werden, damit Prüfer bei verdächtigen Endpunktwarnungen die ursprüngliche Anfrage, Tool-Aktivitäten, Genehmigungen, Tool-Ergebnisse und Netzwerkrichtlinienentscheidungen einsehen können.⁵

Diese Sichtbarkeit zählt. Die Lücke entsteht, wenn Sichtbarkeit keinen Stellhebel hat.

Wenn ein Monitor erkennt, dass ein Agent nicht vertrauenswürdige Inhalte gelesen hat und anschließend versucht, Daten an eine neue externe Domain zu senden, sollte das System nicht nur die Abfolge protokollieren. Es sollte den Durchlauf pausieren oder die Anfrage blockieren. Wenn ein Coding-Agent eine fehlgeschlagene Migration dreimal erneut versucht und dann einen umfassenderen destruktiven Befehl vorschlägt, sollte die Ausführungsumgebung nicht auf die abschließende Prüfung warten. Sie sollte den Verlauf unterbrechen.

Überwachung von KI-Agenten sollte zwei Fragen zugleich beantworten:

Frage	Schwache Überwachung	Starke Überwachung
Was ist passiert?	Ereignisse nach der Ausführung aufzeichnen.	Typisierte Ereignisse während der Ausführung aufzeichnen.
Was sollte als Nächstes passieren?	Die Beurteilung einer späteren Prüfung überlassen.	Fortfahren, warnen, pausieren, blockieren, eingrenzen, wiederherstellen oder eskalieren.

Die zweite Frage macht aus Überwachung einen Eingriff.

Was bringen die neuen Arbeiten zur Laufzeit?

Der neue Forschungscluster gibt dem Feld einen schärferen Wortschatz.

Die Arbeit zu formalen Methoden konzentriert sich auf zeitlich erweiterte Verhaltensbeschränkungen: Regeln, bei denen Reihenfolge, Abstand und Abfolge zählen, nicht nur isolierte Ereignisse. Die Autoren verbinden formale Methoden mit maschinellem Lernen für Offline-Prüfungen und Online-Überwachung von Black-Box-KI-Systemen, einschließlich LLMs.¹ Außerdem führen sie prädiktive und eingreifende Monitore ein, die vorhergesagte Verstöße zur Laufzeit verhindern oder abmildern können.¹

AgentForesight benennt die Fehlerart in Agentenbegriffen. Die Arbeit beschreibt, dass Multi-Agenten-Systeme mit langem Horizont einen einzigen entscheidenden Fehler akzeptieren und dann in ein Scheitern auf Verlaufsebene kippen können.² Statt den verantwortlichen Schritt erst nach Ende des Verlaufs zu diagnostizieren, lässt AgentForesight einen Online-Prüfer nur das aktuelle Präfix prüfen und entweder fortfahren oder beim frühesten entscheidenden Fehler Alarm schlagen.²

AgentTrust arbeitet an der Grenze des Tool-Aufrufs. Es fängt Tool-Aufrufe des Agenten vor der Ausführung ab und gibt ein strukturiertes Urteil zurück: erlauben, warnen, blockieren oder prüfen.³ Diese Form ist wichtig, weil Dateioperationen, Shell-Befehle, HTTP-Anfragen und Datenbankabfragen reale Nebenwirkungen erzeugen.³

AIR ergänzt die Ebene der Vorfallreaktion. Die Arbeit argumentiert, dass Arbeiten zur Agentensicherheit häufig darauf zielen, Fehler im Voraus zu verhindern, während die Fähigkeiten zum Reagieren, Eingrenzen oder Wiederherstellen nach eingetretenen Vorfällen begrenzt bleiben.⁴ AIR integriert Vorfallreaktion in die Ausführungsschleife des Agenten: Vorfälle erkennen, Eingrenzungs- und Wiederherstellungsmaßnahmen anleiten und Schutzregeln für künftige Durchläufe ableiten.⁴

Zusammengenommen verschieben die Arbeiten den Schwerpunkt:

Alter Schwerpunkt	Neuer Schwerpunkt
Sah die endgültige Antwort korrekt aus?	Blieb der aktive Verlauf innerhalb der Beschränkungen?
Erklärten Protokolle den Fehler?	Griffen Monitore vor dem Entscheidungspunkt ein?
Bewertete ein Benchmark die abgeschlossene Aufgabe?	Erkannte die Ausführungsumgebung den entscheidenden Fehler frühzeitig?
Warnte ein Sicherheits-Prompt das Modell?	Veränderte eine Richtlinienebene die erlaubte nächste Handlung?

Diese Verschiebung passt zu echter Agentenarbeit. Nebenwirkungen entstehen während des Durchlaufs, nicht erst in der finalen Antwort.

Was gilt als Eingriff zur Laufzeit?

Ein Eingriff zur Laufzeit ist eine begrenzte Handlung, die das System ausführt, weil laufende Belege eine Richtlinien-, Sicherheits-, Qualitäts- oder Risikoschwelle überschritten haben.

Der Eingriff sollte enger sein als Panik und stärker als Protokollierung.

Eingriff	Verwenden, wenn
Fortfahren	Das Ereignis innerhalb der Richtlinie und des erwarteten Plans bleibt.
Warnen	Das Ereignis ungewöhnlich, aber umkehrbar wirkt.
Pausieren	Der nächste Schritt menschliche oder richtlinienbasierte Prüfung braucht.
Blockieren	Die Handlung gegen eine harte Regel verstößt.
Eingrenzen	Der Durchlauf nur in einer reduzierten Sandbox oder mit reduziertem Fähigkeitsumfang fortgesetzt werden darf.
Wiederherstellen	Das System einen bekannten kompensierenden Pfad ausführt.
Eskalieren	Das Ereignis eine Sicherheits-, Produkt- oder Fachprüfung braucht.

Ein guter Eingriff tadelt nicht das Modell. Er verändert den Zustand der Ausführungsumgebung.

Ein Eingriff sollte einen strukturierten Datensatz erzeugen:

Feld	Erforderliche Belege
Durchlauf	Agentenlauf-ID, Aufgabe, Phase und Verantwortlicher.
Ereignis	Tool-Aufruf, Netzwerkanfrage, Dateischreibvorgang, Genehmigungsanfrage oder Ausgabeaussage.
Regel	Die ausgelöste Richtlinie oder temporale Beschränkung.
Belege	Ausschnitt der Ablaufspur, Argumente, Zielressource, frühere Ereignisse und Risikokategorie.
Entscheidung	Fortfahren, warnen, pausieren, blockieren, eingrenzen, wiederherstellen oder eskalieren.
Nächste erlaubte Handlung	Was der Agent nach der Entscheidung tun darf.
Menschlicher Pfad	Wer den Vorfall prüfen, überschreiben oder schließen kann.
Ergebnis	Ob der Eingriff verhindert, verzögert, repariert oder nicht geholfen hat.

Der Monitor verdient Vertrauen, wenn ein anderer Prüfer das Ereignis ansehen und verstehen kann, warum die Ausführungsumgebung den Kurs geändert hat.

Warum sind temporale Beschränkungen wichtig?

Viele Agentenfehler hängen von der Reihenfolge ab.

„Nicht ohne Tests veröffentlichen” ist keine Eigenschaft eines einzelnen Befehls. Es ist eine Beziehung zwischen einer Veröffentlichungsaktion und früheren Belegen. „Keinen externen Netzwerkverkehr senden, nachdem nicht vertrauenswürdige Inhalte gelesen wurden” hängt von der Abfolge ab. „Nach einer fehlgeschlagenen Migration nicht in Produktion schreiben” hängt vom vorherigen Fehlerzustand ab. „Ein Deployment nicht genehmigen, nachdem die Quellenprüfung fehlgeschlagen ist” hängt sowohl vom Genehmigungsereignis als auch vom Prüfereignis ab.

Lineare Temporale Logik gibt Forschern eine Möglichkeit, Beschränkungen über Zeit auszudrücken: vorher, nachher, bis, irgendwann und niemals. Die Arbeit zu formalen Methoden vom 15. Mai berichtet, dass LTL-basierte Prüf- und Überwachungstechniken LLM-Baseline-Methoden beim Erkennen von Verstößen gegen zeitlich erweiterte Verhaltensbeschränkungen übertrafen.¹ Die Autoren berichten außerdem, dass selbst Labeler mit kleinen Modellen unter ihrem Ansatz mit Frontier-LLM-Richtern gleichzogen oder sie übertrafen und dass sich das temporale Schlussfolgern von LLMs verschlechterte, wenn Ereignisabstand, Beschränkungsanzahl und Aussagenanzahl zunahmen.¹

Die Produktionslehre verlangt nicht, dass jedes Team morgen einen vollständigen Stack formaler Methoden ausliefert.

Die unmittelbare Lehre ist einfacher: Schreiben Sie Regeln, die Abfolgen verstehen.

Temporale Regel	Bedeutung zur Laufzeit
Kein externer Schreibvorgang nach nicht vertrauenswürdigem Abruf bis zur Prüfung	Vor ausgehendem Datenverkehr pausieren, wenn nicht vertrauenswürdiger Inhalt in den Kontext gelangt ist.
Kein Deployment, bis Tests und gerenderte Prüfungen bestanden sind	Deployment blockieren, wenn Belegereignisse fehlen.
Kein destruktiver Befehl nach wiederholt fehlgeschlagenen Korrekturen	Pausieren, wenn Wiederherstellung in Eskalation umschlägt.
Keine dauerhafte Genehmigung nach Umfangsänderungen	Die Freigabe verfallen lassen, wenn sich Ziel, Tool oder Risikokategorie ändert.
Kein Abschluss, solange erforderliche Belege fehlen	Die finale Antwort stoppen, bis Nachweise vorliegen.

Diese Beschränkungen verlangen von der Ausführungsumgebung, genug Historie zu behalten, um den nächsten Schritt zu beurteilen. Ein zustandsloser Prompt kann das nicht zuverlässig leisten.

Wo sollte Laufzeitüberwachung sitzen?

Laufzeitüberwachung gehört an Entscheidungspunkte.

Ein Entscheidungspunkt ist jeder Moment, in dem der Agent von umkehrbarer Analyse zu externer Wirkung wechselt: Dateiänderung, Datenbankschreibvorgang, ausgehender Netzwerkverkehr, Deployment, Nachrichtenversand, Berechtigungsänderung, Zahlung, Löschung oder öffentliche Veröffentlichung.

Die Codex-Cloud-Dokumentation von OpenAI gibt eine konkrete Grenze. Codex blockiert Internetzugriff während der Agentenphase standardmäßig, während Setup-Skripte weiterhin Internetzugriff für Abhängigkeiten nutzen können.⁶ Dieselbe Dokumentation warnt, dass aktivierter Internetzugriff für Agenten das Risiko erhöht, darunter Prompt-Injection durch nicht vertrauenswürdige Webinhalte, Code- oder Secret-Exfiltration, Malware oder angreifbare Abhängigkeiten sowie lizenzbeschränkte Inhalte.⁶ Außerdem empfiehlt sie Domain- und HTTP-Methodenbeschränkungen, mit zusätzlichem Schutz durch die Begrenzung von Anfragen auf GET, HEAD und OPTIONS.⁶

Diese Richtlinienform sollte über Netzwerkzugriff hinausreichen.

Entscheidungspunkt	Monitor-Eingabe	Möglicher Eingriff
Shell-Befehl	Befehl, cwd, Zielpfade, frühere Fehler	Erlauben, umschreiben, pausieren oder blockieren.
Dateischreibvorgang	Pfad, Diff-Größe, Zuständigkeit, generierter Status	Fortfahren, eingrenzen oder Prüfung verlangen.
Netzwerkaufruf	Methode, Domain, Quellkontext, Nutzlastklasse	Erlauben, Genehmigung verlangen oder blockieren.
Datenbankänderung	Tabelle, Zeilenklasse, Umgebung, Rollback-Pfad	Für Migrationsbelege pausieren.
Öffentliche Veröffentlichung	Route, Metadaten, Quellenzitate, Übersetzungsstatus	Blockieren, bis gerenderte Prüfungen bestanden sind.
Genehmigungsanfrage	Ressource, Risiko, Ablauf, frühere Ablehnungen	Umfang verengen oder eskalieren.

Jedes Token zu überwachen verschwendet Aufmerksamkeit. Entscheidungspunkte zu überwachen schützt die Teile des Durchlaufs, in denen Fehler das Transkript verlassen.

Wie sollte der Agent den Eingriff erleben?

Der Agent sollte eine präzise Zustandsaktualisierung erhalten, keinen vagen Tadel.

Schwache Antwort:

Seien Sie vorsichtig. Das könnte unsicher sein.

Bessere Antwort:

Blockiert: externer POST nach Lesen nicht vertrauenswürdiger Inhalte. Erlaubte nächste Handlungen: Risiko zusammenfassen, Betreiberfreigabe mit Ziel-Domain und Nutzlastklasse anfordern oder ohne ausgehenden Netzwerkverkehr fortfahren.

Die zweite Antwort gibt dem Agenten einen sicheren Handlungsraum. Sie sagt, was ausgelöst wurde, warum die Handlung nicht laufen darf und welche Alternativen bleiben. Die Urteilsform von AgentTrust weist in diese Richtung: erlauben, warnen, blockieren oder prüfen, mit sichereren Alternativen für riskante Befehle.³

Eingriffe zur Laufzeit sollten Handlungsfähigkeit bewahren, ohne Gefahr zu bewahren.

Der Agent kann die Aufgabe weiterhin reparieren. Er kann Genehmigung anfordern. Er kann Tools wechseln. Er kann die Arbeit in einen schreibgeschützten Durchlauf aufteilen. Er kann ein Belegpaket erstellen. Die Ausführungsumgebung entfernt nur Handlungen, die gegen den aktuellen Richtlinienzustand verstoßen.

Was sollte der Mensch sehen?

Der Mensch sollte eine Eingriffskarte sehen, keine rätselhafte Pause.

Kartenfeld	Beispiel
Status	Für Eingriff zur Laufzeit pausiert
Auslöser	Externer Schreibvorgang nach Lesen einer nicht vertrauenswürdigen Quelle
Regel	Kein ausgehender Datenverkehr nach nicht vertrauenswürdigem Abruf bis zur Prüfung
Belege	Gelesene URL, vorgeschlagene Domain, Methode, Nutzlastklasse
Risiko	Exfiltration von Secrets oder Quellcode
Agentenoptionen	Schreibgeschützt fortfahren, Genehmigung anfordern oder ausgehenden Verkehr entfernen
Menschliche Optionen	Einmalig genehmigen, ablehnen, Umfang verengen oder eskalieren
Prüfung	Unter Lauf-ID und Ablaufspurzeiger gespeichert

Diese Karte gehört in dieselbe Produktfamilie wie Genehmigungswarteschlangen, Ablaufspur-Zeitleisten und Prüfungspakete. Der Unterschied ist der Zeitpunkt. Eine Genehmigung fragt, ob eine geplante Handlung fortgesetzt werden darf. Ein Eingriff zur Laufzeit sagt, dass der Monitor ein Live-Muster gesehen hat, das den erlaubten nächsten Schritt verändert hat.

Eine gute Oberfläche sollte den Benutzer nicht zwingen, das ganze Transkript zu lesen, um die Pause zu verstehen. Die Karte sollte auf den relevanten Ausschnitt der Ablaufspur zeigen.

Was sollten Teams zuerst bauen?

Beginnen Sie mit einfachen Monitorregeln an wertvollen Entscheidungspunkten.

Entscheidungspunkte definieren. Benennen Sie die Tool-Aufrufe und Ressourcen, bei denen Fehler die lokale Sitzung verlassen.
Einen typisierten Ereignisstrom erstellen. Erfassen Sie Tool, Argumente, Ziel, Ergebnis, frühere relevante Ereignisse und Laufzustand.
Abfolgebewusste Regeln schreiben. Beginnen Sie mit Reihenfolgebeziehungen, die wiederholt zählen: Tests vor Deployment, Prüfung vor ausgehendem Datenverkehr, Genehmigung vor Schreibvorgang.
Enge Eingriffe hinzufügen. Bevorzugen Sie pausieren, blockieren oder eingrenzen statt breitem Abschalten.
Strukturierte Urteile zurückgeben. Sagen Sie dem Agenten, was ausgelöst wurde und welche Handlungen weiter erlaubt sind.
Eingriffskarten anzeigen. Geben Sie Menschen Regel, Belege, Risiko und nächste Optionen.
Ergebnisse prüfen. Fördern Sie echte Treffer, justieren Sie falsche Treffer und entfernen Sie störende Regeln.

Die erste Version darf langweilig bleiben. Einige deterministische Regeln an der Tool-Aufruf-Grenze schlagen oft einen breiten Modellprüfer, der jeden Satz beobachtet.

Die tiefere Version kann prädiktive Überwachung, LTL-Beschränkungen, gelernte Prüfer und Vorfallreaktionsschleifen ergänzen. Bauen Sie diese Ebenen erst, nachdem Ereignisstrom und Eingriffssemantik funktionieren.

Der würdige Standard

Eingriffe zur Laufzeit können zum Theater werden, wenn jede Pause ernst aussieht und jede Warnung dasselbe Gewicht hat.

Der Standard sollte eng bleiben:

Greifen Sie nur ein, wo die nächste Handlung zählen kann.
Benennen Sie die ausgelöste Regel.
Zeigen Sie die Belege.
Bewahren Sie einen sicheren nächsten Pfad.
Zeichnen Sie das Ergebnis auf.
Entfernen Sie Regeln, die Rauschen erzeugen, ohne Schaden zu verhindern.

Gute Überwachung schützt die Arbeit. Schlechte Überwachung schützt nur die Haftungserzählung des Anbieters.

Die Agenten-Ausführungsumgebung sollte nicht maximale Bewegung anstreben. Sie sollte verantwortbaren Fortschritt maximieren. Manchmal bedeutet verantwortbarer Fortschritt, den Agenten ohne Unterbrechung fortfahren zu lassen. Manchmal bedeutet er, den nächsten Schritt zu verweigern.

Der Qualitätsmaßstab liegt darin, den Unterschied zu kennen.

Kurze Zusammenfassung

Überwachung von KI-Agenten braucht Eingriffe zur Laufzeit, weil Agentenfehler innerhalb von Verläufen passieren, nicht nur am Ende. Protokolle und Ablaufspuren erklären, was passiert ist. Eingreifende Monitore können verändern, was als Nächstes passiert.

Die aktuelle Forschungsrichtung ist klar: formale temporale Beschränkungen, Online-Prüfer, Tool-Aufruf-Urteile und Vorfallreaktionsschleifen bewegen Überwachung in Richtung aktiver Steuerung. Teams sollten mit typisierten Ereignisströmen, Regeln an Entscheidungspunkten, strukturierten Urteilen, Eingriffskarten und Ergebnisprüfung beginnen. Das Ziel sind nicht mehr Warnungen. Das Ziel sind weniger irreversible Fehler.

FAQ

Was ist ein Eingriff zur Laufzeit bei KI-Agenten?

Ein Eingriff zur Laufzeit bedeutet, dass das System einen aktiven Agentenlauf verändert, weil laufende Belege eine Richtlinien-, Risiko-, Sicherheits- oder Qualitätsschwelle überschritten haben. Der Eingriff kann den Durchlauf fortsetzen, warnen, pausieren, blockieren, eingrenzen, wiederherstellen oder eskalieren.

Wie unterscheidet sich ein Eingriff zur Laufzeit von Beobachtbarkeit?

Beobachtbarkeit zeichnet auf, was passiert ist. Ein Eingriff zur Laufzeit handelt, solange der Durchlauf noch aktiv ist. Eine Ablaufspur kann beides unterstützen, aber ein Eingriff braucht eine Richtlinienentscheidung und eine erlaubte nächste Handlung.

Sollte jede Agentenhandlung durch einen Monitor laufen?

Jede bedeutsame Tool-Handlung sollte ein typisiertes Ereignis erzeugen. Unterbrechende Regeln brauchen nur hochwertige Entscheidungspunkte. Schreibgeschützte Ereignisse können meist still protokolliert werden. Ereignisse mit Nebenwirkungen verdienen strengere Überwachung.

Brauchen Teams formale Methoden, um anzufangen?

Nein. Teams können mit deterministischen Abfolgeregeln beginnen: kein Deployment vor Tests, kein externer Schreibvorgang nach nicht vertrauenswürdigem Abruf, kein destruktiver Befehl nach wiederholt fehlgeschlagenen Reparaturen und kein finaler Abschluss ohne erforderliche Belege. Formale Methoden werden nützlich, wenn der Regelsatz wächst und temporale Beziehungen manuell schwer zu prüfen sind.

Was macht einen Eingriff zur Laufzeit vertrauenswürdig?

Ein vertrauenswürdiger Eingriff benennt die Regel, zeigt die Belege, begrenzt die nächste Handlung, zeichnet das Ergebnis auf und gibt einem autorisierten Menschen einen Prüfungspfad. Eine vage Warnung zählt nicht.

Quellen

Parand A. Alamdari, Toryn Q. Klassen, and Sheila A. McIlraith, “Formal Methods Meet LLMs: Auditing, Monitoring, and Intervention for Compliance of Advanced AI Systems,” arXiv:2605.16198v1, eingereicht am 15. Mai 2026. Quelle für Offline-Prüfung, Online-Laufzeitüberwachung, prädiktive Überwachung, eingreifende Monitore, Beschränkungen mit Linearer Temporaler Logik, den Vergleich mit Labelern kleiner Modelle und Aussagen zur Verschlechterung temporalen Schlussfolgerns. ↩↩↩↩↩↩
Boxuan Zhang, Jianing Zhu, Zeru Shi, Dongfang Liu, and Ruixiang Tang, “AgentForesight: Online Auditing for Early Failure Prediction in Multi-Agent Systems,” arXiv:2605.08715v2, überarbeitet am 13. Mai 2026. Quelle für Online-Prüfung aktiver Verlaufspräfixe, Alarme bei entscheidenden Fehlern, AFTraj-2K, die Schritt-Lokalisierungs-Perspektive und Eingriffe zur Deployment-Zeit. ↩↩↩
Chenglin Yang, “AgentTrust: Runtime Safety Evaluation and Interception for AI Agent Tool Use,” arXiv:2605.04785v1, eingereicht am 6. Mai 2026. Quelle für das Abfangen von Tool-Aufrufen vor der Ausführung, strukturierte Urteile, Shell-Deobfuskation, SafeFix-Alternativen, RiskChain-Erkennung, Benchmark-Umfang, Urteilsgenauigkeit und MCP-Server-Integration. ↩↩↩↩
Zibo Xiao, Jun Sun, and Junjie Chen, “AIR: Improving Agent Safety through Incident Response,” arXiv:2602.11749v1, eingereicht am 12. Februar 2026. Quelle für Vorfallreaktion innerhalb der LLM-Agenten-Ausführungsschleife, semantische Vorfallerkennung, Eingrenzungs- und Wiederherstellungsmaßnahmen, abgeleitete Schutzregeln sowie berichtete Erfolgsraten bei Erkennung, Behebung und Beseitigung. ↩↩↩
OpenAI, “Running Codex safely at OpenAI,” OpenAI, 8. Mai 2026. Quelle für begrenzte Codex-Ausführung, verwaltete Konfiguration, Netzwerkrichtlinien, Genehmigungen, OpenTelemetry-Ereignisexport, Compliance-Platform-Protokolle und Sicherheits-Triage über Codex-Aktivität. ↩↩
OpenAI Developers, “Agent internet access,” abgerufen am 18. Mai 2026. Quelle für Codex-Cloud-Standardeinstellungen zum Internetzugriff, Netzwerkblockierung während der Agentenphase, Prompt-Injection- und Exfiltrationsrisiken, Domain-Allowlists und HTTP-Methodenbeschränkungen. ↩↩↩