Das Handbuch für Agent-Operatoren: Überwachen, was Sie nicht sehen können
Der Betrieb autonomer KI-Agenten ist eine neue Disziplin — weder Engineering noch Management noch Operations, sondern ein Hybrid, der alle drei erfordert. Die Operatorenrolle entsteht, wenn Agenten lange genug laufen, dass nicht mehr die Codegenerierung, sondern die Überwachung zum Engpass wird. Fünf Verantwortungsbereiche definieren die Rolle. Ein Überwachungs-Stack setzt sie um. Ein Interventions-Framework entscheidet, wann gehandelt werden muss.
Niemand wurde für diesen Job ausgebildet. Kein Fachbereich einer Universität lehrt ihn. Keine Stellenausschreibung beschreibt ihn treffend. In einem Monat schreiben Sie Python. Im nächsten Monat verwalten Sie ein autonomes System, das Python schreibt, APIs aufruft, Ihr Dateisystem verändert und architektonische Entscheidungen trifft, während Sie schlafen. Die Ralph-Schleife hat diese Rolle in meiner Infrastruktur geschaffen — ein Shell-Skript, das Claude Code mit frischem Kontext neu startet, den Dateisystemzustand liest und die Arbeit über Nacht-Sessions hinweg fortsetzt. Jedes Team, das Agenten autonom betreibt, hat dieselbe Rolle unabhängig voneinander entdeckt, weil dieselben Probleme auftreten, sobald ein Agent länger als eine einzelne interaktive Sitzung läuft.
Die Rolle hat keinen etablierten Namen. Manche Teams nennen sie „AI Ops”. Andere ordnen sie dem Platform Engineering zu. Einige weisen sie Engineering-Managern zu, die noch nie einen Hook geschrieben haben. Diese Unschärfe ist relevant, denn eine falsche Zuordnung der Rolle führt zu einer falschen Zuweisung der Arbeit. Ein Engineering-Manager ohne Systemkenntnisse kann einen korrumpierten Agentenzustand nicht debuggen. Ein Platform Engineer ohne Produktverständnis kann nicht beurteilen, ob die Ausgabe eines Agenten der Absicht der Spezifikation entspricht. Die Operatorenrolle erfordert beides — Spezifikationsentscheidungen (was der Agent bauen soll, welche Einschränkungen gelten) und operationelle Ausführung (Sitzungen überwachen, Fehler beheben, Infrastruktur warten).
Fünf Verantwortungsbereiche des Operators
1. Delegation
Delegation bedeutet, Spezifikationen zu verfassen, die das Agentenverhalten vor Beginn der Ausführung eingrenzen. Die Qualität der Delegation bestimmt die Qualität der autonomen Ausgabe stärker als jeder andere Faktor.
Eine CLAUDE.md-Datei ist ein Delegationsartefakt. Sie kodiert Projektkonventionen, verbotene Muster, erforderliche Verhaltensweisen und Qualitätsstandards in ein Dokument, das der Agent zu Sitzungsbeginn liest.1 Ein PRD ist ein Delegationsartefakt. Es spezifiziert Abnahmekriterien, gegen die der Agent prüft, bevor er die Fertigstellung meldet. Eine Aufgabenbeschreibung ist ein Delegationsartefakt. Die Genauigkeit der Beschreibung begrenzt den Entscheidungsspielraum des Agenten.
Mangelhafte Delegation erzeugt die Abkürzungsspirale: Der Agent überspringt Schritte, weil die Spezifikation sie nicht als obligatorisch aufgeführt hat. Gute Delegation macht die erforderlichen Schritte explizit. Meine PRDs enthalten nummerierte Abnahmekriterien, und jedes Kriterium ist einem beobachtbaren Artefakt zugeordnet — einem Dateipfad, einem Testergebnis, einem spezifischen Verhalten. Der Agent kann ein Kriterium nicht als erfüllt markieren, ohne das Artefakt zu erzeugen. Delegation, die beobachtbare Ergebnisse spezifiziert, eliminiert eine ganze Klasse von Phantom-Fertigstellungen.
Die Kunst liegt darin zu wissen, was spezifiziert und was offen gelassen werden sollte. Überspezifikation erzeugt fragile Agenten, die sich nicht anpassen können, wenn sie auf unerwarteten Code treffen. Unterspezifikation erzeugt Agenten, die architektonische Entscheidungen treffen, die Sie nicht autorisiert haben. Die Grenze verschiebt sich mit dem Vertrauen: Ein gut getesteter Agent mit robusten Hooks verdient mehr Spielraum als eine neue Konfiguration, die ihre erste Nacht-Session durchläuft.
2. Überwachung
Überwachung bedeutet, aktive Sitzungen zu beobachten, Diffs zu prüfen und Abdrift zu erkennen, bevor sie sich aufschaukelt.
Abdrift ist das zentrale Risiko. Ein Agent startet im Einklang mit der Spezifikation, trifft eine vernünftige Mikroentscheidung, die leicht abweicht, und trifft dann Folgeentscheidungen, die auf der Abweichung aufbauen. Nach Iteration acht löst der Agent ein anderes Problem als das delegierte. Jede einzelne Entscheidung wirkte isoliert betrachtet vernünftig. Die kumulative Trajektorie verfehlte das Ziel.
Abdrift erkenne ich über zwei Mechanismen. Erstens setzen Hooks harte Grenzen durch — blockierte Befehle, erforderliche Muster, verbotene Dateiänderungen. Hooks fangen Verstöße in Echtzeit ab, bevor der Agent fortfährt. Zweitens erkennt die regelmäßige Durchsicht der Protokolle weiche Abdrift, die kein Hook erfassen kann: Der Agent wählt einen unnötig komplexen Ansatz, baut eine Funktion, die die Spezifikation nicht vorsah, oder optimiert einen Codepfad, der nicht der Engpass war. Weiche Abdrift erfordert menschliches Urteilsvermögen, denn keine automatisierte Prüfung kann feststellen, ob die Trajektorie des Agenten mit der Absicht des Operators übereinstimmt.
Überwachung skaliert schlecht mit der Anzahl der Agenten. Ein Agent, der eine Sitzung pro Nacht produziert, lässt sich beim Morgenkaffee durchsehen. Fünf Agenten mit je acht Iterationen erzeugen vierzig Kontextfenster an Arbeit. Priorisierung wird zwingend: Zuerst Fehlschläge prüfen, dann Sitzungen, die kritische Pfade berührt haben, zuletzt saubere Fertigstellungen bei risikoarmen Aufgaben.
3. Intervention
Intervention bedeutet zu wissen, wann ein Agent mitten in einer Aufgabe gestoppt, umgelenkt oder neu gestartet werden muss.
Vier Muster erfordern eine Intervention:
Der Agent steckt in einer Schleife fest. Derselbe Fehler taucht über aufeinanderfolgende Iterationen auf. Der Agent probiert denselben Fix mit geringfügigen Variationen. Jede Iteration verbraucht ein volles Kontextfenster und erzielt keinen Fortschritt. Intervention: Sitzung stoppen, die Grundursache manuell diagnostizieren, das Übergabedokument mit der Diagnose aktualisieren, neu starten.
Der Agent hat fehlerhafte Ausgabe erzeugt, die Tests bestehen. Der Code kompiliert, die Tests sind grün, aber das Verhalten entspricht nicht der Absicht der Spezifikation. Das Evidence Gate fängt einige Fälle ab, doch ein Agent kann eine plausible Rechtfertigung für falsches Verhalten liefern. Intervention: Einen fehlschlagenden Test schreiben, der das korrekte Verhalten erfasst, dann neu starten.
Der Agent steht kurz davor, Produktions- oder externe Systeme zu berühren. Jede Operation mit irreversiblen Konsequenzen — Deployment in Produktion, E-Mails senden, eine Datenbank modifizieren, eine kostenpflichtige API aufrufen — erfordert eine Schranke. Meine Hooks blockieren destruktive Bash-Befehle und externe Netzwerkaufrufe. Der Operator entscheidet, welche Schranken wann geöffnet werden.2
Der Agent macht Fortschritte, aber in die falsche Richtung. Die Arbeit ist kompetent, aber fehlausgerichtet. Intervention: Stoppen, die Spezifikation im Übergabedokument präzisieren, neu starten. Versuchen Sie nicht, mitten in der Sitzung durch Konversation umzulenken — der Agent hat bereits mentale Modelle um die falsche Interpretation herum aufgebaut, und eine Kurskorrektur im selben Kontextfenster erzeugt inkonsistente Ausgaben.
Das Muster, bei dem Sie nicht intervenieren: Der Agent macht langsam, aber stetig Fortschritt in Richtung des korrekten Ziels. Lassen Sie ihn arbeiten.
4. Wiederherstellung
Wiederherstellung bedeutet, mit Fehlern nach ihrem Auftreten umzugehen — korrumpierter Zustand, falsche Branches, kaputte Builds und Datenverlust.
Agentenfehler hinterlassen Artefakte. Eine abgestürzte Sitzung kann partielle Dateien geschrieben, auf den falschen Branch committet, temporäre Dateien im Arbeitsverzeichnis hinterlassen oder Konfigurationen verändert haben, die nachfolgende Sitzungen erben. Wiederherstellung erfordert das Rückgängigmachen dieser Artefakte vor dem Neustart.
Mein Wiederherstellungsprotokoll: den Schaden inventarisieren (git status, git log, git diff), das Sitzungsprotokoll als Diagnosedaten sichern, auf den letzten verifizierten guten Commit zurücksetzen, das Übergabedokument mit dem Fehler und seinen Ursachen aktualisieren, dann mit korrigierten Einschränkungen neu starten. Versuchen Sie nicht, partielle Arbeit aus einer fehlgeschlagenen Sitzung zu retten, es sei denn, die partielle Arbeit ist eindeutig korrekt und isolierbar. Das Übergabedokument trägt den Fehlerkontext über Sitzungsgrenzen hinweg, damit der nächste Agent dieselben Fehler nicht wiederholt.
Das gefährlichste Wiederherstellungsszenario ist ein Fehler, der wie Erfolg aussieht. Der Agent meldet Fertigstellung, die Tests bestehen, der Build ist grün, aber die Implementierung ist subtil falsch. Der Fehlermodus Confidence Mirage erzeugt genau diese Situation. Wiederherstellung erfordert das Lesen des Codes, nicht nur des Fertigstellungsberichts.
5. Governance
Governance bedeutet, Richtlinien, Budgets, Berechtigungen und Auditanforderungen festzulegen, die für alle Agentensitzungen gelten.
Richtlinien definieren, was Agenten tun dürfen und was nicht. Meine Governance-Ebene umfasst: ein Spawn-Budget (maximale Iterationen pro Nachtlauf), eine Kostenobergrenze (maximale API-Ausgaben pro Sitzung), eine Erlaubnisliste zulässiger Bash-Befehle, eine Sperrliste verbotener Dateimuster und einen Satz erforderlicher Fertigstellungskriterien.3 Jede Richtlinie lässt sich auf einen konkreten Fehler zurückführen. Das Spawn-Budget existiert, weil eine frühe Sitzung 47 Iterationen durchlief, ohne zu konvergieren. Die Kostenobergrenze existiert, weil eine Debugging-Sitzung 200 Dollar an API-Aufrufen verbrannte, während sie einer falschen Fährte nachjagte. Jede Richtlinie ist eine Narbe einer teuer erlernten Lektion.
Berechtigungen folgen dem Prinzip der geringsten Privilegien. Ein Agent, der Blog-Inhalte generiert, braucht keinen Schreibzugriff auf das Dateisystem außerhalb des Inhaltsverzeichnisses. Ein Agent, der Tests ausführt, braucht keinen Netzwerkzugang. Meine Hooks setzen diese Grenzen auf der Ebene der Tool-Aufrufe durch und blockieren Operationen, die den Berechtigungsrahmen der Sitzung überschreiten.2
Auditanforderungen vervollständigen die Governance-Ebene. Jede Sitzung erzeugt ein strukturiertes Protokoll: ausgeführte Befehle, modifizierte Dateien, durchgeführte Tests, bewertete Fertigstellungskriterien. Die Taxonomie der sieben Fehlermodi entstand aus der Durchsicht von sechs Monaten dieser Protokolle und der Kategorisierung jedes Fehlers, der menschliche Intervention erforderte.
Der Überwachungs-Stack
Fünf Infrastrukturkomponenten setzen die fünf Verantwortungsbereiche um.
Hooks implementieren automatisierte Überwachung. Die Lifecycle-Events von Claude Code — PreToolUse, PostToolUse, Notification — lösen Shell-Skripte aus, die Richtlinien in Echtzeit durchsetzen.2 Ein Hook, der rm -rf blockiert, ist eine als PreToolUse-Prüfung kodierte Governance-Richtlinie. Ein Hook, der die Testausführung vor der Fertigstellung erfordert, ist eine als PostToolUse-Prüfung kodierte Delegationseinschränkung. Die 95 Hooks in meinem System kodieren 95 Entscheidungen darüber, was Agenten tun dürfen und was nicht — jede zurückführbar auf einen konkreten Fehler, den der Hook nun verhindert.
Das Evidence Gate implementiert strukturierte Verifikation. Sechs Kriterien — folgt Mustern, einfachste Lösung, Randfälle behandelt, Tests bestehen, keine Regressionen, löst das Problem — müssen spezifische Artefakte erzeugen, bevor Arbeit als abgeschlossen markiert wird.4 Das Gate wandelt Überwachung von „Hat der Agent gute Arbeit geleistet?” (subjektiv, nicht verifizierbar) in „Hat der Agent Nachweise für alle sechs Kriterien erbracht?” (objektiv, auditierbar). Jedes abschwächende Wort in einem Fertigstellungsbericht löst eine erneute Verifikation aus.
Die Qualitätsschleife implementiert iterative Verfeinerung. Sieben Schritte — implementieren, prüfen, evaluieren, verfeinern, herauszoomen, wiederholen, berichten — zwingen den Agenten durch mehrere Durchgänge seiner eigenen Arbeit.5 Die Schleife kompensiert eine strukturelle Einschränkung der Single-Pass-Generierung: Modelle erzeugen plausible erste Entwürfe, die Fehler enthalten, die erst beim erneuten Lesen sichtbar werden. Die Qualitätsschleife erzwingt dieses erneute Lesen.
Sitzungsprotokolle implementieren nachträgliche Audits. Jeder Tool-Aufruf, jede Dateiänderung und jeder Fertigstellungsbericht wird in strukturierter Form erfasst. Sechs Monate an Sitzungsprotokollen haben die Fehlertaxonomie hervorgebracht. Ohne die Protokolle wäre jeder Fehler eine isolierte Anekdote geblieben.
Kostenschranken implementieren Budgetdurchsetzung. Spawn-Budgets begrenzen die Iterationsanzahl. API-Kostenobergrenzen begrenzen den Token-Verbrauch. Ein Agent, der innerhalb des Spawn-Budgets nicht konvergiert ist, steckt wahrscheinlich fest, und weitere Iterationen werden nicht helfen. Das Budget zwingt den Operator zur Diagnose und Intervention, anstatt darauf zu hoffen, dass die nächste Iteration das Problem behebt.
Wann intervenieren, wann laufen lassen
Die Interventionsentscheidung ist der wirkungsvollste Beurteilungsaufruf des Operators. Zu früh intervenieren verschwendet Agentenarbeit. Zu spät intervenieren lässt Abdrift sich aufschaukeln. Ein Framework hilft.
| Signal | Aktion | Begründung |
|---|---|---|
| Derselbe Fehler über 3+ Iterationen | Intervenieren | Dem Agenten fehlen Informationen zur Fehlerbehebung. Weitere Iterationen helfen nicht. |
| Langsamer, aber messbarer Fortschritt in Richtung des korrekten Ziels | Laufen lassen | Geschwindigkeit ist nicht die Variable. Korrektheit schon. |
| Ausgabe besteht Tests, entspricht aber nicht der Spezifikationsabsicht | Intervenieren | Der schwierigste Fall. Einen Test schreiben, der das korrekte Verhalten erfasst, dann neu starten. |
| Agent steht kurz davor, eine externe API aufzurufen oder Produktion zu verändern | Schranke setzen | Irreversible Operationen erfordern explizite Genehmigung, unabhängig vom Konfidenzgrad. |
| Agent fordert eine Berechtigung an, die er nicht benötigen sollte | Intervenieren | Berechtigungsanfragen außerhalb des erwarteten Rahmens deuten darauf hin, dass der Agent von der Aufgabe abgedriftet ist. |
| Fertigstellungsbericht verwendet abschwächende Sprache | Erneut verifizieren | „Sollte funktionieren” und „Ich glaube” sind keine Nachweise. Artefakte einfordern. |
| Agent baut Infrastruktur, die nicht in der Spezifikation steht | Evaluieren | Manchmal notwendige Vorbereitung. Oft Tunnelblick. Prüfen, ob die Infrastruktur dem Ziel dient oder es verzögert. |
Das Metaprinzip: Intervenieren Sie bei Informationsasymmetrie, nicht bei Geschwindigkeit. Wenn Sie etwas wissen, das der Agent nicht weiß — den korrekten Codepfad, die tatsächliche Anforderung, den Fehlermodus einer vorherigen Sitzung —, überträgt die Intervention dieses Wissen. Wenn der Agent alles weiß, was Sie wissen, und sich einfach durch das Problem arbeitet, lassen Sie ihn arbeiten.
Die Checkliste des Operators
Vor dem Start
- [ ] Spezifikation geprüft: Abnahmekriterien sind spezifisch, beobachtbar und vollständig
- [ ] Hooks aktiv: Richtlinien-Hooks sind für den Aufgabentyp aktiviert und getestet
- [ ] Budget gesetzt: Spawn-Limit und Kostenobergrenze sind konfiguriert
- [ ] Sandbox bestätigt: Der Agent kann nicht auf Produktion zugreifen, externe Anfragen senden oder Dateien außerhalb des Geltungsbereichs ändern
- [ ] Übergabe aktuell: Falls vorherige Arbeit fortgesetzt wird, spiegelt das Übergabedokument die neuesten Korrekturen wider
- [ ] Branch sauber: Das Arbeitsverzeichnis befindet sich auf dem korrekten Branch ohne uncommittete Änderungen
Während der Ausführung
- [ ] Protokolle in definierten Intervallen prüfen (alle 2–3 Iterationen bei Nachtläufen)
- [ ] Verifizieren, dass die Trajektorie der Absicht der Spezifikation entspricht, nicht nur ihrem Wortlaut
- [ ] Ressourcenverbrauch überwachen: Token-Ausgaben, Iterationsanzahl, Dateisystemänderungen
- [ ] Auf Berechtigungseskalation achten: Anfragen nach Zugriff, den die Aufgabe nicht erfordern sollte
- [ ] Jegliche weiche Abdrift für die Nachbesprechung notieren
Nach der Ausführung
- [ ] Alle Dateiänderungen prüfen, nicht nur den Fertigstellungsbericht
- [ ] Die vollständige Testsuite unabhängig ausführen (den vom Agenten gemeldeten Testergebnissen nicht vertrauen)
- [ ] Auf Regressionen in angrenzendem Code prüfen, den der Agent nicht explizit modifiziert hat
- [ ] Das Evidence Gate verifizieren: Jedes Kriterium hat ein spezifisches Artefakt, keine allgemeine Zusicherung
- [ ] Das Übergabedokument mit Sitzungsergebnissen und etwaigen Korrekturen aktualisieren
- [ ] Sitzung protokollieren: aufgetretene Fehlermodi, ausgelöste Hooks, Interventionsentscheidungen
- [ ] Governance aktualisieren: Falls ein neues Fehlermuster aufgetreten ist, einen Hook oder eine Richtlinie zur Vermeidung schreiben
Der Operator als Handwerker
Die Rolle des Agent-Operators liegt an der Schnittstelle von Engineering-Kompetenz und Produktverständnis. Hooks zu schreiben erfordert Systemwissen. Spezifikationen zu schreiben erfordert Produktverständnis. Die Ausgabe eines Agenten zu prüfen erfordert beides — die Fähigkeit zu beurteilen, ob Code korrekt ist, und ob korrekter Code das richtige Problem löst.
Chat ist das falsche Interface für die operationelle Hälfte der Rolle. Durch Konversationsprotokolle zu scrollen, um autonome Arbeit zu überwachen, skaliert nicht über einen einzelnen Agenten in einer einzelnen Sitzung hinaus. Der oben beschriebene Überwachungs-Stack — Hooks, Evidence Gates, Qualitätsschleifen, Sitzungsprotokolle, Kostenschranken — kompensiert diese Interface-Lücke, indem er Überwachung in Infrastruktur kodiert. Die Infrastruktur ersetzt den Operator nicht. Die Infrastruktur gibt dem Operator Hebelwirkung.
Geschmack ist ein technisches System beschreibt die Urteilshälfte. Zu wissen, was delegiert, was verifiziert und was abgelehnt werden sollte, erfordert Mustererkennung, die aus Erfahrung aufgebaut wird. Jede Sitzung lehrt den Operator etwas über das Verhalten von Agenten. Die Kompetenz des Operators wächst durch bewusste Praxis, Reflexion und Infrastruktur, die Erkenntnisse dauerhaft kodiert.
Die Dark Factory repräsentiert den theoretischen Endpunkt — Level 5, bei dem kein Mensch mehr den Code liest. Die aktuelle Praxis befindet sich bei den meisten Teams auf Level 3 oder 4: Der Agent erledigt die Arbeit, der Operator überwacht und interveniert. Die Lücke zwischen Level 4 und Level 5 ist die Verifikationsschicht. Die Lücke zwischen Level 2 und Level 4 ist der Operator.
Jedes Team, das autonome Agenten betreibt, wird Operatoren entwickeln. Die Frage ist, ob es die Rolle bewusst entwickelt — mit definierten Verantwortlichkeiten, Infrastrukturunterstützung und expliziter Ausbildung — oder zufällig, indem die Arbeit demjenigen zugewiesen wird, der gerade wach ist, wenn die Nacht-Session scheitert. Von dort aus entwickelt sich das Handwerk.
-
Anthropic, „Claude Code Configuration”, veröffentlicht Februar 2026. https://docs.anthropic.com/en/docs/claude-code/settings ↩
-
Anthropic, „Claude Code Hooks”, veröffentlicht Februar 2026. https://docs.anthropic.com/en/docs/claude-code/hooks ↩↩↩
-
Blake Crosley, „The Ralph Loop: How I Run Autonomous AI Agents Overnight”, veröffentlicht Februar 2026. https://blakecrosley.com/blog/ralph-agent-architecture ↩
-
Blake Crosley, „The Evidence Gate: Proof Over Plausibility in AI Output”, veröffentlicht März 2026. https://blakecrosley.com/blog/the-evidence-gate ↩
-
Blake Crosley, „What Actually Breaks When You Run AI Agents Unsupervised”, veröffentlicht Februar 2026. https://blakecrosley.com/blog/what-actually-breaks-unsupervised ↩