Managed Agents vs. lokale Agent-Harnesses: Was bleibt
Anthropic und OpenAI machen die Runtime-Infrastruktur für Agenten zur Produktoberfläche: gehostete Sessions, Sandboxes, Tracing, Memory, Handoffs, Rubriken und Event-Streams sitzen heute näher beim Modellanbieter als beim privaten Skript-Ordner eines Teams.12
Was sind die wichtigsten Erkenntnisse?
- Managed Agents werden zur Runtime-Schicht. Sessions, Sandboxes, Traces, Events und asynchrone Ausführung gehören zunehmend in die verwaltete Infrastruktur, sofern der Anbieter den Sicherheitsanforderungen des Teams gerecht wird.12
- Lokale Harnesses bleiben relevant. Behalten Sie die Bestandteile, die Geschmack, Evidenz, Integrität öffentlicher Texte, Datenschutzgrenzen, Quellenprüfung und Projektgedächtnis kodieren.
- Migrationseinheit ist die Aufgabe, nicht der Befehl. Ein Slash-Command, ein Codex-Skill, ein SDK-Handoff, ein MCP-Server oder ein Managed Outcome können denselben Workflow tragen, solange die Akzeptanzkriterien erhalten bleiben.
- Veröffentlichen Sie keine private Maschinerie. Öffentliche Beiträge sollten das Muster und die Akzeptanzkriterien erklären, nicht private Prompts, exakte Hook-Inhalte, Account-Details oder interne Bewertungsregeln.
- Beförderung verlangt Beweise. Beginnen Sie explizit, führen Sie eine echte Aufgabe aus, dokumentieren Sie das Ergebnis und befördern Sie nur dann, wenn der für Benutzer sichtbare Pfad besser wird.
Plattformen für Managed Agents sollten die Routine-Runtime-Arbeit übernehmen: Sandbox-Ausführung, zustandsbehaftete Sessions, Event-Streams, Tracing, Dateiausführung und asynchroner Abschluss. Lokale Harnesses behalten ihren Platz, doch ihre Aufgabe wird kleiner und schärfer. Behalten Sie die Bestandteile, die Produktgeschmack, Evidenz-Gates, Integrität öffentlicher Texte, Datenschutzgrenzen, Quellenprüfung und projektspezifisches Betriebsgedächtnis kodieren. Verschieben Sie die Bestandteile, die nur deshalb existieren, weil bisher niemand sonst die Runtime paketiert hatte.
Die schlechte Migration besteht darin, den lokalen Harness zu löschen, weil ein Anbieter verwaltete Infrastruktur ausgeliefert hat. Die zweite schlechte Migration besteht darin, jeden lokalen Befehl, Hook und Prompt zu konservieren, weil er einmal ein echtes Problem gelöst hat. Die richtige Migration stellt eine Frage pro Komponente: Kodiert das meine Standards, oder bedient das die Maschine?
Zur breiteren Architektur lesen Sie den AI Agent Architecture-Leitfaden. Zum konkreten Migrationsmuster, das diesem Beitrag zugrunde liegt, lesen Sie den Claude Code to Codex Migration Guide, AGENTS.md Patterns und die Jiro Quality Philosophy.
Zur lokalen Tool-Seite des Bruchs erläutert Claude Code as Infrastructure, warum private Runtime-Schichten wachsen, und Claude Code vs Codex CLI 2026 vergleicht die Aktivierungs- und Sicherheitsoberflächen.
Was hat sich mit Managed Agents geändert?
Claude Managed Agents stellt Entwicklern einen vorgefertigten Agent-Harness in verwalteter Infrastruktur bereit. Anthropic beschreibt das als geeignet für lang laufende Aufgaben und asynchrone Arbeit, mit Kernkonzepten für Agenten, Umgebungen, Sessions und Events.1 Dieselbe Dokumentation beschreibt eine verwaltete Umgebung, in der Claude Dateien lesen, Befehle ausführen, browsen, Code ausführen, MCP-Server nutzen und Event-Historie serverseitig persistieren kann.1
Der Engineering-Beitrag von Anthropic bringt den architektonischen Kern klarer auf den Punkt als die Produktdokumentation. Das Managed-Agents-Team hat Session-Log, Harness und Sandbox getrennt, sodass jeder Bestandteil unabhängig versagen oder sich ändern kann.3 Diese Trennung ist wichtig, denn sie verwandelt eine fragile Ein-Container-Agentenschleife in ein System mit wiederherstellbarem Session-Zustand, austauschbaren Ausführungsumgebungen und einer engeren Sicherheitsgrenze um die Zugangsdaten.3
OpenAI bewegt sich über das Agents SDK in dieselbe Richtung. Das Update vom 15. April 2026 ergänzte einen modellnativen Harness, native Sandbox-Ausführung, eine Manifest-Abstraktion für Workspaces und Unterstützung für gängige Primitive wie MCP, Skills, AGENTS.md, Shell-Ausführung und Patch-Anwendung.2 Die SDK-Dokumentation legt zudem Sessions für Memory über mehrere Runs offen, Tracing für LLM-Generierungen, Tool-Aufrufe, Handoffs, Guardrails und benutzerdefinierte Events sowie Handoffs für die Übergabe von Arbeit zwischen spezialisierten Agenten.456
So weit die Nachricht. Die strategische Frage liegt anders: Sobald Plattformen die Agenten-Runtime ausliefern, was sollte Ihr lokaler Harness noch leisten?
Wo verläuft die Trennung zwischen Runtime und Urteilsvermögen?
Die meisten lokalen Agent-Harnesses vermischen zwei Aufgaben, die nicht immer zusammengehören.
Die erste Aufgabe ist Runtime-Infrastruktur. Eine Runtime startet Sessions, gewährt Tools, bereitet einen Workspace vor, führt Befehle aus, speichert Events, behandelt Unterbrechungen, nimmt Arbeit wieder auf, streamt Status und zeichnet Traces auf. Diese Aufgabe profitiert von Standardisierung. Sie profitiert ebenso von Security-Engineering, das die meisten einzelnen Teams nicht ohne triftigen Grund neu bauen sollten.
Die zweite Aufgabe ist Urteilsvermögen. Urteilsvermögen sagt, wie gute Arbeit aussieht, welche öffentlichen Aussagen Primärquellen brauchen, wann ein Leitfaden zu veraltet zum Veröffentlichen ist, wann ein Hook zu laut ist, um durchgesetzt zu werden, wann aus einem Quellen-Scan eine Notiz statt eines Beitrags werden sollte und wann ein Agent eine technisch korrekte, aber unwürdige Ausgabe ablehnen sollte. Diese Aufgabe bleibt lokal, denn sie kommt aus dem Produkt, dem Team und dem Leser.
Verwaltete Infrastruktur kann eine bessere Schleife laufen lassen. Sie kann nicht entscheiden, was Ihr Geschmack sein sollte.
Was sollte zu Managed Agents wandern?
Verschieben Sie die Komponenten, die Ihre Produktstandards nicht kodieren.
| Lokale Komponente | Bessere Heimat, sofern die Plattform sie unterstützt | Warum |
|---|---|---|
| Sandbox-Setup | Verwaltete Umgebung oder SDK-Sandbox | Anbieter können Isolation, Setup, Netzwerkregeln und Provider-Adapter pflegen. |
| Session-Persistenz | Verwaltetes Session-Log oder SDK-Session-Store | Lang laufende Arbeit braucht Zustand, der Kontextfenster und Worker-Ausfälle übersteht. |
| Event-Streams und Webhooks | Verwaltete Events oder Job-Queue auf Anwendungsebene | Die Anwendung soll den Status beobachten, ohne privaten Shell-Zustand abzufragen. |
| Tracing | Anbieter-Tracing oder Ihr Tracing-Processor | Agent-Debugging braucht strukturierte Spans für Modellaufrufe, Tools, Guardrails und Handoffs. |
| Tool-Anbindung | Verwaltete Tools, MCP oder SDK-Tool-Adapter | Tool-Aufrufe gehören hinter stabile Schnittstellen, nicht hinter brüchige Prompt-Konventionen. |
| Multi-Agenten-Fanout | Verwaltete Orchestrierung oder SDK-Handoffs | Delegation braucht Sichtbarkeit, Eingabefilter und klare Handoff-Verträge. |
Die Outcomes-Funktion von Anthropic zeigt, wohin der Trend als Nächstes geht. Der Entwickler definiert eine Rubrik, der verwaltete Harness stellt einen separaten Grader bereit, und der Agent iteriert gegen das Feedback des Graders.7 Damit verschwinden lokale Standards nicht. Stattdessen erhalten diese Standards einen Runtime-Slot.
Dasselbe Muster gilt für das Tracing von OpenAI. Das SDK traced den Run, Agent-Spans, Generierungen, Funktions-Tool-Aufrufe, Guardrails und Handoffs standardmäßig, mit Steuerungen zum Deaktivieren des Tracings und Processoren für andere Ziele.5 Ein lokales Skript kann das annähern. Ein produktives System sollte üblicherweise den standardisierten Trace bevorzugen und ihn dorthin schicken, wo das Team ohnehin debuggt.
Was sollte lokal bleiben?
Behalten Sie die Komponenten, die Ihre Standards, Ihren Leser oder Ihren privaten Betriebskontext definieren.
Produktgeschmack. Eine Plattform kann eine Aufgabe ausführen; sie kann nicht wissen, ob das Ergebnis das Gesamtprodukt verbessert. Behalten Sie die Geschmacksregeln, die geschäftige, generische oder würdelose Ausgaben ablehnen.
Evidenz-Gates. Behalten Sie Regeln, die Evidenz aus der aktuellen Session, Verifikation des Benutzerpfads, benannte Lücken und Ursachenanalyse fordern. Verwaltete Traces sagen Ihnen, was passiert ist. Ihr Standard entscheidet, ob die Evidenz ausreicht.
Integrität öffentlicher Texte. Behalten Sie Zitierregeln, Quellen-Tier-Regeln, Prüfungen privater Grenzen, SEO/AIO-Checks und Veröffentlichungs-Gates nahe an der Website. Ein Modellanbieter sollte nicht entscheiden, welche privaten Workflow-Details sicher zur Veröffentlichung sind.
Projektgedächtnis. Behalten Sie knappe Projektdoktrin, Stilentscheidungen, bekannte Risiken, Release-Grenzen und Betriebsprotokolle dort, wo das Team sie einsehen kann. Verschieben Sie nur die Speicherschicht, wenn ein verwalteter Session-Store die Haltbarkeit echt verbessert.
Quellenintelligenz. Behalten Sie die redaktionelle Routing-Schicht. Ein Scanner kann 14 gute Treffer finden und dennoch null Beiträge erzeugen, wenn der richtige Schritt Monitoring, Leitfadenpflege oder eine private Notiz ist.
Beförderungs-Politik. Behalten Sie Staging-Regeln. Ein Skill kann zunächst nur explizit aktivierbar starten, ein Hook kann im Schatten laufen, und ein Plugin kann im Install-Pilot bleiben, bis echte Arbeit beweist, dass es mehr nützt als ablenkt.
Diese Liste ist der eigentliche Harness. Die Dateien und Befehle sind nur eine Implementierung davon.
Welchen Migrationsfehler sollten Teams vermeiden?
Der einfachste Weg, diese Migration schlecht durchzuführen, besteht darin, die Form statt der Aufgabe zu erhalten.
Claude Code-Slash-Commands, Codex-Skills, SDK-Tools, Managed Outcomes und MCP-Server sind keine austauschbare Syntax für dieselbe Sache. Es sind unterschiedliche Aktivierungsoberflächen. Aus einem Slash-Command kann ein Skill werden. Aus einem Skill kann eine Managed-Outcome-Rubrik werden. Aus einem Hook kann ein Trace-Processor werden. Ein lokales Skript kann überflüssig werden, sobald die Plattform Sessions oder Webhooks bereitstellt.
Der Beitrag von Anthropic über lang laufende Agenten kommt aus der Gegenrichtung zum selben Schluss: Compaction allein lieferte keine produktionsreife Arbeit, also ergänzte das wirksame Muster Feature-Listen, Fortschrittsartefakte, sauberen Handoff-Zustand und End-to-End-Tests.8 Das sind keine UI-Konventionen. Das sind Beweispflichten.
Die Migration sollte nicht fragen: „Wo lege ich /scan-intel ab?” Sie sollte fragen: „Welche Aufgabe hat der Quellenintelligenz-Workflow eigentlich erfüllt?”
Bei einem Quellen-Scanner besteht die Aufgabe nicht darin, „einen Befehl auszuführen”. Die Aufgabe besteht darin, konfigurierte Quellen zu scannen, die Erreichbarkeit der Quellen zu belegen, Kandidaten zu bewerten, breite Schreibvorgänge mit geringem Signal abzulehnen, nützliche Notizen privat zu sichern und öffentliche Gelegenheiten an die redaktionelle Prüfung weiterzuleiten. Die exakte Aktivierungsphrase darf sich ändern, ohne dass der Workflow verloren geht.
Dieselbe Regel gilt für die Qualitätsdoktrin. Veröffentlichen Sie kein privates Prompt-Paket. Übersetzen Sie die Doktrin in beobachtbare Abschluss-Gates: Evidenz, Verifikation des Benutzerpfads, Prüfung privater Grenzen und das Recht, Arbeit abzulehnen, die das Produkt schwächt.
Wie lässt sich das auf einen Quellenintelligenz-Scanner anwenden?
Ein Quellenintelligenz-Scanner macht die Trennung greifbar.
Die Runtime-Seite kann wandern. Eine verwaltete Plattform kann den geplanten Job ausführen, die Session speichern, Browser- oder Feed-Tools aufrufen, Events emittieren und Traces aufbewahren. Wenn ein Scan ein Timeout erreicht, sollte die verwaltete Session wissen, was lief, welche Quellen versagten und wo der nächste Run wieder ansetzen sollte.
Die Urteilsseite sollte lokal bleiben. Der Scanner braucht weiterhin eine private Quellenkarte, Score-Schwellen, Duplikatsprüfungen, Schreibvolumen-Begrenzungen und eine redaktionelle Route. Ein Scan, der 14 Kandidaten findet, sollte nicht automatisch 14 Notizen oder einen Artikel veröffentlichen. Die richtige Handlung kann eine private Notiz sein, eine Aufgabe zur Leitfadenpflege, eine Monitoring-Warteschlange oder eine Verweigerung, überhaupt etwas Öffentliches zu schreiben.
Diese Unterscheidung verwandelt eine laute Automatisierung in einen nützlichen Workflow:
| Scanner-Schritt | Verwaltete Schicht | Lokale Harness-Schicht |
|---|---|---|
| Quellen abrufen | Browser-, Feed-, Such- oder MCP-Tools | Quellenkarte und Vertrauensstufen |
| Run-Zustand persistieren | Session-Log, Events, Traces | Themenregister und Gedächtnis bisheriger Abdeckung |
| Kandidaten bewerten | Optionaler Modell-/Tool-Durchlauf | Redaktionelle Schwellen und Geschmacksregeln |
| Ausgaben schreiben | Datei- oder Notiz-Tool | Schreibvolumen-Gate und Prüfung privater Grenzen |
| Nächste Aktion routen | Event, Webhook oder Handoff | Veröffentlichen, Leitfaden aktualisieren, Monitoring oder Nichts-Tun-Entscheidung |
Dieselbe Logik gilt für Coding, Leitfadenpflege, Übersetzung und Workflows zum öffentlichen Schreiben. Verschieben Sie Ausführungsmechanik, wenn eine Plattform sie besser erledigt. Behalten Sie den Standard, der entscheidet, ob die Ausgabe überhaupt existieren soll.
Welche Checkliste sollten Teams nutzen, bevor sie einen Harness verschieben?
Nutzen Sie diese Checkliste, bevor Sie eine lokale Harness-Komponente auf eine Managed-Agent-Plattform verschieben.
| Frage | Wenn ja | Wenn nein |
|---|---|---|
| Bedient die Komponente ausschließlich Runtime-Infrastruktur? | Verschieben Sie sie in Richtung verwalteter Sessions, Sandboxes, Tracing oder Events. | Behalten Sie sie lokal oder in Projektverantwortung. |
| Kodiert die Komponente Geschmack, Vertrauen oder redaktionelle Standards? | Behalten Sie den Standard lokal; legen Sie nur eine sichere Rubrik oder Akzeptanzkriterien offen. | Erwägen Sie, sie auszumustern. |
| Berührt die Komponente Geheimnisse, Account-Zustand oder private Prompts? | Halten Sie die privaten Details aus öffentlichen Paketen und Artikeln heraus. | Sie ist möglicherweise als generisches Muster veröffentlichbar. |
| Kann die Plattform dasselbe Gate als Rubrik, Trace, Hook oder Processor ausdrücken? | Pilotieren Sie die plattform-native Variante. | Behalten Sie die lokale Variante als rein explizit. |
| Hat echte Arbeit das Verhalten belegt? | Befördern Sie von rein explizit zu Pilot oder erzwungen. | Belassen Sie sie im Staging. |
| Erzeugt die Komponente Lärm? | Vereinfachen, in den Schatten stellen oder entfernen. | Messen Sie sie weiter an realen Ergebnissen. |
Der Beförderungspfad sollte langweilig bleiben:
- Inventarisieren Sie die Komponente.
- Benennen Sie die Aufgabe, die sie erfüllt.
- Klassifizieren Sie sie als Runtime, Urteil, Gedächtnis, Veröffentlichung, Quellenintelligenz oder Sicherheit.
- Portieren Sie die kleinste nützliche Version.
- Lassen Sie sie auf eine echte Aufgabe los.
- Halten Sie fest, was passiert ist.
- Befördern, überarbeiten oder entfernen Sie sie.
Alles Aufwendigere verbirgt meist Unsicherheit.
Wie sollten Teams einen echten Harness heute aufteilen?
Für ein ernsthaftes Coding- und Schreib-Setup würde ich diese Aufteilung wählen.
Anbieter- oder Managed-Schicht:
- Sandbox-Erstellung
- Dateiausführung
- persistente Sessions
- Event-Streams
- Webhooks
- Traces und Spans
- Wiederherstellung lang laufender Worker
- grundlegende Multi-Agenten-Delegation
- Rubrik-Ausführung, sofern der Anbieter sie unterstützt
Lokale oder Projekt-Schicht:
AGENTS.mdoder gleichwertige Projektpolitik- Standards für öffentliches Schreiben
- Zitier- und Quellen-Tier-Regeln
- Doktrin der Produktqualität
- privates Betriebsgedächtnis
- standortspezifische SEO/AIO-Checks
- Routing der Quellenintelligenz
- finale Veröffentlichungs-Gates
- Release-Grenz-Politik für Plugins und gemeinsam genutzte Pakete
Die Trennlinie verläuft nicht bei „managed gegen selbst gehostet”. Sie verläuft bei „Routine-Runtime gegen Produkturteil”.
Wo brauchen Managed Agents weiterhin Vorsicht?
Managed-Agent-Plattformen entfernen die schwierigen Teile nicht. Sie verschieben sie.
Sie brauchen weiterhin ein Sicherheitsmodell für Tools, Dateien, Netzwerkzugang und Zugangsdaten. Die Architektur von Anthropic trennt Zugangsdaten ausdrücklich von der Sandbox, in der generierter Code läuft, was die richtige Richtung ist, doch Teams müssen Ressourcen, Vaults und Zugriffsgrenzen weiterhin korrekt konfigurieren.3
Sie brauchen weiterhin Beobachtbarkeit. Ein Trace zeigt den Aufrufgraph; er kann nicht sagen, ob die Arbeit verdient hatte, ausgeliefert zu werden. Ein Grader kann eine Rubrik bewerten; er kann nicht wissen, ob die Rubrik den richtigen Geschmack ausdrückt.
Sie brauchen weiterhin inhaltliche Grenzen. Ein öffentlicher Migrationsartikel darf das Muster beschreiben, aber er sollte keine privaten Prompts, exakten Hook-Interna, privaten Dateipfade, Quellenlisten, Account-Details oder proprietären redaktionellen Bewertungen ausschütten.
Sie brauchen weiterhin Staging. Anthropic weist darauf hin, dass Managed Agents weiterhin Beta sind, mit allen Endpunkten, die den Beta-Header managed-agents-2026-04-01 verlangen, und einigen Funktionen, die Vorab-Zugang erfordern.1 Eine Beta-Runtime kann nützlich sein, ohne zum Standardpfad für jeden Workflow zu werden.
Was sollten Teams mitnehmen?
Für Engineering-Verantwortliche:
- Verschieben Sie Runtime-Arbeit in Richtung verwalteter Sessions, Sandboxes, Events und Traces, sobald die Plattform Ihre Sicherheitsanforderungen erfüllt.
- Behalten Sie lokale Standards für Evidenz, Quellenqualität, Produktgeschmack und Release-Grenzen.
- Behandeln Sie verwaltete Rubriken als Ausführungs-Slots für Ihre Standards, nicht als deren Ersatz.
Für Agent-Entwickler:
- Portieren Sie keine Befehle eins zu eins. Portieren Sie Jobs-to-be-Done.
- Starten Sie rein explizit, befördern Sie erst, wenn eine echte Aufgabe den Wert belegt.
- Bevorzugen Sie Traces, Session-Logs und öffentliche Artefakte gegenüber privater Prompt-Archäologie.
Für öffentliche Autoren:
- Verwandeln Sie privaten Prozess in öffentliche Akzeptanzkriterien.
- Zitieren Sie offizielle Produktdokumentation für aktuelles Verhalten.
- Verzichten Sie auf die Zusammenfassung, wenn der bessere Artikel der Entscheidungsrahmen ist.
Was ist die Kurzfassung?
Managed-Agent-Plattformen machen den lokalen Harness kleiner, nicht überflüssig. Verschieben Sie Runtime-Arbeit in verwaltete Sessions, Sandboxes, Traces, Events und Orchestrierung, sobald die Plattform dieses Vertrauen verdient. Behalten Sie die lokalen Standards, die Qualität, Evidenz, Datenschutz und Integrität öffentlicher Texte definieren – und die entscheiden, welche Arbeit es verdient, ausgeliefert zu werden.
FAQ: Managed Agents und lokale Harnesses
Ersetzen Managed Agents einen lokalen AI-Agent-Harness?
Nein. Verwaltete Plattformen ersetzen einen größeren Teil der Runtime-Schicht: Sessions, Sandboxes, Event-Streams, Tracing und Tool-Ausführung. Lokale Harnesses bleiben relevant, wenn sie Produktstandards, Evidenz-Gates, Regeln für öffentliches Schreiben, Datenschutzgrenzen, Quellenintelligenz und projektspezifisches Gedächtnis kodieren.
Was sollte in AGENTS.md oder CLAUDE.md bleiben?
Behalten Sie dort dauerhafte Projektregeln: was das Produkt wertschätzt, wie der Abschluss verifiziert wird, welche privaten Details nicht veröffentlicht werden dürfen, wie öffentliches Schreiben geprüft wird und welche für Benutzer sichtbaren Pfade funktionieren müssen, bevor eine Aufgabe als erledigt gilt. Stopfen Sie keine vorübergehenden Tool-Ausgaben oder privaten Prompt-Inhalte in dauerhafte Anweisungsdateien.
Wann sollte ein Team eine Managed-Agent-Plattform nutzen?
Nutzen Sie verwaltete Infrastruktur, wenn die Arbeit lang laufende Ausführung, sichere Container, langlebige Sessions, Event-Streams, asynchronen Abschluss, Tracing oder verwaltete Multi-Agenten-Orchestrierung benötigt und wenn Sicherheits-, Kosten- und Datenkontrollen des Anbieters zum Anwendungsfall passen.12
Was sollte nicht in ein öffentliches Harness-Paket wandern?
Veröffentlichen Sie keine privaten Prompts, exakten Hook-Inhalte, sensiblen Dateipfade, Account-Identifikatoren, Token-Handhabungen, privaten Quellenlisten, proprietären Bewertungsregeln oder irgendetwas, das Fremden erlauben würde, Ihr internes Betriebssystem zu rekonstruieren. Veröffentlichen Sie das Muster und die Akzeptanzkriterien.
Quellen
-
Anthropic, “Claude Managed Agents overview”. Abgerufen am 7. Mai 2026. ↩↩↩↩↩↩
-
OpenAI, “The next evolution of the Agents SDK”, 15. April 2026. ↩↩↩↩
-
Anthropic Engineering, “Scaling Managed Agents: Decoupling the brain from the hands”, 8. April 2026. ↩↩↩
-
OpenAI Agents SDK, “Sessions”. Abgerufen am 7. Mai 2026. ↩
-
OpenAI Agents SDK, “Handoffs”. Abgerufen am 7. Mai 2026. ↩
-
Anthropic, “Define outcomes”. Abgerufen am 7. Mai 2026. ↩
-
Anthropic Engineering, “Effective harnesses for long-running agents”, 26. November 2025. ↩