Agenten-Ausführungsspuren sind der Vertrag zur Laufzeit

Drei neue Agenten-Paper kommen aus unterschiedlichen Richtungen zur selben Aussage: Die finale Antwort ist die schwächste Einheit, der man vertrauen kann. SHEPHERD macht aus der Agentenausführung eine typisierte, verzweigbare Ausführungsspur. Das Paper zum KI-Arbeitsablaufspeicher argumentiert, dass wiederkehrende Agentenarbeit als sauber entwickelte, wiederverwendbare Arbeitsabläufe laufen sollte, statt als improvisierte Pläne. WildClawBench bewertet Agenten in nativen Kommandozeilen-Ausführungsumgebungen mit echten Tools, Prüfungen von Seiteneffekten und Verlaufskontrollen, nicht nur anhand finaler Antworten.¹²³

Agentenzuverlässigkeit liegt heute in der Ausführungsspur, im Arbeitsablaufartefakt und in der Bewertung der Ausführungsumgebung. Ein Chatprotokoll kann erklären, was der Agent angeblich getan hat. Eine Ausführungsspur kann zeigen, was er berührt hat. Ein Arbeitsablauf kann einschränken, was er beim nächsten Mal tun darf. Ein Benchmark in der nativen Ausführungsumgebung kann messen, ob Modell, Tools, Zustand und Kontrollschleife zusammen funktioniert haben.

Ich habe bereits argumentiert, dass verwaltete Agenten Laufzeitinfrastruktur übernehmen. Außerdem habe ich dargelegt, dass die Bereinigungsschicht der eigentliche Markt für KI-Agenten ist. Dieser Beitrag ist enger gefasst: Der Vertrag unter beiden Argumenten ist das Ausführungsprotokoll des Agenten. Wenn Sie die Ausführungsspur nicht prüfen, verzweigen, erneut abspielen, wiederverwenden und bewerten können, haben Sie noch kein Agentensystem, dem Sie im großen Maßstab vertrauen können.

Die angrenzenden Bausteine behandeln die Steuerungsfläche, die Nachweisschwelle und die Fähigkeitsschleife: Chat ist die falsche Schnittstelle für KI-Agenten, Die Nachweisschwelle und Statische Fähigkeiten sind tote Fähigkeiten. Der Ausführungsspur-Vertrag liegt unter allen drei.

TL;DR

Agentensysteme entfernen sich weiter von der Bewertung finaler Antworten. SHEPHERD zeichnet jede Interaktion zwischen Agent und Umgebung als typisiertes Ereignis in einer Git-ähnlichen Ausführungsspur auf, in der frühere Zustände verzweigt und erneut abgespielt werden können.¹ Das Paper zum KI-Arbeitsablaufspeicher schlägt wiederverwendbare, gehärtete Arbeitsabläufe vor, die gute Gestaltung, Tests, gegnerische Prüfung und gestaffelte Einführung über viele Benutzer amortisieren, statt diese Kosten bei jedem Prompt neu zu zahlen.² WildClawBench zeigt, warum die Ausführungsumgebung zählt: Die 60 langfristigen Aufgaben laufen in echten CLI-Agentenausführungsumgebungen mit echten Tools, dauern im Schnitt ungefähr 8 Minuten, umfassen mehr als 20 Tool-Aufrufe und nutzen eine hybride Bewertung, die Artefakte und Seiteneffekte in der Umgebung prüft.³

Die praktische Verschiebung lautet: Fragen Sie nicht nur, ob die Antwort stimmt. Fragen Sie, ob die Ausführungsspur prüfbar ist, ob der Arbeitsablauf wiederverwendbar ist und ob die Bewertung in der Ausführungsumgebung stattfand, in der der Agent tatsächlich arbeitet.

Wichtigste Erkenntnisse

Für Agentenentwickler: - Behandeln Sie die Ausführungsspur als Produktvertrag. Protokollieren Sie Tool-Aufrufe, Argumente, Endzustände, Dateiänderungen, Seiteneffekte und Entscheidungspunkte in einer Struktur, die ein anderer Prozess prüfen kann. - Überführen Sie wiederkehrende Aufgaben mit hohem Risiko in geprüfte Arbeitsabläufe. Improvisation gehört in die Erkundung; wiederholte Arbeit verdient ein wiederverwendbares Artefakt mit Tests und Einschränkungen.

Für Bewertungsteams: - Bewerten Sie Modell plus Ausführungsumgebung, nicht das Modell isoliert. WildClawBench berichtet, dass allein der Wechsel der CLI-Ausführungsumgebung ein einzelnes Modell um bis zu 18 Punkte verschieben kann.³ - Halten Sie deterministische Prüfungen von semantischer Beurteilung getrennt. Dateivorhandensein, Formatgültigkeit, Sauberkeit des Arbeitsbereichs und Seiteneffekte von Diensten sollten keinen LLM-Bewerter erfordern.³

Für Betreiber: - Kaufen Sie keine „Agentenzuverlässigkeit“, wenn der Anbieter die Ausführungsspur nicht zeigen kann. Ein Transkript, ein Diff oder ein Erfolgssatz reicht nicht aus. - Halten Sie lokale Urteilsregeln nah am Produkt. Verwaltete Ausführungsspuren können zeigen, was passiert ist; sie können nicht entscheiden, was ausgeliefert werden sollte.

Warum ist die finale Antwort zu schwach?

Finale Antworten komprimieren die falschen Informationen.

Ein Agent kann melden, dass Tests bestanden wurden, ohne Tests auszuführen. Er kann eine Migration beschreiben, ohne die nachgelagerten Aufrufer gelesen zu haben. Er kann das richtige Endartefakt über einen Tool-Pfad erzeugen, der Daten berührt hat, die der Benutzer nie offenlegen wollte. Die Antwort kann sauber wirken, während der Weg durch die Ausführungsumgebung unsicher, verschwenderisch oder nicht reproduzierbar bleibt.

Das ist das Kernargument in Belohnen Sie das Tool vor der Antwort: Die Antwort lässt sich nicht bewerten, wenn die Tool-Nachweise dahinter fehlen. Die aktuelle Forschung verschiebt dieselbe Idee unter den Abschlussbericht. Die Ausführungsspur selbst wird zum Objekt, das andere Agenten, Bewerter und Betreiber prüfen müssen.

WildClawBench benennt die Benchmark-Seite dieses Problems. Die Autoren argumentieren, dass viele Agenten-Benchmarks weiterhin auf synthetische Sandboxes, kurze Aufgaben, simulierte APIs und Prüfungen finaler Antworten setzen. Ihr Benchmark lässt dagegen echte CLI-Agenten in Docker-Containern laufen und bewertet erzeugte Artefakte, Umgebungszustand und semantische Kriterien, nachdem der Agent beendet wurde.³ Der Unterschied zählt, weil langfristige Arbeit durch Seiteneffekte und Laufzeitentscheidungen scheitert, nicht nur durch falschen Text.

Was bringt SHEPHERD?

SHEPHERD behandelt eine Agentenausführung als eigenständiges Objekt, auf dem ein anderer Agent arbeiten kann.¹

Das Paper definiert Meta-Agenten als Agenten höherer Ordnung, die andere Agenten überwachen, optimieren oder trainieren. Diese Meta-Agenten brauchen mehr als ein Transkript. Sie müssen die Ausführung während des Laufs lesen, vor riskanten Schritten verzweigen, von früheren Zuständen erneut abspielen und Zweige vergleichen können, ohne den Elternlauf zu verunreinigen.

SHEPHERD liefert dafür die Grundlage. Die Ausführungsumgebung zeichnet jede Interaktion zwischen Agent und Umgebung als typisiertes Ereignis in einer Git-ähnlichen Ausführungsspur auf. Jede Aktion wird Teil eines Commit-Graphen. Ein Meta-Agent kann den typisierten Ereignisstrom abonnieren, einen früheren Commit auschecken, einen Bereich verzweigen, den angehängten Ausführungsteil erneut abspielen und den gewünschten Zweig zusammenführen.¹

Die Ausführungsspur trägt ein semantisches Versprechen, das normale Chatlogs nicht tragen:

Eigenschaft	Warum sie wichtig ist
Typisierte Ereignisse	Aufsichtssysteme können über Operationen nachdenken, statt Prosa zu parsen.
Exakter Rücksprung	Ein fehlgeschlagener Pfad kann zu einem bekannten früheren Zustand zurückkehren.
Isolierte Verzweigung	Alternative Zweige können keine Änderungen in den Elternlauf durchsickern lassen.
Erneutes Abspielen	Ein Bewerter kann nur den betroffenen Ausführungsteil erneut ausführen, statt von vorn zu beginnen.
Cache-Wiederverwendung	Verzweigungen werden günstig genug, um sie während echter Agentenarbeit einzusetzen.

Die berichteten Zahlen machen die Grundlage konkret. SHEPHERD verzweigt Agentenprozess und Dateisystem im Benchmark der Autoren schneller als Docker und berichtet beim erneuten Abspielen eine Prompt-Cache-Wiederverwendung von über 95 %. In ihren Beispielen erhöht eine Live-Aufsicht die gemeinsame CooperBench-Bestehensrate von 28,8 % auf 54,7 %, und ein Tree-RL-Setup steigert die TerminalBench-2-Leistung in der berichteten Konfiguration von 34,2 % auf 39,4 %.¹

Diese Zahlen sollten Sie nicht als universelle Produktionsgarantie überdeuten. Wichtig ist die Form: Überwachung, Optimierung und Training verbessern sich, wenn die Ausführungsumgebung einem anderen Prozess strukturierten Zugriff auf die Ausführung gibt, nicht nur ein Endergebnis.

Was bringt der KI-Arbeitsablaufspeicher?

Das Paper zum KI-Arbeitsablaufspeicher greift dasselbe Zuverlässigkeitsproblem von der Wiederverwendungsseite an.²

Die Autoren argumentieren, dass die übliche Agentenschleife ein Modell auffordert, innerhalb von Sekunden oder Minuten einen Plan zu erzeugen und auszuführen. Dieses Tempo umgeht die Prozesse, die konventionelle Software erträglich gemacht haben: Anforderungsarbeit, Design, Tests, gegnerische Bewertung, gestaffelte Bereitstellung, Monitoring und Feedback. Das Paper bezeichnet viele spontane Agentenausführungen eher als improvisierte Prototypen denn als produktionsreife Systeme.²

Die vorgeschlagene Antwort lautet nicht: „Lassen Sie das Modell länger nachdenken.“ Die Antwort ist ein gemeinsamer Speicher gehärteter, wiederverwendbarer Arbeitsabläufe. Ein Agent sollte eine Benutzeranfrage einem geprüften Arbeitsablauf zuordnen, wenn es einen gibt, ihn für die Details des Benutzers parametrisieren und diesen begrenzten Arbeitsablauf ausführen, statt jedes Mal eine neue Tool-Kette zu erfinden.²

Das schärft die Debatte über Fähigkeiten. Eine Fähigkeitsdatei, die nur sagt „So erledigen Sie X“, lässt immer noch zu viel Improvisation in der Ausführungsumgebung. Ein Arbeitsablaufspeicher verlangt ein stärkeres Artefakt:

Schwaches Artefakt	Stärkeres Artefakt
Prompt-Muster	Parametrisierter Arbeitsablauf
Behelfslösung eines einzelnen Benutzers	Wiederverwendbare Fähigkeit
Tool-Plan nach bestem Bemühen	Getestete Sequenz mit Einschränkungen
Sicherheitsanweisung	Deterministische Grenze
Kosten pro Prompt	Amortisierter Entwicklungsaufwand

Die zentrale ökonomische Aussage des Papers ist praktisch: Sorgfältige Entwicklung kann mehr Zeit und Rechenleistung kosten als ein spontaner Lauf, also müssen sich diese Kosten über Benutzer und wiederkehrende Anfragen amortisieren.² Das passt dazu, wie ernsthafte Agentenarbeit ohnehin wirkt. Beim ersten Mal erkunden Sie einen Arbeitsablauf mit hohem Risiko. Beim zweiten und dritten Mal sollten Sie aufhören, alles wieder von Grund auf zu erkunden.

Was bringt WildClawBench?

WildClawBench liefert die Bewertungsversion des Vertrags.³

Der Benchmark enthält 60 von Menschen verfasste Aufgaben aus sechs Kategorien. Er umfasst zweisprachige und multimodale Arbeit. Jede Aufgabe läuft in einem reproduzierbaren Docker-Container, der eine echte CLI-Ausführungsumgebung wie OpenClaw, Claude Code, Codex oder Hermes Agent hostet. Die Aufgaben verwenden echte Tools statt APIs mit simulierten Diensten, und die Autoren berichten einen Durchschnitt von ungefähr 8 Minuten und mehr als 20 Tool-Aufrufen pro Lauf.³

Das Bewertungsdesign ist wichtiger als die Rangliste. WildClawBench kombiniert deterministische Artefaktprüfungen, Umgebungszustandsprüfungen von Seiteneffekten und einen LLM/VLM-Bewerter nur dort, wo semantische Verifikation einen benötigt. Der Benchmark hält reine Bewertungsassets zurück, bis der Agent beendet wurde; so kann der Agent den Lösungsschlüssel während der Ausführung nicht sehen.³

Das Hauptergebnis: Die beste berichtete Konfiguration erreicht insgesamt 62,2 %, alle anderen Modelle bleiben im OpenClaw-Lauf unter 60 %, und ein Wechsel der Ausführungsumgebung kann die Punktzahl eines Modells um bis zu 18 Punkte verschieben.³ Daraus folgt die Schlussfolgerung des Papers: Die Ausführungsumgebung ist Teil des bewerteten Systems. Das Modell allein ist nicht das Produkt.

Dieses Ergebnis sollte Teams bei Agenten-Benchmarks vorsichtiger machen. Eine hohe Punktzahl in einem kurzen, synthetischen Benchmark für finale Antworten beantwortet nicht die Frage, die Betreiber am meisten interessiert: Kann der Agent eine lange Aufgabe in der tatsächlichen Ausführungsumgebung, mit den tatsächlichen Tools, erledigen und die Umgebung dabei im vorgesehenen Zustand hinterlassen?

Was ist der Vertrag?

Setzt man die drei Paper zusammen, wird der Vertrag klar.

Schicht	Artefakt	Die Frage, die sie beantwortet
Ausführung	Typisierte Ausführungsspur	Was hat der Agent in welcher Reihenfolge und mit welchen Seiteneffekten getan?
Wiederverwendung	Arbeitsablaufartefakt	Läuft wiederholte Arbeit über einen geprüften Pfad oder über frische Improvisation?
Bewertung	Benchmark in nativer Ausführungsumgebung	Erledigen Modell plus Ausführungsumgebung realistische Arbeit unter echten Tool-Beschränkungen?
Urteil	Produktstandard	Verdient das verifizierte Ergebnis die Auslieferung?

Jede Schicht verhindert eine andere Lüge.

Die Ausführungsspur verhindert, dass der Agent einen fehlenden Tool-Aufruf in eine plausible Antwort verwandelt. Der Arbeitsablauf verhindert, dass eine wiederkehrende Aufgabe ewig so tut, als bräuchte sie frische Improvisation. Der Benchmark in der nativen Ausführungsumgebung verhindert, dass eine Modellpunktzahl so tut, als sei die Ausführungsumgebung egal. Der Produktstandard verhindert, dass ein verifiziertes Artefakt so tut, als sei es würdig, nur weil es Prüfungen bestanden hat.

Diese letzte Schicht bleibt wichtig. Eine Ausführungsspur kann beweisen, was passiert ist. Ein Arbeitsablauf kann einschränken, was passiert. Ein Benchmark kann Aufgabenerfüllung messen. Keine dieser Schichten kann entscheiden, ob das Ergebnis den Benutzer, das Produkt oder den Standard hinter der Arbeit respektiert. Diese Entscheidung bleibt beim Team.

Was sollten Betreiber jetzt ändern?

Beginnen Sie mit vollständigen Ausführungsspuren.

Wenn die Ausführungsumgebung keinen strukturierten Datensatz von Tool-Aufrufen, Argumenten, Exit-Codes, Dateiänderungen, gestarteten Agenten und ausgegebenen Artefakten erzeugen kann, beheben Sie das, bevor Sie mehr Autonomie hinzufügen. Eine schwache Ausführungsspur macht jede nachgelagerte Aussage teuer zu verifizieren.

Trennen Sie danach die Bewertung der Ausführungsspur von der Bewertung der Antwort. Ein Abschlussbericht, der behauptet, Tests seien bestanden, sollte zuerst beweisen, dass der Testbefehl ausgeführt wurde und erfolgreich beendet wurde. Ein Bericht, der eine geänderte Datei nennt, sollte beweisen, dass die Datei gelesen oder geschrieben wurde. Ein Bericht, der eine externe Aktion zusammenfasst, sollte beweisen, dass die Seiteneffekte der Aktion dem erwarteten Zustand entsprechen. Erst wenn die Ausführungsspur die Aussage stützt, sollte die Antwort qualitativ beurteilt werden.

Identifizieren Sie als Nächstes wiederkehrende Arbeitsabläufe. Jeder wiederkehrende Agentenjob sollte eine Beförderungsfrage mitbringen: Verdient der nächste Lauf ein wiederverwendbares Arbeitsablaufartefakt? Quellenscans, Leitfadenaktualisierungen, Übersetzungsreleases, Abhängigkeitsaktualisierungen, Vorfalltriage und Inhaltsveröffentlichung werden alle besser, wenn die Ausführungsumgebung aufhört, die Sequenz jedes Mal neu zu erfinden.

Bewerten Sie schließlich in der Ausführungsumgebung, die Sie ausliefern. Simulierte Tools und synthetische Aufgaben können in der Entwicklung weiterhin helfen, sollten aber nicht die Release-Entscheidung tragen. Die Release-Entscheidung braucht dieselben Tool-Grenzen, denselben Dateisystemzustand, dieselben Zeitbudgets und dieselben Seiteneffektprüfungen, denen der echte Agent begegnen wird.

Kurzfassung

Die Agenten-Ausführungsspur wird zum Zuverlässigkeitsvertrag. SHEPHERD zeigt, wie Meta-Agenten Ausführungen überwachen und verzweigen können, wenn die Ausführungsumgebung typisierte, erneut abspielbare Ausführungsspuren offenlegt. Das Paper zum KI-Arbeitsablaufspeicher argumentiert, dass wiederkehrende Arbeit von spontaner Improvisation in wiederverwendbare, entwickelte Arbeitsabläufe wandern sollte. WildClawBench zeigt, dass native Ausführungsumgebung, Tools, Seiteneffekte und Verlaufsprüfungen die gemessene Leistung deutlich verändern. Finale Antworten bleiben wichtig, aber sie stehen am Ende des Vertrags, nicht in seinem Zentrum.

FAQ

Ist eine Ausführungsspur dasselbe wie Beobachtbarkeit?

Nein. Beobachtbarkeit sagt Betreibern, was passiert ist. Eine Ausführungsspur in Vertragsqualität muss außerdem strukturiert genug sein, damit ein anderer Prozess sie prüfen, verzweigen, erneut abspielen und bewerten kann. Logs helfen Menschen beim Debugging. Typisierte Ausführungsspuren lassen Aufsichtssysteme, Bewerter und Arbeitsablaufentwickler direkt auf der Ausführung arbeiten.

Macht SHEPHERD Agenten automatisch sicher?

Nein. SHEPHERD liefert eine Grundlage für Beobachtung, Verzweigung, erneutes Abspielen und Eingriffe durch Meta-Agenten. Eine schlechte Aufsicht kann weiterhin schlechte Entscheidungen treffen. Der Gewinn besteht darin, dass sie auf einem strukturierten Ausführungsobjekt handeln kann, statt ein Chattranskript zu parsen.

Bedeutet der KI-Arbeitsablaufspeicher, dass Agenten nie improvisieren sollten?

Nein. Agenten brauchen weiterhin Erkundung, wenn kein geprüfter Arbeitsablauf existiert oder die Aufgabe wirklich neu ist. Entscheidend ist die Beförderung. Sobald eine Aufgabe wiederkehrt und echte Bedeutung hat, sollte das System den erfolgreichen Pfad in einen wiederverwendbaren Arbeitsablauf mit Einschränkungen, Tests und Wartung überführen.

Beweist WildClawBench, welche Agentenausführungsumgebung die beste ist?

Nein. WildClawBench zeigt, dass die Wahl der Ausführungsumgebung die gemessene Leistung unter seinem Aufgabenset und Versuchsaufbau deutlich verändert. Betrachten Sie das als Nachweis, dass die Ausführungsumgebung in die Bewertung gehört, nicht als dauerhafte Produktrangliste.

Was sollte ein Team zuerst bauen?

Bauen Sie zuerst die Ausführungsspur. Ergänzen Sie danach Schwellen, die unbelegte Aussagen ablehnen. Überführen Sie anschließend wiederkehrende Arbeit in Arbeitsabläufe. Aufwendige Orchestrierung ohne vertrauenswürdige Ausführungsspur macht Fehler nur schwerer rekonstruierbar.

Referenzen

Simon Yu, Derek Chong, Ananjan Nandi, Dilara Soylu, Jiuding Sun, Christopher D. Manning, and Weiyan Shi, “SHEPHERD: A Runtime Substrate Empowering Meta-Agents with a Formalized Execution Trace,” arXiv:2605.10913v1, 11. Mai 2026. Primärquelle für SHEPHERDs typisierte Git-ähnliche Ausführungsspur, Verzweigungs- und Replay-Semantik, Lean-mechanisierte Kernoperationen, Messungen zu Verzweigung und Prompt-Cache-Wiederverwendung, CooperBench-Ergebnis und TerminalBench-2-Ergebnis. ↩↩↩↩↩
Roxana Geambasu, Mariana Raykova, Pierre Tholoniat, Trishita Tiwari, Lillian Tsai, and Wen Zhang, “Engineering Robustness into Personal Agents with the AI Workflow Store,” arXiv:2605.10907v1, 11. Mai 2026. Primärquelle für die Kritik an der spontanen Agentenschleife, den vorgeschlagenen KI-Arbeitsablaufspeicher, die Rahmung gehärteter wiederverwendbarer Arbeitsabläufe, Anforderungen aus dem Software-Engineering-Lebenszyklus und das Argument amortisierter Wiederverwendung. ↩↩↩↩↩↩
Shuangrui Ding et al., “WildClawBench: A Benchmark for Real-World, Long-Horizon Agent Evaluation,” arXiv:2605.10912v1, 11. Mai 2026. Primärquelle für den 60-Aufgaben-Benchmark in nativer Ausführungsumgebung, die zweisprachige und multimodale Aufgabenmischung, echte CLI-Ausführungsumgebungen, Durchschnittswerte von ungefähr 8 Minuten und mehr als 20 Tool-Aufrufen, das hybride Bewertungsdesign, die höchste berichtete Punktzahl von 62,2 % und Punktzahlverschiebungen durch die Wahl der Ausführungsumgebung. ↩↩↩↩↩↩↩↩↩