AI-Agent-Skills brauchen Verhaltensaudits, keine Erfolgsquoten
AI-Agent-Skills wirken leicht zu bewerten, bis sich eine Erfolgsquote kaum bewegt.
Die kontrafaktische Ablaufspurenprüfung meldete in einer Benchmark-Konfiguration einen durchschnittlichen Aufgabenerfolgsgewinn von +0,3 Prozentpunkten durch Skills. Dieselbe Prüfung fand dennoch 522 konkrete Arten, wie diese Skills das Agentenverhalten über 49 Aufgaben hinweg veränderten.1 Ein Erfolgsquoten-Dashboard würde das fast als nichts verbuchen. Ein Ablaufspuren-Audit sieht die tatsächliche Verschiebung.
AI-Agent-Skills brauchen Verhaltensaudits, keine Erfolgsquoten. Ein Skill kann verändern, welches Tool ein Agent auswählt, welchen Pfad er liest, welche Belege er überspringt, welches Risiko er ignoriert und welche Nebenwirkung er erzeugt, während das finale Aufgabenergebnis unverändert aussieht.
Kurzfassung
AI-Agent-Skills sollten nicht allein über Erfolgsquoten Vertrauen erhalten. Eine Erfolgsquote sagt Teams, ob die finale Aufgabe unter einem Benchmark-Prüfer bestanden wurde. Ein Verhaltensaudit fragt, ob der Skill die Handlungen des Agenten so verändert hat, wie das Team es beabsichtigt hat.
Aktuelle Forschung macht diese Lücke schwer zu ignorieren. Die kontrafaktische Ablaufspurenprüfung vergleicht Agenten-Ablaufspuren mit und ohne Skill und macht skillbedingte Muster sichtbar, die gewöhnliche Erfolgsmetriken übersehen.1 Behavioral Integrity Verification vergleicht, was ein Skill zu tun behauptet, mit dem, was er tatsächlich tut, und berichtet in einem großen Skill-Korpus verbreitete Abweichungen zwischen Beschreibung und Verhalten.2 SkillsBench zeigt, dass kuratierte Skills die Agentenleistung verbessern können, zeigt aber auch, dass selbst erzeugte Skills im Durchschnitt nicht helfen und manche Aufgaben mit Skills schlechter werden.3
Die praktische Regel lautet: Installieren Sie keinen Skill, nur weil ein Benchmark gestiegen ist. Installieren Sie ihn erst, wenn die Ablaufspur zeigt, dass das Verhalten dazugehört.
Zentrale Erkenntnisse
Für Teams, die Agenten-Skills einsetzen: - Behandeln Sie jeden Skill als verhaltensändernden Code, selbst wenn die Datei nur Markdown enthält. - Prüfen Sie Ablaufspurenänderungen, Nebenwirkungen und Fehlermodi, bevor Sie den Skill projektübergreifend teilen.
Für Skill-Autoren: - Deklarieren Sie erwartetes Verhalten, erlaubte Tools, verbotene Aktionen und Belegpflichten. - Testen Sie den Skill mit gepaarten Ablaufspuren, nicht nur über finale Aufgabenergebnisse.
Für Sicherheitsprüfer: - Vergleichen Sie deklarierte Fähigkeiten mit beobachteten Fähigkeiten. - Markieren Sie versteckte Ausweitung, externen Zugriff, destruktive Aktionen und Richtlinienumgehungen als Skill-Defekte.
Für Evaluationsteams: - Berichten Sie Erfolgsquote, Verhaltensdelta, Nebenwirkungsdelta und Prüfaufwand getrennt. - Eine flache Erfolgsquote kann weiterhin eine gefährliche Verhaltensänderung verdecken.
Warum übersehen Erfolgsquoten Skill-Risiken?
Erfolgsquoten komprimieren das falsche Objekt.
Ein Skill verändert den Agenten, bevor die Aufgabe beginnt. Er kann Fachverfahren, Tool-Präferenzen, Formatierungsregeln, Prüfschritte, Formulierungen von Sicherheit oder Wiederherstellungsverhalten hinzufügen. Der Benchmark-Prüfer sieht meist nur das finale Artefakt: korrekt oder falsch.
Dadurch entsteht ein blinder Fleck:
| Skill-Effekt | Was die Erfolgsquote sieht | Was das Verhaltensaudit sieht |
|---|---|---|
| Bessere Tool-Reihenfolge | Vielleicht Erfolg | Welcher Aufruf früher kam und warum. |
| Zusätzliche Dateizugriffe | Vielleicht Erfolg | Welche Dateien in den Kontext gelangten. |
| Aggressiveres Patchen | Vielleicht Erfolg | Diff-Größe, Zuständigkeit und Rollback-Risiko. |
| Übersprungene Verifikation | Vielleicht Erfolg | Fehlende Belege vor Abschluss. |
| Versteckter externer Zugriff | Vielleicht Erfolg | Ausweitung von Netzwerk- oder MCP-Grenzen. |
| Geringerer Prüfaufwand | Vielleicht Erfolg | Kleinere Ablaufspur, klarerer Nachweis, weniger ungeklärte Behauptungen. |
Die finale Antwort kann richtig aussehen, während der Skill den Lauf weniger vertrauenswürdig macht. Auch das Gegenteil ist möglich: Ein Skill kann ein fehlgeschlagenes Ergebnis erzeugen und zugleich ein besseres Such- oder Wiederherstellungsmuster lehren, das repariert statt gelöscht werden sollte.
Die Erfolgsquote gehört in das Audit. Sie kann nicht das Audit sein.
Was ergänzt die kontrafaktische Ablaufspurenprüfung?
Die kontrafaktische Ablaufspurenprüfung vergleicht zwei Läufe: einen mit Skill und einen ohne Skill.1
Der Kern des Papers überzeugt gerade deshalb, weil der berichtete Erfolgsquotengewinn in der WebArena-Konfiguration winzig bleibt. Der durchschnittliche Aufgabenerfolg steigt bei Nutzung von Skills nur um +0,3 Prozentpunkte.1 Dennoch identifizieren die Autoren 522 skillbedingte Verhaltensmuster über 49 Aufgaben hinweg, darunter Änderungen bei Validierungsschritten, Formularinteraktion, Fehlerbehebung, Seitennavigation und Fehlgebrauchsmustern.1
Diese Trennung ist der Punkt.
Der Skill beeinflusste das Verhalten, obwohl sich der aggregierte Aufgabenerfolg kaum bewegte.
CTA richtet Ablaufspuren an Phasen aus und identifiziert skillbedingte Muster. Das Audit fragt nicht nur, ob eine Aufgabe bestanden wurde. Es fragt, wo der Skill den Verlauf verändert hat, ob die Änderung half oder schadete und welche Skill-Anweisung dafür verantwortlich zu sein scheint.1
Damit erhalten Teams ein besseres Prüfobjekt:
| Audit-Frage | Warum sie zählt |
|---|---|
| Welcher Schritt hat sich geändert? | Verknüpft Verhalten mit einer Stelle in der Ablaufspur. |
| Welche Anweisung verursachte die Änderung? | Verknüpft Verhalten mit Skill-Text. |
| Hat die Änderung geholfen, geschadet oder nur Kosten verschoben? | Verhindert Erfolgsquoten-Theater. |
| Hat die Änderung Nebenwirkungen erzeugt? | Fängt Risiko ab, das hinter Erfolg verborgen ist. |
| Verallgemeinert sich die Änderung über Aufgaben hinweg? | Trennt einen glücklichen Lauf von einem Skill, der bleiben sollte. |
Teams brauchen dieses Objekt, bevor sie einen Skill vom lokalen Experiment in einen gemeinsamen Prozess überführen.
Was ergänzt Behavioral Integrity Verification?
Behavioral Integrity Verification stellt eine andere Frage: Tut ein Skill das, was seine Beschreibung sagt?2
Das BIV-Paper untersucht große Skill-Repositories und berichtet, dass mehr als 80 % der analysierten Skills irgendeine Form von Abweichung zwischen Beschreibung und Verhalten zeigten.2 Die Autoren klassifizieren die meisten Abweichungen als nachlässigkeitsbedingt statt gegnerisch, finden aber dennoch gegnerische Fälle und mehrstufige Risikomuster.2
Das ist wichtig, weil Beschreibungen die Aktivierung steuern.
In Agentensystemen entscheidet eine Skill-Beschreibung oft, ob der Skill in den Kontext gelangt. Sie sagt, wann der Agent ihn laden soll. Wenn die Beschreibung Fähigkeiten untertreibt, Nebenwirkungen verbirgt oder Tool-Zugriff nicht erwähnt, treffen Agent und Benutzer beide eine schlechte Routing-Entscheidung, bevor irgendeine aufgabenspezifische Überlegung beginnt.
BIV zeigt auf eine fehlende Manifest-Ebene für Skills:
| Deklarierte Oberfläche | Was das Verhaltensaudit prüfen sollte |
|---|---|
| Aktivierungsbedingung | Läuft der Skill nur für die angegebene Aufgabenklasse? |
| Fähigkeit | Bleibt beobachtetes Verhalten innerhalb der Behauptung? |
| Tool-Nutzung | Welche Tools, Befehle, MCP-Server oder Dateien verursacht der Skill? |
| Nebenwirkungen | Liest, schreibt, löscht, sendet, bezahlt, veröffentlicht oder deployt der Skill? |
| Externer Zugriff | Erzeugt der Skill Netzwerk-, Browser- oder Drittanbieterbewegung? |
| Sicherheitsbehauptung | Fügt der Skill die versprochene Prüfung tatsächlich hinzu? |
| Ablehnungsgrenze | Bewahrt der Skill blockierte Aktionen? |
Die gefährliche Version ist ein bösartiger Skill, der lügt. Die gewöhnliche Version ist ein schlampiger Skill, der vergisst, die Wahrheit zu sagen.
Beide brauchen ein Audit.
Was ergänzt SkillsBench?
SkillsBench zeigt, warum Teams nicht überkorrigieren und Skills pauschal für wertlos erklären sollten.
Der Benchmark bewertet Agenten-Skills über 86 Aufgaben und 7.308 Trajektorien hinweg.3 Das Paper berichtet, dass kuratierte Skills die durchschnittliche Erfolgsquote gegenüber einer Baseline ohne Skills um 16,2 Prozentpunkte verbessern, während selbst erzeugte Skills im Durchschnitt keinen Nutzen bringen.3 Außerdem werden bei manchen Aufgaben negative Deltas berichtet: Ein Skill kann bestimmte Arbeit also verschlechtern.3
Das ergibt das ausgewogene Bild.
Skills können helfen. Skill-Qualität zählt. Aufgabenpassung zählt. Quelle zählt. Evaluationsmethode zählt.
Die Lehre für die Einführung lautet nicht „Skills vermeiden“. Sie lautet: „Skills wie Fähigkeitspakete prüfen.“
Ein nützlicher Skill sollte Folgendes beantworten:
| Frage | Erforderliche Antwort |
|---|---|
| Welche Arbeit verbessert der Skill? | Konkrete Aufgabenklasse und Leser/Benutzer. |
| Welches Verhalten soll sich ändern? | Tool-Auswahl, Belegprüfung, Format, Review oder Wiederherstellungsmuster. |
| Welches Verhalten darf sich nicht ändern? | Verbotene Tools, Pfade, Nebenwirkungen und Autoritätsgrenzen. |
| Welche Belege zeigen, dass der Skill geholfen hat? | Ablaufspur-Delta, Erfolgsquote, Prüfaufwand und Nebenwirkungsprofil. |
| Wie kann das Team ihn entfernen? | Version, Verantwortlicher, Rollback und Ersatzpfad. |
Der Skill verdient erst dann Beförderung, wenn das beobachtete Verhalten zu diesen Antworten passt.
Wie sieht ein Verhaltensaudit aus?
Ein Verhaltensaudit vergleicht erwartetes Skill-Verhalten mit beobachtetem Agentenverhalten.
Das Mindestaudit hat vier Durchgänge.
| Audit-Durchgang | Belege |
|---|---|
| Deklarationsaudit | Skill-Beschreibung, Aktivierungsbedingung, Fähigkeiten, Tools und verbotene Aktionen. |
| Kontrafaktisches Ablaufspuren-Audit | Gepaarte Läufe mit und ohne Skill auf demselben Aufgabensatz. |
| Nebenwirkungsaudit | Dateien, Befehle, Netzwerkaufrufe, externe Schreibvorgänge, Freigaben und Rollback-Status. |
| Fehleraudit | Fehlgeschlagene Läufe, Beinahefehler, wiederhergestellte Fehler und wiederholte Reparaturmuster. |
Das Ergebnis sollte weniger wie eine Bestenliste aussehen und mehr wie ein Prüfungspaket.
Erfassen Sie für jede Aufgabe:
- Aufgabenname und Risikospur.
- Skill-Version und Quelle.
- Baseline-Ablaufspur.
- Skill-Ablaufspur.
- Geänderte Schritte.
- Geänderte Tool-Aufrufe.
- Geänderte Nebenwirkungen.
- Gewonnene oder verlorene Belege.
- Finales Ergebnis.
- Prüferentscheidung: behalten, überarbeiten, eingrenzen, blockieren oder ausmustern.
Dieses Paket gibt einem menschlichen Prüfer eine Möglichkeit, ein Urteil zu treffen, das über einen einzelnen Benchmark-Lauf hinaus Bestand hat.
Wo passen Skill-Verträge hinein?
ContractSkill weist auf eine sauberere Form für Skills hin, die strengeres Verhalten brauchen.4
Das Paper argumentiert, dass Web-Agent-Skills in natürlicher Sprache mehrdeutig, brüchig und schwer zu debuggen sein können. Es schlägt vertragsbasierte Skills mit expliziten Aufgabendefinitionen, Vorbedingungen, Nachbedingungen und schrittweisen Verfahren vor, damit ein System Fehler lokalisieren und den betroffenen Teil reparieren kann, statt den ganzen Skill neu zu schreiben.4
Diese Vertragsform passt zu Verhaltensaudits.
| Freiform-Skill | Vertragsförmiger Skill |
|---|---|
| „Beim Veröffentlichen sorgfältig sein.“ | „Vor Veröffentlichung Quell-URLs, Routenrendering, Schema und Rollback prüfen.“ |
| „Seite prüfen.“ | „Route abrufen, Status 200 bestätigen, geänderten Marker bestätigen, kein Fallback-Text.“ |
| „Riskante Befehle vermeiden.“ | „Löschen, Force Push, externe POST-Anfragen und Schreibvorgänge außerhalb eigener Pfade blockieren.“ |
| „Natürlich übersetzen.“ | „URLs und Zitate erhalten; sichtbare Überschriften übersetzen; englische Rückstände prüfen.“ |
Vertragsförmige Skills reduzieren Mehrdeutigkeit. Außerdem machen sie Audits günstiger, weil erwartetes Verhalten in einer Struktur steht, die der Prüfer mit der Ablaufspur vergleichen kann.
Der Vertrag sollte nicht jeden Skill groß machen. Einfache Skills funktionieren weiterhin für risikoarme Schreibformate oder Checklistenaufgaben. Verträge zählen dort, wo ein Skill externe Systeme, öffentliche Inhalte, Daten, Geld, Sicherheitslage oder gemeinsames Projektverhalten verändern kann.
Wie reparieren Sie einen schlechten Skill?
Löschen Sie einen nützlichen Skill nicht, nur weil ein Lauf fehlgeschlagen ist. Finden Sie zuerst heraus, wo das Verhalten gebrochen ist.
AgentRx konzentriert sich darauf, Agentenfehler zu reparieren, indem kritische Fehlerschritte in Ausführungstrajektorien lokalisiert, Einschränkungen erzeugt und Reparaturen gegen ein prüfbares Protokoll validiert werden.5 Das Paper zielt allgemein auf Agentenverhalten statt speziell auf Skill-Dateien, aber die Reparaturform passt gut zu Skills: Fehlerschritt finden, Einschränkung ableiten, repariertes Verhalten testen und Belege bewahren.
Skill-Reparatur sollte derselben Reihenfolge folgen:
| Fehler | Reparatur |
|---|---|
| Skill aktiviert sich zu breit | Beschreibung und Trigger-Beispiele eingrenzen. |
| Skill verändert die falsche Tool-Auswahl | Tool-Auswahlregeln und Gegenbeispiele ergänzen. |
| Skill überspringt Verifikation | Stoppbedingung vor Abschluss hinzufügen. |
| Skill erzeugt zu viel Diff | Zuständigkeiten und Grenzen für geänderte Pfade ergänzen. |
| Skill verursacht Netzwerkbewegung | Egress-Regeln und Freigabeanforderungen ergänzen. |
| Skill verbessert eine Aufgabe, schadet aber einer anderen | Skill aufteilen oder auf die erfolgreiche Aufgabenklasse begrenzen. |
Reparatur sollte mit einem neuen Audit enden, nicht mit einer selbstsicheren Commit-Nachricht.
Wenn die Ablaufspur nach der Reparatur weiterhin falsches Verhalten zeigt, mustern Sie den Skill aus.
Der Mindeststandard
Bevor ein Team einen AI-Agent-Skill teilt, sollte ein Verhaltensaudit-Paket verpflichtend sein.
| Feld | Erforderliche Belege |
|---|---|
| Quelle | Repository, Autor, Version und Installationspfad. |
| Zweck | Die Aufgabenklasse, die der Skill zu verbessern behauptet. |
| Aktivierung | Die exakte Bedingung, die den Skill laden soll. |
| Erlaubtes Verhalten | Tools, Dateien, Ressourcen und Aktionen, die der Skill beeinflussen darf. |
| Verbotenes Verhalten | Tools, Pfade, Nebenwirkungen und Autorität, die der Skill nicht ausweiten darf. |
| Kontrafaktische Ablaufspuren | Dieselbe Aufgabe mit und ohne Skill. |
| Ergebnisdelta | Erfolgsquote, Fehlerquote, Prüfaufwand und Ausführungskosten. |
| Verhaltensdelta | Geänderte Schritte, Tool-Aufrufe, Nebenwirkungen und Belege. |
| Risikoentscheidung | Behalten, überarbeiten, eingrenzen, blockieren oder ausmustern. |
| Rollback | Wie das Team den Skill entfernt und zum vorherigen Verhalten zurückkehrt. |
Dieses Paket erzwingt die richtige Frage.
Die Frage lautet nicht: „Hat der Skill einmal geholfen?“ Die Frage lautet: „Verändert der Skill das Verhalten zuverlässig so, wie das Team es will?“
Der würdige Standard
Skills lassen Agenten schnell besser wirken. Dieses Tempo verführt Teams dazu, Prozessdateien, Befehle, Agenten, Hooks und Prompts anzusammeln, weil jedes einzelne Element billig erscheint.
Billiger Kontext verändert trotzdem Verhalten.
Ein würdiger Skill verdient seinen Platz, indem er den gesamten Arbeitsablauf verbessert. Er sollte den Prüfaufwand senken, Belege schärfen, Risiken verengen oder ein Verfahren lehren, das der Agent ohne ihn nicht zuverlässig ausführen konnte. Ein Skill, der den Agenten nur selbstsicherer klingen lässt, sollte verschwinden. Ein Skill, der die Erfolgsquote verbessert und zugleich versteckte Nebenwirkungen ausweitet, sollte im Review scheitern.
Der Standard sollte einfach bleiben:
- Deklarieren Sie, was der Skill ändern soll.
- Beweisen Sie, dass sich die Ablaufspur genau so geändert hat.
- Benennen Sie, was sich nicht ändern darf.
- Beweisen Sie, dass die Ablaufspur diese Grenze respektiert hat.
- Behalten Sie den Skill nur, wenn das Verhalten seine Existenz verdient.
AI-Agent-Skills sind keine magischen Notizen. Sie sind Verhaltens-Patches. Behandeln Sie sie wie Code.
Kurzzusammenfassung
AI-Agent-Skills brauchen Verhaltensaudits, weil Erfolgsquoten zu viel verbergen. Die kontrafaktische Ablaufspurenprüfung zeigt, dass Skills Hunderte Ablaufspurenmuster verändern können, während sich der aggregierte Erfolg kaum bewegt.1 Behavioral Integrity Verification zeigt, dass Skill-Beschreibungen oft von tatsächlichen Fähigkeiten abweichen.2 SkillsBench zeigt, dass kuratierte Skills helfen können, während selbst erzeugte Skills und Aufgabenfehlpassung scheitern oder schaden können.3
Die Arbeitsregel ist direkt: Bewerten Sie das Verhalten, nicht nur den Punktwert. Ein Skill verdient Vertrauen, wenn Deklaration, Ablaufspuren, Nebenwirkungen, Fehler, Reparaturen und Rollback-Pfad zusammenpassen.
FAQ
Was ist ein Verhaltensaudit für AI-Agent-Skills?
Ein Verhaltensaudit prüft, wie ein Skill den tatsächlichen Lauf eines Agenten verändert: Tool-Aufrufe, Dateizugriff, Nebenwirkungen, Verifikationsschritte, Wiederherstellungsverhalten und finales Ergebnis. Es vergleicht beobachtetes Verhalten mit dem erklärten Zweck und den Grenzen des Skills.
Warum reichen Erfolgsquoten für Skill-Evaluation nicht aus?
Erfolgsquoten zeigen, ob eine Aufgabe unter einem Prüfer bestanden wurde. Sie zeigen nicht, ob der Skill Tool-Zugriff ausgeweitet, Belege übersprungen, Nebenwirkungen erhöht oder Verhalten auf eine Weise verändert hat, die das Team nicht beabsichtigt hat.
Was ist kontrafaktische Ablaufspurenprüfung?
Kontrafaktische Ablaufspurenprüfung vergleicht Agenten-Trajektorien mit und ohne Skill, richtet Ablaufspurenphasen aus und identifiziert skillbedingte Verhaltensmuster. Sie hilft Teams, Verhaltensänderungen zu erkennen, die aggregierte Erfolgsmetriken übersehen können.1
Was ist Behavioral Integrity Verification?
Behavioral Integrity Verification vergleicht Skill-Beschreibungen mit tatsächlichem Skill-Verhalten. Es erkennt, wenn die angegebene Fähigkeit, Aktivierungsbedingung oder Sicherheitsbehauptung eines Skills nicht zum beobachteten Verhalten passt.2
Was sollte ein Team prüfen, bevor es einen Skill teilt?
Teams sollten Skill-Quelle, Aktivierungsbedingung, deklarierte Fähigkeiten, erlaubte und verbotene Aktionen, gepaarte Ablaufspuren, Nebenwirkungen, Fehlerfälle, Reparaturpfad und Rollback-Plan prüfen.
Quellen
-
Xuanyu Zhang, Yiding Liu, Chengsong Huang, Ensheng Shi, Weizhi Ma, Yifei Zhang, Qun Liu, Shumin Deng, Jiahang Shen, and Shiqi Wang, “Counterfactual Trace Auditing of LLM Agent Skills,” arXiv:2605.11946v1, eingereicht am 13. Mai 2026. Quelle für den Vergleich gepaarter Ablaufspuren, die Erkennung skillbedingter Muster, Phasenausrichtung, WebArena-Skill-Evaluation, den aggregierten Erfolgsquotengewinn von +0,3 Prozentpunkten und 522 Verhaltensmuster über 49 Aufgaben hinweg. ↩↩↩↩↩↩↩↩
-
Ning Liu, Meng Fang, Youtao Zhang, Dominik T. Matt, Stanislav Pletnev, Hongzhi Wang, and Erwin Schoitsch, “Behavioral Integrity Verification for Agentic AI Skills,” arXiv:2605.11770v1, eingereicht am 13. Mai 2026. Quelle für die Verifikation deklarierter gegenüber tatsächlichen Skill-Fähigkeiten, Skill-Analysen auf Repository-Ebene, Befunde zu Abweichungen zwischen Beschreibung und Verhalten, Kategorien nachlässigkeitsbedingter und gegnerischer Abweichungen sowie mehrstufige Risikomuster. ↩↩↩↩↩↩
-
Lingkai Kong, Xiangliang Zhang, and Jiamou Liu, “SkillsBench: Can LLMs Learn from Their Own and Other Agents’ Skills for Reliable Task Execution?,” arXiv:2602.12670v1, eingereicht am 17. Februar 2026. Quelle für die SkillsBench-Evaluation mit 86 Aufgaben und 7.308 Trajektorien, die Erfolgsquotenverbesserung durch kuratierte Skills, das Ergebnis zu selbst erzeugten Skills und negative Aufgabendeltas. ↩↩↩↩↩
-
Meiyi Ma, Fengan Xia, Canran Xu, Wenqi Li, Aranya Roy, Zhaopeng Tu, Ranveer Chandra, and Dongmei Zhang, “ContractSkill: Contract-based Skill Design for LLM-powered Web Agents,” arXiv:2603.20340v1, eingereicht am 25. März 2026. Quelle für vertragsbasierte Skill-Definitionen, Vorbedingungen, Nachbedingungen, Verfahren auf Schrittebene, deterministische Verifikation, Fehlerlokalisierung und minimale lokale Reparatur. ↩↩
-
Cunxiang Wang, Ruoxi Sun, Yidong Wang, Piji Li, and Yue Zhang, “AgentRx: Scalable Automated Failure Diagnosis and Repair for LLM Agents,” arXiv:2602.02475v1, eingereicht am 3. Februar 2026. Quelle für die Lokalisierung kritischer Fehlerschritte, Einschränkungserzeugung, Ablaufspurenvalidierung und prüfbare Reparaturprotokolle für LLM-Agentenfehler. ↩