Laufzeit-Verfassungen für KI-Agenten: Ein Governance-Framework

13 Min. Lesezeit

From the guide: Claude Code Comprehensive Guide

Laufzeit-Verfassungen setzen Governance-Einschränkungen während der Ausführung von KI-Agenten durch – nicht nur während des Trainings. Sie kombinieren normative Priors (Verhaltensgrenzen), konstitutionelle Aufmerksamkeit (kontextabhängiges Regel-Routing), Kompetenzmodulation (sichere Fähigkeitsaneignung mit Freigabe-Gates) und Wertausrichtungsverifikation (Output-Gates, die Belege verlangen, bevor Arbeit als abgeschlossen akzeptiert wird). Forschung über 7.308 Agenten-Trajektorien bestätigt, dass selbstgenerierte Skills unzuverlässig sind ohne diese strukturellen Sicherheitsmechanismen.

Das Learner-v2-System generierte an einem Dienstagnachmittag einen neuen Skill. Dieser automatisierte einen Blog-Publishing-Workflow: Frontmatter validieren, Zitate prüfen, auf Staging pushen. Sauberer, gut strukturierter Code. Der Skill überschrieb außerdem drei Qualitätsregeln aus quality-loop.md, weil der Pattern-Analyzer „immer das Evidence Gate durchlaufen” als redundant mit den eingebauten Prüfungen des Skills einstufte. Am Mittwochmorgen ging ein Blogbeitrag ohne Zitatverifizierung online. Der Skill hatte gelernt, Abkürzungen zu nehmen.

Die Behebung dauerte zwanzig Minuten. Die architektonische Frage beschäftigte uns wochenlang: Wie lässt man einen Agenten neue Fähigkeiten erlernen, ohne dass er die Einschränkungen verlernt, die ihn sicher halten?

TL;DR

Trainingszeit-Alignment (RLHF, Constitutional AI während des Trainings, Safety-Fine-Tuning) degradiert, wenn Agenten in offenen Umgebungen operieren. Sechs unabhängige Forschungsprojekte konvergieren auf Laufzeit-Governance: eingebettete Verfassungen, die Normen während der Ausführung durchsetzen – nicht nur beim Training. SkillsBench testete 7.308 Agenten-Trajektorien über 86 Aufgaben und stellte fest, dass selbstgenerierte Skills keinen durchschnittlichen Nutzen bringen – Agenten können das prozedurale Wissen, von dessen Nutzung sie profitieren, nicht zuverlässig selbst erstellen.¹ Die Selbstdestillationsforschung des MIT zeigt, dass Standard-Fine-Tuning katastrophales Vergessen verursacht, bei dem neue Fähigkeiten alte zerstören.² Die Lösungsarchitektur umfasst vier Komponenten: normative Priors, konstitutionelle Aufmerksamkeit, Kompetenzmodulation und Wertausrichtungsverifikation. Im Folgenden: die Theorie, die Praxis-Zuordnung (drei von vier Komponenten existierten bereits in meinem Claude Code-System, bevor ich die Forschung gelesen hatte) und ein Laufzeit-Verfassungstemplate, das Sie noch heute implementieren können.

Der Agent, der lernte, Abkürzungen zu nehmen

Der oben beschriebene Vorfall ereignete sich Anfang Februar 2026 während des Learner-v2-Umbaus. Der Pattern-Analyzer (pattern_analyzer.py) erkannte einen wiederkehrenden Workflow: Frontmatter validieren, Zitate verifizieren, SEO-Metadaten prüfen, dann auf Staging pushen. Der Skill-Generator (skill_generator.py) kompilierte den Workflow in einen wiederverwendbaren Skill mit Inline-Validierung.

Die Inline-Validierung deckte Frontmatter-Format und SEO-Felder ab. Zitatverifizierung dagegen nicht – diese lebt in einem separaten Skill (citation-verifier) mit einem eigenen sechsstufigen Autoritätssystem. Der generierte Skill markierte die Zitatprüfung als „erledigt”, weil der Pattern-Analyzer zitatbezogene Funktionsaufrufe im Workflow-Trace fand. Er verwechselte „Funktion wurde aufgerufen” mit „Einschränkungen der Funktion wurden bewahrt”.

Drei Dateien definierten Quellenautorität unterschiedlich:

Datei	Autoritätsdefinition
`citation-verifier/SKILL.md`	Sechsstufiges System: Primärquellen bis zu Vermeiden
`seo-blog-playbook/SKILL.md`	Binär: „autoritativ” oder „erfordert Verifizierung”
Generierter Blog-Publish-Skill	Übernahm die binäre Definition des SEO-Playbooks, nicht die sechs Stufen des Citation-Verifiers

Die vor dem Vorfall dokumentierte Konsolidierungsarchitektur³ identifizierte genau diesen Fehlermodus: Wenn mehrere Dateien überlappende Konzepte definieren, erben generierte Skills diejenige Definition, auf die der Pattern-Analyzer zuerst trifft. Die Lösung zentralisierte die Zitatautorität in einer einzigen kanonischen Quelle. Die Erkenntnis war weitreichender: Agenten, die neue Fähigkeiten erwerben, benötigen strukturelle Garantien, dass Lernen die Governance nicht überschreiben kann.

Warum Trainingszeit-Alignment zur Laufzeit versagt

Goel, Maji und Mazumder dokumentierten den Mechanismus: Sicherheitsverhalten verschlechtert sich sowohl unter gutartigem als auch unter adversarialem Fine-Tuning.⁴ Ihre Arbeit zur adaptiven Sicherheitsregularisierung bei arXiv:2602.17546 zeigte, dass Aktualisierungen mit höherem Risiko für die Modellgewichte nahe einer sicheren Referenzrichtlinie eingeschränkt werden können, während risikoärmere Aktualisierungen normal fortschreiten. Der Ansatz funktioniert zur Trainingszeit. Was passiert, wenn ein Agent zur Laufzeit auf neuartige Situationen trifft, die das Training nie vorhergesehen hat, adressiert er allerdings nicht.

Die Lücke zwischen Trainingszeit-Alignment und Laufzeitverhalten wächst mit der Autonomie. Ein Modell, das Fragen in einer Chat-Oberfläche beantwortet, operiert innerhalb enger Verhaltensgrenzen. Ein Agent, der Code schreibt, Skills generiert, Tests ausführt und in die Produktion deployt, operiert über eine wesentlich größere Angriffsfläche – insbesondere wenn Multi-Turn-Konversationen degradieren und der Agent den Zugang zu seinen eigenen Governance-Regeln verliert. Das Agent-Trust-Paradox verschärft dies zusätzlich: Je fähiger der Agent, desto schwieriger wird die Verifizierung, ob die Fähigkeiten innerhalb der Governance-Grenzen bleiben. Jede neue Fähigkeit erzeugt neue Fehlermodi, die Trainingszeit-Alignment nicht im Voraus aufzählen kann.

Shenfeld et al. am MIT quantifizierten einen spezifischen Fehlermodus: katastrophales Vergessen beim kontinuierlichen Lernen.² Standard Supervised Fine-Tuning (SFT) auf neuen Aufgaben führt zum Zusammenbruch der Leistung bei früheren Aufgaben. Bei 14B Parametern übertraf Self-Distillation Fine-Tuning (SDFT) Standard-SFT um 7 Punkte bei neuen Aufgaben, während es 64,5 % Genauigkeit bei früheren Aufgaben beibehielt – wo Standard-SFT einbricht. Der Nachteil: SDFT erfordert etwa die vierfache Rechenleistung und 2,5-mal so viele FLOPs.

Für Praktikerinnen und Praktiker ist die Implikation unmittelbar: Jedes Mal, wenn Ihr Agent etwas Neues lernt (einen generierten Skill, einen gecachten Workflow, eine aktualisierte Anweisung), riskiert das Lernen, etwas zu degradieren, das der Agent bereits beherrschte. Mein Quality-Loop-Override war ein Beispiel für katastrophales Vergessen auf Systemebene. Der Agent „lernte” eine Publishing-Abkürzung, die seine Fähigkeit zur Zitatprüfung zerstörte.

Vier Subsysteme der Laufzeit-Governance

Forschung zur Laufzeit-Governance von Agenten konvergiert auf vier funktionale Anforderungen. Taghavi und Mitarbeiter, die an evolving interpretable constitutions arbeiteten, zeigten, dass LLM-evolvierte Governance-Prinzipien menschlich entworfene für Multi-Agenten-Koordination übertreffen.⁵ Ihre Arbeit, zusammen mit Mahadevans Governance-First-Paradigma für prinzipiengeleitetes Agent Engineering,⁶ rahmt das Problem als vier interagierende Subsysteme.

Ich ordnete diese vier Subsysteme meiner bestehenden Claude Code-Infrastruktur zu und entdeckte, dass drei von vier bereits gebaut waren – jedes löste ein Produktionsproblem, auf das ich Monate vor der Lektüre der Forschung gestoßen war.

Subsystem	Funktion	Theorie	Meine Implementierung
Normative Prior Engineering	Akzeptable Verhaltensgrenzen definieren	Konstitutionelle Regeln, die über Kontexte bestehen bleiben	`quality-loop.md`: 7 benannte Fehlermodi, Evidence Gate mit 6 Kriterien, obligatorischer Qualitätszyklus
Konstitutionelle Aufmerksamkeit	Governance-Regeln zum richtigen Kontext routen	Aufgabenadaptive Regelinjektion	`prompt-dispatcher.sh` + 84 Hooks: relevante Regeln pro Aufgabentyp injizieren, irrelevante ausschließen
Kompetenzmodulation	Fähigkeitsaneignung sicher verwalten	Kontrollierte Fähigkeitserweiterung	Learner v2: `pattern_analyzer.py` erkennt Workflows, `skill_generator.py` erstellt Skills mit Einschränkungen
Wertausrichtungsverifikation	Verifizieren, dass Ausgaben der Governance-Intention entsprechen	Laufzeit-Compliance-Prüfung	Evidence Gate + Pride Check: 6 obligatorische Kriterien, Erkennung von Abschwächungssprache, Fehlermodus-Scanning

Subsystem 1: Normative Prior Engineering

Der Qualitätszyklus in meinem Agentensystem definiert sieben benannte Fehlermodi: Shortcut Spiral, Confidence Mirage, Good-Enough Plateau, Tunnel Vision, Phantom Verification, Deferred Debt und Hollow Report.⁷ Jeder Fehlermodus hat eine Definition, ein Erkennungssignal und eine obligatorische Reaktion. Das sind keine Vorschläge, sondern strukturelle Einschränkungen: Erkennt der Agent, dass er einen Fehlermodus aufweist, muss er zum Evaluate-Schritt zurückkehren.

Die theoretische Parallele: Normative Priors etablieren die Verhaltensgrenzen, innerhalb derer ein Agent operiert. Trainingszeit-Alignment vermittelt dem Modell allgemeine Prinzipien („sei hilfreich, harmlos, ehrlich”). Normative Priors zur Laufzeit kodieren spezifische operationale Einschränkungen („niemals Zitatverifizierung überspringen”, „niemals abschwächende Sprache in einem Abschlussbericht verwenden”).

Der Unterschied ist bedeutsam, denn Trainingszeit-Prinzipien sind probabilistisch (das Modell befolgt sie mit höherer Wahrscheinlichkeit), während Laufzeit-Priors deterministisch sein können (der Hook blockiert die Aktion, wenn die Einschränkung verletzt wird). Dies ist dieselbe Unterscheidung, die im Evidence Gate untersucht wird: der Wechsel von „der Agent hat wahrscheinlich das Richtige getan” zu „der Agent hat bewiesen, dass er das Richtige getan hat”.

Subsystem 2: Konstitutionelle Aufmerksamkeit

Die siebenschichtige Kontextarchitektur implementiert konstitutionelle Aufmerksamkeit durch selektives Laden. Von 650 Dateien im Kontextsystem werden für eine gegebene Aufgabe weniger als 30 geladen. Der prompt-dispatcher.sh-Hook analysiert die aktuelle Aufgabe und injiziert relevante Governance-Regeln, während irrelevante ausgeschlossen werden.

Eine Webentwicklungsaufgabe lädt Sicherheitsregeln, API-Designregeln und FastAPI-Patterns. iOS-spezifische Regeln, Spieleentwicklungs-Patterns oder Content-Richtlinien für Meditations-Apps werden nicht geladen. Konstitutionelle Aufmerksamkeit bedeutet: Der Agent sieht die Governance-Regeln, die für diese Aufgabe gelten – nicht jede Regel, die existiert.

Das selektive Laden verhindert einen subtilen Fehlermodus: Regelverdünnung. Das Hooks-System ermöglicht dieses Routing, indem es den Aufgabentyp vor der Kontextinjektion analysiert. Wenn ein Agent 200 Regeln erhält, bekommt jede Regel proportional weniger Aufmerksamkeit als bei 20 Regeln. Konstitutionelle Aufmerksamkeit konzentriert den Governance-Fokus auf die Regeln, die für den aktuellen Kontext relevant sind.

Subsystem 3: Kompetenzmodulation

SkillsBench testete 7.308 Agenten-Trajektorien über 86 Aufgaben in 11 Domänen mit einem markanten Ergebnis: Kuratierte Skills verbesserten die durchschnittliche Bestehensrate um 16,2 Prozentpunkte, selbstgenerierte Skills brachten dagegen keinen durchschnittlichen Nutzen.¹ Agenten können das prozedurale Wissen, von dessen Nutzung sie profitieren, nicht zuverlässig selbst erstellen. Bei 16 von 84 Aufgaben zeigten sich negative Deltas, bei denen Skills die Leistung aktiv verschlechterten.

Das SkillsBench-Ergebnis validierte einen Schutzmechanismus, den ich nach dem Quality-Loop-Override-Vorfall in Learner v2 eingebaut hatte. Generierte Skills erfordern nun eine explizite Freigabe vor der Aktivierung und dürfen bestehende Governance-Dateien weder modifizieren noch überschreiben. Der Pattern-Analyzer kann Workflows beobachten und Skills vorschlagen, doch der Skill-Generator behandelt Governance-Dateien als unveränderlich.

Die MIT-Selbstdestillationsforschung ergänzt eine Perspektive auf Parameterebene: Bei kleineren Modellgrößen (3B Parameter) schaden Versuche des kontinuierlichen Lernens der Leistung sogar.² Erst ab 7B+ Parametern verfügt das Modell über genügend Kapazität, neue Fähigkeiten zu erwerben, ohne alte zu zerstören. Das Analogon auf Infrastrukturebene: Agenten mit kleineren Kontextfenstern oder einfacheren Regelsätzen sind anfälliger für Konflikte zwischen Fähigkeiten und Governance.

Subsystem 4: Wertausrichtungsverifikation

Das Evidence Gate verlangt spezifische Belege für sechs Kriterien, bevor Arbeit als abgeschlossen gemeldet werden darf: befolgt Codebase-Patterns (das Pattern benennen), einfachste funktionierende Lösung (verworfene Alternativen erklären), Grenzfälle behandelt (jeden einzelnen auflisten), Tests bestanden (Ausgabe einfügen), keine Regressionen (geprüfte Dateien benennen) und löst das eigentliche Problem (Bedürfnis des Benutzers formulieren).⁷

Das Gate fungiert als Laufzeitverifikation. Der Agent darf den Abschluss nicht mit abschwächender Sprache melden („sollte funktionieren”, „ich glaube”, „scheint zu”). Jede Behauptung erfordert in der aktuellen Sitzung gesammelte Belege. Das Gate fängt Phantom Verification (behaupten, Tests seien bestanden, ohne sie auszuführen) und Hollow Report (ohne Spezifika „fertig” melden) ab.

Das Vergessens-Problem: Wenn Lernen Wissen zerstört

Die Blog-Skills-Konsolidierungsgeschichte illustriert eine Version des katastrophalen Vergessens auf Systemebene. Zehn Blog-Skills mit insgesamt 5.400 Zeilen hatten drei Duplikationsbereiche angesammelt.³ JSON-LD-Schema-Templates erschienen sowohl in aio/SKILL.md als auch in seo-blog-playbook/SKILL.md. Definitionen der Zitatautorität unterschieden sich zwischen citation-verifier und seo-blog-playbook. Blog-Evaluierungsanleitung existierte sowohl im Haupt-Evaluator als auch in einer separaten Kategoriedefinitionsdatei.

Wenn das Learner-v2-System neue Skills aus beobachteten Workflows generierte, übernahm es Definitionen aus der zuerst angetroffenen Quelle. Das Ergebnis: Generierte Skills, die korrekt aussahen, aber die falschen Autoritätsdefinitionen trugen. Das sechsstufige Zitationssystem degradierte zu einer binären Prüfung. Schema-Templates divergierten zwischen manuell erstellten und automatisch generierten Skills.

Die Konsolidierungslösung war strukturell: Für jedes Konzept eine einzige kanonische Quelle bestimmen und alle anderen Referenzen darauf verweisen lassen. Zitatautorität lebt in citation-verifier/SKILL.md und nirgendwo sonst. JSON-LD-Templates leben in aio/SKILL.md und nirgendwo sonst. Dieses Pattern verhindert, dass zukünftige Skill-Generierung veraltete Definitionen erbt.

Die SDFT-Forschung des MIT bietet ein Trainingszeit-Analogon: Das eigene Vorwissen des Modells als Lehrsignal beim Erlernen neuer Fähigkeiten nutzen.² Standard-SFT ersetzt altes Wissen durch neues. Selbstdestillation verbindet alt und neu, indem Trainingsdaten aus den bestehenden Fähigkeiten des Modells generiert und dann auf der Mischung feinabgestimmt wird. Das Vorwissen überlebt, weil es im Trainingssignal präsent ist.

Das Äquivalent auf Infrastrukturebene: Beim Generieren eines neuen Skills die bestehenden Governance-Einschränkungen in den Generierungsprompt einbeziehen. Der generierte Skill erbt aktuelle Einschränkungen, weil diese Teil des Generierungskontexts sind – nicht ein separates System, das der Generator übersehen kann.

Aktive vs. passive Governance

Das RelianceScope-Framework von Jin et al. unterscheidet neun Muster der KI-Abhängigkeit basierend auf Kombinationen von aktivem und passivem Engagement.⁸ Obwohl ihre Forschung Studierende bei der Interaktion mit KI-Chatbots untersuchte, lässt sich die Unterscheidung aktiv/passiv direkt auf Agenten-Governance-Architekturen übertragen.

Passive Governance injiziert Regeln und hofft, dass der Agent sie befolgt. Die Regeln stehen in CLAUDE.md oder System-Prompts. Der Agent liest sie zu Sitzungsbeginn. Nichts verifiziert die Einhaltung. Die meisten Praktiker-Setups nutzen passive Governance: eine lange Anweisungsdatei, der der Agent im Verlauf der Sitzung mehr oder weniger Aufmerksamkeit schenkt. Wie der unsichtbare Agent zeigt, hinterlassen Agenten ohne aktive Governance keine Spur, ob sie ihren Anweisungen gefolgt sind.

Aktive Governance verifiziert die Einhaltung zur Laufzeit. Hooks prüfen Ausgaben gegen Einschränkungen, bevor sie ausgeführt werden. Gates blockieren Abschlussberichte ohne Belege. Monitore verfolgen Verhaltensdrift und melden Anomalien. Aktive Governance kostet mehr (Rechenleistung, Latenz, Komplexität), fängt aber Fehler ab, die passive Governance übersieht.

Governance-Typ	Mechanismus	Erkannter Fehlermodus	Nicht erkannter Fehlermodus
Passiv (Regeln in CLAUDE.md)	Agent liest Regeln zu Sitzungsbeginn	Offensichtliche Verstöße in der frühen Sitzung	Regelverdünnung, Drift in späteren Sitzungsphasen, Kompressionsverlust
Aktiv (Hooks + Gates)	Hooks verifizieren Einhaltung pro Aktion	Drift, Kompressionsverlust, Regelverstöße	Neuartige Situationen, die bestehende Hooks nicht abdecken
Hybrid (Regeln + Hooks + Lernen)	Regeln für Grenzen, Hooks für Verifikation, Lernen für Anpassung	Drift, Kompression, neuartige Situationen (durch Anpassung)	Adversariale Ausnutzung des Lernsystems

Die RelianceScope-Erkenntnis, dass aktives Hilfesuchen mit aktiver Antwortnutzung korreliert,⁸ legt ein Governance-Architekturprinzip nahe: Agenten, die ihre Governance-Einschränkungen aktiv abfragen (statt sie passiv zu empfangen), produzieren konformere Ausgaben. Mein Evidence Gate operiert nach diesem Prinzip: Statt passiv Regeln anzuwenden, muss der Agent aktiv die Einhaltung demonstrieren, indem er für jedes Kriterium Belege vorlegt.

Constitution Auditor: Fügen Sie Ihre CLAUDE.md oder Ihren System-Prompt ein, um Zeilen in vier Governance-Kategorien einzuordnen (Aktionsebene, metakognitiv, normativ, fähigkeitsbezogen). Das Tool generiert einen Governance-Score und Empfehlungen für Lücken basierend auf Kategorieabdeckung und -ausgewogenheit.

Ein Laufzeit-Verfassungstemplate

Drei Dateien bilden eine minimale Laufzeit-Verfassung. Passen Sie die Struktur an Ihr Agenten-Framework an.

Datei 1: constitution.md

Die normativen Priors. Was der Agent immer tun muss, niemals tun darf und wie er mit Mehrdeutigkeit umgeht.

# Agent Constitution v1

## Immutable Constraints
- Never modify files in governance/ directory
- Never skip verification steps, even if tests pass
- Never report completion without evidence for all criteria

## Behavioral Norms
- Prefer explicit over implicit (state assumptions)
- Prefer reversible over irreversible actions
- Prefer asking over guessing when requirements are ambiguous

## Failure Response
- On constraint violation: stop, log, escalate
- On ambiguity: ask, do not assume
- On capability conflict: governance wins over efficiency

Datei 2: capabilities.json

Das aktuelle Skill-Inventar mit Herkunftsverfolgung.

{
  "skills": [
    {
      "name": "blog-publish",
      "version": "2.1.0",
      "source": "generated",
      "approved": true,
      "governance_refs": ["citation-verifier", "quality-loop"],
      "created": "2026-02-10",
      "constraints": [
        "Must call citation-verifier before publish",
        "Must pass evidence gate before reporting complete"
      ]
    }
  ],
  "pending_approval": [],
  "deprecated": []
}

Datei 3: constraints-registry.json

Ordnet jede Einschränkung ihrer kanonischen Quelle zu und verhindert das Duplikationsproblem, das den Blog-Skills-Vorfall verursachte.

{
  "constraints": {
    "citation-authority": {
      "canonical_source": "skills/citation-verifier/SKILL.md",
      "type": "six-tier-hierarchy",
      "overridable": false
    },
    "quality-gate": {
      "canonical_source": "rules/quality-loop.md",
      "type": "evidence-gate",
      "overridable": false
    },
    "schema-templates": {
      "canonical_source": "skills/aio/SKILL.md",
      "type": "json-ld-templates",
      "overridable": false
    }
  }
}

Die drei Dateien interagieren: constitution.md definiert Verhaltensgrenzen, capabilities.json verfolgt, was der Agent mit Governance-Querverweisen tun kann, und constraints-registry.json stellt sicher, dass jede Einschränkung genau eine kanonische Quelle hat. Generierte Skills referenzieren die Registry, statt Einschränkungsdefinitionen zu kopieren. Ein funktionierendes Beispiel dieser Architektur in einer autonomen Entwicklungsschleife finden Sie unter Ralphs Agenten-Architektur. Und falls Sie davon ausgehen, dass Ihre Sandbox allein ausreichend Isolation bietet, lesen Sie zunächst warum Ihre Agenten-Sandbox nur ein Vorschlag ist.

Zentrale Erkenntnisse

Trainingszeit-Alignment degradiert zur Laufzeit. Safety-Fine-Tuning vermittelt allgemeine Prinzipien; Laufzeit-Governance erzwingt spezifische operationale Einschränkungen. Goel et al. zeigten, dass Sicherheitsverhalten sowohl unter gutartigem als auch unter adversarialem Fine-Tuning degradiert.⁴
Selbstgenerierte Skills sind unzuverlässig. SkillsBench fand keinen durchschnittlichen Nutzen von agentengenerierten Skills über 7.308 Trajektorien, wobei 16 von 84 Aufgaben negative Auswirkungen zeigten.¹ Generierte Skills benötigen Freigabe-Gates und Governance-Querverweise.
Katastrophales Vergessen operiert auf Systemebene. Neue Fähigkeiten können bestehende Einschränkungen überschreiben, selbst ohne Modellgewichte zu modifizieren. Der Blog-Skills-Konsolidierungsvorfall demonstrierte Vergessen auf Infrastrukturebene, bei dem ein generierter Skill die falschen Autoritätsdefinitionen erbte.
Vier Subsysteme bilden die Laufzeit-Governance. Normative Priors definieren Grenzen. Konstitutionelle Aufmerksamkeit routet Regeln zum Kontext. Kompetenzmodulation verwaltet Lernen sicher. Wertausrichtungsverifikation bestätigt Compliance zur Laufzeit.
Aktive Governance übertrifft passive Governance. Regeln in CLAUDE.md sind notwendig, aber unzureichend. Hooks, die Einhaltung pro Aktion verifizieren, fangen Drift, Kompressionsverlust und Degradierung in späteren Sitzungsphasen ab, die passive Regeln übersehen.

FAQ

Was ist eine Laufzeit-Verfassung für KI-Agenten?

Eine Laufzeit-Verfassung ist ein Satz von Governance-Dateien, die Verhaltenseinschränkungen während der Agentenausführung durchsetzen – nicht nur während des Modelltrainings. Eine minimale Verfassung umfasst drei Komponenten: normative Priors (was der Agent tun muss und nicht tun darf), eine Fähigkeiten-Registry (was der Agent mit Governance-Querverweisen tun kann) und eine Einschränkungs-Registry (eine einzige kanonische Quelle für jede operationale Einschränkung). Laufzeit-Verfassungen schließen die Lücke zwischen Trainingszeit-Alignment und Produktionsverhalten, indem sie Governance deterministisch statt probabilistisch gestalten.

Warum können KI-Agenten ihre eigenen Skills nicht zuverlässig generieren?

SkillsBench testete 7.308 Agenten-Trajektorien über 86 Aufgaben in 11 Domänen und stellte fest, dass selbstgenerierte Skills keinen durchschnittlichen Nutzen bringen. Kuratierte Skills verbesserten die Leistung um 16,2 Prozentpunkte, agentengenerierte Skills zeigten dagegen null durchschnittliche Verbesserung. Bei 16 von 84 Aufgaben verschlechterten selbstgenerierte Skills die Leistung aktiv. Agenten können prozedurales Wissen effektiv nutzen und anwenden, es jedoch nicht zuverlässig selbst erstellen. Generierte Skills erfordern menschliche Überprüfung, Freigabe-Gates und explizite Governance-Querverweise vor der Aktivierung.

Was ist katastrophales Vergessen in KI-Agentensystemen?

Katastrophales Vergessen auf Systemebene tritt auf, wenn neue Agentenfähigkeiten bestehende Einschränkungen überschreiben, ohne Modellgewichte zu modifizieren. Standard-Fine-Tuning auf neuen Aufgaben führt zum Zusammenbruch der Leistung bei früheren Aufgaben; MIT-Forschung zeigte, dass Standard-SFT-Genauigkeit bei vorherigen Aufgaben stark degradiert, während Self-Distillation Fine-Tuning 64,5 % beibehält. Auf Infrastrukturebene tritt dieselbe Dynamik auf, wenn generierte Skills, gecachte Workflows oder aktualisierte Anweisungen mit bestehenden Governance-Regeln in Konflikt geraten. Die Lösung ist strukturell: kanonische Quellen für jede Einschränkung bestimmen und Governance-Dateien unveränderlich für automatisierte Modifikation machen.

Wie implementiert man aktive Governance für Coding-Agenten?

Aktive Governance nutzt Hooks, Gates und Monitore, um die Einhaltung zur Laufzeit zu verifizieren, statt sich darauf zu verlassen, dass der Agent Regeln aus seinen Anweisungen selbst durchsetzt. Hooks werden vor oder nach Tool-Aufrufen ausgeführt, um Einschränkungen zu prüfen. Gates blockieren Abschlussberichte ohne Belege für obligatorische Kriterien. Monitore verfolgen Verhaltensmetriken über die Zeit und melden Drift. Ein praktischer Ausgangspunkt: Implementieren Sie ein Evidence Gate, das spezifische Nachweise für jedes Qualitätskriterium verlangt, bevor Arbeit als abgeschlossen akzeptiert wird. Das Gate fängt die häufigsten Fehlermodi (Phantom Verification, Hollow Reporting) mit minimalem Implementierungsaufwand ab.

Wie unterscheiden sich Laufzeit-Verfassungen von Sandbox-basierter Agentensicherheit?

Sandboxes beschränken, wo ein Agent operieren kann (Dateisystemgrenzen, Netzwerkzugang, Ressourcenlimits). Laufzeit-Verfassungen beschränken, wie ein Agent innerhalb dieser Grenzen operiert (Verhaltensnormen, Kompetenzprüfungen, Output-Gates). Beides ist notwendig. Eine Sandbox verhindert, dass ein Agent Produktionsdatenbanken löscht, kann aber nicht verhindern, dass ein Agent Code ausliefert, der Zitatverifizierung überspringt oder Qualitätseinschränkungen überschreibt. Laufzeit-Verfassungen füllen diese Lücke, indem sie Governance-Regeln einbetten, die parallel zur Entscheidungsfindung des Agenten ausgeführt werden und die Einhaltung bei jedem Schritt verifizieren, statt sich allein auf Perimeter-Containment zu verlassen.

Referenzen

Li, Xiangyi, et al., “SkillsBench: Benchmarking How Well Agent Skills Work Across Diverse Tasks,” arXiv:2602.12670, February 2026. arxiv.org. 86 tasks, 11 domains, 7,308 agent trajectories. Curated skills +16.2pp average; self-generated skills 0pp average. ↩↩↩
Shenfeld, Idan, et al., “Self-Distillation Enables Continual Learning,” arXiv:2601.19897, January 2026. arxiv.org. MIT Improbable AI Lab and ETH Zurich. SDFT outperforms SFT by +7 points at 14B parameters while maintaining 64.5% on prior tasks. ↩↩↩↩
Author’s decision document: “Blog Skills Pre-Consolidation Architecture (S3.2 Baseline),” February 2026. 10 blog skills, 5,400 lines, three duplication areas identified. ↩↩
Goel, Jyotin, Souvik Maji, and Pratik Mazumder, “Learning to Stay Safe: Adaptive Regularization Against Safety Degradation during Fine-Tuning,” arXiv:2602.17546, February 2026. arxiv.org. Adaptive regularization constrains higher-risk weight updates near a safe reference policy. ↩↩
Taghavi, et al., “Evolving Interpretable Constitutions for Multi-Agent Coordination,” arXiv:2602.00755, February 2026. arxiv.org. LLM-evolved constitutions outperform human-designed principles for multi-agent coordination. ↩
Mahadevan, “From Craft to Constitution: A Governance-First Paradigm for Principled Agent Engineering,” arXiv:2510.13857, October 2025. arxiv.org. Introduces “Creed Constitutions” as modular runtime compliance enforcers. ↩
Author’s quality-loop.md and Jiro craftsmanship system. Seven named failure modes, evidence gate with six mandatory criteria. Documented in The Shokunin Approach. ↩↩
Jin, Hyoungwook, et al., “RelianceScope: An Analytical Framework for Examining Students’ Reliance on Generative AI Chatbots in Problem Solving,” arXiv:2602.16251, February 2026. arxiv.org. Nine reliance patterns based on active vs. passive engagement. Applied here to agent governance architectures. ↩↩
Author’s context-is-architecture system. Seven-layer hierarchy across 650 files documented in Context Engineering Is Architecture. ↩
Author’s Learner v2 system. Pattern analyzer and skill generator documented in Compounding Engineering. ↩