agent:~/.claude$ cat agent-architecture.md

Agentenarchitektur: Entwicklung KI-gestützter Entwicklungsumgebungen

# Das vollständige System für den Aufbau produktionsreifer KI-Agenten-Harnesses. Skills, Hooks, Memory, Subagents, Multi-Agent-Orchestrierung und die Muster, die KI-Coding-Agenten zu verlässlicher Infrastruktur machen.

words: 19010 read_time: 96m updated: 2026-06-20 18:00
$ less agent-architecture.md

TL;DR: Claude Code ist keine Chatbox mit Dateizugriff. Es ist eine programmierbare Runtime mit 29 dokumentierten Lifecycle-Events, die jeweils mit Shell-Skripten per Hook angebunden werden können und die das Modell nicht überspringen kann. Stapeln Sie hooks zu dispatchers, dispatchers zu skills, skills zu agents, agents zu workflows, und Sie erhalten ein autonomes Entwicklungsharness, das Constraints durchsetzt, Arbeit delegiert, memory sitzungsübergreifend persistiert und Multi-Agent-Deliberation orchestriert. Claude Code v2.1.147 hat das standardmäßig deaktivierte Workflow tool (CLAUDE_CODE_WORKFLOWS=1) hinzugefügt und deterministische Multi-Agent-Orchestrierung damit von reinen Userland-Skripten in Richtung eines First-Party-Runtime-Primitives verschoben; v2.1.149 bestätigt dieselbe Lehre von der Sicherheitsseite mit Fixes für PowerShell Permission-Bypasses und einem Fix für die git-worktree sandbox allowlist. Hooks und evidence gates bleiben für Korrektheit zuständig.5253 Dieser Leitfaden behandelt jede Ebene dieses Stacks: von einem einzelnen hook bis zu einem Konsenssystem mit 10 agents. Keine frameworks erforderlich. Nur bash und JSON.

Andrej Karpathy hat einen Begriff für das geprägt, was um einen LLM agent herum entsteht: claws. Die hooks, scripts und orchestration, mit denen der agent die Welt außerhalb seines context window greifen kann.1 Die meisten Entwickler behandeln AI coding agents als interaktive Assistenten. Sie tippen einen Prompt, sehen zu, wie eine Datei bearbeitet wird, und machen weiter. Dieses Framing begrenzt die Produktivität auf das, was Sie persönlich überwachen können.

Das Infrastruktur-Mentalmodell ist anders: Ein AI coding agent ist eine programmierbare Runtime mit einem LLM kernel. Jede Aktion des Modells läuft durch hooks, die Sie kontrollieren. Sie definieren Policies, keine Prompts. Das Modell arbeitet innerhalb Ihrer Infrastruktur so, wie ein Webserver innerhalb von nginx-Regeln arbeitet. Sie sitzen nicht vor nginx und tippen Requests ein. Sie konfigurieren es, deployen es und überwachen es.

Der Unterschied ist wichtig, weil Infrastruktur kumuliert. Ein hook, der Zugangsdaten in bash-Befehlen blockiert, schützt jede Session, jeden agent, jeden autonomen Lauf. Ein skill, der Ihre Bewertungsrubrik kodifiziert, greift konsistent, egal ob Sie ihn aufrufen oder ein agent. Ein agent, der Code auf Sicherheit prüft, führt dieselben Checks aus, ob Sie zusehen oder nicht.2


Zentrale Erkenntnisse

  • Hooks garantieren Ausführung; Prompts nicht. Verwenden Sie hooks für Linting, Formatierung, Sicherheitsprüfungen und alles, was jedes Mal unabhängig vom Modellverhalten laufen muss. Exit-Code 2 blockiert Aktionen. Exit-Code 1 warnt nur.3
  • Skills kodifizieren Fachwissen, das automatisch aktiviert wird. Das Feld description entscheidet alles. Claude verwendet LLM reasoning (kein Keyword-Matching), um zu entscheiden, wann ein skill angewendet wird.4
  • Subagents verhindern Kontextaufblähung. Isolierte context windows für Exploration und Analyse halten die Hauptsession schlank. Führen Sie unabhängige subagents parallel aus, und verwenden Sie agent teams, wenn workers dauerhafte Koordination benötigen.5
  • Memory liegt im Dateisystem. Dateien bleiben über context windows hinweg bestehen. CLAUDE.md, MEMORY.md, rules-Verzeichnisse und Handoff-Dokumente bilden ein strukturiertes externes memory-System.6
  • Multi-Agent-Deliberation findet blinde Flecken. Einzelne agents können ihre eigenen Annahmen nicht herausfordern. Zwei unabhängige agents mit unterschiedlichen Bewertungsschwerpunkten finden strukturelle Fehler, die quality gates nicht abdecken können.7
  • Das harness pattern ist das System. CLAUDE.md, hooks, skills, agents und memory sind keine unabhängigen Funktionen. Sie verbinden sich zu einer deterministischen Ebene zwischen Ihnen und dem Modell, die mit der Automatisierung skaliert.

So verwenden Sie diesen Leitfaden

Erfahrung Beginnen Sie hier Erkunden Sie danach
Sie nutzen Claude Code täglich und wollen mehr Das Harness Pattern Skills System, Hook-Architektur
Sie bauen autonome workflows Subagent Patterns Multi-Agent-Orchestrierung, Production Patterns
Sie bewerten agent architecture Warum Agent Architecture wichtig ist Decision Framework, Sicherheitsüberlegungen
Sie richten ein Team-harness ein CLAUDE.md Design Hook-Architektur, Quick Reference Card

Jeder Abschnitt baut auf dem vorherigen auf. Das Decision Framework am Ende bietet eine Lookup-Tabelle, mit der Sie den richtigen Mechanismus für jeden Problemtyp auswählen können.


Der Fünf-Minuten-Goldpfad

Vor dem tiefen Einstieg hier der kürzeste Weg von null zu einem funktionierenden Harness. Ein Hook, ein Skill, ein Subagent, ein Ergebnis.

Schritt 1: Einen Security-Hook erstellen (2 Minuten)

Erstellen Sie .claude/hooks/block-secrets.sh:

#!/bin/bash
INPUT=$(cat)
CMD=$(echo "$INPUT" | jq -r '.tool_input.command // empty')
if echo "$CMD" | grep -qEi '(AKIA|sk-|ghp_|password=)'; then
    echo "BLOCKED: Potential secret in command" >&2
    exit 2
fi

Verdrahten Sie ihn in .claude/settings.json:

{
  "hooks": {
    "PreToolUse": [
      {
        "matcher": "Bash",
        "hooks": [{ "type": "command", "command": ".claude/hooks/block-secrets.sh" }]
      }
    ]
  }
}

Ergebnis: Jeder Bash-Befehl, den Claude ausführt, wird nun auf durchgesickerte Anmeldeinformationen geprüft. Das Modell kann diese Prüfung nicht umgehen.

Schritt 2: Einen Code-Review-Skill erstellen (1 Minute)

Erstellen Sie .claude/skills/reviewer/SKILL.md mit Frontmatter (name: reviewer, description: Review code for security issues, bugs, and quality problems. Use when examining changes, reviewing PRs, or auditing code., allowed-tools: Read, Grep, Glob) und einer Checkliste: SQL-Injection, XSS, fest codierte Secrets, fehlende Fehlerbehandlung, Funktionen mit mehr als 50 Zeilen.

Ergebnis: Claude aktiviert diese Expertise automatisch, sobald Sie Review, Check oder Audit erwähnen.

Schritt 3: Einen Subagenten starten (30 Sekunden)

Bitten Sie Claude in einer beliebigen Claude Code-Sitzung, die letzten drei Commits mithilfe eines separaten Agenten auf Sicherheitsprobleme zu überprüfen. Claude startet einen Explore-Agenten, der das Diff liest, Ihren Review-Skill anwendet und eine Zusammenfassung zurückgibt. Ihr Hauptkontext bleibt sauber.

Was Sie jetzt haben

Ein dreischichtiges Harness: ein deterministisches Security-Gate (Hook), Domänenexpertise, die sich automatisch aktiviert (Skill), und isolierte Analyse, die Ihren Kontext schützt (Subagent). Jeder folgende Abschnitt vertieft eine dieser drei Schichten.


Warum Agentenarchitektur wichtig ist

Simon Willison bringt den aktuellen Moment auf eine einzige Beobachtung: Code zu schreiben ist jetzt billig.8 Stimmt. Die Folge ist jedoch, dass die Verifikation nun den teuren Teil ausmacht. Billiger Code ohne Verifikationsinfrastruktur produziert Bugs in großem Maßstab. Die Investition, die sich auszahlt, ist nicht ein besserer Prompt. Es ist das System um das Modell herum, das einfängt, was das Modell übersieht.

Drei Kräfte machen Agentenarchitektur notwendig:

Kontextfenster sind endlich und verlustbehaftet. Jeder Dateilesezugriff, jede Tool-Ausgabe und jede Gesprächsrunde verbraucht Tokens. Microsoft Research und Salesforce haben 15 LLMs in über 200.000 simulierten Konversationen getestet und fanden einen durchschnittlichen Leistungsabfall von 39 % vom Einzelturn zur Mehrfachturn-Interaktion.9 Die Verschlechterung beginnt bereits nach zwei Runden und folgt einer vorhersagbaren Kurve: Präzise Multi-Datei-Bearbeitungen in den ersten 30 Minuten verkommen bis zur 90. Minute zu Tunnelblick auf eine einzelne Datei. Längere Kontextfenster beheben das nicht. Die Bedingung „Concat” derselben Studie (vollständige Konversation als einzelner Prompt) erreichte 95,1 % der Einzelturn-Leistung bei identischem Inhalt. Die Verschlechterung stammt von den Turn-Grenzen, nicht von Token-Limits.

Modellverhalten ist probabilistisch, nicht deterministisch. Claude anzuweisen „Führe Prettier nach jedem Dateibearbeiten aus” funktioniert in etwa 80 % der Fälle.3 Das Modell könnte es vergessen, Geschwindigkeit priorisieren oder entscheiden, dass die Änderung „zu klein” ist. Für Compliance, Sicherheit und Team-Standards sind 80 % nicht akzeptabel. Hooks garantieren die Ausführung: jedes Edit oder Write löst Ihren Formatter aus, jedes Mal, ohne Ausnahmen. Deterministisch schlägt probabilistisch.

Einzelperspektiven übersehen mehrdimensionale Probleme. Ein einzelner Agent, der einen API-Endpoint überprüfte, kontrollierte Authentifizierung, validierte die Eingabesanitierung und verifizierte CORS-Header. Sauberer Gesundheitsbefund. Ein zweiter Agent, separat als Penetration Tester instruiert, entdeckte, dass der Endpoint unbegrenzte Query-Parameter akzeptierte, die einen Denial-of-Service durch Datenbankabfrage-Amplifikation auslösen konnten.7 Der erste Agent hatte nie geprüft, weil nichts in seinem Bewertungsrahmen Query-Komplexität als Sicherheitsfläche behandelte. Diese Lücke ist strukturell. Keine Menge an Prompt-Engineering behebt das.

Agentenarchitektur adressiert alle drei Punkte: Hooks erzwingen deterministische Einschränkungen, Subagenten verwalten die Kontextisolation, und Multi-Agent-Orchestrierung liefert unabhängige Perspektiven. Zusammen bilden sie das Harness.


Das Harness-Muster

Das Harness ist kein Framework. Es ist ein Muster: eine zusammensetzbare Sammlung von Dateien, Skripten und Konventionen, die einen AI-Coding-Agenten in deterministische Infrastruktur einbetten. Die Komponenten:

┌──────────────────────────────────────────────────────────────┐
│                      THE HARNESS PATTERN                      │
├──────────────────────────────────────────────────────────────┤
│  ORCHESTRATION                                                │
│  ┌────────────┐  ┌────────────┐  ┌────────────┐             │
│  │   Agent     │  │   Agent    │  │  Consensus │             │
│  │   Teams     │  │  Spawning  │  │  Validation│             │
│  └────────────┘  └────────────┘  └────────────┘             │
│  Multi-agent deliberation, parallel research, voting          │
├──────────────────────────────────────────────────────────────┤
│  EXTENSION LAYER                                              │
│  ┌──────────┐  ┌──────────┐  ┌──────────┐  ┌──────────┐    │
│  │  Skills   │  │  Hooks   │  │  Memory  │  │  Agents  │    │
│  └──────────┘  └──────────┘  └──────────┘  └──────────┘    │
│  Domain expertise, deterministic gates, persistent state,     │
│  specialized subagents                                        │
├──────────────────────────────────────────────────────────────┤
│  INSTRUCTION LAYER                                            │
│  ┌──────────────────────────────────────────────────────┐    │
│  │     CLAUDE.md  +  .claude/rules/  +  MEMORY.md       │    │
│  └──────────────────────────────────────────────────────┘    │
│  Project context, operational policy, cross-session memory    │
├──────────────────────────────────────────────────────────────┤
│  CORE LAYER                                                   │
│  ┌──────────────────────────────────────────────────────┐    │
│  │           Main Conversation Context (LLM)             │    │
│  └──────────────────────────────────────────────────────┘    │
│  Your primary interaction; finite context; costs money        │
└──────────────────────────────────────────────────────────────┘

Instruction Layer: CLAUDE.md-Dateien und Rules-Verzeichnisse definieren, was der Agent über Ihr Projekt weiß. Sie werden automatisch beim Sitzungsstart und nach jeder Verdichtung geladen. Dies ist das langfristige architektonische Gedächtnis des Agenten.

Extension Layer: Skills liefern Fachwissen, das sich kontextabhängig automatisch aktiviert. Hooks bieten deterministische Gates, die bei jedem passenden Tool-Aufruf ausgelöst werden. Memory-Dateien erhalten den Zustand über Sitzungen hinweg. Custom Agents stellen spezialisierte Subagent-Konfigurationen bereit.

Orchestration Layer: Multi-Agent-Muster koordinieren unabhängige Agenten für Recherche, Review und Deliberation. Spawn-Budgets verhindern unkontrollierte Rekursion. Konsens-Validierung sichert die Qualität.

Die zentrale Erkenntnis: Die meisten Benutzer arbeiten ausschließlich im Core Layer und sehen dabei zu, wie der Kontext aufbläht und die Kosten steigen. Power-User konfigurieren die Instruction- und Extension-Layer und nutzen den Core Layer dann nur noch für Orchestrierung und finale Entscheidungen.2

Verwaltete vs. selbst gehostete Harnesses (April 2026)

Während des frühen Jahres 2026 war der Weg „Bauen Sie Ihr eigenes Harness” die einzig realistische Option. Im April 2026 änderte sich das. Anthropic veröffentlichte Claude Managed Agents in einer öffentlichen Beta (8. April): Harness-Loop + Tool-Ausführung + Sandbox-Container + Zustandspersistenz als REST API, abgerechnet zu Standard-Tokens zuzüglich 0,08 $ pro Sitzungsstunde. Das Agents SDK-Update von OpenAI (16. April) formalisierte dieselbe Aufteilung — Harness und Compute als getrennte Schichten, mit nativen Sandbox-Anbietern (Blaxel, Cloudflare, Daytona, E2B, Modal, Runloop, Vercel) sowie Snapshot/Rehydrate, um Container-Verluste zu überstehen.2324

Die tiefere SDK-Oberfläche auf der OpenAI-Seite kam mit openai-agents Python v0.14.0 (veröffentlicht am 15. April 2026; angekündigt am 16. April): eine SandboxAgent-Unterklasse von Agent mit default_manifest, Sandbox-Anweisungen und Capabilities; ein Manifest, das den Vertrag für einen frischen Workspace beschreibt (Dateien, Verzeichnisse, lokale Dateien, Git-Repos, Env, Benutzer, Mounts); eine SandboxRunConfig für die Per-Run-Verdrahtung von Sandbox-Client, Live-Session-Injection, Manifest-Overrides, Snapshots und Materialisierungs-Concurrency-Limits. Die eingebauten Capabilities decken Shell-Zugriff, Filesystem-Editing, Image-Inspektion, Skills, Sandbox-Memory und Verdichtung ab. Sandbox-Memory bewahrt extrahierte Lessons über Runs hinweg und gibt sie progressiv frei; Workspaces unterstützen lokale Dateien, Git-Repo-Einträge und Remote-Mounts (S3, R2, GCS, Azure Blob, S3 Files); Snapshots sind anbieterübergreifend portierbar. Backends: UnixLocalSandboxClient, DockerSandboxClient sowie gehostete Clients für Blaxel, Cloudflare, Daytona, E2B, Modal, Runloop und Vercel über optionale Extras.24

Für Python-Projekte, die die Claude Code-Runtime als Bibliothek einbetten möchten — zwischen „Shell-Aufruf von claude” und „REST API zu Managed Agents” — ist claude-agent-sdk-python die dritte Option. Die Serie vom 28.–29. April (v0.1.69 → v0.1.71) hob das gebündelte CLI auf v2.1.123 an, setzte den Floor der mcp-Abhängigkeit auf >=1.19.0 (ältere Versionen verwarfen still CallToolResult-Rückgaben aus In-Process-MCP-Tools und ließen das Modell mit einem Validation-Error-Blob zurück) und brachte SandboxNetworkConfig zur Schema-Parität mit dem TypeScript-SDK (allowedDomains, deniedDomains, allowManagedDomainsOnly, allowMachLookup).30

Falls Ihr Harness eine Voice- oder Realtime-Schicht enthält, hat openai-agents-python v0.17.0 (8. Mai 2026) RealtimeAgent so aktualisiert, dass nun standardmäßig gpt-realtime-2 verwendet wird.41 Bestehende Realtime-Sessions übernehmen den neuen Default automatisch; pinnen Sie das vorherige Modell explizit, falls Sie das alte Verhalten zur Evaluation halten müssen.

Die architektonische Weggabelung ist nun real:

Dimension Selbst gehostetes Harness (Standard dieses Guides) Verwaltetes Harness (Claude Managed Agents / OpenAI Agents SDK)
Operativer Aufwand Sie betreiben alles Anbieter betreibt Loop, Sandbox, Zustand
Anpassbarkeit Vollständig — Ihre Hooks, Ihre Skills, Ihr Memory Begrenzt — vom Anbieter definierte Erweiterungspunkte
Kostenmodell Token + selbst gehostete Compute Token + Aufschlag pro Runtime-Stunde
Zustandsbeständigkeit Sie entwerfen sie Anbieter setzt Checkpoints über Disconnects hinweg
Agent-Team-Orchestrierung Selbst bauen Vom Anbieter bereitgestellte Multi-Agent-Koordination

Wann was wählen: Selbst gehostet bleibt richtig für Teams, die bereits Infrastruktur-Muskeln aufgebaut haben, Skills/Hooks unter eigener Kontrolle wollen oder einen spezifischen Workflow tief optimieren. Managed ist richtig für Teams ohne dedizierte Plattform-Engineers, wenn Time-to-Value wichtiger ist als Customization, oder wenn Agent-Runs Laptop-Schließungen zuverlässig überstehen müssen, ohne dass Sie diese Persistenzschicht selbst bauen. Die beiden sind kompatibel — Sie können ein selbst gehostetes Harness betreiben, das spezifische langlaufende Aufgaben über dessen REST API an Managed Agents delegiert.

Wie das Harness auf der Festplatte aussieht

~/.claude/
├── CLAUDE.md                    # Personal global instructions
├── settings.json                # User-level hooks and permissions
├── skills/                      # Personal skills (44+)
   ├── code-reviewer/SKILL.md
   ├── security-auditor/SKILL.md
   └── api-designer/SKILL.md
├── agents/                      # Custom subagent definitions
   ├── security-reviewer.md
   └── code-explorer.md
├── rules/                       # Categorized rule files
   ├── security.md
   ├── testing.md
   └── git-workflow.md
├── hooks/                       # Hook scripts
   ├── validate-bash.sh
   ├── auto-format.sh
   └── recursion-guard.sh
├── configs/                     # JSON configuration
   ├── recursion-limits.json
   └── deliberation-config.json
├── state/                       # Runtime state
   ├── recursion-depth.json
   └── agent-lineage.json
├── handoffs/                    # Session handoff documents
   └── deliberation-prd-7.md
└── projects/                    # Per-project memory
    └── {project}/memory/MEMORY.md

.claude/                         # Project-level (in repo)
├── CLAUDE.md                    # Project instructions
├── settings.json                # Project hooks
├── skills/                      # Team-shared skills
├── agents/                      # Team-shared agents
└── rules/                       # Project rules

Jede Datei in dieser Struktur erfüllt einen Zweck. Der ~/.claude/-Baum ist persönliche Infrastruktur, die für alle Projekte gilt. Der .claude/-Baum in jedem Repository ist projektspezifisch und wird via Git geteilt. Zusammen bilden sie das vollständige Harness.

Skills-System

Skills sind vom Modell aufgerufene Erweiterungen. Claude entdeckt und wendet sie automatisch anhand des Kontexts an, ohne dass Sie sie ausdrücklich aufrufen müssen.4 Sobald Sie merken, dass Sie denselben Kontext über mehrere Sitzungen hinweg erneut erklären, sollten Sie einen Skill erstellen.

Wann Sie einen Skill erstellen sollten

Situation Erstellen Sie… Warum
Sie fügen in jeder Sitzung dieselbe Checkliste ein Skill Domänenwissen, das sich automatisch aktiviert
Sie führen dieselbe Befehlsfolge ausdrücklich aus Slash command Vom Benutzer ausgelöste Aktion mit vorhersehbarem Trigger
Sie benötigen isolierte Analyse, die den Kontext nicht verschmutzen soll Subagent Separates Kontextfenster für fokussierte Arbeit
Sie benötigen einen einmaligen Prompt mit spezifischen Anweisungen Nichts Tippen Sie ihn einfach ein. Nicht alles braucht eine Abstraktion.

Skills sind für Wissen, das Claude immer verfügbar hat. Slash commands sind für Aktionen, die Sie ausdrücklich auslösen. Wenn Sie zwischen beiden entscheiden, fragen Sie: “Soll Claude dies automatisch anwenden, oder soll ich entscheiden, wann es ausgeführt wird?”

Einen Skill erstellen

Skills können an vier möglichen Orten liegen, vom breitesten bis zum engsten Scope:4

Scope Ort Gilt für
Enterprise Verwaltete Einstellungen Alle Benutzer in der Organisation
Persönlich ~/.claude/skills/<name>/SKILL.md Alle Ihre Projekte
Projekt .claude/skills/<name>/SKILL.md Nur dieses Projekt
Plugin <plugin>/skills/<name>/SKILL.md Dort, wo das Plugin aktiviert ist

Jeder Skill benötigt eine SKILL.md-Datei mit YAML-Frontmatter:

---
name: code-reviewer
description: Review code for security vulnerabilities, performance issues,
  and best practice violations. Use when examining code changes, reviewing
  PRs, analyzing code quality, or when asked to review, audit, or check code.
allowed-tools: Read, Grep, Glob
---

# Code Review Expertise

## Security Checks
When reviewing code, verify:

### Input Validation
- All user input sanitized before database operations
- Parameterized queries (no string interpolation in SQL)
- Output encoding for rendered HTML content

### Authentication
- Session tokens validated on every protected endpoint
- Permission checks before data mutations
- No hardcoded credentials or API keys in source

Frontmatter-Referenz

Feld Erforderlich Zweck
name Ja Eindeutiger Bezeichner (Kleinbuchstaben, Bindestriche, max. 64 Zeichen)
description Ja Discovery-Trigger (max. 1024 Zeichen). Claude nutzt dies, um zu entscheiden, wann der Skill angewendet wird
allowed-tools Nein Schränkt die Fähigkeiten von Claude ein (z. B. Read, Grep, Glob für read-only)
disable-model-invocation Nein Verhindert automatische Aktivierung; Skill aktiviert sich nur über /skill-name
user-invocable Nein Auf false setzen, um ihn vollständig aus dem /-Menü auszublenden
model Nein Überschreibt, welches Modell verwendet wird, wenn der Skill aktiv ist
context Nein Auf fork setzen, um in einem isolierten Kontextfenster zu laufen
agent Nein Als subagent mit eigenem isolierten Kontext ausführen
hooks Nein Definiert Lifecycle-hooks, die auf diesen Skill begrenzt sind
$ARGUMENTS Nein String-Ersetzung: wird durch die Benutzereingabe nach /skill-name ersetzt

Das Feld Description ist alles

Beim Sitzungsstart extrahiert Claude Code von jedem Skill name und description und fügt sie in den Kontext von Claude ein. Wenn Sie eine Nachricht senden, nutzt Claude Language-Model-Reasoning, um zu entscheiden, ob ein Skill relevant ist. Eine unabhängige Analyse des Claude Code-Quellcodes bestätigt den Mechanismus: Skill-Beschreibungen werden in einen available_skills-Abschnitt des System-Prompts eingefügt, und das Modell verwendet normales Sprachverständnis, um relevante Skills auszuwählen.10

Schlechte Beschreibung:

description: Helps with code

Wirksame Beschreibung:

description: Review code for security vulnerabilities, performance issues,
  and best practice violations. Use when examining code changes, reviewing
  PRs, analyzing code quality, or when asked to review, audit, or check code.

Die wirksame Beschreibung enthält: was der Skill tut (Code auf bestimmte Problemtypen prüfen), wann er zu verwenden ist (beim Untersuchen von Änderungen, PRs, Qualitätsanalysen) und Trigger-Phrasen (review, audit, check), die Benutzer natürlicherweise eingeben.

Kontextbudget

Alle Skill-Beschreibungen teilen sich ein Kontextbudget, das dynamisch mit 1 % des Kontextfensters skaliert, mit einem Fallback von 8.000 Zeichen.4 Wenn Sie viele Skills haben, halten Sie jede Beschreibung knapp und stellen Sie den wichtigsten Anwendungsfall an den Anfang. Sie können das Budget über die Umgebungsvariable SLASH_COMMAND_TOOL_CHAR_BUDGET überschreiben,11 aber die bessere Lösung sind kürzere, präzisere Beschreibungen. Führen Sie während einer Sitzung /context aus, um zu prüfen, ob Skills ausgeschlossen werden.

Unterstützende Dateien und Organisation

Skills können auf zusätzliche Dateien im selben Verzeichnis verweisen:

~/.claude/skills/code-reviewer/
├── SKILL.md                    # Required: frontmatter + core expertise
├── SECURITY_PATTERNS.md        # Referenced: detailed vulnerability patterns
└── PERFORMANCE_CHECKLIST.md    # Referenced: optimization guidelines

Verweisen Sie aus SKILL.md mit relativen Links darauf. Claude liest diese Dateien bei Bedarf, wenn der Skill aktiviert wird. Halten Sie SKILL.md unter 500 Zeilen und verschieben Sie detailliertes Referenzmaterial in unterstützende Dateien.12

Skills über Git teilen

Projekt-Skills (.claude/skills/ im Repo-Root) werden über Versionskontrolle geteilt:4

mkdir -p .claude/skills/domain-expert
# ... write SKILL.md ...
git add .claude/skills/
git commit -m "feat: add domain-expert skill for payment processing rules"
git push

Wenn Teammitglieder pullen, erhalten sie den Skill automatisch. Keine Installation, keine Konfiguration. Das ist der wirksamste Weg, Expertise in einem Team zu standardisieren.

Skills als Prompt-Bibliothek

Über einzelne Skills hinaus funktioniert die Verzeichnisstruktur als organisierte Prompt-Bibliothek:

~/.claude/skills/
├── code-reviewer/          # Activates on: review, audit, check
├── api-designer/           # Activates on: design API, endpoint, schema
├── sql-analyst/            # Activates on: query, database, migration
├── deploy-checker/         # Activates on: deploy, release, production
└── incident-responder/     # Activates on: error, failure, outage, debug

Jeder Skill kodiert eine andere Facette Ihrer Expertise. Zusammen bilden sie eine Wissensbasis, aus der Claude kontextabhängig automatisch schöpft. Ein Junior-Entwickler erhält Senior-Level-Anleitung, ohne danach fragen zu müssen.

Skills lassen sich mit Hooks kombinieren

Skills können ihre eigenen hooks in der Frontmatter definieren, die nur aktiv werden, während der Skill läuft. Dadurch entsteht domänenspezifisches Verhalten, das andere Sitzungen nicht verschmutzt:2

---
name: deploy-checker
description: Verify deployment readiness. Use when preparing to deploy,
  release, or push to production.
hooks:
  PreToolUse:
    - matcher: Bash
      hooks:
        - type: command
          command: "bash -c 'INPUT=$(cat); CMD=$(echo \"$INPUT\" | jq -r \".tool_input.command\"); if echo \"$CMD\" | grep -qE \"deploy|release|publish\"; then echo \"DEPLOYMENT COMMAND DETECTED. Running pre-flight checks.\" >&2; fi'"
---

Philosophy-Skills aktivieren sich automatisch über SessionStart-hooks und injizieren Qualitätsvorgaben in jede Sitzung, ohne ausdrücklichen Aufruf. Der Skill selbst ist Wissen. Der hook ist Durchsetzung. Zusammen bilden sie eine Policy-Schicht.

Häufige Skill-Fehler

Zu breite Beschreibungen. Ein git-rebase-helper-Skill, der bei jedem git-bezogenen Prompt aktiviert wird (Rebases, Merges, Cherry-picks, sogar git status), verschmutzt in 80 % der Sitzungen den Kontext. Die Lösung besteht darin, entweder die Beschreibung zu schärfen oder disable-model-invocation: true hinzuzufügen und einen ausdrücklichen Aufruf über /skill-name zu verlangen.4

Zu viele Skills konkurrieren um Budget. Mehr Skills bedeuten mehr Beschreibungen, die um das 1-%-Kontextbudget konkurrieren. Wenn Sie bemerken, dass Skills nicht aktiviert werden, prüfen Sie mit /context, welche ausgeschlossen wurden. Priorisieren Sie wenige, gut beschriebene Skills gegenüber vielen vagen.

Kritische Informationen in unterstützenden Dateien vergraben. Claude liest SKILL.md sofort, greift aber nur bei Bedarf auf unterstützende Dateien zu. Wenn kritische Informationen in einer unterstützenden Datei stehen, findet Claude sie möglicherweise nicht. Platzieren Sie wesentliche Informationen direkt in SKILL.md.4

SDK-Skill-Oberfläche (8. Mai 2026)

Self-hosted harnesses auf claude-agent-sdk-python v0.1.77+ sollten die Option skills in ClaudeAgentOptions verwenden, um verfügbare Skills zu deklarieren, nicht den veralteten "Skill"-Wert in allowed_tools.37 Die "Skill"-Kurzform ist deprecated, und die dedizierte Option gibt Claude Code strukturiertere Informationen darüber, welche Skills verfügbar sind. Gebündeltes CLI in v0.1.77 ist v2.1.133.

Plugin- und Skill-Konvergenz in .claude/skills/ (29. Mai 2026)

Skills wurden schon immer aus dem .claude/skills/-Verzeichnis eines Projekts geladen. Claude Code v2.1.157 erweitert dieses Verzeichnis auf Plugins: Ein Plugin, das in .claude/skills/ liegt, wird jetzt automatisch ohne Marketplace-Registrierung geladen, und claude plugin init <name> erzeugt dort ein frisches Gerüst, bei dem Manifest und SKILL.md bereits verdrahtet sind.58 Damit schließt sich die Lücke zwischen den beiden Formen von Projekt-Tooling, die früher an verschiedenen Orten lebten — ein nackter Skill, der direkt ins Repo committed wurde, gegenüber einem Plugin, das einen Skill plus hooks plus einen MCP-Server bündelt, zuvor aber zur Installation einen Marketplace benötigte. Der praktische Effekt für das harness-Design: Projektbezogenes Tooling braucht keinen Umweg über eine Registry mehr, um ausgeliefert zu werden — schreiben, committen, und Teammitglieder erhalten dieselbe Oberfläche mit git pull. Plugins behalten weiterhin den Anwendungsfall gebündelter Installierbarkeit (hooks + skills + MCP-Server + agents in einer ZIP); die Änderung ist, dass ein Projekt keinen Marketplace mehr aufsetzen muss, nur um eines aus seinem eigenen Baum zu laden.

Die gebündelte Oberfläche als Governance ausblenden (8. Juni 2026)

Skills sind Fähigkeit, und Fähigkeit ist Angriffsfläche. Claude Code v2.1.169 fügt eine disableBundledSkills-Einstellung hinzu (sowie die passende Umgebungsvariable CLAUDE_CODE_DISABLE_BUNDLED_SKILLS), die die gebündelten Skills, Workflows und eingebauten slash commands vollständig vor dem Modell verbirgt.60 Für einen gehärteten oder regulierten harness ist das eine bewusste Reduktion der Angriffsfläche: Ein Operator, der eine bestimmte Menge an Projekt- und persönlichen Skills auditiert und freigegeben hat, kann alles unterdrücken, was Anthropic mitliefert, sodass das Modell nur über die Oberfläche reasoning betreibt, die der Operator geprüft hat. Behandeln Sie es genauso wie eine Tool-Allowlist — der Standard ist breite Fähigkeit, und diesen Standard abzuschalten ist eine Governance-Entscheidung, kein Komfortschalter.

Verschachtelte .claude/skills und Closest-Wins-Auflösung (16. Juni 2026)

Claude Code v2.1.178 machte Projekt-Tooling ortsabhängig. Skills in verschachtelten .claude/skills-Verzeichnissen werden jetzt geladen, wenn Sie an Dateien unterhalb dieses Verzeichnisses arbeiten, nicht nur aus dem Repo-Root; bei einem Namenskonflikt erscheint der verschachtelte Skill als <dir>:<name>, sodass beide erreichbar bleiben.63 Dieselbe Version ließ den Rest der Projektoberfläche nach der Nähe zum Arbeitsverzeichnis auflösen: Wenn ein agent-, workflow- oder output-style-Name in verschachtelten .claude/-Verzeichnissen kollidiert, gewinnt der Eintrag, der dem Arbeitsverzeichnis am nächsten liegt, und ein projektbezogenes Speichern eines Workflows zielt auf das nächstgelegene vorhandene .claude/workflows/ statt immer auf den Root.63 Für ein Monorepo oder Repo-of-Repos ist das der Unterschied zwischen einer flachen globalen Oberfläche und Paket-Tooling, das im Kontext aktiviert wird — ein services/api/.claude/skills/ kann API-spezifische Skills enthalten, die nur beim Arbeiten in diesem Baum erscheinen, ohne mit einem gleichnamigen Skill in services/web/ zu kollidieren.


Hook-Architektur

Hooks sind Shell-Befehle, die durch Lebenszyklusereignisse von Claude Code ausgelöst werden.3 Sie laufen außerhalb des LLM als einfache Skripte, nicht als Prompts, die vom Modell interpretiert werden. Das Modell möchte rm -rf / ausführen? Ein 10-zeiliges Bash-Skript prüft den Befehl gegen eine Blocklist und lehnt ihn ab, bevor die Shell ihn überhaupt sieht. Der Hook wird ausgelöst, ob das Modell das will oder nicht.

Verfügbare Ereignisse

Claude Code stellt zum Zeitpunkt dieser Guide-Aktualisierung 29 dokumentierte Lebenszyklusereignisse in acht Kategorien bereit. Die Ereignisliste wächst mit Releases, behandeln Sie daher die Referenzdokumentation als Quelle der Wahrheit und prüfen Sie das Cheat Sheet auf die aktuelle vollständige Tabelle, bevor Sie Produktions-Hooks verdrahten:13

Kategorie Ereignisse Kann blockieren?
Session SessionStart, Setup, SessionEnd Nein
Benutzer / Abschluss UserPromptSubmit, UserPromptExpansion, Stop, StopFailure, TeammateIdle Prompt/Expansion/Stop/Idle können blockieren; StopFailure nicht
Tool PreToolUse, PermissionRequest, PermissionDenied, PostToolUse, PostToolUseFailure, PostToolBatch Pre/Permission/Batch können blockieren; Post-Ereignisse nicht
Subagent / Aufgabe SubagentStart, SubagentStop, TaskCreated, TaskCompleted Stop-/Task-Ereignisse können blockieren; Start nicht
Kontext PreCompact, PostCompact, InstructionsLoaded PreCompact kann blockieren; Post/Load nicht
Dateisystem / Workspace CwdChanged, FileChanged, WorktreeCreate, WorktreeRemove Worktree-Erstellung kann blockieren; andere nicht
Konfiguration / Benachrichtigung ConfigChange, Notification Konfigurationsänderungen können blockieren, außer Policy-Einstellungen; Benachrichtigungen nicht
MCP Elicitation, ElicitationResult Ja

Semantik von Exit-Codes

Exit-Codes bestimmen, ob Hooks Aktionen blockieren:3

Exit-Code Bedeutung Aktion
0 Erfolg Vorgang wird fortgesetzt. Stdout wird im ausführlichen Modus angezeigt.
2 Blockierender Fehler Vorgang stoppt. Stderr wird zur Fehlermeldung, die an Claude weitergegeben wird.
1, 3, etc. Nicht blockierender Fehler Vorgang wird fortgesetzt. Stderr wird nur im ausführlichen Modus angezeigt (Ctrl+O).

Kritisch: Jeder Security-Hook muss exit 2 verwenden, nicht exit 1. Exit 1 ist eine nicht blockierende Warnung. Der gefährliche Befehl wird trotzdem ausgeführt. Das ist der häufigste Hook-Fehler in Teams.14

Hook-Konfiguration

Hooks liegen in Einstellungsdateien. Auf Projektebene (.claude/settings.json) für gemeinsam genutzte Hooks. Auf Benutzerebene (~/.claude/settings.json) für persönliche Hooks:

{
  "hooks": {
    "PreToolUse": [
      {
        "matcher": "Bash",
        "hooks": [
          {
            "type": "command",
            "command": ".claude/hooks/validate-bash.sh"
          }
        ]
      }
    ],
    "PostToolUse": [
      {
        "matcher": "Write|Edit",
        "hooks": [
          {
            "type": "command",
            "command": "bash -c 'if [[ \"$FILE_PATH\" == *.py ]]; then black --quiet \"$FILE_PATH\" 2>/dev/null; fi'"
          }
        ]
      }
    ]
  }
}

Das Feld matcher filtert einen ereignisspezifischen Wert. Bei Tool-Ereignissen stimmt es mit tool_name-Werten wie Bash, Edit, Write, Read, Glob, Grep, MCP-Toolnamen wie mcp__server__tool oder * für alle Tools überein. Einfache Namen und mit | getrennte Listen sind exakte Treffer; Werte mit anderen Zeichen sind reguläre JavaScript-Ausdrücke. Einige Ereignisse unterstützen keine Matcher und werden immer ausgelöst, wenn sie konfiguriert sind.13

Hook-Eingabe-/Ausgabeprotokoll

Hooks erhalten JSON über stdin mit vollständigem Kontext:

{
  "tool_name": "Bash",
  "tool_input": {
    "command": "npm test",
    "description": "Run test suite"
  },
  "session_id": "abc-123",
  "agent_id": "main",
  "agent_type": "main"
}

Für erweiterte Steuerung können PreToolUse-Hooks JSON ausgeben, um Tool-Eingaben zu ändern, Kontext einzuspeisen oder Berechtigungsentscheidungen zu treffen. Verwenden Sie den Wrapper hookSpecificOutput — das ältere Top-Level-Format decision/reason ist für PreToolUse veraltet:

{
  "hookSpecificOutput": {
    "hookEventName": "PreToolUse",
    "permissionDecision": "allow",
    "permissionDecisionReason": "Command validated and modified",
    "updatedInput": {
      "command": "npm test -- --coverage --ci"
    },
    "additionalContext": "Note: This database has a 5-second query timeout."
  }
}

Drei Arten von Garantien

Bevor Sie einen Hook schreiben, fragen Sie: Welche Art von Garantie brauche ich?14

Formatierungsgarantien stellen nachträglich Konsistenz sicher. PostToolUse-Hooks auf Write/Edit führen Ihren Formatter nach jeder Dateiänderung aus. Die Ausgabe des Modells spielt keine Rolle, weil der Formatter alles normalisiert.

{
  "hooks": {
    "PostToolUse": [
      {
        "matcher": "Write|Edit",
        "hooks": [
          {
            "type": "command",
            "command": "bash -c 'if [[ \"$FILE_PATH\" == *.py ]]; then black --quiet \"$FILE_PATH\" 2>/dev/null; elif [[ \"$FILE_PATH\" == *.js ]] || [[ \"$FILE_PATH\" == *.ts ]]; then npx prettier --write \"$FILE_PATH\" 2>/dev/null; fi'"
          }
        ]
      }
    ]
  }
}

Sicherheitsgarantien verhindern gefährliche Aktionen, bevor sie ausgeführt werden. PreToolUse-Hooks auf Bash prüfen Befehle und blockieren destruktive Muster mit Exit-Code 2:

#!/bin/bash
# validate-bash.sh — block dangerous commands
INPUT=$(cat)
CMD=$(echo "$INPUT" | jq -r '.tool_input.command')

if echo "$CMD" | grep -qE "rm\s+-rf\s+/|git\s+push\s+(-f|--force)\s+(origin\s+)?main|git\s+reset\s+--hard|DROP\s+TABLE"; then
    echo "BLOCKED: Dangerous command detected: $CMD" >&2
    exit 2
fi

Qualitätsgarantien validieren den Zustand an Entscheidungspunkten. PreToolUse-Hooks auf git commit-Befehle führen Ihren Linter oder Ihre Test-Suite aus und blockieren den Commit, wenn Qualitätsprüfungen fehlschlagen:

#!/bin/bash
# quality-gate.sh — lint before commit
INPUT=$(cat)
CMD=$(echo "$INPUT" | jq -r '.tool_input.command')

if echo "$CMD" | grep -qE "^git\s+commit"; then
    if ! LINT_OUTPUT=$(ruff check . --select E,F,W 2>&1); then
        echo "LINT FAILED -- fix before committing:" >&2
        echo "$LINT_OUTPUT" >&2
        exit 2
    fi
fi

Hook-Typen jenseits von Shell-Befehlen

Claude Code unterstützt fünf Hook-Typen:13

Command-Hooks (type: "command") führen Shell-Skripte aus. Schnell, deterministisch, keine Token-Kosten.

MCP-Tool-Hooks (type: "mcp_tool") rufen ein Tool auf einem bereits verbundenen MCP-Server auf. Nutzen Sie sie, wenn die Validierungslogik bereits hinter einer MCP-Grenze liegt und kein separates Shell-Skript benötigt.

Prompt-Hooks (type: "prompt") senden einen Single-Turn-Prompt an ein schnelles Claude-Modell. Das Modell gibt { "ok": true } zurück, um zu erlauben, oder { "ok": false, "reason": "..." }, um zu blockieren. Nutzen Sie sie für nuancierte Bewertungen, die Regex nicht ausdrücken kann.

Agent-Hooks (type: "agent") starten einen subagent mit Tool-Zugriff (Read, Grep, Glob) für Multi-Turn-Verifikation. Sie sind experimentell; bevorzugen Sie Command-Hooks für Produktions-Gates und reservieren Sie Agent-Hooks für Prüfungen, die tatsächlich echte Dateien oder Testausgaben inspizieren müssen:

{
  "hooks": {
    "Stop": [
      {
        "hooks": [
          {
            "type": "agent",
            "prompt": "Verify all unit tests pass. Run the test suite and check results. $ARGUMENTS",
            "timeout": 120
          }
        ]
      }
    ]
  }
}

Seit Claude Code v2.1.140 enthält die Eingabe von Agent-Hooks subagent_type, wodurch ein gemeinsam genutzter Hook einen security-reviewer-Lauf von einem explorer oder generischen worker unterscheiden kann, ohne aus Prompt-Text raten zu müssen.49

HTTP-Hooks (type: "http") senden die JSON-Eingabe des Ereignisses als POST-Anfrage an eine URL und erhalten JSON zurück. Nutzen Sie sie für Webhooks, externe Benachrichtigungsdienste oder API-basierte Validierung (v2.1.63+). Für SessionStart-Ereignisse nicht unterstützt:

{
  "hooks": {
    "PostToolUse": [
      {
        "hooks": [
          {
            "type": "http",
            "url": "https://your-webhook.example.com/hook",
            "headers": { "Authorization": "Bearer $WEBHOOK_TOKEN" },
            "allowedEnvVars": ["WEBHOOK_TOKEN"],
            "timeout": 10
          }
        ]
      }
    ]
  }
}

Async-Hooks

Hooks können im Hintergrund laufen, ohne die Ausführung zu blockieren. Fügen Sie async: true für nicht kritische Vorgänge wie Benachrichtigungen und Logging hinzu:13

{
  "type": "command",
  "command": ".claude/hooks/notify-slack.sh",
  "async": true
}

Nutzen Sie async für Benachrichtigungen, Telemetrie und Backups. Verwenden Sie async niemals für Formatierung, Validierung oder irgendetwas, das vor der nächsten Aktion abgeschlossen sein muss.

Dispatcher statt unabhängiger Hooks

Wenn sieben Hooks beim selben Ereignis ausgelöst werden und jeweils unabhängig stdin lesen, entstehen Race Conditions. Zwei Hooks, die gleichzeitig in dieselbe JSON-Statusdatei schreiben, kürzen die JSON ab. Jeder nachgelagerte Hook, der diese Datei parst, bricht.2

Die Lösung: ein Dispatcher pro Ereignis, der Hooks sequenziell aus zwischengespeichertem stdin ausführt:

#!/bin/bash
# dispatcher.sh — run hooks sequentially with cached stdin
INPUT=$(cat)
HOOK_DIR="$HOME/.claude/hooks/pre-tool-use.d"

for hook in "$HOOK_DIR"/*.sh; do
    [ -x "$hook" ] || continue
    echo "$INPUT" | "$hook"
    EXIT_CODE=$?
    if [ "$EXIT_CODE" -eq 2 ]; then
        exit 2  # Propagate block
    fi
done

Hooks debuggen

Fünf Techniken zum Debuggen von Hooks, die still fehlschlagen:14

  1. Skripte unabhängig testen. Leiten Sie Beispiel-JSON per Pipe weiter: echo '{"tool_input":{"command":"git commit -m test"}}' | bash your-hook.sh
  2. Stderr für Debug-Ausgaben verwenden. Bei Exit-Code 2 wird stderr als Fehlermeldung an Claude zurückgegeben. Nicht blockierendes stderr (Exit 1, 3, etc.) erscheint nur im ausführlichen Modus (Ctrl+O).
  3. Auf jq-Fehler achten. Falsche JSON-Pfade geben still null zurück. Testen Sie jq-Ausdrücke gegen echte Tool-Eingaben.
  4. Exit-Codes verifizieren. Ein PreToolUse-Hook, der exit 1 verwendet, erzwingt nichts, obwohl er zu funktionieren scheint.
  5. Hooks schnell halten. Hooks laufen synchron. Halten Sie alle Hooks unter 2 Sekunden, idealerweise unter 500 ms.

SDK-seitiges Hook-Ereignisstreaming

Self-hosted harnesses, die auf claude-agent-sdk-python (v0.1.74+, 6. Mai 2026) basieren, können Hook-Ereignisse direkt aus dem Nachrichtenstream abonnieren, statt über Shell-Skript-Callbacks zu gehen.36 Setzen Sie include_hook_events=True in ClaudeAgentOptions, und HookEventMessage-Objekte (PreToolUse, PostToolUse, Stop und andere) werden aus demselben Iterator geliefert wie Assistant-Nachrichten und Tool-Ergebnisse. Das spiegelt die Option includeHookEvents des TypeScript SDK wider; das gebündelte CLI wurde im selben Release auf v2.1.129 angehoben.

Das Ereignisstream-Muster passt, wenn Ihr harness bereits in Python lebt und Sie Hook-Signale im selben Kontrollfluss wie die Modellausgabe haben möchten. Der Shell-Skript-Hook-Vertrag (Exit-Codes, stdin-JSON, Dispatcher) bleibt die richtige Antwort für harnesses, die mehrere Tools kombinieren, Hooks über Claude Code und Codex hinweg teilen oder Exit-Code-Semantik zum Blockieren benötigen.

Effort und Session-Herkunft (7.-8. Mai 2026)

Zwei Ergänzungen in Claude Code v2.1.132 und v2.1.133 geben Hooks und Subprozessen bessere Signale über ihren Ausführungskontext:3839

  • effort.level in der Hook-Eingabe. Hooks erhalten jetzt ein JSON-Feld effort.level in derselben Eingabe, die tool_input und session_id trägt. Derselbe Wert wird als Env-Var $CLAUDE_EFFORT exportiert, sodass Bash-Befehle ihn lesen können, ohne JSON zu parsen. Nutzen Sie dies, um Hook-Kosten nach Effort-Stufe zu skalieren: teure Validierung bei low überspringen, das vollständige Security-Gate bei xhigh oder max ausführen.
  • Env-Var CLAUDE_CODE_SESSION_ID in Bash-Subprozessen. Bash-Tool-Subprozesse sehen jetzt denselben session_id-Wert wie die Hooks, offengelegt als CLAUDE_CODE_SESSION_ID. Das schließt die Herkunftslücke für Tools, die zustandsbezogen pro Session loggen und zuvor Subprozessereignisse nicht mit Hook-Ereignissen korrelieren konnten.

Beide Signale sind ohne Codeänderungen verfügbar; vorhandene Hooks, die die neuen Felder ignorieren, funktionieren weiter.

autoMode.hard_deny und Hook-/Plugin-Fixes in v2.1.136 (8. Mai 2026)

Claude Code v2.1.136 ergänzte Auto Mode um eine neue Hard-Deny-Stufe und behob eine Gruppe von Plugin- und MCP-Problemen, die lang laufende harnesses betrafen:40

  • settings.autoMode.hard_deny. Auto-Mode-Classifier-Regeln, die bedingungslos blockieren, unabhängig von Benutzerabsicht oder Allow-Ausnahmen. Dies steht über den bestehenden Allow/Deny-Matchern als nicht verhandelbarer Governance-Hebel. Nutzen Sie es für Regeln, die niemals überschrieben werden dürfen (Force-Push auf main, Dateien mit Secrets, Zugriff auf Produktionsdatenbanken), selbst wenn ein Operator die breitere Kategorie in seinen persönlichen Einstellungen genehmigt hat.
  • MCP-Server verschwinden nach /clear nicht mehr. Server, die in .mcp.json, Plugins und claude.ai-Connectors konfiguriert waren, fielen nach einem /clear in der VS Code-Erweiterung, im JetBrains-Plugin und im Agent SDK still aus der aktiven Menge heraus. Der Fix landet in v2.1.136. Wenn Sie „MCP server X went missing mid-session“ gesehen haben, war das die Ursache.
  • Verlust von MCP-OAuth-Refresh-Tokens bei gleichzeitiger Aktualisierung. Benutzer mit mehreren Remote-MCP-Servern sollten keine tägliche erneute Authentifizierung mehr benötigen. Gleichzeitige Refresh-Schreibvorgänge überschrieben einander.
  • Plan Mode blockiert Dateischreibvorgänge jetzt korrekt. Eine passende Edit(...)-Allow-Regel umging den Schreibschutz des Plan Mode. Plan Mode wird jetzt unabhängig von Allow-Regeln erzwungen.
  • Plugin-Hooks Stop und UserPromptSubmit schlagen nicht mehr mitten in der Session fehl. Die Cache-Bereinigung löschte Plugin-Versionsdateien, die von der laufenden Session noch genutzt wurden, wodurch speziell diese beiden Hook-Ereignisse brachen. Der Fix hält verwendete Versionen gepinnt.
  • skills-Eintrag in plugin.json. Das Setzen von skills blendete das standardmäßige skills/-Verzeichnis des Plugins aus. Jetzt wird der Eintrag korrekt kombiniert, und ein Verweis auf einen Dateipfad löst einen expliziten Fehler aus, statt still fehlzuschlagen.
  • Env-Vars von CLAUDE_ENV_FILE-SessionStart-Hooks wurden stale. Variablen, die von SessionStart-Hooks über CLAUDE_ENV_FILE exportiert wurden, wurden nach /resume oder /clear stale. In v2.1.136 behoben. Sessions sourcen die Env-Datei jetzt bei diesen Ereignissen erneut.

Für Governance-harnesses sind die operativ interessanten Punkte autoMode.hard_deny (neuer Hebel) und der Fix für verschwindende MCP-Server (stiller Fehler, der lange Sessions brach). Alles andere ist eine Quality-of-Life-Bereinigung.

Strukturierte Hook-Argumente und Block-Fortsetzung (11. Mai 2026)

Claude Code v2.1.139 ergänzte zwei Hook-Details, die für Produktions-harnesses wichtig sind: eine Exec-Form args: string[] für Command-Hooks und continueOnBlock für PostToolUse-Hooks.4244 Bevorzugen Sie args, wenn ein Hook dynamische Werte oder Pfad-Platzhalter benötigt. Der Befehl wird direkt ohne Shell gestartet, wodurch eine ganze Klasse von Quoting- und Injection-Fehlern entfällt.

Nutzen Sie continueOnBlock, wenn ein PostToolUse-Hook seinen Ablehnungsgrund an Claude zurückgeben und den Turn fortsetzen soll, statt den Ablauf zu beenden. Behandeln Sie es als Operator-Experience-Funktion, nicht als Security-Bypass. Ein blockierendes Gate sollte das unsichere Ergebnis weiterhin blockieren.

Dasselbe Release übergibt CLAUDE_PROJECT_DIR an MCP-stdio-Server und erlaubt Plugin-Konfigurationen, ${CLAUDE_PROJECT_DIR} in Befehlen zu referenzieren.42 MCP-Tools sollten projektrelative Pfade aus diesem Wert auflösen, nicht aus dem zufälligen Arbeitsverzeichnis des Prozesses, der den Server gestartet hat.

Claude Code v2.1.140 ist vor allem ein Reliability-Release für harness-Operatoren: Es behebt, dass ConfigChange-Hooks bei Einstellungsänderungen nicht ausgelöst wurden, schließt Edge Cases, in denen disableAllHooks und allowManagedHooksOnly über Einstellungsebenen hinweg nicht korrekt zusammenspielten, und verhindert, dass Berechtigungsdialoge unbeabsichtigte Umgebungsvariablen anzeigen, die von Hook-Ergebnissen zurückgegeben wurden.49 Dadurch werden die bestehenden Governance-Muster in diesem Abschnitt verlässlicher; eine neue Hook-Architektur ist nicht erforderlich.

Claude Code v2.1.141 ergänzt ein Hook-Ausgabefeld terminalSequence für Desktop-Benachrichtigungen, Fenstertitel und Bells ohne steuerndes Terminal.50 Behandeln Sie das als Operator-Signal, nicht als Durchsetzung. Security- und Qualitäts-Gates sollten Fehler weiterhin über den normalen Blockierungsvertrag kommunizieren: strukturierte Hook-Ausgabe plus Exit-Verhalten, das die unsichere Aktion verhindert. Dasselbe Release ergänzt claude agents --cwd <path> zur Eingrenzung von Agent View auf ein Verzeichnis, CLAUDE_CODE_PLUGIN_PREFER_HTTPS für Plugin-Installationen in Umgebungen ohne GitHub-SSH-Schlüssel und ANTHROPIC_WORKSPACE_ID für Workload-Identity-Federation-Regeln, die mehr als einen Workspace abdecken.50 Das sind Architekturdetails für Team-harnesses: engere operative Ansichten, weniger Annahmen bei Plugin-Installationen und explizites Enterprise-Token-Scoping.

Claude Code v2.1.142 ist wichtiger für die Orchestrierung von Hintergrund-Sessions als für Hook-Semantik.51 claude agents kann Hintergrund-Sessions jetzt mit expliziten Flags für Verzeichnis, Einstellungen, MCP, Plugin, Berechtigung, Modell und Effort dispatchen, statt vom Wrapper-Zustand abzuhängen. Fast Mode verwendet jetzt standardmäßig Opus 4.7; pinnen Sie CLAUDE_CODE_OPUS_4_6_FAST_MODE_OVERRIDE=1 nur, wenn ein harness eine gemessene Abhängigkeit vom Verhalten von Opus 4.6 hat. Root-Level-Plugin-SKILL.md-Discovery und Plugin-bereitgestellte LSP-Sichtbarkeit reduzieren Packaging-Mehrdeutigkeit. Fixes für MCP_TOOL_TIMEOUT, bereits vorhandene Hintergrund-Session-Worktrees, Daemon-Sleep/Wake und Post-Upgrade-Bereinigung sowie Plugin-Cache-Bereinigung schließen Reliability-Lücken, die sonst wie Orchestrierungsfehler aussehen.

Stop-Hook-Steuerung, sitzungsübergreifende Autorität und Multi-Agent v2 (Juni 2026)

Vier Änderungen von Anfang Juni sind für harness- und Multi-Agent-Design wichtig.59

Stop/SubagentStop-Hooks erhielten einen Steuerungskanal. Seit Claude Code v2.1.163 kann ein Stop- oder SubagentStop-Hook hookSpecificOutput.additionalContext zurückgeben, um Claude Feedback zu geben und den Turn fortzusetzen, ohne dass die Antwort als Hook-Fehler markiert wird. Zuvor war der einzige echte Hebel eines Stop-Hooks der Exit-2-Block, der wie ein Fehler wirkt und auf das Limit für aufeinanderfolgende Blocks zählt. Für ein Quality-Gate-harness ist das die sauberere Primitive: Ein Stop-Hook, der erkennt „Sie sagen fertig, aber die Tests sind rot“, kann jetzt „das schlägt noch fehl, machen Sie weiter“ einspeisen, statt hart zu blockieren. Nutzen Sie den Block für echte Stop-Bedingungen und additionalContext für „noch nicht fertig, hier ist der Grund“.

Sitzungsübergreifendes Messaging trägt keine geliehene Autorität mehr. v2.1.166 hat den Multi-Session-Fall gehärtet: Nachrichten, die per SendMessage aus einer anderen Claude-Session weitergeleitet werden, tragen nicht mehr die Autorität des ursprünglichen Benutzers, sodass eine empfangende Session weitergeleitete Berechtigungsanfragen ablehnt und Auto Mode sie blockiert. Wenn Ihre Orchestrierung Agents einander Nachrichten senden lässt, behandeln Sie eine eingehende Nachricht als nicht vertrauenswürdige Daten, nicht als authentifizierte Anweisung. Das ist dasselbe Prinzip, das der Security-Abschnitt auf Tool-Ausgaben anwendet, erweitert auf Inter-Agent-Messaging.

Modellresilienz wurde zu einer First-Class-Einstellung. Die Einstellung fallbackModel verkettet jetzt bis zu drei Backup-Modelle, die der Reihe nach ausprobiert werden, wenn das Primärmodell überlastet oder nicht verfügbar ist, und ein Turn wird bei unerwarteten, nicht wiederholbaren API-Fehlern einmal automatisch mit dem Fallback erneut versucht. Für ein lang laufendes autonomes harness wird aus einem vorübergehenden Ausfall des Primärmodells eine geordnete Degradation statt eines abgebrochenen Laufs. claude agents --json ergänzte außerdem ein Feld waitingFor (v2.1.162), das sichtbar macht, worauf eine blockierte Hintergrund-Session wartet, etwa auf einen Berechtigungs-Prompt — ein Observability-Gewinn für jeden Coordinator, der eine Agent-Flotte pollt.

Safe Mode für Clean-Room-Governance und Troubleshooting. Claude Code v2.1.169 ergänzt ein Flag --safe-mode (und die passende Umgebungsvariable CLAUDE_CODE_SAFE_MODE), das eine Session startet, bei der alle Anpassungen auf einmal deaktiviert sind: CLAUDE.md, Plugins, skills, hooks und MCP-Server.60 Das ist das Gegenteil des harness — ein bewusster Clean Room. Nutzen Sie es, um die Frage zu beantworten, die jeder Operator irgendwann stellt: „Kommt dieses Verhalten vom Modell oder von etwas, das ich konfiguriert habe?“ Wenn ein Hook falsch auslöst, ein skill aktiviert wird, obwohl er es nicht sollte, oder ein MCP-Server den Kontext vergiftet, gibt Ihnen --safe-mode eine bekannte leere Baseline zum Vergleich. Es ist auch eine Governance-Primitive: eine Möglichkeit, das reine Modell ohne die persistente Autorität auszuführen, die Ihr harness normalerweise gewährt. Das ist wichtig, wenn Sie ein Ergebnis reproduzieren müssen, ohne dass operator-definiertes Scaffolding es beeinflusst.

Ein Hinweis zu Modellstufen. Dieser Guide behandelt Opus 4.8 als agentic Default von Claude Code — das Modell, das autonome harnesses ausführt, sofern Sie nichts anderes auswählen. Am 9. Juni 2026 veröffentlichte Anthropic Claude Fable 5 (claude-fable-5), eine neue Stufe über Opus, beschrieben als das leistungsstärkste Modell — ein „Mythos-class“-System, das für die allgemeine Nutzung sicher gemacht wurde — auswählbar in Claude Code v2.1.170 über /model claude-fable-5.60 Opus 4.8 bleibt der agentic Default; greifen Sie bewusst zur höheren Stufe, bei Entscheidungen, bei denen rohe Reasoning-Tiefe die Kosten rechtfertigt, nicht als pauschale Einstellung für eine Flotte.

Codex hat Multi-Agent v2 ausgeliefert. Codex CLI v0.137.0 belässt die Runtime-Wahl bei jedem Thread, stellt sauberere Follow-up- und Metadata-Defaults für gestartete Agents bereit (hide_spawn_agent_metadata ist jetzt standardmäßig true) und propagiert rohe Parent-Ereignisse an Child-Listener. Sein subagent-Modell bleibt explizit: eingebaute Agent-Typen default/worker/explorer, TOML-definierte Custom Agents und Concurrency-Steuerungen (agents.max_threads Standard 6, agents.max_depth Standard 1). Dasselbe Release ergänzt eine v1-skills-Erweiterung mit skill-catalog-Auflösung pro Turn und neuen Lifecycle-Contributor-Ereignissen thread-start/turn-error, wodurch die Lücke zur Hook-/skill-Oberfläche von Claude Code kleiner wird, während die Kernel-Sandbox-Haltung als Standardgrenze erhalten bleibt. Codex v0.138.0-v0.139.0 härtete Multi-Agent v2 anschließend für die Produktion: Inter-Agent-Message-Payloads sind jetzt verschlüsselt, ein v2-Agent-Config-Katalog plus eine Agent-Residency-LRU verwalten, welche Agents resident bleiben, und Concurrency wird nach aktiver Ausführung statt nach gestarteten Threads gezählt, sodass idle Agents keinen Slot mehr verbrauchen.61 Auch der Lifecycle-API ist gereift — close_agent wurde in interrupt_agent (v0.139.0) umbenannt, um klarzustellen, dass ein laufender Agent unterbrochen und nicht nur ein Handle geschlossen wird — und MCP-Startwarnungen, die von einem subagent ausgelöst werden, bleiben jetzt auf den zugehörigen Thread beschränkt, statt nach oben in das Transcript des Parents dupliziert zu werden.61 Für alle, die Codex-seitige Orchestrierung bauen, ist das der Unterschied zwischen Demo und Flotte: verschlüsselter Nachrichtentransport, begrenzte Residency, ausführungsgezählte Concurrency und Warnungen, die nicht über die Thread-Grenze lecken. Codex v0.140.0 öffnete dann eine Cross-Tool-Schnittstelle: /import zieht Setup, Projektkonfiguration und aktuelle Chats selektiv aus Claude Code in Codex, und Sessions wurden dauerhaft löschbar (codex delete / /delete, mit Bestätigungs-Safeguards).64 /import ist die erste offizielle Anerkennung, dass Operatoren zwischen harnesses wechseln — die Konfiguration, die Sie für eines bauen, ist nicht mehr dort eingeschlossen.


Speicher und Kontext

Jede AI-Konversation läuft innerhalb eines begrenzten Kontextfensters. Wenn die Konversation wächst, komprimiert das System frühere Turns, um Platz für neue Inhalte zu schaffen. Diese Komprimierung ist verlustbehaftet. Architekturentscheidungen, die in Turn 3 dokumentiert wurden, überstehen Turn 15 möglicherweise nicht.9

Die drei Mechanismen des Multi-Turn-Zusammenbruchs

Die MSR/Salesforce-Studie identifizierte drei unabhängige Mechanismen, die jeweils eine andere Gegenmaßnahme erfordern:9

Mechanismus Was passiert Gegenmaßnahme
Kontextkomprimierung Frühere Informationen werden verworfen, damit neue Inhalte hineinpassen Zustands-Checkpoints im Dateisystem
Verlust der Schlussfolgerungskohärenz Das Modell widerspricht über mehrere Turns hinweg seinen eigenen früheren Entscheidungen Iteration mit frischem Kontext (Ralph loop)
Koordinationsfehler Mehrere Agents halten unterschiedliche Zustandssnapshots Gemeinsame Zustandsprotokolle zwischen Agents

Strategie 1: Dateisystem als Speicher

Der zuverlässigste Speicher über Kontextgrenzen hinweg liegt im Dateisystem. Claude Code liest CLAUDE.md und Speicherdateien zu Beginn jeder Sitzung und nach jeder Kompaktierung.6

~/.claude/
├── configs/           # 14 JSON configs (thresholds, rules, budgets)
│   ├── deliberation-config.json
│   ├── recursion-limits.json
│   └── consensus-profiles.json
├── hooks/             # 95 lifecycle event handlers
├── skills/            # 44 reusable knowledge modules
├── state/             # Runtime state (recursion depth, agent lineage)
├── handoffs/          # 49 multi-session context documents
├── docs/              # 40+ system documentation files
└── projects/          # Per-project memory directories
    └── {project}/memory/
        └── MEMORY.md  # Always loaded into context

Die Datei MEMORY.md hält Fehler, Entscheidungen und Muster über Sitzungen hinweg fest. Wenn Sie entdecken, dass ((VAR++)) mit set -e in Bash fehlschlägt, wenn VAR 0 ist, halten Sie das fest. Drei Sitzungen später, wenn Ihnen in Python ein ähnlicher Integer-Grenzfall begegnet, macht der Eintrag in MEMORY.md dieses Muster wieder sichtbar.15

Auto Memory (v2.1.32+): Claude Code zeichnet Projektkontext automatisch auf und ruft ihn wieder ab. Während Sie arbeiten, schreibt Claude Beobachtungen nach ~/.claude/projects/{project-path}/memory/MEMORY.md. Auto Memory lädt beim Sitzungsstart die ersten 200 Zeilen in Ihren System-Prompt. Halten Sie die Datei knapp und verlinken Sie für detaillierte Notizen auf separate Themendateien.6

Speicherpflege statt Speichervolumen (Mai 2026): Ein aktuelles arXiv-Preprint zu LLM-Agent-Kooperation beschreibt erweiterte Erinnerung als möglichen Fehlermodus: In den Experimenten der Autoren verschlechterte eine längere sichtbare Historie die Kooperation in 18 von 28 Modell-Spiel-Settings.48 Behandeln Sie das als Designwarnung, nicht als abschließendes Gesetz. Die Produktionsregel ist bereits klar genug: Halten Sie MEMORY.md kurz, verlinken Sie Details und schreiben Sie entscheidungsreife Zusammenfassungen in Handoffs. Rohdaten aus Transkripten, Tool-Logs und lange Recall-Feeds gehören in durchsuchbaren Speicher, nicht automatisch in den aktiven Prompt.

Strategie 2: Proaktive Kompaktierung

Der /compact-Befehl von Claude Code fasst die Konversation zusammen und schafft Kontextplatz frei, während wichtige Entscheidungen, Dateiinhalte und Aufgabenstatus erhalten bleiben.15

Wann Sie kompaktieren sollten: - Nach Abschluss einer klar abgegrenzten Teilaufgabe (Funktion implementiert, Bug behoben) - Bevor Sie in einem neuen Bereich der Codebasis beginnen - Wenn Claude anfängt, sich zu wiederholen oder früheren Kontext zu vergessen - Etwa alle 25-30 Minuten während intensiver Sitzungen

Benutzerdefinierte Kompaktierungsanweisungen in CLAUDE.md:

# Summary Instructions
When using compact, focus on:
- Recent code changes
- Test results
- Architecture decisions made this session

Kompaktierung schützt die Konversation; der /cd-Befehl (Claude Code v2.1.169) schützt den Prompt-Cache. Er verschiebt eine Sitzung mitten im Verlauf in ein neues Arbeitsverzeichnis, ohne den Cache zu brechen, der sich über den Turn aufgebaut hat.60 Zuvor bedeutete ein Verzeichniswechsel eine neue Sitzung und einen kalten Cache. Für eine lange laufende Sitzung, die von einem Repository zu einem benachbarten Repository wechselt, was bei Monorepo- und Multi-Service-Arbeit häufig vorkommt, hält /cd das teure gecachte Präfix intakt und richtet zugleich den Dateisystemkontext neu aus.

Strategie 3: Sitzungs-Handoffs

Für Aufgaben, die sich über mehrere Sitzungen erstrecken, erstellen Sie Handoff-Dokumente, die den vollständigen Zustand festhalten:

## Handoff: Deliberation Infrastructure PRD-7
**Status:** Hook wiring complete, 81 Python unit tests passing
**Files changed:** hooks/post-deliberation.sh, hooks/deliberation-pride-check.sh
**Decision:** Placed post-deliberation in PostToolUse:Task, pride-check in Stop
**Blocked:** Spawn budget model needs inheritance instead of depth increment
**Next:** PRD-8 integration tests in tests/test_deliberation_lib.py

Die Struktur Status/Files/Decision/Blocked/Next gibt der Folgesitzung vollständigen Kontext bei minimalen Tokenkosten. Eine neue Sitzung mit claude -c (continue) zu starten oder das Handoff-Dokument zu lesen, führt direkt in die Implementierung.15

Strategie 4: Fresh-Context-Iteration (The Ralph Loop)

Für Sitzungen, die länger als 60-90 Minuten dauern, starten Sie pro Iteration eine frische Claude-Instanz. Der Zustand bleibt über das Dateisystem bestehen, nicht über die Konversationserinnerung. Jede Iteration erhält das volle Kontextbudget:16

Iteration 1: [200K tokens] -> writes code, creates files, updates state
Iteration 2: [200K tokens] -> reads state from disk, continues
Iteration 3: [200K tokens] -> reads updated state, continues
...
Iteration N: [200K tokens] -> reads final state, verifies criteria

Vergleich mit einer einzelnen langen Sitzung:

Minute 0:   [200K tokens available] -> productive
Minute 30:  [150K tokens available] -> somewhat productive
Minute 60:  [100K tokens available] -> degraded
Minute 90:  [50K tokens available]  -> significantly degraded
Minute 120: [compressed, lossy]     -> errors accumulate

Der Ansatz mit frischem Kontext pro Iteration tauscht 15-20 % Overhead für den Orientierungsschritt (Zustandsdateien lesen, Git-Historie scannen) gegen volle kognitive Ressourcen pro Iteration.16 Die Kosten-Nutzen-Rechnung: Für Sitzungen unter 60 Minuten ist eine einzelne Konversation effizienter. Ab 90 Minuten liefert frischer Kontext trotz Overhead höherwertige Ergebnisse.

Strategie 5: Verwaltete Speicherpflege (Dreaming)

Die Claude Managed Agents von Anthropic haben am 6. Mai 2026 Dreaming als Research Preview hinzugefügt.35 Laut Anthropic: “Dreaming is a scheduled process that reviews your agent sessions and memory stores, extracts patterns, and curates memories so your agents improve over time.”35

Dreaming läuft zwischen Sitzungen im Hintergrund, nicht auf dem kritischen Pfad. Es ergänzt das Muster Dateisystem-als-Speicher, statt es zu ersetzen: Ihre Datei MEMORY.md bleibt die tragende Oberfläche; Dreaming schreibt kuratierte Speichereinträge in den Speicher der Managed Agents, den der Agent beim Sitzungsstart liest. Beide Muster können in harnesses koexistieren, die selbst gehosteten Dateisystemzustand mit verwalteter Kuratierung kombinieren.

Dateisystemspeicher Dreaming (verwaltet)
Wo der Speicher liegt Ihr Repo, versioniert Von Anthropic verwalteter Speicher
Wann er aktualisiert wird Sie schreiben Einträge von Hand oder über hooks Hintergrundprozess zwischen Sitzungen
Was er erfasst Entscheidungen, Fehler, Muster, die Sie markieren Aus der Sitzungshistorie extrahierte Muster
Am besten geeignet für Projektspezifisches institutionelles Wissen Sitzungsübergreifende Mustererkennung, die Ihnen von Hand entgehen würde

Dreaming ist in Research Preview, daher kann sich das Verhalten ändern. Die oben dokumentierten Muster für Sitzungs-Handoffs und CLAUDE.md bleiben der maßgebliche Speichermechanismus für selbst gehostete harnesses.

Die Anti-Patterns

Ganze Dateien lesen, wenn Sie 10 Zeilen brauchen. Ein einzelner Lesevorgang einer 2.000-Zeilen-Datei verbraucht 15.000-20.000 Tokens. Verwenden Sie Zeilen-Offsets: Read file.py offset=100 limit=20 spart den Großteil dieser Kosten.15

Ausführliche Fehlerausgaben im Kontext behalten. Nach dem Debugging eines Bugs enthält Ihr Kontext 40+ Stacktraces aus fehlgeschlagenen Iterationen. Ein einzelnes /compact nach der Fehlerbehebung entfernt diesen Ballast.

Jede Sitzung damit beginnen, jede Datei zu lesen. Lassen Sie die Glob- und Grep-Tools von Claude Code relevante Dateien bei Bedarf finden. Das spart 100.000+ Tokens unnötigen Vorab-Ladens.15


Subagent-Muster

Subagents sind spezialisierte Claude-Instanzen, die komplexe Aufgaben eigenständig bearbeiten. Sie starten mit einem sauberen Kontext (ohne Verunreinigung durch die Hauptkonversation), arbeiten mit festgelegten Tools und geben Ergebnisse als Zusammenfassungen zurück. Die Explorationsergebnisse blähen Ihre Hauptkonversation nicht auf; nur die Schlussfolgerungen kehren zurück.5

Integrierte Subagent-Typen

Typ Modell Modus Tools Verwenden für
Explore Haiku (schnell) Schreibgeschützt Glob, Grep, Read, sicheres Bash Codebase-Exploration, Dateien finden
General-purpose Wird geerbt Voller Lese-/Schreibzugriff Alle verfügbaren Komplexe Recherche + Änderung
Plan Wird geerbt (oder Opus) Schreibgeschützt Read, Glob, Grep, Bash Planung vor der Ausführung

Eigene Subagents erstellen

Definieren Sie subagents in .claude/agents/ (Projekt) oder ~/.claude/agents/ (persönlich):

---
name: security-reviewer
description: Expert security code reviewer. Use PROACTIVELY after any code
  changes to authentication, authorization, or data handling.
tools: Read, Grep, Glob, Bash
model: opus
permissionMode: plan
---

You are a senior security engineer reviewing code for vulnerabilities.

When invoked:
1. Identify the files that were recently changed
2. Analyze for OWASP Top 10 vulnerabilities
3. Check for secrets, hardcoded credentials, SQL injection
4. Report findings with severity levels and remediation steps

Focus on actionable security findings, not style issues.

Konfigurationsfelder für Subagents

Feld Erforderlich Zweck
name Ja Eindeutige Kennung (Kleinbuchstaben + Bindestriche)
description Ja Wann der Aufruf erfolgen soll (fügen Sie „PROACTIVELY“ ein, um automatische Delegierung zu fördern)
tools Nein Durch Kommas getrennt. Erbt alle Tools, wenn ausgelassen. Unterstützt Agent(agent_type), um spawnbare Agents einzuschränken
disallowedTools Nein Zu verweigernde Tools, entfernt aus der geerbten oder angegebenen Liste. Seit v2.1.178 werden MCP-Spezifikationen auf Serverebene (mcp__server, mcp__server__*, mcp__*) hier korrekt abgeglichen — frühere Versionen ignorierten sie stillschweigend, sodass eine Verweigerungsregel zum Blockieren eines MCP-Servers unbemerkt nichts bewirkte.63
model Nein sonnet, opus, haiku, inherit (Standard: inherit)
permissionMode Nein default, acceptEdits, delegate, dontAsk, bypassPermissions, plan
maxTurns Nein Maximale agentische Turns, bevor der subagent stoppt
memory Nein Persistenter Speicherbereich: user, project, local
skills Nein Lädt skill-Inhalte beim Start automatisch in den subagent-Kontext. Seit v2.1.133 entdecken subagents außerdem Projekt-, Benutzer- und Plugin-skills über das Skill-Tool genauso wie die übergeordnete Sitzung. Frühere Versionen ließen diese stillschweigend aus dem subagent-Kontext fallen.39
hooks Nein Lifecycle-hooks, die auf die Ausführung dieses subagent beschränkt sind
background Nein Immer als Hintergrundaufgabe ausführen
isolation Nein Auf worktree setzen, um eine isolierte git-worktree-Kopie zu verwenden

Worktree-Isolation

Subagents können in temporären git-worktrees arbeiten und erhalten dabei eine vollständig isolierte Kopie des Repository:5

---
name: experimental-refactor
description: Attempt risky refactoring in isolation
isolation: worktree
tools: Read, Write, Edit, Bash, Grep, Glob
---

You have an isolated copy of the repository. Make changes freely.
If the refactoring succeeds, the changes can be merged back.
If it fails, the worktree is discarded with no impact on the main branch.

Worktree-Isolation ist für experimentelle Arbeiten unerlässlich, die die Codebase beschädigen könnten.

Parallele Subagents

Verwenden Sie parallele subagents für unabhängige Rechercheaufgaben, die sich nicht miteinander abstimmen müssen:5

> Have three explore agents search in parallel:
> 1. Authentication code
> 2. Database models
> 3. API routes

Jeder Agent läuft in einem eigenen Kontextfenster, findet relevanten Code und gibt eine Zusammenfassung zurück. Der Hauptkontext bleibt sauber.

Der Rekursionsschutz

Ohne Spawn-Limits delegieren Agents an Agents, die wiederum an Agents delegieren, wobei jeder Kontext verliert und Tokens verbrennt. Das Muster für Rekursionsschutz setzt Budgets durch:16

#!/bin/bash
# recursion-guard.sh — enforce spawn budget
CONFIG_FILE="${HOME}/.claude/configs/recursion-limits.json"
STATE_FILE="${HOME}/.claude/state/recursion-depth.json"

MAX_DEPTH=2
MAX_CHILDREN=5
DELIB_SPAWN_BUDGET=2
DELIB_MAX_AGENTS=12

# Read current depth
current_depth=$(jq -r '.depth // 0' "$STATE_FILE" 2>/dev/null)

if [[ "$current_depth" -ge "$MAX_DEPTH" ]]; then
    echo "BLOCKED: Maximum recursion depth ($MAX_DEPTH) reached" >&2
    exit 2
fi

# Increment depth using safe arithmetic (not ((VAR++)) with set -e)
new_depth=$((current_depth + 1))
jq --argjson d "$new_depth" '.depth = $d' "$STATE_FILE" > "${STATE_FILE}.tmp"
mv "${STATE_FILE}.tmp" "$STATE_FILE"

Kritische Lektion: Verwenden Sie Spawn-Budgets, nicht nur Tiefenlimits. Tiefenbasierte Limits verfolgen Eltern-Kind-Ketten (blockiert bei Tiefe 3), übersehen aber die Breite: 23 Agents auf Tiefe 1 sind immer noch „Tiefe 1“. Ein Spawn-Budget verfolgt die Gesamtzahl aktiver Kinder pro Parent, begrenzt durch ein konfigurierbares Maximum. Das Budgetmodell bildet den tatsächlichen Fehlermodus ab (zu viele Agents insgesamt) statt einer Ersatzmetrik (zu viele Verschachtelungsebenen).7

Rekursive Delegierung ist jetzt eine First-Party-Tiefe. Seit Claude Code v2.1.172 (10. Juni 2026) können sub-agents ihre eigenen sub-agents spawnen, verschachtelt bis zu 5 Ebenen tief — zuvor war Delegierung praktisch auf eine Ebene begrenzt.62 Dadurch wird der obige Rekursionsschutz wichtiger, nicht weniger wichtig: Die Plattform erlaubt nun genau jene Agent-an-Agent-Delegierungsketten, die Kontext und Tokens verbrennen. Deshalb sind Spawn-Budget und Tiefenlimit das, was einen Baum mit 5 Ebenen daran hindert, sich zu Hunderten aktiver Agents aufzufächern. Behandeln Sie 5 Ebenen als von der Plattform erlaubte Obergrenze, nicht als Standardziel.

Auto-Modus prüft Spawns jetzt vor dem Start. Claude Code v2.1.178 hat die Governance-Lücke beim Matching geschlossen: Im Auto-Modus werden subagent-Spawns vom Berechtigungsklassifizierer vor dem Start des subagent bewertet, nicht erst, sobald er Aktionen ausführt.63 Zuvor konnte ein subagent gespawnt werden, um eine Aktion anzufordern, die der Parent-Sitzung untersagt gewesen wäre — der Spawn selbst war die Umgehung. Die Prüfung zum Spawn-Zeitpunkt bedeutet, dass Rekursionsschutz und Berechtigungsmodell endlich zusammenlaufen: Ein Child kann nicht als Verschleierungsschritt für eine Aktion verwendet werden, die die Richtlinie verbietet.

Agent Teams (Research Preview)

Agent Teams koordinieren mehrere Claude Code-Instanzen, die unabhängig arbeiten, über eine gemeinsame Mailbox und Aufgabenliste kommunizieren und die Ergebnisse der jeweils anderen infrage stellen können:5

Komponente Rolle
Team lead Hauptsitzung, die das Team erstellt, Teammates spawnt und die Arbeit koordiniert
Teammates Separate Claude Code-Instanzen, die an zugewiesenen Aufgaben arbeiten
Task list Gemeinsame Arbeitselemente, die Teammates übernehmen und abschließen (dateigesperrt)
Mailbox Nachrichtensystem für die Kommunikation zwischen Agents

Aktivieren mit: export CLAUDE_CODE_EXPERIMENTAL_AGENT_TEAMS=1

Wann Sie Agent Teams statt subagents verwenden sollten:

Subagents Agent Teams
Kommunikation Ergebnisse nur zurückmelden Teammates senden sich direkt Nachrichten
Koordination Haupt-Agent verwaltet die gesamte Arbeit Gemeinsame Aufgabenliste mit Selbstkoordination
Am besten für Fokussierte Aufgaben, bei denen nur das Ergebnis zählt Komplexe Arbeit, die Diskussion und Zusammenarbeit erfordert
Token-Kosten Niedriger Höher (jeder Teammate = eigenes Kontextfenster)

Agent View und Goal Loops (Mai 2026)

Claude Code v2.1.139 fügte Agent View hinzu, eine Research-Preview-Oberfläche, die mit claude agents gestartet wird und laufende, blockierte und abgeschlossene Claude Code-Sitzungen auf einem Bildschirm zeigt.4243 Die offiziellen Dokumente beschreiben sie als Möglichkeit, viele Sitzungen zu dispatchen und zu verwalten, zu sehen, was jede Sitzung tut, und zu erkennen, welche Sitzungen Eingaben durch einen Operator benötigen.43 Damit erhält Multi-Agent-Arbeit eine Betriebsansicht, die abschließende Zusammenfassungen nicht liefern können.

Verwenden Sie Agent View, wenn Sie ein subagent- oder Team-Muster hochstufen: Prüfen Sie, welche Sitzungen blockiert sind, welche noch laufen und ob die Arbeitsverteilung zur beabsichtigten Architektur passt. Behandeln Sie sie nicht als Qualitätsnachweis. Sie ist Observability; Tests, Review-Gates und Evidence-Reports entscheiden weiterhin, ob die Arbeit solide ist.

Dieselbe Version fügte /goal hinzu, das eine Abschlussbedingung setzt und Claude über Turns hinweg weiterlaufen lässt, bis die Bedingung erfüllt ist, einschließlich interaktiver Nutzung, -p und Remote Control.42 Behandeln Sie /goal als sitzungsbezogene Completion-Loop, nicht als Ersatz für deterministische Gates. Es ist nützlich, um einen Agent auf ein Ziel fokussiert zu halten, aber Tests, Zitationsprüfungen, Deployment-Prüfungen und Security-hooks sollten dort befehls- oder skriptgestützt bleiben, wo ein Fehlschlag blockieren muss.

Workflow-Tool (v2.1.147+)

Claude Code v2.1.147 ergänzt ein standardmäßig deaktiviertes Workflow-Tool für deterministische Multi-Agent-Orchestrierung. Aktivieren Sie es mit CLAUDE_CODE_WORKFLOWS=1.52 Architektonisch ist das wichtig, weil Claude Code damit ein First-Party-Orchestrierungsprimitiv für Abläufe erhält, die zuvor eigene dispatcher-Skripte, Mailbox-State und subagent-Koordinationskonventionen erforderten.

Löschen Sie nicht den harness darum herum. Ein Workflow kann die Ausführung strukturieren, ersetzt aber nicht Ihr Sicherheitsmodell. Behalten Sie PreToolUse- und PostToolUse-hooks als blockierende Ebene bei, behalten Sie Spawn-Budgets oder Workflow-Schrittbudgets bei, um ausufernde Breite zu verhindern, halten Sie den Dateisystemzustand auditierbar und führen Sie abschließende Evidence-Reports außerhalb der Selbsteinschätzung des Modells. In der Praxis: Verwenden Sie Workflow für die Orchestrierungsform; verwenden Sie hooks, Tests und Review-Gates für die Wahrheit.


Multi-Agent-Orchestrierung

Single-Agent-KI-Systeme haben einen strukturellen blinden Fleck: Sie können ihre eigenen Annahmen nicht infrage stellen.7 Multi-Agent-Deliberation erzwingt eine unabhängige Bewertung aus mehreren Perspektiven, bevor eine Entscheidung festgeschrieben wird.

Tool-übergreifende Orchestrierung (April 2026): Google hat am 7. April Scion als Open Source veröffentlicht — einen Multi-Agent-Hypervisor, der Claude Code, Gemini CLI und andere „Deep Agents” als nebenläufige Prozesse ausführt, jeder mit isoliertem Container, Git-Worktree und eigenen Credentials. Läuft lokal, im Hub oder auf Kubernetes. Explizite Philosophie: „Isolation statt Beschränkungen” — Agenten laufen mit hoher Autonomie innerhalb von Grenzen, die auf der Infrastrukturebene durchgesetzt werden, nicht im Prompt.25 Dies erweitert das Argument der Subagent-Isolation direkt auf verschiedene Tool-Anbieter. Wenn Ihr Workflow Claude und OpenAI-Modelle umfasst, ist Scion die erste echte Referenzimplementierung für tool-übergreifende Subagenten mit Worktree- und Credential-Isolation pro Agent.

Debatte ist keine Wunderwaffe: Der Forschungscluster M3MAD-Bench (Anfang 2026) hat festgestellt, dass Multi-Agent-Debatten ein Plateau erreichen und durch irreführenden Konsens unterlaufen werden können — gültige Argumente verlieren, wenn andere Agenten selbstbewusst die falsche Antwort behaupten.26 Tool-MAD verbessert dies, indem jedem Agenten heterogener Tool-Zugriff gewährt wird und in der Judge-Phase Faithfulness-/Relevance-Scores verwendet werden. Wenn Sie debattenartige Orchestrierung aufbauen, investieren Sie in (a) Tool-Heterogenität pro Agent und (b) quantitatives Judge-Scoring, anstatt anzunehmen, dass mehr Agenten = bessere Antworten bedeutet.

Managed Multiagent Orchestration und Outcomes (Public Beta)

Wenn Sie die unten beschriebene Deliberations-Infrastruktur nicht selbst aufbauen möchten, ist Multiagent Orchestration am 6. Mai 2026 in Claude Managed Agents in die Public Beta gegangen.35 Laut Anthropic: „Wenn die Arbeit für einen einzelnen Agenten zu umfangreich ist, um sie gut zu erledigen, ermöglicht Multiagent Orchestration einem Lead-Agenten, die Aufgabe in Teile aufzubrechen und jedes davon an einen Spezialisten mit eigenem Modell, Prompt und eigenen Tools zu delegieren.”35 Spezialisten „arbeiten parallel auf einem gemeinsamen Dateisystem und tragen zum Gesamtkontext des Lead-Agenten bei.”35

Tracing ist sofort einsatzbereit. Laut Anthropic: „Sie können außerdem jeden Schritt in der Claude-Konsole nachverfolgen: welcher Agent was wann und warum getan hat — was Ihnen vollständige Transparenz darüber gibt, wie Ihre Aufgabe delegiert und ausgeführt wurde.”35

Die ergänzende Public-Beta-Funktion ist Outcomes. Laut Anthropic: „Sie schreiben eine Rubric, die beschreibt, wie Erfolg aussieht, und der Agent arbeitet darauf hin. Ein separater Grader bewertet die Ausgabe in seinem eigenen Kontextfenster anhand Ihrer Kriterien, sodass er nicht durch das Reasoning des Agenten beeinflusst wird.”35 Dies ist die Managed-Service-Variante des Two-Gate-Validierungsmusters, das später in diesem Abschnitt dokumentiert wird: Die Rubric ersetzt das handgeschriebene Gate, der separate Grader ersetzt den Konsens-Validator.

Selbstgehostete Deliberation (dieser Abschnitt) Managed Multiagent + Outcomes
Spezialisten-Routing Sie schreiben die Spawn-Logik Lead-Agent zerlegt die Aufgabe in Teile
Validierung Two-Gate-Hooks + Konsens-Scoring Rubric + Grader in separatem Kontext
Tracing Sie instrumentieren es selbst Claude-Konsole
Am besten geeignet für Muster, die volle Kontrolle oder eine spezifische Tool-Komposition erfordern Standard-Delegationsmuster, bei denen die Validierungs-Rubric den Vertrag darstellt
Preisgestaltung Nur Token- + Harness-Kosten Standard-Tokens plus die Stundenrate für Managed-Agents-Sitzungen (Basis vom 8. April; siehe 23)

Selbstgehostete Deliberation bleibt die richtige Antwort, wenn die Validierung in Ihre eigene Hook-Oberfläche integriert werden muss (PreToolUse-Blocking, Exit-Code-Semantik, eigene Dispatcher) oder wenn die Harness ohne externe Abhängigkeiten laufen muss. Managed Multiagent ist die richtige Antwort, wenn Standard-Delegation plus Rubric-Grading der Vertrag ist, den Sie tatsächlich benötigen.

Minimal tragfähige Deliberation

Beginnen Sie mit 2 Agenten und 1 Regel: Agenten müssen unabhängig bewerten, bevor sie die Arbeit des jeweils anderen sehen.7

Decision arrives
  |
  v
Confidence check: is this risky, ambiguous, or irreversible?
  |
  +-- NO  -> Single agent decides (normal flow)
  |
  +-- YES -> Spawn 2 agents with different system prompts
             Agent A: "Argue FOR this approach"
             Agent B: "Argue AGAINST this approach"
             |
             v
             Compare findings
             |
             +-- Agreement with different reasoning -> Proceed
             +-- Genuine disagreement -> Investigate the conflict
             +-- Agreement with same reasoning -> Suspect herding

Dieses Muster deckt 80 % des Nutzens ab. Alles Weitere bringt nur inkrementelle Verbesserungen.

Der Confidence-Trigger

Nicht jede Aufgabe braucht Deliberation. Ein Modul für Konfidenz-Scoring bewertet vier Dimensionen:17

  1. Mehrdeutigkeit – Hat die Anfrage mehrere gültige Interpretationen?
  2. Domänenkomplexität – Erfordert sie spezialisiertes Wissen?
  3. Tragweite – Ist die Entscheidung umkehrbar?
  4. Kontextabhängigkeit – Erfordert sie ein Verständnis des breiteren Systems?

Der Score wird drei Stufen zugeordnet:

Stufe Schwellenwert Aktion
HIGH 0,85+ Ohne Deliberation fortfahren
MEDIUM 0,70–0,84 Mit protokolliertem Konfidenz-Hinweis fortfahren
LOW Unter 0,70 Vollständige Multi-Agent-Deliberation auslösen

Der Schwellenwert passt sich dem Aufgabentyp an. Sicherheitsentscheidungen erfordern einen Konsens von 0,85. Dokumentationsänderungen benötigen lediglich 0,50. Damit wird Over-Engineering bei einfachen Aufgaben verhindert, während riskante Entscheidungen geprüft werden.7

Die State Machine

Sieben Phasen, jede vom Abschluss der vorherigen abhängig:7

IDLE -> RESEARCH -> DELIBERATION -> RANKING -> PRD_GENERATION -> COMPLETE
                                                                    |
                                                              (or FAILED)

RESEARCH: Unabhängige Agenten untersuchen das Thema. Jeder Agent erhält eine andere Persona (Technical Architect, Security Analyst, Performance Engineer und weitere). Kontextisolation stellt sicher, dass Agenten während der Recherche die Erkenntnisse der anderen nicht sehen können.

DELIBERATION: Agenten sehen alle Forschungsergebnisse und generieren Alternativen. Der Debate-Agent identifiziert Konflikte. Der Synthesis-Agent kombiniert nicht widersprüchliche Erkenntnisse.

RANKING: Jeder Agent bewertet jeden vorgeschlagenen Ansatz anhand von 5 gewichteten Dimensionen:

Dimension Gewicht
Impact 0,25
Quality 0,25
Feasibility 0,20
Reusability 0,15
Risk 0,15

Die Two-Gate-Validierungsarchitektur

Zwei Validierungs-Gates fangen Probleme in unterschiedlichen Phasen ab:7

Gate 1: Consensus-Validierung (PostToolUse-Hook). Läuft unmittelbar nach Abschluss jedes Deliberations-Agenten: 1. Die Phase muss mindestens RANKING erreicht haben 2. Mindestens 2 Agenten abgeschlossen (konfigurierbar) 3. Der Consensus-Score erreicht den aufgaben-adaptiven Schwellenwert 4. Wenn ein Agent abweichender Meinung war, müssen die Bedenken dokumentiert sein

Gate 2: Pride Check (Stop-Hook). Läuft, bevor die Sitzung geschlossen werden kann: 1. Vielfältige Methoden: mehrere einzigartige Personas vertreten 2. Widerspruchstransparenz: Abweichungen haben dokumentierte Gründe 3. Komplexitätsbehandlung: mindestens 2 Alternativen generiert 4. Consensus-Konfidenz: klassifiziert als stark (über 0,85) oder moderat (0,70–0,84) 5. Verbesserungsnachweis: Die Endkonfidenz übersteigt die Anfangskonfidenz

Zwei Hooks an unterschiedlichen Lifecycle-Punkten passen dazu, wie Fehler tatsächlich auftreten: Manche sind sofort sichtbar (schlechter Score), andere schleichend (geringe Vielfalt, fehlende Dokumentation von Abweichungen).7

Warum Übereinstimmung gefährlich ist

Charlan Nemeth erforschte den Minderheits-Widerspruch von 1986 bis zu ihrem Buch In Defense of Troublemakers aus dem Jahr 2018. Gruppen mit Andersdenkenden treffen bessere Entscheidungen als Gruppen, die schnell zu einer Einigung gelangen. Der Andersdenkende muss nicht recht haben. Allein der Akt des Widerspruchs zwingt die Mehrheit, Annahmen zu prüfen, die sie sonst übergehen würde.18

Wu et al. testeten, ob LLM-Agenten wirklich debattieren können, und stellten fest, dass Agenten ohne strukturelle Anreize für Widerspruch unabhängig von der Korrektheit zu der initial selbstbewusstesten Antwort konvergieren.19 Liang et al. identifizierten als Grundursache die „Degeneration-of-Thought”: Sobald ein LLM Vertrauen in eine Position aufgebaut hat, kann Selbstreflexion keine neuen Gegenargumente mehr erzeugen, weshalb Multi-Agent-Bewertung strukturell notwendig ist.20

Unabhängigkeit ist die entscheidende Designvorgabe. Zwei Agenten, die dieselbe Deployment-Strategie mit Einsicht in die Erkenntnisse des jeweils anderen bewerteten, vergaben Scores von 0,45 und 0,48. Dieselben Agenten ohne Einsicht: 0,45 und 0,72. Die Lücke zwischen 0,48 und 0,72 ist der Preis des Herding-Effekts.7

Vorgetäuschte Übereinstimmung erkennen

Ein Modul zur Konformitätserkennung verfolgt Muster, die darauf hindeuten, dass Agenten ohne echte Bewertung zustimmen:7

Score-Clustering: Wenn jeder Agent auf einer 10-Punkte-Skala innerhalb von 0,3 Punkten bewertet, deutet dies auf gemeinsame Kontextkontamination statt auf unabhängige Bewertung hin. Als fünf Agenten, die ein Authentifizierungs-Refactoring bewerteten, das Sicherheitsrisiko durchgängig zwischen 7,1 und 7,4 einstuften, streuten die Scores nach erneutem Durchlauf mit frischer Kontextisolation auf 5,8–8,9.

Boilerplate-Widerspruch: Agenten, die die Bedenken-Sprache der anderen kopieren, anstatt unabhängige Einwände zu formulieren.

Fehlende Minderheitsperspektiven: Einstimmige Zustimmung von Personas mit konkurrierenden Prioritäten (ein Security Analyst und ein Performance Engineer sind selten in allem einer Meinung).

Der Konformitätsdetektor erfasst die offensichtlichen Fälle (etwa 10–15 % der Deliberationen, in denen Agenten zu schnell konvergieren). Für die verbleibenden 85–90 % bieten die Consensus- und Pride-Check-Gates eine ausreichende Validierung.

Was bei der Deliberation nicht funktioniert hat

Freie Debattenrunden. Drei Runden Hin-und-Her-Text zu einer Diskussion über Datenbankindizierung erzeugten 7.500 Tokens an Debatte. Runde 1: echter Widerspruch. Runde 2: erneut formulierte Positionen. Runde 3: identische Argumente in anderen Worten. Strukturiertes Dimensions-Scoring ersetzte die freie Debatte, senkte die Kosten um 60 % und verbesserte gleichzeitig die Ranking-Qualität.7

Einzelnes Validierungs-Gate. Die erste Implementierung führte einen einzigen Validierungs-Hook am Sitzungsende aus. Ein Agent schloss die Deliberation mit einem Consensus-Score von 0,52 ab (unter dem Schwellenwert), arbeitete dann 20 Minuten an unabhängigen Aufgaben weiter, bevor der Sitzungsende-Hook das Versagen meldete. Die Aufteilung in zwei Gates (eines bei Aufgabenabschluss, eines am Sitzungsende) fing dieselben Probleme an unterschiedlichen Lifecycle-Punkten ab.7

Kosten der Deliberation

Jeder Recherche-Agent verarbeitet etwa 5.000 Tokens Kontext und erzeugt 2.000–3.000 Tokens an Erkenntnissen. Bei 3 Agenten sind das 15.000–24.000 zusätzliche Tokens pro Entscheidung. Bei 10 Agenten etwa 50.000–80.000 Tokens.7

Bei aktuellen Opus-Preisen kostet eine 3-Agenten-Deliberation ungefähr 0,68–0,90 USD. Eine 10-Agenten-Deliberation kostet 2,25–3,00 USD. Das System löst Deliberation bei etwa 10 % der Entscheidungen aus, sodass die amortisierten Kosten über alle Entscheidungen hinweg 0,23–0,30 USD pro Sitzung betragen. Ob sich das lohnt, hängt davon ab, was eine schlechte Entscheidung kostet.

Wann zu deliberieren ist

Deliberieren Auslassen
Sicherheitsarchitektur Tippfehler in der Dokumentation
Datenbankschema-Design Variablen-Umbenennungen
API-Vertragsänderungen Aktualisierungen von Log-Meldungen
Deployment-Strategien Umformulierung von Kommentaren
Dependency-Upgrades Aktualisierungen von Test-Fixtures

CLAUDE.md-Design

CLAUDE.md ist operative Richtlinie für einen AI agent, kein README für Menschen.21 Der Agent muss nicht verstehen, warum Sie conventional commits verwenden. Er muss den exakten auszuführenden Befehl kennen und wissen, wie „done“ aussieht.

Die Precedence-Hierarchie

Ort Geltungsbereich Geteilt Use Case
Enterprise managed settings Organisation Alle Benutzer Unternehmensstandards
./CLAUDE.md oder ./.claude/CLAUDE.md Projekt Über git Teamkontext
~/.claude/CLAUDE.md Benutzer Alle Projekte Persönliche Präferenzen
./CLAUDE.local.md Projektlokal Nie Persönliche Projektnotizen
.claude/rules/*.md Projektregeln Über git Kategorisierte Richtlinien
~/.claude/rules/*.md Benutzerregeln Alle Projekte Persönliche Richtlinien

Rules-Dateien werden automatisch geladen und liefern strukturierten Kontext, ohne CLAUDE.md zu überfrachten.6

Was ignoriert wird

Diese Muster erzeugen zuverlässig keine beobachtbare Änderung im Agent-Verhalten:21

Prosabsätze ohne Befehle. „Wir legen Wert auf sauberen, gut getesteten Code“ ist Dokumentation, keine operative Anweisung. Der Agent liest es und schreibt anschließend Code ohne Tests, weil es keine umsetzbare Anweisung gibt.

Mehrdeutige Anweisungen. „Seien Sie vorsichtig mit Datenbankmigrationen“ ist keine Einschränkung. „Führen Sie alembic check aus, bevor Sie Migrationen anwenden. Brechen Sie ab, wenn der Downgrade-Pfad fehlt.“ ist eine.

Widersprüchliche Prioritäten. „Schnell vorankommen und zügig ausliefern“ plus „Umfassende Testabdeckung sicherstellen“ plus „Laufzeit unter 5 Minuten halten“ plus „Vor jedem Commit vollständige Integrationstests ausführen.“ Der Agent kann nicht alle vier gleichzeitig erfüllen und überspringt standardmäßig die Verifikation.21

Styleguides ohne Durchsetzung. „Befolgen Sie den Google Python Style Guide“ ohne ruff check --select D gibt dem Agent keinen Mechanismus, die Einhaltung zu überprüfen.

Was funktioniert

Befehlsorientierte Anweisungen:

## Build and Test Commands
- Install: `pip install -r requirements.txt`
- Lint: `ruff check . --fix`
- Format: `ruff format .`
- Test: `pytest -v --tb=short`
- Type check: `mypy app/ --strict`
- Full verify: `ruff check . && ruff format --check . && pytest -v`

Abschlussdefinitionen:

## Definition of Done
A task is complete when ALL of the following pass:
1. `ruff check .` exits 0
2. `pytest -v` exits 0 with no failures
3. `mypy app/ --strict` exits 0
4. Changed files have been staged and committed
5. Commit message follows conventional format: `type(scope): description`

Aufgabenorientierte Abschnitte:

## When Writing Code
- Run `ruff check .` after every file change
- Add type hints to all new functions

## When Reviewing Code
- Check for security issues: `bandit -r app/`
- Verify test coverage: `pytest --cov=app --cov-fail-under=80`

## When Releasing
- Update version in `pyproject.toml`
- Run full suite: `pytest -v && ruff check . && mypy app/`

Eskalationsregeln:

## When Blocked
- If tests fail after 3 attempts: stop and report the failing test with full output
- If a dependency is missing: check `requirements.txt` first, then ask
- Never: delete files to resolve errors, force push, or skip tests

Schreibreihenfolge

Wenn Sie bei null anfangen, fügen Sie Abschnitte in dieser Prioritätsreihenfolge hinzu:21

  1. Build- und Testbefehle (der Agent braucht diese, bevor er etwas Nützliches tun kann)
  2. Definition of done (verhindert falsche Abschlussmeldungen)
  3. Eskalationsregeln (verhindert destruktive Workarounds)
  4. Aufgabenorientierte Abschnitte (reduziert das Parsen irrelevanter Anweisungen)
  5. Verzeichnis-Scoping (Monorepos: hält Service-Anweisungen isoliert)

Überspringen Sie Stilpräferenzen, bis die ersten vier Punkte funktionieren.

Datei-Imports

Referenzieren Sie andere Dateien innerhalb von CLAUDE.md:

See @README.md for project overview
Coding standards: @docs/STYLE_GUIDE.md
API documentation: @docs/API.md
Personal preferences: @~/.claude/preferences.md

Import-Syntax: relativ (@docs/file.md), absolut (@/absolute/path.md) oder Home-Verzeichnis (@~/.claude/file.md). Maximale Tiefe: 5 Importebenen.6

Toolübergreifende Anweisungskompatibilität

AGENTS.md ist ein offener Standard, der von allen wichtigen AI-Coding-Tools erkannt wird.21 Wenn Ihr Team mehrere Tools verwendet, schreiben Sie AGENTS.md als kanonische Quelle und spiegeln Sie relevante Abschnitte in toolspezifische Dateien:

Tool Native Datei Liest AGENTS.md?
Codex CLI AGENTS.md Ja (nativ)
Cursor .cursor/rules Ja (nativ)
GitHub Copilot .github/copilot-instructions.md Ja (nativ)
Amp AGENTS.md Ja (nativ)
Windsurf .windsurfrules Ja (nativ)
Claude Code CLAUDE.md Nein (separates Format)

Die Muster in AGENTS.md (befehlsorientiert, abschlussdefiniert, aufgabenorientiert) funktionieren in jeder Anweisungsdatei unabhängig vom Tool. Pflegen Sie keine parallelen Anweisungssätze, die auseinanderdriften. Schreiben Sie eine maßgebliche Quelle und spiegeln Sie sie.

Codex-Paritätshinweise

Codex verfügt inzwischen über erstklassige Entsprechungen für die wichtigsten harness-Schichten, aber die Migration ist eine Musterübersetzung, keine Dateikopie. Codex liest AGENTS.md, bevor die Arbeit beginnt, und schichtet globale Vorgaben aus ~/.codex mit Projekt- und verschachtelten Repository-Anweisungen.31 Codex skills verwenden dasselbe SKILL.md-Denkmodell mit progressive disclosure: Codex beginnt mit Skill-Name, Beschreibung und Dateipfad und lädt den vollständigen Skill erst, wenn es entscheidet, ihn zu verwenden.32 Codex hat außerdem native hooks, plugin-gebündelte hooks, managed hooks, MCP-Unterstützung und explizite subagent-Workflows.3334

Codex v0.138.0–v0.139.0 hat diese AGENTS.md-Erkennung für nicht triviale Workspaces gehärtet: Das Laden läuft jetzt über die Dateisystemabstraktion der Umgebung und bewahrt logische Pfade während des Discovery-Walks, sodass die richtige Datei ausgewählt wird, selbst wenn der Workspace ein Remote-Dateisystem oder ein symlinkter Baum ist.61 Das ist immer dann wichtig, wenn Ihr kanonisches AGENTS.md die maßgebliche Quelle ist und der Agent über einen gemounteten, container-materialisierten oder symlinkten Checkout arbeitet — also genau in den Fällen, in denen ein naiver Pfad-Walk stillschweigend die falsche Anweisungsdatei oder gar keine auswählt. Wenn Sie ein maßgebliches AGENTS.md über Services hinweg spiegeln, behandeln Sie dies als Mindestniveau, um darauf zu vertrauen, dass die vom Agent tatsächlich geladene Datei die ist, die Sie geschrieben haben.

Codex v0.141.0 hat anschließend den Remote-Execution-Pfad selbst gehärtet: Remote-Executors verbinden sich jetzt über authentifizierte, Ende-zu-Ende-verschlüsselte Noise-relay channels (Control Plane und Executor vertrauen dem Relay zwischen ihnen nicht mehr), plattformübergreifende Remote Execution bewahrt das native Arbeitsverzeichnis und die Shell des Executors, und TLS akzeptiert P-521-Zertifikatsignaturen für Enterprise-Proxys.65 Wenn Ihre Orchestrierung Codex-Executors über eine Netzwerkgrenze hinweg steuert, ist das der Unterschied zwischen einer Trusted-Relay-Annahme und einer Ende-zu-Ende-verschlüsselten Annahme — behandeln Sie es als Basis für jede Remote-Executor-Topologie.

Die praktische Zuordnung:

Claude Code harness-Schicht Codex-Entsprechung Migrationsregel
CLAUDE.md / .claude/rules/ AGENTS.md / verschachteltes AGENTS.override.md Halten Sie Befehle und Abschlussregeln kanonisch; teilen Sie nur auf, wenn sich der Verzeichnisgeltungsbereich wirklich unterscheidet
.claude/skills/<name>/SKILL.md .agents/skills/<name>/SKILL.md oder Plugin-Skill Portieren Sie wiederverwendbare Workflows, aber schreiben Sie Beschreibungen für Codexs Aktivierungswortlaut und Budget um
.claude/settings.json hooks Codex config.toml, plugin hooks oder managed requirements hooks Portieren Sie zuerst deterministische Gates; testen Sie jeden hook mit echten Tool-Events, bevor Sie ihn breit aktivieren
.claude/agents/*.md ~/.codex/agents/*.toml, .codex/agents/*.toml oder integrierter worker / explorer Portieren Sie nur Agents mit wiederholtem Nutzen; bevorzugen Sie explizite Delegation, weil Codex subagents explizit sind
Plugins Codex plugins Verwenden Sie Plugins als Distributionseinheit, nachdem lokale hooks und skills nachweislich funktionieren

Der wichtige Unterschied: Claude subagents können anhand von Beschreibungen automatisch ausgewählt werden, während Codex subagent-Workflows derzeit als explizit dokumentiert. Deshalb sind skills und hooks in Codex die richtige Voreinstellung für dauerhaft aktives harness-Verhalten; subagents eignen sich für bewusst angestoßene parallele Arbeit, Reviews und Exploration.

Ihre Anweisungen testen

Prüfen Sie, ob der Agent Ihre Anweisungen tatsächlich liest und befolgt:

# Check active instructions
claude --print "What instructions are you following for this project?"

# Verify specific rules are active
claude --print "What is your definition of done?"

Der Härtetest: Bitten Sie den Agent, Ihre Build-Befehle zu erklären. Wenn er sie nicht wortgetreu wiedergeben kann, sind die Anweisungen entweder zu ausführlich (Inhalt wurde aus dem Kontext gedrängt), zu vage (der Agent kann keine umsetzbaren Anweisungen extrahieren) oder werden nicht gefunden. Die Analyse von GitHub über 2.500 Repositories ergab, dass Unschärfe die meisten Fehler verursacht.21


Production Patterns

Opus 4.7 Long-Horizon Patterns (April 2026)

Claude Opus 4.7 (16. April 2026) wurde mit spezifischen Fähigkeiten ausgeliefert, die ändern, wogegen ein Harness sich absichern muss:29

  • Tool-failure Resilience: Opus 4.7 arbeitet auch nach Tool-Fehlern weiter, die Opus-4.6-Sitzungen angehalten hätten. Sie können defensive Retry-Wrapper im subagent-Code reduzieren, aber nicht vollständig entfernen. Behalten Sie die Guards auf hook-Ebene bei; kürzen Sie das In-Prompt-Gerüst nach dem Muster „wenn das Tool fehlschlägt, versuchen Sie es dreimal erneut“.
  • xhigh Effort-Tier (nur Opus-4.7): Liegt zwischen high und max. Empfohlener Standard für Coding- und agentische Workloads. Bei lang laufenden subagents übertrifft xhigh high deutlich, bei unterproportionalen Token-Kosten. max bleibt die richtige Wahl für schwieriges Single-Shot-Reasoning; xhigh eignet sich besser für ausdauernde Aufgaben.
  • Token-Budget-Obergrenze: Pro Agent-Lauf über output_config.task_budget konfigurierbar (Beta-Header task-budgets-2026-03-13). Das Modell sieht einen laufenden Countdown und grenzt die Arbeit elegant auf das Budget ein, statt unerwartet auszulaufen. Nutzen Sie dies für agentische Schleifen, wenn Sie vorhersehbare Token-Ausgaben möchten, ohne bei kurzen Prompts Qualität zu opfern.
  • Bewusstsein für implizite Bedürfnisse: Erstes Claude-Modell, das „implicit-need“-Tests besteht, also erkennt, wenn die wörtliche Anfrage des Benutzers nicht vollständig beschreibt, was tatsächlich gebraucht wird. Dadurch wird der Abschnitt „Clarifying Rules“ in CLAUDE.md weniger notwendig. Wenn Ihre CLAUDE.md aus 200 Zeilen „auch X berücksichtigen, wenn der Benutzer nach Y fragt“-Guardrails besteht, kürzen Sie die Regeln, die nun nativ abgedeckt sind.

Worktree Base, Sandbox-Pfade und Admin-Einstellungen (7. Mai 2026)

Claude Code v2.1.133 ergänzt vier Admin-Tier-Einstellungen, die für Produktions-Harnesses wichtig sind:39

Einstellung Werte Wirkung
worktree.baseRef fresh (Standard) | head Neue Worktrees verzweigen wieder von origin/<default>. Breaking-Default-Rücknahme gegenüber v2.1.128, das lokales HEAD verwendet hatte. Setzen Sie worktree.baseRef: "head", wenn Ihr Team darauf angewiesen ist, dass nicht gepushte Commits in neuen Worktrees verfügbar sind.
sandbox.bwrapPath absoluter Pfad Legt den Speicherort der Bubblewrap-Binärdatei auf Linux-/WSL-Hosts fest, auf denen sie nicht in $PATH liegt oder auf denen Sie eine vendored Version ausliefern.
sandbox.socatPath absoluter Pfad Dasselbe Prinzip für die socat-Binärdatei, die vom Sandbox-Networking verwendet wird.
parentSettingsBehavior 'first-wins' (Standard) | 'merge' Admin-Tier-Steuerung dafür, wie SDK managedSettings mit übergeordneten Enterprise-/Team-Einstellungen kombiniert werden. 'merge' lässt eine Child-Session erben und erweitern; 'first-wins' hält die Parent-Einstellung autoritativ.

Die Rücknahme bei worktree.baseRef sollten Sie Benutzern besonders markieren: Agents, die sich auf das Verhalten von v2.1.128 bis v2.1.132 verlassen haben (Worktrees verzweigen von lokalem HEAD), verlieren in frischen Worktrees Zugriff auf nicht gepushte Arbeit, sofern sie nicht explizit zurückwechseln.

OTel-Feedbackumfrage für Enterprise Observability (8. Mai 2026)

Claude Code v2.1.136 fügte CLAUDE_CODE_ENABLE_FEEDBACK_SURVEY_FOR_OTEL hinzu, um die Qualitätumfrage innerhalb der Sitzung für Unternehmen wieder zu aktivieren, die die Antworten über OpenTelemetry erfassen.40 Wenn Ihre Organisation OTel-Events in einen zentralen Observability-Stack leitet, bringt diese Umgebungsvariable die Umfrage zurück in den Datenpfad, sodass Qualitätssignale durch dieselbe Pipeline fließen wie Latenz- und Fehlermetriken. Behandeln Sie sie als Opt-in: Standardmäßig bleibt die Umfrage unterdrückt, was für Nicht-OTel-Deployments korrekt ist.

Der Quality Loop

Ein verpflichtender Review-Prozess für alle nicht trivialen Änderungen:

  1. Implementieren - Schreiben Sie den Code
  2. Reviewen - Lesen Sie jede Zeile erneut. Finden Sie Tippfehler, Logikfehler und unklare Abschnitte
  3. Evaluieren - Führen Sie das evidence gate aus. Prüfen Sie Muster, Edge Cases und Testabdeckung
  4. Verfeinern - Beheben Sie jedes Problem. Verschieben Sie nichts auf „später“
  5. Herauszoomen - Prüfen Sie Integrationspunkte, Imports und angrenzenden Code auf Regressionen
  6. Wiederholen - Wenn ein Kriterium des evidence gate fehlschlägt, kehren Sie zu Schritt 4 zurück
  7. Berichten - Listen Sie auf, was geändert wurde, wie es verifiziert wurde, und zitieren Sie konkrete Evidenz

Das Evidence Gate

„Ich glaube“ und „es sollte“ sind keine Evidenz. Zitieren Sie Dateipfade, Testausgaben oder konkreten Code.

Kriterium Erforderliche Evidenz
Folgt den Mustern der Codebase Nennen Sie das Muster und die Datei, in der es existiert
Einfachste funktionierende Lösung Erklären Sie, welche einfacheren Alternativen verworfen wurden und warum
Edge Cases behandelt Listen Sie konkrete Edge Cases und deren jeweilige Behandlung auf
Tests bestehen Fügen Sie Testausgaben mit 0 Fehlern ein
Keine Regressionen Nennen Sie die geprüften Dateien/Funktionen
Löst das eigentliche Problem Benennen Sie das Bedürfnis des Benutzers und wie dies darauf eingeht

Wenn Sie für eine Zeile keine Evidenz liefern können, kehren Sie zu Verfeinern zurück.22

Menschliche Merge-Autorität

Eine arXiv-Studie vom Mai 2026 zu 29.585 Pull-Request-Lebenszyklen von AI agents trennt operative Agency von Merge-Governance.47 Die nützliche Architekturlektion ist einfach: Agents können Arbeit beginnen, Branches vorantreiben, PRs öffnen, Arbeit reviewen und Risiken zusammenfassen, während Merge-Autorität eine separate Governance-Grenze bleibt.

Machen Sie diese Grenze im Harness explizit. Lassen Sie Agents PRs vorbereiten und Evidenz sammeln; verlangen Sie menschliche Freigabe für Merges, Releases und destruktive Repository-Operationen, sofern die Organisation keine separat auditierte Automatisierungsrichtlinie hat. Wo Automatisierung einen Merge ausführt, bewahren Sie Logs auf, die den Executor von der Person oder Richtlinie unterscheiden, die ihn autorisiert hat.

Error-Handling-Patterns

Atomare Dateischreibvorgänge. Wenn mehrere Agents gleichzeitig in dieselbe State-Datei schreiben, wird JSON beschädigt. Schreiben Sie in .tmp-Dateien und verwenden Sie anschließend atomar mv. Das Betriebssystem garantiert, dass mv auf demselben Dateisystem atomar ist.17

# Atomic state update
jq --argjson d "$new_depth" '.depth = $d' "$STATE_FILE" > "${STATE_FILE}.tmp"
mv "${STATE_FILE}.tmp" "$STATE_FILE"

Wiederherstellung nach State-Beschädigung. Wenn State beschädigt wird, erstellt das Recovery-Pattern ihn aus sicheren Standardwerten neu, statt abzustürzen:16

if ! jq -e '.depth' "$RECURSION_STATE_FILE" &>/dev/null; then
    # Corrupted state file, recreate with safe defaults
    echo '{"depth": 0, "agent_id": "root", "parent_id": null}' > "$RECURSION_STATE_FILE"
    echo "- Recursion state recovered (was corrupted)"
fi

Die ((VAR++))-bash-Falle. ((VAR++)) gibt Exit-Code 1 zurück, wenn VAR 0 ist, weil 0++ zu 0 ausgewertet wird, was bash als false behandelt. Mit aktiviertem set -e beendet das das Skript. Verwenden Sie stattdessen VAR=$((VAR + 1)).16

Blast-Radius-Klassifizierung

Klassifizieren Sie jede Agent-Aktion nach Blast Radius und gaten Sie entsprechend:2

Klassifizierung Beispiele Gate
Lokal Dateischreibvorgänge, Testläufe, Linting Automatisch genehmigen
Geteilt Git-Commits, Branch-Erstellung Warnen + fortfahren
Extern Git-Push, API-Aufrufe, Deployments Menschliche Freigabe verlangen

Remote Control (Verbindung zu lokalem Claude Code aus jedem Browser oder jeder mobilen App) macht aus dem blockierenden Warten am „Extern“-Gate eine asynchrone Benachrichtigung. Der Agent arbeitet an der nächsten Aufgabe weiter, während Sie die vorherige vom Smartphone aus prüfen.2

Aufgabenspezifikation für autonome Läufe

Wirksame autonome Aufgaben enthalten drei Elemente: Ziel, Abschlusskriterien und Kontextverweise:16

OBJECTIVE: Implement multi-agent deliberation with consensus validation.

COMPLETION CRITERIA:
- All tests in tests/test_deliberation_lib.py pass (81 tests)
- post-deliberation.sh validates consensus above 70% threshold
- recursion-guard.sh enforces spawn budget (max 12 agents)
- No Python type errors (mypy clean)

CONTEXT:
- Follow patterns in lib/deliberation/state_machine.py
- Consensus thresholds in configs/deliberation-config.json
- Spawn budget model: agents inherit budget, not increment depth

Kriterien müssen maschinell verifizierbar sein: Test bestanden/fehlgeschlagen, Linter-Ausgabe, HTTP-Statuscodes, Prüfungen auf Dateiexistenz. Eine frühe Aufgabe, die den Agent bat, „Tests zu schreiben, die bestehen“, erzeugte assert True und assert 1 == 1. Technisch korrekt. Praktisch wertlos.16

Kriterienqualität Beispiel Ergebnis
Vage „Tests bestehen“ Agent schreibt triviale Tests
Messbar, aber unvollständig „Tests bestehen UND Coverage >80%“ Tests decken Zeilen ab, testen aber nichts Sinnvolles
Umfassend „Alle Tests bestehen UND Coverage >80% UND keine Typfehler UND Linter sauber UND jede Testklasse testet ein eigenes Modul“ Produktionsreife Ausgabe

Failure Modes, auf die Sie achten sollten

Failure Mode Beschreibung Vorbeugung
Shortcut Spiral Schritte des quality loop überspringen, um schneller fertig zu werden Evidence gate verlangt Belege für jedes Kriterium
Confidence Mirage „Ich bin zuversichtlich“ ohne ausgeführte Verifikation Hedging-Sprache in Abschlussberichten verbieten
Phantom Verification Behaupten, Tests bestünden, ohne sie in dieser Sitzung ausgeführt zu haben Stop hook führt Tests unabhängig aus
Deferred Debt TODO/FIXME/HACK in committetem Code PreToolUse hook auf git commit scannt Diff
Filesystem Pollution Sackgassen-Artefakte aus aufgegebenen Iterationen Cleanup-Schritt in Abschlusskriterien

Ein konkreter Session Trace

Ein Session Trace aus einem autonomen Lauf, der ein PRD mit 5 Stories verarbeitet:2

  1. SessionStart feuert. Dispatcher injiziert: aktuelles Datum, Projekterkennung, philosophische Constraints, Initialisierung der Kostenerfassung. Fünf hooks, insgesamt 180 ms.

  2. Agent liest das PRD und plant die erste Story. UserPromptSubmit feuert. Dispatcher injiziert: aktiven Projektkontext, Session-Drift-Baseline.

  3. Agent ruft Bash auf, um Tests auszuführen. PreToolUse:Bash feuert. Credential-Prüfung, Sandbox-Validierung, Projekterkennung. 90 ms. Tests laufen. PostToolUse:Bash feuert: Aktivitäts-Heartbeat protokolliert, Drift-Prüfung.

  4. Agent ruft Write auf, um eine Datei zu erstellen. PreToolUse:Write feuert: Prüfung des Dateiscopes. PostToolUse:Write feuert: Lint-Prüfung, Commit-Tracking.

  5. Agent schließt die Story ab. Stop feuert. Quality Gate prüft: Hat der Agent Evidenz zitiert? Hedging-Sprache? TODO-Kommentare im Diff? Wenn eine Prüfung fehlschlägt, Exit 2, und der Agent fährt fort.

  6. Unabhängige Verifikation: Ein frischer Agent führt die Testsuite aus, ohne dem Selbstbericht des vorherigen Agents zu vertrauen.

  7. Drei Code-Review-Agents starten parallel. Jeder reviewt den Diff unabhängig. Wenn ein Reviewer CRITICAL meldet, geht die Story zurück in die Queue.

  8. Story besteht. Nächste Story wird geladen. Der Zyklus wiederholt sich für alle 5 Stories.

Über 5 Stories hinweg ausgelöste hooks insgesamt: ~340. Gesamtzeit in hooks: ~12 Sekunden. Dieser Overhead verhinderte in einem einzigen Overnight-Run drei Credential-Leaks, einen destruktiven Befehl und zwei unvollständige Implementierungen.

Fallstudie: Overnight-PRD-Verarbeitung

Ein Produktions-Harness verarbeitete 12 PRDs (47 Stories) über 8 Overnight-Sessions. Die Metriken vergleichen die ersten 4 PRDs (minimaler Harness: nur CLAUDE.md) mit den letzten 8 (voller Harness: hooks, skills, Quality Gates, Multi-Agent-Review).

Metrik Minimal (4 PRDs) Voller Harness (8 PRDs) Änderung
Credential-Leaks 2 in git geleakt 7 vor dem Commit blockiert Reaktiv zu präventiv
Destruktive Befehle 1 Force-Push auf main 4 blockiert Exit-2-Erzwingung
False-Completion-Rate 35 % fehlgeschlagene Tests 4 % Evidence gate + Stop hook
Revisionsrunden/Story 2,1 0,8 Skills + quality loop
Kontextdegradation 6 Vorfälle 1 Vorfall Filesystem Memory
Token-Overhead 0 % ~3,2 % Vernachlässigbar
Hook-Zeit/Story 0 s ~2,4 s Vernachlässigbar

Die beiden Credential-Leaks machten das Rotieren von API-Schlüsseln und Audits nachgelagerter Dienste erforderlich: ungefähr 4 Stunden Incident Response. Der Harness-Overhead, der das Äquivalent verhinderte, betrug 2,4 Sekunden bash pro Story. Die False-Completion-Rate sank von 35 % auf 4 %, weil der Stop hook unabhängig Tests ausführte, bevor der Agent „fertig“ melden durfte.


Sicherheitsüberlegungen

Die fünf Prinzipien vertrauenswürdiger Agents (Anthropic, April 2026)

Anthropic veröffentlichte am 9. April 2026 ein formales Framework für die Vertrauenswürdigkeit von Agents.27 Die fünf Prinzipien entsprechen dem Evidence-Gate-Denken in diesem Leitfaden und erweitern es:

Prinzip Bedeutung Wie dieses harness es erfüllt
Menschliche Kontrolle Sinnvolle menschliche Eingriffsmöglichkeit an jedem Entscheidungspunkt Hooks prüfen Tool-Aufrufe; PreCompact-Blockierung; Auto-Mode-Klassifikator als Prüfschicht
Werteausrichtung Agent-Aktionen folgen der Benutzerabsicht, nicht benachbarten Zielen CLAUDE.md als explizite Absichtsspezifikation; skills als Eingrenzung von Fähigkeiten
Security Widerstandsfähigkeit gegen adversariale Eingaben und Prompt Injection Sandbox + Deny-Regeln + Eingabevalidierung auf Hook-Ebene
Transparenz Auditierbare Aufzeichnungen von Entscheidungen und Aktionen Hook-Logging; Session-Transkripte; skill-invocation Traces
Privatsphäre Angemessene Datenverarbeitung und Governance Bereinigung von Anmeldeinformationen-Umgebungsvariablen; Geheimniserkennung auf Hook-Ebene

Anthropic spendete außerdem MCP an die Agentic AI Foundation der Linux Foundation und schloss sich damit AGENTS.md an (mittlerweile gemeinsam betreut mit OpenAI, Google, Cursor, Factory, Sourcegraph). Standards für Agent-Interoperabilität sind jetzt herstellerneutral.27

Skill-Sandbox-Tooling: Für Teams, die skills als Angriffsfläche behandeln, führt Permisos SandyClaw (gestartet am 2. April 2026) skills in einer dedizierten Sandbox aus und liefert evidenzgestützte Bewertungen aus Sigma-/YARA-/Nova-/Snort-Erkennung. Erstes Produkt in der Skill-Sandbox-Kategorie.28

Die Sandbox

Claude Code unterstützt einen optionalen Sandbox-Modus (aktiviert über settings.json oder den Befehl /sandbox), der Netzwerkzugriff und Dateisystemoperationen über Isolation auf Betriebssystemebene einschränkt (seatbelt unter macOS, bubblewrap unter Linux). Ist die Sandbox aktiviert, hindert sie das Modell daran, beliebige Netzwerkanfragen zu stellen oder auf Dateien außerhalb des Projektverzeichnisses zuzugreifen. Ohne Sandbox nutzt Claude Code ein berechtigungsbasiertes Modell, bei dem Sie einzelne Tool-Aufrufe genehmigen oder ablehnen.13

Security-Mindeststand Mai 2026. Claude Code v2.1.149 behob einen PowerShell-Working-Directory-Permission-Bypass, mehrere Lücken in PowerShell-Allow-Regeln und der Permission-Analyse mit veralteten Variablen sowie einen git-worktree-Sandbox-Write-Allowlist-Bug, der den gesamten Root des Hauptrepositorys statt nur gemeinsam genutzter git-Interna abdeckte.53 Wenn Ihr harness PowerShell oder worktree-isolierte Agents zulässt, behandeln Sie v2.1.149+ als Mindeststand und halten Sie Shell-Regeln eng. Breite PowerShell(*)-Regeln und Schreibausnahmen für das gesamte Repository sind Orchestrierungsabkürzungen, keine Sicherheitsgrenzen.

OpenAI Agents SDK Sandbox-Lockdown (v0.17.0, 8. Mai 2026). Auf OpenAI-Seite verschärfte openai-agents-python v0.17.0 eine parallele Grenze: LocalFile.src und LocalDir.src sind jetzt auf die Materialisierungs-base_dir beschränkt (das aktuelle Arbeitsverzeichnis des SDK-Prozesses, wenn das Manifest angewendet wird), es sei denn, die Quelle wird explizit über Manifest.extra_path_grants mit SandboxPathGrant freigegeben.41 Relative lokale Quellen werden von base_dir aus aufgelöst; absolute Pfade müssen bereits darin liegen oder eine Freigabe besitzen. Das schließt ein Problem an der Grenze lokaler Artefakte: Frühere Versionen erlaubten Manifesten, beliebige Host-Pfade in einen Sandbox-Workspace zu ziehen. Migration: Deklarieren Sie vertrauenswürdige Host-Roots auf Manifestebene mit SandboxPathGrant(path=..., read_only=True) für Read-only-Mounts. Behandeln Sie extra_path_grants als vertrauenswürdige Anwendungskonfiguration; befüllen Sie Grants niemals aus Modellausgaben oder nicht vertrauenswürdigen Manifest-Eingaben.

OpenAI Agents SDK Follow-up-Mindeststand (v0.17.3). Die Linie 0.17.1-0.17.3 ergänzte weitere Sandbox- und Session-Härtung: Limits für Archive-Extraktion, GitRepo-Subpath-Validierung, klarere Sandbox-Provider-Fehler, Mountpoint-Anmeldeinformationen außerhalb von Sandbox-Befehlen, Ablehnung relativer Sandbox-Workspace-Roots und Terminal-State-Handling für Vercel-Sandboxen.54 Wenn Sie OpenAI-gehostete oder provider-gestützte Sandboxen statt nur Claude Code hooks verwenden, behandeln Sie 0.17.3 als aktuellen Mindeststand für die Muster in diesem Abschnitt.

Berechtigungsgrenzen

Das Berechtigungssystem steuert Operationen auf mehreren Ebenen:

Ebene Steuerung Beispiel
Tool-Berechtigungen Welche Tools verwendet werden dürfen Subagent auf Read, Grep, Glob beschränken
Dateiberechtigungen Welche Dateien geändert werden dürfen Schreibzugriffe auf .env, credentials.json blockieren
Befehlsberechtigungen Welche Bash-Befehle ausgeführt werden dürfen rm -rf, git push --force blockieren
Netzwerkberechtigungen Auf welche Domains zugegriffen werden darf Allowlist für MCP-Serververbindungen

Berechtigungsregeln auf Parameterebene (Juni 2026)

Claude Code v2.1.178 erweiterte Berechtigungsregeln von der Tool-Ebene hinunter auf die Parameterebene: Tool(param:value) wird gegen die Eingabeparameter eines Tools abgeglichen, wobei * als Wildcard dient. Das kanonische Beispiel ist Agent(model:opus), eine Regel, die verhindert, dass subagents auf einer bestimmten Modellstufe gestartet werden.63 Architektonisch schließt das eine Lücke, die die obige Tabelle mit vier Ebenen nicht ausdrücken konnte: Zuvor konnten Sie ein Tool pauschal erlauben oder verweigern, aber nicht einschränken, wie es aufgerufen wurde. Eine Governance-Policy kann jetzt deterministisch festlegen: „subagents dürfen gestartet werden, aber nicht auf der Fable-5-Stufe” oder „Bash ist erlaubt, aber nicht mit diesem Flag”, statt dies nur als Prompt-Anweisung zu formulieren.

Eine begleitende Managed Setting, enforceAvailableModels (v2.1.175), beschränkt die Modellauswahl von oben herab: Sie pinnt das Default-Modell und verhindert, dass Benutzer- oder Projekteinstellungen die verwaltete availableModels-Allowlist erweitern.63 Beide greifen ineinander: Die Allowlist definiert, welche Stufen für die Session überhaupt existieren, und Regeln auf Parameterebene begrenzen, wie subagents daraus auswählen.

Auto-Mode-Guardrails für destruktive Befehle (Juni 2026)

Claude Code v2.1.183 verringerte den Schadensradius von Auto Mode für Operationen, die stillschweigend Arbeit verlieren lassen oder Umgebungen abbauen. Auto Mode blockiert jetzt hart, sofern Sie nicht in der Session ausdrücklich danach gefragt haben: destruktive git-Operationen (git reset --hard, git checkout -- ., git clean -fd, git stash drop); git commit --amend, wenn der Commit nicht vom Agent in dieser Session erstellt wurde; und Infrastrukturabbau (terraform destroy, pulumi destroy, cdk destroy), sofern Sie nicht den konkreten Stack benannt haben.65 Architektonisch ergänzt das die Spawn-Prüfung und die Regeln auf Parameterebene oben: Statt zu steuern, welches Tool verwendet oder wie es gestartet wird, werden einige wenige konkrete irreversible Befehle nach Absicht gesteuert. Der Agent kann sie weiterhin ausführen, aber nur auf ausdrückliche Anweisung, nicht aus eigener Initiative. Für ein autonomes harness sollten Sie dasselbe Prinzip in Ihren eigenen PreToolUse hooks kodieren: Befehle, die Zustand zerstören, verdienen eine Deny-by-default-Regel, die nur durch ein explizites Operator-Signal aufgehoben wird.

Abwehr von Prompt Injection

Skills und hooks bieten Defense-in-Depth gegen Prompt Injection:

Skills mit Tool-Beschränkungen verhindern, dass ein kompromittierter Prompt Schreibzugriff erhält:

allowed-tools: Read, Grep, Glob

PreToolUse hooks validieren jeden Tool-Aufruf, unabhängig davon, wie das Modell gepromptet wurde:

# Block credential file access regardless of prompt
if echo "$FILE_PATH" | grep -qE "\.(env|pem|key|credentials)$"; then
    echo "BLOCKED: Sensitive file access" >&2
    exit 2
fi

Subagent-Isolation begrenzt den Schadensradius. Ein subagent mit permissionMode: plan kann keine Änderungen vornehmen, selbst wenn sein Prompt kompromittiert ist.

Agent-Logs und Guardrails sind Sicherheitsflächen

Zwei Advisories vom Mai 2026 untermauern ein Muster: Agent-Infrastruktur schafft neue Orte, an denen sensible Inhalte und ausführbare Policies leaken oder ausbrechen können. GitHub Advisory GHSA-f3jg-756w-gm35 behandelt ein Payload-Filter-Problem in Gryph Agents, bei dem sensible Tool-Payload-Inhalte unter dem Standard-Logging-Verhalten in lokalen SQLite-Logs verbleiben konnten.45 OSV GHSA-wxxx-gvqv-xp7p behandelt einen Sandbox-Ausbruch bei LiteLLM custom-code guardrail in einem admin-geschützten Proxy-Endpunkt.46

Die Produktionsregel: Behandeln Sie Agent-Transkripte, Tool-Payloads, SQLite-Logs und Guardrail-Ausführung als sensible Infrastruktur. Redigieren Sie vor der Persistierung, setzen Sie Aufbewahrungslimits, und halten Sie Custom-Guardrail-Code sandboxed und reviewbar. Eine Prompt-Regel wie „keine Secrets loggen” reicht nicht; der Logging- und Guardrail-Pfad braucht deterministische Tests.

Hook-Security

HTTP-hooks, die Umgebungsvariablen in Header interpolieren, benötigen eine explizite allowedEnvVars-Liste, um Exfiltration beliebiger Umgebungsvariablen zu verhindern:13

{
  "type": "http",
  "url": "https://api.example.com/notify",
  "headers": {
    "Authorization": "Bearer $MY_TOKEN"
  },
  "allowedEnvVars": ["MY_TOKEN"]
}

Die Verantwortungsaufteilung zwischen Mensch und Agent

Security in Agent-Architekturen erfordert eine klare Aufteilung zwischen menschlichen und Agent-Verantwortlichkeiten:17

Menschliche Verantwortung Agent-Verantwortung
Problemdefinition Pipeline-Ausführung
Konfidenzschwellen Ausführung innerhalb der Schwellen
Konsensanforderungen Konsensberechnung
Kriterien für Quality Gates Durchsetzung von Quality Gates
Fehleranalyse Fehlererkennung
Architekturentscheidungen Architekturoptionen
Einbringung von Domänenkontext Dokumentationserstellung

Das Muster: Menschen verantworten Entscheidungen, die organisatorischen Kontext, ethisches Urteil oder strategische Richtung erfordern. Agents verantworten Entscheidungen, die rechnerische Suche über große Möglichkeitsräume erfordern. Hooks setzen die Grenze durch.

Rekursive Hook-Durchsetzung

Hooks werden auch für subagent-Aktionen ausgelöst.13 Wenn Claude über das Agent tool einen subagent startet, werden Ihre PreToolUse- und PostToolUse hooks für jedes Tool ausgeführt, das der subagent verwendet. Ohne rekursive Hook-Durchsetzung könnte ein subagent Ihre Sicherheitsprüfungen umgehen. Das SubagentStop-Event ermöglicht Cleanup oder Validierung, wenn ein subagent abgeschlossen ist.

Das ist nicht optional. Ein Agent, der einen subagent ohne Ihre Security-hooks startet, ist ein Agent, der force-pushes auf main ausführen, Anmeldeinformationen-Dateien lesen oder destruktive Befehle ausführen kann, während Ihre Gates zusehen, wie die Hauptkonversation nichts tut.

Kosten als Architektur

Kosten sind eine Architekturentscheidung, kein operativer Nachgedanke.2 Drei Ebenen:

Token-Ebene. System-Prompt-Komprimierung. Entfernen Sie Tutorial-Codebeispiele (das Modell kennt die APIs), fassen Sie doppelte Regeln über Dateien hinweg zusammen, und ersetzen Sie Erklärungen durch Constraints. „Tool-Aufrufe ablehnen, die sensiblen Pfaden entsprechen” leistet dasselbe wie eine 15-zeilige Erklärung, warum Anmeldeinformationen nicht gelesen werden sollten.

Agent-Ebene. Frische Spawns statt langer Konversationen. Jede Story in einem autonomen Lauf bekommt einen neuen Agent mit sauberem Kontext. Der Kontext bläht sich nie auf, weil jeder Agent frisch startet. Briefing statt Memory: Modelle führen ein klares Briefing besser aus, als sich durch 30 Schritte angesammelten Kontext zu navigieren.

Architekturebene. CLI-first statt MCP, wenn die Operation zustandslos ist. Ein claude --print-Aufruf für eine einmalige Bewertung kostet weniger und erzeugt keinen Verbindungs-Overhead. MCP ist sinnvoll, wenn das Tool persistenten Zustand oder Streaming benötigt.


Entscheidungsframework

Wann welcher Mechanismus verwendet werden sollte:

Problem Verwenden Warum
Code nach jeder Bearbeitung formatieren PostToolUse hook Muss jedes Mal deterministisch passieren
Gefährliche Bash-Befehle blockieren PreToolUse hook Muss vor der Ausführung blockieren, Exit-Code 2
Muster für Security Reviews anwenden Skill Domänenexpertise, die sich je nach Kontext automatisch aktiviert
Codebase erkunden, ohne den Kontext zu belasten Explore subagent Isolierter Kontext, gibt nur eine Zusammenfassung zurück
Experimentelles Refactoring sicher ausführen Worktree-isolated subagent Änderungen können verworfen werden, wenn sie fehlschlagen
Code aus mehreren Perspektiven prüfen Parallel subagents oder Agent Team Unabhängige Bewertung verhindert blinde Flecken
Über irreversible Architektur entscheiden Multi-agent deliberation Confidence Trigger + Konsensvalidierung
Entscheidungen sitzungsübergreifend speichern MEMORY.md Das Dateisystem übersteht Kontextgrenzen
Teamstandards teilen Project CLAUDE.md + .claude/rules/ Über Git verteilt, wird automatisch geladen
Build-/Testbefehle des Projekts definieren CLAUDE.md Befehlsorientierte Anweisungen, die der Agent verifizieren kann
Lange autonome Entwicklung ausführen Ralph loop (Iteration mit frischem Kontext) Vollständiges Kontextbudget pro Iteration, Dateisystemzustand
Slack benachrichtigen, wenn die Sitzung endet Async Stop hook Nicht blockierend, verlangsamt die Sitzung nicht
Qualität vor dem Commit validieren PreToolUse hook on git commit Blockiert den Commit, wenn Linting/Tests fehlschlagen
Abschlusskriterien durchsetzen Stop hook Verhindert, dass der Agent stoppt, bevor die Aufgabe erledigt ist

Skills vs Hooks vs Subagents

Dimension Skills Hooks Subagents
Aufruf Automatisch (LLM Reasoning) Deterministisch (ereignisgesteuert) Explizit oder automatisch delegiert
Garantie Probabilistisch (Modell entscheidet) Deterministisch (wird immer ausgelöst) Deterministisch (isolierter Kontext)
Kontextkosten Wird in den Hauptkontext injiziert Null (läuft außerhalb von LLM) Separates Kontextfenster
Tokenkosten Beschreibungsbudget (1 % des Fensters, Fallback 8.000 Zeichen) Null Voller Kontext pro subagent
Am besten geeignet für Domänenexpertise Policy-Durchsetzung Fokussierte Arbeit, Exploration

FAQ

Wie viele hooks sind zu viele?

Die Einschränkung ist Performance, nicht die Anzahl. Jeder hook läuft synchron, daher addiert sich die gesamte hook-Ausführungszeit zu jedem passenden Toolaufruf. 95 hooks über Einstellungen auf Benutzer- und Projektebene hinweg laufen ohne spürbare Latenz, wenn jeder hook in unter 200 ms abgeschlossen ist. Der Schwellenwert, den Sie beobachten sollten: Wenn ein PostToolUse hook jede Dateibearbeitung um mehr als 500 ms verlängert, fühlt sich die Sitzung träge an. Profilen Sie Ihre hooks vor dem Deployment mit time.14

Können hooks Claude Code daran hindern, einen Befehl auszuführen?

Ja. PreToolUse hooks blockieren jede Toolaktion, indem sie mit Code 2 beenden. Claude Code bricht die ausstehende Aktion ab und zeigt dem Modell die stderr-Ausgabe des hooks. Claude sieht den Ablehnungsgrund und schlägt eine sicherere Alternative vor. Exit 1 ist eine nicht blockierende Warnung, bei der die Aktion trotzdem fortgesetzt wird.3

Wo sollte ich hook-Konfigurationsdateien ablegen?

Hook-Konfigurationen gehören in .claude/settings.json für hooks auf Projektebene (in Ihr Repository committed, mit Ihrem Team geteilt) oder in ~/.claude/settings.json für hooks auf Benutzerebene (persönlich, auf jedes Projekt angewendet). Hooks auf Projektebene haben Vorrang, wenn beide existieren. Verwenden Sie absolute Pfade für Skriptdateien, um Probleme mit dem Arbeitsverzeichnis zu vermeiden.14

Braucht jede Entscheidung deliberation?

Nein. Das Confidence-Modul bewertet Entscheidungen über vier Dimensionen hinweg (Mehrdeutigkeit, Komplexität, Tragweite, Kontextabhängigkeit). Nur Entscheidungen mit einer Gesamt-Confidence unter 0,70 lösen deliberation aus, ungefähr 10 % aller Entscheidungen. Dokumentationskorrekturen, Variablenumbenennungen und routinemäßige Bearbeitungen überspringen deliberation vollständig. Security-Architektur, Datenbankschemaänderungen und irreversible Deployments lösen sie zuverlässig aus.7

Wie teste ich ein System, das darauf ausgelegt ist, Uneinigkeit zu erzeugen?

Testen Sie sowohl Erfolgspfade als auch Fehlerpfade. Erfolg: Agents widersprechen einander produktiv und erreichen Konsens. Fehler: Agents konvergieren zu schnell, konvergieren nie oder überschreiten Spawn-Budgets. End-to-End-Tests simulieren jedes Szenario mit deterministischen Agent-Antworten und verifizieren, dass beide Validierungsgates jeden dokumentierten Fehlermodus abfangen. Ein produktives deliberation-System führt 141 Tests über drei Ebenen aus: 48 Bash-Integrationstests, 81 Python Unit-Tests und 12 End-to-End-Pipeline-Simulationen.7

Welche Latenzauswirkung hat deliberation?

Eine 3-Agent-deliberation fügt 30-60 Sekunden Wall-Clock-Zeit hinzu (Agents laufen sequenziell über das Agent tool). Eine 10-Agent-deliberation fügt 2-4 Minuten hinzu. Die Consensus- und Pride-Check-hooks laufen jeweils in unter 200 ms. Der primäre Engpass ist die LLM Inferenzzeit pro Agent, nicht der Orchestrierungs-Overhead.7

Wie lang sollte eine CLAUDE.md-Datei sein?

Halten Sie jeden Abschnitt unter 50 Zeilen und die gesamte Datei unter 150 Zeilen. Lange Dateien werden durch Kontextfenster gekürzt, deshalb sollten die wichtigsten Anweisungen am Anfang stehen: Befehle und Abschlussdefinitionen vor Stilpräferenzen.21

Funktioniert das auch mit anderen Tools als Claude Code?

Die Architekturprinzipien (hooks als deterministische Gates, skills als Domänenexpertise, subagents als isolierte Kontexte, Dateisystem als Memory) lassen sich konzeptionell auf jedes agentische System übertragen. Die konkrete Implementierung nutzt die Lifecycle-Events, Matcher-Muster und das Agent tool von Claude Code. AGENTS.md überträgt dieselben Muster auf Codex, Cursor, Copilot, Amp und Windsurf.21 Das harness-Muster ist Tool-agnostisch, auch wenn die Implementierungsdetails Tool-spezifisch sind.


Kurzreferenzkarte

Hook-Konfiguration

{
  "hooks": {
    "PreToolUse": [{"matcher": "Bash", "hooks": [{"type": "command", "command": "script.sh"}]}],
    "PostToolUse": [{"matcher": "Write|Edit", "hooks": [{"type": "command", "command": "format.sh"}]}],
    "Stop": [{"matcher": "", "hooks": [{"type": "agent", "prompt": "Verify tests pass. $ARGUMENTS"}]}],
    "SessionStart": [{"matcher": "", "hooks": [{"type": "command", "command": "setup.sh"}]}]
  }
}

Skill Frontmatter

---
name: my-skill
description: What it does and when to use it. Include trigger phrases.
allowed-tools: Read, Grep, Glob
---

Subagent-Definition

---
name: my-agent
description: When to invoke. Include PROACTIVELY for auto-delegation.
tools: Read, Grep, Glob, Bash
model: opus
permissionMode: plan
---

Instructions for the subagent.

Exit-Codes

Code Bedeutung Verwenden für
0 Erfolg Operation zulassen
2 Blockieren Security Gates, Quality Gates
1 Nicht blockierende Warnung Logging, beratende Meldungen

Wichtige Befehle

Befehl Zweck
/compact Kontext komprimieren, Entscheidungen bewahren
/context Kontextzuweisung und aktive skills anzeigen
/agents subagents verwalten
/goal <condition> Claude auf eine Abschlussbedingung hinarbeiten lassen
claude agents Agent View für laufende, blockierte und abgeschlossene Sitzungen öffnen
CLAUDE_CODE_WORKFLOWS=1 Das Workflow tool für deterministische Multi-agent-Orchestrierung aktivieren
claude -c Neueste Sitzung fortsetzen
claude --print Einmaliger CLI-Aufruf (keine Konversation)
# <note> Notiz zur Memory-Datei hinzufügen
/memory Auto-memory anzeigen und verwalten

Dateispeicherorte

Pfad Zweck
~/.claude/CLAUDE.md Persönliche globale Anweisungen
.claude/CLAUDE.md Projektanweisungen (über Git geteilt)
.claude/settings.json Projekt-hooks und Berechtigungen
~/.claude/settings.json Benutzer-hooks und Berechtigungen
~/.claude/skills/<name>/SKILL.md Persönliche skills
.claude/skills/<name>/SKILL.md Projekt-skills (über Git geteilt)
~/.claude/agents/<name>.md Persönliche subagent-Definitionen
.claude/agents/<name>.md Projekt-subagent-Definitionen
.claude/rules/*.md Projekt-Regeldateien
~/.claude/rules/*.md Benutzer-Regeldateien
~/.claude/projects/{path}/memory/MEMORY.md Auto-memory

Änderungsprotokoll

Datum Änderung
2026-06-20 Guide v1.20: Claude Code v2.1.183 + Codex v0.141.0 — Governance und Sicherheit für Remote-Ausführung. Ergänzt wurden Guardrails gegen destruktive Befehle im Auto-Modus (CC v2.1.183 blockiert git reset --hard/checkout -- ./clean -fd/stash drop, git commit --amend bei Nicht-Agent-Commits sowie terraform/pulumi/cdk destroy ohne benannten Stack hart, sofern Sie nicht danach gefragt haben) in Security Considerations, eingeordnet als Intent-Level-Ergänzung zu Regeln auf Parameterebene und Spawn-Vetting; außerdem verschlüsselte Noise-Relay-Remote-Executors (Codex v0.141.0: Ende-zu-Ende-verschlüsselte Executor-Kanäle, plattformübergreifende cwd-/Shell-Beibehaltung, P-521 TLS) in den Codex Parity Notes.
2026-06-16 Guide v1.19: Claude Code v2.1.173–v2.1.179 Governance- und Scoping-Primitiven plus Codex v0.140.0 Cross-Tool-Import. Die Version v2.1.178 wurde in den Haupttext eingearbeitet: Berechtigungsregeln auf Parameterebene Tool(param:value) mit *-Wildcard (z. B. Agent(model:opus), um eine Modellstufe zu blockieren) sowie die Managed Setting enforceAvailableModels (v2.1.175), beide unter Security → Permission Boundaries; Auto Mode prüft Subagent-Spawns jetzt vor dem Start, wodurch die Lücke „Spawn als Bypass“ geschlossen wird (Subagent Patterns); Laden verschachtelter .claude/skills + Closest-Wins-Auflösung für skills/agents/workflows/output-styles in verschachtelten .claude/-Bäumen (Skills System); und der disallowedTools MCP Server-Spec-Matching-Fix (Subagent Configuration Fields). Codex /import Cross-Tool-Portabilität + dauerhaftes Löschen von Sitzungen (v0.140.0) zur Codex-Parity-Notiz hinzugefügt.
2026-06-10 Guide v1.18: Rekursive Subagents (Claude Code v2.1.172). Eine Notiz im Abschnitt Recursion Guard ergänzt: Claude Code Subagents können jetzt eigene Subagents starten, verschachtelt bis zu 5 Ebenen tief — zuvor war Delegation effektiv auf eine Ebene begrenzt (v2.1.172, 10. Juni). Das Userland-Muster für Spawn-Budget/Tiefenlimit wurde als Steuerung neu gerahmt, die verhindert, dass ein 5-Ebenen-Baum ausufert; 5 Ebenen gelten dabei als Plattformobergrenze, nicht als Standard.
2026-06-09 Guide v1.17: Claude Code v2.1.169–v2.1.170 + Codex v0.138.0–v0.139.0 Governance und Multi-Agent-v2-Härtung. Fünf verifizierte Änderungen an der Harness-Architektur wurden in den Haupttext eingearbeitet. Skills System erhielt den Abschnitt “Hiding the Bundled Surface as Governance”: Die Einstellung disableBundledSkills (und die Env Var CLAUDE_CODE_DISABLE_BUNDLED_SKILLS) blendet gebündelte skills, workflows und eingebaute Slash Commands für das Modell aus, als bewusste Reduktion der Angriffsfläche (v2.1.169). Der Abschnitt zur Hook-Architektur im Juni ergänzte das --safe-mode Flag (und CLAUDE_CODE_SAFE_MODE), das eine Sitzung mit allen Anpassungen deaktiviert startet — CLAUDE.md, Plugins, skills, hooks, MCP — für Clean-Room-Fehlersuche und Governance (v2.1.169), plus eine Modellstufen-Notiz: Anthropics Claude Fable 5 (claude-fable-5) wurde am 9. Juni als Mythos-Klasse oberhalb von Opus veröffentlicht, in v2.1.170 über /model claude-fable-5 auswählbar, während Opus 4.8 Claude Codes agentischer Standard bleibt. Memory and Context ergänzte den /cd Befehl (v2.1.169), der eine Sitzung in ein neues Arbeitsverzeichnis verschiebt, ohne den Prompt-Cache mitten in der Sitzung zu brechen. Multi-Agent Orchestration / Codex Parity wurde für Produktion gehärtet: close_agent in interrupt_agent umbenannt (v0.139.0), verschlüsselte Inter-Agent-Nachrichten-Payloads, ein v2-Agent-Konfigurationskatalog, Agent-Residency-LRU und Concurrency-Zählung nach aktiver Ausführung (v0.138.0), AGENTS.md Discovery über Environment-Dateisysteme mit beibehaltenen logischen Pfaden geroutet für korrekte Dateiauswahl in Remote-/Symlink-Workspaces (v0.138.0/v0.139.0), und Subagent-MCP-Startup-Warnungen auf den besitzenden Thread beschränkt, statt in den Parent dupliziert zu werden (v0.139.0).
2026-06-08 Guide v1.16: Juni-Agent-Architekturmuster aus Claude Code v2.1.162–v2.1.166 + Codex v0.137.0. Ergänzt wurde der Abschnitt “Stop-hook steering, cross-session authority, and multi-agent v2” mit vier harness-relevanten Änderungen: (1) Stop/SubagentStop hooks können hookSpecificOutput.additionalContext zurückgeben, um Feedback wie „noch nicht fertig, hier ist der Grund“ einzuspeisen und den Turn ohne Hook-Fehlerblock fortzusetzen (v2.1.163); (2) Cross-Session-Messaging wurde gehärtet, sodass über SendMessage weitergeleitete Nachrichten aus einer anderen Sitzung nicht mehr die Autorität des ursprünglichen Benutzers tragen — eingehende Inter-Agent-Nachrichten sind als nicht vertrauenswürdige Daten zu behandeln (v2.1.166); (3) die Einstellung fallbackModel verkettet bis zu drei Backup-Modelle mit einem einmaligen Fallback-Retry bei nicht wiederholbaren API Fehlern, und claude agents --json ergänzt ein waitingFor Feld für Fleet Observability (v2.1.162/166); (4) Codex Multi-Agent v2 (v0.137.0) behält die Runtime bei jedem Thread, setzt hide_spawn_agent_metadata standardmäßig auf true, propagiert Parent-Events an Child-Listener und ergänzt eine v1 skills Extension mit Katalogauflösung pro Turn sowie Contributor-Events für Thread-Start/Turn-Error-Lifecycle. Keine Spezifikationsänderung an AGENTS.md (weiterhin von Agentic-AI-Foundation betreut, kein versioniertes Changelog).
2026-05-31 Guide v1.15: Claude Code v2.1.157 + Hermes v0.15.1/v0.15.2 Patches. Ergänzt wurde der Abschnitt “Plugin and Skill Convergence in .claude/skills/: Claude Code v2.1.157 lädt jeden Ordner im .claude/skills/ Verzeichnis eines Projekts automatisch als Plugin, ohne Marketplace-Registrierung, und claude plugin init <name> scaffoldet dort ein frisches Plugin mit Manifest + SKILL.md. Die Harness-Folge ist real: Eng umrissene Projekt-Tools zahlen nicht mehr die Manifest-Steuer, um in der Versionskontrolle zu leben; Plugins besitzen weiterhin die gebündelt installierbare ZIP-Form. Dieselbe Version liefert EnterWorktree für Wechsel zwischen Claude-verwalteten Worktrees mitten in der Sitzung und lässt Hintergrund-Worktrees nach Abschluss des Agent entsperrt, sodass git worktree remove/prune sauber funktionieren. Hermes Agent v0.15.1 (29. Mai) ist der Same-Day-Velocity-Hotfix: Dashboard-401-Reload-Loop-Fix im Loopback-Modus, Docker erfordert jetzt explizit HERMES_DASHBOARD_INSECURE=1, MCP Bare Commands (npx, npm, node) werden in Docker aufgelöst, Skills-Seite wiederhergestellt, Kanban-Worker reagieren sauber auf SIGTERM, Skills.sh-Katalog wuchs per Sitemap von 858 auf 19.932 Einträge. Hermes v0.15.2 (29. Mai) ist ein reiner Packaging-Hotfix, der plugin.yaml Manifeste in Wheel- und sdist-Distributionen bündelt.
2026-05-28 Guide v1.14: Claude Code v2.1.152-v2.1.154 + Codex v0.134.0-v0.135.0 + Hermes v0.15.0 Architekturpattern-Pass. Claude Code verschob Defaults und ergänzte Orchestrierungsprimitiven: Opus 4.8 ist jetzt Standard, standardmäßig mit hohem Effort und neuem /effort xhigh; dynamische workflows orchestrieren über /workflows dutzende bis hunderte Agents im Hintergrund; Lean System Prompt ist jetzt Standard für alle Modelle außer Haiku/Sonnet/Opus 4.7 und früher; das neue MessageDisplay Hook Event lässt hooks Assistant-Text beim Anzeigen transformieren oder ausblenden; disallowed-tools im Skill-/Command-Frontmatter entfernt Tools, während der skill aktiv ist; /reload-skills scannt Skill-Verzeichnisse ohne Neustart erneut; SessionStart hooks können reloadSkills: true zurückgeben und hookSpecificOutput.sessionTitle setzen; --fallback-model wechselt mitten in der Sitzung, wenn das primäre Modell fehlt; Auto Mode erfordert keine Opt-in-Zustimmung mehr; die Managed Setting pluginSuggestionMarketplaces allowlistet Org-Marketplaces für kontextbewusste Vorschläge; claude agents akzeptiert ! <command> Hintergrund-Shell-Sitzungen; Plugins können defaultEnabled: false deklarieren; die stdio MCP Subprozess-Env enthält jetzt CLAUDE_CODE_SESSION_ID und CLAUDECODE=1. Codex v0.134.0 machte --profile zum primären Profilselektor über CLI, TUI-Berechtigungen und Sandbox-Flows hinweg (Legacy-Konfigurationen werden mit Migrationshinweis abgelehnt), ergänzte lokale Conversation-History-Suche, verbesserte MCP Setup mit Umgebungs-Targeting pro Server und OAuth für streambare HTTP-Server und ließ read-only MCP Tools parallel laufen, wenn sie readOnlyHint ausweisen; v0.135.0 ergänzte reichere codex doctor Diagnosen, /status Remote-Details, Vim-Textobjekt-Editing, benannte Berechtigungsprofile in /permissions und Sandbox Presets im Python SDK. Hermes Agent v0.15.0 (28. Mai) liefert das Velocity Release: run_agent.py zu 76 % über 14 Module refaktoriert, Multi-Agent Kanban v2 mit Auto-Decomposition und Swarm-Topologie, Bitwarden Secrets Manager ersetzt Provider-Schlüssel durch ein Bootstrap-Token, Promptware-Abwehr gegen Brainworm-ähnliche Prompt Injection an drei Sicherheits-Chokepoints, Skill Bundles, ein TUI Session Orchestrator für Multi-Session-Management in einem Terminal und ein 4.500× schnelleres session_search mit entfernter LLM Abhängigkeit. Folgen für die Harness-Architektur: Das Named-Profile-Muster (Codex --profile, Claude Code pluginSuggestionMarketplaces) wird zum Standard-Konfigurationsprimitiv für Multi-Tenant-Agent-Runtimes; parallele read-only MCP Tools (Codex readOnlyHint) sind das richtige Muster, um nicht mutierende Context Fetches aufzufächern; der MessageDisplay hook gibt Operators eine erstklassige Transformationsfläche, die über PostToolUse oder Stop nicht erreichbar war; und der Lean-System-Prompt-Default entfernt den langjährigen Trade-off zwischen operator-definiertem Kontext und Provider-Scaffolding.
2026-05-24 Guide v1.13: Claude Code v2.1.150 + OpenAI Agents SDK v0.17.3 Sicherheits-/Aktualitätspass. Lokal gab claude --version 2.1.144 (Claude Code) zurück, während npm latest für @anthropic-ai/claude-code 2.1.150 und die neueste GitHub Version v2.1.150 zurückgab. Ergänzt wurde v2.1.149 Harness-Guidance für PowerShell Permission-Bypass-Fixes, PowerShell-Allow-Rule-/Stale-Variable-Permission-Analysis-Fixes und den Git-Worktree-Sandbox-Write-Allowlist-Fix; vermerkt wurde, dass v2.1.150 nur interne Infrastruktur betrifft und keine angekündigten benutzerseitigen Änderungen enthält. PyPI latest für openai-agents gab 0.17.3 zurück, deshalb erwähnt der OpenAI-Sandbox-Abschnitt jetzt die 0.17.1-0.17.3 Follow-up-Härtung für Archive Extraction, GitRepo-Subpaths, Sandbox Credentials, relative Workspace Roots und Provider-Terminal-State-Handling.5354
2026-05-21 Guide v1.12: Claude Code v2.1.147 Workflow-Pass. Lokal gab claude --version 2.1.144 (Claude Code) zurück, während npm latest für @anthropic-ai/claude-code 2.1.147 zurückgab. Das standardmäßig deaktivierte Workflow Tool wurde als First-Party-Primitiv für deterministische Multi-Agent-Orchestrierung ergänzt, und es wurde klargestellt, dass hooks, Tests, Review Gates, Spawn Budgets und Evidence Reports weiterhin die Correctness Boundary bilden.52
2026-05-15 Guide v1.11: Claude Code v2.1.142 Background-Session- und Plugin-Reliability-Pass. Lokal gab claude --version 2.1.141 (Claude Code) zurück, während npm latest für @anthropic-ai/claude-code 2.1.142 zurückgab. Ergänzt wurde Operator-Guidance zu neuen claude agents Dispatch Flags, Opus 4.7 Fast-Mode-Default, Discovery von Plugin-SKILL.md auf Root-Ebene, Plugin-LSP-Sichtbarkeit, MCP_TOOL_TIMEOUT Remote-HTTP/SSE-Verhalten sowie Reliability-Fixes für Background Sessions / Daemon / Plugin Cache.51
2026-05-14 Guide v1.10: Claude Code v2.1.141 Operator-Signaling- und Scoping-Pass. Lokal gab claude --version 2.1.141 (Claude Code) zurück und npm latest für @anthropic-ai/claude-code gab 2.1.141 zurück. Ergänzt wurde Hook-Guidance für terminalSequence als Operator-Signaling statt Enforcement, claude agents --cwd <path> für verzeichnisbegrenzte Agent View wurde vermerkt, und die architektonische Auswirkung von CLAUDE_CODE_PLUGIN_PREFER_HTTPS plus ANTHROPIC_WORKSPACE_ID auf Plugin-Installation und Workload-Identity-Federation-Scoping wurde dokumentiert.50
2026-05-13 Guide v1.9: Claude Code v2.1.140 Reliability-Pass. Lokal gab claude --version 2.1.140 (Claude Code) zurück. subagent_type wurde zur Agent-Hook-Guidance ergänzt und der Hook-Governance-Abschnitt für v2.1.140-Fixes an ConfigChange, disableAllHooks, allowManagedHooksOnly, Permission-Dialog-Env-Var-Anzeige, Custom-Style-Reset nach Settings Sync, Windows-Git-Bash-Native-Package-Fallback und /scroll-speed Verhalten aktualisiert.49
2026-05-11 Guide v1.8: Claude Code v2.1.139 Aktualitätspass + fokussierter Agent-Security-/Memory-Scan. Lokal wurde claude --version als 2.1.139 verifiziert und v2.1.139 Betriebsänderungen ergänzt: Agent View über claude agents, /goal Completion Loops, Command-Hook args, PostToolUse continueOnBlock, MCP CLAUDE_PROJECT_DIR und OpenTelemetry Active-Time-Fix.424344 Ergänzt wurden die Memory-Curation-Warnung aus dem arXiv-Preprint „The Memory Curse“, Human-Merge-Authority-Guidance aus dem PR-Lifecycle-arXiv-Preprint sowie Agent-Log-/Guardrail-Security-Guidance aus den Gryph Agents und LiteLLM Advisories.45464748 Die veraltete Token-Budget-Zeile Skills vs Hooks vs Subagents wurde von 2 % auf das aktuelle 1-%-/8.000-Zeichen-Skill-Description-Budget korrigiert.
2026-05-09 Guide v1.7: Day-3-Follow-up zu Claude Code v2.1.136 + openai-agents-python v0.17.0. autoMode.hard_deny und der Abschnitt zu v2.1.136 Hook-/Plugin-Fixes wurden zu Hook Architecture ergänzt; behandelt werden die neue Unconditional-Block-Stufe, der MCP-verschwindet-nach-/clear Fix über VS Code/JetBrains/Agent SDK, Verlust des MCP OAuth Refresh Token bei parallelem Refresh, Plan-Mode-Write-Block-Fix, wenn Edit(...) Allow Rule matchte, Plugin-Stop/UserPromptSubmit Cache-Cleanup-Race, skills Eintrag verbirgt Standard-skills/ dir, und CLAUDE_ENV_FILE SessionStart-Hook-Env-Vars werden nach /resume//clear stale.40 Ergänzt wurde der Abschnitt OTel Feedback Survey zu Production Patterns, der CLAUDE_CODE_ENABLE_FEEDBACK_SURVEY_FOR_OTEL behandelt.40 The Sandbox wurde um den openai-agents-python v0.17.0 Lockdown erweitert: LocalFile.src / LocalDir.src sind auf base_dir beschränkt, sofern sie nicht über Manifest.extra_path_grants mit SandboxPathGrant gewährt werden.41 RealtimeAgent-Default-Model-Notiz (gpt-realtime-2) zu Managed vs. Self-Hosted Harnesses ergänzt.41 Nur Changelog: Claude Code v2.1.137 (Win-VSCode-Aktivierungsfix), v2.1.138 (interne Fixes); claude-agent-sdk-python v0.1.78 (CLI v2.1.136 Bundle), v0.1.79 (CLI v2.1.137 Bundle), v0.1.80 (CLI v2.1.138 Bundle).
2026-05-08 Guide v1.6: Day-2-Follow-up zu Claude Code v2.1.132/v2.1.133 + SDK v0.1.77. Der Abschnitt SDK Skill Surface wurde zu Skills System ergänzt und behandelt die skills Option auf ClaudeAgentOptions sowie die Deprecation von "Skill" in allowed_tools.37 Der Abschnitt Effort and Session Provenance wurde zu Hook Architecture ergänzt und behandelt das neue effort.level JSON Feld + $CLAUDE_EFFORT Env Var im Hook-Input sowie die CLAUDE_CODE_SESSION_ID Env Var in Bash-Subprozessen.3839 Der Subagent-Skill-Discovery-Fix wurde zur Tabelle Subagent Configuration Fields ergänzt (Subagents entdecken jetzt Projekt-, Benutzer- und Plugin-skills über das Skill Tool; vor v2.1.133 wurden sie stillschweigend verworfen).39 Der Abschnitt Worktree Base, Sandbox Paths, and Admin Settings wurde zu Production Patterns ergänzt und behandelt worktree.baseRef (Breaking-Default-Rücknahme zurück zu origin/<default> statt lokalem HEAD), sandbox.bwrapPath, sandbox.socatPath und parentSettingsBehavior.39
2026-05-07 Guide v1.5: Claude Managed Agents, SF-Erweiterung vom 6. Mai. Strategy 5 (Managed Memory Curation: Dreaming, Research Preview) wurde zu Memory and Context ergänzt, mit Tabelle, die Filesystem-as-Memory vs. Dreaming gegenüberstellt.35 Managed Multiagent Orchestration (Public Beta) und Outcomes (Public Beta) wurden am Anfang von Multi-Agent Orchestration ergänzt, mit wortgetreuen Anthropic Zitaten zu Shared-Filesystem-Spezialisten und Claude Console Tracing sowie einer Vergleichstabelle zu selbst gehosteter Deliberation. Ergänzt wurde ein Abschnitt zu SDK-seitigem Hook-Event-Streaming, der claude-agent-sdk-python v0.1.74 include_hook_events und HookEventMessage behandelt.36 Nur Changelog: Claude Code v2.1.124-v2.1.131 (claude project purge, --dangerously-skip-permissions für Projektverzeichnisse, skill_activated invocation_trigger, PostToolUse-Format-on-Save-Fix, PreToolUse JSON+Exit-2-Blocking-Fix, skillOverrides Settings); claude-agent-sdk-python v0.1.72 (CLI 2.1.126), v0.1.73 (session_store_flush), v0.1.75 (CLI 2.1.131), v0.1.76 (api_error_status); openai-agents-python v0.15.0-v0.16.1 mit v0.16.0 (7. Mai), das standardmäßig gpt-5.4-mini verwendet, die implizite max_turns Obergrenze entfernt und SDK-seitige Parallelität bei Tool-Ausführung ergänzt.
2026-05-07 Guide v1.4: Claude Code Hook- und Skill-Mechaniken anhand aktueller offizieller Dokumentation und lokaler Runtime-Evidence aktualisiert (claude --version 2.1.132, codex --version gab codex-cli 0.128.0 zurück). Die Hook-Oberfläche wurde von 22/26+ auf 29 dokumentierte Events aktualisiert, das Skill-Description-Budget von 2 %/16.000 auf 1 %/8.000 korrigiert, die Hook-Type-Anzahl von vier auf fünf mit mcp_tool geändert, die nicht unterstützte Behauptung „10 parallele Subagents“ entfernt und ein public-safe Codex-Parity-Abschnitt zu AGENTS.md, skills, hooks, Plugins und expliziten Subagent-Workflows ergänzt.
2026-04-29 Guide v1.3: Die Abdeckung von OpenAI Agents SDK im Abschnitt Managed vs. Self-Hosted Harnesses wurde um die benannte SDK Oberfläche aus openai-agents Python v0.14.0 (15. April) erweitert — SandboxAgent, Manifest, SandboxRunConfig, Sandbox Memory mit Progressive Disclosure, Workspace Mounts (S3/R2/GCS/Azure), portable Snapshots und die lokalen/Docker/hosted Client Backends (Blaxel, Cloudflare, Daytona, E2B, Modal, Runloop, Vercel). Die sekundäre Help-Net-Security-Zitation wurde durch die primäre Release-Notes-Zitation v0.14.0 ersetzt. Eine kurze Notiz zu claude-agent-sdk-python v0.1.69-v0.1.71 (28.-29. April) als dritte selbst gehostete Option ergänzt (Claude Code Runtime als Python Library einbetten): gebündelte Claude CLI auf v2.1.123 angehoben, mcp Dependency-Floor auf >=1.19.0 erhöht (ältere Versionen verwarfen CallToolResult von in-process MCP Tools stillschweigend), Trio-Nursery-Cancellation-Fix und SandboxNetworkConfig Allowlist-Field-Parität mit TS SDK. v0.14.7-v0.14.8 SDK Verfeinerungen in [^58] dokumentiert.
2026-04-25 Guide v1.2: Google Cloud Next 2026 (22.-24. April) — Vertex AI wurde in Gemini Enterprise Agent Platform umbenannt; Agentspace ging in Gemini Enterprise als einheitliche Plattform auf; Workspace Studio (No-Code-Agent-Builder); 200+ Modelle im Model Garden einschließlich Anthropic Claude; Partner-Agents von Box, Workday, Salesforce, ServiceNow; ADK v1.0 stable über vier Sprachen hinweg; Project Mariner (Web-Browsing-Agent); Managed MCP Server mit Apigee als API-to-Agent-Bridge; A2A protocol v1.0 produktiv bei 150 Organisationen. Microsoft Agent Framework 1.0 (April 2026): stabile APIs, LTS-Zusage, vollständiger MCP Support, .NET + Python. Die browserbasierte DevUI, die Agent-Ausführung und Tool Calls in Echtzeit visualisiert, wird als Preview neben der stabilen 1.0-Oberfläche ausgeliefert. Salesforce Headless 360 (15. April, TDX): Jede Salesforce-Funktion (CRM, Service, Marketing, Ecommerce) ist als API/MCP Tool/CLI Command verfügbar, sodass Agents wie Claude Code, Cursor und Codex ohne Browser auf der Plattform bauen können. (TDX 2026 lief vom 15.-16. April; die Headless-360-Ankündigung datiert auf den 15. April.) MetaComp StableX KYA (21. April): Know Your Agent Governance Framework für regulierte Finanzdienstleistungen (Payments, Compliance, Wealth) — das erste seiner Art von einem lizenzierten Finanzinstitut; verfügbar über Claude, Claude Code, OpenClaw und andere kompatible AI-Plattformen. Claude Managed Agents Pricing: 0,08 $ pro Session-Stunde, während eine Sitzung läuft, ohne Runtime-Gebühr im Idle-Zustand — zusätzlich zu den normalen Claude Modell-Token-Tarifen. (Gemäß Anthropics Claude Pricing Page; der Public-Beta-Launch war am 8. April 2026.) Memory for Managed Agents ging am 23. April 2026 unter dem managed-agents-2026-04-01 Beta Header in die Public Beta. Alle Managed Agents Endpoints erfordern jetzt diesen Beta Header.
2026-04-16 Guide v1.1: Abschnitt Managed vs. Self-Hosted Harnesses ergänzt, der Claude Managed Agents (Beta vom 8. April) und die Harness-/Compute-Trennung von OpenAI Agents SDK (16. April) behandelt. Scion Cross-Tool-Multi-Agent-Hypervisor (7. April, Google) ergänzt. M3MAD-Bench-Debate-Plateau-Finding dokumentiert. The Five Principles of Trustworthy Agents (Anthropic, 9. April) + MCP/AGENTS.md Linux Foundation Governance ergänzt. Permiso-SandyClaw-Skill-Sandbox-Referenz. Neue Opus 4.7 Long-Horizon Patterns: Tool-Failure-Resilience, xhigh Effort Tier, Token-Budget-Obergrenze (task_budget Beta), Implicit-Need-Awareness reduziert CLAUDE.md Scaffolding.
2026-03-24 Erstveröffentlichung

Referenzen


  1. Andrej Karpathy über „claws” als neue Schicht über LLM agents. HN-Diskussion (406 Punkte, 917 Kommentare). 

  2. Implementierung des Autors. 84 hooks, 48 skills, 19 agents, ca. 15.000 Zeilen Orchestrierung. Dokumentiert in Claude Code als Infrastruktur

  3. Anthropic, „Claude Code Hooks: Exit Codes.” code.claude.com/docs/en/hooks. Exit 0 erlaubt, Exit 2 blockiert, Exit 1 warnt bei den meisten Events; WorktreeCreate ist strenger. 

  4. Anthropic, „Extend Claude with Skills.” code.claude.com/docs/en/skills. Skill-Struktur, Frontmatter-Felder, LLM-basiertes Matching und 1 % / 8.000-Zeichen-Beschreibungsbudget. 

  5. Anthropic, „Claude Code Sub-agents.” code.claude.com/docs/en/sub-agents. Isolierter Kontext, Worktree-Unterstützung, Agent-Teams. 

  6. Anthropic, „Claude Code Documentation.” docs.anthropic.com/en/docs/claude-code. Memory-Dateien, CLAUDE.md, Auto-Memory. 

  7. Multi-agent deliberation system des Autors. 10 Research-Personas, 7-Phasen-State-Machine, 141 Tests. Dokumentiert in Multi-Agent Deliberation

  8. Simon Willison, „Writing code is cheap now.” Agentic Engineering Patterns

  9. Laban, Philippe, et al., „LLMs Get Lost In Multi-Turn Conversation,” arXiv:2505.06120, Mai 2025. Microsoft Research und Salesforce. 15 LLMs, über 200.000 Gespräche, durchschnittlicher Leistungsabfall von 39 %. 

  10. Mikhail Shilkov, „Inside Claude Code Skills: Structure, Prompts, Invocation.” mikhail.io. Unabhängige Analyse von Skill-Discovery, Kontextinjektion und dem Prompt-Abschnitt available_skills

  11. Claude Code Source, SLASH_COMMAND_TOOL_CHAR_BUDGET. github.com/anthropics/claude-code

  12. Anthropic, „Skill Authoring Best Practices.” platform.claude.com. 500-Zeilen-Limit, unterstützende Dateien, Namenskonventionen. 

  13. Anthropic, „Claude Code Hooks: Lifecycle Events.” code.claude.com/docs/en/hooks. 29 dokumentierte Lifecycle-Events, Hook-Typen, Matcher-Verhalten, async hooks, HTTP hooks, prompt hooks, agent hooks und MCP tool hooks. 

  14. Claude Code hooks-Tutorial des Autors. 5 Production hooks von Grund auf. Dokumentiert in Claude Code Hooks Tutorial

  15. Kontextfenster-Management des Autors über 50 Sitzungen hinweg. Dokumentiert in Context Window Management

  16. Ralph Loop-Implementierung des Autors. Fresh-context-Iteration mit Dateisystemstatus, Spawn-Budgets. Dokumentiert in The Ralph Loop

  17. Architektur des deliberation system des Autors. 3.500 Zeilen Python, 12 Module, Confidence-Trigger, Konsensvalidierung. Dokumentiert in Building AI Systems: From RAG to Agents

  18. Nemeth, Charlan, In Defense of Troublemakers: The Power of Dissent in Life and Business, Basic Books, 2018. 

  19. Wu, H., Li, Z., und Li, L., „Can LLM Agents Really Debate?” arXiv:2511.07784, 2025. 

  20. Liang, T. et al., „Encouraging Divergent Thinking in Large Language Models through Multi-Agent Debate,” EMNLP 2024

  21. AGENTS.md-Analyse des Autors über reale Repositorys hinweg. Dokumentiert in AGENTS.md Patterns. Siehe auch: GitHub Blog, „How to Write a Great agents.md: Lessons from Over 2,500 Repositories.” 

  22. quality loop- und evidence gate-Methodik des Autors. Teil des Jiro Craftsmanship-Systems. 

  23. Anthropic, „Claude Managed Agents Overview”. Public Beta gestartet am 8. April 2026. Harness-as-a-Service mit Session-Checkpointing, gebündelter Sandbox, REST API. Preise: Standard-Tokens + 0,08 $/Session-Stunde. Beta-Header managed-agents-2026-04-01

  24. OpenAI, „openai-agents Python v0.14.0 release notes”. Veröffentlicht am 15. April 2026; die Ankündigung erfolgte am 16. April. Führt die Sandbox Agents SDK-Oberfläche als Beta-Schicht über dem bestehenden Agent- / Runner-Flow ein: SandboxAgent, Manifest (Workspace-Vertrag), SandboxRunConfig, Capabilities (Shell, Dateisystembearbeitung, Bildinspektion, skills, Sandbox-Memory, Kompaktierung), Workspace-Mounts (lokal, Git, remote: S3, R2, GCS, Azure Blob, S3 Files), portable Snapshots mit Pfadnormalisierung und Symlink-Erhaltung sowie Run-State-Serialisierung für Resume. Backends: UnixLocalSandboxClient, DockerSandboxClient und gehostete Clients für Blaxel, Cloudflare, Daytona, E2B, Modal, Runloop, Vercel über optionale Extras. Die Ankündigung vom 16. April wurde bei Help Net Security zusammengefasst. 

  25. Google Cloud, „Scion: Multi-Agent Hypervisor”. Als Open Source veröffentlicht am 7. April 2026. Orchestriert Claude Code, Gemini CLI und andere Deep Agents als isolierte Prozesse mit Container, Git-Worktree und Zugangsdaten pro Agent. Lokale, Hub- und Kubernetes-Deployment-Modi. InfoQ-Bericht

  26. Multi-agent debate-Forschungscluster, Q1-Q2 2026. Wu et al., „Can LLM Agents Really Debate?” (arXiv 2511.07784); M3MAD-Bench - Multi-Model-Multi-Agent-Debate-Benchmark, der Leistungsplateaus und Anfälligkeit für irreführenden Konsens zeigt; Tool-MAD - heterogene Tool-Zuweisung pro Agent + Faithfulness/Relevance-Judge-Scores. 

  27. Anthropic, „Our framework for developing safe and trustworthy agents”. 9. April 2026. Fünf Prinzipien: menschliche Kontrolle, Werteausrichtung, Sicherheit, Transparenz, Datenschutz. MCP-Spende an die Agentic AI Foundation der Linux Foundation. 

  28. Permiso Security, „SandyClaw: First Dynamic Sandbox for AI Agent Skills”. 2. April 2026. Skill-Ausführungs-Sandbox mit Sigma/YARA/Nova/Snort-Erkennung und evidenzgestützten Urteilen. 

  29. Anthropic, „Introducing Claude Opus 4.7”. 16. April 2026. Verbesserungen für Long-horizon agents: 3-fache SWE-Bench-Production-Task-Lösung gegenüber Opus 4.6, Resilienz bei Tool-Fehlschlägen, xhigh-Effort-Stufe, Task-Budgets (Beta), Bewusstsein für implizite Anforderungen. Siehe auch What’s new in Opus 4.7 zu Breaking Changes in Messages API. 

  30. Kombinierte Referenz — OpenAI openai-agents-python v0.14.7 (28. April 2026) und v0.14.8 (29. April 2026); Anthropic claude-agent-sdk-python v0.1.69 (28. April), v0.1.70 (28. April) und v0.1.71 (29. April). Highlights von v0.14.7: komfortable tool_name-/call_id-Properties für Tool-Elemente, erhöhtes Turn-Limit für die Phase-2-Speicherkonsolidierung, GPT-5.5-Aliase für Sandbox-Kompaktierung, verschärfte Tar-/Zip-Member-Validierung, Zurückweisung von Symlinks bei LocalFile-Quellen, Entfernung nicht gesetzter Felder aus Responses-API-Aufrufen. Highlights von v0.14.8: Importfehler beim Re-Export von MCP bleiben erhalten, Sandbox-Abschnitte mit Prompt-Anweisungen werden abgegrenzt. claude-agent-sdk-python v0.1.69 fügte Docstrings zu ClaudeAgentOptions-Feldern hinzu und hob die gebündelte CLI auf v2.1.121 an; v0.1.70 erhöhte die Untergrenze der mcp-Abhängigkeit auf >=1.19.0 (ältere Versionen verwarfen CallToolResult-Rückgaben aus prozessinternen MCP-Tool-Handlern stillschweigend), behob eine Trio-Nursery-Beschädigung bei frühem Abbruch während der Iteration von query() mit gesetztem options.stderr (spawn_detached() wird nun für den stderr-Reader verwendet) und hob die gebündelte CLI auf v2.1.122 an; v0.1.71 fügte SandboxNetworkConfig Domain-Allowlist-Felder (allowedDomains, deniedDomains, allowManagedDomainsOnly, allowMachLookup) für Parität mit dem TypeScript-Schema hinzu und hob die gebündelte CLI auf v2.1.123 an. 

  31. OpenAI, “Benutzerdefinierte Anweisungen mit AGENTS.md”. Codex liest vor der Arbeit globale und projektbezogene AGENTS.md- / AGENTS.override.md-Dateien, führt Anweisungen vom Root- bis zum aktuellen Verzeichnis zusammen und begrenzt Projektdokumente über project_doc_max_bytes

  32. OpenAI, “Agent Skills”. Codex skills verwenden SKILL.md, progressive Offenlegung, explizite $skill-Invocation und implizite Aktivierung über Beschreibungen. 

  33. OpenAI, “Codex Hooks”. Codex hooks unterstützen Command-hooks in der Konfiguration, Plugin-hooks, verwaltete hooks, Matcher für unterstützte Events, JSON-Eingaben über stdin und JSON-Ausgabefelder. 

  34. OpenAI, “Codex Subagents” und “Codex CLI 0.128.0 changelog”. Codex unterstützt explizite parallele subagent-Workflows, integrierte Agents default, worker und explorer, benutzerdefinierte TOML-Agents, vererbte Sandbox-Richtlinien, in Plugins gebündelte hooks, den Aktivierungszustand von hooks und persistierte /goal-Workflows in 0.128.0. 

  35. Anthropic, “Neu in Claude Managed Agents”. 6. Mai 2026. Dreaming (Research Preview): geplanter Hintergrundprozess, der Agent-Sitzungen und Speicherbestände prüft, Muster extrahiert und Erinnerungen kuratiert. Outcomes (Public Beta): rubrikbasierte Bewertung, bei der ein separater Grader die Ausgabe in einem eigenen Kontextfenster anhand der Rubrik bewertet, damit er nicht durch die Gedankengänge des Agents beeinflusst wird. Multiagent Orchestration (Public Beta): Ein Lead-Agent delegiert Teile einer Aufgabe an Spezialisten, jeweils mit eigenem Modell, Prompt und eigenen Tools; Spezialisten arbeiten parallel auf einem gemeinsamen Dateisystem und tragen zum Gesamtkontext des Lead-Agents bei, mit vollständigem Tracing pro Schritt in der Claude Console. 

  36. Anthropic, claude-agent-sdk-python v0.1.74. 6. Mai 2026. Fügt include_hook_events zu ClaudeAgentOptions hinzu; wenn gesetzt, werden hook-Events (PreToolUse, PostToolUse, Stop, weitere) von der CLI ausgegeben und aus dem Nachrichtenstream als HookEventMessage geliefert, analog zu includeHookEvents der TypeScript SDK. Die gebündelte Claude CLI wurde auf v2.1.129 angehoben. 

  37. Anthropic, claude-agent-sdk-python v0.1.77. 8. Mai 2026. Markiert den Wert "Skill" in allowed_tools als veraltet zugunsten einer dedizierten Option skills auf ClaudeAgentOptions, gibt Claude Code ein strukturierteres Signal über verfügbare skills, verbessert Fehlermeldungen bei Command failed-Exceptions und bündelt Claude CLI v2.1.133. 

  38. Anthropic, Claude Code v2.1.132. 6. Mai 2026. Fügt die Env-Var CLAUDE_CODE_SESSION_ID für Bash-Tool-Subprozesse hinzu (entspricht der session_id, die hooks bereits sehen), CLAUDE_CODE_DISABLE_ALTERNATE_SCREEN, um die Unterhaltung im nativen Scrollback zu behalten, ein aktualisiertes /tui fullscreen-Startbanner (weniger Speicherbedarf, Mausunterstützung, automatisches Kopieren bei Auswahl) sowie rund zwanzig Bugfixes zu SIGINT-Graceful-Shutdown, Beschädigung von Surrogat-Emoji bei --resume, Plan-Mode-Flag --permission-mode, Cursor-Behandlung für indische Schriften und ZWJ, NFD-Vim-Operationen, Verschlucken von Einfügungen, die mit / beginnen, unbegrenztem MCP-Speicher, Wiederholung von MCP tools/list, Bedrock + Vertex ENABLE_PROMPT_CACHING_1H 400 und context_window in der Statusline, das kumulative Tokens anzeigt. 

  39. Anthropic, Claude Code v2.1.133. 7. Mai 2026. Hooks erhalten nun effort.level als JSON-Eingabe und die Env-Var $CLAUDE_EFFORT (auch aus Bash-Commands lesbar). Subagents entdecken Projekt-, Benutzer- und Plugin-skills über das Skill-Tool (Regressionsfix). Neue Admin-Einstellungen: worktree.baseRef (fresh | head) setzt die Worktree-Basis nach dem Wechsel auf lokales HEAD in v2.1.128 wieder auf origin/<default> zurück; sandbox.bwrapPath und sandbox.socatPath pinnen Sandbox-Binaries unter Linux/WSL; parentSettingsBehavior ('first-wins' | 'merge') steuert, wie SDK managedSettings mit übergeordneten Einstellungen zusammengesetzt werden. Weitere Fixes: 401-nach-Refresh-Token-Rennen bei parallelen Sitzungen, Scoping von Allow-Regeln für Drive-Roots, Proxy-/mTLS-Unterstützung für MCP OAuth, Stop/Interrupt in Remote Control schließt Cancel ab, sitzungsübergreifendes /effort-Leck, --remote-control in --help aufgeführt. 

  40. Anthropic, Claude Code v2.1.136. 8. Mai 2026. Fügt settings.autoMode.hard_deny für Auto-Mode-Classifier-Regeln hinzu, die unabhängig von Benutzerabsicht oder Allow-Ausnahmen immer blockieren, sowie CLAUDE_CODE_ENABLE_FEEDBACK_SURVEY_FOR_OTEL, um die sitzungsinterne Qualitätsumfrage für Unternehmen wieder zu aktivieren, die Antworten über OpenTelemetry erfassen. Fixes mit Operator-Auswirkung: MCP-Server aus .mcp.json, Plugins und claude.ai-Connectors verschwanden nach /clear in VS Code, JetBrains und Agent SDK stillschweigend; MCP OAuth Refresh-Tokens gingen bei gleichzeitigem Refresh verloren; der Plan-Mode blockierte Dateischreibvorgänge nicht, wenn eine passende Edit(...)-Allow-Regel vorhanden war; Plugin-hooks Stop/UserPromptSubmit schlugen fehl, wenn die Cache-Bereinigung eine noch laufende Version löschte; ein skills-Eintrag in plugin.json verbarg das standardmäßige skills/-Verzeichnis des Plugins; Env-Vars aus CLAUDE_ENV_FILE-SessionStart-hooks veralteten nach /resume oder /clear. Dazu kommen rund dreißig weitere Politur- und Zuverlässigkeitsfixes für TUI, Autocomplete und Terminal-Rendering. Begleit-Releases: v2.1.137 (9. Mai, Fix für Windows-Aktivierung der VSCode-Erweiterung), v2.1.138 (9. Mai, interne Fixes); claude-agent-sdk-python v0.1.78, v0.1.79 und v0.1.80 hoben die gebündelte Claude CLI jeweils auf v2.1.136, v2.1.137 und v2.1.138 an. 

  41. OpenAI, openai-agents-python v0.17.0. 8. Mai 2026. RealtimeAgent verwendet standardmäßig gpt-realtime-2. Die Materialisierung lokaler Quellen in der Sandbox beschränkt LocalFile.src und LocalDir.src nun auf den Bereich innerhalb des Manifest-base_dir (das aktuelle Arbeitsverzeichnis des SDK-Prozesses, wenn das Manifest angewendet wird), sofern die Quelle nicht explizit über Manifest.extra_path_grants mit SandboxPathGrant freigegeben wurde. Relative lokale Quellen werden aus base_dir aufgelöst; absolute Quellen müssen bereits darin liegen oder unter einer expliziten Freigabe. Migration: Deklarieren Sie vertrauenswürdige Host-Roots auf Manifest-Ebene, vorzugsweise schreibgeschützt. Behandeln Sie extra_path_grants als vertrauenswürdige Anwendungskonfiguration; füllen Sie sie nicht aus Modellausgaben oder nicht vertrauenswürdigen Manifest-Eingaben. Enthält außerdem einen Fix für eine extra_args-Kollision im Responses-Kontextmanagement. 

  42. Anthropic, Claude Code v2.1.139. Mai 2026. Lokale Evidenz aus der aktuellen Sitzung vom 11. Mai 2026: claude --version gab 2.1.139 (Claude Code) zurück. Die Release Notes ergänzen Agent View (claude agents), /goal, hook args: string[], continueOnBlock für PostToolUse, CLAUDE_PROJECT_DIR für MCP stdio servers, Plugin-Befehlsinterpolation für ${CLAUDE_PROJECT_DIR} sowie Korrekturen, darunter die Ausgabe von claude_code.active_time.total per OpenTelemetry im --print-Modus. 

  43. Anthropic, “Mehrere Agents mit Agent View verwalten”. Die Agent View-Dokumentation beschreibt, wie sich viele Claude Code sessions von einem Bildschirm aus disponieren und verwalten lassen, wie sichtbar wird, was jede Session gerade tut, und wie Sessions erkannt werden, die Eingaben durch Operatoren benötigen. Die Seite kennzeichnet Agent View als Research Preview und dokumentiert Einschränkungen lokaler Sessions. 

  44. Anthropic, “Claude Code Hooks”. Hook-Dokumentation zu Command-Hook-Feldern, PreToolUse, PostToolUse, Exit-Code-Verhalten, Hook-Eingabe/-Ausgabe und direkten Slash-Command-Erweiterungspfaden. 

  45. GitHub Advisory Database, GHSA-f3jg-756w-gm35 / CVE-2026-45046. “Gryph Agents Payload Filter Fails to Strip Tool Payload for Sensitive Content.” Veröffentlicht im Mai 2026; beschreibt, dass sensible file-write-Payload-Inhalte beim Standard-Loggingverhalten in lokalen SQLite-Logs verbleiben, behoben in Gryph v0.7.0. 

  46. OSV, GHSA-wxxx-gvqv-xp7p / CVE-2026-40217. “LiteLLM has a sandbox escape in custom-code guardrail.” Veröffentlicht am 11. Mai 2026; beschreibt einen admin-geschützten POST /guardrails/test_custom_code-Endpoint, der von Benutzern bereitgestellten Python in einer handgebauten Sandbox ausführt, und empfiehlt ein Upgrade oder, falls kein Upgrade möglich ist, das Blockieren des Endpoints. 

  47. Young Jo (seph) Chung und Safwat Hassan, “Collaborator or Assistnat? How AI Coding Agents Partition Work Across Pull Request Lifecycles”, arXiv:2605.08017v1, Mai 2026. Das Abstract berichtet über die Analyse von 29.585 PR-Lebenszyklen bei OpenAI, Copilot, Devin, Cursor und Claude Code und unterscheidet operative Agency von Merge Governance. 

  48. Jiayuan Liu et al., “The Memory Curse: How Expanded Recall Erodes Cooperative Intent in LLM Agents”, arXiv:2605.08060v1, Mai 2026. Das Abstract berichtet über Experimente mit 7 LLMs und 4 Spielen über 500 Runden, bei denen ein erweiterter zugänglicher Verlauf die Kooperation in 18 von 28 Modell-Spiel-Konfigurationen verschlechterte. 

  49. Anthropic, Claude Code v2.1.140. 12. Mai 2026. Ergänzt subagent_type zur Agent-Hook-Eingabe und behebt Probleme mit ConfigChange hooks, disableAllHooks, allowManagedHooksOnly, der Env-Var-Anzeige im Berechtigungsdialog aus Hook-Ergebnissen, Zurücksetzungen benutzerdefinierter Stile nach Einstellungsupdates, dem Fallback für native Paketauflösung unter Windows Git Bash und /scroll-speed

  50. Anthropic, Claude Code v2.1.141. 13. Mai 2026. Ergänzt terminalSequence zur hook JSON-Ausgabe für Desktop-Benachrichtigungen, Fenstertitel und Signaltöne; CLAUDE_CODE_PLUGIN_PREFER_HTTPS für das Klonen von HTTPS Plugin-Quellen; ANTHROPIC_WORKSPACE_ID für das Workspace-Scoping bei Workload Identity Federation; claude agents --cwd <path> für die Verzeichnisfilterung in Agent View; /feedback-Optionen zum Anhängen von Sessions aus den letzten 24 Stunden oder 7 Tagen; sowie zugehörige Korrekturen für Agents, Hintergrundjobs, hooks, MCP, Remote Control, Berechtigungsdialoge und Terminal-Rendering. Verifizierung in der aktuellen Sitzung am 14. Mai 2026: claude --version gab 2.1.141 (Claude Code) zurück und npm view @anthropic-ai/claude-code version dist-tags.latest time.modified --json gab als latest 2.1.141 zurück. 

  51. Anthropic, Claude Code v2.1.142. 14. Mai 2026. Ergänzt claude agents-Dispatch-Flags für Hintergrundsessions (--add-dir, --settings, --mcp-config, --plugin-dir, --permission-mode, --model, --effort, --dangerously-skip-permissions), stellt Fast mode standardmäßig auf Opus 4.7 um, mit CLAUDE_CODE_OPUS_4_6_FAST_MODE_OVERRIDE=1 als Pinning-Override, stellt SKILL.md-Dateien auf Plugin-Root-Ebene als skills bereit, wenn kein skills/-Verzeichnis existiert, zeigt von Plugins bereitgestellte LSP-Server in Plugin-Details an, warnt vor dem Ersetzen einer bestehenden GitHub App-Verbindung und behebt Probleme mit MCP_TOOL_TIMEOUT, Worktrees von Hintergrundsessions, Daemon Sleep/Wake, Daemon-Bereinigung nach Upgrades, Plugin-Cache und Agent View-Zuverlässigkeit. Verifizierung in der aktuellen Sitzung am 15. Mai 2026: claude --version gab 2.1.141 (Claude Code) zurück und npm latest gab 2.1.142 zurück. 

  52. Anthropic, Claude Code v2.1.147. 21. Mai 2026. Ergänzt das standardmäßig deaktivierte Workflow tool für deterministische Multi-Agent-Orchestrierung (CLAUDE_CODE_WORKFLOWS=1), angeheftete Hintergrundsessions, /code-review [effort] --comment als Ersatz für /simplify, REPL- und Workflow-Sandbox-Härtung, Auto-Updater-Diagnosen, Verbesserungen beim Rendering großer Diffs, Deduplizierung der Prompt-History sowie Korrekturen für Enterprise-Login-Einschränkungen, PowerShell-Verhalten, MCP-Paginierung, Agent View, Plugins, Hook-Bedingungen, eingefügten Text und Schleifen durch entfernte Bilder. Verifizierung in der aktuellen Sitzung am 21. Mai 2026: claude --version gab 2.1.144 (Claude Code) zurück und npm view @anthropic-ai/claude-code version dist-tags.latest time.modified --json gab als latest 2.1.147 mit time.modified 2026-05-21T20:38:35.053Z zurück. 

  53. Anthropic, Claude Code v2.1.148, v2.1.149, v2.1.150 und Claude Code CHANGELOG. v2.1.148 behebt eine Bash-Exit-Code-Regression aus v2.1.147. v2.1.149 ergänzt /usage mit Nutzung nach Limitkategorien, Tastatur-Scrolling für /diff, GFM-Task-List-Rendering und Enterprise allowAllClaudeAiMcps; harness-relevante Korrekturen betreffen PowerShell-cd-Berechtigungsumgehungen, PowerShell-Präfix-/Wildcard- und Stale-Variable-Berechtigungsanalyse, den Write-Allowlist-Scope der Git-Worktree-Sandbox, Bash-find-Vnode-Erschöpfung unter macOS, Approval-Freezes bei Managed Settings, otelHeadersHelper-Diagnosen für Pfade mit Leerzeichen und die Synchronisierung von Session-Umbenennungen in Remote Control. v2.1.150 betrifft nur interne Infrastruktur. Verifizierung in der aktuellen Sitzung am 24. Mai 2026: Lokal gab claude --version 2.1.144 (Claude Code) zurück, während npm latest 2.1.150 mit time.modified 2026-05-23T04:03:10.243Z zurückgab; das neueste GitHub Release gab v2.1.150, veröffentlicht am 2026-05-23T04:03:51Z, zurück. 

  54. OpenAI, openai-agents-python v0.17.1, v0.17.2 und v0.17.3. v0.17.1 ergänzt Fehlerdetails für Sandbox-Provider, Limits für Archivextraktion, GitRepo-Subpath-Validierung sowie Korrekturen für Tracing, Sessions und Realtime. v0.17.2 behebt Reasoning-Persistenz in Conversations, Ablehnungsgründe bei lokaler Genehmigung, AsyncSQLiteSession-Einstellungen und Realtime-Verhalten bei unbekannten Tools. v0.17.3 hält Mountpoint-Zugangsdaten aus Sandbox-Befehlen heraus, weist relative Sandbox-Workspace-Roots zurück, behandelt terminale Vercel-Sandbox-Zustände und behebt Randfälle bei Output-Schema, Guardrail, Runtime und Memory-Import. Verifizierung in der aktuellen Sitzung am 24. Mai 2026: python3 -m pip index versions openai-agents gab als latest 0.17.3 zurück; das neueste GitHub Release gab v0.17.3, veröffentlicht am 2026-05-19T01:27:36Z, zurück. 

  55. Claude Code Changelog (kanonisch), v2.1.152 release notes, v2.1.153 release notes, v2.1.154 release notes. v2.1.152 (27. Mai) fügt das MessageDisplay hook event, disallowed-tools im skill-/command-Frontmatter, /reload-skills, die SessionStart hook-Ausgaben reloadSkills und sessionTitle, /code-review --fix zum Anwenden im working tree, die verwaltete Einstellung pluginSuggestionMarketplaces, die Entfernung des Auto-Mode-Opt-ins und --fallback-model für Modellwechsel mitten in der Sitzung hinzu. v2.1.153 (28. Mai) speichert /model als Standard für neue Sitzungen, mit s nur für die aktuelle Sitzung, fügt skipLfs zu Plugin-Marketplaces hinzu, macht COLUMNS/LINES in der Statuszeilen-Umgebung sichtbar und persistiert macOS Privacy-&-Security-Freigaben für background-agent. v2.1.154 (28. Mai) macht Opus 4.8 mit hohem Aufwand standardmäßig zum Standard und führt ein neues /effort xhigh ein, führt dynamische Workflows über /workflows ein, stellt Fast mode auf Opus 4.8 zum 2-fachen Tarif für 2,5-fache Geschwindigkeit bereit, nutzt standardmäßig den schlanken System-Prompt für alle Modelle außer Haiku/Sonnet/Opus 4.7 und früher, lässt claude agents ! <command> für background-shell-Sitzungen akzeptieren, erlaubt Plugins, defaultEnabled: false zu deklarieren, übergibt CLAUDE_CODE_SESSION_ID und CLAUDECODE=1 an die stdio MCP subprocess env und veraltet CLAUDE_CODE_OPUS_4_6_FAST_MODE_OVERRIDE (entfernt am 1. Juni). 

  56. Codex Changelog (OpenAI Developers) und openai/codex releases. Codex CLI 0.134.0 (26. Mai 2026) fügte lokale Suche im Gesprächsverlauf hinzu, machte --profile zum primären Profilauswahlschalter in CLI-/TUI-/sandbox-Flows mit Migration aus der Legacy-Konfiguration, verbesserte das MCP-Setup mit umgebungsspezifischem Targeting pro Server plus OAuth für streambare HTTP-Server, machte Schemas von Connector-Tools zuverlässiger, indem lokale $ref/$defs erhalten und übergroße Schemas vor der Bereitstellung kompaktiert werden, und ermöglichte die gleichzeitige Ausführung schreibgeschützter MCP-Tools, die readOnlyHint ausweisen. Codex CLI 0.135.0 (28. Mai 2026) fügte reichhaltigere codex doctor-Diagnosen hinzu, zeigte Remote-Verbindungsdetails und Serverversion in /status, ergänzte vim-Textobjektbearbeitung mit verbessertem Wort-/Zeilenende-Verhalten und konfigurierbarem interrupt-turn, ließ /permissions benannte Berechtigungsprofile verstehen, bündelte einen gepatchten zsh-Helfer für unterstützte macOS- und Linux-Systeme und fügte freundliche Sandbox-Voreinstellungen zum Python SDK für Thread- und Turn-APIs hinzu. 

  57. Hermes Agent v0.15.0 release notes. „The Velocity release.” 1.302 Commits, 747 gemergte PRs, 321 Community-Beitragende. run_agent.py wurde zu 76 % refaktoriert (16.083 → 3.821 Zeilen in 14 Modulen). Multi-Agent-Kanban-Plattform mit automatischer Zerlegung, Schwarmtopologie, Modellüberschreibungen pro Aufgabe, geplanten Aufgaben und Worktree-Verwaltung. session_search wurde neu gestaltet, 4.500× schneller, und die LLM-Abhängigkeit wurde entfernt. Promptware-Abwehr gegen Prompt-Injection der Brainworm-Klasse an drei Sicherheitskontrollpunkten. Bitwarden Secrets Manager-Integration, die Schlüssel pro Anbieter durch ein einzelnes Bootstrap-Token ersetzt. Skill-Bundles zum Laden mehrerer skills mit einem slash command. TUI-Sitzungsorchestrator für die Verwaltung mehrerer Sitzungen in einem Terminal. Krea 2 und FAL als Bildgenerierungsanbieter; xAI-Integrationsrunde (Web-Search-Plugin, OAuth upstream, Erkennung eingestellter Modelle, natürliche TTS-Pausen). 

  58. Claude Code v2.1.157 release notes und das Claude Code Changelog (kanonisch). 29. Mai 2026. Plugins, die im Verzeichnis .claude/skills/ eines Projekts liegen, werden nun automatisch geladen, ohne dass ein Marketplace erforderlich ist; claude plugin init <name> erstellt ein frisches Plugin-Gerüst in diesem Verzeichnis; /plugin erhielt Argument-Autovervollständigung. Außerdem: EnterWorktree kann mitten in der Sitzung zwischen von Claude verwalteten Worktrees wechseln, Hintergrund-Worktrees bleiben nach Abschluss durch den Agent entsperrt, damit git worktree remove/prune sauber funktionieren, und tool_decision-Telemetry-Events enthalten tool_parameters, wenn OTEL_LOG_TOOL_DETAILS=1 gesetzt ist. Enthält außerdem Fehlerbehebungen für nicht verarbeitbare Bilder (nun Degradierung zu Textplatzhaltern), sandbox-Netzwerkberechtigungsabfragen im Auto-/Bypass-Modus, Retire-on-Park für Hintergrundsitzungen und Terminaldarstellung in tmux / VS Code / Cursor / Windsurf. 

  59. Claude Code Changelog (kanonisch) und Codex CLI v0.137.0 release notes, Juni 2026. Claude Code v2.1.162 (3. Juni) fügte waitingFor zu claude agents --json hinzu; v2.1.163 (4. Juni) fügte hookSpecificOutput.additionalContext für nicht fehlerbezogenes Feedback bei Stop/SubagentStop hinzu; v2.1.166 (6. Juni) härtete die sitzungsübergreifende SendMessage-Autorität (weitergeleitete Nachrichten tragen keine Benutzerautorität mehr) und fügte die Einstellung fallbackModel hinzu (bis zu drei Fallbacks, einmaliger Retry bei nicht wiederholbaren Fehlern). Codex CLI v0.137.0 (4. Juni) lieferte multi-agent v2 (runtime-with-thread, hide_spawn_agent_metadata standardmäßig true, Ereignisweitergabe von Parent zu Child), eine v1 skills-Erweiterung mit Katalogauflösung pro Turn und Contributor-Events für Thread-Start-/Turn-Error-Lebenszyklen; die Codex subagents docs bestätigen die Agent-Typen default/worker/explorer sowie die Nebenläufigkeitssteuerungen agents.max_threads/max_depth. AGENTS.md (agents.md) veröffentlicht keine versionierte Spezifikationsänderung. Verifizierung in der aktuellen Sitzung am 8. Juni 2026. 

  60. Anthropic, Claude Code v2.1.169 release notes und v2.1.170 release notes, 8.–9. Juni 2026. v2.1.169 fügt die Einstellung disableBundledSkills plus CLAUDE_CODE_DISABLE_BUNDLED_SKILLS hinzu (blendet gebündelte skills, workflows und eingebaute slash commands vor dem Modell aus); das Flag --safe-mode plus CLAUDE_CODE_SAFE_MODE (startet eine Sitzung mit deaktivierten Anpassungen: CLAUDE.md, plugins, skills, hooks und MCP-Server); und den Befehl /cd (verschiebt eine Sitzung in ein neues Arbeitsverzeichnis, ohne den Prompt-Cache zu brechen). v2.1.170 macht Claude Fable 5 (claude-fable-5) über /model claude-fable-5 auswählbar, wobei Opus 4.8 weiterhin der agentische Standard von Claude Code bleibt. Modellklassen-Launch: Anthropic, “Claude Fable 5”, 9. Juni 2026 — eine „Mythos-class”-Stufe oberhalb von Opus, beschrieben als das leistungsfähigste Modell von Anthropic, das für den allgemeinen Einsatz sicher gemacht wurde. 

  61. OpenAI, Codex CLI rust-v0.138.0 release notes (8. Juni 2026) und rust-v0.139.0 release notes (9. Juni 2026). v0.138.0 härtet multi-agent v2 mit verschlüsselten Inter-Agent-Nachrichtenpayloads, einem v2-Agent-Konfigurationskatalog, einer LRU für Agent-Residency und Nebenläufigkeit, die nach aktiver Ausführung statt nach gestarteten Threads gezählt wird. v0.139.0 benennt den close_agent-Lebenszyklus-API in interrupt_agent um und beschränkt Startwarnungen von subagent-MCP auf den besitzenden Thread, sodass sie nicht mehr im Parent dupliziert werden. Die AGENTS.md-Erkennung wird in beiden Releases gehärtet: Das Laden erfolgt über Umgebungsdateisysteme und erhält logische Pfade während der Erkennung, wodurch die korrekte Dateiauswahl für Remote- und symlinkte Workspaces sichergestellt wird. 

  62. Anthropic, Claude Code v2.1.172 release notes (10. Juni 2026). Sub-agents können jetzt eigene subagents starten, wobei rekursive Delegation bis zu 5 Ebenen tief unterstützt wird; zuvor war Delegation faktisch auf eine Ebene beschränkt. 

  63. Anthropic, Claude Code v2.1.175 release notes und v2.1.178 release notes, 12.–15. Juni 2026. v2.1.175 fügt die verwaltete Einstellung enforceAvailableModels hinzu (fixiert das Default-Modell und verhindert, dass Benutzer-/Projekteinstellungen die verwaltete availableModels-Allowlist erweitern). v2.1.178 fügt die Permission-Rule-Syntax Tool(param:value) hinzu, die Eingabeparameter eines Tools mit einem *-Wildcard abgleicht (z. B. Agent(model:opus)); lädt skills aus verschachtelten .claude/skills-Verzeichnissen mit <dir>:<name>-Unterscheidung bei Namenskonflikten; löst verschachtelte .claude/ agents, Workflows und output-styles bei Kollisionen nach closest-to-cwd auf (Speicherungen von Workflows im Projektumfang zielen auf das nächstgelegene vorhandene .claude/workflows/); bewertet subagent-Starts vor dem Start mit dem Auto-Mode-Klassifizierer; und behebt, dass MCP-Spezifikationen auf Serverebene (mcp__server, mcp__server__*, mcp__*) in disallowedTools von subagents stillschweigend ignoriert wurden. 

  64. OpenAI, Codex CLI rust-v0.140.0 release notes, 15. Juni 2026 (aus der v0.140.0-alpha-Reihe zu Stable befördert). Fügt /import hinzu, um Setup, Projektkonfiguration und aktuelle Chats aus Claude Code selektiv zu importieren; dauerhafte Sitzungslöschung über codex delete, /delete und app-server thread/delete mit Bestätigungsschutz; ein einheitliches @-Mentions-Menü für Dateien, Plugins und skills; sowie /usage-Ansichten zur Token-Aktivität. 

  65. Anthropic, Claude Code v2.1.183 release notes, 19. Juni 2026 — Auto Mode blockiert destruktive Git-Befehle (git reset --hard, git checkout -- ., git clean -fd, git stash drop), wenn Sie nicht darum gebeten haben, Arbeit zu verwerfen, git commit --amend bei Commits, die der Agent in dieser Sitzung nicht erstellt hat, sowie terraform destroy/pulumi destroy/cdk destroy, sofern Sie nicht den konkreten Stack angefordert haben. OpenAI, Codex CLI rust-v0.141.0 release notes, 18. Juni 2026 (aus der v0.141.0-alpha-Reihe zu Stable befördert) — Remote Executors verwenden authentifizierte, Ende-zu-Ende-verschlüsselte Noise-Relay-Kanäle; plattformübergreifende Remote-Ausführung erhält executor-native Arbeitsverzeichnisse und Shells; TLS unterstützt P-521-Zertifikatssignaturen für Enterprise-Proxys. 

NORMAL agent-architecture.md EOF