Claude Code vs Codex CLI: Wann welches Tool zum Einsatz kommt
Ich verwende Claude Code als mein primäres Entwicklungswerkzeug. Diese Voreingenommenheit ist es wert, vorab genannt zu werden, denn die stärksten Vergleichstexte entstehen, wenn man ein Tool tiefgehend kennt und das andere ehrlich testet. Über 36 Blindduelle hinweg — bei denen ich identische Aufgaben durch beide Tools laufen ließ und die Ergebnisse bewertete, ohne zu wissen, welches sie produziert hatte 1 — und Hunderte von Sitzungen mit beiden habe ich festgestellt, dass die Antwort auf „Welches ist besser?” tatsächlich „Es kommt auf die Aufgabe an” lautet.
TL;DR
Claude Code und Codex CLI lösen dasselbe Problem — KI-gestützte Entwicklung — mit grundlegend unterschiedlichen Architekturen. Claude Code steuert über Hooks (17 Lifecycle-Eventtypen, die Richtlinien deterministisch durchsetzen) 2. Codex steuert über Sandboxing (Einschränkungen auf Betriebssystem-Kernel-Ebene unterhalb der Anwendungsschicht) 3. Keiner der beiden Ansätze ist strikt überlegen.
Claude Code hat Codex bei Code-Review und Sicherheitsüberprüfung durchgehend übertroffen. Codex bietet echte Vorteile beim Sandboxing, bei der toolübergreifenden Portabilität über AGENTS.md und bei der Cloud-Aufgabendelegation.
Schnellentscheidung: Brauchen Sie Sandboxing auf Kernel-Ebene oder toolübergreifendes AGENTS.md? → Codex. Brauchen Sie programmierbare Governance-Hooks oder tiefgreifendes Refactoring? → Claude Code. Brauchen Sie beide Sicherheitsmodelle? → Nutzen Sie beide.
Neu bei beiden? Beginnen Sie zuerst mit dem Claude Code Leitfaden oder dem Codex Leitfaden. Dieser Beitrag setzt Vertrautheit mit mindestens einem der beiden voraus.
Zwei Denkmodelle
Beide Tools sind Drei-Schichten-Architekturen, aber die Schichten dienen unterschiedlichen Zwecken.
Claude Code:
- Reasoning — Claude Opus verarbeitet Ihre Codebasis und denkt über Änderungen nach
- Ausführung — Bash, Dateioperationen, Git-Befehle, MCP-Tool-Aufrufe
- Governance — Hooks fangen Aktionen an 17 Lifecycle-Punkten ab 2; Berechtigungen begrenzen den Umfang
Codex:
- Modell — GPT-5.3-Codex mit 400K Input / 128K Output Kontext 4
- Sandbox — Durchsetzung auf Betriebssystem-Kernel-Ebene (Seatbelt auf macOS, Landlock + seccomp auf Linux) 3
- Genehmigung — Drei Richtlinien (
untrusted,on-request,never) steuern Mutationen vor der Ausführung 5
Der entscheidende Unterschied liegt darin, wo Governance angesiedelt ist. Claude Code setzt Sicherheit auf der Anwendungsschicht durch — Hooks sind Programme, die Sie schreiben und die bestimmte Ereignisse abfangen. Codex setzt Sicherheit auf der Kernel-Schicht durch — das Betriebssystem verhindert unerlaubte Operationen unabhängig davon, was das Modell versucht.
Warum diese Unterscheidung wichtig ist: Governance auf Anwendungsebene ist programmierbar. Sie können Geschäftslogik kodieren, Linter ausführen, Schemata validieren — alles, was sich in Code ausdrücken lässt. Governance auf Kernel-Ebene ist ausbruchssicher. Das Modell kann Einschränkungen nicht umgehen, weil das Betriebssystem den Systemaufruf ablehnt, bevor er die Anwendung erreicht. Jede Sicherheitsarchitektur tauscht Ausdrucksstärke gegen Robustheit, und diese beiden Tools sitzen an entgegengesetzten Enden dieses Spektrums.
Konfigurationsphilosophie
Claude Code verwendet JSON. Codex verwendet TOML. Beide unterstützen hierarchische Geltungsbereiche. Die Philosophien unterscheiden sich darin, wie sie über Kontextwechsel denken.
Claude Code: Geschichtete Konfiguration
// ~/.claude/settings.json (user-level)
{
"permissions": {
"allow": ["Bash(git *)"],
"deny": ["Bash(rm -rf *)"]
}
}
// .claude/settings.json (project-level, inherits user)
{
"permissions": {
"allow": ["Bash(npm test)"]
}
}
Claude Code löst Einstellungen aus mehreren Schichten auf: verwaltete Einstellungen (höchste Priorität) → Kommandozeile → lokales Projekt → geteiltes Projekt → Benutzerstandards 6. Speicherdateien (CLAUDE.md) folgen ihrem eigenen Geltungsbereich: Benutzer → Projekt → lokal. Skills und Hooks fügen weitere Schichten hinzu. Die Flexibilität ist leistungsstark, aber die aktive Konfiguration ist nicht aus einer einzelnen Datei ersichtlich — Sie setzen sie zusammen, indem Sie die Hierarchie lesen.
Codex: Profile mit explizitem Wechsel
# ~/.codex/config.toml
model = "gpt-5.3-codex"
approval_policy = "on-request"
[profiles.deep-review]
model = "gpt-5-pro"
approval_policy = "never"
[profiles.careful]
approval_policy = "untrusted"
codex --profile careful "Review this PR"
codex --profile deep-review "Audit this module"
Codex-Profile ermöglichen es Ihnen, mit einem Flag zwischen Konfigurationen zu wechseln 7. Keine Schichtauflösung, über die Sie nachdenken müssen — die aktive Konfiguration ist immer explizit. Für Teams, die Genehmigungsrichtlinien standardisieren, ist dies einfacher zu überprüfen. Profile sind derzeit experimentell 7.
Sicherheitsmodelle
Sicherheit ist der tiefste architektonische Unterschied zwischen den Tools.
Claude Code: Deterministische Hooks auf der Anwendungsschicht
Hooks fangen Aktionen ab, bevor sie ausgeführt werden. Ein PreToolUse-Hook auf Bash kann jeden Befehl inspizieren und gefährliche Muster blockieren 2:
# Hook: git-safety-guardian (PreToolUse:Bash)
if echo "$tool_input" | grep -q "push.*--force.*main"; then
echo '{"decision": "block", "reason": "Force push to main blocked"}'
fi
Die Stärke: Hooks sind Programme. Sie können beliebig komplexe Sicherheitslogik kodieren — Dateipfade prüfen, JSON validieren, Namenskonventionen durchsetzen, Linter ausführen. Ich betreibe 95 Hooks, die alles von der Anmeldedaten-Erkennung bis zu Qualitäts-Gates abdecken.
Die Schwäche: Hooks arbeiten auf der Anwendungsschicht. Im Jahr 2025 veröffentlichte Check Point Research die CVE-2025-59536 und zeigte, dass bösartige Hooks in Projektkonfigurationsdateien Shell-Befehle während der Initialisierung von Claude Code ausführen konnten — bevor der Benutzer einen Zustimmungsdialog sah 19. Anthropic behob die Schwachstelle innerhalb von Wochen, aber die Veröffentlichung bestätigt die architektonischen Bedenken: Durchsetzung auf Anwendungsebene teilt eine Prozessgrenze mit dem Agenten. Die Leitlinien des NVIDIA AI Red Teams kommen zum selben Schluss: „Hooks und MCP-Initialisierungsfunktionen laufen oft außerhalb einer Sandbox-Umgebung und bieten eine Möglichkeit, Sandbox-Kontrollen zu umgehen” 20.
Codex: Sandboxing auf Kernel-Ebene
Codex schränkt den Agenten auf Betriebssystemebene ein. Auf macOS begrenzen Seatbelt-Profile den Dateisystemzugriff, die Netzwerkkonnektivität und das Prozess-Spawning 3. Auf Linux bieten Landlock + seccomp äquivalente Einschränkungen, mit einer optionalen Bubblewrap-(bwrap)-Pipeline, die über die Konfiguration verfügbar ist 3.
# Three sandbox modes
codex --sandbox read-only # Agent can read but not write
codex --sandbox workspace-write # Agent writes only in project directory (default)
codex --sandbox danger-full-access # No restrictions (named to signal risk)
Die Stärke: Durchsetzung auf Kernel-Ebene liegt unterhalb der Anwendung. Das Modell kann Einschränkungen nicht umgehen, indem es geschickte Befehle formuliert — das Betriebssystem verweigert den Systemaufruf, bevor er ausgeführt wird 3. Das Präfix danger- beim Vollzugriffsmodus verdeutlicht, dass die Aufhebung von Sandbox-Einschränkungen eine außergewöhnliche Maßnahme ist, keine Routineeinstellung.
Die Schwäche: Kernel-Einschränkungen sind binär. Sie können Dateisystem-Schreibzugriffe erlauben oder verweigern, aber Sie können nicht sagen „Erlaube Schreibzugriffe auf src/, aber blockiere Schreibzugriffe auf config/, es sei denn die Änderung besteht einen Linter.” Diese feingranulare Governance erfordert Logik auf Anwendungsebene.
Der Kompromiss ist real. Hooks bieten granulare, programmierbare Sicherheit, aber schwächere Grenzen. Sandboxing bietet stärkere Grenzen, aber gröbere Kontrolle. Eine schnelle Entscheidungsheuristik:
- Internes Vertrauen, externer Code: Verwenden Sie Codex mit
read-only-Sandboxing bei der Überprüfung von PRs unbekannter Beitragender. Der Kernel verhindert Dateimodifikationen unabhängig davon, was das Modell versucht. - Vertrauenswürdiger Code, Richtliniendurchsetzung: Verwenden Sie Claude Code Hooks, wenn Sie der Codebasis vertrauen, aber organisatorische Standards durchsetzen müssen — Commit-Nachrichtenformate, Anmeldedaten-Scanning, Linting-Gates.
- Beide Anliegen: Nutzen Sie beide. Verwenden Sie Codex für die erste Sicherheitsgrenze, wechseln Sie dann zu Claude Code für governance-intensive Überprüfung.
Erweiterbarkeit
Beide Tools unterstützen Anpassung, aber der Reifegrad variiert je nach Mechanismus.
| Mechanismus | Claude Code | Codex |
|---|---|---|
| Projektanweisungen | CLAUDE.md (nur für Claude) | AGENTS.md (toolübergreifender Standard, 60.000+ Projekte) 8 |
| Lifecycle-Hooks | 17 Eventtypen (ausgereift) 2 | notify bei agent-turn-complete (im Anfangsstadium) 9 |
| Skills/Befehle | Skills + Slash-Befehle | Community-gepflegt über AGENTS.md-Muster |
| Subagent-Delegation | Explizites Task-Tool (benutzergesteuertes Spawning) 10 | Intern (standardmäßig max. 6 gleichzeitig, nicht benutzerseitig) 21 |
| MCP-Integrationen | STDIO + HTTP (10.000+ öffentliche Server) 11 | STDIO + HTTP |
| Cloud-Delegation | Nicht nativ vorhanden | Cloud-Aufgaben (experimentell: codex cloud exec) 12 |
Wo Claude Code führt: Hooks. Das 17-Event-Lifecycle-System — umfassend PreToolUse, PostToolUse, UserPromptSubmit, SessionStart, Stop, SubagentStart, SubagentStop, PreCompact und neun weitere 2 — ermöglicht Governance-Muster, die das Einzelevent-Benachrichtigungssystem von Codex nicht abbilden kann. Wenn Sie Qualitäts-Gates durchsetzen, Anmeldedaten-Lecks vor Commits erkennen oder Kontext automatisch injizieren müssen, ist die Hook-Architektur von Claude Code wesentlich ausgereifter.
Wo Codex führt: Toolübergreifende Portabilität. AGENTS.md ist ein offener Standard unter der Verwaltung der Agentic AI Foundation im Rahmen der Linux Foundation 13, adoptiert von 60.000+ Projekten 8. Dieselbe Anweisungsdatei funktioniert in Codex, Cursor, GitHub Copilot, Amp, Windsurf und Gemini CLI (mit Konfiguration) 14. CLAUDE.md ist leistungsstark, aber auf Claude Code beschränkt. Cloud-Aufgabendelegation ist ebenfalls einzigartig bei Codex — codex cloud exec lagert lang laufende Aufgaben an die OpenAI-Infrastruktur aus und gibt Diffs zurück 12, ein Workflow, den Claude Code nativ nicht bietet.
Wo jedes Tool gewinnt
Basierend auf 36 Blindduellen — identische Prompts an beide Tools gesendet, Ergebnisse blind bewertet — und täglichem Produktiveinsatz:
| Kategorie | Claude Code | Codex | Unentschieden |
|---|---|---|---|
| Code-Review & Sicherheit | 8 | 4 | 0 |
| Feature-Implementierung | 5 | 5 | 2 |
| Refactoring | 4 | 3 | 1 |
| DevOps & CI/CD | 1 | 3 | 0 |
Die vollständige Methodik und Bewertung pro Duell finden Sie in The Blind Judge.
Claude Code gewinnt
- Code-Review und Sicherheitsüberprüfung. Claude Code gewann 8 von 12 entschiedenen Duellen bei Review-Aufgaben 1. Das Qualitätsphilosophie-System und die Evidence-Gates fangen Probleme ab, die durch den eher prozeduralen Ansatz von Codex durchrutschen.
- Governance-intensive Workflows. Wenn Ihr Workflow Pre-Commit-Prüfungen, Anmeldedaten-Scanning, Ausgabevalidierung oder Qualitäts-Gates erfordert, sind Hooks der Mechanismus. Das Benachrichtigungssystem von Codex löst nach Abschluss des Agenten-Turns aus 9 — zu spät, um gefährliche Aktionen zu blockieren.
- Komplexe Multi-Agenten-Orchestrierung. Explizite Subagent-Delegation über das Task-Tool 10, kombiniert mit Deliberationssystemen, ermöglicht Workflows, in denen mehrere spezialisierte Agenten mit isoliertem Kontext zusammenarbeiten.
- Tiefgreifendes Codebasis-Refactoring. Opus zeichnet sich dadurch aus, architektonischen Kontext über lange Sitzungen hinweg zu halten. Die Context-Engineering-Muster, die die Hook/Skill/Rules-Hierarchie von Claude Code steuern, übertragen sich direkt darauf, wie das Modell über große Codebasen nachdenkt.
Codex gewinnt
- Sandbox-kritische Umgebungen. Wenn Sie einen KI-Agenten gegen nicht vertrauenswürdigen Code laufen lassen, externe PRs verarbeiten oder in einer CI/CD-Pipeline arbeiten, in der Sie harte Garantien bezüglich Dateisystem- und Netzwerkzugriff benötigen, ist das Sandboxing auf Kernel-Ebene von Codex das richtige Tool 3. Hooks auf Anwendungsebene können nicht dieselbe Garantie bieten.
- Toolübergreifende Teams. Wenn Ihr Team mehrere KI-Codierungstools verwendet, gibt Ihnen AGENTS.md eine Anweisungsdatei, die in Codex, Cursor, Copilot, Amp, Windsurf und mehr funktioniert 14. Keine doppelte Pflege über CLAUDE.md,
.cursor/rulesund Copilot-Anweisungen hinweg. - Asynchrone Cloud-Workflows.
codex cloud execdelegiert Aufgaben an Cloud-Infrastruktur und gibt Diffs zurück 12. Für CI/CD-Integration oder Stapelverarbeitung ist dies ein Workflow, den Claude Code nativ nicht bietet. - Echtzeitsteuerung. Der Steer-Modus von Codex ermöglicht es Ihnen, Anweisungen mitten in einer Aufgabe mit Enter (sofort) einzuspeisen oder Folgeanweisungen mit Tab (nächster Turn) in die Warteschlange zu stellen 15. Claude Code unterstützt Folgenachrichten, aber keine Injektion während eines laufenden Turns.
- Desktop-Erfahrung. Die Desktop-App von Codex (macOS) unterstützt Multitasking über parallele Worktrees und schwebende Pop-out-Fenster 16. Claude Code integriert sich mit VS Code und JetBrains 17, ist aber primär CLI-basiert.
Beide gleichzeitig nutzen
Die Tools stehen nicht im Konflikt. CLAUDE.md und AGENTS.md koexistieren im selben Repository. Hier ist mein Setup:
my-project/
├── .claude/
│ └── settings.json # Claude Code project config
├── CLAUDE.md # Claude Code instructions
├── AGENTS.md # Codex + Cursor + Copilot instructions
└── codex.md # Codex project config (optional)
Ein konkreter Dual-Tool-Workflow: Ich verwende Claude Code für die tägliche Entwicklung — Feature-Implementierung, Code-Review, dateiübergreifende Refactors, bei denen Hooks bei jedem Schritt Qualitäts-Gates durchsetzen. Wenn ein externer Beitragender einen PR öffnet, wechsle ich zu Codex mit --sandbox read-only, um deren Änderungen gegen nicht vertrauenswürdigen Code zu prüfen. Wenn ich eine zweite Meinung zu einer Architekturentscheidung brauche, sende ich denselben Prompt an beide Tools und vergleiche die Ergebnisse blind — der Blind-Judge-Ansatz.
Der Dual-Tool-Ansatz hat über meine eigenen Tests hinaus empirische Unterstützung. Forschung von Milvus ergab, dass adversariale Reviews zwischen mehreren KI-Modellen die Fehlererkennung von 53 % auf 80 % steigerten 23. Eine separate Studie fand heraus, dass iterative Claude-Codex-Review-Schleifen 14 Probleme über 3 Runden hinweg aufdeckten, die keines der Tools allein gefunden hatte 24. Keines der Tools ersetzt das andere; sie decken unterschiedliche Bedrohungsmodelle und Aufgabenprofile ab.
Kernaussagen
Wenn Sie ein Tool auswählen:
- Beginnen Sie mit Ihren Sicherheitsanforderungen. Brauchen Sie Sandboxing auf Kernel-Ebene? Codex. Brauchen Sie programmierbare Governance-Hooks? Claude Code.
- Berücksichtigen Sie Ihr Team. Mehrere KI-Tools im Einsatz? AGENTS.md vermeidet doppelte Anweisungspflege über Tools hinweg 14.
- Testen Sie beide an einer realen Aufgabe, bevor Sie entscheiden. Die Blind-Judge-Methodik funktioniert auch für persönliche Evaluierungen.
Wenn Sie bereits investiert sind:
- Claude Code-Nutzer: Schreiben Sie trotzdem eine AGENTS.md. Es dauert 20 Minuten und macht Ihr Projekt für Codex-, Cursor- und Copilot-Nutzer zugänglich.
- Codex-Nutzer: Beobachten Sie das Hook-System, während es reift. Das aktuelle
notify-Event 9 ist ein Ausgangspunkt — Community-Anfragen für erweiterte Hook-Events sind auf GitHub aktiv 18. - Beide Tools verbessern sich schnell. Der Vergleich in diesem Beitrag hat eine Haltbarkeit von Monaten, nicht Jahren.
FAQ
Kann ich beide Tools im selben Projekt verwenden?
Ja. CLAUDE.md und AGENTS.md sind separate Dateien ohne Konflikte. Jedes Tool liest seine eigene Anweisungsdatei und ignoriert die andere. Ich pflege beide in meinen aktiven Projekten.
Welches Tool ist besser für Einsteiger?
Codex hat eine niedrigere Konfigurationshürde — drei Sandbox-Modi und drei Genehmigungsrichtlinien decken die meisten Anwendungsfälle ab 5. Die Stärke von Claude Code kommt von Hooks und Skills, die Einrichtungsaufwand erfordern. Beginnen Sie mit dem Modell (Claude oder GPT), mit dem Sie bereits vertraut sind.
Wie sieht der Kostenvergleich aus?
Beide verwenden tokenbasierte Preisgestaltung über ihre jeweiligen APIs. Claude Code läuft auf Anthropics Preismodell; Codex läuft auf OpenAIs Kreditsystem. Unabhängiges Benchmarking von Composio ergab, dass Codex 2-4x weniger Token für vergleichbare Ergebnisse verbrauchte — bei einer Figma-Plugin-Aufgabe verwendete Claude Code 6,2 Millionen Token gegenüber 1,5 Millionen bei Codex 22. Token-Effizienz lässt sich nicht direkt in Kosten übersetzen (unterschiedliche Preise pro Token), aber der geringere Token-Verbrauch von Codex ist ein messbarer Vorteil für budgetbeschränkte Workflows.
Wird AGENTS.md mit Claude Code funktionieren?
Derzeit nicht. Claude Code liest CLAUDE.md; Codex liest AGENTS.md. Die Formate sind ähnlich genug, dass sich Inhalte leicht zwischen ihnen übersetzen lassen, aber es gibt kein automatisches gegenseitiges Lesen. Das Schreiben beider erfordert minimalen Aufwand, da sich die Inhalte überschneiden.
Welches hat die bessere IDE-Integration?
Codex hat eine Desktop-App mit Multitasking und schwebenden Fenstern (nur macOS, Stand Februar 2026) 16. Claude Code integriert sich mit VS Code über eine Erweiterung und JetBrains über ein Plugin (Beta) 17. Beide funktionieren gut; die Wahl hängt davon ab, ob Sie CLI-zentrierte (Claude Code) oder GUI-zentrierte (Codex) Workflows bevorzugen.
Referenzen
-
The Blind Judge: Claude vs Codex in 12 Tasks — Methodik und Ergebnisse der Blindbewertung ↩↩
-
Claude Code Hooks Reference — 17 Lifecycle-Eventtypen mit PreToolUse, PostToolUse, SubagentStart und mehr ↩↩↩↩↩
-
Codex Security Documentation — Seatbelt (macOS), Landlock + seccomp (Linux), drei Sandbox-Modi ↩↩↩↩↩↩
-
Introducing GPT-5.3-Codex — Modellspezifikationen: 400K Input-Kontext, 128K Output ↩
-
Codex Configuration Reference — Genehmigungsrichtlinien:
untrusted,on-request,never↩↩ -
Claude Code Settings — Fünfschichtige Konfigurationskaskade ↩
-
Codex Advanced Configuration — Profile (experimentell) ↩↩
-
Linux Foundation AAIF Announcement — AGENTS.md von 60.000+ Projekten übernommen ↩↩
-
Codex Advanced Configuration — Notifications —
notify-System mitagent-turn-complete-Event ↩↩↩ -
Claude Code Subagents — Task-Tool für explizites Subagent-Spawning ↩↩
-
Anthropic MCP Foundation Announcement — 10.000+ aktive öffentliche MCP-Server ↩
-
Codex CLI Reference — Cloud Tasks —
codex cloud execzur Delegation an Cloud-Infrastruktur ↩↩↩ -
OpenAI Co-founds the Agentic AI Foundation — AGENTS.md an AAIF unter der Linux Foundation übergeben ↩
-
AGENTS.md — Toolübergreifende Kompatibilität: Codex, Cursor, Copilot, Amp, Windsurf, Gemini CLI ↩↩↩
-
Codex CLI Features — Steer Mode — Enter für sofortige Steuerung, Tab für Folge-Turn ↩
-
Introducing the Codex App — Desktop-App mit Multitasking und schwebenden Fenstern (macOS) ↩↩
-
Claude Code IDE Integrations — VS Code-Erweiterung und JetBrains-Plugin (Beta) ↩↩
-
Codex GitHub Issue #2109 — Community-Anfrage für erweiterte Hook-Events ↩
-
Caught in the Hook: RCE and API Token Exfiltration Through Claude Code Project Files — Check Point Research — CVE-2025-59536: Bösartige Hooks mit Ausführung vor Benutzerzustimmung ↩
-
Practical Security Guidance for Sandboxing Agentic Workflows — NVIDIA AI Red Team — Fünf Restschwachstellen in agentischen Codierungstools ↩
-
Codex Sample Configuration —
agents.max_threads = 6Standard, konfigurierbar ↩ -
Codex vs Claude Code: Benchmarks, Agent Teams & Limits Compared — Morph/Composio — Token-Verbrauchsbenchmarks über identische Aufgaben ↩
-
AI Code Review Gets Better When Models Debate — Milvus/Zilliz — 53 % auf 80 % Fehlererkennung durch adversariale Debatte ↩
-
I Made Claude and Codex Argue Until My Code Plan Was Perfect — Aseem Shrey — 14 Probleme in 3 Runden iterativer Überprüfung gefunden ↩
Which Tool Should You Use?
Answer four questions to get a recommendation.
Loading quiz…