← Alle Beitrage

Codex CLI vs Claude Code im Jahr 2026: Architektur-Tiefenanalyse

From the guides: Claude Code & Codex CLI

Sowohl Codex CLI als auch Claude Code werden als terminal-native agentische Tools ausgeliefert, setzen Sicherheit jedoch durch grundlegend unterschiedliche Mechanismen durch: Kernel-Level-Sandboxing versus Application-Layer-Hooks. Diese einzelne Designentscheidung wirkt sich darauf aus, wie jedes Tool mit Konfiguration, Berechtigungen, Multi-Agent-Workflows und Team-Governance umgeht. Dieser Beitrag bildet diese Unterschiede mit konkreten Entscheidungskriterien ab.

Ich verwende Claude Code als mein primäres Tool. Diese Präferenz sei vorab offengelegt. Die Beobachtungen hier stammen aus der täglichen Nutzung beider Tools in Produktionsaufgaben, Blindbewertungen und Dual-Tool-Workflows.

Kurzfassung: Codex setzt Sicherheit auf der Betriebssystem-Kernel-Ebene durch (Seatbelt, Landlock, seccomp) mit grobgranularer Kontrolle. Claude Code setzt Sicherheit auf der Anwendungsebene durch 17 programmierbare Hook-Events mit feingranularer Kontrolle durch. Codex hat ein Kontextfenster von 1M Token; Claude Code hat 200K. Verwenden Sie Codex für sandboxte Überprüfung von nicht vertrauenswürdigem Code und Cloud-Task-Delegation. Verwenden Sie Claude Code für programmierbare Governance, Multi-Datei-Refactoring und sicherheitsorientierte Code-Reviews. Die besten Ergebnisse erzielen Sie mit beiden Tools.

Kernaussagen

  • Solo-Entwickler: Beginnen Sie mit dem Tool, das zu Ihrem primären Sprach-Ökosystem passt. Beide Tools koexistieren im selben Repository ohne Konflikte (CLAUDE.md und AGENTS.md sind unabhängig).
  • Team-Leads: Codex-Profile bieten explizite, auditierbare Konfigurationswechsel. Die geschichtete Hierarchie von Claude Code wendet kontextsensitive Regeln automatisch an. Wählen Sie basierend darauf, ob Ihr Team explizite Kontrolle oder automatische Anpassung bevorzugt.
  • Security-Engineers: Die Kernel-Sandbox von Codex verhindert, dass der Agent Beschränkungen auf Betriebssystemebene umgeht. Die Hooks von Claude Code teilen eine Prozessgrenze mit dem Agenten, erlauben aber beliebige Validierungslogik. Wählen Sie das Tool passend zu Ihrem Bedrohungsmodell.

Die grundlegende Architektur-Divergenz

Der tiefgreifendste Unterschied zwischen Codex und Claude Code liegt darin, wo Governance stattfindet. Codex setzt Sicherheit auf der Kernel-Ebene durch, via Seatbelt unter macOS sowie Landlock und seccomp unter Linux. Das Betriebssystem beschränkt Dateisystemzugriffe, Netzwerkaufrufe und Prozesserzeugung, bevor diese Operationen die Anwendung erreichen. Das Modell kann diese Beschränkungen nicht umgehen, da das Betriebssystem den Syscall ablehnt, bevor er ausgeführt wird.

Claude Code setzt Sicherheit auf der Anwendungsebene durch Hooks durch — Programme, die Aktionen an 17 Lifecycle-Punkten abfangen. Ein PreToolUse-Hook auf Bash kann jeden Befehl inspizieren, gegen beliebige Logik validieren und mit Exit-Code 2 blockieren. Dies ist programmierbare Governance: Geschäftsregeln kodieren, Linter ausführen, nach Zugangsdaten scannen. Der Kompromiss: Application-Layer-Enforcement teilt eine Prozessgrenze mit dem Agenten. Kernel-Level-Enforcement nicht.

Jede Sicherheitsarchitektur tauscht Ausdrucksfähigkeit gegen Grenzstärke. Diese beiden Tools befinden sich an entgegengesetzten Enden dieses Spektrums.

Konfigurationsphilosophie

Codex verwendet TOML für die Konfiguration. Claude Code verwendet JSON. Der Formatunterschied ist kosmetisch. Der philosophische Unterschied nicht.

Codex organisiert Konfiguration um Profile — benannte Voreinstellungen, zwischen denen Sie explizit mit --profile wechseln. Ein careful-Profil setzt approval_policy = "untrusted" und sandboxt aggressiv. Ein deep-review-Profil wechselt zu einem leistungsfähigeren Modell. Sie wissen immer, welche Konfiguration aktiv ist, weil Sie sie namentlich ausgewählt haben. Die Instruktionsebene verwendet AGENTS.md, einen offenen Standard unter der Agentic AI Foundation der Linux Foundation, lesbar von Codex, Cursor, Copilot, Amp, Windsurf und Gemini CLI.

Claude Code organisiert Konfiguration um eine geschichtete Hierarchie — fünf Ebenen, die von verwalteten Einstellungen (höchste Priorität) über Kommandozeile, lokales Projekt, geteiltes Projekt bis zu Benutzer-Standardwerten kaskadieren. CLAUDE.md-Dateien gelten auf Benutzer-, Projekt- und lokaler Ebene. Skills-, Hooks- und Rules-Verzeichnisse fügen weitere Ebenen hinzu. Kontextangemessene Konfiguration wird automatisch angewandt, aber die aktive Konfiguration ist nicht aus einer einzelnen Datei ersichtlich. Sie rekonstruieren sie durch Lesen der Hierarchie.

Profile begünstigen Explizitheit und Auditierbarkeit. Geschichtete Hierarchie begünstigt Automatisierung und Kontextsensitivität.

Sicherheitsmodelle im Vergleich

Dimension Codex CLI Claude Code
Sandbox-Ansatz Kernel-Level (Seatbelt unter macOS, Landlock + seccomp unter Linux) Application-Level-Hooks (17 Lifecycle-Event-Typen)
Berechtigungsstufen Drei Sandbox-Modi: read-only, workspace-write, danger-full-access Granulare musterbasierte Allow/Deny-Listen pro Tool
Ausbruchresistenz Hoch: Betriebssystem lehnt Syscalls unterhalb der Anwendungsgrenze ab Mittel: Hooks teilen Prozessgrenze mit dem Agenten
Programmierbarkeit Niedrig: binäres Allow/Deny pro Sandbox-Modus Hoch: beliebiger Code in Hook-Skripten (Bash, Python usw.)
Genehmigungsrichtlinien Drei Stufen: untrusted, on-request, never Tool-spezifische Berechtigungsmuster mit Regex-Matching
Netzwerkbeschränkungen Sandbox kontrolliert ausgehenden Netzwerkzugang Hooks können inspizieren, aber Netzwerkaufrufe nicht auf Kernel-Ebene blockieren
Bekannte Schwachstellenklasse Sandbox-Escape (theoretisch, kein öffentlicher CVE per März 2026) Bösartige Hooks in Projektkonfiguration (mitigiert durch Project-Trust-Prompts)

Das Muster: Codex bietet stärkere Grenzen mit gröberer Kontrolle. Claude Code bietet schwächere Grenzen mit feinerer Kontrolle. Die richtige Wahl hängt von Ihrem Bedrohungsmodell ab. Überprüfung von nicht vertrauenswürdigem externem Code? Kernel-Sandboxing. Durchsetzung organisatorischer Codierungsstandards bei vertrauenswürdigem Code? Programmierbare Hooks.

Kontext und Modelle

Codex läuft auf GPT-5.4 mit einem Kontextfenster von 1M Token (Eingabe und Ausgabe). Dies ist ein echter architektonischer Vorteil für große Monorepo-Arbeiten, bei denen das Modell mehr Ihrer Codebasis in einem einzigen Durchgang erfassen muss.

Claude Code läuft auf Claude Opus 4.6 mit einem Kontextfenster von 200K Token. Opus bringt andere Stärken mit: erweitertes Denken für mehrstufiges Reasoning, starke Leistung bei Sicherheitsanalysen und Code-Reviews sowie sorgfältigeres Reasoning über architektonische Implikationen. In meinen Blindbewertungen übertraf Opus konsistent bei Review- und Sicherheitsaufgaben, selbst mit einem kleineren Standard-Kontextfenster.

Beide Tools unterstützen Modell-Routing. Codex wählt Modelle pro Profil. Claude Code routet standardmäßig zu Opus, unterstützt aber Überschreibungen pro Aufruf via --model-Flags und Konfiguration auf Einstellungsebene.

Multi-Agent-Fähigkeiten

Codex bietet Cloud-Task-Delegation via codex cloud exec. Sie beschreiben eine Aufgabe, Codex startet eine Cloud-Umgebung, führt den Agenten gegen Ihre Codebasis aus und liefert einen Diff zurück. Dies ist Fire-and-Forget: Sie überwachen das Reasoning des Agenten nicht in Echtzeit. Der Workflow passt natürlich zu CI/CD-Pipelines und Batch-Verarbeitung. Intern führt Codex bis zu 6 gleichzeitige Agent-Threads für parallele Teilaufgabenausführung aus.

Claude Code bietet explizites Subagent-Spawning über das Task-Tool. Der übergeordnete Agent erzeugt Subagenten mit spezifischen Aufgaben und isoliertem Kontext, koordiniert Ergebnisse und synthetisiert Ausgaben. Dies ist interaktive Orchestrierung: Sie sehen das Reasoning und können eingreifen. Kombiniert mit Deliberation-Patterns, bei denen mehrere Agenten die Ausgaben der anderen kritisieren, werden Probleme erkannt, die Fire-and-Forget-Modelle übersehen.

Cloud-Tasks eignen sich für Workflows, bei denen Sie die Aufgabe vorab definieren und Ergebnisse später wollen. Subagent-Koordination eignet sich für Workflows, bei denen sich die Aufgabe durch Reasoning entwickelt und Echtzeit-Synthese erfordert.

Entscheidungsmatrix

Eine konkrete Entscheidungsmatrix basierend auf spezifischen Anforderungen:

Wenn Sie brauchen… Beste Wahl Warum
Kernel-Level-Sandboxing Codex Durchsetzung auf Betriebssystemebene kann vom Agenten nicht umgangen werden
Programmierbare Governance-Hooks Claude Code 17 Lifecycle-Events mit beliebiger Code-Ausführung
Cross-Tool-Portabilität (AGENTS.md) Codex Offener Standard funktioniert in Codex, Cursor, Copilot, Amp, Windsurf
Tiefgehendes Multi-Datei-Refactoring Claude Code Opus exzelliert darin, architektonischen Kontext über lange Sitzungen zu halten
Fire-and-Forget-Cloud-Tasks Codex codex cloud exec delegiert an Cloud-Infrastruktur und liefert Diffs
Interaktives Echtzeit-Reasoning Claude Code Erweitertes Denken + Subagent-Koordination mit Live-Sichtbarkeit
Überprüfung von nicht vertrauenswürdigem Code Codex --sandbox read-only verhindert alle Dateisystemmutationen
Durchsetzung von Team-Codierungsstandards Claude Code Hooks kodieren und setzen Geschäftslogik deterministisch durch
Große Monorepo-Erfassung Codex Kontextfenster von 1M Token (vs. 200K Standard bei Claude Code)
Sicherheitsorientierte Code-Reviews Claude Code Opus übertraf in meiner Blindbewertungsreihe bei Review-Aufgaben

Kein einzelnes Tool dominiert diese Matrix. Wenn mehr als drei Ihrer Anforderungen auf ein Tool zeigen, beginnen Sie dort. Wenn die Verteilung ausgeglichen ist, erwägen Sie den Dual-Tool-Workflow.

Meine Empfehlung

Verwenden Sie beide. In meinen eigenen Blindbewertungen fand die Ausführung identischer Aufgaben durch beide Tools Probleme, die keines allein gefunden hätte. Adversarial Review zwischen mehreren KI-Modellen verbessert die Fehlererkennung konsistent, da verschiedene Modelle verschiedene Klassen von Problemen erkennen.

Mein täglicher Workflow: Claude Code übernimmt Feature-Implementierung, Code-Reviews und Multi-Datei-Refactors, wobei Hooks Quality-Gates durchsetzen. Codex übernimmt die Überprüfung von nicht vertrauenswürdigem Code mit --sandbox read-only, cloud-delegierte Batch-Aufgaben und architektonische Zweitmeinungen. CLAUDE.md und AGENTS.md koexistieren im selben Repository ohne Konflikte, da der Wartungsaufwand minimal ist — beide Dateien teilen den Großteil des Inhalts.

Für den vollständigen Vergleich mit Blindbewertungsmethodik siehe Claude Code vs Codex: Wann welches Tool verwenden. Für den Einstieg in die einzelnen Tools siehe den Claude Code-Leitfaden oder den Codex-Leitfaden.

FAQ

Kann ich Codex und Claude Code im selben Projekt verwenden?

Ja. CLAUDE.md und AGENTS.md sind separate Dateien, die jedes Tool unabhängig liest. Keines der Tools parst die Instruktionsdatei des anderen. Konfigurationsdateien erzeugen keine Konflikte. Ich pflege beide in jedem aktiven Projekt. Die einzige Überlegung ist die Synchronhaltung geteilter Inhalte zwischen den Instruktionsdateien, was nur Minuten dauert, da die Formate ähnlich sind.

Welches ist günstiger für den täglichen Gebrauch?

Claude Code bietet API-Pay-as-you-go-Preise und einen Max-Plan für 100 $/Monat (Einzelperson) oder 200 $/Monat (Teams). Codex verwendet API von OpenAI mit standardmäßiger tokenbasierter Preisgestaltung. Die Token-Effizienz variiert je nach Aufgabentyp. Für budgetsensitive Workflows führen Sie eine repräsentative Aufgabe durch beide Tools aus und vergleichen Sie die tatsächlichen Kosten. Die Preise pro Token unterscheiden sich zwischen den Anbietern, sodass rohe Token-Zahlen sich nicht direkt in Kosten umrechnen lassen.

Welches bewältigt größere Codebasen besser?

Beide bewältigen große Repositories, aber auf unterschiedliche Weise. Das Kontextfenster von 1M Token bei Codex ermöglicht es, mehr Code in einem einzigen Durchgang zu erfassen, was bei Monorepos relevant ist, bei denen modulübergreifendes Reasoning das gleichzeitige Sehen vieler Dateien erfordert. Das 200K-Kontextfenster von Claude Code kompensiert durch starkes Retrieval via Codebase-Suche und die geschichtete CLAUDE.md-Hierarchie, die relevanten Kontext voranstellt. In der Praxis liest keines der Tools Ihre gesamte Codebasis auf einmal. Der Kontextfenster-Unterschied ist am relevantesten beim Reasoning über Beziehungen über viele Dateien in einem einzelnen Turn. Für diesen Anwendungsfall ist das größere Fenster von Codex ein Vorteil.

Verwandte Beiträge

Claude Code vs Codex CLI: When to Use Which

Architecture, safety, and extensibility compared side-by-side. Includes a decision framework based on 36 blind duels and…

13 Min. Lesezeit

AGENTS.md Patterns: What Actually Changes Agent Behavior

Which AGENTS.md patterns actually change agent behavior? Anti-patterns to avoid, patterns that work, and a cross-tool co…

11 Min. Lesezeit

Building Custom Skills for Claude Code: A Complete Tutorial

Build a code review skill from scratch. Covers directory structure, frontmatter fields, LLM-based matching, context budg…

10 Min. Lesezeit