← Alle Beitrage

Codex CLI vs. Claude Code 2026: Architektur, Preise und Zugang aus China

From the guides: Claude Code & Codex CLI

Sowohl Codex CLI als auch Claude Code werden als terminalnative agentische Werkzeuge ausgeliefert, setzen Sicherheit jedoch über grundlegend verschiedene Mechanismen durch: Sandboxing auf Kernel-Ebene versus Hooks auf Applikationsebene. Diese einzige Designentscheidung wirkt sich darauf aus, wie jedes Werkzeug Konfiguration, Berechtigungen, Multi-Agent-Workflows und Team-Governance handhabt. Der folgende Vergleich zeichnet diese Unterschiede anhand konkreter Entscheidungskriterien nach und erweitert das AI-Engineering-Territorium, das ich über diese Seite hinweg aufgebaut habe.

Ich nutze Claude Code als mein primäres Werkzeug. Diese Voreingenommenheit lege ich vorab offen. Die Beobachtungen hier stammen aus dem täglichen Einsatz beider Werkzeuge bei Produktionsaufgaben, aus Blindevaluationen und aus Dual-Tool-Workflows.

TL;DR: Codex erzwingt Sicherheit auf der OS-Kernel-Schicht (Seatbelt, Landlock, seccomp)1 mit grobkörniger Kontrolle. Claude Code erzwingt Sicherheit auf der Applikationsebene über 26 programmierbare Hook-Ereignisse2 mit feinkörniger Kontrolle. Beide Werkzeuge arbeiten inzwischen mit großem Kontext: Claude Code auf Opus 4.7 stellt 1M Tokens zum Standardpreis bereit5; Codex CLI auf GPT-5.4 (dem aktuellen OpenAI-Frontier-Modell, veröffentlicht am 5. März 2026, das die Coding-Fähigkeiten von GPT-5.3-Codex integriert) stellt bis zu 1,05M Kontext mit 128K maximaler Ausgabe bereit, wobei der Standardkontext bei 272K liegt, sofern Sie nicht explizit den Long-Context-Modus aktivieren4. Verwenden Sie Codex für Cloud-sandboxed Task-Delegation und Kernel-Level-Isolation. Verwenden Sie Claude Code für programmierbare Governance, langfristiges Refactoring und sicherheitsfokussiertes Code-Review. Die besten Ergebnisse erzielen Sie, wenn Sie beide einsetzen.

Zentrale Erkenntnisse

  • Einzelentwickler: Starten Sie mit dem Werkzeug, das zu Ihrem primären Sprach-Ökosystem passt. Beide Werkzeuge koexistieren im gleichen Repository ohne Konflikte (CLAUDE.md und AGENTS.md sind voneinander unabhängig).
  • Teamleiter: Codex-Profile bieten explizites, auditierbares Konfigurations-Switching. Die geschichtete Hierarchie von Claude Code wendet kontextsensitive Regeln automatisch an. Wählen Sie danach, ob Ihr Team explizite Kontrolle oder automatische Anpassung bevorzugt.
  • Security-Engineers: Die Kernel-Sandbox von Codex verhindert, dass der Agent Beschränkungen auf OS-Ebene umgeht. Die Hooks von Claude Code teilen sich eine Prozessgrenze mit dem Agenten, erlauben aber beliebige Validierungslogik. Passen Sie das Werkzeug Ihrem Bedrohungsmodell an.

Welches Werkzeug sollten Sie wählen? (Persona-Entscheidungspfade)

Die Antwort auf den Vergleich hängt davon ab, wer Sie sind. Vier Pfade, jeweils einer für den häufigsten Leser auf dieser Seite.

Einzelentwickler bei persönlichen oder Kleinteam-Projekten

Standard: Claude Code. Der 1M-Token-Kontext auf Opus 4.7 zum Standardpreis, das 26-Hook-Governance-System und der Plugin-Marktplatz decken die Fälle ab, auf die Einzelentwickler täglich stoßen (Refactors in großen Codebasen, Sitzungs­kontinuität, Format-on-Save-Automatisierung). Pro für 20 $/Monat oder Max für 100-200 $/Monat ist planbar und großzügig.

Holen Sie Codex CLI hinzu, wenn: Sie Kernel-Level-Sandboxing für ein einmaliges Review nicht vertrauenswürdigen Codes brauchen, oder wenn ChatGPT Pro/Plus bereits Ihre primäre KI-Ausgabe abdeckt und das Hinzufügen der Claude-API redundant wirkt. Beide Werkzeuge koexistieren sauber; CLAUDE.md und AGENTS.md stehen nebeneinander.

Teamleiter in einer Engineering-Organisation mit 10-50 Personen

Standard: Claude Code. Programmierbare Hooks (Linting-Gates, Security-Scans, Blockaden für verbotene Befehle) kodieren Team-Standards deterministisch, statt darauf zu hoffen, dass das Modell den Prompt-Anweisungen folgt. Verwaltete Einstellungen erlauben es der Leitung, organisationsweite Richtlinien zu setzen, die einzelne Entwickler nicht überschreiben können. Die Primitive claude agents CLI und Agent Teams entsprechen den Mustern, die Teams tatsächlich für Review-Workflows nutzen.

Holen Sie Codex CLI hinzu, wenn: sicherheits­sensitive Reviews Kernel-harte Isolation erfordern (z. B. das Prüfen von Code externer Vertragspartner, Open-Source-PRs unbekannter Autoren), oder wenn das Team über Azure OpenAI / Microsoft Foundry bereits auf OpenAI-Tooling festgelegt ist. Betreiben Sie es als fokussiertes Review-Werkzeug, nicht als täglichen Begleiter.

Sicherheits­fokussierter Reviewer oder Red-Team-Forscher

Standard: Codex CLI (für adversariale Eingaben) + Claude Code (für geregelte Ausführung). Die Kernel-Sandbox von Codex auf macOS Seatbelt / Linux Landlock+seccomp verweigert Syscalls unterhalb der Applikationsebene, sodass ein feindlicher Agent buchstäblich keine Dateisystembereiche berühren kann, die Sie nicht freigegeben haben. Das Hook-System von Claude Code ist mächtig, teilt sich aber die Prozessgrenze. Nutzen Sie das Werkzeug, das zur Bedrohung passt.

Holen Sie Claude Code hinzu, wenn: Sie programmierbare Post-Review-Aktionen möchten (Triage-Hooks, Audit-Logging, automatisierte Berichtserstellung). Der typische Workflow: Codex prüft unter Sandbox-Restriktion, Claude Code übernimmt die Triage- und Policy-Enforcement-Schicht.

In China (Festland) ansässige Entwickler

Beide Werkzeuge funktionieren, aber Konnektivität und Kosten prägen die Wahl mehr als Funktionen. Springen Sie zu Zugang zu Codex und Claude Code aus China, bevor Sie sich festlegen.


Der grundlegende Architektur-Bruch

Der tiefste Unterschied zwischen Codex und Claude Code liegt darin, wo Governance stattfindet. Codex erzwingt Sicherheit auf der Kernel-Schicht via Seatbelt auf macOS, Landlock und seccomp auf Linux1. Das Betriebssystem beschränkt Dateisystemzugriff, Netzwerkaufrufe und Prozess-Spawning, bevor diese Operationen die Applikation erreichen. Das Modell kann diese Restriktionen nicht umgehen, weil das Betriebssystem den Syscall verweigert, bevor er ausgeführt wird.

Claude Code erzwingt Sicherheit auf der Applikationsebene über Hooks, Programme, die Aktionen an 26 Lebenszyklus-Punkten abfangen2. Ein PreToolUse-Hook auf Bash kann jeden Befehl inspizieren, ihn gegen beliebige Logik validieren und ihn mit Exit-Code 2 blockieren. Das Hook-System liefert programmierbare Governance: Geschäftsregeln kodieren, Linter ausführen, nach Credentials scannen. Der Kompromiss ist, dass Enforcement auf Applikationsebene eine Prozessgrenze mit dem Agenten teilt. Enforcement auf Kernel-Ebene tut dies nicht.

Jede Sicherheits­architektur tauscht Ausdrucksstärke gegen Stärke der Begrenzung. Diese beiden Werkzeuge sitzen an entgegengesetzten Enden dieses Spektrums, und diese Positionierung ist gewollt. Kernel-Sandboxing ergibt Sinn, wenn das Bedrohungsmodell einen potenziell adversarialen Agenten einschließt (Review von bösartigem Code, Ausführen nicht vertrauenswürdiger Skripte). Hooks auf Applikations­ebene ergeben Sinn, wenn das Bedrohungsmodell ein überselbstbewusster, aber gutmütiger Agent ist (Ihr eigener Code, Ihr eigenes Team, Ihre eigenen Konventionen). Die meisten Entwickler benötigen beide Bedrohungsmodelle zu unterschiedlichen Zeiten.

Konfigurationsphilosophie

Codex nutzt TOML für die Konfiguration. Claude Code nutzt JSON. Der Formatunterschied ist kosmetisch. Der Philosophieunterschied ist es nicht.

Codex organisiert Konfiguration rund um Profile, benannte Presets, zwischen denen Sie explizit mit --profile umschalten. Ein careful-Profil setzt approval_policy = "untrusted" und sandboxt aggressiv9. Ein deep-review-Profil wechselt zu einem leistungsfähigeren Modell. Sie wissen stets, welche Konfiguration aktiv ist, weil Sie sie namentlich ausgewählt haben. Die Instruktionsschicht nutzt AGENTS.md, einen offenen Standard unter der Agentic AI Foundation der Linux Foundation3, lesbar von Codex, Cursor, Copilot, Amp, Windsurf und Gemini CLI.

Claude Code organisiert Konfiguration rund um geschichtete Hierarchie, fünf Schichten, die von verwalteten Einstellungen (höchste Priorität) über Kommandozeile, lokales Projekt, gemeinsames Projekt bis hin zu Benutzerstandards kaskadieren. CLAUDE.md-Dateien greifen auf Benutzer-, Projekt- und lokaler Ebene. Skills-, Hook- und Regel-Verzeichnisse fügen weitere Schichten hinzu. Kontextangemessene Konfiguration greift automatisch, aber die aktive Konfiguration ist aus keiner einzelnen Datei ersichtlich. Sie rekonstruieren sie durch das Lesen der Hierarchie.

Profile bevorzugen Explizitheit und Auditierbarkeit. Sie können die Frage „welche Konfiguration war aktiv?” beantworten, indem Sie prüfen, welches --profile-Flag übergeben wurde. Geschichtete Hierarchie bevorzugt Automatisierung und Kontextsensitivität. Der richtige Kontext greift automatisch, aber die Frage „welche Konfiguration ist aktiv?” zu beantworten, erfordert das Lesen von bis zu fünf Schichten und das Verstehen ihrer Merge-Reihenfolge. Der Kompromiss ist real: Ich wurde gelegentlich von einem benutzerbasierten CLAUDE.md-Override überrascht, der mit einer Projektanweisung kollidierte — was bei expliziten Profilen nicht passieren würde.

Vergleich der Sicherheitsmodelle

Dimension Codex CLI Claude Code
Sandbox-Ansatz Kernel-Ebene (Seatbelt auf macOS, Landlock + seccomp auf Linux) Hooks auf Applikationsebene (26 Lebenszyklus-Ereignistypen)
Berechtigungs­stufen Drei Sandbox-Modi: read-only, workspace-write, danger-full-access Granulare, musterbasierte Allow/Deny-Listen pro Werkzeug
Widerstand gegen Escape Hoch: OS verweigert Syscalls unterhalb der Applikationsgrenze Moderat: Hooks teilen Prozessgrenze mit dem Agenten
Programmierbarkeit Gering: binäres Allow/Deny pro Sandbox-Modus Hoch: beliebiger Code in Hook-Skripten (bash, Python etc.)
Freigaberichtlinien Drei Stufen: untrusted, on-request, never Werkzeug­spezifische Berechtigungsmuster mit Regex-Matching
Netzwerk­restriktionen Sandbox kontrolliert ausgehenden Netzwerk­zugriff Hooks können inspizieren, aber Netzwerkaufrufe nicht auf Kernel-Ebene blockieren
Bekannte Schwach­stellenklasse Sandbox-Escape (theoretisch; kein öffentliches CVE gemeldet Stand März 2026) Bösartige Hooks in Projektkonfiguration (mitigiert über Projekt-Trust-Prompts)

Das Muster: Codex bietet stärkere Grenzen bei gröberer Kontrolle. Claude Code bietet schwächere Grenzen bei feinerer Kontrolle11. Die richtige Wahl hängt von Ihrem Bedrohungsmodell ab. Review von nicht vertrauenswürdigem externem Code? Kernel-Sandboxing. Durchsetzung organisatorischer Coding-Standards bei vertrauenswürdigem Code? Programmierbare Hooks.

Kontext und Modelle

Stand April 2026 nutzt Codex CLI standardmäßig GPT-5.4 (veröffentlicht am 5. März 2026, Snapshot gpt-5.4-2026-03-05)4. GPT-5.4 ist das aktuelle Frontier-Allzweck­modell von OpenAI und integriert laut OpenAIs Launch-Post die Coding-Fähigkeiten von GPT-5.3-Codex und ergänzt native Computer Use sowie breitere Unterstützung für agentische Workflows. Der Kontext liegt standardmäßig bei 272K, mit einem experimentellen Long-Context-Modus von 1,05M Tokens, den Sie über die Konfiguration model_context_window / model_auto_compact_token_limit aktivieren. Die Ausgabe ist auf 128K begrenzt.4 Long-Context-Prompts über 272K Eingabetokens werden mit 2× Eingabe / 1,5× Ausgabe für diese Session abgerechnet.4 GPT-5.3-Codex wird nicht eingestellt und bleibt für Teams verfügbar, die das coding-optimierte Kosten-/Geschwindigkeitsprofil bevorzugen.

Das Standardmodell von Claude Code hängt laut den Modellkonfigurations-Dokumenten von Anthropic von der Plan-Stufe ab5: Max und Team Premium setzen standardmäßig auf Opus 4.7 (veröffentlicht am 16. April 2026); Pro, Team Standard, Enterprise und Anthropic API mit Pay-per-Token setzen standardmäßig auf Sonnet 4.6, wobei Enterprise und API am 23. April 2026 auf Opus 4.7 umgestellt werden. Opus 4.7 bietet bei Nutzung ein 1M-Token-Kontextfenster zum Standardpreis (keine Long-Context-Prämie). Die Modell­standards und Kontextlimits beider Anbieter ändern sich zwischen Releases; prüfen Sie für aktuelle Werte die Seite des jeweiligen Anbieters.

Beide Werkzeuge handhaben mittlerweile großen Kontext gut. Claude Code erreicht 1M auf Opus 4.7 zum Standardpreis, ohne Aufpreis. Codex CLI auf GPT-5.4 erreicht 1,05M mit aktiviertem Long-Context-Modus, abgerechnet mit dem 2×/1,5×-Multiplikator, sobald Sie 272K Eingabe überschreiten. Für die Monorepo-Ingestion hat sich der praktische Unterschied verringert; die Retrieval-Qualität (wie gut jedes Werkzeug relevanten Code findet) zählt für die meisten Projekte mehr als die reine Fenstergröße.

Bei öffentlichen Benchmarks Stand April 2026 führt Opus 4.7 bei SWE-bench Verified (87,6 % vs. GPT-5-Codex-Baseline von 74,9 %), SWE-bench Pro (64,3 % vs. GPT-5.4 offiziell 57,7 % und GPT-5.3-Codex 56,8 %) sowie CursorBench (70 % vs. Opus 4.6 mit 58 %)12. Bei Terminal-Bench 2.0 liegt Opus 4.7 bei 69,4 %; dort führen GPT-5.4 mit 75,1 % und GPT-5.3-Codex mit 77,3 %12. Der SWE-bench-Verified-Wert von GPT-5.4 ist zum Zeitpunkt des Schreibens weder auf der offiziellen Modell- noch auf der Launch-Seite veröffentlicht; die Berichterstattung Dritter nennt einen Wert um 80 %, aber gehen Sie mit unveröffentlichten Herstellerzahlen vorsichtig um. Die Benchmark-Führung schwankt zwischen Releases; prüfen Sie die Herstellerseiten, bevor Sie sich festlegen. In meinen Blindevaluationen mit einer früheren Opus-Version war sie bei Review- und Security-Aufgaben auch bei kleinerem Kontext überlegen, und dasselbe Muster hält bei 1M.

Beide Werkzeuge unterstützen Model-Routing. Codex wählt Modelle pro Profil9. Der Standard von Claude Code hängt von der oben beschriebenen Plan-Stufe ab (Opus 4.7 bei Max und Team Premium, Sonnet 4.6 bei Pro und Team Standard und Enterprise und API, wobei Enterprise und API am 23. April 2026 auf Opus 4.7 umgestellt werden), und jede Aufrufung kann ihn via --model oder Konfiguration auf Settings-Ebene überschreiben.

Preise im Detail

Die Preisgestaltung zerfällt in drei Muster: API-Abrechnung pro Token, Abonnements, die agentische CLI-Nutzung einschließen, und Cloud-Provider-Abrechnung über AWS / GCP / Azure. Der günstigste Pfad hängt vom täglichen Tokenvolumen ab, nicht vom Listenpreis.

Claude Code-Preise (April 2026)

Pro Token (Anthropic API):13

Modell Eingabe ($/MTok) Ausgabe ($/MTok) Cache-Read ($/MTok) 5-Min-Cache-Write ($/MTok) 1-Stunden-Cache-Write ($/MTok)
Claude Opus 4.7 $5,00 $25,00 $0,50 $6,25 $10,00
Claude Opus 4.6 $5,00 $25,00 $0,50 $6,25 $10,00
Claude Sonnet 4.6 $3,00 $15,00 $0,30 $3,75 $6,00
Claude Haiku 4.5 $1,00 $5,00 $0,10 $1,25 $2,00

Keine Long-Context-Prämie: Das 1M-Tokenfenster von Opus 4.7 wird zum Standardsatz abgerechnet. Die Batch-API bietet 50 % Rabatt auf Eingabe und Ausgabe.13

Abonnements, die Claude Code enthalten:8

Plan Monatlich Claude Code-Nutzungsprofil
Pro $20 Großzügige Tageslimits; bei dauerhaft intensiver agentischer Arbeit Gating bei Zusatzverbrauch
Max 5x $100 5× Claude-Nutzung von Pro; typisches Alltagslimit für Einzelentwickler
Max 20x $200 20× Nutzung von Pro; deckt die meisten Tage mit intensivem Refactoring eines Einzelentwicklers
Team Standard $30/Benutzer Pro Platz mit gemeinsamen Admin-Kontrollen
Team Premium $150/Benutzer Enthält standardmäßig volles Opus 4.7 über alle Plätze
Enterprise individuell Pro Platz mit verwalteter Policy, SSO und Audit

Cloud-Provider-Preise folgen den Listenpreisen von AWS Bedrock / Google Vertex AI / Microsoft Foundry, die eng der direkten API von Anthropic folgen, jedoch mit Unterschieden bei regionaler Verfügbarkeit und Datenresidenz.

Codex CLI-Preise (April 2026)

Pro Token (OpenAI API):14

Die Preise ändern sich, während OpenAI Modellvarianten rotiert; dies sind die Stand 19. April 2026 verifizierten Sätze.

Modell Eingabe ($/MTok) Cached Eingabe ($/MTok) Ausgabe ($/MTok) Kontext / Max. Ausgabe
GPT-5.4 (aktueller Standard) $2,50 $0,25 $15,00 1.050.000 Ctx / 128K Ausgabe
GPT-5.3-Codex siehe OpenAI-Preise N/A siehe OpenAI-Preise 400K Eingabe / 128K Ausgabe
GPT-5.2-Codex siehe OpenAI-Preise N/A siehe OpenAI-Preise 400K Eingabe / 128K Ausgabe
GPT-5 variiert nach Tier N/A variiert bis zu 400K Eingabe

Long-Context-Prompts auf GPT-5.4 (über 272K Eingabetokens) werden für diese Session mit 2× Eingabe und 1,5× Ausgabe abgerechnet, über Standard-, Batch- und Flex-Tiers hinweg.4

Abonnements, die Codex enthalten:

ChatGPT Plus (20 $/Monat), Pro (100 $/Monat für 5×, 200 $/Monat für 20×) und Business (Pay-as-you-go Codex-only-Plätze oder Standard-ChatGPT-Business-Plätze mit Codex-Nutzungslimits) enthalten alle Codex-Familien-Nutzung mit plan­spezifischen Obergrenzen. Pro 5× erhält bis zum 31. Mai 2026 einen temporären Nutzungsboost auf 10× Plus; die 5-Stunden-Codex-Limits von Pro 20× laufen im gleichen Aktionszeitraum bei 25× Plus. GPT-5.4, GPT-5.3-Codex und GPT-5.2-Codex sind alle über die OpenAI API mit veröffentlichten Preisen pro Token und Rate-Limits für unterstützte API-Tiers verfügbar (Free-Tier nicht unterstützt).14 Reine API-Teams überspringen das Abonnement vollständig; nutzen Sie ChatGPT-Abonnements, wenn die gebündelte Codex-Nutzung plus der breiteren Chat-Oberfläche für das Team das bessere Preis-Leistungs-Verhältnis bietet.

Was der 1M-Kontext von Opus 4.7 tatsächlich kostet

Die praktische Frage: „Wenn ich Opus 4.7 eine 1M-Token-Codebase füttere, wie hoch ist die Rechnung?”

Ein vollständiger Kontext-Durchlauf mit einer 10K-Token-Antwort: - Eingabe: 1.000.000 Tokens × 5,00 $/MTok = 5,00 $ - Ausgabe: 10.000 Tokens × 25,00 $/MTok = 0,25 $ - Gesamt (ohne Caching): 5,25 $ pro Durchlauf

Mit 5-Minuten-Prompt-Caching der 1M-Token-Codebase (angenommen einmaliger Cache-Write, wiederholte Reads für Folgeanfragen): - Erster Write: 1.000.000 × 6,25 $/MTok = 6,25 $ (einmalig) - Jeder weitere Read innerhalb von 5 Min.: 1.000.000 × 0,50 $/MTok + 10.000 Ausgabe × 25 $/MTok = 0,75 $ - Fünf Reads in einer Session: 6,25 $ + (5 × 0,75 $) = 10,00 $ für fünf vollständige Kontext-Durchläufe

CNY-Beispiel mit einem Referenzkurs von 1 USD ≈ 6,82 CNY (PBOC-Zentralparität um April 2026 im Bereich 6,82-6,90): ~¥68,20 für fünf vollständige Opus-4.7-Sessions mit Kontext auf einer 1M-Token-Codebase. Wechselkurse schwanken; verifizieren Sie den aktuellen Kurs vor einer Nutzung in der Beschaffung. Für die Budgetierung zählt die Berechnung, nicht der exakte CNY-Wert.

Die entsprechende Mathematik im Long-Context-Modus von GPT-5.4: - Eingabe: 1.000.000 Tokens × (2,50 $ Basis × 2 Long-Context-Multiplikator) = 5,00 $ - Ausgabe: 10.000 Tokens × (15,00 $ Basis × 1,5 Long-Context-Multiplikator) = 0,225 $ - Gesamt (ohne Caching): 5,23 $ pro Durchlauf — innerhalb von 1 % des ungecachten Preises von Opus 4.7 beim vollen 1M-Kontext

Auf GPT-5.2-Codex (400K-Eingabe-Obergrenze) bräuchten Sie mindestens drei Durchläufe, um dieselbe 1M-Codebase aufzunehmen, was das Kostenprofil auf Session-Ebene verändert. Die meisten chinesischen Entwicklerteams brauchen nicht täglich den vollen 1M-Kontext, daher läuft der realistische Vergleich über typische Session-Größen (50K-200K Tokens), bei denen beide Werkzeuge unter 1 $ pro Session kosten.

Wann Abonnements günstiger sind als Pro-Token

Grobe Heuristik (kein veröffentlichtes Token-Kontingent, da Anthropic keines veröffentlicht): leichte interaktive Nutzung passt bequem in Pro; intensivere tägliche agentische Workflows auf Opus 4.7 drängen in Max-5x- oder Max-20x-Territorium; anhaltende Volle-Kontext-Lasten (5 $+ pro Session) sind mit aggressivem Prompt-Caching möglicherweise günstiger bei Pay-per-Token als bei einem gedeckelten Abonnement. Führen Sie eine repräsentative Woche auf Pro durch, prüfen Sie Ihr Claude-Nutzungs-Dashboard und steigen Sie nach Bedarf in höhere Tiers auf, statt aus einer Formel zu raten. Teams rechnen dieselbe Mathematik pro Benutzer plus den Admin-, Policy- und SSO-Overhead, den der Enterprise-Tier absorbiert.

Zugang zu Codex und Claude Code aus China

First-Party-Zugang zur OpenAI- und Anthropic-API wird laut den veröffentlichten Länder-Listen jedes Anbieters offiziell nicht aus dem chinesischen Festland unterstützt.18 Entwickler leiten gelegentlich über Netzwerke und Konten außerhalb des Festlands, um dies zu umgehen, aber das birgt Risiken von Konto­sperrung und Compliance, die Sie gegen den Produktivitätsfall abwägen müssen, den Sie geltend machen. Die CLI-Binaries installieren sich und laufen lokal nach dem Download; das alltägliche Agent-Loop-Verhalten ist überall dasselbe. Cloud-Provider-Routing ist der Pfad für legitime Wege.

Regionale Verfügbarkeit von AWS Bedrock

Anthropics Claude-Modelle werden über Amazon Bedrock in bestimmten AWS-Regionen bereitgestellt. Stand April 2026 decken öffentliche Bedrock-Runtime-Endpunkte APAC-Regionen einschließlich Tokio, Seoul, Singapur, Mumbai und Sydney ab, aber derzeit betreibt kein Bedrock-Runtime-Endpunkt im chinesischen Festland oder Hongkong.15 Chinesische Kunden, die über AWS routen, nutzen typischerweise Singapur oder Tokio mit den damit verbundenen Latenzkosten.

Regionale Verfügbarkeit von Google Vertex AI

Google Cloud bietet Vertex-AI-Generative-AI-Endpunkte in asiatisch-pazifischen Regionen.16 Die Verfügbarkeit spezifischer Claude-Modelle variiert nach Region, und asia-east2 (Hongkong) bot historisch geringere Latenz für Nutzer in Südchina. Verifizieren Sie die Verfügbarkeit des Claude-Modells in Ihrer gewählten Vertex-Region, bevor Sie sich festlegen; die Abdeckung expandiert über die Zeit, ist aber im APAC-Raum nicht einheitlich.

Microsoft Foundry

Claude ist über Microsoft Foundry auf der Global-Standard-Deployment von Azure verfügbar und erfordert typischerweise berechtigte Enterprise- / MCA-E-Abonnements. Claude ist nicht öffentlich als verfügbar in Azure China (betrieben von 21Vianet) dokumentiert, einer separaten souveränen Cloud mit einem eigenständigen Servicekatalog. Chinesische Kunden, die Foundry nutzen, routen über den globalen Azure-Fußabdruck und nicht über Azure China.17

OpenAI Codex aus China

OpenAIs Liste unterstützter Länder umfasst nicht das chinesische Festland; OpenAI warnt, dass Zugriff aus nicht unterstützten Regionen zu Konto­blockierung oder -sperrung führen kann.18 Azure OpenAI ist in bestimmten globalen Regionen (nicht Azure China) verfügbar, und chinesische Unternehmen, die compliant Zugang suchen, routen typischerweise über Azure OpenAI in einer erlaubten Region mit geeigneten vertraglichen Bedingungen, statt zu versuchen, die direkte OpenAI API zu nutzen.

Modell­alternativen chinesischer Anbieter

DeepSeek, Qwen (Alibaba) und Kimi (Moonshot) sind Modellalternativen, die chinesische Teams aus Kosten- und Latenzgründen evaluieren. Dies sind Modelle, keine agentischen CLIs. Sie mit Claude Code zu koppeln, erfordert einen Anthropic-API-kompatiblen Adapter oder Gateway (Claude Code erwartet das Anthropic-Request/Response-Format; ANTHROPIC_BASE_URL verweist auf Anthropic-kompatible Endpunkte, nicht auf OpenAI-kompatible). Codex unterstützt Model-Routing auf Profil­ebene, erwartet jedoch ebenso OpenAI-kompatible Antworten. Keines der Werkzeuge bietet erstklassigen DeepSeek/Qwen/Kimi-Support; der Weg führt über eine Adapter­schicht, die zwischen dem API-Format des Anbieters und dem Erwartungsbild des CLI übersetzt. Fragen zu Beschaffung, Latenz und Datenresidenz beantworten diese Modelle gut. Fragen zur Korrektheit von Agent-Loops und zur Reife des Tool-Callings werden weiterhin am besten durch die Frontier-Claude- und GPT-Modelle beantwortet, auf die diese CLIs abgestimmt sind.

Multi-Agent-Fähigkeiten

Codex bietet Cloud-Task-Delegation via codex cloud exec6. Sie beschreiben eine Aufgabe, Codex startet eine Cloud-Umgebung, führt den Agenten gegen Ihre Codebase aus und liefert ein Diff zurück. Sie überwachen das Reasoning des Agenten nicht in Echtzeit; Sie definieren die Aufgabe im Voraus und holen Ergebnisse später ab. Cloud-Delegation bildet sich natürlich auf CI/CD-Pipelines und Batch-Verarbeitung ab. Intern unterstützt Codex gleichzeitige Agenten-Threads für parallele Teilaufgaben-Ausführung7 (bis zu 6 im aktuellen Release, wobei sich dieses Limit ändern kann).

Claude Code bietet explizites Subagent-Spawning via das Task-Tool10. Der Parent-Agent startet Subagents mit spezifischen Aufgaben und isoliertem Kontext, koordiniert Ergebnisse und synthetisiert Ausgaben. Subagent-Spawning ermöglicht interaktive Orchestrierung: Sie sehen das Reasoning und können eingreifen. Kombiniert mit Deliberationsmustern, bei denen mehrere Agenten die Ausgaben der anderen kritisieren, fängt interaktive Orchestrierung Probleme ab, die Fire-and-Forget-Modelle übersehen.

Cloud-Aufgaben eignen sich für Workflows, bei denen Sie die Aufgabe im Voraus definieren und Ergebnisse später möchten. Subagent-Koordination eignet sich für Workflows, bei denen die Aufgabe sich durch Reasoning weiterentwickelt und Echtzeit-Synthese erfordert.

Das Vertrauensspektrum

Bevor Sie die Entscheidungsmatrix betrachten, überlegen Sie, wo Ihre Aufgabe auf dem Vertrauensspektrum liegt. Jede agentische Coding-Aufgabe beinhaltet eine implizite Vertrauensentscheidung: Wie sehr vertrauen Sie dem Urteil des Agenten bei dieser spezifischen Aufgabe?

Geringes Vertrauen (Codex nutzen): Sie prüfen Code, den Sie nicht geschrieben haben, führen Skripte aus externen Quellen aus oder delegieren Arbeit an eine Cloud-Umgebung, die Sie nicht in Echtzeit überwachen können. Der Agent könnte auf adversariale Eingaben treffen. Sie möchten, dass das OS Grenzen erzwingt, unabhängig davon, was das Modell entscheidet.

Mittleres Vertrauen (beides möglich): Sie arbeiten an Ihrer eigenen Codebase mit bekannten Mustern. Der Agent könnte Fehler machen, aber es sind Fehler aus Überselbstbewusstsein, nicht aus Bosheit. Sie möchten Änderungen prüfen, bevor sie landen, benötigen aber keine Kernel-Level-Isolation.

Hohes Vertrauen (Claude Code nutzen): Sie haben Guardrails über Hooks, CLAUDE.md-Anweisungen und erlaubte Berechtigungen aufgebaut. Der Agent arbeitet in einer geregelten Umgebung, die Sie entworfen haben. Sie vertrauen der Governance-Schicht genug, um Aktionen selektiv zu genehmigen, statt sie pauschal einzuschränken.

Die meisten Entwickler operieren die meiste Zeit bei mittlerem Vertrauen, weshalb der Dual-Tool-Workflow funktioniert: Codex übernimmt die Aufgaben mit geringem Vertrauen, bei denen seine Sandbox glänzt, und Claude Code übernimmt die Aufgaben mit mittlerem bis hohem Vertrauen, bei denen programmierbare Hooks mehr Wert bieten als Kernel-Restriktionen.

Entscheidungsrahmen

Eine konkrete Entscheidungsmatrix basierend auf spezifischen Anforderungen:

Wenn Sie … brauchen Beste Wahl Warum
Kernel-Level-Sandboxing Codex OS-Level-Enforcement kann vom Agenten nicht umgangen werden
Programmierbare Governance-Hooks Claude Code 26 Lebenszyklus-Ereignisse mit beliebiger Code-Ausführung
Werkzeug­übergreifende Portabilität (AGENTS.md) Codex Offener Standard funktioniert in Codex, Cursor, Copilot, Amp, Windsurf
Tiefgehendes Multi-File-Refactoring Claude Code Opus beherrscht es, architektonischen Kontext über lange Sessions zu halten
Fire-and-Forget-Cloud-Aufgaben Codex codex cloud exec delegiert an Cloud-Infrastruktur und liefert Diffs
Echtzeit-interaktives Reasoning Claude Code Extended Thinking + Subagent-Koordination mit Live-Sichtbarkeit
Review nicht vertrauenswürdigen externen Codes Codex --sandbox read-only verhindert alle Dateisystem-Mutationen
Durchsetzung von Team-Coding-Standards Claude Code Hooks kodieren und erzwingen Geschäftslogik deterministisch
Ingestion großer Monorepos Etwa gleichauf Opus 4.7 bringt Claude Code auf 1M zum Standardpreis; Codex CLI auf GPT-5.4 erreicht 1,05M mit Long-Context-Modus (abgerechnet 2×/1,5× über 272K Eingabe), sodass beide nun Monorepos handhaben
Sicherheitsfokussiertes Code-Review Claude Code Opus war in meiner Blindevaluationsreihe bei Review-Aufgaben überlegen

Kein einzelnes Werkzeug dominiert diese Matrix. Das zugrundeliegende Muster ist einfacher, als zehn Zeilen nahelegen: Codex glänzt, wenn Sie harte Grenzen brauchen, und Claude Code glänzt, wenn Sie programmierbare Logik brauchen. Wenn Sie nicht vertrauenswürdigen Code ausführen, externe Beiträge prüfen oder an eine Cloud-Umgebung delegieren, die Sie nicht überwachen können, zählen harte Grenzen mehr. Wenn Sie Team-Konventionen durchsetzen, mehrstufige Workflows orchestrieren oder Guardrails bauen, die Geschäftsregeln kodieren, zählt programmierbare Logik mehr. Wenn mehr als drei Ihrer Anforderungen auf ein Werkzeug zeigen, starten Sie dort. Bei gleichmäßiger Aufteilung ziehen Sie den Dual-Tool-Workflow in Betracht.

Meine Empfehlung

Nutzen Sie beide. Ich habe identische Code-Review-Aufgaben durch beide Werkzeuge über 12 Aufgabenkategorien laufen lassen (dokumentiert in meiner Blindevaluationsreihe) und festgestellt, dass kein einzelnes Werkzeug alles fängt. Ein konkretes Beispiel: Während eines FastAPI-Authentifizierungs-Reviews markierte Opus einen Timing-Seitenkanal in der Passwort-Vergleichsfunktion. Der Vergleich nutzte den ==-Operator von Python statt hmac.compare_digest() und schuf damit ein Timing-Orakel11. Codex übersah dieses Problem komplett. In derselben Codebase fing die Sandbox von Codex einen SSRF-Vektor in einem URL-Fetching-Endpunkt ein, bei dem vom Benutzer gelieferte URLs interne Services erreichen konnten. Opus hatte den Endpunkt freigegeben, weil die Eingabevalidierung auf Applikationsebene korrekt aussah, aber die Kernel-Sandbox markierte die ausgehende Netzwerkanfrage an einen internen IP-Bereich. Unterschiedliche Modelle, die auf unterschiedlichen Daten trainiert wurden, fangen unterschiedliche Schwach­stellenklassen ab. Beide laufen zu lassen kostet grob 2× pro Review, fängt aber bei sicherheits­sensitivem Code deutlich mehr Probleme ab.

Mein täglicher Workflow teilt sich nach Aufgabentyp:

  • Claude Code übernimmt Feature-Implementation, Code-Review und Multi-File-Refactors. Hooks erzwingen Formatierung, blockieren gefährliche Befehle und führen Tests nach jeder Bearbeitung aus. Das interaktive Subagent-Modell funktioniert gut für Aufgaben, die sich durch Reasoning weiterentwickeln.
  • Codex übernimmt Reviews nicht vertrauenswürdigen Codes mit --sandbox read-only (ich prüfe externe PRs und Dependencies in der Kernel-Sandbox), Cloud-delegierte Batch-Aufgaben via codex cloud exec sowie Architektur-Zweitmeinungen, bei denen eine andere Modellperspektive blinde Flecken abfängt.

CLAUDE.md und AGENTS.md koexistieren im selben Repository ohne Konflikte. Der Wartungsaufwand bleibt minimal, weil beide Dateien den Großteil ihres Inhalts teilen. Ich halte einen gemeinsamen Konventionsabschnitt und kopiere ihn in beide.

Wann keines der Werkzeuge geeignet ist. Weder Codex noch Claude Code ist die richtige Wahl, wenn Sie garantierten Determinismus benötigen. Beide Werkzeuge sind probabilistisch: Derselbe Prompt kann über Läufe hinweg unterschiedliche Ausgaben erzeugen. Erfordert Ihr Workflow exakte Reproduzierbarkeit (z. B. Konfigurationsdateien generieren, die Byte für Byte einem Schema entsprechen müssen), nutzen Sie stattdessen eine Template-Engine oder einen Code-Generator. Agentische Werkzeuge sind am stärksten, wenn die Aufgabe Urteilsvermögen erfordert, und am schwächsten, wenn die Aufgabe Präzision ohne Urteilsvermögen verlangt.

Für den vollständigen Vergleich mit Blindevaluations-Methodik und Ergebnissen über 12 Aufgabenkategorien siehe Claude Code vs. Codex: When to Use Which. Für den individuellen Einstieg siehe den Claude Code-Guide oder den Codex-Guide. Für einen praktischen Durchlauf durch das Hook-System, das die Governance-Schicht von Claude Code antreibt, siehe das Hooks-Tutorial.

Referenzen

FAQ

Kann ich sowohl Codex als auch Claude Code im selben Projekt nutzen?

Ja. CLAUDE.md und AGENTS.md sind separate Dateien, die jedes Werkzeug unabhängig liest. Keines der Werkzeuge parst die Instruktionsdatei des anderen. Konfigurationsdateien kollidieren nicht. Ich pflege beide in jedem aktiven Projekt. Die einzige Überlegung ist, gemeinsam genutzte Inhalte zwischen den Instruktionsdateien synchron zu halten, was Minuten dauert, da die Formate ähnlich sind.

Welches ist günstiger für den täglichen Gebrauch?

Siehe den vollständigen Abschnitt Preise im Detail oben. Kurzversion: Claude Code hat Preise pro Token über die Anthropic API plus eine Abonnement-Leiter (Pro 20 $, Max 5x 100 $, Max 20x 200 $, Team 30 $/Benutzer, Team Premium 150 $/Benutzer). Codex CLI hat Preise pro Token über die OpenAI API für GPT-5.4 (2,50 $ Eingabe / 15 $ Ausgabe pro MTok, 2×/1,5×-Multiplikatoren über 272K Eingabe) und die GPT-5.3-Codex- / GPT-5.2-Codex-Familie sowie ChatGPT-Plus/Pro-Inklusionen. Die Tokeneffizienz variiert nach Aufgabentyp; für budget­sensitive Arbeit lassen Sie eine repräsentative Aufgabe durch beide laufen und vergleichen die tatsächlichen Abrechnungen. Die Preise pro Token unterscheiden sich zwischen Anbietern, sodass rohe Tokenzahlen nicht direkt auf Kosten abbildbar sind.

Welches bewältigt größere Codebasen besser?

Beide handhaben große Repositories gut. Nach dem Opus-4.7-Launch im April 2026 erreicht Claude Code 1M Tokens zum Standardpreis. Codex CLI auf GPT-5.4 erreicht 1,05M Tokens mit aktiviertem Long-Context-Modus (2×/1,5×-Multiplikatoren für Eingabe/Ausgabe über 272K Eingabe); der Standardkontext liegt bei 272K, sofern Sie sich nicht für den Long-Context-Tier entscheiden. Keines der Werkzeuge liest Ihre gesamte Codebase auf einmal ein; beide stützen sich für den Alltag auf Retrieval (Codebase-Suche in Claude Code, geschichtetes CLAUDE.md-Front-Loading von Kontext; Embedding-basierte Dateientdeckung in Codex). Die reine Fenstergröße zählt am meisten, wenn in einem Turn über Beziehungen zwischen vielen Dateien geschlussfolgert werden muss, und dafür liefern nun beide Werkzeuge.

Läuft Codex CLI lokal oder in der Cloud?

Beides, aber nicht im selben Modus. Codex CLI läuft standardmäßig lokal, wie jedes Terminalwerkzeug.1 Cloud-Delegation ist ein separater Ablauf via codex cloud exec oder Codex Cloud, der Ihre Aufgabe in einem Container unter OpenAI-gehosteter Infrastruktur ausführt und ein Diff zurückgibt. Codex Cloud ist das, was die Leute meist meinen, wenn sie von der „Codex-Sandbox” sprechen; das lokale Sandboxing von Codex CLI ist der im Abschnitt zu den Sicherheitsmodellen oben beschriebene Kernel-Level-Pfad via Seatbelt / Landlock.

Kann ich aus dem chinesischen Festland auf Claude Code und Codex zugreifen?

Der First-Party-Zugang zur OpenAI- und Anthropic-API wird aus dem chinesischen Festland offiziell nicht unterstützt. Die CLI-Binaries installieren und laufen lokal, aber das Routen von Traffic zu den First-Party-APIs aus dem chinesischen Festland kann zu Konto­sperrung oder Compliance-Problemen führen. Die legitimen Pfade führen über Azure OpenAI (bestimmte Nicht-China-Regionen), AWS Bedrock (nächstgelegene öffentliche APAC-Regionen inklusive Tokio, Seoul, Singapur, Mumbai und Sydney; kein Runtime-Endpunkt im chinesischen Festland oder Hongkong), Google Vertex AI (asia-east2 Hongkong und andere APAC-Regionen mit Vorbehalten zur Modell­verfügbarkeit) und Microsoft Foundry auf globalem Azure (nicht Azure China) für Claude. Siehe Zugang zu Codex und Claude Code aus China oben für Spezifika.

Wie wirken sich chinesische Kommentare oder Code auf den Tokenverbrauch aus?

Chinesische Zeichen werden anders tokenisiert als Englisch. Der Tokenizer von Claude behandelt die meisten chinesischen Zeichen als je ein Token, was bedeutet, dass chinesischer Quellcode pro Zeile oft tokeneffizienter ist als das englische Äquivalent, aber pro Zeichen weniger effizient (ein Token deckt ein Zeichen ab statt eines englischen Wortes von 4-6 Zeichen). Codex (GPT-Familie) nutzt einen ähnlichen Ansatz. Der praktische Effekt: Erwarten Sie grob vergleichbare Tokenzahlen für äquivalente Kommentar- / Docstring-Inhalte in beiden Sprachen, wobei das Pro-Token-Verhalten stärker von der Codestruktur als vom Natural-Language-Verhältnis geprägt wird.

Kann ich Claude Code oder Codex CLI mit DeepSeek, Qwen oder Kimi als Backing-Modell nutzen?

Nur über einen Adapter oder ein Gateway. Claude Code erwartet das Request/Response-Format der Anthropic API (ANTHROPIC_BASE_URL zeigt auf Anthropic-kompatible Endpunkte); Codex erwartet das OpenAI-Format. DeepSeek / Qwen / Kimi veröffentlichen alle eigene APIs, die Übersetzung benötigen, bevor eine Claude Code- oder Codex-CLI-Session sie ansteuern kann. Community-Adapter-Projekte existieren, sind aber nicht erstklassig, und die Dialekte für Tool-Calling und Prompt-Caching, die jeder Anbieter nutzt, unterscheiden sich genug, dass mehrstufige agentische Schleifen oft brechen. DeepSeek / Qwen / Kimi sind glaubwürdige Optionen für einmalige Code-Generierung über ein separates Shell-Harness und für Single-File-Reviews zu ihren nativen Preispunkten. Vollständige Korrektheit der Agent-Loop und Zuverlässigkeit im Tool-Calling kommen weiterhin von den Frontier-Claude- und GPT-Modellen, auf die diese CLIs abgestimmt wurden.

Was ist der Unterschied zwischen Codex CLI und den Codex-Features von ChatGPT?

Codex CLI ist das Terminalwerkzeug unter github.com/openai/codex. „Codex” innerhalb von ChatGPT bezieht sich auf dieselbe Modellfamilie, die über die Web-/Desktop-/Mobile-Apps von ChatGPT mit unterschiedlichen UI-Möglichkeiten (Cloud-Task-Delegation, asynchrone Ergebnisse, ChatGPT-History-Integration) bereitgestellt wird. CLI und ChatGPT teilen sich die zugrundeliegenden Modelle; Workflow und Kontextmanagement unterscheiden sich. Wenn Ihre Frage lautet „welches Werkzeug sollte ich auf meinem Laptop installieren?”, meinen Sie Codex CLI.

Brauche ich ein ChatGPT-Abonnement, um Codex CLI zu nutzen?

Nein, obwohl es bei den Kosten hilft. Codex CLI funktioniert mit einem eigenständigen OpenAI-API-Schlüssel, pro Token abgerechnet. ChatGPT Plus oder Pro bündeln etwas Codex-Nutzung (prüfen Sie die aktuelle ChatGPT-Abonnement-Seite für Obergrenzen).14 Für chinesische Entwickler ist die direkte API-Abrechnung über ein OpenAI-Konto typischerweise der sauberere Pfad als das ChatGPT-Abonnement-Routing über Zahlungsschienen des chinesischen Festlands.

Wie hoch ist die tatsächliche Hook-Anzahl in Claude Code?

26 Lebenszyklus-Ereignisse Stand v2.1.116 (April 2026).2 Die Anzahl ist über die Zeit gewachsen, sodass Februar-Posts, die 17 Ereignisse nennen, veraltet sind. Wesentliche Ergänzungen über 2026 hinweg: PostToolUseFailure, SubagentStart, TeammateIdle, TaskCompleted, PermissionRequest, PermissionDenied, PreCompact / PostCompact, Elicitation / ElicitationResult, StopFailure, TaskCreated, CwdChanged, FileChanged, InstructionsLoaded, ConfigChange, WorktreeCreate / WorktreeRemove und Setup.

Wann erschien Opus 4.7 und wie verändert es diesen Vergleich?

Am 16. April 2026. Es ist Anthropics erstes Post-Glasswing-GA-Opus-Release und wird mit expliziten Cyber-Schutzvorkehrungen ausgeliefert. Der praktische Vergleich ändert sich: Claude Code erreicht nun 1M Tokens zum Standardpreis (Opus 4.7 inbegriffen, keine Long-Context-Prämie), die Führung bei SWE-bench Verified wechselt zu Opus 4.7 mit 87,6 % gegenüber der GPT-5-Codex-Baseline von 74,9 %, und die Führung bei Terminal-Bench 2.0 schwingt in die andere Richtung. GPT-5.4 führt dort mit 75,1 % und GPT-5.3-Codex mit 77,3 % vs. Opus 4.7 mit 69,4 %. Die Benchmark-Führung ist fluid; behandeln Sie jedes einzelne Ergebnis als Momentaufnahme. Siehe den Abschnitt „Kontext und Modelle” oben für die vollständigen Zahlen.


  1. OpenAI, „Codex CLI: Sandbox Architecture.” Seatbelt (macOS), Landlock und seccomp (Linux). GitHub: openai/codex 

  2. Anthropic, „Claude Code Hooks.” 26 Lebenszyklus-Ereignistypen (Stand v2.1.116, April 2026). docs.anthropic.com/en/docs/claude-code/hooks 

  3. Linux Foundation, „AGENTS.md Open Standard.” Agentic AI Foundation. GitHub: anthropics/agent-instructions 

  4. OpenAI, GPT-5.4 Modell-Dokumentation. Snapshot gpt-5.4-2026-03-05. Standardkontext 272K; experimenteller Long-Context-Modus bis 1.050.000 Tokens, wenn model_context_window und model_auto_compact_token_limit gesetzt sind. Max. Ausgabe 128K. Wissensstand 31. Aug. 2025. Long-Context-Preis-Multiplikator: 2× Eingabe / 1,5× Ausgabe pro Session, wenn die Eingabe 272K überschreitet, über Standard- / Batch- / Flex-Tiers. Siehe auch Introducing GPT-5.4 für den Launch-Post (positioniert GPT-5.4 als Integration der Coding-Fähigkeiten von GPT-5.3-Codex und Ergänzung durch native Computer Use) sowie die historischen Modellseiten von GPT-5.3-Codex und GPT-5.2-Codex für die weiterhin verfügbaren 400K/128K-Codex-Familien-Varianten. 

  5. Anthropic, „Claude Opus 4.7.” 1M-Token-Kontext zum Standardpreis. anthropic.com/claude/opus. Siehe auch Claude Code Modellkonfiguration

  6. OpenAI, „Codex Cloud Tasks.” codex cloud exec-Delegation. platform.openai.com/docs/guides/codex 

  7. OpenAI, „Codex Agent Architecture.” Concurrent-Thread-Modell. GitHub: openai/codex 

  8. Anthropic, „Pricing.” Claude Max-Plan. platform.claude.com/docs/en/about-claude/pricing 

  9. OpenAI, „Codex Profiles and Policies.” Konfiguration. GitHub: openai/codex 

  10. Anthropic, „Claude Code: Best practices for agentic coding.” anthropic.com/engineering/claude-code-best-practices 

  11. Simon Willison, „Codex, Claude Code, and the state of agentic coding tools.” simonwillison.net 

  12. Benchmark-Zahlen (April 2026). Opus 4.7 von der Anthropic-Launch-Seite: 87,6 % SWE-bench Verified, 64,3 % SWE-bench Pro, 69,4 % Terminal-Bench 2.0, 70 % CursorBench. Offizielle Coding-Evals von GPT-5.4 aus OpenAI: Introducing GPT-5.4: 57,7 % SWE-bench Pro, 75,1 % Terminal-Bench 2.0. GPT-5.4 SWE-bench Verified ist WEDER auf der offiziellen Modellseite NOCH auf der Launch-Seite veröffentlicht; Berichterstattung Dritter (z. B. NxCode’s GPT-5.4 writeup) meldet ~80 % SWE-bench Verified, was ich als Drittquelle zitiere, bis OpenAI offizielle Zahlen veröffentlicht. GPT-5.3-Codex 56,8 % SWE-bench Pro / 77,3 % Terminal-Bench 2.0 aus OpenAI: Introducing GPT-5.3-Codex; die oft für GPT-5.3-Codex genannte 75,2 %-SWE-bench-Verified-Zahl steht nicht auf der offiziellen Launch-Seite (Drittquelle). GPT-5.2-Codex 56,4 % SWE-bench Pro / 64,0 % Terminal-Bench 2.0 aus derselben Quelle. GPT-5-Codex 74,9 % SWE-bench Verified ist die weitverbreitet zitierte Baseline aus OpenAIs ursprünglichem Codex-Launch (auch auf OpenAIs GPT-5-Entwicklerseite referenziert); behandeln Sie dies als Untergrenze für die Codex-Familie statt als aktuelle Messung. 

  13. Anthropic Pricing. Offizielle Preise pro Token für Opus 4.7 (5 $/25 $ pro MTok), Opus 4.6 (5 $/25 $), Sonnet 4.6 (3 $/15 $), Haiku 4.5 (1 $/5 $). Prompt-Caching-Multiplikatoren: 5-Min-Cache-Write 1,25×, 1-Stunden-Cache-Write 2×, Cache-Hit 0,1× der Basis-Eingabe. 1M-Kontext bei Opus 4.7 zum Standardpreis enthalten (keine Long-Context-Prämie). Batch-API: 50 % Rabatt. 

  14. OpenAI API Pricing für Preise pro Token und OpenAI Codex Pricing für Plan-Tiers und 5-Stunden-Rate-Limits. GPT-5.4 pro Token: 2,50 $ Eingabe / 0,25 $ Cached-Eingabe / 15 $ Ausgabe pro MTok; 2×/1,5× Long-Context-Multiplikator über 272K Eingabe. Codex-Pläne Stand April 2026: Plus 20 $/Mo, Pro 5× 100 $/Mo, Pro 20× 200 $/Mo (mit den oben genannten Aktionsboosts bis 31. Mai 2026), Business Pay-as-you-go für Codex-only-Plätze, Enterprise/Edu Vertrieb kontaktieren. Siehe auch die GPT-5.4 Modell-Dokumentation, GPT-5.3-Codex Modell-Dokumentation und GPT-5.2-Codex Modell-Dokumentation für Kontextfenster pro Modell, Rate-Limits und API-Tier-Verfügbarkeit. Die Preise werden regelmäßig überarbeitet, während OpenAI Modellvarianten rotiert; die Zahlen in diesem Beitrag spiegeln den Preisstand vom 19. April 2026 wider. 

  15. AWS Bedrock Runtime-Endpunkte. Öffentliche Bedrock-Runtime-Endpunkte decken APAC-Regionen ab (u. a. Tokio, Seoul, Singapur, Mumbai, Sydney), listen aber Stand April 2026 keinen Runtime-Endpunkt im chinesischen Festland oder Hongkong. Verifizieren Sie die aktuelle Abdeckung, bevor Sie sich auf eine spezifische Region verlassen. 

  16. Google Vertex AI generative-AI-Standorte. Asiatisch-pazifische Regionen einschließlich asia-east2 (Hongkong) bedienen generative-AI-Endpunkte; die spezifische Modell­verfügbarkeit variiert nach Region und erweitert sich über die Zeit. Prüfen Sie die Standortseite für die Zielregion und das Modell vor einer Festlegung. 

  17. Claude in Microsoft Foundry. Claude wird über globale Standard-Foundry-Regionen bereitgestellt. Azure China (21Vianet) ist eine separate souveräne Cloud mit einem eigenständigen Funktionskatalog; Claude ist zum Zeitpunkt des Schreibens nicht als Azure-China-Modell gelistet. 

  18. OpenAI unterstützte Länder umfasst nicht das chinesische Festland; OpenAI warnt, dass Zugriff aus nicht unterstützten Ländern zu Konto­blockierung oder -sperrung führen kann. Anthropic unterstützte Länder listet ähnlich offiziell unterstützte Märkte; das chinesische Festland gehört zum Zeitpunkt des Schreibens nicht dazu. Leser, die über Netzwerke außerhalb des Festlands routen, sollten die Bedingungen beider Anbieter und die eigene Compliance-Position prüfen, bevor sie sich auf diesen Pfad verlassen. 

Verwandte Beiträge

Claude Code vs Codex CLI 2026: Decision Reference

Use official docs for setup; use Blake's reference for architecture, safety, extensibility, and 36 blind duel results.

14 Min. Lesezeit

AGENTS.md Patterns: What Actually Changes Agent Behavior

Which AGENTS.md patterns actually change agent behavior? Anti-patterns to avoid, patterns that work, and a cross-tool co…

12 Min. Lesezeit

Claude Code Skills: Build Custom Auto-Activating Extensions

Build custom Claude Code skills that auto-activate based on context. Step-by-step tutorial covering SKILL.md structure, …

13 Min. Lesezeit