Codex CLI vs Claude Code 2026 : architecture, tarification et accès en Chine

Codex CLI et Claude Code sont tous deux livrés comme des outils agentiques natifs au terminal, mais ils appliquent la sécurité selon des mécanismes fondamentalement différents : sandboxing au niveau du noyau ou hooks au niveau applicatif. Cette seule décision de conception se répercute sur la façon dont chaque outil gère la configuration, les permissions, les workflows multi-agents et la gouvernance d’équipe. La comparaison qui suit cartographie ces différences avec des critères de décision concrets, prolongeant le territoire de l’ingénierie IA que je construis sur ce site.

J’utilise Claude Code comme outil principal. Je déclare ce biais d’entrée. Les observations présentées ici proviennent d’un usage quotidien des deux outils sur des tâches de production, d’évaluations à l’aveugle et de workflows à double outil.

TL;DR : Codex applique la sécurité au niveau du noyau de l’OS (Seatbelt, Landlock, seccomp)¹ avec un contrôle à gros grain. Claude Code applique la sécurité au niveau applicatif via 26 événements de hook programmables² avec un contrôle à grain fin. Les deux outils fonctionnent désormais avec un large contexte : Claude Code sur Opus 4.7 expose 1M tokens au tarif standard⁵ ; Codex CLI sur GPT-5.4 (le modèle frontière actuel d’OpenAI, sorti le 5 mars 2026, qui intègre les capacités de codage de GPT-5.3-Codex) expose jusqu’à 1,05M de contexte avec un maximum de 128K en sortie, bien que le contexte par défaut soit de 272K sauf si vous activez explicitement le mode long contexte⁴. Utilisez Codex pour la délégation de tâches en sandbox cloud et l’isolation au niveau du noyau. Utilisez Claude Code pour la gouvernance programmable, le refactoring sur longue durée et la revue de code centrée sur la sécurité. Les meilleurs résultats viennent de l’usage des deux.

Points clés à retenir

Développeurs solos : commencez avec l’outil qui correspond à votre écosystème de langage principal. Les deux outils coexistent dans le même dépôt sans conflit (CLAUDE.md et AGENTS.md sont indépendants).
Chefs d’équipe : les profils Codex offrent un basculement de configuration explicite et auditable. La hiérarchie en couches de Claude Code applique automatiquement des règles contextuelles. Choisissez selon que votre équipe préfère un contrôle explicite ou une adaptation automatique.
Ingénieurs sécurité : le sandbox noyau de Codex empêche l’agent de contourner les restrictions au niveau de l’OS. Les hooks de Claude Code partagent une frontière de processus avec l’agent mais autorisent une logique de validation arbitraire. Adaptez l’outil à votre modèle de menace.

Quel outil choisir ? (Parcours de décision par persona)

La réponse à la comparaison dépend de qui vous êtes. Quatre parcours, un pour chacun des lecteurs les plus courants de cette page.

Développeur solo sur des projets personnels ou en petite équipe

Par défaut : Claude Code. Le contexte de 1M tokens sur Opus 4.7 au tarif standard, le système de gouvernance à 26 hooks et la marketplace de plugins couvrent les cas que les développeurs solos rencontrent quotidiennement (refactoring de grandes bases de code, continuité de session, automatisation du formatage à la sauvegarde). Pro à 20 $/mois ou Max à 100-200 $/mois reste prévisible et généreux.

Faites intervenir Codex CLI quand : vous avez besoin d’un sandboxing au niveau du noyau pour une revue ponctuelle de code non fiable, ou lorsque ChatGPT Pro/Plus couvre déjà votre budget IA principal et qu’ajouter Claude semble redondant. Les deux outils coexistent proprement ; CLAUDE.md et AGENTS.md cohabitent.

Chef d’équipe dans une organisation d’ingénierie de 10 à 50 personnes

Par défaut : Claude Code. Les hooks programmables (gates de linting, scans de sécurité, blocages de commandes interdites) encodent les standards de l’équipe de manière déterministe plutôt qu’en espérant que le modèle suive les instructions du prompt. Les paramètres managés permettent au responsable de fixer une politique à l’échelle de l’organisation que les développeurs individuels ne peuvent pas contourner. Les primitives claude agents CLI et Agent Teams correspondent aux schémas réellement utilisés par les équipes pour les workflows de revue.

Faites intervenir Codex CLI quand : des revues sensibles à la sécurité nécessitent une isolation durcie au niveau du noyau (p. ex. revue de code de prestataires externes, PR open source d’auteurs inconnus), ou lorsque l’équipe est déjà engagée sur l’outillage OpenAI via Azure OpenAI / Microsoft Foundry. Utilisez-le comme outil de revue dédié, pas comme outil quotidien.

Relecteur axé sécurité ou chercheur red team

Par défaut : Codex CLI (pour les entrées adversariales) + Claude Code (pour l’exécution gouvernée). Le sandbox noyau de Codex sur macOS Seatbelt / Linux Landlock+seccomp refuse les appels système sous la couche applicative, de sorte qu’un agent hostile ne peut littéralement pas toucher les zones du système de fichiers que vous n’avez pas autorisées. Le système de hooks de Claude Code est puissant mais partage la frontière de processus. Utilisez l’outil qui correspond à la menace.

Faites intervenir Claude Code quand : vous voulez des actions post-revue programmables (hooks de triage, journalisation d’audit, génération automatisée de rapports). Le workflow typique : Codex inspecte sous contrainte de sandbox, Claude Code gère la couche de triage et d’application des politiques.

Développeur basé en Chine continentale

Les deux outils fonctionnent, mais la connectivité et le coût façonnent le choix plus que les fonctionnalités. Passez à Accéder à Codex et Claude Code depuis la Chine avant de vous engager.

La scission architecturale fondamentale

La différence la plus profonde entre Codex et Claude Code réside dans l’endroit où la gouvernance s’applique. Codex applique la sécurité au niveau du noyau via Seatbelt sur macOS, Landlock et seccomp sur Linux¹. L’OS restreint l’accès au système de fichiers, les appels réseau et la création de processus avant que ces opérations n’atteignent l’application. Le modèle ne peut pas contourner ces restrictions parce que le système d’exploitation refuse l’appel système avant son exécution.

Claude Code applique la sécurité au niveau applicatif via des hooks, des programmes qui interceptent les actions à 26 points du cycle de vie². Un hook PreToolUse sur Bash peut inspecter chaque commande, la valider selon une logique arbitraire et la bloquer avec le code de sortie 2. Le système de hooks offre une gouvernance programmable : encoder des règles métier, exécuter des linters, scanner des identifiants. Le compromis est que l’application au niveau applicatif partage une frontière de processus avec l’agent. L’application au niveau du noyau, non.

Toute architecture de sécurité arbitre entre expressivité et force de frontière. Ces deux outils se placent aux extrémités opposées de ce spectre, et ce positionnement est intentionnel. Le sandboxing noyau a du sens lorsque le modèle de menace inclut un agent potentiellement adversarial (revue de code malveillant, exécution de scripts non fiables). Les hooks applicatifs ont du sens lorsque le modèle de menace est un agent trop confiant mais bien intentionné (votre propre code, votre propre équipe, vos propres conventions). La plupart des développeurs ont besoin des deux modèles de menace à des moments différents.

Philosophie de configuration

Codex utilise TOML pour la configuration. Claude Code utilise JSON. La différence de format est cosmétique. La différence de philosophie, non.

Codex organise la configuration autour de profils, des préréglages nommés entre lesquels vous basculez explicitement avec --profile. Un profil careful fixe approval_policy = "untrusted" et applique un sandbox agressif⁹. Un profil deep-review bascule vers un modèle plus capable. Vous savez toujours quelle configuration est active parce que vous l’avez sélectionnée par son nom. La couche d’instructions utilise AGENTS.md, un standard ouvert sous l’Agentic AI Foundation de la Linux Foundation³, lisible par Codex, Cursor, Copilot, Amp, Windsurf et Gemini CLI.

Claude Code organise la configuration autour d’une hiérarchie en couches, cinq couches en cascade depuis les paramètres managés (priorité la plus haute) en passant par la ligne de commande, le projet local, le projet partagé et les valeurs par défaut de l’utilisateur. Les fichiers CLAUDE.md s’appliquent aux niveaux utilisateur, projet et local. Les répertoires de skills, de hooks et de règles ajoutent d’autres couches. La configuration appropriée au contexte s’applique automatiquement, mais la configuration active n’est visible depuis aucun fichier unique. Vous la reconstituez en lisant la hiérarchie.

Les profils privilégient l’explicite et l’auditabilité. Vous pouvez répondre à « quelle configuration était active ? » en vérifiant quel drapeau --profile a été passé. La hiérarchie en couches privilégie l’automatisation et la sensibilité au contexte. Le bon contexte s’applique automatiquement, mais répondre à « quelle configuration est active ? » exige de lire jusqu’à cinq couches et de comprendre leur ordre de fusion. Le compromis est bien réel : j’ai parfois été surpris par une surcharge CLAUDE.md au niveau utilisateur qui entrait en conflit avec une instruction au niveau projet, ce qui ne se produirait pas avec des profils explicites.

Comparaison des modèles de sécurité

Dimension	Codex CLI	Claude Code
Approche sandbox	Niveau noyau (Seatbelt sur macOS, Landlock + seccomp sur Linux)	Hooks au niveau applicatif (26 types d’événements de cycle de vie)
Niveaux de permission	Trois modes sandbox : `read-only`, `workspace-write`, `danger-full-access`	Listes d’autorisation/refus granulaires basées sur des motifs, par outil
Résistance à l’évasion	Haute : l’OS refuse les appels système sous la frontière applicative	Modérée : les hooks partagent la frontière de processus avec l’agent
Programmabilité	Faible : autorisation/refus binaire par mode sandbox	Haute : code arbitraire dans les scripts de hook (bash, Python, etc.)
Politiques d’approbation	Trois niveaux : `untrusted`, `on-request`, `never`	Motifs de permission par outil avec correspondance regex
Restrictions réseau	Le sandbox contrôle l’accès réseau sortant	Les hooks peuvent inspecter mais non bloquer au niveau noyau les appels réseau
Classe de vulnérabilité connue	Évasion de sandbox (théorique ; aucune CVE publique signalée en mars 2026)	Hooks malveillants dans la config de projet (atténué par des invites de confiance du projet)

Le schéma : Codex fournit des frontières plus fortes avec un contrôle plus grossier. Claude Code fournit des frontières plus faibles avec un contrôle plus fin¹¹. Le bon choix dépend de votre modèle de menace. Revue de code externe non fiable ? Sandboxing noyau. Application de standards de codage organisationnels sur du code de confiance ? Hooks programmables.

Contexte et modèles

En avril 2026, Codex CLI utilise par défaut GPT-5.4 (sorti le 5 mars 2026, snapshot gpt-5.4-2026-03-05)⁴. GPT-5.4 est le modèle généraliste frontière actuel d’OpenAI et, selon le billet de lancement d’OpenAI, intègre les capacités de codage de GPT-5.3-Codex tout en ajoutant un Computer Use natif et une prise en charge plus large des workflows agentiques. Le contexte est de 272K par défaut avec un mode long contexte expérimental jusqu’à 1,05M de tokens que vous activez via la configuration model_context_window / model_auto_compact_token_limit. La sortie est plafonnée à 128K.⁴ Les prompts longs dépassant 272K tokens en entrée sont facturés 2× en entrée / 1,5× en sortie pour cette session.⁴ GPT-5.3-Codex n’est pas déprécié et reste disponible pour les équipes qui préfèrent le profil coût/vitesse optimisé pour le codage.

Le modèle par défaut de Claude Code dépend du niveau d’abonnement selon la documentation de configuration de modèle de Anthropic⁵ : Max et Team Premium utilisent par défaut Opus 4.7 (sorti le 16 avril 2026) ; Pro, Team Standard, Enterprise et Anthropic API au token utilisent par défaut Sonnet 4.6, Enterprise et API passant à Opus 4.7 le 23 avril 2026. Opus 4.7 expose une fenêtre de contexte de 1M tokens au tarif standard lorsqu’il est utilisé (aucun surcoût long contexte). Les modèles par défaut et les limites de contexte des deux fournisseurs changent entre les versions ; consultez la page de chaque fournisseur pour les valeurs actuelles.

Les deux outils gèrent désormais bien les grands contextes. Claude Code atteint 1M sur Opus 4.7 au tarif standard, sans surcoût. Codex CLI sur GPT-5.4 atteint 1,05M avec le mode long contexte activé, facturé au multiplicateur 2×/1,5× lorsque vous franchissez 272K d’entrée. Pour l’ingestion de monorepos, la différence pratique s’est réduite ; la qualité de la récupération (dans quelle mesure chaque outil trouve le code pertinent) compte plus que la taille brute de la fenêtre pour la plupart des projets.

Sur les benchmarks publics en avril 2026, Opus 4.7 est en tête sur SWE-bench Verified (87,6 % contre 74,9 % de référence pour GPT-5-Codex), SWE-bench Pro (64,3 % contre 57,7 % officiel pour GPT-5.4 et 56,8 % pour GPT-5.3-Codex) et CursorBench (70 % contre 58 % pour Opus 4.6)¹². Sur Terminal-Bench 2.0, Opus 4.7 se place à 69,4 % ; GPT-5.4 à 75,1 % et GPT-5.3-Codex à 77,3 % dominent là¹². Le score SWE-bench Verified de GPT-5.4 n’est pas publié sur les pages officielles du modèle ou de lancement au moment de la rédaction ; la couverture tierce rapporte un chiffre autour de 80 %, mais traitez prudemment les chiffres non publiés par le fournisseur. Le leadership sur les benchmarks oscille entre les versions ; vérifiez les pages des fournisseurs avant de vous engager. Dans mes évaluations à l’aveugle avec une version antérieure d’Opus, celui-ci surpassait sur les tâches de revue et de sécurité même avec un contexte plus petit, et le même schéma se maintient à 1M.

Les deux outils prennent en charge le routage de modèle. Codex sélectionne les modèles par profil⁹. Le modèle par défaut de Claude Code dépend du niveau d’abonnement décrit ci-dessus (Opus 4.7 sur Max et Team Premium, Sonnet 4.6 sur Pro, Team Standard et Enterprise et API, Enterprise plus API passant à Opus 4.7 le 23 avril 2026), et chaque invocation peut surcharger via --model ou la configuration au niveau des paramètres.

Analyse approfondie de la tarification

La tarification se divise en trois schémas : facturation API au token, abonnements qui incluent l’usage du CLI agentique, et facturation par fournisseur cloud via AWS / GCP / Azure. Le chemin le moins cher dépend du volume quotidien de tokens, pas du prix affiché.

Tarification Claude Code (avril 2026)

Au token (Anthropic API) :¹³

Modèle	Entrée ($/MTok)	Sortie ($/MTok)	Lecture cache ($/MTok)	Écriture cache 5 min ($/MTok)	Écriture cache 1 h ($/MTok)
Claude Opus 4.7	5,00 $	25,00 $	0,50 $	6,25 $	10,00 $
Claude Opus 4.6	5,00 $	25,00 $	0,50 $	6,25 $	10,00 $
Claude Sonnet 4.6	3,00 $	15,00 $	0,30 $	3,75 $	6,00 $
Claude Haiku 4.5	1,00 $	5,00 $	0,10 $	1,25 $	2,00 $

Aucun surcoût long contexte : la fenêtre de 1M tokens d’Opus 4.7 est facturée au tarif standard. La API batch offre une remise de 50 % sur l’entrée et la sortie.¹³

Abonnements qui incluent Claude Code :⁸

Plan	Mensuel	Profil d’usage Claude Code
Pro	20 $	Limites journalières généreuses ; atteint la limitation d’usage additionnel sous un travail agentique soutenu et intense
Max 5x	100 $	5× l’usage Claude de Pro ; limite typique d’outil quotidien pour développeurs solos
Max 20x	200 $	20× l’usage de Pro ; couvre la plupart des journées de refactoring intense en solo
Team Standard	30 $/utilisateur	Par siège avec contrôles d’administration partagés
Team Premium	150 $/utilisateur	Inclut Opus 4.7 complet par défaut sur tous les sièges
Enterprise	sur devis	Par siège avec politique managée, SSO et audit

La tarification par fournisseur cloud suit les tarifs publics AWS Bedrock / Google Vertex AI / Microsoft Foundry, qui suivent de près l’API directe de Anthropic mais avec des différences de disponibilité régionale et de résidence des données.

Tarification Codex CLI (avril 2026)

Au token (OpenAI API) :¹⁴

Les prix changent à mesure qu’OpenAI fait tourner les variantes de modèles ; ce sont les tarifs vérifiés au 19 avril 2026.

Modèle	Entrée ($/MTok)	Entrée en cache ($/MTok)	Sortie ($/MTok)	Contexte / sortie max
GPT-5.4 (par défaut actuel)	2,50 $	0,25 $	15,00 $	1 050 000 ctx / 128K sortie
GPT-5.3-Codex	voir tarification OpenAI	N/A	voir tarification OpenAI	400K entrée / 128K sortie
GPT-5.2-Codex	voir tarification OpenAI	N/A	voir tarification OpenAI	400K entrée / 128K sortie
GPT-5	varie selon le niveau	N/A	varie	jusqu’à 400K entrée

Les prompts longs sur GPT-5.4 (plus de 272K tokens en entrée) sont facturés 2× en entrée et 1,5× en sortie pour cette session, tous niveaux confondus (standard, batch et flex).⁴

Abonnements qui incluent Codex :

ChatGPT Plus (20 $/mois), Pro (100 $/mois pour 5×, 200 $/mois pour 20×) et Business (sièges Codex-only à l’usage, ou sièges ChatGPT Business standard avec limites d’usage Codex) incluent tous l’usage de la famille Codex avec des plafonds spécifiques au plan. Pro 5× bénéficie d’un boost d’usage temporaire à 10× Plus jusqu’au 31 mai 2026 ; les limites Codex Pro 20× sur 5 heures passent à 25× Plus pendant la même fenêtre promotionnelle. GPT-5.4, GPT-5.3-Codex et GPT-5.2-Codex sont tous disponibles via l’API OpenAI avec une tarification au token publiée et des limites de taux pour les niveaux API pris en charge (niveau gratuit non pris en charge).¹⁴ Les équipes API-only sautent entièrement l’abonnement ; utilisez les abonnements ChatGPT lorsque l’usage Codex inclus plus la surface chat plus large représente la meilleure valeur pour l’équipe.

Ce que coûte réellement le contexte 1M d’Opus 4.7

La question pratique : « Si je donne à Opus 4.7 une base de code de 1M tokens, quelle est la facture ? »

Un passage plein contexte avec une réponse de 10K tokens : - Entrée : 1 000 000 tokens × 5,00 $/MTok = 5,00 $ - Sortie : 10 000 tokens × 25,00 $/MTok = 0,25 $ - Total (sans cache) : 5,25 $ par passage

Avec la mise en cache de prompt 5 minutes sur la base de code de 1M tokens (écriture de cache unique supposée, lectures répétées pour les suivis) : - Première écriture : 1 000 000 × 6,25 $/MTok = 6,25 $ (unique) - Chaque lecture suivante en moins de 5 min : 1 000 000 × 0,50 $/MTok + 10 000 sortie × 25 $/MTok = 0,75 $ - Cinq lectures dans une session : 6,25 $ + (5 × 0,75 $) = 10,00 $ pour cinq passages plein contexte

Exemple en CNY avec un taux de référence de 1 USD ≈ 6,82 CNY (parité centrale PBOC groupée dans la fourchette 6,82-6,90 autour d’avril 2026) : ~68,20 ¥ pour cinq sessions Opus 4.7 plein contexte sur une base de code de 1M tokens. Le FX bouge ; vérifiez le taux actuel avant de le citer en appel d’offres. Ce qui compte pour la budgétisation, c’est le calcul, pas le chiffre exact en CNY.

Le calcul équivalent sur le mode long contexte de GPT-5.4 : - Entrée : 1 000 000 tokens × (2,50 $ base × 2 multiplicateur long contexte) = 5,00 $ - Sortie : 10 000 tokens × (15,00 $ base × 1,5 multiplicateur long contexte) = 0,225 $ - Total (sans cache) : 5,23 $ par passage — à 1 % près du prix non mis en cache d’Opus 4.7 en contexte 1M complet

Sur GPT-5.3-Codex (plafond d’entrée de 400K), il vous faudrait au moins trois passages pour ingérer la même base de code de 1M, ce qui modifie le profil de coût au niveau session. La plupart des équipes de développeurs chinois n’ont pas besoin d’un contexte 1M complet au quotidien, donc la comparaison réaliste passe par des tailles de session typiques (50K-200K tokens) où les deux outils coûtent moins d’un dollar par session.

Quand les abonnements battent la tarification au token

Heuristique approximative (pas un quota de tokens publié, puisque Anthropic n’en publie pas) : un usage interactif léger tient confortablement dans Pro ; les workflows agentiques quotidiens plus intenses sur Opus 4.7 poussent vers le territoire Max 5x ou Max 20x ; les charges de travail soutenues en plein contexte (5 $+/session) peuvent revenir moins cher en paiement au token avec un caching de prompt agressif qu’avec un abonnement plafonné. Exécutez une semaine représentative sur Pro, vérifiez votre tableau de bord d’usage Claude et montez de niveau selon les besoins plutôt que de deviner depuis une formule. Les équipes font le même calcul par utilisateur, plus les coûts administratifs, de politique et SSO que le niveau Enterprise absorbe.

Accéder à Codex et Claude Code depuis la Chine

L’accès API de première main OpenAI et Anthropic n’est pas officiellement pris en charge depuis la Chine continentale selon les listes de pays pris en charge publiées par chaque fournisseur.¹⁸ Les développeurs passent parfois par des réseaux et des comptes non continentaux pour contourner cela, mais cela comporte un risque de suspension de compte et de conformité qu’il faut peser face au cas de productivité que vous défendez. Les binaires CLI s’installent et s’exécutent localement une fois téléchargés ; le comportement quotidien de la boucle d’agent est le même partout. Le routage via les fournisseurs cloud est là où résident les chemins légitimes.

Disponibilité régionale AWS Bedrock

Les modèles Claude de Anthropic sont servis via Amazon Bedrock dans des régions AWS spécifiques. En avril 2026, les endpoints d’exécution Bedrock publics couvrent les régions APAC dont Tokyo, Séoul, Singapour, Mumbai et Sydney, mais aucun endpoint d’exécution Bedrock ne fonctionne actuellement en Chine continentale ou à Hong Kong.¹⁵ Les clients chinois passant par AWS utilisent généralement Singapour ou Tokyo avec le coût de latence associé.

Disponibilité régionale Google Vertex AI

Google Cloud propose des endpoints Vertex AI d’IA générative dans les régions Asie-Pacifique.¹⁶ La disponibilité spécifique des modèles Claude varie selon la région, et asia-east2 (Hong Kong) a historiquement offert une latence plus faible pour les utilisateurs du sud de la Chine. Vérifiez la disponibilité du modèle Claude dans la région Vertex choisie avant de vous engager ; la couverture s’étend dans le temps mais n’est pas uniforme à travers l’APAC.

Microsoft Foundry

Claude est disponible via Microsoft Foundry sur le déploiement standard mondial d’Azure, nécessitant généralement des abonnements Enterprise / MCA-E éligibles. Claude n’est pas publiquement documenté comme disponible dans Azure China (opéré par 21Vianet), qui est un cloud souverain distinct avec un catalogue de services distinct. Les clients chinois utilisant Foundry passent par l’empreinte Azure mondiale plutôt que par Azure China.¹⁷

OpenAI Codex depuis la Chine

La liste des pays pris en charge d’OpenAI n’inclut pas la Chine continentale ; OpenAI prévient que l’accès depuis des régions non prises en charge peut entraîner un blocage ou une suspension de compte.¹⁸ Azure OpenAI est disponible dans des régions mondiales spécifiques (pas Azure China), et les entreprises chinoises recherchant un accès conforme passent typiquement par Azure OpenAI dans une région autorisée avec des termes contractuels appropriés plutôt que d’essayer d’utiliser directement l’API OpenAI.

Alternatives de modèles de fournisseurs chinois

DeepSeek, Qwen (Alibaba) et Kimi (Moonshot) sont des alternatives au niveau du modèle que les équipes chinoises évaluent pour des raisons de coût et de latence. Ce sont des modèles, pas des CLI agentiques. Les associer à Claude Code nécessite un adaptateur ou une passerelle compatible Anthropic-API (Claude Code attend la forme de requête/réponse de Anthropic ; ANTHROPIC_BASE_URL pointe vers des endpoints compatibles Anthropic, pas compatibles OpenAI). Codex prend en charge le routage de modèle au niveau profil mais attend de même des réponses compatibles OpenAI. Aucun des deux outils n’expose de prise en charge première classe pour DeepSeek/Qwen/Kimi ; le chemin est une couche d’adaptateur qui traduit entre la forme API du fournisseur et ce que le CLI attend. Les questions d’achat, de latence et de résidence des données, ces modèles y répondent bien. Les questions de correction de la boucle d’agent et de maturité des appels d’outils sont encore mieux servies par les modèles frontière Claude et GPT pour lesquels ces CLI ont été réglés.

Capacités multi-agents

Codex propose la délégation de tâches cloud via codex cloud exec⁶. Vous décrivez une tâche, Codex provisionne un environnement cloud, exécute l’agent sur votre base de code et renvoie un diff. Vous ne surveillez pas le raisonnement de l’agent en temps réel ; vous définissez la tâche en amont et récupérez les résultats plus tard. La délégation cloud s’intègre naturellement aux pipelines CI/CD et au traitement par lot. En interne, Codex prend en charge des threads d’agent concurrents pour l’exécution parallèle de sous-tâches⁷ (jusqu’à 6 dans la version actuelle, bien que cette limite puisse changer).

Claude Code propose le spawning explicite de sous-agents via l’outil Task¹⁰. L’agent parent génère des sous-agents avec des tâches spécifiques et un contexte isolé, coordonne les résultats et synthétise les sorties. Le spawning de sous-agents permet une orchestration interactive : vous voyez le raisonnement et pouvez intervenir. Combinée à des schémas de délibération où plusieurs agents critiquent les sorties des autres, l’orchestration interactive attrape des problèmes que les modèles « tire et oublie » ratent.

Les tâches cloud conviennent aux workflows où vous définissez la tâche en amont et voulez les résultats plus tard. La coordination de sous-agents convient aux workflows où la tâche évolue par le raisonnement et nécessite une synthèse en temps réel.

Le spectre de confiance

Avant de regarder la matrice de décision, réfléchissez à l’endroit où votre tâche se situe sur le spectre de confiance. Chaque tâche de codage agentique implique une décision de confiance implicite : à quel point faites-vous confiance au jugement de l’agent sur cette tâche spécifique ?

Faible confiance (utilisez Codex) : vous relisez du code que vous n’avez pas écrit, exécutez des scripts de sources externes, ou déléguez du travail à un environnement cloud que vous ne pouvez pas surveiller en temps réel. L’agent peut rencontrer une entrée adversariale. Vous voulez que l’OS applique les frontières, peu importe ce que le modèle décide.

Confiance moyenne (utilisez l’un ou l’autre) : vous travaillez sur votre propre base de code avec des motifs connus. L’agent peut faire des erreurs, mais ce sont des erreurs d’excès de confiance, pas de malveillance. Vous voulez revoir les changements avant qu’ils n’atterrissent mais n’avez pas besoin d’une isolation au niveau noyau.

Haute confiance (utilisez Claude Code) : vous avez construit des garde-fous via des hooks, des instructions CLAUDE.md et des permissions sur liste d’autorisation. L’agent opère dans un environnement gouverné que vous avez conçu. Vous faites suffisamment confiance à la couche de gouvernance pour approuver les actions de façon sélective plutôt que de les restreindre globalement.

La plupart des développeurs opèrent en confiance moyenne la plupart du temps, c’est pourquoi le workflow à double outil fonctionne : Codex gère les tâches de faible confiance où son sandbox brille, et Claude Code gère les tâches de confiance moyenne à haute où les hooks programmables apportent plus de valeur que les restrictions noyau.

Cadre de décision

Une matrice de décision concrète basée sur des besoins spécifiques :

Si vous avez besoin de…	Meilleur choix	Pourquoi
Sandboxing au niveau noyau	Codex	L’application au niveau OS ne peut pas être contournée par l’agent
Hooks de gouvernance programmables	Claude Code	26 événements de cycle de vie avec exécution de code arbitraire
Portabilité inter-outils (AGENTS.md)	Codex	Standard ouvert fonctionnant dans Codex, Cursor, Copilot, Amp, Windsurf
Refactoring multi-fichiers profond	Claude Code	Opus excelle à maintenir le contexte architectural sur de longues sessions
Tâches cloud « tire et oublie »	Codex	`codex cloud exec` délègue à l’infrastructure cloud et renvoie des diffs
Raisonnement interactif en temps réel	Claude Code	Réflexion étendue + coordination de sous-agents avec visibilité en direct
Revue de code externe non fiable	Codex	`--sandbox read-only` empêche toutes les mutations du système de fichiers
Application des standards de codage d’équipe	Claude Code	Les hooks encodent et appliquent la logique métier de manière déterministe
Ingestion de gros monorepos	Match nul approximatif	Opus 4.7 amène Claude Code à 1M au tarif standard ; Codex CLI sur GPT-5.4 atteint 1,05M avec le mode long contexte (facturé 2×/1,5× au-delà de 272K entrée), donc les deux gèrent désormais les monorepos
Revue de code centrée sur la sécurité	Claude Code	Opus a surpassé dans ma série d’évaluations à l’aveugle sur les tâches de revue

Aucun outil unique ne domine cette matrice. Le motif sous-jacent est plus simple que ne le suggèrent dix lignes : Codex excelle quand vous avez besoin de frontières dures, et Claude Code excelle quand vous avez besoin de logique programmable. Si vous exécutez du code non fiable, passez en revue des contributions externes, ou déléguez à un environnement cloud que vous ne pouvez pas surveiller, les frontières dures comptent plus. Si vous appliquez des conventions d’équipe, orchestrez des workflows multi-étapes, ou construisez des garde-fous qui encodent des règles métier, la logique programmable compte plus. Si plus de trois de vos besoins pointent vers un outil, commencez par celui-là. Si la répartition est équilibrée, envisagez le workflow à double outil.

Ma recommandation

Utilisez les deux. J’ai fait passer des tâches de revue de code identiques par les deux outils sur 12 catégories de tâches (documentées dans ma série d’évaluations à l’aveugle) et j’ai trouvé qu’aucun outil seul n’attrapait tout. Un exemple concret : lors d’une revue d’authentification FastAPI, Opus a signalé un canal latéral temporel dans la fonction de comparaison de mot de passe. La comparaison utilisait l’opérateur == de Python au lieu de hmac.compare_digest(), créant un oracle temporel¹¹. Codex a entièrement raté ce problème. Sur la même base de code, le sandbox de Codex a attrapé un vecteur SSRF dans un endpoint de récupération d’URL où les URL fournies par l’utilisateur pouvaient atteindre des services internes. Opus avait approuvé l’endpoint parce que la validation des entrées semblait correcte au niveau applicatif, mais le sandbox noyau a signalé la requête réseau sortante vers une plage IP interne. Des modèles différents entraînés sur des données différentes attrapent des classes de vulnérabilités différentes. Faire tourner les deux coûte environ 2× par revue mais attrape significativement plus de problèmes sur du code sensible à la sécurité.

Mon workflow quotidien se répartit par type de tâche :

Claude Code gère l’implémentation de fonctionnalités, la revue de code et les refactorings multi-fichiers. Les hooks appliquent le formatage, bloquent les commandes dangereuses et exécutent les tests après chaque édition. Le modèle interactif de sous-agents fonctionne bien pour les tâches qui évoluent par le raisonnement.
Codex gère la revue de code non fiable avec --sandbox read-only (je passe en revue les PR externes et les dépendances dans le sandbox noyau), les tâches par lot déléguées au cloud via codex cloud exec, et les deuxièmes avis d’architecture où une perspective de modèle différente attrape les angles morts.

CLAUDE.md et AGENTS.md coexistent dans le même dépôt sans conflit. La surcharge de maintenance reste minimale parce que les deux fichiers partagent la plupart du contenu. Je garde une section partagée de conventions et la copie dans les deux.

Quand ne pas utiliser l’un ou l’autre. Ni Codex ni Claude Code n’est le bon choix lorsque vous avez besoin d’un déterminisme garanti. Les deux outils sont probabilistes : le même prompt peut produire des sorties différentes d’une exécution à l’autre. Si votre workflow exige une reproductibilité exacte (p. ex. génération de fichiers de configuration qui doivent correspondre à un schéma octet par octet), utilisez plutôt un moteur de templates ou un générateur de code. Les outils agentiques sont les plus forts lorsque la tâche exige du jugement, et les plus faibles lorsque la tâche exige de la précision sans jugement.

Pour la comparaison complète avec la méthodologie d’évaluation à l’aveugle et les résultats sur 12 catégories de tâches, voir Claude Code vs Codex : quand utiliser lequel. Pour démarrer individuellement, consultez le guide Claude Code ou le guide Codex. Pour une présentation pratique du système de hooks qui alimente la couche de gouvernance de Claude Code, consultez le tutoriel hooks.

Références

FAQ

Puis-je utiliser Codex et Claude Code sur le même projet ?

Oui. CLAUDE.md et AGENTS.md sont des fichiers séparés que chaque outil lit indépendamment. Aucun outil ne parse le fichier d’instructions de l’autre. Les fichiers de configuration n’entrent pas en conflit. Je maintiens les deux dans chaque projet actif. La seule considération est de garder le contenu partagé synchronisé entre les fichiers d’instructions, ce qui prend quelques minutes puisque les formats sont similaires.

Lequel est le moins cher pour l’usage quotidien ?

Voir la section complète Analyse approfondie de la tarification ci-dessus. Version rapide : Claude Code a une tarification API Anthropic au token plus une échelle d’abonnements (Pro 20 $, Max 5x 100 $, Max 20x 200 $, Team 30 $/utilisateur, Team Premium 150 $/utilisateur). Codex CLI a une tarification API OpenAI au token pour GPT-5.4 (2,50 $ entrée / 15 $ sortie par MTok, multiplicateurs 2×/1,5× au-delà de 272K entrée) et la famille GPT-5.3-Codex / GPT-5.2-Codex, plus les inclusions ChatGPT Plus/Pro. L’efficacité en tokens varie selon le type de tâche ; pour un travail sensible au budget, faites passer une tâche représentative par les deux et comparez les charges réelles. La tarification au token diffère entre fournisseurs, donc les décomptes bruts de tokens ne se traduisent pas directement en coût.

Lequel gère mieux les grandes bases de code ?

Les deux gèrent bien les gros dépôts. Après le lancement d’Opus 4.7 en avril 2026, Claude Code atteint 1M tokens au tarif standard. Codex CLI sur GPT-5.4 atteint 1,05M tokens avec le mode long contexte activé (multiplicateurs entrée/sortie 2×/1,5× au-delà de 272K entrée) ; le contexte par défaut est 272K sauf si vous optez pour le niveau long contexte. Aucun outil ne lit votre base de code entière d’un coup ; les deux s’appuient sur la récupération pour le travail quotidien (recherche de base de code dans Claude Code, CLAUDE.md en couches pour précharger le contexte ; découverte de fichiers basée sur les embeddings dans Codex). La taille brute de la fenêtre importe le plus quand on raisonne sur les relations entre de nombreux fichiers en un seul tour, et pour cela les deux outils livrent désormais.

Codex CLI fonctionne-t-il localement ou dans le cloud ?

Les deux, mais pas dans le même mode. Codex CLI fonctionne localement par défaut, le même schéma que tout outil de terminal.¹ La délégation cloud est un flux séparé via codex cloud exec ou Codex Cloud, qui exécute votre tâche dans un conteneur sous l’infrastructure hébergée par OpenAI et renvoie un diff. Codex Cloud est ce que les gens veulent généralement dire par « sandbox Codex » ; le sandboxing local de Codex CLI est le chemin Seatbelt / Landlock au niveau noyau décrit dans la section Modèles de sécurité ci-dessus.

Puis-je accéder à Claude Code et Codex depuis la Chine continentale ?

L’accès API de première main OpenAI et Anthropic n’est pas officiellement pris en charge depuis la Chine continentale. Les binaires CLI s’installent et s’exécutent localement, mais router le trafic vers les API de première main depuis la Chine continentale peut entraîner des problèmes de suspension de compte ou de conformité. Les chemins légitimes passent par Azure OpenAI (régions spécifiques hors Chine), AWS Bedrock (régions publiques APAC les plus proches dont Tokyo, Séoul, Singapour, Mumbai et Sydney ; aucun endpoint d’exécution en Chine continentale ou à Hong Kong), Google Vertex AI (asia-east2 Hong Kong et autres régions APAC avec réserves de disponibilité par modèle), et Microsoft Foundry sur Azure global (pas Azure China) pour Claude. Voir Accéder à Codex et Claude Code depuis la Chine ci-dessus pour les détails.

Comment les commentaires ou le code en chinois affectent-ils l’usage de tokens ?

Les caractères chinois se tokenisent différemment de l’anglais. Le tokenizer de Claude traite la plupart des caractères chinois comme un token chacun, ce qui signifie que le code source chinois est souvent plus efficace en tokens que l’équivalent anglais par ligne mais moins efficace par caractère (un token couvre un caractère plutôt qu’un mot anglais de 4 à 6 caractères). Codex (famille GPT) utilise une approche similaire. L’effet pratique : attendez-vous à des décomptes de tokens approximativement comparables pour un contenu équivalent de commentaires / docstrings dans l’une ou l’autre langue, avec un comportement au token dominé par la structure du code plutôt que par le ratio de langue naturelle.

Puis-je utiliser Claude Code ou Codex CLI avec DeepSeek, Qwen ou Kimi comme modèle sous-jacent ?

Seulement via un adaptateur ou une passerelle. Claude Code attend la forme de requête/réponse de l’API Anthropic (ANTHROPIC_BASE_URL pointe vers des endpoints compatibles Anthropic) ; Codex attend la forme OpenAI. DeepSeek / Qwen / Kimi publient tous leurs propres API qui nécessitent une traduction avant qu’une session Claude Code ou Codex CLI puisse les piloter. Des projets d’adaptateurs communautaires existent mais ne sont pas de première classe, et les dialectes d’appel d’outils et de caching de prompt utilisés par chaque fournisseur diffèrent suffisamment pour que les boucles agentiques multi-tours cassent souvent. DeepSeek / Qwen / Kimi sont des options crédibles pour la génération de code en une seule passe via un harnais shell séparé, et pour la revue de fichier unique à leurs tarifs natifs. La correction complète de la boucle d’agent et la fiabilité des appels d’outils viennent encore des modèles frontière Claude et GPT pour lesquels ces CLI ont été réglés.

Quelle est la différence entre Codex CLI et les fonctionnalités Codex de ChatGPT ?

Codex CLI est l’outil de terminal à github.com/openai/codex. « Codex » à l’intérieur de ChatGPT fait référence à la même famille de modèles exposée via les apps web/desktop/mobile de ChatGPT avec différentes affordances d’UI (délégation de tâches cloud, résultats asynchrones, intégration de l’historique ChatGPT). Le CLI et ChatGPT partagent les modèles sous-jacents ; le workflow et la gestion de contexte diffèrent. Si votre question est « quel outil dois-je installer sur mon ordinateur portable ? », vous parlez de Codex CLI.

Ai-je besoin d’un abonnement ChatGPT pour utiliser Codex CLI ?

Non, bien que cela aide pour le coût. Codex CLI fonctionne avec une clé API OpenAI autonome facturée au token. ChatGPT Plus ou Pro inclut un certain usage Codex (consultez la page d’abonnement ChatGPT actuelle pour les plafonds).¹⁴ Pour les développeurs chinois, la facturation directe API via un compte OpenAI est généralement le chemin le plus propre que le routage par abonnement ChatGPT via les rails de paiement de la Chine continentale.

Quel est le nombre réel de hooks dans Claude Code ?

26 événements de cycle de vie à partir de la v2.1.116 (avril 2026).² Le nombre a grandi au fil du temps, donc les billets de février qui citent 17 événements sont obsolètes. Ajouts majeurs jusqu’en 2026 : PostToolUseFailure, SubagentStart, TeammateIdle, TaskCompleted, PermissionRequest, PermissionDenied, PreCompact / PostCompact, Elicitation / ElicitationResult, StopFailure, TaskCreated, CwdChanged, FileChanged, InstructionsLoaded, ConfigChange, WorktreeCreate / WorktreeRemove, et Setup.

Quand Opus 4.7 est-il sorti et comment cela change-t-il cette comparaison ?

Le 16 avril 2026. C’est la première sortie Opus GA post-Glasswing de Anthropic et elle est livrée avec des garde-fous cyber explicites. La comparaison pratique change : Claude Code atteint désormais 1M tokens au tarif standard (Opus 4.7 inclus, aucun surcoût long contexte), le leadership SWE-bench Verified passe à Opus 4.7 à 87,6 % contre la référence de 74,9 % de GPT-5-Codex, et le leadership Terminal-Bench 2.0 bascule dans l’autre direction. GPT-5.4 y mène à 75,1 % et GPT-5.3-Codex à 77,3 % contre 69,4 % pour Opus 4.7. Le leadership sur les benchmarks est fluide ; traitez tout résultat unique comme une mesure à un instant donné. Voir la section Contexte et modèles ci-dessus pour les chiffres complets.

OpenAI, « Codex CLI : Sandbox Architecture ». Seatbelt (macOS), Landlock et seccomp (Linux). GitHub : openai/codex ↩↩↩
Anthropic, « Claude Code Hooks ». 26 types d’événements de cycle de vie (à partir de la v2.1.116, avril 2026). docs.anthropic.com/en/docs/claude-code/hooks ↩↩↩
Linux Foundation, « AGENTS.md Open Standard ». Agentic AI Foundation. GitHub : anthropics/agent-instructions ↩
OpenAI, docs modèle GPT-5.4. Snapshot gpt-5.4-2026-03-05. Contexte par défaut 272K ; mode long contexte expérimental jusqu’à 1 050 000 tokens lorsque model_context_window et model_auto_compact_token_limit sont définis. Sortie max 128K. Date de coupure des connaissances 31 août 2025. Multiplicateur de tarification long contexte : 2× entrée / 1,5× sortie par session lorsque l’entrée dépasse 272K, sur les niveaux standard / batch / flex. Voir aussi Introducing GPT-5.4 pour le billet de lancement (positionne GPT-5.4 comme intégrant les capacités de codage de GPT-5.3-Codex et ajoutant Computer Use natif), et les pages historiques des modèles GPT-5.3-Codex et GPT-5.2-Codex pour les variantes de la famille Codex 400K/128K toujours disponibles. ↩↩↩↩↩
Anthropic, « Claude Opus 4.7 ». Contexte de 1M tokens au tarif standard. anthropic.com/claude/opus. Voir aussi configuration de modèle Claude Code. ↩↩
OpenAI, « Codex Cloud Tasks ». Délégation codex cloud exec. platform.openai.com/docs/guides/codex ↩
OpenAI, « Codex Agent Architecture ». Modèle de threads concurrents. GitHub : openai/codex ↩
Anthropic, « Pricing ». Plan Max Claude. platform.claude.com/docs/en/about-claude/pricing ↩
OpenAI, « Codex Profiles and Policies ». Configuration. GitHub : openai/codex ↩↩
Anthropic, « Claude Code : Best practices for agentic coding ». anthropic.com/engineering/claude-code-best-practices ↩
Simon Willison, « Codex, Claude Code, and the state of agentic coding tools ». simonwillison.net ↩↩
Chiffres de benchmarks (avril 2026). Opus 4.7 depuis la page de lancement Anthropic : 87,6 % SWE-bench Verified, 64,3 % SWE-bench Pro, 69,4 % Terminal-Bench 2.0, 70 % CursorBench. Évaluations officielles de codage GPT-5.4 depuis OpenAI : Introducing GPT-5.4 : 57,7 % SWE-bench Pro, 75,1 % Terminal-Bench 2.0. SWE-bench Verified pour GPT-5.4 N’EST PAS publié sur la page officielle du modèle ni sur la page de lancement ; la couverture tierce (p. ex. l’article GPT-5.4 de NxCode) rapporte ~80 % SWE-bench Verified, que je cite comme tierce jusqu’à ce qu’OpenAI publie des chiffres officiels. GPT-5.3-Codex 56,8 % SWE-bench Pro / 77,3 % Terminal-Bench 2.0 depuis OpenAI : Introducing GPT-5.3-Codex ; le chiffre de 75,2 % SWE-bench Verified souvent cité pour GPT-5.3-Codex n’est pas sur la page de lancement officielle (attribution tierce). GPT-5.2-Codex 56,4 % SWE-bench Pro / 64,0 % Terminal-Bench 2.0 de la même source. GPT-5-Codex 74,9 % SWE-bench Verified est la référence largement citée issue du lancement original de Codex par OpenAI (également référencée sur la page développeur GPT-5 d’OpenAI) ; traitez ceci comme un plancher pour la famille Codex plutôt que comme une mesure actuelle. ↩↩
Tarification Anthropic. Tarifs officiels au token pour Opus 4.7 (5 $/25 $ par MTok), Opus 4.6 (5 $/25 $), Sonnet 4.6 (3 $/15 $), Haiku 4.5 (1 $/5 $). Multiplicateurs de caching de prompt : écriture cache 5 min 1,25×, écriture cache 1 h 2×, hit cache 0,1× entrée de base. Contexte 1M sur Opus 4.7 inclus au tarif standard (aucun surcoût long contexte). API batch : remise de 50 %. ↩↩
Tarification API OpenAI pour les tarifs au token et Tarification Codex OpenAI pour les niveaux de plan et les limites de taux sur 5 heures. GPT-5.4 au token : 2,50 $ entrée / 0,25 $ entrée en cache / 15 $ sortie par MTok ; multiplicateur long contexte 2×/1,5× au-delà de 272K entrée. Plans Codex en avril 2026 : Plus 20 $/mois, Pro 5× 100 $/mois, Pro 20× 200 $/mois (avec les boosts promo du 31 mai 2026 notés ci-dessus), Business à l’usage pour les sièges Codex-only, Enterprise/Edu contact commercial. Voir aussi les docs modèle GPT-5.4, les docs modèle GPT-5.3-Codex et les docs modèle GPT-5.2-Codex pour les fenêtres de contexte par modèle, les limites de taux et la disponibilité par niveau API. La tarification est révisée périodiquement à mesure qu’OpenAI fait tourner les variantes de modèles ; les chiffres de ce billet reflètent la grille tarifaire au 19 avril 2026. ↩↩↩
Endpoints d’exécution AWS Bedrock. Les endpoints d’exécution Bedrock publics couvrent les régions APAC (Tokyo, Séoul, Singapour, Mumbai, Sydney parmi d’autres) mais ne listent aucun endpoint d’exécution en Chine continentale ou à Hong Kong en avril 2026. Vérifiez la couverture actuelle avant de dépendre d’une région spécifique. ↩
Emplacements Google Vertex AI IA générative. Les régions Asie-Pacifique dont asia-east2 (Hong Kong) servent des endpoints d’IA générative ; la disponibilité spécifique du modèle varie selon la région et s’étend dans le temps. Consultez la page des emplacements pour la région et le modèle cibles avant de vous engager. ↩
Claude dans Microsoft Foundry. Claude est déployé via les régions Foundry standard mondiales. Azure China (21Vianet) est un cloud souverain distinct avec un catalogue de fonctionnalités distinct ; Claude n’est pas listé comme modèle Azure China au moment de la rédaction. ↩
Pays pris en charge par OpenAI n’inclut pas la Chine continentale ; OpenAI prévient que l’accès depuis des pays non pris en charge peut entraîner un blocage ou une suspension de compte. Pays pris en charge par Anthropic liste de même les marchés officiellement pris en charge ; la Chine continentale n’en fait pas partie au moment de la rédaction. Les lecteurs routant via des réseaux non continentaux devraient examiner les conditions des deux fournisseurs et leur propre posture de conformité avant de dépendre de ce chemin. ↩↩