Codex CLI vs Claude Code 2026: arquitectura, precios y acceso desde China

Tanto Codex CLI como Claude Code se lanzan como herramientas agénticas nativas de terminal, pero aplican la seguridad mediante mecanismos fundamentalmente distintos: sandboxing a nivel de kernel frente a hooks de capa de aplicación. Esa sola decisión de diseño se propaga a cómo cada herramienta gestiona la configuración, los permisos, los flujos multiagente y la gobernanza de equipos. La siguiente comparación mapea esas diferencias con criterios concretos de decisión, ampliando el territorio de ingeniería de IA que he estado construyendo en este sitio.

Uso Claude Code como mi herramienta principal. Declaro ese sesgo desde el inicio. Las observaciones aquí provienen del uso diario de ambas herramientas en tareas de producción, evaluaciones a ciegas y flujos de trabajo con ambas herramientas.

TL;DR: Codex aplica la seguridad en la capa del kernel del sistema operativo (Seatbelt, Landlock, seccomp)¹ con un control de grano grueso. Claude Code aplica la seguridad en la capa de aplicación mediante 26 eventos de hook programables² con control de grano fino. Ambas herramientas ahora funcionan con contexto grande: Claude Code sobre Opus 4.7 expone 1M de tokens al precio estándar⁵; Codex CLI sobre GPT-5.4 (el modelo frontera actual de OpenAI, lanzado el 5 de marzo de 2026, que incorpora las capacidades de codificación de GPT-5.3-Codex) expone hasta 1,05M de contexto con un máximo de salida de 128K, aunque el contexto predeterminado es 272K salvo que actives explícitamente el modo de contexto largo⁴. Usa Codex para delegación de tareas en sandbox en la nube y aislamiento a nivel de kernel. Usa Claude Code para gobernanza programable, refactorización de horizonte largo y revisión de código enfocada en seguridad. Los mejores resultados vienen de usar ambas.

Conclusiones clave

Desarrolladores en solitario: empieza con la herramienta que coincida con el ecosistema de lenguaje que más usas. Ambas herramientas coexisten en el mismo repositorio sin conflictos (CLAUDE.md y AGENTS.md son independientes).
Líderes de equipo: los perfiles de Codex ofrecen un cambio de configuración explícito y auditable. La jerarquía en capas de Claude Code aplica reglas sensibles al contexto automáticamente. Elige en función de si tu equipo prefiere el control explícito o la adaptación automática.
Ingenieros de seguridad: el sandbox a nivel de kernel de Codex impide que el agente eluda las restricciones a nivel del sistema operativo. Los hooks de Claude Code comparten un límite de proceso con el agente, pero permiten lógica de validación arbitraria. Adapta la herramienta a tu modelo de amenazas.

¿Qué herramienta deberías elegir? (rutas de decisión por persona)

La respuesta de la comparación depende de quién eres. Cuatro rutas, una para cada tipo de lector más común en esta página.

Desarrollador en solitario en proyectos personales o de equipos pequeños

Predeterminado: Claude Code. El contexto de 1M tokens en Opus 4.7 al precio estándar, el sistema de gobernanza con 26 hooks y el marketplace de plugins cubren los casos con los que los desarrolladores en solitario se encuentran a diario (refactorizaciones en bases de código grandes, continuidad de sesión, automatización de formato al guardar). Pro a 20 $/mes o Max a 100-200 $/mes es predecible y generoso.

Incorpora Codex CLI cuando: necesites sandboxing a nivel de kernel para una revisión puntual de código no confiable, o cuando ChatGPT Pro/Plus ya cubra tu gasto principal en IA y añadir Claude se sienta redundante. Ambas herramientas coexisten sin problemas; CLAUDE.md y AGENTS.md conviven lado a lado.

Líder de equipo en una organización de ingeniería de 10 a 50 personas

Predeterminado: Claude Code. Los hooks programables (gates de linting, escaneos de seguridad, bloqueos de comandos prohibidos) codifican los estándares del equipo de forma determinista en lugar de esperar que el modelo siga las instrucciones del prompt. La configuración gestionada permite al líder establecer políticas a nivel de organización que los desarrolladores individuales no pueden sobrescribir. Los primitivos claude agents CLI y Agent Teams coinciden con los patrones que los equipos realmente usan para los flujos de revisión.

Incorpora Codex CLI cuando: las revisiones sensibles a la seguridad requieran aislamiento duro a nivel de kernel (por ejemplo, revisar código de contratistas externos, PRs de código abierto de autores desconocidos), o cuando el equipo ya esté comprometido con el tooling de OpenAI vía Azure OpenAI / Microsoft Foundry. Úsalo como una herramienta de revisión enfocada, no como la herramienta del día a día.

Revisor enfocado en seguridad o investigador de red team

Predeterminado: Codex CLI (para entradas adversariales) + Claude Code (para ejecución gobernada). El sandbox de kernel de Codex en macOS Seatbelt / Linux Landlock+seccomp deniega syscalls por debajo de la capa de aplicación, de modo que un agente hostil literalmente no puede tocar áreas del sistema de archivos que no hayas permitido. El sistema de hooks de Claude Code es potente pero comparte el límite de proceso. Usa la herramienta que coincida con la amenaza.

Incorpora Claude Code cuando: quieras acciones post-revisión programables (hooks de triaje, registro de auditoría, generación automatizada de informes). El flujo típico: Codex inspecciona bajo las restricciones del sandbox, Claude Code gestiona la capa de triaje y aplicación de políticas.

Desarrollador chino o con base en China continental

Ambas herramientas funcionan, pero la conectividad y el costo dan forma a la elección más que las funciones. Salta a Acceso a Codex y Claude Code desde China antes de comprometerte.

La división arquitectónica fundamental

La diferencia más profunda entre Codex y Claude Code es dónde ocurre la gobernanza. Codex aplica la seguridad en la capa del kernel mediante Seatbelt en macOS, Landlock y seccomp en Linux¹. El sistema operativo restringe el acceso al sistema de archivos, las llamadas de red y la creación de procesos antes de que esas operaciones lleguen a la aplicación. El modelo no puede eludir estas restricciones porque el sistema operativo deniega la syscall antes de que se ejecute.

Claude Code aplica la seguridad en la capa de aplicación mediante hooks, programas que interceptan acciones en 26 puntos del ciclo de vida². Un hook PreToolUse en Bash puede inspeccionar cada comando, validarlo contra lógica arbitraria y bloquearlo con código de salida 2. El sistema de hooks ofrece gobernanza programable: codificar reglas de negocio, ejecutar linters, escanear credenciales. La compensación es que la aplicación en capa de aplicación comparte un límite de proceso con el agente. La aplicación a nivel de kernel no.

Toda arquitectura de seguridad intercambia expresividad por fortaleza del límite. Estas dos herramientas se sitúan en extremos opuestos de ese espectro, y ese posicionamiento es intencional. El sandboxing a nivel de kernel tiene sentido cuando el modelo de amenazas incluye un agente potencialmente adversarial (revisión de código malicioso, ejecución de scripts no confiables). Los hooks en capa de aplicación tienen sentido cuando el modelo de amenazas es un agente confiado en exceso pero bienintencionado (tu propio código, tu propio equipo, tus propias convenciones). La mayoría de desarrolladores necesita ambos modelos de amenazas en momentos distintos.

Filosofía de configuración

Codex usa TOML para la configuración. Claude Code usa JSON. La diferencia de formato es cosmética. La diferencia de filosofía, no.

Codex organiza la configuración en torno a perfiles, presets con nombre entre los que cambias explícitamente con --profile. Un perfil careful establece approval_policy = "untrusted" y aplica sandbox de forma agresiva⁹. Un perfil deep-review cambia a un modelo más capaz. Siempre sabes qué configuración está activa porque la seleccionaste por nombre. La capa de instrucciones usa AGENTS.md, un estándar abierto bajo la Agentic AI Foundation de la Linux Foundation³, legible por Codex, Cursor, Copilot, Amp, Windsurf y Gemini CLI.

Claude Code organiza la configuración en torno a una jerarquía en capas, cinco capas en cascada desde la configuración gestionada (máxima prioridad) pasando por línea de comandos, proyecto local, proyecto compartido y valores predeterminados del usuario. Los archivos CLAUDE.md tienen alcance a nivel de usuario, proyecto y local. Los directorios de skills, hooks y reglas añaden capas adicionales. La configuración apropiada al contexto se aplica automáticamente, pero la configuración activa no es visible desde ningún archivo único. La reconstruyes leyendo la jerarquía.

Los perfiles favorecen lo explícito y lo auditable. Puedes responder “¿qué configuración estaba activa?” revisando qué flag --profile se pasó. La jerarquía en capas favorece la automatización y la sensibilidad al contexto. El contexto adecuado se aplica automáticamente, pero responder “¿qué configuración está activa?” requiere leer hasta cinco capas y entender su orden de fusión. La compensación es real: alguna vez me ha sorprendido un CLAUDE.md a nivel de usuario que anulaba una instrucción a nivel de proyecto, lo que no ocurriría con perfiles explícitos.

Modelos de seguridad comparados

Dimensión	Codex CLI	Claude Code
Enfoque de sandbox	Nivel de kernel (Seatbelt en macOS, Landlock + seccomp en Linux)	Hooks en capa de aplicación (26 tipos de eventos de ciclo de vida)
Niveles de permiso	Tres modos de sandbox: `read-only`, `workspace-write`, `danger-full-access`	Listas granulares de allow/deny basadas en patrones por herramienta
Resistencia a escapes	Alta: el SO deniega syscalls por debajo del límite de aplicación	Moderada: los hooks comparten el límite de proceso con el agente
Programabilidad	Baja: allow/deny binario por modo de sandbox	Alta: código arbitrario en scripts de hooks (bash, Python, etc.)
Políticas de aprobación	Tres niveles: `untrusted`, `on-request`, `never`	Patrones de permiso por herramienta con coincidencia regex
Restricciones de red	El sandbox controla el acceso saliente de red	Los hooks pueden inspeccionar pero no bloquear a nivel de kernel las llamadas de red
Clase de vulnerabilidad conocida	Escape del sandbox (teórico; ninguna CVE pública reportada a marzo de 2026)	Hooks maliciosos en la configuración del proyecto (mitigado mediante prompts de confianza del proyecto)

El patrón: Codex proporciona límites más fuertes con control más grueso. Claude Code proporciona límites más débiles con control más fino¹¹. La elección correcta depende de tu modelo de amenazas. ¿Revisas código externo no confiable? Sandboxing a nivel de kernel. ¿Aplicas estándares organizativos de codificación sobre código confiable? Hooks programables.

Contexto y modelos

A abril de 2026, Codex CLI usa por defecto GPT-5.4 (lanzado el 5 de marzo de 2026, snapshot gpt-5.4-2026-03-05)⁴. GPT-5.4 es el modelo frontera de propósito general actual de OpenAI y, según el post de lanzamiento de OpenAI, incorpora las capacidades de codificación de GPT-5.3-Codex a la vez que añade Computer Use nativo y un soporte más amplio para flujos agénticos. El contexto es 272K por defecto con un modo experimental de contexto largo de 1,05M tokens que activas mediante la configuración model_context_window / model_auto_compact_token_limit. La salida tiene un tope de 128K.⁴ Los prompts de contexto largo que superan los 272K tokens de entrada se facturan a 2× entrada / 1,5× salida para esa sesión.⁴ GPT-5.3-Codex no está en desuso y sigue disponible para equipos que prefieran el perfil de costo/velocidad optimizado para codificación.

El modelo predeterminado de Claude Code depende del plan según los documentos de configuración de modelos de Anthropic⁵: Max y Team Premium usan por defecto Opus 4.7 (lanzado el 16 de abril de 2026); Pro, Team Standard, Enterprise y Anthropic API pay-per-token usan por defecto Sonnet 4.6, con Enterprise y API migrando a Opus 4.7 el 23 de abril de 2026. Opus 4.7 expone una ventana de contexto de 1M tokens al precio estándar cuando se usa (sin recargo por contexto largo). Los modelos predeterminados y los límites de contexto de ambos proveedores cambian entre versiones; consulta la página de cada proveedor para ver los valores vigentes.

Ambas herramientas ahora gestionan bien el contexto grande. Claude Code alcanza 1M en Opus 4.7 al precio estándar, sin recargo. Codex CLI sobre GPT-5.4 alcanza 1,05M con el modo de contexto largo activado, facturado con el multiplicador 2×/1,5× cuando cruzas los 272K de entrada. Para la ingesta de un monorepo, la diferencia práctica se ha reducido; la calidad de recuperación (qué tan bien cada herramienta encuentra el código relevante) importa más que el tamaño bruto de la ventana en la mayoría de los proyectos.

En los benchmarks públicos a abril de 2026, Opus 4.7 lidera en SWE-bench Verified (87,6% frente al 74,9% del baseline de GPT-5-Codex), SWE-bench Pro (64,3% frente al 57,7% oficial de GPT-5.4 y al 56,8% de GPT-5.3-Codex) y CursorBench (70% frente al 58% de Opus 4.6)¹². En Terminal-Bench 2.0, Opus 4.7 obtiene 69,4%; GPT-5.4 con 75,1% y GPT-5.3-Codex con 77,3% lideran ahí¹². La puntuación de GPT-5.4 en SWE-bench Verified no está publicada en la página oficial del modelo ni en la del lanzamiento al momento de escribir; la cobertura de terceros reporta una cifra cercana al 80%, pero trata con cautela los números no publicados por el proveedor. El liderazgo en benchmarks oscila entre lanzamientos; consulta las páginas de los proveedores antes de comprometerte. En mis evaluaciones a ciegas con una versión anterior de Opus, este superó en tareas de revisión y seguridad incluso con un contexto más pequeño, y el mismo patrón se mantiene a 1M.

Ambas herramientas admiten enrutamiento de modelo. Codex selecciona modelos por perfil⁹. El valor predeterminado de Claude Code depende del plan descrito arriba (Opus 4.7 en Max y Team Premium, Sonnet 4.6 en Pro y Team Standard y Enterprise y API, con Enterprise más API migrando a Opus 4.7 el 23 de abril de 2026), y cada invocación puede sobrescribir mediante --model o configuración a nivel de settings.

Precios en profundidad

Los precios se dividen en tres patrones: facturación por token en API, suscripciones que incluyen uso de CLI agéntico y facturación por proveedor de nube vía AWS / GCP / Azure. La ruta más barata depende del volumen diario de tokens, no del precio de la etiqueta.

Precios de Claude Code (abril de 2026)

Por token (Anthropic API):¹³

Modelo	Entrada ($/MTok)	Salida ($/MTok)	Lectura de caché ($/MTok)	Escritura de caché 5 min ($/MTok)	Escritura de caché 1 hora ($/MTok)
Claude Opus 4.7	$5,00	$25,00	$0,50	$6,25	$10,00
Claude Opus 4.6	$5,00	$25,00	$0,50	$6,25	$10,00
Claude Sonnet 4.6	$3,00	$15,00	$0,30	$3,75	$6,00
Claude Haiku 4.5	$1,00	$5,00	$0,10	$1,25	$2,00

Sin recargo por contexto largo: la ventana de 1M tokens de Opus 4.7 está tarifada al precio estándar. La API Batch ofrece un 50% de descuento en entrada y salida.¹³

Suscripciones que incluyen Claude Code:⁸

Plan	Mensual	Perfil de uso de Claude Code
Pro	$20	Límites diarios generosos; alcanza gating de uso extra bajo carga agéntica intensa sostenida
Max 5x	$100	5× el uso de Claude de Pro; límite típico de uso diario para desarrolladores en solitario
Max 20x	$200	20× el uso de Pro; cubre la mayoría de días de refactorización intensa para un solo desarrollador
Team Standard	$30/usuario	Por asiento con controles de administración compartidos
Team Premium	$150/usuario	Incluye Opus 4.7 por defecto en todos los asientos
Enterprise	personalizado	Por asiento con política gestionada, SSO y auditoría

Los precios por proveedor de nube siguen las tarifas de lista de AWS Bedrock / Google Vertex AI / Microsoft Foundry, que se ajustan bastante a la API directa de Anthropic pero con diferencias de disponibilidad regional y residencia de datos.

Precios de Codex CLI (abril de 2026)

Por token (API de OpenAI):¹⁴

Los precios cambian a medida que OpenAI rota sus variantes de modelo; estas son las tarifas verificadas al 19 de abril de 2026.

Modelo	Entrada ($/MTok)	Entrada en caché ($/MTok)	Salida ($/MTok)	Contexto / Salida máx
GPT-5.4 (predeterminado actual)	$2,50	$0,25	$15,00	1.050.000 ctx / 128K salida
GPT-5.3-Codex	ver precios de OpenAI	N/D	ver precios de OpenAI	400K entrada / 128K salida
GPT-5.2-Codex	ver precios de OpenAI	N/D	ver precios de OpenAI	400K entrada / 128K salida
GPT-5	varía por tier	N/D	varía	hasta 400K entrada

Los prompts de contexto largo en GPT-5.4 (más de 272K tokens de entrada) se facturan a 2× entrada y 1,5× salida para esa sesión, en los tiers standard, batch y flex.⁴

Suscripciones que incluyen Codex:

ChatGPT Plus (20 $/mes), Pro (100 $/mes para 5×, 200 $/mes para 20×) y Business (asientos pay-as-you-go solo para Codex, o asientos estándar de ChatGPT Business con límites de uso de Codex) incluyen uso de la familia Codex con topes específicos por plan. Pro 5× obtiene un boost temporal de uso a 10× Plus hasta el 31 de mayo de 2026; los límites de Codex a 5 horas de Pro 20× funcionan a 25× Plus durante la misma ventana promocional. GPT-5.4, GPT-5.3-Codex y GPT-5.2-Codex están todos disponibles vía la API de OpenAI con precios por token publicados y límites de tasa para los tiers de API soportados (tier gratuito no soportado).¹⁴ Los equipos que solo usan API se saltan la suscripción por completo; usa suscripciones de ChatGPT cuando el uso de Codex incluido más la superficie más amplia de chat sean la mejor opción para el equipo.

Cuánto cuesta realmente el contexto de 1M de Opus 4.7

La pregunta práctica: “si alimento a Opus 4.7 con una base de código de 1M tokens, ¿cuál es la factura?”

Una pasada de contexto completo con una respuesta de 10K tokens: - Entrada: 1.000.000 tokens × $5,00/MTok = $5,00 - Salida: 10.000 tokens × $25,00/MTok = $0,25 - Total (sin caché): $5,25 por pasada

Con caché de prompt de 5 minutos sobre la base de código de 1M tokens (asumiendo una única escritura de caché, con lecturas repetidas para seguimientos): - Primera escritura: 1.000.000 × $6,25/MTok = $6,25 (una sola vez) - Cada lectura posterior en 5 min: 1.000.000 × $0,50/MTok + 10.000 de salida × $25/MTok = $0,75 - Cinco lecturas en una sesión: $6,25 + (5 × $0,75) = $10,00 por cinco pasadas de contexto completo

Ejemplo en CNY usando una tasa de referencia de 1 USD ≈ 6,82 CNY (la paridad central del PBOC se agrupó en el rango 6,82-6,90 alrededor de abril de 2026): ~¥68,20 por cinco sesiones de Opus 4.7 de contexto completo sobre una base de código de 1M tokens. El tipo de cambio se mueve; verifica la tasa actual antes de citarla en una compra. El cálculo, no la cifra exacta en CNY, es lo que importa para el presupuesto.

Los cálculos equivalentes con el modo de contexto largo de GPT-5.4: - Entrada: 1.000.000 tokens × ($2,50 base × 2 multiplicador de contexto largo) = $5,00 - Salida: 10.000 tokens × ($15,00 base × 1,5 multiplicador de contexto largo) = $0,225 - Total (sin caché): $5,23 por pasada — dentro del 1% del precio sin caché de Opus 4.7 a 1M de contexto completo

En GPT-5.2-Codex (tope de entrada de 400K), necesitarías al menos tres pasadas para ingerir esa misma base de código de 1M, lo que cambia el perfil de costo a nivel de sesión. La mayoría de los equipos de desarrollo chinos no necesitan el contexto completo de 1M a diario, por lo que la comparación realista pasa por tamaños de sesión típicos (50K-200K tokens) donde ambas herramientas cuestan menos de 1 $ por sesión.

Cuándo las suscripciones superan al pago por token

Heurística aproximada (no una cuota de tokens publicada, ya que Anthropic no la publica): el uso interactivo ligero cabe cómodamente en Pro; los flujos agénticos diarios más pesados en Opus 4.7 empujan hacia Max 5x o Max 20x; las cargas sostenidas de contexto completo (más de 5 $/sesión) pueden resultar más baratas con pay-per-token y caché agresiva de prompts que con una suscripción con tope. Ejecuta una semana representativa en Pro, revisa tu dashboard de uso de Claude y sube de tier según sea necesario en lugar de adivinar con una fórmula. Los equipos hacen las mismas cuentas por usuario, más el costo administrativo, de políticas y de SSO que absorbe el tier Enterprise.

Acceso a Codex y Claude Code desde China

El acceso a las API de primera parte de OpenAI y Anthropic no está oficialmente soportado desde China continental según las listas de países soportados publicadas por cada proveedor.¹⁸ A veces los desarrolladores enrutan a través de redes y cuentas de fuera del continente para sortear esto, pero hacerlo conlleva riesgos de suspensión de cuenta y de cumplimiento que debes sopesar contra el caso de productividad que estés planteando. Los binarios de CLI se instalan y ejecutan localmente una vez descargados; el comportamiento del loop del agente en el día a día es el mismo en todas partes. El enrutamiento por proveedor de nube es donde están las rutas legítimas.

Disponibilidad regional de AWS Bedrock

Los modelos Claude de Anthropic se sirven a través de Amazon Bedrock en regiones específicas de AWS. A abril de 2026, los endpoints públicos de runtime de Bedrock cubren regiones APAC, incluidas Tokio, Seúl, Singapur, Bombay y Sídney, pero ningún endpoint de runtime de Bedrock opera actualmente en China continental o Hong Kong.¹⁵ Los clientes chinos que enrutan a través de AWS suelen usar Singapur o Tokio con el costo de latencia asociado.

Disponibilidad regional de Google Vertex AI

Google Cloud ofrece endpoints de IA generativa de Vertex AI en regiones de Asia-Pacífico.¹⁶ La disponibilidad específica de modelos Claude varía por región, y asia-east2 (Hong Kong) ha ofrecido históricamente menor latencia para usuarios del sur de China. Verifica la disponibilidad del modelo Claude en la región de Vertex que elijas antes de comprometerte; la cobertura se expande con el tiempo pero no es uniforme en toda APAC.

Microsoft Foundry

Claude está disponible a través de Microsoft Foundry en el despliegue standard global de Azure, que normalmente requiere suscripciones elegibles Enterprise / MCA-E. Claude no está documentado públicamente como disponible en Azure China (operado por 21Vianet), que es una nube soberana separada con un catálogo de servicios distinto. Los clientes chinos que usan Foundry enrutan a través de la huella global de Azure en lugar de Azure China.¹⁷

OpenAI Codex desde China

La lista de países soportados de OpenAI no incluye China continental; OpenAI advierte que el acceso desde regiones no soportadas puede provocar bloqueo o suspensión de cuenta.¹⁸ Azure OpenAI está disponible en regiones globales específicas (no Azure China), y las empresas chinas que buscan un acceso conforme a normativa suelen enrutar a través de Azure OpenAI en una región permitida con los términos contractuales adecuados en lugar de intentar usar la API directa de OpenAI.

Alternativas de modelos de proveedores chinos

DeepSeek, Qwen (Alibaba) y Kimi (Moonshot) son alternativas a nivel de modelo que los equipos chinos evalúan por razones de costo y latencia. Estos son modelos, no CLIs agénticas. Emparejarlas con Claude Code requiere un adaptador o gateway compatible con la API de Anthropic (Claude Code espera la forma de solicitud/respuesta de Anthropic; ANTHROPIC_BASE_URL apunta a endpoints compatibles con Anthropic, no compatibles con OpenAI). Codex admite enrutamiento de modelos a nivel de perfil pero de forma similar espera respuestas compatibles con OpenAI. Ninguna de las herramientas expone soporte de primera clase para DeepSeek/Qwen/Kimi; el camino es una capa de adaptador que traduzca entre la forma de API del proveedor y lo que la CLI espera. Las preguntas de compra, latencia y residencia de datos las responden bien estos modelos. Las preguntas de corrección del loop del agente y madurez del tool-calling siguen siendo mejor atendidas por los modelos frontera Claude y GPT para los que se afinaron estas CLIs.

Capacidades multiagente

Codex ofrece delegación de tareas en la nube mediante codex cloud exec⁶. Describes una tarea, Codex levanta un entorno en la nube, ejecuta el agente contra tu base de código y devuelve un diff. No monitorizas el razonamiento del agente en tiempo real; defines la tarea por adelantado y recoges los resultados después. La delegación en la nube encaja de forma natural con pipelines CI/CD y procesamiento por lotes. Internamente, Codex admite hilos de agente concurrentes para la ejecución de subtareas en paralelo⁷ (hasta 6 en la versión actual, aunque este límite puede cambiar).

Claude Code ofrece la generación explícita de subagentes mediante la herramienta Task¹⁰. El agente padre crea subagentes con tareas específicas y contexto aislado, coordina resultados y sintetiza salidas. La creación de subagentes habilita la orquestación interactiva: ves el razonamiento y puedes intervenir. Combinado con patrones de deliberación en los que varios agentes critican las salidas de los demás, la orquestación interactiva captura problemas que los modelos de disparar-y-olvidar pasan por alto.

Las tareas en la nube se adaptan a flujos de trabajo donde defines la tarea por adelantado y quieres los resultados después. La coordinación de subagentes se adapta a flujos de trabajo donde la tarea evoluciona a través del razonamiento y requiere síntesis en tiempo real.

El espectro de confianza

Antes de ver la matriz de decisión, considera dónde cae tu tarea en el espectro de confianza. Toda tarea de codificación agéntica implica una decisión implícita de confianza: ¿cuánto confías en el criterio del agente para esta tarea concreta?

Baja confianza (usa Codex): estás revisando código que no escribiste, ejecutando scripts de fuentes externas o delegando trabajo a un entorno en la nube que no puedes monitorizar en tiempo real. El agente podría encontrar entradas adversariales. Quieres que el SO aplique los límites independientemente de lo que el modelo decida.

Confianza media (usa cualquiera): trabajas sobre tu propia base de código con patrones conocidos. El agente puede cometer errores, pero son errores de exceso de confianza, no de malicia. Quieres revisar los cambios antes de que entren, pero no necesitas aislamiento a nivel de kernel.

Alta confianza (usa Claude Code): has construido guardarraíles mediante hooks, instrucciones de CLAUDE.md y permisos en allowlist. El agente opera dentro de un entorno gobernado que diseñaste. Confías en la capa de gobernanza lo suficiente como para aprobar acciones de forma selectiva en lugar de restringirlas en bloque.

La mayoría de los desarrolladores opera en confianza media la mayor parte del tiempo, razón por la cual el flujo con ambas herramientas funciona: Codex gestiona las tareas de baja confianza donde brilla su sandbox, y Claude Code gestiona las tareas de confianza media-alta donde los hooks programables añaden más valor que las restricciones del kernel.

Marco de decisión

Una matriz concreta de decisión basada en necesidades específicas:

Si necesitas…	Mejor opción	Por qué
Sandboxing a nivel de kernel	Codex	La aplicación a nivel de SO no puede ser eludida por el agente
Hooks de gobernanza programables	Claude Code	26 eventos de ciclo de vida con ejecución de código arbitrario
Portabilidad entre herramientas (AGENTS.md)	Codex	Estándar abierto que funciona en Codex, Cursor, Copilot, Amp, Windsurf
Refactorización profunda en varios archivos	Claude Code	Opus sobresale al mantener contexto arquitectónico en sesiones largas
Tareas en la nube de disparar-y-olvidar	Codex	`codex cloud exec` delega en la infraestructura en la nube y devuelve diffs
Razonamiento interactivo en tiempo real	Claude Code	Pensamiento extendido + coordinación de subagentes con visibilidad en vivo
Revisión de código externo no confiable	Codex	`--sandbox read-only` impide todas las mutaciones del sistema de archivos
Aplicación de estándares de codificación del equipo	Claude Code	Los hooks codifican y aplican la lógica de negocio de forma determinista
Ingesta de monorepos grandes	Prácticamente empatados	Opus 4.7 lleva a Claude Code a 1M al precio estándar; Codex CLI sobre GPT-5.4 alcanza 1,05M con el modo de contexto largo (facturado 2×/1,5× sobre 272K de entrada), así que ambos gestionan ahora monorepos
Revisión de código enfocada en seguridad	Claude Code	Opus superó en mi serie de evaluaciones a ciegas en tareas de revisión

Ninguna herramienta domina esta matriz. El patrón subyacente es más simple de lo que sugieren las diez filas: Codex sobresale cuando necesitas límites duros, y Claude Code sobresale cuando necesitas lógica programable. Si estás ejecutando código no confiable, revisando contribuciones externas o delegando a un entorno en la nube que no puedes monitorizar, los límites duros importan más. Si estás aplicando convenciones de equipo, orquestando flujos multipaso o construyendo guardarraíles que codifican reglas de negocio, la lógica programable importa más. Si más de tres de tus necesidades apuntan a una herramienta, empieza ahí. Si la división es pareja, considera el flujo con ambas herramientas.

Mi recomendación

Usa ambas. Ejecuté tareas idénticas de revisión de código a través de ambas herramientas en 12 categorías de tareas (documentado en mi serie de evaluaciones a ciegas) y descubrí que ninguna herramienta por sí sola captura todo. Un ejemplo concreto: durante una revisión de autenticación en FastAPI, Opus señaló un canal lateral por tiempo en la función de comparación de contraseñas. La comparación usaba el operador == de Python en lugar de hmac.compare_digest(), creando un oráculo por tiempo¹¹. Codex pasó por alto ese problema por completo. Sobre la misma base de código, el sandbox de Codex capturó un vector SSRF en un endpoint de fetch de URL donde URLs suministradas por el usuario podían alcanzar servicios internos. Opus había aprobado el endpoint porque la validación de entrada parecía correcta a nivel de aplicación, pero el sandbox del kernel marcó la solicitud de red saliente hacia un rango de IP interno. Modelos distintos entrenados con datos distintos capturan clases distintas de vulnerabilidad. Ejecutar ambas cuesta aproximadamente 2x por revisión, pero captura significativamente más problemas en código sensible a la seguridad.

Mi flujo diario se divide por tipo de tarea:

Claude Code gestiona la implementación de funcionalidades, la revisión de código y las refactorizaciones multiarchivo. Los hooks aplican el formato, bloquean comandos peligrosos y ejecutan pruebas tras cada edición. El modelo de subagentes interactivos funciona bien para tareas que evolucionan mediante el razonamiento.
Codex gestiona la revisión de código no confiable con --sandbox read-only (reviso PRs externos y dependencias en el sandbox del kernel), tareas por lotes delegadas a la nube vía codex cloud exec y segundas opiniones de arquitectura donde la perspectiva de un modelo distinto detecta puntos ciegos.

CLAUDE.md y AGENTS.md coexisten en el mismo repositorio sin conflictos. La sobrecarga de mantenimiento se mantiene mínima porque ambos archivos comparten la mayor parte del contenido. Mantengo una sección compartida de convenciones y la copio en ambos.

Cuándo no usar ninguna herramienta. Ni Codex ni Claude Code son la elección correcta cuando necesitas determinismo garantizado. Ambas herramientas son probabilísticas: el mismo prompt puede producir salidas diferentes entre ejecuciones. Si tu flujo de trabajo requiere reproducibilidad exacta (p. ej., generar archivos de configuración que deben coincidir con un esquema byte a byte), usa un motor de plantillas o un generador de código. Las herramientas agénticas son más fuertes cuando la tarea requiere criterio, y más débiles cuando la tarea requiere precisión sin criterio.

Para la comparación completa con la metodología de evaluación a ciegas y los resultados en 12 categorías de tareas, consulta Claude Code vs Codex: cuándo usar cuál. Para empezar con cada una por separado, consulta la guía de Claude Code o la guía de Codex. Para un recorrido práctico por el sistema de hooks que impulsa la capa de gobernanza de Claude Code, consulta el tutorial de hooks.

Referencias

FAQ

¿Puedo usar Codex y Claude Code en el mismo proyecto?

Sí. CLAUDE.md y AGENTS.md son archivos separados que cada herramienta lee de forma independiente. Ninguna de las herramientas parsea el archivo de instrucciones de la otra. Los archivos de configuración no entran en conflicto. Mantengo ambos en todos los proyectos activos. La única consideración es mantener el contenido compartido sincronizado entre los archivos de instrucciones, lo que lleva minutos ya que los formatos son similares.

¿Cuál es más barato para uso diario?

Consulta la sección completa de Precios en profundidad arriba. Versión rápida: Claude Code tiene precios por token en la API de Anthropic más una escalera de suscripciones (Pro 20 $, Max 5x 100 $, Max 20x 200 $, Team 30 $/usuario, Team Premium 150 $/usuario). Codex CLI tiene precios por token en la API de OpenAI para GPT-5.4 ($2,50 entrada / $15 salida por MTok, multiplicadores 2×/1,5× sobre 272K entrada) y la familia GPT-5.3-Codex / GPT-5.2-Codex, más las inclusiones de ChatGPT Plus/Pro. La eficiencia en tokens varía según el tipo de tarea; para trabajo sensible al presupuesto, ejecuta una tarea representativa a través de ambas y compara los cargos reales. Los precios por token difieren entre proveedores, por lo que los recuentos brutos de tokens no se traducen directamente al costo.

¿Cuál gestiona mejor las bases de código grandes?

Ambas gestionan bien repositorios grandes. Tras el lanzamiento de Opus 4.7 en abril de 2026, Claude Code alcanza 1M tokens al precio estándar. Codex CLI sobre GPT-5.4 alcanza 1,05M tokens con el modo de contexto largo activado (multiplicadores 2×/1,5× entrada/salida sobre 272K de entrada); el contexto predeterminado es 272K salvo que optes por el tier de contexto largo. Ninguna de las herramientas lee toda tu base de código a la vez; ambas se apoyan en la recuperación para el trabajo del día a día (búsqueda en la base de código en Claude Code, carga inicial en capas con CLAUDE.md; descubrimiento de archivos basado en embeddings en Codex). El tamaño bruto de la ventana importa más cuando razonas sobre relaciones entre muchos archivos en un solo turno, y para eso ambas herramientas ahora cumplen.

¿Codex CLI se ejecuta localmente o en la nube?

Ambos, pero no en el mismo modo. Codex CLI se ejecuta localmente por defecto, el mismo patrón que cualquier herramienta de terminal.¹ La delegación en la nube es un flujo separado mediante codex cloud exec o Codex Cloud, que ejecuta tu tarea en un contenedor sobre infraestructura alojada por OpenAI y devuelve un diff. Codex Cloud es lo que la gente suele querer decir cuando dice “sandbox de Codex”; el sandboxing local de Codex CLI es la ruta a nivel de kernel con Seatbelt / Landlock descrita en la sección de Modelos de seguridad arriba.

¿Puedo acceder a Claude Code y Codex desde China continental?

El acceso a las API de primera parte de OpenAI y Anthropic no está oficialmente soportado desde China continental. Los binarios de CLI se instalan y ejecutan localmente, pero enrutar tráfico a las APIs de primera parte desde China continental puede causar suspensión de cuenta o problemas de cumplimiento. Las rutas legítimas van a través de Azure OpenAI (regiones globales específicas no-China), AWS Bedrock (las regiones públicas APAC más cercanas, incluidas Tokio, Seúl, Singapur, Bombay y Sídney; sin endpoint de runtime en China continental ni Hong Kong), Google Vertex AI (asia-east2 Hong Kong y otras regiones APAC con salvedades de disponibilidad por modelo) y Microsoft Foundry en Azure global (no Azure China) para Claude. Consulta Acceso a Codex y Claude Code desde China arriba para los detalles.

¿Cómo afectan los comentarios o el código en chino al uso de tokens?

Los caracteres chinos tokenizan de forma distinta al inglés. El tokenizador de Claude trata la mayoría de los caracteres chinos como un token cada uno, lo que significa que el código fuente en chino suele ser más eficiente en tokens que el equivalente en inglés por línea, pero menos eficiente por carácter (un token cubre un carácter en lugar de una palabra inglesa de 4 a 6 caracteres). Codex (familia GPT) usa un enfoque similar. El efecto práctico: espera recuentos de tokens aproximadamente comparables para contenido equivalente de comentarios / docstrings en cualquiera de los dos idiomas, con el comportamiento por token dominado por la estructura del código más que por la proporción de lenguaje natural.

¿Puedo usar Claude Code o Codex CLI con DeepSeek, Qwen o Kimi como modelo de respaldo?

Solo vía un adaptador o gateway. Claude Code espera la forma de solicitud/respuesta de la API de Anthropic (ANTHROPIC_BASE_URL apunta a endpoints compatibles con Anthropic); Codex espera la forma de OpenAI. DeepSeek / Qwen / Kimi publican cada uno sus propias APIs que necesitan traducción antes de que una sesión de Claude Code o de Codex CLI pueda manejarlas. Existen proyectos de adaptador de la comunidad pero no son de primera clase, y los dialectos de tool-calling y de caché de prompts que usa cada proveedor difieren lo suficiente como para que los loops agénticos multiturno se rompan a menudo. DeepSeek / Qwen / Kimi son opciones creíbles para generación de código de un solo disparo a través de un harness de shell separado, y para revisión de archivos individuales a sus precios nativos. La corrección completa del loop agéntico y la fiabilidad del tool-calling siguen viniendo de los modelos frontera Claude y GPT para los que se afinaron estas CLIs.

¿Cuál es la diferencia entre Codex CLI y las funciones Codex de ChatGPT?

Codex CLI es la herramienta de terminal en github.com/openai/codex. “Codex” dentro de ChatGPT se refiere a la misma familia de modelos expuesta a través de las apps web/desktop/móvil de ChatGPT con distintas affordances de UI (delegación de tareas en la nube, resultados asíncronos, integración con el historial de ChatGPT). CLI y ChatGPT comparten los modelos subyacentes; el flujo de trabajo y la gestión del contexto difieren. Si tu pregunta es “¿qué herramienta debería instalar en mi laptop?”, te refieres a Codex CLI.

¿Necesito una suscripción de ChatGPT para usar Codex CLI?

No, aunque ayuda con el costo. Codex CLI funciona con una clave independiente de la API de OpenAI facturada por token. ChatGPT Plus o Pro incluyen algo de uso de Codex (consulta la página de suscripción vigente de ChatGPT para los topes).¹⁴ Para desarrolladores chinos, la facturación directa de la API mediante una cuenta de OpenAI suele ser la ruta más limpia que el enrutamiento por suscripción de ChatGPT a través de los rieles de pago de China continental.

¿Cuál es el número real de hooks en Claude Code?

26 eventos de ciclo de vida a v2.1.116 (abril de 2026).² El número fue creciendo con el tiempo, por lo que los posts de febrero que citan 17 eventos están desactualizados. Adiciones principales a lo largo de 2026: PostToolUseFailure, SubagentStart, TeammateIdle, TaskCompleted, PermissionRequest, PermissionDenied, PreCompact / PostCompact, Elicitation / ElicitationResult, StopFailure, TaskCreated, CwdChanged, FileChanged, InstructionsLoaded, ConfigChange, WorktreeCreate / WorktreeRemove y Setup.

¿Cuándo se lanzó Opus 4.7 y cómo cambia esta comparación?

16 de abril de 2026. Es el primer lanzamiento GA de Opus post-Glasswing de Anthropic y se entrega con salvaguardas cibernéticas explícitas. La comparación práctica cambia: Claude Code ahora alcanza 1M tokens al precio estándar (Opus 4.7 incluido, sin recargo por contexto largo), el liderazgo en SWE-bench Verified pasa a Opus 4.7 con 87,6% sobre el baseline del 74,9% de GPT-5-Codex, y el liderazgo en Terminal-Bench 2.0 se inclina en la dirección opuesta. GPT-5.4 lidera ahí con 75,1% y GPT-5.3-Codex con 77,3% frente al 69,4% de Opus 4.7. El liderazgo en benchmarks es fluido; trata cualquier resultado único como una medida puntual en el tiempo. Consulta la sección de Contexto y modelos arriba para los números completos.

OpenAI, “Codex CLI: Sandbox Architecture.” Seatbelt (macOS), Landlock y seccomp (Linux). GitHub: openai/codex ↩↩↩
Anthropic, “Claude Code Hooks.” 26 tipos de eventos de ciclo de vida (a v2.1.116, abril de 2026). docs.anthropic.com/en/docs/claude-code/hooks ↩↩↩
Linux Foundation, “AGENTS.md Open Standard.” Agentic AI Foundation. GitHub: anthropics/agent-instructions ↩
OpenAI, documentación del modelo GPT-5.4. Snapshot gpt-5.4-2026-03-05. Contexto predeterminado 272K; modo experimental de contexto largo hasta 1.050.000 tokens cuando se configuran model_context_window y model_auto_compact_token_limit. Salida máxima 128K. Corte de conocimiento 31 de agosto de 2025. Multiplicador de precio de contexto largo: 2× entrada / 1,5× salida por sesión cuando la entrada supera los 272K, en los tiers standard / batch / flex. Consulta también Introducing GPT-5.4 para el post de lanzamiento (posiciona GPT-5.4 como incorporando las capacidades de codificación de GPT-5.3-Codex y añadiendo Computer Use nativo), y las páginas históricas de modelo GPT-5.3-Codex y GPT-5.2-Codex para las variantes 400K/128K de la familia Codex que siguen disponibles. ↩↩↩↩↩
Anthropic, “Claude Opus 4.7.” Contexto de 1M tokens al precio estándar. anthropic.com/claude/opus. Consulta también configuración de modelos de Claude Code. ↩↩
OpenAI, “Codex Cloud Tasks.” Delegación codex cloud exec. platform.openai.com/docs/guides/codex ↩
OpenAI, “Codex Agent Architecture.” Modelo de hilos concurrentes. GitHub: openai/codex ↩
Anthropic, “Pricing.” Plan Max de Claude. platform.claude.com/docs/en/about-claude/pricing ↩
OpenAI, “Codex Profiles and Policies.” Configuración. GitHub: openai/codex ↩↩
Anthropic, “Claude Code: Best practices for agentic coding.” anthropic.com/engineering/claude-code-best-practices ↩
Simon Willison, “Codex, Claude Code, and the state of agentic coding tools.” simonwillison.net ↩↩
Números de benchmark (abril de 2026). Opus 4.7 desde la página de lanzamiento de Anthropic: 87,6% SWE-bench Verified, 64,3% SWE-bench Pro, 69,4% Terminal-Bench 2.0, 70% CursorBench. Evaluaciones oficiales de codificación de GPT-5.4 desde OpenAI: Introducing GPT-5.4: 57,7% SWE-bench Pro, 75,1% Terminal-Bench 2.0. GPT-5.4 SWE-bench Verified NO está publicado en la página oficial del modelo ni en la página de lanzamiento; la cobertura de terceros (p. ej. el artículo de NxCode sobre GPT-5.4) reporta ~80% SWE-bench Verified, que cito como de terceros hasta que OpenAI publique cifras oficiales. GPT-5.3-Codex 56,8% SWE-bench Pro / 77,3% Terminal-Bench 2.0 desde OpenAI: Introducing GPT-5.3-Codex; la cifra de 75,2% SWE-bench Verified citada a menudo para GPT-5.3-Codex no está en la página oficial de lanzamiento (atribución de terceros). GPT-5.2-Codex 56,4% SWE-bench Pro / 64,0% Terminal-Bench 2.0 desde la misma fuente. GPT-5-Codex 74,9% SWE-bench Verified es el baseline ampliamente citado del lanzamiento original de Codex de OpenAI (también referenciado en la página para desarrolladores de GPT-5 de OpenAI); trátalo como un suelo para la familia Codex en lugar de una medida actual. ↩↩
Precios de Anthropic. Tarifas oficiales por token para Opus 4.7 ($5/$25 por MTok), Opus 4.6 ($5/$25), Sonnet 4.6 ($3/$15), Haiku 4.5 ($1/$5). Multiplicadores de caché de prompt: escritura de caché de 5 min 1,25×, escritura de caché de 1 hora 2×, hit de caché 0,1× entrada base. Contexto de 1M en Opus 4.7 incluido al precio estándar (sin recargo por contexto largo). API Batch: 50% de descuento. ↩↩
Precios de la API de OpenAI para tarifas por token y precios de OpenAI Codex para tiers de plan y límites de tasa a 5 horas. GPT-5.4 por token: $2,50 entrada / $0,25 entrada en caché / $15 salida por MTok; multiplicador 2×/1,5× de contexto largo sobre 272K entrada. Planes de Codex a abril de 2026: Plus 20 $/mes, Pro 5× 100 $/mes, Pro 20× 200 $/mes (con los boosts promocionales del 31 de mayo de 2026 indicados arriba), Business pay-as-you-go para asientos solo de Codex, Enterprise/Edu contactar con ventas. Consulta también la documentación del modelo GPT-5.4, la documentación del modelo GPT-5.3-Codex y la documentación del modelo GPT-5.2-Codex para ventanas de contexto por modelo, límites de tasa y disponibilidad por tier de API. El precio se revisa periódicamente a medida que OpenAI rota las variantes de modelo; los números de este post reflejan el rate card al 19 de abril de 2026. ↩↩↩
Endpoints de runtime de AWS Bedrock. Los endpoints públicos de runtime de Bedrock cubren regiones APAC (Tokio, Seúl, Singapur, Bombay, Sídney, entre otros) pero no listan ningún endpoint de runtime en China continental o Hong Kong a abril de 2026. Verifica la cobertura vigente antes de depender de cualquier región específica. ↩
Ubicaciones de IA generativa de Google Vertex AI. Las regiones de Asia-Pacífico, incluida asia-east2 (Hong Kong), sirven endpoints de IA generativa; la disponibilidad específica del modelo varía por región y se expande con el tiempo. Consulta la página de ubicaciones para la región y el modelo objetivo antes de comprometerte. ↩
Claude en Microsoft Foundry. Claude se despliega a través de regiones standard globales de Foundry. Azure China (21Vianet) es una nube soberana separada con un catálogo de funciones distinto; Claude no está listado como modelo de Azure China al momento de escribir. ↩
Los países soportados de OpenAI no incluyen China continental; OpenAI advierte que el acceso desde países no soportados puede provocar bloqueo o suspensión de cuenta. Los países soportados de Anthropic listan de forma similar los mercados oficialmente soportados; China continental no está entre ellos al momento de escribir. Los lectores que enruten a través de redes fuera del continente deben revisar los términos de ambos proveedores y su propia postura de cumplimiento antes de depender de esa ruta. ↩↩