Claude Code vs Codex CLI 2026: Referencia para decidir
Uso Claude Code como mi herramienta de desarrollo principal. Vale la pena dejarlo claro desde el inicio, porque la mejor escritura comparativa surge de conocer una herramienta a fondo y probar la otra con honestidad. Tras 36 duelos a ciegas (en los que ejecuté tareas idénticas en ambas herramientas y puntué los resultados sin saber cuál los había producido 1) y cientos de sesiones con ambas, he descubierto que la respuesta a “¿cuál es mejor?” es, genuinamente, “depende de la tarea”.
Claude Code es mejor para refactorizaciones profundas, revisión de código y gobernanza programable a través de 26 tipos de hooks de ciclo de vida; Codex CLI es mejor para sandboxing a nivel de kernel y portabilidad entre herramientas mediante AGENTS.md. Claude Code aplica la seguridad en la capa de aplicación con hooks que tú mismo escribes, mientras que Codex la aplica en la capa del kernel del sistema operativo, donde el modelo no puede eludir las restricciones. Elige Claude Code para razonamiento complejo entre múltiples archivos y flujos de trabajo personalizables. Elige Codex para aislamiento máximo e instrucciones de agente estandarizadas que funcionan en 8+ herramientas.
TL;DR
Claude Code y Codex CLI resuelven el mismo problema (desarrollo asistido por IA) con arquitecturas fundamentalmente distintas. Claude Code gobierna mediante hooks: 26 tipos de eventos de ciclo de vida que aplican políticas de forma determinista 2. Codex gobierna mediante sandboxing: restricciones del kernel del sistema operativo por debajo de la capa de aplicación 3. Ninguno de los dos enfoques es estrictamente superior.
Claude Code superó a Codex de forma consistente en revisión de código y verificación de seguridad. Codex ofrece ventajas genuinas en sandboxing, portabilidad entre herramientas vía AGENTS.md y delegación de tareas a la nube.
Decisión rápida: ¿Necesitas sandboxing a nivel de kernel o un AGENTS.md multiherramienta? → Codex. ¿Necesitas hooks de gobernanza programables o refactorización profunda? → Claude Code. ¿Necesitas ambos modelos de seguridad? → Usa las dos.
¿Nuevo en ambas? Empieza primero por la guía de Claude Code o la guía de Codex. Este artículo asume familiaridad con al menos una de ellas.
Dos modelos mentales
Ambas herramientas tienen una arquitectura de tres capas, pero las capas cumplen propósitos distintos.
Claude Code:
- Razonamiento. Claude Code ejecuta el modelo de Claude seleccionado: Opus 4.7 en Max y Team Premium, Sonnet 4.6 en Pro, Team Standard, Enterprise y API (Enterprise y API pasan a Opus 4.7 el 23 de abril de 2026)
- Ejecución. Bash, operaciones de archivos, comandos de git, llamadas a herramientas MCP
- Gobernanza. Los hooks interceptan acciones en 26 puntos del ciclo de vida 2; los permisos limitan el alcance
Codex:
- Modelo. GPT-5.4 (lanzado el 5 de marzo de 2026, snapshot
gpt-5.4-2026-03-05) con modo de contexto largo de 1,05M / 128K de salida; GPT-5.3-Codex sigue disponible con 400K / 128K 4 - Sandbox. Aplicación a nivel de kernel del sistema operativo (Seatbelt en macOS, Landlock + seccomp en Linux) 3
- Aprobación. Tres políticas (
untrusted,on-request,never) controlan las mutaciones antes de su ejecución 5
La diferencia crítica es dónde vive la gobernanza. Claude Code aplica la seguridad en la capa de aplicación; los hooks son programas que tú escribes y que interceptan eventos específicos. Codex la aplica en la capa del kernel; el sistema operativo impide las operaciones no permitidas sin importar lo que el modelo intente.
Por qué importa esta distinción: la gobernanza en la capa de aplicación es programable. Puedes codificar lógica de negocio, ejecutar linters, validar esquemas, cualquier cosa expresable en código. La gobernanza en la capa del kernel es a prueba de fugas. El modelo no puede eludir las restricciones porque el sistema operativo deniega la syscall antes de que llegue a la aplicación. Toda arquitectura de seguridad intercambia expresividad por fortaleza, y estas dos herramientas se sitúan en los extremos opuestos de ese espectro.
Filosofía de configuración
Claude Code usa JSON. Codex usa TOML. Ambos admiten ámbitos jerárquicos. Las filosofías difieren en cómo piensan sobre el cambio de contexto.
Claude Code: configuración por capas
// ~/.claude/settings.json (user-level)
{
"permissions": {
"allow": ["Bash(git *)"],
"deny": ["Bash(rm -rf *)"]
}
}
// .claude/settings.json (project-level, inherits user)
{
"permissions": {
"allow": ["Bash(npm test)"]
}
}
Claude Code resuelve la configuración desde múltiples capas: ajustes gestionados (máxima prioridad) → línea de comandos → proyecto local → proyecto compartido → valores por defecto del usuario 6. Los archivos de memoria (CLAUDE.md) siguen su propio ámbito: usuario → proyecto → local. Los skills y hooks añaden capas adicionales. La flexibilidad es potente, pero la configuración activa no es visible desde un único archivo; la reconstruyes leyendo la jerarquía.
Codex: perfiles con cambio explícito
# ~/.codex/config.toml
model = "gpt-5.3-codex"
approval_policy = "on-request"
[profiles.deep-review]
model = "gpt-5-pro"
approval_policy = "never"
[profiles.careful]
approval_policy = "untrusted"
codex --profile careful "Review this PR"
codex --profile deep-review "Audit this module"
Los perfiles de Codex te permiten alternar entre configuraciones con un flag 7. No hay resolución por capas sobre la que razonar; la configuración activa siempre es explícita. Para equipos que estandarizan políticas de aprobación, esto es más sencillo de auditar. Los perfiles están actualmente en fase experimental 7.
Modelos de seguridad
La seguridad es la divergencia arquitectónica más profunda entre las herramientas.
Claude Code: hooks deterministas en la capa de aplicación
Los hooks interceptan acciones antes de que se ejecuten. Un hook PreToolUse en Bash puede inspeccionar cada comando y bloquear patrones peligrosos 2:
# Hook: git-safety-guardian (PreToolUse:Bash)
if echo "$tool_input" | grep -q "push.*--force.*main"; then
echo '{"decision": "block", "reason": "Force push to main blocked"}'
fi
La fortaleza: los hooks son programas. Puedes codificar lógica de seguridad arbitrariamente compleja: comprobar rutas de archivos, validar JSON, aplicar convenciones de nombres, ejecutar linters. Yo ejecuto 95 hooks que cubren desde detección de credenciales hasta puertas de calidad.
La debilidad: los hooks operan en la capa de aplicación. En 2025, Check Point Research reveló la CVE-2025-59536, demostrando que hooks maliciosos en los archivos de configuración de un proyecto podían ejecutar comandos de shell durante la inicialización de Claude Code, antes de que el usuario viera un diálogo de consentimiento 19. Anthropic parcheó la vulnerabilidad en cuestión de semanas, pero la divulgación valida la preocupación arquitectónica: la aplicación a nivel de aplicación comparte un límite de proceso con el agente. La guía del AI Red Team de NVIDIA llega a la misma conclusión: “los hooks y las funciones de inicialización de MCP suelen ejecutarse fuera de un entorno de sandbox, ofreciendo una oportunidad para escapar de los controles del sandbox” 20.
Codex: sandboxing a nivel de kernel
Codex restringe al agente a nivel de sistema operativo. En macOS, los perfiles de Seatbelt limitan el acceso al sistema de archivos, la conectividad de red y la creación de procesos 3. En Linux, Landlock + seccomp proporcionan restricciones equivalentes, con un pipeline opcional de Bubblewrap (bwrap) disponible vía configuración 3.
# Three sandbox modes
codex --sandbox read-only # Agent can read but not write
codex --sandbox workspace-write # Agent writes only in project directory (default)
codex --sandbox danger-full-access # No restrictions (named to signal risk)
La fortaleza: la aplicación a nivel de kernel está por debajo de la aplicación. El modelo no puede escapar de las restricciones elaborando comandos ingeniosos; el sistema operativo deniega la syscall antes de que se ejecute 3. El prefijo danger- en el modo de acceso total refleja que eliminar las restricciones del sandbox es una acción excepcional, no un ajuste rutinario.
La debilidad: las restricciones del kernel son binarias. Puedes permitir o denegar la escritura en el sistema de archivos, pero no puedes decir “permite escrituras en src/ pero bloquea las escrituras en config/ salvo que el cambio pase un linter”. Esa gobernanza granular requiere lógica a nivel de aplicación.
El tradeoff es real. Los hooks ofrecen seguridad granular y programable, pero con límites más débiles. El sandboxing ofrece límites más fuertes, pero con un control más grueso. Una heurística rápida de decisión:
- Confianza interna, código externo: usa Codex con sandboxing
read-onlycuando revises PRs de contribuidores desconocidos. El kernel impide la modificación de archivos sin importar lo que el modelo intente. - Código de confianza, aplicación de políticas: usa hooks de Claude Code cuando confías en la base de código pero necesitas aplicar estándares organizativos: formatos de mensajes de commit, escaneo de credenciales, puertas de linting.
- Ambas preocupaciones: usa las dos. Emplea Codex como el primer límite de seguridad y luego cambia a Claude Code para una revisión intensiva en gobernanza.
Extensibilidad
Ambas herramientas admiten personalización, pero la madurez varía según el mecanismo.
| Mecanismo | Claude Code | Codex |
|---|---|---|
| Instrucciones del proyecto | CLAUDE.md (solo Claude) | AGENTS.md (estándar multiherramienta, 60K+ proyectos) 8 |
| Hooks de ciclo de vida | 26 tipos de eventos (maduro) 2 | notify en agent-turn-complete (incipiente) 9 |
| Skills/comandos | Skills + comandos slash | Mantenido por la comunidad mediante patrones de AGENTS.md |
| Delegación a subagentes | Task tool explícito (invocación dirigida por el usuario) 10 | Interno (máximo 6 concurrentes por defecto, no expuesto al usuario) 21 |
| Integraciones MCP | STDIO + HTTP (10.000+ servidores públicos) 11 | STDIO + HTTP |
| Delegación a la nube | Nativo: ninguno | Cloud tasks (experimental: codex cloud exec) 12 |
Dónde lidera Claude Code: los hooks. El sistema de ciclo de vida con 26 eventos, que abarca PreToolUse, PostToolUse, UserPromptSubmit, SessionStart, Stop, SubagentStart, SubagentStop, PreCompact, PermissionRequest, PermissionDenied, TaskCreated, CwdChanged, FileChanged y muchos más 2, habilita patrones de gobernanza que el sistema de notificación de evento único de Codex no puede igualar. Si necesitas aplicar puertas de calidad, detectar filtraciones de credenciales antes de los commits o inyectar contexto automáticamente, la arquitectura de hooks de Claude Code es sustancialmente más madura.
Dónde lidera Codex: portabilidad entre herramientas. AGENTS.md es un estándar abierto gobernado por la Agentic AI Foundation bajo la Linux Foundation 13, adoptado por más de 60.000 proyectos 8. El mismo archivo de instrucciones funciona en Codex, Cursor, GitHub Copilot, Amp, Windsurf y Gemini CLI (con configuración) 14. CLAUDE.md es potente, pero está bloqueado a Claude Code. La delegación de tareas a la nube también es única de Codex: codex cloud exec descarga trabajo de larga duración a la infraestructura de OpenAI y devuelve diffs 12, un flujo de trabajo que Claude Code no ofrece de forma nativa.
Dónde gana cada herramienta
Basado en 36 duelos a ciegas, donde envié prompts idénticos a ambas herramientas y puntué los resultados a ciegas, y en el uso diario en producción:
| Categoría | Claude Code | Codex | Empates |
|---|---|---|---|
| Revisión de código y seguridad | 8 | 4 | 0 |
| Implementación de funciones | 5 | 5 | 2 |
| Refactorización | 4 | 3 | 1 |
| DevOps y CI/CD | 1 | 3 | 0 |
La metodología completa y la puntuación duelo a duelo está en The Blind Judge.
Claude Code gana
- Revisión de código y verificación de seguridad. Claude Code ganó 8 de los 12 duelos decididos en tareas de revisión 1. El sistema de filosofía de calidad y las puertas de evidencia detectan problemas que se cuelan por el enfoque más procedimental de Codex.
- Flujos de trabajo intensivos en gobernanza. Si tu flujo requiere chequeos pre-commit, escaneo de credenciales, validación de salida o puertas de calidad, los hooks son el mecanismo. El sistema de notificación de Codex se dispara después de que la vuelta del agente termine 9; demasiado tarde para bloquear acciones peligrosas.
- Orquestación compleja de múltiples agentes. La delegación explícita a subagentes vía el Task tool 10, combinada con sistemas de deliberación, habilita flujos en los que múltiples agentes especializados colaboran con contexto aislado.
- Refactorización profunda de la base de código. Opus destaca al sostener contexto arquitectónico a lo largo de sesiones largas. Los patrones de ingeniería de contexto que gobiernan la jerarquía de hooks/skills/rules de Claude Code se traducen directamente en cómo el modelo razona sobre bases de código grandes.
Codex gana
- Entornos donde el sandbox es crítico. Si estás ejecutando un agente de IA contra código no confiable, procesando PRs externos u operando en un pipeline de CI/CD donde necesitas garantías duras sobre el acceso al sistema de archivos y la red, el sandboxing a nivel de kernel de Codex es la herramienta adecuada 3. Los hooks a nivel de aplicación no pueden ofrecer la misma garantía.
- Equipos multiherramienta. Si tu equipo usa varias herramientas de codificación con IA, AGENTS.md te da un único archivo de instrucciones que funciona en Codex, Cursor, Copilot, Amp, Windsurf y más 14. Sin duplicar el mantenimiento en CLAUDE.md,
.cursor/rulese instrucciones de Copilot. - Flujos de trabajo asíncronos en la nube.
codex cloud execdelega tareas a infraestructura en la nube y devuelve diffs 12. Para integración de CI/CD o procesamiento por lotes, es un flujo que Claude Code no ofrece de forma nativa. - Dirección en tiempo real. El modo steer de Codex te permite inyectar instrucciones a mitad de tarea con Enter (inmediato) o encolar seguimientos con Tab (próxima vuelta) 15. Claude Code admite mensajes de seguimiento pero no inyección a mitad de vuelta.
- Experiencia de escritorio. La app de escritorio de Codex (macOS) admite multitarea entre worktrees paralelos y ventanas pop-out flotantes 16. Claude Code se integra con VS Code y JetBrains 17, pero es CLI-first.
Usar las dos
Las herramientas no entran en conflicto. CLAUDE.md y AGENTS.md coexisten en el mismo repositorio. Así es como lo tengo montado:
my-project/
├── .claude/
│ └── settings.json # Claude Code project config
├── CLAUDE.md # Claude Code instructions
├── AGENTS.md # Codex + Cursor + Copilot instructions
└── codex.md # Codex project config (optional)
Un flujo de trabajo concreto con ambas herramientas: uso Claude Code para el desarrollo diario: implementación de funciones, revisión de código, refactorizaciones multiarchivo donde los hooks aplican puertas de calidad en cada paso. Cuando un contribuidor externo abre un PR, cambio a Codex con --sandbox read-only para revisar sus cambios contra código no confiable. Cuando necesito una segunda opinión sobre una decisión arquitectónica, envío el mismo prompt a ambas herramientas y comparo los resultados a ciegas mediante el enfoque del blind judge.
El enfoque de doble herramienta tiene respaldo empírico más allá de mis propias pruebas. Una investigación de Milvus encontró que la revisión adversarial entre múltiples modelos de IA aumentó la detección de bugs del 53% al 80% 23. Un estudio aparte descubrió que los bucles iterativos de revisión entre Claude y Codex atraparon 14 problemas en 3 rondas que ninguna herramienta encontró por sí sola 24. Ninguna de las dos reemplaza a la otra; cubren modelos de amenaza y perfiles de tarea distintos.
Puntos clave
Si estás eligiendo una herramienta:
- Empieza por tus requisitos de seguridad. ¿Necesitas sandboxing a nivel de kernel? Codex. ¿Necesitas hooks de gobernanza programables? Claude Code.
- Considera a tu equipo. ¿Varias herramientas de IA en uso? AGENTS.md evita duplicar el mantenimiento de instrucciones entre herramientas 14.
- Prueba ambas en una tarea real antes de decidir. La metodología del blind judge también funciona para la evaluación personal.
Si ya estás comprometido con una:
- Usuarios de Claude Code: escribe un AGENTS.md igualmente. Te lleva 20 minutos y hace que tu proyecto sea accesible para usuarios de Codex, Cursor y Copilot.
- Usuarios de Codex: vigila el sistema de hooks a medida que madura. El evento
notifyactual 9 es un punto de partida; las solicitudes de la comunidad para ampliar los eventos de hooks están activas en GitHub 18. - Ambas herramientas están mejorando rápido. La comparación de este artículo tiene una vida útil medida en meses, no en años.
Preguntas frecuentes
¿Puedo usar las dos herramientas en el mismo proyecto?
Sí. CLAUDE.md y AGENTS.md son archivos separados sin conflictos. Cada herramienta lee su propio archivo de instrucciones e ignora el otro. Yo mantengo ambos en mis proyectos activos.
¿Qué herramienta es mejor para principiantes?
Codex tiene una barrera de configuración más baja: tres modos de sandbox y tres políticas de aprobación cubren la mayoría de los casos de uso 5. La potencia de Claude Code proviene de los hooks y skills, que requieren inversión para configurarse. Empieza con el modelo (Claude o GPT) con el que ya te sientas cómodo.
¿Cómo se comparan los costes?
Ambas usan precios basados en tokens a través de sus respectivas APIs. Claude Code se apoya en los precios de Anthropic; Codex se apoya en el sistema de créditos de OpenAI. Un benchmark independiente de Composio encontró que Codex consumió de 2 a 4 veces menos tokens para resultados comparables. En una tarea de plugin de Figma, Claude Code usó 6,2M tokens frente a los 1,5M de Codex 22. La eficiencia de tokens no se traduce directamente en coste (los precios por token difieren), pero el menor consumo de tokens de Codex es una ventaja medible para flujos de trabajo con presupuesto limitado.
¿Funcionará AGENTS.md con Claude Code?
Actualmente no. Claude Code lee CLAUDE.md; Codex lee AGENTS.md. Los formatos son lo suficientemente parecidos como para que el contenido se traduzca con facilidad entre ellos, pero no hay lectura cruzada automática. Escribir ambos requiere un esfuerzo mínimo, ya que el contenido se solapa.
¿Cuál tiene mejor integración con el IDE?
Codex tiene una app de escritorio con multitarea y ventanas flotantes (solo macOS a fecha de febrero de 2026) 16. Claude Code se integra con VS Code mediante extensión y con JetBrains mediante plugin (beta) 17. Ambas funcionan bien; la elección depende de si prefieres flujos CLI-first (Claude Code) o GUI-first (Codex).
Referencias
-
The Blind Judge: Claude vs Codex in 12 Tasks. Metodología y resultados de evaluación a ciegas ↩↩
-
Claude Code Hooks Reference. 26 tipos de eventos de ciclo de vida (a partir de v2.1.116, abril de 2026), incluyendo PreToolUse, PostToolUse, SubagentStart, PermissionRequest, TaskCreated, CwdChanged y más. ↩↩↩↩↩
-
Codex Security Documentation. Seatbelt (macOS), Landlock + seccomp (Linux), tres modos de sandbox ↩↩↩↩↩↩
-
OpenAI GPT-5.4 model docs (el CLI por defecto actual de Codex, lanzado el 5 de marzo de 2026; modo de contexto largo de 1.050.000 tokens, 128K de salida máxima, 2,50 $ entrada / 0,25 $ en caché / 15 $ salida por MTok, multiplicador de 2×/1,5× para contexto largo por encima de 272K de entrada). Ver también Introducing GPT-5.4 (posiciona GPT-5.4 como incorporando las capacidades de codificación de GPT-5.3-Codex) y Introducing GPT-5.3-Codex para el predecesor de la familia Codex de 400K / 128K, que sigue disponible para flujos centrados en velocidad/coste. ↩
-
Codex Configuration Reference. Políticas de aprobación:
untrusted,on-request,never↩↩ -
Claude Code Settings. Cascada de configuración de cinco capas ↩
-
Codex Advanced Configuration. Perfiles (experimental) ↩↩
-
Linux Foundation AAIF Announcement. AGENTS.md adoptado por más de 60.000 proyectos ↩↩
-
Codex Advanced Configuration: Notifications. Sistema
notifycon el eventoagent-turn-complete↩↩↩ -
Claude Code Subagents. Task tool para invocación explícita de subagentes ↩↩
-
Anthropic MCP Foundation Announcement. Más de 10.000 servidores MCP públicos activos ↩
-
Codex CLI Reference: Cloud Tasks.
codex cloud execpara delegar a infraestructura en la nube ↩↩↩ -
OpenAI Co-founds the Agentic AI Foundation. AGENTS.md donado a la AAIF bajo la Linux Foundation ↩
-
AGENTS.md. Compatibilidad multiherramienta: Codex, Cursor, Copilot, Amp, Windsurf, Gemini CLI ↩↩↩
-
Codex CLI Features: Steer Mode. Enter para dirección inmediata, Tab para seguimiento en la siguiente vuelta ↩
-
Introducing the Codex App. App de escritorio con multitarea y ventanas flotantes (macOS) ↩↩
-
Claude Code IDE Integrations. Extensión de VS Code y plugin de JetBrains (beta) ↩↩
-
Codex GitHub Issue #2109. Solicitud de la comunidad para ampliar los eventos de hooks ↩
-
Check Point Research, Caught in the Hook: RCE and API Token Exfiltration Through Claude Code Project Files. CVE-2025-59536: hooks maliciosos ejecutándose antes del consentimiento del usuario ↩
-
NVIDIA AI Red Team, Practical Security Guidance for Sandboxing Agentic Workflows. Cinco vulnerabilidades residuales en herramientas de codificación agéntica ↩
-
Codex Sample Configuration.
agents.max_threads = 6por defecto, configurable ↩ -
Morph/Composio, Codex vs Claude Code: Benchmarks, Agent Teams & Limits Compared. Benchmarks de consumo de tokens en tareas idénticas ↩
-
Milvus/Zilliz, AI Code Review Gets Better When Models Debate. Del 53% al 80% en detección de bugs mediante debate adversarial ↩
-
Aseem Shrey, I Made Claude and Codex Argue Until My Code Plan Was Perfect. 14 problemas detectados en 3 rondas de revisión iterativa ↩
Which Tool Should You Use?
Answer four questions to get a recommendation.
Loading quiz…