← Todos los articulos

Claude Code vs Codex CLI: Cuándo usar cada uno

From the guides: Claude Code & Codex CLI

Uso Claude Code como mi herramienta principal de desarrollo. Vale la pena declarar ese sesgo desde el inicio, porque la escritura comparativa más sólida proviene de conocer una herramienta a fondo y evaluar la otra con honestidad. A lo largo de 36 duelos ciegos — donde ejecuté tareas idénticas en ambas herramientas y califiqué los resultados sin saber cuál los produjo 1 — y cientos de sesiones con ambas, he descubierto que la respuesta a “¿cuál es mejor?” es genuinamente “depende de la tarea”.

TL;DR

Claude Code y Codex CLI resuelven el mismo problema — desarrollo asistido por IA — con arquitecturas fundamentalmente diferentes. Claude Code gobierna mediante hooks (17 tipos de eventos del ciclo de vida que aplican políticas de forma determinista) 2. Codex gobierna mediante sandboxing (restricciones a nivel de kernel del sistema operativo, por debajo de la capa de aplicación) 3. Ningún enfoque es estrictamente superior.

Claude Code superó consistentemente a Codex en revisión de código y verificación de seguridad. Codex ofrece ventajas genuinas en sandboxing, portabilidad entre herramientas a través de AGENTS.md y delegación de tareas en la nube.

Decisión rápida: ¿Necesita sandboxing a nivel de kernel o AGENTS.md compatible entre herramientas? → Codex. ¿Necesita hooks de gobernanza programables o refactorización profunda? → Claude Code. ¿Necesita ambos modelos de seguridad? → Use ambos.


¿Es nuevo en ambas herramientas? Comience con la guía de Claude Code o la guía de Codex primero. Este artículo asume familiaridad con al menos una de ellas.

Dos modelos mentales

Ambas herramientas son arquitecturas de tres capas, pero las capas cumplen propósitos diferentes.

Claude Code:

  1. Razonamiento — Claude Opus procesa su base de código y razona sobre los cambios
  2. Ejecución — Bash, operaciones de archivos, comandos git, llamadas a herramientas MCP
  3. Gobernanza — Los hooks interceptan acciones en 17 puntos del ciclo de vida 2; los permisos delimitan el alcance

Codex:

  1. Modelo — GPT-5.3-Codex con 400K de entrada / 128K de salida de contexto 4
  2. Sandbox — Aplicación a nivel de kernel del sistema operativo (Seatbelt en macOS, Landlock + seccomp en Linux) 3
  3. Aprobación — Tres políticas (untrusted, on-request, never) controlan las mutaciones antes de la ejecución 5

La diferencia crítica es dónde reside la gobernanza. Claude Code aplica la seguridad en la capa de aplicación — los hooks son programas que usted escribe y que interceptan eventos específicos. Codex aplica la seguridad en la capa del kernel — el sistema operativo previene operaciones no permitidas independientemente de lo que el modelo intente.

Por qué esta distinción importa: La gobernanza en la capa de aplicación es programable. Puede codificar lógica de negocio, ejecutar linters, validar esquemas — cualquier cosa expresable en código. La gobernanza a nivel de kernel es a prueba de escape. El modelo no puede eludir las restricciones porque el sistema operativo deniega la llamada al sistema antes de que llegue a la aplicación. Toda arquitectura de seguridad intercambia expresividad por solidez, y estas dos herramientas se ubican en extremos opuestos de ese espectro.

Filosofía de configuración

Claude Code usa JSON. Codex usa TOML. Ambos soportan alcance jerárquico. Las filosofías difieren en cómo conciben el cambio de contexto.

Claude Code: Configuración por capas

// ~/.claude/settings.json (user-level)
{
  "permissions": {
    "allow": ["Bash(git *)"],
    "deny": ["Bash(rm -rf *)"]
  }
}
// .claude/settings.json (project-level, inherits user)
{
  "permissions": {
    "allow": ["Bash(npm test)"]
  }
}

Claude Code resuelve la configuración desde múltiples capas: configuración administrada (mayor prioridad) → línea de comandos → proyecto local → proyecto compartido → valores predeterminados del usuario 6. Los archivos de memoria (CLAUDE.md) siguen su propio alcance: usuario → proyecto → local. Los skills y hooks agregan capas adicionales. La flexibilidad es poderosa, pero la configuración activa no es visible desde un solo archivo — se reconstruye leyendo la jerarquía completa.

Codex: Perfiles con cambio explícito

# ~/.codex/config.toml
model = "gpt-5.3-codex"
approval_policy = "on-request"

[profiles.deep-review]
model = "gpt-5-pro"
approval_policy = "never"

[profiles.careful]
approval_policy = "untrusted"
codex --profile careful "Review this PR"
codex --profile deep-review "Audit this module"

Los perfiles de Codex permiten alternar entre configuraciones con un flag 7. No hay resolución de capas sobre la cual razonar — la configuración activa siempre es explícita. Para equipos que estandarizan políticas de aprobación, esto es más fácil de auditar. Los perfiles son actualmente experimentales 7.

Modelos de seguridad

La seguridad es la divergencia arquitectónica más profunda entre las herramientas.

Claude Code: Hooks deterministas en la capa de aplicación

Los hooks interceptan acciones antes de que se ejecuten. Un hook PreToolUse en Bash puede inspeccionar cada comando y bloquear patrones peligrosos 2:

# Hook: git-safety-guardian (PreToolUse:Bash)
if echo "$tool_input" | grep -q "push.*--force.*main"; then
  echo '{"decision": "block", "reason": "Force push to main blocked"}'
fi

La fortaleza: los hooks son programas. Puede codificar lógica de seguridad arbitrariamente compleja — verificar rutas de archivos, validar JSON, aplicar convenciones de nombres, ejecutar linters. Yo ejecuto 95 hooks que cubren desde la detección de credenciales hasta puertas de calidad.

La debilidad: los hooks operan en la capa de aplicación. En 2025, Check Point Research divulgó CVE-2025-59536, demostrando que hooks maliciosos en archivos de configuración de proyecto podían ejecutar comandos de shell durante la inicialización de Claude Code — antes de que el usuario viera un diálogo de consentimiento 19. Anthropic corrigió la vulnerabilidad en semanas, pero la divulgación valida la preocupación arquitectónica: la imposición de seguridad a nivel de aplicación comparte un límite de proceso con el agente. La guía del AI Red Team de NVIDIA llega a la misma conclusión: “los hooks y las funciones de inicialización de MCP frecuentemente se ejecutan fuera de un entorno sandbox, ofreciendo una oportunidad para escapar de los controles del sandbox” 20.

Codex: Sandboxing a nivel de kernel

Codex restringe al agente a nivel del sistema operativo. En macOS, los perfiles Seatbelt limitan el acceso al sistema de archivos, la conectividad de red y la creación de procesos 3. En Linux, Landlock + seccomp proporcionan restricciones equivalentes, con un pipeline opcional de Bubblewrap (bwrap) disponible mediante configuración 3.

# Three sandbox modes
codex --sandbox read-only           # Agent can read but not write
codex --sandbox workspace-write     # Agent writes only in project directory (default)
codex --sandbox danger-full-access  # No restrictions (named to signal risk)

La fortaleza: la imposición a nivel de kernel está por debajo de la aplicación. El modelo no puede escapar de las restricciones elaborando comandos ingeniosos — el sistema operativo deniega la llamada al sistema antes de que se ejecute 3. El prefijo danger- en el modo de acceso completo refleja que eliminar las restricciones del sandbox es una acción excepcional, no una configuración rutinaria.

La debilidad: las restricciones del kernel son binarias. Puede permitir o denegar escrituras en el sistema de archivos, pero no puede decir “permitir escrituras en src/ pero bloquear escrituras en config/ a menos que el cambio pase un linter”. Esa gobernanza detallada requiere lógica a nivel de aplicación.

El intercambio es real. Los hooks proporcionan seguridad granular y programable pero con límites más débiles. El sandboxing proporciona límites más fuertes pero con control menos granular. Una heurística rápida de decisión:

  • Confianza interna, código externo: Use Codex con sandboxing read-only al revisar PRs de contribuidores desconocidos. El kernel previene la modificación de archivos independientemente de lo que el modelo intente.
  • Código de confianza, aplicación de políticas: Use hooks de Claude Code cuando confíe en la base de código pero necesite aplicar estándares organizacionales — formatos de mensajes de commit, escaneo de credenciales, puertas de linting.
  • Ambas preocupaciones: Use ambos. Use Codex para el límite de seguridad inicial, luego cambie a Claude Code para revisiones con gobernanza intensiva.

Extensibilidad

Ambas herramientas soportan personalización, pero la madurez varía según el mecanismo.

Mecanismo Claude Code Codex
Instrucciones del proyecto CLAUDE.md (exclusivo de Claude) AGENTS.md (estándar entre herramientas, 60K+ proyectos) 8
Hooks del ciclo de vida 17 tipos de eventos (maduro) 2 notify en agent-turn-complete (incipiente) 9
Skills/comandos Skills + comandos slash Mantenido por la comunidad mediante patrones AGENTS.md
Delegación de subagentes Herramienta Task explícita (invocación dirigida por el usuario) 10 Interno (máx. 6 concurrentes por defecto, no expuesto al usuario) 21
Integraciones MCP STDIO + HTTP (10.000+ servidores públicos) 11 STDIO + HTTP
Delegación en la nube No nativa Tareas en la nube (experimental: codex cloud exec) 12

Donde Claude Code lidera: Hooks. El sistema de 17 eventos del ciclo de vida — que abarca PreToolUse, PostToolUse, UserPromptSubmit, SessionStart, Stop, SubagentStart, SubagentStop, PreCompact y nueve más 2 — permite patrones de gobernanza que el sistema de notificación de evento único de Codex no puede igualar. Si necesita aplicar puertas de calidad, detectar fugas de credenciales antes de los commits o inyectar contexto automáticamente, la arquitectura de hooks de Claude Code es sustancialmente más madura.

Donde Codex lidera: Portabilidad entre herramientas. AGENTS.md es un estándar abierto gobernado por la Agentic AI Foundation bajo la Linux Foundation 13, adoptado por más de 60.000 proyectos 8. El mismo archivo de instrucciones funciona en Codex, Cursor, GitHub Copilot, Amp, Windsurf y Gemini CLI (con configuración) 14. CLAUDE.md es poderoso pero restringido a Claude Code. La delegación de tareas en la nube también es exclusiva de Codex — codex cloud exec delega trabajo de larga duración a la infraestructura de OpenAI y devuelve diffs 12, un flujo de trabajo que Claude Code no ofrece de forma nativa.

Dónde gana cada herramienta

Basado en 36 duelos ciegos — prompts idénticos enviados a ambas herramientas con resultados calificados a ciegas — y uso diario en producción:

Categoría Claude Code Codex Empates
Revisión de código y seguridad 8 4 0
Implementación de funciones 5 5 2
Refactorización 4 3 1
DevOps y CI/CD 1 3 0

La metodología completa y la puntuación por duelo se encuentran en The Blind Judge.

Claude Code gana

  • Revisión de código y verificación de seguridad. Claude Code ganó 8 de 12 duelos decididos en tareas de revisión 1. El sistema de filosofía de calidad y las puertas de evidencia detectan problemas que se escapan del enfoque más procedimental de Codex.
  • Flujos de trabajo con gobernanza intensiva. Si su flujo de trabajo requiere verificaciones pre-commit, escaneo de credenciales, validación de salida o puertas de calidad, los hooks son el mecanismo. El sistema de notificación de Codex se dispara después de que el turno del agente se completa 9 — demasiado tarde para bloquear acciones peligrosas.
  • Orquestación compleja de múltiples agentes. La delegación explícita de subagentes mediante la herramienta Task 10, combinada con sistemas de deliberación, permite flujos de trabajo donde múltiples agentes especializados colaboran con contexto aislado.
  • Refactorización profunda de la base de código. Opus sobresale manteniendo contexto arquitectónico a lo largo de sesiones extensas. Los patrones de ingeniería de contexto que gobiernan la jerarquía de hooks/skills/rules de Claude Code se traducen directamente en cómo el modelo razona sobre bases de código grandes.

Codex gana

  • Entornos donde el sandbox es crítico. Si está ejecutando un agente de IA contra código no confiable, procesando PRs externos u operando en un pipeline de CI/CD donde necesita garantías firmes sobre el acceso al sistema de archivos y la red, el sandboxing a nivel de kernel de Codex es la herramienta correcta 3. Los hooks a nivel de aplicación no pueden proporcionar la misma garantía.
  • Equipos con múltiples herramientas. Si su equipo usa múltiples herramientas de codificación con IA, AGENTS.md le da un archivo de instrucciones que funciona en Codex, Cursor, Copilot, Amp, Windsurf y más 14. Sin mantenimiento duplicado entre CLAUDE.md, .cursor/rules e instrucciones de Copilot.
  • Flujos de trabajo asíncronos en la nube. codex cloud exec delega tareas a infraestructura en la nube y devuelve diffs 12. Para integración con CI/CD o procesamiento por lotes, este es un flujo de trabajo que Claude Code no ofrece de forma nativa.
  • Dirección en tiempo real. El modo steer de Codex permite inyectar instrucciones a mitad de tarea con Enter (inmediato) o poner en cola seguimientos con Tab (siguiente turno) 15. Claude Code soporta mensajes de seguimiento pero no inyección a mitad de turno.
  • Experiencia de escritorio. La aplicación de escritorio de Codex (macOS) soporta multitarea entre worktrees paralelos y ventanas flotantes emergentes 16. Claude Code se integra con VS Code y JetBrains 17 pero es CLI-first.

Usar ambos

Las herramientas no entran en conflicto. CLAUDE.md y AGENTS.md coexisten en el mismo repositorio. Esta es mi configuración:

my-project/
├── .claude/
│   └── settings.json     # Claude Code project config
├── CLAUDE.md              # Claude Code instructions
├── AGENTS.md              # Codex + Cursor + Copilot instructions
└── codex.md               # Codex project config (optional)

Un flujo de trabajo concreto con ambas herramientas: Uso Claude Code para el desarrollo diario — implementación de funciones, revisión de código, refactorizaciones de múltiples archivos donde los hooks aplican puertas de calidad en cada paso. Cuando un contribuidor externo abre un PR, cambio a Codex con --sandbox read-only para revisar sus cambios contra código no confiable. Cuando necesito una segunda opinión sobre una decisión arquitectónica, envío el mismo prompt a ambas herramientas y comparo los resultados a ciegas — el enfoque de blind judge.

El enfoque con ambas herramientas tiene respaldo empírico más allá de mis propias pruebas. Una investigación de Milvus encontró que la revisión adversarial entre múltiples modelos de IA aumentó la detección de errores del 53% al 80% 23. Un estudio separado encontró que los ciclos iterativos de revisión Claude-Codex detectaron 14 problemas en 3 rondas que ninguna herramienta encontró por sí sola 24. Ninguna herramienta reemplaza a la otra; cubren diferentes modelos de amenazas y perfiles de tareas.

Conclusiones clave

Si está eligiendo una herramienta:

  • Comience con sus requisitos de seguridad. ¿Necesita sandboxing a nivel de kernel? Codex. ¿Necesita hooks de gobernanza programables? Claude Code.
  • Considere su equipo. ¿Múltiples herramientas de IA en uso? AGENTS.md evita el mantenimiento duplicado de instrucciones entre herramientas 14.
  • Pruebe ambas en una tarea real antes de decidir. La metodología blind judge también funciona para evaluación personal.

Si ya está comprometido con una:

  • Usuarios de Claude Code: escriban un AGENTS.md de todas formas. Toma 20 minutos y hace que su proyecto sea accesible para usuarios de Codex, Cursor y Copilot.
  • Usuarios de Codex: monitoreen el sistema de hooks a medida que madure. El evento notify actual 9 es un punto de partida — las solicitudes de la comunidad para eventos de hooks expandidos están activas en GitHub 18.
  • Ambas herramientas están mejorando rápidamente. La comparación en este artículo tiene una vida útil medida en meses, no en años.

Preguntas frecuentes

¿Puedo usar ambas herramientas en el mismo proyecto?

Sí. CLAUDE.md y AGENTS.md son archivos separados sin conflictos. Cada herramienta lee su propio archivo de instrucciones e ignora el otro. Mantengo ambos en mis proyectos activos.

¿Cuál herramienta es mejor para principiantes?

Codex tiene una barrera de configuración más baja — tres modos de sandbox y tres políticas de aprobación cubren la mayoría de los casos de uso 5. El poder de Claude Code proviene de los hooks y skills, que requieren inversión para configurar. Comience con cualquier modelo (Claude o GPT) con el que ya se sienta cómodo.

¿Cómo se comparan los costos?

Ambas usan precios basados en tokens a través de sus respectivas APIs. Claude Code funciona con los precios de Anthropic; Codex funciona con el sistema de créditos de OpenAI. Un benchmarking independiente de Composio encontró que Codex consumió de 2 a 4 veces menos tokens para resultados comparables — en una tarea de plugin de Figma, Claude Code usó 6,2M tokens frente a los 1,5M de Codex 22. La eficiencia de tokens no se traduce directamente en costo (los precios por token son diferentes), pero el menor consumo de tokens de Codex es una ventaja medible para flujos de trabajo con restricciones de presupuesto.

¿Funcionará AGENTS.md con Claude Code?

No actualmente. Claude Code lee CLAUDE.md; Codex lee AGENTS.md. Los formatos son lo suficientemente similares para que el contenido se traduzca fácilmente entre ellos, pero no hay lectura cruzada automática. Escribir ambos requiere un esfuerzo mínimo ya que el contenido se superpone.

¿Cuál tiene mejor integración con el IDE?

Codex tiene una aplicación de escritorio con multitarea y ventanas flotantes (solo macOS a febrero de 2026) 16. Claude Code se integra con VS Code a través de una extensión y con JetBrains a través de un plugin (beta) 17. Ambos funcionan bien; la elección depende de si prefiere flujos de trabajo CLI-first (Claude Code) o GUI-first (Codex).

Referencias


  1. The Blind Judge: Claude vs Codex in 12 Tasks — Metodología y resultados de evaluación ciega 

  2. Claude Code Hooks Reference — 17 tipos de eventos del ciclo de vida con PreToolUse, PostToolUse, SubagentStart y más 

  3. Codex Security Documentation — Seatbelt (macOS), Landlock + seccomp (Linux), tres modos de sandbox 

  4. Introducing GPT-5.3-Codex — Especificaciones del modelo: 400K de contexto de entrada, 128K de salida 

  5. Codex Configuration Reference — Políticas de aprobación: untrusted, on-request, never 

  6. Claude Code Settings — Cascada de configuración de cinco capas 

  7. Codex Advanced Configuration — Perfiles (experimental) 

  8. Linux Foundation AAIF Announcement — AGENTS.md adoptado por más de 60.000 proyectos 

  9. Codex Advanced Configuration — Notifications — Sistema notify con evento agent-turn-complete 

  10. Claude Code Subagents — Herramienta Task para invocación explícita de subagentes 

  11. Anthropic MCP Foundation Announcement — Más de 10.000 servidores MCP públicos activos 

  12. Codex CLI Reference — Cloud Taskscodex cloud exec para delegar a infraestructura en la nube 

  13. OpenAI Co-founds the Agentic AI Foundation — AGENTS.md donado a AAIF bajo la Linux Foundation 

  14. AGENTS.md — Compatibilidad entre herramientas: Codex, Cursor, Copilot, Amp, Windsurf, Gemini CLI 

  15. Codex CLI Features — Steer Mode — Enter para dirección inmediata, Tab para seguimiento en el siguiente turno 

  16. Introducing the Codex App — Aplicación de escritorio con multitarea y ventanas flotantes (macOS) 

  17. Claude Code IDE Integrations — Extensión para VS Code y plugin para JetBrains (beta) 

  18. Codex GitHub Issue #2109 — Solicitud de la comunidad para eventos de hooks expandidos 

  19. Caught in the Hook: RCE and API Token Exfiltration Through Claude Code Project Files — Check Point Research — CVE-2025-59536: hooks maliciosos ejecutándose antes del consentimiento del usuario 

  20. Practical Security Guidance for Sandboxing Agentic Workflows — NVIDIA AI Red Team — Cinco vulnerabilidades residuales en herramientas de codificación agéntica 

  21. Codex Sample Configurationagents.max_threads = 6 por defecto, configurable 

  22. Codex vs Claude Code: Benchmarks, Agent Teams & Limits Compared — Morph/Composio — Benchmarks de consumo de tokens en tareas idénticas 

  23. AI Code Review Gets Better When Models Debate — Milvus/Zilliz — Detección de errores del 53% al 80% mediante debate adversarial 

  24. I Made Claude and Codex Argue Until My Code Plan Was Perfect — Aseem Shrey — 14 problemas detectados en 3 rondas de revisión iterativa 

Which Tool Should You Use?

Answer four questions to get a recommendation.

Loading quiz…

Artículos relacionados

Codex CLI vs Claude Code in 2026: Architecture Deep Dive

Kernel-level sandboxing vs application-layer hooks, AGENTS.md vs CLAUDE.md, cloud tasks vs subagents. A technical compar…

13 min de lectura

AGENTS.md Patterns: What Actually Changes Agent Behavior

Which AGENTS.md patterns actually change agent behavior? Anti-patterns to avoid, patterns that work, and a cross-tool co…

11 min de lectura

Building Custom Skills for Claude Code: A Complete Tutorial

Build a code review skill from scratch. Covers directory structure, frontmatter fields, LLM-based matching, context budg…

10 min de lectura