← Todos os Posts

Codex CLI vs Claude Code 2026: Arquitetura, Preços e Acesso na China

From the guides: Claude Code & Codex CLI

Tanto o Codex CLI quanto o Claude Code são distribuídos como ferramentas agênticas nativas de terminal, mas impõem segurança por meio de mecanismos fundamentalmente diferentes: sandbox no nível do kernel versus hooks na camada de aplicação. Essa única decisão de design se propaga para a forma como cada ferramenta lida com configuração, permissões, workflows multi-agente e governança de equipe. A comparação a seguir mapeia essas diferenças com critérios concretos de decisão, estendendo o território da engenharia de IA que venho construindo por este site.

Uso o Claude Code como minha ferramenta principal. Declaro esse viés desde já. As observações aqui vêm do uso diário de ambas as ferramentas em tarefas de produção, avaliações cegas e workflows com uso combinado.

TL;DR: O Codex impõe segurança na camada do kernel do sistema operacional (Seatbelt, Landlock, seccomp)1 com controle de granularidade grossa. O Claude Code impõe segurança na camada de aplicação por meio de 26 eventos de hook programáveis2 com controle de granularidade fina. Ambas as ferramentas agora operam com contexto grande: o Claude Code com Opus 4.7 expõe 1M de tokens no preço padrão5; o Codex CLI com GPT-5.4 (o atual modelo de fronteira da OpenAI, lançado em 5 de março de 2026, que incorpora as capacidades de programação do GPT-5.3-Codex) expõe até 1,05M de contexto com saída máxima de 128K, embora o contexto padrão seja de 272K a menos que você habilite explicitamente o modo de contexto longo4. Use o Codex para delegação de tarefas em sandbox na nuvem e isolamento no nível do kernel. Use o Claude Code para governança programável, refatorações de longo horizonte e revisão de código focada em segurança. Os melhores resultados vêm do uso de ambos.

Principais conclusões

  • Desenvolvedores solo: Comece com a ferramenta que se encaixar no ecossistema da sua linguagem principal. As duas ferramentas coexistem no mesmo repositório sem conflitos (CLAUDE.md e AGENTS.md são independentes).
  • Líderes de equipe: Os perfis do Codex oferecem troca de configuração explícita e auditável. A hierarquia em camadas do Claude Code aplica regras sensíveis ao contexto automaticamente. Escolha com base em se sua equipe prefere controle explícito ou adaptação automática.
  • Engenheiros de segurança: O sandbox de kernel do Codex impede que o agente contorne restrições no nível do sistema operacional. Os hooks do Claude Code compartilham uma fronteira de processo com o agente, mas permitem lógica de validação arbitrária. Alinhe a ferramenta ao seu modelo de ameaça.

Qual ferramenta você deve escolher? (Caminhos de decisão por persona)

A resposta da comparação depende de quem você é. Quatro caminhos, um para cada leitor mais comum desta página.

Desenvolvedor solo em projetos pessoais ou de pequenas equipes

Padrão: Claude Code. O contexto de 1M de tokens no Opus 4.7 no preço padrão, o sistema de governança com 26 hooks e o marketplace de plugins cobrem os casos que desenvolvedores solo enfrentam diariamente (refatorações em codebases grandes, continuidade de sessão, automação de formatação ao salvar). O Pro a US$ 20/mês ou o Max a US$ 100-200/mês é previsível e generoso.

Traga o Codex CLI quando: você precisar de sandbox no nível do kernel para uma revisão pontual de código não confiável, ou quando o ChatGPT Pro/Plus já cobrir seu gasto principal com IA e adicionar a API da Claude parecer redundante. As duas ferramentas coexistem de forma limpa; CLAUDE.md e AGENTS.md ficam lado a lado.

Líder de equipe em uma organização de engenharia com 10-50 pessoas

Padrão: Claude Code. Hooks programáveis (portões de linting, scans de segurança, bloqueios de comandos proibidos) codificam os padrões da equipe de forma determinística em vez de esperar que o modelo siga instruções do prompt. As configurações gerenciadas permitem que o líder defina uma política em toda a organização que desenvolvedores individuais não conseguem sobrescrever. As primitivas claude agents CLI e Agent Teams se alinham aos padrões que as equipes de fato usam para workflows de revisão.

Traga o Codex CLI quando: revisões sensíveis à segurança precisam de isolamento rígido no nível do kernel (por exemplo, revisando código de prestadores externos, PRs de open source de autores desconhecidos), ou quando a equipe já está comprometida com tooling da OpenAI via Azure OpenAI / Microsoft Foundry. Use-o como uma ferramenta de revisão focada, não como o driver diário.

Revisor focado em segurança ou pesquisador de red team

Padrão: Codex CLI (para entradas adversariais) + Claude Code (para execução governada). O sandbox de kernel do Codex no Seatbelt do macOS / Landlock+seccomp no Linux nega syscalls abaixo da camada de aplicação, então um agente hostil literalmente não consegue tocar em áreas do filesystem que você não permitiu. O sistema de hooks do Claude Code é poderoso, mas compartilha a fronteira do processo. Use a ferramenta que se alinhar à ameaça.

Traga o Claude Code quando: você quiser ações programáveis pós-revisão (hooks de triagem, logging de auditoria, geração automatizada de relatórios). O workflow típico: o Codex inspeciona sob restrição de sandbox, o Claude Code cuida da triagem e da camada de aplicação de políticas.

Desenvolvedor chinês / sediado na China continental

As duas ferramentas funcionam, mas conectividade e custo moldam a escolha mais do que os recursos. Vá direto para Acessando Codex e Claude Code a partir da China antes de se comprometer.


A divisão central de arquitetura

A diferença mais profunda entre Codex e Claude Code é onde a governança acontece. O Codex impõe segurança na camada do kernel via Seatbelt no macOS, Landlock e seccomp no Linux1. O sistema operacional restringe acesso ao filesystem, chamadas de rede e spawning de processos antes que essas operações cheguem à aplicação. O modelo não consegue burlar essas restrições porque o sistema operacional nega a syscall antes que ela execute.

O Claude Code impõe segurança na camada de aplicação por meio de hooks, programas que interceptam ações em 26 pontos do ciclo de vida2. Um hook PreToolUse em Bash pode inspecionar cada comando, validá-lo contra lógica arbitrária e bloqueá-lo com exit code 2. O sistema de hooks entrega governança programável: codifique regras de negócio, execute linters, busque por credenciais. A contrapartida é que a aplicação de segurança na camada de aplicação compartilha uma fronteira de processo com o agente. A aplicação no nível do kernel não.

Toda arquitetura de segurança troca expressividade por força de fronteira. Essas duas ferramentas estão em extremos opostos desse espectro, e esse posicionamento é intencional. O sandbox de kernel faz sentido quando o modelo de ameaça inclui um agente potencialmente adversarial (revisando código malicioso, executando scripts não confiáveis). Hooks na camada de aplicação fazem sentido quando o modelo de ameaça é um agente excessivamente confiante mas bem-intencionado (seu próprio código, sua própria equipe, suas próprias convenções). A maioria dos desenvolvedores precisa dos dois modelos de ameaça em momentos diferentes.

Filosofia de configuração

O Codex usa TOML para configuração. O Claude Code usa JSON. A diferença de formato é cosmética. A diferença de filosofia não é.

O Codex organiza a configuração em torno de perfis, presets nomeados entre os quais você alterna explicitamente com --profile. Um perfil careful define approval_policy = "untrusted" e faz sandbox agressivamente9. Um perfil deep-review muda para um modelo mais capaz. Você sempre sabe qual configuração está ativa porque você a selecionou pelo nome. A camada de instruções usa AGENTS.md, um padrão aberto sob a Agentic AI Foundation da Linux Foundation3, legível por Codex, Cursor, Copilot, Amp, Windsurf e Gemini CLI.

O Claude Code organiza a configuração em torno de hierarquia em camadas, cinco camadas que se sobrepõem das configurações gerenciadas (maior prioridade) passando pela linha de comando, projeto local, projeto compartilhado e padrões do usuário. Os arquivos CLAUDE.md têm escopo nos níveis de usuário, projeto e local. Diretórios de skills, hooks e rules adicionam camadas adicionais. A configuração apropriada ao contexto se aplica automaticamente, mas a configuração ativa não é visível a partir de um único arquivo. Você a reconstrói lendo a hierarquia.

Perfis favorecem explicitude e auditabilidade. Você pode responder “qual configuração estava ativa?” verificando qual flag --profile foi passada. A hierarquia em camadas favorece automação e sensibilidade ao contexto. O contexto certo se aplica automaticamente, mas responder “qual configuração está ativa?” exige ler até cinco camadas e entender sua ordem de merge. A contrapartida é real: ocasionalmente fui surpreendido por um override de CLAUDE.md em nível de usuário que conflitava com uma instrução em nível de projeto, algo que não aconteceria com perfis explícitos.

Modelos de segurança comparados

Dimensão Codex CLI Claude Code
Abordagem de sandbox Nível do kernel (Seatbelt no macOS, Landlock + seccomp no Linux) Hooks em nível de aplicação (26 tipos de evento do ciclo de vida)
Níveis de permissão Três modos de sandbox: read-only, workspace-write, danger-full-access Listas granulares de permissão/negação baseadas em padrões, por ferramenta
Resistência a escape Alta: o SO nega syscalls abaixo da fronteira da aplicação Moderada: hooks compartilham fronteira de processo com o agente
Programabilidade Baixa: permitir/negar binário por modo de sandbox Alta: código arbitrário em scripts de hook (bash, Python, etc.)
Políticas de aprovação Três níveis: untrusted, on-request, never Padrões de permissão por ferramenta com matching de regex
Restrições de rede O sandbox controla acesso de rede de saída Hooks podem inspecionar mas não bloquear chamadas de rede no kernel
Classe de vulnerabilidade conhecida Escape de sandbox (teórico; nenhum CVE público relatado até março de 2026) Hooks maliciosos na configuração do projeto (mitigado via prompts de confiança de projeto)

O padrão: o Codex provê fronteiras mais fortes com controle mais grosseiro. O Claude Code provê fronteiras mais fracas com controle mais fino11. A escolha certa depende do seu modelo de ameaça. Revisando código externo não confiável? Sandbox de kernel. Aplicando padrões organizacionais de código em código confiável? Hooks programáveis.

Contexto e modelos

Em abril de 2026, o Codex CLI tem como padrão o GPT-5.4 (lançado em 5 de março de 2026, snapshot gpt-5.4-2026-03-05)4. O GPT-5.4 é o atual modelo de fronteira de propósito geral da OpenAI e, conforme a postagem de lançamento da OpenAI, incorpora as capacidades de programação do GPT-5.3-Codex ao mesmo tempo que adiciona Computer Use nativo e suporte mais amplo a workflows agênticos. O contexto é de 272K por padrão, com um modo experimental de contexto longo de 1,05M de tokens que você habilita via configuração model_context_window / model_auto_compact_token_limit. A saída tem teto de 128K.4 Prompts de contexto longo acima de 272K tokens de entrada são cobrados a 2× input / 1,5× output para aquela sessão.4 O GPT-5.3-Codex não está depreciado e permanece disponível para equipes que preferem o perfil de custo/velocidade otimizado para programação.

O modelo padrão do Claude Code depende do tier do plano, conforme os docs de configuração de modelo da Anthropic5: Max e Team Premium têm como padrão Opus 4.7 (lançado em 16 de abril de 2026); Pro, Team Standard, Enterprise e API Anthropic pay-per-token têm como padrão Sonnet 4.6, com Enterprise e API migrando para Opus 4.7 em 23 de abril de 2026. O Opus 4.7 expõe uma janela de contexto de 1M de tokens no preço padrão quando usado (sem prêmio de contexto longo). Os defaults de modelo e limites de contexto de ambos os fornecedores mudam entre releases; verifique a página de cada fornecedor para valores atuais.

As duas ferramentas agora lidam bem com contextos grandes. O Claude Code alcança 1M no Opus 4.7 no preço padrão, sem prêmio. O Codex CLI com GPT-5.4 alcança 1,05M com o modo de contexto longo habilitado, cobrado com o multiplicador 2×/1,5× quando você cruza 272K de input. Para ingestão de monorepo, a diferença prática se reduziu; a qualidade de retrieval (quão bem cada ferramenta encontra código relevante) importa mais que o tamanho bruto da janela para a maioria dos projetos.

Em benchmarks públicos até abril de 2026, o Opus 4.7 lidera no SWE-bench Verified (87,6% vs 74,9% do baseline GPT-5-Codex), SWE-bench Pro (64,3% vs 57,7% oficial do GPT-5.4 e 56,8% do GPT-5.3-Codex) e CursorBench (70% vs 58% do Opus 4.6)12. No Terminal-Bench 2.0, o Opus 4.7 chega a 69,4%; o GPT-5.4 a 75,1% e o GPT-5.3-Codex a 77,3% lideram ali12. A pontuação do GPT-5.4 no SWE-bench Verified não está publicada nas páginas oficiais do modelo ou de lançamento no momento da escrita; cobertura de terceiros reporta um valor em torno de 80%, mas trate números não publicados pelo fornecedor com cautela. A liderança em benchmarks oscila entre releases; verifique as páginas dos fornecedores antes de se comprometer. Nas minhas avaliações cegas com uma versão anterior do Opus, ele teve desempenho superior em tarefas de revisão e segurança mesmo com contexto menor, e o mesmo padrão se mantém em 1M.

As duas ferramentas suportam roteamento de modelo. O Codex seleciona modelos por perfil9. O padrão do Claude Code depende do tier do plano descrito acima (Opus 4.7 em Max e Team Premium, Sonnet 4.6 em Pro, Team Standard, Enterprise e API, com Enterprise mais API migrando para Opus 4.7 em 23 de abril de 2026), e toda invocação pode sobrescrever via --model ou configuração no nível de settings.

Análise detalhada de preços

Os preços se dividem em três padrões: cobrança por token via API, assinaturas que incluem uso agêntico do CLI e cobrança de provedor de nuvem via AWS / GCP / Azure. O caminho mais barato depende do volume diário de tokens, não do preço de tabela.

Preços do Claude Code (abril de 2026)

Por token (API Anthropic):13

Modelo Entrada ($/MTok) Saída ($/MTok) Leitura de cache ($/MTok) Escrita de cache 5 min ($/MTok) Escrita de cache 1 hora ($/MTok)
Claude Opus 4.7 US$ 5,00 US$ 25,00 US$ 0,50 US$ 6,25 US$ 10,00
Claude Opus 4.6 US$ 5,00 US$ 25,00 US$ 0,50 US$ 6,25 US$ 10,00
Claude Sonnet 4.6 US$ 3,00 US$ 15,00 US$ 0,30 US$ 3,75 US$ 6,00
Claude Haiku 4.5 US$ 1,00 US$ 5,00 US$ 0,10 US$ 1,25 US$ 2,00

Sem prêmio de contexto longo: a janela de 1M tokens do Opus 4.7 é precificada na taxa padrão. A API Batch entrega 50% de desconto em entrada e saída.13

Assinaturas que incluem o Claude Code:8

Plano Mensal Perfil de uso do Claude Code
Pro US$ 20 Limites diários generosos; atinge gating de uso extra sob trabalho agêntico pesado sustentado
Max 5x US$ 100 Uso 5× do Pro da Claude; limite típico de driver diário para desenvolvedores solo
Max 20x US$ 200 Uso 20× do Pro; cobre a maioria dos dias pesados de refatoração para dev solo
Team Standard US$ 30/usuário Por assento com controles administrativos compartilhados
Team Premium US$ 150/usuário Inclui Opus 4.7 completo como padrão em todos os assentos
Enterprise customizado Por assento com política gerenciada, SSO e auditoria

Preços de provedor de nuvem seguem as taxas de lista do AWS Bedrock / Google Vertex AI / Microsoft Foundry, que acompanham de perto a API direta da Anthropic mas com diferenças de disponibilidade regional e residência de dados.

Preços do Codex CLI (abril de 2026)

Por token (API da OpenAI):14

Os preços mudam à medida que a OpenAI rotaciona variantes de modelo; estas são as taxas verificadas em 19 de abril de 2026.

Modelo Entrada ($/MTok) Entrada em cache ($/MTok) Saída ($/MTok) Contexto / Saída máx
GPT-5.4 (padrão atual) US$ 2,50 US$ 0,25 US$ 15,00 1.050.000 ctx / 128K saída
GPT-5.3-Codex ver preços da OpenAI N/A ver preços da OpenAI 400K entrada / 128K saída
GPT-5.2-Codex ver preços da OpenAI N/A ver preços da OpenAI 400K entrada / 128K saída
GPT-5 varia por tier N/A varia até 400K entrada

Prompts de contexto longo no GPT-5.4 (acima de 272K tokens de entrada) são cobrados a 2× entrada e 1,5× saída para aquela sessão, em todos os tiers standard, batch e flex.4

Assinaturas que incluem o Codex:

ChatGPT Plus (US$ 20/mês), Pro (US$ 100/mês para 5×, US$ 200/mês para 20×) e Business (assentos Codex-only pay-as-you-go, ou assentos ChatGPT Business padrão com limites de uso do Codex) todos incluem uso da família Codex com limites específicos por plano. O Pro 5× ganha um boost temporário de uso para 10× do Plus até 31 de maio de 2026; os limites de 5 horas do Codex no Pro 20× rodam a 25× do Plus durante a mesma janela promocional. GPT-5.4, GPT-5.3-Codex e GPT-5.2-Codex estão todos disponíveis via a API da OpenAI com preços por token publicados e limites de taxa para tiers de API suportados (tier gratuito não suportado).14 Equipes apenas com API dispensam a assinatura; use assinaturas do ChatGPT quando o uso do Codex embutido mais a superfície de chat mais ampla oferecer melhor valor para a equipe.

O que o contexto de 1M do Opus 4.7 realmente custa

A pergunta prática: “Se eu alimentar o Opus 4.7 com um codebase de 1M tokens, qual é a conta?”

Uma passagem completa de contexto com resposta de 10K tokens: - Entrada: 1.000.000 tokens × US$ 5,00/MTok = US$ 5,00 - Saída: 10.000 tokens × US$ 25,00/MTok = US$ 0,25 - Total (sem cache): US$ 5,25 por passagem

Com prompt caching de 5 minutos no codebase de 1M tokens (assumindo escrita única de cache, leituras repetidas para follow-ups): - Primeira escrita: 1.000.000 × US$ 6,25/MTok = US$ 6,25 (uma única vez) - Cada leitura subsequente em 5 min: 1.000.000 × US$ 0,50/MTok + 10.000 saída × US$ 25/MTok = US$ 0,75 - Cinco leituras em uma sessão: US$ 6,25 + (5 × US$ 0,75) = US$ 10,00 para cinco passagens de contexto completo

Exemplo em CNY usando uma taxa de referência de 1 USD ≈ 6,82 CNY (paridade central do PBOC concentrada na faixa 6,82-6,90 em torno de abril de 2026): ~¥68,20 para cinco sessões Opus 4.7 em contexto completo sobre um codebase de 1M tokens. FX se move; verifique a taxa atual antes de citar em procurement. O que importa para orçamento é o cálculo, não o valor exato em CNY.

A matemática equivalente no modo de contexto longo do GPT-5.4: - Entrada: 1.000.000 tokens × (US$ 2,50 base × 2 multiplicador de contexto longo) = US$ 5,00 - Saída: 10.000 tokens × (US$ 15,00 base × 1,5 multiplicador de contexto longo) = US$ 0,225 - Total (sem cache): US$ 5,23 por passagem — dentro de 1% do preço sem cache do Opus 4.7 em contexto completo de 1M

No GPT-5.2-Codex (teto de 400K de entrada), você precisaria de pelo menos três passagens para ingerir o mesmo codebase de 1M, o que muda o perfil de custo no nível de sessão. A maioria das equipes de desenvolvedores chineses não precisa do contexto completo de 1M diariamente, então a comparação realista passa por tamanhos de sessão típicos (50K-200K tokens) onde ambas as ferramentas custam menos de US$ 1 por sessão.

Quando assinaturas vencem o pay-per-token

Heurística aproximada (não uma cota de tokens publicada, já que a Anthropic não publica uma): uso interativo leve cabe no Pro confortavelmente; workflows agênticos diários mais pesados no Opus 4.7 empurram para o território Max 5x ou Max 20x; cargas sustentadas de contexto completo (US$ 5+/sessão) podem ser mais baratas em pay-per-token com prompt caching agressivo do que em uma assinatura com teto. Rode uma semana representativa no Pro, verifique seu dashboard de uso da Claude e suba de tier conforme necessário em vez de adivinhar por uma fórmula. Equipes fazem a mesma conta por usuário, mais o overhead administrativo, de política e de SSO que o tier Enterprise absorve.

Acessando Codex e Claude Code a partir da China

Acesso de primeira parte às APIs da OpenAI e da Anthropic não é oficialmente suportado a partir da China continental, conforme as listas de países suportados publicadas por cada provedor.18 Desenvolvedores às vezes roteiam por redes e contas fora da China continental para contornar isso, mas fazê-lo carrega risco de suspensão de conta e conformidade que você precisa pesar contra qualquer caso de produtividade que estiver construindo. Os binários do CLI instalam e rodam localmente uma vez baixados; o comportamento do agent loop no dia a dia é o mesmo em todo lugar. O roteamento via provedor de nuvem é onde os caminhos legítimos ficam.

Disponibilidade regional do AWS Bedrock

Os modelos Claude da Anthropic são servidos pelo Amazon Bedrock em regiões AWS específicas. Em abril de 2026, os endpoints públicos de runtime do Bedrock cobrem regiões APAC incluindo Tóquio, Seul, Singapura, Mumbai e Sydney, mas nenhum endpoint de runtime Bedrock opera atualmente na China continental ou em Hong Kong.15 Clientes chineses roteando pela AWS normalmente usam Singapura ou Tóquio com o custo de latência associado.

Disponibilidade regional do Google Vertex AI

O Google Cloud oferece endpoints de IA generativa do Vertex AI em regiões da Ásia-Pacífico.16 A disponibilidade específica de modelo Claude varia por região, e asia-east2 (Hong Kong) historicamente ofereceu menor latência para usuários no sul da China. Verifique a disponibilidade de modelo Claude na região Vertex escolhida antes de se comprometer; a cobertura se expande ao longo do tempo, mas não é uniforme em toda a APAC.

Microsoft Foundry

A Claude está disponível via Microsoft Foundry no deployment global standard do Azure, normalmente exigindo assinaturas Enterprise / MCA-E elegíveis. A Claude não está publicamente documentada como disponível no Azure China (operado pela 21Vianet), que é uma nuvem soberana separada com um catálogo de serviços distinto. Clientes chineses usando Foundry roteiam pela pegada global da Azure em vez do Azure China.17

OpenAI Codex a partir da China

A lista de países suportados da OpenAI não inclui a China continental; a OpenAI avisa que acesso a partir de regiões não suportadas pode causar bloqueio ou suspensão de conta.18 O Azure OpenAI está disponível em regiões globais específicas (não no Azure China), e empresas chinesas buscando acesso conforme normalmente roteiam pelo Azure OpenAI em uma região permitida com termos contratuais apropriados em vez de tentar usar a API direta da OpenAI.

Alternativas de modelo de provedores chineses

DeepSeek, Qwen (Alibaba) e Kimi (Moonshot) são alternativas no nível de modelo que equipes chinesas avaliam por razões de custo e latência. Esses são modelos, não CLIs agênticos. Emparelhá-los com o Claude Code requer um adaptador ou gateway compatível com a API da Anthropic (o Claude Code espera o formato de requisição/resposta da Anthropic; ANTHROPIC_BASE_URL aponta para endpoints compatíveis com a Anthropic, não compatíveis com OpenAI). O Codex suporta roteamento de modelo por perfil mas similarmente espera respostas compatíveis com OpenAI. Nenhuma das ferramentas expõe suporte de primeira classe a DeepSeek/Qwen/Kimi; o caminho é uma camada adaptadora que traduz entre o formato de API do provedor e o que o CLI espera. Procurement, latência e residência de dados são perguntas que esses modelos respondem bem. Correção de agent loop e maturidade de tool calling ainda são melhor atendidas pelos modelos de fronteira Claude e GPT para os quais esses CLIs foram ajustados.

Capacidades multi-agente

O Codex oferece delegação de tarefa em nuvem via codex cloud exec6. Você descreve uma tarefa, o Codex sobe um ambiente em nuvem, roda o agente contra seu codebase e retorna um diff. Você não monitora o raciocínio do agente em tempo real; você define a tarefa no início e coleta os resultados depois. A delegação em nuvem mapeia naturalmente para pipelines CI/CD e processamento em batch. Internamente, o Codex suporta threads concorrentes de agente para execução paralela de subtarefas7 (até 6 no release atual, embora esse limite possa mudar).

O Claude Code oferece spawning explícito de subagentes via a ferramenta Task10. O agente pai cria subagentes com tarefas específicas e contexto isolado, coordena resultados e sintetiza outputs. O spawning de subagente habilita orquestração interativa: você vê o raciocínio e pode intervir. Combinado com padrões de deliberação onde múltiplos agentes criticam os outputs uns dos outros, a orquestração interativa pega problemas que modelos fire-and-forget perdem.

Tarefas em nuvem se adequam a workflows onde você define a tarefa no início e quer resultados depois. Coordenação de subagentes se adequa a workflows onde a tarefa evolui pelo raciocínio e requer síntese em tempo real.

O espectro de confiança

Antes de olhar a matriz de decisão, considere onde sua tarefa se encaixa no espectro de confiança. Toda tarefa agêntica de programação envolve uma decisão implícita de confiança: o quanto você confia no julgamento do agente para essa tarefa específica?

Baixa confiança (use Codex): Você está revisando código que não escreveu, rodando scripts de fontes externas, ou delegando trabalho a um ambiente em nuvem que não consegue monitorar em tempo real. O agente pode encontrar input adversarial. Você quer que o SO imponha fronteiras independentemente do que o modelo decida.

Confiança média (use qualquer um): Você está trabalhando no seu próprio codebase com padrões conhecidos. O agente pode cometer erros, mas são erros de excesso de confiança, não de malícia. Você quer revisar mudanças antes que entrem em produção, mas não precisa de isolamento no nível do kernel.

Alta confiança (use Claude Code): Você construiu guardrails via hooks, instruções CLAUDE.md e permissões em allowlist. O agente opera dentro de um ambiente governado que você projetou. Você confia o suficiente na camada de governança para aprovar ações seletivamente em vez de restringir tudo em bloco.

A maioria dos desenvolvedores opera em confiança média na maior parte do tempo, e é por isso que o workflow com ambas as ferramentas funciona: o Codex cuida das tarefas de baixa confiança onde seu sandbox brilha, e o Claude Code cuida das tarefas de confiança média a alta onde hooks programáveis agregam mais valor que restrições de kernel.

Framework de decisão

Uma matriz de decisão concreta baseada em necessidades específicas:

Se você precisa de… Melhor escolha Por quê
Sandbox no nível do kernel Codex Aplicação no nível do SO não pode ser burlada pelo agente
Hooks programáveis de governança Claude Code 26 eventos do ciclo de vida com execução de código arbitrário
Portabilidade entre ferramentas (AGENTS.md) Codex Padrão aberto funciona em Codex, Cursor, Copilot, Amp, Windsurf
Refatoração profunda multi-arquivo Claude Code Opus se destaca em manter contexto arquitetural em sessões longas
Tarefas fire-and-forget na nuvem Codex codex cloud exec delega para infraestrutura em nuvem e retorna diffs
Raciocínio interativo em tempo real Claude Code Extended thinking + coordenação de subagentes com visibilidade ao vivo
Revisão de código externo não confiável Codex --sandbox read-only previne todas as mutações no filesystem
Aplicação de padrões de código da equipe Claude Code Hooks codificam e aplicam lógica de negócio deterministicamente
Ingestão de monorepo grande Aproximadamente empatado Opus 4.7 traz o Claude Code para 1M no preço padrão; Codex CLI com GPT-5.4 alcança 1,05M com modo de contexto longo (cobrado 2×/1,5× acima de 272K de entrada), então ambos agora lidam com monorepos
Revisão de código focada em segurança Claude Code Opus teve desempenho superior na minha série de avaliações cegas em tarefas de revisão

Nenhuma ferramenta única domina essa matriz. O padrão subjacente é mais simples do que dez linhas sugerem: o Codex se destaca quando você precisa de fronteiras rígidas, e o Claude Code se destaca quando você precisa de lógica programável. Se você está rodando código não confiável, revisando contribuições externas ou delegando para um ambiente em nuvem que não consegue monitorar, fronteiras rígidas importam mais. Se você está aplicando convenções de equipe, orquestrando workflows multi-etapa ou construindo guardrails que codificam regras de negócio, lógica programável importa mais. Se mais de três das suas necessidades apontam para uma ferramenta, comece por ali. Se a divisão é equilibrada, considere o workflow com as duas ferramentas.

Minha recomendação

Use as duas. Rodei tarefas idênticas de revisão de código através das duas ferramentas em 12 categorias de tarefa (documentadas na minha série de avaliação cega) e descobri que nenhuma das ferramentas sozinha pegou tudo. Um exemplo concreto: durante uma revisão de autenticação FastAPI, o Opus sinalizou um side-channel de timing na função de comparação de senha. A comparação usava o operador == do Python em vez de hmac.compare_digest(), criando um timing oracle11. O Codex deixou esse problema passar inteiramente. No mesmo codebase, o sandbox do Codex pegou um vetor SSRF em um endpoint de fetch de URL onde URLs fornecidas pelo usuário podiam alcançar serviços internos. O Opus tinha aprovado o endpoint porque a validação de entrada parecia correta no nível de aplicação, mas o sandbox de kernel sinalizou a requisição de rede de saída para uma faixa de IP interno. Modelos diferentes treinados em dados diferentes pegam classes diferentes de vulnerabilidade. Rodar ambos custa cerca de 2x por revisão mas pega significativamente mais problemas em código sensível à segurança.

Meu workflow diário se divide por tipo de tarefa:

  • Claude Code cuida de implementação de feature, revisão de código e refatorações multi-arquivo. Hooks aplicam formatação, bloqueiam comandos perigosos e rodam testes após cada edição. O modelo de subagente interativo funciona bem para tarefas que evoluem pelo raciocínio.
  • Codex cuida de revisão de código não confiável com --sandbox read-only (reviso PRs externos e dependências no sandbox de kernel), tarefas em batch delegadas à nuvem via codex cloud exec e segundas opiniões arquiteturais onde uma perspectiva de modelo diferente pega pontos cegos.

CLAUDE.md e AGENTS.md coexistem no mesmo repositório sem conflitos. O overhead de manutenção permanece mínimo porque os dois arquivos compartilham a maior parte do conteúdo. Mantenho uma seção compartilhada de convenções e a copio para ambos.

Quando não usar nenhuma das ferramentas. Nem Codex nem Claude Code são a escolha certa quando você precisa de determinismo garantido. As duas ferramentas são probabilísticas: o mesmo prompt pode produzir outputs diferentes entre execuções. Se seu workflow requer reprodutibilidade exata (por exemplo, gerando arquivos de configuração que precisam bater com um schema byte por byte), use um template engine ou gerador de código. Ferramentas agênticas são mais fortes quando a tarefa requer julgamento, e mais fracas quando a tarefa requer precisão sem julgamento.

Para a comparação completa com metodologia e resultados de avaliação cega em 12 categorias de tarefa, veja Claude Code vs Codex: Quando usar cada um. Para começar individualmente, veja o guia do Claude Code ou o guia do Codex. Para um walkthrough prático do sistema de hooks que alimenta a camada de governança do Claude Code, veja o tutorial de hooks.

Referências

FAQ

Posso usar Codex e Claude Code no mesmo projeto?

Sim. CLAUDE.md e AGENTS.md são arquivos separados que cada ferramenta lê independentemente. Nenhuma das ferramentas faz parse do arquivo de instrução da outra. Os arquivos de configuração não conflitam. Mantenho ambos em todo projeto ativo. A única consideração é manter o conteúdo compartilhado sincronizado entre os arquivos de instrução, o que leva minutos já que os formatos são similares.

Qual é mais barato para uso diário?

Veja a seção completa Análise detalhada de preços acima. Versão rápida: o Claude Code tem preço por token via API Anthropic mais uma escada de assinatura (Pro US$ 20, Max 5x US$ 100, Max 20x US$ 200, Team US$ 30/usuário, Team Premium US$ 150/usuário). O Codex CLI tem preço por token via API OpenAI para GPT-5.4 (US$ 2,50 input / US$ 15 output por MTok, multiplicadores 2×/1,5× acima de 272K input) e a família GPT-5.3-Codex / GPT-5.2-Codex, mais inclusões no ChatGPT Plus/Pro. A eficiência de token varia por tipo de tarefa; para trabalho sensível a orçamento, rode uma tarefa representativa nas duas e compare as cobranças reais. O preço por token difere entre provedores, então contagens brutas de token não mapeiam diretamente para o custo.

Qual lida melhor com codebases maiores?

Ambos lidam bem com repositórios grandes. Após o lançamento do Opus 4.7 em abril de 2026, o Claude Code alcança 1M de tokens no preço padrão. O Codex CLI com GPT-5.4 alcança 1,05M de tokens com o modo de contexto longo habilitado (multiplicadores 2×/1,5× input/output acima de 272K input); o contexto padrão é 272K a menos que você opte pelo tier de contexto longo. Nenhuma das ferramentas lê seu codebase inteiro de uma vez; ambas se apoiam em retrieval para o trabalho diário (busca de codebase no Claude Code, CLAUDE.md em camadas front-loading de contexto; descoberta de arquivo baseada em embedding no Codex). O tamanho bruto da janela importa mais quando se está raciocinando sobre relações entre muitos arquivos em um único turno, e para isso ambas as ferramentas agora entregam.

O Codex CLI roda localmente ou na nuvem?

Ambos, mas não no mesmo modo. O Codex CLI roda localmente por padrão, no mesmo padrão de qualquer ferramenta de terminal.1 A delegação em nuvem é um fluxo separado via codex cloud exec ou Codex Cloud, que roda sua tarefa em um container sob infraestrutura hospedada pela OpenAI e retorna um diff. O Codex Cloud é o que as pessoas geralmente querem dizer quando dizem “sandbox do Codex”; o sandbox local do Codex CLI é o caminho no nível do kernel Seatbelt / Landlock descrito na seção Modelos de Segurança acima.

Posso acessar o Claude Code e o Codex a partir da China continental?

O acesso de primeira parte às APIs da OpenAI e da Anthropic não é oficialmente suportado a partir da China continental. Os binários do CLI instalam e rodam localmente, mas rotear tráfego para as APIs de primeira parte a partir da China continental pode causar suspensão de conta ou problemas de conformidade. Os caminhos legítimos passam pelo Azure OpenAI (regiões globais específicas não-China), AWS Bedrock (regiões APAC públicas mais próximas incluindo Tóquio, Seul, Singapura, Mumbai e Sydney; sem endpoint de runtime na China continental ou em Hong Kong), Google Vertex AI (asia-east2 Hong Kong e outras regiões APAC com ressalvas de disponibilidade por modelo) e Microsoft Foundry no Azure global (não Azure China) para a Claude. Veja Acessando Codex e Claude Code a partir da China acima para especificidades.

Como comentários ou código em chinês afetam o uso de tokens?

Caracteres chineses tokenizam de forma diferente do inglês. O tokenizer da Claude trata a maioria dos caracteres chineses como um token cada, o que significa que código-fonte em chinês frequentemente é mais eficiente em tokens do que o equivalente em inglês por linha, mas menos eficiente por caractere (um token cobre um caractere em vez de uma palavra inglesa de 4-6 caracteres). O Codex (família GPT) usa uma abordagem similar. O efeito prático: espere contagens de token aproximadamente comparáveis para conteúdo equivalente de comentário / docstring em qualquer idioma, com o comportamento por token dominado pela estrutura do código em vez da razão de linguagem natural.

Posso usar o Claude Code ou o Codex CLI com DeepSeek, Qwen ou Kimi como modelo de backing?

Apenas via um adaptador ou gateway. O Claude Code espera o formato de requisição/resposta da API Anthropic (ANTHROPIC_BASE_URL aponta para endpoints compatíveis com a Anthropic); o Codex espera o formato OpenAI. DeepSeek / Qwen / Kimi todos publicam suas próprias APIs que precisam de tradução antes que uma sessão de CLI do Claude Code ou Codex possa dirigi-los. Projetos de adaptador da comunidade existem mas não são de primeira classe, e os dialetos de tool calling e prompt caching que cada provedor usa diferem o suficiente para que loops agênticos multi-turno frequentemente quebrem. DeepSeek / Qwen / Kimi são opções críveis para geração de código single-shot através de um shell harness separado, e para revisão single-file nos seus pontos de preço nativos. Correção completa de agent loop e confiabilidade de tool calling ainda vêm dos modelos de fronteira Claude e GPT para os quais esses CLIs foram ajustados.

Qual é a diferença entre o Codex CLI e os recursos Codex do ChatGPT?

O Codex CLI é a ferramenta de terminal em github.com/openai/codex. “Codex” dentro do ChatGPT refere-se à mesma família de modelos apresentada através dos apps web/desktop/mobile do ChatGPT com diferentes affordances de UI (delegação de tarefa em nuvem, resultados assíncronos, integração com histórico do ChatGPT). CLI e ChatGPT compartilham os modelos subjacentes; o workflow e o gerenciamento de contexto diferem. Se sua pergunta é “qual ferramenta devo instalar no meu laptop?”, você quer dizer Codex CLI.

Preciso de uma assinatura do ChatGPT para usar o Codex CLI?

Não, embora ajude com o custo. O Codex CLI funciona com uma chave de API OpenAI standalone cobrada por token. ChatGPT Plus ou Pro incluem algum uso do Codex (verifique a página de assinatura ChatGPT atual para limites).14 Para desenvolvedores chineses, a cobrança direta da API via uma conta OpenAI é normalmente o caminho mais limpo do que o roteamento por assinatura ChatGPT através de trilhos de pagamento da China continental.

Qual é a contagem real de hooks no Claude Code?

26 eventos de ciclo de vida a partir da v2.1.116 (abril de 2026).2 A contagem cresceu ao longo do tempo, então posts de fevereiro que citam 17 eventos estão desatualizados. Principais adições ao longo de 2026: PostToolUseFailure, SubagentStart, TeammateIdle, TaskCompleted, PermissionRequest, PermissionDenied, PreCompact / PostCompact, Elicitation / ElicitationResult, StopFailure, TaskCreated, CwdChanged, FileChanged, InstructionsLoaded, ConfigChange, WorktreeCreate / WorktreeRemove e Setup.

Quando o Opus 4.7 foi lançado e como ele muda essa comparação?

16 de abril de 2026. É o primeiro release GA do Opus pós-Glasswing da Anthropic e é lançado com salvaguardas cibernéticas explícitas. A comparação prática muda: o Claude Code agora alcança 1M de tokens no preço padrão (Opus 4.7 incluído, sem prêmio de contexto longo), a liderança no SWE-bench Verified muda para o Opus 4.7 com 87,6% sobre o baseline de 74,9% do GPT-5-Codex, e a liderança no Terminal-Bench 2.0 oscila na outra direção. O GPT-5.4 lidera ali com 75,1% e o GPT-5.3-Codex com 77,3% vs os 69,4% do Opus 4.7. A liderança em benchmarks é fluida; trate qualquer resultado único como uma medição pontual no tempo. Veja a seção Contexto e Modelos acima para os números completos.


  1. OpenAI, “Codex CLI: Sandbox Architecture.” Seatbelt (macOS), Landlock e seccomp (Linux). GitHub: openai/codex 

  2. Anthropic, “Claude Code Hooks.” 26 tipos de evento de ciclo de vida (a partir da v2.1.116, abril de 2026). docs.anthropic.com/en/docs/claude-code/hooks 

  3. Linux Foundation, “AGENTS.md Open Standard.” Agentic AI Foundation. GitHub: anthropics/agent-instructions 

  4. OpenAI, Docs do modelo GPT-5.4. Snapshot gpt-5.4-2026-03-05. Contexto padrão 272K; modo experimental de contexto longo até 1.050.000 tokens quando model_context_window e model_auto_compact_token_limit são definidos. Saída máxima 128K. Knowledge cutoff 31 de agosto de 2025. Multiplicador de preço para contexto longo: 2× input / 1,5× output por sessão quando a entrada excede 272K, nos tiers standard / batch / flex. Veja também Introducing GPT-5.4 para o post de lançamento (posiciona o GPT-5.4 como incorporando as capacidades de programação do GPT-5.3-Codex e adicionando Computer Use nativo), e as páginas históricas de modelo GPT-5.3-Codex e GPT-5.2-Codex para as variantes da família Codex 400K/128K ainda disponíveis. 

  5. Anthropic, “Claude Opus 4.7.” Contexto de 1M tokens no preço padrão. anthropic.com/claude/opus. Veja também configuração de modelo do Claude Code

  6. OpenAI, “Codex Cloud Tasks.” Delegação codex cloud exec. platform.openai.com/docs/guides/codex 

  7. OpenAI, “Codex Agent Architecture.” Modelo de thread concorrente. GitHub: openai/codex 

  8. Anthropic, “Pricing.” Plano Claude Max. platform.claude.com/docs/en/about-claude/pricing 

  9. OpenAI, “Codex Profiles and Policies.” Configuração. GitHub: openai/codex 

  10. Anthropic, “Claude Code: Best practices for agentic coding.” anthropic.com/engineering/claude-code-best-practices 

  11. Simon Willison, “Codex, Claude Code, and the state of agentic coding tools.” simonwillison.net 

  12. Números de benchmark (abril de 2026). Opus 4.7 da página de lançamento da Anthropic: 87,6% SWE-bench Verified, 64,3% SWE-bench Pro, 69,4% Terminal-Bench 2.0, 70% CursorBench. Avaliações oficiais de programação do GPT-5.4 de OpenAI: Introducing GPT-5.4: 57,7% SWE-bench Pro, 75,1% Terminal-Bench 2.0. O SWE-bench Verified do GPT-5.4 NÃO está publicado na página oficial do modelo nem na página de lançamento; cobertura de terceiros (por exemplo writeup do GPT-5.4 da NxCode) reporta ~80% SWE-bench Verified, que cito como terceira parte até a OpenAI publicar números oficiais. GPT-5.3-Codex 56,8% SWE-bench Pro / 77,3% Terminal-Bench 2.0 de OpenAI: Introducing GPT-5.3-Codex; o número de 75,2% SWE-bench Verified frequentemente citado para o GPT-5.3-Codex não está na página oficial de lançamento (atribuição de terceiros). GPT-5.2-Codex 56,4% SWE-bench Pro / 64,0% Terminal-Bench 2.0 da mesma fonte. GPT-5-Codex 74,9% SWE-bench Verified é o baseline amplamente citado do lançamento original do Codex pela OpenAI (também referenciado na página de desenvolvedores do GPT-5 da OpenAI); trate isso como um piso para a família Codex em vez de uma medição atual. 

  13. Preços da Anthropic. Taxas oficiais por token para Opus 4.7 (US$ 5/US$ 25 por MTok), Opus 4.6 (US$ 5/US$ 25), Sonnet 4.6 (US$ 3/US$ 15), Haiku 4.5 (US$ 1/US$ 5). Multiplicadores de prompt caching: escrita de cache 5 min 1,25×, escrita de cache 1 hora 2×, cache hit 0,1× do input base. Contexto de 1M no Opus 4.7 incluído no preço padrão (sem prêmio de contexto longo). API Batch: 50% de desconto. 

  14. Preços da API OpenAI para taxas por token e Preços do OpenAI Codex para tiers de plano e limites de taxa de 5 horas. GPT-5.4 por token: US$ 2,50 input / US$ 0,25 input em cache / US$ 15 output por MTok; multiplicador 2×/1,5× de contexto longo acima de 272K input. Planos Codex em abril de 2026: Plus US$ 20/mês, Pro 5× US$ 100/mês, Pro 20× US$ 200/mês (com boosts promocionais até 31 de maio de 2026 notados acima), Business pay-as-you-go para assentos Codex-only, Enterprise/Edu contact-sales. Veja também os docs do modelo GPT-5.4, docs do modelo GPT-5.3-Codex e docs do modelo GPT-5.2-Codex para janelas de contexto por modelo, limites de taxa e disponibilidade por tier de API. Os preços são revisados periodicamente à medida que a OpenAI rotaciona variantes de modelo; os números deste post refletem a tabela de taxas em 19 de abril de 2026. 

  15. Endpoints de runtime do AWS Bedrock. Endpoints públicos de runtime do Bedrock cobrem regiões APAC (Tóquio, Seul, Singapura, Mumbai, Sydney entre outras) mas não listam nenhum endpoint de runtime na China continental ou em Hong Kong em abril de 2026. Verifique a cobertura atual antes de depender de qualquer região específica. 

  16. Locais de IA generativa do Google Vertex AI. Regiões Ásia-Pacífico incluindo asia-east2 (Hong Kong) servem endpoints de IA generativa; a disponibilidade específica de modelo varia por região e se expande ao longo do tempo. Verifique a página de locais para a região e modelo alvo antes de se comprometer. 

  17. Claude no Microsoft Foundry. A Claude é implantada via regiões globais standard do Foundry. Azure China (21Vianet) é uma nuvem soberana separada com um catálogo de recursos distinto; a Claude não está listada como um modelo do Azure China no momento da escrita. 

  18. Países suportados pela OpenAI não inclui a China continental; a OpenAI avisa que acesso de países não suportados pode causar bloqueio ou suspensão de conta. Países suportados pela Anthropic similarmente lista mercados oficialmente suportados; a China continental não está entre eles no momento da escrita. Leitores roteando por redes fora da China continental devem revisar os termos de ambos os provedores e sua própria postura de conformidade antes de depender desse caminho. 

Artigos relacionados

Claude Code vs Codex CLI 2026: Decision Reference

Use official docs for setup; use Blake's reference for architecture, safety, extensibility, and 36 blind duel results.

14 min de leitura

AGENTS.md Patterns: What Actually Changes Agent Behavior

Which AGENTS.md patterns actually change agent behavior? Anti-patterns to avoid, patterns that work, and a cross-tool co…

12 min de leitura

Claude Code Skills: Build Custom Auto-Activating Extensions

Build custom Claude Code skills that auto-activate based on context. Step-by-step tutorial covering SKILL.md structure, …

13 min de leitura