← 所有文章

Claude Code 对比 Codex CLI 2026:决策参考

From the guides: Claude Code & Codex CLI

我将 Claude Code 作为主要开发工具。在此先说明这一偏好,因为最有力的对比写作往往来自于深入了解一款工具、并诚实地测试另一款工具。经过 36 次盲测对决(我将相同任务分别交给两款工具运行,并在不知道谁产出哪份结果的情况下进行评分 1)以及两款工具各自数百次使用会话,我发现“哪个更好?”的答案确实是“视任务而定”。

Claude Code 更擅长深度重构、代码审查以及通过 26 种生命周期钩子类型实现可编程治理;Codex CLI 更擅长内核级沙箱隔离以及通过 AGENTS.md 实现跨工具可移植性。Claude Code 在应用层通过您自行编写的钩子来实施安全策略,而 Codex 在操作系统内核层实施安全策略——模型无法绕过该层的限制。如需复杂的多文件推理和可定制工作流,请选择 Claude Code。如需最大程度的隔离以及可在 8 款以上工具间通用的标准化代理指令,请选择 Codex。

TL;DR

Claude Code 和 Codex CLI 以截然不同的架构解决同一问题(AI 辅助开发)。Claude Code 通过钩子进行治理:26 种生命周期事件类型可确定性地实施策略 2。Codex 则通过沙箱进行治理:在应用层之下实施 OS 级内核限制 3。两种方式各有所长,谈不上谁绝对占优。

在代码审查和安全验证方面,Claude Code 持续优于 Codex。Codex 在沙箱隔离、通过 AGENTS.md 实现的跨工具可移植性以及云端任务委派方面具有实质性优势。

快速决策:需要内核级沙箱或跨工具 AGENTS.md?→ 选 Codex。需要可编程治理钩子或深度重构?→ 选 Claude Code。两种安全模型都想要?→ 两者并用。


两款工具都是初次接触?请先阅读 Claude Code 指南Codex 指南。本文假定您至少熟悉其中一款。

两种心智模型

两款工具都是三层架构,但各层的用途不同。

Claude Code:

  1. 推理。Claude Code 运行所选的 Claude 模型:Max 和 Team Premium 套餐使用 Opus 4.7;Pro、Team Standard、Enterprise 和 API 使用 Sonnet 4.6(Enterprise 和 API 将于 2026 年 4 月 23 日切换到 Opus 4.7)
  2. 执行。Bash、文件操作、git 命令、MCP 工具调用
  3. 治理Hooks 在 26 个生命周期节点拦截操作 2;权限机制限定作用范围

Codex:

  1. 模型。GPT-5.4(2026 年 3 月 5 日发布,快照 gpt-5.4-2026-03-05),具备 105 万 token 的长上下文模式 / 12.8 万 token 输出;GPT-5.3-Codex 仍可使用,规格为 40 万 / 12.8 万 4
  2. 沙箱。OS 级内核强制(macOS 上使用 Seatbelt,Linux 上使用 Landlock + seccomp)3
  3. 审批。三种策略(untrustedon-requestnever)在变更执行前进行把控 5

关键区别在于治理所处的位置。Claude Code 在应用层实施安全策略;钩子是您编写的、用来拦截特定事件的程序。Codex 则在内核层实施安全策略;无论模型如何尝试,操作系统都会阻止被禁止的操作。

这一区别的重要性:应用层治理是可编程的。您可以编码业务逻辑、运行 linter、校验 schema,任何能用代码表达的内容都可以。内核层治理则无法逃逸。模型无法绕过限制,因为操作系统在系统调用抵达应用之前就已拒绝。每一种安全架构都在表达能力与强度之间做出取舍,而这两款工具恰好分居该光谱的两端。

配置理念

Claude Code 使用 JSON,Codex 使用 TOML。两者都支持层级作用域。理念上的差异在于它们对上下文切换的思考方式。

Claude Code:分层配置

// ~/.claude/settings.json (user-level)
{
  "permissions": {
    "allow": ["Bash(git *)"],
    "deny": ["Bash(rm -rf *)"]
  }
}
// .claude/settings.json (project-level, inherits user)
{
  "permissions": {
    "allow": ["Bash(npm test)"]
  }
}

Claude Code 从多个层级解析设置:托管设置(优先级最高)→ 命令行 → 本地项目 → 共享项目 → 用户默认设置 6。记忆文件(CLAUDE.md)有自己的作用域:用户 → 项目 → 本地。Skills 和 hooks 又引入了额外层级。这种灵活性非常强大,但从任何单个文件都看不到最终生效的配置;您需要通过层级关系拼合出完整画面。

Codex:基于 Profile 的显式切换

# ~/.codex/config.toml
model = "gpt-5.3-codex"
approval_policy = "on-request"

[profiles.deep-review]
model = "gpt-5-pro"
approval_policy = "never"

[profiles.careful]
approval_policy = "untrusted"
codex --profile careful "Review this PR"
codex --profile deep-review "Audit this module"

Codex 的 Profile 让您通过一个命令行标志在不同配置之间切换 7。无需推敲层级解析;当前生效的配置始终是显式的。对于希望在审批策略上实现标准化的团队而言,这种方式更易审计。Profile 目前处于实验性阶段 7

安全模型

安全是两款工具在架构层面最深的分歧所在。

Claude Code:应用层的确定性钩子

钩子在操作执行前进行拦截。一个作用于 BashPreToolUse 钩子可以检查每条命令并阻断危险模式 2

# Hook: git-safety-guardian (PreToolUse:Bash)
if echo "$tool_input" | grep -q "push.*--force.*main"; then
  echo '{"decision": "block", "reason": "Force push to main blocked"}'
fi

优势:钩子是程序。您可以编码任意复杂的安全逻辑:检查文件路径、校验 JSON、执行命名规范、运行 linter。我自己运行着 95 个钩子,涵盖从凭据检测到质量把关的方方面面。

劣势:钩子运行在应用层。2025 年,Check Point Research 披露了 CVE-2025-59536,证明项目配置文件中的恶意钩子可在 Claude Code 初始化期间执行 shell 命令,甚至早于用户看到同意对话框 19。Anthropic 在数周内修复了该漏洞,但这次披露印证了架构层面的隐忧:应用层执行与代理共享同一进程边界。NVIDIA 的 AI Red Team 指南也得出了相同结论:“hooks 和 MCP 初始化函数往往运行在沙箱环境之外,这为逃逸沙箱控制提供了机会” 20

Codex:内核级沙箱

Codex 在操作系统层面约束代理。在 macOS 上,Seatbelt 配置文件限制文件系统访问、网络连接和进程生成 3。在 Linux 上,Landlock + seccomp 提供等效的限制,并可通过配置启用可选的 Bubblewrap(bwrap)流水线 3

# Three sandbox modes
codex --sandbox read-only           # Agent can read but not write
codex --sandbox workspace-write     # Agent writes only in project directory (default)
codex --sandbox danger-full-access  # No restrictions (named to signal risk)

优势:内核级强制位于应用之下。模型无法通过巧妙构造命令来逃避限制;操作系统会在系统调用执行前就予以拒绝 3。完全访问模式使用 danger- 前缀,体现出取消沙箱限制是一种例外操作,而非日常设置。

劣势:内核限制是二元的。您可以允许或禁止文件系统写入,但无法表达“允许写入 src/,除非改动通过 linter,否则禁止写入 config/”。这种精细化治理需要应用层逻辑。

这一取舍是真实存在的。钩子提供细粒度、可编程的安全性,但边界较弱;沙箱提供更强的边界,但控制较粗。一个快速决策启发式:

  • 内部可信,外部代码:审查来自陌生贡献者的 PR 时,使用 Codex 的 read-only 沙箱。无论模型如何尝试,内核都会阻止文件被修改。
  • 可信代码,策略执行:当您信任代码库但需要强制执行组织规范(如提交消息格式、凭据扫描、linting 关卡)时,使用 Claude Code 钩子。
  • 两种需求兼顾:两者并用。先用 Codex 作为初始安全边界,再切换到 Claude Code 进行治理密集型的审查。

可扩展性

两款工具都支持定制化,但各机制的成熟度不一。

机制 Claude Code Codex
项目指令 CLAUDE.md(仅限 Claude) AGENTS.md(跨工具标准,6 万 + 项目)8
生命周期钩子 26 种事件类型(成熟)2 agent-turn-complete 上的 notify(初步阶段)9
Skills/命令 Skills + 斜杠命令 通过 AGENTS.md 模式由社区维护
子代理委派 显式 Task 工具(用户主导生成)10 内部实现(默认最多并发 6 个,不对用户暴露)21
MCP 集成 STDIO + HTTP(10,000+ 公共服务器)11 STDIO + HTTP
云端委派 原生不支持 云任务(实验性:codex cloud exec12

Claude Code 领先之处:钩子。这一覆盖 26 种事件的生命周期体系,包含 PreToolUsePostToolUseUserPromptSubmitSessionStartStopSubagentStartSubagentStopPreCompactPermissionRequestPermissionDeniedTaskCreatedCwdChangedFileChanged 及更多 2,支持的治理模式是 Codex 单事件通知系统无法比拟的。如果您需要强制执行质量关卡、在提交前检测凭据泄露或自动注入上下文,Claude Code 的钩子架构明显更加成熟。

Codex 领先之处:跨工具可移植性。AGENTS.md 是由 Linux 基金会下属的 Agentic AI Foundation 管理的开放标准 13,已被 6 万 + 项目采用 8。同一份指令文件可在 Codex、Cursor、GitHub Copilot、Amp、Windsurf 和 Gemini CLI(需配置)中使用 14。CLAUDE.md 虽然功能强大,但被锁定在 Claude Code。云任务委派也是 Codex 独有的:codex cloud exec 可将长时间运行的工作卸载到 OpenAI 基础设施并返回 diff 12,这是 Claude Code 原生未提供的工作流。

各款工具的优势场景

基于 36 次盲测对决——我将相同 prompt 同时发给两款工具并对输出进行盲评——以及日常生产使用经验:

类别 Claude Code Codex 平局
代码审查与安全 8 4 0
功能实现 5 5 2
重构 4 3 1
DevOps 与 CI/CD 1 3 0

完整方法论和每场对决的评分详见 The Blind Judge

Claude Code 的优势

  • 代码审查与安全验证。在审查类任务中,Claude Code 在 12 场有胜负的对决中赢得 8 场 1质量哲学体系 和证据关卡能够捕捉到 Codex 更偏程序化的方式容易漏掉的问题。
  • 治理密集型工作流。如果您的工作流需要提交前检查、凭据扫描、输出校验或质量关卡,钩子就是答案。Codex 的通知系统在代理回合完成之后才触发 9,无法及时阻止危险操作。
  • 复杂的多代理编排。通过 Task 工具显式委派子代理 10,结合deliberation 系统,可以实现多个专业化代理在隔离上下文中协作的工作流。
  • 深度代码库重构。Opus 擅长在长会话中保持架构上下文。支配 Claude Code 钩子/skill/规则层级的上下文工程模式直接对应模型对大型代码库的推理方式。

Codex 的优势

  • 沙箱关键环境。如果您要针对不受信任的代码运行 AI 代理、处理外部 PR,或是在 CI/CD 流水线中运行且需要对文件系统和网络访问提供硬性保证,Codex 的内核级沙箱就是正确的工具 3。应用层钩子无法提供同等保证。
  • 跨工具团队。如果您的团队同时使用多款 AI 编码工具,AGENTS.md 提供了一份可在 Codex、Cursor、Copilot、Amp、Windsurf 等工具中通用的指令文件 14。无需在 CLAUDE.md、.cursor/rules 和 Copilot 指令之间重复维护。
  • 云端异步工作流。codex cloud exec 将任务委派给云端基础设施并返回 diff 12。对于 CI/CD 集成或批处理场景,这是 Claude Code 原生未提供的工作流。
  • 实时引导。Codex 的 steer 模式允许您在任务进行中通过 Enter 即时注入指令,或通过 Tab 将后续动作加入下一回合队列 15。Claude Code 支持后续消息,但不支持回合中注入。
  • 桌面端体验。Codex 的桌面应用(macOS)支持在并行的 worktree 之间多任务切换以及浮动弹出窗口 16。Claude Code 集成了 VS Code 和 JetBrains 17,但以 CLI 为先。

两者并用

两款工具互不冲突。CLAUDE.md 和 AGENTS.md 可以在同一仓库共存。以下是我的设置:

my-project/
├── .claude/
│   └── settings.json     # Claude Code project config
├── CLAUDE.md              # Claude Code instructions
├── AGENTS.md              # Codex + Cursor + Copilot instructions
└── codex.md               # Codex project config (optional)

一个具体的双工具工作流:我日常开发使用 Claude Code:功能实现、代码审查、多文件重构,在每一步都由钩子强制执行质量关卡。当外部贡献者提交 PR 时,我切换到 Codex 并使用 --sandbox read-only 来针对不受信任的代码审查其改动。当我需要对架构决策获取第二意见时,我会把相同的 prompt 同时发给两款工具,并通过blind judge方式对输出进行盲评比较。

双工具方式在我自己的测试之外也有实证支持。Milvus 的研究发现,多个 AI 模型间的对抗式评审可将缺陷检出率从 53% 提升至 80% 23。另一项研究发现,Claude-Codex 的迭代评审循环在 3 轮内捕获了任一工具单独都未发现的 14 个问题 24。两款工具互不替代;它们覆盖不同的威胁模型和任务画像。

关键要点

如果您正在选择工具:

  • 从您的安全需求出发。需要内核级沙箱?选 Codex。需要可编程的治理钩子?选 Claude Code。
  • 考虑团队情况。正在同时使用多款 AI 工具?AGENTS.md 可以避免跨工具的重复指令维护 14
  • 做决定之前,先用真实任务同时试用两款工具。blind judge 方法论 同样适用于个人评估。

如果您已经投入使用:

  • Claude Code 用户:无论如何都写一份 AGENTS.md。只需 20 分钟,就能让您的项目对 Codex、Cursor 和 Copilot 用户可用。
  • Codex 用户:持续关注钩子体系的成熟过程。当前的 notify 事件 9 只是起点;社区在 GitHub 上关于扩展钩子事件的请求仍在进行中 18
  • 两款工具都在快速迭代。本文中的对比保质期以月计,而非以年计。

FAQ

我能在同一个项目中同时使用两款工具吗?

可以。CLAUDE.md 和 AGENTS.md 是各自独立的文件,互不冲突。每款工具读取自己的指令文件,忽略另一款的。我在自己活跃的项目中两者并存。

哪款工具更适合初学者?

Codex 的配置门槛更低:三种沙箱模式和三种审批策略已能覆盖大多数使用场景 5。Claude Code 的威力来自钩子和 skills,需要投入时间去搭建。建议先从您更熟悉的模型(Claude 或 GPT)入手。

成本如何比较?

两者都通过各自的 API 按 token 计费。Claude Code 使用 Anthropic 的定价;Codex 使用 OpenAI 的额度体系。Composio 的独立基准测试发现,在可比结果下 Codex 消耗的 token 少 2–4 倍。在一项 Figma 插件任务中,Claude Code 使用了 620 万 token,而 Codex 只用了 150 万 22。Token 效率并不直接等同于成本(两者每 token 单价不同),但在预算受限的工作流中,Codex 更低的 token 消耗是可衡量的优势。

AGENTS.md 可以与 Claude Code 配合使用吗?

目前不行。Claude Code 读取 CLAUDE.md;Codex 读取 AGENTS.md。两者格式足够相似,内容可以轻松相互转译,但不存在自动交叉读取。由于内容高度重叠,两份都写的成本并不高。

哪款 IDE 集成更好?

Codex 拥有一款具备多任务和浮动窗口能力的桌面应用(截至 2026 年 2 月仅限 macOS)16。Claude Code 通过扩展集成到 VS Code,通过插件集成到 JetBrains(测试版)17。两者都表现良好;选择取决于您更偏好 CLI 优先(Claude Code)还是 GUI 优先(Codex)的工作流。

参考资料


  1. The Blind Judge: Claude vs Codex in 12 Tasks。盲测评估方法与结果 

  2. Claude Code Hooks Reference。26 种生命周期事件类型(截至 2026 年 4 月 v2.1.116),包括 PreToolUse、PostToolUse、SubagentStart、PermissionRequest、TaskCreated、CwdChanged 等。 

  3. Codex Security Documentation。Seatbelt(macOS)、Landlock + seccomp(Linux)、三种沙箱模式 

  4. OpenAI GPT-5.4 model docs(当前 Codex CLI 默认模型,2026 年 3 月 5 日发布;1,050,000 token 长上下文模式,最大输出 12.8 万 token,每 MTok 输入 $2.50 / 缓存 $0.25 / 输出 $15,超过 27.2 万 token 输入时长上下文乘数为 2×/1.5×)。另见 Introducing GPT-5.4(将 GPT-5.4 定位为吸纳了 GPT-5.3-Codex 的编码能力)以及 Introducing GPT-5.3-Codex——仍可继续使用的 40 万 / 12.8 万 Codex 家族前代模型,适用于对速度/成本更敏感的工作流。 

  5. Codex Configuration Reference。审批策略:untrustedon-requestnever 

  6. Claude Code Settings。五层配置级联 

  7. Codex Advanced Configuration。Profile(实验性) 

  8. Linux Foundation AAIF Announcement。AGENTS.md 已被 6 万 + 项目采用 

  9. Codex Advanced Configuration: Notifications。带 agent-turn-complete 事件的 notify 系统 

  10. Claude Code Subagents。用于显式生成子代理的 Task 工具 

  11. Anthropic MCP Foundation Announcement。10,000+ 活跃公共 MCP 服务器 

  12. Codex CLI Reference: Cloud Taskscodex cloud exec 用于委派到云端基础设施 

  13. OpenAI Co-founds the Agentic AI Foundation。AGENTS.md 已捐赠给 Linux 基金会下的 AAIF 

  14. AGENTS.md。跨工具兼容性:Codex、Cursor、Copilot、Amp、Windsurf、Gemini CLI 

  15. Codex CLI Features: Steer Mode。Enter 用于即时引导,Tab 用于下一回合跟进 

  16. Introducing the Codex App。具备多任务和浮动窗口的桌面应用(macOS) 

  17. Claude Code IDE Integrations。VS Code 扩展以及 JetBrains 插件(测试版) 

  18. Codex GitHub Issue #2109。社区对扩展钩子事件的请求 

  19. Check Point Research,Caught in the Hook: RCE and API Token Exfiltration Through Claude Code Project Files。CVE-2025-59536:恶意钩子在用户同意之前执行 

  20. NVIDIA AI Red Team,Practical Security Guidance for Sandboxing Agentic Workflows。代理式编码工具中的五类残余漏洞 

  21. Codex Sample Configurationagents.max_threads = 6 为默认值,可配置 

  22. Morph/Composio,Codex vs Claude Code: Benchmarks, Agent Teams & Limits Compared。在相同任务下的 token 消耗基准 

  23. Milvus/Zilliz,AI Code Review Gets Better When Models Debate。通过对抗式辩论将缺陷检出率从 53% 提升至 80% 

  24. Aseem Shrey,I Made Claude and Codex Argue Until My Code Plan Was Perfect。3 轮迭代评审中捕获 14 个问题 

Which Tool Should You Use?

Answer four questions to get a recommendation.

Loading quiz…

相关文章

Codex CLI 与 Claude Code 2026 年对比:架构、定价与中国访问

深度对比 Codex CLI 与 Claude Code:内核沙箱 vs 26 个钩子治理、Opus 4.7 vs GPT-5.4 基准测试、附人民币示例的按 token 定价,以及中国地区的云访问方案(Bedrock / Vertex /…

8 分钟阅读

AGENTS.md 模式:哪些做法真正改变了智能体行为

哪些 AGENTS.md 模式真正改变了智能体行为?应避免的反模式、有效的模式,以及覆盖8种工具的跨工具兼容性矩阵。

6 分钟阅读

为Claude Code构建自定义技能:完整教程

从零构建代码审查技能。涵盖目录结构、frontmatter字段、基于LLM的匹配、上下文预算和自动激活。

4 分钟阅读