← 所有文章

Claude Code vs Codex CLI 2026:決策參考指南

From the guides: Claude Code & Codex CLI

我將Claude Code作為主要開發工具使用。這個立場值得在開頭先說明,因為最扎實的比較文章來自於深入掌握一項工具,並誠實地測試另一項。歷經36場盲測對決(我讓兩項工具執行相同任務,並在不知道哪個輸出來自哪個工具的情況下評分1)以及數百次兩者的實際使用後,我發現「哪個比較好?」的答案其實是「取決於任務本身」。

Claude Code在深度重構、程式碼審查以及透過26種生命週期hook類型實現可程式化治理方面表現更佳;Codex CLI則在核心層級沙箱隔離與透過AGENTS.md實現跨工具可攜性方面勝出。Claude Code在應用層以您自行撰寫的hooks強制安全性,而Codex則在作業系統核心層強制安全性,使模型無法繞過限制。複雜的多檔案推理與可客製化工作流程,請選擇Claude Code。追求最大隔離性與跨8個以上工具運作的標準化代理指令,請選擇Codex。

快速摘要

Claude Code與Codex CLI以截然不同的架構解決同一個問題(AI輔助開發)。Claude Code透過hooks進行治理:26種生命週期事件類型以確定性方式強制執行政策2。Codex則透過沙箱進行治理:位於應用層之下的作業系統核心限制3。兩種做法都沒有絕對優劣之分。

在程式碼審查與安全驗證上,Claude Code持續勝過Codex。Codex在沙箱隔離、透過AGENTS.md實現的跨工具可攜性,以及雲端任務委派方面,則提供實質優勢。

快速決策:需要核心層級沙箱或跨工具AGENTS.md?→Codex。需要可程式化治理hooks或深度重構?→Claude Code。兩種安全模型都需要?→兩者並用。


兩者都是新手?請先從Claude Code指南Codex指南開始閱讀。本文假設讀者至少熟悉其中一項。

兩種思維模型

兩項工具都是三層架構,但各層的用途截然不同。

Claude Code:

  1. 推理層。Claude Code執行所選的Claude模型:Max與Team Premium方案為Opus 4.7、Pro、Team Standard、Enterprise以及API方案為Sonnet 4.6(Enterprise與API將於2026年4月23日切換至Opus 4.7)
  2. 執行層。Bash、檔案操作、git指令、MCP工具呼叫
  3. 治理層Hooks在26個生命週期點攔截動作2;權限控管範圍

Codex:

  1. 模型層。GPT-5.4(於2026年3月5日發布,快照版本為gpt-5.4-2026-03-05),具備1.05M長上下文模式/128K輸出;GPT-5.3-Codex仍提供400K/128K的使用選項4
  2. 沙箱層。作業系統核心強制執行(macOS上的Seatbelt、Linux上的Landlock + seccomp)3
  3. 核准層。三種政策(untrustedon-requestnever)在執行前控管變動操作5

關鍵差異在於治理發生的位置。Claude Code在應用層強制安全性;hooks是您自行撰寫用來攔截特定事件的程式。Codex則在核心層強制安全性;無論模型如何嘗試,作業系統都會阻止不被允許的操作。

為何這個差異至關重要:應用層治理是可程式化的。您可以編寫業務邏輯、執行linter、驗證schema,只要能用程式碼表達的都可以。核心層治理則無法逃脫。模型無法繞過限制,因為作業系統在syscall觸及應用程式之前就會拒絕它。每種安全架構都在表達力與強度之間權衡,而這兩項工具正位於光譜的兩端。

設定哲學

Claude Code使用JSON。Codex使用TOML。兩者都支援階層範疇。哲學差異在於對上下文切換的思考方式。

Claude Code:分層設定

// ~/.claude/settings.json (user-level)
{
  "permissions": {
    "allow": ["Bash(git *)"],
    "deny": ["Bash(rm -rf *)"]
  }
}
// .claude/settings.json (project-level, inherits user)
{
  "permissions": {
    "allow": ["Bash(npm test)"]
  }
}

Claude Code從多層解析設定:受管設定(最高優先權)→指令列→本地專案→共享專案→使用者預設值6。記憶檔案(CLAUDE.md)遵循自己的範疇規則:使用者→專案→本地。Skills與hooks又新增額外層級。這種靈活性很強大,但從任何單一檔案都無法看到目前啟用的設定;您必須透過閱讀階層結構才能拼湊出完整樣貌。

Codex:具明確切換機制的profile

# ~/.codex/config.toml
model = "gpt-5.3-codex"
approval_policy = "on-request"

[profiles.deep-review]
model = "gpt-5-pro"
approval_policy = "never"

[profiles.careful]
approval_policy = "untrusted"
codex --profile careful "Review this PR"
codex --profile deep-review "Audit this module"

Codex的profile讓您可以透過一個flag在不同設定之間切換7。不需要思考層級解析問題;啟用的設定永遠是明確的。對於標準化核准政策的團隊而言,這種方式更容易稽核。Profile功能目前仍處於實驗階段7

安全模型

安全性是兩項工具在架構上最深層的分歧所在。

Claude Code:應用層的確定性hooks

Hooks會在動作執行前進行攔截。針對BashPreToolUse hook可以檢查每一個指令,並封鎖危險模式2:

# Hook: git-safety-guardian (PreToolUse:Bash)
if echo "$tool_input" | grep -q "push.*--force.*main"; then
  echo '{"decision": "block", "reason": "Force push to main blocked"}'
fi

優勢:hooks本身就是程式。您可以編寫任意複雜的安全邏輯:檢查檔案路徑、驗證JSON、強制命名規範、執行linter。我自己就執行了95個hooks,涵蓋從憑證偵測到品質門檻等各種用途。

弱點:hooks運作於應用層。2025年,Check Point Research公開了CVE-2025-59536,展示了專案設定檔中的惡意hooks可以在Claude Code初始化期間執行shell指令,早於使用者看到同意對話框之前19。Anthropic在幾週內修補了此漏洞,但這次揭露驗證了一項架構隱憂:應用層強制措施與代理共享同一個行程邊界。NVIDIA的AI Red Team指引也得出相同結論:「hooks與MCP初始化函式通常在沙箱環境之外執行,提供了逃脫沙箱控制的機會」20

Codex:核心層級沙箱

Codex在作業系統層級限制代理。在macOS上,Seatbelt profile限制檔案系統存取、網路連線與行程生成3。在Linux上,Landlock + seccomp提供等效的限制,並可透過設定啟用選用的Bubblewrap(bwrap)管線3

# Three sandbox modes
codex --sandbox read-only           # Agent can read but not write
codex --sandbox workspace-write     # Agent writes only in project directory (default)
codex --sandbox danger-full-access  # No restrictions (named to signal risk)

優勢:核心層級的強制措施位於應用層之下。模型無法透過巧妙的指令繞過限制;作業系統在syscall執行之前就會拒絕3。完整存取模式前綴使用的danger-反映出:解除沙箱限制屬於例外性操作,而非日常設定。

弱點:核心限制是二元的。您可以允許或拒絕檔案系統寫入,但無法說「允許寫入src/但封鎖寫入config/,除非變更通過linter檢查」。這種細緻的治理需要應用層的邏輯。

這個取捨是真實存在的。Hooks提供細緻且可程式化的安全性,但邊界較弱。沙箱提供更強的邊界,但控制較為粗略。以下是一套快速決策法則:

  • 內部信任、外部程式碼:審查來自不明貢獻者的PR時,請使用Codex搭配read-only沙箱。無論模型如何嘗試,核心都會阻止檔案修改。
  • 可信程式碼、政策強制:當您信任程式碼庫但需要強制執行組織標準時(提交訊息格式、憑證掃描、linting門檻),請使用Claude Code的hooks。
  • 兩種考量並存:兩者並用。先以Codex建立初始安全邊界,再切換至Claude Code進行治理密集的審查。

擴展性

兩項工具都支援客製化,但各機制的成熟度有所差異。

機制 Claude Code Codex
專案指令 CLAUDE.md(僅限Claude) AGENTS.md(跨工具標準,60K+專案)8
生命週期hooks 26種事件類型(成熟)2 agent-turn-complete上的notify(初步)9
Skills/指令 Skills + 斜線指令 透過AGENTS.md模式由社群維護
子代理委派 明確的Task工具(使用者導向生成)10 內部(預設最多6個並行,不對使用者開放)21
MCP整合 STDIO + HTTP(10,000+公開伺服器)11 STDIO + HTTP
雲端委派 原生不支援 雲端任務(實驗性:codex cloud exec)12

Claude Code領先之處:Hooks。26事件生命週期系統,涵蓋PreToolUsePostToolUseUserPromptSubmitSessionStartStopSubagentStartSubagentStopPreCompactPermissionRequestPermissionDeniedTaskCreatedCwdChangedFileChanged等眾多事件2,實現了Codex單一事件通知系統無法匹敵的治理模式。若您需要強制執行品質門檻、在提交前偵測憑證外洩,或自動注入上下文,Claude Code的hook架構顯著更為成熟。

Codex領先之處:跨工具可攜性。AGENTS.md是由Linux Foundation下的Agentic AI Foundation管理的開放標準13,已被超過60,000個專案採用8。同一份指令檔可在Codex、Cursor、GitHub Copilot、Amp、Windsurf與Gemini CLI(需要設定)中運作14。CLAUDE.md雖然強大,但僅能綁定於Claude Code。雲端任務委派也是Codex獨有的功能:codex cloud exec將長時間執行的工作卸載到OpenAI基礎設施並回傳diff12,這是Claude Code目前原生不提供的工作流程。

各項工具的優勢場景

根據36場盲測對決(我將相同的提示送給兩項工具並盲評輸出)以及日常生產環境中的使用經驗:

類別 Claude Code Codex 平手
程式碼審查與安全性 8 4 0
功能實作 5 5 2
重構 4 3 1
DevOps與CI/CD 1 3 0

完整方法論與各場對決評分請見The Blind Judge

Claude Code勝出

  • 程式碼審查與安全驗證。在審查任務中,Claude Code在12場有明確結果的對決中贏得8場1品質哲學系統與證據門檻能捕捉到Codex較為程序化的方式漏掉的問題。
  • 治理密集的工作流程。若您的工作流程需要預提交檢查、憑證掃描、輸出驗證或品質門檻,hooks就是合適的機制。Codex的通知系統在代理回合完成才觸發9;時機太晚,無法封鎖危險動作。
  • 複雜的多代理協作。透過Task工具明確委派子代理10,結合協商系統,實現多個專業代理以隔離上下文協同合作的工作流程。
  • 深度程式碼庫重構。Opus擅長在長時間會話中保持架構層級的上下文。管理Claude Codehook/skill/規則階層的上下文工程模式,直接對應了模型如何推理大型程式碼庫。

Codex勝出

  • 沙箱關鍵環境。若您讓AI代理處理不可信程式碼、外部PR,或在CI/CD管線中運作,需要對檔案系統與網路存取提供強硬保證,Codex的核心層級沙箱就是合適的工具3。應用層hooks無法提供相同的保證。
  • 跨工具團隊。若您的團隊使用多種AI程式設計工具,AGENTS.md提供單一指令檔,可在Codex、Cursor、Copilot、Amp、Windsurf等工具中運作14。不需要在CLAUDE.md、.cursor/rules與Copilot指令之間重複維護。
  • 雲端非同步工作流程。codex cloud exec將任務委派給雲端基礎設施並回傳diff12。對於CI/CD整合或批次處理而言,這是Claude Code原生不提供的工作流程。
  • 即時引導。Codex的steer模式讓您可以在任務進行中以Enter注入指令(立即生效),或以Tab將後續指令加入佇列(下一回合執行)15。Claude Code支援後續訊息,但不支援回合進行中的注入。
  • 桌面體驗。Codex的桌面應用程式(macOS)支援跨平行worktree的多工與浮動彈出視窗16。Claude Code整合了VS Code與JetBrains17,但以CLI為先。

兩者並用

兩項工具不會衝突。CLAUDE.md與AGENTS.md可共存於同一個儲存庫。以下是我的設定:

my-project/
├── .claude/
│   └── settings.json     # Claude Code project config
├── CLAUDE.md              # Claude Code instructions
├── AGENTS.md              # Codex + Cursor + Copilot instructions
└── codex.md               # Codex project config (optional)

具體的雙工具工作流程:我日常開發使用Claude Code:功能實作、程式碼審查、多檔案重構,hooks會在每一步強制執行品質門檻。當外部貢獻者開啟PR時,我切換至Codex搭配--sandbox read-only來審查他們的變更,以處理不可信的程式碼。當我需要對架構決策尋求第二意見時,我會將相同的提示送給兩項工具,並透過盲判方式盲評其輸出。

雙工具做法不僅有我個人測試的支持,也有實證依據。Milvus的研究發現,多個AI模型之間的對抗式審查將錯誤偵測率從53%提升至80%23。另一項研究發現,迭代式Claude-Codex審查循環在3輪中捕捉到14個問題,而任何單一工具都無法獨自找出這些問題24。兩項工具誰也無法取代對方;它們涵蓋不同的威脅模型與任務類型。

關鍵重點

若您正在選擇工具:

  • 從您的安全需求著手。需要核心層級沙箱?選Codex。需要可程式化治理hooks?選Claude Code。
  • 考量您的團隊。已在使用多種AI工具?AGENTS.md可避免跨工具的重複指令維護14
  • 決定之前,在真實任務上試用兩者。盲判方法論也適用於個人評估。

若您已有投入:

  • Claude Code使用者:還是請撰寫一份AGENTS.md。只需20分鐘,就能讓Codex、Cursor與Copilot使用者也能存取您的專案。
  • Codex使用者:持續關注hooks系統的成熟度。目前的notify事件9只是起點;社群對擴展hook事件的需求在GitHub上仍很活躍18
  • 兩項工具都在快速進步。本文的比較保存期限以月計,而非以年計。

FAQ

同一個專案可以同時使用兩項工具嗎?

可以。CLAUDE.md與AGENTS.md是分開的檔案,彼此不衝突。每項工具讀取自己的指令檔,並忽略另一個。我在活躍的專案中都同時維護兩者。

對初學者來說哪項工具比較適合?

Codex的設定門檻較低:三種沙箱模式與三種核准政策涵蓋大多數使用情境5。Claude Code的強大之處來自hooks與skills,需要投入時間設定。建議從您已經熟悉的模型(Claude或GPT)開始。

成本如何比較?

兩者都透過各自的API以token計價。Claude Code採用Anthropic的定價;Codex則採用OpenAI的點數系統。Composio的獨立基準測試發現,在可比較的結果下,Codex消耗的token少2至4倍。在一項Figma外掛任務中,Claude Code使用了620萬token,而Codex僅使用150萬22。Token效率並不直接等同於成本(每個token的定價不同),但Codex較低的token消耗量,對預算有限的工作流程而言是可衡量的優勢。

AGENTS.md可以和Claude Code一起運作嗎?

目前不行。Claude Code讀取CLAUDE.md;Codex讀取AGENTS.md。兩種格式夠相似,內容可輕鬆轉換,但沒有自動跨工具讀取機制。由於內容重疊,同時撰寫兩份所需的額外努力相當有限。

哪個IDE整合比較好?

Codex提供具備多工與浮動視窗的桌面應用程式(截至2026年2月僅支援macOS)16。Claude Code透過擴充功能整合VS Code,並透過外掛(beta)整合JetBrains17。兩者都運作良好;選擇取決於您偏好CLI優先(Claude Code)或GUI優先(Codex)的工作流程。

參考資料


  1. The Blind Judge: Claude vs Codex in 12 Tasks. Blind evaluation methodology and results 

  2. Claude Code Hooks Reference. 26 lifecycle event types (as of v2.1.116, April 2026) including PreToolUse, PostToolUse, SubagentStart, PermissionRequest, TaskCreated, CwdChanged, and more. 

  3. Codex Security Documentation. Seatbelt (macOS), Landlock + seccomp (Linux), three sandbox modes 

  4. OpenAI GPT-5.4 model docs (current Codex CLI default, released March 5, 2026; 1,050,000 token long-context mode, 128K max output, $2.50 input / $0.25 cached / $15 output per MTok, 2×/1.5× long-context multiplier over 272K input). See also Introducing GPT-5.4 (positions GPT-5.4 as incorporating GPT-5.3-Codex’s coding capabilities) and Introducing GPT-5.3-Codex for the 400K / 128K Codex-family predecessor that remains available for speed/cost-focused workflows. 

  5. Codex Configuration Reference. Approval policies: untrusted, on-request, never 

  6. Claude Code Settings. Five-layer configuration cascade 

  7. Codex Advanced Configuration. Profiles (experimental) 

  8. Linux Foundation AAIF Announcement. AGENTS.md adopted by 60,000+ projects 

  9. Codex Advanced Configuration: Notifications. notify system with agent-turn-complete event 

  10. Claude Code Subagents. Task tool for explicit subagent spawning 

  11. Anthropic MCP Foundation Announcement. 10,000+ active public MCP servers 

  12. Codex CLI Reference: Cloud Tasks. codex cloud exec for delegating to cloud infrastructure 

  13. OpenAI Co-founds the Agentic AI Foundation. AGENTS.md donated to AAIF under the Linux Foundation 

  14. AGENTS.md. Cross-tool compatibility: Codex, Cursor, Copilot, Amp, Windsurf, Gemini CLI 

  15. Codex CLI Features: Steer Mode. Enter for immediate steering, Tab for next-turn follow-up 

  16. Introducing the Codex App. Desktop app with multi-tasking and floating windows (macOS) 

  17. Claude Code IDE Integrations. VS Code extension and JetBrains plugin (beta) 

  18. Codex GitHub Issue #2109. Community request for expanded hook events 

  19. Check Point Research, Caught in the Hook: RCE and API Token Exfiltration Through Claude Code Project Files. CVE-2025-59536: malicious hooks executing before user consent 

  20. NVIDIA AI Red Team, Practical Security Guidance for Sandboxing Agentic Workflows. Five residual vulnerabilities in agentic coding tools 

  21. Codex Sample Configuration. agents.max_threads = 6 default, configurable 

  22. Morph/Composio, Codex vs Claude Code: Benchmarks, Agent Teams & Limits Compared. Token consumption benchmarks across identical tasks 

  23. Milvus/Zilliz, AI Code Review Gets Better When Models Debate. 53% to 80% bug detection via adversarial debate 

  24. Aseem Shrey, I Made Claude and Codex Argue Until My Code Plan Was Perfect. 14 issues caught in 3 rounds of iterative review 

Which Tool Should You Use?

Answer four questions to get a recommendation.

Loading quiz…

相關文章

Codex CLI vs Claude Code 2026:架構、定價與中國存取

Codex CLI 與 Claude Code 的深度比較:核心層沙盒 vs 26 個掛鉤治理、Opus 4.7 vs GPT-5.4 基準測試、含人民幣範例的按 token 計費,以及從中國的雲端存取(Bedrock / Vertex /…

8 分鐘閱讀

AGENTS.md 模式:哪些真正改變了代理行為

哪些 AGENTS.md 模式真正改變了代理行為?應避免的反模式、有效的模式,以及涵蓋8種工具的跨工具相容性矩陣。

6 分鐘閱讀

為 Claude Code 打造自訂技能:完整教學指南

從零建構程式碼審查技能。涵蓋目錄結構、frontmatter欄位、基於LLM的比對、上下文預算和自動啟動。

5 分鐘閱讀