Codex CLI vs Claude Code 2026:架構、定價與中國存取
Codex CLI 與 Claude Code 皆以終端機原生的代理工具形式推出,但兩者透過根本不同的機制來強制執行安全性:核心層沙盒對應用層掛鉤。這一項設計決定延伸影響到各工具處理組態、權限、多代理工作流程與團隊治理的方式。以下比較以具體的決策標準映射這些差異,延伸我在本站建構的 AI 工程領域。
我以 Claude Code 作為主要工具,這項偏見我在此先行聲明。本文的觀察來自於日常在生產任務中使用兩項工具、盲測評估以及雙工具工作流程的經驗。
TL;DR: Codex 在 OS 核心層(Seatbelt、Landlock、seccomp)1強制執行安全性,控制粒度較粗。Claude Code 透過 26 個可程式化掛鉤事件2在應用層強制執行安全性,控制粒度較細。兩項工具現在皆能在大型情境下運作:Opus 4.7 上的 Claude Code 以標準定價開放 1M tokens5;GPT-5.4 上的 Codex CLI(2026 年 3 月 5 日發布的 OpenAI 當前前沿模型,整合了 GPT-5.3-Codex 的程式碼能力)開放至多 1.05M 情境視窗,最大輸出 128K,但除非明確啟用長情境模式,預設情境為 272K4。使用 Codex 進行雲端沙盒任務委派與核心層隔離。使用 Claude Code 進行可程式化治理、長時程重構,以及以安全性為重點的程式碼審查。最佳結果來自兩者並用。
要點總結
- 獨立開發者: 從符合您主要語言生態系的工具開始。兩項工具可在同一儲存庫中共存,沒有衝突(CLAUDE.md 和 AGENTS.md 彼此獨立)。
- 團隊主管: Codex 設定檔(profiles)提供明確、可稽核的組態切換。Claude Code 的分層階層則自動套用上下文相關的規則。根據團隊偏好明確控制或自動適應來選擇。
- 安全工程師: Codex 的核心沙盒防止代理在 OS 層繞過限制。Claude Code 的掛鉤與代理共用行程邊界,但允許任意驗證邏輯。請根據您的威脅模型來選擇工具。
您應該選哪一項工具?(依角色的決策路徑)
比較的答案取決於您是誰。以下四條路徑,對應本頁最常見的四類讀者各一條。
個人專案或小型團隊的獨立開發者
預設:Claude Code。 Opus 4.7 上以標準定價提供的 1M token 情境、26 個掛鉤的治理系統,以及外掛程式市集,涵蓋了獨立開發者日常遇到的情境(大型程式碼庫重構、工作階段連續性、儲存時自動格式化)。Pro 方案每月 $20 或 Max 方案每月 $100-200 既可預測又慷慨。
納入 Codex CLI 的時機: 當您需要核心層沙盒進行一次性的不受信任程式碼審查時,或當 ChatGPT Pro/Plus 已涵蓋您主要的 AI 支出,加上 Claude 顯得多餘時。兩項工具可乾淨共存;CLAUDE.md 與 AGENTS.md 並列放置即可。
10-50 人工程組織的團隊主管
預設:Claude Code。 可程式化掛鉤(linting 閘門、安全掃描、禁用指令封鎖)以確定性方式編碼團隊標準,而不是期望模型遵循提示指令。Managed settings 讓主管設定組織層級的政策,個別開發者無法覆寫。claude agents CLI 和 Agent Teams 基本單元符合團隊實際用於審查工作流程的模式。
納入 Codex CLI 的時機: 當安全敏感的審查需要核心級隔離時(例如審查外部承包商程式碼、來自未知作者的開源 PR),或當團隊已透過 Azure OpenAI / Microsoft Foundry 投入 OpenAI 工具鏈時。將其作為聚焦的審查工具使用,而非日常主力。
以安全為主的審查者或紅隊研究員
預設:Codex CLI(用於對抗性輸入)+ Claude Code(用於受治理的執行)。 Codex 在 macOS Seatbelt / Linux Landlock+seccomp 的核心沙盒拒絕應用層以下的系統呼叫,因此懷有惡意的代理實際上無法觸及您未允許的檔案系統區域。Claude Code 的掛鉤系統雖強大,卻共用行程邊界。請選擇符合威脅的工具。
納入 Claude Code 的時機: 當您需要可程式化的審查後動作(分流掛鉤、稽核記錄、自動報告生成)時。典型的工作流程:Codex 在沙盒約束下檢查,Claude Code 處理分流與政策執行層。
位於中國大陸的開發者
兩項工具都能運作,但連線性與成本對選擇的影響,比功能本身更大。請在投入之前先跳至從中國存取 Codex 與 Claude Code一節。
核心架構分歧
Codex 與 Claude Code 最深層的差異在於治理發生的位置。Codex 在核心層透過 macOS 上的 Seatbelt、Linux 上的 Landlock 與 seccomp 強制執行安全性1。OS 在這些操作到達應用程式之前就限制了檔案系統存取、網路呼叫與行程衍生。模型無法繞過這些限制,因為作業系統會在系統呼叫執行之前拒絕該呼叫。
Claude Code 透過掛鉤在應用層強制執行安全性,掛鉤是在 26 個生命週期點攔截動作的程式2。在 Bash 上的 PreToolUse 掛鉤可以檢查每個指令、以任意邏輯驗證,並以退出碼 2 封鎖之。掛鉤系統提供可程式化治理:編碼業務規則、執行 linter、掃描憑證。其折衷在於,應用層的強制執行與代理共用行程邊界。核心層的強制執行則不然。
每種安全架構都在表達性與邊界強度之間取得平衡。這兩項工具位於該光譜的兩端,而這種定位是刻意為之。當威脅模型包含可能具對抗性的代理(審查惡意程式碼、執行不受信任的指令碼)時,核心沙盒是合理的。當威脅模型是過度自信但善意的代理(您自己的程式碼、您自己的團隊、您自己的慣例)時,應用層掛鉤是合理的。大多數開發者在不同時候需要這兩種威脅模型。
組態哲學
Codex 使用 TOML 作為組態。Claude Code 使用 JSON。格式差異只是表象。哲學差異則否。
Codex 以設定檔(profiles)組織組態,是您以 --profile 明確切換的具名預設組合。careful 設定檔將 approval_policy = "untrusted",並積極沙盒化9。deep-review 設定檔則切換至功能更強的模型。您總是知道哪個組態正在作用,因為您依名稱選取它。指令層使用 AGENTS.md,這是 Linux Foundation 的 Agentic AI Foundation 底下的開放標準3,可由 Codex、Cursor、Copilot、Amp、Windsurf 與 Gemini CLI 讀取。
Claude Code 以分層階層組織組態,五層從 managed settings(最高優先)向下經指令列、本機專案、共用專案,至使用者預設。CLAUDE.md 檔案在使用者、專案與本機層級作用。Skills、hooks、rules 目錄再增加層級。上下文適切的組態會自動套用,但作用中的組態無法從單一檔案看出。您需要讀取階層來重建它。
設定檔偏重明確性與可稽核性。您可以透過檢視傳入了哪個 --profile 旗標來回答「哪個組態正在作用?」。分層階層偏重自動化與上下文敏感性。正確的上下文會自動套用,但要回答「哪個組態正在作用?」則需讀取至多五層並了解其合併順序。這個折衷是真實的:我偶爾會對使用者層級的 CLAUDE.md 覆寫感到驚訝,它與專案層級的指令衝突,而這在明確的設定檔下不會發生。
安全模型比較
| 面向 | Codex CLI | Claude Code |
|---|---|---|
| 沙盒方式 | 核心層(macOS 的 Seatbelt、Linux 的 Landlock + seccomp) | 應用層掛鉤(26 種生命週期事件類型) |
| 權限層級 | 三種沙盒模式:read-only、workspace-write、danger-full-access |
每項工具可細粒度的樣式型允許/拒絕清單 |
| 逃逸抵抗力 | 高:OS 在應用邊界之下拒絕系統呼叫 | 中:掛鉤與代理共用行程邊界 |
| 可程式化性 | 低:每個沙盒模式為二元的允許/拒絕 | 高:掛鉤指令碼中可使用任意程式碼(bash、Python 等) |
| 核准政策 | 三層級:untrusted、on-request、never |
每項工具可用正則比對的權限樣式 |
| 網路限制 | 沙盒控制對外網路存取 | 掛鉤可檢查但無法以核心封鎖網路呼叫 |
| 已知漏洞類別 | 沙盒逃逸(理論上;截至 2026 年 3 月未有公開 CVE 報告) | 專案組態中的惡意掛鉤(透過專案信任提示緩解) |
模式:Codex 提供較強的邊界搭配較粗的控制。Claude Code 提供較弱的邊界搭配較細的控制11。正確的選擇取決於您的威脅模型。審查不受信任的外部程式碼?選核心沙盒。在受信任的程式碼上強制組織的編碼標準?選可程式化掛鉤。
情境與模型
截至 2026 年 4 月,Codex CLI 預設為 GPT-5.4(2026 年 3 月 5 日發布,快照 gpt-5.4-2026-03-05)4。GPT-5.4 是 OpenAI 當前前沿的通用模型,依據 OpenAI 發布文章,整合了 GPT-5.3-Codex 的程式碼能力,同時新增原生 Computer Use 與更廣泛的代理工作流程支援。預設情境為 272K,透過 model_context_window / model_auto_compact_token_limit 組態可啟用 1.05M-token 的實驗性長情境模式。輸出上限為 128K。4 該工作階段中超過 272K 輸入 tokens 的長情境提示,將以 2× 輸入 / 1.5× 輸出計費。4 GPT-5.3-Codex 並未棄用,仍可供偏好程式碼最佳化之成本/速度配置的團隊使用。
Claude Code 的預設模型依方案層級而定,依 Anthropic 模型組態文件5所述:Max 與 Team Premium 預設為 Opus 4.7(2026 年 4 月 16 日發布);Pro、Team Standard、Enterprise 及按 token 付費的 Anthropic API 預設為 Sonnet 4.6,且 Enterprise 與 API 於 2026 年 4 月 23 日轉為 Opus 4.7。Opus 4.7 在使用時以標準定價開放 1M token 情境視窗(無長情境溢價)。兩家廠商的模型預設值與情境上限會隨發布而改變;請查看各廠商頁面確認當前數值。
兩項工具現在都能妥善處理大型情境。Claude Code 在 Opus 4.7 以標準定價達到 1M,無溢價。GPT-5.4 上的 Codex CLI 以啟用長情境模式達到 1.05M,當輸入超過 272K 時,該工作階段以 2×/1.5× 倍率計費。對於 monorepo 擷取而言,實務差異已縮小;對大多數專案來說,擷取品質(各工具尋找相關程式碼的能力)比原始視窗大小更重要。
在 2026 年 4 月的公開基準上,Opus 4.7 在 SWE-bench Verified(87.6% 對 GPT-5-Codex 的 74.9% 基線)、SWE-bench Pro(64.3% 對 GPT-5.4 官方的 57.7% 與 GPT-5.3-Codex 的 56.8%)及 CursorBench(70% 對 Opus 4.6 的 58%)領先12。在 Terminal-Bench 2.0 上,Opus 4.7 為 69.4%;GPT-5.4 的 75.1% 與 GPT-5.3-Codex 的 77.3% 在此領先12。GPT-5.4 的 SWE-bench Verified 分數在撰寫本文時並未公布於官方模型或發布頁面上;第三方報導回報約為 80%,但對於廠商未公布的數字請謹慎看待。基準領導地位在版本之間擺盪;在投入之前請查看廠商頁面。在我的 Opus 舊版本盲測評估中,它在審查與安全任務上即使在較小情境下也表現較佳,同樣模式在 1M 下依然成立。
兩項工具皆支援模型路由。Codex 依設定檔選擇模型9。Claude Code 的預設依上述方案層級而定(Max 與 Team Premium 為 Opus 4.7,Pro 與 Team Standard、Enterprise 與 API 為 Sonnet 4.6,且 Enterprise 與 API 於 2026 年 4 月 23 日轉為 Opus 4.7),且每次呼叫皆可透過 --model 或設定層級組態覆寫。
定價深度剖析
定價分為三種模式:按 token 的 API 計費、含代理 CLI 使用的訂閱制,以及透過 AWS / GCP / Azure 的雲端廠商計費。最便宜的路徑取決於每日 token 用量,而非標價。
Claude Code 定價(2026 年 4 月)
按 token(Anthropic API):13
| 模型 | 輸入($/MTok) | 輸出($/MTok) | 快取讀取($/MTok) | 5 分鐘快取寫入($/MTok) | 1 小時快取寫入($/MTok) |
|---|---|---|---|---|---|
| Claude Opus 4.7 | $5.00 | $25.00 | $0.50 | $6.25 | $10.00 |
| Claude Opus 4.6 | $5.00 | $25.00 | $0.50 | $6.25 | $10.00 |
| Claude Sonnet 4.6 | $3.00 | $15.00 | $0.30 | $3.75 | $6.00 |
| Claude Haiku 4.5 | $1.00 | $5.00 | $0.10 | $1.25 | $2.00 |
無長情境溢價:Opus 4.7 的 1M token 視窗依標準費率計價。Batch API 提供輸入與輸出 50% 折扣。13
含 Claude Code 的訂閱制:8
| 方案 | 月費 | Claude Code 使用概況 |
|---|---|---|
| Pro | $20 | 每日額度寬裕;在持續重度代理工作下會觸發額外用量閘控 |
| Max 5x | $100 | 5× Pro 的 Claude 用量;獨立開發者典型的日常主力額度 |
| Max 20x | $200 | 20× Pro 的用量;涵蓋大多數單人重度重構日 |
| Team Standard | $30/位 | 每席位含共用管理控制 |
| Team Premium | $150/位 | 所有席位皆含完整 Opus 4.7 預設 |
| Enterprise | 客製 | 每席位含受管政策、SSO 與稽核 |
雲端廠商定價依照 AWS Bedrock / Google Vertex AI / Microsoft Foundry 的牌價,與 Anthropic 直接 API 密切相符,但在區域可用性與資料駐留上有差異。
Codex CLI 定價(2026 年 4 月)
按 token(OpenAI API):14
定價會隨 OpenAI 輪替模型變體而改變;以下為截至 2026 年 4 月 19 日驗證的費率。
| 模型 | 輸入($/MTok) | 快取輸入($/MTok) | 輸出($/MTok) | 情境/最大輸出 |
|---|---|---|---|---|
| GPT-5.4(當前預設) | $2.50 | $0.25 | $15.00 | 1,050,000 ctx / 128K 輸出 |
| GPT-5.3-Codex | 請見 OpenAI 定價 | N/A | 請見 OpenAI 定價 | 400K 輸入 / 128K 輸出 |
| GPT-5.2-Codex | 請見 OpenAI 定價 | N/A | 請見 OpenAI 定價 | 400K 輸入 / 128K 輸出 |
| GPT-5 | 依層級而異 | N/A | 依層級而異 | 至多 400K 輸入 |
GPT-5.4 上超過 272K 輸入 tokens 的長情境提示,在該工作階段以 2× 輸入與 1.5× 輸出計費,適用於 standard、batch 與 flex 層級。4
含 Codex 的訂閱制:
ChatGPT Plus($20/月)、Pro(5× 為 $100/月、20× 為 $200/月)與 Business(按量付費的純 Codex 席位,或標準 ChatGPT Business 席位含 Codex 使用上限)皆含 Codex 系列用量,並有方案專屬上限。Pro 5× 在 2026 年 5 月 31 日前暫時提升用量至 10× Plus;Pro 20× 的 5 小時 Codex 上限在同一促銷期內以 25× Plus 運作。GPT-5.4、GPT-5.3-Codex 與 GPT-5.2-Codex 皆可透過 OpenAI API 使用,具公布的按 token 定價與支援 API 層級的速率限制(免費層級不支援)。14 僅用 API 的團隊可完全跳過訂閱;當捆綁的 Codex 用量加上更廣泛的聊天介面對團隊更有價值時,才使用 ChatGPT 訂閱。
Opus 4.7 的 1M 情境實際花費多少
實務問題:「若我將 1M-token 的程式碼庫餵給 Opus 4.7,帳單多少?」
單次完整情境傳遞搭配 10K-token 回應: - 輸入:1,000,000 tokens × $5.00/MTok = $5.00 - 輸出:10,000 tokens × $25.00/MTok = $0.25 - 總計(無快取):每次 $5.25
在 1M-token 程式碼庫上以 5 分鐘提示快取(假設單次快取寫入,後續重複讀取): - 首次寫入:1,000,000 × $6.25/MTok = $6.25(一次性) - 5 分鐘內每次後續讀取:1,000,000 × $0.50/MTok + 10,000 輸出 × $25/MTok = $0.75 - 工作階段中讀取五次:$6.25 +(5 × $0.75)= 五次完整情境傳遞共 $10.00
人民幣範例使用參考匯率 1 USD ≈ 6.82 CNY(PBOC 中心平價在 2026 年 4 月前後集中於 6.82-6.90 區間):1M-token 程式碼庫上五次完整情境 Opus 4.7 工作階段約 ¥68.20。 匯率會變動;引用於採購前請先確認當前匯率。對預算編列而言,重要的是計算方式,而非確切的人民幣數字。
GPT-5.4 長情境模式的等效計算: - 輸入:1,000,000 tokens ×($2.50 基準 × 2 長情境倍率)= $5.00 - 輸出:10,000 tokens ×($15.00 基準 × 1.5 長情境倍率)= $0.225 - 總計(無快取):每次 $5.23 — 與 Opus 4.7 未快取的完整 1M 情境價格相差不到 1%
在 GPT-5.2-Codex(400K 輸入上限)上,要擷取相同的 1M 程式碼庫至少需要三次傳遞,這會改變工作階段層級的成本配置。大多數中國開發者團隊並不需要每日完整 1M 情境,所以實際的比較要透過典型的工作階段大小(50K-200K tokens)進行,兩項工具在此皆每次工作階段低於 $1。
訂閱何時勝過按 token
粗略經驗法則(並非公布的 token 額度,因為 Anthropic 未公布一套):輕度互動式使用 Pro 可從容容納;在 Opus 4.7 上較重度的每日代理工作流程會推向 Max 5x 或 Max 20x 範圍;持續的完整情境(每次工作階段 $5+)工作負載可能在按 token 付費搭配積極提示快取的情況下,比上限型訂閱更便宜。在 Pro 方案上執行一整週具代表性的工作,查看您的 Claude 用量儀表板,並視需要提升層級,勝過從公式猜測。團隊做相同的每位使用者數學,再加上 Enterprise 層級吸收的管理、政策與 SSO 額外負擔。
從中國存取 Codex 與 Claude Code
依各家供應商公布的支援國家清單,第一方 OpenAI 與 Anthropic API 存取在中國大陸未獲官方支援。18 開發者有時會透過非大陸網路與帳戶繞行,但這麼做會帶來帳號停權與合規風險,您需要衡量此風險與您所主張的生產力情境之間的取捨。CLI 二進位檔一旦下載,即可在本機安裝執行;日常代理迴圈行為各處皆同。合法路徑存在於雲端廠商的路由上。
AWS Bedrock 區域可用性
Anthropic 的 Claude 模型透過 Amazon Bedrock 在特定 AWS 區域提供。截至 2026 年 4 月,公開的 Bedrock runtime endpoint 涵蓋 APAC 區域,包括東京、首爾、新加坡、孟買與雪梨,但目前中國大陸或香港沒有運作中的 Bedrock runtime endpoint。15 透過 AWS 路由的中國客戶通常使用新加坡或東京,並承擔相關的延遲成本。
Google Vertex AI 區域可用性
Google Cloud 在亞太區域提供 Vertex AI 生成式 AI 端點。16 特定的 Claude 模型可用性依區域而異,asia-east2(香港)歷來為中國南方使用者提供較低延遲。在投入之前,請驗證您所選 Vertex 區域的 Claude 模型可用性;覆蓋會隨時間擴展,但在 APAC 並不一致。
Microsoft Foundry
Claude 透過 Microsoft Foundry 在 Azure 全域標準部署上可用,通常需要符合資格的 Enterprise / MCA-E 訂閱。Claude 未公開記載於由世紀互聯營運的 Azure 中國可用,後者為獨立的主權雲,服務目錄不同。使用 Foundry 的中國客戶透過全域 Azure 範圍路由,而非 Azure 中國。17
從中國使用 OpenAI Codex
OpenAI 的支援國家清單未包含中國大陸;OpenAI 警告從未支援地區存取可能導致帳號封鎖或停權。18 Azure OpenAI 在特定全域區域可用(非 Azure 中國),追求合規存取的中國企業通常透過允許區域中的 Azure OpenAI 路由,並訂定適當的合約條款,而非嘗試使用直接的 OpenAI API。
中國供應商的模型替代方案
DeepSeek、Qwen(阿里巴巴)與 Kimi(Moonshot)是中國團隊因成本與延遲因素而評估的模型層級替代方案。這些是模型,不是代理 CLI。將它們與 Claude Code 搭配需要 Anthropic API 相容的轉接器或閘道(Claude Code 期望 Anthropic 的請求/回應形狀;ANTHROPIC_BASE_URL 指向 Anthropic 相容端點,非 OpenAI 相容端點)。Codex 支援設定檔層級的模型路由,但同樣期望 OpenAI 相容的回應。兩項工具皆未原生支援 DeepSeek/Qwen/Kimi;途徑是轉接層,在供應商的 API 形狀與 CLI 的期望之間進行翻譯。採購、延遲與資料駐留問題,這些模型答得好。代理迴圈正確性與工具呼叫成熟度問題,仍以這些 CLI 所調校之前沿的 Claude 與 GPT 模型為佳。
多代理功能
Codex 透過 codex cloud exec 提供雲端任務委派6。您描述任務,Codex 啟動雲端環境,針對您的程式碼庫執行代理,並回傳 diff。您不會即時監控代理的推理;您先定義任務,之後收集結果。雲端委派自然對應至 CI/CD 管線與批次處理。在內部,Codex 支援並行代理執行緒以平行執行子任務7(當前版本至多 6 個,但此上限可能改變)。
Claude Code 透過 Task 工具提供明確的子代理衍生10。父代理以特定任務與隔離的情境衍生子代理、協調結果,並合成輸出。子代理衍生啟用互動式編排:您看到推理過程並可介入。搭配多個代理相互批評輸出的審議模式,互動式編排能捕捉到發射即忘模式遺漏的問題。
雲端任務適合您先定義任務、之後想要結果的工作流程。子代理協調適合任務透過推理演化、需要即時合成的工作流程。
信任光譜
在檢視決策矩陣之前,請先思考您的任務落在信任光譜的何處。每項代理程式設計任務都涉及一項隱含的信任決策:您對代理在此特定任務上的判斷信任到何種程度?
低信任(使用 Codex): 您審查的程式碼並非自己所寫,執行來自外部來源的指令碼,或委派工作至無法即時監控的雲端環境。代理可能遇到對抗性輸入。您希望 OS 不論模型決定如何,都強制執行邊界。
中信任(兩者皆可): 您在自己的程式碼庫上工作,有已知模式。代理可能犯錯,但那是過度自信的錯誤,不是惡意。您希望在變更落地之前審查,但不需要核心層隔離。
高信任(使用 Claude Code): 您已透過掛鉤、CLAUDE.md 指令與允許清單權限建立護欄。代理在您設計的受治理環境中運作。您對治理層的信任足以選擇性核准動作,而非全面限制。
大多數開發者多數時候在中信任下運作,這正是雙工具工作流程可行的原因:Codex 處理其沙盒發揮作用的低信任任務,而 Claude Code 處理可程式化掛鉤比核心限制更有價值的中至高信任任務。
決策框架
依具體需求的具體決策矩陣:
| 若您需要… | 最佳選擇 | 原因 |
|---|---|---|
| 核心層沙盒 | Codex | OS 層強制執行無法被代理繞過 |
| 可程式化治理掛鉤 | Claude Code | 26 個生命週期事件,可執行任意程式碼 |
| 跨工具可攜性(AGENTS.md) | Codex | 開放標準適用於 Codex、Cursor、Copilot、Amp、Windsurf |
| 深度多檔重構 | Claude Code | Opus 擅長在長工作階段中保持架構情境 |
| 發射即忘雲端任務 | Codex | codex cloud exec 委派至雲端基礎設施並回傳 diff |
| 即時互動式推理 | Claude Code | 延伸思考 + 子代理協調,具即時可見性 |
| 審查不受信任的外部程式碼 | Codex | --sandbox read-only 防止所有檔案系統變動 |
| 強制團隊編碼標準 | Claude Code | 掛鉤以確定性方式編碼並強制業務邏輯 |
| 大型 monorepo 擷取 | 大致相當 | Opus 4.7 使 Claude Code 在標準定價下達 1M;GPT-5.4 上的 Codex CLI 以長情境模式達 1.05M(超過 272K 輸入計 2×/1.5×),兩者現在皆能處理 monorepo |
| 聚焦安全的程式碼審查 | Claude Code | 在我的盲測系列中,Opus 在審查任務上表現較佳 |
沒有單一工具能宰制此矩陣。底層模式比十列所暗示的更簡單:Codex 在您需要硬邊界時發揮優勢,Claude Code 則在您需要可程式化邏輯時發揮優勢。 若您執行不受信任的程式碼、審查外部貢獻,或委派至無法監控的雲端環境,硬邊界更重要。若您強制團隊慣例、編排多步驟工作流程,或建構編碼業務規則的護欄,可程式化邏輯更重要。若您的需求中有超過三項指向同一工具,就從那裡開始。若分布均勻,請考慮雙工具工作流程。
我的建議
兩者並用。我在 12 種任務類別中透過兩項工具執行相同的程式碼審查任務(記錄於我的盲測系列),發現單獨使用任一項工具都無法捕捉所有問題。具體範例:一次 FastAPI 驗證審查期間,Opus 標示了密碼比較函式中的時序側通道。該比較使用 Python 的 == 運算子,而非 hmac.compare_digest(),造成時序預言機11。Codex 完全漏掉該問題。在同一程式碼庫上,Codex 的沙盒捕捉到 URL 擷取端點中的 SSRF 向量,使用者提供的 URL 可達內部服務。Opus 核准了該端點,因為輸入驗證在應用層看似正確,但核心沙盒標示出對內部 IP 範圍的對外網路請求。以不同資料訓練的不同模型捕捉不同的漏洞類別。兩者並用每次審查成本約為 2 倍,但在安全敏感程式碼上捕捉到的問題顯著更多。
我的每日工作流程依任務類型分工:
- Claude Code 處理功能實作、程式碼審查與多檔重構。掛鉤強制格式化、封鎖危險指令,並在每次編輯後執行測試。互動式子代理模型適用於透過推理演化的任務。
- Codex 以
--sandbox read-only處理不受信任的程式碼審查(我在核心沙盒中審查外部 PR 與相依項目)、透過codex cloud exec雲端委派的批次任務,以及架構第二意見,在此不同模型視角可捕捉盲點。
CLAUDE.md 與 AGENTS.md 可在同一儲存庫中共存,沒有衝突。維護負擔保持最低,因為兩個檔案共用大部分內容。我保留一份共用的慣例區段,並將其複製到兩個檔案中。
何時不該使用任一項工具。 當您需要保證的確定性時,Codex 與 Claude Code 皆非正確選擇。兩項工具皆為機率性的:相同提示在不同次執行中可能產生不同輸出。若您的工作流程需要精確的可重現性(例如產生必須逐位元組符合架構的組態檔),請改用範本引擎或程式碼產生器。代理工具在任務需要判斷時最強,在任務需要無判斷之精確度時最弱。
關於含盲測方法論的完整比較,以及跨 12 種任務類別的結果,請參見 Claude Code vs Codex:何時使用哪一項。關於個別入門,請參見 Claude Code 指南或 Codex 指南。關於驅動 Claude Code 治理層之掛鉤系統的實務演練,請參見掛鉤教學。
參考資料
FAQ
我可以在同一專案上同時使用 Codex 與 Claude Code 嗎?
可以。CLAUDE.md 與 AGENTS.md 是兩項工具各自獨立讀取的不同檔案。兩項工具皆不剖析對方的指令檔。組態檔不會衝突。我在每個活躍的專案中都同時維護兩者。唯一的考量是保持指令檔之間共用內容的同步,由於格式相似,這只需幾分鐘。
日常使用哪一項較便宜?
請參見上方完整的定價深度剖析一節。簡要版本:Claude Code 有按 token 的 Anthropic API 定價,加上訂閱階梯(Pro $20、Max 5x $100、Max 20x $200、Team $30/位、Team Premium $150/位)。Codex CLI 有按 token 的 OpenAI API 定價,適用於 GPT-5.4($2.50 輸入 / $15 輸出 per MTok,超過 272K 輸入的 2×/1.5× 倍率)與 GPT-5.3-Codex / GPT-5.2-Codex 系列,加上 ChatGPT Plus/Pro 納入項目。Token 效率依任務類型而異;對預算敏感的工作,請將代表性任務通過兩者並比較實際費用。按 token 定價在供應商之間差異,因此原始 token 計數不會直接對應成本。
哪一項對更大的程式碼庫處理較佳?
兩者皆能妥善處理大型儲存庫。2026 年 4 月 Opus 4.7 發布後,Claude Code 在標準定價下達 1M tokens。GPT-5.4 上的 Codex CLI 以啟用長情境模式達 1.05M tokens(超過 272K 輸入的 2×/1.5× 輸入/輸出倍率);除非您加入長情境層級,預設情境為 272K。兩項工具皆不會一次讀取您整個程式碼庫;兩者在日常工作皆倚賴擷取(Claude Code 的程式碼庫搜尋、分層 CLAUDE.md 前置情境;Codex 的嵌入型檔案探索)。當在單一回合中要推理跨多個檔案的關係時,原始視窗大小最為重要,而兩項工具現在皆能勝任。
Codex CLI 是在本機還是雲端執行?
兩者皆可,但不在同一模式中。Codex CLI 預設在本機執行,與任何終端工具的模式相同。1 雲端委派是透過 codex cloud exec 或 Codex Cloud 的獨立流程,在 OpenAI 託管的基礎設施下於容器中執行您的任務並回傳 diff。Codex Cloud 通常是人們說「Codex sandbox」時的意思;Codex CLI 的本機沙盒是上方安全模型一節所述的核心級 Seatbelt / Landlock 路徑。
我可以從中國大陸存取 Claude Code 與 Codex 嗎?
第一方 OpenAI 與 Anthropic API 存取在中國大陸未獲官方支援。CLI 二進位檔可在本機安裝並執行,但從中國大陸將流量路由至第一方 API 可能導致帳號停權或合規問題。合法路徑透過 Azure OpenAI(特定非中國區域)、AWS Bedrock(最近的公開 APAC 區域包括東京、首爾、新加坡、孟買與雪梨;無中國大陸或香港 runtime endpoint)、Google Vertex AI(asia-east2 香港與其他 APAC 區域,有每個模型的可用性注意事項)以及全域 Azure 上的 Microsoft Foundry(非 Azure 中國)提供 Claude。具體細節請參見上方從中國存取 Codex 與 Claude Code。
中文註解或程式碼如何影響 token 使用?
中文字元的 token 化方式與英文不同。Claude 的 tokenizer 將大多數中文字元各視為一個 token,這表示中文原始碼通常在每行上比等效英文更 token 有效率,但在每字元上較不有效率(一個 token 涵蓋一個字元,而非 4-6 字元的英文單字)。Codex(GPT 系列)採用類似方法。實務效應:任一語言中等效註解/docstring 內容的 token 計數大致相當,每 token 行為由程式碼結構而非自然語言比例主導。
我可以搭配 DeepSeek、Qwen 或 Kimi 作為後端模型使用 Claude Code 或 Codex CLI 嗎?
只能透過轉接器或閘道。Claude Code 期望 Anthropic API 的請求/回應形狀(ANTHROPIC_BASE_URL 指向 Anthropic 相容端點);Codex 期望 OpenAI 的形狀。DeepSeek / Qwen / Kimi 皆發布自身的 API,需要翻譯後才能讓 Claude Code 或 Codex CLI 工作階段驅動它們。社群轉接器專案存在,但非原生支援,且每家供應商所用的工具呼叫與提示快取方言差異大到多輪代理迴圈常會失敗。DeepSeek / Qwen / Kimi 對於透過獨立 shell 控制環境進行單次程式碼生成,以及以其原生價位進行單檔審查,是有公信力的選項。完整的代理迴圈正確性與工具呼叫可靠性,仍來自這些 CLI 所調校之前沿 Claude 與 GPT 模型。
Codex CLI 與 ChatGPT 的 Codex 功能有何差異?
Codex CLI 是位於 github.com/openai/codex 的終端工具。ChatGPT 內的「Codex」指透過 ChatGPT 的網頁/桌面/行動應用以不同 UI 呈現的同一模型家族(雲端任務委派、非同步結果、ChatGPT 歷史整合)。CLI 與 ChatGPT 共用底層模型;工作流程與情境管理則不同。若您的問題是「我該在我的筆電上安裝哪一項工具?」,您指的是 Codex CLI。
我需要 ChatGPT 訂閱才能使用 Codex CLI 嗎?
不需要,但有助於成本。Codex CLI 可搭配獨立的 OpenAI API 金鑰按 token 計費運作。ChatGPT Plus 或 Pro 捆綁部分 Codex 用量(請查看當前 ChatGPT 訂閱頁面的上限)。14 對於中國開發者,透過 OpenAI 帳戶直接 API 計費,通常比透過中國大陸支付軌道路由 ChatGPT 訂閱更為順暢。
Claude Code 實際的掛鉤計數為何?
截至 v2.1.116(2026 年 4 月)為 26 個生命週期事件。2 該計數隨時間成長,因此 2 月引用 17 個事件的文章已過時。2026 年主要新增:PostToolUseFailure、SubagentStart、TeammateIdle、TaskCompleted、PermissionRequest、PermissionDenied、PreCompact / PostCompact、Elicitation / ElicitationResult、StopFailure、TaskCreated、CwdChanged、FileChanged、InstructionsLoaded、ConfigChange、WorktreeCreate / WorktreeRemove 與 Setup。
Opus 4.7 何時推出,它如何改變此比較?
2026 年 4 月 16 日。這是 Anthropic 首個後 Glasswing GA Opus 版本,並提供明確的網路安全防護。實務比較改變:Claude Code 現在在標準定價下達 1M tokens(含 Opus 4.7,無長情境溢價)、SWE-bench Verified 領導地位轉移至 Opus 4.7 的 87.6%,超越 GPT-5-Codex 的 74.9% 基線,而 Terminal-Bench 2.0 的領導地位則擺盪至另一邊。GPT-5.4 以 75.1% 領先,GPT-5.3-Codex 以 77.3% 對 Opus 4.7 的 69.4%。基準領導地位流動;將任何單一結果視為時間點的測量。完整數字請參見上方的情境與模型一節。
-
OpenAI,「Codex CLI:Sandbox Architecture。」Seatbelt(macOS)、Landlock 與 seccomp(Linux)。GitHub: openai/codex ↩↩↩
-
Anthropic,「Claude Code Hooks。」26 種生命週期事件類型(截至 v2.1.116,2026 年 4 月)。docs.anthropic.com/en/docs/claude-code/hooks ↩↩↩
-
Linux Foundation,「AGENTS.md Open Standard。」Agentic AI Foundation。GitHub: anthropics/agent-instructions ↩
-
OpenAI,GPT-5.4 model docs。快照
gpt-5.4-2026-03-05。預設情境 272K;當model_context_window與model_auto_compact_token_limit設定時,實驗性長情境模式至多 1,050,000 tokens。最大輸出 128K。知識截止 2025 年 8 月 31 日。長情境定價倍率:輸入超過 272K 時,每工作階段 2× 輸入 / 1.5× 輸出,適用於 standard / batch / flex 層級。另請參見 Introducing GPT-5.4 發布文章(將 GPT-5.4 定位為整合 GPT-5.3-Codex 的程式碼能力並新增原生 Computer Use),以及歷史 GPT-5.3-Codex 與 GPT-5.2-Codex 模型頁面,仍提供 400K/128K Codex 系列變體。 ↩↩↩↩↩ -
Anthropic,「Claude Opus 4.7。」標準定價下的 1M token 情境。anthropic.com/claude/opus。另請參見 Claude Code model configuration。 ↩↩
-
OpenAI,「Codex Cloud Tasks。」
codex cloud exec委派。platform.openai.com/docs/guides/codex ↩ -
OpenAI,「Codex Agent Architecture。」並行執行緒模型。GitHub: openai/codex ↩
-
Anthropic,「Pricing。」Claude Max 方案。platform.claude.com/docs/en/about-claude/pricing ↩
-
OpenAI,「Codex Profiles and Policies。」組態。GitHub: openai/codex ↩↩
-
Anthropic,「Claude Code: Best practices for agentic coding。」anthropic.com/engineering/claude-code-best-practices ↩
-
Simon Willison,「Codex, Claude Code, and the state of agentic coding tools。」simonwillison.net ↩↩
-
基準數字(2026 年 4 月)。Opus 4.7 來自 Anthropic 發布頁面:87.6% SWE-bench Verified、64.3% SWE-bench Pro、69.4% Terminal-Bench 2.0、70% CursorBench。GPT-5.4 官方程式碼評估來自 OpenAI:Introducing GPT-5.4:57.7% SWE-bench Pro、75.1% Terminal-Bench 2.0。GPT-5.4 SWE-bench Verified 並未公布於官方模型頁面或發布頁面;第三方報導(例如 NxCode 的 GPT-5.4 文章)回報約 80% SWE-bench Verified,我在 OpenAI 公布官方數字前將其引用為第三方。GPT-5.3-Codex 的 56.8% SWE-bench Pro / 77.3% Terminal-Bench 2.0 來自 OpenAI:Introducing GPT-5.3-Codex;GPT-5.3-Codex 常被引用的 75.2% SWE-bench Verified 數字並未出現於官方發布頁面(第三方歸屬)。GPT-5.2-Codex 的 56.4% SWE-bench Pro / 64.0% Terminal-Bench 2.0 來自同一出處。GPT-5-Codex 的 74.9% SWE-bench Verified 是 OpenAI 原始 Codex 發布的廣泛引用基線(亦在 OpenAI 的 GPT-5 developer 頁面引用);將其視為 Codex 系列的底線而非當前測量值。 ↩↩
-
Anthropic Pricing。Opus 4.7($5/$25 per MTok)、Opus 4.6($5/$25)、Sonnet 4.6($3/$15)、Haiku 4.5($1/$5)的官方按 token 費率。提示快取倍率:5 分鐘快取寫入 1.25×、1 小時快取寫入 2×、快取命中 0.1× 基準輸入。Opus 4.7 的 1M 情境包含於標準定價(無長情境溢價)。Batch API:50% 折扣。 ↩↩
-
OpenAI API Pricing 提供按 token 費率,OpenAI Codex Pricing 提供方案層級與 5 小時速率限制。GPT-5.4 按 token:輸入 $2.50 / 快取輸入 $0.25 / 輸出 $15 per MTok;超過 272K 輸入的 2×/1.5× 長情境倍率。截至 2026 年 4 月的 Codex 方案:Plus $20/月、Pro 5× $100/月、Pro 20× $200/月(含上述 2026 年 5 月 31 日促銷加碼)、Business 純 Codex 席位按量付費、Enterprise/Edu 聯繫銷售。另請參見 GPT-5.4 model docs、GPT-5.3-Codex model docs 與 GPT-5.2-Codex model docs,了解每個模型的情境視窗、速率限制與 API 層級可用性。隨 OpenAI 輪替模型變體,定價會定期修訂;本文數字反映截至 2026 年 4 月 19 日的費率表。 ↩↩↩
-
AWS Bedrock runtime endpoints。公開的 Bedrock runtime endpoint 涵蓋 APAC 區域(包括東京、首爾、新加坡、孟買、雪梨等),但截至 2026 年 4 月未列出中國大陸或香港的 runtime endpoint。依賴任何特定區域之前,請驗證當前的涵蓋範圍。 ↩
-
Google Vertex AI generative-AI locations。亞太區域包括
asia-east2(香港)提供生成式 AI 端點;特定模型可用性依區域而異,並隨時間擴展。投入之前,請查看目標區域與模型的 locations 頁面。 ↩ -
Microsoft Foundry 中的 Claude。Claude 透過全域標準 Foundry 區域部署。Azure 中國(世紀互聯)是獨立的主權雲,具不同的功能目錄;Claude 在撰寫本文時未列為 Azure 中國模型。 ↩
-
OpenAI 支援國家不包含中國大陸;OpenAI 警告從未支援國家存取可能導致帳號封鎖或停權。Anthropic 支援國家同樣列出官方支援市場;中國大陸在撰寫本文時不在其中。透過非大陸網路路由的讀者應在倚賴該路徑之前審視兩家供應商的條款與自身的合規狀況。 ↩↩