Claude Code vs Codex CLI 2026:意思決定リファレンス
私はClaude Codeを主要な開発ツールとして使用しています。この前提を最初に述べておくのは、最も説得力のある比較というものが、片方のツールを深く理解し、もう片方を誠実にテストすることから生まれるためです。36回のブラインドデュエル(同一のタスクを両ツールで実行し、どちらの出力かを知らずに採点する方式1)と両ツールでの数百セッションを経て、「どちらが優れているか?」という問いへの答えは、率直に言って「タスク次第」であるとわかりました。
Claude Codeは深いリファクタリング、コードレビュー、26種類のライフサイクルフックを通じたプログラマブルなガバナンスに優れており、Codex CLIはカーネルレベルのサンドボックスとAGENTS.mdによるクロスツールポータビリティに優れています。Claude Codeは自分で書くフックによってアプリケーション層で安全性を強制し、Codexはモデルが制約を回避できないOSカーネル層で安全性を強制します。複雑な複数ファイルにまたがる推論やカスタマイズ可能なワークフローにはClaude Codeを、最大限の分離と8つ以上のツールで動作する標準化されたエージェント指示にはCodexを選ぶとよいでしょう。
TL;DR
Claude CodeとCodex CLIは、同じ問題(AI支援開発)を根本的に異なるアーキテクチャで解決しています。Claude Codeはフックによるガバナンスで、26種類のライフサイクルイベントがポリシーを決定論的に強制します2。Codexはサンドボックスによるガバナンスで、アプリケーション層の下にあるOSレベルのカーネル制約を使います3。どちらが厳密に優れているというわけではありません。
Claude Codeはコードレビューとセキュリティ検証でCodexを一貫して上回りました。一方、Codexはサンドボックス、AGENTS.mdによるクロスツールポータビリティ、クラウドタスク委譲において真の優位性を持っています。
クイック意思決定:カーネルレベルのサンドボックスまたはクロスツールのAGENTS.mdが必要?→Codex。プログラマブルなガバナンスフックや深いリファクタリングが必要?→Claude Code。両方の安全性モデルが必要?→両方を併用しましょう。
両方とも初めて?まずClaude CodeガイドまたはCodexガイドから始めてください。本稿は少なくとも一方に馴染みがあることを前提としています。
2つのメンタルモデル
両ツールは3層アーキテクチャですが、各層の目的が異なります。
Claude Code:
- 推論。Claude Codeは選択されたClaudeモデルで動作します。MaxおよびTeam PremiumではOpus 4.7、Pro、Team Standard、Enterprise、およびAPIではSonnet 4.6が使用されます(EnterpriseとAPIは2026年4月23日にOpus 4.7に切り替わります)
- 実行。Bash、ファイル操作、gitコマンド、MCPツール呼び出し
- ガバナンス。フックが26のライフサイクルポイントでアクションを傍受し2、権限がスコープをゲートします
Codex:
- モデル。GPT-5.4(2026年3月5日リリース、スナップショット
gpt-5.4-2026-03-05)が1.05Mのロングコンテキストモード/128K出力で利用可能。GPT-5.3-Codexは400K/128Kで引き続き利用可能4 - サンドボックス。OSレベルのカーネル強制(macOSではSeatbelt、LinuxではLandlock + seccomp)3
- 承認。3つのポリシー(
untrusted、on-request、never)が実行前にミューテーションをゲートします5
決定的な違いはガバナンスがどこに存在するかです。Claude Codeはアプリケーション層で安全性を強制します。フックはあなたが書くプログラムで、特定のイベントを傍受します。Codexはカーネル層で安全性を強制します。OSがモデルの試みに関係なく、許可されていない操作を防ぎます。
この区別が重要な理由:アプリケーション層のガバナンスはプログラマブルです。ビジネスロジックをエンコードしたり、リンターを実行したり、スキーマを検証したり、コードで表現できるあらゆるものが可能です。カーネル層のガバナンスは回避不能です。OSがアプリケーションに到達する前にシステムコールを拒否するため、モデルは制約を回避できません。すべての安全性アーキテクチャは表現力と強度をトレードオフしており、この2つのツールはそのスペクトルの両端に位置しています。
設定の哲学
Claude CodeはJSONを使い、CodexはTOMLを使います。両方とも階層的なスコープをサポートしていますが、コンテキスト切り替えの考え方が異なります。
Claude Code:レイヤー化された設定
// ~/.claude/settings.json (user-level)
{
"permissions": {
"allow": ["Bash(git *)"],
"deny": ["Bash(rm -rf *)"]
}
}
// .claude/settings.json (project-level, inherits user)
{
"permissions": {
"allow": ["Bash(npm test)"]
}
}
Claude Codeは複数のレイヤーから設定を解決します。マネージド設定(最優先)→コマンドライン→ローカルプロジェクト→共有プロジェクト→ユーザーデフォルトの順です6。メモリーファイル(CLAUDE.md)は独自のスコープを持ちます(ユーザー→プロジェクト→ローカル)。スキルとフックがさらにレイヤーを追加します。柔軟性は強力ですが、実際に有効な設定は単一のファイルからは見えません。階層を読み解いて組み立てる必要があります。
Codex:明示的な切り替えを伴うプロファイル
# ~/.codex/config.toml
model = "gpt-5.3-codex"
approval_policy = "on-request"
[profiles.deep-review]
model = "gpt-5-pro"
approval_policy = "never"
[profiles.careful]
approval_policy = "untrusted"
codex --profile careful "Review this PR"
codex --profile deep-review "Audit this module"
Codexのプロファイルを使えば、フラグで設定を切り替えられます7。解決すべきレイヤーはなく、有効な設定は常に明示的です。承認ポリシーを標準化しているチームにとっては、監査がシンプルになります。プロファイルは現在実験的機能です7。
安全性モデル
安全性は両ツール間で最も深いアーキテクチャ的な分岐点です。
Claude Code:アプリケーション層での決定論的フック
フックは実行前にアクションを傍受します。Bashに対するPreToolUseフックは、すべてのコマンドを検査して危険なパターンをブロックできます2。
# Hook: git-safety-guardian (PreToolUse:Bash)
if echo "$tool_input" | grep -q "push.*--force.*main"; then
echo '{"decision": "block", "reason": "Force push to main blocked"}'
fi
強みは、フックがプログラムであることです。任意の複雑な安全性ロジックをエンコードできます。ファイルパスをチェックし、JSONを検証し、命名規則を強制し、リンターを実行する。私は認証情報の検出から品質ゲートまで、95個のフックを運用しています。
弱みは、フックがアプリケーション層で動作することです。2025年にCheck Point Researchが開示したCVE-2025-59536は、プロジェクト設定ファイルの悪意あるフックがClaude Codeの初期化中、ユーザーが同意ダイアログを見る前にシェルコマンドを実行できることを実証しました19。Anthropicは数週間以内にパッチを適用しましたが、この開示はアーキテクチャ上の懸念を裏付けるものです。アプリケーション層の強制は、エージェントとプロセス境界を共有しているのです。NVIDIAのAIレッドチームのガイダンスも同じ結論に達しています。「フックとMCPの初期化関数はサンドボックス環境の外で実行されることが多く、サンドボックス制御を回避する機会を提供する」20。
Codex:カーネルレベルのサンドボックス
CodexはOSレベルでエージェントを制限します。macOSではSeatbeltプロファイルがファイルシステムへのアクセス、ネットワーク接続、プロセス生成を制限します3。LinuxではLandlock + seccompが同等の制限を提供し、設定によりオプションのBubblewrap(bwrap)パイプラインも利用可能です3。
# Three sandbox modes
codex --sandbox read-only # Agent can read but not write
codex --sandbox workspace-write # Agent writes only in project directory (default)
codex --sandbox danger-full-access # No restrictions (named to signal risk)
強みは、カーネルレベルの強制がアプリケーションの下にあることです。モデルが巧妙なコマンドを作成しても制約から逃れられません。OSが実行前にシステムコールを拒否します3。フルアクセスモードのdanger-という接頭辞は、サンドボックス制約を取り除くのが日常的な設定ではなく例外的なアクションであることを示しています。
弱みは、カーネル制限がバイナリであることです。ファイルシステムへの書き込みを許可または拒否できますが、「src/への書き込みは許可するが、変更がリンターを通過しない限りconfig/への書き込みはブロック」とは言えません。そうした細かいガバナンスにはアプリケーションレベルのロジックが必要です。
このトレードオフは現実のものです。フックは粒度が細かくプログラム可能な安全性を提供しますが、境界は弱めです。サンドボックスはより強い境界を提供しますが、制御は粗くなります。クイック意思決定のヒューリスティックは以下のとおりです。
- 内部は信頼、外部コードは別:未知のコントリビューターからのPRをレビューする際は、
read-onlyサンドボックスでCodexを使いましょう。モデルの試みに関係なく、カーネルがファイル変更を防ぎます。 - 信頼できるコード、ポリシー強制:コードベースを信頼しているが、組織標準(コミットメッセージ形式、認証情報スキャン、リンティングゲート)を強制する必要がある場合は、Claude Codeのフックを使いましょう。
- 両方の懸念:両方を実行しましょう。最初の安全性境界にはCodexを使い、その後ガバナンス重視のレビューにはClaude Codeに切り替えます。
拡張性
両ツールともカスタマイズをサポートしていますが、メカニズムごとの成熟度は異なります。
| メカニズム | Claude Code | Codex |
|---|---|---|
| プロジェクト指示 | CLAUDE.md(Claude専用) | AGENTS.md(クロスツール標準、60,000以上のプロジェクト)8 |
| ライフサイクルフック | 26種類のイベント(成熟)2 | agent-turn-complete時のnotify(初期段階)9 |
| スキル/コマンド | スキル + スラッシュコマンド | AGENTS.mdパターン経由のコミュニティメンテナンス |
| サブエージェント委譲 | 明示的なTaskツール(ユーザー主導の生成)10 | 内部(デフォルトで最大6並列、ユーザー向けではない)21 |
| MCP統合 | STDIO + HTTP(10,000以上のパブリックサーバー)11 | STDIO + HTTP |
| クラウド委譲 | ネイティブなし | クラウドタスク(実験的:codex cloud exec)12 |
Claude Codeが先行している領域:フック。26イベントのライフサイクルシステムは、PreToolUse、PostToolUse、UserPromptSubmit、SessionStart、Stop、SubagentStart、SubagentStop、PreCompact、PermissionRequest、PermissionDenied、TaskCreated、CwdChanged、FileChangedなどをカバーしており2、Codexの単一イベント通知システムでは実現できないガバナンスパターンを可能にします。品質ゲートを強制したり、コミット前に認証情報の漏洩を検出したり、自動的にコンテキストを注入したりする必要がある場合、Claude Codeのフックアーキテクチャは大幅に成熟しています。
Codexが先行している領域:クロスツールポータビリティ。AGENTS.mdはLinux FoundationのAgentic AI Foundationが管理するオープン標準で13、60,000以上のプロジェクトに採用されています8。同じ指示ファイルがCodex、Cursor、GitHub Copilot、Amp、Windsurf、Gemini CLI(設定あり)で動作します14。CLAUDE.mdは強力ですがClaude Codeにロックインされています。クラウドタスク委譲もCodexに固有の機能です。codex cloud execは長時間実行される作業をOpenAIのインフラに委譲し、差分を返します12。Claude Codeがネイティブには提供していないワークフローです。
各ツールが勝つ場面
36回のブラインドデュエル(同一のプロンプトを両ツールに送り、出力をブラインドで採点)と日常的な本番利用に基づく結果は以下のとおりです。
| カテゴリ | Claude Code | Codex | 引き分け |
|---|---|---|---|
| コードレビューとセキュリティ | 8 | 4 | 0 |
| 機能実装 | 5 | 5 | 2 |
| リファクタリング | 4 | 3 | 1 |
| DevOpsとCI/CD | 1 | 3 | 0 |
完全な方法論とデュエルごとのスコアリングはThe Blind Judgeにあります。
Claude Codeが勝つ場面
- コードレビューとセキュリティ検証。Claude Codeはレビュータスクで決着した12回のデュエルのうち8回勝ちました1。品質哲学システムとエビデンスゲートは、Codexのより手続き的なアプローチを通り抜けてしまう問題をキャッチします。
- ガバナンス重視のワークフロー。ワークフローにpre-commitチェック、認証情報スキャン、出力検証、品質ゲートが必要な場合、フックが適切なメカニズムです。Codexの通知システムはエージェントのターン完了後に発火するため9、危険なアクションをブロックするには遅すぎます。
- 複雑なマルチエージェントオーケストレーション。Taskツールによる明示的なサブエージェント委譲10と熟議システムを組み合わせることで、複数の専門エージェントが分離されたコンテキストで協調するワークフローが可能になります。
- 深いコードベースのリファクタリング。Opusは長時間セッションにわたってアーキテクチャ的コンテキストを保持することに優れています。Claude Codeのフック/スキル/ルール階層を統治するコンテキストエンジニアリングパターンは、モデルが大規模コードベースを推論する方法に直接対応しています。
Codexが勝つ場面
- サンドボックスが重要な環境。信頼できないコードに対してAIエージェントを実行したり、外部PRを処理したり、ファイルシステムとネットワークアクセスについて確実な保証が必要なCI/CDパイプラインで動作させたりする場合、Codexのカーネルレベルサンドボックスが適切なツールです3。アプリケーションレベルのフックは同じ保証を提供できません。
- クロスツールのチーム。チームが複数のAIコーディングツールを使っている場合、AGENTS.mdはCodex、Cursor、Copilot、Amp、Windsurfなどで動作する1つの指示ファイルを提供します14。CLAUDE.md、
.cursor/rules、Copilot指示で重複したメンテナンスは不要です。 - クラウド非同期ワークフロー。
codex cloud execはタスクをクラウドインフラに委譲し、差分を返します12。CI/CD統合やバッチ処理において、これはClaude Codeがネイティブに提供していないワークフローです。 - リアルタイムステアリング。Codexのステアモードでは、Enter(即時)で指示をタスク中に注入でき、Tab(次のターン)でフォローアップをキューに入れられます15。Claude Codeはフォローアップメッセージをサポートしていますが、ターン中の注入はサポートしていません。
- デスクトップ体験。Codexのデスクトップアプリ(macOS)は、並列ワークツリー間のマルチタスキングとフローティングポップアウトウィンドウをサポートしています16。Claude CodeはVS CodeおよびJetBrainsと統合されていますが17、CLIファーストです。
両方を併用する
両ツールは競合しません。CLAUDE.mdとAGENTS.mdは同じリポジトリに共存できます。私のセットアップは以下のとおりです。
my-project/
├── .claude/
│ └── settings.json # Claude Code project config
├── CLAUDE.md # Claude Code instructions
├── AGENTS.md # Codex + Cursor + Copilot instructions
└── codex.md # Codex project config (optional)
具体的なデュアルツールワークフロー:私は日常開発にClaude Codeを使っています。機能実装、コードレビュー、フックが各ステップで品質ゲートを強制する複数ファイルのリファクタです。外部コントリビューターがPRをオープンすると、--sandbox read-onlyでCodexに切り替え、信頼できないコードに対して変更をレビューします。アーキテクチャ上の決定について第二の意見が必要なときは、同じプロンプトを両ツールに送り、ブラインドジャッジアプローチで出力をブラインドで比較します。
デュアルツールのアプローチには、私自身のテストを超えた実証的な裏付けがあります。Milvusの研究では、複数のAIモデル間の敵対的レビューによってバグ検出率が53%から80%に向上しました23。別の研究では、ClaudeとCodexの反復的なレビューループが、どちらのツールも単独では発見できなかった14の問題を3ラウンドで捕捉しました24。どちらのツールも他方を置き換えるものではなく、異なる脅威モデルとタスクプロファイルをカバーしているのです。
重要なポイント
ツールを選ぼうとしている方へ:
- 安全性要件から始めましょう。カーネルレベルのサンドボックスが必要?→Codex。プログラマブルなガバナンスフックが必要?→Claude Code。
- チームについて考慮しましょう。複数のAIツールを使用していますか?AGENTS.mdはツール間の重複した指示メンテナンスを回避します14。
- 決定する前に実際のタスクで両方を試しましょう。ブラインドジャッジ方法論は個人評価にも使えます。
すでに投資している方へ:
- Claude Codeユーザー:とにかくAGENTS.mdを書きましょう。20分で済み、プロジェクトがCodex、Cursor、Copilotユーザーにアクセス可能になります。
- Codexユーザー:フックシステムの成熟を監視しましょう。現在の
notifyイベント9は出発点です。フックイベント拡張のコミュニティリクエストはGitHubでアクティブです18。 - 両ツールとも急速に進化しています。本稿の比較の有効期限は年単位ではなく月単位で測られるでしょう。
FAQ
同じプロジェクトで両方のツールを使えますか?
はい。CLAUDE.mdとAGENTS.mdは別々のファイルで競合しません。各ツールは自分の指示ファイルを読み、他方を無視します。私はアクティブなプロジェクトで両方を維持しています。
初心者にはどちらが適していますか?
Codexは設定のハードルが低く、3つのサンドボックスモードと3つの承認ポリシーがほとんどのユースケースをカバーします5。Claude Codeの力はフックとスキルから来ますが、セットアップには投資が必要です。すでに馴染みのあるモデル(ClaudeまたはGPT)から始めるとよいでしょう。
コストはどのように比較されますか?
両者ともそれぞれのAPIを通じてトークンベースの料金体系を採用しています。Claude CodeはAnthropicの料金体系で、CodexはOpenAIのクレジットシステムで動作します。Composioによる独立したベンチマーキングでは、Codexが同等の結果を得るのに2〜4倍少ないトークンを消費することが判明しました。Figmaプラグインタスクでは、Claude Codeが620万トークンを使用したのに対し、Codexは150万トークンでした22。トークン効率はコストに直接変換されるわけではありません(トークンあたりの料金が異なるため)が、Codexの低いトークン消費量は予算制約のあるワークフローにおいて測定可能な優位性となります。
AGENTS.mdはClaude Codeで動作しますか?
現時点では動作しません。Claude CodeはCLAUDE.mdを読み、CodexはAGENTS.mdを読みます。フォーマットは十分に似ているため、内容は両者間で簡単に翻訳できますが、自動的な相互読み取りはありません。内容が重複するため、両方を書くのはごくわずかな労力で済みます。
IDE統合はどちらが優れていますか?
Codexにはマルチタスキングとフローティングウィンドウを備えたデスクトップアプリがあります(2026年2月時点ではmacOSのみ)16。Claude Codeは拡張機能経由でVS Codeと、プラグイン(ベータ)経由でJetBrainsと統合されます17。両方ともよく動作します。選択はCLIファースト(Claude Code)とGUIファースト(Codex)のワークフローのどちらを好むかによります。
参考文献
-
The Blind Judge: Claude vs Codex in 12 Tasks. Blind evaluation methodology and results ↩↩
-
Claude Code Hooks Reference. 26 lifecycle event types (as of v2.1.116, April 2026) including PreToolUse, PostToolUse, SubagentStart, PermissionRequest, TaskCreated, CwdChanged, and more. ↩↩↩↩↩
-
Codex Security Documentation. Seatbelt (macOS), Landlock + seccomp (Linux), three sandbox modes ↩↩↩↩↩↩
-
OpenAI GPT-5.4 model docs (current Codex CLI default, released March 5, 2026; 1,050,000 token long-context mode, 128K max output, $2.50 input / $0.25 cached / $15 output per MTok, 2×/1.5× long-context multiplier over 272K input). See also Introducing GPT-5.4 (positions GPT-5.4 as incorporating GPT-5.3-Codex’s coding capabilities) and Introducing GPT-5.3-Codex for the 400K / 128K Codex-family predecessor that remains available for speed/cost-focused workflows. ↩
-
Codex Configuration Reference. Approval policies:
untrusted,on-request,never↩↩ -
Claude Code Settings. Five-layer configuration cascade ↩
-
Codex Advanced Configuration. Profiles (experimental) ↩↩
-
Linux Foundation AAIF Announcement. AGENTS.md adopted by 60,000+ projects ↩↩
-
Codex Advanced Configuration: Notifications.
notifysystem withagent-turn-completeevent ↩↩↩ -
Claude Code Subagents. Task tool for explicit subagent spawning ↩↩
-
Anthropic MCP Foundation Announcement. 10,000+ active public MCP servers ↩
-
Codex CLI Reference: Cloud Tasks.
codex cloud execfor delegating to cloud infrastructure ↩↩↩ -
OpenAI Co-founds the Agentic AI Foundation. AGENTS.md donated to AAIF under the Linux Foundation ↩
-
AGENTS.md. Cross-tool compatibility: Codex, Cursor, Copilot, Amp, Windsurf, Gemini CLI ↩↩↩
-
Codex CLI Features: Steer Mode. Enter for immediate steering, Tab for next-turn follow-up ↩
-
Introducing the Codex App. Desktop app with multi-tasking and floating windows (macOS) ↩↩
-
Claude Code IDE Integrations. VS Code extension and JetBrains plugin (beta) ↩↩
-
Codex GitHub Issue #2109. Community request for expanded hook events ↩
-
Check Point Research, Caught in the Hook: RCE and API Token Exfiltration Through Claude Code Project Files. CVE-2025-59536: malicious hooks executing before user consent ↩
-
NVIDIA AI Red Team, Practical Security Guidance for Sandboxing Agentic Workflows. Five residual vulnerabilities in agentic coding tools ↩
-
Codex Sample Configuration.
agents.max_threads = 6default, configurable ↩ -
Morph/Composio, Codex vs Claude Code: Benchmarks, Agent Teams & Limits Compared. Token consumption benchmarks across identical tasks ↩
-
Milvus/Zilliz, AI Code Review Gets Better When Models Debate. 53% to 80% bug detection via adversarial debate ↩
-
Aseem Shrey, I Made Claude and Codex Argue Until My Code Plan Was Perfect. 14 issues caught in 3 rounds of iterative review ↩
Which Tool Should You Use?
Answer four questions to get a recommendation.
Loading quiz…