Claude Code vs Codex CLI:どちらをいつ使うべきか
私はClaude Codeを主要な開発ツールとして使っています。このバイアスは最初に明言しておく価値があります。なぜなら、最も説得力のある比較記事は、一方のツールを深く知り、もう一方を誠実にテストすることから生まれるからです。36回のブラインドデュエル(同一のタスクを両方のツールに実行させ、どちらが生成したかを知らない状態で出力をスコアリング)1と、両ツールでの数百回のセッションを通じて、「どちらが優れているか?」という問いへの答えは、正直なところ「タスクによる」というものでした。
TL;DR
Claude CodeとCodex CLIは同じ問題——AIアシスト開発——を、根本的に異なるアーキテクチャで解決します。Claude Codeはフック(17種類のライフサイクルイベントタイプがポリシーを決定論的に適用)2を通じてガバナンスを行います。Codexはサンドボックス(アプリケーション層の下にあるOS レベルのカーネル制限)3を通じてガバナンスを行います。どちらのアプローチも厳密に優れているわけではありません。
Claude Codeはコードレビューとセキュリティ検証において一貫してCodexを上回りました。Codexはサンドボックス、AGENTS.mdによるクロスツールポータビリティ、クラウドタスク委任において真の優位性を持っています。
クイック判断: カーネルレベルのサンドボックスまたはクロスツールのAGENTS.mdが必要? → Codex。プログラム可能なガバナンスフックまたは深いリファクタリングが必要? → Claude Code。両方の安全モデルが必要? → 両方を使いましょう。
両方とも初めてですか? まずClaude CodeガイドまたはCodexガイドをお読みください。この記事は少なくとも一方に精通していることを前提としています。
2つのメンタルモデル
両ツールとも3層アーキテクチャですが、各層の役割は異なります。
Claude Code:
- 推論 — Claude Opusがコードベースを処理し、変更について推論します
- 実行 — Bash、ファイル操作、gitコマンド、MCPツール呼び出し
- ガバナンス — フックが17のライフサイクルポイントでアクションをインターセプト2、パーミッションがスコープを制御
Codex:
- モデル — GPT-5.3-Codex、400K入力 / 128K出力コンテキスト4
- サンドボックス — OSレベルのカーネルレベルの強制(macOSではSeatbelt、LinuxではLandlock + seccomp)3
- 承認 — 3つのポリシー(
untrusted、on-request、never)が実行前に変更を制御5
決定的な違いはガバナンスがどこに存在するかです。Claude Codeはアプリケーション層で安全性を適用します——フックは特定のイベントをインターセプトするプログラムです。Codexはカーネル層で安全性を適用します——モデルが何を試みようとも、オペレーティングシステムが許可されていない操作を阻止します。
この違いが重要な理由: アプリケーション層のガバナンスはプログラム可能です。ビジネスロジックのエンコード、リンターの実行、スキーマの検証——コードで表現可能なことなら何でもできます。カーネル層のガバナンスはエスケープ不可能です。OSがシステムコールをアプリケーションに到達する前に拒否するため、モデルは制限を回避できません。あらゆる安全性アーキテクチャは表現力と堅牢性のトレードオフを伴い、この2つのツールはそのスペクトラムの両端に位置しています。
設定の哲学
Claude CodeはJSONを使用します。CodexはTOMLを使用します。どちらも階層的なスコーピングをサポートしています。コンテキストスイッチングに対する考え方が異なります。
Claude Code:レイヤード構成
// ~/.claude/settings.json (user-level)
{
"permissions": {
"allow": ["Bash(git *)"],
"deny": ["Bash(rm -rf *)"]
}
}
// .claude/settings.json (project-level, inherits user)
{
"permissions": {
"allow": ["Bash(npm test)"]
}
}
Claude Codeは複数のレイヤーから設定を解決します:管理設定(最高優先度)→ コマンドライン → ローカルプロジェクト → 共有プロジェクト → ユーザーデフォルト6。メモリファイル(CLAUDE.md)は独自のスコーピングに従います:ユーザー → プロジェクト → ローカル。スキルとフックがさらにレイヤーを追加します。この柔軟性は強力ですが、アクティブな構成は単一のファイルからは見えません——階層を読んで組み立てる必要があります。
Codex:明示的な切り替えを伴うプロファイル
# ~/.codex/config.toml
model = "gpt-5.3-codex"
approval_policy = "on-request"
[profiles.deep-review]
model = "gpt-5-pro"
approval_policy = "never"
[profiles.careful]
approval_policy = "untrusted"
codex --profile careful "Review this PR"
codex --profile deep-review "Audit this module"
Codexのプロファイルでは、フラグ一つで構成を切り替えられます7。レイヤー解決について推論する必要はありません——アクティブな構成は常に明示的です。承認ポリシーを標準化するチームにとって、これは監査が簡単です。プロファイルは現在実験的な機能です7。
安全性モデル
安全性は、2つのツール間で最も深いアーキテクチャ上の分岐点です。
Claude Code:アプリケーション層での決定論的フック
フックはアクションの実行前にインターセプトします。Bashに対するPreToolUseフックは、すべてのコマンドを検査して危険なパターンをブロックできます2:
# Hook: git-safety-guardian (PreToolUse:Bash)
if echo "$tool_input" | grep -q "push.*--force.*main"; then
echo '{"decision": "block", "reason": "Force push to main blocked"}'
fi
強み:フックはプログラムです。任意に複雑な安全性ロジックをエンコードできます——ファイルパスのチェック、JSONの検証、命名規則の適用、リンターの実行など。私は認証情報の検出から品質ゲートまであらゆるものをカバーする95のフックを実行しています。
弱み:フックはアプリケーション層で動作します。2025年、Check Point Researchがプロジェクト設定ファイル内の悪意のあるフックがClaude Codeの初期化中に——ユーザーが同意ダイアログを見る前に——シェルコマンドを実行できることを実証し、CVE-2025-59536を公開しました19。Anthropicは数週間以内に脆弱性を修正しましたが、この公開はアーキテクチャ上の懸念を実証しています:アプリケーション層の適用はエージェントとプロセス境界を共有しています。NVIDIAのAI Red Teamガイダンスも同じ結論に達しています:「フックとMCP初期化関数はサンドボックス環境の外で実行されることが多く、サンドボックス制御をエスケープする機会を提供します」20。
Codex:カーネルレベルのサンドボックス
CodexはOSレベルでエージェントを制限します。macOSでは、Seatbeltプロファイルがファイルシステムアクセス、ネットワーク接続、プロセス生成を制限します3。Linuxでは、Landlock + seccompが同等の制限を提供し、設定によりオプションのBubblewrap(bwrap)パイプラインも利用できます3。
# Three sandbox modes
codex --sandbox read-only # Agent can read but not write
codex --sandbox workspace-write # Agent writes only in project directory (default)
codex --sandbox danger-full-access # No restrictions (named to signal risk)
強み:カーネルレベルの適用はアプリケーションの下にあります。モデルは巧妙なコマンドを作成しても制限をエスケープすることはできません——オペレーティングシステムが実行前にシステムコールを拒否します3。フルアクセスモードのdanger-プレフィックスは、サンドボックス制限の解除が日常的な設定ではなく例外的なアクションであることを反映しています。
弱み:カーネル制限はバイナリです。ファイルシステムの書き込みを許可または拒否できますが、「src/への書き込みは許可するが、config/への書き込みはリンターを通過しない限りブロックする」とは言えません。このような細粒度のガバナンスにはアプリケーションレベルのロジックが必要です。
このトレードオフは実在します。 フックは細粒度でプログラム可能な安全性を提供しますが、境界は弱くなります。サンドボックスはより強固な境界を提供しますが、制御は粗くなります。簡単な判断基準:
- 内部信頼、外部コード: 未知のコントリビューターからのPRをレビューする際は、Codexを
read-onlyサンドボックスで使用しましょう。モデルが何を試みてもカーネルがファイル変更を防ぎます。 - 信頼されたコード、ポリシー適用: コードベースは信頼しているが組織の標準を適用する必要がある場合——コミットメッセージ形式、認証情報スキャン、リンティングゲート——はClaude Codeフックを使用しましょう。
- 両方の懸念: 両方を使いましょう。初期の安全境界にCodexを使用し、その後ガバナンス重視のレビューにClaude Codeに切り替えましょう。
拡張性
両ツールともカスタマイズをサポートしていますが、メカニズムごとに成熟度が異なります。
| メカニズム | Claude Code | Codex |
|---|---|---|
| プロジェクト指示 | CLAUDE.md(Claude専用) | AGENTS.md(クロスツール標準、60K以上のプロジェクト)8 |
| ライフサイクルフック | 17イベントタイプ(成熟)2 | notify(agent-turn-completeのみ、初期段階)9 |
| スキル/コマンド | スキル + スラッシュコマンド | コミュニティ管理のAGENTS.mdパターン |
| サブエージェント委任 | 明示的なTaskツール(ユーザー主導の生成)10 | 内部処理(デフォルト最大6並列、ユーザー向けではない)21 |
| MCP統合 | STDIO + HTTP(10,000以上の公開サーバー)11 | STDIO + HTTP |
| クラウド委任 | ネイティブ機能なし | クラウドタスク(実験的:codex cloud exec)12 |
Claude Codeがリードする点: フックです。17イベントのライフサイクルシステム——PreToolUse、PostToolUse、UserPromptSubmit、SessionStart、Stop、SubagentStart、SubagentStop、PreCompact、その他9つ2——は、Codexの単一イベント通知システムでは実現できないガバナンスパターンを可能にします。品質ゲートの適用、コミット前の認証情報リーク検出、コンテキストの自動注入が必要な場合、Claude Codeのフックアーキテクチャは大幅に成熟しています。
Codexがリードする点: クロスツールポータビリティです。AGENTS.mdはLinux Foundation傘下のAgentic AI Foundationが管理するオープンスタンダードであり13、60,000以上のプロジェクトに採用されています8。同じ指示ファイルがCodex、Cursor、GitHub Copilot、Amp、Windsurf、Gemini CLI(設定により)で動作します14。CLAUDE.mdは強力ですがClaude Code専用です。クラウドタスク委任もCodex独自の機能です——codex cloud execは長時間実行タスクをOpenAIインフラにオフロードし、差分を返します12。これはClaude Codeがネイティブに提供していないワークフローです。
各ツールが勝つ場面
36回のブラインドデュエル——同一のプロンプトを両ツールに送り、出力をブラインドでスコアリング——と日常的な本番使用に基づきます:
| カテゴリ | Claude Code | Codex | 引き分け |
|---|---|---|---|
| コードレビュー&セキュリティ | 8 | 4 | 0 |
| 機能実装 | 5 | 5 | 2 |
| リファクタリング | 4 | 3 | 1 |
| DevOps&CI/CD | 1 | 3 | 0 |
完全な方法論とデュエルごとのスコアリングはThe Blind Judgeに記載されています。
Claude Codeの勝利
- コードレビューとセキュリティ検証。 Claude Codeはレビュータスクの決定済み12デュエル中8回勝利しました1。品質哲学システムとエビデンスゲートが、Codexのより手続き的なアプローチではすり抜けてしまう問題を検出します。
- ガバナンス重視のワークフロー。 プレコミットチェック、認証情報スキャン、出力検証、品質ゲートが必要な場合、フックがそのメカニズムです。Codexの通知システムはエージェントターン完了後に発火します9——危険なアクションをブロックするには遅すぎます。
- 複雑なマルチエージェントオーケストレーション。 Taskツールによる明示的なサブエージェント委任10と審議システムの組み合わせにより、分離されたコンテキストで複数の専門エージェントが協力するワークフローが可能になります。
- 深いコードベースリファクタリング。 Opusは長いセッションにわたってアーキテクチャのコンテキストを保持することに優れています。Claude Codeのフック/スキル/ルール階層を支配するコンテキストエンジニアリングパターンは、モデルが大規模なコードベースについて推論する方法に直接反映されます。
Codexの勝利
- サンドボックスが重要な環境。 信頼できないコードに対してAIエージェントを実行する場合、外部PRを処理する場合、またはファイルシステムとネットワークアクセスに対するハードな保証が必要なCI/CDパイプラインで運用する場合、Codexのカーネルレベルのサンドボックスが適切なツールです3。アプリケーションレベルのフックでは同等の保証は提供できません。
- クロスツールチーム。 チームが複数のAIコーディングツールを使用している場合、AGENTS.mdはCodex、Cursor、Copilot、Amp、Windsurfなどで動作する単一の指示ファイルを提供します14。CLAUDE.md、
.cursor/rules、Copilot指示の間での重複メンテナンスが不要になります。 - クラウド非同期ワークフロー。
codex cloud execはタスクをクラウドインフラに委任し、差分を返します12。CI/CD統合やバッチ処理において、これはClaude Codeがネイティブに提供していないワークフローです。 - リアルタイムステアリング。 Codexのステアモードでは、Enterで即時指示を注入し(即座に反映)、Tabでフォローアップをキューに入れる(次のターンで反映)ことができます15。Claude Codeはフォローアップメッセージをサポートしていますが、ターン中の注入はできません。
- デスクトップ体験。 Codexのデスクトップアプリ(macOS)は、並列ワークツリーでのマルチタスキングとフローティングポップアウトウィンドウをサポートしています16。Claude CodeはVS CodeとJetBrains17と統合していますが、CLI優先です。
両方を使う
2つのツールは競合しません。CLAUDE.mdとAGENTS.mdは同じリポジトリに共存できます。以下が私のセットアップです:
my-project/
├── .claude/
│ └── settings.json # Claude Code project config
├── CLAUDE.md # Claude Code instructions
├── AGENTS.md # Codex + Cursor + Copilot instructions
└── codex.md # Codex project config (optional)
具体的なデュアルツールワークフロー: 私は日常の開発——機能実装、コードレビュー、フックがすべてのステップで品質ゲートを適用するマルチファイルリファクタリング——にClaude Codeを使用しています。外部のコントリビューターがPRを開いた場合、Codexの--sandbox read-onlyに切り替えて、信頼できないコードに対する変更をレビューします。アーキテクチャの決定についてセカンドオピニオンが必要な場合は、同じプロンプトを両方のツールに送り、出力をブラインドで比較します——ブラインドジャッジアプローチです。
デュアルツールアプローチは、私自身のテスト以外にも実証的な裏付けがあります。Milvusの研究では、複数のAIモデル間の敵対的レビューがバグ検出率を53%から80%に向上させたことが判明しました23。別の研究では、反復的なClaude-Codexレビューループが3ラウンドにわたって、どちらのツールも単独では発見できなかった14の問題を検出したことが判明しました24。どちらのツールも他方を置き換えるものではありません。異なる脅威モデルとタスクプロファイルをカバーしています。
重要なポイント
ツールを選ぶ場合:
- 安全性要件から始めましょう。カーネルレベルのサンドボックスが必要? → Codex。プログラム可能なガバナンスフックが必要? → Claude Code。
- チームを考慮しましょう。複数のAIツールを使用中? → AGENTS.mdでツール間の指示メンテナンスの重複を避けられます14。
- 決定する前に実際のタスクで両方を試しましょう。ブラインドジャッジの方法論は個人的な評価にも使えます。
すでにツールを使い込んでいる場合:
- Claude Codeユーザー:とにかくAGENTS.mdを書きましょう。20分で完了し、プロジェクトをCodex、Cursor、Copilotユーザーにアクセス可能にします。
- Codexユーザー:フックシステムの成熟を注視しましょう。現在の
notifyイベント9は出発点です——拡張フックイベントに対するコミュニティからのリクエストがGitHubで活発です18。 - 両方のツールとも急速に改善されています。この記事の比較の有効期限は年単位ではなく月単位です。
FAQ
同じプロジェクトで両方のツールを使えますか?
はい。CLAUDE.mdとAGENTS.mdは別々のファイルであり、競合しません。各ツールはそれぞれの指示ファイルを読み、もう一方を無視します。私はアクティブなプロジェクトで両方をメンテナンスしています。
初心者にはどちらのツールが適していますか?
Codexは設定のハードルが低く、3つのサンドボックスモードと3つの承認ポリシーでほとんどのユースケースをカバーできます5。Claude Codeの威力はフックとスキルから生まれますが、セットアップに投資が必要です。すでに慣れているモデル(ClaudeまたはGPT)から始めましょう。
コストはどのくらい違いますか?
どちらもそれぞれのAPIを通じたトークンベースの価格設定を使用しています。Claude CodeはAnthropicの価格設定で動作し、CodexはOpenAIのクレジットシステムで動作します。Composioによる独立ベンチマークでは、Codexは同等の結果に対して2〜4倍少ないトークンを消費しました——Figmaプラグインタスクでは、Claude Codeが620万トークンを使用したのに対し、Codexは150万トークンでした22。トークン効率はコストに直接変換されません(トークン単価が異なるため)が、Codexのトークン消費量の少なさは予算制約のあるワークフローにおいて測定可能な利点です。
AGENTS.mdはClaude Codeで動作しますか?
現在のところ動作しません。Claude CodeはCLAUDE.mdを読み、CodexはAGENTS.mdを読みます。フォーマットは十分に似ているため、コンテンツは両者間で簡単に変換できますが、自動的なクロスリーディングはありません。コンテンツが重複するため、両方を書く手間は最小限です。
IDE統合はどちらが優れていますか?
Codexはマルチタスキングとフローティングウィンドウを備えたデスクトップアプリがあります(2026年2月時点でmacOSのみ)16。Claude CodeはVS Codeエクステンションと JetBrainsプラグイン(ベータ)で統合しています17。どちらも優れていますが、CLI優先(Claude Code)かGUI優先(Codex)のどちらのワークフローを好むかで選択が決まります。
参考文献
-
The Blind Judge: Claude vs Codex in 12 Tasks — ブラインド評価の方法論と結果 ↩↩
-
Claude Code Hooks Reference — PreToolUse、PostToolUse、SubagentStartなどを含む17のライフサイクルイベントタイプ ↩↩↩↩↩
-
Codex Security Documentation — Seatbelt(macOS)、Landlock + seccomp(Linux)、3つのサンドボックスモード ↩↩↩↩↩↩
-
Introducing GPT-5.3-Codex — モデル仕様:400K入力コンテキスト、128K出力 ↩
-
Codex Configuration Reference — 承認ポリシー:
untrusted、on-request、never↩↩ -
Claude Code Settings — 5層の構成カスケード ↩
-
Codex Advanced Configuration — プロファイル(実験的) ↩↩
-
Linux Foundation AAIF Announcement — AGENTS.mdが60,000以上のプロジェクトに採用 ↩↩
-
Codex Advanced Configuration — Notifications —
agent-turn-completeイベントを持つnotifyシステム ↩↩↩ -
Claude Code Subagents — 明示的なサブエージェント生成のためのTaskツール ↩↩
-
Anthropic MCP Foundation Announcement — 10,000以上のアクティブな公開MCPサーバー ↩
-
Codex CLI Reference — Cloud Tasks — クラウドインフラへの委任のための
codex cloud exec↩↩↩ -
OpenAI Co-founds the Agentic AI Foundation — AGENTS.mdがLinux Foundation傘下のAAIFに寄贈 ↩
-
AGENTS.md — クロスツール互換性:Codex、Cursor、Copilot、Amp、Windsurf、Gemini CLI ↩↩↩
-
Codex CLI Features — Steer Mode — Enterで即時ステアリング、Tabで次ターンのフォローアップ ↩
-
Introducing the Codex App — マルチタスキングとフローティングウィンドウを備えたデスクトップアプリ(macOS) ↩↩
-
Claude Code IDE Integrations — VS CodeエクステンションとJetBrainsプラグイン(ベータ) ↩↩
-
Codex GitHub Issue #2109 — 拡張フックイベントに対するコミュニティリクエスト ↩
-
Caught in the Hook: RCE and API Token Exfiltration Through Claude Code Project Files — Check Point Research — CVE-2025-59536:ユーザー同意前に悪意のあるフックが実行される問題 ↩
-
Practical Security Guidance for Sandboxing Agentic Workflows — NVIDIA AI Red Team — エージェント型コーディングツールにおける5つの残存脆弱性 ↩
-
Codex Sample Configuration —
agents.max_threads = 6デフォルト、設定変更可能 ↩ -
Codex vs Claude Code: Benchmarks, Agent Teams & Limits Compared — Morph/Composio — 同一タスクにおけるトークン消費ベンチマーク ↩
-
AI Code Review Gets Better When Models Debate — Milvus/Zilliz — 敵対的議論により53%から80%のバグ検出率向上 ↩
-
I Made Claude and Codex Argue Until My Code Plan Was Perfect — Aseem Shrey — 3ラウンドの反復レビューで14の問題を検出 ↩
Which Tool Should You Use?
Answer four questions to get a recommendation.
Loading quiz…