Claude Code vs Codex CLI: 어떤 상황에서 어떤 도구를 사용해야 할까
저는 Claude Code를 주요 개발 도구로 사용하고 있습니다. 이 편향은 미리 밝혀둘 가치가 있습니다. 가장 강력한 비교 글은 하나의 도구를 깊이 알고 다른 도구를 정직하게 테스트할 때 나오기 때문입니다. 동일한 작업을 두 도구에 보내고 어떤 도구가 어떤 결과를 생성했는지 모른 채 점수를 매긴 36회의 블라인드 듀얼 1과 두 도구를 사용한 수백 번의 세션을 통해, “어떤 도구가 더 낫습니까?”라는 질문의 답이 진정으로 “작업에 따라 다릅니다”라는 것을 알게 되었습니다.
TL;DR
Claude Code와 Codex CLI는 같은 문제 — AI 지원 개발 — 를 근본적으로 다른 아키텍처로 해결합니다. Claude Code는 훅을 통해 거버넌스를 수행합니다 (17가지 라이프사이클 이벤트 유형이 정책을 결정론적으로 적용) 2. Codex는 샌드박싱을 통해 거버넌스를 수행합니다 (애플리케이션 계층 아래의 OS 수준 커널 제한) 3. 어느 접근 방식도 절대적으로 우월하지 않습니다.
Claude Code는 코드 리뷰 및 보안 검증에서 Codex를 일관되게 능가했습니다. Codex는 샌드박싱, AGENTS.md를 통한 교차 도구 이식성, 그리고 클라우드 작업 위임에서 진정한 이점을 제공합니다.
빠른 결정: 커널 수준 샌드박싱이나 교차 도구 AGENTS.md가 필요한가요? → Codex. 프로그래밍 가능한 거버넌스 훅이나 깊은 리팩토링이 필요한가요? → Claude Code. 두 가지 안전 모델이 모두 필요한가요? → 둘 다 사용하세요.
두 도구 모두 처음이신가요? 먼저 Claude Code 가이드나 Codex 가이드를 읽어보세요. 이 글은 최소 하나의 도구에 대한 친숙함을 전제로 합니다.
두 가지 사고 모델
두 도구 모두 3계층 아키텍처이지만, 각 계층이 서로 다른 목적을 수행합니다.
Claude Code:
- 추론 — Claude Opus가 코드베이스를 처리하고 변경 사항에 대해 추론합니다
- 실행 — Bash, 파일 작업, git 명령, MCP 도구 호출
- 거버넌스 — 훅이 17개 라이프사이클 지점에서 작업을 가로챕니다 2; 권한이 범위를 제어합니다
Codex:
- 모델 — 400K 입력 / 128K 출력 컨텍스트를 가진 GPT-5.3-Codex 4
- 샌드박스 — OS 수준 커널 적용 (macOS의 Seatbelt, Linux의 Landlock + seccomp) 3
- 승인 — 세 가지 정책 (
untrusted,on-request,never)이 실행 전 변경을 제어합니다 5
핵심적인 차이는 거버넌스가 어디에 위치하는가입니다. Claude Code는 애플리케이션 계층에서 안전성을 적용합니다 — 훅은 특정 이벤트를 가로채는 프로그램입니다. Codex는 커널 계층에서 안전성을 적용합니다 — 모델이 무엇을 시도하든 운영 체제가 허용되지 않은 작업을 차단합니다.
이 구분이 중요한 이유: 애플리케이션 계층 거버넌스는 프로그래밍이 가능합니다. 비즈니스 로직을 인코딩하고, 린터를 실행하고, 스키마를 검증할 수 있습니다 — 코드로 표현할 수 있는 모든 것이 가능합니다. 커널 계층 거버넌스는 우회가 불가능합니다. 모델이 제한을 우회할 수 없는 이유는 OS가 시스콜이 애플리케이션에 도달하기 전에 거부하기 때문입니다. 모든 안전 아키텍처는 표현력과 강도 사이에서 트레이드오프를 하며, 이 두 도구는 그 스펙트럼의 양 끝에 위치합니다.
설정 철학
Claude Code는 JSON을 사용합니다. Codex는 TOML을 사용합니다. 둘 다 계층적 범위 지정을 지원합니다. 컨텍스트 전환에 대한 사고 방식에서 철학이 다릅니다.
Claude Code: 계층화된 설정
// ~/.claude/settings.json (user-level)
{
"permissions": {
"allow": ["Bash(git *)"],
"deny": ["Bash(rm -rf *)"]
}
}
// .claude/settings.json (project-level, inherits user)
{
"permissions": {
"allow": ["Bash(npm test)"]
}
}
Claude Code는 여러 계층에서 설정을 해석합니다: 관리 설정 (최고 우선순위) → 명령줄 → 로컬 프로젝트 → 공유 프로젝트 → 사용자 기본값 6. 메모리 파일 (CLAUDE.md)은 자체 범위 지정을 따릅니다: 사용자 → 프로젝트 → 로컬. 스킬과 훅이 추가 계층을 더합니다. 유연성은 강력하지만 활성 설정이 어떤 단일 파일에서도 보이지 않습니다 — 계층을 읽어가며 조합해야 합니다.
Codex: 명시적 전환이 가능한 프로필
# ~/.codex/config.toml
model = "gpt-5.3-codex"
approval_policy = "on-request"
[profiles.deep-review]
model = "gpt-5-pro"
approval_policy = "never"
[profiles.careful]
approval_policy = "untrusted"
codex --profile careful "Review this PR"
codex --profile deep-review "Audit this module"
Codex 프로필을 사용하면 플래그 하나로 설정 간 전환이 가능합니다 7. 계층 해석을 고민할 필요가 없으며 — 활성 설정은 항상 명시적입니다. 승인 정책을 표준화하는 팀에게 이 방식은 감사하기가 더 간편합니다. 프로필은 현재 실험적 기능입니다 7.
안전 모델
안전성은 두 도구 간의 가장 깊은 아키텍처 차이입니다.
Claude Code: 애플리케이션 계층의 결정론적 훅
훅은 작업이 실행되기 전에 가로챕니다. Bash에 대한 PreToolUse 훅은 모든 명령을 검사하고 위험한 패턴을 차단할 수 있습니다 2:
# Hook: git-safety-guardian (PreToolUse:Bash)
if echo "$tool_input" | grep -q "push.*--force.*main"; then
echo '{"decision": "block", "reason": "Force push to main blocked"}'
fi
강점: 훅은 프로그램입니다. 임의로 복잡한 안전 로직을 구현할 수 있습니다 — 파일 경로 검사, JSON 검증, 명명 규칙 적용, 린터 실행 등. 저는 자격 증명 감지부터 품질 게이트까지 모든 것을 다루는 95개의 훅을 운영하고 있습니다.
약점: 훅은 애플리케이션 계층에서 작동합니다. 2025년 Check Point Research는 CVE-2025-59536을 공개하여, 프로젝트 설정 파일의 악성 훅이 사용자가 동의 대화 상자를 보기 전에 — Claude Code 초기화 중에 셸 명령을 실행할 수 있음을 입증했습니다 19. Anthropic은 몇 주 내에 취약점을 패치했지만, 이 공개는 아키텍처적 우려를 검증합니다: 애플리케이션 계층 적용은 에이전트와 프로세스 경계를 공유합니다. NVIDIA의 AI Red Team 지침도 같은 결론에 도달합니다: “훅과 MCP 초기화 함수는 종종 샌드박스 환경 외부에서 실행되어 샌드박스 제어를 탈출할 기회를 제공합니다” 20.
Codex: 커널 수준 샌드박싱
Codex는 OS 수준에서 에이전트를 제한합니다. macOS에서 Seatbelt 프로필이 파일시스템 접근, 네트워크 연결, 프로세스 생성을 제한합니다 3. Linux에서 Landlock + seccomp이 동등한 제한을 제공하며, 설정을 통해 선택적 Bubblewrap (bwrap) 파이프라인을 사용할 수 있습니다 3.
# Three sandbox modes
codex --sandbox read-only # Agent can read but not write
codex --sandbox workspace-write # Agent writes only in project directory (default)
codex --sandbox danger-full-access # No restrictions (named to signal risk)
강점: 커널 수준 적용은 애플리케이션 아래에 있습니다. 모델이 교묘한 명령을 만들어 제한을 탈출할 수 없습니다 — 운영 체제가 시스콜이 실행되기 전에 거부합니다 3. 전체 접근 모드의 danger- 접두사는 샌드박스 제한을 제거하는 것이 일상적 설정이 아닌 예외적 행동임을 반영합니다.
약점: 커널 제한은 이진적입니다. 파일시스템 쓰기를 허용하거나 거부할 수 있지만, “src/에 대한 쓰기는 허용하되 변경이 린터를 통과하지 않으면 config/에 대한 쓰기는 차단”이라고 말할 수 없습니다. 그런 세밀한 거버넌스에는 애플리케이션 수준 로직이 필요합니다.
트레이드오프는 실재합니다. 훅은 세밀하고 프로그래밍 가능한 안전을 제공하지만 경계가 약합니다. 샌드박싱은 더 강한 경계를 제공하지만 제어가 더 거칩니다. 빠른 결정 휴리스틱:
- 내부 신뢰, 외부 코드: 알 수 없는 기여자의 PR을 검토할 때
read-only샌드박싱과 함께 Codex를 사용하세요. 모델이 무엇을 시도하든 커널이 파일 수정을 방지합니다. - 신뢰할 수 있는 코드, 정책 적용: 코드베이스를 신뢰하지만 조직 표준 — 커밋 메시지 형식, 자격 증명 스캔, 린팅 게이트 — 을 적용해야 할 때 Claude Code 훅을 사용하세요.
- 두 가지 우려 모두: 둘 다 사용하세요. 초기 안전 경계에는 Codex를 사용하고, 거버넌스 중심 검토에는 Claude Code로 전환하세요.
확장성
두 도구 모두 커스터마이징을 지원하지만 메커니즘별 성숙도가 다릅니다.
| 메커니즘 | Claude Code | Codex |
|---|---|---|
| 프로젝트 지침 | CLAUDE.md (Claude 전용) | AGENTS.md (교차 도구 표준, 60K+ 프로젝트) 8 |
| 라이프사이클 훅 | 17가지 이벤트 유형 (성숙) 2 | agent-turn-complete에 대한 notify (초기 단계) 9 |
| 스킬/명령 | 스킬 + 슬래시 명령 | AGENTS.md 패턴을 통한 커뮤니티 유지 |
| 서브에이전트 위임 | 명시적 Task 도구 (사용자 주도 생성) 10 | 내부적 (기본 최대 6개 동시, 사용자에게 노출되지 않음) 21 |
| MCP 통합 | STDIO + HTTP (10,000+ 공개 서버) 11 | STDIO + HTTP |
| 클라우드 위임 | 네이티브 미지원 | 클라우드 작업 (실험적: codex cloud exec) 12 |
Claude Code가 앞서는 부분: 훅. PreToolUse, PostToolUse, UserPromptSubmit, SessionStart, Stop, SubagentStart, SubagentStop, PreCompact 등 9가지 이상을 포함하는 17개 이벤트 라이프사이클 시스템 2은 Codex의 단일 이벤트 알림 시스템이 대응할 수 없는 거버넌스 패턴을 가능하게 합니다. 품질 게이트를 적용하거나, 커밋 전 자격 증명 유출을 감지하거나, 자동으로 컨텍스트를 주입해야 한다면, Claude Code의 훅 아키텍처가 상당히 더 성숙합니다.
Codex가 앞서는 부분: 교차 도구 이식성. AGENTS.md는 Linux Foundation 산하 Agentic AI Foundation이 관리하는 오픈 표준으로 13, 60,000개 이상의 프로젝트에서 채택되었습니다 8. 동일한 지침 파일이 Codex, Cursor, GitHub Copilot, Amp, Windsurf, Gemini CLI (설정 포함)에서 작동합니다 14. CLAUDE.md는 강력하지만 Claude Code에 한정됩니다. 클라우드 작업 위임도 Codex만의 고유 기능입니다 — codex cloud exec이 장시간 실행 작업을 OpenAI 인프라에 오프로드하고 diff를 반환합니다 12. 이는 Claude Code가 네이티브로 제공하지 않는 워크플로우입니다.
각 도구가 우위에 있는 영역
36회의 블라인드 듀얼 — 두 도구에 동일한 프롬프트를 보내고 출력을 블라인드로 채점한 결과 — 과 일상적 프로덕션 사용 기반:
| 카테고리 | Claude Code | Codex | 동점 |
|---|---|---|---|
| 코드 리뷰 및 보안 | 8 | 4 | 0 |
| 기능 구현 | 5 | 5 | 2 |
| 리팩토링 | 4 | 3 | 1 |
| DevOps 및 CI/CD | 1 | 3 | 0 |
전체 방법론과 듀얼별 점수는 The Blind Judge에서 확인할 수 있습니다.
Claude Code가 우위에 있는 경우
- 코드 리뷰 및 보안 검증. Claude Code는 리뷰 작업에서 결정된 12개 듀얼 중 8개를 승리했습니다 1. 품질 철학 시스템과 증거 게이트가 Codex의 보다 절차적인 접근 방식에서 놓치는 문제를 포착합니다.
- 거버넌스 중심 워크플로우. 워크플로우에서 사전 커밋 검사, 자격 증명 스캔, 출력 검증, 품질 게이트가 필요하다면 훅이 그 메커니즘입니다. Codex의 알림 시스템은 에이전트 턴이 완료된 후에 발동됩니다 9 — 위험한 행동을 차단하기에는 너무 늦습니다.
- 복잡한 멀티 에이전트 오케스트레이션. Task 도구를 통한 명시적 서브에이전트 위임 10과 숙의 시스템의 결합은 격리된 컨텍스트에서 여러 전문 에이전트가 협업하는 워크플로우를 가능하게 합니다.
- 깊은 코드베이스 리팩토링. Opus는 긴 세션에 걸쳐 아키텍처 컨텍스트를 유지하는 데 뛰어납니다. Claude Code의 훅/스킬/규칙 계층을 관리하는 컨텍스트 엔지니어링 패턴은 모델이 대규모 코드베이스에 대해 추론하는 방식에 직접적으로 적용됩니다.
Codex가 우위에 있는 경우
- 샌드박스가 중요한 환경. 신뢰할 수 없는 코드에 대해 AI 에이전트를 실행하거나, 외부 PR을 처리하거나, 파일시스템 및 네트워크 접근에 대해 강력한 보장이 필요한 CI/CD 파이프라인에서 운영하는 경우, Codex의 커널 수준 샌드박싱이 적합한 도구입니다 3. 애플리케이션 수준 훅은 동일한 보장을 제공할 수 없습니다.
- 교차 도구 팀. 팀이 여러 AI 코딩 도구를 사용하는 경우, AGENTS.md는 Codex, Cursor, Copilot, Amp, Windsurf 등에서 작동하는 하나의 지침 파일을 제공합니다 14. CLAUDE.md,
.cursor/rules, Copilot 지침 간의 중복 유지 보수가 필요 없습니다. - 클라우드 비동기 워크플로우.
codex cloud exec은 작업을 클라우드 인프라에 위임하고 diff를 반환합니다 12. CI/CD 통합이나 배치 처리의 경우, 이는 Claude Code가 네이티브로 제공하지 않는 워크플로우입니다. - 실시간 조정. Codex의 steer 모드를 사용하면 Enter로 작업 중간에 지시를 즉시 주입하거나 Tab으로 후속 지시를 대기열에 넣을 수 있습니다 (다음 턴) 15. Claude Code는 후속 메시지를 지원하지만 턴 중간 주입은 지원하지 않습니다.
- 데스크톱 경험. Codex의 데스크톱 앱 (macOS)은 병렬 워크트리 간 멀티태스킹과 플로팅 팝아웃 창을 지원합니다 16. Claude Code는 VS Code 및 JetBrains와 통합되지만 17 CLI 중심입니다.
두 도구 함께 사용하기
두 도구는 충돌하지 않습니다. CLAUDE.md와 AGENTS.md는 같은 저장소에 공존합니다. 제 설정은 다음과 같습니다:
my-project/
├── .claude/
│ └── settings.json # Claude Code project config
├── CLAUDE.md # Claude Code instructions
├── AGENTS.md # Codex + Cursor + Copilot instructions
└── codex.md # Codex project config (optional)
구체적인 이중 도구 워크플로우: 저는 일상 개발 — 기능 구현, 코드 리뷰, 훅이 매 단계에서 품질 게이트를 적용하는 다중 파일 리팩토링 — 에 Claude Code를 사용합니다. 외부 기여자가 PR을 열면, --sandbox read-only와 함께 Codex로 전환하여 신뢰할 수 없는 코드에 대해 변경 사항을 검토합니다. 아키텍처 결정에 대한 세컨드 오피니언이 필요할 때는 같은 프롬프트를 두 도구에 보내고 출력을 블라인드로 비교합니다 — 블라인드 저지 접근 방식입니다.
이중 도구 접근 방식은 제 자체 테스트를 넘어 경험적 지지를 받고 있습니다. Milvus의 연구에 따르면 여러 AI 모델 간의 적대적 리뷰가 버그 감지율을 53%에서 80%로 높였습니다 23. 별도의 연구에서는 반복적인 Claude-Codex 리뷰 루프가 3라운드에 걸쳐 어느 도구도 단독으로 발견하지 못한 14개의 문제를 포착했습니다 24. 어느 도구도 다른 도구를 대체하지 않습니다. 서로 다른 위협 모델과 작업 프로필을 커버합니다.
핵심 요점
도구를 선택하는 경우:
- 안전 요구 사항부터 시작하세요. 커널 수준 샌드박싱이 필요한가요? Codex. 프로그래밍 가능한 거버넌스 훅이 필요한가요? Claude Code.
- 팀을 고려하세요. 여러 AI 도구를 사용 중인가요? AGENTS.md는 도구 간 중복 지침 유지 보수를 방지합니다 14.
- 결정하기 전에 실제 작업에 두 도구를 모두 시도해 보세요. 블라인드 저지 방법론은 개인 평가에도 적용됩니다.
이미 하나의 도구에 투자한 경우:
- Claude Code 사용자: 어쨌든 AGENTS.md를 작성하세요. 20분이면 되고, 프로젝트를 Codex, Cursor, Copilot 사용자에게도 접근 가능하게 만듭니다.
- Codex 사용자: 훅 시스템의 성숙도를 주시하세요. 현재의
notify이벤트 9는 시작점입니다 — 확장된 훅 이벤트에 대한 커뮤니티 요청이 GitHub에서 활발히 진행 중입니다 18. - 두 도구 모두 빠르게 개선되고 있습니다. 이 글의 비교는 수년이 아닌 수개월의 유효 기간을 가집니다.
FAQ
같은 프로젝트에서 두 도구를 모두 사용할 수 있나요?
네. CLAUDE.md와 AGENTS.md는 충돌 없는 별개의 파일입니다. 각 도구는 자체 지침 파일을 읽고 다른 것은 무시합니다. 저는 활발한 프로젝트에서 둘 다 유지합니다.
초보자에게 어떤 도구가 더 적합한가요?
Codex는 설정 장벽이 더 낮습니다 — 세 가지 샌드박스 모드와 세 가지 승인 정책이 대부분의 사용 사례를 커버합니다 5. Claude Code의 강점은 훅과 스킬에서 나오며, 이를 설정하려면 투자가 필요합니다. 이미 익숙한 모델 (Claude 또는 GPT)부터 시작하세요.
비용은 어떻게 비교되나요?
두 도구 모두 각각의 API를 통해 토큰 기반 요금제를 사용합니다. Claude Code는 Anthropic의 가격 정책으로 실행되고, Codex는 OpenAI의 크레딧 시스템으로 실행됩니다. Composio의 독립적인 벤치마킹에 따르면 Codex는 비슷한 결과에 대해 2-4배 적은 토큰을 소비했습니다 — Figma 플러그인 작업에서 Claude Code는 6.2M 토큰을 사용한 반면 Codex는 1.5M 토큰을 사용했습니다 22. 토큰 효율성이 비용으로 직접 환산되지는 않지만 (토큰당 가격이 다르므로), Codex의 낮은 토큰 소비량은 예산이 제한된 워크플로우에서 측정 가능한 이점입니다.
AGENTS.md가 Claude Code에서 작동하나요?
현재는 아닙니다. Claude Code는 CLAUDE.md를 읽고, Codex는 AGENTS.md를 읽습니다. 형식이 충분히 유사하여 콘텐츠를 쉽게 변환할 수 있지만, 자동 교차 읽기는 없습니다. 콘텐츠가 겹치므로 둘 다 작성하는 데 최소한의 노력만 필요합니다.
어떤 도구의 IDE 통합이 더 우수한가요?
Codex는 멀티태스킹과 플로팅 창이 있는 데스크톱 앱을 제공합니다 (2026년 2월 기준 macOS 전용) 16. Claude Code는 VS Code 확장과 JetBrains 플러그인 (베타)을 통해 통합됩니다 17. 두 도구 모두 잘 작동하며, CLI 중심 (Claude Code) 또는 GUI 중심 (Codex) 워크플로우 중 어떤 것을 선호하는지에 따라 선택이 달라집니다.
참고 자료
-
The Blind Judge: Claude vs Codex in 12 Tasks — 블라인드 평가 방법론 및 결과 ↩↩
-
Claude Code Hooks Reference — PreToolUse, PostToolUse, SubagentStart 등을 포함한 17가지 라이프사이클 이벤트 유형 ↩↩↩↩↩
-
Codex Security Documentation — Seatbelt (macOS), Landlock + seccomp (Linux), 세 가지 샌드박스 모드 ↩↩↩↩↩↩
-
Introducing GPT-5.3-Codex — 모델 사양: 400K 입력 컨텍스트, 128K 출력 ↩
-
Codex Configuration Reference — 승인 정책:
untrusted,on-request,never↩↩ -
Claude Code Settings — 5계층 설정 캐스케이드 ↩
-
Codex Advanced Configuration — 프로필 (실험적) ↩↩
-
Linux Foundation AAIF Announcement — 60,000개 이상 프로젝트에서 AGENTS.md 채택 ↩↩
-
Codex Advanced Configuration — Notifications —
agent-turn-complete이벤트가 있는notify시스템 ↩↩↩ -
Claude Code Subagents — 명시적 서브에이전트 생성을 위한 Task 도구 ↩↩
-
Anthropic MCP Foundation Announcement — 10,000개 이상의 활성 공개 MCP 서버 ↩
-
Codex CLI Reference — Cloud Tasks — 클라우드 인프라에 위임하기 위한
codex cloud exec↩↩↩ -
OpenAI Co-founds the Agentic AI Foundation — Linux Foundation 산하 AAIF에 AGENTS.md 기증 ↩
-
AGENTS.md — 교차 도구 호환성: Codex, Cursor, Copilot, Amp, Windsurf, Gemini CLI ↩↩↩
-
Codex CLI Features — Steer Mode — 즉시 조정을 위한 Enter, 다음 턴 후속 조치를 위한 Tab ↩
-
Introducing the Codex App — 멀티태스킹과 플로팅 창이 있는 데스크톱 앱 (macOS) ↩↩
-
Claude Code IDE Integrations — VS Code 확장 및 JetBrains 플러그인 (베타) ↩↩
-
Codex GitHub Issue #2109 — 확장된 훅 이벤트에 대한 커뮤니티 요청 ↩
-
Caught in the Hook: RCE and API Token Exfiltration Through Claude Code Project Files — Check Point Research — CVE-2025-59536: 사용자 동의 전 악성 훅 실행 ↩
-
Practical Security Guidance for Sandboxing Agentic Workflows — NVIDIA AI Red Team — 에이전틱 코딩 도구의 5가지 잔여 취약점 ↩
-
Codex Sample Configuration —
agents.max_threads = 6기본값, 설정 가능 ↩ -
Codex vs Claude Code: Benchmarks, Agent Teams & Limits Compared — Morph/Composio — 동일 작업에 대한 토큰 소비 벤치마크 ↩
-
AI Code Review Gets Better When Models Debate — Milvus/Zilliz — 적대적 토론을 통한 버그 감지율 53%에서 80%로 향상 ↩
-
I Made Claude and Codex Argue Until My Code Plan Was Perfect — Aseem Shrey — 3라운드의 반복 리뷰에서 14개 문제 포착 ↩
Which Tool Should You Use?
Answer four questions to get a recommendation.
Loading quiz…