← 모든 글

Codex CLI vs Claude Code 2026: 아키텍처, 가격, 그리고 중국 접근성

From the guides: Claude Code & Codex CLI

Codex CLI와 Claude Code는 모두 터미널 네이티브 에이전트 도구로 출시되었지만, 안전성을 강제하는 메커니즘은 근본적으로 다릅니다. 커널 수준 샌드박싱과 애플리케이션 계층 후크라는 차이입니다. 이 단 하나의 설계 결정이 각 도구가 설정, 권한, 멀티 에이전트 워크플로, 팀 거버넌스를 처리하는 방식 전반에 연쇄적으로 영향을 미칩니다. 다음 비교는 그 차이점을 구체적인 의사결정 기준과 함께 정리한 것이며, 제가 이 사이트 전반에 걸쳐 구축해 온 AI 엔지니어링 영역을 확장합니다.

저는 Claude Code를 주력 도구로 사용합니다. 이 편향을 미리 밝혀둡니다. 여기에 담긴 관찰은 두 도구를 프로덕션 작업에서 매일 사용하고, 블라인드 평가를 진행하며, 듀얼 도구 워크플로를 운영한 결과에서 나온 것입니다.

TL;DR: Codex는 OS 커널 계층(Seatbelt, Landlock, seccomp)에서 안전성을 강제하며1 조잡한 단위(coarse-grained)의 제어를 제공합니다. Claude Code는 26개의 프로그래밍 가능한 후크 이벤트2를 통해 애플리케이션 계층에서 안전성을 강제하며 세밀한 제어를 제공합니다. 두 도구 모두 이제 대규모 컨텍스트에서 실행됩니다. Opus 4.7 기반의 Claude Code는 표준 가격으로 1M 토큰을 노출하고5, GPT-5.4 기반의 Codex CLI(2026년 3월 5일에 출시되어 GPT-5.3-Codex의 코딩 능력을 포함하는 OpenAI의 현재 프론티어 모델)는 최대 1.05M 컨텍스트와 128K 최대 출력을 노출하지만, 장문 컨텍스트 모드를 명시적으로 활성화하지 않는 한 기본 컨텍스트는 272K입니다4. 클라우드 샌드박스 작업 위임 및 커널 수준 격리에는 Codex를 사용하세요. 프로그래밍 가능한 거버넌스, 장기 호흡의 리팩토링, 보안 중심 코드 리뷰에는 Claude Code를 사용하세요. 최선의 결과는 둘 다 사용할 때 나옵니다.

핵심 요약

  • 솔로 개발자: 자신의 주력 언어 생태계와 맞는 도구로 시작하세요. 두 도구는 동일한 저장소에서 충돌 없이 공존합니다(CLAUDE.md와 AGENTS.md는 독립적입니다).
  • 팀 리드: Codex 프로필은 명시적이고 감사 가능한 설정 전환을 제공합니다. Claude Code의 계층 구조는 컨텍스트에 맞는 규칙을 자동으로 적용합니다. 팀이 명시적 제어를 선호하는지 자동 적응을 선호하는지에 따라 선택하세요.
  • 보안 엔지니어: Codex의 커널 샌드박스는 에이전트가 OS 수준에서 제한을 우회하지 못하게 막습니다. Claude Code의 후크는 에이전트와 프로세스 경계를 공유하지만 임의의 검증 로직을 허용합니다. 위협 모델에 도구를 맞추세요.

어떤 도구를 선택해야 할까요? (페르소나별 의사결정 경로)

비교의 답은 사용자가 누구인지에 따라 달라집니다. 이 페이지의 가장 흔한 독자 유형별로 네 가지 경로를 제시합니다.

개인 또는 소규모 팀 프로젝트의 솔로 개발자

기본 선택: Claude Code. 표준 가격의 Opus 4.7 기반 1M 토큰 컨텍스트, 26개 후크 거버넌스 시스템, 플러그인 마켓플레이스가 솔로 개발자가 매일 마주치는 사례(대규모 코드베이스 리팩토링, 세션 연속성, 저장 시 자동 포맷팅)를 모두 커버합니다. 월 $20의 Pro 또는 월 $100~200의 Max는 예측 가능하고 넉넉합니다.

Codex CLI를 도입할 때: 일회성 비신뢰 코드 리뷰에 커널 수준 샌드박싱이 필요할 때, 또는 ChatGPT Pro/Plus가 이미 주력 AI 지출을 커버하고 있어서 Claude를 추가하는 것이 중복으로 느껴질 때입니다. 두 도구는 깔끔하게 공존합니다. CLAUDE.mdAGENTS.md는 나란히 존재합니다.

10~50명 규모 엔지니어링 조직의 팀 리드

기본 선택: Claude Code. 프로그래밍 가능한 후크(린팅 게이트, 보안 스캔, 금지 명령 차단)는 모델이 프롬프트 지시를 따르기를 바라는 대신, 팀 표준을 결정론적으로 인코딩합니다. 관리형 설정을 통해 리드가 조직 전체 정책을 설정하면 개별 개발자가 이를 재정의할 수 없습니다. claude agents CLI와 Agent Teams 프리미티브는 팀이 리뷰 워크플로에 실제로 사용하는 패턴과 일치합니다.

Codex CLI를 도입할 때: 보안 민감 리뷰에 커널 수준의 강력한 격리가 필요할 때(예: 외부 계약자 코드 리뷰, 출처 미상 작성자의 오픈소스 PR), 또는 팀이 이미 Azure OpenAI / Microsoft Foundry를 통해 OpenAI 도구에 전념하고 있을 때입니다. 일상 도구가 아닌 집중 리뷰 도구로 운영하세요.

보안 중심 리뷰어 또는 레드팀 연구자

기본 선택: Codex CLI(적대적 입력용) + Claude Code(거버넌스 실행용). macOS Seatbelt / Linux Landlock+seccomp를 활용한 Codex의 커널 샌드박스는 애플리케이션 계층 아래에서 시스템 콜을 거부하므로, 적대적 에이전트는 허용하지 않은 파일시스템 영역을 문자 그대로 건드릴 수 없습니다. Claude Code의 후크 시스템은 강력하지만 프로세스 경계를 공유합니다. 위협에 맞는 도구를 사용하세요.

Claude Code를 도입할 때: 프로그래밍 가능한 사후 리뷰 작업(트리아지 후크, 감사 로깅, 자동 보고서 생성)이 필요할 때입니다. 일반적인 워크플로는 다음과 같습니다. Codex가 샌드박스 제약 하에서 검사하고, Claude Code가 트리아지와 정책 강제 계층을 처리합니다.

중국 / 중국 본토 기반 개발자

두 도구 모두 작동하지만, 기능보다 연결성과 비용이 선택을 더 크게 좌우합니다. 결정하기 전에 중국에서 Codex와 Claude Code 접근하기로 건너뛰세요.


핵심 아키텍처 분기점

Codex와 Claude Code의 가장 깊은 차이는 거버넌스가 어디에서 일어나느냐입니다. Codex는 macOS의 Seatbelt, Linux의 Landlock과 seccomp를 통해 커널 계층에서 안전성을 강제합니다1. OS는 파일시스템 접근, 네트워크 호출, 프로세스 생성이 애플리케이션에 도달하기 전에 제한합니다. 운영체제가 시스템 콜이 실행되기 전에 거부하기 때문에 모델은 이 제한을 우회할 수 없습니다.

Claude Code는 후크를 통해 애플리케이션 계층에서 안전성을 강제합니다. 후크는 26개의 라이프사이클 지점에서 작업을 가로채는 프로그램입니다2. Bash에 대한 PreToolUse 후크는 모든 명령을 검사하고, 임의의 로직으로 검증하고, 종료 코드 2로 차단할 수 있습니다. 후크 시스템은 프로그래밍 가능한 거버넌스를 제공합니다. 비즈니스 규칙을 인코딩하고, 린터를 실행하고, 자격 증명을 스캔합니다. 단점은 애플리케이션 계층 강제가 에이전트와 프로세스 경계를 공유한다는 점입니다. 커널 수준 강제는 그렇지 않습니다.

모든 안전 아키텍처는 표현력과 경계의 강도를 맞바꿉니다. 이 두 도구는 그 스펙트럼의 양극단에 위치하며, 그 위치 선정은 의도적입니다. 커널 샌드박싱은 위협 모델에 잠재적으로 적대적인 에이전트가 포함될 때(악성 코드 리뷰, 비신뢰 스크립트 실행) 의미가 있습니다. 애플리케이션 계층 후크는 위협 모델이 과신하지만 선의의 에이전트일 때(자신의 코드, 자신의 팀, 자신의 컨벤션) 의미가 있습니다. 대부분의 개발자는 시점에 따라 두 위협 모델을 모두 필요로 합니다.

설정 철학

Codex는 설정에 TOML을 사용합니다. Claude Code는 JSON를 사용합니다. 형식의 차이는 표면적입니다. 철학의 차이는 그렇지 않습니다.

Codex는 설정을 프로필 중심으로 구성합니다. --profile로 명시적으로 전환하는 명명된 프리셋입니다. careful 프로필은 approval_policy = "untrusted"를 설정하고 공격적으로 샌드박스를 적용합니다9. deep-review 프로필은 더 강력한 모델로 전환합니다. 이름으로 선택했기 때문에 어떤 설정이 활성화되어 있는지 항상 알 수 있습니다. 지시 계층은 AGENTS.md를 사용하며, 이는 Linux Foundation의 Agentic AI Foundation 산하의 오픈 표준으로3, Codex, Cursor, Copilot, Amp, Windsurf, Gemini CLI가 읽을 수 있습니다.

Claude Code는 설정을 계층 구조 중심으로 구성합니다. 관리형 설정(최우선순위)부터 명령줄, 로컬 프로젝트, 공유 프로젝트, 사용자 기본값에 이르기까지 5개 계층이 캐스케이드됩니다. CLAUDE.md 파일은 사용자, 프로젝트, 로컬 수준에서 범위를 가집니다. 스킬, 후크, 규칙 디렉터리가 추가 계층을 더합니다. 컨텍스트에 맞는 설정이 자동으로 적용되지만, 활성 설정은 단일 파일에서 보이지 않습니다. 계층을 읽어서 재구성해야 합니다.

프로필은 명시성과 감사 가능성을 선호합니다. 어떤 --profile 플래그가 전달되었는지 확인하면 “어떤 설정이 활성화되어 있었나?”라는 질문에 답할 수 있습니다. 계층 구조는 자동화와 컨텍스트 민감성을 선호합니다. 적절한 컨텍스트가 자동으로 적용되지만 “어떤 설정이 활성화되어 있나?”에 답하려면 최대 5개 계층을 읽고 그 병합 순서를 이해해야 합니다. 이 트레이드오프는 실제적입니다. 저는 가끔 프로젝트 수준 지시와 충돌하는 사용자 수준 CLAUDE.md 재정의에 놀란 적이 있는데, 명시적 프로필이라면 일어나지 않을 일입니다.

안전 모델 비교

차원 Codex CLI Claude Code
샌드박스 접근법 커널 수준(macOS의 Seatbelt, Linux의 Landlock + seccomp) 애플리케이션 수준 후크(26개 라이프사이클 이벤트 유형)
권한 수준 세 가지 샌드박스 모드: read-only, workspace-write, danger-full-access 도구별 세밀한 패턴 기반 허용/거부 목록
탈출 저항성 높음: OS가 애플리케이션 경계 아래에서 시스템 콜을 거부 중간: 후크가 에이전트와 프로세스 경계를 공유
프로그래밍 가능성 낮음: 샌드박스 모드별 이진 허용/거부 높음: 후크 스크립트의 임의 코드(bash, Python 등)
승인 정책 세 단계: untrusted, on-request, never 정규식 매칭이 있는 도구별 권한 패턴
네트워크 제한 샌드박스가 아웃바운드 네트워크 접근 제어 후크는 검사할 수 있지만 커널 수준에서 네트워크 호출을 차단할 수는 없음
알려진 취약점 클래스 샌드박스 탈출(이론적; 2026년 3월 기준 공개된 CVE 없음) 프로젝트 설정의 악성 후크(프로젝트 신뢰 프롬프트로 완화)

패턴은 다음과 같습니다. Codex는 더 강한 경계와 더 조잡한 제어를 제공합니다. Claude Code는 더 약한 경계와 더 세밀한 제어를 제공합니다11. 올바른 선택은 위협 모델에 따라 다릅니다. 비신뢰 외부 코드를 리뷰하고 있나요? 커널 샌드박싱입니다. 신뢰할 수 있는 코드에 조직 코딩 표준을 강제하고 있나요? 프로그래밍 가능한 후크입니다.

컨텍스트와 모델

2026년 4월 기준, Codex CLI는 GPT-5.4(2026년 3월 5일 출시, 스냅샷 gpt-5.4-2026-03-05)를 기본값으로 합니다4. GPT-5.4는 OpenAI의 현재 프론티어 범용 모델이며, OpenAI의 출시 게시물에 따르면 GPT-5.3-Codex의 코딩 능력을 포함하면서 네이티브 Computer Use와 더 폭넓은 에이전트 워크플로 지원을 추가합니다. 컨텍스트는 기본 272K이며, model_context_window / model_auto_compact_token_limit 설정을 통해 활성화하는 1.05M 토큰 실험적 장문 컨텍스트 모드가 있습니다. 출력은 128K로 제한됩니다.4 272K 입력 토큰을 초과하는 장문 컨텍스트 프롬프트는 해당 세션에 대해 입력 2배 / 출력 1.5배로 청구됩니다.4 GPT-5.3-Codex는 사용 중단되지 않았으며 코딩 최적화된 비용/속도 프로파일을 선호하는 팀을 위해 계속 사용 가능합니다.

Claude Code의 기본 모델은 Anthropic의 모델 설정 문서에 따라 플랜 등급에 따라 다릅니다5. Max와 Team Premium은 Opus 4.7(2026년 4월 16일 출시)을 기본값으로 합니다. Pro, Team Standard, Enterprise, 종량제 Anthropic API는 Sonnet 4.6을 기본값으로 하며, Enterprise와 API는 2026년 4월 23일에 Opus 4.7로 이전합니다. Opus 4.7은 사용 시 표준 가격으로 1M 토큰 컨텍스트 윈도우를 노출합니다(장문 컨텍스트 프리미엄 없음). 두 벤더의 모델 기본값과 컨텍스트 한계는 출시 사이에 변경됩니다. 현재 값은 각 벤더의 페이지를 확인하세요.

두 도구 모두 이제 대규모 컨텍스트를 잘 처리합니다. Claude Code는 Opus 4.7에서 표준 가격으로 1M에 도달하며 프리미엄이 없습니다. GPT-5.4 기반의 Codex CLI는 장문 컨텍스트 모드를 활성화하면 1.05M에 도달하며, 272K 입력을 넘으면 2배/1.5배 배수로 청구됩니다. 모노레포 수집의 경우 실제적인 차이는 좁아졌습니다. 대부분의 프로젝트에서 원시 윈도우 크기보다 검색 품질(각 도구가 관련 코드를 얼마나 잘 찾는가)이 더 중요합니다.

2026년 4월 기준 공개 벤치마크에서 Opus 4.7은 SWE-bench Verified(GPT-5-Codex의 74.9% 기준선 대비 87.6%), SWE-bench Pro(GPT-5.4의 공식 57.7% 및 GPT-5.3-Codex의 56.8% 대비 64.3%), CursorBench(Opus 4.6의 58% 대비 70%)에서 선두입니다12. Terminal-Bench 2.0에서는 Opus 4.7이 69.4%로 들어왔고, GPT-5.4가 75.1%, GPT-5.3-Codex가 77.3%로 선두입니다12. GPT-5.4의 SWE-bench Verified 점수는 작성 시점에 공식 모델 또는 출시 페이지에 게시되어 있지 않습니다. 제3자 보도는 약 80% 수치를 보고하지만, 게시되지 않은 벤더 수치는 신중하게 다루세요. 벤치마크 선두는 출시 사이에 흔들립니다. 결정하기 전에 벤더 페이지를 확인하세요. Opus의 이전 버전을 사용한 블라인드 평가에서, 더 작은 컨텍스트에서도 리뷰와 보안 작업에서 더 우수한 성능을 보였으며, 1M에서도 같은 패턴이 유지됩니다.

두 도구 모두 모델 라우팅을 지원합니다. Codex는 프로필별로 모델을 선택합니다9. Claude Code의 기본값은 위에서 설명한 플랜 등급에 따라 다르며(Max와 Team Premium에서 Opus 4.7, Pro, Team Standard, Enterprise, API에서 Sonnet 4.6, Enterprise와 API는 2026년 4월 23일에 Opus 4.7로 이전), 모든 호출은 --model 또는 설정 수준 구성을 통해 재정의할 수 있습니다.

가격 심층 분석

가격은 세 가지 패턴으로 나뉩니다. 토큰당 API 청구, 에이전트 CLI 사용을 포함하는 구독, 그리고 AWS / GCP / Azure를 통한 클라우드 제공자 청구입니다. 가장 저렴한 경로는 표시 가격이 아니라 일일 토큰 볼륨에 따라 다릅니다.

Claude Code 가격(2026년 4월)

토큰당(Anthropic API):13

모델 입력 ($/MTok) 출력 ($/MTok) 캐시 읽기 ($/MTok) 5분 캐시 쓰기 ($/MTok) 1시간 캐시 쓰기 ($/MTok)
Claude Opus 4.7 $5.00 $25.00 $0.50 $6.25 $10.00
Claude Opus 4.6 $5.00 $25.00 $0.50 $6.25 $10.00
Claude Sonnet 4.6 $3.00 $15.00 $0.30 $3.75 $6.00
Claude Haiku 4.5 $1.00 $5.00 $0.10 $1.25 $2.00

장문 컨텍스트 프리미엄 없음: Opus 4.7의 1M 토큰 윈도우는 표준 요율로 가격이 책정됩니다. 배치 API는 입력과 출력에 50% 할인을 제공합니다.13

Claude Code를 포함하는 구독:8

플랜 월 요금 Claude Code 사용 프로파일
Pro $20 넉넉한 일일 한도; 지속적인 무거운 에이전트 작업 시 추가 사용 게이팅에 도달
Max 5x $100 Pro의 5배 Claude 사용량; 솔로 개발자의 일반적인 일일 도구 한도
Max 20x $200 Pro의 20배 사용량; 대부분의 단일 개발자 무거운 리팩토링 일일 작업을 커버
Team Standard 사용자당 $30 공유 관리자 제어가 있는 좌석당
Team Premium 사용자당 $150 모든 좌석에서 전체 Opus 4.7 기본값 포함
Enterprise 맞춤형 관리형 정책, SSO, 감사를 갖춘 좌석당

클라우드 제공자 가격은 AWS Bedrock / Google Vertex AI / Microsoft Foundry 정가를 따르며, Anthropic의 직접 API와 비슷하게 추적되지만 지역별 가용성과 데이터 거주 차이가 있습니다.

Codex CLI 가격(2026년 4월)

토큰당(OpenAI API):14

OpenAI가 모델 변형을 순환함에 따라 가격이 변경됩니다. 다음은 2026년 4월 19일 기준으로 검증된 요율입니다.

모델 입력 ($/MTok) 캐시된 입력 ($/MTok) 출력 ($/MTok) 컨텍스트 / 최대 출력
GPT-5.4(현재 기본값) $2.50 $0.25 $15.00 1,050,000 컨텍스트 / 128K 출력
GPT-5.3-Codex OpenAI 가격 참조 N/A OpenAI 가격 참조 400K 입력 / 128K 출력
GPT-5.2-Codex OpenAI 가격 참조 N/A OpenAI 가격 참조 400K 입력 / 128K 출력
GPT-5 등급에 따라 다름 N/A 다름 최대 400K 입력

GPT-5.4의 장문 컨텍스트 프롬프트(272K 입력 토큰 초과)는 표준, 배치, 플렉스 등급 전반에 걸쳐 해당 세션에 대해 입력 2배, 출력 1.5배로 청구됩니다.4

Codex를 포함하는 구독:

ChatGPT Plus(월 $20), Pro(5배는 월 $100, 20배는 월 $200), Business(종량제 Codex 전용 좌석 또는 Codex 사용 한도가 있는 표준 ChatGPT Business 좌석) 모두 플랜별 한도가 있는 Codex 계열 사용을 포함합니다. Pro 5x는 2026년 5월 31일까지 Plus의 10배로 일시적인 사용량 부스트를 받습니다. Pro 20x 5시간 Codex 한도는 같은 프로모션 기간 동안 Plus의 25배로 실행됩니다. GPT-5.4, GPT-5.3-Codex, GPT-5.2-Codex 모두 OpenAI API를 통해 사용 가능하며, 지원되는 API 등급에 대해 게시된 토큰당 가격과 속도 한도가 있습니다(무료 등급은 지원되지 않음).14 API만 사용하는 팀은 구독을 완전히 건너뛸 수 있습니다. 번들된 Codex 사용량과 더 넓은 채팅 표면이 팀에 더 나은 가치일 때 ChatGPT 구독을 사용하세요.

Opus 4.7의 1M 컨텍스트가 실제로 비용이 얼마나 드나

실용적인 질문: “Opus 4.7에 1M 토큰 코드베이스를 입력하면 청구액이 얼마인가요?”

10K 토큰 응답이 있는 한 번의 전체 컨텍스트 패스: - 입력: 1,000,000 토큰 × $5.00/MTok = $5.00 - 출력: 10,000 토큰 × $25.00/MTok = $0.25 - 총합(캐싱 없음): 패스당 $5.25

1M 토큰 코드베이스에 5분 프롬프트 캐싱 적용(단일 캐시 쓰기 가정, 후속 작업을 위한 반복 읽기): - 첫 쓰기: 1,000,000 × $6.25/MTok = $6.25(일회성) - 5분 내 후속 읽기 각각: 1,000,000 × $0.50/MTok + 10,000 출력 × $25/MTok = $0.75 - 한 세션에서 다섯 번 읽기: $6.25 + (5 × $0.75) = 다섯 번의 전체 컨텍스트 패스에 $10.00

1 USD ≈ 6.82 CNY의 참조 환율을 사용한 CNY 예시(2026년 4월경 6.82-6.90 범위에 모인 PBOC 중심 평가): 1M 토큰 코드베이스의 다섯 번의 전체 컨텍스트 Opus 4.7 세션에 ~¥68.20. 환율은 변동합니다. 조달 시 인용하기 전에 현재 환율을 확인하세요. 정확한 CNY 수치가 아니라 계산 방법이 예산 책정에 중요합니다.

GPT-5.4의 장문 컨텍스트 모드에 대한 동등한 계산: - 입력: 1,000,000 토큰 × ($2.50 기본 × 2 장문 컨텍스트 배수) = $5.00 - 출력: 10,000 토큰 × ($15.00 기본 × 1.5 장문 컨텍스트 배수) = $0.225 - 총합(캐싱 없음): 패스당 $5.23 — 전체 1M 컨텍스트에서 Opus 4.7의 캐시되지 않은 가격의 1% 이내

GPT-5.2-Codex(400K 입력 한도)에서는 동일한 1M 코드베이스를 수집하려면 최소 세 번의 패스가 필요하므로 세션 수준 비용 프로파일이 변경됩니다. 대부분의 중국 개발자 팀은 매일 전체 1M 컨텍스트가 필요하지 않으므로, 현실적인 비교는 일반적인 세션 크기(50K-200K 토큰)를 통해 진행되며, 두 도구 모두 세션당 $1 미만의 비용이 듭니다.

구독이 토큰당 가격을 이길 때

대략적인 휴리스틱(Anthropic가 게시된 토큰 할당량을 발표하지 않으므로 게시된 토큰 할당량은 아님): 가벼운 대화형 사용은 Pro에 편안하게 맞습니다. Opus 4.7에서 더 무거운 일일 에이전트 워크플로는 Max 5x 또는 Max 20x 영역으로 밀어 올립니다. 지속적인 전체 컨텍스트(세션당 $5 이상) 워크로드는 공격적인 프롬프트 캐싱이 있는 종량제가 한도가 있는 구독보다 저렴할 수 있습니다. Pro에서 대표적인 한 주를 실행하고, Claude 사용량 대시보드를 확인하고, 공식에서 추측하는 대신 필요에 따라 등급을 올리세요. 팀도 동일한 사용자별 계산을 수행하며, 추가로 Enterprise 등급이 흡수하는 관리, 정책, SSO 오버헤드가 있습니다.

중국에서 Codex와 Claude Code 접근하기

각 제공자가 게시한 지원 국가 목록에 따라, 1차 OpenAI 및 Anthropic API 접근은 중국 본토에서 공식적으로 지원되지 않습니다.18 개발자들은 때때로 이를 우회하기 위해 본토가 아닌 네트워크와 계정을 통해 라우팅하지만, 그렇게 하면 계정 정지 및 컴플라이언스 위험이 따르며, 이는 만들고 있는 생산성 사례와 비교 검토해야 합니다. CLI 바이너리는 다운로드되면 로컬에서 설치 및 실행됩니다. 일상적인 에이전트 루프 동작은 어디서나 동일합니다. 클라우드 제공자 라우팅이 합법적인 경로가 있는 곳입니다.

AWS Bedrock 지역별 가용성

Anthropic의 Claude 모델은 특정 AWS 지역의 Amazon Bedrock을 통해 제공됩니다. 2026년 4월 기준, 공개 Bedrock 런타임 엔드포인트는 도쿄, 서울, 싱가포르, 뭄바이, 시드니를 포함한 APAC 지역을 커버하지만, 현재 중국 본토 또는 홍콩에서 운영되는 Bedrock 런타임 엔드포인트는 없습니다.15 AWS를 통해 라우팅하는 중국 고객은 일반적으로 관련 지연 비용을 감수하고 싱가포르 또는 도쿄를 사용합니다.

Google Vertex AI 지역별 가용성

Google Cloud는 아시아 태평양 지역에서 Vertex AI 생성 AI 엔드포인트를 제공합니다.16 특정 Claude 모델 가용성은 지역에 따라 다르며, asia-east2(홍콩)는 역사적으로 중국 남부 사용자에게 더 낮은 지연 시간을 제공했습니다. 결정하기 전에 선택한 Vertex 지역에서 Claude 모델 가용성을 확인하세요. 커버리지는 시간이 지남에 따라 확장되지만 APAC 전반에 걸쳐 균일하지 않습니다.

Microsoft Foundry

Claude는 Azure의 글로벌 표준 배포에서 Microsoft Foundry를 통해 사용 가능하며, 일반적으로 적격 Enterprise / MCA-E 구독이 필요합니다. Claude는 Azure China(21Vianet 운영)에서 사용 가능한 것으로 공개적으로 문서화되어 있지 않습니다. 이는 별개의 서비스 카탈로그를 갖는 별도의 소버린 클라우드입니다. Foundry를 사용하는 중국 고객은 Azure China가 아닌 글로벌 Azure 풋프린트를 통해 라우팅합니다.17

중국에서 OpenAI Codex

OpenAI의 지원 국가 목록에는 중국 본토가 포함되어 있지 않습니다. OpenAI는 미지원 지역에서의 접근이 계정 차단 또는 정지를 야기할 수 있다고 경고합니다.18 Azure OpenAI는 특정 글로벌 지역(Azure China 아님)에서 사용 가능하며, 컴플라이언스 접근을 추구하는 중국 기업은 일반적으로 직접 OpenAI API를 사용하려고 시도하는 대신 적절한 계약 조건과 함께 허용된 지역의 Azure OpenAI를 통해 라우팅합니다.

중국 제공자의 모델 대안

DeepSeek, Qwen(Alibaba), Kimi(Moonshot)는 중국 팀이 비용 및 지연 시간 이유로 평가하는 모델 수준 대안입니다. 이들은 모델이지 에이전트 CLI가 아닙니다. Claude Code와 페어링하려면 Anthropic-API-호환 어댑터 또는 게이트웨이가 필요합니다(Claude Code는 Anthropic 요청/응답 형태를 기대합니다. ANTHROPIC_BASE_URL은 OpenAI 호환이 아닌 Anthropic 호환 엔드포인트를 가리킵니다). Codex는 프로필 수준 모델 라우팅을 지원하지만 마찬가지로 OpenAI 호환 응답을 기대합니다. 두 도구 모두 1급 DeepSeek/Qwen/Kimi 지원을 노출하지 않습니다. 경로는 제공자의 API 형태와 CLI가 기대하는 것 사이를 변환하는 어댑터 계층입니다. 조달, 지연 시간, 데이터 거주 질문에 이 모델들이 잘 답합니다. 에이전트 루프 정확성과 도구 호출 성숙도 질문은 여전히 이 CLI들이 튜닝된 프론티어 Claude 및 GPT 모델이 가장 잘 처리합니다.

멀티 에이전트 기능

Codex는 codex cloud exec를 통해 클라우드 작업 위임을 제공합니다6. 작업을 설명하면 Codex가 클라우드 환경을 가동하고, 코드베이스에 대해 에이전트를 실행하고, diff를 반환합니다. 에이전트의 추론을 실시간으로 모니터링하지 않습니다. 작업을 미리 정의하고 나중에 결과를 수집합니다. 클라우드 위임은 CI/CD 파이프라인과 배치 처리에 자연스럽게 매핑됩니다. 내부적으로 Codex는 병렬 하위 작업 실행을 위한 동시 에이전트 스레드를 지원합니다7(현재 릴리스에서는 최대 6개이지만 이 한도는 변경될 수 있음).

Claude Code는 Task 도구를 통해 명시적인 서브에이전트 생성을 제공합니다10. 부모 에이전트는 특정 작업과 격리된 컨텍스트로 서브에이전트를 생성하고, 결과를 조정하고, 출력을 종합합니다. 서브에이전트 생성은 대화형 오케스트레이션을 가능하게 합니다. 추론을 보고 개입할 수 있습니다. 여러 에이전트가 서로의 출력을 비평하는 숙의 패턴과 결합하면, 대화형 오케스트레이션은 발사 후 잊는 모델이 놓치는 문제를 잡아냅니다.

클라우드 작업은 작업을 미리 정의하고 나중에 결과를 원하는 워크플로에 적합합니다. 서브에이전트 조정은 작업이 추론을 통해 진화하고 실시간 종합이 필요한 워크플로에 적합합니다.

신뢰 스펙트럼

의사결정 매트릭스를 보기 전에, 작업이 신뢰 스펙트럼에서 어디에 위치하는지 고려하세요. 모든 에이전트 코딩 작업에는 암묵적인 신뢰 결정이 포함됩니다. 이 특정 작업에 대해 에이전트의 판단을 얼마나 신뢰하는가?

낮은 신뢰(Codex 사용): 작성하지 않은 코드를 리뷰하거나, 외부 출처의 스크립트를 실행하거나, 실시간으로 모니터링할 수 없는 클라우드 환경에 작업을 위임하고 있습니다. 에이전트가 적대적 입력을 만날 수 있습니다. 모델이 결정하는 것과 무관하게 OS가 경계를 강제하기를 원합니다.

중간 신뢰(둘 다 사용): 알려진 패턴이 있는 자신의 코드베이스에서 작업하고 있습니다. 에이전트가 실수할 수 있지만, 그것은 악의가 아닌 과신의 실수입니다. 변경 사항이 적용되기 전에 리뷰하고 싶지만 커널 수준 격리는 필요하지 않습니다.

높은 신뢰(Claude Code 사용): 후크, CLAUDE.md 지시, 허용 목록 권한을 통해 가드레일을 구축했습니다. 에이전트는 사용자가 설계한 거버넌스 환경 내에서 작동합니다. 거버넌스 계층을 충분히 신뢰하여 작업을 일괄적으로 제한하는 대신 선택적으로 승인합니다.

대부분의 개발자는 대부분의 시간을 중간 신뢰에서 운영하며, 이것이 듀얼 도구 워크플로가 작동하는 이유입니다. Codex는 샌드박스가 빛을 발하는 낮은 신뢰 작업을 처리하고, Claude Code는 프로그래밍 가능한 후크가 커널 제한보다 더 많은 가치를 더하는 중간에서 높은 신뢰 작업을 처리합니다.

의사결정 프레임워크

특정 요구 사항에 기반한 구체적인 의사결정 매트릭스:

필요한 것… 최선의 선택 이유
커널 수준 샌드박싱 Codex OS 수준 강제는 에이전트가 우회할 수 없음
프로그래밍 가능한 거버넌스 후크 Claude Code 임의 코드 실행이 가능한 26개 라이프사이클 이벤트
도구 간 이식성(AGENTS.md) Codex Codex, Cursor, Copilot, Amp, Windsurf에서 작동하는 오픈 표준
깊은 다중 파일 리팩토링 Claude Code Opus는 긴 세션에서 아키텍처 컨텍스트를 유지하는 데 탁월함
발사 후 잊는 클라우드 작업 Codex codex cloud exec가 클라우드 인프라에 위임하고 diff를 반환
실시간 대화형 추론 Claude Code 라이브 가시성을 갖춘 확장된 사고 + 서브에이전트 조정
비신뢰 외부 코드 리뷰 Codex --sandbox read-only가 모든 파일시스템 변형을 방지
팀 코딩 표준 강제 Claude Code 후크가 비즈니스 로직을 결정론적으로 인코딩하고 강제
대규모 모노레포 수집 거의 동률 Opus 4.7은 표준 가격으로 Claude Code를 1M까지 끌어올림. GPT-5.4 기반의 Codex CLI는 장문 컨텍스트 모드로 1.05M에 도달(272K 입력 초과 시 2배/1.5배 청구), 이제 둘 다 모노레포를 처리
보안 중심 코드 리뷰 Claude Code 제 블라인드 평가 시리즈에서 리뷰 작업에 Opus가 더 우수함

이 매트릭스에서 단일 도구가 지배하지 않습니다. 기본 패턴은 10개 행이 시사하는 것보다 단순합니다. Codex는 단단한 경계가 필요할 때 탁월하고, Claude Code는 프로그래밍 가능한 로직이 필요할 때 탁월합니다. 비신뢰 코드를 실행하거나, 외부 기여를 리뷰하거나, 모니터링할 수 없는 클라우드 환경에 위임하고 있다면, 단단한 경계가 더 중요합니다. 팀 컨벤션을 강제하거나, 다단계 워크플로를 오케스트레이션하거나, 비즈니스 규칙을 인코딩하는 가드레일을 구축하고 있다면, 프로그래밍 가능한 로직이 더 중요합니다. 요구 사항 중 3개 이상이 한 도구를 가리키면 거기서 시작하세요. 분할이 균등하다면 듀얼 도구 워크플로를 고려하세요.

제 추천

둘 다 사용하세요. 12개 작업 카테고리에 걸쳐 두 도구로 동일한 코드 리뷰 작업을 실행했고(제 블라인드 평가 시리즈에 문서화), 어느 도구도 단독으로는 모든 것을 잡지 못한다는 것을 발견했습니다. 구체적인 예: FastAPI 인증 리뷰 중에 Opus는 비밀번호 비교 함수의 타이밍 사이드채널을 표시했습니다. 비교가 hmac.compare_digest() 대신 Python의 == 연산자를 사용하여 타이밍 오라클을 생성했습니다11. Codex는 그 문제를 완전히 놓쳤습니다. 같은 코드베이스에서 Codex의 샌드박스는 사용자가 제공한 URL이 내부 서비스에 도달할 수 있는 URL 가져오기 엔드포인트의 SSRF 벡터를 잡았습니다. Opus는 입력 검증이 애플리케이션 수준에서 올바르게 보였기 때문에 엔드포인트를 승인했지만, 커널 샌드박스는 내부 IP 범위로의 아웃바운드 네트워크 요청을 표시했습니다. 다른 데이터로 학습된 다른 모델은 다른 취약점 클래스를 잡습니다. 둘 다 실행하면 리뷰당 비용이 약 2배 들지만 보안 민감 코드에서 의미 있게 더 많은 문제를 잡습니다.

제 일일 워크플로는 작업 유형별로 나뉩니다.

  • Claude Code는 기능 구현, 코드 리뷰, 다중 파일 리팩토링을 처리합니다. 후크는 포맷팅을 강제하고, 위험한 명령을 차단하며, 모든 편집 후 테스트를 실행합니다. 대화형 서브에이전트 모델은 추론을 통해 진화하는 작업에 잘 작동합니다.
  • Codex--sandbox read-only로 비신뢰 코드 리뷰를 처리하고(외부 PR과 의존성을 커널 샌드박스에서 리뷰), codex cloud exec를 통한 클라우드 위임 배치 작업, 다른 모델 관점이 사각지대를 잡는 아키텍처 두 번째 의견을 처리합니다.

CLAUDE.md와 AGENTS.md는 충돌 없이 동일한 저장소에 공존합니다. 두 파일이 대부분의 콘텐츠를 공유하므로 유지 관리 오버헤드는 최소로 유지됩니다. 컨벤션의 공유 섹션을 유지하고 둘 다에 복사합니다.

어느 도구도 사용하지 말아야 할 때. 보장된 결정성이 필요할 때는 Codex도 Claude Code도 올바른 선택이 아닙니다. 두 도구 모두 확률적입니다. 동일한 프롬프트가 실행마다 다른 출력을 생성할 수 있습니다. 워크플로가 정확한 재현성을 요구하는 경우(예: 바이트 단위로 스키마와 일치해야 하는 설정 파일 생성), 대신 템플릿 엔진이나 코드 생성기를 사용하세요. 에이전트 도구는 작업이 판단을 요구할 때 가장 강력하고, 판단 없이 정밀성을 요구할 때 가장 약합니다.

12개 작업 카테고리에 걸친 블라인드 평가 방법론과 결과를 포함한 전체 비교는 Claude Code vs Codex: 언제 어느 것을 사용해야 하나를 참조하세요. 개별적으로 시작하려면 Claude Code 가이드 또는 Codex 가이드를 참조하세요. Claude Code의 거버넌스 계층을 구동하는 후크 시스템에 대한 실용적인 안내는 후크 튜토리얼을 참조하세요.

참고 문헌

FAQ

동일한 프로젝트에서 Codex와 Claude Code를 모두 사용할 수 있나요?

네. CLAUDE.md와 AGENTS.md는 각 도구가 독립적으로 읽는 별개의 파일입니다. 어느 도구도 다른 도구의 지시 파일을 파싱하지 않습니다. 설정 파일이 충돌하지 않습니다. 저는 모든 활성 프로젝트에서 둘 다 유지합니다. 유일한 고려 사항은 지시 파일 사이에 공유 콘텐츠를 동기화 상태로 유지하는 것이며, 형식이 비슷하므로 몇 분이면 됩니다.

일일 사용에 어느 것이 더 저렴한가요?

위의 전체 가격 심층 분석 섹션을 참조하세요. 빠른 버전: Claude Code는 토큰당 Anthropic API 가격과 구독 사다리(Pro $20, Max 5x $100, Max 20x $200, Team $30/사용자, Team Premium $150/사용자)를 가집니다. Codex CLI는 GPT-5.4($2.50 입력 / $15 출력 per MTok, 272K 입력 초과 시 2배/1.5배 배수)와 GPT-5.3-Codex / GPT-5.2-Codex 계열에 대한 토큰당 OpenAI API 가격, 그리고 ChatGPT Plus/Pro 포함을 가집니다. 토큰 효율성은 작업 유형에 따라 다릅니다. 예산에 민감한 작업의 경우, 두 도구를 통해 대표적인 작업을 실행하고 실제 청구를 비교하세요. 토큰당 가격은 제공자 간에 다르므로 원시 토큰 수가 비용에 직접 매핑되지 않습니다.

어느 것이 더 큰 코드베이스를 더 잘 처리하나요?

둘 다 큰 저장소를 잘 처리합니다. 2026년 4월 Opus 4.7 출시 후, Claude Code는 표준 가격으로 1M 토큰에 도달합니다. GPT-5.4 기반의 Codex CLI는 장문 컨텍스트 모드를 활성화하면 1.05M 토큰에 도달합니다(272K 입력 초과 시 2배/1.5배 입력/출력 배수). 장문 컨텍스트 등급에 옵트인하지 않는 한 기본 컨텍스트는 272K입니다. 어느 도구도 코드베이스 전체를 한 번에 읽지 않습니다. 둘 다 일상 작업을 위해 검색에 의존합니다(Claude Code의 코드베이스 검색, 컨텍스트를 미리 로드하는 계층화된 CLAUDE.md; Codex의 임베딩 기반 파일 발견). 원시 윈도우 크기는 단일 턴에서 많은 파일에 걸친 관계를 추론할 때 가장 중요하며, 이제 두 도구 모두 그것을 제공합니다.

Codex CLI는 로컬에서 실행되나요, 아니면 클라우드에서 실행되나요?

둘 다이지만 동일한 모드는 아닙니다. Codex CLI는 기본적으로 로컬에서 실행되며, 모든 터미널 도구와 동일한 패턴입니다.1 클라우드 위임은 codex cloud exec 또는 Codex Cloud를 통한 별도의 흐름이며, OpenAI 호스팅 인프라의 컨테이너에서 작업을 실행하고 diff를 반환합니다. Codex Cloud는 사람들이 보통 “Codex 샌드박스”라고 말할 때 의미하는 것입니다. Codex CLI의 로컬 샌드박싱은 위의 안전 모델 섹션에서 설명한 커널 수준 Seatbelt / Landlock 경로입니다.

중국 본토에서 Claude Code와 Codex에 접근할 수 있나요?

1차 OpenAI 및 Anthropic API 접근은 중국 본토에서 공식적으로 지원되지 않습니다. CLI 바이너리는 로컬에서 설치 및 실행되지만, 중국 본토에서 1차 API로 트래픽을 라우팅하면 계정 정지 또는 컴플라이언스 문제가 발생할 수 있습니다. 합법적인 경로는 Azure OpenAI(특정 비중국 지역), AWS Bedrock(도쿄, 서울, 싱가포르, 뭄바이, 시드니를 포함한 가장 가까운 공개 APAC 지역; 중국 본토 또는 홍콩 런타임 엔드포인트 없음), Google Vertex AI(asia-east2 홍콩 및 모델별 가용성 주의가 있는 기타 APAC 지역), 글로벌 Azure의 Microsoft Foundry(Azure China 아님)를 통해 Claude를 위해 실행됩니다. 자세한 내용은 위의 중국에서 Codex와 Claude Code 접근하기를 참조하세요.

중국어 주석이나 코드는 토큰 사용량에 어떻게 영향을 미치나요?

중국어 문자는 영어와 다르게 토큰화됩니다. Claude의 토크나이저는 대부분의 중국어 문자를 각각 하나의 토큰으로 취급하므로, 중국어 소스 코드는 종종 동등한 영어보다 줄당 더 토큰 효율적이지만 문자당 덜 효율적입니다(하나의 토큰이 4-6 문자 영어 단어가 아닌 한 문자를 커버). Codex(GPT 계열)는 비슷한 접근 방식을 사용합니다. 실제적인 효과: 어느 언어로든 동등한 주석 / 독스트링 콘텐츠에 대해 대략 비교 가능한 토큰 수를 기대하세요. 토큰당 동작은 자연어 비율보다 코드 구조에 의해 지배됩니다.

백킹 모델로 DeepSeek, Qwen, Kimi와 함께 Claude Code 또는 Codex CLI를 사용할 수 있나요?

어댑터 또는 게이트웨이를 통해서만 가능합니다. Claude Code는 Anthropic API 요청/응답 형태를 기대합니다(ANTHROPIC_BASE_URL은 Anthropic 호환 엔드포인트를 가리킴). Codex는 OpenAI 형태를 기대합니다. DeepSeek / Qwen / Kimi 모두 자신의 API를 게시하며, Claude Code 또는 Codex CLI 세션이 그것을 구동하기 전에 변환이 필요합니다. 커뮤니티 어댑터 프로젝트가 존재하지만 1급은 아니며, 각 제공자가 사용하는 도구 호출 및 프롬프트 캐싱 방언은 멀티턴 에이전트 루프가 종종 깨질 만큼 충분히 다릅니다. DeepSeek / Qwen / Kimi는 별도의 셸 하네스를 통한 단일 샷 코드 생성, 그리고 네이티브 가격 지점에서의 단일 파일 리뷰에 신뢰할 수 있는 옵션입니다. 완전한 에이전트 루프 정확성과 도구 호출 신뢰성은 여전히 이 CLI들이 튜닝된 프론티어 Claude 및 GPT 모델에서 옵니다.

Codex CLI와 ChatGPT의 Codex 기능의 차이는 무엇인가요?

Codex CLI는 github.com/openai/codex의 터미널 도구입니다. ChatGPT 내부의 “Codex”는 다른 UI 어포던스(클라우드 작업 위임, 비동기 결과, ChatGPT 기록 통합)를 통해 ChatGPT의 웹/데스크톱/모바일 앱에서 표면화된 동일한 모델 계열을 의미합니다. CLI와 ChatGPT는 기본 모델을 공유합니다. 워크플로와 컨텍스트 관리가 다릅니다. 질문이 “노트북에 어떤 도구를 설치해야 하나요?”라면 Codex CLI를 의미합니다.

Codex CLI를 사용하려면 ChatGPT 구독이 필요한가요?

아니요, 비용에는 도움이 되지만요. Codex CLI는 토큰당 청구되는 독립형 OpenAI API 키로 작동합니다. ChatGPT Plus 또는 Pro는 일부 Codex 사용을 번들로 제공합니다(상한선은 현재 ChatGPT 구독 페이지를 확인하세요).14 중국 개발자의 경우, OpenAI 계정을 통한 직접 API 청구는 중국 본토 결제 레일을 통한 ChatGPT 구독 라우팅보다 일반적으로 더 깔끔한 경로입니다.

Claude Code의 실제 후크 수는 얼마인가요?

v2.1.116(2026년 4월) 기준 26개 라이프사이클 이벤트입니다.2 수는 시간이 지나면서 늘어났으므로 17개 이벤트를 인용하는 2월 게시물은 오래되었습니다. 2026년 동안 추가된 주요 항목: PostToolUseFailure, SubagentStart, TeammateIdle, TaskCompleted, PermissionRequest, PermissionDenied, PreCompact / PostCompact, Elicitation / ElicitationResult, StopFailure, TaskCreated, CwdChanged, FileChanged, InstructionsLoaded, ConfigChange, WorktreeCreate / WorktreeRemove, Setup.

Opus 4.7은 언제 출시되었으며 이 비교를 어떻게 변경하나요?

2026년 4월 16일. Anthropic의 첫 번째 Glasswing 이후 GA Opus 출시이며 명시적인 사이버 안전 장치와 함께 출시됩니다. 실제적인 비교가 변경됩니다. Claude Code는 이제 표준 가격으로 1M 토큰에 도달하며(Opus 4.7 포함, 장문 컨텍스트 프리미엄 없음), SWE-bench Verified 선두는 GPT-5-Codex의 74.9% 기준선 대비 87.6%인 Opus 4.7로 이동하며, Terminal-Bench 2.0 선두는 다른 방향으로 흔들립니다. GPT-5.4가 75.1%, GPT-5.3-Codex가 77.3%로 Opus 4.7의 69.4% 대비 거기서 선두입니다. 벤치마크 선두는 유동적입니다. 단일 결과를 시점 측정으로 취급하세요. 전체 수치는 위의 컨텍스트와 모델 섹션을 참조하세요.


  1. OpenAI, “Codex CLI: Sandbox Architecture.” Seatbelt(macOS), Landlock 및 seccomp(Linux). GitHub: openai/codex 

  2. Anthropic, “Claude Code Hooks.” 26개 라이프사이클 이벤트 유형(v2.1.116, 2026년 4월 기준). docs.anthropic.com/en/docs/claude-code/hooks 

  3. Linux Foundation, “AGENTS.md Open Standard.” Agentic AI Foundation. GitHub: anthropics/agent-instructions 

  4. OpenAI, GPT-5.4 model docs. 스냅샷 gpt-5.4-2026-03-05. 기본 컨텍스트 272K; model_context_windowmodel_auto_compact_token_limit이 설정되었을 때 최대 1,050,000 토큰까지 실험적 장문 컨텍스트 모드. 최대 출력 128K. 지식 마감일 2025년 8월 31일. 장문 컨텍스트 가격 배수: 입력이 272K를 초과할 때 표준 / 배치 / 플렉스 등급 전반에 걸쳐 세션당 입력 2배 / 출력 1.5배. 출시 게시물에 대해서는 Introducing GPT-5.4도 참조하세요(GPT-5.4를 GPT-5.3-Codex의 코딩 능력을 포함하고 네이티브 Computer Use를 추가하는 것으로 위치시킴), 그리고 여전히 사용 가능한 400K/128K Codex 계열 변형에 대한 역사적인 GPT-5.3-CodexGPT-5.2-Codex 모델 페이지도 참조하세요. 

  5. Anthropic, “Claude Opus 4.7.” 표준 가격의 1M 토큰 컨텍스트. anthropic.com/claude/opus. Claude Code model configuration도 참조하세요. 

  6. OpenAI, “Codex Cloud Tasks.” codex cloud exec 위임. platform.openai.com/docs/guides/codex 

  7. OpenAI, “Codex Agent Architecture.” 동시 스레드 모델. GitHub: openai/codex 

  8. Anthropic, “Pricing.” Claude Max 플랜. platform.claude.com/docs/en/about-claude/pricing 

  9. OpenAI, “Codex Profiles and Policies.” 설정. GitHub: openai/codex 

  10. Anthropic, “Claude Code: Best practices for agentic coding.” anthropic.com/engineering/claude-code-best-practices 

  11. Simon Willison, “Codex, Claude Code, and the state of agentic coding tools.” simonwillison.net 

  12. 벤치마크 수치(2026년 4월). Anthropic 출시 페이지의 Opus 4.7: SWE-bench Verified 87.6%, SWE-bench Pro 64.3%, Terminal-Bench 2.0 69.4%, CursorBench 70%. OpenAI: Introducing GPT-5.4의 GPT-5.4 공식 코딩 평가: SWE-bench Pro 57.7%, Terminal-Bench 2.0 75.1%. GPT-5.4 SWE-bench Verified는 공식 모델 페이지 또는 출시 페이지에 게시되어 있지 않습니다. 제3자 보도(예: NxCode의 GPT-5.4 글)는 ~80% SWE-bench Verified를 보고하며, OpenAI가 공식 수치를 게시할 때까지 제3자로 인용합니다. OpenAI: Introducing GPT-5.3-Codex의 GPT-5.3-Codex 56.8% SWE-bench Pro / 77.3% Terminal-Bench 2.0; GPT-5.3-Codex에 대해 자주 인용되는 75.2% SWE-bench Verified 수치는 공식 출시 페이지에 없습니다(제3자 출처). 같은 출처의 GPT-5.2-Codex 56.4% SWE-bench Pro / 64.0% Terminal-Bench 2.0. GPT-5-Codex 74.9% SWE-bench Verified는 OpenAI의 원래 Codex 출시에서 널리 인용되는 기준선입니다(OpenAI의 GPT-5 개발자 페이지에서도 참조). 이를 현재 측정값보다는 Codex 계열의 하한선으로 취급하세요. 

  13. Anthropic Pricing. Opus 4.7($5/$25 per MTok), Opus 4.6($5/$25), Sonnet 4.6($3/$15), Haiku 4.5($1/$5)에 대한 공식 토큰당 요율. 프롬프트 캐싱 배수: 5분 캐시 쓰기 1.25배, 1시간 캐시 쓰기 2배, 캐시 적중 0.1배 기본 입력. Opus 4.7의 1M 컨텍스트는 표준 가격에 포함됨(장문 컨텍스트 프리미엄 없음). 배치 API: 50% 할인. 

  14. 토큰당 요율은 OpenAI API Pricing을, 플랜 등급과 5시간 속도 한도는 OpenAI Codex Pricing을 참조하세요. GPT-5.4 토큰당: $2.50 입력 / $0.25 캐시된 입력 / $15 출력 per MTok; 272K 입력 초과 시 2배/1.5배 장문 컨텍스트 배수. 2026년 4월 기준 Codex 플랜: Plus $20/월, Pro 5x $100/월, Pro 20x $200/월(위에 언급된 2026년 5월 31일 프로모션 부스트 포함), Codex 전용 좌석에 대한 Business 종량제, Enterprise/Edu 영업 문의. 모델별 컨텍스트 윈도우, 속도 한도, API 등급 가용성에 대해서는 GPT-5.4 model docs, GPT-5.3-Codex model docs, GPT-5.2-Codex model docs도 참조하세요. 가격은 OpenAI가 모델 변형을 순환함에 따라 주기적으로 수정됩니다. 이 게시물의 수치는 2026년 4월 19일 기준의 요율표를 반영합니다. 

  15. AWS Bedrock runtime endpoints. 공개 Bedrock 런타임 엔드포인트는 APAC 지역(도쿄, 서울, 싱가포르, 뭄바이, 시드니 등)을 커버하지만 2026년 4월 기준 중국 본토 또는 홍콩 런타임 엔드포인트는 나열되어 있지 않습니다. 특정 지역에 의존하기 전에 현재 커버리지를 확인하세요. 

  16. Google Vertex AI generative-AI locations. asia-east2(홍콩)를 포함한 아시아 태평양 지역이 생성 AI 엔드포인트를 제공합니다. 특정 모델 가용성은 지역에 따라 다르며 시간이 지남에 따라 확장됩니다. 결정하기 전에 대상 지역과 모델에 대한 위치 페이지를 확인하세요. 

  17. Microsoft Foundry의 Claude. Claude는 글로벌 표준 Foundry 지역을 통해 배포됩니다. Azure China(21Vianet)은 별개의 기능 카탈로그를 갖는 별도의 소버린 클라우드입니다. 작성 시점에 Claude는 Azure China 모델로 나열되지 않습니다. 

  18. OpenAI 지원 국가는 중국 본토를 포함하지 않습니다. OpenAI는 미지원 국가에서의 접근이 계정 차단 또는 정지를 야기할 수 있다고 경고합니다. Anthropic 지원 국가도 마찬가지로 공식적으로 지원되는 시장을 나열합니다. 작성 시점에 중국 본토는 그중에 없습니다. 본토가 아닌 네트워크를 통해 라우팅하는 독자는 그 경로에 의존하기 전에 두 제공자의 약관과 자신의 컴플라이언스 자세를 검토해야 합니다. 

관련 게시물

Claude Code vs Codex CLI 2026: Decision Reference

Use official docs for setup; use Blake's reference for architecture, safety, extensibility, and 36 blind duel results.

14 분 소요

AGENTS.md Patterns: What Actually Changes Agent Behavior

Which AGENTS.md patterns actually change agent behavior? Anti-patterns to avoid, patterns that work, and a cross-tool co…

12 분 소요

Claude Code Skills: Build Custom Auto-Activating Extensions

Build custom Claude Code skills that auto-activate based on context. Step-by-step tutorial covering SKILL.md structure, …

13 분 소요