Codex CLI vs Claude Code 2026: architektura, cennik i dostęp z Chin
Zarówno Codex CLI, jak i Claude Code są dostarczane jako natywne dla terminala narzędzia agentyczne, jednak wymuszają bezpieczeństwo za pomocą fundamentalnie odmiennych mechanizmów: sandboxingu na poziomie jądra systemu w porównaniu z hookami w warstwie aplikacji. Ta jedna decyzja projektowa kaskadowo wpływa na to, jak każde z tych narzędzi obsługuje konfigurację, uprawnienia, przepływy pracy z wieloma agentami oraz zarządzanie na poziomie zespołu. Poniższe porównanie mapuje te różnice z konkretnymi kryteriami decyzyjnymi, rozszerzając terytorium inżynierii AI, które buduję w ramach tej witryny.
Używam Claude Code jako głównego narzędzia. Stwierdzam to wyraźnie na wstępie. Obserwacje zawarte w tym tekście pochodzą z codziennego korzystania z obu narzędzi przy zadaniach produkcyjnych, ocen ślepych i przepływów pracy z podwójnym narzędziem.
TL;DR: Codex wymusza bezpieczeństwo w warstwie jądra systemu operacyjnego (Seatbelt, Landlock, seccomp)1 z gruboziarnistą kontrolą. Claude Code wymusza bezpieczeństwo w warstwie aplikacji poprzez 26 programowalnych zdarzeń hook2 z drobnoziarnistą kontrolą. Oba narzędzia obsługują teraz duże konteksty: Claude Code na Opus 4.7 udostępnia 1M tokenów w standardowym cenniku5; Codex CLI na GPT-5.4 (obecny model frontier OpenAI, wydany 5 marca 2026, który integruje możliwości kodowania GPT-5.3-Codex) udostępnia do 1,05M kontekstu z maksymalnym wyjściem 128K, chociaż domyślny kontekst wynosi 272K, chyba że jawnie włączy się tryb długiego kontekstu4. Codex warto wybrać do delegowania zadań w sandboxowanej chmurze oraz izolacji na poziomie jądra. Claude Code warto wybrać do programowalnego zarządzania, refaktoryzacji długoterminowych oraz recenzji kodu zorientowanych na bezpieczeństwo. Najlepsze rezultaty daje korzystanie z obu jednocześnie.
Kluczowe wnioski
- Samodzielni deweloperzy: Warto zacząć od tego narzędzia, które odpowiada głównemu ekosystemowi językowemu. Oba narzędzia współistnieją w tym samym repozytorium bez konfliktów (CLAUDE.md i AGENTS.md są niezależne).
- Liderzy zespołów: Profile Codex oferują jawne, audytowalne przełączanie konfiguracji. Warstwowa hierarchia Claude Code automatycznie stosuje reguły zależne od kontekstu. Wybór należy oprzeć na tym, czy zespół preferuje jawną kontrolę, czy automatyczną adaptację.
- Inżynierowie bezpieczeństwa: Sandbox jądra w Codex zapobiega obchodzeniu ograniczeń przez agenta na poziomie systemu operacyjnego. Hooki w Claude Code dzielą granicę procesu z agentem, lecz pozwalają na dowolną logikę walidacji. Należy dopasować narzędzie do modelu zagrożeń.
Które narzędzie wybrać? (Ścieżki decyzyjne wg persony)
Odpowiedź porównawcza zależy od tego, kim jest czytelnik. Cztery ścieżki, po jednej dla każdego z najczęstszych czytelników tej strony.
Samodzielny deweloper pracujący nad projektami osobistymi lub w małym zespole
Domyślnie: Claude Code. Kontekst 1M tokenów na Opus 4.7 w standardowym cenniku, system zarządzania z 26 hookami oraz marketplace wtyczek pokrywają przypadki, z którymi samodzielni deweloperzy mierzą się codziennie (refaktoryzacje dużych baz kodu, ciągłość sesji, automatyzacja formatowania przy zapisie). Plan Pro za 20 USD miesięcznie lub Max za 100–200 USD miesięcznie jest przewidywalny i hojny.
Po Codex CLI warto sięgnąć, gdy: potrzebny jest sandboxing na poziomie jądra do jednorazowej recenzji niezaufanego kodu albo gdy subskrypcja ChatGPT Pro/Plus już pokrywa podstawowe wydatki na AI, a dodanie Claude wydaje się redundantne. Oba narzędzia współistnieją bez problemu; CLAUDE.md i AGENTS.md mogą leżeć obok siebie.
Lider zespołu w organizacji inżynieryjnej liczącej 10–50 osób
Domyślnie: Claude Code. Programowalne hooki (bramki lintingu, skany bezpieczeństwa, blokowanie zabronionych poleceń) kodyfikują standardy zespołu deterministycznie, zamiast liczyć na to, że model zastosuje się do instrukcji w promptcie. Zarządzane ustawienia pozwalają liderowi narzucić politykę obowiązującą w całej organizacji, której poszczególni deweloperzy nie mogą nadpisać. Prymitywy claude agents CLI oraz Agent Teams odpowiadają wzorcom, których zespoły faktycznie używają w przepływach pracy recenzyjnej.
Po Codex CLI warto sięgnąć, gdy: recenzje wrażliwe pod kątem bezpieczeństwa wymagają twardej izolacji na poziomie jądra (np. przegląd kodu zewnętrznych kontrahentów, PR-ów open source od nieznanych autorów) albo gdy zespół jest już zaangażowany w narzędzia OpenAI poprzez Azure OpenAI / Microsoft Foundry. Warto uruchamiać go jako wyspecjalizowane narzędzie recenzyjne, a nie główny sterownik codzienny.
Recenzent skoncentrowany na bezpieczeństwie lub badacz red-team
Domyślnie: Codex CLI (do wejść adwersarialnych) + Claude Code (do zarządzanej egzekucji). Sandbox jądra Codex na macOS Seatbelt / Linux Landlock+seccomp odmawia wykonania wywołań systemowych poniżej warstwy aplikacji, więc wrogi agent dosłownie nie może dotknąć obszarów systemu plików, na które nie zezwolono. System hooków Claude Code jest potężny, ale dzieli granicę procesu. Warto dopasować narzędzie do zagrożenia.
Po Claude Code warto sięgnąć, gdy: potrzebne są programowalne działania po recenzji (hooki triage, logowanie audytu, automatyczne generowanie raportów). Typowy przepływ: Codex inspekcjonuje pod ograniczeniem sandboxa, Claude Code obsługuje warstwę triage i wymuszania polityk.
Deweloper z Chin / mieszkający w Chinach kontynentalnych
Oba narzędzia działają, ale łączność i koszty kształtują wybór bardziej niż funkcje. Przed podjęciem decyzji warto przejść do sekcji Dostęp do Codex i Claude Code z Chin.
Zasadniczy podział architektoniczny
Najgłębsza różnica między Codex a Claude Code tkwi w tym, gdzie odbywa się zarządzanie. Codex wymusza bezpieczeństwo w warstwie jądra poprzez Seatbelt na macOS oraz Landlock i seccomp na Linuksie1. System operacyjny ogranicza dostęp do systemu plików, wywołania sieciowe i uruchamianie procesów zanim operacje te dotrą do aplikacji. Model nie może obejść tych ograniczeń, ponieważ system operacyjny odmawia wykonania wywołania systemowego, zanim ono nastąpi.
Claude Code wymusza bezpieczeństwo w warstwie aplikacji poprzez hooki — programy, które przechwytują działania w 26 punktach cyklu życia2. Hook PreToolUse dla Bash może przeanalizować każde polecenie, zweryfikować je względem dowolnej logiki i zablokować z kodem wyjścia 2. System hooków zapewnia programowalne zarządzanie: kodyfikowanie reguł biznesowych, uruchamianie linterów, skanowanie pod kątem poświadczeń. Kompromisem jest to, że egzekucja w warstwie aplikacji dzieli granicę procesu z agentem. Egzekucja na poziomie jądra — nie.
Każda architektura bezpieczeństwa wymienia ekspresywność na siłę granicy. Te dwa narzędzia znajdują się na przeciwległych krańcach tego spektrum, a takie pozycjonowanie jest zamierzone. Sandboxing jądra ma sens, gdy model zagrożeń obejmuje potencjalnie adwersarialnego agenta (recenzja złośliwego kodu, uruchamianie niezaufanych skryptów). Hooki warstwy aplikacji mają sens, gdy model zagrożeń to nadmiernie pewny siebie, ale dobrze intencjonowany agent (własny kod, własny zespół, własne konwencje). Większość deweloperów potrzebuje obu modeli zagrożeń w różnych momentach.
Filozofia konfiguracji
Codex używa TOML do konfiguracji. Claude Code używa JSON. Różnica w formacie jest kosmetyczna. Różnica w filozofii — nie.
Codex organizuje konfigurację wokół profili — nazwanych presetów, między którymi przełącza się jawnie za pomocą --profile. Profil careful ustawia approval_policy = "untrusted" i agresywnie sandboxuje9. Profil deep-review przełącza się na bardziej wydolny model. Zawsze wiadomo, która konfiguracja jest aktywna, ponieważ wybrano ją po nazwie. Warstwa instrukcji wykorzystuje AGENTS.md — otwarty standard pod Linux Foundation’s Agentic AI Foundation3, odczytywany przez Codex, Cursor, Copilot, Amp, Windsurf oraz Gemini CLI.
Claude Code organizuje konfigurację wokół warstwowej hierarchii — pięciu warstw spływających kaskadowo od zarządzanych ustawień (najwyższy priorytet) przez wiersz poleceń, lokalny projekt, współdzielony projekt oraz domyślne ustawienia użytkownika. Pliki CLAUDE.md obejmują zakres użytkownika, projektu i lokalny. Katalogi skills, hooks i rules dodają kolejne warstwy. Konfiguracja odpowiednia do kontekstu stosuje się automatycznie, lecz aktywna konfiguracja nie jest widoczna z żadnego pojedynczego pliku. Odtwarza się ją przez przeczytanie hierarchii.
Profile sprzyjają jawności i audytowalności. Można odpowiedzieć na pytanie „jaka konfiguracja była aktywna?”, sprawdzając, który flag --profile został przekazany. Warstwowa hierarchia sprzyja automatyzacji i wrażliwości kontekstowej. Właściwy kontekst stosuje się automatycznie, ale udzielenie odpowiedzi na pytanie „jaka konfiguracja jest aktywna?” wymaga przeczytania nawet pięciu warstw i zrozumienia kolejności ich scalania. Kompromis jest realny: zdarzyło mi się być zaskoczonym nadpisaniem z CLAUDE.md na poziomie użytkownika, które kolidowało z instrukcją na poziomie projektu — coś takiego nie wydarzyłoby się przy jawnych profilach.
Porównanie modeli bezpieczeństwa
| Wymiar | Codex CLI | Claude Code |
|---|---|---|
| Podejście do sandboxa | Poziom jądra (Seatbelt na macOS, Landlock + seccomp na Linuksie) | Hooki na poziomie aplikacji (26 typów zdarzeń cyklu życia) |
| Poziomy uprawnień | Trzy tryby sandboxa: read-only, workspace-write, danger-full-access |
Drobnoziarniste listy allow/deny oparte na wzorcach dla każdego narzędzia |
| Odporność na ucieczkę | Wysoka: system operacyjny odmawia wywołań systemowych poniżej granicy aplikacji | Umiarkowana: hooki dzielą granicę procesu z agentem |
| Programowalność | Niska: binarny allow/deny na tryb sandboxa | Wysoka: dowolny kod w skryptach hooków (bash, Python itd.) |
| Polityki zatwierdzania | Trzy poziomy: untrusted, on-request, never |
Wzorce uprawnień per narzędzie z dopasowaniem wyrażeniami regularnymi |
| Ograniczenia sieciowe | Sandbox kontroluje wychodzący dostęp sieciowy | Hooki mogą inspekcjonować, ale nie blokować wywołań sieciowych na poziomie jądra |
| Znana klasa podatności | Ucieczka z sandboxa (teoretyczna; brak publicznie zgłoszonego CVE wg stanu na marzec 2026) | Złośliwe hooki w konfiguracji projektu (mitygowane poprzez monity zaufania projektu) |
Wzorzec: Codex zapewnia silniejsze granice przy bardziej zgrubnej kontroli. Claude Code zapewnia słabsze granice przy drobniejszej kontroli11. Właściwy wybór zależy od modelu zagrożeń. Recenzja niezaufanego kodu zewnętrznego? Sandboxing jądra. Wymuszanie organizacyjnych standardów kodowania na zaufanym kodzie? Programowalne hooki.
Kontekst i modele
Stan na kwiecień 2026: Codex CLI domyślnie korzysta z GPT-5.4 (wydany 5 marca 2026, migawka gpt-5.4-2026-03-05)4. GPT-5.4 to obecny ogólnego przeznaczenia model frontier OpenAI i — zgodnie z postem startowym OpenAI — integruje możliwości kodowania GPT-5.3-Codex, jednocześnie dodając natywne Computer Use oraz szersze wsparcie dla agentycznych przepływów pracy. Kontekst wynosi domyślnie 272K, z eksperymentalnym trybem długiego kontekstu 1,05M tokenów, który włącza się przez konfigurację model_context_window / model_auto_compact_token_limit. Wyjście ograniczone do 128K.4 Prompty w trybie długiego kontekstu powyżej 272K tokenów wejściowych są rozliczane w proporcji 2× wejście / 1,5× wyjście w danej sesji.4 GPT-5.3-Codex nie jest wycofywany i pozostaje dostępny dla zespołów, które preferują profil cost/speed zoptymalizowany pod kodowanie.
Domyślny model Claude Code zależy od poziomu planu zgodnie z dokumentacją konfiguracji modeli Anthropic5: Max i Team Premium domyślnie korzystają z Opus 4.7 (wydany 16 kwietnia 2026); Pro, Team Standard, Enterprise oraz pay-per-token Anthropic API domyślnie korzystają z Sonnet 4.6, przy czym Enterprise i API przechodzą na Opus 4.7 23 kwietnia 2026. Opus 4.7 udostępnia okno kontekstowe 1M tokenów w standardowym cenniku (bez dopłaty za długi kontekst). Domyślne modele i limity kontekstu obu dostawców zmieniają się między wydaniami; warto sprawdzić stronę każdego dostawcy w poszukiwaniu bieżących wartości.
Oba narzędzia obsługują teraz dobrze duży kontekst. Claude Code sięga 1M na Opus 4.7 w standardowym cenniku, bez dopłaty. Codex CLI na GPT-5.4 sięga 1,05M z włączonym trybem długiego kontekstu, rozliczanym według mnożnika 2×/1,5× po przekroczeniu 272K tokenów wejściowych. W kontekście wczytywania monorepo praktyczna różnica się zmniejszyła; jakość retrievalu (jak dobrze każde narzędzie znajduje istotny kod) ma większe znaczenie niż surowy rozmiar okna dla większości projektów.
Na publicznych benchmarkach według stanu na kwiecień 2026 Opus 4.7 prowadzi w SWE-bench Verified (87,6% vs bazowe 74,9% GPT-5-Codex), SWE-bench Pro (64,3% vs oficjalne 57,7% GPT-5.4 i 56,8% GPT-5.3-Codex) oraz CursorBench (70% vs 58% Opus 4.6)12. Na Terminal-Bench 2.0 Opus 4.7 wypada z wynikiem 69,4%; GPT-5.4 z 75,1% i GPT-5.3-Codex z 77,3% prowadzą tam12. Wynik SWE-bench Verified dla GPT-5.4 nie został opublikowany na oficjalnej stronie modelu ani na stronie startowej w chwili pisania; zewnętrzne źródła podają wartość około 80%, jednak do nieopublikowanych liczb dostawcy należy podchodzić ostrożnie. Przywództwo w benchmarkach zmienia się między wydaniami; przed zaangażowaniem warto sprawdzać strony dostawców. W moich ślepych ocenach z wcześniejszą wersją Opus model przewyższał w zadaniach recenzyjnych i bezpieczeństwa nawet przy mniejszym kontekście, a ten sam wzorzec utrzymuje się na 1M.
Oba narzędzia obsługują routing modeli. Codex wybiera modele per profil9. Domyślny model Claude Code zależy od poziomu planu opisanego powyżej (Opus 4.7 na Max i Team Premium, Sonnet 4.6 na Pro i Team Standard i Enterprise oraz API, przy czym Enterprise i API przechodzą na Opus 4.7 23 kwietnia 2026), a każde wywołanie można nadpisać przez --model lub konfigurację na poziomie ustawień.
Szczegółowa analiza cennika
Cennik dzieli się na trzy wzorce: rozliczanie API za token, subskrypcje obejmujące korzystanie z agentycznego CLI oraz rozliczanie przez dostawcę chmury przez AWS / GCP / Azure. Najtańsza ścieżka zależy od dziennego wolumenu tokenów, a nie od ceny katalogowej.
Cennik Claude Code (kwiecień 2026)
Za token (Anthropic API):13
| Model | Wejście ($/MTok) | Wyjście ($/MTok) | Odczyt z cache ($/MTok) | Zapis cache 5-min ($/MTok) | Zapis cache 1-godz ($/MTok) |
|---|---|---|---|---|---|
| Claude Opus 4.7 | $5,00 | $25,00 | $0,50 | $6,25 | $10,00 |
| Claude Opus 4.6 | $5,00 | $25,00 | $0,50 | $6,25 | $10,00 |
| Claude Sonnet 4.6 | $3,00 | $15,00 | $0,30 | $3,75 | $6,00 |
| Claude Haiku 4.5 | $1,00 | $5,00 | $0,10 | $1,25 | $2,00 |
Brak dopłaty za długi kontekst: okno 1M tokenów Opus 4.7 wyceniane jest według stawki standardowej. Wsadowe API daje 50% zniżki na wejście i wyjście.13
Subskrypcje obejmujące Claude Code:8
| Plan | Miesięcznie | Profil użytkowania Claude Code |
|---|---|---|
| Pro | $20 | Hojne limity dzienne; napotyka bramkowanie dodatkowego użycia przy intensywnej, długotrwałej pracy agentycznej |
| Max 5x | $100 | 5× użycie Claude względem Pro; typowy limit codziennego sterownika dla samodzielnych deweloperów |
| Max 20x | $200 | 20× użycie względem Pro; pokrywa większość intensywnych dni refaktoryzacji jednego dewelopera |
| Team Standard | $30/użytkownik | Za miejsce ze współdzielonymi kontrolami administratora |
| Team Premium | $150/użytkownik | Zawiera pełny domyślny Opus 4.7 dla wszystkich miejsc |
| Enterprise | niestandardowy | Za miejsce z zarządzaną polityką, SSO i audytem |
Cennik dostawcy chmury podąża za stawkami katalogowymi AWS Bedrock / Google Vertex AI / Microsoft Foundry, które ściśle śledzą bezpośrednie API Anthropic, ale z różnicami w dostępności regionalnej i rezydencji danych.
Cennik Codex CLI (kwiecień 2026)
Za token (OpenAI API):14
Cennik zmienia się, gdy OpenAI rotuje warianty modeli; są to stawki zweryfikowane według stanu na 19 kwietnia 2026.
| Model | Wejście ($/MTok) | Cachowane wejście ($/MTok) | Wyjście ($/MTok) | Kontekst / Maks. wyjście |
|---|---|---|---|---|
| GPT-5.4 (obecny domyślny) | $2,50 | $0,25 | $15,00 | 1 050 000 ctx / 128K wyjście |
| GPT-5.3-Codex | zob. cennik OpenAI | N/A | zob. cennik OpenAI | 400K wejście / 128K wyjście |
| GPT-5.2-Codex | zob. cennik OpenAI | N/A | zob. cennik OpenAI | 400K wejście / 128K wyjście |
| GPT-5 | różni się per poziom | N/A | różni się | do 400K wejście |
Prompty w trybie długiego kontekstu na GPT-5.4 (powyżej 272K tokenów wejściowych) rozliczane są w proporcji 2× wejście i 1,5× wyjście dla tej sesji, we wszystkich poziomach standard, batch i flex.4
Subskrypcje obejmujące Codex:
ChatGPT Plus (20 USD/miesiąc), Pro (100 USD/miesiąc za 5×, 200 USD/miesiąc za 20×) oraz Business (miejsca Codex-only pay-as-you-go lub standardowe miejsca ChatGPT Business z limitami użycia Codex) — wszystkie obejmują użycie z rodziny Codex z limitami zależnymi od planu. Pro 5× otrzymuje tymczasowy wzrost użycia do 10× Plus do 31 maja 2026; 5-godzinne limity Pro 20× Codex działają na poziomie 25× Plus w tym samym oknie promocyjnym. GPT-5.4, GPT-5.3-Codex i GPT-5.2-Codex są dostępne przez OpenAI API z opublikowanymi cenami za token i limitami szybkości dla obsługiwanych poziomów API (poziom darmowy nieobsługiwany).14 Zespoły korzystające wyłącznie z API pomijają całkowicie subskrypcję; subskrypcje ChatGPT sprawdzają się, gdy wliczone użycie Codex plus szersza powierzchnia chatu są dla zespołu lepszą wartością.
Ile rzeczywiście kosztuje kontekst 1M na Opus 4.7
Praktyczne pytanie: „Jeśli zasilę Opus 4.7 bazą kodu o 1M tokenów, jaki będzie rachunek?”
Jedno pełne przejście kontekstowe z odpowiedzią 10K tokenów: - Wejście: 1 000 000 tokenów × $5,00/MTok = $5,00 - Wyjście: 10 000 tokenów × $25,00/MTok = $0,25 - Razem (bez cachowania): $5,25 za przejście
Z 5-minutowym cachowaniem promptu na bazie kodu o 1M tokenów (zakładając pojedynczy zapis do cache, powtarzane odczyty dla kontynuacji): - Pierwszy zapis: 1 000 000 × $6,25/MTok = $6,25 (jednorazowo) - Każdy kolejny odczyt w ciągu 5 min: 1 000 000 × $0,50/MTok + 10 000 wyjście × $25/MTok = $0,75 - Pięć odczytów w sesji: $6,25 + (5 × $0,75) = $10,00 za pięć pełnych przejść kontekstowych
Przykład w CNY przy referencyjnym kursie 1 USD ≈ 6,82 CNY (centralny kurs parytetowy PBOC grupował się w przedziale 6,82-6,90 około kwietnia 2026): ~¥68,20 za pięć pełnych sesji kontekstowych Opus 4.7 na bazie kodu o 1M tokenów. Kurs walutowy się zmienia; przed przytoczeniem w procedurze zakupowej warto zweryfikować bieżący kurs. Dla budżetowania liczy się obliczenie, a nie dokładna liczba w CNY.
Równoważna matematyka dla trybu długiego kontekstu GPT-5.4: - Wejście: 1 000 000 tokenów × ($2,50 baza × 2 mnożnik długiego kontekstu) = $5,00 - Wyjście: 10 000 tokenów × ($15,00 baza × 1,5 mnożnik długiego kontekstu) = $0,225 - Razem (bez cachowania): $5,23 za przejście — w granicach 1% niecachowanej ceny Opus 4.7 przy pełnym kontekście 1M
Na GPT-5.2-Codex (pułap 400K wejścia) trzeba by co najmniej trzech przejść, aby wczytać tę samą bazę kodu 1M, co zmienia profil kosztowy na poziomie sesji. Większość chińskich zespołów deweloperskich nie potrzebuje pełnego kontekstu 1M codziennie, więc realistyczne porównanie przebiega przez typowe rozmiary sesji (50K-200K tokenów), gdzie oba narzędzia kosztują poniżej 1 USD za sesję.
Kiedy subskrypcje wygrywają z cennikiem za token
Zgrubna heurystyka (nie jest to opublikowany limit tokenów, ponieważ Anthropic takiego nie publikuje): lekkie użytkowanie interaktywne komfortowo mieści się w Pro; intensywniejsze codzienne przepływy agentyczne na Opus 4.7 wpychają w rejon Max 5x lub Max 20x; długotrwałe obciążenia z pełnym kontekstem (5+ USD/sesja) mogą być tańsze na pay-per-token z agresywnym cachowaniem promptów niż na limitowanej subskrypcji. Warto przetestować reprezentatywny tydzień na Pro, sprawdzić dashboard użycia Claude i podnosić poziomy w razie potrzeby, zamiast zgadywać z formuły. Zespoły wykonują tę samą matematykę per użytkownik, plus narzut administracyjny, polityki i SSO, który wchłania poziom Enterprise.
Dostęp do Codex i Claude Code z Chin
Pierwszostronny dostęp do API OpenAI i Anthropic nie jest oficjalnie wspierany z Chin kontynentalnych zgodnie z opublikowanymi listami obsługiwanych krajów u każdego z dostawców.18 Deweloperzy czasem trasują ruch przez sieci i konta spoza Chin, aby to obejść, ale pociąga to ryzyko zawieszenia konta oraz niezgodności, które trzeba zważyć względem dowolnego argumentu produktywnościowego. Binarki CLI instalują się i działają lokalnie po pobraniu; codzienne zachowanie pętli agenta jest wszędzie takie samo. Routing przez dostawców chmury to miejsce, gdzie istnieją legalne ścieżki.
Dostępność regionalna AWS Bedrock
Modele Claude Anthropic są udostępniane przez Amazon Bedrock w określonych regionach AWS. Według stanu na kwiecień 2026 publiczne endpointy runtime Bedrock pokrywają regiony APAC, w tym Tokio, Seul, Singapur, Bombaj i Sydney, ale żaden endpoint runtime Bedrock nie działa obecnie w Chinach kontynentalnych ani Hongkongu.15 Chińscy klienci trasujący przez AWS zwykle używają Singapuru lub Tokio, co wiąże się z kosztem opóźnienia.
Dostępność regionalna Google Vertex AI
Google Cloud oferuje endpointy generatywnej AI Vertex AI w regionach Azji i Pacyfiku.16 Konkretna dostępność modeli Claude różni się w zależności od regionu, a asia-east2 (Hongkong) historycznie oferował niższe opóźnienia dla użytkowników w południowych Chinach. Przed zaangażowaniem warto zweryfikować dostępność modelu Claude w wybranym regionie Vertex; pokrycie rozszerza się z czasem, lecz nie jest jednolite w APAC.
Microsoft Foundry
Claude jest dostępny przez Microsoft Foundry w globalnym standardowym wdrożeniu Azure, zwykle wymagającym kwalifikujących się subskrypcji Enterprise / MCA-E. Claude nie jest publicznie udokumentowany jako dostępny w Azure China (obsługiwany przez 21Vianet) — jest to odrębna chmura suwerenna z odmiennym katalogiem usług. Chińscy klienci używający Foundry trasują przez globalny ślad Azure, a nie Azure China.17
OpenAI Codex z Chin
Lista obsługiwanych krajów OpenAI nie obejmuje Chin kontynentalnych; OpenAI ostrzega, że dostęp z nieobsługiwanych regionów może powodować blokowanie lub zawieszanie konta.18 Azure OpenAI jest dostępny w określonych globalnych regionach (nie Azure China), a chińskie przedsiębiorstwa dążące do zgodnego dostępu zwykle trasują przez Azure OpenAI w dozwolonym regionie z odpowiednimi warunkami umownymi, zamiast próbować korzystać z bezpośredniego API OpenAI.
Modele alternatywne od chińskich dostawców
DeepSeek, Qwen (Alibaba) i Kimi (Moonshot) to alternatywy na poziomie modelu, które chińskie zespoły oceniają ze względów kosztowych i opóźnieniowych. Są to modele, nie CLI agentyczne. Parowanie ich z Claude Code wymaga adaptera lub bramy kompatybilnej z API Anthropic (Claude Code oczekuje kształtu żądania/odpowiedzi Anthropic; ANTHROPIC_BASE_URL wskazuje na endpointy kompatybilne z Anthropic, a nie OpenAI). Codex obsługuje routing modeli na poziomie profilu, ale podobnie oczekuje odpowiedzi zgodnych z OpenAI. Żadne z narzędzi nie udostępnia pierwszorzędnego wsparcia dla DeepSeek/Qwen/Kimi; ścieżką jest warstwa adaptera, która tłumaczy między kształtem API dostawcy a tym, czego oczekuje CLI. Pytania o zamówienia, opóźnienia i rezydencję danych te modele dobrze obsługują. Pytania o poprawność pętli agenta i dojrzałość wywołań narzędzi nadal najlepiej obsługują modele frontier Claude i GPT, pod które te CLI są dostrojone.
Możliwości multiagentowe
Codex oferuje delegowanie zadań w chmurze przez codex cloud exec6. Opisuje się zadanie, Codex uruchamia środowisko chmurowe, uruchamia agenta względem bazy kodu i zwraca diff. Rozumowania agenta nie monitoruje się w czasie rzeczywistym; zadanie definiuje się z góry, a wyniki zbiera później. Delegowanie w chmurze mapuje się naturalnie na potoki CI/CD i przetwarzanie wsadowe. Wewnętrznie Codex obsługuje współbieżne wątki agentów do równoległej egzekucji podzadań7 (do 6 w bieżącym wydaniu, choć limit ten może się zmienić).
Claude Code oferuje jawne uruchamianie subagentów przez narzędzie Task10. Agent nadrzędny uruchamia subagentów z konkretnymi zadaniami i izolowanym kontekstem, koordynuje wyniki i syntetyzuje wyjścia. Uruchamianie subagentów umożliwia interaktywną orkiestrację: widać rozumowanie i można interweniować. W połączeniu ze wzorcami deliberacji, gdzie wielu agentów krytykuje swoje wzajemne wyjścia, interaktywna orkiestracja wychwytuje problemy, które modele typu fire-and-forget przeoczają.
Zadania chmurowe pasują do przepływów pracy, gdzie zadanie definiuje się z góry i chce się wyników później. Koordynacja subagentów pasuje do przepływów pracy, gdzie zadanie ewoluuje poprzez rozumowanie i wymaga syntezy w czasie rzeczywistym.
Spektrum zaufania
Przed przejrzeniem matrycy decyzyjnej warto rozważyć, gdzie zadanie wypada na spektrum zaufania. Każde zadanie kodowania agentycznego pociąga za sobą niejawną decyzję zaufania: jak bardzo ufa się osądowi agenta w tym konkretnym zadaniu?
Niskie zaufanie (Codex): Recenzja kodu, którego się nie napisało, uruchamianie skryptów z zewnętrznych źródeł lub delegowanie pracy do środowiska chmurowego, którego nie można monitorować w czasie rzeczywistym. Agent może napotkać adwersarialne wejście. Chce się, aby system operacyjny wymuszał granice niezależnie od tego, co zdecyduje model.
Średnie zaufanie (którekolwiek): Praca we własnej bazie kodu ze znanymi wzorcami. Agent może popełniać błędy, lecz są to błędy nadmiernej pewności, nie złośliwości. Chce się przejrzeć zmiany, zanim trafią do kodu, ale nie potrzeba izolacji na poziomie jądra.
Wysokie zaufanie (Claude Code): Zbudowano zabezpieczenia przez hooki, instrukcje CLAUDE.md i uprawnienia na liście zezwoleń. Agent działa w zaprojektowanym środowisku zarządzanym. Ufa się warstwie zarządzania na tyle, aby zatwierdzać działania selektywnie, a nie hurtowo je ograniczać.
Większość deweloperów przez większość czasu funkcjonuje przy średnim zaufaniu, dlatego przepływ z podwójnym narzędziem działa: Codex obsługuje zadania niskiego zaufania, gdzie błyszczy jego sandbox, a Claude Code obsługuje zadania średniego do wysokiego zaufania, gdzie programowalne hooki dodają więcej wartości niż ograniczenia jądra.
Ramowe podejście do decyzji
Konkretna matryca decyzyjna oparta na określonych potrzebach:
| Gdy potrzeba… | Najlepszy wybór | Dlaczego |
|---|---|---|
| Sandboxing na poziomie jądra | Codex | Egzekucja na poziomie OS nie może zostać obejścia przez agenta |
| Programowalne hooki zarządzania | Claude Code | 26 zdarzeń cyklu życia z dowolnym wykonywaniem kodu |
| Przenośność między narzędziami (AGENTS.md) | Codex | Otwarty standard działa w Codex, Cursor, Copilot, Amp, Windsurf |
| Głęboka refaktoryzacja wielu plików | Claude Code | Opus celuje w utrzymywaniu kontekstu architektonicznego przez długie sesje |
| Zadania chmurowe fire-and-forget | Codex | codex cloud exec deleguje do infrastruktury chmurowej i zwraca diffy |
| Interaktywne rozumowanie w czasie rzeczywistym | Claude Code | Wydłużone myślenie + koordynacja subagentów z widocznością na żywo |
| Recenzja niezaufanego kodu zewnętrznego | Codex | --sandbox read-only zapobiega wszystkim mutacjom systemu plików |
| Wymuszanie standardów kodowania zespołu | Claude Code | Hooki kodyfikują i deterministycznie wymuszają logikę biznesową |
| Wczytywanie dużego monorepo | Zbliżony remis | Opus 4.7 doprowadza Claude Code do 1M w standardowym cenniku; Codex CLI na GPT-5.4 sięga 1,05M w trybie długiego kontekstu (rozliczanym 2×/1,5× powyżej 272K wejścia), więc oba obsługują teraz monorepo |
| Recenzja kodu zorientowana na bezpieczeństwo | Claude Code | Opus wypadł lepiej w mojej serii ślepych ocen zadań recenzyjnych |
Żadne pojedyncze narzędzie nie dominuje w tej matrycy. Wzorzec leżący u jej podstaw jest prostszy, niż sugeruje dziesięć wierszy: Codex celuje, gdy potrzebne są twarde granice, a Claude Code celuje, gdy potrzebna jest programowalna logika. Jeśli uruchamia się niezaufany kod, recenzuje zewnętrzne wkłady lub deleguje do środowiska chmurowego, którego nie można monitorować, twarde granice mają większe znaczenie. Jeśli wymusza się konwencje zespołu, orkiestruje wieloetapowe przepływy pracy lub buduje zabezpieczenia kodyfikujące reguły biznesowe, programowalna logika ma większe znaczenie. Jeśli więcej niż trzy potrzeby wskazują na jedno narzędzie, warto tam zacząć. Jeśli podział jest równy, warto rozważyć przepływ z podwójnym narzędziem.
Moja rekomendacja
Warto używać obu. Przeprowadziłem identyczne zadania recenzji kodu przez oba narzędzia w 12 kategoriach zadań (udokumentowanych w mojej serii ślepych ocen) i stwierdziłem, że żadne narzędzie samodzielnie nie wychwyciło wszystkiego. Konkretny przykład: podczas recenzji uwierzytelniania FastAPI Opus oznaczył timing side-channel w funkcji porównywania haseł. Porównanie używało operatora == z Python zamiast hmac.compare_digest(), tworząc oracle czasowy11. Codex całkowicie przeoczył ten problem. W tej samej bazie kodu sandbox Codex wychwycił wektor SSRF w endpoincie pobierającym URL, gdzie adresy URL dostarczone przez użytkownika mogły sięgnąć usług wewnętrznych. Opus zatwierdził endpoint, ponieważ walidacja wejścia wyglądała poprawnie na poziomie aplikacji, lecz sandbox jądra oznaczył wychodzące żądanie sieciowe do wewnętrznego zakresu IP. Różne modele trenowane na różnych danych wychwytują różne klasy podatności. Uruchamianie obu kosztuje w przybliżeniu 2x za recenzję, lecz wychwytuje znacząco więcej problemów w kodzie wrażliwym pod kątem bezpieczeństwa.
Mój codzienny przepływ pracy dzieli się według typu zadania:
- Claude Code obsługuje implementację funkcji, recenzje kodu i refaktoryzacje wielu plików. Hooki wymuszają formatowanie, blokują niebezpieczne polecenia i uruchamiają testy po każdej edycji. Interaktywny model subagentów dobrze sprawdza się w zadaniach ewoluujących przez rozumowanie.
- Codex obsługuje recenzję niezaufanego kodu z
--sandbox read-only(recenzuję zewnętrzne PR-y i zależności w sandboxie jądra), delegowane wsadowe zadania chmurowe przezcodex cloud execoraz drugie opinie architektoniczne, gdzie perspektywa innego modelu wychwytuje martwe pola.
CLAUDE.md i AGENTS.md współistnieją w tym samym repozytorium bez konfliktów. Narzut konserwacji pozostaje minimalny, ponieważ oba pliki dzielą większość treści. Utrzymuję współdzieloną sekcję konwencji i kopiuję ją do obu.
Kiedy nie używać żadnego z narzędzi. Ani Codex, ani Claude Code nie są właściwym wyborem, gdy potrzeba gwarantowanego determinizmu. Oba narzędzia są probabilistyczne: ten sam prompt może dawać różne wyniki w poszczególnych uruchomieniach. Jeśli przepływ pracy wymaga dokładnej odtwarzalności (np. generowania plików konfiguracyjnych, które muszą pasować do schematu bajt po bajcie), warto zamiast tego użyć silnika szablonów lub generatora kodu. Narzędzia agentyczne są najsilniejsze, gdy zadanie wymaga osądu, a najsłabsze, gdy zadanie wymaga precyzji bez osądu.
Aby zapoznać się z pełnym porównaniem z metodologią ślepej oceny i wynikami w 12 kategoriach zadań, zob. Claude Code vs Codex: When to Use Which. Aby zacząć indywidualnie, zob. przewodnik Claude Code lub przewodnik Codex. Aby zapoznać się z praktycznym przewodnikiem po systemie hooków napędzającym warstwę zarządzania Claude Code, zob. samouczek hooków.
Źródła
FAQ
Czy można używać zarówno Codex, jak i Claude Code w tym samym projekcie?
Tak. CLAUDE.md i AGENTS.md to odrębne pliki, które każde narzędzie odczytuje niezależnie. Żadne narzędzie nie parsuje pliku instrukcji drugiego. Pliki konfiguracyjne nie kolidują ze sobą. Utrzymuję oba w każdym aktywnym projekcie. Jedyną kwestią jest synchronizacja współdzielonej zawartości między plikami instrukcji, co zajmuje minuty, ponieważ formaty są podobne.
Które narzędzie jest tańsze do codziennego użytku?
Pełna analiza znajduje się w sekcji Szczegółowa analiza cennika powyżej. W skrócie: Claude Code oferuje cennik za token przez Anthropic API plus drabinę subskrypcji (Pro 20 USD, Max 5x 100 USD, Max 20x 200 USD, Team 30 USD/użytkownik, Team Premium 150 USD/użytkownik). Codex CLI oferuje cennik za token przez OpenAI API dla GPT-5.4 ($2,50 wejście / $15 wyjście za MTok, mnożniki 2×/1,5× powyżej 272K wejścia) oraz rodziny GPT-5.3-Codex / GPT-5.2-Codex, plus inkluzje w ChatGPT Plus/Pro. Efektywność tokenowa różni się w zależności od typu zadania; dla pracy wrażliwej budżetowo warto przepuścić reprezentatywne zadanie przez oba i porównać rzeczywiste opłaty. Cennik za token różni się między dostawcami, więc surowe liczby tokenów nie mapują się bezpośrednio na koszt.
Które narzędzie lepiej radzi sobie z większymi bazami kodu?
Oba dobrze obsługują duże repozytoria. Po premierze Opus 4.7 w kwietniu 2026, Claude Code sięga 1M tokenów w standardowym cenniku. Codex CLI na GPT-5.4 sięga 1,05M tokenów z włączonym trybem długiego kontekstu (mnożniki wejścia/wyjścia 2×/1,5× powyżej 272K wejścia); domyślny kontekst to 272K, chyba że zdecyduje się na poziom długiego kontekstu. Żadne narzędzie nie odczytuje całej bazy kodu naraz; oba opierają się na retrievalu w codziennej pracy (wyszukiwanie w bazie kodu w Claude Code, warstwowe wyprzedzające ładowanie kontekstu przez CLAUDE.md; wyszukiwanie plików oparte na embeddingach w Codex). Surowy rozmiar okna ma największe znaczenie przy rozumowaniu o relacjach między wieloma plikami w jednej turze, a pod tym względem oba narzędzia teraz dostarczają.
Czy Codex CLI działa lokalnie czy w chmurze?
Oba, ale nie w tym samym trybie. Codex CLI działa domyślnie lokalnie, tym samym wzorcem co każde narzędzie terminala.1 Delegacja chmurowa to odrębny przepływ przez codex cloud exec lub Codex Cloud, który uruchamia zadanie w kontenerze w infrastrukturze hostowanej przez OpenAI i zwraca diff. Codex Cloud to zwykle to, co ludzie mają na myśli, mówiąc „sandbox Codex”; lokalny sandboxing Codex CLI to ścieżka Seatbelt / Landlock na poziomie jądra opisana w sekcji Modele bezpieczeństwa powyżej.
Czy można uzyskać dostęp do Claude Code i Codex z Chin kontynentalnych?
Pierwszostronny dostęp do API OpenAI i Anthropic nie jest oficjalnie wspierany z Chin kontynentalnych. Binarki CLI instalują się i działają lokalnie, ale trasowanie ruchu do pierwszostronnych API z Chin kontynentalnych może powodować zawieszenie konta lub problemy ze zgodnością. Legalne ścieżki przebiegają przez Azure OpenAI (określone regiony spoza Chin), AWS Bedrock (najbliższe publiczne regiony APAC, w tym Tokio, Seul, Singapur, Bombaj i Sydney; brak endpointu runtime w Chinach kontynentalnych lub Hongkongu), Google Vertex AI (asia-east2 Hongkong i inne regiony APAC z zastrzeżeniami dostępności per model) oraz Microsoft Foundry na globalnym Azure (nie Azure China) dla Claude. Szczegóły znajdują się w Dostęp do Codex i Claude Code z Chin powyżej.
Jak komentarze lub kod w języku chińskim wpływają na zużycie tokenów?
Znaki chińskie tokenizują się inaczej niż angielskie. Tokenizer Claude traktuje większość znaków chińskich jako jeden token każdy, co oznacza, że kod źródłowy w języku chińskim jest często bardziej efektywny tokenowo niż jego angielski odpowiednik na linię, lecz mniej efektywny na znak (jeden token pokrywa jeden znak, a nie angielskie słowo o 4-6 znakach). Codex (rodzina GPT) stosuje podobne podejście. Praktyczny efekt: można oczekiwać mniej więcej porównywalnych liczb tokenów dla równoważnej treści komentarzy / docstringów w którymkolwiek języku, a zachowanie per token jest zdominowane przez strukturę kodu, a nie proporcję języka naturalnego.
Czy można używać Claude Code lub Codex CLI z DeepSeek, Qwen lub Kimi jako modelem bazowym?
Tylko przez adapter lub bramę. Claude Code oczekuje kształtu żądania/odpowiedzi API Anthropic (ANTHROPIC_BASE_URL wskazuje na endpointy kompatybilne z Anthropic); Codex oczekuje kształtu OpenAI. DeepSeek / Qwen / Kimi publikują własne API, które wymagają translacji, zanim sesja Claude Code lub Codex CLI będzie mogła je obsługiwać. Istnieją projekty adapterów społecznościowych, lecz nie są one pierwszorzędne, a dialekty wywoływania narzędzi i cachowania promptów, których używa każdy dostawca, różnią się na tyle, że pętle agentyczne wielu tur często się psują. DeepSeek / Qwen / Kimi są wiarygodnymi opcjami dla jednostrzałowego generowania kodu przez odrębną powłokę oraz do recenzji pojedynczego pliku w ich natywnych punktach cenowych. Pełna poprawność pętli agentycznej i niezawodność wywoływania narzędzi nadal pochodzą z modeli frontier Claude i GPT, pod które te CLI były dostrojone.
Jaka jest różnica między Codex CLI a funkcjami Codex w ChatGPT?
Codex CLI to narzędzie terminala pod adresem github.com/openai/codex. „Codex” wewnątrz ChatGPT odnosi się do tej samej rodziny modeli udostępnianej przez aplikacje ChatGPT web/desktop/mobile z innymi afordancjami UI (delegacja zadań chmurowych, asynchroniczne wyniki, integracja z historią ChatGPT). CLI i ChatGPT dzielą modele bazowe; różnią się przepływ pracy i zarządzanie kontekstem. Jeśli pytanie brzmi: „które narzędzie zainstalować na laptopie?”, chodzi o Codex CLI.
Czy subskrypcja ChatGPT jest potrzebna do używania Codex CLI?
Nie, choć pomaga pod kątem kosztów. Codex CLI działa z samodzielnym kluczem API OpenAI rozliczanym za token. ChatGPT Plus lub Pro łączy w pakiecie pewne użycie Codex (warto sprawdzić bieżącą stronę subskrypcji ChatGPT pod kątem limitów).14 Dla chińskich deweloperów bezpośrednie rozliczanie API przez konto OpenAI jest zwykle czystszą ścieżką niż routing subskrypcji ChatGPT przez systemy płatności w Chinach kontynentalnych.
Jaka jest rzeczywista liczba hooków w Claude Code?
26 zdarzeń cyklu życia wg stanu na v2.1.116 (kwiecień 2026).2 Liczba rosła z czasem, więc posty z lutego cytujące 17 zdarzeń są nieaktualne. Główne dodatki w roku 2026: PostToolUseFailure, SubagentStart, TeammateIdle, TaskCompleted, PermissionRequest, PermissionDenied, PreCompact / PostCompact, Elicitation / ElicitationResult, StopFailure, TaskCreated, CwdChanged, FileChanged, InstructionsLoaded, ConfigChange, WorktreeCreate / WorktreeRemove oraz Setup.
Kiedy wyszedł Opus 4.7 i jak zmienia to porównanie?
16 kwietnia 2026. To pierwsze GA Opus od Anthropic po Glasswing i wydaje z wyraźnymi zabezpieczeniami cybernetycznymi. Praktyczne porównanie się zmienia: Claude Code sięga teraz 1M tokenów w standardowym cenniku (Opus 4.7 wliczony, bez dopłaty za długi kontekst), przywództwo w SWE-bench Verified przechodzi na Opus 4.7 z 87,6% ponad bazowe 74,9% GPT-5-Codex, a przywództwo w Terminal-Bench 2.0 przechyla się w drugim kierunku. GPT-5.4 prowadzi tam z 75,1%, a GPT-5.3-Codex z 77,3% wobec 69,4% Opus 4.7. Przywództwo w benchmarkach jest płynne; każdy pojedynczy wynik należy traktować jako pomiar w określonym momencie. Pełne liczby znajdują się w sekcji Kontekst i modele powyżej.
-
OpenAI, „Codex CLI: Sandbox Architecture.” Seatbelt (macOS), Landlock i seccomp (Linux). GitHub: openai/codex ↩↩↩
-
Anthropic, „Claude Code Hooks.” 26 typów zdarzeń cyklu życia (wg stanu na v2.1.116, kwiecień 2026). docs.anthropic.com/en/docs/claude-code/hooks ↩↩↩
-
Linux Foundation, „AGENTS.md Open Standard.” Agentic AI Foundation. GitHub: anthropics/agent-instructions ↩
-
OpenAI, dokumentacja modelu GPT-5.4. Migawka
gpt-5.4-2026-03-05. Domyślny kontekst 272K; eksperymentalny tryb długiego kontekstu do 1 050 000 tokenów, gdy ustawionomodel_context_windowimodel_auto_compact_token_limit. Maks. wyjście 128K. Odcięcie wiedzy 31 sierpnia 2025. Mnożnik cennika długiego kontekstu: 2× wejście / 1,5× wyjście za sesję, gdy wejście przekracza 272K, we wszystkich poziomach standard / batch / flex. Zob. też Introducing GPT-5.4 dla postu startowego (pozycjonuje GPT-5.4 jako integrujący możliwości kodowania GPT-5.3-Codex i dodający natywne Computer Use) oraz historyczne strony modeli GPT-5.3-Codex i GPT-5.2-Codex dla wariantów z rodziny Codex 400K/128K, które są nadal dostępne. ↩↩↩↩↩ -
Anthropic, „Claude Opus 4.7.” Kontekst 1M tokenów w standardowym cenniku. anthropic.com/claude/opus. Zob. też konfiguracja modelu Claude Code. ↩↩
-
OpenAI, „Codex Cloud Tasks.” Delegacja
codex cloud exec. platform.openai.com/docs/guides/codex ↩ -
OpenAI, „Codex Agent Architecture.” Model wątków współbieżnych. GitHub: openai/codex ↩
-
Anthropic, „Pricing.” Plan Claude Max. platform.claude.com/docs/en/about-claude/pricing ↩
-
OpenAI, „Codex Profiles and Policies.” Konfiguracja. GitHub: openai/codex ↩↩
-
Anthropic, „Claude Code: Best practices for agentic coding.” anthropic.com/engineering/claude-code-best-practices ↩
-
Simon Willison, „Codex, Claude Code, and the state of agentic coding tools.” simonwillison.net ↩↩
-
Wyniki benchmarków (kwiecień 2026). Opus 4.7 ze strony startowej Anthropic: 87,6% SWE-bench Verified, 64,3% SWE-bench Pro, 69,4% Terminal-Bench 2.0, 70% CursorBench. Oficjalne ewaluacje kodowania GPT-5.4 z OpenAI: Introducing GPT-5.4: 57,7% SWE-bench Pro, 75,1% Terminal-Bench 2.0. Wynik SWE-bench Verified dla GPT-5.4 NIE jest publikowany na oficjalnej stronie modelu ani na stronie startowej; źródła zewnętrzne (np. opracowanie NxCode o GPT-5.4) raportują ~80% SWE-bench Verified, co cytuję jako źródło zewnętrzne, dopóki OpenAI nie opublikuje oficjalnych liczb. GPT-5.3-Codex 56,8% SWE-bench Pro / 77,3% Terminal-Bench 2.0 z OpenAI: Introducing GPT-5.3-Codex; wynik 75,2% SWE-bench Verified często cytowany dla GPT-5.3-Codex nie znajduje się na oficjalnej stronie startowej (atrybucja zewnętrzna). GPT-5.2-Codex 56,4% SWE-bench Pro / 64,0% Terminal-Bench 2.0 z tego samego źródła. 74,9% SWE-bench Verified GPT-5-Codex to powszechnie cytowana baza z oryginalnej prezentacji Codex od OpenAI (przywoływana również na stronie deweloperskiej GPT-5 OpenAI); należy traktować to jako dolną granicę dla rodziny Codex, a nie bieżący pomiar. ↩↩
-
Cennik Anthropic. Oficjalne stawki za token dla Opus 4.7 ($5/$25 za MTok), Opus 4.6 ($5/$25), Sonnet 4.6 ($3/$15), Haiku 4.5 ($1/$5). Mnożniki cachowania promptów: zapis cache 5-min 1,25×, zapis cache 1-godz 2×, trafienie cache 0,1× bazowego wejścia. Kontekst 1M na Opus 4.7 zawarty w standardowym cenniku (bez dopłaty za długi kontekst). Wsadowe API: 50% zniżki. ↩↩
-
Cennik API OpenAI dla stawek za token oraz Cennik OpenAI Codex dla poziomów planów i 5-godzinnych limitów szybkości. Za token GPT-5.4: $2,50 wejście / $0,25 cachowane wejście / $15 wyjście za MTok; mnożnik długiego kontekstu 2×/1,5× powyżej 272K wejścia. Plany Codex wg stanu na kwiecień 2026: Plus $20/mies, Pro 5× $100/mies, Pro 20× $200/mies (z wzmocnieniami promocyjnymi do 31 maja 2026 wymienionymi powyżej), Business pay-as-you-go dla miejsc Codex-only, Enterprise/Edu kontakt z działem sprzedaży. Zob. też dokumentacja modelu GPT-5.4, dokumentacja modelu GPT-5.3-Codex i dokumentacja modelu GPT-5.2-Codex dla okien kontekstu per model, limitów szybkości i dostępności poziomów API. Cennik jest okresowo rewidowany, gdy OpenAI rotuje warianty modeli; liczby w tym poście odzwierciedlają kartę stawek wg stanu na 19 kwietnia 2026. ↩↩↩
-
Endpointy runtime AWS Bedrock. Publiczne endpointy runtime Bedrock pokrywają regiony APAC (Tokio, Seul, Singapur, Bombaj, Sydney i inne), lecz nie wymieniają endpointu runtime w Chinach kontynentalnych ani Hongkongu wg stanu na kwiecień 2026. Przed poleganiem na jakimkolwiek konkretnym regionie warto zweryfikować bieżące pokrycie. ↩
-
Lokalizacje generatywnej AI Google Vertex AI. Regiony Azji i Pacyfiku, w tym
asia-east2(Hongkong), udostępniają endpointy generatywnej AI; konkretna dostępność modelu różni się w zależności od regionu i rozszerza się z czasem. Przed zaangażowaniem warto sprawdzić stronę lokalizacji dla docelowego regionu i modelu. ↩ -
Claude w Microsoft Foundry. Claude jest wdrażany przez globalne standardowe regiony Foundry. Azure China (21Vianet) to odrębna suwerenna chmura z odmiennym katalogiem funkcji; Claude nie jest wymieniany jako model Azure China w chwili pisania. ↩
-
Obsługiwane kraje OpenAI nie obejmują Chin kontynentalnych; OpenAI ostrzega, że dostęp z nieobsługiwanych krajów może powodować blokowanie lub zawieszanie konta. Obsługiwane kraje Anthropic podobnie wymieniają oficjalnie obsługiwane rynki; Chin kontynentalnych nie ma wśród nich w chwili pisania. Czytelnicy trasujący przez sieci spoza Chin kontynentalnych powinni przejrzeć warunki obu dostawców oraz własną pozycję zgodności przed poleganiem na tej ścieżce. ↩↩