Projekt Glasswing: Kiedy model znajduje zbyt wiele błędów

7 min read

From the guide: Claude Code Comprehensive Guide

Dwa tygodnie temu Nicholas Carlini pokazał, że Claude Code potrafi znaleźć 23-letnią podatność w jądrze Linux przy użyciu 10-liniowego skryptu bash. Dziś Anthropic ogłosiło, co się stało, gdy to podejście zostało przeskalowane: nowy model o nazwie Claude Mythos odnalazł tysiące podatności zero-day o wysokiej i krytycznej istotności, po czym zdecydowano nie udostępniać go publicznie.¹

Projekt Glasswing to ograniczone wdrożenie Claude Mythos przez Anthropic — model pionierski, który odkrył tysiące podatności zero-day w każdym głównym systemie operacyjnym i przeglądarce internetowej. Mythos znalazł krytyczne błędy, w tym 27-letnią lukę TCP SACK w OpenBSD oraz podatność umożliwiającą zdalne wykonanie kodu w FreeBSD NFS. Anthropic ograniczyło dostęp do 12 organizacji partnerskich wyłącznie do celów bezpieczeństwa defensywnego, przeznaczyło 100 mln USD w kredytach użytkowych i uruchomiło formularz aplikacyjny Cyber Verification Program pod adresem claude.com/form/cyber-use-case dla wykwalifikowanych badaczy.

Projekt Glasswing to odpowiedź Anthropic na pytanie, które praktycy zadawali od czasu prelekcji Carliniego na [un]prompted: co się dzieje, gdy ta zdolność zostaje wdrożona na dużą skalę? Odpowiedź: wprowadza się ograniczenia.

TL;DR

Claude Mythos Preview to model pionierski, którego zdolności cyberbezpieczeństwa, według Anthropic, „wyłoniły się jako konsekwencja wtórna ogólnych usprawnień w kodowaniu, rozumowaniu i autonomii”.¹ Anthropic pozycjonuje go jako bardziej zaawansowany w obszarze cyber niż jakikolwiek ogólnodostępny model Opus (w tym wydanie Opus 4.7 z 16 kwietnia 2026 r.) i ogranicza dostęp do 12 organizacji partnerskich (Apple, Amazon, Microsoft, Google, Linux Foundation i innych) wyłącznie na potrzeby prac z zakresu bezpieczeństwa defensywnego. Model znalazł tysiące zero-dayów, w tym 27-letni błąd TCP SACK w OpenBSD, 16-letnią podatność FFmpeg oraz zdalne wykonanie kodu w FreeBSD NFS (CVE-2026-4747).¹ Anthropic przeznaczyło 100 mln USD w kredytach użytkowych oraz 4 mln USD dla organizacji open-source zajmujących się bezpieczeństwem. Formularz aplikacyjny Cyber Verification Program jest obecnie aktywny dla rzetelnych badaczy bezpieczeństwa ubiegających się o dostęp.¹

Kluczowe wnioski

Inżynierowie bezpieczeństwa: Próg zdolności, który Carlini zademonstrował na [un]prompted, jest realny i skaluje się. Mythos znalazł podatności w „każdym głównym systemie operacyjnym i przeglądarce internetowej”.² Zespoły bezpieczeństwa defensywnego w 12 organizacjach partnerskich mają teraz dostęp. Wszyscy pozostali powinni przygotowywać się na to, co nastąpi, gdy te zdolności trafią do ogólnodostępnych modeli.
Twórcy scaffoldów: Mythos działa przez Claude Code w izolowanych kontenerach.¹ Wzorzec scaffoldu (agent CLI + wykonywanie w sandboksie + zautomatyzowana triaż) służy teraz jako architektura produkcyjna dla pionierskich badań bezpieczeństwa w samym Anthropic. Wzorce orkiestracji, które praktycy budowali niezależnie, wytrzymują próbę na najwyższym poziomie.
Wszyscy pozostali: Anthropic wybrało ograniczenie zamiast wydania. To realna decyzja w zakresie zarządzania z realnymi kompromisami. Model istnieje. Anthropic zademonstrowało jego możliwości. Pytanie nie brzmi już, czy AI potrafi znajdować zero-daye, lecz kto uzyskuje dostęp i pod jakimi warunkami.

Aktualizacja (19 kwietnia 2026)

Od publikacji tego wpisu 7 kwietnia zmieniły się dwie rzeczy:

Opus 4.7 trafił na rynek 16 kwietnia 2026 r. jako nowy ogólnodostępny flagowiec. Anthropic stwierdza, że Opus 4.7 jest celowo mniej zaawansowany w obszarze cyber niż Mythos Preview i posiada wbudowane zabezpieczenia cyber w czasie rzeczywistym. Mythos Preview pozostaje osobnym, ograniczonym modelem.⁵
Formularz aplikacyjny Cyber Verification Program jest aktualnie dostępny pod adresem claude.com/form/cyber-use-case. To, co pierwotne ogłoszenie określało jako „przyszły” program, stało się konkretną ścieżką aplikacyjną.⁵
Claude Code otrzymało dwa istotne wydania infrastrukturalne: v2.1.111 dodało obsługę Opus 4.7 / xhigh / Auto Mode; v2.1.113 dodało sandbox.network.deniedDomains, reguły odmowy dla poleceń opakowujących (env / sudo / watch / ionice / setsid), surowszą obsługę find -exec / -delete oraz ochronę przed usunięciem katalogów /private/{etc,var,tmp,home} w macOS w ramach Bash(rm:*).⁶ Są to dokładnie takie prymitywy wzmacniające, jakich potrzebuje scaffold badawczy w stylu Mythos.

Zasadniczy argument poniżej — ograniczanie zdolności zamiast ich udostępniania, utrzymanie się wzorców scaffoldu na najwyższym poziomie, konieczność przygotowania się przez wszystkich pozostałych na moment, gdy te zdolności trafią do GA — pozostaje niezmieniony. Jeśli cokolwiek, to jawne zabezpieczenia cyber Opus 4.7 dodatkowo go wzmacniają.

Od prelekcji do produktu

Prelekcja Carliniego na [un]prompted z początku kwietnia była publiczną zapowiedzią.³ Pokazał pięć podatności w jądrze Linux oraz 22 CVE w Firefoksie znalezione za pomocą prostego skryptu iterującego po plikach. Wąskim gardłem, jak stwierdził, była weryfikacja ludzka — „kilkaset crashów, których jeszcze nie zwalidowałem”.

Mythos to efekt usunięcia tego wąskiego gardła dzięki bardziej zaawansowanemu modelowi i dedykowanej infrastrukturze. Różnica skali jest znacząca:¹

Metryka	Prelekcja Carliniego	Projekt Glasswing
Znalezione podatności	5 w jądrze + 22 CVE Firefoksa	Tysiące na wszystkich głównych platformach
Cele	Jądro Linux, Firefox	Każdy główny OS, przeglądarka, projekt open-source
Walidacja	Ręczna, prowadzona przez badacza	Profesjonalni wykonawcy ds. bezpieczeństwa, 89% potwierdzenia istotności
Dostęp	Opus 4.6 w czasie prelekcji Carliniego; Opus 4.7 jest obecnie flagowcem GA	Mythos Preview (ograniczony do 12 partnerów)

Liczba dotycząca profesjonalnej walidacji ma znaczenie: w 89% z 198 zweryfikowanych raportów oceny istotności zostały potwierdzone przez niezależnych wykonawców ds. bezpieczeństwa, przy czym 98% mieściło się w zakresie jednego poziomu istotności.¹ To nie są zmyślone wyniki.

Decyzja o ograniczeniu

Stanowisko Anthropic brzmi: „Nie planujemy ogólnego udostępnienia Claude Mythos Preview ze względu na jego zdolności w obszarze cyberbezpieczeństwa”.⁴

Ta decyzja się wyróżnia. Firmy modelowe zazwyczaj prześcigają się w udostępnianiu zdolności. Anthropic zbudowało model w sposób wymierny lepszy w znajdowaniu podatności niż jakikolwiek publicznie dostępny system, a następnie zdecydowało się ograniczyć jego użycie do zastosowań defensywnych przez zweryfikowanych partnerów. Zobowiązanie 100 mln USD w kredytach użytkowych sygnalizuje, że nie jest to ćwiczenie marketingowe.¹

Model ograniczeń ma trzy poziomy:¹ 1. Partnerzy Projektu Glasswing (12 organizacji): Bezpośredni dostęp do zastosowań bezpieczeństwa defensywnego 2. Szerszy dostęp (łącznie 40 organizacji): Nadzorowane wdrożenie 3. Cyber Verification Program (obecnie aktywny pod adresem claude.com/form/cyber-use-case): Ścieżka aplikacyjna dla zweryfikowanych specjalistów bezpieczeństwa⁵

Dla praktyków standardowe API i Claude Code nie udostępniają zdolności Mythos do wyszukiwania podatności. Najmocniejszym ogólnodostępnym modelem jest obecnie Opus 4.7 (wydany 16 kwietnia 2026 r.), który Anthropic pozycjonuje jako celowo mniej zaawansowany w obszarze cyber niż Mythos i wyposaża w zabezpieczenia cyber działające w czasie rzeczywistym.⁵ Zademonstrowane zdolności Mythos już wpłynęły na to wydanie z 16 kwietnia — Opus 4.7 jest pierwszym modelem Anthropic po Glasswing z dedykowanymi zabezpieczeniami cyber.

Co to potwierdza

Projekt Glasswing potwierdza kilka wzorców, które społeczność praktyków budowała niezależnie:

Claude Code jako scaffold wykonawczy. Mythos działa przez Claude Code w izolowanych kontenerach.¹ Ten sam agent CLI, którego praktycy używają do codziennego kodowania, pełni rolę warstwy wykonawczej dla pionierskich badań bezpieczeństwa. Hooki, umiejętności oraz sandboxing, które zapewnia Claude Code, nie są udogodnieniami. To infrastruktura, która sprawia, że autonomiczne skanowanie bezpieczeństwa jest na tyle bezpieczne, by można je wdrożyć.

Wąskie gardło weryfikacji to problem orkiestracji. Prelekcja Carliniego wskazała weryfikację ludzką jako wąskie gardło. Rozwiązanie Projektu Glasswing: profesjonalni wykonawcy ds. bezpieczeństwa do walidacji, zobowiązania oparte na skrótach SHA-3 na potrzeby odpowiedzialnego ujawniania i ustrukturyzowana infrastruktura triażu.¹ Ten sam problem triażu pojawił się w Gdy Twój agent znajduje podatność, a rozwiązaniem jest infrastruktura, a nie zdolność modelu.

Hooki zarządzania znaczą więcej niż zdolność skanowania. Model potrafi znaleźć podatności. Trudnym problemem jest kontrolowanie ujawniania, zarządzanie dostępem i zapewnianie, że znaleziska dotrą do obrońców przed atakującymi. Odpowiedzią Anthropic jest organizacja (ograniczenie modelu, weryfikacja partnerów, zaangażowanie zasobów). Dla praktyków budujących własne skanowanie bezpieczeństwa odpowiednikiem są hooki zarządzania, które bramkują wyniki.

Co to oznacza dla praktyków

Dostępu do Mythos nie otrzymasz. Oto, co możesz zrobić z tym, co masz:

Opus 4.6 jest już zdolny. Wyniki Carliniego z [un]prompted (5 błędów jądra, 22 CVE Firefoksa) korzystały z Opus 4.6, a nie z Mythos.³ Metodologia capture-the-flag, kompilacje z instrumentacją ASAN oraz skrypt iterujący po plikach są w pełni odtwarzalne z wykorzystaniem ogólnodostępnego modelu.

Zbuduj teraz warstwę triażu. Gdy przyszłe modele Opus przejmą część zdolności Mythos (na co Anthropic wskazało pośrednio), wąskim gardłem będzie to samo, co zidentyfikował Carlini: weryfikacja ludzka. Zespoły, które mają gotową zautomatyzowaną deduplikację, klasyfikację istotności i procesy ujawniania, skorzystają jako pierwsze.

Złóż wniosek do Cyber Verification Program. Formularz aplikacyjny jest aktywny pod adresem claude.com/form/cyber-use-case. W przypadku prowadzenia rzetelnych badań bezpieczeństwa to droga do podwyższonego dostępu.

Trajektoria jest jasna: wspomagane przez AI odkrywanie podatności jest realne, skaluje się, a kwestia zarządzania jest obecnie problemem centralnym. Zdolność modelu została rozwiązana. Scaffold, który orkiestruje odkrywanie, triaż i odpowiedzialne ujawnianie, jeszcze nie.

Źródła

Najczęściej zadawane pytania

Czy mogę korzystać z Claude Mythos przez Claude Code?

Nie. Mythos Preview jest ograniczony do partnerów Projektu Glasswing. Opus 4.7 (16 kwietnia 2026) to najmocniejszy model dostępny przez Claude Code dla ogółu użytkowników; Anthropic stwierdza, że Mythos pozostaje bardziej zaawansowany w obszarze cyber niż jakikolwiek model GA.

Czy zdolności Mythos trafią do Opus?

Opus 4.7 to pierwsze wydanie Opus po Glasswing i posiada zabezpieczenia cyber działające w czasie rzeczywistym. Wzorzec sugeruje, że przyszłe modele Opus będą nosić dodatkowe zabezpieczenia zamiast pełnej koperty możliwości Mythos. Pierwotne ogłoszenie Anthropic stwierdzało, że celem jest „umożliwienie bezpieczniejszego wdrożenia przez nowe zabezpieczenia w przyszłych modelach Claude Opus”.

Jak to się ma do wcześniejszego wpisu o podatnościach?

Prelekcja Carliniego na [un]prompted (omówiona w Gdy Twój agent znajduje podatność) korzystała z Opus 4.6 i znalazła 5 błędów jądra + 22 CVE Firefoksa. Mythos przeskalował to podejście do tysięcy podatności na wszystkich głównych platformach. Metodologia jest ta sama; model jest bardziej zaawansowany.

Claude Mythos Preview — Projekt Glasswing. Anthropic, 7 kwietnia 2026. Oficjalne ogłoszenie. Tysiące znalezionych zero-dayów o wysokiej/krytycznej istotności. 89% wskaźnik potwierdzenia istotności przez profesjonalnych walidatorów. 100 mln USD w kredytach użytkowych. Prowadzone przez Nicholasa Carliniego z ponad 21 współautorami. ↩↩↩↩↩↩↩↩↩↩↩
Projekt Glasswing Anthropic. Simon Willison, 7 kwietnia 2026. Analiza i kontekst modelu ograniczonego wydania oraz wcześniejszych prac Carliniego. ↩
Nicholas Carlini, „Black-hat LLMs”, konferencja bezpieczeństwa AI [un]prompted, kwiecień 2026. Agenda konferencji. Zobacz również: AI Finds Vulns You Can’t, podcast Security Cryptography Whatever. ↩↩
Anthropic twierdzi, że jego najpotężniejszy cybernetyczny model AI jest zbyt niebezpieczny, aby go publicznie udostępnić. VentureBeat, 7 kwietnia 2026. ↩
Aktualizacje popublikacyjne (19 kwietnia 2026). Ogłoszenie Anthropic Przedstawiamy Claude Opus 4.7 (16 kwietnia 2026) pozycjonuje Opus 4.7 jako flagowiec GA, zaznaczając, że Mythos Preview pozostaje bardziej zaawansowany w obszarze cyber. Szczegóły zabezpieczeń cyber w czasie rzeczywistym pod adresem Anthropic Support: Real-time cyber safeguards on Claude. Formularz aplikacyjny Cyber Verification Program aktywny pod adresem claude.com/form/cyber-use-case. ↩↩↩↩
Claude Code CHANGELOG. v2.1.111 dodało obsługę uruchomienia Opus 4.7 (wysiłek xhigh, Auto Mode dla Max bez flagi). v2.1.113 dodało sandbox.network.deniedDomains, reguły odmowy dla poleceń opakowujących, zaostrzenie uprawnień find -exec/-delete oraz ochronę przed usunięciem katalogów /private/{etc,var,tmp,home} w macOS. ↩