Project Glasswing: co się dzieje, gdy model zbyt dobrze znajduje błędy
Dwa tygodnie temu Nicholas Carlini pokazał, że Claude Code potrafi znaleźć 23-letnią lukę w jądrze Linuksa za pomocą 10-liniowego skryptu bash. Dziś Anthropic ogłosił, co się stało, gdy podejście to przeskalowano: nowy model o nazwie Claude Mythos, który znalazł tysiące luk zero-day o wysokim i krytycznym poziomie zagrożenia — oraz decyzję o nieudostępnianiu go publicznie.1
Project Glasswing to odpowiedź Anthropic na pytanie, które praktycy zadają od prezentacji Carliniego na [un]prompted: co się dzieje, gdy ta zdolność zostanie wdrożona na dużą skalę? Odpowiedź: ogranicza się do niej dostęp.
TL;DR
Claude Mythos Preview to nowy model frontier wykraczający poza Opus 4.6, którego zdolności w zakresie cyberbezpieczeństwa „wyłoniły się jako pochodna ogólnych ulepszeń w zakresie kodu, rozumowania i autonomii”.1 Anthropic ogranicza dostęp do 12 organizacji partnerskich (Apple, Amazon, Microsoft, Google, Linux Foundation i inne) wyłącznie do prac nad bezpieczeństwem defensywnym. Model znalazł tysiące luk zero-day, w tym 27-letni błąd TCP SACK w OpenBSD, 16-letnią lukę w FFmpeg oraz RCE w NFS FreeBSD (CVE-2026-4747).1 Anthropic zobowiązał się do przeznaczenia 100 mln USD w kredytach użytkowych i 4 mln USD na organizacje bezpieczeństwa open source. Przyszły Cyber Verification Program ostatecznie zapewni dostęp zweryfikowanym specjalistom ds. bezpieczeństwa.1
Kluczowe wnioski
- Inżynierowie bezpieczeństwa: próg zdolności, który Carlini zademonstrował na [un]prompted, jest realny i skaluje się. Mythos znalazł luki „w każdym głównym systemie operacyjnym i przeglądarce internetowej”.2 Zespoły bezpieczeństwa defensywnego w 12 organizacjach partnerskich mają już dostęp. Wszyscy pozostali powinni przygotowywać się na moment, gdy te zdolności trafią do ogólnie dostępnych modeli.
- Twórcy harnessów: Mythos działa przez Claude Code w izolowanych kontenerach.1 Wzorzec harnessu — agent CLI + sandboxowane wykonanie + automatyczny triage — jest teraz architekturą produkcyjną do badań bezpieczeństwa frontier w samym Anthropic. Wzorce harnessów, które praktycy budowali niezależnie, zostały zwalidowane na najwyższym poziomie.
- Wszyscy pozostali: Anthropic wybrał ograniczenie zamiast publikacji. To realna decyzja dotycząca zarządzania z realnymi kompromisami. Model istnieje. Zdolności zostały zademonstrowane. Pytanie nie brzmi już, czy AI potrafi znajdować luki zero-day — lecz kto uzyskuje dostęp i na jakich warunkach.
Od prezentacji do produktu
Prezentacja Carliniego na [un]prompted na początku kwietnia była publicznym zapowiedzią.3 Pokazał pięć luk w jądrze Linuksa i 22 CVE w Firefoksie znalezione za pomocą prostego skryptu iterującego po plikach. Wąskim gardłem, jak stwierdził, była walidacja przez człowieka — „kilkaset crashy, których jeszcze nie zwalidowałem”.
Mythos to wynik usunięcia tego wąskiego gardła za pomocą bardziej zdolnego modelu i dedykowanej infrastruktury. Różnica skali jest znacząca:1
| Metryka | Prezentacja Carliniego | Project Glasswing |
|---|---|---|
| Znalezione luki | 5 w jądrze + 22 CVE w Firefoksie | Tysiące na wszystkich głównych platformach |
| Cele | Jądro Linuksa, Firefox | Każdy główny system operacyjny, przeglądarka, projekt open source |
| Walidacja | Ręczna, prowadzona przez badacza | Profesjonalni kontraktorzy ds. bezpieczeństwa, 89% potwierdzenie poziomu zagrożenia |
| Dostęp | Opus 4.6 (ogólnie dostępny) | Mythos Preview (ograniczony do 12 partnerów) |
Wynik profesjonalnej walidacji ma znaczenie: 89% ze 198 zrecenzowanych raportów miało ocenę poziomu zagrożenia potwierdzoną przez niezależnych kontraktorów ds. bezpieczeństwa, a 98% mieściło się w zakresie jednego poziomu zagrożenia.1 To nie są halucynowane wyniki.
Decyzja o ograniczeniu
Oficjalne stanowisko Anthropic: „Nie planujemy udostępniać Claude Mythos Preview publicznie ze względu na jego zdolności w zakresie cyberbezpieczeństwa”.4
To nietypowe. Firmy tworzące modele zazwyczaj ścigają się, by jak najszybciej udostępnić nowe zdolności. Anthropic zbudował model, który jest wyraźnie lepszy w znajdowaniu luk niż jakikolwiek publicznie dostępny system — a następnie zdecydował się ograniczyć go do użytku defensywnego przez zweryfikowanych partnerów. Zobowiązanie na 100 mln USD w kredytach użytkowych sygnalizuje, że to nie jest ćwiczenie marketingowe.1
Model ograniczeń ma trzy poziomy:1 1. Partnerzy Project Glasswing (12 organizacji): bezpośredni dostęp do bezpieczeństwa defensywnego 2. Szerszy dostęp (łącznie 40 organizacji): nadzorowane wdrożenie 3. Przyszły Cyber Verification Program: planowany dostęp dla zweryfikowanych specjalistów ds. bezpieczeństwa
Dla praktyków oznacza to, że najsilniejsze zdolności wykrywania luk nie są dostępne przez standardowe API ani Claude Code. Opus 4.6 pozostaje najsilniejszym ogólnie dostępnym modelem. Jednak zdolności zademonstrowane przez Mythos prawdopodobnie wpłyną na przyszłe wersje Opus — w ogłoszeniu Anthropic wprost stwierdza, że celem jest „umożliwienie bezpieczniejszego wdrażania poprzez nowe zabezpieczenia w przyszłych modelach Claude Opus”.1
Co to potwierdza
Project Glasswing potwierdza kilka wzorców, które społeczność praktyków budowała niezależnie:
Claude Code jako harness wykonawczy. Mythos działa przez Claude Code w izolowanych kontenerach.1 Ten sam agent CLI, którego praktycy używają do codziennego kodowania, stanowi warstwę wykonawczą do badań bezpieczeństwa frontier. Hooki, skille i sandboxing, które zapewnia Claude Code, to nie funkcje ułatwiające pracę — to infrastruktura, która sprawia, że autonomiczne skanowanie bezpieczeństwa jest wystarczająco bezpieczne do wdrożenia.
Wąskie gardło walidacji to problem harnessu. Prezentacja Carliniego zidentyfikowała walidację przez człowieka jako wąskie gardło. Rozwiązanie Project Glasswing: profesjonalni kontraktorzy ds. bezpieczeństwa do walidacji, zobowiązania oparte na hashach SHA-3 do odpowiedzialnego ujawniania oraz ustrukturyzowana infrastruktura triage’u.1 To ten sam problem triage’u, który zidentyfikowaliśmy w artykule When Your Agent Finds a Vulnerability — a rozwiązaniem jest infrastruktura, nie zdolności modelu.
Hooki zarządzania mają większe znaczenie niż zdolności skanowania. Model potrafi znajdować luki. Trudnym problemem jest kontrolowanie ujawniania, zarządzanie dostępem i zapewnienie, że wyniki trafią do obrońców przed atakującymi. Odpowiedź Anthropic ma charakter organizacyjny (ograniczyć model, zweryfikować partnerów, przeznaczyć zasoby). Dla praktyków budujących własne skanowanie bezpieczeństwa hooki zarządzania filtrujące dane wyjściowe stanowią odpowiednik tego podejścia.
Co to oznacza dla praktyków
Nie uzyskacie dostępu do Mythos. Oto, co można zrobić z tym, co jest dostępne:
Opus 4.6 jest już zdolny. Wyniki Carliniego z [un]prompted — 5 błędów w jądrze, 22 CVE w Firefoksie — uzyskano na Opus 4.6, nie na Mythos.3 Metodologia capture-the-flag, buildy z instrumentacją ASAN i skrypt iterujący po plikach — wszystko to można odtworzyć z ogólnie dostępnym modelem.
Zbudujcie warstwę triage’u teraz. Gdy przyszłe modele Opus odziedziczą część zdolności Mythos (jak sugeruje Anthropic), wąskie gardło będzie takie samo, jak zidentyfikował Carlini: walidacja przez człowieka. Zespoły, które będą miały gotową automatyczną deduplikację, klasyfikację poziomu zagrożenia i przepływy pracy odpowiedzialnego ujawniania, skorzystają jako pierwsze.
Śledźcie Cyber Verification Program. Anthropic planuje rozszerzyć dostęp do Mythos na zweryfikowanych specjalistów ds. bezpieczeństwa. Jeśli prowadzicie legalne badania bezpieczeństwa, warto to obserwować.
Trajektoria jest jasna: wspomagane przez AI wykrywanie luk jest realne, skaluje się, a kwestia zarządzania jest teraz centralnym problemem. Zdolności modelu są rozwiązane. Harness, który orkiestruje wykrywanie, triage i odpowiedzialne ujawnianie — jeszcze nie.
Źródła
Najczęściej zadawane pytania
Czy mogę użyć Claude Mythos przez Claude Code?
Nie. Mythos Preview jest ograniczony do partnerów Project Glasswing. Opus 4.6 pozostaje najsilniejszym modelem dostępnym przez Claude Code dla ogólnych użytkowników.
Czy zdolności Mythos trafią do Opus?
W ogłoszeniu Anthropic stwierdza, że celem jest „umożliwienie bezpieczniejszego wdrażania poprzez nowe zabezpieczenia w przyszłych modelach Claude Opus”. Sugeruje to, że niektóre zdolności ostatecznie trafią do ogólnie dostępnych modeli, ale z dodatkowymi ograniczeniami bezpieczeństwa.
Jak to się ma do wcześniejszego wpisu o lukach?
Prezentacja Carliniego na [un]prompted (opisana w artykule When Your Agent Finds a Vulnerability) wykorzystywała Opus 4.6 i pozwoliła znaleźć 5 błędów w jądrze + 22 CVE w Firefoksie. Mythos przeskalował to podejście do tysięcy luk na wszystkich głównych platformach. Metodologia jest ta sama; model jest bardziej zdolny.
-
Claude Mythos Preview — Project Glasswing. Anthropic, 7 kwietnia 2026. Oficjalne ogłoszenie. Tysiące luk zero-day o wysokim/krytycznym poziomie zagrożenia. 89% wskaźnik potwierdzenia poziomu zagrożenia przez profesjonalnych walidatorów. 100 mln USD w kredytach użytkowych. Kierownik: Nicholas Carlini z 21+ współautorami. ↩↩↩↩↩↩↩↩↩↩↩↩
-
Anthropic’s Project Glasswing. Simon Willison, 7 kwietnia 2026. Analiza i kontekst modelu ograniczonego dostępu oraz wcześniejszych prac Carliniego. ↩
-
Nicholas Carlini, „Black-hat LLMs,” konferencja [un]prompted AI security, kwiecień 2026. Program konferencji. Zobacz także: AI Finds Vulns You Can’t, podcast Security Cryptography Whatever. ↩↩
-
Anthropic says its most powerful AI cyber model is too dangerous to release publicly. VentureBeat, 7 kwietnia 2026. ↩