Cyberbezpieczeństwo jako dowód pracy: ataki AI za 12 500 dolarów za próbę

9 min read

From the guide: Claude Code Comprehensive Guide

Cyberbezpieczeństwo staje się problemem mocy obliczeniowej, a nie problemem kompetencji. Ewaluacja UK AISI wykazała, że Claude Mythos ukończył 32-krokową symulację ataku na sieć korporacyjną w 3 na 10 prób, przy koszcie 12 500 dolarów za próbę. Teza Drew Breuniga: obrońcy muszą wydawać więcej niż atakujący na zautomatyzowane odkrywanie exploitów — w przeciwnym razie przegrywają z definicji.

UK AI Security Institute opublikował niezależną ewaluację Claude Mythos Preview w zakresie zadań cyberbezpieczeństwa.¹ Kluczowa liczba: Mythos ukończył 32-krokową symulację ataku na sieć korporacyjną w 3 na 10 prób. Żaden inny model nie rozwiązał pełnego łańcucha. Następnego dnia Drew Breunig opublikował ekonomiczny korelat: każda z tych prób kosztowała około 12 500 dolarów w tokenach.² Razem te dwie analizy przeformułowują cyberbezpieczeństwo z problemu kompetencji na problem mocy obliczeniowej.

Implikacja jest niewygodna. W ujęciu Breuniga obrona systemu wymaga teraz wydania większej liczby tokenów na odkrywanie exploitów, niż atakujący wydadzą na ich wykorzystanie.² Bezpieczeństwo zawsze było asymetryczne: atakujący potrzebują tylko jednej ścieżki, obrońcy muszą pokryć je wszystkie. Agenci AI zachowują tę asymetrię, ale przesuwają oś. Deficytowym zasobem nie jest już ekspertyza. Deficytowym zasobem jest budżet obliczeniowy.

Co faktycznie zmierzył AISI

Ewaluacja wykorzystała dwa podejścia testowe: wyzwania capture-the-flag (CTF) oraz symulacje w cyber range.¹

Kluczowy cyber range, „The Last Ones” (TLO), symuluje 32-krokowy atak na sieć korporacyjną. Człowiek potrzebowałby szacunkowo 20 godzin na jego ukończenie.¹ Mythos ukończył pełny łańcuch w 3 na 10 prób. We wszystkich 10 próbach Mythos średnio wykonał 22 z 32 kroków. Dla porównania, Claude Opus 4.6 uzyskał średnio 16 kroków na tym samym zakresie.¹

W zadaniach CTF na poziomie eksperckim Mythos osiągnął skuteczność 73%.¹

Budżety tokenów mówią same za siebie. AISI testował zakresy do 2,5 miliona tokenów dla nieeksperckich CTF, 50 milionów dla eksperckich CTF i 100 milionów dla symulacji w cyber range.¹ Ewaluacja wprost zauważa, że „modele kontynuują postępy przy zwiększonych budżetach tokenów we wszystkich testowanych zakresach” i że AISI spodziewa się „dalszej poprawy wyników powyżej” testowanego pułapu 100 milionów tokenów.¹

Więcej tokenów, więcej postępów. Nie zaobserwowano plateau.

AISI starannie określił zakres odkrycia. Cyber range nie posiadały aktywnych obrońców, narzędzi obronnych ani kar za wywoływanie alertów.¹ Ocena dotyczy „słabo bronionych i podatnych systemów korporacyjnych”, a nie utwardzonych środowisk produkcyjnych z centrami operacji bezpieczeństwa (SOC) i systemami wykrywania włamań (IDS). Mythos nie poradził sobie również z zakresem „Cooling Tower”, który koncentrował się na technologii operacyjnej.¹

Te zastrzeżenia mają znaczenie. Ale trajektoria ma większe znaczenie. Poprzednie modele nie były w stanie ukończyć pełnego łańcucha na tych zakresach.¹ Teraz jeden z nich przeprowadza 32-krokowe włamanie do sieci korporacyjnej w 3 na 10 prób, a krzywa wydajności wygina się w górę wraz z mocą obliczeniową. Pytanie nie brzmi, czy AI potrafi włamać się do słabo bronionych, podatnych systemów (AISI wykazał, że potrafi). Pytanie brzmi, kiedy wskaźnik sukcesu wobec utwardzonych środowisk przekroczy próg, przy którym automatyzacja stanie się ekonomicznie racjonalna.

Ekonomia: 12 500 dolarów za próbę

Analiza Breuniga przekłada odkrycia AISI na dolary.² Przy 100 milionach tokenów na próbę, pojedyncze uruchomienie Mythosa na TLO kosztuje około 12 500 dolarów. Dziesięć prób TLO to koszt 125 000 dolarów.²

Te liczby brzmią imponująco w izolacji. Brzmią skromnie w porównaniu z kosztami, jakie 32-krokowe włamanie do sieci korporacyjnej generuje po stronie obrońcy. Model osiąga 30% skuteczność przy ułamku kosztów, działa na żądanie, a wskaźnik sukcesu rośnie wraz z budżetem. Uruchomienie tego samego łańcucha ataku 100 razy zamiast 10 (przy założeniu niezależnych, identycznie skonfigurowanych prób wobec statycznego celu) podnosi oczekiwaną liczbę udanych penetracji z 3 do 30, przy koszcie około 1,25 miliona dolarów w tokenach. Dużo dla indywidualnego badacza. Błąd zaokrąglenia dla aktora państwowego.

Główna teza Breuniga: „aby utwardzić system, trzeba wydać więcej tokenów na odkrywanie exploitów, niż atakujący wydadzą na ich wykorzystanie”.² Bezpieczeństwo staje się wyścigiem budżetów tokenów. Breunig argumentuje, że obrońcy muszą wydawać więcej niż atakujący na zautomatyzowane odkrywanie exploitów — w przeciwnym razie przegrywają z definicji.

Proponuje model trzyfazowy: Rozwój, Przegląd i Utwardzanie.² Rozwój buduje system. Przegląd wyłapuje znane klasy błędów. Utwardzanie to nowa faza: autonomiczne odkrywanie exploitów działające nieprzerwanie, aż zespół wyczerpie budżet. Bezpieczeństwo systemu staje się funkcją tego, ile tokenów zespół spali, próbując go złamać przed wdrożeniem.

„Nie dostajesz punktów za spryt”, pisze Breunig. „Wygrywasz, płacąc więcej.”²

Prawo Linusa zyskuje wymiar tokenowy

Breunig rozszerza Prawo Linusa — „przy wystarczającej liczbie oczu wszystkie błędy są płytkie” — o tokeny.² Wystarczająca liczba zautomatyzowanych cykli przeglądu, przy wystarczającym budżecie obliczeniowym, ujawni podatności, które umykały ludzkiemu przeglądowi przez dekady.

Dowody potwierdzają to rozszerzenie. Jak udokumentowano w artykule When Your Agent Finds a Vulnerability, praca Carliniego w Anthropic podobno ujawniła 23-letnią podatność jądra Linux za pomocą 10-wierszowego skryptu bash i Claude Code.⁴ Jak udokumentowano w artykule Project Glasswing, Anthropic skalował to podejście z Mythosem, odkrywając — według ich opisu — tysiące zero-day’ów w głównych systemach operacyjnych i przeglądarkach.⁵ Ewaluacja AISI dostarcza teraz niezależnego potwierdzenia tej bazowej zdolności.

Simon Willison dodaje obserwację wartą odnotowania: przegląd bezpieczeństwa napędzany przez AI zwiększa wartość bibliotek open-source, ponieważ tokeny wydane na ich zabezpieczenie przynoszą korzyści wszystkim użytkownikom zbiorowo.³ Kod własnościowy ponosi własne koszty bezpieczeństwa. Kod open-source amortyzuje te koszty w całej bazie użytkowników.

Breunig przytacza produkt do przeglądu kodu Anthropic w cenie 15–20 dolarów za przegląd jako jeden punkt danych dotyczący obecnych cen.² Wspomina również o incydentach w łańcuchach dostaw LiteLLM i Axios jako przykładach podatności w łańcuchach dostaw, które podkreślają potrzebę zautomatyzowanego przeglądu.²

Formuła krystalizuje się: „Kod pozostaje tani, chyba że musi być bezpieczny.”² Każda linia kodu w systemie produkcyjnym niesie ukryty dług bezpieczeństwa. Ten dług wcześniej ukrywał się na widoku, zakopany w wynagrodzeniach zespołów bezpieczeństwa i probabilistycznej nadziei, że manualny przegląd wyłapie krytyczne błędy. Bezpieczeństwo oparte na tokenach czyni koszt jawnym i mierzalnym.

Co faktycznie oznaczają zastrzeżenia

Zastrzeżenia AISI zasługują na uważną lekturę, nie na odrzucenie.

Brak aktywnych obrońców znacząco zmienia rachunek. 32-krokowy łańcuch ataku na system bez monitoringu, alertów i reakcji na incydenty to fundamentalnie inny problem niż ten sam łańcuch wobec obsadzonego centrum operacji bezpieczeństwa. Rzeczywiste sieci korporacyjne posiadają EDR, segmentację sieci, wykrywanie anomalii i ludzkich analityków. Każdy alert wywołany przez zautomatyzowanego atakującego to szansa na reakcję obrony.

Brak kar za szum oznacza, że model może stosować podejścia brute-force, których ludzki atakujący by unikał. Rzeczywisty przeciwnik, który wywołuje setki alertów IDS w ciągu godziny, zostaje zbadany. Zakresy AISI nie modelowały tego sprzężenia zwrotnego. W prawdziwej sieci szum jest kosztowny dla atakującego. Dyskrecja ogranicza przestrzeń poszukiwań. Usunięcie tego ograniczenia sprawia, że problem staje się ściśle łatwiejszy.

Porażka na Cooling Tower jest również pouczająca. Mythos rozwiązał zakres TLO skoncentrowany na IT, ale nie poradził sobie z zakresem technologii operacyjnej.¹ Środowiska OT mają inne protokoły, inne ograniczenia i inne tryby awarii. AISI zauważa, że model utknął na częściach IT tego zakresu, więc porażka niekoniecznie wskazuje na słabe zdolności specyficzne dla OT — niemniej zdolności modelu wyraźnie nie są jednolite w różnych domenach. Penetracja sieci IT i ataki na przemysłowe systemy sterowania to różne problemy, a wyciąganie wniosków o gotowości OT z tej ewaluacji wymaga ostrożności.

Z drugiej strony zastrzeżenia mają datę ważności. Budżety tokenów skalują się. Zdolności modeli poprawiają się między ewaluacjami. 30-procentowy wskaźnik sukcesu wobec niebronionych sieci to podłoga, nie sufit. Sam AISI spodziewa się poprawy wyników powyżej testowanych budżetów.¹ Obrońcy, którzy odrzucają wyniki, ponieważ zakresy nie posiadały aktywnej obrony, zakładają, że skalowanie wnioskowania osiągnie plateau, zanim dotrze do ich zabezpieczeń — zakład, którego dane AISI, w testowanych zakresach, nie wspierają.

Implikacje operacyjne dla praktyków

Dla każdego, kto uruchamia agentów AI w produkcji (a ja uruchamiam autonomicznych agentów nocą przez Ralph Loop z 95 hookami jako infrastrukturą bezpieczeństwa), ujęcie proof-of-work zmienia sposób myślenia o obronie.

Hooki bezpieczeństwa to minimalne wydatki, nie wystarczające. Moje 95 hooków kontroluje, co agenci mogą robić: blokowanie force push, walidacja danych uwierzytelniających, wymuszanie sandboxów. Te hooki zapobiegają uszkodzeniom ze strony moich własnych agentów. Nie robią nic wobec zewnętrznego atakującego, który wydaje 100 milionów tokenów na sondowanie systemów, z którymi ci agenci wchodzą w interakcję. Infrastruktura hooków jest konieczna, ale niewystarczająca.

Zautomatyzowane testy ofensywne stają się obowiązkowe. Trzyfazowy model Breuniga (Rozwój, Przegląd, Utwardzanie) implikuje, że każdy pipeline wdrożeniowy potrzebuje fazy adwersarialnej, w której agenci AI próbują złamać system przed jego wysyłką. Nie checkboxowy test penetracyjny. Ćwiczenie wyczerpywania budżetu tokenów. Uruchamianie zautomatyzowanego odkrywania exploitów do wyczerpania budżetu, naprawianie tego, co się ujawni, powtarzanie.

Ralph Loop ma teraz swój odpowiednik bezpieczeństwa. Pisałem o iteracyjnej degradacji bezpieczeństwa w kontekście wydajności: agenci, którzy przechodzą każdy test, jednocześnie wprowadzając 446-krotne spowolnienia. Ten sam wzorzec dotyczy bezpieczeństwa. Agent, który pisze poprawny, funkcjonalny, dobrze przetestowany kod, wciąż może wprowadzać subtelne podatności, które ujawniają się dopiero podczas adwersarialnego zautomatyzowanego przeglądu. Rozwiązanie jest takie samo: dodanie brakującej bramki. Benchmarki wydajności wyłapują regresje wydajności. Zautomatyzowany red-teaming wyłapuje regresje bezpieczeństwa.

Zależności open-source zasługują na budżety tokenów. Obserwacja Willisona o zbiorowej korzyści ma bezpośrednie zastosowanie do zarządzania zależnościami. Każda biblioteka open-source w stosie produkcyjnym albo przechodzi zautomatyzowany przegląd bezpieczeństwa od kogoś, albo nie. Breunig przytacza incydenty w łańcuchach dostaw LiteLLM i Axios w kontekście bezpieczeństwa zależności — przypadki, w których podatności utrzymywały się w szeroko używanych bibliotekach.² Praktycy powinni oceniać swoje drzewa zależności z nowym pytaniem: kto wydaje tokeny na bezpieczeństwo tej biblioteki?

Niewygodna matematyka

Ujęcie proof-of-work czyni ekonomię bezpieczeństwa jawną w sposób, jakiego modele oparte na ekspertyzie nigdy nie osiągnęły. W starym modelu jakość bezpieczeństwa była funkcją tego, kogo zatrudniłeś i jak wykwalifikowany był. W nowym modelu jakość bezpieczeństwa jest funkcją tego, ile tokenów wydasz, próbując złamać własne systemy.

Talent wciąż ma znaczenie: ktoś musi interpretować wyniki, priorytetyzować poprawki i podejmować decyzje architektoniczne. Ale faza odkrywania — ta, w której zautomatyzowani agenci ujawniają podatności — coraz bardziej staje się problemem obliczeniowym. A w zakresach testowanych przez AISI problemy obliczeniowe faworyzują podmiot skłonny wydać więcej.

Analogia do proof-of-work w kryptowalutach jest pouczająca, choć niedoskonała. Górnicy Bitcoina spalają energię elektryczną, aby zabezpieczyć łańcuch. Obrońcy spalają tokeny, aby zabezpieczyć system. W obu przypadkach gwarancja bezpieczeństwa jest proporcjonalna do wydanej mocy obliczeniowej. W obu przypadkach atakujący skłonny wydać więcej mocy obliczeniowej zyskuje przewagę. Różnica: trudność wydobycia Bitcoina dostosowuje się automatycznie. Budżety tokenów bezpieczeństwa wymagają ludzkiego osądu, ile jest wystarczająco.

Dla dobrze finansowanych organizacji ścieżka jest jasna. Dodanie autonomicznego odkrywania exploitów do pipeline’u wdrożeniowego. Ustalenie budżetu tokenów proporcjonalnego do profilu ryzyka systemu. Wyczerpanie budżetu. Naprawienie tego, co się ujawni. Wysyłka.

Dla wszystkich pozostałych ścieżka jest mniej komfortowa. Jeśli nie stać Cię na wydanie większej liczby tokenów na obronę niż atakujący wydadzą na atak, trzeba polegać na współdzielonej infrastrukturze: przeglądach bezpieczeństwa open-source, skanowaniu dostarczanym przez dostawców, obronie zbiorowej. Odpowiednik odporności stadnej w bezpieczeństwie. I tak jak odporność stadna, działa to tylko wtedy, gdy wystarczająca liczba uczestników wnosi swój wkład. Korzystanie z przeglądów bezpieczeństwa open-source bez wnoszenia własnych tokenów to strategia, która działa — do momentu, gdy przestaje.

Ewaluacja AISI wykazała, że agenci AI potrafią przeprowadzać ataki na sieci korporacyjne. Breunig argumentuje, że obrona to problem wydatków. Willison zidentyfikował jedyną strukturalną przewagę obrońców: współdzielona infrastruktura amortyzuje koszty wśród wszystkich, którzy z niej korzystają.

Pytanie dla każdego praktyka jest takie samo jak to, które systemy proof-of-work zawsze stawiały: ile mocy obliczeniowej jesteś gotów spalić?

FAQ

Co oznacza „cyberbezpieczeństwo jako dowód pracy”?

To sformułowanie przeformułowuje cyberbezpieczeństwo z problemu kompetencji na problem mocy obliczeniowej. Ewaluacja UK AISI wykazała, że Claude Mythos potrafi ukończyć 32-krokowy atak na sieć korporacyjną w 3 na 10 prób, przy koszcie około 12 500 dolarów za próbę. Obrona systemu wymaga teraz wydania większej liczby tokenów na odkrywanie exploitów, niż atakujący wydadzą na ich wykorzystanie. Jakość bezpieczeństwa staje się funkcją tego, ile tokenów spalisz, próbując złamać własne systemy przed wdrożeniem.

Jak Claude Mythos wypadł w zadaniach cyberbezpieczeństwa?

Mythos ukończył pełną 32-krokową symulację ataku na sieć korporacyjną „The Last Ones” w 3 na 10 prób, uzyskując średnio 22 z 32 kroków we wszystkich próbach. W zadaniach capture-the-flag na poziomie eksperckim Mythos osiągnął skuteczność 73%. AISI zauważył, że wydajność nadal rośnie wraz ze zwiększonymi budżetami tokenów, bez zaobserwowanego plateau aż do testowanego pułapu 100 milionów tokenów.

Jakie są ograniczenia ewaluacji AISI?

Cyber range nie posiadały aktywnych obrońców, narzędzi obronnych ani kar za wywoływanie alertów. Ocena dotyczy „słabo bronionych i podatnych systemów korporacyjnych”, a nie utwardzonych środowisk produkcyjnych z centrami operacji bezpieczeństwa (SOC) i systemami wykrywania włamań (IDS). Mythos nie poradził sobie również z zakresem „Cooling Tower” dotyczącym technologii operacyjnej. Rzeczywiste sieci korporacyjne posiadają EDR, segmentację sieci, wykrywanie anomalii i ludzkich analityków, których ewaluacja nie modelowała.

Co powinni zrobić praktycy w odpowiedzi na te odkrycia?

Wdrożenie hooków PreToolUse jako minimalnej warstwy bezpieczeństwa. Dodanie autonomicznych testów ofensywnych do pipeline’u wdrożeniowego jako ćwiczenia wyczerpywania budżetu tokenów. Ocena zależności open-source z nowym pytaniem: kto wydaje tokeny na bezpieczeństwo tej biblioteki? Ujęcie proof-of-work oznacza, że każdy system produkcyjny potrzebuje fazy adwersarialnej, w której agenci AI próbują go złamać przed wdrożeniem.

Citations

UK AI Security Institute, “Our Evaluation of Claude Mythos Preview’s Cyber Capabilities,” aisi.gov.uk, 13 kwietnia 2026. ↩↩↩↩↩↩↩↩↩↩↩↩
Drew Breunig, “Cybersecurity Looks Like Proof of Work Now,” dbreunig.com, 14 kwietnia 2026. ↩↩↩↩↩↩↩↩↩↩↩↩
Simon Willison, “Cybersecurity Looks Like Proof of Work Now,” simonwillison.net, 14 kwietnia 2026. ↩
Nicholas Carlini, “An AI Found a Bug in My Code (That Humans Missed for 23 Years),” nicholas.carlini.com, 2026. Przywoływane w When Your Agent Finds a Vulnerability. ↩
Anthropic, “Mythos Preview: Responsible Disclosure of Cyber Capabilities,” red.anthropic.com, 2026. Przywoływane w Project Glasswing. ↩