← Alle Beitrage

Cybersicherheit als Proof of Work: KI-Angriffe für 12.500 Dollar pro Durchlauf

From the guide: Claude Code Comprehensive Guide

Cybersicherheit wird zu einem Rechenproblem, nicht zu einem Kompetenzproblem. Die Evaluierung des britischen AISI zeigte, dass Claude Mythos eine 32-Schritte-Simulation eines Unternehmensnetzwerkangriffs in 3 von 10 Versuchen bei 12.500 Dollar pro Durchlauf absolvierte. Drew Breunigs These: Verteidiger müssen bei der automatisierten Schwachstellensuche mehr ausgeben als Angreifer, oder sie verlieren automatisch.

Das britische AI Security Institute veröffentlichte eine unabhängige Evaluierung von Claude Mythos Preview zu Cybersicherheitsaufgaben.1 Die Schlagzeile: Mythos absolvierte eine 32-Schritte-Simulation eines Unternehmensnetzwerkangriffs in 3 von 10 Versuchen. Kein anderes Modell hat die vollständige Kette gelöst. Am nächsten Tag veröffentlichte Drew Breunig das ökonomische Gegenstück: Jeder dieser Versuche kostete rund 12.500 Dollar an Tokens.2 Zusammen formulieren diese beiden Analysen Cybersicherheit von einem Kompetenzproblem zu einem Rechenproblem um.

Die Implikation ist unbequem. In Breunigs Darstellung erfordert die Verteidigung eines Systems nun, mehr Tokens für die Entdeckung von Exploits auszugeben, als Angreifer für deren Ausnutzung aufwenden werden.2 Sicherheit war schon immer asymmetrisch: Angreifer brauchen nur einen Weg, Verteidiger müssen alle abdecken. KI-Agenten bewahren diese Asymmetrie, verschieben jedoch die Achse. Die knappe Ressource ist nicht mehr Expertise. Die knappe Ressource ist das Rechenbudget.

Was das AISI tatsächlich gemessen hat

Die Evaluierung nutzte zwei Testansätze: Capture-the-Flag-Challenges (CTF) und Cyber-Range-Simulationen.1

Die entscheidende Cyber Range, „The Last Ones” (TLO), simuliert einen 32-Schritte-Angriff auf ein Unternehmensnetzwerk. Ein Mensch bräuchte geschätzt 20 Stunden für die Durchführung.1 Mythos absolvierte die gesamte Kette in 3 von 10 Versuchen. Über alle 10 Durchläufe hinweg erreichte Mythos durchschnittlich 22 von 32 Schritten. Zum Vergleich: Claude Opus 4.6 kam auf derselben Range im Schnitt auf 16 Schritte.1

Bei CTF-Aufgaben auf Expertenniveau lag die Erfolgsquote von Mythos bei 73 %.1

Die Token-Budgets sprechen ihre eigene Sprache. Das AISI testete Budgets von bis zu 2,5 Millionen Tokens für nicht-expertenlevel CTF, 50 Millionen für Experten-CTF und 100 Millionen für die Cyber-Range-Simulationen.1 Die Evaluierung stellt ausdrücklich fest, dass „Modelle bei erhöhten Token-Budgets über die getesteten Budgets hinweg weiterhin Fortschritte machen” und dass das AISI „Leistungsverbesserungen auch jenseits” der getesteten Obergrenze von 100 Millionen Tokens erwartet.1

Mehr Tokens, mehr Fortschritt. Kein Plateau erkennbar.

Das AISI war bemüht, die Erkenntnisse einzuordnen. Den Cyber Ranges fehlten aktive Verteidiger, Verteidigungswerkzeuge und Konsequenzen für das Auslösen von Alarmen.1 Die Bewertung gilt für „schwach verteidigte und verwundbare Unternehmenssysteme”, nicht für gehärtete Produktionsumgebungen mit SOCs und IDS. Mythos scheiterte zudem an der „Cooling Tower”-Range, die sich auf Betriebstechnologie konzentrierte.1

Diese Einschränkungen sind relevant. Doch die Entwicklungstendenz wiegt schwerer. Frühere Modelle konnten die vollständige Kette auf diesen Ranges nicht absolvieren.1 Nun schafft eines einen 32-Schritte-Einbruch in ein Unternehmensnetzwerk in 3 von 10 Versuchen, und die Leistungskurve steigt mit zunehmender Rechenleistung. Die Frage ist nicht, ob KI in schwach verteidigte, verwundbare Systeme einbrechen kann (das hat das AISI nachgewiesen). Die Frage ist, wann die Erfolgsquote gegen gehärtete Umgebungen die Schwelle überschreitet, ab der Automatisierung wirtschaftlich rational wird.

Die Ökonomie: 12.500 Dollar pro Versuch

Breunigs Analyse rechnet die AISI-Ergebnisse in Dollar um.2 Bei 100 Millionen Tokens pro Versuch kostet ein einzelner Mythos-Durchlauf auf TLO etwa 12.500 Dollar. Zehn TLO-Versuche kosten 125.000 Dollar.2

Isoliert betrachtet klingen diese Zahlen hoch. Im Verhältnis zu dem, was ein 32-Schritte-Kompromittierung eines Unternehmensnetzwerks den Verteidiger kostet, klingen sie gering. Das Modell erreicht eine Erfolgsquote von 30 % zu einem Bruchteil der Kosten, läuft auf Abruf, und die Erfolgsquote steigt mit dem Budget. Führt man dieselbe Angriffskette 100-mal statt 10-mal aus (unter der Annahme unabhängiger, identisch konfigurierter Versuche gegen ein statisches Ziel), steigt die erwartete Anzahl erfolgreicher Einbrüche von 3 auf 30 bei rund 1,25 Millionen Dollar an Tokens. Teuer für einen einzelnen Forscher. Ein Rundungsfehler für einen staatlichen Akteur.

Breunigs Kernthese: „Um ein System zu härten, muss man mehr Tokens für die Entdeckung von Exploits ausgeben, als Angreifer für deren Ausnutzung aufwenden werden.”2 Sicherheit wird zum Token-Budget-Wettlauf. Breunig argumentiert, dass Verteidiger die Angreifer bei der automatisierten Schwachstellensuche überbieten müssen, oder sie verlieren automatisch.

Er schlägt ein Drei-Phasen-Modell vor: Entwicklung, Review und Härtung.2 Die Entwicklung baut das System. Das Review findet bekannte Fehlerklassen. Die Härtung ist die neue Phase: autonome Schwachstellensuche, die kontinuierlich läuft, bis das Team das Budget ausgeschöpft hat. Die Sicherheit eines Systems wird zur Funktion dessen, wie viele Tokens das Team verbrennt, um es vor dem Deployment zu brechen.

„Man bekommt keine Punkte für Cleverness”, schreibt Breunig. „Man gewinnt, indem man mehr bezahlt.”2

Linus’ Gesetz bekommt eine Token-Dimension

Breunig erweitert Linus’ Gesetz — „bei genügend Augen sind alle Fehler offensichtlich” — um Tokens.2 Genügend automatisierte Review-Zyklen mit ausreichendem Rechenbudget bringen Schwachstellen an die Oberfläche, die menschliche Prüfung jahrzehntelang übersehen hat.

Die Belege stützen diese Erweiterung. Wie in When Your Agent Finds a Vulnerability dokumentiert, fand Carlinis Arbeit bei Anthropic Berichten zufolge eine 23 Jahre alte Linux-Kernel-Schwachstelle mithilfe eines 10-Zeilen-Bash-Skripts und Claude Code.4 Wie in Project Glasswing dokumentiert, skalierte Anthropic diesen Ansatz mit Mythos, um nach eigenen Angaben Tausende von Zero-Days in wichtigen Betriebssystemen und Browsern zu entdecken.5 Die AISI-Evaluierung liefert nun eine unabhängige Bestätigung der zugrundeliegenden Fähigkeit.

Simon Willison ergänzt eine bemerkenswerte Beobachtung: KI-gesteuerte Sicherheitsüberprüfungen steigern den Wert von Open-Source-Bibliotheken, weil die investierten Tokens allen Nutzern kollektiv zugutekommen.3 Proprietärer Code trägt seine eigenen Sicherheitskosten. Open-Source-Code verteilt diese Kosten auf die gesamte Nutzerbasis.

Breunig verweist auf das Code-Review-Produkt von Anthropic mit 15–20 Dollar pro Review als einen Datenpunkt zur aktuellen Preisgestaltung.2 Zudem nennt er die LiteLLM- und Axios-Supply-Chain-Vorfälle im Kontext der Abhängigkeitssicherheit — Beispiele für die Art von Lieferketten-Schwachstellen, die den Bedarf an automatisierter Überprüfung unterstreichen.2

Die Formel kristallisiert sich heraus: „Code bleibt billig, es sei denn, er muss sicher sein.”2 Jede Codezeile in einem Produktivsystem trägt eine implizite Sicherheitsschuld. Diese Schuld verbarg sich bisher hinter den Gehältern von Sicherheitsteams und der probabilistischen Hoffnung, dass manuelle Überprüfung die kritischen Fehler aufspüren würde. Token-basierte Sicherheit macht die Kosten explizit und messbar.

Was die Einschränkungen wirklich bedeuten

Die Einschränkungen des AISI verdienen sorgfältige Lektüre, keine Zurückweisung.

Fehlende aktive Verteidiger verändert die Kalkulation erheblich. Eine 32-Schritte-Angriffskette gegen ein System ohne Monitoring, ohne Alarmierung und ohne Incident Response ist ein grundlegend anderes Problem als dieselbe Kette gegen ein besetztes SOC. Reale Unternehmensnetzwerke verfügen über EDR, Netzwerksegmentierung, Anomalieerkennung und menschliche Analysten. Jeder Alarm, den ein automatisierter Angreifer auslöst, gibt der Verteidigung eine Chance zur Reaktion.

Keine Konsequenzen für Lärm bedeutet, dass das Modell Brute-Force-Ansätze versuchen kann, die ein menschlicher Angreifer vermeiden würde. Ein realer Angreifer, der innerhalb einer Stunde Hunderte von IDS-Alarmen auslöst, wird untersucht. Die AISI-Ranges modellierten diese Rückkopplung nicht. In einem realen Netzwerk ist Lärm teuer für den Angreifer. Tarnung schränkt den Suchraum ein. Entfernt man diese Einschränkung, wird das Problem strikt einfacher.

Das Scheitern an der Cooling Tower-Range ist ebenfalls aufschlussreich. Mythos löste die IT-fokussierte TLO-Range, scheiterte jedoch an der Range für Betriebstechnologie.1 OT-Umgebungen haben andere Protokolle, andere Einschränkungen und andere Fehlermodi. Das AISI merkt an, das Modell sei an IT-Abschnitten dieser Range hängengeblieben, sodass das Scheitern nicht zwingend auf mangelnde OT-spezifische Fähigkeiten hinweist — dennoch sind die Fähigkeiten des Modells offenkundig nicht über alle Domänen hinweg gleichmäßig. IT-Netzwerkpenetration und Angriffe auf industrielle Steuerungssysteme sind unterschiedliche Probleme, und Rückschlüsse auf OT-Einsatzbereitschaft aus dieser Evaluierung erfordern Vorsicht.

Allerdings haben die Einschränkungen ein Verfallsdatum. Token-Budgets skalieren. Modellfähigkeiten verbessern sich zwischen Evaluierungen. Die 30-prozentige Erfolgsquote gegen unverteidigte Netzwerke ist der Boden, nicht die Decke. Das AISI selbst erwartet Leistungsverbesserungen über die getesteten Budgets hinaus.1 Verteidiger, die diese Ergebnisse abtun, weil den Ranges aktive Verteidigung fehlte, setzen darauf, dass die Inferenz-Skalierung ein Plateau erreicht, bevor sie ihre Verteidigung erreicht — eine Wette, die die eigenen Daten des AISI innerhalb der getesteten Ranges nicht stützen.

Operative Auswirkungen für Praktiker

Für alle, die KI-Agenten in Produktion betreiben (und ich betreibe autonome Agenten über Nacht durch den Ralph Loop mit 95 Hooks als Sicherheitsinfrastruktur), verändert das Proof-of-Work-Rahmenwerk die Denkweise über Verteidigung.

Sicherheits-Hooks sind eine Mindestinvestition, keine ausreichende. Meine 95 Hooks steuern, was Agenten tun dürfen: Force-Pushes blockieren, Anmeldedaten validieren, Sandboxes durchsetzen. Diese Hooks verhindern, dass meine eigenen Agenten Schaden anrichten. Gegen einen externen Angreifer, der 100 Millionen Tokens aufwendet, um die Systeme zu sondieren, mit denen diese Agenten interagieren, richten sie nichts aus. Hook-Infrastruktur ist notwendig, aber nicht hinreichend.

Automatisierte offensive Tests werden zur Pflicht. Breunigs Drei-Phasen-Modell (Entwicklung, Review, Härtung) impliziert, dass jede Deployment-Pipeline eine adversariale Phase benötigt, in der KI-Agenten versuchen, das System vor der Auslieferung zu brechen. Kein Penetrationstest zum Abhaken. Eine Token-Budget-Ausschöpfungsübung. Automatisierte Schwachstellensuche laufen lassen, bis das Budget aufgebraucht ist, Gefundenes beheben, wiederholen.

Der Ralph Loop hat nun ein Sicherheits-Gegenstück. Ich habe über iterativen Sicherheitsabbau im Kontext der Performance geschrieben: Agenten, die jeden Test bestehen und dabei 446-fache Verlangsamungen einführen. Dasselbe Muster gilt für Sicherheit. Ein Agent, der korrekten, funktionalen, gut getesteten Code schreibt, kann dennoch subtile Schwachstellen einführen, die erst unter adversarialer automatisierter Überprüfung sichtbar werden. Die Lösung ist dieselbe: das fehlende Gate hinzufügen. Performance-Benchmarks fangen Performance-Regressionen auf. Automatisiertes Red-Teaming fängt Sicherheitsregressionen auf.

Open-Source-Abhängigkeiten verdienen Token-Budgets. Willisons Beobachtung zum kollektiven Nutzen gilt unmittelbar für das Abhängigkeitsmanagement. Jede Open-Source-Bibliothek in einem Produktivstack wird entweder von jemandem einer automatisierten Sicherheitsüberprüfung unterzogen oder nicht. Breunig verweist auf die LiteLLM- und Axios-Supply-Chain-Vorfälle im Kontext der Abhängigkeitssicherheit, Fälle, in denen Schwachstellen in weitverbreiteten Bibliotheken fortbestanden.2 Praktiker sollten ihre Abhängigkeitsbäume mit einer neuen Frage evaluieren: Wer investiert Tokens in die Sicherheit dieser Bibliothek?

Die unbequeme Mathematik

Das Proof-of-Work-Rahmenwerk macht die Sicherheitsökonomie auf eine Weise explizit, wie es kompetenzbasierte Modelle nie taten. Im alten Modell war Sicherheitsqualität eine Funktion davon, wen man einstellte und wie kompetent diese Personen waren. Im neuen Modell ist Sicherheitsqualität eine Funktion davon, wie viele Tokens man aufwendet, um die eigenen Systeme zu brechen.

Talent zählt weiterhin: Jemand muss Ergebnisse interpretieren, Korrekturen priorisieren und Architekturentscheidungen treffen. Doch die Entdeckungsphase, der Teil, in dem automatisierte Agenten Schwachstellen aufspüren, ist zunehmend ein Rechenproblem. Und innerhalb der vom AISI getesteten Bereiche begünstigen Rechenprobleme diejenige Partei, die bereit ist, mehr auszugeben.

Die Parallele zum Proof-of-Work bei Kryptowährungen ist aufschlussreich, wenn auch nicht perfekt. Bitcoin-Miner verbrennen Strom, um die Blockchain zu sichern. Verteidiger verbrennen Tokens, um das System zu sichern. In beiden Fällen ist die Sicherheitsgarantie proportional zur aufgewendeten Rechenleistung. In beiden Fällen erlangt ein Angreifer, der bereit ist, mehr Rechenleistung aufzuwenden, einen Vorteil. Der Unterschied: Die Mining-Schwierigkeit bei Bitcoin passt sich automatisch an. Sicherheits-Token-Budgets erfordern menschliches Urteilsvermögen darüber, wie viel genug ist.

Für gut finanzierte Organisationen ist der Weg klar. Autonome Schwachstellensuche in die Deployment-Pipeline aufnehmen. Ein Token-Budget proportional zum Risikoprofil des Systems festlegen. Das Budget ausschöpfen. Gefundenes beheben. Ausliefern.

Für alle anderen ist der Weg weniger komfortabel. Wer es sich nicht leisten kann, mehr Tokens für die Verteidigung auszugeben, als Angreifer für den Angriff aufwenden werden, muss auf geteilte Infrastruktur setzen: Open-Source-Sicherheitsüberprüfungen, anbieterseitige Scans, kollektive Verteidigung. Das Sicherheitsäquivalent der Herdenimmunität. Und wie bei der Herdenimmunität funktioniert es nur, wenn genügend Teilnehmer beitragen. Auf Open-Source-Sicherheitsüberprüfungen zu setzen, ohne selbst Tokens beizusteuern, ist eine Strategie, die funktioniert — bis sie es nicht mehr tut.

Die AISI-Evaluierung zeigte, dass KI-Agenten Angriffe auf Unternehmensnetzwerke durchführen können. Breunig argumentiert, dass Verteidigung ein Ausgabenproblem ist. Willison identifizierte den einen strukturellen Vorteil der Verteidiger: Geteilte Infrastruktur verteilt die Kosten auf alle, die sie nutzen.

Die Frage für jeden Praktiker ist dieselbe, die Proof-of-Work-Systeme schon immer gestellt haben: Wie viel Rechenleistung sind Sie bereit zu verbrennen?


FAQ

Was bedeutet „Cybersicherheit als Proof of Work”?

Der Ausdruck formuliert Cybersicherheit von einem Kompetenzproblem zu einem Rechenproblem um. Die Evaluierung des britischen AISI zeigte, dass Claude Mythos einen 32-Schritte-Angriff auf ein Unternehmensnetzwerk in 3 von 10 Versuchen bei etwa 12.500 Dollar pro Versuch absolvieren kann. Die Verteidigung eines Systems erfordert nun, mehr Tokens für die Entdeckung von Exploits auszugeben, als Angreifer für deren Ausnutzung aufwenden werden. Sicherheitsqualität wird zur Funktion dessen, wie viele Tokens Sie verbrennen, um Ihre eigenen Systeme vor dem Deployment zu brechen.

Wie hat Claude Mythos bei Cybersicherheitsaufgaben abgeschnitten?

Mythos absolvierte die vollständige 32-Schritte-Simulation „The Last Ones” eines Unternehmensnetzwerkangriffs in 3 von 10 Versuchen und erreichte im Durchschnitt 22 von 32 Schritten über alle Durchläufe hinweg. Bei CTF-Aufgaben auf Expertenniveau lag die Erfolgsquote von Mythos bei 73 %. Das AISI stellte fest, dass die Leistung bei steigenden Token-Budgets weiterhin zunimmt, ohne erkennbares Plateau bis zur getesteten Obergrenze von 100 Millionen Tokens.

Welche Einschränkungen hat die AISI-Evaluierung?

Den Cyber Ranges fehlten aktive Verteidiger, Verteidigungswerkzeuge und Konsequenzen für das Auslösen von Alarmen. Die Bewertung gilt für „schwach verteidigte und verwundbare Unternehmenssysteme”, nicht für gehärtete Produktionsumgebungen mit SOCs und IDS. Mythos scheiterte zudem an der „Cooling Tower”-Range für Betriebstechnologie. Reale Unternehmensnetzwerke verfügen über EDR, Netzwerksegmentierung, Anomalieerkennung und menschliche Analysten, die in der Evaluierung nicht modelliert wurden.

Was sollten Praktiker angesichts dieser Ergebnisse tun?

PreToolUse-Hooks als minimale Sicherheitsschicht einsetzen. Autonome offensive Tests als Token-Budget-Ausschöpfungsübung in die Deployment-Pipeline aufnehmen. Open-Source-Abhängigkeiten mit einer neuen Frage evaluieren: Wer investiert Tokens in die Sicherheit dieser Bibliothek? Das Proof-of-Work-Rahmenwerk bedeutet, dass jedes Produktivsystem eine adversariale Phase benötigt, in der KI-Agenten versuchen, es vor dem Deployment zu brechen.


Citations


  1. UK AI Security Institute, “Our Evaluation of Claude Mythos Preview’s Cyber Capabilities,” aisi.gov.uk, 13. April 2026. 

  2. Drew Breunig, “Cybersecurity Looks Like Proof of Work Now,” dbreunig.com, 14. April 2026. 

  3. Simon Willison, “Cybersecurity Looks Like Proof of Work Now,” simonwillison.net, 14. April 2026. 

  4. Nicholas Carlini, “An AI Found a Bug in My Code (That Humans Missed for 23 Years),” nicholas.carlini.com, 2026. Referenziert in When Your Agent Finds a Vulnerability

  5. Anthropic, “Mythos Preview: Responsible Disclosure of Cyber Capabilities,” red.anthropic.com, 2026. Referenziert in Project Glasswing

Verwandte Beiträge

Das Repo sollte nicht über sein eigenes Vertrauen abstimmen dürfen

Zwei Claude Code Trust-Dialog-Bypass-CVEs in 37 Tagen offenbaren ein Ladereihenfolgen-Versagen. Eine Invariante behebt e…

9 Min. Lesezeit

MCP-Server sind die neue Angriffsfläche

50 MCP-Schwachstellen, 30 CVEs in 60 Tagen, 13 kritisch. Tool-Use-Protokolle sind die Angriffsfläche, die niemand prüft …

6 Min. Lesezeit

Der Ralph-Loop: Wie ich autonome KI-Agenten über Nacht betreibe

Ich habe ein autonomes Agentensystem mit Stop-Hooks, Spawn-Budgets und Dateisystem-Speicher gebaut. Hier sind die Fehlsc…

8 Min. Lesezeit