Project Glasswing: Wenn ein Modell zu viele Fehler findet

6 Min. Lesezeit

From the guide: Claude Code Comprehensive Guide

Vor zwei Wochen zeigte Nicholas Carlini, dass Claude Code eine 23 Jahre alte Linux-Kernel-Schwachstelle mit einem 10-zeiligen Bash-Skript finden kann. Heute hat Anthropic bekannt gegeben, was passierte, als dieser Ansatz skaliert wurde: Ein neues Modell namens Claude Mythos fand Tausende von Zero-Day-Schwachstellen mit hohem und kritischem Schweregrad — und dann wurde entschieden, es nicht öffentlich freizugeben.¹

Project Glasswing ist der eingeschränkte Einsatz von Claude Mythos durch Anthropic — ein Frontier-Modell, das Tausende von Zero-Day-Schwachstellen in allen wichtigen Betriebssystemen und Webbrowsern entdeckt hat. Mythos fand kritische Fehler, darunter eine 27 Jahre alte OpenBSD-TCP-SACK-Schwachstelle und eine Remote-Code-Execution-Schwachstelle in FreeBSD NFS. Anthropic beschränkte den Zugang auf 12 Partnerorganisationen — ausschließlich zu defensiven Sicherheitszwecken —, sagte 100 Millionen US-Dollar an Nutzungsguthaben zu und öffnete das Bewerbungsformular des Cyber Verification Program unter claude.com/form/cyber-use-case für qualifizierte Forscher.

Project Glasswing ist die Antwort von Anthropic auf die Frage, die Praktiker seit Carlinis [un]prompted-Talk stellen: Was passiert, wenn diese Fähigkeit im großen Maßstab eingesetzt wird? Die Antwort: Sie beschränken sie.

TL;DR

Claude Mythos Preview ist ein Frontier-Modell, dessen Cybersicherheitsfähigkeiten laut Anthropic „als nachgelagerte Folge allgemeiner Verbesserungen in Code, Reasoning und Autonomie entstanden sind”.¹ Anthropic positioniert es als cyber-fähiger als jedes allgemein verfügbare Opus-Modell (einschließlich des Opus 4.7 Release vom 16. April 2026) und beschränkt den Zugang auf 12 Partnerorganisationen (Apple, Amazon, Microsoft, Google, Linux Foundation und andere) — ausschließlich für defensive Sicherheitsarbeit. Das Modell fand Tausende von Zero-Days, darunter einen 27 Jahre alten OpenBSD-TCP-SACK-Bug, eine 16 Jahre alte FFmpeg-Schwachstelle und eine FreeBSD-NFS-RCE (CVE-2026-4747).¹ Anthropic sagte 100 Millionen US-Dollar an Nutzungsguthaben und 4 Millionen US-Dollar für Open-Source-Sicherheitsorganisationen zu. Das Bewerbungsformular des Cyber Verification Program ist jetzt für legitime Sicherheitsforscher verfügbar, die Zugang suchen.¹

Kernpunkte

Sicherheitsingenieure: Die Fähigkeitsschwelle, die Carlini bei [un]prompted demonstrierte, ist real und skaliert. Mythos fand Schwachstellen in „jedem wichtigen Betriebssystem und Webbrowser”.² Defensive Sicherheitsteams bei den 12 Partnerorganisationen haben jetzt Zugang. Alle anderen sollten sich darauf vorbereiten, was kommt, wenn diese Fähigkeiten die allgemein verfügbaren Modelle erreichen.
Scaffold-Entwickler: Mythos läuft über Claude Code in isolierten Containern.¹ Das Scaffold-Muster (Agent CLI + Sandboxed Execution + automatisierte Triage) dient nun als Produktionsarchitektur für Frontier-Sicherheitsforschung bei Anthropic selbst. Die Orchestrierungsmuster, die Praktiker unabhängig entwickelt haben, halten auf höchstem Niveau stand.
Alle anderen: Anthropic hat sich für Beschränkung statt Freigabe entschieden. Das ist eine echte Governance-Entscheidung mit echten Kompromissen. Das Modell existiert. Anthropic hat die Fähigkeiten demonstriert. Die Frage lautet nicht mehr, ob KI Zero-Days finden kann, sondern wer Zugang erhält und unter welchen Einschränkungen.

Update (19. April 2026)

Seit dieser Beitrag am 7. April live ging, haben sich zwei Dinge geändert:

Opus 4.7 wurde am 16. April 2026 ausgeliefert als neues allgemein verfügbares Flaggschiff. Anthropic erklärt, dass Opus 4.7 bewusst weniger cyber-fähig ist als Mythos Preview und mit Echtzeit-Cyber-Schutzmaßnahmen ausgeliefert wird. Mythos Preview bleibt separat und eingeschränkt.⁵
Das Bewerbungsformular für das Cyber Verification Program ist jetzt aktiv unter claude.com/form/cyber-use-case. Was die ursprüngliche Ankündigung als „zukünftiges” Programm bezeichnete, ist jetzt ein konkreter Bewerbungsweg.⁵
Claude Code hat zwei relevante Infrastruktur-Releases ausgeliefert: v2.1.111 fügte Unterstützung für Opus 4.7 / xhigh / Auto Mode hinzu; v2.1.113 fügte sandbox.network.deniedDomains hinzu, Wrapper-Command-Deny-Regeln (env / sudo / watch / ionice / setsid), strengere find -exec / -delete Handhabung und macOS /private/{etc,var,tmp,home} Löschschutz unter Bash(rm:*).⁶ Das sind genau die Härtungs-Primitive, die ein Scaffold für Mythos-artige Sicherheitsforschung benötigt.

Das Kernargument unten — Fähigkeitsbeschränkung statt Freigabe, Scaffold-Muster, die auf höchstem Niveau standhalten, und alle anderen, die sich auf die GA-Verfügbarkeit vorbereiten — bleibt unverändert. Wenn überhaupt, verstärkt das ausdrückliche Framing der Cyber-Schutzmaßnahmen von Opus 4.7 es noch.

Vom Talk zum Produkt

Carlinis [un]prompted-Talk Anfang April war die öffentliche Vorschau.³ Er zeigte fünf Linux-Kernel-Schwachstellen und 22 Firefox-CVEs, die mit einem einfachen Datei-Iterationsskript gefunden wurden. Der Engpass, sagte er, sei die menschliche Validierung — „mehrere hundert Abstürze, die ich noch nicht validiert habe.”

Mythos ist das, was passiert, wenn man diesen Engpass mit einem leistungsfähigeren Modell und dedizierter Infrastruktur beseitigt. Der Skalierungsunterschied ist erheblich:¹

Metrik	Carlinis Talk	Project Glasswing
Gefundene Schwachstellen	5 Kernel + 22 Firefox CVEs	Tausende über alle wichtigen Plattformen hinweg
Ziele	Linux-Kernel, Firefox	Jedes wichtige Betriebssystem, Browser, Open-Source-Projekt
Validierung	Manuell, forschergetrieben	Professionelle Sicherheitsauftragnehmer, 89 % Schweregrad-Bestätigung
Zugang	Opus 4.6 zum Zeitpunkt von Carlinis Talk; Opus 4.7 ist jetzt das GA-Flaggschiff	Mythos Preview (eingeschränkt auf 12 Partner)

Die Zahl der professionellen Validierung ist wichtig: 89 % der 198 geprüften Berichte hatten Schweregrad-Bewertungen, die von unabhängigen Sicherheitsauftragnehmern bestätigt wurden, wobei 98 % innerhalb einer Schweregradstufe lagen.¹ Das sind keine halluzinierten Befunde.

Die Beschränkungsentscheidung

Die erklärte Position von Anthropic: „Wir planen nicht, Claude Mythos Preview aufgrund seiner Cybersicherheitsfähigkeiten allgemein verfügbar zu machen.”⁴

Die Entscheidung sticht hervor. Modellunternehmen konkurrieren typischerweise darum, Fähigkeiten auszuliefern. Anthropic baute ein Modell, das nachweislich besser darin ist, Schwachstellen zu finden als jedes öffentlich verfügbare System — und entschied sich dann, den Zugang auf defensive Nutzung durch geprüfte Partner zu beschränken. Die Zusage von 100 Millionen US-Dollar an Nutzungsguthaben signalisiert, dass dies keine Marketingübung ist.¹

Das Beschränkungsmodell hat drei Stufen:¹ 1. Project Glasswing-Partner (12 Organisationen): Direkter Zugang für defensive Sicherheit 2. Erweiterter Zugang (insgesamt 40 Organisationen): Überwachter Einsatz 3. Cyber Verification Program (jetzt aktiv unter claude.com/form/cyber-use-case): Bewerbungsweg für verifizierte Sicherheitsexperten⁵

Für Praktiker legen das Standard-API und Claude Code die Schwachstellen-Findungsfähigkeiten von Mythos nicht offen. Das stärkste allgemein verfügbare Modell ist jetzt Opus 4.7 (veröffentlicht am 16. April 2026), das Anthropic bewusst als weniger cyber-fähig als Mythos positioniert und mit Echtzeit-Cyber-Schutzmaßnahmen ausliefert.⁵ Die demonstrierten Fähigkeiten von Mythos haben bereits dieses Release vom 16. April beeinflusst — Opus 4.7 ist das erste Post-Glasswing-Modell von Anthropic mit dedizierten Cyber-Schutzmaßnahmen.

Was dies bestätigt

Project Glasswing bestätigt mehrere Muster, die die Praktiker-Community unabhängig entwickelt hat:

Claude Code als Execution-Scaffold. Mythos läuft über Claude Code in isolierten Containern.¹ Das gleiche Agent-CLI, das Praktiker für die tägliche Programmierung verwenden, dient als Ausführungsschicht für Frontier-Sicherheitsforschung. Die Hooks, Skills und das Sandboxing, die Claude Code bietet, sind keine Komfortfunktionen. Sie sind die Infrastruktur, die autonomes Sicherheitsscannen sicher genug für den Einsatz macht.

Der Validierungsengpass ist ein Orchestrierungsproblem. Carlinis Talk identifizierte die menschliche Validierung als Engpass. Die Lösung von Project Glasswing: professionelle Sicherheitsauftragnehmer für die Validierung, SHA-3-Hash-Commitments für verantwortungsvolle Offenlegung und strukturierte Triage-Infrastruktur.¹ Das gleiche Triage-Problem tauchte in When Your Agent Finds a Vulnerability auf, und die Lösung ist Infrastruktur, nicht Modellfähigkeit.

Governance-Hooks sind wichtiger als Scan-Fähigkeit. Das Modell kann die Schwachstellen finden. Das schwierige Problem ist, die Offenlegung zu kontrollieren, den Zugang zu verwalten und sicherzustellen, dass Befunde die Verteidiger vor den Angreifern erreichen. Die Antwort von Anthropic ist organisatorisch (Modell beschränken, Partner prüfen, Ressourcen bereitstellen). Für Praktiker, die ihr eigenes Sicherheitsscannen aufbauen, sind die Governance-Hooks, die die Ausgabe kontrollieren, das Äquivalent.

Was dies für Praktiker bedeutet

Sie erhalten keinen Mythos-Zugang. Hier ist, was Sie mit dem tun können, was Sie haben:

Opus 4.6 ist bereits leistungsfähig. Carlinis [un]prompted-Ergebnisse (5 Kernel-Bugs, 22 Firefox-CVEs) verwendeten Opus 4.6, nicht Mythos.³ Die Capture-the-Flag-Methodik, ASAN-instrumentierte Builds und das Datei-Iterationsskript sind alle mit dem allgemein verfügbaren Modell reproduzierbar.

Bauen Sie jetzt die Triage-Schicht auf. Wenn zukünftige Opus-Modelle einige der Fähigkeiten von Mythos erben (wie Anthropic angedeutet hat), wird der Engpass derselbe sein, den Carlini identifiziert hat: menschliche Validierung. Die Teams, die automatisierte Deduplizierung, Schweregrad-Klassifizierung und Offenlegungs-Workflows bereit haben, werden zuerst profitieren.

Bewerben Sie sich für das Cyber Verification Program. Das Bewerbungsformular ist aktiv unter claude.com/form/cyber-use-case. Wenn Sie legitime Sicherheitsforschung betreiben, ist dies der Weg zu erweitertem Zugang.

Die Entwicklungsrichtung ist klar: KI-gestützte Schwachstellenerkennung ist real, sie skaliert, und die Governance-Frage ist jetzt das zentrale Problem. Die Modellfähigkeit ist gelöst. Das Scaffold, das Erkennung, Triage und verantwortungsvolle Offenlegung orchestriert, ist es nicht.

Quellen

Häufig gestellte Fragen

Kann ich Claude Mythos über Claude Code nutzen?

Nein. Mythos Preview ist auf Project Glasswing-Partner beschränkt. Opus 4.7 (16. April 2026) ist das stärkste Modell, das über Claude Code für allgemeine Benutzer verfügbar ist; Anthropic erklärt, dass Mythos cyber-fähiger bleibt als jedes GA-Modell.

Werden Mythos-Fähigkeiten zu Opus kommen?

Opus 4.7 ist das erste Post-Glasswing-Opus-Release von Anthropic und wird mit Echtzeit-Cyber-Schutzmaßnahmen ausgeliefert. Das Muster deutet darauf hin, dass zukünftige Opus-Modelle zusätzliche Schutzmaßnahmen tragen werden, anstatt den vollen Mythos-Fähigkeitsumfang. Die ursprüngliche Ankündigung von Anthropic besagte, dass sie darauf abzielen, „einen sichereren Einsatz durch neue Schutzmaßnahmen in zukünftigen Claude Opus-Modellen zu ermöglichen.”

Wie hängt dies mit dem früheren Blogbeitrag über Schwachstellen zusammen?

Carlinis [un]prompted-Talk (behandelt in When Your Agent Finds a Vulnerability) verwendete Opus 4.6 und fand 5 Kernel-Bugs + 22 Firefox-CVEs. Mythos skalierte diesen Ansatz auf Tausende von Schwachstellen über alle wichtigen Plattformen hinweg. Die Methodik ist dieselbe; das Modell ist leistungsfähiger.

Claude Mythos Preview — Project Glasswing. Anthropic, 7. April 2026. Offizielle Ankündigung. Tausende Zero-Days mit hohem/kritischem Schweregrad gefunden. 89 % Schweregrad-Bestätigungsrate durch professionelle Validatoren. 100 Mio. US-Dollar an Nutzungsguthaben. Geleitet von Nicholas Carlini mit über 21 Mitautoren. ↩↩↩↩↩↩↩↩↩↩↩
Anthropic’s Project Glasswing. Simon Willison, 7. April 2026. Analyse und Kontext zum eingeschränkten Release-Modell und Carlinis früherer Arbeit. ↩
Nicholas Carlini, „Black-hat LLMs”, [un]prompted AI Security Conference, April 2026. Konferenzagenda. Siehe auch: AI Finds Vulns You Can’t, Security Cryptography Whatever Podcast. ↩↩
Anthropic says its most powerful AI cyber model is too dangerous to release publicly. VentureBeat, 7. April 2026. ↩
Aktualisierungen nach Veröffentlichung (19. April 2026). Die Ankündigung Introducing Claude Opus 4.7 von Anthropic (16. April 2026) positioniert Opus 4.7 als das GA-Flaggschiff und weist gleichzeitig darauf hin, dass Mythos Preview cyber-fähiger bleibt. Details zu den Echtzeit-Cyber-Schutzmaßnahmen unter Anthropic Support: Real-time cyber safeguards on Claude. Bewerbungsformular des Cyber Verification Program aktiv unter claude.com/form/cyber-use-case. ↩↩↩↩
Claude Code CHANGELOG. v2.1.111 fügte Launch-Unterstützung für Opus 4.7 hinzu (xhigh effort, Auto Mode für Max ohne Flag). v2.1.113 fügte sandbox.network.deniedDomains hinzu, Wrapper-Command-Deny-Regeln, Verschärfung der find -exec/-delete Berechtigungen und macOS /private/{etc,var,tmp,home} Löschschutz. ↩