← Alle Beitrage

Project Glasswing: Was passiert, wenn ein Modell zu gut darin ist, Bugs zu finden

From the guide: Claude Code Comprehensive Guide

Vor zwei Wochen zeigte Nicholas Carlini, dass Claude Code mit einem 10-zeiligen Bash-Skript eine 23 Jahre alte Linux-Kernel-Schwachstelle finden konnte. Heute gab Anthropic bekannt, was passierte, als sie diesen Ansatz skalierten: ein neues Modell namens Claude Mythos, das Tausende von Zero-Day-Schwachstellen mit hohem und kritischem Schweregrad fand — und die Entscheidung, es nicht öffentlich freizugeben.1

Project Glasswing ist Anthropics Antwort auf die Frage, die Praktikerinnen und Praktiker seit Carlinis [un]prompted-Vortrag stellen: Was passiert, wenn diese Fähigkeit im großen Maßstab eingesetzt wird? Die Antwort: Man schränkt sie ein.

Zusammenfassung

Claude Mythos Preview ist ein neues Frontier-Modell jenseits von Opus 4.6, dessen Cybersicherheitsfähigkeiten „als nachgelagertes Ergebnis allgemeiner Verbesserungen in Code, Reasoning und Autonomie entstanden sind”.1 Anthropic beschränkt den Zugang auf 12 Partnerorganisationen (Apple, Amazon, Microsoft, Google, Linux Foundation und andere) ausschließlich für defensive Sicherheitsarbeit. Das Modell fand Tausende von Zero-Days, darunter einen 27 Jahre alten OpenBSD-TCP-SACK-Bug, eine 16 Jahre alte FFmpeg-Schwachstelle und eine FreeBSD-NFS-RCE (CVE-2026-4747).1 Anthropic stellte 100 Millionen Dollar an Nutzungsguthaben und 4 Millionen Dollar für Open-Source-Sicherheitsorganisationen bereit. Ein zukünftiges Cyber Verification Program soll später Zugang für legitime Sicherheitsfachleute ermöglichen.1

Zentrale Erkenntnisse

  • Sicherheitsingenieure: Die Fähigkeitsschwelle, die Carlini bei [un]prompted demonstriert hat, ist real — und sie skaliert. Mythos fand Schwachstellen in „jedem großen Betriebssystem und Webbrowser”.2 Defensive Sicherheitsteams der 12 Partnerorganisationen haben jetzt Zugang. Alle anderen sollten sich darauf vorbereiten, was kommt, wenn diese Fähigkeiten allgemein verfügbare Modelle erreichen.
  • Harness-Entwickler: Mythos läuft über Claude Code in isolierten Containern.1 Das Harness-Muster — Agent-CLI + Sandbox-Ausführung + automatisierte Triage — ist jetzt die Produktionsarchitektur für Frontier-Sicherheitsforschung bei Anthropic selbst. Die Harness-Muster, die Praktikerinnen und Praktiker unabhängig voneinander entwickelt haben, sind damit auf höchster Ebene validiert.
  • Alle anderen: Anthropic hat sich für Einschränkung statt Veröffentlichung entschieden. Das ist eine echte Governance-Entscheidung mit echten Kompromissen. Das Modell existiert. Die Fähigkeiten sind demonstriert. Die Frage ist nicht mehr, ob KI Zero-Days finden kann — sondern wer Zugang erhält und unter welchen Bedingungen.

Vom Vortrag zum Produkt

Carlinis [un]prompted-Vortrag Anfang April war die öffentliche Vorschau.3 Er zeigte fünf Linux-Kernel-Schwachstellen und 22 Firefox-CVEs, die mit einem einfachen Datei-Iterationsskript gefunden wurden. Der Engpass, so Carlini, sei die menschliche Validierung gewesen — „mehrere hundert Abstürze, die ich noch nicht validiert habe”.

Mythos zeigt, was passiert, wenn man diesen Engpass mit einem leistungsfähigeren Modell und dedizierter Infrastruktur beseitigt. Der Unterschied in der Größenordnung ist erheblich:1

Metrik Carlinis Vortrag Project Glasswing
Gefundene Schwachstellen 5 Kernel + 22 Firefox-CVEs Tausende über alle großen Plattformen
Ziele Linux-Kernel, Firefox Alle großen Betriebssysteme, Browser, Open-Source-Projekte
Validierung Manuell, forschergetrieben Professionelle Sicherheitsdienstleister, 89 % Bestätigung des Schweregrads
Zugang Opus 4.6 (allgemein verfügbar) Mythos Preview (beschränkt auf 12 Partner)

Die professionelle Validierungszahl ist entscheidend: Bei 89 % von 198 überprüften Berichten wurden die Schweregradbewertungen von unabhängigen Sicherheitsdienstleistern bestätigt, wobei 98 % innerhalb einer Schweregradsstufe lagen.1 Es handelt sich nicht um halluzinierte Ergebnisse.

Die Entscheidung zur Einschränkung

Anthropics offizielle Position: „Wir planen nicht, Claude Mythos Preview aufgrund seiner Cybersicherheitsfähigkeiten allgemein verfügbar zu machen.”4

Das ist ungewöhnlich. Modellunternehmen wetteifern normalerweise darum, Fähigkeiten auszuliefern. Anthropic hat ein Modell entwickelt, das nachweislich besser darin ist, Schwachstellen zu finden, als jedes öffentlich verfügbare System — und sich dann entschieden, es auf defensive Nutzung durch geprüfte Partner zu beschränken. Die Zusage von 100 Millionen Dollar an Nutzungsguthaben signalisiert, dass dies keine Marketingaktion ist.1

Das Einschränkungsmodell hat drei Stufen:1 1. Project-Glasswing-Partner (12 Organisationen): Direkter Zugang für defensive Sicherheit 2. Erweiterter Zugang (insgesamt 40 Organisationen): Überwachte Bereitstellung 3. Zukünftiges Cyber Verification Program: Geplanter Zugang für verifizierte Sicherheitsfachleute

Für Praktikerinnen und Praktiker bedeutet das: Die stärksten Fähigkeiten zur Schwachstellenfindung sind nicht über die Standard-API oder Claude Code verfügbar. Opus 4.6 bleibt das stärkste allgemein verfügbare Modell. Allerdings werden die von Mythos demonstrierten Fähigkeiten wahrscheinlich zukünftige Opus-Versionen beeinflussen — Anthropics Ankündigung besagt ausdrücklich, dass sie darauf abzielen, „eine sicherere Bereitstellung durch neue Schutzmaßnahmen in zukünftigen Claude-Opus-Modellen zu ermöglichen”.1

Was dies bestätigt

Project Glasswing bestätigt mehrere Muster, die die Praktiker-Community unabhängig voneinander entwickelt hat:

Claude Code als Ausführungs-Harness. Mythos läuft über Claude Code in isolierten Containern.1 Dieselbe Agent-CLI, die Praktikerinnen und Praktiker für die tägliche Programmierung nutzen, ist die Ausführungsschicht für Frontier-Sicherheitsforschung. Die Hooks, Skills und Sandboxing, die Claude Code bietet, sind keine Komfortfunktionen — sie sind die Infrastruktur, die autonomes Sicherheitsscanning sicher genug für den Einsatz macht.

Der Validierungsengpass ist ein Harness-Problem. Carlinis Vortrag identifizierte die menschliche Validierung als Engpass. Project Glasswings Lösung: professionelle Sicherheitsdienstleister für die Validierung, SHA-3-Hash-Commitments für verantwortungsvolle Offenlegung und strukturierte Triage-Infrastruktur.1 Es ist dasselbe Triage-Problem, das wir in When Your Agent Finds a Vulnerability identifiziert haben — und die Lösung liegt in der Infrastruktur, nicht in der Modellfähigkeit.

Governance-Hooks sind wichtiger als Scanning-Fähigkeiten. Das Modell kann die Schwachstellen finden. Das schwierige Problem ist die Kontrolle der Offenlegung, die Verwaltung des Zugangs und die Sicherstellung, dass Erkenntnisse Verteidiger vor Angreifern erreichen. Anthropics Antwort ist organisatorischer Natur (das Modell einschränken, die Partner prüfen, Ressourcen bereitstellen). Für Praktikerinnen und Praktiker, die eigenes Sicherheitsscanning aufbauen, sind die Governance-Hooks, die den Output steuern, das Äquivalent.

Was das für Praktikerinnen und Praktiker bedeutet

Sie werden keinen Mythos-Zugang erhalten. Folgendes können Sie mit den vorhandenen Mitteln tun:

Opus 4.6 ist bereits leistungsfähig. Carlinis [un]prompted-Ergebnisse — 5 Kernel-Bugs, 22 Firefox-CVEs — verwendeten Opus 4.6, nicht Mythos.3 Die Capture-the-Flag-Methodik, ASAN-instrumentierte Builds und das Datei-Iterationsskript sind alle mit dem allgemein verfügbaren Modell reproduzierbar.

Bauen Sie die Triage-Schicht jetzt auf. Wenn zukünftige Opus-Modelle einige von Mythos’ Fähigkeiten erben (wie Anthropic angedeutet hat), wird der Engpass derselbe sein, den Carlini identifiziert hat: menschliche Validierung. Die Teams, die automatisierte Deduplizierung, Schweregradklassifizierung und Offenlegungs-Workflows bereit haben, werden zuerst profitieren.

Beobachten Sie das Cyber Verification Program. Anthropic plant, den Mythos-Zugang auf verifizierte Sicherheitsfachleute auszuweiten. Wenn Sie legitime Sicherheitsforschung betreiben, lohnt es sich, dies im Auge zu behalten.

Die Entwicklungsrichtung ist klar: KI-gestützte Schwachstellenerkennung ist real, sie skaliert, und die Governance-Frage ist jetzt das zentrale Problem. Die Modellfähigkeit ist gelöst. Der Harness, der Erkennung, Triage und verantwortungsvolle Offenlegung orchestriert, ist es nicht.


Quellen

Häufig gestellte Fragen

Kann ich Claude Mythos über Claude Code nutzen?

Nein. Mythos Preview ist auf Project-Glasswing-Partner beschränkt. Opus 4.6 bleibt das stärkste Modell, das allgemeinen Nutzern über Claude Code zur Verfügung steht.

Werden Mythos-Fähigkeiten in Opus einfließen?

Anthropics Ankündigung besagt, dass sie darauf abzielen, „eine sicherere Bereitstellung durch neue Schutzmaßnahmen in zukünftigen Claude-Opus-Modellen zu ermöglichen”. Das deutet darauf hin, dass einige Fähigkeiten irgendwann allgemein verfügbare Modelle erreichen werden — allerdings mit zusätzlichen Sicherheitsbeschränkungen.

Wie hängt das mit dem früheren Blogbeitrag über Schwachstellen zusammen?

Carlinis [un]prompted-Vortrag (behandelt in When Your Agent Finds a Vulnerability) verwendete Opus 4.6 und fand 5 Kernel-Bugs + 22 Firefox-CVEs. Mythos skalierte diesen Ansatz auf Tausende von Schwachstellen über alle großen Plattformen hinweg. Die Methodik ist dieselbe; das Modell ist leistungsfähiger.


  1. Claude Mythos Preview — Project Glasswing. Anthropic, 7. April 2026. Offizielle Ankündigung. Tausende von Zero-Days mit hohem/kritischem Schweregrad gefunden. 89 % Bestätigungsrate des Schweregrads durch professionelle Validatoren. 100 Millionen Dollar an Nutzungsguthaben. Geleitet von Nicholas Carlini mit über 21 Co-Autoren. 

  2. Anthropic’s Project Glasswing. Simon Willison, 7. April 2026. Analyse und Kontext zum eingeschränkten Veröffentlichungsmodell und Carlinis früherer Arbeit. 

  3. Nicholas Carlini, „Black-hat LLMs”, [un]prompted AI Security Conference, April 2026. Conference agenda. Siehe auch: AI Finds Vulns You Can’t, Security Cryptography Whatever Podcast. 

  4. Anthropic says its most powerful AI cyber model is too dangerous to release publicly. VentureBeat, 7. April 2026. 

Verwandte Beiträge

The Ralph Loop: How I Run Autonomous AI Agents Overnight

I built an autonomous agent system with stop hooks, spawn budgets, and filesystem memory. Here are the failures and what…

8 Min. Lesezeit