Projet Glasswing : que se passe-t-il quand un modèle est trop doué pour trouver des bugs
Il y a deux semaines, Nicholas Carlini a montré que Claude Code pouvait trouver une vulnérabilité vieille de 23 ans dans le noyau Linux à l’aide d’un script bash de 10 lignes. Aujourd’hui, Anthropic a annoncé ce qui s’est passé lorsqu’ils ont mis cette approche à l’échelle : un nouveau modèle appelé Claude Mythos qui a découvert des milliers de vulnérabilités zero-day de sévérité haute et critique — et la décision de ne pas le rendre public.1
Le projet Glasswing est la réponse d’Anthropic à la question que les praticiens se posent depuis la conférence [un]prompted de Carlini : que se passe-t-il quand cette capacité est déployée à grande échelle ? La réponse : on la restreint.
En bref
Claude Mythos Preview est un nouveau modèle frontière au-delà d’Opus 4.6 dont les capacités en cybersécurité « ont émergé comme conséquence indirecte d’améliorations générales en code, raisonnement et autonomie ».1 Anthropic restreint l’accès à 12 organisations partenaires (Apple, Amazon, Microsoft, Google, la Linux Foundation, entre autres) pour un usage exclusivement défensif. Le modèle a découvert des milliers de zero-days, dont un bug TCP SACK vieux de 27 ans dans OpenBSD, une vulnérabilité FFmpeg vieille de 16 ans, et une RCE NFS dans FreeBSD (CVE-2026-4747).1 Anthropic s’est engagé à hauteur de 100 millions de dollars en crédits d’utilisation et 4 millions de dollars pour les organisations de sécurité open source. Un futur Cyber Verification Program offrira à terme un accès aux professionnels légitimes de la sécurité.1
Points clés
- Ingénieurs sécurité : le seuil de capacité que Carlini a démontré à [un]prompted est réel, et il passe à l’échelle. Mythos a trouvé des vulnérabilités dans « chaque système d’exploitation et navigateur web majeur ».2 Les équipes de sécurité défensive des 12 organisations partenaires y ont désormais accès. Tous les autres devraient se préparer à ce qui arrivera quand ces capacités atteindront les modèles accessibles au grand public.
- Constructeurs de harnais : Mythos s’exécute via Claude Code dans des conteneurs isolés.1 Le pattern de harnais — CLI d’agent + exécution en bac à sable + triage automatisé — est désormais l’architecture de production pour la recherche en sécurité de pointe chez Anthropic même. Les patterns de harnais que les praticiens construisent indépendamment sont validés au plus haut niveau.
- Tous les autres : Anthropic a choisi la restriction plutôt que la diffusion. C’est une véritable décision de gouvernance avec de vrais compromis. Le modèle existe. Les capacités sont démontrées. La question n’est plus de savoir si l’IA peut trouver des zero-days — mais qui y a accès et sous quelles contraintes.
De la conférence au produit
La conférence [un]prompted de Carlini début avril était l’avant-première publique.3 Il a montré cinq vulnérabilités du noyau Linux et 22 CVE Firefox trouvées avec un simple script d’itération de fichiers. Le goulot d’étranglement, a-t-il dit, était la validation humaine — « plusieurs centaines de crashs que je n’ai pas encore validés ».
Mythos, c’est ce qui se passe quand on supprime ce goulot d’étranglement avec un modèle plus performant et une infrastructure dédiée. La différence d’échelle est considérable :1
| Métrique | Conférence de Carlini | Projet Glasswing |
|---|---|---|
| Vulnérabilités découvertes | 5 noyau + 22 CVE Firefox | Des milliers sur toutes les plateformes majeures |
| Cibles | Noyau Linux, Firefox | Tous les OS, navigateurs et projets open source majeurs |
| Validation | Manuelle, pilotée par le chercheur | Sous-traitants en sécurité professionnels, 89 % de confirmation de sévérité |
| Accès | Opus 4.6 (accessible au public) | Mythos Preview (restreint à 12 partenaires) |
Le chiffre de validation professionnelle compte : 89 % des 198 rapports examinés ont vu leur évaluation de sévérité confirmée par des sous-traitants en sécurité indépendants, avec 98 % à un niveau de sévérité près.1 Ce ne sont pas des découvertes hallucinées.
La décision de restriction
La position affichée d’Anthropic : « Nous ne prévoyons pas de rendre Claude Mythos Preview accessible au grand public en raison de ses capacités en cybersécurité. »4
C’est inhabituel. Les entreprises de modèles se précipitent habituellement pour commercialiser les nouvelles capacités. Anthropic a construit un modèle manifestement supérieur à tout système public pour la découverte de vulnérabilités — puis a choisi de le restreindre à un usage défensif par des partenaires vérifiés. L’engagement de 100 millions de dollars en crédits d’utilisation indique qu’il ne s’agit pas d’un exercice marketing.1
Le modèle de restriction comporte trois niveaux :1 1. Partenaires du projet Glasswing (12 organisations) : accès direct pour la sécurité défensive 2. Accès élargi (40 organisations au total) : déploiement supervisé 3. Futur Cyber Verification Program : accès prévu pour les professionnels de la sécurité vérifiés
Pour les praticiens, cela signifie que les capacités les plus puissantes de découverte de vulnérabilités ne sont pas disponibles via l’API standard ou Claude Code. Opus 4.6 reste le modèle le plus puissant accessible au public. Néanmoins, les capacités démontrées par Mythos influenceront probablement les futures versions d’Opus — l’annonce d’Anthropic indique explicitement qu’ils visent à « permettre un déploiement plus sûr grâce à de nouvelles protections dans les futurs modèles Claude Opus ».1
Ce que cela valide
Le projet Glasswing valide plusieurs patterns que la communauté des praticiens construit indépendamment :
Claude Code comme harnais d’exécution. Mythos s’exécute via Claude Code dans des conteneurs isolés.1 Le même CLI d’agent que les praticiens utilisent pour coder au quotidien est la couche d’exécution de la recherche en sécurité de pointe. Les hooks, skills et le bac à sable que fournit Claude Code ne sont pas des fonctionnalités de confort — c’est l’infrastructure qui rend le scan de sécurité autonome suffisamment sûr pour être déployé.
Le goulot d’étranglement de la vérification est un problème de harnais. La conférence de Carlini a identifié la validation humaine comme le goulot d’étranglement. La solution du projet Glasswing : des sous-traitants en sécurité professionnels pour la validation, des engagements par hachage SHA-3 pour la divulgation responsable, et une infrastructure structurée de triage.1 C’est le même problème de triage que nous avons identifié dans When Your Agent Finds a Vulnerability — et la solution réside dans l’infrastructure, pas dans la capacité du modèle.
Les hooks de gouvernance comptent plus que la capacité de scan. Le modèle sait trouver les vulnérabilités. Le vrai défi, c’est de contrôler la divulgation, gérer l’accès et s’assurer que les découvertes parviennent aux défenseurs avant les attaquants. La réponse d’Anthropic est organisationnelle (restreindre le modèle, vérifier les partenaires, engager des ressources). Pour les praticiens qui construisent leur propre scan de sécurité, les hooks de gouvernance qui filtrent les résultats en sont l’équivalent.
Ce que cela signifie pour les praticiens
Vous n’aurez pas accès à Mythos. Voici ce que vous pouvez faire avec ce dont vous disposez :
Opus 4.6 est déjà performant. Les résultats de Carlini à [un]prompted — 5 bugs noyau, 22 CVE Firefox — ont été obtenus avec Opus 4.6, pas Mythos.3 La méthodologie capture-the-flag, les builds instrumentés avec ASAN et le script d’itération de fichiers sont tous reproductibles avec le modèle accessible au public.
Construisez la couche de triage dès maintenant. Quand les futurs modèles Opus hériteront d’une partie des capacités de Mythos (comme Anthropic l’a laissé entendre), le goulot d’étranglement sera le même que celui identifié par Carlini : la validation humaine. Les équipes qui auront préparé la déduplication automatisée, la classification de sévérité et les workflows de divulgation en bénéficieront en premier.
Surveillez le Cyber Verification Program. Anthropic prévoit d’étendre l’accès à Mythos aux professionnels de la sécurité vérifiés. Si vous faites de la recherche en sécurité légitime, cela mérite d’être suivi.
La trajectoire est claire : la découverte de vulnérabilités assistée par l’IA est réelle, elle passe à l’échelle, et la question de la gouvernance est désormais le problème central. La capacité du modèle est acquise. Le harnais qui orchestre la découverte, le triage et la divulgation responsable, lui, ne l’est pas encore.
Sources
Foire aux questions
Puis-je utiliser Claude Mythos via Claude Code ?
Non. Mythos Preview est réservé aux partenaires du projet Glasswing. Opus 4.6 reste le modèle le plus puissant disponible via Claude Code pour les utilisateurs généraux.
Les capacités de Mythos arriveront-elles dans Opus ?
L’annonce d’Anthropic indique qu’ils visent à « permettre un déploiement plus sûr grâce à de nouvelles protections dans les futurs modèles Claude Opus ». Cela suggère que certaines capacités atteindront à terme les modèles accessibles au public, mais avec des contraintes de sécurité supplémentaires.
Quel est le rapport avec l’article précédent sur les vulnérabilités ?
La conférence [un]prompted de Carlini (couverte dans When Your Agent Finds a Vulnerability) utilisait Opus 4.6 et a permis de trouver 5 bugs noyau + 22 CVE Firefox. Mythos a mis cette approche à l’échelle pour découvrir des milliers de vulnérabilités sur toutes les plateformes majeures. La méthodologie est la même ; le modèle est plus performant.
-
Claude Mythos Preview — Project Glasswing. Anthropic, 7 avril 2026. Annonce officielle. Des milliers de zero-days de sévérité haute/critique découverts. Taux de confirmation de sévérité de 89 % par des validateurs professionnels. 100 millions de dollars en crédits d’utilisation. Dirigé par Nicholas Carlini avec plus de 21 co-auteurs. ↩↩↩↩↩↩↩↩↩↩↩↩
-
Anthropic’s Project Glasswing. Simon Willison, 7 avril 2026. Analyse et contexte sur le modèle de diffusion restreinte et les travaux antérieurs de Carlini. ↩
-
Nicholas Carlini, « Black-hat LLMs », conférence sur la sécurité IA [un]prompted, avril 2026. Programme de la conférence. Voir aussi : AI Finds Vulns You Can’t, podcast Security Cryptography Whatever. ↩↩
-
Anthropic says its most powerful AI cyber model is too dangerous to release publicly. VentureBeat, 7 avril 2026. ↩