Projet Glasswing : quand un modèle trouve trop de bugs

8 min de lecture

From the guide: Claude Code Comprehensive Guide

Il y a deux semaines, Nicholas Carlini a démontré que Claude Code pouvait trouver une vulnérabilité vieille de 23 ans dans le kernel Linux à l’aide d’un script bash de 10 lignes. Aujourd’hui, Anthropic a annoncé ce qui s’est passé lorsqu’ils ont mis cette approche à l’échelle : un nouveau modèle baptisé Claude Mythos qui a découvert des milliers de vulnérabilités zero-day de sévérité haute et critique, puis ils ont décidé de ne pas le rendre public.¹

Le Projet Glasswing est le déploiement restreint par Anthropic de Claude Mythos, un modèle frontier qui a découvert des milliers de vulnérabilités zero-day dans tous les principaux systèmes d’exploitation et navigateurs web. Mythos a trouvé des bugs critiques, notamment une faille TCP SACK d’OpenBSD vieille de 27 ans et une vulnérabilité d’exécution de code à distance dans NFS sur FreeBSD. Anthropic a restreint l’accès à 12 organisations partenaires pour des travaux de sécurité défensive uniquement, s’est engagé à hauteur de 100 M$ en crédits d’usage, et a ouvert le formulaire de candidature du Cyber Verification Program à claude.com/form/cyber-use-case pour les chercheurs qualifiés.

Le Projet Glasswing est la réponse d’Anthropic à la question que les praticiens se posent depuis la conférence [un]prompted de Carlini : que se passe-t-il quand cette capacité est déployée à l’échelle ? La réponse : on la restreint.

TL;DR

Claude Mythos Preview est un modèle frontier dont les capacités en cybersécurité, selon Anthropic, « ont émergé comme une conséquence en aval d’améliorations générales en matière de code, de raisonnement et d’autonomie. »¹ Anthropic le positionne comme plus cyber-capable que n’importe quel modèle Opus généralement disponible (y compris la sortie d’Opus 4.7 du 16 avril 2026), et restreint l’accès à 12 organisations partenaires (Apple, Amazon, Microsoft, Google, la Linux Foundation, et d’autres) pour des travaux de sécurité défensive uniquement. Le modèle a trouvé des milliers de zero-days, dont un bug TCP SACK vieux de 27 ans dans OpenBSD, une vulnérabilité vieille de 16 ans dans FFmpeg, et un RCE NFS dans FreeBSD (CVE-2026-4747).¹ Anthropic s’est engagé à hauteur de 100 M$ en crédits d’usage et 4 M$ auprès d’organisations de sécurité open-source. Le formulaire de candidature du Cyber Verification Program est désormais actif pour les chercheurs en sécurité légitimes cherchant à obtenir un accès.¹

Points clés à retenir

Ingénieurs en sécurité : le seuil de capacité que Carlini a démontré à [un]prompted est réel, et il passe à l’échelle. Mythos a trouvé des vulnérabilités dans « tous les principaux systèmes d’exploitation et navigateurs web. »² Les équipes de sécurité défensive des 12 organisations partenaires y ont désormais accès. Tous les autres devraient se préparer à ce qui arrivera lorsque ces capacités atteindront les modèles généralement disponibles.
Constructeurs de scaffolds : Mythos fonctionne via Claude Code dans des conteneurs isolés.¹ Le pattern de scaffold (CLI d’agent + exécution en sandbox + triage automatisé) sert désormais d’architecture de production pour la recherche en sécurité frontier chez Anthropic elle-même. Les patterns d’orchestration que les praticiens ont construits indépendamment tiennent au plus haut niveau.
Tous les autres : Anthropic a choisi la restriction plutôt que la sortie publique. C’est une véritable décision de gouvernance avec de véritables compromis. Le modèle existe. Anthropic a démontré les capacités. La question n’est plus de savoir si une IA peut trouver des zero-days, mais qui y accède et sous quelles contraintes.

Mise à jour (19 avril 2026)

Depuis la publication de ce billet le 7 avril, deux choses ont changé :

Opus 4.7 a été livré le 16 avril 2026 comme nouveau modèle phare en disponibilité générale. Anthropic indique qu’Opus 4.7 est délibérément moins cyber-capable que Mythos Preview et est livré avec des garde-fous cyber en temps réel. Mythos Preview reste distinct et restreint.⁵
Le formulaire de candidature du Cyber Verification Program est désormais actif à claude.com/form/cyber-use-case. Ce que l’annonce originale qualifiait de programme « futur » est maintenant un parcours de candidature concret.⁵
Claude Code a livré deux versions d’infrastructure pertinentes : v2.1.111 a ajouté la prise en charge d’Opus 4.7 / xhigh / Auto Mode ; v2.1.113 a ajouté sandbox.network.deniedDomains, des règles de refus pour les commandes wrapper (env / sudo / watch / ionice / setsid), une gestion plus stricte de find -exec / -delete, et une protection contre la suppression de /private/{etc,var,tmp,home} sur macOS sous Bash(rm:*).⁶ Ce sont exactement le type de primitives de durcissement dont a besoin un scaffold de recherche en sécurité de style Mythos.

L’argument central ci-dessous — restriction de capacité plutôt que sortie publique, patterns de scaffold qui tiennent au plus haut niveau, tous les autres se préparant à ce qui arrivera lorsque ces capacités atteindront la GA — est inchangé. Si tant est qu’il y ait un changement, le cadrage explicite des garde-fous cyber d’Opus 4.7 le renforce.

De la conférence au produit

La conférence [un]prompted de Carlini début avril était l’aperçu public.³ Il a montré cinq vulnérabilités du kernel Linux et 22 CVE Firefox trouvées avec un simple script d’itération de fichiers. Le goulot d’étranglement, selon lui, était la validation humaine — « plusieurs centaines de crashes que je n’ai pas encore validés. »

Mythos, c’est ce qui se passe quand on supprime ce goulot d’étranglement avec un modèle plus capable et une infrastructure dédiée. La différence d’échelle est significative :¹

Métrique	Conférence de Carlini	Projet Glasswing
Vulnérabilités trouvées	5 kernel + 22 CVE Firefox	Des milliers sur toutes les principales plateformes
Cibles	Kernel Linux, Firefox	Tous les OS majeurs, navigateurs, projets open-source
Validation	Manuelle, pilotée par le chercheur	Contractants professionnels en sécurité, 89 % de confirmation de sévérité
Accès	Opus 4.6 à l’époque de la conférence de Carlini ; Opus 4.7 est désormais le modèle phare en GA	Mythos Preview (restreint à 12 partenaires)

Le chiffre de validation professionnelle compte : 89 % de 198 rapports examinés avaient des évaluations de sévérité confirmées par des contractants indépendants en sécurité, avec 98 % à un niveau de sévérité près.¹ Ce ne sont pas des découvertes hallucinées.

La décision de restriction

La position officielle d’Anthropic : « Nous ne prévoyons pas de rendre Claude Mythos Preview généralement disponible en raison de ses capacités en cybersécurité. »⁴

Cette décision se démarque. Les entreprises de modèles se précipitent typiquement pour livrer des capacités. Anthropic a construit un modèle manifestement meilleur pour trouver des vulnérabilités que n’importe quel système publiquement disponible, puis a choisi de le restreindre à un usage défensif par des partenaires triés sur le volet. L’engagement de 100 M$ en crédits d’usage indique qu’il ne s’agit pas d’un exercice marketing.¹

Le modèle de restriction comporte trois niveaux :¹ 1. Partenaires du Projet Glasswing (12 organisations) : accès direct pour la sécurité défensive 2. Accès élargi (40 organisations au total) : déploiement supervisé 3. Cyber Verification Program (désormais actif à claude.com/form/cyber-use-case) : parcours de candidature pour les professionnels de la sécurité vérifiés⁵

Pour les praticiens, les API et Claude Code standards n’exposent pas les capacités de découverte de vulnérabilités de Mythos. Le modèle le plus puissant généralement disponible est désormais Opus 4.7 (lancé le 16 avril 2026), qu’Anthropic positionne comme délibérément moins cyber-capable que Mythos et qui est livré avec des garde-fous cyber en temps réel.⁵ Les capacités démontrées de Mythos ont déjà influencé cette sortie du 16 avril — Opus 4.7 est le premier modèle post-Glasswing d’Anthropic doté de garde-fous cyber dédiés.

Ce que cela valide

Le Projet Glasswing valide plusieurs patterns que la communauté des praticiens a construits indépendamment :

Claude Code comme scaffold d’exécution. Mythos fonctionne via Claude Code dans des conteneurs isolés.¹ Le même CLI d’agent que les praticiens utilisent pour le codage quotidien sert de couche d’exécution pour la recherche en sécurité frontier. Les hooks, skills et le sandboxing que fournit Claude Code ne sont pas des fonctionnalités de confort. Ce sont les infrastructures qui rendent le scan de sécurité autonome suffisamment sûr pour être déployé.

Le goulot d’étranglement de la vérification est un problème d’orchestration. La conférence de Carlini a identifié la validation humaine comme le goulot d’étranglement. La solution du Projet Glasswing : des contractants professionnels en sécurité pour la validation, des engagements de hash SHA-3 pour la divulgation responsable, et une infrastructure de triage structurée.¹ Le même problème de triage est apparu dans Quand votre agent trouve une vulnérabilité, et la solution est l’infrastructure, pas la capacité du modèle.

Les hooks de gouvernance comptent plus que la capacité de scan. Le modèle peut trouver les vulnérabilités. Le problème difficile est de contrôler la divulgation, de gérer l’accès et de s’assurer que les découvertes atteignent les défenseurs avant les attaquants. La réponse d’Anthropic est organisationnelle (restreindre le modèle, trier les partenaires, engager des ressources). Pour les praticiens qui construisent leur propre scan de sécurité, les hooks de gouvernance qui contrôlent la sortie en sont l’équivalent.

Ce que cela signifie pour les praticiens

Vous n’aurez pas accès à Mythos. Voici ce que vous pouvez faire avec ce dont vous disposez :

Opus 4.6 est déjà capable. Les résultats de [un]prompted de Carlini (5 bugs kernel, 22 CVE Firefox) utilisaient Opus 4.6, pas Mythos.³ La méthodologie capture-the-flag, les builds instrumentés ASAN et le script d’itération de fichiers sont tous reproductibles avec le modèle généralement disponible.

Construisez la couche de triage dès maintenant. Lorsque les futurs modèles Opus hériteront d’une partie des capacités de Mythos (comme Anthropic l’a laissé entendre), le goulot d’étranglement sera le même que celui identifié par Carlini : la validation humaine. Les équipes qui ont automatisé la déduplication, la classification de sévérité et les workflows de divulgation en tireront profit en premier.

Candidatez au Cyber Verification Program. Le formulaire de candidature est actif à claude.com/form/cyber-use-case. Si vous faites de la recherche en sécurité légitime, c’est le parcours vers un accès élevé.

La trajectoire est claire : la découverte de vulnérabilités assistée par IA est réelle, elle passe à l’échelle, et la question de la gouvernance est désormais le problème central. La capacité du modèle est résolue. Le scaffold qui orchestre la découverte, le triage et la divulgation responsable ne l’est pas.

Sources

Foire aux questions

Puis-je utiliser Claude Mythos via Claude Code ?

Non. Mythos Preview est restreint aux partenaires du Projet Glasswing. Opus 4.7 (16 avril 2026) est le modèle le plus puissant disponible via Claude Code pour les utilisateurs généraux ; Anthropic indique que Mythos reste plus cyber-capable que n’importe quel modèle en GA.

Les capacités de Mythos arriveront-elles dans Opus ?

Opus 4.7 est la première sortie Opus post-Glasswing d’Anthropic et est livré avec des garde-fous cyber en temps réel. Le pattern suggère que les futurs modèles Opus emporteront des garde-fous supplémentaires plutôt que l’enveloppe complète des capacités de Mythos. L’annonce originale d’Anthropic indiquait qu’ils visent à « permettre un déploiement plus sûr via de nouveaux garde-fous dans les futurs modèles Claude Opus. »

Quel est le lien avec le précédent billet sur les vulnérabilités ?

La conférence [un]prompted de Carlini (couverte dans Quand votre agent trouve une vulnérabilité) utilisait Opus 4.6 et a trouvé 5 bugs kernel + 22 CVE Firefox. Mythos a mis cette approche à l’échelle jusqu’à des milliers de vulnérabilités sur toutes les principales plateformes. La méthodologie est la même ; le modèle est plus capable.

Claude Mythos Preview — Project Glasswing. Anthropic, 7 avril 2026. Annonce officielle. Des milliers de zero-days de sévérité haute/critique trouvés. 89 % de taux de confirmation de sévérité par des validateurs professionnels. 100 M$ en crédits d’usage. Dirigé par Nicholas Carlini avec plus de 21 co-auteurs. ↩↩↩↩↩↩↩↩↩↩↩
Anthropic’s Project Glasswing. Simon Willison, 7 avril 2026. Analyse et contexte sur le modèle de sortie restreinte et les travaux antérieurs de Carlini. ↩
Nicholas Carlini, « Black-hat LLMs, » conférence sécurité IA [un]prompted, avril 2026. Programme de la conférence. Voir également : AI Finds Vulns You Can’t, podcast Security Cryptography Whatever. ↩↩
Anthropic says its most powerful AI cyber model is too dangerous to release publicly. VentureBeat, 7 avril 2026. ↩
Mises à jour post-publication (19 avril 2026). L’annonce Introducing Claude Opus 4.7 d’Anthropic (16 avril 2026) positionne Opus 4.7 comme modèle phare en GA tout en notant que Mythos Preview reste plus cyber-capable. Détails des garde-fous cyber en temps réel à Anthropic Support : Real-time cyber safeguards on Claude. Formulaire de candidature du Cyber Verification Program actif à claude.com/form/cyber-use-case. ↩↩↩↩
Claude Code CHANGELOG. v2.1.111 a ajouté la prise en charge du lancement d’Opus 4.7 (effort xhigh, Auto Mode pour Max sans flag). v2.1.113 a ajouté sandbox.network.deniedDomains, des règles de refus pour les commandes wrapper, le durcissement des permissions find -exec/-delete, et la protection contre la suppression de /private/{etc,var,tmp,home} sur macOS. ↩