Project Glasswing: Qué pasa cuando un modelo es demasiado bueno encontrando bugs
Hace dos semanas, Nicholas Carlini demostró que Claude Code podía encontrar una vulnerabilidad de 23 años en el kernel de Linux usando un script de bash de 10 líneas. Hoy, Anthropic anunció qué ocurrió cuando escalaron ese enfoque: un nuevo modelo llamado Claude Mythos que encontró miles de vulnerabilidades zero-day de severidad alta y crítica — y la decisión de no publicarlo.1
Project Glasswing es la respuesta de Anthropic a la pregunta que los profesionales se han estado haciendo desde la charla de Carlini en [un]prompted: ¿qué pasa cuando esta capacidad se despliega a escala? La respuesta: la restringes.
TL;DR
Claude Mythos Preview es un nuevo modelo frontera más allá de Opus 4.6 cuyas capacidades de ciberseguridad “surgieron como consecuencia derivada de mejoras generales en código, razonamiento y autonomía.”1 Anthropic está restringiendo el acceso a 12 organizaciones asociadas (Apple, Amazon, Microsoft, Google, Linux Foundation y otras) exclusivamente para trabajo de seguridad defensiva. El modelo encontró miles de zero-days, incluyendo un bug de TCP SACK en OpenBSD de 27 años, una vulnerabilidad en FFmpeg de 16 años y un RCE en NFS de FreeBSD (CVE-2026-4747).1 Anthropic comprometió $100M en créditos de uso y $4M para organizaciones de seguridad de código abierto. Un futuro Cyber Verification Program eventualmente proporcionará acceso a profesionales de seguridad legítimos.1
Puntos clave
- Ingenieros de seguridad: El umbral de capacidad que Carlini demostró en [un]prompted es real, y escala. Mythos encontró vulnerabilidades en “todos los sistemas operativos principales y navegadores web.”2 Los equipos de seguridad defensiva de las 12 organizaciones asociadas ya tienen acceso. Todos los demás deberían prepararse para lo que viene cuando estas capacidades lleguen a modelos de disponibilidad general.
- Constructores de harness: Mythos se ejecuta a través de Claude Code en contenedores aislados.1 El patrón de harness — CLI de agente + ejecución en sandbox + triaje automatizado — es ahora la arquitectura de producción para investigación de seguridad frontera en la propia Anthropic. Los patrones de harness que los profesionales han estado construyendo de forma independiente están validados al más alto nivel.
- Todos los demás: Anthropic eligió la restricción sobre la publicación. Esa es una decisión de gobernanza real con compensaciones reales. El modelo existe. Las capacidades están demostradas. La pregunta ya no es si la IA puede encontrar zero-days — sino quién obtiene acceso y bajo qué restricciones.
De charla a producto
La charla de Carlini en [un]prompted a principios de abril fue la vista previa pública.3 Mostró cinco vulnerabilidades del kernel de Linux y 22 CVEs de Firefox encontrados con un simple script de iteración de archivos. El cuello de botella, dijo, era la validación humana — “varios cientos de crashes que aún no he validado.”
Mythos es lo que pasa cuando eliminas ese cuello de botella con un modelo más capaz e infraestructura dedicada. La diferencia de escala es significativa:1
| Métrica | Charla de Carlini | Project Glasswing |
|---|---|---|
| Vulnerabilidades encontradas | 5 del kernel + 22 CVEs de Firefox | Miles en todas las plataformas principales |
| Objetivos | Kernel de Linux, Firefox | Todos los SO, navegadores y proyectos de código abierto principales |
| Validación | Manual, dirigida por investigadores | Contratistas profesionales de seguridad, 89% de confirmación de severidad |
| Acceso | Opus 4.6 (disponibilidad general) | Mythos Preview (restringido a 12 socios) |
El número de validación profesional importa: el 89% de 198 informes revisados tuvieron evaluaciones de severidad confirmadas por contratistas de seguridad independientes, con un 98% dentro de un nivel de severidad.1 No se trata de hallazgos alucinados.
La decisión de restricción
La posición declarada de Anthropic: “No planeamos hacer Claude Mythos Preview disponible de forma general debido a sus capacidades de ciberseguridad.”4
Esto es inusual. Las empresas de modelos típicamente compiten por lanzar capacidades. Anthropic construyó un modelo que es demostrablemente mejor encontrando vulnerabilidades que cualquier sistema disponible públicamente — y eligió restringirlo a uso defensivo por socios verificados. El compromiso de $100M en créditos de uso señala que no se trata de un ejercicio de marketing.1
El modelo de restricción tiene tres niveles:1 1. Socios de Project Glasswing (12 organizaciones): Acceso directo para seguridad defensiva 2. Acceso más amplio (40 organizaciones en total): Despliegue supervisado 3. Futuro Cyber Verification Program: Acceso planificado para profesionales de seguridad verificados
Para los profesionales, esto significa que las capacidades más potentes de descubrimiento de vulnerabilidades no están disponibles a través de la API estándar ni de Claude Code. Opus 4.6 sigue siendo el modelo más potente de disponibilidad general. Pero las capacidades demostradas por Mythos probablemente influirán en futuras versiones de Opus — el anuncio de Anthropic dice explícitamente que buscan “permitir un despliegue más seguro a través de nuevas salvaguardas en futuros modelos Claude Opus.”1
Qué valida esto
Project Glasswing valida varios patrones que la comunidad de profesionales ha estado construyendo de forma independiente:
Claude Code como harness de ejecución. Mythos se ejecuta a través de Claude Code en contenedores aislados.1 El mismo CLI de agente que los profesionales usan para codificar a diario es la capa de ejecución para investigación de seguridad frontera. Los hooks, skills y el sandboxing que Claude Code proporciona no son funciones de conveniencia — son la infraestructura que hace que el escaneo de seguridad autónomo sea lo suficientemente seguro para desplegarse.
El cuello de botella de verificación es un problema de harness. La charla de Carlini identificó la validación humana como el cuello de botella. La solución de Project Glasswing: contratistas profesionales de seguridad para validación, compromisos de hash SHA-3 para divulgación responsable e infraestructura estructurada de triaje.1 Este es el mismo problema de triaje que identificamos en When Your Agent Finds a Vulnerability — y la solución es infraestructura, no capacidad del modelo.
Los hooks de gobernanza importan más que la capacidad de escaneo. El modelo puede encontrar las vulnerabilidades. El problema difícil es controlar la divulgación, gestionar el acceso y asegurar que los hallazgos lleguen a los defensores antes que a los atacantes. La respuesta de Anthropic es organizacional (restringir el modelo, verificar a los socios, comprometer recursos). Para los profesionales que construyen su propio escaneo de seguridad, los hooks de gobernanza que controlan la salida son el equivalente.
Qué significa esto para los profesionales
No vas a obtener acceso a Mythos. Esto es lo que puedes hacer con lo que tienes:
Opus 4.6 ya es capaz. Los resultados de Carlini en [un]prompted — 5 bugs del kernel, 22 CVEs de Firefox — usaron Opus 4.6, no Mythos.3 La metodología de capture-the-flag, las compilaciones instrumentadas con ASAN y el script de iteración de archivos son todos reproducibles con el modelo de disponibilidad general.
Construye la capa de triaje ahora. Cuando futuros modelos Opus hereden algunas de las capacidades de Mythos (como Anthropic ha insinuado), el cuello de botella será el mismo que Carlini identificó: la validación humana. Los equipos que tengan listos flujos de trabajo automatizados de deduplicación, clasificación de severidad y divulgación serán los primeros en beneficiarse.
Vigila el Cyber Verification Program. Anthropic planea extender el acceso a Mythos a profesionales de seguridad verificados. Si haces investigación de seguridad legítima, vale la pena seguirle la pista.
La trayectoria es clara: el descubrimiento de vulnerabilidades asistido por IA es real, escala, y la cuestión de gobernanza es ahora el problema central. La capacidad del modelo está resuelta. El harness que orquesta el descubrimiento, triaje y divulgación responsable, no.
Fuentes
Preguntas frecuentes
¿Puedo usar Claude Mythos a través de Claude Code?
No. Mythos Preview está restringido a los socios de Project Glasswing. Opus 4.6 sigue siendo el modelo más potente disponible a través de Claude Code para usuarios generales.
¿Llegarán las capacidades de Mythos a Opus?
El anuncio de Anthropic dice que buscan “permitir un despliegue más seguro a través de nuevas salvaguardas en futuros modelos Claude Opus.” Esto sugiere que algunas capacidades eventualmente llegarán a modelos de disponibilidad general, pero con restricciones de seguridad adicionales.
¿Cómo se relaciona esto con el post anterior sobre vulnerabilidades?
La charla de Carlini en [un]prompted (cubierta en When Your Agent Finds a Vulnerability) usó Opus 4.6 y encontró 5 bugs del kernel + 22 CVEs de Firefox. Mythos escaló ese enfoque a miles de vulnerabilidades en todas las plataformas principales. La metodología es la misma; el modelo es más capaz.
-
Claude Mythos Preview — Project Glasswing. Anthropic, 7 de abril de 2026. Anuncio oficial. Miles de zero-days de severidad alta/crítica encontrados. Tasa de confirmación de severidad del 89% por validadores profesionales. $100M en créditos de uso. Liderado por Nicholas Carlini con más de 21 coautores. ↩↩↩↩↩↩↩↩↩↩↩↩
-
Anthropic’s Project Glasswing. Simon Willison, 7 de abril de 2026. Análisis y contexto sobre el modelo de publicación restringida y el trabajo previo de Carlini. ↩
-
Nicholas Carlini, “Black-hat LLMs,” conferencia de seguridad de IA [un]prompted, abril de 2026. Agenda de la conferencia. Ver también: AI Finds Vulns You Can’t, podcast Security Cryptography Whatever. ↩↩
-
Anthropic says its most powerful AI cyber model is too dangerous to release publicly. VentureBeat, 7 de abril de 2026. ↩