Proyecto Glasswing: Cuando un modelo encuentra demasiados bugs

8 min de lectura

From the guide: Claude Code Comprehensive Guide

Hace dos semanas, Nicholas Carlini demostró que Claude Code podía encontrar una vulnerabilidad del kernel de Linux de 23 años de antigüedad usando un script bash de 10 líneas. Hoy, Anthropic anunció lo que pasó cuando escalaron ese enfoque: un nuevo modelo llamado Claude Mythos que encontró miles de vulnerabilidades zero-day de severidad alta y crítica, y luego decidieron no publicarlo.¹

Proyecto Glasswing es el despliegue restringido de Anthropic de Claude Mythos, un modelo de frontera que descubrió miles de vulnerabilidades zero-day en todos los principales sistemas operativos y navegadores web. Mythos encontró bugs críticos, entre ellos una falla TCP SACK de OpenBSD de 27 años y una vulnerabilidad de ejecución remota de código en NFS de FreeBSD. Anthropic restringió el acceso a 12 organizaciones partner exclusivamente para seguridad defensiva, comprometió 100 millones de dólares en créditos de uso y abrió el formulario de solicitud del Cyber Verification Program en claude.com/form/cyber-use-case para investigadores calificados.

El Proyecto Glasswing es la respuesta de Anthropic a la pregunta que los profesionales llevan haciéndose desde la charla de Carlini en [un]prompted: ¿qué pasa cuando esta capacidad se despliega a escala? La respuesta: la restringes.

TL;DR

Claude Mythos Preview es un modelo de frontera cuyas capacidades de ciberseguridad, según Anthropic, “emergieron como una consecuencia indirecta de mejoras generales en código, razonamiento y autonomía”.¹ Anthropic lo posiciona como más capaz en ciber que cualquier modelo Opus generalmente disponible (incluida la versión Opus 4.7 del 16 de abril de 2026), y restringe el acceso a 12 organizaciones partner (Apple, Amazon, Microsoft, Google, la Linux Foundation y otras) exclusivamente para trabajo de seguridad defensiva. El modelo encontró miles de zero-days, incluido un bug TCP SACK de OpenBSD de 27 años, una vulnerabilidad de FFmpeg de 16 años y una RCE en NFS de FreeBSD (CVE-2026-4747).¹ Anthropic comprometió 100 millones de dólares en créditos de uso y 4 millones para organizaciones de seguridad open-source. El formulario de solicitud del Cyber Verification Program ya está activo para investigadores legítimos de seguridad que busquen acceso.¹

Puntos clave

Ingenieros de seguridad: el umbral de capacidad que Carlini demostró en [un]prompted es real y escala. Mythos encontró vulnerabilidades en “todos los principales sistemas operativos y navegadores web”.² Los equipos de seguridad defensiva en las 12 organizaciones partner ya tienen acceso. Todos los demás deberían estar preparándose para lo que viene cuando estas capacidades lleguen a los modelos generalmente disponibles.
Constructores de scaffolds: Mythos corre a través de Claude Code en contenedores aislados.¹ El patrón de scaffold (agente CLI + ejecución en sandbox + triage automatizado) ahora sirve como arquitectura de producción para investigación de seguridad de frontera en la propia Anthropic. Los patrones de orquestación que los profesionales construyeron de forma independiente se sostienen al más alto nivel.
Todos los demás: Anthropic eligió la restricción sobre el lanzamiento. Esa es una decisión de gobernanza real con tradeoffs reales. El modelo existe. Anthropic demostró las capacidades. La pregunta ya no es si la IA puede encontrar zero-days, sino quién obtiene acceso y bajo qué restricciones.

Actualización (19 de abril de 2026)

Desde que este post se publicó el 7 de abril, cambiaron dos cosas:

Opus 4.7 se lanzó el 16 de abril de 2026 como el nuevo buque insignia generalmente disponible. Anthropic afirma que Opus 4.7 es deliberadamente menos capaz en ciber que Mythos Preview y se entrega con salvaguardas cibernéticas en tiempo real. Mythos Preview sigue siendo independiente y restringido.⁵
El formulario de solicitud del Cyber Verification Program ya está activo en claude.com/form/cyber-use-case. Lo que el anuncio original llamó un programa “futuro” ahora es una ruta concreta de solicitud.⁵
Claude Code lanzó dos versiones de infraestructura relevantes: v2.1.111 añadió soporte para Opus 4.7 / xhigh / Auto Mode; v2.1.113 añadió sandbox.network.deniedDomains, reglas de denegación para comandos wrapper (env / sudo / watch / ionice / setsid), manejo más estricto de find -exec / -delete y protección contra eliminación de /private/{etc,var,tmp,home} en macOS bajo Bash(rm:*).⁶ Estas son exactamente el tipo de primitivas de endurecimiento que un scaffold de investigación de seguridad estilo Mythos necesita.

El argumento central de abajo — restricción de capacidad por encima del lanzamiento, patrones de scaffold que se sostienen al más alto nivel, y todos los demás preparándose para cuando esto llegue a GA — no cambia. En todo caso, el marco explícito de salvaguarda cibernética de Opus 4.7 lo refuerza.

De la charla al producto

La charla de Carlini en [un]prompted a principios de abril fue la vista previa pública.³ Mostró cinco vulnerabilidades del kernel de Linux y 22 CVEs de Firefox encontradas con un simple script de iteración de archivos. El cuello de botella, dijo, era la validación humana: “varios cientos de crashes que aún no he validado”.

Mythos es lo que pasa cuando eliminas ese cuello de botella con un modelo más capaz e infraestructura dedicada. La diferencia de escala es significativa:¹

Métrica	Charla de Carlini	Proyecto Glasswing
Vulnerabilidades encontradas	5 del kernel + 22 CVEs de Firefox	Miles en todas las plataformas principales
Objetivos	Kernel de Linux, Firefox	Todos los principales SO, navegadores, proyectos open-source
Validación	Manual, impulsada por el investigador	Contratistas profesionales de seguridad, 89% de confirmación de severidad
Acceso	Opus 4.6 en el momento de la charla de Carlini; Opus 4.7 es ahora el buque insignia GA	Mythos Preview (restringido a 12 partners)

El número de validación profesional importa: el 89% de los 198 reportes revisados tuvo sus evaluaciones de severidad confirmadas por contratistas de seguridad independientes, con un 98% dentro de un nivel de severidad.¹ Estos no son hallazgos alucinados.

La decisión de restringir

La posición declarada de Anthropic: “No planeamos poner a Claude Mythos Preview generalmente disponible debido a sus capacidades de ciberseguridad”.⁴

La decisión destaca. Las empresas de modelos suelen correr para lanzar capacidades. Anthropic construyó un modelo que es demostrablemente mejor encontrando vulnerabilidades que cualquier sistema públicamente disponible, y luego eligió restringirlo a uso defensivo por partners verificados. El compromiso de 100 millones de dólares en créditos de uso indica que esto no es un ejercicio de marketing.¹

El modelo de restricción tiene tres niveles:¹ 1. Partners del Proyecto Glasswing (12 organizaciones): acceso directo para seguridad defensiva 2. Acceso más amplio (40 organizaciones en total): despliegue supervisado 3. Cyber Verification Program (ya activo en claude.com/form/cyber-use-case): ruta de solicitud para profesionales de seguridad verificados⁵

Para los profesionales, el API estándar y Claude Code no exponen las capacidades de búsqueda de vulnerabilidades de Mythos. El modelo más potente generalmente disponible es ahora Opus 4.7 (lanzado el 16 de abril de 2026), que Anthropic posiciona como deliberadamente menos capaz en ciber que Mythos y que se entrega con salvaguardas cibernéticas en tiempo real.⁵ Las capacidades demostradas de Mythos ya influyeron en ese lanzamiento del 16 de abril: Opus 4.7 es el primer modelo post-Glasswing de Anthropic con salvaguardas cibernéticas dedicadas.

Qué valida esto

El Proyecto Glasswing valida varios patrones que la comunidad de profesionales construyó de forma independiente:

Claude Code como scaffold de ejecución. Mythos corre a través de Claude Code en contenedores aislados.¹ El mismo agente CLI que los profesionales usan para programar a diario sirve como capa de ejecución para la investigación de seguridad de frontera. Los hooks, skills y sandboxing que proporciona Claude Code no son funciones de conveniencia. Son la infraestructura que hace que el escaneo autónomo de seguridad sea lo suficientemente seguro para desplegar.

El cuello de botella de verificación es un problema de orquestación. La charla de Carlini identificó la validación humana como el cuello de botella. La solución del Proyecto Glasswing: contratistas profesionales de seguridad para la validación, commitments de hash SHA-3 para divulgación responsable e infraestructura de triage estructurado.¹ El mismo problema de triage surgió en Cuando tu agente encuentra una vulnerabilidad, y la solución es infraestructura, no capacidad del modelo.

Los hooks de gobernanza importan más que la capacidad de escaneo. El modelo puede encontrar las vulnerabilidades. El problema difícil es controlar la divulgación, gestionar el acceso y asegurar que los hallazgos lleguen a los defensores antes que a los atacantes. La respuesta de Anthropic es organizacional (restringir el modelo, verificar a los partners, comprometer recursos). Para los profesionales que construyen su propio escaneo de seguridad, los hooks de gobernanza que controlan la salida son el equivalente.

Qué significa esto para los profesionales

No vas a obtener acceso a Mythos. Esto es lo que puedes hacer con lo que tienes:

Opus 4.6 ya es capaz. Los resultados de Carlini en [un]prompted (5 bugs del kernel, 22 CVEs de Firefox) usaron Opus 4.6, no Mythos.³ La metodología de capture-the-flag, las builds instrumentadas con ASAN y el script de iteración de archivos son todos reproducibles con el modelo generalmente disponible.

Construye ahora la capa de triage. Cuando los futuros modelos Opus hereden algunas de las capacidades de Mythos (como Anthropic ha insinuado), el cuello de botella será el mismo que identificó Carlini: la validación humana. Los equipos que tengan listos flujos automatizados de deduplicación, clasificación de severidad y divulgación se beneficiarán primero.

Postúlate al Cyber Verification Program. El formulario de solicitud está activo en claude.com/form/cyber-use-case. Si haces investigación legítima de seguridad, esta es la ruta hacia un acceso elevado.

La trayectoria es clara: el descubrimiento de vulnerabilidades asistido por IA es real, escala y la cuestión de gobernanza es ahora el problema central. La capacidad del modelo está resuelta. El scaffold que orquesta descubrimiento, triage y divulgación responsable no lo está.

Fuentes

Preguntas frecuentes

¿Puedo usar Claude Mythos a través de Claude Code?

No. Mythos Preview está restringido a los partners del Proyecto Glasswing. Opus 4.7 (16 de abril de 2026) es el modelo más potente disponible a través de Claude Code para usuarios generales; Anthropic afirma que Mythos sigue siendo más capaz en ciber que cualquier modelo GA.

¿Las capacidades de Mythos llegarán a Opus?

Opus 4.7 es el primer lanzamiento de Opus post-Glasswing de Anthropic y se entrega con salvaguardas cibernéticas en tiempo real. El patrón sugiere que los futuros modelos Opus incorporarán salvaguardas adicionales en lugar de toda la envolvente de capacidades de Mythos. El anuncio original de Anthropic decía que su objetivo es “permitir un despliegue más seguro mediante nuevas salvaguardas en futuros modelos Claude Opus”.

¿Cómo se relaciona esto con el post anterior sobre vulnerabilidades?

La charla de Carlini en [un]prompted (cubierta en Cuando tu agente encuentra una vulnerabilidad) usó Opus 4.6 y encontró 5 bugs del kernel + 22 CVEs de Firefox. Mythos escaló ese enfoque a miles de vulnerabilidades en todas las plataformas principales. La metodología es la misma; el modelo es más capaz.

Claude Mythos Preview — Proyecto Glasswing. Anthropic, 7 de abril de 2026. Anuncio oficial. Miles de zero-days de severidad alta/crítica encontrados. 89% de tasa de confirmación de severidad por validadores profesionales. 100 millones de dólares en créditos de uso. Liderado por Nicholas Carlini con más de 21 coautores. ↩↩↩↩↩↩↩↩↩↩↩
El Proyecto Glasswing de Anthropic. Simon Willison, 7 de abril de 2026. Análisis y contexto sobre el modelo de lanzamiento restringido y el trabajo previo de Carlini. ↩
Nicholas Carlini, “Black-hat LLMs”, conferencia de seguridad AI [un]prompted, abril de 2026. Agenda de la conferencia. Véase también: AI Finds Vulns You Can’t, podcast Security Cryptography Whatever. ↩↩
Anthropic dice que su modelo cibernético de IA más potente es demasiado peligroso para publicarlo. VentureBeat, 7 de abril de 2026. ↩
Actualizaciones posteriores a la publicación (19 de abril de 2026). El anuncio de Anthropic Presentando Claude Opus 4.7 (16 de abril de 2026) posiciona a Opus 4.7 como el buque insignia GA mientras señala que Mythos Preview sigue siendo más capaz en ciber. Detalles sobre las salvaguardas cibernéticas en tiempo real en Anthropic Support: Salvaguardas cibernéticas en tiempo real en Claude. Formulario de solicitud del Cyber Verification Program activo en claude.com/form/cyber-use-case. ↩↩↩↩
Claude Code CHANGELOG. v2.1.111 añadió soporte para el lanzamiento de Opus 4.7 (esfuerzo xhigh, Auto Mode para Max sin flag). v2.1.113 añadió sandbox.network.deniedDomains, reglas de denegación para comandos wrapper, endurecimiento de permisos de find -exec/-delete y protección contra eliminación de /private/{etc,var,tmp,home} en macOS. ↩