Projeto Glasswing: quando um modelo encontra bugs demais

8 min read

From the guide: Claude Code Comprehensive Guide

Há duas semanas, Nicholas Carlini mostrou que Claude Code conseguiu encontrar uma vulnerabilidade de 23 anos no kernel do Linux usando um script bash de 10 linhas. Hoje, Anthropic anunciou o que aconteceu quando essa abordagem foi escalada: um novo modelo chamado Claude Mythos, que encontrou milhares de vulnerabilidades zero-day de severidade alta e crítica, e então decidiu não liberá-lo publicamente.¹

O Projeto Glasswing é a implantação restrita pela Anthropic do Claude Mythos, um modelo de fronteira que descobriu milhares de vulnerabilidades zero-day em todos os principais sistemas operacionais e navegadores web. O Mythos encontrou bugs críticos, incluindo uma falha TCP SACK de 27 anos no OpenBSD e uma vulnerabilidade de execução remota de código em NFS no FreeBSD. A Anthropic restringiu o acesso a 12 organizações parceiras apenas para segurança defensiva, comprometeu US$ 100 milhões em créditos de uso e abriu o formulário de inscrição do Cyber Verification Program em claude.com/form/cyber-use-case para pesquisadores qualificados.

O Projeto Glasswing é a resposta da Anthropic à pergunta que os profissionais vêm fazendo desde a palestra de Carlini no [un]prompted: o que acontece quando essa capacidade é implantada em escala? A resposta: você restringe.

TL;DR

O Claude Mythos Preview é um modelo de fronteira cujas capacidades de cibersegurança, segundo a Anthropic, “emergiram como consequência posterior de melhorias gerais em código, raciocínio e autonomia.”¹ A Anthropic o posiciona como mais capaz em cibersegurança do que qualquer modelo Opus geralmente disponível (incluindo o lançamento do Opus 4.7 em 16 de abril de 2026), e restringe o acesso a 12 organizações parceiras (Apple, Amazon, Microsoft, Google, Linux Foundation e outras) apenas para trabalho de segurança defensiva. O modelo encontrou milhares de zero-days, incluindo um bug TCP SACK de 27 anos no OpenBSD, uma vulnerabilidade de 16 anos no FFmpeg e uma RCE em NFS no FreeBSD (CVE-2026-4747).¹ A Anthropic comprometeu US$ 100 milhões em créditos de uso e US$ 4 milhões para organizações de segurança open-source. O formulário de inscrição do Cyber Verification Program está no ar para pesquisadores de segurança legítimos que buscam acesso.¹

Pontos-chave

Engenheiros de segurança: o limiar de capacidade que Carlini demonstrou no [un]prompted é real, e escala. O Mythos encontrou vulnerabilidades em “todos os principais sistemas operacionais e navegadores web.”² Equipes de segurança defensiva das 12 organizações parceiras agora têm acesso. Todos os outros deveriam estar se preparando para o que vem quando essas capacidades chegarem a modelos geralmente disponíveis.
Construtores de scaffolds: o Mythos roda via Claude Code em containers isolados.¹ O padrão de scaffold (agente CLI + execução em sandbox + triagem automatizada) agora serve como a arquitetura de produção para pesquisa de segurança de fronteira na própria Anthropic. Os padrões de orquestração que os profissionais construíram de forma independente se sustentam no mais alto nível.
Todos os outros: a Anthropic escolheu restrição em vez de liberação. Essa é uma decisão de governança real, com tradeoffs reais. O modelo existe. A Anthropic demonstrou as capacidades. A pergunta não é mais se a IA pode encontrar zero-days, mas sim quem terá acesso e sob quais restrições.

Atualização (19 de abril de 2026)

Desde que este post foi publicado em 7 de abril, duas coisas mudaram:

O Opus 4.7 foi lançado em 16 de abril de 2026 como o novo modelo principal geralmente disponível. A Anthropic afirma que o Opus 4.7 é deliberadamente menos capaz em cibersegurança do que o Mythos Preview e vem com salvaguardas cibernéticas em tempo real. O Mythos Preview permanece separado e restrito.⁵
O formulário de inscrição do Cyber Verification Program está no ar em claude.com/form/cyber-use-case. O que o anúncio original chamou de programa “futuro” agora é um caminho de inscrição concreto.⁵
Claude Code lançou dois releases de infraestrutura relevantes: v2.1.111 adicionou suporte a Opus 4.7 / xhigh / Auto Mode; v2.1.113 adicionou sandbox.network.deniedDomains, regras de deny para wrapper-command (env / sudo / watch / ionice / setsid), tratamento mais rigoroso de find -exec / -delete e proteção contra remoção em /private/{etc,var,tmp,home} no macOS sob Bash(rm:*).⁶ Essas são exatamente as primitivas de hardening que um scaffold de pesquisa de segurança estilo Mythos precisa.

O argumento central abaixo — restrição de capacidade em vez de liberação, padrões de scaffold se sustentando no mais alto nível, todos os outros se preparando para o que vem quando esses recursos chegarem ao GA — permanece inalterado. Inclusive, o enquadramento explícito de salvaguardas cibernéticas do Opus 4.7 o fortalece.

Da palestra ao produto

A palestra de Carlini no [un]prompted no início de abril foi a prévia pública.³ Ele mostrou cinco vulnerabilidades no kernel do Linux e 22 CVEs no Firefox encontradas com um script simples de iteração de arquivos. O gargalo, disse ele, era a validação humana — “várias centenas de crashes que ainda não validei.”

O Mythos é o que acontece quando você remove esse gargalo com um modelo mais capaz e infraestrutura dedicada. A diferença de escala é significativa:¹

Métrica	Palestra de Carlini	Projeto Glasswing
Vulnerabilidades encontradas	5 no kernel + 22 CVEs no Firefox	Milhares em todas as principais plataformas
Alvos	Kernel do Linux, Firefox	Todos os principais sistemas operacionais, navegadores, projetos open-source
Validação	Manual, conduzida pelo pesquisador	Contratados profissionais de segurança, 89% de confirmação de severidade
Acesso	Opus 4.6 na época da palestra de Carlini; Opus 4.7 agora é o modelo principal GA	Mythos Preview (restrito a 12 parceiros)

O número da validação profissional importa: 89% dos 198 relatórios revisados tiveram avaliações de severidade confirmadas por contratados independentes de segurança, com 98% dentro de um nível de severidade.¹ Essas não são descobertas alucinadas.

A decisão de restringir

A posição declarada da Anthropic: “Não planejamos disponibilizar o Claude Mythos Preview de forma geral devido às suas capacidades de cibersegurança.”⁴

A decisão chama a atenção. Empresas de modelos normalmente correm para liberar capacidades. A Anthropic construiu um modelo demonstravelmente melhor em encontrar vulnerabilidades do que qualquer sistema publicamente disponível, e então escolheu restringi-lo ao uso defensivo por parceiros avaliados. O compromisso de US$ 100 milhões em créditos de uso sinaliza que isso não é um exercício de marketing.¹

O modelo de restrição tem três níveis:¹ 1. Parceiros do Projeto Glasswing (12 organizações): acesso direto para segurança defensiva 2. Acesso mais amplo (40 organizações no total): implantação supervisionada 3. Cyber Verification Program (agora no ar em claude.com/form/cyber-use-case): caminho de inscrição para profissionais de segurança verificados⁵

Para os profissionais, o API padrão e o Claude Code não expõem as capacidades de descoberta de vulnerabilidades do Mythos. O modelo mais forte geralmente disponível agora é o Opus 4.7 (lançado em 16 de abril de 2026), que a Anthropic posiciona como deliberadamente menos capaz em cibersegurança do que o Mythos e vem com salvaguardas cibernéticas em tempo real.⁵ As capacidades demonstradas pelo Mythos já influenciaram esse lançamento de 16 de abril — o Opus 4.7 é o primeiro modelo pós-Glasswing da Anthropic com salvaguardas cibernéticas dedicadas.

O que isso valida

O Projeto Glasswing valida vários padrões que a comunidade de profissionais construiu de forma independente:

Claude Code como scaffold de execução. O Mythos roda via Claude Code em containers isolados.¹ O mesmo agente CLI que os profissionais usam para codar diariamente serve como camada de execução para pesquisa de segurança de fronteira. Os hooks, skills e sandboxing que o Claude Code oferece não são recursos de conveniência. São a infraestrutura que torna a varredura autônoma de segurança segura o suficiente para implantar.

O gargalo de verificação é um problema de orquestração. A palestra de Carlini identificou a validação humana como o gargalo. A solução do Projeto Glasswing: contratados profissionais de segurança para validação, commitments de hash SHA-3 para divulgação responsável e infraestrutura estruturada de triagem.¹ O mesmo problema de triagem apareceu em Quando seu agente encontra uma vulnerabilidade, e a solução é infraestrutura, não capacidade do modelo.

Hooks de governança importam mais do que capacidade de varredura. O modelo consegue encontrar as vulnerabilidades. O problema difícil é controlar a divulgação, gerenciar o acesso e garantir que as descobertas cheguem aos defensores antes dos atacantes. A resposta da Anthropic é organizacional (restringir o modelo, avaliar os parceiros, comprometer recursos). Para profissionais construindo sua própria varredura de segurança, os hooks de governança que regulam a saída são o equivalente.

O que isso significa para os profissionais

Você não terá acesso ao Mythos. Aqui está o que você pode fazer com o que tem:

O Opus 4.6 já é capaz. Os resultados de Carlini no [un]prompted (5 bugs no kernel, 22 CVEs no Firefox) usaram o Opus 4.6, não o Mythos.³ A metodologia capture-the-flag, os builds instrumentados com ASAN e o script de iteração de arquivos são todos reproduzíveis com o modelo geralmente disponível.

Construa a camada de triagem agora. Quando modelos Opus futuros herdarem algumas das capacidades do Mythos (como a Anthropic sugeriu), o gargalo será o mesmo que Carlini identificou: validação humana. As equipes que tiverem deduplicação automatizada, classificação de severidade e fluxos de divulgação prontos serão as primeiras a se beneficiar.

Inscreva-se no Cyber Verification Program. O formulário de inscrição está no ar em claude.com/form/cyber-use-case. Se você faz pesquisa legítima de segurança, esse é o caminho para acesso elevado.

A trajetória está clara: a descoberta de vulnerabilidades assistida por IA é real, escala, e a questão de governança agora é o problema central. A capacidade do modelo está resolvida. O scaffold que orquestra descoberta, triagem e divulgação responsável, não.

Fontes

Perguntas frequentes

Posso usar o Claude Mythos através do Claude Code?

Não. O Mythos Preview é restrito aos parceiros do Projeto Glasswing. O Opus 4.7 (16 de abril de 2026) é o modelo mais forte disponível através do Claude Code para usuários gerais; a Anthropic afirma que o Mythos continua mais capaz em cibersegurança do que qualquer modelo GA.

As capacidades do Mythos chegarão ao Opus?

O Opus 4.7 é o primeiro lançamento Opus pós-Glasswing da Anthropic e vem com salvaguardas cibernéticas em tempo real. O padrão sugere que modelos Opus futuros carregarão salvaguardas adicionais em vez do envelope completo de capacidades do Mythos. O anúncio original da Anthropic afirmou que o objetivo é “permitir uma implantação mais segura através de novas salvaguardas em modelos Claude Opus futuros.”

Como isso se relaciona com o post anterior sobre vulnerabilidades?

A palestra de Carlini no [un]prompted (coberta em Quando seu agente encontra uma vulnerabilidade) usou o Opus 4.6 e encontrou 5 bugs no kernel + 22 CVEs no Firefox. O Mythos escalou essa abordagem para milhares de vulnerabilidades em todas as principais plataformas. A metodologia é a mesma; o modelo é mais capaz.

Claude Mythos Preview — Project Glasswing. Anthropic, 7 de abril de 2026. Anúncio oficial. Milhares de zero-days de severidade alta/crítica encontrados. Taxa de confirmação de severidade de 89% por validadores profissionais. US$ 100 milhões em créditos de uso. Liderado por Nicholas Carlini com mais de 21 coautores. ↩↩↩↩↩↩↩↩↩↩↩
Anthropic’s Project Glasswing. Simon Willison, 7 de abril de 2026. Análise e contexto sobre o modelo de lançamento restrito e o trabalho anterior de Carlini. ↩
Nicholas Carlini, “Black-hat LLMs,” conferência de segurança [un]prompted AI, abril de 2026. Agenda da conferência. Veja também: AI Finds Vulns You Can’t, podcast Security Cryptography Whatever. ↩↩
Anthropic says its most powerful AI cyber model is too dangerous to release publicly. VentureBeat, 7 de abril de 2026. ↩
Atualizações pós-publicação (19 de abril de 2026). O anúncio da Anthropic Introducing Claude Opus 4.7 (16 de abril de 2026) posiciona o Opus 4.7 como o modelo principal GA enquanto observa que o Mythos Preview continua mais capaz em cibersegurança. Detalhes das salvaguardas cibernéticas em tempo real em Anthropic Support: Real-time cyber safeguards on Claude. Formulário de inscrição do Cyber Verification Program no ar em claude.com/form/cyber-use-case. ↩↩↩↩
Claude Code CHANGELOG. v2.1.111 adicionou suporte ao lançamento do Opus 4.7 (esforço xhigh, Auto Mode para Max sem flag). v2.1.113 adicionou sandbox.network.deniedDomains, regras de deny para wrapper-command, endurecimento de permissões para find -exec/-delete e proteção contra remoção em /private/{etc,var,tmp,home} no macOS. ↩