Project Glasswing: O que acontece quando um modelo é bom demais em encontrar bugs
Duas semanas atrás, Nicholas Carlini mostrou que o Claude Code conseguia encontrar uma vulnerabilidade de 23 anos no kernel Linux usando um script bash de 10 linhas. Hoje, a Anthropic anunciou o que aconteceu quando escalaram essa abordagem: um novo modelo chamado Claude Mythos que encontrou milhares de vulnerabilidades zero-day de alta e crítica severidade — e a decisão de não lançá-lo publicamente.1
O Project Glasswing é a resposta da Anthropic à pergunta que os profissionais vêm fazendo desde a palestra de Carlini no [un]prompted: o que acontece quando essa capacidade é implantada em escala? A resposta: você a restringe.
TL;DR
O Claude Mythos Preview é um novo modelo de fronteira além do Opus 4.6 cujas capacidades de cibersegurança “surgiram como consequência derivada de melhorias gerais em código, raciocínio e autonomia.”1 A Anthropic está restringindo o acesso a 12 organizações parceiras (Apple, Amazon, Microsoft, Google, Linux Foundation e outras) exclusivamente para trabalho de segurança defensiva. O modelo encontrou milhares de zero-days, incluindo um bug de TCP SACK de 27 anos no OpenBSD, uma vulnerabilidade de 16 anos no FFmpeg e um RCE de NFS no FreeBSD (CVE-2026-4747).1 A Anthropic comprometeu US$ 100 milhões em créditos de uso e US$ 4 milhões para organizações de segurança open-source. Um futuro Cyber Verification Program eventualmente fornecerá acesso para profissionais de segurança legítimos.1
Principais conclusões
- Engenheiros de segurança: o limiar de capacidade que Carlini demonstrou no [un]prompted é real e escala. O Mythos encontrou vulnerabilidades em “todos os principais sistemas operacionais e navegadores web.”2 Equipes de segurança defensiva nas 12 organizações parceiras agora têm acesso. Todos os demais devem se preparar para o que vem quando essas capacidades chegarem a modelos geralmente disponíveis.
- Construtores de harness: o Mythos roda via Claude Code em containers isolados.1 O padrão de harness — CLI de agente + execução em sandbox + triagem automatizada — é agora a arquitetura de produção para pesquisa de segurança de fronteira na própria Anthropic. Os padrões de harness que profissionais vêm construindo de forma independente estão validados no mais alto nível.
- Todos os demais: a Anthropic escolheu restrição em vez de lançamento. Essa é uma decisão real de governança com tradeoffs reais. O modelo existe. As capacidades estão demonstradas. A questão não é mais se a IA consegue encontrar zero-days — é quem obtém acesso e sob quais restrições.
De palestra a produto
A palestra de Carlini no [un]prompted no início de abril foi a prévia pública.3 Ele mostrou cinco vulnerabilidades no kernel Linux e 22 CVEs no Firefox encontradas com um script simples de iteração de arquivos. O gargalo, segundo ele, era a validação humana — “várias centenas de crashes que ainda não validei.”
O Mythos é o que acontece quando você remove esse gargalo com um modelo mais capaz e infraestrutura dedicada. A diferença de escala é significativa:1
| Métrica | Palestra de Carlini | Project Glasswing |
|---|---|---|
| Vulnerabilidades encontradas | 5 no kernel + 22 CVEs no Firefox | Milhares em todas as principais plataformas |
| Alvos | Kernel Linux, Firefox | Todos os principais SOs, navegadores, projetos open-source |
| Validação | Manual, conduzida pelo pesquisador | Contratantes profissionais de segurança, 89% de confirmação de severidade |
| Acesso | Opus 4.6 (geralmente disponível) | Mythos Preview (restrito a 12 parceiros) |
O número de validação profissional importa: 89% de 198 relatórios revisados tiveram avaliações de severidade confirmadas por contratantes de segurança independentes, com 98% dentro de um nível de severidade.1 Essas não são descobertas alucinadas.
A decisão de restrição
Posição declarada da Anthropic: “Não planejamos tornar o Claude Mythos Preview geralmente disponível devido às suas capacidades de cibersegurança.”4
Isso é incomum. Empresas de modelos tipicamente correm para lançar capacidades. A Anthropic construiu um modelo que é comprovadamente melhor em encontrar vulnerabilidades do que qualquer sistema publicamente disponível — e escolheu restringi-lo ao uso defensivo por parceiros validados. O compromisso de US$ 100 milhões em créditos de uso sinaliza que isso não é um exercício de marketing.1
O modelo de restrição tem três níveis:1 1. Parceiros do Project Glasswing (12 organizações): acesso direto para segurança defensiva 2. Acesso mais amplo (40 organizações no total): implantação supervisionada 3. Futuro Cyber Verification Program: acesso planejado para profissionais de segurança verificados
Para profissionais, isso significa que as capacidades mais fortes de detecção de vulnerabilidades não estão disponíveis pela API padrão ou pelo Claude Code. O Opus 4.6 continua sendo o modelo mais forte geralmente disponível. Porém, as capacidades demonstradas pelo Mythos provavelmente influenciarão futuros lançamentos do Opus — o anúncio da Anthropic diz explicitamente que pretendem “possibilitar uma implantação mais segura através de novas salvaguardas em futuros modelos Claude Opus.”1
O que isso valida
O Project Glasswing valida vários padrões que a comunidade de profissionais vem construindo de forma independente:
Claude Code como harness de execução. O Mythos roda via Claude Code em containers isolados.1 O mesmo CLI de agente que profissionais usam para codificação diária é a camada de execução para pesquisa de segurança de fronteira. Os hooks, skills e sandboxing que o Claude Code fornece não são recursos de conveniência — são a infraestrutura que torna a varredura autônoma de segurança segura o suficiente para ser implantada.
O gargalo de verificação é um problema de harness. A palestra de Carlini identificou a validação humana como o gargalo. A solução do Project Glasswing: contratantes profissionais de segurança para validação, compromissos de hash SHA-3 para divulgação responsável e infraestrutura estruturada de triagem.1 Este é o mesmo problema de triagem que identificamos em When Your Agent Finds a Vulnerability — e a solução é infraestrutura, não capacidade do modelo.
Hooks de governança importam mais do que capacidade de varredura. O modelo consegue encontrar as vulnerabilidades. O problema difícil é controlar a divulgação, gerenciar o acesso e garantir que as descobertas cheguem aos defensores antes dos atacantes. A resposta da Anthropic é organizacional (restringir o modelo, validar os parceiros, comprometer recursos). Para profissionais construindo suas próprias varreduras de segurança, os hooks de governança que controlam a saída são o equivalente.
O que isso significa para profissionais
Você não vai ter acesso ao Mythos. Eis o que você pode fazer com o que tem:
O Opus 4.6 já é capaz. Os resultados de Carlini no [un]prompted — 5 bugs no kernel, 22 CVEs no Firefox — usaram o Opus 4.6, não o Mythos.3 A metodologia de capture-the-flag, builds instrumentados com ASAN e o script de iteração de arquivos são todos reproduzíveis com o modelo geralmente disponível.
Construa a camada de triagem agora. Quando futuros modelos Opus herdarem parte das capacidades do Mythos (como a Anthropic sugeriu), o gargalo será o mesmo que Carlini identificou: validação humana. As equipes que tiverem deduplicação automatizada, classificação de severidade e fluxos de divulgação prontos serão as primeiras a se beneficiar.
Acompanhe o Cyber Verification Program. A Anthropic planeja estender o acesso ao Mythos para profissionais de segurança verificados. Se você faz pesquisa legítima de segurança, vale a pena acompanhar.
A trajetória é clara: a descoberta de vulnerabilidades assistida por IA é real, escala, e a questão de governança é agora o problema central. A capacidade do modelo está resolvida. O harness que orquestra descoberta, triagem e divulgação responsável ainda não está.
Fontes
Perguntas frequentes
Posso usar o Claude Mythos pelo Claude Code?
Não. O Mythos Preview é restrito aos parceiros do Project Glasswing. O Opus 4.6 continua sendo o modelo mais forte disponível pelo Claude Code para usuários em geral.
As capacidades do Mythos chegarão ao Opus?
O anúncio da Anthropic diz que pretendem “possibilitar uma implantação mais segura através de novas salvaguardas em futuros modelos Claude Opus.” Isso sugere que algumas capacidades eventualmente chegarão a modelos geralmente disponíveis, mas com restrições adicionais de segurança.
Qual a relação com o post anterior sobre vulnerabilidades?
A palestra de Carlini no [un]prompted (coberta em When Your Agent Finds a Vulnerability) usou o Opus 4.6 e encontrou 5 bugs no kernel + 22 CVEs no Firefox. O Mythos escalou essa abordagem para milhares de vulnerabilidades em todas as principais plataformas. A metodologia é a mesma; o modelo é mais capaz.
-
Claude Mythos Preview — Project Glasswing. Anthropic, 7 de abril de 2026. Anúncio oficial. Milhares de zero-days de alta/crítica severidade encontrados. Taxa de confirmação de severidade de 89% por validadores profissionais. US$ 100 milhões em créditos de uso. Liderado por Nicholas Carlini com mais de 21 coautores. ↩↩↩↩↩↩↩↩↩↩↩↩
-
Anthropic’s Project Glasswing. Simon Willison, 7 de abril de 2026. Análise e contexto sobre o modelo de lançamento restrito e o trabalho anterior de Carlini. ↩
-
Nicholas Carlini, “Black-hat LLMs,” conferência de segurança de IA [un]prompted, abril de 2026. Agenda da conferência. Veja também: AI Finds Vulns You Can’t, podcast Security Cryptography Whatever. ↩↩
-
Anthropic says its most powerful AI cyber model is too dangerous to release publicly. VentureBeat, 7 de abril de 2026. ↩