← Todos os Posts

Project Glasswing: O que acontece quando um modelo é bom demais em encontrar bugs

From the guide: Claude Code Comprehensive Guide

Duas semanas atrás, Nicholas Carlini mostrou que o Claude Code conseguia encontrar uma vulnerabilidade de 23 anos no kernel Linux usando um script bash de 10 linhas. Hoje, a Anthropic anunciou o que aconteceu quando escalaram essa abordagem: um novo modelo chamado Claude Mythos que encontrou milhares de vulnerabilidades zero-day de alta e crítica severidade — e a decisão de não lançá-lo publicamente.1

O Project Glasswing é a resposta da Anthropic à pergunta que os profissionais vêm fazendo desde a palestra de Carlini no [un]prompted: o que acontece quando essa capacidade é implantada em escala? A resposta: você a restringe.

TL;DR

O Claude Mythos Preview é um novo modelo de fronteira além do Opus 4.6 cujas capacidades de cibersegurança “surgiram como consequência derivada de melhorias gerais em código, raciocínio e autonomia.”1 A Anthropic está restringindo o acesso a 12 organizações parceiras (Apple, Amazon, Microsoft, Google, Linux Foundation e outras) exclusivamente para trabalho de segurança defensiva. O modelo encontrou milhares de zero-days, incluindo um bug de TCP SACK de 27 anos no OpenBSD, uma vulnerabilidade de 16 anos no FFmpeg e um RCE de NFS no FreeBSD (CVE-2026-4747).1 A Anthropic comprometeu US$ 100 milhões em créditos de uso e US$ 4 milhões para organizações de segurança open-source. Um futuro Cyber Verification Program eventualmente fornecerá acesso para profissionais de segurança legítimos.1

Principais conclusões

  • Engenheiros de segurança: o limiar de capacidade que Carlini demonstrou no [un]prompted é real e escala. O Mythos encontrou vulnerabilidades em “todos os principais sistemas operacionais e navegadores web.”2 Equipes de segurança defensiva nas 12 organizações parceiras agora têm acesso. Todos os demais devem se preparar para o que vem quando essas capacidades chegarem a modelos geralmente disponíveis.
  • Construtores de harness: o Mythos roda via Claude Code em containers isolados.1 O padrão de harness — CLI de agente + execução em sandbox + triagem automatizada — é agora a arquitetura de produção para pesquisa de segurança de fronteira na própria Anthropic. Os padrões de harness que profissionais vêm construindo de forma independente estão validados no mais alto nível.
  • Todos os demais: a Anthropic escolheu restrição em vez de lançamento. Essa é uma decisão real de governança com tradeoffs reais. O modelo existe. As capacidades estão demonstradas. A questão não é mais se a IA consegue encontrar zero-days — é quem obtém acesso e sob quais restrições.

De palestra a produto

A palestra de Carlini no [un]prompted no início de abril foi a prévia pública.3 Ele mostrou cinco vulnerabilidades no kernel Linux e 22 CVEs no Firefox encontradas com um script simples de iteração de arquivos. O gargalo, segundo ele, era a validação humana — “várias centenas de crashes que ainda não validei.”

O Mythos é o que acontece quando você remove esse gargalo com um modelo mais capaz e infraestrutura dedicada. A diferença de escala é significativa:1

Métrica Palestra de Carlini Project Glasswing
Vulnerabilidades encontradas 5 no kernel + 22 CVEs no Firefox Milhares em todas as principais plataformas
Alvos Kernel Linux, Firefox Todos os principais SOs, navegadores, projetos open-source
Validação Manual, conduzida pelo pesquisador Contratantes profissionais de segurança, 89% de confirmação de severidade
Acesso Opus 4.6 (geralmente disponível) Mythos Preview (restrito a 12 parceiros)

O número de validação profissional importa: 89% de 198 relatórios revisados tiveram avaliações de severidade confirmadas por contratantes de segurança independentes, com 98% dentro de um nível de severidade.1 Essas não são descobertas alucinadas.

A decisão de restrição

Posição declarada da Anthropic: “Não planejamos tornar o Claude Mythos Preview geralmente disponível devido às suas capacidades de cibersegurança.”4

Isso é incomum. Empresas de modelos tipicamente correm para lançar capacidades. A Anthropic construiu um modelo que é comprovadamente melhor em encontrar vulnerabilidades do que qualquer sistema publicamente disponível — e escolheu restringi-lo ao uso defensivo por parceiros validados. O compromisso de US$ 100 milhões em créditos de uso sinaliza que isso não é um exercício de marketing.1

O modelo de restrição tem três níveis:1 1. Parceiros do Project Glasswing (12 organizações): acesso direto para segurança defensiva 2. Acesso mais amplo (40 organizações no total): implantação supervisionada 3. Futuro Cyber Verification Program: acesso planejado para profissionais de segurança verificados

Para profissionais, isso significa que as capacidades mais fortes de detecção de vulnerabilidades não estão disponíveis pela API padrão ou pelo Claude Code. O Opus 4.6 continua sendo o modelo mais forte geralmente disponível. Porém, as capacidades demonstradas pelo Mythos provavelmente influenciarão futuros lançamentos do Opus — o anúncio da Anthropic diz explicitamente que pretendem “possibilitar uma implantação mais segura através de novas salvaguardas em futuros modelos Claude Opus.”1

O que isso valida

O Project Glasswing valida vários padrões que a comunidade de profissionais vem construindo de forma independente:

Claude Code como harness de execução. O Mythos roda via Claude Code em containers isolados.1 O mesmo CLI de agente que profissionais usam para codificação diária é a camada de execução para pesquisa de segurança de fronteira. Os hooks, skills e sandboxing que o Claude Code fornece não são recursos de conveniência — são a infraestrutura que torna a varredura autônoma de segurança segura o suficiente para ser implantada.

O gargalo de verificação é um problema de harness. A palestra de Carlini identificou a validação humana como o gargalo. A solução do Project Glasswing: contratantes profissionais de segurança para validação, compromissos de hash SHA-3 para divulgação responsável e infraestrutura estruturada de triagem.1 Este é o mesmo problema de triagem que identificamos em When Your Agent Finds a Vulnerability — e a solução é infraestrutura, não capacidade do modelo.

Hooks de governança importam mais do que capacidade de varredura. O modelo consegue encontrar as vulnerabilidades. O problema difícil é controlar a divulgação, gerenciar o acesso e garantir que as descobertas cheguem aos defensores antes dos atacantes. A resposta da Anthropic é organizacional (restringir o modelo, validar os parceiros, comprometer recursos). Para profissionais construindo suas próprias varreduras de segurança, os hooks de governança que controlam a saída são o equivalente.

O que isso significa para profissionais

Você não vai ter acesso ao Mythos. Eis o que você pode fazer com o que tem:

O Opus 4.6 já é capaz. Os resultados de Carlini no [un]prompted — 5 bugs no kernel, 22 CVEs no Firefox — usaram o Opus 4.6, não o Mythos.3 A metodologia de capture-the-flag, builds instrumentados com ASAN e o script de iteração de arquivos são todos reproduzíveis com o modelo geralmente disponível.

Construa a camada de triagem agora. Quando futuros modelos Opus herdarem parte das capacidades do Mythos (como a Anthropic sugeriu), o gargalo será o mesmo que Carlini identificou: validação humana. As equipes que tiverem deduplicação automatizada, classificação de severidade e fluxos de divulgação prontos serão as primeiras a se beneficiar.

Acompanhe o Cyber Verification Program. A Anthropic planeja estender o acesso ao Mythos para profissionais de segurança verificados. Se você faz pesquisa legítima de segurança, vale a pena acompanhar.

A trajetória é clara: a descoberta de vulnerabilidades assistida por IA é real, escala, e a questão de governança é agora o problema central. A capacidade do modelo está resolvida. O harness que orquestra descoberta, triagem e divulgação responsável ainda não está.


Fontes

Perguntas frequentes

Posso usar o Claude Mythos pelo Claude Code?

Não. O Mythos Preview é restrito aos parceiros do Project Glasswing. O Opus 4.6 continua sendo o modelo mais forte disponível pelo Claude Code para usuários em geral.

As capacidades do Mythos chegarão ao Opus?

O anúncio da Anthropic diz que pretendem “possibilitar uma implantação mais segura através de novas salvaguardas em futuros modelos Claude Opus.” Isso sugere que algumas capacidades eventualmente chegarão a modelos geralmente disponíveis, mas com restrições adicionais de segurança.

Qual a relação com o post anterior sobre vulnerabilidades?

A palestra de Carlini no [un]prompted (coberta em When Your Agent Finds a Vulnerability) usou o Opus 4.6 e encontrou 5 bugs no kernel + 22 CVEs no Firefox. O Mythos escalou essa abordagem para milhares de vulnerabilidades em todas as principais plataformas. A metodologia é a mesma; o modelo é mais capaz.


  1. Claude Mythos Preview — Project Glasswing. Anthropic, 7 de abril de 2026. Anúncio oficial. Milhares de zero-days de alta/crítica severidade encontrados. Taxa de confirmação de severidade de 89% por validadores profissionais. US$ 100 milhões em créditos de uso. Liderado por Nicholas Carlini com mais de 21 coautores. 

  2. Anthropic’s Project Glasswing. Simon Willison, 7 de abril de 2026. Análise e contexto sobre o modelo de lançamento restrito e o trabalho anterior de Carlini. 

  3. Nicholas Carlini, “Black-hat LLMs,” conferência de segurança de IA [un]prompted, abril de 2026. Agenda da conferência. Veja também: AI Finds Vulns You Can’t, podcast Security Cryptography Whatever. 

  4. Anthropic says its most powerful AI cyber model is too dangerous to release publicly. VentureBeat, 7 de abril de 2026. 

Artigos relacionados

The Ralph Loop: How I Run Autonomous AI Agents Overnight

I built an autonomous agent system with stop hooks, spawn budgets, and filesystem memory. Here are the failures and what…

8 min de leitura