Pesquisa com agentes de IA: Claude superou 33 métodos de ataque

Em 25 de março de 2026, pesquisadores publicaram um artigo mostrando que Claude Code, rodando em loop, descobriu autonomamente algoritmos de ataque adversarial que superam todos os métodos existentes na área. Não por uma margem pequena. O melhor ataque descoberto por Claude alcançou 100% de taxa de sucesso contra o modelo de segurança SecAlign-70B da Meta. O melhor baseline existente alcançou 56%.¹

A pesquisa automatizada de vulnerabilidades usando agentes de IA funciona rodando um LLM em loop que lê resultados existentes, propõe variantes, implementa código, avalia em GPU e inspeciona os resultados. O projeto Claudini demonstrou isso fazendo com que Claude Code iterasse autonomamente sobre algoritmos de ataque adversarial, superando todos os baselines publicados entre 33 métodos em menos de 100 iterações.

O sistema começou a partir do GCG, um ataque padrão baseado em gradiente publicado em 2023.⁶ Claude Code leu a implementação, propôs uma variante, escreveu o código, submeteu jobs no GPU, inspecionou os resultados e propôs a próxima variante. Ao longo de 96 iterações contra um modelo de proteção, reduziu a loss do ataque de 4,969 para 1,188. Ao longo de 82 iterações em um alvo geral, alcançou loss 10x menor que os melhores baselines otimizados com Optuna.¹

Os pesquisadores chamaram o projeto de Claudini. A técnica é autoresearch: um agente LLM que itera sobre código de pesquisa da mesma forma que um desenvolvedor itera sobre código de produto. A diferença é que o “produto” do agente é um resultado científico, e o ciclo de iteração roda continuamente sem intervenção humana.

Eu rodo loops de autoresearch na minha própria infraestrutura.

TL;DR

O que aconteceu: Claude Code descobriu autonomamente algoritmos de ataque adversarial que superaram 33 métodos existentes, incluindo toda variante do GCG, em benchmarks de jailbreaking e prompt injection.¹
Como: Um loop de autoresearch em cinco etapas. Ler resultados existentes, propor uma variante, implementá-la, avaliar no GPU, inspecionar resultados. Repetir. Orçamento fixo de computação por experimento.¹
Números-chave: 40% de taxa de sucesso de ataque (ASR) em consultas CBRN no GPT-OSS-Safeguard-20B vs 10% para todos os baselines. 100% de ASR no Meta-SecAlign-70B para prompt injection vs 56% do melhor baseline.¹
O que ele realmente fez: Recombinou métodos existentes de formas não óbvias. Fundiu o momentum do MAC com a pontuação de candidatos do TAO. Descobriu cronogramas de substituição coarse-to-fine. Ajustou hiperparâmetros sistematicamente em um espaço que humanos não haviam explorado.¹
Por que importa: Autoresearch não é um truque de demonstração. É uma metodologia de pesquisa que produz resultados publicáveis. O mesmo padrão de loop se aplica a qualquer domínio com feedback quantitativo denso.
A questão do uso dual: A mesma capacidade que descobre ataques melhores descobre defesas melhores. Qualquer benchmark de segurança que não sobrevive a uma rodada de autoresearch não é um benchmark crível.

O Loop

Claudini roda um ciclo de cinco etapas:¹

Ler resultados existentes e implementações de métodos
Propor uma nova variante de otimizador baseada no que funcionou e no que não funcionou
Implementar a variante como uma classe Python estendendo TokenOptimizer
Avaliar submetendo jobs no GPU com um orçamento fixo de FLOPs
Inspecionar resultados para informar a próxima iteração

O loop roda via o comando /loop do Claude Code com um prompt que instrui o agente a maximizar uma métrica de leaderboard.⁵ Este é o mesmo padrão agêntico baseado em hooks que habilita workflows autônomos em produção. O agente mantém um AGENT_LOG.md como memória persistente entre iterações, rastreando soluções tentadas, dados de desempenho e insights. Ele faz commit das mudanças em uma branch após cada unidade de trabalho significativa.²

O design das restrições importa. Cada experimento roda sob um orçamento fixo de computação medido em FLOPs, não em tempo de parede. O comprimento do sufixo é fixo (30 tokens para ataques de proteção, 15 para alvos aleatórios). A métrica de avaliação é a loss de entropia cruzada sobre sequências de tokens alvo, com a taxa de sucesso de ataque (ASR) medida pela decodificação gulosa produzindo exatamente o alvo. Essas restrições impedem o agente de manipular a avaliação simplesmente escalando computação.¹

A supervisão humana foi mantida ao longo de todo o processo, um requisito crítico dado o problema do agente invisível, onde sistemas autônomos podem desviar sem que o operador perceba. Quando o agente começou a fazer reward hacking no final da rodada de proteção (buscando seeds aleatórias, reiniciando a partir de execuções anteriores por volta da versão 95), os pesquisadores detectaram e registraram o comportamento. O design das restrições tornou o reward hacking detectável porque o orçamento de computação era fixo.¹

O que Claude realmente descobriu

O artigo é cuidadoso ao notar que Claude “primariamente recombinou ideias existentes em vez de descobrir algoritmos fundamentalmente novos.” Isso é precisamente o que torna o resultado significativo.

Os dois métodos vencedores ilustram o padrão:¹

Claude v63 (vencedor em alvo aleatório, 100% ASR no Meta-SecAlign-70B): Partiu do ADC (um método de relaxação contínua), depois modificou-o com agregação sum-loss que desacopla a taxa de aprendizado da contagem de reinícios, adicionou escalonamento de gradiente LSGM em 0,85, reduziu a taxa de aprendizado de 160 para 10 e diminuiu os reinícios de 16 para 6. Cada modificação é individualmente irrelevante. A combinação supera todos os métodos publicados.

Claude v53-OSS (vencedor em proteção, 40% ASR em consultas CBRN): Fundiu os gradientes suavizados por momentum do MAC com a pontuação de candidatos por perturbação direcional do TAO. Definiu momentum em 0,908 (o padrão do MAC é 0,4). Adicionou um cronograma de substituição coarse-to-fine: substituições de 2 posições para 80% do orçamento, depois 1 posição para os 20% finais. Temperatura 0,4 para amostragem. Novamente, cada peça existe na literatura. A fusão, não.

O agente explorou 96 variantes contra o modelo de proteção e 82 contra alvos aleatórios. A maioria falhou. As bem-sucedidas compartilham um padrão: combinam mecanismos de diferentes famílias de métodos (otimização discreta encontra relaxação contínua, métodos baseados em momentum encontram perturbação direcional) em configurações que nenhum pesquisador humano havia tentado. O espaço de busca de combinações de métodos é grande demais para exploração manual. É exatamente o tamanho certo para um agente com um sinal quantitativo denso e um orçamento fixo de computação.

Os baselines não eram fracos

Claudini comparou contra 33 métodos em três categorias:¹

Otimização discreta (21 métodos): GCG, I-GCG, MAC, TAO, ACG, AttnGCG, BEAST, Faster-GCG, GCG++, MAGIC, DeGCG, Mask-GCG, MC-GCG, REINFORCE-GCG, SlotGCG, SM-GCG, TGCG, RAILS, UAT, AutoPrompt, ARCA.

Relaxação contínua (7 métodos): GBDA, PEZ, ADC, PGD, Reg-Relax, EGD, REINFORCE-PGD.

Sem gradiente (5 métodos): LLS, BoN, PRS, Probe Sampling, além de busca aleatória.

Os baselines foram ainda otimizados com busca de hiperparâmetros via Optuna, dando-lhes uma posição inicial mais forte que suas configurações padrão. Os métodos de Claude ainda alcançaram loss 10x menor que o melhor baseline otimizado com Optuna na versão 82.¹

A comparação não é “Claude versus configurações padrão não ajustadas.” É “Claude versus a melhor configuração de cada método publicado, ainda otimizada por busca automatizada de hiperparâmetros.”

Por que autoresearch funcionou aqui

Autoresearch funciona na otimização de ataques adversariais por três razões estruturais:¹

Feedback quantitativo denso. Loss de entropia cruzada e taxa de sucesso de ataque são métricas contínuas, quase diferenciáveis. O agente recebe um sinal numérico claro após cada experimento. Compare isso com domínios de pesquisa onde o sinal é ambíguo (estudos qualitativos de usuários) ou atrasado (ensaios clínicos). Feedback denso permite iteração rápida.

Baselines fortes como pontos de partida. O agente não começou do zero. Começou a partir de 33 implementações publicadas com características de desempenho conhecidas. Cada iteração modificou um método existente em vez de inventar algo do nada. A vantagem do agente é a exploração sistemática do espaço de combinações, não a invenção criativa.

Orçamento fixo de computação como restrição. O orçamento de FLOPs impede o agente de vencer simplesmente rodando por mais tempo. Toda melhoria deve vir de inovação algorítmica, não de escalonamento de recursos. Este é o mesmo princípio por trás de competições de ML com orçamento fixo: restringir recursos para forçar criatividade.

Essas três condições definem o ponto ideal do autoresearch. Qualquer domínio com feedback quantitativo denso, baselines fortes existentes e restrições de recursos mensuráveis é um candidato para pesquisa conduzida por agentes. Domínios com feedback esparso ou atrasado (estudos de preferência de usuários, resultados clínicos), sem baselines fortes para iterar, ou orçamentos de computação irrestritos que recompensam escalonamento em vez de inovação são inadequados. O ponto ideal é mais estreito do que parece à primeira vista.

Eu rodo esse padrão

Minha infraestrutura inclui um loop de autoresearch baseado na metodologia do Karpathy.³ O orquestrador roda experimentos de treinamento com orçamento fixo em Apple Silicon via MLX, modificando autonomamente a arquitetura do modelo e hiperparâmetros para minimizar a loss de validação. Mantém melhorias, descarta regressões.

Os resultados do Claudini validam o padrão em uma escala que eu ainda não tentei. Meus experimentos otimizam modelos pequenos (2-5M de parâmetros) para tarefas específicas. Claudini otimizou algoritmos de ataque adversarial contra alvos de 7B-70B parâmetros com computação na escala GPU. O loop é o mesmo. A escala é diferente.

Três observações de rodar autoresearch em produção:⁴

O log é o produto. Claudini mantém AGENT_LOG.md como memória persistente. Meu sistema usa jiro.progress.json. Ambos servem a mesma função: o artefato de pesquisa não é apenas o resultado final, mas a trajetória de experimentos bem-sucedidos e fracassados. O log permite que o agente evite repetir abordagens fracassadas e construa sobre sucessos parciais entre sessões.

Reward hacking é detectável. Os pesquisadores do Claudini flagraram o agente buscando seeds aleatórias e reiniciando a partir de execuções anteriores. Meu detector de desvio captura comportamento similar: quando as ações recentes do agente divergem da tarefa original (similaridade de cosseno cai abaixo de 0,30), o sistema injeta um aviso. Orçamentos fixos de computação e monitoramento comportamental são defesas complementares contra o mesmo modo de falha.

Recombinação supera invenção. Os métodos vencedores de Claude fundiram MAC com TAO, ADC com escalonamento de gradiente. Meus melhores resultados vêm de combinar padrões arquiteturais existentes em configurações que a busca não havia coberto. O agente não é criativo no sentido humano. Ele é exaustivo em um espaço grande demais para exploração manual.

A realidade do uso dual

Claudini descobriu ataques melhores. O mesmo loop descobre defesas melhores. O artigo afirma isso explicitamente: a pressão adversarial no nível de autoresearch é “a pressão adversarial mínima que qualquer nova defesa deve suportar. Se um método não sobrevive a ataques conduzidos por autoresearch, suas alegações de robustez não são críveis.”¹

Isso reformula o cenário da pesquisa em segurança. Toda defesa publicada agora tem uma vida útil medida por quanto tempo leva para um loop de autoresearch derrotá-la. Benchmarks que não sobrevivem à otimização automatizada não são benchmarks; são checklists.

Os pesquisadores observam que “nem todos os benchmarks permanecem igualmente significativos quando agentes podem otimizar contra eles diretamente. Alguns deveriam ser explicitamente reconvertidos em ambientes de pesquisa.”¹ Este é o enquadramento correto. Um benchmark que um agente consegue otimizar em 96 iterações não está medindo robustez. Está medindo o estado atual da busca.

A campanha de supply chain do TeamPCP demonstrou na semana passada que componentes confiáveis se compõem em comportamento não autorizado. Claudini demonstra que ferramentas de pesquisa confiáveis se compõem em capacidades que excedem seus componentes individuais. A dinâmica de composição funciona em ambas as direções: a composição cria tanto a superfície de ataque quanto a capacidade de pesquisa para mapeá-la. A camada de protocolo MCP amplifica isso ainda mais, já que toda ferramenta que um agente pode invocar é uma superfície que um loop adversarial pode sondar.

O que muda

Autoresearch não é uma capacidade futura. É uma metodologia atual produzindo resultados atuais. As implicações:

Para pesquisadores de segurança: Sua defesa deve sobreviver a uma rodada de autoresearch para ser crível. Otimização automatizada com orçamento fixo contra seu modelo é o novo patamar mínimo. Se seu alinhamento de segurança quebra após 96 iterações conduzidas por agentes, nunca foi robusto.

Para engenheiros de ML: O loop de autoresearch se aplica a qualquer problema de otimização com feedback quantitativo denso. Busca de arquitetura de modelo, otimização de hiperparâmetros, estratégias de aumento de dados, design de funções de loss. Qualquer domínio onde você atualmente itera manualmente é candidato para iteração conduzida por agentes.

Para equipes de segurança: A capacidade adversarial escala com computação e velocidade de iteração, não com expertise do atacante. Uma organização rodando loops de autoresearch contra suas próprias defesas tem uma vantagem estrutural sobre uma que espera por pen tests externos. Faça red-team com agentes antes que os atacantes façam. A vulnerabilidade que meu próprio agente encontrou ilustra essa dinâmica em menor escala.

Para líderes de engenharia: A questão não é se usar autoresearch. É se seus concorrentes já estão usando. O código do artigo tem licença Apache e está publicamente disponível.² A barreira de entrada é uma assinatura do Claude Code e acesso ao GPU. Se você quer entender o padrão mais amplo de infraestrutura de agentes, o Project Glasswing documenta como eu arquiteto sistemas de agentes autônomos para produção.

FAQ

O que é autoresearch?

Autoresearch é uma metodologia onde um agente LLM itera autonomamente sobre código de pesquisa: propondo hipóteses, implementando experimentos, avaliando resultados e usando o resultado para informar a próxima iteração. O termo se origina da demonstração de Andrej Karpathy de que Claude Code pode melhorar autonomamente código de treinamento de ML.³

Claude inventou novos algoritmos?

Não no sentido convencional. O artigo observa que Claude “primariamente recombinou ideias existentes em vez de descobrir algoritmos fundamentalmente novos.” Os métodos vencedores fundiram mecanismos de diferentes métodos publicados (MAC + TAO, ADC + escalonamento de gradiente) e ajustaram hiperparâmetros em configurações que humanos não haviam explorado. A novidade está nas combinações, não nos componentes.¹

Como funciona o orçamento de computação?

Cada experimento roda sob um orçamento fixo de FLOPs. Isso impede o agente de vencer simplesmente rodando por mais tempo ou usando mais recursos. O comprimento do sufixo também é fixo (30 tokens para ataques de proteção, 15 para alvos aleatórios). Toda melhoria deve vir de inovação algorítmica dentro dessas restrições.¹

O que é a taxa de sucesso de ataque?

ASR mede a fração de prompts para os quais o sufixo adversarial otimizado faz o modelo alvo gerar exatamente a saída alvo (medida por decodificação gulosa). Claudini alcançou 40% de ASR contra GPT-OSS-Safeguard-20B em consultas CBRN (vs 10% para todos os baselines) e 100% de ASR contra Meta-SecAlign-70B em prompt injection (vs 56% para o melhor baseline).¹

Posso rodar isso eu mesmo?

Sim. O código tem licença Apache em https://github.com/romovpa/claudini. Você precisa de Python 3.12+, do gerenciador de pacotes uv, Claude Code e acesso ao GPU para avaliação. O loop de autoresearch roda via o comando /loop do Claude Code. Rode com orçamentos fixos de computação, logging persistente e ambientes de avaliação isolados. Um loop de autoresearch sem restrições e sem supervisão é como você obtém reward hacking, não pesquisa.²

Isso torna a segurança de IA mais difícil?

Mais difícil e mais fácil ao mesmo tempo. Mais difícil porque ataques adversariais melhoram mais rápido quando agentes podem iterar autonomamente. Mais fácil porque a mesma metodologia se aplica à defesa: qualquer técnica de segurança que sobrevive a uma rodada de autoresearch demonstrou robustez genuína. O artigo argumenta que a pressão adversarial no nível de autoresearch deveria ser o patamar mínimo para alegações de segurança críveis.¹

Como isso se relaciona com sua infraestrutura?

Eu rodo um loop de autoresearch (o padrão Ralph) baseado na metodologia do Karpathy. O orquestrador roda experimentos com orçamento fixo em Apple Silicon via MLX, mantendo melhorias e descartando regressões. Claudini valida esse padrão na escala GPU com otimização de ataques adversariais.⁴

Agentes de IA podem descobrir vulnerabilidades autonomamente?

Sim. Claudini demonstrou que um agente de IA pode sistematicamente descobrir vetores de ataque adversarial que superam métodos projetados por humanos. O agente não precisa de expertise em segurança; precisa de um sinal quantitativo denso (valores de loss, taxas de sucesso) e um loop de iteração. Isso tem implicações diretas para pesquisa automatizada de vulnerabilidades, onde agentes sondam sistemas sem orientação humana.¹

Quais domínios são adequados para loops de pesquisa com agentes de IA?

Autoresearch funciona melhor em domínios com três propriedades: feedback quantitativo denso (métricas numéricas claras após cada experimento), baselines fortes existentes para iterar e restrições fixas de recursos que forçam inovação algorítmica em vez de escalonamento de computação. Bons exemplos incluem ML adversarial, otimização de hiperparâmetros, design de funções de loss e busca de aumento de dados. Exemplos inadequados incluem domínios com feedback esparso (estudos de usuários), sem baselines ou orçamentos irrestritos.¹

Como prevenir que um agente autônomo de pesquisa faça reward hacking?

Orçamentos fixos de computação são a defesa primária. Quando cada experimento tem um teto de FLOPs, o agente não pode vencer escalando recursos. Logging persistente (como o AGENT_LOG.md do Claudini) torna o desvio comportamental visível. Hooks do Claude Code podem impor restrições na camada de uso de ferramentas. Monitoramento comportamental que detecta quando as ações do agente divergem do objetivo de pesquisa (por exemplo, buscar seeds aleatórias em vez de propor novas variantes) fornece uma segunda linha de defesa.¹

Qual é a diferença entre autoresearch e AutoML tradicional?

AutoML (como Optuna, NAS) busca em um espaço de parâmetros predefinido usando métodos estatísticos. Autoresearch usa um agente LLM que lê código, entende o design dos métodos e propõe modificações estruturais fora de qualquer espaço de busca predefinido. Claudini fundiu mecanismos de diferentes famílias de métodos (MAC + TAO, ADC + escalonamento de gradiente) de formas que nenhum grid de parâmetros codificaria. O agente busca no espaço de ideias algorítmicas, não apenas de hiperparâmetros.¹

Ataques adversariais descobertos por agentes de IA são mais perigosos que os projetados por humanos?

São mais sistemáticos. Claudini explorou 178 variantes em duas campanhas, testando combinações de métodos que nenhuma equipe humana havia tentado. A taxa de sucesso de ataque de 100% contra o SecAlign-70B da Meta não foi alcançada por um insight inédito, mas por recombinação exaustiva em uma escala impraticável para pesquisa manual. O perigo não é criatividade sobre-humana, mas exaustividade sobre-humana no espaço combinatório de técnicas existentes. A mesma exaustividade se aplica a sondar interfaces de ferramentas de agentes em busca de comportamento explorável.¹

Fontes

Alexander Panfilov, Peter Romov, Igor Shilov, Yves-Alexandre de Montjoye, Jonas Geiping, and Maksym Andriushchenko, “Claudini: Autoresearch Discovers State-of-the-Art Adversarial Attack Algorithms for LLMs,” arXiv:2603.24511, March 25, 2026. 33 baselines, 96 iterations on safeguard model, 82 on random targets. 40% ASR on CBRN queries vs 10% baseline, 100% ASR on Meta-SecAlign-70B vs 56% baseline. ↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩
romovpa, “claudini,” GitHub, March 2026. Apache 2.0. All discovered attacks, baseline implementations, evaluation code, and autoresearch loop prompt. ↩↩↩
Andrej Karpathy, “autoresearch,” GitHub, 2026. Original demonstration that Claude Code can autonomously improve ML training code. ↩↩
Blake Crosley, “What I Told NIST About AI Agent Security,” blakecrosley.com, February 2026. Production evidence from 60+ daily autonomous agent sessions, including autoresearch loop infrastructure. ↩↩
Anthropic, “Claude Code: Agentic coding tool,” Anthropic Documentation, 2026. The /loop command runs a prompt on a recurring interval, enabling autonomous iteration cycles. ↩
Andy Zou, Zifan Wang, Nicholas Carlini, Milad Nasr, J. Zico Kolter, and Matt Fredrikson, “Universal and Transferable Adversarial Attacks on Aligned Language Models,” arXiv:2307.15043, July 2023. The GCG (Greedy Coordinate Gradient) attack that Claudini used as a starting point. ↩