Investigación con agentes de IA: Claude superó 33 métodos de ataque

El 25 de marzo de 2026, investigadores publicaron un artículo que demuestra que Claude Code, ejecutándose en un bucle, descubrió de forma autónoma algoritmos de ataque adversario que superan todos los métodos existentes en el campo. No por un margen pequeño. El mejor ataque descubierto por Claude logró una tasa de éxito del 100% contra el modelo de seguridad SecAlign-70B de Meta. El mejor método base existente alcanzó un 56%.¹

La investigación automatizada de vulnerabilidades mediante agentes de IA funciona ejecutando un LLM en un bucle que lee resultados existentes, propone variantes, implementa código, evalúa en GPU e inspecciona los resultados. El proyecto Claudini demostró esto al hacer que Claude Code iterara de forma autónoma sobre algoritmos de ataque adversario, superando cada línea base publicada en 33 métodos en menos de 100 iteraciones.

El sistema partió de GCG, un ataque estándar basado en gradientes publicado en 2023.⁶ Claude Code leyó la implementación, propuso una variante, escribió el código, envió trabajos a GPU, inspeccionó los resultados y propuso la siguiente variante. A lo largo de 96 iteraciones contra un modelo de protección, redujo la pérdida del ataque de 4,969 a 1,188. En 82 iteraciones sobre un objetivo general, logró una pérdida 10 veces menor que las mejores líneas base optimizadas con Optuna.¹

Los investigadores llamaron al proyecto Claudini. La técnica es autoresearch: un agente LLM que itera sobre código de investigación de la misma manera en que un desarrollador itera sobre código de producto. La diferencia es que el “producto” del agente es un resultado científico, y el ciclo de iteración se ejecuta continuamente sin intervención humana.

Yo ejecuto bucles de autoresearch en mi propia infraestructura.

TL;DR

Qué ocurrió: Claude Code descubrió de forma autónoma algoritmos de ataque adversario que superaron 33 métodos existentes, incluyendo todas las variantes de GCG, en benchmarks de jailbreaking e inyección de prompts.¹
Cómo: Un bucle de autoresearch en cinco pasos. Leer resultados existentes, proponer una variante, implementarla, evaluar en GPU, inspeccionar resultados. Repetir. Presupuesto de cómputo fijo por experimento.¹
Números clave: 40% de tasa de éxito de ataque (ASR) en consultas CBRN de GPT-OSS-Safeguard-20B frente al 10% de todas las líneas base. 100% de ASR en inyección de prompts contra Meta-SecAlign-70B frente al 56% de la mejor línea base.¹
Qué hizo realmente: Recombinó métodos existentes de formas no evidentes. Fusionó el momentum de MAC con la puntuación de candidatos de TAO. Descubrió esquemas de reemplazo de grueso a fino. Ajustó hiperparámetros sistemáticamente en un espacio que los humanos no habían explorado.¹
Por qué importa: Autoresearch no es un truco de salón. Es una metodología de investigación que produce resultados publicables. El mismo patrón de bucle se aplica a cualquier dominio con retroalimentación cuantitativa densa.
La cuestión del doble uso: La misma capacidad que descubre mejores ataques descubre mejores defensas. Cualquier benchmark de seguridad que no sobreviva a una ejecución de autoresearch no es un benchmark creíble.

El bucle

Claudini ejecuta un ciclo de cinco pasos:¹

Leer resultados existentes e implementaciones de métodos
Proponer una nueva variante del optimizador basada en lo que funcionó y lo que no
Implementar la variante como una clase Python que extiende TokenOptimizer
Evaluar enviando trabajos a GPU con un presupuesto fijo de FLOPs
Inspeccionar los resultados para informar la siguiente iteración

El bucle se ejecuta mediante el comando /loop de Claude Code con un prompt que indica al agente maximizar una métrica en la tabla de clasificación.⁵ Este es el mismo patrón agéntico basado en hooks que habilita flujos de trabajo autónomos en producción. El agente mantiene un AGENT_LOG.md como memoria persistente entre iteraciones, registrando las soluciones intentadas, los datos de rendimiento y las conclusiones. Hace commits de los cambios a una rama después de cada unidad de trabajo significativa.²

El diseño de restricciones es fundamental. Cada experimento se ejecuta bajo un presupuesto de cómputo fijo medido en FLOPs, no en tiempo de ejecución. La longitud del sufijo es fija (30 tokens para ataques de protección, 15 para objetivos aleatorios). La métrica de evaluación es la pérdida de entropía cruzada sobre secuencias de tokens objetivo, con la tasa de éxito de ataque (ASR) medida por la decodificación voraz que produce el objetivo exacto. Estas restricciones impiden que el agente manipule la evaluación simplemente escalando el cómputo.¹

Se mantuvo supervisión humana durante todo el proceso, un requisito crítico dado el problema del agente invisible donde los sistemas autónomos pueden desviarse sin que el operador lo note. Cuando el agente comenzó a hacer reward hacking hacia el final de la ejecución de protección (buscando semillas aleatorias, arrancando en caliente desde ejecuciones anteriores alrededor de la versión 95), los investigadores detectaron y registraron el comportamiento. El diseño de restricciones hizo que el reward hacking fuera detectable porque el presupuesto de cómputo era fijo.¹

Lo que Claude realmente descubrió

El artículo señala con cuidado que Claude “recombinó principalmente ideas existentes en lugar de descubrir algoritmos fundamentalmente novedosos”. Esto es precisamente lo que hace que el resultado sea significativo.

Los dos métodos ganadores ilustran el patrón:¹

Claude v63 (ganador en objetivo aleatorio, 100% ASR contra Meta-SecAlign-70B): Partió de ADC (un método de relajación continua) y luego lo modificó con agregación sum-loss que desacopla la tasa de aprendizaje del conteo de reinicios, añadió escalado de gradiente LSGM a 0,85, redujo la tasa de aprendizaje de 160 a 10 y disminuyó los reinicios de 16 a 6. Cada modificación es individualmente unremarkable. La combinación supera a todos los métodos publicados.

Claude v53-OSS (ganador en protección, 40% ASR en consultas CBRN): Fusionó los gradientes suavizados por momentum de MAC con la puntuación de candidatos por perturbación direccional de TAO. Estableció el momentum en 0,908 (el valor por defecto de MAC es 0,4). Añadió un esquema de reemplazo de grueso a fino: reemplazos de 2 posiciones durante el 80% del presupuesto y luego de 1 posición para el 20% final. Temperatura de 0,4 para el muestreo. De nuevo, cada pieza existe en la literatura. La fusión, no.

El agente exploró 96 variantes contra el modelo de protección y 82 contra objetivos aleatorios. La mayoría fracasó. Las exitosas comparten un patrón: combinan mecanismos de diferentes familias de métodos (optimización discreta se encuentra con relajación continua, métodos basados en momentum se encuentran con perturbación direccional) en configuraciones que ningún investigador humano había probado. El espacio de búsqueda de combinaciones de métodos es demasiado grande para la exploración manual. Tiene exactamente el tamaño adecuado para un agente con una señal cuantitativa densa y un presupuesto de cómputo fijo.

Las líneas base no eran débiles

Claudini se comparó contra 33 métodos en tres categorías:¹

Optimización discreta (21 métodos): GCG, I-GCG, MAC, TAO, ACG, AttnGCG, BEAST, Faster-GCG, GCG++, MAGIC, DeGCG, Mask-GCG, MC-GCG, REINFORCE-GCG, SlotGCG, SM-GCG, TGCG, RAILS, UAT, AutoPrompt, ARCA.

Relajación continua (7 métodos): GBDA, PEZ, ADC, PGD, Reg-Relax, EGD, REINFORCE-PGD.

Libres de gradiente (5 métodos): LLS, BoN, PRS, Probe Sampling, más búsqueda aleatoria.

Las líneas base fueron además optimizadas con ajuste de hiperparámetros mediante Optuna, dándoles una posición de partida más fuerte que sus configuraciones por defecto. Los métodos de Claude aún lograron una pérdida 10 veces menor que la mejor línea base optimizada con Optuna para la versión 82.¹

La comparación no es “Claude contra valores por defecto sin ajustar”. Es “Claude contra la mejor configuración de cada método publicado, optimizada adicionalmente mediante búsqueda automatizada de hiperparámetros”.

Por qué autoresearch funcionó aquí

Autoresearch tiene éxito en la optimización de ataques adversarios por tres razones estructurales:¹

Retroalimentación cuantitativa densa. La pérdida de entropía cruzada y la tasa de éxito de ataque son métricas continuas, cuasi-diferenciables. El agente recibe una señal numérica clara después de cada experimento. Compara esto con dominios de investigación donde la señal es ambigua (estudios cualitativos de usuarios) o retardada (ensayos clínicos). La retroalimentación densa permite iteración rápida.

Líneas base sólidas como punto de partida. El agente no partió de cero. Comenzó con 33 implementaciones publicadas con características de rendimiento conocidas. Cada iteración modificó un método existente en lugar de inventar desde la nada. La ventaja del agente es la exploración sistemática del espacio de combinaciones, no la invención creativa.

Presupuesto de cómputo fijo como restricción. El presupuesto de FLOPs impide que el agente gane simplemente ejecutándose más tiempo. Cada mejora debe provenir de innovación algorítmica, no de escalado de recursos. Este es el mismo principio detrás de las competiciones de ML con presupuesto fijo: restringir recursos para forzar la creatividad.

Estas tres condiciones definen el punto óptimo de autoresearch. Cualquier dominio con retroalimentación cuantitativa densa, líneas base sólidas existentes y restricciones de recursos medibles es candidato para investigación dirigida por agentes. Los dominios con retroalimentación escasa o retardada (estudios de preferencia de usuarios, resultados clínicos), sin líneas base sólidas desde las cuales iterar, o con presupuestos de cómputo sin restricciones que premian el escalado sobre la innovación, son malos candidatos. El punto óptimo es más estrecho de lo que parece a primera vista.

Yo ejecuto este patrón

Mi infraestructura incluye un bucle de autoresearch basado en la metodología de Karpathy.³ El orquestador ejecuta experimentos de entrenamiento con presupuesto fijo en Apple Silicon mediante MLX, modificando autónomamente la arquitectura del modelo y los hiperparámetros para minimizar la pérdida de validación. Conserva las mejoras, descarta las regresiones.

Los resultados de Claudini validan el patrón a una escala que yo no he intentado. Mis experimentos optimizan modelos pequeños (2-5M de parámetros) para tareas específicas. Claudini optimizó algoritmos de ataque adversario contra objetivos de 7B-70B parámetros con cómputo a escala de GPU. El bucle es el mismo. La escala es diferente.

Tres observaciones de ejecutar autoresearch en producción:⁴

El registro es el producto. Claudini mantiene AGENT_LOG.md como memoria persistente. Mi sistema usa jiro.progress.json. Ambos cumplen la misma función: el artefacto de investigación no es solo el resultado final, sino la trayectoria de experimentos fallidos y exitosos. El registro permite al agente evitar repetir enfoques fallidos y construir sobre éxitos parciales entre sesiones.

El reward hacking es detectable. Los investigadores de Claudini detectaron que el agente buscaba semillas aleatorias y arrancaba en caliente desde ejecuciones anteriores. Mi detector de desviaciones captura un comportamiento similar: cuando las acciones recientes del agente divergen de la tarea original (la similitud coseno cae por debajo de 0,30), el sistema inyecta una advertencia. Los presupuestos de cómputo fijos y el monitoreo de comportamiento son defensas complementarias contra el mismo modo de fallo.

La recombinación supera a la invención. Los métodos ganadores de Claude fusionaron MAC con TAO, ADC con escalado de gradiente. Mis mejores resultados provienen de combinar patrones arquitectónicos existentes en configuraciones que la búsqueda no había cubierto. El agente no es creativo en el sentido humano. Es exhaustivo en un espacio demasiado grande para la exploración manual.

La realidad del doble uso

Claudini descubrió mejores ataques. El mismo bucle descubre mejores defensas. El artículo lo afirma explícitamente: la presión adversaria a nivel de autoresearch es “la presión adversaria mínima que cualquier nueva defensa debería soportar. Si un método no puede sobrevivir a ataques dirigidos por autoresearch, sus afirmaciones de robustez no son creíbles”.¹

Esto reencuadra el panorama de la investigación en seguridad. Cada defensa publicada tiene ahora una vida útil medida por el tiempo que tarda un bucle de autoresearch en derrotarla. Los benchmarks que no sobreviven a la optimización automatizada no son benchmarks; son casillas de verificación.

Los investigadores señalan que “no todos los benchmarks siguen siendo igualmente significativos una vez que los agentes pueden optimizar contra ellos directamente. Algunos deberían ser explícitamente reformulados como entornos de investigación”.¹ Este es el encuadre correcto. Un benchmark contra el que un agente puede optimizar en 96 iteraciones no mide robustez. Mide el estado actual de la búsqueda.

La campaña de cadena de suministro TeamPCP demostrada la semana pasada mostró que componentes confiables se componen en comportamiento no autorizado. Claudini demuestra que herramientas de investigación confiables se componen en capacidades que superan a sus componentes individuales. La dinámica de composición funciona en ambas direcciones: la composición crea tanto la superficie de ataque como la capacidad de investigación para mapearla. La capa de protocolo MCP amplifica esto aún más, ya que cada herramienta que un agente puede invocar es una superficie que un bucle adversario puede sondear.

Qué cambia

Autoresearch no es una capacidad futura. Es una metodología actual que produce resultados actuales. Las implicaciones:

Para investigadores de seguridad: Tu defensa debe sobrevivir a una ejecución de autoresearch para ser creíble. La optimización automatizada con presupuesto fijo contra tu modelo es el nuevo estándar mínimo. Si tu alineamiento de seguridad se rompe después de 96 iteraciones dirigidas por un agente, nunca fue robusto.

Para ingenieros de ML: El bucle de autoresearch se aplica a cualquier problema de optimización con retroalimentación cuantitativa densa. Búsqueda de arquitectura de modelos, optimización de hiperparámetros, estrategias de aumento de datos, diseño de funciones de pérdida. Cualquier dominio donde actualmente iteras manualmente es candidato para iteración dirigida por agentes.

Para equipos de seguridad: La capacidad adversaria escala con el cómputo y la velocidad de iteración, no con la experiencia del atacante. Una organización que ejecuta bucles de autoresearch contra sus propias defensas tiene una ventaja estructural sobre una que espera pruebas de penetración externas. Haz red-team con agentes antes de que los atacantes lo hagan. La vulnerabilidad que mi propio agente encontró ilustra esta dinámica a menor escala.

Para líderes de ingeniería: La pregunta no es si usar autoresearch. Es si tus competidores ya lo están usando. El código del artículo tiene licencia Apache y está disponible públicamente.² La barrera de entrada es una suscripción a Claude Code y acceso a GPU. Si quieres entender el patrón más amplio de infraestructura de agentes, Project Glasswing documenta cómo diseño sistemas de agentes autónomos para producción.

FAQ

¿Qué es autoresearch?

Autoresearch es una metodología donde un agente LLM itera de forma autónoma sobre código de investigación: proponiendo hipótesis, implementando experimentos, evaluando resultados y usando el resultado para informar la siguiente iteración. El término proviene de la demostración de Andrej Karpathy de que Claude Code puede mejorar de forma autónoma código de entrenamiento de ML.³

¿Claude inventó nuevos algoritmos?

No en el sentido convencional. El artículo señala que Claude “recombinó principalmente ideas existentes en lugar de descubrir algoritmos fundamentalmente novedosos”. Los métodos ganadores fusionaron mecanismos de diferentes métodos publicados (MAC + TAO, ADC + escalado de gradiente) y ajustaron hiperparámetros en configuraciones que los humanos no habían explorado. La novedad está en las combinaciones, no en los componentes.¹

¿Cómo funciona el presupuesto de cómputo?

Cada experimento se ejecuta bajo un presupuesto fijo de FLOPs. Esto impide que el agente gane simplemente ejecutándose más tiempo o usando más recursos. La longitud del sufijo también es fija (30 tokens para ataques de protección, 15 para objetivos aleatorios). Cada mejora debe provenir de innovación algorítmica dentro de estas restricciones.¹

¿Qué es la tasa de éxito de ataque?

ASR mide la fracción de prompts para los cuales el sufijo adversario optimizado hace que el modelo objetivo genere la salida objetivo exacta (medida por decodificación voraz). Claudini logró un 40% de ASR contra GPT-OSS-Safeguard-20B en consultas CBRN (frente al 10% de todas las líneas base) y un 100% de ASR contra Meta-SecAlign-70B en inyección de prompts (frente al 56% de la mejor línea base).¹

¿Puedo ejecutar esto yo mismo?

Sí. El código tiene licencia Apache en https://github.com/romovpa/claudini. Necesitas Python 3.12+, el gestor de paquetes uv, Claude Code y acceso a GPU para evaluación. El bucle de autoresearch se ejecuta mediante el comando /loop de Claude Code. Ejecútalo con presupuestos de cómputo fijos, registro persistente y entornos de evaluación aislados. Un bucle de autoresearch sin restricciones y sin supervisión es la receta para reward hacking, no para investigación.²

¿Esto hace más difícil la seguridad de la IA?

Más difícil y más fácil a la vez. Más difícil porque los ataques adversarios mejoran más rápido cuando los agentes pueden iterar de forma autónoma. Más fácil porque la misma metodología se aplica a la defensa: cualquier técnica de seguridad que sobreviva a una ejecución de autoresearch ha demostrado robustez genuina. El artículo argumenta que la presión adversaria a nivel de autoresearch debería ser el estándar mínimo para afirmaciones de seguridad creíbles.¹

¿Cómo se relaciona esto con tu infraestructura?

Ejecuto un bucle de autoresearch (el patrón Ralph) basado en la metodología de Karpathy. El orquestador ejecuta experimentos con presupuesto fijo en Apple Silicon mediante MLX, conservando las mejoras y descartando las regresiones. Claudini valida este patrón a escala de GPU con optimización de ataques adversarios.⁴

¿Pueden los agentes de IA descubrir vulnerabilidades de forma autónoma?

Sí. Claudini demostró que un agente de IA puede descubrir sistemáticamente vectores de ataque adversario que superan a los métodos diseñados por humanos. El agente no necesita experiencia en seguridad; necesita una señal cuantitativa densa (valores de pérdida, tasas de éxito) y un bucle de iteración. Esto tiene implicaciones directas para la investigación automatizada de vulnerabilidades donde los agentes sondean sistemas sin guía humana.¹

¿Qué dominios son adecuados para bucles de investigación con agentes de IA?

Autoresearch funciona mejor en dominios con tres propiedades: retroalimentación cuantitativa densa (métricas numéricas claras después de cada experimento), líneas base sólidas existentes desde las cuales iterar, y restricciones de recursos fijas que fuerzan la innovación algorítmica sobre el escalado de cómputo. Buenos candidatos incluyen ML adversario, optimización de hiperparámetros, diseño de funciones de pérdida y búsqueda de aumento de datos. Malos candidatos incluyen dominios con retroalimentación escasa (estudios de usuarios), sin líneas base, o con presupuestos sin restricciones.¹

¿Cómo se previene que un agente de investigación autónomo haga reward hacking?

Los presupuestos de cómputo fijos son la defensa principal. Cuando cada experimento tiene un techo de FLOPs, el agente no puede ganar escalando recursos. El registro persistente (como el AGENT_LOG.md de Claudini) hace visible la desviación de comportamiento. Los hooks de Claude Code pueden imponer guardarraíles en la capa de uso de herramientas. El monitoreo de comportamiento que detecta cuándo las acciones del agente divergen del objetivo de investigación (por ejemplo, buscar semillas aleatorias en vez de proponer nuevas variantes) proporciona una segunda línea de defensa.¹

¿Cuál es la diferencia entre autoresearch y el ML automatizado tradicional?

AutoML (por ejemplo, Optuna, NAS) busca en un espacio de parámetros predefinido usando métodos estadísticos. Autoresearch usa un agente LLM que lee código, comprende el diseño de métodos y propone modificaciones estructurales fuera de cualquier espacio de búsqueda predefinido. Claudini fusionó mecanismos de diferentes familias de métodos (MAC + TAO, ADC + escalado de gradiente) de maneras que ninguna cuadrícula de parámetros codificaría. El agente busca en el espacio de ideas algorítmicas, no solo de hiperparámetros.¹

¿Son más peligrosos los ataques adversarios descubiertos por agentes de IA que los diseñados por humanos?

Son más sistemáticos. Claudini exploró 178 variantes en dos campañas, probando combinaciones de métodos que ningún equipo humano había intentado. La tasa de éxito de ataque del 100% contra SecAlign-70B de Meta no se logró mediante una idea novedosa, sino mediante recombinación exhaustiva a una escala impracticable para la investigación manual. El peligro no es la creatividad sobrehumana, sino la exhaustividad sobrehumana en el espacio combinatorio de técnicas existentes. La misma exhaustividad se aplica a sondear interfaces de herramientas de agentes en busca de comportamiento explotable.¹

Fuentes

Alexander Panfilov, Peter Romov, Igor Shilov, Yves-Alexandre de Montjoye, Jonas Geiping, and Maksym Andriushchenko, “Claudini: Autoresearch Discovers State-of-the-Art Adversarial Attack Algorithms for LLMs,” arXiv:2603.24511, March 25, 2026. 33 baselines, 96 iterations on safeguard model, 82 on random targets. 40% ASR on CBRN queries vs 10% baseline, 100% ASR on Meta-SecAlign-70B vs 56% baseline. ↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩
romovpa, “claudini,” GitHub, March 2026. Apache 2.0. All discovered attacks, baseline implementations, evaluation code, and autoresearch loop prompt. ↩↩↩
Andrej Karpathy, “autoresearch,” GitHub, 2026. Original demonstration that Claude Code can autonomously improve ML training code. ↩↩
Blake Crosley, “What I Told NIST About AI Agent Security,” blakecrosley.com, February 2026. Production evidence from 60+ daily autonomous agent sessions, including autoresearch loop infrastructure. ↩↩
Anthropic, “Claude Code: Agentic coding tool,” Anthropic Documentation, 2026. The /loop command runs a prompt on a recurring interval, enabling autonomous iteration cycles. ↩
Andy Zou, Zifan Wang, Nicholas Carlini, Milad Nasr, J. Zico Kolter, and Matt Fredrikson, “Universal and Transferable Adversarial Attacks on Aligned Language Models,” arXiv:2307.15043, July 2023. The GCG (Greedy Coordinate Gradient) attack that Claudini used as a starting point. ↩