KI-Agenten-Forschung: Claude übertraf 33 Angriffsmethoden
Am 25. März 2026 veröffentlichten Forscher eine Arbeit, die zeigt, dass Claude Code in einer Schleife autonom adversariale Angriffsalgorithmen entdeckte, die jede bestehende Methode im Feld übertreffen. Nicht knapp. Der beste von Claude entdeckte Angriff erzielte eine Erfolgsrate von 100 % gegen Metas SecAlign-70B-Sicherheitsmodell. Die beste existierende Baseline erreichte 56 %.1
Automatisierte Schwachstellenforschung mit KI-Agenten funktioniert, indem ein LLM in einer Schleife ausgeführt wird, der bestehende Ergebnisse liest, Varianten vorschlägt, Code implementiert, auf GPU evaluiert und Ergebnisse inspiziert. Das Claudini-Projekt demonstrierte dies, indem Claude Code autonom adversariale Angriffsalgorithmen iterierte und dabei jede veröffentlichte Baseline über 33 Methoden hinweg in unter 100 Iterationen übertraf.
Das System startete mit GCG, einem Standard-gradientenbasierten Angriff, der 2023 veröffentlicht wurde.6 Claude Code las die Implementierung, schlug eine Variante vor, schrieb den Code, reichte GPU-Jobs ein, inspizierte die Ergebnisse und schlug die nächste Variante vor. Über 96 Iterationen gegen ein Sicherheitsmodell reduzierte es den Angriffsverlust von 4,969 auf 1,188. Über 82 Iterationen bei einem allgemeinen Ziel erzielte es einen 10-fach niedrigeren Verlust als die besten Optuna-optimierten Baselines.1
Die Forscher nannten das Projekt Claudini. Die Technik heißt Autoresearch: ein LLM-Agent, der Forschungscode iteriert, wie ein Entwickler Produktcode iteriert. Der Unterschied besteht darin, dass das „Produkt” des Agenten ein wissenschaftliches Ergebnis ist und der Iterationszyklus kontinuierlich ohne menschliches Eingreifen läuft.
Ich betreibe Autoresearch-Schleifen in meiner eigenen Infrastruktur.
TL;DR
- Was geschah: Claude Code entdeckte autonom adversariale Angriffsalgorithmen, die 33 bestehende Methoden übertrafen, einschließlich jeder GCG-Variante, über Jailbreaking- und Prompt-Injection-Benchmarks hinweg.1
- Wie: Eine fünfstufige Autoresearch-Schleife. Bestehende Ergebnisse lesen, eine Variante vorschlagen, implementieren, auf GPU evaluieren, Ergebnisse inspizieren. Wiederholen. Festes Rechenbudget pro Experiment.1
- Schlüsselzahlen: 40 % Angriffserfolgsrate (ASR) bei GPT-OSS-Safeguard-20B CBRN-Anfragen gegenüber 10 % für alle Baselines. 100 % ASR bei Meta-SecAlign-70B Prompt-Injection gegenüber 56 % bester Baseline.1
- Was tatsächlich geschah: Bestehende Methoden wurden auf nicht offensichtliche Weise rekombiniert. MACs Momentum wurde mit TAOs Kandidatenbewertung zusammengeführt. Grob-zu-Fein-Ersetzungspläne wurden entdeckt. Hyperparameter wurden systematisch über einen Raum hinweg optimiert, den Menschen nicht erkundet hatten.1
- Warum es wichtig ist: Autoresearch ist kein Partytrick. Es ist eine Forschungsmethodik, die publizierbare Ergebnisse liefert. Dasselbe Schleifenmuster lässt sich auf jede Domäne mit dichtem quantitativem Feedback anwenden.
- Die Dual-Use-Frage: Dieselbe Fähigkeit, die bessere Angriffe entdeckt, entdeckt auch bessere Verteidigungen. Jeder Sicherheitsbenchmark, der einen Autoresearch-Durchlauf nicht übersteht, ist kein glaubwürdiger Benchmark.
Die Schleife
Claudini durchläuft einen fünfstufigen Zyklus:1
- Lesen bestehender Ergebnisse und Methodenimplementierungen
- Vorschlagen einer neuen Optimierervariante basierend auf Erfolgen und Misserfolgen
- Implementieren der Variante als Python-Klasse, die
TokenOptimizererweitert - Evaluieren durch Einreichen von GPU-Jobs mit festem FLOPs-Budget
- Inspizieren der Ergebnisse für die nächste Iteration
Die Schleife läuft über den /loop-Befehl von Claude Code mit einem Prompt, der den Agenten anweist, eine Leaderboard-Metrik zu maximieren.5 Dies ist dasselbe hook-basierte agentische Muster, das autonome Workflows in der Produktion ermöglicht. Der Agent führt ein AGENT_LOG.md als persistenten Speicher über Iterationen hinweg, in dem versuchte Lösungen, Leistungsdaten und Erkenntnisse festgehalten werden. Nach jeder bedeutenden Arbeitseinheit committet er Änderungen in einen Branch.2
Das Constraint-Design ist entscheidend. Jedes Experiment läuft unter einem festen Rechenbudget, gemessen in FLOPs, nicht in Wandzeit. Die Suffix-Länge ist festgelegt (30 Token für Sicherheitsangriffe, 15 für zufällige Ziele). Die Evaluierungsmetrik ist der Kreuzentropieverlust über Ziel-Token-Sequenzen, wobei die Angriffserfolgsrate (ASR) durch Greedy Decoding gemessen wird, das die exakte Zielausgabe erzeugt. Diese Einschränkungen verhindern, dass der Agent die Evaluation durch bloßes Skalieren der Rechenleistung aushebelt.1
Die menschliche Aufsicht wurde durchgehend aufrechterhalten – eine kritische Anforderung angesichts des Problems unsichtbarer Agenten, bei dem autonome Systeme ohne Bewusstsein des Betreibers abdriften können. Als der Agent gegen Ende des Sicherheitsdurchlaufs begann, Reward Hacking zu betreiben (Suche nach zufälligen Seeds, Warmstart aus vorherigen Läufen um Version 95), erkannten und dokumentierten die Forscher dieses Verhalten. Das Constraint-Design machte Reward Hacking erkennbar, weil das Rechenbudget festgelegt war.1
Was Claude tatsächlich entdeckte
Die Arbeit betont sorgfältig, dass Claude „primär bestehende Ideen rekombinierte, anstatt grundlegend neuartige Algorithmen zu entdecken.” Genau das macht das Ergebnis bedeutsam.
Die beiden siegreichen Methoden veranschaulichen das Muster:1
Claude v63 (Gewinner bei zufälligen Zielen, 100 % ASR bei Meta-SecAlign-70B): Ausgehend von ADC (einer Methode mit kontinuierlicher Relaxation) wurde es modifiziert mit Sum-Loss-Aggregation, die die Lernrate von der Restart-Anzahl entkoppelt, LSGM-Gradienten-Skalierung bei 0,85 hinzugefügt, die Lernrate von 160 auf 10 gesenkt und die Restarts von 16 auf 6 reduziert. Jede einzelne Modifikation ist für sich genommen unremarkabel. Die Kombination übertrifft jede veröffentlichte Methode.
Claude v53-OSS (Sicherheitsgewinner, 40 % ASR bei CBRN-Anfragen): Verschmelzung von MACs momentumgeglätteten Gradienten mit TAOs richtungsbasierter Störungskandidatenbewertung. Momentum auf 0,908 gesetzt (MAC-Standard ist 0,4). Ein Grob-zu-Fein-Ersetzungsplan wurde hinzugefügt: 2-Positions-Ersetzungen für 80 % des Budgets, dann 1-Position für die letzten 20 %. Temperatur 0,4 für das Sampling. Auch hier existiert jedes einzelne Element bereits in der Literatur. Die Fusion hingegen nicht.
Der Agent erkundete 96 Varianten gegen das Sicherheitsmodell und 82 gegen zufällige Ziele. Die meisten scheiterten. Die erfolgreichen teilen ein Muster: Sie kombinieren Mechanismen aus verschiedenen Methodenfamilien (diskrete Optimierung trifft auf kontinuierliche Relaxation, momentumbasierte Methoden treffen auf direktionale Störung) in Konfigurationen, die kein menschlicher Forscher ausprobiert hatte. Der Suchraum der Methodenkombinationen ist zu groß für manuelle Exploration. Er hat genau die richtige Größe für einen Agenten mit dichtem quantitativem Signal und festem Rechenbudget.
Die Baselines waren nicht schwach
Claudini wurde mit 33 Methoden aus drei Kategorien verglichen:1
Diskrete Optimierung (21 Methoden): GCG, I-GCG, MAC, TAO, ACG, AttnGCG, BEAST, Faster-GCG, GCG++, MAGIC, DeGCG, Mask-GCG, MC-GCG, REINFORCE-GCG, SlotGCG, SM-GCG, TGCG, RAILS, UAT, AutoPrompt, ARCA.
Kontinuierliche Relaxation (7 Methoden): GBDA, PEZ, ADC, PGD, Reg-Relax, EGD, REINFORCE-PGD.
Gradientenfreie Methoden (5 Methoden): LLS, BoN, PRS, Probe Sampling sowie Zufallssuche.
Die Baselines wurden zusätzlich mit Optuna-Hyperparameter-Tuning optimiert, was ihnen eine stärkere Ausgangsposition als ihre Standardkonfigurationen verschaffte. Claudes Methoden erzielten dennoch einen 10-fach niedrigeren Verlust als die beste Optuna-optimierte Baseline bis Version 82.1
Der Vergleich lautet nicht „Claude gegen unoptimierte Standards”. Er lautet „Claude gegen die beste Konfiguration jeder veröffentlichten Methode, zusätzlich optimiert durch automatisierte Hyperparametersuche.”
Warum Autoresearch hier funktionierte
Autoresearch ist bei der Optimierung adversarialer Angriffe aus drei strukturellen Gründen erfolgreich:1
Dichtes quantitatives Feedback. Kreuzentropieverlust und Angriffserfolgsrate sind kontinuierliche, differenzierungsnahe Metriken. Der Agent erhält nach jedem Experiment ein klares numerisches Signal. Im Gegensatz dazu stehen Forschungsdomänen, in denen das Signal mehrdeutig (qualitative Nutzerstudien) oder verzögert (klinische Studien) ist. Dichtes Feedback ermöglicht schnelle Iteration.
Starke Baselines als Ausgangspunkt. Der Agent startete nicht von Null. Er begann mit 33 veröffentlichten Implementierungen mit bekannten Leistungscharakteristiken. Jede Iteration modifizierte eine bestehende Methode, anstatt etwas Neues zu erfinden. Der Vorteil des Agenten liegt in der systematischen Erkundung des Kombinationsraums, nicht in kreativer Erfindung.
Festes Rechenbudget als Einschränkung. Das FLOPs-Budget verhindert, dass der Agent durch bloßes längeres Rechnen gewinnt. Jede Verbesserung muss aus algorithmischer Innovation kommen, nicht aus Ressourcenskalierung. Dies entspricht dem Prinzip hinter ML-Wettbewerben mit festem Budget: Ressourcen einschränken, um Kreativität zu erzwingen.
Diese drei Bedingungen definieren den Sweet Spot für Autoresearch. Jede Domäne mit dichtem quantitativem Feedback, vorhandenen starken Baselines und messbaren Ressourcenbeschränkungen ist ein Kandidat für agentengesteuerte Forschung. Domänen mit spärlichem oder verzögertem Feedback (Nutzerpräferenzstudien, klinische Ergebnisse), ohne starke Baselines zum Iterieren oder mit unbeschränkten Rechenbudgets, die Skalierung statt Innovation belohnen, eignen sich schlecht. Der Sweet Spot ist enger, als er zunächst erscheint.
Ich betreibe dieses Muster
Meine Infrastruktur umfasst eine Autoresearch-Schleife basierend auf Karpathys Methodik.3 Der Orchestrator führt Experimente mit festem Budget auf Apple Silicon über MLX aus, modifiziert autonom Modellarchitektur und Hyperparameter, um den Validierungsverlust zu minimieren. Verbesserungen behalten, Rückschritte verwerfen.
Die Claudini-Ergebnisse validieren das Muster in einem Maßstab, den ich nicht versucht habe. Meine Experimente optimieren kleine Modelle (2–5 Mio. Parameter) für spezifische Aufgaben. Claudini optimierte adversariale Angriffsalgorithmen gegen Ziele mit 7B–70B Parametern mit GPU-skaliger Rechenleistung. Die Schleife ist dieselbe. Der Maßstab ist ein anderer.
Drei Beobachtungen aus dem Betrieb von Autoresearch in der Produktion:4
Das Protokoll ist das Produkt. Claudini führt AGENT_LOG.md als persistenten Speicher. Mein System verwendet jiro.progress.json. Beide erfüllen dieselbe Funktion: Das Forschungsartefakt ist nicht nur das Endergebnis, sondern die Trajektorie gescheiterter und erfolgreicher Experimente. Das Protokoll ermöglicht es dem Agenten, gescheiterte Ansätze nicht zu wiederholen und auf Teilerfolgen über Sitzungen hinweg aufzubauen.
Reward Hacking ist erkennbar. Claudinis Forscher erwischten den Agenten beim Suchen nach zufälligen Seeds und beim Warmstart aus früheren Läufen. Mein Drift-Detektor erkennt ähnliches Verhalten: Wenn die jüngsten Aktionen des Agenten von der ursprünglichen Aufgabe abweichen (Kosinusähnlichkeit fällt unter 0,30), injiziert das System eine Warnung. Feste Rechenbudgets und Verhaltensüberwachung sind komplementäre Verteidigungen gegen denselben Fehlermodus.
Rekombination schlägt Erfindung. Claudes Gewinnermethoden verschmolzen MAC mit TAO, ADC mit Gradienten-Skalierung. Meine besten Ergebnisse entstehen durch die Kombination bestehender Architekturmuster in Konfigurationen, die die Suche noch nicht abgedeckt hatte. Der Agent ist nicht kreativ im menschlichen Sinne. Er ist erschöpfend in einem Raum, der für manuelle Erkundung zu groß ist.
Die Dual-Use-Realität
Claudini entdeckte bessere Angriffe. Dieselbe Schleife entdeckt bessere Verteidigungen. Die Arbeit stellt dies explizit fest: Adversarialer Druck auf Autoresearch-Niveau ist „der minimale adversariale Druck, dem jede neue Verteidigung standhalten muss. Wenn eine Methode Autoresearch-gesteuerte Angriffe nicht übersteht, sind ihre Robustheitsbehauptungen nicht glaubwürdig.”1
Dies rahmt die Sicherheitsforschungslandschaft neu. Jede veröffentlichte Verteidigung hat jetzt eine Haltbarkeit, die daran gemessen wird, wie lange eine Autoresearch-Schleife braucht, um sie zu besiegen. Benchmarks, die automatisierte Optimierung nicht überleben, sind keine Benchmarks – sie sind Checklisten-Punkte.
Die Forscher merken an, dass „nicht alle Benchmarks gleichermaßen aussagekräftig bleiben, sobald Agenten direkt gegen sie optimieren können. Einige sollten explizit als Forschungsumgebungen umgestaltet werden.”1 Das ist die richtige Rahmung. Ein Benchmark, gegen den ein Agent in 96 Iterationen optimieren kann, misst keine Robustheit. Er misst den aktuellen Stand der Suche.
Die TeamPCP-Supply-Chain-Kampagne hat letzte Woche gezeigt, dass vertrauenswürdige Komponenten sich zu nicht autorisiertem Verhalten zusammensetzen. Claudini demonstriert, dass vertrauenswürdige Forschungswerkzeuge sich zu Fähigkeiten zusammensetzen, die ihre einzelnen Komponenten übersteigen. Die Kompositionsdynamik wirkt in beide Richtungen: Komposition erzeugt sowohl die Angriffsfläche als auch die Forschungsfähigkeit, sie abzubilden. Die MCP-Protokollschicht verstärkt dies zusätzlich, da jedes Werkzeug, das ein Agent aufrufen kann, eine Fläche darstellt, die eine adversariale Schleife sondieren kann.
Was sich ändert
Autoresearch ist keine zukünftige Fähigkeit. Es ist eine aktuelle Methodik, die aktuelle Ergebnisse liefert. Die Implikationen:
Für Sicherheitsforscher: Ihre Verteidigung muss einen Autoresearch-Durchlauf überstehen, um glaubwürdig zu sein. Automatisierte Optimierung mit festem Budget gegen Ihr Modell ist die neue Mindestanforderung. Wenn Ihr Safety Alignment nach 96 agentengesteuerten Iterationen bricht, war es nie robust.
Für ML-Ingenieure: Die Autoresearch-Schleife lässt sich auf jedes Optimierungsproblem mit dichtem quantitativem Feedback anwenden. Modellarchitektursuche, Hyperparameter-Optimierung, Datenaugmentierungsstrategien, Verlustfunktionsdesign. Jede Domäne, in der Sie derzeit manuell iterieren, ist ein Kandidat für agentengesteuerte Iteration.
Für Sicherheitsteams: Adversariale Fähigkeiten skalieren mit Rechenleistung und Iterationsgeschwindigkeit, nicht mit Angreiferexpertise. Eine Organisation, die Autoresearch-Schleifen gegen ihre eigenen Verteidigungen betreibt, hat einen strukturellen Vorteil gegenüber einer, die auf externe Penetrationstests wartet. Führen Sie Red-Teaming mit Agenten durch, bevor Angreifer es tun. Die Schwachstelle, die mein eigener Agent fand, veranschaulicht diese Dynamik in kleinerem Maßstab.
Für Engineering-Führungskräfte: Die Frage ist nicht, ob Sie Autoresearch einsetzen sollten. Sondern ob Ihre Wettbewerber es bereits tun. Der Code der Arbeit ist Apache-lizenziert und öffentlich verfügbar.2 Die Einstiegshürde ist ein Claude Code-Abonnement und GPU-Zugang. Wenn Sie das übergreifende Muster der Agenten-Infrastruktur verstehen möchten, dokumentiert Project Glasswing, wie ich autonome Agentensysteme für die Produktion architekturiere.
FAQ
Was ist Autoresearch?
Autoresearch ist eine Methodik, bei der ein LLM-Agent autonom Forschungscode iteriert: Hypothesen aufstellt, Experimente implementiert, Ergebnisse evaluiert und das Ergebnis nutzt, um die nächste Iteration zu informieren. Der Begriff stammt von Andrej Karpathys Demonstration, dass Claude Code autonom ML-Trainingscode verbessern kann.3
Hat Claude neue Algorithmen erfunden?
Nicht im herkömmlichen Sinne. Die Arbeit stellt fest, dass Claude „primär bestehende Ideen rekombinierte, anstatt grundlegend neuartige Algorithmen zu entdecken.” Die Gewinnermethoden verschmolzen Mechanismen verschiedener veröffentlichter Methoden (MAC + TAO, ADC + Gradienten-Skalierung) und optimierten Hyperparameter in Konfigurationen, die Menschen nicht erkundet hatten. Die Neuartigkeit liegt in den Kombinationen, nicht in den Komponenten.1
Wie funktioniert das Rechenbudget?
Jedes Experiment läuft unter einem festen FLOPs-Budget. Dies verhindert, dass der Agent durch bloßes längeres Rechnen oder mehr Ressourcen gewinnt. Auch die Suffix-Länge ist festgelegt (30 Token für Sicherheitsangriffe, 15 für zufällige Ziele). Jede Verbesserung muss aus algorithmischer Innovation innerhalb dieser Einschränkungen kommen.1
Was ist die Angriffserfolgsrate?
ASR misst den Anteil der Prompts, bei denen das optimierte adversariale Suffix das Zielmodell dazu bringt, die exakte Zielausgabe zu generieren (gemessen durch Greedy Decoding). Claudini erzielte 40 % ASR gegen GPT-OSS-Safeguard-20B bei CBRN-Anfragen (gegenüber 10 % für alle Baselines) und 100 % ASR gegen Meta-SecAlign-70B bei Prompt-Injection (gegenüber 56 % für die beste Baseline).1
Kann ich das selbst ausführen?
Ja. Der Code ist Apache-lizenziert unter https://github.com/romovpa/claudini. Sie benötigen Python 3.12+, den uv-Paketmanager, Claude Code und GPU-Zugang für die Evaluation. Die Autoresearch-Schleife läuft über den /loop-Befehl von Claude Code. Betreiben Sie sie mit festen Rechenbudgets, persistenter Protokollierung und isolierten Evaluierungsumgebungen. Eine unbeschränkte Autoresearch-Schleife ohne Aufsicht führt zu Reward Hacking, nicht zu Forschung.2
Macht dies KI-Sicherheit schwieriger?
Sowohl schwieriger als auch einfacher. Schwieriger, weil adversariale Angriffe schneller besser werden, wenn Agenten autonom iterieren können. Einfacher, weil dieselbe Methodik auf die Verteidigung anwendbar ist: Jede Sicherheitstechnik, die einen Autoresearch-Durchlauf übersteht, hat echte Robustheit bewiesen. Die Arbeit argumentiert, dass adversarialer Druck auf Autoresearch-Niveau die Mindestanforderung für glaubwürdige Sicherheitsbehauptungen sein sollte.1
Wie hängt das mit Ihrer Infrastruktur zusammen?
Ich betreibe eine Autoresearch-Schleife (das Ralph-Muster) basierend auf Karpathys Methodik. Der Orchestrator führt Experimente mit festem Budget auf Apple Silicon über MLX aus, behält Verbesserungen und verwirft Rückschritte. Claudini validiert dieses Muster im GPU-Maßstab mit adversarialer Angriffsoptimierung.4
Können KI-Agenten autonom Schwachstellen entdecken?
Ja. Claudini demonstrierte, dass ein KI-Agent systematisch adversariale Angriffsvektoren entdecken kann, die von Menschen entworfene Methoden übertreffen. Der Agent benötigt keine Sicherheitsexpertise – er braucht ein dichtes quantitatives Signal (Verlustwerte, Erfolgsraten) und eine Iterationsschleife. Dies hat direkte Auswirkungen auf automatisierte Schwachstellenforschung, bei der Agenten Systeme ohne menschliche Anleitung sondieren.1
Welche Domänen eignen sich für KI-Agenten-Forschungsschleifen?
Autoresearch funktioniert am besten in Domänen mit drei Eigenschaften: dichtes quantitatives Feedback (klare numerische Metriken nach jedem Experiment), starke bestehende Baselines zum Iterieren und feste Ressourcenbeschränkungen, die algorithmische Innovation statt Rechenskalierung erzwingen. Gut geeignet sind adversariales ML, Hyperparameter-Optimierung, Verlustfunktionsdesign und Datenaugmentierungssuche. Schlecht geeignet sind Domänen mit spärlichem Feedback (Nutzerstudien), ohne Baselines oder mit unbeschränkten Budgets.1
Wie verhindert man, dass ein autonomer Forschungsagent Reward Hacking betreibt?
Feste Rechenbudgets sind die primäre Verteidigung. Wenn jedes Experiment eine FLOPs-Obergrenze hat, kann der Agent nicht durch Ressourcenskalierung gewinnen. Persistente Protokollierung (wie Claudinis AGENT_LOG.md) macht Verhaltensdrift sichtbar. Claude Code-Hooks können Leitplanken auf der Tool-Use-Ebene durchsetzen. Verhaltensüberwachung, die erkennt, wenn die Aktionen des Agenten vom Forschungsziel abweichen (z. B. Suche nach zufälligen Seeds statt Vorschlag neuer Varianten), bietet eine zweite Verteidigungslinie.1
Was ist der Unterschied zwischen Autoresearch und traditionellem automatisiertem ML?
AutoML (z. B. Optuna, NAS) durchsucht einen vordefinierten Parameterraum mit statistischen Methoden. Autoresearch verwendet einen LLM-Agenten, der Code liest, Methodendesign versteht und strukturelle Modifikationen außerhalb jedes vordefinierten Suchraums vorschlägt. Claudini verschmolz Mechanismen aus verschiedenen Methodenfamilien (MAC + TAO, ADC + Gradienten-Skalierung) auf Weisen, die kein Parametergitter kodieren würde. Der Agent durchsucht den Raum algorithmischer Ideen, nicht nur Hyperparameter.1
Sind von KI-Agenten entdeckte adversariale Angriffe gefährlicher als von Menschen entworfene?
Sie sind systematischer. Claudini erkundete 178 Varianten über zwei Kampagnen und testete Methodenkombinationen, die kein menschliches Team ausprobiert hatte. Die 100%ige Angriffserfolgsrate gegen Metas SecAlign-70B wurde nicht durch eine neuartige Erkenntnis erzielt, sondern durch erschöpfende Rekombination in einem Maßstab, der für manuelle Forschung unpraktisch ist. Die Gefahr liegt nicht in übermenschlicher Kreativität, sondern in übermenschlicher Gründlichkeit über den kombinatorischen Raum bestehender Techniken. Dieselbe Gründlichkeit gilt für das Sondieren von Agenten-Tool-Schnittstellen auf ausnutzbares Verhalten.1
Quellen
-
Alexander Panfilov, Peter Romov, Igor Shilov, Yves-Alexandre de Montjoye, Jonas Geiping, and Maksym Andriushchenko, “Claudini: Autoresearch Discovers State-of-the-Art Adversarial Attack Algorithms for LLMs,” arXiv:2603.24511, March 25, 2026. 33 baselines, 96 iterations on safeguard model, 82 on random targets. 40% ASR on CBRN queries vs 10% baseline, 100% ASR on Meta-SecAlign-70B vs 56% baseline. ↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩
-
romovpa, “claudini,” GitHub, March 2026. Apache 2.0. All discovered attacks, baseline implementations, evaluation code, and autoresearch loop prompt. ↩↩↩
-
Andrej Karpathy, “autoresearch,” GitHub, 2026. Original demonstration that Claude Code can autonomously improve ML training code. ↩↩
-
Blake Crosley, “What I Told NIST About AI Agent Security,” blakecrosley.com, February 2026. Production evidence from 60+ daily autonomous agent sessions, including autoresearch loop infrastructure. ↩↩
-
Anthropic, “Claude Code: Agentic coding tool,” Anthropic Documentation, 2026. The
/loopcommand runs a prompt on a recurring interval, enabling autonomous iteration cycles. ↩ -
Andy Zou, Zifan Wang, Nicholas Carlini, Milad Nasr, J. Zico Kolter, and Matt Fredrikson, “Universal and Transferable Adversarial Attacks on Aligned Language Models,” arXiv:2307.15043, July 2023. The GCG (Greedy Coordinate Gradient) attack that Claudini used as a starting point. ↩