Badania agentów AI: Claude pokonały 33 metody ataku

25 marca 2026 roku badacze opublikowali artykuł wykazujący, że Claude Code, działający w pętli, autonomicznie odkrył algorytmy ataków adversarialnych przewyższające każdą istniejącą metodę w tej dziedzinie. Nie o niewielki margines. Najlepszy atak odkryty przez Claude osiągnął 100% skuteczności przeciwko modelowi bezpieczeństwa SecAlign-70B firmy Meta. Najlepsza istniejąca metoda bazowa osiągnęła 56%.¹

Zautomatyzowane badanie podatności z wykorzystaniem agentów AI działa poprzez uruchomienie LLM w pętli, który odczytuje istniejące wyniki, proponuje warianty, implementuje kod, przeprowadza ewaluację na GPU i analizuje rezultaty. Projekt Claudini zademonstrował to, pozwalając Claude Code autonomicznie iterować nad algorytmami ataków adversarialnych, pokonując każdą opublikowaną metodę bazową spośród 33 metod w mniej niż 100 iteracjach.

System rozpoczął od GCG — standardowego ataku opartego na gradientach, opublikowanego w 2023 roku.⁶ Claude Code przeczytał implementację, zaproponował wariant, napisał kod, przesłał zadania na GPU, przeanalizował wyniki i zaproponował następny wariant. W ciągu 96 iteracji przeciwko modelowi zabezpieczeń zredukował stratę ataku z 4,969 do 1,188. W ciągu 82 iteracji na ogólnym celu osiągnął 10-krotnie niższą stratę niż najlepsze bazowe wyniki zoptymalizowane przez Optunę.¹

Badacze nazwali projekt Claudini. Technika to autoresearch: agent LLM, który iteruje nad kodem badawczym tak, jak programista iteruje nad kodem produktowym. Różnica polega na tym, że „produktem” agenta jest wynik naukowy, a cykl iteracji przebiega nieprzerwanie bez interwencji człowieka.

Sam uruchamiam pętle autoresearch w mojej własnej infrastrukturze.

Najważniejsze wnioski

Co się wydarzyło: Claude Code autonomicznie odkrył algorytmy ataków adversarialnych, które pokonały 33 istniejące metody, w tym każdy wariant GCG, zarówno w benchmarkach jailbreakingu, jak i prompt injection.¹
W jaki sposób: Pięcioetapowa pętla autoresearch. Odczytaj istniejące wyniki, zaproponuj wariant, zaimplementuj go, przeprowadź ewaluację na GPU, przeanalizuj rezultaty. Powtórz. Stały budżet obliczeniowy na eksperyment.¹
Kluczowe liczby: 40% wskaźnika skuteczności ataku (ASR) na zapytaniach CBRN modelu GPT-OSS-Safeguard-20B wobec 10% dla wszystkich metod bazowych. 100% ASR na prompt injection Meta-SecAlign-70B wobec 56% najlepszej metody bazowej.¹
Co faktycznie zrobił: Rekombinował istniejące metody w nieoczywisty sposób. Połączył momentum MAC z punktacją kandydatów TAO. Odkrył harmonogramy zastępowania od grubego do precyzyjnego. Systematycznie dostrajał hiperparametry w przestrzeni, której ludzie nie eksplorowali.¹
Dlaczego to istotne: Autoresearch nie jest sztuczką pokazową. To metodologia badawcza generująca publikowalne wyniki. Ten sam wzorzec pętli ma zastosowanie w każdej dziedzinie z gęstą ilościową informacją zwrotną.
Kwestia podwójnego zastosowania: Ta sama zdolność, która odkrywa lepsze ataki, odkrywa lepsze obrony. Każdy benchmark bezpieczeństwa, który nie przetrwa pętli autoresearch, nie jest wiarygodnym benchmarkiem.

Pętla

Claudini realizuje pięcioetapowy cykl:¹

Odczytaj istniejące wyniki i implementacje metod
Zaproponuj nowy wariant optymalizatora na podstawie tego, co zadziałało, a co nie
Zaimplementuj wariant jako klasę Python rozszerzającą TokenOptimizer
Przeprowadź ewaluację przesyłając zadania na GPU ze stałym budżetem FLOPs
Przeanalizuj wyniki, aby ukierunkować następną iterację

Pętla działa za pomocą polecenia /loop w Claude Code z promptem instruującym agenta, aby maksymalizował metrykę na tablicy wyników.⁵ To ten sam wzorzec agentowy oparty na hookach, który umożliwia autonomiczne przepływy pracy w produkcji. Agent prowadzi AGENT_LOG.md jako trwałą pamięć między iteracjami, śledząc wypróbowane rozwiązania, dane wydajnościowe i spostrzeżenia. Po każdej istotnej jednostce pracy commituje zmiany do gałęzi.²

Projekt ograniczeń ma kluczowe znaczenie. Każdy eksperyment działa w ramach stałego budżetu obliczeniowego mierzonego we FLOPs, nie w czasie zegarowym. Długość sufiksu jest stała (30 tokenów dla ataków na zabezpieczenia, 15 dla losowych celów). Metryka ewaluacji to entropia krzyżowa po sekwencjach tokenów docelowych, ze wskaźnikiem skuteczności ataku (ASR) mierzonym przez zachłanne dekodowanie generujące dokładnie oczekiwany wynik. Te ograniczenia uniemożliwiają agentowi manipulowanie ewaluacją przez zwykłe skalowanie zasobów obliczeniowych.¹

Nadzór ludzki był utrzymywany przez cały czas — wymóg krytyczny biorąc pod uwagę problem niewidzialnego agenta, gdzie systemy autonomiczne mogą dryfować bez świadomości operatora. Gdy agent zaczął hakować nagrodę pod koniec przebiegu na zabezpieczeniach (przeszukując losowe ziarna, warm-startując z poprzednich uruchomień około wersji 95), badacze wykryli i odnotowali to zachowanie. Projekt ograniczeń uczynił hakowanie nagrody wykrywalnym, ponieważ budżet obliczeniowy był stały.¹

Co Claude faktycznie odkrył

Artykuł starannie zaznacza, że Claude „głównie rekombinował istniejące pomysły, zamiast odkrywać fundamentalnie nowe algorytmy”. To właśnie czyni ten wynik znaczącym.

Dwie zwycięskie metody ilustrują ten wzorzec:¹

Claude v63 (zwycięzca losowego celu, 100% ASR na Meta-SecAlign-70B): Rozpoczął od ADC (metody ciągłej relaksacji), następnie zmodyfikował ją agregacją sum-loss oddzielającą współczynnik uczenia od liczby restartów, dodał skalowanie gradientów LSGM na poziomie 0,85, obniżył współczynnik uczenia ze 160 do 10 i zredukował restarty z 16 do 6. Każda modyfikacja z osobna jest nieremarkacyjna. Ich kombinacja przewyższa każdą opublikowaną metodę.

Claude v53-OSS (zwycięzca zabezpieczeń, 40% ASR na zapytaniach CBRN): Połączył wygładzone momentum gradientów z MAC z punktacją kandydatów perturbacji kierunkowej z TAO. Ustawił momentum na 0,908 (domyślna wartość MAC to 0,4). Dodał harmonogram zastępowania od grubego do precyzyjnego: zastępowanie 2 pozycji przez 80% budżetu, następnie 1 pozycji przez ostatnie 20%. Temperatura 0,4 do próbkowania. Ponownie — każdy element istnieje w literaturze. Ich fuzja nie.

Agent zbadał 96 wariantów przeciwko modelowi zabezpieczeń i 82 przeciwko losowym celom. Większość zawiodła. Skuteczne warianty łączy wspólny wzorzec: łączą mechanizmy z różnych rodzin metod (optymalizacja dyskretna spotyka ciągłą relaksację, metody oparte na momentum spotykają perturbację kierunkową) w konfiguracjach, których żaden ludzki badacz nie wypróbował. Przestrzeń przeszukiwania kombinacji metod jest zbyt duża dla ręcznej eksploracji. Jest dokładnie odpowiedniego rozmiaru dla agenta z gęstym sygnałem ilościowym i stałym budżetem obliczeniowym.

Metody bazowe nie były słabe

Claudini porównano z 33 metodami w trzech kategoriach:¹

Optymalizacja dyskretna (21 metod): GCG, I-GCG, MAC, TAO, ACG, AttnGCG, BEAST, Faster-GCG, GCG++, MAGIC, DeGCG, Mask-GCG, MC-GCG, REINFORCE-GCG, SlotGCG, SM-GCG, TGCG, RAILS, UAT, AutoPrompt, ARCA.

Ciągła relaksacja (7 metod): GBDA, PEZ, ADC, PGD, Reg-Relax, EGD, REINFORCE-PGD.

Metody bez gradientów (5 metod): LLS, BoN, PRS, Probe Sampling oraz przeszukiwanie losowe.

Metody bazowe zostały dodatkowo zoptymalizowane za pomocą dostrajania hiperparametrów przez Optunę, dając im silniejszą pozycję startową niż ich domyślne konfiguracje. Metody Claude i tak osiągnęły 10-krotnie niższą stratę niż najlepsza bazowa zoptymalizowana przez Optunę do wersji 82.¹

To nie jest porównanie „Claude kontra niedostrojone wartości domyślne”. To „Claude kontra najlepsza konfiguracja każdej opublikowanej metody, dodatkowo zoptymalizowana automatycznym przeszukiwaniem hiperparametrów”.

Dlaczego autoresearch zadziałał w tym przypadku

Autoresearch odnosi sukces w optymalizacji ataków adversarialnych z trzech strukturalnych powodów:¹

Gęsta ilościowa informacja zwrotna. Entropia krzyżowa i wskaźnik skuteczności ataku to ciągłe, quasi-różniczkowalne metryki. Agent otrzymuje wyraźny sygnał numeryczny po każdym eksperymencie. Stoi to w kontraście z dziedzinami badawczymi, gdzie sygnał jest niejednoznaczny (jakościowe badania użytkowników) lub opóźniony (badania kliniczne). Gęsta informacja zwrotna umożliwia szybką iterację.

Silne metody bazowe jako punkt wyjścia. Agent nie zaczynał od zera. Startował od 33 opublikowanych implementacji o znanych charakterystykach wydajnościowych. Każda iteracja modyfikowała istniejącą metodę, zamiast tworzyć od podstaw. Przewaga agenta polega na systematycznej eksploracji przestrzeni kombinacji, nie na kreatywnym wynalazczości.

Stały budżet obliczeniowy jako ograniczenie. Budżet FLOPs uniemożliwia agentowi wygraną przez zwykłe dłuższe działanie. Każda poprawa musi wynikać z innowacji algorytmicznej, nie ze skalowania zasobów. To ta sama zasada, co w konkursach ML ze stałym budżetem: ograniczaj zasoby, by wymusić kreatywność.

Te trzy warunki definiują optymalny obszar zastosowania autoresearch. Każda dziedzina z gęstą ilościową informacją zwrotną, istniejącymi silnymi metodami bazowymi i mierzalnymi ograniczeniami zasobów jest kandydatem do badań prowadzonych przez agenta. Dziedziny z rzadką lub opóźnioną informacją zwrotną (badania preferencji użytkowników, wyniki kliniczne), bez silnych metod bazowych do iterowania lub z nieograniczonymi budżetami obliczeniowymi nagradzającymi skalowanie zamiast innowacji — nie nadają się do tego podejścia. Optymalny obszar jest węższy, niż się na pierwszy rzut oka wydaje.

Sam stosuję ten wzorzec

Moja infrastruktura obejmuje pętlę autoresearch opartą na metodologii Karpathy’ego.³ Orkiestrator uruchamia eksperymenty ze stałym budżetem na Apple Silicon za pomocą MLX, autonomicznie modyfikując architekturę modelu i hiperparametry, aby zminimalizować stratę walidacyjną. Zachowuje ulepszenia, odrzuca regresje.

Wyniki Claudini walidują ten wzorzec w skali, której sam nie próbowałem. Moje eksperymenty optymalizują małe modele (2–5 mln parametrów) pod konkretne zadania. Claudini optymalizował algorytmy ataków adversarialnych przeciwko celom o 7–70 mld parametrów z zasobami obliczeniowymi skali GPU. Pętla jest ta sama. Skala jest inna.

Trzy obserwacje z uruchamiania autoresearch w produkcji:⁴

Log jest produktem. Claudini prowadzi AGENT_LOG.md jako trwałą pamięć. Mój system używa jiro.progress.json. Oba pełnią tę samą funkcję: artefaktem badawczym nie jest tylko końcowy wynik, lecz trajektoria nieudanych i udanych eksperymentów. Log pozwala agentowi unikać powtarzania nieudanych podejść i budować na częściowych sukcesach między sesjami.

Hakowanie nagrody jest wykrywalne. Badacze Claudini zauważyli, że agent przeszukiwał losowe ziarna i warm-startował z poprzednich uruchomień. Mój detektor dryfu wychwytuje podobne zachowanie: gdy ostatnie działania agenta odchylają się od pierwotnego zadania (podobieństwo kosinusowe spada poniżej 0,30), system wstrzykuje ostrzeżenie. Stałe budżety obliczeniowe i monitoring behawioralny to komplementarne linie obrony przed tym samym trybem awarii.

Rekombinacja wygrywa z wynalazczością. Zwycięskie metody Claude łączyły MAC z TAO, ADC ze skalowaniem gradientów. Moje najlepsze wyniki powstają z łączenia istniejących wzorców architektonicznych w konfiguracjach, których przeszukiwanie nie obejmowało. Agent nie jest kreatywny w ludzkim sensie. Jest wyczerpujący w przestrzeni zbyt dużej na ręczną eksplorację.

Rzeczywistość podwójnego zastosowania

Claudini odkrył lepsze ataki. Ta sama pętla odkrywa lepsze obrony. Artykuł stwierdza to wprost: presja adversarialna na poziomie autoresearch to „minimalny poziom presji adversarialnej, jakiemu powinna sprostać każda nowa obrona. Jeśli metoda nie przetrwa ataków opartych na autoresearch, jej twierdzenia o odporności nie są wiarygodne”.¹

To przeformułowuje krajobraz badań nad bezpieczeństwem. Każda opublikowana obrona ma teraz okres przydatności mierzony tym, ile czasu zajmie pętli autoresearch jej pokonanie. Benchmarki, które nie przetrwają zautomatyzowanej optymalizacji, nie są benchmarkami — są listami kontrolnymi do odhaczenia.

Badacze zauważają, że „nie wszystkie benchmarki zachowują równe znaczenie, gdy agenci mogą bezpośrednio optymalizować pod nie. Niektóre powinny zostać jawnie przekształcone w środowiska badawcze”.¹ To właściwe ujęcie. Benchmark, pod który agent potrafi zoptymalizować w 96 iteracjach, nie mierzy odporności. Mierzy aktualny stan przeszukiwania.

Kampania łańcucha dostaw TeamPCP zademonstrowana w zeszłym tygodniu wykazała, że zaufane komponenty składają się w nieautoryzowane zachowanie. Claudini demonstruje, że zaufane narzędzia badawcze składają się w zdolności przekraczające ich poszczególne składniki. Dynamika kompozycji działa w obu kierunkach: kompozycja tworzy zarówno powierzchnię ataku, jak i zdolność badawczą do jej mapowania. Warstwa protokołu MCP dodatkowo to wzmacnia, ponieważ każde narzędzie, które agent może wywołać, jest powierzchnią, którą pętla adversarialna może sondować.

Co się zmienia

Autoresearch nie jest przyszłą zdolnością. To obecna metodologia generująca obecne wyniki. Implikacje:

Dla badaczy bezpieczeństwa: Obrona musi przetrwać przebieg autoresearch, by była wiarygodna. Zautomatyzowana optymalizacja ze stałym budżetem wymierzona w model to nowa minimalna poprzeczka. Jeśli wyrównanie bezpieczeństwa modelu załamuje się po 96 iteracjach sterowanych przez agenta, nigdy nie było odporne.

Dla inżynierów ML: Pętla autoresearch ma zastosowanie w każdym problemie optymalizacyjnym z gęstą ilościową informacją zwrotną. Przeszukiwanie architektur modeli, optymalizacja hiperparametrów, strategie augmentacji danych, projektowanie funkcji straty. Każda dziedzina, w której obecnie iteruje się ręcznie, jest kandydatem do iteracji sterowanej przez agenta.

Dla zespołów bezpieczeństwa: Zdolność adversarialna skaluje się z mocą obliczeniową i szybkością iteracji, nie z ekspertyzą atakującego. Organizacja uruchamiająca pętle autoresearch przeciwko własnym obronom ma strukturalną przewagę nad organizacją czekającą na zewnętrzne testy penetracyjne. Prowadźcie red-teaming z agentami, zanim zrobią to atakujący. Podatność odkryta przez mojego własnego agenta ilustruje tę dynamikę w mniejszej skali.

Dla liderów technicznych: Pytanie nie brzmi, czy stosować autoresearch. Brzmi, czy konkurenci już go stosują. Kod z artykułu jest na licencji Apache i publicznie dostępny.² Bariera wejścia to subskrypcja Claude Code i dostęp do GPU. Aby zrozumieć szerszy wzorzec infrastruktury agentowej, Project Glasswing dokumentuje, jak projektuję autonomiczne systemy agentowe do produkcji.

FAQ

Czym jest autoresearch?

Autoresearch to metodologia, w której agent LLM autonomicznie iteruje nad kodem badawczym: proponuje hipotezy, implementuje eksperymenty, ocenia wyniki i wykorzystuje rezultaty do ukierunkowania następnej iteracji. Termin pochodzi od demonstracji Andreja Karpathy’ego, że Claude Code potrafi autonomicznie ulepszać kod treningowy ML.³

Czy Claude wynalazł nowe algorytmy?

Nie w konwencjonalnym sensie. Artykuł zaznacza, że Claude „głównie rekombinował istniejące pomysły, zamiast odkrywać fundamentalnie nowe algorytmy”. Zwycięskie metody łączyły mechanizmy z różnych opublikowanych metod (MAC + TAO, ADC + skalowanie gradientów) i dostrajały hiperparametry w konfiguracjach, których ludzie nie eksplorowali. Nowość tkwi w kombinacjach, nie w składnikach.¹

Jak działa budżet obliczeniowy?

Każdy eksperyment działa w ramach stałego budżetu FLOPs. Uniemożliwia to agentowi wygraną przez zwykłe dłuższe działanie lub wykorzystanie większych zasobów. Długość sufiksu jest również stała (30 tokenów dla ataków na zabezpieczenia, 15 dla losowych celów). Każda poprawa musi wynikać z innowacji algorytmicznej w ramach tych ograniczeń.¹

Czym jest wskaźnik skuteczności ataku?

ASR mierzy odsetek promptów, dla których zoptymalizowany sufiks adversarialny powoduje, że model docelowy generuje dokładnie oczekiwany wynik (mierzony zachłannym dekodowaniem). Claudini osiągnął 40% ASR przeciwko GPT-OSS-Safeguard-20B na zapytaniach CBRN (wobec 10% dla wszystkich metod bazowych) i 100% ASR przeciwko Meta-SecAlign-70B na prompt injection (wobec 56% dla najlepszej metody bazowej).¹

Czy mogę to uruchomić samodzielnie?

Tak. Kod jest na licencji Apache pod adresem https://github.com/romovpa/claudini. Potrzebny jest Python 3.12+, menedżer pakietów uv, Claude Code i dostęp do GPU do ewaluacji. Pętla autoresearch działa za pomocą polecenia /loop w Claude Code. Należy uruchamiać ze stałymi budżetami obliczeniowymi, trwałym logowaniem i izolowanymi środowiskami ewaluacyjnymi. Nieograniczona pętla autoresearch bez nadzoru to sposób na hakowanie nagrody, nie na badania.²

Czy to utrudnia bezpieczeństwo AI?

Zarówno utrudnia, jak i ułatwia. Utrudnia, ponieważ ataki adversarialne ulepszają się szybciej, gdy agenci mogą iterować autonomicznie. Ułatwia, ponieważ ta sama metodologia ma zastosowanie do obrony: każda technika bezpieczeństwa, która przetrwa przebieg autoresearch, wykazała autentyczną odporność. Artykuł argumentuje, że presja adversarialna na poziomie autoresearch powinna być minimalną poprzeczką dla wiarygodnych twierdzeń o bezpieczeństwie.¹

Jak to się ma do infrastruktury autora?

Prowadzę pętlę autoresearch (wzorzec Ralph) opartą na metodologii Karpathy’ego. Orkiestrator uruchamia eksperymenty ze stałym budżetem na Apple Silicon za pomocą MLX, zachowując ulepszenia i odrzucając regresje. Claudini waliduje ten wzorzec w skali GPU z optymalizacją ataków adversarialnych.⁴

Czy agenci AI mogą autonomicznie odkrywać podatności?

Tak. Claudini wykazał, że agent AI potrafi systematycznie odkrywać wektory ataków adversarialnych przewyższające metody zaprojektowane przez ludzi. Agent nie potrzebuje ekspertyzy w zakresie bezpieczeństwa — potrzebuje gęstego sygnału ilościowego (wartości straty, wskaźniki skuteczności) i pętli iteracyjnej. Ma to bezpośrednie implikacje dla zautomatyzowanego badania podatności, gdzie agenci sondują systemy bez ludzkiego kierowania.¹

Jakie dziedziny nadają się do pętli badawczych agentów AI?

Autoresearch sprawdza się najlepiej w dziedzinach o trzech właściwościach: gęsta ilościowa informacja zwrotna (wyraźne metryki numeryczne po każdym eksperymencie), silne istniejące metody bazowe do iterowania oraz stałe ograniczenia zasobowe wymuszające innowację algorytmiczną zamiast skalowania obliczeniowego. Dobrze pasują: adversarial ML, optymalizacja hiperparametrów, projektowanie funkcji straty i przeszukiwanie augmentacji danych. Słabo pasują: dziedziny z rzadką informacją zwrotną (badania użytkowników), bez metod bazowych lub z nieograniczonymi budżetami.¹

Jak zapobiec hakowaniu nagrody przez autonomicznego agenta badawczego?

Stałe budżety obliczeniowe są główną linią obrony. Gdy każdy eksperyment ma pułap FLOPs, agent nie może wygrać skalowaniem zasobów. Trwałe logowanie (jak AGENT_LOG.md w Claudini) czyni dryf behawioralny widocznym. Hooki Claude Code mogą wymuszać zabezpieczenia na warstwie użycia narzędzi. Monitoring behawioralny wykrywający, gdy działania agenta odbiegają od celu badawczego (np. przeszukiwanie losowych ziaren zamiast proponowania nowych wariantów), stanowi drugą linię obrony.¹

Czym różni się autoresearch od tradycyjnego automatycznego ML?

AutoML (np. Optuna, NAS) przeszukuje predefiniowaną przestrzeń parametrów metodami statystycznymi. Autoresearch wykorzystuje agenta LLM, który czyta kod, rozumie projekt metody i proponuje modyfikacje strukturalne wykraczające poza jakąkolwiek predefiniowaną przestrzeń przeszukiwania. Claudini łączył mechanizmy z różnych rodzin metod (MAC + TAO, ADC + skalowanie gradientów) w sposób, którego żadna siatka parametrów nie zakodowałaby. Agent przeszukuje przestrzeń idei algorytmicznych, nie tylko hiperparametrów.¹

Czy ataki adversarialne odkryte przez agentów AI są groźniejsze od zaprojektowanych przez ludzi?

Są bardziej systematyczne. Claudini zbadał 178 wariantów w dwóch kampaniach, testując kombinacje metod, których żaden ludzki zespół nie wypróbował. 100% wskaźnik skuteczności ataku przeciwko SecAlign-70B firmy Meta nie został osiągnięty dzięki nowatorskiemu wglądowi, lecz dzięki wyczerpującej rekombinacji w skali niepraktycznej dla badań ręcznych. Niebezpieczeństwo nie tkwi w nadludzkiej kreatywności, lecz w nadludzkiej dokładności eksploracji kombinatorycznej przestrzeni istniejących technik. Ta sama dokładność ma zastosowanie do sondowania interfejsów narzędzi agentów w poszukiwaniu eksploatowalnych zachowań.¹

Źródła

Alexander Panfilov, Peter Romov, Igor Shilov, Yves-Alexandre de Montjoye, Jonas Geiping, and Maksym Andriushchenko, “Claudini: Autoresearch Discovers State-of-the-Art Adversarial Attack Algorithms for LLMs,” arXiv:2603.24511, March 25, 2026. 33 baselines, 96 iterations on safeguard model, 82 on random targets. 40% ASR on CBRN queries vs 10% baseline, 100% ASR on Meta-SecAlign-70B vs 56% baseline. ↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩
romovpa, “claudini,” GitHub, March 2026. Apache 2.0. All discovered attacks, baseline implementations, evaluation code, and autoresearch loop prompt. ↩↩↩
Andrej Karpathy, “autoresearch,” GitHub, 2026. Original demonstration that Claude Code can autonomously improve ML training code. ↩↩
Blake Crosley, “What I Told NIST About AI Agent Security,” blakecrosley.com, February 2026. Production evidence from 60+ daily autonomous agent sessions, including autoresearch loop infrastructure. ↩↩
Anthropic, “Claude Code: Agentic coding tool,” Anthropic Documentation, 2026. The /loop command runs a prompt on a recurring interval, enabling autonomous iteration cycles. ↩
Andy Zou, Zifan Wang, Nicholas Carlini, Milad Nasr, J. Zico Kolter, and Matt Fredrikson, “Universal and Transferable Adversarial Attacks on Aligned Language Models,” arXiv:2307.15043, July 2023. The GCG (Greedy Coordinate Gradient) attack that Claudini used as a starting point. ↩