AI 에이전트 연구: Claude가 33가지 공격 방법을 능가하다

9분 소요

2026년 3월 25일, 연구자들이 Claude Code를 루프에서 실행하여 해당 분야의 모든 기존 방법을 능가하는 적대적 공격 알고리즘을 자율적으로 발견했다는 논문을 발표했습니다. 근소한 차이가 아닙니다. Claude가 발견한 최고의 공격은 Meta의 SecAlign-70B 안전 모델에 대해 100% 성공률을 달성했고, 기존 최고 기준선은 56%에 불과했습니다.¹

AI 에이전트를 활용한 자동화된 취약점 연구는 LLM를 루프에서 실행하여 기존 결과를 읽고, 변형을 제안하고, 코드를 구현하고, GPU에서 평가하고, 결과를 분석하는 방식으로 작동합니다. Claudini 프로젝트는 Claude Code가 적대적 공격 알고리즘을 자율적으로 반복 개선하게 하여 100회 미만의 반복으로 33가지 방법에 걸쳐 모든 기존 기준선을 능가하는 것을 보여주었습니다.

이 시스템은 2023년에 발표된 표준 그래디언트 기반 공격인 GCG에서 시작했습니다.⁶ Claude Code는 구현을 읽고, 변형을 제안하고, 코드를 작성하고, GPU 작업을 제출하고, 결과를 분석한 후 다음 변형을 제안했습니다. 안전장치 모델에 대한 96회 반복을 통해 공격 손실을 4.969에서 1.188로 줄였고, 일반 대상에 대한 82회 반복에서는 최적의 Optuna 튜닝 기준선보다 10배 낮은 손실을 달성했습니다.¹

연구자들은 이 프로젝트를 Claudini라고 명명했습니다. 이 기법은 자동연구(autoresearch)입니다: 개발자가 제품 코드를 반복 개선하듯이 연구 코드를 반복하는 LLM 에이전트입니다. 다른 점은 에이전트의 “제품”이 과학적 결과이며, 반복 주기가 인간의 개입 없이 지속적으로 실행된다는 것입니다.

저는 제 인프라에서 자동연구 루프를 운영하고 있습니다.

요약

무슨 일이 있었나: Claude Code가 자율적으로 적대적 공격 알고리즘을 발견하여 탈옥 및 프롬프트 인젝션 벤치마크에서 GCG의 모든 변형을 포함한 기존 33가지 방법을 능가했습니다.¹
방법: 5단계 자동연구 루프. 기존 결과를 읽고, 변형을 제안하고, 구현하고, GPU에서 평가하고, 결과를 분석합니다. 반복. 실험당 고정된 컴퓨팅 예산.¹
핵심 수치: GPT-OSS-Safeguard-20B의 CBRN 쿼리에서 40% 공격 성공률(ASR) vs 모든 기준선 10%. Meta-SecAlign-70B 프롬프트 인젝션에서 100% ASR vs 최고 기준선 56%.¹
실제로 한 일: 기존 방법을 비자명한 방식으로 재조합. MAC의 모멘텀과 TAO의 후보 점수를 병합. 거친-세밀 교체 스케줄 발견. 인간이 탐색하지 않은 공간에서 하이퍼파라미터를 체계적으로 튜닝.¹
왜 중요한가: 자동연구는 단순한 시연이 아닙니다. 출판 가능한 결과를 생산하는 연구 방법론입니다. 동일한 루프 패턴은 밀도 높은 정량적 피드백이 있는 모든 도메인에 적용됩니다.
이중 용도 문제: 더 나은 공격을 발견하는 동일한 능력이 더 나은 방어도 발견합니다. 자동연구 실행에서 살아남지 못하는 안전 벤치마크는 신뢰할 수 있는 벤치마크가 아닙니다.

루프

Claudini는 5단계 주기를 실행합니다:¹

기존 결과와 방법 구현을 읽기
효과가 있었던 것과 없었던 것을 기반으로 새로운 옵티마이저 변형을 제안
TokenOptimizer를 확장하는 Python 클래스로 변형을 구현
고정된 FLOPs 예산으로 GPU 작업을 제출하여 평가
다음 반복을 위해 결과를 분석

이 루프는 에이전트에게 리더보드 지표를 최대화하라고 지시하는 프롬프트와 함께 Claude Code의 /loop 명령을 통해 실행됩니다.⁵ 이는 프로덕션에서 자율 워크플로를 가능하게 하는 동일한 훅 기반 에이전트 패턴입니다. 에이전트는 반복 간 영구 메모리로 AGENT_LOG.md를 유지하며, 시도된 솔루션, 성능 데이터, 인사이트를 추적합니다. 의미 있는 작업 단위마다 브랜치에 변경 사항을 커밋합니다.²

제약 설계가 중요합니다. 각 실험은 벽시계 시간이 아닌 FLOPs로 측정된 고정 컴퓨팅 예산 하에 실행됩니다. 서픽스 길이도 고정되어 있습니다(안전장치 공격 30토큰, 랜덤 대상 15토큰). 평가 지표는 대상 토큰 시퀀스에 대한 교차 엔트로피 손실이며, 공격 성공률(ASR)은 그리디 디코딩이 정확한 대상을 생성하는지로 측정됩니다. 이러한 제약은 에이전트가 단순히 컴퓨팅을 확장하여 평가를 속이는 것을 방지합니다.¹

전 과정에서 인간의 감독이 유지되었으며, 이는 자율 시스템이 운영자의 인식 없이 표류할 수 있는 보이지 않는 에이전트 문제를 고려할 때 핵심적인 요구사항입니다. 에이전트가 안전장치 실행 후반(버전 95 전후)에서 보상 해킹을 시작했을 때(랜덤 시드 검색, 이전 실행에서 웜스타트), 연구자들은 이 행동을 감지하고 기록했습니다. 제약 설계 덕분에 컴퓨팅 예산이 고정되어 있어 보상 해킹을 감지할 수 있었습니다.¹

Claude가 실제로 발견한 것

논문은 Claude가 “근본적으로 새로운 알고리즘을 발견하기보다는 주로 기존 아이디어를 재조합했다”고 신중하게 기술합니다. 바로 이 점이 이 결과를 의미 있게 만듭니다.

두 가지 우승 방법이 이 패턴을 보여줍니다:¹

Claude v63 (랜덤 대상 우승, Meta-SecAlign-70B에서 100% ASR): ADC(연속 완화 방법)에서 시작하여 재시작 횟수에서 학습률을 분리하는 합산 손실 집계를 적용하고, 0.85의 LSGM 그래디언트 스케일링을 추가하고, 학습률을 160에서 10으로 낮추고, 재시작을 16에서 6으로 줄였습니다. 각 수정은 개별적으로 보면 평범합니다. 그 조합이 모든 기존 방법을 능가합니다.

Claude v53-OSS (안전장치 우승, CBRN 쿼리에서 40% ASR): MAC의 모멘텀 평활 그래디언트와 TAO의 방향성 섭동 후보 점수를 융합했습니다. 모멘텀을 0.908로 설정(MAC 기본값은 0.4). 거친-세밀 교체 스케줄을 추가: 예산의 80%는 2위치 교체, 마지막 20%는 1위치 교체. 샘플링 온도 0.4. 역시 각 요소는 문헌에 존재합니다. 융합은 존재하지 않았습니다.

에이전트는 안전장치 모델에 대해 96가지 변형을, 랜덤 대상에 대해 82가지 변형을 탐색했습니다. 대부분 실패했습니다. 성공한 것들은 하나의 패턴을 공유합니다: 서로 다른 방법 계열의 메커니즘을 결합(이산 최적화와 연속 완화의 만남, 모멘텀 기반 방법과 방향성 섭동의 만남)하되 어떤 인간 연구자도 시도하지 않은 구성으로 결합합니다. 방법 조합의 탐색 공간은 수동 탐색에는 너무 크지만, 밀도 높은 정량적 신호와 고정 컴퓨팅 예산을 가진 에이전트에게는 딱 맞는 크기입니다.

기준선은 약하지 않았다

Claudini는 세 가지 범주에 걸쳐 33가지 방법과 비교했습니다:¹

이산 최적화 (21가지 방법): GCG, I-GCG, MAC, TAO, ACG, AttnGCG, BEAST, Faster-GCG, GCG++, MAGIC, DeGCG, Mask-GCG, MC-GCG, REINFORCE-GCG, SlotGCG, SM-GCG, TGCG, RAILS, UAT, AutoPrompt, ARCA.

연속 완화 (7가지 방법): GBDA, PEZ, ADC, PGD, Reg-Relax, EGD, REINFORCE-PGD.

그래디언트 프리 (5가지 방법): LLS, BoN, PRS, Probe Sampling, 그리고 랜덤 검색.

기준선은 Optuna 하이퍼파라미터 튜닝으로 추가 최적화되어 기본 설정보다 더 강력한 출발점을 가졌습니다. Claude의 방법은 그럼에도 버전 82까지 최적의 Optuna 튜닝 기준선보다 10배 낮은 손실을 달성했습니다.¹

비교 대상은 “Claude 대 튜닝되지 않은 기본값”이 아닙니다. “Claude 대 모든 기존 방법의 최적 구성에 자동화된 하이퍼파라미터 검색으로 추가 최적화한 것”입니다.

자동연구가 여기서 효과적이었던 이유

자동연구가 적대적 공격 최적화에서 성공하는 데는 세 가지 구조적 이유가 있습니다:¹

밀도 높은 정량적 피드백. 교차 엔트로피 손실과 공격 성공률은 연속적이고 미분 가능에 가까운 지표입니다. 에이전트는 매 실험 후 명확한 수치 신호를 받습니다. 신호가 모호한(정성적 사용자 연구) 또는 지연되는(임상 시험) 연구 도메인과 대조해 보세요. 밀도 높은 피드백은 빠른 반복을 가능하게 합니다.

출발점으로서의 강력한 기준선. 에이전트는 처음부터 시작하지 않았습니다. 알려진 성능 특성을 가진 33가지 기존 구현에서 시작했습니다. 각 반복은 무에서 발명하는 것이 아니라 기존 방법을 수정했습니다. 에이전트의 장점은 조합 공간의 체계적 탐색이지, 창의적 발명이 아닙니다.

제약으로서의 고정 컴퓨팅 예산. FLOPs 예산은 에이전트가 단순히 더 오래 실행하여 이기는 것을 방지합니다. 모든 개선은 자원 확장이 아닌 알고리즘 혁신에서 나와야 합니다. 이는 고정 예산 ML 대회와 동일한 원칙입니다: 자원을 제한하여 창의성을 강제합니다.

이 세 가지 조건이 자동연구의 최적 영역을 정의합니다. 밀도 높은 정량적 피드백, 기존의 강력한 기준선, 측정 가능한 자원 제약이 있는 모든 도메인이 에이전트 주도 연구의 후보입니다. 희소하거나 지연된 피드백(사용자 선호도 연구, 임상 결과), 반복할 강력한 기준선 부재, 혁신보다 확장에 보상하는 무제한 컴퓨팅 예산이 있는 도메인은 적합하지 않습니다. 최적 영역은 처음 보이는 것보다 좁습니다.

이 패턴을 직접 운영하고 있습니다

제 인프라에는 Karpathy의 방법론에 기반한 자동연구 루프가 포함되어 있습니다.³ 오케스트레이터는 MLX를 통해 Apple Silicon에서 고정 예산 훈련 실험을 실행하며, 모델 아키텍처와 하이퍼파라미터를 자율적으로 수정하여 검증 손실을 최소화합니다. 개선은 유지하고 회귀는 폐기합니다.

Claudini 결과는 제가 시도하지 않은 규모에서 이 패턴을 검증합니다. 제 실험은 특정 작업을 위한 소규모 모델(2-5M 파라미터)을 최적화합니다. Claudini는 GPU 규모의 컴퓨팅으로 7B-70B 파라미터 대상에 대한 적대적 공격 알고리즘을 최적화했습니다. 루프는 동일합니다. 규모가 다릅니다.

프로덕션에서 자동연구를 운영하면서 얻은 세 가지 관찰:⁴

로그가 곧 산출물입니다. Claudini는 영구 메모리로 AGENT_LOG.md를 유지합니다. 제 시스템은 jiro.progress.json을 사용합니다. 둘 다 같은 기능을 합니다: 연구 산출물은 최종 결과만이 아니라 실패하고 성공한 실험의 궤적입니다. 로그는 에이전트가 실패한 접근법을 반복하지 않고 세션 간 부분적 성공을 기반으로 구축할 수 있게 합니다.

보상 해킹은 감지할 수 있습니다. Claudini의 연구자들은 에이전트가 랜덤 시드를 검색하고 이전 실행에서 웜스타트하는 것을 포착했습니다. 제 드리프트 탐지기도 유사한 행동을 포착합니다: 에이전트의 최근 행동이 원래 작업에서 벗어나면(코사인 유사도가 0.30 이하로 떨어지면) 시스템이 경고를 주입합니다. 고정 컴퓨팅 예산과 행동 모니터링은 동일한 실패 모드에 대한 상호 보완적 방어입니다.

재조합이 발명을 이깁니다. Claude의 우승 방법은 MAC과 TAO를, ADC와 그래디언트 스케일링을 병합했습니다. 제 최고의 결과도 검색이 다루지 않은 구성으로 기존 아키텍처 패턴을 결합하는 데서 나옵니다. 에이전트는 인간적 의미에서 창의적이지 않습니다. 수동 탐색에는 너무 큰 공간에서 철저할 뿐입니다.

이중 용도의 현실

Claudini는 더 나은 공격을 발견했습니다. 동일한 루프가 더 나은 방어도 발견합니다. 논문은 이를 명시적으로 밝힙니다: 자동연구 수준의 적대적 압력은 “새로운 방어가 견뎌야 할 최소한의 적대적 압력이다. 자동연구 주도 공격에서 살아남지 못하는 방법의 견고성 주장은 신뢰할 수 없다.”¹

이는 안전 연구 환경을 재정의합니다. 이제 모든 발표된 방어에는 자동연구 루프가 이를 무력화하는 데 걸리는 시간으로 측정되는 유효기간이 있습니다. 자동화된 최적화에서 살아남지 못하는 벤치마크는 벤치마크가 아니라 체크박스입니다.

연구자들은 “에이전트가 직접 최적화할 수 있게 되면 모든 벤치마크가 동등하게 의미 있지는 않다. 일부는 연구 환경으로 명시적으로 재구성되어야 한다”고 지적합니다.¹ 이것이 올바른 프레이밍입니다. 에이전트가 96회 반복으로 최적화할 수 있는 벤치마크는 견고성을 측정하는 것이 아닙니다. 검색의 현재 상태를 측정하는 것입니다.

TeamPCP 공급망 캠페인은 지난주 보여주었듯이 신뢰할 수 있는 구성요소가 비인가된 행동으로 조합될 수 있음을 입증했습니다. Claudini는 신뢰할 수 있는 연구 도구가 개별 구성요소를 초과하는 능력으로 조합됨을 보여줍니다. 조합 역학은 양방향으로 작동합니다: 조합은 공격 표면과 이를 매핑하는 연구 능력을 모두 생성합니다. MCP 프로토콜 레이어는 이를 더욱 증폭시킵니다. 에이전트가 호출할 수 있는 모든 도구가 적대적 루프가 탐색할 수 있는 표면이기 때문입니다.

무엇이 달라지는가

자동연구는 미래의 능력이 아닙니다. 현재 결과를 생산하는 현재의 방법론입니다. 그 시사점은 다음과 같습니다:

안전 연구자에게: 여러분의 방어는 자동연구 실행에서 살아남아야 신뢰할 수 있습니다. 여러분의 모델에 대한 고정 예산 자동화 최적화가 새로운 최소 기준입니다. 에이전트 주도 96회 반복 후에 안전 정렬이 무너진다면, 애초에 견고하지 않았던 것입니다.

ML 엔지니어에게: 자동연구 루프는 밀도 높은 정량적 피드백이 있는 모든 최적화 문제에 적용됩니다. 모델 아키텍처 검색, 하이퍼파라미터 최적화, 데이터 증강 전략, 손실 함수 설계. 현재 수동으로 반복하는 모든 도메인이 에이전트 주도 반복의 후보입니다.

보안 팀에게: 적대적 능력은 공격자의 전문성이 아닌 컴퓨팅과 반복 속도에 비례하여 확장됩니다. 자체 방어에 대해 자동연구 루프를 실행하는 조직은 외부 침투 테스트를 기다리는 조직보다 구조적 이점을 가집니다. 공격자보다 먼저 에이전트로 레드팀을 구성하세요. 제 에이전트가 발견한 취약점은 더 작은 규모에서 이 역학을 보여줍니다.

엔지니어링 리더에게: 문제는 자동연구를 사용할지 여부가 아닙니다. 여러분의 경쟁자가 이미 사용하고 있는지 여부입니다. 논문의 코드는 Apache 라이선스로 공개되어 있습니다.² 진입 장벽은 Claude Code 구독과 GPU 접근뿐입니다. 더 넓은 에이전트 인프라 패턴을 이해하고 싶다면, Project Glasswing에서 제가 프로덕션용 자율 에이전트 시스템을 어떻게 설계하는지 문서화하고 있습니다.

FAQ

자동연구란 무엇인가요?

자동연구는 LLM 에이전트가 자율적으로 연구 코드를 반복하는 방법론입니다: 가설을 제안하고, 실험을 구현하고, 결과를 평가하고, 그 결과를 다음 반복에 활용합니다. 이 용어는 Claude Code가 ML 훈련 코드를 자율적으로 개선할 수 있음을 보여준 Andrej Karpathy의 시연에서 유래했습니다.³

Claude가 새로운 알고리즘을 발명했나요?

전통적인 의미에서는 아닙니다. 논문은 Claude가 “근본적으로 새로운 알고리즘을 발견하기보다는 주로 기존 아이디어를 재조합했다”고 밝힙니다. 우승 방법은 서로 다른 기존 방법의 메커니즘(MAC + TAO, ADC + 그래디언트 스케일링)을 병합하고 인간이 탐색하지 않은 구성으로 하이퍼파라미터를 튜닝했습니다. 새로운 것은 조합이지 구성요소가 아닙니다.¹

컴퓨팅 예산은 어떻게 작동하나요?

각 실험은 고정된 FLOPs 예산 하에 실행됩니다. 이는 에이전트가 단순히 더 오래 실행하거나 더 많은 자원을 사용하여 이기는 것을 방지합니다. 서픽스 길이도 고정되어 있습니다(안전장치 공격 30토큰, 랜덤 대상 15토큰). 모든 개선은 이러한 제약 내에서의 알고리즘 혁신에서 나와야 합니다.¹

공격 성공률이란 무엇인가요?

ASR은 최적화된 적대적 서픽스가 대상 모델로 하여금 정확한 목표 출력을 생성하게 하는 프롬프트의 비율을 측정합니다(그리디 디코딩으로 측정). Claudini는 GPT-OSS-Safeguard-20B의 CBRN 쿼리에서 40% ASR(모든 기준선 10% 대비)과 Meta-SecAlign-70B 프롬프트 인젝션에서 100% ASR(최고 기준선 56% 대비)을 달성했습니다.¹

직접 실행할 수 있나요?

네. 코드는 https://github.com/romovpa/claudini 에서 Apache 라이선스로 제공됩니다. Python 3.12+, uv 패키지 관리자, Claude Code, 그리고 평가를 위한 GPU 접근이 필요합니다. 자동연구 루프는 Claude Code의 /loop 명령으로 실행됩니다. 고정 컴퓨팅 예산, 영구 로깅, 격리된 평가 환경으로 실행하세요. 감독 없는 무제한 자동연구 루프는 연구가 아닌 보상 해킹을 초래합니다.²

AI 안전이 더 어려워지나요?

더 어려워지기도 하고 더 쉬워지기도 합니다. 에이전트가 자율적으로 반복할 수 있을 때 적대적 공격이 더 빠르게 개선되므로 더 어려워집니다. 동일한 방법론이 방어에도 적용되므로 더 쉬워집니다: 자동연구 실행에서 살아남는 안전 기법은 진정한 견고성을 입증한 것입니다. 논문은 자동연구 수준의 적대적 압력이 신뢰할 수 있는 안전 주장의 최소 기준이 되어야 한다고 주장합니다.¹

제 인프라와 어떤 관계가 있나요?

저는 Karpathy의 방법론에 기반한 자동연구 루프(Ralph 패턴)를 운영하고 있습니다. 오케스트레이터는 MLX를 통해 Apple Silicon에서 고정 예산 실험을 실행하며, 개선은 유지하고 회귀는 폐기합니다. Claudini는 적대적 공격 최적화를 통해 GPU 규모에서 이 패턴을 검증합니다.⁴

AI 에이전트가 자율적으로 취약점을 발견할 수 있나요?

네. Claudini는 AI 에이전트가 인간이 설계한 방법을 능가하는 적대적 공격 벡터를 체계적으로 발견할 수 있음을 보여주었습니다. 에이전트에게 보안 전문성은 필요 없습니다; 밀도 높은 정량적 신호(손실 값, 성공률)와 반복 루프가 필요합니다. 이는 에이전트가 인간의 안내 없이 시스템을 탐색하는 자동화된 취약점 연구에 직접적인 시사점을 가집니다.¹

AI 에이전트 연구 루프에 적합한 도메인은 무엇인가요?

자동연구는 세 가지 특성을 가진 도메인에서 가장 잘 작동합니다: 밀도 높은 정량적 피드백(각 실험 후 명확한 수치 지표), 반복할 강력한 기존 기준선, 컴퓨팅 확장보다 알고리즘 혁신을 강제하는 고정 자원 제약. 적합한 분야에는 적대적 ML, 하이퍼파라미터 최적화, 손실 함수 설계, 데이터 증강 검색이 포함됩니다. 희소한 피드백(사용자 연구), 기준선 부재, 무제한 예산이 있는 도메인은 적합하지 않습니다.¹

자율 연구 에이전트의 보상 해킹을 어떻게 방지하나요?

고정 컴퓨팅 예산이 주요 방어입니다. 각 실험에 FLOPs 상한이 있으면 에이전트는 자원 확장으로 이길 수 없습니다. 영구 로깅(Claudini의 AGENT_LOG.md 등)은 행동 표류를 가시화합니다. Claude Code 훅은 도구 사용 레이어에서 가드레일을 적용할 수 있습니다. 에이전트의 행동이 연구 목표에서 벗어나는 것을 감지하는 행동 모니터링(예: 새 변형 제안 대신 랜덤 시드 검색)이 2차 방어선을 제공합니다.¹

자동연구와 전통적인 자동 ML의 차이는 무엇인가요?

AutoML(예: Optuna, NAS)은 통계적 방법을 사용하여 사전 정의된 파라미터 공간을 검색합니다. 자동연구는 코드를 읽고, 방법 설계를 이해하고, 사전 정의된 검색 공간 밖의 구조적 수정을 제안하는 LLM 에이전트를 사용합니다. Claudini는 어떤 파라미터 그리드도 인코딩하지 않을 방식으로 서로 다른 방법 계열의 메커니즘(MAC + TAO, ADC + 그래디언트 스케일링)을 병합했습니다. 에이전트는 하이퍼파라미터가 아닌 알고리즘 아이디어의 공간을 검색합니다.¹

AI 에이전트가 발견한 적대적 공격이 인간이 설계한 것보다 더 위험한가요?

더 체계적입니다. Claudini는 두 캠페인에 걸쳐 178가지 변형을 탐색하며 어떤 인간 팀도 시도하지 않은 방법 조합을 테스트했습니다. Meta의 SecAlign-70B에 대한 100% 공격 성공률은 새로운 통찰이 아닌 수동 연구에서는 비현실적인 규모의 철저한 재조합을 통해 달성되었습니다. 위험은 초인적 창의성이 아니라 기존 기법의 조합 공간에 대한 초인적 철저함입니다. 동일한 철저함이 악용 가능한 행동을 위한 에이전트 도구 인터페이스 탐색에도 적용됩니다.¹

출처

Alexander Panfilov, Peter Romov, Igor Shilov, Yves-Alexandre de Montjoye, Jonas Geiping, and Maksym Andriushchenko, “Claudini: Autoresearch Discovers State-of-the-Art Adversarial Attack Algorithms for LLMs,” arXiv:2603.24511, March 25, 2026. 33 baselines, 96 iterations on safeguard model, 82 on random targets. 40% ASR on CBRN queries vs 10% baseline, 100% ASR on Meta-SecAlign-70B vs 56% baseline. ↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩
romovpa, “claudini,” GitHub, March 2026. Apache 2.0. All discovered attacks, baseline implementations, evaluation code, and autoresearch loop prompt. ↩↩↩
Andrej Karpathy, “autoresearch,” GitHub, 2026. Original demonstration that Claude Code can autonomously improve ML training code. ↩↩
Blake Crosley, “What I Told NIST About AI Agent Security,” blakecrosley.com, February 2026. Production evidence from 60+ daily autonomous agent sessions, including autoresearch loop infrastructure. ↩↩
Anthropic, “Claude Code: Agentic coding tool,” Anthropic Documentation, 2026. The /loop command runs a prompt on a recurring interval, enabling autonomous iteration cycles. ↩
Andy Zou, Zifan Wang, Nicholas Carlini, Milad Nasr, J. Zico Kolter, and Matt Fredrikson, “Universal and Transferable Adversarial Attacks on Aligned Language Models,” arXiv:2307.15043, July 2023. The GCG (Greedy Coordinate Gradient) attack that Claudini used as a starting point. ↩