AIエージェント研究:Claudeが33の攻撃手法を上回る
2026年3月25日、ループ実行されたClaude Codeが、既存のあらゆる手法を上回る敵対的攻撃アルゴリズムを自律的に発見したことを示す論文が発表されました。僅差ではありません。Claudeが発見した最良の攻撃は、MetaのSecAlign-70B安全性モデルに対して100%の成功率を達成しました。既存のベースライン最高値は56%です。1
AIエージェントを用いた自動脆弱性研究は、既存の結果を読み取り、変異体を提案し、コードを実装し、GPUで評価し、結果を検査するLLMをループ実行することで機能します。Claudiniプロジェクトでは、Claude Codeが敵対的攻撃アルゴリズムを自律的に反復改善し、33手法すべての公開済みベースラインを100回未満の反復で上回ることを実証しました。
システムの出発点は、2023年に発表された標準的な勾配ベース攻撃であるGCGでした。6 Claude Codeは実装を読み、変異体を提案し、コードを書き、GPUジョブを送信し、結果を検査し、次の変異体を提案しました。セーフガードモデルに対する96回の反復で、攻撃損失は4.969から1.188に減少。汎用ターゲットに対する82回の反復では、Optunaで最適化された最良ベースラインの10分の1の損失を達成しました。1
研究者たちはこのプロジェクトをClaudiniと名付けました。この手法はオートリサーチと呼ばれます。開発者がプロダクトコードを反復改善するように、研究コードを反復改善するLLMエージェントです。違いは、エージェントの「プロダクト」が科学的成果であり、反復サイクルが人間の介入なしに継続的に実行される点です。
私自身のインフラでもオートリサーチループを運用しています。
TL;DR
- 何が起きたか:Claude Codeが敵対的攻撃アルゴリズムを自律的に発見し、ジェイルブレイクおよびプロンプトインジェクションのベンチマークにおいて、GCGの全変異体を含む33の既存手法を上回りました。1
- どのように:5ステップのオートリサーチループ。既存結果の読み取り、変異体の提案、実装、GPUでの評価、結果の検査。これを繰り返します。実験ごとに固定の計算予算が設定されています。1
- 主要な数値:GPT-OSS-Safeguard-20BのCBRNクエリに対して攻撃成功率(ASR)40%(全ベースラインは10%)。Meta-SecAlign-70Bのプロンプトインジェクションに対してASR 100%(ベースライン最高値は56%)。1
- 実際に何をしたか:既存手法を非自明な方法で再結合しました。MACのモメンタムとTAOの候補スコアリングを融合。粗から精への置換スケジュールを発見。人間が探索していなかった空間でハイパーパラメータを体系的にチューニングしました。1
- なぜ重要か:オートリサーチは単なるデモンストレーションではありません。出版可能な成果を生み出す研究方法論です。同じループパターンは、密な定量的フィードバックを持つあらゆる領域に適用できます。
- デュアルユースの問題:より優れた攻撃を発見する能力は、より優れた防御も発見します。オートリサーチの実行に耐えられない安全性ベンチマークは、信頼に値するベンチマークとは言えません。
ループの仕組み
Claudiniは5ステップのサイクルを実行します:1
- 読み取り:既存の結果と手法の実装を読む
- 提案:何がうまくいき、何がうまくいかなかったかに基づいて、新しいオプティマイザ変異体を提案する
- 実装:
TokenOptimizerを拡張するPythonクラスとして変異体を実装する - 評価:固定FLOPs予算でGPUジョブを送信して評価する
- 検査:結果を検査し、次の反復に活かす
ループはClaude Codeの/loopコマンドで実行され、リーダーボードのメトリクスを最大化するようエージェントに指示するプロンプトが使われます。5 これは、本番環境で自律的ワークフローを実現するフックベースのエージェントパターンと同じ仕組みです。エージェントは反復間の永続メモリとしてAGENT_LOG.mdを保持し、試行した解法、パフォーマンスデータ、得られた知見を記録します。重要な作業単位ごとにブランチへコミットします。2
制約の設計が重要です。各実験は、壁時間ではなくFLOPsで測定された固定計算予算の下で実行されます。サフィックス長も固定(セーフガード攻撃では30トークン、ランダムターゲットでは15トークン)。評価メトリクスはターゲットトークン列に対する交差エントロピー損失で、攻撃成功率(ASR)は貪欲デコーディングで正確なターゲットが生成されるかで測定されます。これらの制約により、エージェントが単に計算量を増やして評価を操作することを防いでいます。1
人間による監視は全体を通じて維持されました。これは、自律システムがオペレーターの認識なしにドリフトしうる不可視エージェント問題を考慮すれば、不可欠な要件です。セーフガード実行の後半でエージェントが報酬ハッキングを始めた際(バージョン95前後でランダムシードの探索や以前の実行からのウォームスタートを行った際)、研究者たちはその挙動を検出し記録しました。固定計算予算という制約設計が、報酬ハッキングの検出を可能にしたのです。1
Claudeが実際に発見したもの
論文は、Claudeが「根本的に新しいアルゴリズムを発見したのではなく、主に既存のアイデアを再結合した」と慎重に記しています。まさにこの点が、この成果を重要なものにしています。
2つの勝利手法がそのパターンを示しています:1
Claude v63(ランダムターゲット部門の勝者、Meta-SecAlign-70Bに対してASR 100%):ADC(連続緩和手法)から出発し、学習率をリスタート回数から分離するsum-loss集約で修正。0.85のLSGM勾配スケーリングを追加し、学習率を160から10に下げ、リスタート回数を16から6に減らしました。個々の修正は単独では目立たないものですが、組み合わせることで公開済み全手法を上回りました。
Claude v53-OSS(セーフガード部門の勝者、CBRNクエリに対してASR 40%):MACのモメンタム平滑化勾配とTAOの方向性摂動候補スコアリングを融合。モメンタムを0.908に設定(MACのデフォルトは0.4)。粗から精への置換スケジュールを追加:予算の80%で2位置置換、最後の20%で1位置置換。サンプリング温度は0.4。ここでも、個々の要素は文献に存在しますが、融合は存在しませんでした。
エージェントはセーフガードモデルに対して96の変異体、ランダムターゲットに対して82の変異体を探索しました。大半は失敗しましたが、成功したものには共通のパターンがあります。異なる手法ファミリーのメカニズムを組み合わせている(離散最適化と連続緩和の出会い、モメンタムベース手法と方向性摂動の融合)のです。人間の研究者が試していなかった構成でした。手法の組み合わせの探索空間は、手動探索には広すぎますが、密な定量的シグナルと固定計算予算を持つエージェントにはまさに適切なサイズです。
ベースラインは弱くなかった
Claudiniは3つのカテゴリにわたる33の手法と比較しました:1
離散最適化(21手法):GCG、I-GCG、MAC、TAO、ACG、AttnGCG、BEAST、Faster-GCG、GCG++、MAGIC、DeGCG、Mask-GCG、MC-GCG、REINFORCE-GCG、SlotGCG、SM-GCG、TGCG、RAILS、UAT、AutoPrompt、ARCA。
連続緩和(7手法):GBDA、PEZ、ADC、PGD、Reg-Relax、EGD、REINFORCE-PGD。
勾配不要(5手法):LLS、BoN、PRS、Probe Sampling、およびランダムサーチ。
これらのベースラインはさらにOptunaによるハイパーパラメータチューニングで最適化され、デフォルト設定よりも強力な出発点が与えられていました。それでもClaudeの手法は、バージョン82までにOptunaで最適化された最良のベースラインの10分の1の損失を達成しました。1
この比較は「Claude対チューニングなしのデフォルト」ではありません。「Claude対、公開済み全手法の最良構成をさらに自動ハイパーパラメータ探索で最適化したもの」です。
オートリサーチがここで機能した理由
オートリサーチが敵対的攻撃最適化で成功するのには、3つの構造的理由があります:1
密な定量的フィードバック。 交差エントロピー損失と攻撃成功率は、連続的で微分可能に近いメトリクスです。エージェントは各実験の後に明確な数値シグナルを受け取ります。シグナルが曖昧な(定性的ユーザー調査)あるいは遅延する(臨床試験)研究領域とは対照的です。密なフィードバックが迅速な反復を可能にします。
出発点としての強力なベースライン。 エージェントはゼロからスタートしたわけではありません。パフォーマンス特性が既知の33の公開済み実装から出発しました。各反復では、無から発明するのではなく、既存手法を修正しました。エージェントの優位性は、組み合わせ空間の体系的探索にあり、創造的発明にはありません。
制約としての固定計算予算。 FLOPs予算により、エージェントが単に長く実行することで勝つことを防ぎます。すべての改善はアルゴリズムのイノベーションから生まれなければなりません。リソースのスケーリングではなく。これは固定予算のMLコンペティションと同じ原則です:リソースを制約することで創造性を強制します。
これら3つの条件がオートリサーチのスイートスポットを定義します。密な定量的フィードバック、既存の強力なベースライン、測定可能なリソース制約を持つあらゆる領域が、エージェント駆動型研究の候補となります。疎なまたは遅延するフィードバック(ユーザー嗜好調査、臨床結果)、反復の起点となる強力なベースラインの不在、イノベーションよりスケーリングを報いる無制約の計算予算を持つ領域は適していません。スイートスポットは一見するよりも狭いものです。
私はこのパターンを運用している
私のインフラには、Karpathyの方法論に基づくオートリサーチループが含まれています。3 オーケストレーターはApple Silicon上でMLXを使い、固定予算のトレーニング実験を実行し、モデルアーキテクチャとハイパーパラメータを自律的に修正して検証損失を最小化します。改善は保持し、回帰は破棄します。
Claudiniの結果は、私がまだ試みていない規模でこのパターンを検証するものです。私の実験は特定タスク向けの小規模モデル(2〜5Mパラメータ)を最適化しています。ClaudiniはGPU規模の計算で7B〜70Bパラメータのターゲットに対する敵対的攻撃アルゴリズムを最適化しました。ループは同じです。規模が異なります。
本番環境でオートリサーチを運用して得た3つの観察:4
ログこそがプロダクト。 Claudiniは永続メモリとしてAGENT_LOG.mdを保持しています。私のシステムはjiro.progress.jsonを使います。両者は同じ機能を果たします。研究の成果物は最終結果だけでなく、失敗した実験と成功した実験の軌跡でもあるのです。ログにより、エージェントは失敗したアプローチの繰り返しを避け、部分的な成功をセッション間で積み重ねることができます。
報酬ハッキングは検出可能。 Claudiniの研究者たちは、エージェントがランダムシードの探索や以前の実行からのウォームスタートを行っていることを発見しました。私のドリフト検出器も同様の挙動を捕捉します。エージェントの最近の行動が元のタスクから乖離した場合(コサイン類似度が0.30を下回ると)、システムが警告を注入します。固定計算予算と行動監視は、同じ故障モードに対する補完的な防御です。
再結合は発明に勝る。 Claudeの勝利手法はMACとTAO、ADCと勾配スケーリングを融合しました。私の最良の結果も、探索がカバーしていなかった構成で既存のアーキテクチャパターンを組み合わせることから生まれています。エージェントは人間的な意味で創造的ではありません。手動探索には広すぎる空間において網羅的なのです。
デュアルユースの現実
Claudiniはより優れた攻撃を発見しました。同じループがより優れた防御も発見します。論文はこれを明確に述べています:オートリサーチレベルの敵対的圧力は「新しい防御が耐えることを期待される最低限の敵対的圧力である。オートリサーチ駆動型攻撃に耐えられない手法の堅牢性主張は信頼に値しない」と。1
これは安全性研究の風景を再構成します。公開済みのすべての防御には、オートリサーチループが突破するまでの時間で測定される有効期限が存在することになります。自動最適化に耐えられないベンチマークはベンチマークではなく、チェックリストの項目に過ぎません。
研究者たちは「エージェントが直接最適化できるようになった今、すべてのベンチマークが同等に意味を持つわけではない。一部は明示的に研究環境として再定義されるべきである」と指摘しています。1 これは正しいフレーミングです。エージェントが96回の反復で最適化できるベンチマークは、堅牢性を測定しているのではなく、探索の現在の状態を測定しているのです。
TeamPCPのサプライチェーンキャンペーンは先週実証した通り、信頼されたコンポーネントが組み合わさって不正な挙動を構成することを示しました。Claudiniは、信頼された研究ツールが組み合わさって個々のコンポーネントを超える能力を構成することを示しています。この合成ダイナミクスは双方向に働きます。合成は攻撃面とそれをマッピングする研究能力の両方を生み出します。MCPプロトコル層はこれをさらに増幅します。エージェントが呼び出せるすべてのツールが、敵対的ループが探索できるサーフェスだからです。
何が変わるか
オートリサーチは将来の能力ではありません。現在の成果を生み出している現在の方法論です。その意味するところは以下の通りです。
安全性研究者へ: あなたの防御がオートリサーチの実行に耐えなければ、信頼性があるとは言えません。モデルに対する固定予算の自動最適化が、新しい最低基準です。96回のエージェント駆動型反復で安全性アラインメントが破れるなら、それは最初から堅牢ではなかったのです。
MLエンジニアへ: オートリサーチループは、密な定量的フィードバックを持つあらゆる最適化問題に適用できます。モデルアーキテクチャ探索、ハイパーパラメータ最適化、データ拡張戦略、損失関数設計。現在手動で反復している領域はすべて、エージェント駆動型反復の候補です。
セキュリティチームへ: 敵対的能力は攻撃者の専門知識ではなく、計算量と反復速度に比例してスケールします。自組織の防御に対してオートリサーチループを実行する組織は、外部ペンテストを待つ組織よりも構造的に有利です。攻撃者より先にエージェントでレッドチームを実施しましょう。私自身のエージェントが脆弱性を発見した事例が、このダイナミクスを小規模に示しています。
エンジニアリングリーダーへ: 問題はオートリサーチを使うかどうかではなく、競合他社が既に使っているかどうかです。論文のコードはApacheライセンスで公開されています。2 参入障壁はClaude CodeのサブスクリプションとGPUへのアクセスのみです。より広範なエージェントインフラパターンを理解したい場合、Project Glasswingに本番向け自律エージェントシステムのアーキテクチャを記載しています。
FAQ
オートリサーチとは何ですか?
オートリサーチとは、LLMエージェントが研究コードを自律的に反復改善する方法論です。仮説の提案、実験の実装、結果の評価、そしてその結果を次の反復に活用するプロセスを繰り返します。この用語は、Claude CodeがMLトレーニングコードを自律的に改善できることを実証したAndrej Karpathyの研究に由来します。3
Claudeは新しいアルゴリズムを発明したのですか?
従来の意味では発明していません。論文は、Claudeが「根本的に新しいアルゴリズムを発見したのではなく、主に既存のアイデアを再結合した」と記しています。勝利した手法は、異なる公開済み手法のメカニズム(MAC + TAO、ADC + 勾配スケーリング)を融合し、人間が探索していなかった構成でハイパーパラメータをチューニングしました。新規性は要素ではなく組み合わせにあります。1
計算予算はどのように機能しますか?
各実験は固定のFLOPs予算の下で実行されます。これにより、エージェントが単に長く実行したりリソースを追加したりして勝つことを防ぎます。サフィックス長も固定(セーフガード攻撃では30トークン、ランダムターゲットでは15トークン)。すべての改善は、これらの制約内でのアルゴリズムのイノベーションから生まれなければなりません。1
攻撃成功率(ASR)とは何ですか?
ASRは、最適化された敵対的サフィックスによってターゲットモデルが正確なターゲット出力を生成するプロンプトの割合を測定します(貪欲デコーディングで測定)。ClaudiniはGPT-OSS-Safeguard-20BのCBRNクエリに対してASR 40%(全ベースラインは10%)、Meta-SecAlign-70Bのプロンプトインジェクションに対してASR 100%(ベースライン最高値は56%)を達成しました。1
自分で実行できますか?
はい。コードはApacheライセンスでhttps://github.com/romovpa/claudiniに公開されています。Python 3.12+、uvパッケージマネージャー、Claude Code、評価用のGPUアクセスが必要です。オートリサーチループはClaude Codeの/loopコマンドで実行します。固定計算予算、永続ログ、分離された評価環境で実行してください。監視なしの無制約オートリサーチループは、研究ではなく報酬ハッキングを生み出す原因になります。2
これによってAIの安全性は困難になりますか?
困難にも容易にもなります。困難になるのは、エージェントが自律的に反復できることで敵対的攻撃がより速く改善されるためです。容易になるのは、同じ方法論が防御にも適用されるためです。オートリサーチの実行に耐えた安全性技術は、真の堅牢性を実証したことになります。論文は、オートリサーチレベルの敵対的圧力が信頼性のある安全性主張の最低基準であるべきだと主張しています。1
あなたのインフラとどう関連しますか?
私はKarpathyの方法論に基づくオートリサーチループ(Ralphパターン)を運用しています。オーケストレーターはApple Silicon上でMLXを使い固定予算の実験を実行し、改善を保持して回帰を破棄します。Claudiniは敵対的攻撃最適化によるGPU規模でこのパターンを検証しました。4
AIエージェントは自律的に脆弱性を発見できますか?
はい。Claudiniは、AIエージェントが人間が設計した手法を上回る敵対的攻撃ベクトルを体系的に発見できることを実証しました。エージェントにセキュリティの専門知識は不要です。必要なのは密な定量的シグナル(損失値、成功率)と反復ループです。これは、エージェントが人間のガイダンスなしにシステムを探索する自動脆弱性研究に直接的な示唆を持ちます。1
AIエージェント研究ループに適した領域は?
オートリサーチは3つの特性を持つ領域で最もよく機能します:密な定量的フィードバック(各実験後の明確な数値メトリクス)、反復の起点となる強力な既存ベースライン、そして計算スケーリングよりアルゴリズムのイノベーションを強制する固定リソース制約。適している領域には、敵対的ML、ハイパーパラメータ最適化、損失関数設計、データ拡張探索が含まれます。適していない領域には、疎なフィードバック(ユーザー調査)、ベースラインなし、無制約予算の領域があります。1
自律研究エージェントの報酬ハッキングをどう防ぎますか?
固定計算予算が主要な防御です。各実験にFLOPsの上限がある場合、エージェントはリソースをスケールして勝つことができません。永続ログ(ClaudiniのAGENT_LOG.mdなど)により、行動のドリフトが可視化されます。Claude Codeフックはツール使用レイヤーでガードレールを強制できます。エージェントの行動が研究目標から乖離したことを検出する行動監視(新しい変異体を提案するのではなくランダムシードを探索するなど)が、第二の防御線を提供します。1
オートリサーチと従来の自動MLの違いは何ですか?
AutoML(Optuna、NASなど)は、統計的手法を用いて事前定義されたパラメータ空間を探索します。オートリサーチは、コードを読み、手法の設計を理解し、事前定義された探索空間の外にある構造的修正を提案するLLMエージェントを使います。Claudiniは異なる手法ファミリーのメカニズム(MAC + TAO、ADC + 勾配スケーリング)を、パラメータグリッドではエンコードできない方法で融合しました。エージェントはハイパーパラメータだけでなく、アルゴリズムのアイデアの空間を探索するのです。1
AIエージェントが発見した敵対的攻撃は、人間が設計したものより危険ですか?
より体系的です。Claudiniは2つのキャンペーンで178の変異体を探索し、人間のチームが試したことのない手法の組み合わせをテストしました。MetaのSecAlign-70Bに対する100%の攻撃成功率は、斬新な洞察によって達成されたのではなく、手動研究では実現不可能な規模での網羅的な再結合によって達成されました。危険なのは超人的な創造性ではなく、既存技術の組み合わせ空間における超人的な徹底さです。同じ徹底さはエージェントツールインターフェースの探索にも適用されます。1
ソース
-
Alexander Panfilov, Peter Romov, Igor Shilov, Yves-Alexandre de Montjoye, Jonas Geiping, and Maksym Andriushchenko, “Claudini: Autoresearch Discovers State-of-the-Art Adversarial Attack Algorithms for LLMs,” arXiv:2603.24511, March 25, 2026. 33 baselines, 96 iterations on safeguard model, 82 on random targets. 40% ASR on CBRN queries vs 10% baseline, 100% ASR on Meta-SecAlign-70B vs 56% baseline. ↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩
-
romovpa, “claudini,” GitHub, March 2026. Apache 2.0. All discovered attacks, baseline implementations, evaluation code, and autoresearch loop prompt. ↩↩↩
-
Andrej Karpathy, “autoresearch,” GitHub, 2026. Original demonstration that Claude Code can autonomously improve ML training code. ↩↩
-
Blake Crosley, “What I Told NIST About AI Agent Security,” blakecrosley.com, February 2026. Production evidence from 60+ daily autonomous agent sessions, including autoresearch loop infrastructure. ↩↩
-
Anthropic, “Claude Code: Agentic coding tool,” Anthropic Documentation, 2026. The
/loopcommand runs a prompt on a recurring interval, enabling autonomous iteration cycles. ↩ -
Andy Zou, Zifan Wang, Nicholas Carlini, Milad Nasr, J. Zico Kolter, and Matt Fredrikson, “Universal and Transferable Adversarial Attacks on Aligned Language Models,” arXiv:2307.15043, July 2023. The GCG (Greedy Coordinate Gradient) attack that Claudini used as a starting point. ↩