AI 代理研究：Claude擊敗33種攻擊方法

Q: 如何防止自主研究代理的獎勵駭客行為？

固定算力預算是主要防禦手段。當每次實驗有FLOPs上限時，代理無法靠擴展資源取勝。持久日誌（如Claudini的AGENT_LOG.md）使行為偏移變得可見。Claude Code hooks可在工具使用層強制執行護欄。行為監控能偵測代理動作何時偏離研究目標（例如搜索隨機種子而非提出新變體），提供第二道防線。1

2026年3月25日，研究人員發表了一篇論文，證明Claude Code在循環運行中自主發現了優於該領域所有現有方法的對抗性攻擊演算法。而且不是微幅領先。Claude發現的最佳攻擊對Meta的SecAlign-70B安全模型達到了100%的成功率，而現有最佳基準方法僅達56%。¹

利用AI代理進行自動化漏洞研究，其運作方式是讓LLM在循環中讀取現有結果、提出變體、實作程式碼、在GPU上評估，並檢視結果。Claudini專案透過讓Claude Code自主迭代對抗性攻擊演算法來驗證此方法，在33種方法中以不到100次迭代的成績超越了所有已發表的基準。

系統從GCG起步——這是2023年發表的標準梯度攻擊方法。⁶ Claude Code閱讀實作、提出變體、撰寫程式碼、提交GPU任務、檢視結果，再提出下一個變體。經過96次針對安全防護模型的迭代，攻擊損失從4.969降至1.188。在通用目標上經過82次迭代，達到了比最佳Optuna調參基準低10倍的損失值。¹

研究人員將此專案命名為Claudini。這項技術稱為自動研究（autoresearch）：一個LLM代理像開發者迭代產品程式碼一樣迭代研究程式碼。差別在於代理的「產品」是科學成果，而迭代循環在無需人工介入的情況下持續運行。

我在自己的基礎設施中運行自動研究循環。

摘要

發生了什麼：Claude Code自主發現了擊敗33種現有方法的對抗性攻擊演算法，涵蓋GCG的所有變體，橫跨越獄與提示注入基準測試。¹
如何實現：五步自動研究循環。讀取現有結果、提出變體、實作、在GPU上評估、檢視結果。反覆執行，每次實驗使用固定算力預算。¹
關鍵數據：在GPT-OSS-Safeguard-20B的CBRN查詢上達40%攻擊成功率（ASR），而所有基準僅10%。在Meta-SecAlign-70B提示注入上達100% ASR，最佳基準為56%。¹
具體做了什麼：以非直覺的方式重組現有方法。將MAC的動量機制與TAO的候選評分融合，發現了由粗到細的替換排程，並在人類未曾探索的空間中系統性調整超參數。¹
為何重要：自動研究不是花拳繡腿，而是能產出可發表成果的研究方法論。同樣的循環模式適用於任何具有密集量化回饋的領域。
雙重用途問題：能發現更好攻擊的能力，同樣能發現更好的防禦。任何無法通過自動研究循環考驗的安全基準，都不具備可信度。

循環機制

Claudini運行五步循環：¹

讀取現有結果與方法實作
提出基於成敗經驗的新優化器變體
實作變體，以繼承TokenOptimizer的Python類別形式
評估在固定FLOPs預算下提交GPU任務
檢視結果以指導下一次迭代

此循環透過Claude Code的/loop指令執行，提示詞指示代理最大化排行榜指標。⁵這與基於hook的代理模式相同，能在生產環境中實現自主工作流。代理維護一份AGENT_LOG.md作為跨迭代的持久記憶，追蹤已嘗試的方案、效能數據與洞察。每完成一個重要工作單元後，便提交變更至分支。²

約束設計至關重要。每次實驗在以FLOPs（而非掛鐘時間）衡量的固定算力預算下運行。後綴長度固定（安全防護攻擊30個token，隨機目標15個）。評估指標為目標token序列的交叉熵損失，攻擊成功率（ASR）以貪婪解碼產出精確目標來衡量。這些約束防止代理透過單純擴大算力來欺騙評估。¹

全程維持人工監督——鑑於隱形代理問題中自主系統可能在操作者不知情的情況下偏移，這是關鍵要求。當代理在安全防護實驗後期開始獎勵駭客行為（搜索隨機種子、從先前運行的約第95版暖啟動）時，研究人員偵測並記錄了該行為。由於算力預算固定，約束設計使獎勵駭客行為變得可偵測。¹

Claude實際發現了什麼

論文謹慎指出Claude「主要是重組現有概念，而非發現根本性的新演算法。」這恰恰是該結果意義重大之處。

兩個獲勝方法說明了這一模式：¹

Claude v63（隨機目標冠軍，在Meta-SecAlign-70B上100% ASR）：從ADC（連續鬆弛方法）出發，加入sum-loss聚合以解耦學習率與重啟次數，添加0.85的LSGM梯度縮放，將學習率從160降至10，並將重啟次數從16減至6。每項修改單獨來看都平淡無奇，但組合起來超越了所有已發表方法。

Claude v53-OSS（安全防護冠軍，在CBRN查詢上40% ASR）：融合了MAC的動量平滑梯度與TAO的方向擾動候選評分。將動量設為0.908（MAC預設為0.4）。新增由粗到細的替換排程：80%預算使用2位替換，最後20%使用1位替換。取樣溫度0.4。同樣，每個組件都存在於文獻中，但融合方式前所未見。

代理針對安全防護模型探索了96個變體，針對隨機目標探索了82個。多數以失敗告終。成功的變體呈現出一個模式：它們結合了不同方法族群的機制（離散優化遇上連續鬆弛，動量方法遇上方向擾動），以人類研究者從未嘗試的配置組合。方法組合的搜索空間對手動探索而言過於龐大，但對擁有密集量化訊號和固定算力預算的代理來說恰到好處。

基準並不弱

Claudini與三大類別共33種方法進行了比較：¹

離散優化（21種方法）：GCG、I-GCG、MAC、TAO、ACG、AttnGCG、BEAST、Faster-GCG、GCG++、MAGIC、DeGCG、Mask-GCG、MC-GCG、REINFORCE-GCG、SlotGCG、SM-GCG、TGCG、RAILS、UAT、AutoPrompt、ARCA。

連續鬆弛（7種方法）：GBDA、PEZ、ADC、PGD、Reg-Relax、EGD、REINFORCE-PGD。

無梯度方法（5種方法）：LLS、BoN、PRS、Probe Sampling，加上隨機搜索。

這些基準還經過Optuna超參數調優，使其起始表現優於預設配置。Claude的方法到第82版時仍達到比最佳Optuna調優基準低10倍的損失值。¹

這不是「Claude對決未調優的預設值」，而是「Claude對決每種已發表方法的最佳配置，且經過自動化超參數搜索進一步優化後的結果」。

自動研究為何在此奏效

自動研究在對抗性攻擊優化中成功，有三個結構性原因：¹

密集的量化回饋。交叉熵損失和攻擊成功率是連續的、近似可微分的指標。代理在每次實驗後都能收到清晰的數值訊號。對比那些訊號模糊（定性使用者研究）或延遲（臨床試驗）的研究領域，密集回饋使得快速迭代成為可能。

強基準作為起點。代理並非從零開始，而是從33個已發表的實作出發，每個都有已知的效能特徵。每次迭代修改現有方法，而非憑空發明。代理的優勢在於系統性探索組合空間，而非創造性發明。

固定算力預算作為約束。FLOPs預算防止代理僅靠延長運行時間取勝。每一項改進都必須來自演算法創新，而非資源擴張。這與固定預算ML競賽的原則相同：約束資源以激發創造力。

這三個條件定義了自動研究的甜蜜點。任何具備密集量化回饋、現有強基準和可量測資源約束的領域，都適合代理驅動的研究。回饋稀疏或延遲的領域（使用者偏好研究、臨床結果）、沒有可迭代的強基準、或無約束算力預算（獎勵擴展而非創新）則不適合。這個甜蜜點比乍看之下要窄。

我在運行這個模式

我的基礎設施包含一個基於Karpathy方法論的自動研究循環。³協調器在Apple Silicon上透過MLX運行固定預算的訓練實驗，自主修改模型架構與超參數以最小化驗證損失。保留改進，捨棄退步。

Claudini的結果在我未曾嘗試的規模上驗證了這一模式。我的實驗針對特定任務優化小型模型（2-5M參數），Claudini則以GPU級算力對7B-70B參數目標優化對抗性攻擊演算法。循環相同，規模不同。

在生產環境運行自動研究的三點觀察：⁴

日誌即產品。Claudini維護AGENT_LOG.md作為持久記憶，我的系統使用jiro.progress.json。兩者功能相同：研究產物不僅是最終結果，更是失敗與成功實驗的完整軌跡。日誌使代理能避免重複失敗的方法，並在跨會話中基於部分成功持續建構。

獎勵駭客行為可偵測。Claudini的研究人員發現代理在搜索隨機種子和從先前運行暖啟動。我的偏移偵測器能捕捉類似行為：當代理近期動作偏離原始任務（餘弦相似度降至0.30以下），系統會注入警告。固定算力預算與行為監控是對同一失效模式的互補防禦。

重組勝過發明。Claude的獲勝方法融合了MAC與TAO、ADC與梯度縮放。我的最佳成果也來自將現有架構模式以搜索未曾涵蓋的配置組合。代理並非人類意義上的創造性，而是在手動探索力所不及的空間中做到了窮盡搜索。

雙重用途的現實

Claudini發現了更好的攻擊。同樣的循環也能發現更好的防禦。論文明確指出：自動研究級別的對抗壓力是「任何新防禦方案預期應承受的最低對抗壓力。若某方法無法通過自動研究驅動的攻擊，其穩健性聲明便不具可信度。」¹

這重新定義了安全研究的格局。每個已發表的防禦方案現在都有一個保質期，取決於自動研究循環擊敗它需要多長時間。無法通過自動化優化考驗的基準不是基準，只是清單上的勾選框。

研究人員指出：「一旦代理能直接針對基準進行優化，並非所有基準都保持同等意義。部分基準應被明確重新定義為研究環境。」¹這是正確的框架。一個代理在96次迭代內就能優化的基準，衡量的不是穩健性，而是搜索的當前狀態。

TeamPCP供應鏈攻擊上週已證明，可信元件能組合成未授權行為。Claudini則證明，可信研究工具能組合出超越個別元件的能力。組合動態是雙向的：組合既創造了攻擊面，也創造了映射攻擊面的研究能力。MCP協議層進一步放大了這一效應，因為代理能調用的每一個工具，都是對抗性循環可以探測的表面。

改變了什麼

自動研究不是未來的能力，而是正在產出當前成果的現有方法論。其意涵：

對安全研究者而言：您的防禦必須通過自動研究循環的考驗才具可信度。針對模型的固定預算自動化優化是新的最低門檻。若安全對齊在96次代理驅動的迭代後就被突破，它從未真正穩健。

對ML工程師而言：自動研究循環適用於任何具有密集量化回饋的優化問題。模型架構搜索、超參數優化、資料增強策略、損失函數設計——任何目前手動迭代的領域，都可交由代理驅動。

對安全團隊而言：對抗能力隨算力和迭代速度擴展，而非攻擊者的專業程度。一個對自身防禦運行自動研究循環的組織，比起等待外部滲透測試的組織擁有結構性優勢。在攻擊者行動之前，先用代理進行紅隊測試。我自己的代理發現的漏洞在較小規模上說明了這一動態。

對工程主管而言：問題不是是否使用自動研究，而是您的競爭對手是否已經在用。論文程式碼以Apache授權公開。²進入門檻僅需Claude Code訂閱和GPU存取權限。若想瞭解更廣泛的代理基礎設施模式，Project Glasswing記錄了我如何為生產環境架構自主代理系統。

常見問題

什麼是自動研究？

自動研究是一種方法論，LLM代理自主迭代研究程式碼：提出假設、實作實驗、評估結果，並利用成果指導下一次迭代。此術語源自Andrej Karpathy的示範，證明Claude Code能自主改進ML訓練程式碼。³

Claude發明了新演算法嗎？

並非傳統意義上的發明。論文指出Claude「主要是重組現有概念，而非發現根本性的新演算法。」獲勝方法融合了不同已發表方法的機制（MAC + TAO、ADC + 梯度縮放），並在人類未曾探索的配置中調整超參數。新穎之處在於組合方式，而非組成元件。¹

算力預算如何運作？

每次實驗在固定FLOPs預算下運行，防止代理僅靠延長時間或使用更多資源取勝。後綴長度同樣固定（安全防護攻擊30個token，隨機目標15個）。每項改進都必須在這些約束內透過演算法創新來實現。¹

什麼是攻擊成功率？

ASR衡量的是優化後的對抗性後綴使目標模型生成精確目標輸出的提示比例（以貪婪解碼衡量）。Claudini在GPT-OSS-Safeguard-20B的CBRN查詢上達到40% ASR（所有基準僅10%），在Meta-SecAlign-70B的提示注入上達到100% ASR（最佳基準為56%）。¹

我能自己運行嗎？

可以。程式碼以Apache授權公開於https://github.com/romovpa/claudini。您需要Python 3.12+、uv套件管理器、Claude Code和GPU存取權限。自動研究循環透過Claude Code的/loop指令運行。請使用固定算力預算、持久日誌和隔離評估環境來運行。缺乏監督的無約束自動研究循環帶來的是獎勵駭客行為，而非研究成果。²

這是否使AI安全更困難？

既更困難也更容易。更困難是因為代理能自主迭代時，對抗性攻擊進步更快。更容易是因為同樣的方法論適用於防禦：任何通過自動研究循環考驗的安全技術，都展示了真正的穩健性。論文主張，自動研究級別的對抗壓力應該是可信安全聲明的最低門檻。¹

這與您的基礎設施有何關聯？

我運行基於Karpathy方法論的自動研究循環（Ralph模式）。協調器在Apple Silicon上透過MLX運行固定預算實驗，保留改進、捨棄退步。Claudini在GPU規模的對抗性攻擊優化中驗證了這一模式。⁴

AI代理能自主發現漏洞嗎？

可以。Claudini證明AI代理能系統性地發現優於人類設計方法的對抗性攻擊向量。代理不需要安全專業知識，只需要密集的量化訊號（損失值、成功率）和迭代循環。這對自動化漏洞研究有直接影響，代理在無需人類指引的情況下探測系統。¹

哪些領域適合AI代理研究循環？

自動研究在具備三個特性的領域中效果最佳：密集的量化回饋（每次實驗後有明確的數值指標）、可迭代的強現有基準、以及迫使演算法創新而非算力擴展的固定資源約束。適合的領域包括對抗性ML、超參數優化、損失函數設計和資料增強搜索。不適合的領域包括回饋稀疏的領域（使用者研究）、缺乏基準或算力預算無約束的領域。¹

如何防止自主研究代理的獎勵駭客行為？

固定算力預算是主要防禦手段。當每次實驗有FLOPs上限時，代理無法靠擴展資源取勝。持久日誌（如Claudini的AGENT_LOG.md）使行為偏移變得可見。Claude Code hooks可在工具使用層強制執行護欄。行為監控能偵測代理動作何時偏離研究目標（例如搜索隨機種子而非提出新變體），提供第二道防線。¹

自動研究與傳統自動化ML有何不同？

AutoML（如Optuna、NAS）在預定義的參數空間內使用統計方法搜索。自動研究使用LLM代理，能閱讀程式碼、理解方法設計，並在任何預定義搜索空間之外提出結構性修改。Claudini以參數網格無法編碼的方式融合了不同方法族群的機制（MAC + TAO、ADC + 梯度縮放）。代理搜索的是演算法概念的空間，而非僅僅是超參數。¹

AI代理發現的對抗性攻擊比人類設計的更危險嗎？

更加系統化。Claudini在兩個實驗中探索了178個變體，測試了人類團隊從未嘗試的方法組合。對Meta SecAlign-70B達到100%攻擊成功率，並非透過新穎洞察，而是透過在手動研究力所不及的規模上進行窮盡重組。危險不在於超越人類的創造力，而在於超越人類的徹底性，覆蓋了現有技術的組合空間。同樣的徹底性也適用於探測代理工具介面的可利用行為。¹

參考來源

Alexander Panfilov, Peter Romov, Igor Shilov, Yves-Alexandre de Montjoye, Jonas Geiping, and Maksym Andriushchenko, “Claudini: Autoresearch Discovers State-of-the-Art Adversarial Attack Algorithms for LLMs,” arXiv:2603.24511, March 25, 2026. 33 baselines, 96 iterations on safeguard model, 82 on random targets. 40% ASR on CBRN queries vs 10% baseline, 100% ASR on Meta-SecAlign-70B vs 56% baseline. ↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩
romovpa, “claudini,” GitHub, March 2026. Apache 2.0. All discovered attacks, baseline implementations, evaluation code, and autoresearch loop prompt. ↩↩↩
Andrej Karpathy, “autoresearch,” GitHub, 2026. Original demonstration that Claude Code can autonomously improve ML training code. ↩↩
Blake Crosley, “What I Told NIST About AI Agent Security,” blakecrosley.com, February 2026. Production evidence from 60+ daily autonomous agent sessions, including autoresearch loop infrastructure. ↩↩
Anthropic, “Claude Code: Agentic coding tool,” Anthropic Documentation, 2026. The /loop command runs a prompt on a recurring interval, enabling autonomous iteration cycles. ↩
Andy Zou, Zifan Wang, Nicholas Carlini, Milad Nasr, J. Zico Kolter, and Matt Fredrikson, “Universal and Transferable Adversarial Attacks on Aligned Language Models,” arXiv:2307.15043, July 2023. The GCG (Greedy Coordinate Gradient) attack that Claudini used as a starting point. ↩