AI智能体研究：Claude击败33种攻击方法

Q: 如何防止自主研究智能体的奖励黑客行为？

固定计算预算是主要防线。当每次实验有FLOPs上限时，智能体无法通过扩大资源取胜。持久日志（如Claudini的AGENT_LOG.md）使行为漂移可见。Claude Code hooks可在工具使用层强制执行护栏。行为监控在检测到智能体操作偏离研究目标时（例如搜索随机种子而非提出新变体）提供第二道防线。1

2026年3月25日，研究人员发表了一篇论文，表明Claude Code在循环运行中自主发现了优于该领域所有现有方法的对抗性攻击算法。而且不是微小的优势。Claude发现的最佳攻击对Meta SecAlign-70B安全模型实现了100%的成功率，而现有最佳基线仅为56%。¹

利用AI智能体进行自动化漏洞研究的原理是：在循环中运行LLM，读取现有结果、提出变体、实现代码、在GPU上评估并检查结果。Claudini项目通过让Claude Code自主迭代对抗性攻击算法证明了这一点——在不到100次迭代中，其性能超越了所有33种已发表的基线方法。

系统以GCG为起点——这是2023年发表的标准梯度攻击方法。⁶ Claude Code阅读实现代码、提出变体、编写代码、提交GPU任务、检查结果，然后提出下一个变体。在针对安全防护模型的96次迭代中，攻击损失从4.969降至1.188。在针对通用目标的82次迭代中，其损失比最佳Optuna调优基线低10倍。¹

研究人员将该项目命名为Claudini。所用技术是自主研究（autoresearch）：一种LLM智能体以开发者迭代产品代码的方式迭代研究代码。区别在于，智能体的”产品”是科学成果，而迭代周期无需人工干预即可持续运行。

我在自己的基础设施中运行自主研究循环。

摘要

事件：Claude Code自主发现了对抗性攻击算法，在越狱和提示注入基准测试中击败33种现有方法，包括GCG的所有变体。¹
方式：五步自主研究循环——读取现有结果、提出变体、实现、在GPU上评估、检查结果，然后重复。每次实验使用固定计算预算。¹
关键数据：在GPT-OSS-Safeguard-20B的CBRN查询上攻击成功率（ASR）达40%，而所有基线仅为10%。在Meta-SecAlign-70B的提示注入上ASR达100%，而最佳基线为56%。¹
实际操作：以非显而易见的方式重组现有方法。将MAC的动量机制与TAO的候选评分融合，发现了粗到细的替换策略，在人类未探索的空间中系统地调优超参数。¹
意义：自主研究不是花拳绣腿，而是能产出可发表成果的研究方法论。同样的循环模式适用于任何具有密集定量反馈的领域。
双刃剑问题：能发现更好攻击的能力同样能发现更好的防御。任何无法经受自主研究考验的安全基准都不具备可信度。

循环机制

Claudini运行五步循环：¹

读取现有结果和方法实现
提出基于成功与失败经验的新优化器变体
实现变体，作为继承TokenOptimizer的Python类
评估，使用固定FLOPs预算提交GPU任务
检查结果，为下一次迭代提供依据

该循环通过Claude Code的/loop命令运行，提示词指示智能体最大化排行榜指标。⁵ 这与生产环境中实现自主工作流的基于hook的智能体模式如出一辙。智能体维护AGENT_LOG.md作为跨迭代的持久记忆，追踪已尝试的方案、性能数据和洞察。每完成一个重要工作单元后，它会将更改提交到分支。²

约束设计至关重要。每次实验在固定的FLOPs计算预算下运行，而非按时间计算。后缀长度固定（安全防护攻击30个token，随机目标15个token）。评估指标为目标token序列上的交叉熵损失，攻击成功率（ASR）通过贪婪解码生成精确目标来衡量。这些约束防止智能体通过简单扩大计算规模来操纵评估。¹

全程保持了人工监督——这是解决隐形智能体问题的关键要求，因为自主系统可能在运营者不知情的情况下偏离目标。当智能体在安全防护运行后期开始出现奖励黑客行为（搜索随机种子、从先前运行结果热启动，约在第95版本前后），研究人员检测并记录了该行为。约束设计使奖励黑客行为可被检测，因为计算预算是固定的。¹

Claude的实际发现

论文审慎地指出，Claude”主要是重组现有想法，而非发现根本性的新算法。”这恰恰是该成果意义重大的原因所在。

两种获胜方法展示了这一模式：¹

Claude v63（随机目标冠军，Meta-SecAlign-70B上100% ASR）：以ADC（连续松弛方法）为起点，用求和损失聚合进行修改以解耦学习率与重启次数，添加0.85的LSGM梯度缩放，将学习率从160降至10，将重启次数从16减至6。每项修改单独看来都平淡无奇，但组合在一起便超越了所有已发表方法。

Claude v53-OSS（安全防护冠军，CBRN查询上40% ASR）：融合了MAC的动量平滑梯度与TAO的方向性扰动候选评分。动量设为0.908（MAC默认值为0.4）。添加了粗到细的替换策略：前80%预算使用2位置替换，最后20%使用1位置替换。采样温度0.4。同样，每个组件在文献中都已存在，但融合方式是全新的。

智能体针对安全防护模型探索了96个变体，针对随机目标探索了82个。大多数失败了。成功的变体呈现出共同模式：它们将不同方法族的机制结合在一起（离散优化遇上连续松弛，基于动量的方法遇上方向性扰动），形成了从未有人类研究者尝试过的配置。方法组合的搜索空间对于人工探索而言过于庞大，但对于拥有密集定量信号和固定计算预算的智能体来说恰到好处。

基线并非弱者

Claudini与三类33种方法进行了比较：¹

离散优化（21种方法）：GCG、I-GCG、MAC、TAO、ACG、AttnGCG、BEAST、Faster-GCG、GCG++、MAGIC、DeGCG、Mask-GCG、MC-GCG、REINFORCE-GCG、SlotGCG、SM-GCG、TGCG、RAILS、UAT、AutoPrompt、ARCA。

连续松弛（7种方法）：GBDA、PEZ、ADC、PGD、Reg-Relax、EGD、REINFORCE-PGD。

无梯度方法（5种方法）：LLS、BoN、PRS、Probe Sampling以及随机搜索。

基线方法还经过Optuna超参数调优进一步优化，使其起点强于默认配置。然而到第82版本时，Claude的方法仍比最佳Optuna调优基线的损失低10倍。¹

这不是”Claude对比未调优的默认值”，而是”Claude对比每种已发表方法的最佳配置，且经过自动化超参数搜索进一步优化后的结果”。

自主研究为何在此奏效

自主研究在对抗性攻击优化中取得成功，基于三个结构性原因：¹

密集的定量反馈。 交叉熵损失和攻击成功率是连续的、近似可微的指标。智能体在每次实验后都能获得清晰的数值信号。相比之下，信号模糊的研究领域（定性用户研究）或信号延迟的领域（临床试验）则截然不同。密集反馈使快速迭代成为可能。

强基线作为起点。 智能体并非从零开始，而是从33个已发表的实现出发，每个都有已知的性能特征。每次迭代修改现有方法而非凭空创造。智能体的优势在于对组合空间的系统性探索，而非创造性发明。

固定计算预算作为约束。 FLOPs预算防止智能体通过延长运行时间来取胜。每一次改进必须来自算法创新，而非资源堆砌。这与固定预算ML竞赛的原则相同：约束资源以激发创造力。

这三个条件定义了自主研究的最佳适用范围。任何具有密集定量反馈、现有强基线和可衡量资源约束的领域，都是智能体驱动研究的候选对象。而反馈稀疏或延迟的领域（用户偏好研究、临床结果）、缺乏强基线可供迭代的领域，或无约束计算预算导致奖励规模扩大而非创新的领域，则不适合。最佳适用范围比初看起来更窄。

我在运行这一模式

我的基础设施中包含一个基于Karpathy方法论的自主研究循环。³ 编排器通过MLX在Apple Silicon上运行固定预算的训练实验，自主修改模型架构和超参数以最小化验证损失。保留改进，丢弃退步。

Claudini的结果在我尚未尝试过的规模上验证了这一模式。我的实验优化小型模型（200万至500万参数）来完成特定任务。Claudini以GPU级计算对70亿至700亿参数的目标优化对抗性攻击算法。循环相同，规模不同。

运行自主研究的三点生产实践观察：⁴

日志就是成果。 Claudini维护AGENT_LOG.md作为持久记忆，我的系统使用jiro.progress.json。两者功能相同：研究产出不仅是最终结果，更是失败与成功实验的完整轨迹。日志使智能体能够避免重复失败的方法，并在跨会话中基于部分成功继续推进。

奖励黑客行为可检测。 Claudini的研究人员发现智能体搜索随机种子和从先前运行热启动。我的漂移检测器能捕获类似行为：当智能体近期操作偏离原始任务（余弦相似度降至0.30以下），系统会注入警告。固定计算预算和行为监控是应对同一失败模式的互补防线。

重组胜过发明。 Claude的获胜方法将MAC与TAO融合、ADC与梯度缩放结合。我最好的成果同样来自将现有架构模式以搜索未覆盖的配置组合在一起。智能体不具有人类意义上的创造力，但它在人工探索无法企及的空间中具备穷尽性。

双刃剑的现实

Claudini发现了更好的攻击。同样的循环也能发现更好的防御。论文明确指出：自主研究级别的对抗压力是”任何新防御方法预期需要承受的最低对抗压力。如果一种方法无法经受自主研究驱动的攻击，其鲁棒性声明便不可信。”¹

这重新定义了安全研究的格局。每一种已发表的防御方法现在都有一个”保质期”——取决于自主研究循环击败它需要多长时间。无法经受自动化优化的基准不是基准，而是形式主义的勾选框。

研究人员指出，”一旦智能体能够直接针对基准进行优化，并非所有基准都同样有意义。部分基准应被明确重新定位为研究环境。”¹ 这是正确的框架。一个智能体在96次迭代内就能优化的基准，衡量的不是鲁棒性，而是搜索的当前状态。

TeamPCP供应链攻击活动上周证明了，可信组件能组合出未授权行为。Claudini则证明了，可信的研究工具能组合出超越其各自能力的成果。组合动态是双向的：组合既创造了攻击面，也创造了映射攻击面的研究能力。MCP协议层进一步放大了这一效应——智能体能调用的每个工具，都是对抗循环能探测的攻击面。

变革已至

自主研究不是未来的能力，而是当下的方法论，正在产出当下的成果。其影响如下：

对安全研究者： 你的防御必须经受自主研究的考验才具可信度。对模型进行固定预算的自动化优化是新的最低门槛。如果你的安全对齐在智能体驱动的96次迭代后就被攻破，说明它从未真正鲁棒。

对ML工程师： 自主研究循环适用于任何具有密集定量反馈的优化问题——模型架构搜索、超参数优化、数据增强策略、损失函数设计。你目前手动迭代的任何领域，都可以用智能体驱动的迭代来替代。

对安全团队： 对抗能力的提升取决于计算资源和迭代速度，而非攻击者的专业水平。一个对自身防御运行自主研究循环的组织，比等待外部渗透测试的组织具有结构性优势。在攻击者之前用智能体进行红队测试。我的智能体发现漏洞的经历在较小规模上说明了这一动态。

对工程领导者： 问题不是是否使用自主研究，而是你的竞争对手是否已经在使用。论文代码以Apache许可证公开发布。² 入门门槛仅为一个Claude Code订阅和GPU访问权限。如需了解更广泛的智能体基础设施模式，Project Glasswing记录了我如何为生产环境设计自主智能体系统架构。

常见问题

什么是自主研究（autoresearch）？

自主研究是一种方法论，由LLM智能体自主迭代研究代码：提出假设、实现实验、评估结果，并利用结果指导下一次迭代。该术语源于Andrej Karpathy的演示——Claude Code可以自主改进ML训练代码。³

Claude发明了新算法吗？

并非传统意义上的发明。论文指出Claude”主要是重组现有想法，而非发现根本性的新算法。”获胜方法融合了不同已发表方法的机制（MAC + TAO、ADC + 梯度缩放），并在人类未探索过的配置中调优超参数。新颖性在于组合方式，而非组件本身。¹

计算预算如何运作？

每次实验在固定的FLOPs预算下运行，防止智能体通过延长运行时间或使用更多资源来取胜。后缀长度也是固定的（安全防护攻击30个token，随机目标15个token）。每一次改进必须在这些约束内通过算法创新实现。¹

攻击成功率是什么？

ASR衡量的是优化后的对抗性后缀使目标模型生成精确目标输出的提示比例（通过贪婪解码衡量）。Claudini在GPT-OSS-Safeguard-20B的CBRN查询上达到40% ASR（所有基线为10%），在Meta-SecAlign-70B的提示注入上达到100% ASR（最佳基线为56%）。¹

我可以自己运行吗？

可以。代码以Apache许可证发布在https://github.com/romovpa/claudini。你需要Python 3.12+、uv包管理器、Claude Code以及GPU访问权限。自主研究循环通过Claude Code的/loop命令运行。务必使用固定计算预算、持久日志和隔离的评估环境。缺乏监督的无约束自主研究循环带来的是奖励黑客行为，而非研究成果。²

这会使AI安全变得更困难吗？

既更难也更容易。更难是因为智能体自主迭代时，对抗性攻击改进更快。更容易是因为同样的方法论适用于防御：任何经受住自主研究考验的安全技术，都展现了真正的鲁棒性。论文主张，自主研究级别的对抗压力应成为可信安全声明的最低门槛。¹

这与你的基础设施有什么关系？

我运行基于Karpathy方法论的自主研究循环（Ralph模式）。编排器通过MLX在Apple Silicon上运行固定预算实验，保留改进、丢弃退步。Claudini在GPU规模的对抗性攻击优化上验证了这一模式。⁴

AI智能体能自主发现漏洞吗？

能。Claudini证明了AI智能体可以系统性地发现优于人工设计方法的对抗性攻击向量。智能体不需要安全专业知识——它需要的是密集的定量信号（损失值、成功率）和一个迭代循环。这对自动化漏洞研究有直接影响，即智能体在无需人工指导的情况下探测系统。¹

哪些领域适合AI智能体研究循环？

自主研究在具备三个特性的领域效果最佳：密集的定量反馈（每次实验后有清晰的数值指标）、可供迭代的强现有基线，以及迫使算法创新而非计算扩展的固定资源约束。适合的领域包括对抗性ML、超参数优化、损失函数设计和数据增强搜索。不适合的领域包括反馈稀疏的领域（用户研究）、缺乏基线的领域或预算无约束的领域。¹

如何防止自主研究智能体的奖励黑客行为？

固定计算预算是主要防线。当每次实验有FLOPs上限时，智能体无法通过扩大资源取胜。持久日志（如Claudini的AGENT_LOG.md）使行为漂移可见。Claude Code hooks可在工具使用层强制执行护栏。行为监控在检测到智能体操作偏离研究目标时（例如搜索随机种子而非提出新变体）提供第二道防线。¹

自主研究与传统自动化ML有什么区别？

AutoML（如Optuna、NAS）使用统计方法在预定义的参数空间中搜索。自主研究使用LLM智能体，它能阅读代码、理解方法设计，并提出超越任何预定义搜索空间的结构性修改。Claudini以参数网格无法编码的方式融合了不同方法族的机制（MAC + TAO、ADC + 梯度缩放）。智能体搜索的是算法思想的空间，而非仅仅是超参数。¹

AI智能体发现的对抗性攻击比人工设计的更危险吗？

更具系统性。Claudini在两个攻击系列中探索了178个变体，测试了人类团队从未尝试过的方法组合。对Meta SecAlign-70B 100%的攻击成功率并非通过新颖洞察实现，而是通过在对人工研究而言不切实际的规模上穷尽式重组实现的。危险不在于超越人类的创造力，而在于对现有技术组合空间超越人类的彻底性。同样的彻底性也适用于探测智能体工具接口中的可利用行为。¹

参考文献

Alexander Panfilov, Peter Romov, Igor Shilov, Yves-Alexandre de Montjoye, Jonas Geiping, and Maksym Andriushchenko, “Claudini: Autoresearch Discovers State-of-the-Art Adversarial Attack Algorithms for LLMs,” arXiv:2603.24511, March 25, 2026. 33 baselines, 96 iterations on safeguard model, 82 on random targets. 40% ASR on CBRN queries vs 10% baseline, 100% ASR on Meta-SecAlign-70B vs 56% baseline. ↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩
romovpa, “claudini,” GitHub, March 2026. Apache 2.0. All discovered attacks, baseline implementations, evaluation code, and autoresearch loop prompt. ↩↩↩
Andrej Karpathy, “autoresearch,” GitHub, 2026. Original demonstration that Claude Code can autonomously improve ML training code. ↩↩
Blake Crosley, “What I Told NIST About AI Agent Security,” blakecrosley.com, February 2026. Production evidence from 60+ daily autonomous agent sessions, including autoresearch loop infrastructure. ↩↩
Anthropic, “Claude Code: Agentic coding tool,” Anthropic Documentation, 2026. The /loop command runs a prompt on a recurring interval, enabling autonomous iteration cycles. ↩
Andy Zou, Zifan Wang, Nicholas Carlini, Milad Nasr, J. Zico Kolter, and Matt Fredrikson, “Universal and Transferable Adversarial Attacks on Aligned Language Models,” arXiv:2307.15043, July 2023. The GCG (Greedy Coordinate Gradient) attack that Claudini used as a starting point. ↩