网络安全即工作量证明
英国AI安全研究所发布了一份针对Claude Mythos Preview网络安全任务能力的独立评估报告。1 最引人注目的数据:Mythos在10次尝试中有3次完成了一个32步企业网络攻击模拟。目前没有其他模型能攻破完整链条。次日,Drew Breunig发表了经济学层面的推论:每次尝试大约消耗12,500美元的token。2 这两项分析共同将网络安全从技能问题重新定义为算力问题。
这一结论令人不安。防御一个系统,现在需要在发现漏洞上投入比攻击者利用漏洞更多的token。2 安全本质上一直是不对称的——攻击者只需找到一条路径,防御者则必须覆盖所有路径。AI代理保留了这种不对称性,但改变了博弈轴心。稀缺资源不再是专业知识,而是算力预算。
AISI究竟测量了什么
评估采用了两种测试方法:夺旗赛(CTF)挑战和网络靶场模拟。1
最关键的网络靶场——“The Last Ones”(TLO)——模拟了一次32步企业网络攻击。据估计,人类完成这一任务需要约20小时。1 Mythos在10次尝试中有3次完成了完整攻击链。在全部10次运行中,Mythos平均完成了32步中的22步。作为对比,Claude Opus 4.6在同一靶场平均完成16步。1
在专家级CTF任务中,Mythos的成功率为73%。1
token预算本身就说明了问题。AISI测试的范围包括:非专家级CTF最高250万token、专家级CTF最高5000万token、网络靶场模拟最高1亿token。1 评估报告明确指出,”在所测试的token预算范围内,模型随着token预算的增加持续取得进展”,并且AISI预计”性能提升将在超过所测试的1亿token上限后继续延续”。1
token越多,进展越大。未观察到性能瓶颈。
AISI对研究结论的适用范围做了审慎界定。网络靶场缺少主动防御者、防御工具,也不会因触发警报而受到惩罚。1 评估适用于”防御薄弱且存在漏洞的企业系统”——而非配备安全运营中心(SOC)和入侵检测系统(IDS)的加固生产环境。Mythos也未能攻破专注于运营技术(OT)的”Cooling Tower”靶场。1
这些限制条件很重要,但趋势更为关键。此前的模型无法在这些靶场上完成完整攻击链。1 而现在,一个模型能在10次尝试中3次完成32步企业入侵,且性能曲线随算力投入持续上扬。问题已不在于AI能否突破企业网络,而在于成功率何时突破经济合理性的门槛,使自动化攻击成为理性选择。
经济学分析:每次尝试12,500美元
Breunig的分析将AISI的研究发现转化为具体金额。2 按每次尝试1亿token计算,单次Mythos TLO运行成本约为12,500美元。10次TLO尝试总计125,000美元。2
这些数字孤立来看似乎很高,但与32步企业网络全面沦陷给防御方带来的损失相比,却微不足道。该模型以极低成本实现了30%的成功率,可按需运行,且成功率随预算增加而提升。将同一攻击链运行100次而非10次,预期成功渗透次数从3次跃升至30次——10倍增长,token成本约125万美元。对个人研究者而言确实昂贵,但对国家级行为者来说不过是舍入误差。
Breunig的核心论点:”要加固一个系统,你需要在发现漏洞上花费比攻击者利用漏洞更多的token。”2 安全变成了token预算竞赛。在Breunig的框架中,防御者必须在自动化漏洞发现上的投入超过攻击者,否则将被动落败。
他提出了三阶段模型:开发、审查和加固。2 开发阶段构建系统。审查阶段捕获已知漏洞类别。加固则是全新阶段——持续运行自主漏洞发现,直到预算耗尽。一个系统的安全性,取决于团队在部署前投入了多少token来尝试攻破它。
“你不会因为聪明而获得加分,”Breunig写道,”你靠花更多钱来赢。”2
Linus定律的token维度
Breunig将Linus定律——“只要有足够多的眼睛,所有的bug都是浅显的”——扩展到了token领域。2 足够多的自动化审查周期,配合足够的算力预算,将浮现出人工审查遗漏了数十年的漏洞。
证据支持这一推论。Carlini在Anthropic的研究(我在当你的代理发现漏洞一文中有过报道)仅用一个10行bash脚本和Claude Code就发现了一个存在23年的Linux内核漏洞。Project Glasswing利用Mythos将这一方法规模化,在所有主流操作系统和浏览器中发现了数千个零日漏洞。AISI的评估如今为这一能力提供了独立佐证。
Simon Willison补充了一个值得关注的观察:AI驱动的安全审查提升了开源库的价值,因为投入其中的安全token惠及每一位用户。3 专有代码需要自行承担安全成本,而开源代码则将这些成本摊薄到整个用户群体。
Breunig引用了Anthropic每次审查收费15-20美元的代码审查产品作为当前定价的参考数据点。2 他还在依赖安全的语境下提到了LiteLLM和Axios供应链事件——这些案例突显了自动化审查的迫切性。2
结论一目了然:”代码依然廉价,除非它需要是安全的。”2 生产系统中的每一行代码都承载着隐性的安全债务。这些债务过去隐匿于无形——埋藏在安全团队的薪资中,以及人工审查能捕获关键漏洞的概率性期望中。基于token的安全模式使成本变得显性且可量化。
那些限制条件究竟意味着什么
AISI的限制条件值得认真审视,而非一笔带过。
缺少主动防御者显著改变了博弈格局。对一个没有监控、没有告警、没有事件响应的系统发起32步攻击,与对一个有完整安全运营团队的系统发起同样的攻击,是本质不同的问题。真实企业网络部署了EDR、网络分段、异常检测和人类分析师。自动化攻击者触发的每一次告警,都是防御方响应的机会。
不惩罚噪声意味着模型可以尝试暴力破解——这种方式在真实场景下人类攻击者会极力避免。一个在一小时内触发数百条IDS告警的真实攻击者会被调查。AISI的靶场没有模拟这种反馈回路。在真实网络中,噪声对攻击者来说代价高昂。隐蔽性约束了搜索空间。移除这一约束,问题就变得简单得多。
Cooling Tower靶场的失败同样具有启示意义。Mythos攻破了以IT为核心的TLO靶场,却未能突破运营技术靶场。1 OT环境有着不同的协议、不同的约束和不同的故障模式。AISI指出,模型在该靶场的IT部分就陷入了困境,因此这一失败并不一定反映OT专项能力的不足——但模型的能力在不同领域间显然参差不齐。IT网络渗透与工业控制系统攻击是截然不同的问题,从本次评估推导OT领域的就绪程度需要审慎对待。
然而,这些限制条件也有”保质期”。token预算会持续扩展,模型能力在每次评估间都在提升。对未设防网络30%的成功率是下限,而非上限。AISI本身也预期性能将超越所测试的预算范围。1 以”靶场缺乏主动防御”为由忽视这些发现的防御者,实质上是在与推理算力的摩尔定律对赌。
对从业者的实践启示
对于在生产环境中运行AI代理的人——我本人就通过Ralph Loop在夜间运行自主代理,并以95个hooks作为安全基础设施——工作量证明的框架改变了防御思维。
安全hooks是最低限度的投入,而非充分的保障。 我的95个hooks管控着代理的行为范围:阻止强制推送、验证凭据、强制沙箱隔离。这些hooks防止我自己的代理造成破坏,但对一个投入1亿token探测这些代理所交互系统的外部攻击者毫无作用。Hook基础设施是必要条件,但远非充分条件。
自动化攻击性测试势在必行。 Breunig的三阶段模型——开发、审查、加固——意味着每个部署流水线都需要一个对抗阶段,让AI代理在系统上线前尝试攻破它。不是走过场的渗透测试,而是耗尽token预算的攻防演练。运行自动化漏洞发现直到预算用完,修复发现的问题,然后重复。
Ralph Loop现在有了安全层面的推论。 我在迭代性安全退化一文中从性能角度探讨过这个问题——代理通过了所有测试,却引入了446倍的性能下降。同样的模式适用于安全领域。一个编写正确、功能完备、测试充分代码的代理,仍然可能引入微妙的漏洞,而这些漏洞只有在自动化对抗审查下才会暴露。解决方案如出一辙:补上缺失的关卡。性能基准捕获性能回退,自动化红队测试捕获安全回退。
开源依赖项值得投入token预算。 Willison关于集体受益的观察直接适用于依赖管理。生产技术栈中的每一个开源库,要么正在接受某方的自动化安全审查,要么没有。Breunig在依赖安全的语境下引用了LiteLLM和Axios供应链事件——这些案例表明漏洞在广泛使用的库中长期潜伏。2 从业者应当用一个新问题来审视自己的依赖树:谁在为这个库的安全投入token?
令人不安的数学
工作量证明的框架以一种专业知识模型从未做到的方式,使安全经济学变得清晰可见。在旧模型下,安全质量取决于你雇用了谁、他们有多高的技术水平。在新模型下,安全质量取决于你投入了多少token来尝试攻破自己的系统。
人才依然重要——需要有人解读结果、确定修复优先级、做出架构决策。但发现阶段——漏洞被找到的那个环节——日益成为一个算力问题。而算力问题有一个已知特性:预算更大的一方获胜。
与加密货币工作量证明的类比虽不完美,但颇具启发性。比特币矿工燃烧电力来保护链的安全。防御者燃烧token来保护系统的安全。在两种情况下,安全保障都与投入的算力成正比。在两种情况下,预算更大的攻击者都能压倒防御。区别在于:比特币的挖矿难度自动调整,而安全token预算需要人为判断多少才算够。
对于资金充裕的组织,前进路径清晰明了。将自主漏洞发现纳入部署流水线。设定与系统风险级别成比例的token预算。耗尽预算。修复发现的问题。部署上线。
对其他人而言,前路则不那么从容。如果你无力在防御上投入比攻击者攻击所花的更多token,就需要依赖共享基础设施——开源安全审查、供应商提供的扫描、集体防御。这是安全领域的群体免疫。与群体免疫一样,它只在足够多的参与者贡献力量时才有效。在开源安全审查上搭便车而不回馈token,这种策略在失败之前都行得通。
AISI的评估表明,AI代理能够完成企业网络攻击。Breunig论证了防御是一个支出问题。Willison则指出了防御方拥有的唯一结构性优势:共享基础设施将成本摊薄到所有使用者身上。
每位从业者面对的问题,与工作量证明系统一直以来追问的相同:你愿意燃烧多少算力?
引用
-
UK AI Security Institute, “Our Evaluation of Claude Mythos Preview’s Cyber Capabilities,” aisi.gov.uk, April 13, 2026. ↩↩↩↩↩↩↩↩↩↩↩↩
-
Drew Breunig, “Cybersecurity Looks Like Proof of Work Now,” dbreunig.com, April 14, 2026. ↩↩↩↩↩↩↩↩↩↩↩↩
-
Simon Willison, “Cybersecurity Looks Like Proof of Work Now,” simonwillison.net, April 14, 2026. ↩