← 所有文章

Project Glasswing:当模型发现过多漏洞之时

From the guide: Claude Code Comprehensive Guide

两周前,Nicholas Carlini展示了Claude Code可以使用一段10行的bash脚本,发现一个存在23年之久的Linux内核漏洞。今天,Anthropic宣布了将该方法规模化之后的成果:一个名为Claude Mythos的新模型,发现了数千个高危和严重级别的零日漏洞,随后决定不公开发布它。1

Project Glasswing是Anthropic对Claude Mythos的受限部署。这是一款前沿模型,在所有主流操作系统和网络浏览器中发现了数千个零日漏洞。 Mythos发现的严重漏洞包括一个存在27年的OpenBSD TCP SACK缺陷,以及一个FreeBSD NFS远程代码执行漏洞。Anthropic将访问权限限制给12家合作伙伴组织,仅用于防御性安全用途,承诺提供1亿美元的使用额度,并在claude.com/form/cyber-use-case开放了Cyber Verification Program的申请表,供合格的研究人员申请。

Project Glasswing是Anthropic对从业者自Carlini的[un]prompted演讲以来一直在问的问题的回答:当这种能力大规模部署时会发生什么?答案是:对其加以限制。

TL;DR

Claude Mythos Preview是一款前沿模型,据Anthropic所述,其网络安全能力”是代码、推理和自主性整体提升的下游结果”。1 Anthropic将其定位为比任何普遍可用的Opus模型(包括2026年4月16日发布的Opus 4.7)都更具网络能力的模型,并将访问权限限制给12家合作伙伴组织(Apple、Amazon、Microsoft、Google、Linux Foundation等),仅用于防御性安全工作。该模型发现了数千个零日漏洞,包括一个存在27年的OpenBSD TCP SACK缺陷、一个存在16年的FFmpeg漏洞以及一个FreeBSD NFS RCE(CVE-2026-4747)。1 Anthropic承诺提供1亿美元的使用额度和400万美元资助开源安全组织。Cyber Verification Program申请表现已上线,面向寻求访问权限的合法安全研究人员开放。1

核心要点

  • 安全工程师: Carlini在[un]prompted大会上展示的能力阈值是真实的,而且可以规模化。Mythos在”所有主流操作系统和网络浏览器”中都发现了漏洞。2 12家合作伙伴组织的防御性安全团队现已获得访问权限。其他人应当为这些能力进入普遍可用模型时的场景做好准备。
  • 脚手架构建者: Mythos通过Claude Code在隔离容器中运行。1 脚手架模式(智能体CLI + 沙盒化执行 + 自动化分类)现已成为Anthropic自身前沿安全研究的生产架构。从业者独立构建的编排模式在最高层面上依然成立。
  • 其他所有人: Anthropic选择了限制而非发布。这是一个带有真实权衡的治理决策。模型存在。Anthropic已经演示了这些能力。问题不再是AI能否发现零日漏洞,而是谁能获得访问权限,以及在何种约束下。

更新(2026年4月19日)

自本文于4月7日发布以来,有两件事发生了变化:

  1. Opus 4.7于2026年4月16日发布,成为新的普遍可用旗舰模型。Anthropic声明Opus 4.7在网络能力上刻意低于Mythos Preview,并配备了实时网络安全防护。Mythos Preview保持独立且受限。5
  2. Cyber Verification Program申请表现已上线,地址为claude.com/form/cyber-use-case。最初公告中称为”未来”的项目,如今已成为具体的申请通道。5
  3. Claude Code发布了两次相关的基础设施更新:v2.1.111增加了对Opus 4.7、xhigh以及Auto Mode的支持;v2.1.113增加了sandbox.network.deniedDomains、包装命令拒绝规则(env / sudo / watch / ionice / setsid)、更严格的find -exec / -delete处理,以及在Bash(rm:*)下对macOS /private/{etc,var,tmp,home}的删除保护。6 这些正是Mythos风格的安全研究脚手架所需要的加固原语。

下文的核心论点——以能力限制代替发布、脚手架模式在最高层面依然成立、其他所有人应为这些能力进入GA做好准备——并未改变。如果说有变化,Opus 4.7明确的网络安全防护框架反而强化了这一论点。


从演讲到产品

Carlini在4月初的[un]prompted演讲就是公开预览。3 他展示了使用一个简单的文件迭代脚本发现的5个Linux内核漏洞和22个Firefox CVE。他说,瓶颈在于人工验证——“还有几百个崩溃我尚未验证”。

Mythos是你用更强大的模型和专用基础设施移除该瓶颈后所得到的产物。规模差异是显著的:1

指标 Carlini的演讲 Project Glasswing
发现的漏洞数 5个内核漏洞 + 22个Firefox CVE 涵盖所有主流平台的数千个
目标 Linux内核、Firefox 所有主流OS、浏览器、开源项目
验证 人工,由研究员驱动 专业安全承包商,89%严重性确认率
访问 Carlini演讲时使用Opus 4.6;Opus 4.7现为GA旗舰 Mythos Preview(限于12家合作伙伴)

专业验证的数字很关键:在198份审查过的报告中,89%的严重性评估得到了独立安全承包商的确认,98%在一个严重性等级范围之内。1 这些并非幻觉得出的发现。

限制决策

Anthropic的官方立场:“鉴于其网络安全能力,我们不打算让Claude Mythos Preview普遍可用。”4

这一决策引人注目。模型公司通常竞相发布新能力。Anthropic构建了一款在发现漏洞方面明显优于任何公开系统的模型,却选择将其限制给经过审查的合作伙伴用于防御用途。1亿美元的使用额度承诺表明这并非营销手段。1

限制模式分为三个层级:1 1. Project Glasswing合作伙伴(12家组织):直接访问,用于防御性安全 2. 更广泛的访问(共40家组织):受监督的部署 3. Cyber Verification Program(现已在claude.com/form/cyber-use-case上线):面向经过验证的安全专业人员的申请通道5

对从业者而言,标准的API和Claude Code并不会暴露Mythos的漏洞发现能力。目前最强大的普遍可用模型是Opus 4.7(2026年4月16日发布),Anthropic将其定位为在网络能力上刻意低于Mythos,并配备实时网络安全防护。5 Mythos已展示的能力已经影响了4月16日的发布——Opus 4.7是Anthropic在Glasswing之后首款配备专用网络安全防护的模型。

这验证了什么

Project Glasswing验证了从业者社区独立构建的若干模式:

Claude Code作为执行脚手架。 Mythos通过Claude Code在隔离容器中运行。1 从业者日常编码所用的同一个智能体CLI,在前沿安全研究中承担了执行层的角色。Claude Code提供的hooksskills沙盒并非便捷功能。它们是让自主安全扫描足够安全、可以部署的基础设施。

验证瓶颈是一个编排问题。 Carlini的演讲将人工验证识别为瓶颈。Project Glasswing的解决方案是:由专业安全承包商进行验证、用于负责任披露的SHA-3哈希承诺,以及结构化的分类基础设施。1 同样的分类问题也出现在When Your Agent Finds a Vulnerability中,而解决方案在于基础设施,而非模型能力。

治理钩子比扫描能力更重要。 模型能够发现漏洞。真正困难的问题在于控制披露、管理访问权限,并确保发现能在攻击者之前到达防御者手中。Anthropic的答案是组织层面的(限制模型、审查合作伙伴、投入资源)。对于构建自有安全扫描的从业者,用于管控输出的治理钩子是与之对应的机制。

这对从业者意味着什么

您无法获得Mythos的访问权限。以下是您用现有资源可以做的事:

Opus 4.6本身已经足够强大。 Carlini的[un]prompted演讲成果(5个内核漏洞、22个Firefox CVE)使用的是Opus 4.6,而非Mythos。3 捕获旗帜方法论、ASAN插桩构建以及文件迭代脚本,都可以用普遍可用的模型重现。

现在就构建分类层。 当未来的Opus模型继承部分Mythos能力时(Anthropic已暗示此事),瓶颈将与Carlini所指出的相同:人工验证。已经准备好自动化去重、严重性分类和披露工作流程的团队将率先受益。

申请Cyber Verification Program。 申请表已在claude.com/form/cyber-use-case上线。如果您从事合法的安全研究,这就是获得更高访问权限的路径。

趋势是明确的:AI辅助的漏洞发现是真实的,能够规模化,而治理问题如今已成为核心问题。模型能力已被解决。编排发现、分类和负责任披露的脚手架尚未解决。


来源

常见问题

我能通过Claude Code使用Claude Mythos吗?

不能。Mythos Preview仅限于Project Glasswing合作伙伴使用。Opus 4.7(2026年4月16日)是一般用户通过Claude Code可用的最强模型;Anthropic声明Mythos在网络能力上仍高于任何GA模型。

Mythos的能力会进入Opus吗?

Opus 4.7是Anthropic在Glasswing之后首款Opus发布版本,配备了实时网络安全防护。此模式表明未来的Opus模型将附带更多防护措施,而非完整的Mythos能力集。Anthropic的原始公告表示,他们的目标是”通过未来Claude Opus模型中的新防护措施实现更安全的部署”。

这与之前那篇漏洞博文有何关联?

Carlini的[un]prompted演讲(在When Your Agent Finds a Vulnerability中有介绍)使用的是Opus 4.6,发现了5个内核漏洞和22个Firefox CVE。Mythos将该方法规模化到所有主流平台上的数千个漏洞。方法论相同;只是模型更强大。


  1. Claude Mythos Preview — Project Glasswing。Anthropic,2026年4月7日。官方公告。发现数千个高/严重级别零日漏洞。专业验证方严重性确认率89%。1亿美元使用额度。由Nicholas Carlini领衔,21位以上合著者参与。 

  2. Anthropic’s Project Glasswing。Simon Willison,2026年4月7日。对受限发布模式及Carlini早期工作的分析与背景介绍。 

  3. Nicholas Carlini,”Black-hat LLMs”,[un]prompted AI安全大会,2026年4月。大会议程。另见:AI Finds Vulns You Can’t,Security Cryptography Whatever播客。 

  4. Anthropic says its most powerful AI cyber model is too dangerous to release publicly。VentureBeat,2026年4月7日。 

  5. 发布后更新(2026年4月19日)。 Anthropic的Introducing Claude Opus 4.7公告(2026年4月16日)将Opus 4.7定位为GA旗舰,同时指出Mythos Preview在网络能力上仍更为强大。实时网络安全防护详情见Anthropic Support: Real-time cyber safeguards on Claude。Cyber Verification Program申请表已在claude.com/form/cyber-use-case上线。 

  6. Claude Code CHANGELOG。v2.1.111增加了Opus 4.7发布支持(xhigh等级、Max无需标志即可使用Auto Mode)。v2.1.113增加了sandbox.network.deniedDomains、包装命令拒绝规则、find -exec/-delete权限收紧,以及macOS /private/{etc,var,tmp,home}删除保护。 

相关文章

MCP Servers Are the New Attack Surface

50 MCP vulnerabilities, 30 CVEs in 60 days, 13 critical. Tool-use protocols are the attack surface nobody is auditing — …

8 分钟阅读

The Ralph Loop: How I Run Autonomous AI Agents Overnight

I built an autonomous agent system with stop hooks, spawn budgets, and filesystem memory. Here are the failures and what…

11 分钟阅读