Project Glasswing:当模型太擅长发现漏洞时会发生什么
两周前,Nicholas Carlini展示了Claude Code如何用一个10行的bash脚本发现了一个存在23年的Linux内核漏洞。今天,Anthropic公布了他们将这一方法规模化后的成果:一个名为Claude Mythos的新模型发现了数千个高危和严重级别的零日漏洞——并且决定不公开发布。1
Project Glasswing是Anthropic对从业者自Carlini在[un]prompted演讲以来一直在追问的问题的回答:当这种能力大规模部署时会发生什么?答案是:限制访问。
摘要
Claude Mythos Preview是一个超越Opus 4.6的新前沿模型,其网络安全能力”作为代码、推理和自主性全面提升的下游结果而涌现”。1 Anthropic将访问权限限制为12家合作伙伴组织(Apple、Amazon、Microsoft、Google、Linux Foundation等),仅用于防御性安全工作。该模型发现了数千个零日漏洞,包括一个存在27年的OpenBSD TCP SACK漏洞、一个存在16年的FFmpeg漏洞,以及一个FreeBSD NFS RCE(CVE-2026-4747)。1 Anthropic承诺提供1亿美元的使用额度和400万美元给开源安全组织。未来的网络验证计划(Cyber Verification Program)最终将为合法的安全专业人员提供访问权限。1
核心要点
- 安全工程师: Carlini在[un]prompted上展示的能力阈值是真实的,而且可以规模化。Mythos在”每个主要操作系统和网页浏览器”中都发现了漏洞。2 12家合作伙伴组织的防御安全团队现已获得访问权限。其他人应该为这些能力进入通用模型做好准备。
- 工具链构建者: Mythos通过Claude Code在隔离容器中运行。1 从业者日常编码使用的同一套智能体CLI,正是Anthropic前沿安全研究的执行层。从业者独立构建的工具链模式在最高层面得到了验证。
- 所有人: Anthropic选择了限制而非发布。这是一个有实际代价的治理决策。模型已经存在,能力已经验证。问题不再是AI能否发现零日漏洞——而是谁能获得访问权限、在什么约束条件下。
从演讲到产品
Carlini四月初的[un]prompted演讲是公开预览。3 他展示了5个Linux内核漏洞和22个Firefox CVE,使用的是一个简单的文件迭代脚本。他说瓶颈在于人工验证——“还有几百个崩溃我没来得及验证”。
Mythos就是当你用更强大的模型和专用基础设施消除这一瓶颈后的产物。规模差异显而易见:1
| 指标 | Carlini的演讲 | Project Glasswing |
|---|---|---|
| 发现的漏洞 | 5个内核漏洞 + 22个Firefox CVE | 跨所有主要平台的数千个漏洞 |
| 目标 | Linux内核、Firefox | 每个主要操作系统、浏览器、开源项目 |
| 验证方式 | 手动、研究者驱动 | 专业安全承包商,89%的严重性确认率 |
| 访问方式 | Opus 4.6(公开可用) | Mythos Preview(限12家合作伙伴) |
专业验证数据值得关注:在198份已审查报告中,89%的严重性评估得到了独立安全承包商的确认,98%的评估在一个严重性级别以内。1 这些并非模型幻觉。
限制发布的决策
Anthropic的官方立场:”由于Claude Mythos Preview的网络安全能力,我们不计划将其公开发布。”4
这并不寻常。模型公司通常会争先恐后地发布新能力。Anthropic构建了一个在发现漏洞方面明显优于任何公开系统的模型——然后选择将其限制为经审核合作伙伴的防御性用途。1亿美元的使用额度承诺表明这绝非营销噱头。1
限制模式分为三个层级:1 1. Project Glasswing合作伙伴(12家组织):直接访问,用于防御性安全 2. 更广泛的访问(总计40家组织):受监督的部署 3. 未来的网络验证计划:面向经验证的安全专业人员
对从业者而言,这意味着最强大的漏洞发现能力无法通过标准API或Claude Code获得。Opus 4.6仍然是最强的公开可用模型。但Mythos展示的能力很可能影响未来的Opus版本——Anthropic在公告中明确表示,他们的目标是”通过未来Claude Opus模型中的新安全措施实现更安全的部署”。1
这验证了什么
Project Glasswing验证了从业者社区独立构建的几个模式:
Claude Code作为执行工具链。 Mythos通过Claude Code在隔离容器中运行。1 从业者日常编码使用的同一套智能体CLI,正是前沿安全研究的执行层。Claude Code提供的hooks、skills和沙箱机制不是便利功能——它们是使自主安全扫描安全可部署的基础设施。
验证瓶颈是工具链问题。 Carlini的演讲将人工验证确定为瓶颈。Project Glasswing的解决方案:专业安全承包商进行验证、SHA-3哈希承诺用于负责任的漏洞披露、结构化的分诊基础设施。1 这与我们在当你的智能体发现漏洞时中识别的分诊问题完全一致——解决方案在于基础设施,而非模型能力。
治理钩子比扫描能力更重要。 模型能发现漏洞。真正困难的是控制披露、管理访问权限、确保发现结果先到防御者手中而非攻击者。Anthropic的答案是组织层面的(限制模型、审核合作伙伴、投入资源)。对于构建自己安全扫描工具的从业者来说,控制输出的治理钩子就是对等方案。
对从业者意味着什么
你不会获得Mythos的访问权限。以下是你可以利用现有资源做的事:
Opus 4.6已经具备相当能力。 Carlini在[un]prompted上的成果——5个内核漏洞、22个Firefox CVE——使用的是Opus 4.6,而非Mythos。3 夺旗式方法论、ASAN插桩构建和文件迭代脚本都可以用公开可用的模型复现。
现在就构建分诊层。 当未来的Opus模型继承Mythos的部分能力时(正如Anthropic所暗示的),瓶颈将与Carlini所指出的一样:人工验证。提前建好自动化去重、严重性分类和披露工作流的团队将率先受益。
关注网络验证计划。 Anthropic计划向经验证的安全专业人员扩展Mythos访问权限。如果你从事合法的安全研究,这值得持续关注。
趋势已经明朗:AI辅助漏洞发现是真实的,它可以规模化,治理问题现在是核心难题。模型能力已经解决。编排发现、分诊和负责任披露的工具链还没有。
参考来源
常见问题
我可以通过Claude Code使用Claude Mythos吗?
不可以。Mythos Preview仅限Project Glasswing合作伙伴使用。Opus 4.6仍然是普通用户通过Claude Code可用的最强模型。
Mythos的能力会进入Opus吗?
Anthropic在公告中表示,他们的目标是”通过未来Claude Opus模型中的新安全措施实现更安全的部署”。这意味着部分能力最终会进入公开可用的模型,但会附加额外的安全约束。
这与之前的漏洞博客文章有什么关系?
Carlini的[un]prompted演讲(在当你的智能体发现漏洞时中报道)使用Opus 4.6发现了5个内核漏洞和22个Firefox CVE。Mythos将这一方法扩展到跨所有主要平台的数千个漏洞。方法论相同,模型更强。
-
Claude Mythos Preview — Project Glasswing. Anthropic, April 7, 2026. Official announcement. Thousands of high/critical-severity zero-days found. 89% severity confirmation rate by professional validators. $100M in usage credits. Led by Nicholas Carlini with 21+ co-authors. ↩↩↩↩↩↩↩↩↩↩↩↩
-
Anthropic’s Project Glasswing. Simon Willison, April 7, 2026. Analysis and context on the restricted release model and Carlini’s earlier work. ↩
-
Nicholas Carlini, “Black-hat LLMs,” [un]prompted AI security conference, April 2026. Conference agenda. See also: AI Finds Vulns You Can’t, Security Cryptography Whatever podcast. ↩↩
-
Anthropic says its most powerful AI cyber model is too dangerous to release publicly. VentureBeat, April 7, 2026. ↩