← 所有文章

Project Glasswing:当模型太擅长发现漏洞时会发生什么

From the guide: Claude Code Comprehensive Guide

两周前,Nicholas Carlini展示了Claude Code如何用一个10行的bash脚本发现了一个存在23年的Linux内核漏洞。今天,Anthropic公布了他们将这一方法规模化后的成果:一个名为Claude Mythos的新模型发现了数千个高危和严重级别的零日漏洞——并且决定不公开发布。1

Project Glasswing是Anthropic对从业者自Carlini在[un]prompted演讲以来一直在追问的问题的回答:当这种能力大规模部署时会发生什么?答案是:限制访问。

摘要

Claude Mythos Preview是一个超越Opus 4.6的新前沿模型,其网络安全能力”作为代码、推理和自主性全面提升的下游结果而涌现”。1 Anthropic将访问权限限制为12家合作伙伴组织(Apple、Amazon、Microsoft、Google、Linux Foundation等),仅用于防御性安全工作。该模型发现了数千个零日漏洞,包括一个存在27年的OpenBSD TCP SACK漏洞、一个存在16年的FFmpeg漏洞,以及一个FreeBSD NFS RCE(CVE-2026-4747)。1 Anthropic承诺提供1亿美元的使用额度和400万美元给开源安全组织。未来的网络验证计划(Cyber Verification Program)最终将为合法的安全专业人员提供访问权限。1

核心要点

  • 安全工程师: Carlini在[un]prompted上展示的能力阈值是真实的,而且可以规模化。Mythos在”每个主要操作系统和网页浏览器”中都发现了漏洞。2 12家合作伙伴组织的防御安全团队现已获得访问权限。其他人应该为这些能力进入通用模型做好准备。
  • 工具链构建者: Mythos通过Claude Code在隔离容器中运行。1 从业者日常编码使用的同一套智能体CLI,正是Anthropic前沿安全研究的执行层。从业者独立构建的工具链模式在最高层面得到了验证。
  • 所有人: Anthropic选择了限制而非发布。这是一个有实际代价的治理决策。模型已经存在,能力已经验证。问题不再是AI能否发现零日漏洞——而是谁能获得访问权限、在什么约束条件下。

从演讲到产品

Carlini四月初的[un]prompted演讲是公开预览。3 他展示了5个Linux内核漏洞和22个Firefox CVE,使用的是一个简单的文件迭代脚本。他说瓶颈在于人工验证——“还有几百个崩溃我没来得及验证”。

Mythos就是当你用更强大的模型和专用基础设施消除这一瓶颈后的产物。规模差异显而易见:1

指标 Carlini的演讲 Project Glasswing
发现的漏洞 5个内核漏洞 + 22个Firefox CVE 跨所有主要平台的数千个漏洞
目标 Linux内核、Firefox 每个主要操作系统、浏览器、开源项目
验证方式 手动、研究者驱动 专业安全承包商,89%的严重性确认率
访问方式 Opus 4.6(公开可用) Mythos Preview(限12家合作伙伴)

专业验证数据值得关注:在198份已审查报告中,89%的严重性评估得到了独立安全承包商的确认,98%的评估在一个严重性级别以内。1 这些并非模型幻觉。

限制发布的决策

Anthropic的官方立场:”由于Claude Mythos Preview的网络安全能力,我们不计划将其公开发布。”4

这并不寻常。模型公司通常会争先恐后地发布新能力。Anthropic构建了一个在发现漏洞方面明显优于任何公开系统的模型——然后选择将其限制为经审核合作伙伴的防御性用途。1亿美元的使用额度承诺表明这绝非营销噱头。1

限制模式分为三个层级:1 1. Project Glasswing合作伙伴(12家组织):直接访问,用于防御性安全 2. 更广泛的访问(总计40家组织):受监督的部署 3. 未来的网络验证计划:面向经验证的安全专业人员

对从业者而言,这意味着最强大的漏洞发现能力无法通过标准API或Claude Code获得。Opus 4.6仍然是最强的公开可用模型。但Mythos展示的能力很可能影响未来的Opus版本——Anthropic在公告中明确表示,他们的目标是”通过未来Claude Opus模型中的新安全措施实现更安全的部署”。1

这验证了什么

Project Glasswing验证了从业者社区独立构建的几个模式:

Claude Code作为执行工具链。 Mythos通过Claude Code在隔离容器中运行。1 从业者日常编码使用的同一套智能体CLI,正是前沿安全研究的执行层。Claude Code提供的hooksskills沙箱机制不是便利功能——它们是使自主安全扫描安全可部署的基础设施。

验证瓶颈是工具链问题。 Carlini的演讲将人工验证确定为瓶颈。Project Glasswing的解决方案:专业安全承包商进行验证、SHA-3哈希承诺用于负责任的漏洞披露、结构化的分诊基础设施。1 这与我们在当你的智能体发现漏洞时中识别的分诊问题完全一致——解决方案在于基础设施,而非模型能力。

治理钩子比扫描能力更重要。 模型能发现漏洞。真正困难的是控制披露、管理访问权限、确保发现结果先到防御者手中而非攻击者。Anthropic的答案是组织层面的(限制模型、审核合作伙伴、投入资源)。对于构建自己安全扫描工具的从业者来说,控制输出的治理钩子就是对等方案。

对从业者意味着什么

你不会获得Mythos的访问权限。以下是你可以利用现有资源做的事:

Opus 4.6已经具备相当能力。 Carlini在[un]prompted上的成果——5个内核漏洞、22个Firefox CVE——使用的是Opus 4.6,而非Mythos。3 夺旗式方法论、ASAN插桩构建和文件迭代脚本都可以用公开可用的模型复现。

现在就构建分诊层。 当未来的Opus模型继承Mythos的部分能力时(正如Anthropic所暗示的),瓶颈将与Carlini所指出的一样:人工验证。提前建好自动化去重、严重性分类和披露工作流的团队将率先受益。

关注网络验证计划。 Anthropic计划向经验证的安全专业人员扩展Mythos访问权限。如果你从事合法的安全研究,这值得持续关注。

趋势已经明朗:AI辅助漏洞发现是真实的,它可以规模化,治理问题现在是核心难题。模型能力已经解决。编排发现、分诊和负责任披露的工具链还没有。


参考来源

常见问题

我可以通过Claude Code使用Claude Mythos吗?

不可以。Mythos Preview仅限Project Glasswing合作伙伴使用。Opus 4.6仍然是普通用户通过Claude Code可用的最强模型。

Mythos的能力会进入Opus吗?

Anthropic在公告中表示,他们的目标是”通过未来Claude Opus模型中的新安全措施实现更安全的部署”。这意味着部分能力最终会进入公开可用的模型,但会附加额外的安全约束。

这与之前的漏洞博客文章有什么关系?

Carlini的[un]prompted演讲(在当你的智能体发现漏洞时中报道)使用Opus 4.6发现了5个内核漏洞和22个Firefox CVE。Mythos将这一方法扩展到跨所有主要平台的数千个漏洞。方法论相同,模型更强。


  1. Claude Mythos Preview — Project Glasswing. Anthropic, April 7, 2026. Official announcement. Thousands of high/critical-severity zero-days found. 89% severity confirmation rate by professional validators. $100M in usage credits. Led by Nicholas Carlini with 21+ co-authors. 

  2. Anthropic’s Project Glasswing. Simon Willison, April 7, 2026. Analysis and context on the restricted release model and Carlini’s earlier work. 

  3. Nicholas Carlini, “Black-hat LLMs,” [un]prompted AI security conference, April 2026. Conference agenda. See also: AI Finds Vulns You Can’t, Security Cryptography Whatever podcast. 

  4. Anthropic says its most powerful AI cyber model is too dangerous to release publicly. VentureBeat, April 7, 2026. 

相关文章

The Ralph Loop: How I Run Autonomous AI Agents Overnight

I built an autonomous agent system with stop hooks, spawn budgets, and filesystem memory. Here are the failures and what…

8 分钟阅读