← 所有文章

Project Glasswing:當模型找到太多漏洞時

From the guide: Claude Code Comprehensive Guide

兩週前,Nicholas Carlini展示了Claude Code可使用一個10行的bash腳本,找出一個存在23年的Linux核心漏洞。今天,Anthropic宣布了當他們將該方法規模化後發生的事:一個名為Claude Mythos的新模型找出了數千個高風險與嚴重等級的零日漏洞,隨後決定不公開發布它。1

Project Glasswing是Anthropic針對Claude Mythos的限制性部署,這是一個前沿模型,已在所有主要作業系統與網頁瀏覽器中發現了數千個零日漏洞。 Mythos找出了多個關鍵漏洞,包括一個存在27年的OpenBSD TCP SACK缺陷,以及一個FreeBSD NFS遠端程式碼執行漏洞。Anthropic將存取權限限制給12個合作夥伴組織,僅供防禦性安全用途,承諾提供1億美元的使用額度,並在claude.com/form/cyber-use-case開放Cyber Verification Program申請表單,供合格的研究人員提出申請。

Project Glasswing是Anthropic對於從業者自Carlini的[un]prompted演講以來一直追問之問題的回答:當這項能力被大規模部署時會發生什麼?答案是:你必須限制它。

摘要

Claude Mythos Preview是一個前沿模型,根據Anthropic的說法,其網路安全能力是「程式碼、推理與自主性整體進步的下游結果」。1 Anthropic將其定位為比任何普遍可用的Opus模型(包括2026年4月16日發布的Opus 4.7)更具網路能力,並將存取權限限制給12個合作夥伴組織(Apple、Amazon、Microsoft、Google、Linux Foundation等),僅限於防禦性安全工作。該模型找出了數千個零日漏洞,包括一個存在27年的OpenBSD TCP SACK漏洞、一個存在16年的FFmpeg漏洞,以及一個FreeBSD NFS RCE(CVE-2026-4747)。1 Anthropic承諾提供1億美元的使用額度,以及400萬美元給開源安全組織。Cyber Verification Program申請表單現已上線,供尋求存取權限的合法安全研究人員使用。1

重點摘要

  • 安全工程師: Carlini在[un]prompted演講中展示的能力門檻是真實的,而且可以擴展。Mythos在「所有主要作業系統與網頁瀏覽器」中找出了漏洞。2 12個合作夥伴組織的防禦性安全團隊現已擁有存取權限。其他人都應該為這些能力進入普遍可用模型時做好準備。
  • 架構建構者: Mythos透過Claude Code在隔離容器中執行。1 該架構模式(代理CLI+沙箱化執行+自動化分類)現在已成為Anthropic自身前沿安全研究的生產架構。從業者獨立建構的編排模式在最高層級依然成立。
  • 其他所有人: Anthropic選擇了限制而非發布。這是一個帶有真實取捨的真實治理決策。模型存在。Anthropic展示了能力。問題不再是AI能否找出零日漏洞,而是誰能取得存取權限以及在何種約束下。

更新(2026年4月19日)

自本文於4月7日上線以來,有兩件事發生變化:

  1. Opus 4.7於2026年4月16日發布,成為新的普遍可用旗艦模型。Anthropic表示Opus 4.7在網路能力上刻意低於Mythos Preview,並配備了即時網路防護機制。Mythos Preview仍維持獨立且受限制。5
  2. Cyber Verification Program申請表單現已上線,網址為claude.com/form/cyber-use-case。原本公告中所稱的「未來」計畫,現在已是一條具體的申請路徑。5
  3. Claude Code發布了兩個相關的基礎設施版本:v2.1.111新增了Opus 4.7/xhigh/Auto Mode支援;v2.1.113新增了sandbox.network.deniedDomains、包裝命令拒絕規則(env/sudo/watch/ionice/setsid)、更嚴格的find -exec-delete處理,以及在Bash(rm:*)下的macOS /private/{etc,var,tmp,home}刪除保護。6 這些正是Mythos風格的安全研究架構所需要的強化基礎元件。

下面的核心論點——能力限制優於發布、架構模式在最高層級依然成立、其他所有人都應為這些能力進入GA做好準備——並未改變。如果有什麼變化的話,Opus 4.7明確的網路防護框架反而更強化了這項論點。


從演講到產品

Carlini在4月初的[un]prompted演講是公開預覽。3 他展示了使用一個簡單的檔案迭代腳本所找出的5個Linux核心漏洞與22個Firefox CVE。他說瓶頸在於人工驗證——「還有數百個我尚未驗證的崩潰」。

Mythos是當你以更強大的模型與專屬基礎設施移除該瓶頸後所發生的事。其規模差異相當顯著:1

指標 Carlini的演講 Project Glasswing
找出的漏洞數 5個核心+22個Firefox CVE 跨所有主要平台的數千個
目標 Linux核心、Firefox 所有主要OS、瀏覽器、開源專案
驗證方式 手動,由研究人員主導 專業安全承包商,89%嚴重程度確認率
存取權限 Carlini演講時為Opus 4.6;Opus 4.7現為GA旗艦 Mythos Preview(限12個合作夥伴)

專業驗證的數字至關重要:在198份審查報告中,89%的嚴重程度評估獲得獨立安全承包商確認,98%在一個嚴重程度等級之內。1 這些並非幻覺生成的發現。

限制決策

Anthropic的官方立場:「由於Claude Mythos Preview的網路安全能力,我們不打算將其普遍提供。」4

該決策格外引人注目。模型公司通常會競相推出新能力。Anthropic打造了一個在尋找漏洞方面明顯優於任何公開可用系統的模型,然後選擇將其限制給經審核的合作夥伴用於防禦用途。1億美元的使用額度承諾顯示這並非行銷活動。1

該限制模型分為三個層級:1 1. Project Glasswing合作夥伴(12個組織):直接存取權限,用於防禦性安全 2. 更廣泛的存取(總計40個組織):受監督部署 3. Cyber Verification Program(現已於claude.com/form/cyber-use-case上線):經驗證安全專業人員的申請路徑5

對從業者而言,標準的API與Claude Code並未開放Mythos的漏洞發現能力。目前最強大的普遍可用模型是Opus 4.7(於2026年4月16日推出),Anthropic將其定位為在網路能力上刻意低於Mythos,並配備即時網路防護機制。5 Mythos所展示的能力已影響了該4月16日的發布——Opus 4.7是Anthropic首個後Glasswing時代、配備專屬網路防護機制的模型。

此事驗證了什麼

Project Glasswing驗證了從業者社群獨立建構的數種模式:

Claude Code作為執行架構。 Mythos透過Claude Code在隔離容器中執行。1 從業者日常編程所使用的同一個代理CLI,現在也作為前沿安全研究的執行層。Claude Code所提供的hooksskills沙箱機制並非便利功能。它們是讓自主安全掃描得以安全部署的基礎設施。

驗證瓶頸是一個編排問題。 Carlini的演講指出人工驗證是瓶頸。Project Glasswing的解決方案:專業安全承包商進行驗證、SHA-3雜湊承諾以負責任揭露,以及結構化的分類基礎設施。1 同樣的分類問題在當您的代理找到漏洞時中浮現,而解決方案是基礎設施,而非模型能力。

治理機制比掃描能力更重要。 模型可以找出漏洞。困難的問題是控制揭露、管理存取權限,並確保發現能在攻擊者之前傳達給防禦者。Anthropic的答案是組織性的(限制模型、審核合作夥伴、投入資源)。對於建構自有安全掃描系統的從業者而言,把關輸出的治理機制就是其等同物。

此事對從業者的意義

您不會獲得Mythos的存取權限。以下是您可以利用現有資源做的事:

Opus 4.6本身已具備能力。 Carlini的[un]prompted成果(5個核心漏洞、22個Firefox CVE)使用的是Opus 4.6,而非Mythos。3 奪旗賽方法論、ASAN儀器化建置與檔案迭代腳本,全都可以用普遍可用的模型重現。

現在就建構分類層。 當未來的Opus模型繼承部分Mythos的能力時(如同Anthropic所暗示的),瓶頸將會與Carlini所指出的相同:人工驗證。已備妥自動化去重複、嚴重程度分類與揭露工作流程的團隊將最先受益。

申請Cyber Verification Program。 申請表單已於claude.com/form/cyber-use-case上線。如果您從事合法的安全研究,這是取得進階存取權限的途徑。

軌跡相當清晰:AI輔助的漏洞發現是真實的、可擴展的,治理問題現在已成為核心議題。模型能力問題已被解決。但編排發現、分類與負責任揭露的架構尚未解決。


來源

常見問題

我可以透過Claude Code使用Claude Mythos嗎?

不可以。Mythos Preview僅限Project Glasswing合作夥伴使用。Opus 4.7(2026年4月16日)是一般使用者透過Claude Code可用的最強大模型;Anthropic表示Mythos的網路能力仍高於任何GA模型。

Mythos的能力會出現在Opus上嗎?

Opus 4.7是Anthropic首個後Glasswing時代的Opus版本,並配備即時網路防護機制。此模式表明未來的Opus模型將攜帶額外的防護機制,而非完整的Mythos能力範圍。Anthropic的原始公告表示,他們的目標是「透過未來Claude Opus模型中的新防護機制實現更安全的部署」。

此事與先前的漏洞部落格文章有何關聯?

Carlini的[un]prompted演講(在當您的代理找到漏洞時中介紹)使用了Opus 4.6,找出5個核心漏洞與22個Firefox CVE。Mythos將該方法擴展到所有主要平台的數千個漏洞。方法論相同;模型更強大。


  1. Claude Mythos Preview — Project Glasswing。Anthropic,2026年4月7日。官方公告。找出數千個高/嚴重程度的零日漏洞。專業驗證者89%嚴重程度確認率。1億美元使用額度。由Nicholas Carlini領導,21名以上共同作者。 

  2. Anthropic’s Project Glasswing。Simon Willison,2026年4月7日。對受限發布模型與Carlini早期工作的分析與背景說明。 

  3. Nicholas Carlini,「Black-hat LLMs」,[un]prompted AI安全研討會,2026年4月。研討會議程。亦見:AI Finds Vulns You Can’t,Security Cryptography Whatever podcast。 

  4. Anthropic says its most powerful AI cyber model is too dangerous to release publicly。VentureBeat,2026年4月7日。 

  5. 發布後更新(2026年4月19日)。 Anthropic的Introducing Claude Opus 4.7公告(2026年4月16日)將Opus 4.7定位為GA旗艦,同時指出Mythos Preview在網路能力上仍更為強大。即時網路防護機制詳情請見Anthropic Support: Real-time cyber safeguards on Claude。Cyber Verification Program申請表單已於claude.com/form/cyber-use-case上線。 

  6. Claude Code CHANGELOG。v2.1.111新增Opus 4.7發布支援(xhigh effort、Max的Auto Mode無需旗標)。v2.1.113新增sandbox.network.deniedDomains、包裝命令拒絕規則、find -exec-delete權限收緊,以及macOS /private/{etc,var,tmp,home}刪除保護。 

相關文章

MCP Servers Are the New Attack Surface

50 MCP vulnerabilities, 30 CVEs in 60 days, 13 critical. Tool-use protocols are the attack surface nobody is auditing — …

8 分鐘閱讀

The Ralph Loop: How I Run Autonomous AI Agents Overnight

I built an autonomous agent system with stop hooks, spawn budgets, and filesystem memory. Here are the failures and what…

11 分鐘閱讀