Project Glasswing:當模型太擅長找漏洞時會發生什麼事
兩週前,Nicholas Carlini 展示了 Claude Code 如何用一段 10 行的 bash 腳本發現一個存在 23 年的 Linux 核心漏洞。今天,Anthropic 公布了將這個方法規模化後的成果:一個名為 Claude Mythos 的新模型,發現了數千個高嚴重性和關鍵嚴重性的零日漏洞——以及一個不公開發布的決定。1
Project Glasswing 是 Anthropic 對從業者自 Carlini 在 [un]prompted 演講以來一直在問的問題所給出的答案:當這種能力被大規模部署時會發生什麼?答案是:限制存取。
摘要
Claude Mythos Preview 是一個超越 Opus 4.6 的新前沿模型,其網路安全能力「是程式碼、推理和自主性方面整體提升的下游結果。」1 Anthropic 將存取權限制在 12 個合作夥伴組織(Apple、Amazon、Microsoft、Google、Linux Foundation 等),僅供防禦性安全工作使用。該模型發現了數千個零日漏洞,包括一個存在 27 年的 OpenBSD TCP SACK 漏洞、一個存在 16 年的 FFmpeg 漏洞,以及一個 FreeBSD NFS RCE(CVE-2026-4747)。1 Anthropic 承諾提供 1 億美元的使用額度,並向開源安全組織捐贈 400 萬美元。未來的 Cyber Verification Program 最終將為合法的安全專業人員提供存取權。1
關鍵要點
- 安全工程師: Carlini 在 [un]prompted 展示的能力門檻是真實的,而且可以規模化。Mythos 在「每個主要作業系統和網頁瀏覽器」中發現了漏洞。2 12 個合作夥伴組織的防禦安全團隊現已獲得存取權。其他人則應為這些能力進入通用模型做好準備。
- 工具鏈建構者: Mythos 透過 Claude Code 在隔離容器中執行。1 代理 CLI + 沙箱執行 + 自動分類的工具鏈模式,如今已成為 Anthropic 自身前沿安全研究的生產架構。從業者獨立建構的工具鏈模式在最高層級獲得了驗證。
- 所有人: Anthropic 選擇了限制而非發布。這是一個真正的治理決策,伴隨著真正的取捨。模型已經存在,能力已經展示。問題不再是 AI 能否找到零日漏洞——而是誰能取得存取權,以及在什麼約束條件下。
從演講到產品
Carlini 在四月初的 [un]prompted 演講是公開預覽。3 他展示了使用簡單的檔案迭代腳本找到的 5 個 Linux 核心漏洞和 22 個 Firefox CVE。他說瓶頸在於人工驗證——「還有數百個當機報告我尚未驗證。」
Mythos 就是當你用更強大的模型和專門的基礎設施移除這個瓶頸後所得到的成果。規模差異相當顯著:1
| 指標 | Carlini 的演講 | Project Glasswing |
|---|---|---|
| 發現的漏洞數 | 5 個核心漏洞 + 22 個 Firefox CVE | 數千個,涵蓋所有主要平台 |
| 目標 | Linux 核心、Firefox | 每個主要作業系統、瀏覽器、開源專案 |
| 驗證方式 | 手動,研究人員驅動 | 專業安全承包商,89% 嚴重性確認率 |
| 存取權限 | Opus 4.6(公開可用) | Mythos Preview(限制在 12 個合作夥伴) |
專業驗證的數字值得關注:在 198 份已審查的報告中,89% 的嚴重性評估獲得了獨立安全承包商的確認,98% 在一個嚴重性等級之內。1 這些不是幻覺產生的發現。
限制發布的決定
Anthropic 的正式立場:「由於其網路安全能力,我們不打算將 Claude Mythos Preview 公開發布。」4
這並不尋常。模型公司通常爭相推出新能力。Anthropic 打造了一個在漏洞發現方面明顯優於任何公開系統的模型——然後選擇將其限制在經過審查的合作夥伴進行防禦性使用。1 億美元的使用額度承諾表明這不是一場行銷活動。1
限制模式分為三個層級:1 1. Project Glasswing 合作夥伴(12 個組織):直接存取,用於防禦性安全 2. 更廣泛的存取(共 40 個組織):監督下的部署 3. 未來的 Cyber Verification Program:為經過驗證的安全專業人員規劃的存取方案
對從業者而言,這意味著最強的漏洞發現能力無法透過標準 API 或 Claude Code 取得。Opus 4.6 仍是最強的公開可用模型。但 Mythos 展示的能力可能會影響未來的 Opus 版本——Anthropic 的公告明確表示,他們的目標是「透過未來 Claude Opus 模型中的新安全措施實現更安全的部署。」1
這驗證了什麼
Project Glasswing 驗證了從業者社群一直在獨立建構的幾個模式:
Claude Code 作為執行工具鏈。 Mythos 透過 Claude Code 在隔離容器中執行。1 從業者日常撰寫程式碼所使用的同一個代理 CLI,正是前沿安全研究的執行層。Claude Code 提供的 hooks、skills 和沙箱機制不是便利功能——它們是讓自主安全掃描能夠安全部署的基礎設施。
驗證瓶頸是工具鏈問題。 Carlini 的演講指出人工驗證是瓶頸。Project Glasswing 的解決方案:專業安全承包商進行驗證、SHA-3 雜湊承諾用於負責任揭露,以及結構化的分類基礎設施。1 這與我們在《當您的代理發現漏洞時》中指出的分類問題相同——解決方案在於基礎設施,而非模型能力。
治理鉤子比掃描能力更重要。 模型能找到漏洞,真正困難的是控制揭露、管理存取權,以及確保發現結果在攻擊者之前到達防禦者手中。Anthropic 的答案是組織層面的(限制模型、審查合作夥伴、投入資源)。對於建構自己安全掃描工具的從業者而言,控制輸出的治理鉤子就是對等的方案。
這對從業者意味著什麼
您不會獲得 Mythos 的存取權。以下是您可以用現有工具做的事:
Opus 4.6 已經非常強大。 Carlini 在 [un]prompted 的成果——5 個核心漏洞、22 個 Firefox CVE——使用的是 Opus 4.6,而非 Mythos。3 奪旗方法論、ASAN 儀器化建構和檔案迭代腳本,都可以用公開可用的模型重現。
現在就建構分類層。 當未來的 Opus 模型繼承部分 Mythos 能力時(如 Anthropic 所暗示),瓶頸仍會是 Carlini 指出的那個:人工驗證。提前備好自動化去重、嚴重性分類和揭露工作流程的團隊,將最先受益。
關注 Cyber Verification Program。 Anthropic 計劃將 Mythos 存取權擴展至經過驗證的安全專業人員。如果您從事合法的安全研究,這值得持續追蹤。
趨勢已經明朗:AI 輔助漏洞發現是真實的,它可以規模化,而治理問題現在是核心挑戰。模型能力已經解決,而協調發現、分類和負責任揭露的工具鏈尚未解決。
資料來源
常見問題
我可以透過 Claude Code 使用 Claude Mythos 嗎?
不行。Mythos Preview 僅限 Project Glasswing 合作夥伴使用。Opus 4.6 仍是一般使用者透過 Claude Code 可用的最強模型。
Mythos 的能力會加入 Opus 嗎?
Anthropic 的公告表示,他們的目標是「透過未來 Claude Opus 模型中的新安全措施實現更安全的部署。」這暗示部分能力最終會進入公開可用的模型,但會附帶額外的安全約束。
這與之前的漏洞文章有什麼關係?
Carlini 在 [un]prompted 的演講(收錄於《當您的代理發現漏洞時》)使用 Opus 4.6,發現了 5 個核心漏洞和 22 個 Firefox CVE。Mythos 將這個方法擴展到所有主要平台上的數千個漏洞。方法論相同,模型更強大。
-
Claude Mythos Preview — Project Glasswing. Anthropic, April 7, 2026. Official announcement. Thousands of high/critical-severity zero-days found. 89% severity confirmation rate by professional validators. $100M in usage credits. Led by Nicholas Carlini with 21+ co-authors. ↩↩↩↩↩↩↩↩↩↩↩↩
-
Anthropic’s Project Glasswing. Simon Willison, April 7, 2026. Analysis and context on the restricted release model and Carlini’s earlier work. ↩
-
Nicholas Carlini, “Black-hat LLMs,” [un]prompted AI security conference, April 2026. Conference agenda. See also: AI Finds Vulns You Can’t, Security Cryptography Whatever podcast. ↩↩
-
Anthropic says its most powerful AI cyber model is too dangerous to release publicly. VentureBeat, April 7, 2026. ↩