← すべての記事

Project Glasswing:モデルがバグ発見に優れすぎたとき何が起こるか

From the guide: Claude Code Comprehensive Guide

2週間前、Nicholas Carliniは10行のbashスクリプトを使ってClaude Codeが23年前のLinuxカーネル脆弱性を発見できることを示しました。本日、Anthropicはそのアプローチをスケールさせた結果を発表しました。数千件の重大度「高」および「緊急」のゼロデイ脆弱性を発見したClaude Mythosという新モデル——そしてそれを一般公開しないという決断です。1

Project Glasswingは、Carliniの[un]prompted講演以来、実務者たちが問い続けてきた疑問に対するAnthropicの回答です。この能力が大規模に展開されたらどうなるのか? 答えは「制限する」でした。

要約

Claude Mythos Previewは、Opus 4.6を超える新たなフロンティアモデルであり、そのサイバーセキュリティ能力は「コード、推論、自律性における全般的な改善の下流的帰結として出現した」ものです。1 Anthropicはアクセスを12のパートナー組織(Apple、Amazon、Microsoft、Google、Linux Foundationなど)に限定し、防御的セキュリティ用途のみに制限しています。このモデルは、27年前のOpenBSD TCP SACKバグ、16年前のFFmpeg脆弱性、FreeBSD NFS RCE(CVE-2026-4747)を含む数千件のゼロデイを発見しました。1 Anthropicは1億ドルの利用クレジットと400万ドルをオープンソースセキュリティ組織に拠出することを表明しています。将来的にはCyber Verification Programを通じて、正当なセキュリティ専門家にもアクセスが提供される予定です。1

重要ポイント

  • セキュリティエンジニア向け: Carliniが[un]promptedで実証した能力の閾値は現実のものであり、スケールします。Mythosは「すべての主要なオペレーティングシステムとウェブブラウザ」で脆弱性を発見しました。2 12のパートナー組織の防御チームはすでにアクセスを持っています。それ以外のチームは、これらの能力が一般利用可能なモデルに到達したときに備えるべきでしょう。
  • ハーネス構築者向け: Mythosは分離されたコンテナ内でClaude Codeを介して動作します。1 エージェントCLI + サンドボックス実行 + 自動トリアージというハーネスパターンは、Anthropic自身のフロンティアセキュリティ研究における本番アーキテクチャとなりました。実務者が独自に構築してきたハーネスパターンが、最高レベルで検証されたことになります。
  • その他すべての方へ: Anthropicはリリースではなく制限を選びました。これは実際のトレードオフを伴う実際のガバナンス決定です。モデルは存在し、能力は実証されています。もはや問題は「AIがゼロデイを発見できるか」ではなく、「誰がどのような制約のもとでアクセスするか」なのです。

講演からプロダクトへ

Carliniの4月初旬の[un]prompted講演は、その公開プレビューでした。3 シンプルなファイル反復スクリプトで5件のLinuxカーネル脆弱性と22件のFirefox CVEを発見したことを示しました。ボトルネックは人間による検証だったと彼は語りました——「まだ検証していないクラッシュが数百件ある」と。

Mythosは、より高性能なモデルと専用インフラでそのボトルネックを取り除いた結果です。スケールの差は歴然としています。1

指標 Carliniの講演 Project Glasswing
発見された脆弱性 5件のカーネルバグ + 22件のFirefox CVE すべての主要プラットフォームで数千件
対象 Linuxカーネル、Firefox すべての主要OS、ブラウザ、オープンソースプロジェクト
検証 手動、研究者主導 プロのセキュリティ請負業者、89%の重大度確認
アクセス Opus 4.6(一般利用可能) Mythos Preview(12パートナーに限定)

プロによる検証の数字は重要です。レビューされた198件のレポートのうち89%が、独立したセキュリティ請負業者によって重大度評価を確認され、98%が1段階以内の重大度でした。1 これらはハルシネーションによる発見ではありません。

制限の決断

Anthropicの公式見解:「サイバーセキュリティ能力を理由に、Claude Mythos Previewを一般公開する予定はありません。」4

これは異例のことです。モデル企業は通常、能力の公開を競い合います。Anthropicは、一般に利用可能なシステムよりも明らかに脆弱性発見能力に優れたモデルを構築し——それを審査済みパートナーによる防御的利用に制限することを選びました。1億ドルの利用クレジットという規模からも、これがマーケティング施策ではないことがわかります。1

制限モデルには3つの層があります。1 1. Project Glasswingパートナー(12組織):防御的セキュリティのための直接アクセス 2. 拡大アクセス(合計40組織):監督下でのデプロイ 3. 将来のCyber Verification Program:認証されたセキュリティ専門家向けのアクセスを計画中

実務者にとって、これは最強の脆弱性発見能力が標準のAPIやClaude Codeでは利用できないことを意味します。Opus 4.6が引き続き一般利用可能な最強モデルです。ただし、Mythosが実証した能力は将来のOpusリリースに影響を与える可能性が高いでしょう——Anthropicの発表では「将来のClaude Opusモデルに新たなセーフガードを導入し、より安全なデプロイを可能にする」ことを目指すと明言しています。1

これが裏付けるもの

Project Glasswingは、実務者コミュニティが独自に構築してきたいくつかのパターンを裏付けています。

実行ハーネスとしてのClaude Code。 Mythosは分離されたコンテナ内でClaude Codeを介して動作します。1 実務者が日常的なコーディングに使用しているのと同じエージェントCLIが、フロンティアセキュリティ研究の実行レイヤーとなっています。Claude Codeが提供するhooksskillsサンドボックスは利便性のための機能ではなく、自律的なセキュリティスキャンを安全にデプロイするためのインフラそのものです。

検証のボトルネックはハーネスの問題。 Carliniの講演では人間による検証がボトルネックだと指摘されました。Project Glasswingの解決策は、検証のためのプロのセキュリティ請負業者、責任ある開示のためのSHA-3ハッシュコミットメント、そして構造化されたトリアージインフラです。1 これはWhen Your Agent Finds a Vulnerabilityで特定したのと同じトリアージの問題であり、解決策はモデルの能力ではなくインフラにあります。

ガバナンスフックはスキャン能力よりも重要。 モデルは脆弱性を発見できます。難しい問題は、開示の制御、アクセスの管理、そして発見が攻撃者より先に防御者に届くようにすることです。Anthropicの答えは組織的なもの(モデルを制限し、パートナーを審査し、リソースを投入する)でした。独自のセキュリティスキャンを構築する実務者にとって、出力を制御するガバナンスフックがそれに相当するものです。

実務者にとっての意味

Mythosへのアクセスは得られません。現在手元にあるもので何ができるかを整理しましょう。

Opus 4.6はすでに十分な能力を持っています。 Carliniの[un]promptedでの成果——5件のカーネルバグ、22件のFirefox CVE——はMythosではなくOpus 4.6を使用したものです。3 キャプチャー・ザ・フラグの手法、ASAN計装ビルド、ファイル反復スクリプトはすべて一般利用可能なモデルで再現可能です。

トリアージレイヤーを今すぐ構築しましょう。 将来のOpusモデルがMythosの能力の一部を継承したとき(Anthropicが示唆しているように)、ボトルネックはCarliniが指摘したものと同じ——人間による検証——になります。自動化された重複排除、重大度分類、開示ワークフローを準備しているチームが最初に恩恵を受けるでしょう。

Cyber Verification Programに注目を。 Anthropicは認証されたセキュリティ専門家にMythosアクセスを拡大する計画です。正当なセキュリティ研究を行っているなら、追跡する価値があります。

方向性は明確です。AIによる脆弱性発見は現実のものであり、スケールし、ガバナンスの問題が今や中心的な課題となっています。モデルの能力は解決済みです。発見、トリアージ、責任ある開示を統合するハーネスはまだ解決されていません。


出典

よくある質問

Claude MythosはClaude Codeで使用できますか?

いいえ。Mythos PreviewはProject Glasswingパートナーに限定されています。一般ユーザーがClaude Codeで利用できる最強モデルは引き続きOpus 4.6です。

Mythosの能力はOpusに移行されますか?

Anthropicの発表では「将来のClaude Opusモデルに新たなセーフガードを導入し、より安全なデプロイを可能にする」ことを目指すと述べられています。一部の能力は最終的に一般利用可能なモデルに到達すると考えられますが、追加の安全性制約が伴うでしょう。

以前の脆弱性に関するブログ記事との関係は?

Carliniの[un]prompted講演(When Your Agent Finds a Vulnerabilityで紹介)ではOpus 4.6を使用し、5件のカーネルバグと22件のFirefox CVEを発見しました。Mythosはそのアプローチをすべての主要プラットフォームで数千件の脆弱性にスケールさせたものです。手法は同じですが、モデルがより高性能になっています。


  1. Claude Mythos Preview — Project Glasswing. Anthropic, April 7, 2026. Official announcement. Thousands of high/critical-severity zero-days found. 89% severity confirmation rate by professional validators. $100M in usage credits. Led by Nicholas Carlini with 21+ co-authors. 

  2. Anthropic’s Project Glasswing. Simon Willison, April 7, 2026. Analysis and context on the restricted release model and Carlini’s earlier work. 

  3. Nicholas Carlini, “Black-hat LLMs,” [un]prompted AI security conference, April 2026. Conference agenda. See also: AI Finds Vulns You Can’t, Security Cryptography Whatever podcast. 

  4. Anthropic says its most powerful AI cyber model is too dangerous to release publicly. VentureBeat, April 7, 2026. 

関連記事

The Ralph Loop: How I Run Autonomous AI Agents Overnight

I built an autonomous agent system with stop hooks, spawn budgets, and filesystem memory. Here are the failures and what…

8 分で読める