← すべての記事

Project Glasswing:モデルがバグを見つけすぎたとき

From the guide: Claude Code Comprehensive Guide

2週間前、Nicholas Carlini氏は、Claude Codeが10行のbashスクリプトを使って23年前のLinuxカーネル脆弱性を発見できることを示しました。本日、Anthropicはそのアプローチをスケールさせた結果を発表しました。Claude Mythosと呼ばれる新しいモデルは、深刻度の高い、または致命的なゼロデイ脆弱性を数千件発見したものの、公開しないことを決定したのです。1

Project Glasswingは、AnthropicによるClaude Mythosの制限付きデプロイメントです。これは主要なすべてのオペレーティングシステムとWebブラウザにわたって数千のゼロデイ脆弱性を発見したフロンティアモデルです。 Mythosは、27年前のOpenBSD TCP SACKの欠陥や、FreeBSD NFSのリモートコード実行脆弱性を含む致命的なバグを発見しました。Anthropicは、防御的セキュリティ目的に限り12のパートナー組織にアクセスを制限し、1億ドルの使用クレジットをコミットし、資格を持つ研究者向けにclaude.com/form/cyber-use-caseでCyber Verification Programの申請フォームを開設しました。

Project Glasswingは、Carlini氏の[un]prompted講演以来、実践者たちが問い続けてきた疑問に対するAnthropicの回答です。つまり、この能力が大規模にデプロイされたとき何が起こるのか? 答えは、制限するということです。

TL;DR

Claude Mythos Previewはフロンティアモデルであり、そのサイバーセキュリティ能力は、Anthropicによれば「コード、推論、自律性の全般的な向上の下流的な帰結として出現した」ものです。1 Anthropicはこれを、一般提供されているあらゆるOpusモデル(2026年4月16日リリースのOpus 4.7を含む)よりもサイバー能力が高いと位置付けており、アクセスを防御的セキュリティ業務に限り12のパートナー組織(Apple、Amazon、Microsoft、Google、Linux Foundationほか)に制限しています。このモデルは、27年前のOpenBSD TCP SACKバグ、16年前のFFmpeg脆弱性、FreeBSD NFSのRCE(CVE-2026-4747)を含む数千のゼロデイを発見しました。1 Anthropicは、1億ドルの使用クレジットと、オープンソースセキュリティ組織に対する400万ドルをコミットしました。Cyber Verification Program申請フォームは、アクセスを求める正当なセキュリティ研究者向けに現在稼働しています。1

主なポイント

  • セキュリティエンジニアの皆さまへ: Carlini氏が[un]promptedで示した能力の閾値は現実であり、スケールします。Mythosは「主要なすべてのオペレーティングシステムとWebブラウザ」で脆弱性を発見しました。2 12のパートナー組織の防御的セキュリティチームは現在アクセスを持っています。それ以外の方は、これらの能力が一般提供されるモデルに到達したときに備えるべきです。
  • スキャフォールド構築者の皆さまへ: Mythosは隔離されたコンテナ内でClaude Code経由で稼働します。1 このスキャフォールドパターン(エージェントのCLI + サンドボックス化された実行 + 自動トリアージ)は現在、Anthropic自身のフロンティアセキュリティ研究のためのプロダクション アーキテクチャとして機能しています。実践者が独自に構築したオーケストレーションパターンは、最高レベルでも通用するのです。
  • それ以外のすべての方へ: Anthropicはリリースではなく制限を選びました。それはトレードオフを伴う本物のガバナンス判断です。モデルは存在します。Anthropicはその能力を実証しました。もはや問いは「AIがゼロデイを発見できるか」ではなく、「誰がどのような制約の下でアクセスできるのか」なのです。

アップデート(2026年4月19日)

この記事が4月7日に公開されてから、2つのことが変わりました。

  1. Opus 4.7が2026年4月16日に出荷され、新たな一般提供フラッグシップとなりました。Anthropicは、Opus 4.7はMythos Previewよりも意図的にサイバー能力を抑えてあり、リアルタイムのサイバー セーフガードを搭載していると述べています。Mythos Previewは引き続き分離され、制限されたままです。5
  2. Cyber Verification Programの申請フォームが稼働を開始しました。場所はclaude.com/form/cyber-use-caseです。当初の発表で「将来の」プログラムと呼ばれていたものが、今や具体的な申請経路になりました。5
  3. Claude Codeは関連する2つのインフラリリースを出荷しました。v2.1.111はOpus 4.7 / xhigh / Auto Modeサポートを追加し、v2.1.113はsandbox.network.deniedDomains、ラッパーコマンドの拒否ルール(env / sudo / watch / ionice / setsid)、find -exec / -deleteのより厳格な取り扱い、そしてBash(rm:*)下でのmacOS /private/{etc,var,tmp,home}の削除保護を追加しました。6 これらはまさに、Mythos型のセキュリティ研究スキャフォールドが必要とする強化プリミティブです。

以下の核心的な論旨——リリースよりも能力制限、最高レベルでも通用するスキャフォールドパターン、一般提供到達に備える必要があるその他すべての人々——は変わりません。むしろ、Opus 4.7の明示的なサイバー セーフガード枠組みは、この論旨を強化するものです。


講演からプロダクトへ

Carlini氏の4月初旬の[un]prompted講演は、公開プレビューでした。3 彼は、単純なファイル反復スクリプトで発見した5件のLinuxカーネル脆弱性と22件のFirefox CVEを紹介しました。ボトルネックは人間による検証だと彼は述べました——「まだ検証できていないクラッシュが数百件ある」と。

Mythosは、より高性能なモデルと専用インフラでそのボトルネックを取り除いたときに起きることなのです。規模の差は顕著です。1

指標 Carlini氏の講演 Project Glasswing
発見された脆弱性 カーネル5件 + Firefox CVE 22件 主要なすべてのプラットフォーム横断で数千件
対象 Linuxカーネル、Firefox 主要なすべてのOS、ブラウザ、オープンソースプロジェクト
検証 手動、研究者主導 プロのセキュリティ契約者、89%の深刻度確認率
アクセス Carlini氏の講演時点ではOpus 4.6、現在のGAフラッグシップはOpus 4.7 Mythos Preview(12パートナーに制限)

プロによる検証の数字は重要です。レビューされた198件の報告のうち89%が、独立したセキュリティ契約者によって深刻度の評価を確認され、98%が深刻度1段階以内に収まりました。1 これらは幻覚による発見ではありません。

制限の決定

Anthropicの公式な立場はこうです。「Claude Mythos Previewは、そのサイバーセキュリティ能力のため、一般提供する予定はありません。」4

この判断は際立っています。モデル企業は通常、能力を出荷しようと競争します。Anthropicは、公開されているどのシステムよりも脆弱性発見において明確に優れたモデルを構築した上で、審査を経たパートナーによる防御的利用に制限することを選んだのです。1億ドル相当の使用クレジットのコミットメントは、これがマーケティング上の演出ではないことを示しています。1

制限モデルには3つの段階があります。1 1. Project Glasswingパートナー(12組織):防御的セキュリティへの直接アクセス 2. より広いアクセス(合計40組織):監督付きデプロイメント 3. Cyber Verification Program(現在claude.com/form/cyber-use-caseで稼働中):認証されたセキュリティ専門家のための申請経路5

実践者にとって、標準のAPIとClaude Codeは、Mythosの脆弱性発見能力を公開しません。一般提供されている最強のモデルは現在Opus 4.7(2026年4月16日ローンチ)であり、Anthropicはこれを意図的にMythosよりサイバー能力を抑え、リアルタイムのサイバー セーフガードを搭載したものとして位置付けています。5 Mythosの実証された能力は、すでに4月16日のリリースに影響を与えています——Opus 4.7は、専用のサイバー セーフガードを備えたAnthropic初のポストGlasswingモデルなのです。

これが検証するもの

Project Glasswingは、実践者コミュニティが独自に構築したいくつかのパターンを検証しています。

実行スキャフォールドとしてのClaude Code。 Mythosは隔離されたコンテナ内でClaude Code経由で稼働します。1 実践者が日々のコーディングに使うのと同じエージェントのCLIが、フロンティアセキュリティ研究の実行レイヤーとして機能しているのです。Claude Codeが提供するフックスキルサンドボックス化は、利便性のための機能ではありません。自律的セキュリティスキャンを十分に安全にデプロイできるようにするインフラなのです。

検証のボトルネックはオーケストレーションの問題である。 Carlini氏の講演は、人間による検証をボトルネックとして特定しました。Project Glasswingの解決策は、検証のためのプロのセキュリティ契約者、責任ある開示のためのSHA-3ハッシュコミットメント、そして構造化されたトリアージのインフラです。1 同じトリアージの問題はエージェントが脆弱性を発見したときでも浮上しており、解決策はモデルの能力ではなくインフラにあります。

ガバナンスフックはスキャン能力より重要である。 モデルは脆弱性を発見できます。難しい問題は、開示をコントロールし、アクセスを管理し、発見が攻撃者より先に防御側に届くようにすることなのです。Anthropicの答えは組織的なものです(モデルを制限し、パートナーを審査し、リソースをコミットする)。自身のセキュリティスキャンを構築する実践者にとっては、出力をゲートするガバナンスフックが同等のものとなります。

実践者にとっての意味

Mythosへのアクセスは得られないでしょう。手元にあるもので何ができるかを以下に示します。

Opus 4.6はすでに有能です。 Carlini氏の[un]promptedでの結果(カーネルバグ5件、Firefox CVE 22件)は、MythosではなくOpus 4.6を使用したものでした。3 キャプチャー・ザ・フラッグの手法、ASAN計装済みビルド、ファイル反復スクリプトはすべて、一般提供されているモデルで再現可能です。

トリアージレイヤーを今から構築してください。 将来のOpusモデルがMythosの能力の一部を受け継いだ場合(Anthropicがほのめかしているように)、ボトルネックはCarlini氏が特定したものと同じ——人間による検証——になります。自動重複排除、深刻度分類、開示ワークフローを準備しているチームが最初に恩恵を受けるでしょう。

Cyber Verification Programに申請してください。 申請フォームはclaude.com/form/cyber-use-caseで稼働しています。正当なセキュリティ研究を行っているのであれば、これが昇格されたアクセスへの経路となります。

軌跡は明確です。AI支援の脆弱性発見は現実であり、スケールし、そして今やガバナンスの問いが中心的な問題となっています。モデルの能力は解決されました。発見、トリアージ、責任ある開示をオーケストレーションするスキャフォールドは、まだ解決されていないのです。


情報源

よくある質問

Claude Codeを通じてClaude Mythosを使えますか?

いいえ。Mythos PreviewはProject Glasswingパートナーに制限されています。Opus 4.7(2026年4月16日)は、一般ユーザーがClaude Code経由で利用できる最強のモデルです。Anthropicは、MythosはどのGAモデルよりもサイバー能力が高いままだと述べています。

MythosのケイパビリティはOpusに来ますか?

Opus 4.7はAnthropic初のポストGlasswing Opusリリースであり、リアルタイム サイバー セーフガードを搭載して出荷されています。このパターンは、将来のOpusモデルがMythosの全能力エンベロープではなく、追加のセーフガードを帯びることを示唆しています。Anthropicの当初の発表では、「将来のClaude Opusモデルにおける新しいセーフガードを通じて、より安全なデプロイメントを可能にする」ことを目指すと述べていました。

これは以前の脆弱性のブログ記事とどう関係しますか?

Carlini氏の[un]prompted講演(エージェントが脆弱性を発見したときで取り上げています)ではOpus 4.6を使用し、カーネルバグ5件 + Firefox CVE 22件を発見しました。Mythosはそのアプローチを、主要なすべてのプラットフォーム横断で数千の脆弱性へとスケールさせました。手法は同じで、モデルがより高性能なのです。


  1. Claude Mythos Preview — Project Glasswing. Anthropic、2026年4月7日。公式発表。深刻度が高い/致命的なゼロデイが数千件発見された。プロの検証者による深刻度確認率は89%。1億ドルの使用クレジット。Nicholas Carlini氏が率い、21名以上の共著者。 

  2. Anthropic’s Project Glasswing. Simon Willison、2026年4月7日。制限付きリリースモデルとCarlini氏の以前の業績に関する分析と文脈。 

  3. Nicholas Carlini, “Black-hat LLMs,” [un]prompted AIセキュリティカンファレンス、2026年4月。カンファレンスアジェンダ。関連:AI Finds Vulns You Can’t、Security Cryptography Whateverポッドキャスト。 

  4. Anthropic says its most powerful AI cyber model is too dangerous to release publicly. VentureBeat、2026年4月7日。 

  5. 公開後のアップデート(2026年4月19日)。 AnthropicのIntroducing Claude Opus 4.7発表(2026年4月16日)は、Opus 4.7をGAフラッグシップとして位置付けつつ、Mythos Previewが引き続きよりサイバー能力が高いことを明記しています。リアルタイム サイバー セーフガードの詳細はAnthropic Support: Real-time cyber safeguards on Claudeにあります。Cyber Verification Programの申請フォームはclaude.com/form/cyber-use-caseで稼働中。 

  6. Claude Code CHANGELOG. v2.1.111はOpus 4.7ローンチサポート(xhighエフォート、フラグなしのMax向けAuto Mode)を追加。v2.1.113はsandbox.network.deniedDomains、ラッパーコマンドの拒否ルール、find -exec/-deleteの権限強化、macOS /private/{etc,var,tmp,home}削除保護を追加。 

関連記事

MCP Servers Are the New Attack Surface

50 MCP vulnerabilities, 30 CVEs in 60 days, 13 critical. Tool-use protocols are the attack surface nobody is auditing — …

8 分で読める

The Ralph Loop: How I Run Autonomous AI Agents Overnight

I built an autonomous agent system with stop hooks, spawn budgets, and filesystem memory. Here are the failures and what…

11 分で読める