← すべての記事

サイバーセキュリティはプルーフ・オブ・ワークである:1回12,500ドルのAI攻撃

From the guide: Claude Code Comprehensive Guide

サイバーセキュリティは、スキルの問題ではなくコンピュートの問題になりつつあります。英国AISIの評価で、Claude Mythosが32ステップの企業ネットワーク攻撃シミュレーションを10回中3回、1回あたり12,500ドルで完遂しました。Drew Breunigの論点はこうです。防御側が自動化されたエクスプロイト発見において攻撃者を上回る支出をしなければ、デフォルトで負けるということです。

英国AI Security Instituteが、Claude Mythos Previewのサイバーセキュリティタスクに関する独立評価を公開しました。1 見出しとなる数字は、Mythosが32ステップの企業ネットワーク攻撃シミュレーションを10回中3回で完遂したというものです。フルチェーンを解決したモデルは他にありません。その翌日、Drew Breunigが経済的な帰結を発表しました。それぞれの試行にかかるコストはおよそ12,500ドルのトークン代です。2 この2つの分析を合わせると、サイバーセキュリティはスキルの問題からコンピュートの問題へと再定義されます。

その示唆は居心地の悪いものです。Breunigの枠組みでは、システムの防御には、攻撃者がエクスプロイトに費やすよりも多くのトークンを脆弱性発見に費やす必要があります。2 セキュリティは常に非対称でした。攻撃者は1つの経路さえ見つければよく、防御者はすべてを塞がなければなりません。AIエージェントはこの非対称性を維持しつつ、軸を移動させます。希少な資源はもはや専門知識ではありません。希少な資源はコンピュート予算なのです。

AISIが実際に測定したもの

評価では2つのテスト手法が使われました。キャプチャー・ザ・フラッグ(CTF)チャレンジとサイバーレンジシミュレーションです。1

重要なサイバーレンジは「The Last Ones」(TLO)と呼ばれ、32ステップの企業ネットワーク攻撃をシミュレートします。人間が完遂するには推定20時間が必要です。1 Mythosは10回中3回でフルチェーンを完遂しました。全10回の平均では、32ステップ中22ステップを完了しています。比較として、Claude Opus 4.6は同じレンジで平均16ステップでした。1

エキスパートレベルのCTFタスクでは、Mythosの成功率は73%でした。1

トークン予算もそれ自体が物語を語っています。AISIは非エキスパートCTFで最大250万トークン、エキスパートCTFで5,000万トークン、サイバーレンジシミュレーションで1億トークンの範囲でテストしました。1 評価報告書は「テストしたトークン予算の範囲全体で、モデルは予算の増加に伴い進歩を続けている」と明記し、AISIはテストした1億トークンの上限を超えても「性能向上が続く」と見込んでいます。1

トークンが増えれば、進歩も増える。プラトーは観測されていません。

AISIは発見の範囲を慎重に限定しました。サイバーレンジにはアクティブな防御者、防御ツール、アラートトリガー時のペナルティがありませんでした。1 この評価は「防御が弱く脆弱なエンタープライズシステム」に適用されるものであり、SOCやIDSを備えた堅牢な本番環境には適用されません。Mythosはオペレーショナルテクノロジーに焦点を当てた「Cooling Tower」レンジでも失敗しています。1

これらの注意点は重要です。しかし、トレンドの方がより重要です。以前のモデルはこれらのレンジでフルチェーンを完遂できませんでした。1 今や1つのモデルが32ステップの企業侵入を10回中3回で完遂し、性能曲線はコンピュートに応じて上向きに曲がっています。問題は、AIが防御の弱い脆弱なシステムに侵入できるかどうかではありません(AISIがそれを実証しました)。問題は、堅牢な環境に対する成功率が、自動化が経済的に合理的になる閾値をいつ超えるかです。

経済学:1回あたり12,500ドル

BreunigはAISIの発見をドルに換算する分析を行いました。2 1回1億トークンで、TLOに対するMythosの1回の実行コストは約12,500ドルです。TLO10回の試行で125,000ドルになります。2

これらの数字は単独では大きく聞こえます。しかし、32ステップの企業ネットワーク侵害が防御側にもたらすコストと比較すると、小さく見えます。モデルは30%の成功率をコストのわずかな割合で達成し、オンデマンドで実行でき、予算に応じて成功率が向上します。同じ攻撃チェーンを10回ではなく100回実行すると(静的なターゲットに対する独立かつ同一構成の試行を仮定した場合)、成功回数の期待値は3から30に跳ね上がり、トークン代は約125万ドルです。個人の研究者にとっては高額ですが、国家レベルのアクターにとっては誤差の範囲でしょう。

Breunigの核心的な論点は次の通りです。「システムを堅牢にするには、攻撃者がエクスプロイトに費やすよりも多くのトークンを脆弱性発見に費やす必要がある。」2 セキュリティはトークン予算の競争になります。防御者が自動化されたエクスプロイト発見で攻撃者を上回る支出をしなければ、デフォルトで負けるとBreunigは主張しています。

彼は3フェーズモデルを提案しています。Development(開発)、Review(レビュー)、Hardening(堅牢化)です。2 Developmentでシステムを構築し、Reviewで既知のバグクラスを検出します。Hardeningが新しいフェーズで、チームが予算を使い切るまで自律的なエクスプロイト発見を継続的に実行します。システムのセキュリティは、デプロイ前にチームがシステムを破壊しようとして費やすトークン量の関数となるのです。

「賢さでポイントは稼げない」とBreunigは書いています。「勝つには、より多く支払うことだ。」2

Linusの法則にトークンの次元が加わる

Breunigは「十分な目があれば、どんなバグも浅い」というLinusの法則をトークンにまで拡張しています。2 十分なコンピュート予算で十分な自動化レビューサイクルを回せば、人間のレビューが数十年にわたって見落としてきた脆弱性が浮上するのです。

この拡張を裏付ける証拠があります。When Your Agent Finds a Vulnerabilityで記録されているように、AnthropicでのCarliniの研究では、10行のbashスクリプトとClaude Codeを使って23年間見つからなかったLinuxカーネルの脆弱性が発見されたと報告されています。4 Project Glasswingで記録されているように、AnthropicはMythosでそのアプローチをスケールさせ、主要なオペレーティングシステムやブラウザ全体で数千のゼロデイを発見したと説明しています。5 AISIの評価は、その基盤となる能力の独立した確認を提供するものです。

Simon Willisonは注目すべき観察を加えています。AI駆動のセキュリティレビューはオープンソースライブラリの価値を高めます。なぜなら、セキュリティ確保に費やされたトークンが、すべてのユーザーに集合的に恩恵をもたらすからです。3 プロプライエタリなコードは自前でセキュリティコストを負担しなければなりませんが、オープンソースのコードはユーザーベース全体にわたってそのコストを分散できます。

BreunigはAnthropicのコードレビュー製品(1レビューあたり15〜20ドル)を現在の価格の一つのデータポイントとして参照しています。2 また、依存関係セキュリティの文脈でLiteLLMやAxiosのサプライチェーンインシデントも引用しており、自動化されたレビューの必要性を裏付けるサプライチェーン脆弱性の例としています。2

公式はこう結晶化します。「コードは安いままだ。セキュアである必要がない限りは。」2 本番システムのすべてのコード行は、暗黙のセキュリティ負債を抱えています。この負債はこれまで、セキュリティチームの給与や、手動レビューが重大なバグを検出するだろうという確率的な希望の中に埋もれていました。トークンベースのセキュリティは、このコストを明示的かつ測定可能なものにします。

注意点が実際に意味すること

AISIの注意点は、慎重に読むべきものであって、却下すべきものではありません。

アクティブな防御者の不在は、計算を大きく変えます。監視も、アラートも、インシデント対応もないシステムに対する32ステップの攻撃チェーンは、人員を配置したSOCに対する同じチェーンとは根本的に異なる問題です。実際のエンタープライズネットワークにはEDR、ネットワークセグメンテーション、異常検知、そして人間のアナリストがいます。自動化された攻撃者がトリガーするすべてのアラートは、防御側が対応するチャンスとなります。

ノイズに対するペナルティがないということは、モデルが人間の攻撃者なら避けるようなブルートフォース的手法を試行できることを意味します。1時間に何百ものIDSアラートをトリガーした実際の攻撃者は調査されます。AISIのレンジはそのフィードバックループをモデル化していませんでした。実際のネットワークでは、ノイズは攻撃者にとってコストが高いのです。ステルス性が探索空間を制約します。その制約を取り除けば、問題は厳密に容易になります。

Cooling Towerの失敗も示唆的です。MythosはIT焦点のTLOレンジを解決しましたが、オペレーショナルテクノロジーのレンジでは失敗しました。1 OT環境には異なるプロトコル、異なる制約、異なる障害モードがあります。AISIはモデルがそのレンジのIT部分で行き詰まったと指摘しているため、この失敗は必ずしもOT固有の能力の低さを示すものではありませんが、モデルの能力がドメイン全体で均一でないことは明らかです。ITネットワーク侵入と産業制御システム攻撃は異なる問題であり、この評価からOTへの対応力について結論を導くには注意が必要です。

しかし、注意点にも有効期限があります。トークン予算はスケールします。モデルの能力は評価のたびに向上します。防御されていないネットワークに対する30%の成功率はフロアであって、シーリングではありません。AISI自身、テストした予算を超えても性能が向上すると予想しています。1 レンジにアクティブな防御がなかったことを理由に発見を却下する防御者は、推論スケーリングが自分たちの防御に到達する前にプラトーに達するという賭けをしていることになります。テストされた範囲内では、AISIのデータはその賭けを支持していません。

実務者への運用上の示唆

本番環境でAIエージェントを運用している者として(私はRalph Loopを通じて自律エージェントを夜間に稼働させ、セキュリティインフラとして95のフックを運用しています)、プルーフ・オブ・ワークの枠組みは防御の考え方を変えるものです。

セキュリティフックは最低限の支出であり、十分な支出ではありません。私の95のフックは、エージェントができることをゲートしています。フォースプッシュのブロック、認証情報の検証、サンドボックスの強制などです。これらのフックは自分自身のエージェントが損害を引き起こすことを防ぎます。しかし、それらのエージェントが操作するシステムを1億トークンかけてプロービングする外部の攻撃者に対しては何もしません。フックインフラは必要ですが、十分ではないのです。

自動化された攻撃的テストが必須になります。Breunigの3フェーズモデル(Development、Review、Hardening)は、すべてのデプロイメントパイプラインに、AIエージェントがシステムを出荷前に破壊しようと試みる敵対的フェーズが必要であることを示唆しています。チェックボックス式のペネトレーションテストではなく、トークン予算を使い切るエクササイズです。予算がなくなるまで自動化されたエクスプロイト発見を実行し、発見された問題を修正し、繰り返す。

Ralph Loopにセキュリティの系として対応が必要になります。反復的なセキュリティ劣化についてパフォーマンスの文脈で書いたことがあります。すべてのテストに合格しながら446倍のスローダウンを導入するエージェントの話です。同じパターンがセキュリティにも当てはまります。正しく、機能的で、十分にテストされたコードを書くエージェントが、敵対的な自動レビューでのみ表面化する微妙な脆弱性を導入する可能性があるのです。解決策は同じで、欠けているゲートを追加することです。パフォーマンスベンチマークがパフォーマンスの退行を検出するように、自動化されたレッドチーミングがセキュリティの退行を検出します。

オープンソースの依存関係にもトークン予算が必要です。Willisonの集合的利益に関する観察は、依存関係管理に直接適用されます。本番スタックのすべてのオープンソースライブラリは、誰かから自動化されたセキュリティレビューを受けているか、受けていないかのどちらかです。Breunigは依存関係セキュリティの文脈でLiteLLMやAxiosのサプライチェーンインシデントを引用しています。広く使用されているライブラリに脆弱性が残存していたケースです。2 実務者は依存関係ツリーを新しい問いで評価すべきです。このライブラリのセキュリティに誰がトークンを費やしているのか、と。

居心地の悪い数学

プルーフ・オブ・ワークの枠組みは、専門知識ベースのモデルでは決してなし得なかった形で、セキュリティ経済学を明示的にします。旧来のモデルでは、セキュリティの品質は誰を雇い、彼らがどれほど熟練しているかの関数でした。新しいモデルでは、セキュリティの品質は自分のシステムを破壊しようとして費やすトークン量の関数です。

人材は依然として重要です。結果を解釈し、修正の優先順位を決め、アーキテクチャの判断を下す人間が必要です。しかし、発見フェーズ、つまり自動化されたエージェントが脆弱性を表面化させる部分は、ますますコンピュートの問題になっています。AISIがテストした範囲内では、コンピュートの問題はより多く支出する意思のあるエンティティに有利に働きます。

暗号通貨のプルーフ・オブ・ワークとの類似は、不完全ではありますが、示唆に富んでいます。Bitcoinのマイナーはチェーンを保護するために電力を消費します。防御者はシステムを保護するためにトークンを消費します。いずれの場合も、セキュリティの保証は費やされたコンピュートに比例します。いずれの場合も、より多くのコンピュートを費やす意思のある攻撃者が優位に立ちます。違いは、Bitcoinのマイニング難易度は自動的に調整されるのに対し、セキュリティのトークン予算はどれだけが十分かについて人間の判断を必要とする点です。

資金が潤沢な組織にとって、前進の道は明確です。デプロイメントパイプラインに自律的なエクスプロイト発見を追加し、システムのリスクプロファイルに比例したトークン予算を設定し、予算を使い切り、発見された問題を修正し、出荷する。

それ以外の組織にとって、前進の道はより居心地の悪いものです。攻撃者が攻撃に費やす以上のトークンを防御に費やす余裕がなければ、共有インフラに頼る必要があります。オープンソースのセキュリティレビュー、ベンダー提供のスキャン、集団防御です。セキュリティ版の集団免疫と言えるでしょう。そして集団免疫と同様に、十分な参加者が貢献して初めて機能します。トークンを還元せずにオープンソースのセキュリティレビューにただ乗りする戦略は、機能しなくなるまでは機能するものです。

AISIの評価は、AIエージェントが企業ネットワーク攻撃を完遂できることを示しました。Breunigは防御が支出の問題だと主張しています。Willisonは防御者が持つ唯一の構造的優位性を特定しました。共有インフラがコストをすべてのユーザーに分散させるということです。

すべての実務者にとっての問いは、プルーフ・オブ・ワークシステムが常に問うてきたものと同じです。どれだけのコンピュートを費やす覚悟がありますか。


FAQ

「サイバーセキュリティはプルーフ・オブ・ワークである」とはどういう意味ですか?

このフレーズは、サイバーセキュリティをスキルの問題からコンピュートの問題へと再定義するものです。英国AISIの評価で、Claude Mythosが32ステップの企業ネットワーク攻撃を10回中3回、1回あたり約12,500ドルで完遂できることが示されました。システムの防御には、攻撃者がエクスプロイトに費やすよりも多くのトークンを脆弱性発見に費やす必要があります。セキュリティの品質は、デプロイ前に自分のシステムを破壊しようとして費やすトークン量の関数となります。

Claude Mythosのサイバーセキュリティタスクでの成績は?

Mythosは32ステップの「The Last Ones」企業ネットワーク攻撃シミュレーションを10回中3回で完遂し、全試行の平均では32ステップ中22ステップを完了しました。エキスパートレベルのキャプチャー・ザ・フラッグタスクでは73%の成功率でした。AISIは、テストした1億トークンの上限までプラトーは観測されず、トークン予算の増加に伴い性能が向上し続けていると指摘しています。

AISI評価の限界は何ですか?

サイバーレンジにはアクティブな防御者、防御ツール、アラートトリガー時のペナルティがありませんでした。この評価は「防御が弱く脆弱なエンタープライズシステム」に適用されるものであり、SOCやIDSを備えた堅牢な本番環境には適用されません。Mythosは「Cooling Tower」オペレーショナルテクノロジーレンジでも失敗しています。実際のエンタープライズネットワークにはEDR、ネットワークセグメンテーション、異常検知、そして人間のアナリストがあり、評価ではこれらをモデル化していませんでした。

これらの発見を受けて、実務者は何をすべきですか?

最低限のセキュリティレイヤーとしてPreToolUseフックを導入してください。トークン予算を使い切るエクササイズとして、デプロイメントパイプラインに自律的な攻撃的テストを追加してください。オープンソースの依存関係を新しい問いで評価してください。このライブラリのセキュリティに誰がトークンを費やしているのか、と。プルーフ・オブ・ワークの枠組みは、すべての本番システムにデプロイ前にAIエージェントが破壊を試みる敵対的フェーズが必要であることを意味しています。


Citations


  1. UK AI Security Institute, “Our Evaluation of Claude Mythos Preview’s Cyber Capabilities,” aisi.gov.uk, April 13, 2026. 

  2. Drew Breunig, “Cybersecurity Looks Like Proof of Work Now,” dbreunig.com, April 14, 2026. 

  3. Simon Willison, “Cybersecurity Looks Like Proof of Work Now,” simonwillison.net, April 14, 2026. 

  4. Nicholas Carlini, “An AI Found a Bug in My Code (That Humans Missed for 23 Years),” nicholas.carlini.com, 2026. As referenced in When Your Agent Finds a Vulnerability

  5. Anthropic, “Mythos Preview: Responsible Disclosure of Cyber Capabilities,” red.anthropic.com, 2026. As referenced in Project Glasswing

関連記事

リポジトリに自身の信頼性を投票させてはならない

37日間で2件発生したClaude Codeの信頼ダイアログバイパスCVEは、ロード順序の欠陥を露呈させました。これを修正する不変条件は1つだけです。パスが信頼されるまで、ワークスペースのバイトを一切解釈しないこと。

2 分で読める

MCP サーバーは新たな攻撃対象領域

50件のMCP脆弱性、60日間で30件のCVE、13件がクリティカル。ツール利用プロトコルは誰も監査していない攻撃対象領域です。その分類と対策をまとめました。

1 分で読める

Ralphループ:自律型AIエージェントを一晩中稼働させる方法

ストップフック、スポーンバジェット、ファイルシステムメモリを備えた自律エージェントシステムを構築しました。失敗から学んだことと、実際にコードをシップする仕組みを紹介します。

3 分で読める