← すべての記事

サイバーセキュリティはプルーフ・オブ・ワークである

From the guide: Claude Code Comprehensive Guide

英国AI安全研究所(UK AI Security Institute)が、サイバーセキュリティタスクにおけるClaude Mythos Previewの独立評価を公開しました。1 注目すべき数字は、Mythosが32ステップの企業ネットワーク攻撃シミュレーションを10回中3回完遂したという事実です。フルチェーンを解決したモデルは他にありません。翌日、Drew Breunigがその経済的帰結を発表しました。各試行にかかったトークンコストは約12,500ドルです。2 この2つの分析を合わせると、サイバーセキュリティは「スキルの問題」から「計算資源の問題」へと再定義されます。

この示唆は居心地の悪いものです。システムを防御するには、攻撃者が悪用に費やすトークンよりも多くのトークンを脆弱性発見に費やす必要があるのです。2 セキュリティは常に非対称でした——攻撃者は1つの経路を見つければよく、防御者はすべてを塞がなければなりません。AIエージェントはこの非対称性を維持しつつ、軸を移動させます。希少な資源はもはや専門知識ではなく、計算予算となりました。

AISIが実際に測定したもの

評価には、キャプチャー・ザ・フラッグ(CTF)チャレンジとサイバーレンジシミュレーションという2つのテスト手法が使用されました。1

重要なサイバーレンジは「The Last Ones」(TLO)——32ステップの企業ネットワーク攻撃をシミュレートするものです。人間が完遂するには推定20時間が必要とされます。1 Mythosは10回の試行のうち3回でフルチェーンを完遂しました。全10回の平均では、32ステップ中22ステップを達成しています。比較として、Claude Opus 4.6は同じレンジで平均16ステップでした。1

エキスパートレベルのCTFタスクでは、Mythosの成功率は73%でした。1

トークン予算も重要な意味を持ちます。AISIは非エキスパートCTFで最大250万トークン、エキスパートCTFで5,000万トークン、サイバーレンジシミュレーションで1億トークンまでの範囲でテストを行いました。1 評価報告書には「テストしたトークン予算の範囲全体にわたり、トークン予算の増加に伴いモデルは進歩を続けている」と明記されており、AISIはテストした1億トークンの上限を「超えても性能向上が続く」と予測しています。1

トークンが増えれば、進歩も増える。プラトーは観測されていません。

AISIは発見の範囲を慎重に限定しています。サイバーレンジにはアクティブな防御者、防御ツール、アラート発動に対するペナルティがありませんでした。1 この評価は「防御が脆弱で脆弱性のある企業システム」に対するものであり、SOCやIDSを備えた堅牢な本番環境に対するものではありません。また、Mythosは運用技術(OT)に焦点を当てた「Cooling Tower」レンジでは失敗しています。1

これらの注意事項は重要です。しかし、軌道はそれ以上に重要です。以前のモデルはこれらのレンジでフルチェーンを完遂できませんでした。1 今や1つのモデルが32ステップの企業侵入を10回中3回完遂し、性能曲線は計算資源に比例して上向きに曲がっています。問いは「AIが企業ネットワークに侵入できるか」ではありません。「成功率が自動化の経済的合理性を超えるのはいつか」なのです。

経済学:1回あたり12,500ドル

Breunigの分析は、AISIの発見をドルに換算します。2 1回あたり1億トークンで、TLOにおけるMythosの単一実行コストは約12,500ドル。10回の試行で125,000ドルです。2

この数字は単独では大きく聞こえます。しかし、32ステップの企業ネットワーク侵害が防御側にもたらすコストと比較すれば、小さな数字でしょう。モデルは30%の成功率をそのコストの何分の一かで達成し、オンデマンドで実行でき、予算に応じて成功率は向上します。同じ攻撃チェーンを10回ではなく100回実行すれば、成功した侵入の期待値は3回から30回へと跳ね上がります——トークンコストは約125万ドルで10倍の成果です。個人の研究者にとっては高額でも、国家レベルのアクターにとっては誤差の範囲内です。

Breunigの核心的主張はこうです。「システムを堅牢にするには、攻撃者が悪用に費やすトークンよりも多くのトークンを脆弱性発見に費やす必要がある」2 セキュリティはトークン予算レースとなります。Breunigの枠組みでは、防御者は自動化されたエクスプロイト発見において攻撃者を上回る支出をしなければ、デフォルトで負けることになります。

彼は3フェーズモデルを提案しています。開発(Development)、レビュー(Review)、そしてハードニング(Hardening)です。2 開発ではシステムを構築し、レビューで既知のバグクラスを検出し、ハードニングが新たなフェーズ——予算を使い果たすまで自律的なエクスプロイト発見を継続的に実行します。システムのセキュリティは、デプロイ前にチームがそのシステムを破壊しようとして燃やしたトークン量の関数となるのです。

「賢さでポイントは稼げない」とBreunigは書いています。「勝つのは、より多く支払った側だ」2

Linusの法則にトークンの次元が加わる

Breunigは「十分な数の目があれば、どんなバグも浅い」というLinusの法則を拡張し、トークンの概念を含めます。2 十分な自動レビューサイクルと十分な計算予算があれば、人間のレビューが数十年見逃してきた脆弱性が表面化するでしょう。

証拠はこの拡張を裏付けています。When Your Agent Finds a Vulnerabilityで取り上げたAnthropicのCarliniの研究では、10行のbashスクリプトとClaude Codeを使って23年間潜んでいたLinuxカーネルの脆弱性を発見しました。Project Glasswingでは、Mythosを使ってこのアプローチを拡大し、主要なオペレーティングシステムとブラウザ全体で数千のゼロデイを発見しています。AISIの評価は、この能力の独立した確認を提供するものです。

Simon Willisonが注目すべき見解を加えています。AIによるセキュリティレビューはオープンソースライブラリの価値を高めるというのです。なぜなら、セキュリティ確保に費やされたトークンがすべてのユーザーに集合的に恩恵をもたらすからです。3 プロプライエタリコードは独自のセキュリティコストを負担しますが、オープンソースコードはそのコストをユーザーベース全体で分散させます。

Breunigは、レビュー1件あたり15〜20ドルというAnthropicのコードレビュー製品を現在の価格設定の一つのデータポイントとして参照しています。2 また、依存関係セキュリティの文脈でLiteLLMとAxiosのサプライチェーンインシデントにも言及しており、自動レビューの必要性を裏付ける脆弱性の例として挙げています。2

公式はこう結晶化します。「コードは安価なままだ——セキュアである必要がない限り」2 本番システムのコードの各行には暗黙のセキュリティ負債が伴います。この負債は以前、セキュリティチームの給与と、手動レビューが重大なバグを検出するだろうという確率的な希望の中に隠れていました。トークンベースのセキュリティは、このコストを明示的かつ測定可能にします。

注意事項が実際に意味すること

AISIの注意事項は、却下ではなく慎重な読解に値します。

アクティブな防御者の不在は、計算を大きく変えます。監視もアラートもインシデント対応もないシステムに対する32ステップの攻撃チェーンは、スタッフが常駐するSOCに対する同じチェーンとは根本的に異なる問題です。実際の企業ネットワークにはEDR、ネットワークセグメンテーション、異常検知、人間のアナリストが存在します。自動化された攻撃者が発するすべてのアラートは、防御側が対応する機会となります。

ノイズに対するペナルティがないことは、人間の攻撃者なら避けるようなブルートフォースアプローチをモデルが試行できることを意味します。1時間に何百ものIDSアラートを発する実際の攻撃者は調査対象となるでしょう。AISIのレンジはそのフィードバックループをモデル化していません。実際のネットワークでは、ノイズは攻撃者にとってコストです。ステルスは探索空間を制約します。その制約を取り除けば、問題は厳密に容易になります。

Cooling Towerの失敗も示唆に富んでいます。MythosはIT中心のTLOレンジを解決しましたが、運用技術レンジでは失敗しました。1 OT環境には異なるプロトコル、異なる制約、異なる障害モードがあります。AISIによれば、モデルはそのレンジのIT部分で行き詰まったため、OT固有の能力の低さを必ずしも示すものではありません——ただし、モデルの能力がドメイン間で均一でないことは明らかです。ITネットワーク侵入と産業制御システム攻撃は異なる問題であり、この評価からOTに対する準備状況を結論づけるには注意が必要です。

しかし、注意事項にも有効期限があります。トークン予算はスケールし、モデルの能力は評価と評価の間に向上します。防御されていないネットワークに対する30%の成功率は下限であり、上限ではありません。AISI自身、テストした予算を超えても性能が向上すると予測しています。1 レンジにアクティブな防御がなかったことを理由に発見を否定する防御者は、推論のためのムーアの法則に逆らう賭けをしていることになります。

実務者への運用上の示唆

本番環境でAIエージェントを運用している方々へ——私自身、Ralph Loopを通じて夜間に自律エージェントを実行し、95のフックをセキュリティインフラとして運用しています——プルーフ・オブ・ワークのフレーミングは防御の考え方を根本から変えます。

セキュリティフックは最低限の支出であり、十分な支出ではありません。 私の95のフックはエージェントの行動をゲートします。強制プッシュのブロック、認証情報の検証、サンドボックスの強制などです。これらのフックは自分自身のエージェントによる損害を防ぎますが、それらのエージェントが操作するシステムを1億トークンかけて探索する外部攻撃者には何の効果もありません。フックインフラは必要条件ですが十分条件ではないのです。

自動化された攻撃的テストが必須となります。 Breunigの3フェーズモデル——開発、レビュー、ハードニング——は、すべてのデプロイメントパイプラインに、出荷前にAIエージェントがシステムの破壊を試みる敵対的フェーズが必要であることを示唆しています。チェックボックス式の侵入テストではありません。トークン予算を使い切る演習です。予算が尽きるまで自動化されたエクスプロイト発見を実行し、発見された問題を修正し、繰り返す。

Ralph Loopにセキュリティの系として新たな意味が加わります。 パフォーマンスの文脈で反復的なセキュリティ劣化について書きました——すべてのテストに合格しながら446倍の速度低下を引き起こすエージェントの話です。同じパターンがセキュリティにも当てはまります。正しく、機能的で、十分にテストされたコードを書くエージェントが、敵対的な自動レビュー下でのみ表面化する微妙な脆弱性を導入する可能性があるのです。解決策は同じで、欠けているゲートを追加することです。パフォーマンスベンチマークがパフォーマンスの退行を検出するように、自動化されたレッドチーミングがセキュリティの退行を検出します。

オープンソースの依存関係にもトークン予算が必要です。 集合的な恩恵に関するWillisonの観察は、依存関係管理に直接適用できます。本番スタックのすべてのオープンソースライブラリは、誰かから自動セキュリティレビューを受けているか、受けていないかのどちらかです。Breunigは依存関係セキュリティの文脈でLiteLLMとAxiosのサプライチェーンインシデントに言及しています——広く使用されているライブラリに脆弱性が残存していた事例です。2 実務者は依存関係ツリーを新たな問いで評価すべきです。このライブラリのセキュリティに誰がトークンを費やしているのか?

居心地の悪い計算

プルーフ・オブ・ワークのフレーミングは、専門知識ベースのモデルでは決してできなかった形で、セキュリティ経済学を明示的にします。旧来のモデルでは、セキュリティの品質は誰を雇い、その人物がどれほど熟練しているかの関数でした。新しいモデルでは、セキュリティの品質は自分のシステムを破壊しようとして費やすトークン量の関数です。

人材は依然として重要です——結果の解釈、修正の優先順位付け、アーキテクチャ上の意思決定には人間が必要です。しかし、脆弱性が発見される発見フェーズは、ますます計算の問題となっています。そして計算の問題には既知の性質があります。より大きな予算を持つ主体が勝つのです。

暗号通貨のプルーフ・オブ・ワークとの類似は、不完全ではありますが示唆に富んでいます。ビットコインのマイナーはチェーンを保護するために電力を消費します。防御者はシステムを保護するためにトークンを消費します。どちらの場合も、セキュリティの保証は費やされた計算資源に比例します。どちらの場合も、より大きな予算を持つ攻撃者は防御を圧倒できます。違いは、ビットコインのマイニング難易度は自動的に調整されますが、セキュリティのトークン予算には「どれだけで十分か」についての人間の判断が必要だという点です。

十分な資金を持つ組織にとって、進むべき道は明確です。デプロイメントパイプラインに自律的なエクスプロイト発見を追加する。システムのリスクプロファイルに比例したトークン予算を設定する。予算を使い切る。発見された問題を修正する。出荷する。

それ以外のすべての組織にとって、道はより居心地の悪いものです。攻撃者が攻撃に費やすよりも多くのトークンを防御に費やす余裕がなければ、共有インフラに頼る必要があります——オープンソースのセキュリティレビュー、ベンダー提供のスキャン、集団防御です。セキュリティ版の集団免疫と言えるでしょう。そして集団免疫と同様に、十分な参加者が貢献して初めて機能します。オープンソースのセキュリティレビューにトークンを還元せずにフリーライドする戦略は、機能しなくなるまでは機能します。

AISIの評価は、AIエージェントが企業ネットワーク攻撃を完遂できることを示しました。Breunigは防御が支出の問題であると主張しています。Willisonは防御者が持つ唯一の構造的優位性を特定しました——共有インフラがコストをすべてのユーザーに分散させることです。

すべての実務者への問いは、プルーフ・オブ・ワークシステムが常に問うてきたものと同じです。どれだけの計算資源を燃やす覚悟がありますか?


引用

関連記事

MCP Servers Are the New Attack Surface

50 MCP vulnerabilities. 30 CVEs in 60 days. 13 critical. The attack surface nobody is auditing.

8 分で読める

The Ralph Loop: How I Run Autonomous AI Agents Overnight

I built an autonomous agent system with stop hooks, spawn budgets, and filesystem memory. Here are the failures and what…

8 分で読める