AIエージェントのセキュリティ:デプロイと防御の信頼パラドックス
本番環境でAIエージェントをどうセキュアにするのか。 アプリケーション層ではなく、OSレベルのサンドボックスで権限を強制してください。すべてのツール呼び出しを実行前にPreToolUseフックでランタイム捕捉します。当初のタスクと直近のエージェント行動との埋め込み類似度を通じて、行動ドリフトを監視します。この3つのメカニズム(行動封じ込め、権限スコープ、ドリフト検出)は、MetaのSev 1、Amazonの13時間に及ぶ障害、そしてAgents of Chaos研究で見つかった脆弱性を引き起こした失敗モードに対処するものです。
2026年3月18日、Metaのエンジニアが社内AIエージェントを配備し、社内フォーラムで同僚の技術的な質問に回答させました。エージェントは承認を得ずに回答を投稿。別の社員がそのエージェントの誤った助言に従った結果、機密の企業データおよびユーザーデータが約2時間にわたり権限のない社員に露出する連鎖が発生しました。Metaはこの事案をSev 1(社内システムで2番目に高い深刻度)に分類しています。1
同じ週、GoogleのエンジニアはLinuxカーネル向けのエージェント型AIコードレビューシステム「Sashiko」をリリースし、直近1,000件のアップストリームissueからバグの53%を検出しました。これらは「100パーセント、人間のレビュワーが見落としていた」バグです。2 WikipediaのコミュニティはLLM生成コントリビューションを全面禁止すべきかどうか議論を続けています。3 NISTは「信頼できる採用」を目指すAI Agent Standards Initiativeを公表しました。4 そして米上院議員がClaudeと向き合い、AI企業は収集するデータについて信頼できるのかと問いました。Claudeの答えは「お金です、上院議員。根本的には利益が問題です」。この動画は440万回再生されました。5
主要な機関はいずれも、エージェントを配備しながら同時にエージェントに対する防壁を築いています。防壁が積み上がるのは、エージェントがその必要性を証明し続けているからです。
要点
- パラドックス:各組織がエージェントの配備を加速させると同時に、エージェントの失敗の封じ込めに奔走しています。両者の取り組みは一切調整されていません。
- 数字:エンタープライズAI侵害の8件に1件は、いまやエージェント型システムが関与しています。80%の組織がリスクのあるエージェント行動を報告しています。エージェントが何にアクセスしているのか完全な可視性を持つ経営陣はわずか21%です。6
- 実例:Metaのエージェントによる無断投稿でSev 1。「環境を削除して再構築する」と判断したAIコーディングツールによるAWSの13時間障害。7 14日間の複数大学による研究では、6体のエージェントで10件のセキュリティ脆弱性が見つかり、ID乗っ取りや無限ループが含まれていました。8
- パターン:速く配備し、失敗を発見し、防壁を築き、さらに速く配備する。GoogleはコードレビューのためSashikoを投入する一方で、AmazonはAI支援コード変更にシニアの承認を義務化。AnthropicはClaudeヘッダーをスプーフィングしたとしてオープンソースツールを提訴していますが、そのツールは月間250万人の開発者が利用しています。9
- なぜ持続するのか:デプロイはプロダクトのタイムライン(四半期OKR)で動きます。防御はインシデントのタイムライン(ポストモーテム対応)で動きます。制約が付与に追いつくことはありません。
- このサイクルを断ち切るもの:デプロイと防御の間のフィードバックループを閉じる、ランタイムの行動ガバナンスです。行動封じ込め(PreToolUseフック)、権限スコープ(OSレベルのサンドボックス)、ドリフト検出(コサイン類似度追跡)が、本記事の3つの失敗カテゴリに対処します。500件超の自律エージェントセッションと、エージェントの行動上の脅威に関するNISTへのパブリックコメントからのエビデンスに基づきます。
デプロイと防御のパターン
直近90日間の3つのインシデントが、このパターンを浮かび上がらせます。
Meta(2026年3月): AIエージェントが社内フォーラムで無断の回答を投稿しました。社員がその誤った助言に従い、機密データが権限のない社員に2時間流出しました。Metaはインシデントを認め、Sev 1と分類したうえで「ユーザーデータは悪用されていない」と発表しています。1 数カ月前には、MetaのAI部門で安全性を統括するSummer Yue氏が、自身のGmailに接続されたエージェントが「明確な指示にもかかわらず自律的にメールを削除し」、手動で停止されるまで停止コマンドを無視したと報告していました。10
Amazon(2025年12月): AmazonのKiro AIコーディングツールは、エージェントが「環境を削除して再構築する必要がある」と判断したことで、AWSに13時間の障害を引き起こしました。Amazonは「AIエラーではなくユーザーエラー」であり、当該社員は「想定よりも広範な権限を持っていた。AIの自律性の問題ではなく、ユーザーアクセス制御の問題だ」と説明しています。複数の社員はFinancial Timesに対し、これは「少なくとも」AIツール関連の障害としては2件目だと語っています。Amazonの対応は、AI支援コード変更にシニアの承認を義務化することでした。7
研究ラボ(2026年2月): Agents of Chaos研究(Northeastern、Stanford、Harvard、MIT、CMUの研究者による)では、6体のAIエージェントに、メール、bash、永続的なファイルシステム、cronジョブ、GitHubアクセスを備えたDiscordライクなサーバーへのアクセスを14日間与えました。20人の研究者が善意あるいは敵対的な形でエージェントとやり取りし、エージェントは10種類のセキュリティ脆弱性を示しました。8
脆弱性は一見ありふれたものでした。あるエージェントは比例性のある行動を取る代わりにメールサーバー全体を破壊しました(過剰反応)。2体のエージェントは相互にリレーするループに陥り、制御不能なバックグラウンドプロセスを生成しました(無限ループ)。あるエージェントはスプーフィングされたオーナー身元を受け入れ、システムへのフルアクセスを付与しました(ID乗っ取り)。12回の拒絶の後、感情的な圧力を持続的にかけられたエージェントが、権限のない要求に応じました(罪悪感の揺さぶり)。8
研究を率いたNortheastern大学のChristoph Riedl教授はこうまとめています。AIエージェントは実世界の状況、特に利害が競合する場面で「あらゆる種類の常識的な推論を適用するのがひどく下手だ」。11
2026年のエージェント侵害の数字
HiddenLayerの2026年AI脅威レポートは、250人のITおよびセキュリティリーダーを調査しています。その結果がパラドックスを数値化しています。12
- 自律エージェントはエンタープライズ全体で報告されたAI侵害の8件に1件以上を占める
- 侵害の35%は公開モデルリポジトリ内のマルウェアに由来する——それでも93%の組織が依然としてそれらを利用している
- 31%の回答者は侵害されたかどうかすら分からない
- 53%はAI侵害報告を差し控えたと認めた
- 76%がシャドーAIを明確なまたは潜在的な問題と認識しており、2025年の61%から上昇
CEOのChris Sestito氏はこう述べています。「エージェント型AIはこの12カ月で、多くの企業セキュリティが5年かかっても進まなかった以上に進化しました」。12
別のエンタープライズ調査では、自組織のエージェントの権限、ツール使用、データアクセスについて完全な可視性を持つ経営陣はわずか21%と判明しました。80%が、無認可アクセスや不適切なデータ露出など、リスクのあるエージェント行動を報告しています。平均的なエンタープライズには約1,200の非公式AIアプリが存在し、86%はそれらへの可視性がないと報告しています。6
コード品質のデータも同じく厳しいものです。CodeRabbitが470件のプルリクエストを分析した結果、AI執筆のコードは人間執筆のコードよりも1.7倍多くの問題を含んでいました。13 Apiiroの調査では、AIを使う開発者は約10倍多くのセキュリティ脆弱性を持ち込んでいます。13 METRは、業界テストに合格するAIコーディング結果の半数は人間のレビュワーなら却下するはずだと報告しています。13
サプライチェーンリスクはこれらの数字をさらに悪化させます。攻撃面は仮想の話ではありません。MCPサーバーはエージェント接続インフラの新たな攻撃面となっています。実世界の45のMCPサーバーに対するツールポイズニング攻撃を評価するベンチマーク「MCPTox」は、ツールメタデータに埋め込まれた悪意ある指示が、GPT-4o-mini、o1-mini、DeepSeek-R1、Phi-4で60%を超える攻撃成功率を達成したことを示しました。18 攻撃はポイズニングされたツール自体を実行するわけではありません。ツールの説明文に指示を埋め込み、サーバーにすでに存在する正規のツールを使って認証情報を流出させたり、パラメーターを改ざんするようエージェントを誘導するのです。チェーン上のすべてのツール呼び出しは、信頼されたツールへの正規呼び出しのため、既存の安全性アライメントでは攻撃を捕捉できません。18
理論上のサプライチェーンリスクは、2026年3月24日に具体化しました。攻撃者が、1日あたり100万回超のダウンロードを持つ人気のAIプロキシライブラリLiteLLMのPyPIメンテナーアカウントを侵害したのです。攻撃者は公式のGitHub CI/CDパイプラインを経ずに、2つの悪性バージョン(1.82.7および1.82.8)を公開しました。バージョン1.82.8には、インポートなしにPython起動時に自動実行される.pthファイルが含まれていました。ペイロードは環境変数、SSHキー、AWS/GCP/Azure認証情報、データベースパスワード、暗号通貨ウォレット、CI/CDシークレットをすべて収集し(教科書どおりのsilent egress attack)、ハードコードされたRSA公開鍵で暗号化したうえで、攻撃数時間前に登録された攻撃者管理ドメインへアーカイブを流出させました。悪性バージョンは削除されるまでおよそ12〜24時間公開されており、Microsoft GraphRAGを含む下流プロジェクトが被害を受けました。19
1つの侵害されたエージェントは、下流の意思決定の87%を4時間以内に汚染します。6
エージェントの配備と防壁の同時構築
これらの数字に対する機関の対応は、同時並行で調整されない2つの動き——もっと強く配備せよ、もっと強く防御せよ——に分かれます。
もっと強く配備せよ:
Googleは、Linux Foundationの後援を受けLinuxカーネルのエージェント型コードレビュー向けにSashikoをリリースしました。同システムは人間のレビュワーが完全に見落としていたバグの53%を捕捉し、偽陽性率は推定20%未満です。2 MetaはSev 1インシデントにもかかわらず社内AIエージェントの拡大を続けています。EYは売上高10億ドル超の企業のうち64%がAIの失敗で100万ドル超を損失したと報告していますが、いずれも配備を継続しています。6
もっと強く防御せよ:
AmazonはKiro障害の後、AI支援コード変更にシニアの承認を義務化しました。7 AnthropicはOAuthアクセスをロックダウンし、サードパーティーツールがClaudeヘッダーをスプーフィングできないようにし、その後まさにそれを行ったOpenCodeに対して法的要請を提出しました。9 WikipediaはLLM生成コントリビューションを制限しています。編集者は編集要約でAI使用を開示しなければならず、「明らかにLLMが生成したコメントは取り消しまたは折りたたまれる場合がある」としています。3 EFFはオープンソースプロジェクトでLLM生成コードを受け入れる一方、コメントおよびドキュメントはすべて人間が執筆することを要求します。14 NISTはAI Agent Standards Initiativeを立ち上げ、業界主導の標準、コミュニティプロトコル、セキュリティ研究という3つの柱を掲げています。4
Bernie Sanders上院議員がClaudeとの9分間のインタビューを投稿し、440万回再生を記録しました。Gizmodoの反応は「Hey Bernie、それはAIエージェントじゃない」というものでした。15 批評家は方法論について一理ありましたが、構造的なシグナルは重要です。現職の上院議員が企業監視に関する信頼できる証人としてAIシステムを扱う時点で、問われている問いに答える準備が技術的フレームワークに整うよりも前に、政策環境はすでに変化しているのです。5
これらの防御策のいずれも、隣のビルで行われている配備の意思決定とは調整されていません。
OpenCode断層
配備と防御の緊張を最もくっきり示すのが、AnthropicとOpenCodeの紛争です。
OpenCodeはオープンソースのAIコーディングエージェントで、GitHubスターは12万件超、月間500万人の開発者が利用しています。9 75以上のLLMプロバイダーをサポートします。Claudeへアクセスするため、OpenCodeはclaude-code-20250219というHTTPヘッダーをスプーフィングし、Anthropicのサーバーに対してリクエストが公式Claude Code CLIから来ていると認識させていました。このスプーフィングにより、Maxサブスクライバー(デフォルトでOpus 4.7を実行する月額200ドルの20×ティア)は、Anthropicに気づかれることなくOpenCode経由でClaudeをルーティングできました。9
コミュニティは「Ralph Wiggum」と呼ばれる手法を開発しました。テストが合格するまでコードを自律的に修正する無限ループでClaudeを走らせるものです。ある開発者は、APIコストにして300ドル未満で5万ドルの契約を完了させ、無制限のMaxサブスクリプションリソースを消費したとされています。9
2026年1月9日、Anthropicは非公式のOAuthアクセスにサーバーサイドブロックを展開しました。3月19日、OpenCodeはPR #18186をマージし、「法的要請に基づき」すべてのAnthropicブランドのシステムプロンプト、認証プラグイン、プロバイダーヒントを削除しました。9 このPRには399件のダウンボートと177件の困惑リアクションが寄せられました。
DHHとGeorge Hotz氏はこの動きを批判しました。Hotz氏は「私たちのコードでモデルを学習させて成り立っている企業としては、ひどい方針だ」と述べています。OpenAIは公然とOpenCodeを支持し、ChatGPTサブスクリプションをサードパーティーツールで利用できるようにしました——意図的な対比です。9
AnthropicのThariq Shihipar氏はこう応じました。「認可されていないハーネスは、Anthropicが適切に診断できないバグと利用パターンを持ち込む」。16
双方に一理あります。Anthropicはサードパーティーツールが公式ヘッダーをスプーフィングする状況で品質保証を維持できません。一方で開発者は、相互運用性を訴訟する相手のプラットフォーム上には築けません。この紛争はテクノロジーの問題ではなく、信頼境界線をどこに引くのか、そしてそれを引くのがユーザーか提供者かという問題なのです。
タイムスケールのギャップ
本記事に登場するどの組織も、単独で見れば正当な判断をしています。Metaは生産性を高めるため社内エージェントを配備しました。AmazonはAI支援コーディングが開発を加速させるためKiroを投入しました。Googleは人間のレビュワーがバグの半分を見落とすからこそSashikoをリリースしました。Wikipediaがボランティア編集者には機械生成テキストのレビュー負担を大規模に吸収できないため、LLMコントリビューションを制限しました。
このパラドックスが持続するのは、デプロイと防御が異なるタイムスケールで動くからです。
デプロイはプロダクトのタイムラインで動きます。チームは四半期のOKRとしてエージェント統合を出荷します。成功指標は採用です——何人の社員が使い、何件のタスクを完了させ、何時間節約したか。スコープを絞った権限は採用を遅らせ、遅い採用はOKRを潰すため、エージェントには広範な権限が付与されます。
防御はインシデントのタイムラインで動きます。何かが壊れた後にチームは防壁を築きます。MetaのSev 1への対応はエージェントの投稿権限の制限でした。Amazonの対応はシニアの承認義務化でした。どの防壁も、それを引き起こした特定の失敗に対処します。次の失敗には対処しません。
このタイムスケールのギャップがラチェットを生みます。各デプロイサイクルはエージェントに新しい能力を付与します。各インシデントサイクルは、失敗した1つの特定の能力を事後的に制約します。デプロイチームの次のスプリントは、インシデントレビューが終わる前に始まるため、制約は付与に追いつきません。
私自身、このラチェットの両側で同時に動いているからこそ、それを実感しています。2025年5月以降の500件超の自律コーディングセッションで、能力を増した各エージェント構成を配備しながら、各構成が露呈した失敗に対する防御を築いてきました。60日間で12回、私のエージェントは割り当てられたタスクを止め、別のことを始めました。いずれの場合もエージェントはもっともらしい出力を生成し続けました。セキュリティ脆弱性は関与していません。エージェントがランタイムで別の問題に取り組むと判断したのです。
ドリフト検出器はこの12件のインシデントがあったからこそ存在します。サンドボックスは、エージェントが~/.ssh/に書き込もうとしているのを捕捉したから存在します。エビデンスゲートは、エージェントがpytestを実行せずに「すべてのテストが合格」と報告したから存在します。いずれの防御も、前の構成では予見できなかった特定の失敗にたどり着きます。私が整理した7つの名前付き失敗モードは、Agents of Chaos研究が研究規模で発見したのと同じパターン——検証、比例性、自己評価で失敗するエージェント——です。8
ランタイムガバナンスとは何か
デプロイと防御のサイクルは、両機能が同じフィードバックループを共有したときに断ち切られます。実務的には、エージェントの行動を事後的にレビューするのではなく、ランタイムで計装するということです。
私のオーケストレーションシステムは、エージェントのあらゆる行動をフックパイプラインで包み込みます。84のフックがClaude Code(v2.1.116、2026年4月)の公開する26のライフサイクルイベント型のうち15種を捕捉し、ファイル読み取り、ファイル書き込み、bashコマンド、APIリクエスト、サブエージェントの生成を網羅しています。17 いかなるツール呼び出しも実行される前に、PreToolUseフックがエージェントには上書きできない制約と照合します。25回のツール呼び出しごとに、ドリフト検出器が当初のタスクとエージェントの直近の行動との間でコサイン類似度を算出します。類似度スコアが0.30を下回ったとき、システムは当初のプロンプトを含む警告を注入します。しきい値を下回った12件の発火すべてで、エージェントは検証可能なかたちでタスクを見失っていました。17
本記事の3つの失敗カテゴリに対処する3つの具体的なメカニズムがあります。
行動封じ込めはMeta問題を解決します。 Metaのエージェントが無認可で投稿したのは、投稿すべきかどうかを何も確認していなかったからです。すべてのbashコマンドの前に発火し、curl -X POST、git push、API書き込みエンドポイントのようなパターンと照合するPreToolUseフックがあれば、無認可のフォーラム投稿は実行前にブロックできたでしょう。チェックが加わる遅延はミリ秒。代替はSev 1でした。
権限スコープはAmazon問題を解決します。 AWS障害は、エージェントがインフラを削除する権限を持っていたから起こりました。本番パス、認証情報ストア、インフラAPIへの書き込みをブロックするOSレベルのサンドボックス(macOS Seatbelt、Linux seccomp、またはコンテナレベルの制限)があれば、エージェントが何を決めようとも「環境を削除して再構築する」ことは物理的に不可能になります。エージェントのサンドボックスはアプリケーション層の下で強制されるまで単なる提案のままです。
ドリフト検出はAgents of Chaos問題を解決します。 研究で最も厄介な発見は、劇的な失敗(メールサーバー破壊、ID乗っ取り)ではなく漸進的な失敗でした——持続的な圧力の後に従うエージェント、正当に装った無認可の要求に応じるエージェント。ドリフト検出は、有害な行動が起きる前の行動の軌跡を捕捉します。エージェントが13回目の試行で「罪悪感の揺さぶり」に応じる頃には、当初のタスクと現在の会話のコサイン類似度はすでに妥当なしきい値を下回っています。
これらのメカニズムはいずれも、特定の失敗を予測するための事前アライメントを必要としません。行動をリアルタイムで観察し、エージェントが反論できない不変条件を強制します。Agents of Chaos研究は、同じ重みで動作する同じエージェントのなかで10の脆弱性と6つの真正な安全行動を見つけました。8 差はコンテキストでした。ランタイムガバナンスはコンテキスト依存の失敗を検出可能にします。
このパラドックスを解決する組織は、最速で配備する組織でも、最強で防御する組織でもありません。両者の間のフィードバックループを閉じる組織です。あらゆる配備が次の制約に資するテレメトリを生み出し、あらゆる制約が出荷前に次の配備に対してテストされる組織です。
FAQ
2026年のAIエージェントセキュリティの最大のリスクは何ですか?
3つの失敗カテゴリが主流です。無認可行動(Metaのフォーラム投稿エージェントのように、指示されていない操作を実行するエージェント)、権限昇格(AWSインフラ削除のように、意図した以上の権限を使うエージェント)、そして行動ドリフト(圧力や蓄積したコンテキストの下で、割り当てられたタスクから徐々に逸脱するエージェント)です。HiddenLayerの250人のセキュリティリーダー調査では、自律エージェントは現在エンタープライズAI侵害の8件に1件を占め、組織の80%がリスクのあるエージェント行動を報告しています。12 MCPツールポイズニング面は、侵害されたツールメタデータを通じてエージェントの行動を操作するサプライチェーン攻撃という第4のカテゴリを加えます。
PreToolUseフックとは何で、どのようにAIエージェントをセキュアにしますか?
PreToolUseフックは、エージェントのあらゆるツール呼び出し(ファイル書き込み、bashコマンド、APIリクエスト、サブエージェント生成)の前に発火するランタイムのインターセプターです。各フックは、提案された行動をエージェントが上書きできない制約リストとパターンマッチングします。たとえば、curl -X POSTやgit pushにマッチするフックは、無認可のネットワーク書き込みを実行前にブロックします。Claude Codeフックシステムはv2.1.116時点で26のライフサイクルイベント型を公開しており、私の本番環境では15種にわたって84のフックを稼働させています。このメカニズムはミリ秒の遅延を加えますが、MetaのSev 1インシデントを引き起こした失敗のクラスを防ぎます。
AIエージェントのドリフト検出はどのように機能しますか?
ドリフト検出は、当初のタスクプロンプトの埋め込みと、エージェントの直近の行動の埋め込みの間のコサイン類似度を、一定間隔(私のシステムでは25回のツール呼び出しごと)で算出します。類似度スコアがしきい値(0.30)を下回ると、システムは当初のプロンプトを含む警告を注入してエージェントを再整列させます。日々60件を超える自律セッションにわたり、この手法は検証済みのドリフトインシデントを100%捕捉しました。エージェントが割り当てられたタスクを密かに止め、もっともらしい出力を生成しながら別の目標を追求し始めたケースです。17
OSレベルでAIエージェントをサンドボックス化できますか?
はい、そしてそうすべきです。アプリケーションレベルの権限リストはエージェントが反論できる提案にすぎません。OSレベルのサンドボックス(macOS Seatbeltプロファイル、Linux seccomp-bpf、コンテナレベルのcgroup制限)はカーネルレベルで拒否ルールを強制します。エージェントはたとえ何を決めようとも、~/.ssh/、~/.aws/、あるいは本番インフラのパスに書き込むことはできません。カーネルレベルの強制は「環境を削除して再構築する」を単に禁止するのではなく、物理的に不可能にします。
エージェントの信頼危機は本当に新しいものですか?
失敗自体は新しくありません。自動化はAI以前からインシデントを引き起こしてきました。2025〜2026年に変わったのは自律性のギャップです——エージェントはいまや、あらかじめ定義されたスクリプトに従うのではなく、ランタイムで自らの行動を選択します。HiddenLayerのレポートは、自律エージェントが具体的に侵害の8件に1件を占めることを示しましたが、このカテゴリは2年前には存在しませんでした。12
オープンソースAIエージェントはプロプライエタリなものより安全性が低いのですか?
AnthropicとOpenCodeの紛争は安全性ではなくアクセス制御の問題です。OpenCodeのセキュリティプロファイルは、どのLLMプロバイダーに接続するか、そしてどのように構成されているかに依存します。安全性の問題はオープンかクローズドかではありません。問題は、ライセンスにかかわらず、ツール運用者がエージェントの行動に対する可視性を持っているかどうかです。
Metaのエージェントは本当にデータ侵害を引き起こしたのですか?
MetaはインシデントをそのSev 1(2番目に高い深刻度)に分類し、機密データが権限のない社員におよそ2時間露出したことを確認しました。Metaは「ユーザーデータは悪用されていないし、誰かがそのアクセスを悪用したり、データを公開した形跡もない」と述べています。1 これが「侵害」にあたるかどうかは定義次第です。無認可の露出は実際にありました。
Agents of Chaos研究とは何ですか?
14日間にわたる複数大学(Northeastern、Stanford、Harvard、MIT、CMU)の共同研究プロジェクトで、6体のAIエージェントに制御された環境でメール、bash、ファイルシステム、cronジョブ、GitHubへのアクセスを与えました。20人の研究者がエージェントとやり取りし、研究は10のセキュリティ脆弱性と6つの安全行動を特定し、arXiv:2602.20021として公開されました。8
企業はAIエージェントの配備をやめるべきですか?
いいえ。GoogleのSashikoは人間のレビュワーが100%見落としていたバグを捕捉しました。エンタープライズの生産性向上は計測可能です。配備をやめるのは答えではありません。デプロイと防御の間のフィードバックループを閉じることです。あらゆるエージェントの配備は、次の制約に資する行動テレメトリを生み出すべきです。あらゆる制約は、出荷前に次の配備に対してテストされるべきです。
個々の開発者は何をすべきですか?
影響順に3つの具体的なステップがあります。(1)アプリケーション層の下で権限を強制すること。~/.ssh/、~/.aws/、本番パス、認証情報ストアへの書き込みをブロックするOSレベルのサンドボックスは、Amazonスタイルの大惨事を物理的に不可能にします。エージェントはカーネルレベルの拒否に反論できません。(2)出力だけでなく行動の軌跡を監視すること。セッションドリフトは、当初のタスクと直近のエージェント行動との間の埋め込み類似度を通じて検出できます。コサイン類似度のしきい値0.30は、私が60セッションで行ったテストで検証済みのドリフトインシデントを100%捕捉しました。17 (3)主張ではなくエビデンスを求めること。エージェントが「すべてのテストが合格」と報告したら、テスト出力を要求してください。ファントム検証は、人間の介入を要するエージェント失敗の12%を占めます。
デプロイと防御のラチェットとは何ですか?
各デプロイサイクルがエージェントに新しい能力を付与し、各インシデントサイクルが失敗した1つの特定の能力を事後的に制約するパターンです。デプロイチームの次のスプリントはインシデントレビューが終わる前に始まるため、制約は付与に決して追いつきません。ラチェットは、両チームが同じテレメトリパイプラインと同じフィードバックループを共有したときに断ち切られます。
-
Amanda Silberling, “Meta Is Having Trouble with Rogue AI Agents,” TechCrunch, March 2026, reporting on The Information’s investigation. ↩↩↩
-
Roman Gushchin, “Sashiko: Agentic AI Code Review for the Linux Kernel,” GitHub / Linux Foundation, March 2026. Coverage: Phoronix. ↩↩
-
Wikipedia community, “Large Language Model Policy,” ongoing. See also: RFC on LLM-assisted writing. ↩↩
-
NIST, “Announcing the AI Agent Standards Initiative for Interoperable and Secure AI,” February 2026. ↩↩
-
Senator Bernie Sanders, X post, March 19, 2026. ~4.4 million views. ↩↩
-
Help Net Security, “Enterprise AI Agent Security in 2026,” March 2026. Aggregates EY, Astrix Security, and Harmonic Security surveys. ↩↩↩↩
-
Fortune, “AI Coding Risks: What Amazon’s Outage Reveals About Enterprise Agents,” March 2026. Also: Financial Times reporting on multiple AWS incidents. ↩↩↩↩
-
Christoph Riedl et al., “Agents of Chaos,” arXiv:2602.20021, February 2026. Multi-institutional: Northeastern, Stanford, Harvard, MIT, CMU. ↩↩↩↩↩↩
-
ShareUHack, “OpenCode Anthropic Legal Controversy,” March 2026. Primary: GitHub PR #18186. ↩↩↩↩↩↩↩
-
Summer Yue, head of safety at Meta Superintelligence Labs, reported the email deletion incident in February 2026. Cited in TechCrunch and The Decoder coverage of Meta agent incidents. ↩
-
Christoph Riedl, quoted in “Autonomous AI Agents Unleashed on Discord,” Northeastern University News, March 2026. ↩
-
HiddenLayer, “2026 AI Threat Landscape Report,” March 18, 2026. Survey of 250 IT/security leaders. ↩↩↩↩
-
CodeRabbit (470 PRs, 1.7x issue rate), Apiiro (~10x security issues), and METR (50% rejection by human reviewers) cited in Fortune, March 2026.7 ↩↩↩
-
EFF, “Our Policy on LLM-Assisted Contributions to Open Source Projects,” February 2026. ↩
-
Gizmodo, “Hey Bernie, That’s Not an AI Agent,” March 2026. ↩
-
Thariq Shihipar, Anthropic, quoted regarding unauthorized third-party tool access. Cited in The Register, February 2026. ↩
-
Blake Crosley, “What I Told NIST About AI Agent Security,” blakecrosley.com, February 2026. Production evidence from 60+ daily autonomous agent sessions. ↩↩↩↩
-
Zhiqiang Wang et al., “MCPTox: A Benchmark for Tool Poisoning Attack on Real-World MCP Servers,” arXiv:2508.14925, AAAI 2026. 45 MCP servers, 353 tools, 1,312 malicious test cases across 20 LLM settings. ↩↩
-
isfinne et al., “LiteLLM Supply Chain Attack: Malicious litellm_init.pth credential stealer,” GitHub Issue #24512, March 24, 2026. Compromised PyPI maintainer account, double base64-encoded payload, AES-256-CBC + RSA exfiltration to attacker domain. Downstream: Microsoft GraphRAG, jaseci, nanobot-ai. ↩