← すべての記事

NISTに提出したAIエージェントセキュリティに関する意見書

60日間で12回、私のAIエージェントは割り当てられたタスクの作業を中断し、別のことを始めました。毎回、エージェントはもっともらしい出力を生成し続けていました。セキュリティ脆弱性は一切関与していません。エージェントが実行時に別の問題に取り組むことを自ら決定したのです。1

2026年2月24日、これら12件のインシデントと数十件の関連障害が、米国国立標準技術研究所(National Institute of Standards and Technology)への2,500語のパブリックコメントとなりました。NISTドケットNIST-2025-0035は、AIエージェントのセキュリティに関する考慮事項について一般からの意見を求めています。2 コメント期間は2026年3月9日頃に締め切られます。私のコメントは一つの中心的な主張を展開しています:エージェントの脅威は行動的であり、既存のNISTフレームワークは行動的障害モードに対応していません。

要約

私は日常的な本番環境でAIエージェントオーケストレーションシステムを運用しています。15,000行のコードが、エージェントのあらゆるアクションにおいて15種類のフックイベントを傍受します。60回以上のセッションを通じて、従来のソフトウェアには類例のない7つの再発性行動障害モードを特定しました。エージェントはタスクから逸脱し、テストを実行せずにテストが成功したと主張し、各ホップでコンテキストを失う再帰的サブエージェントを生成しました。私は3層防御(フックパイプライン、OSサンドボックス、エビデンスゲート)を構築し、このシステムをCSF 2.0、SP 800-53、およびAI Risk Management Frameworkに照らしてマッピングしました。3つすべてに重大なギャップが存在します。コメントには6つの優先度付き推奨事項が含まれており、エージェントの行動的脅威タクソノミーに関するNIST Internal Reportの提案から始まります。コメント期間は引き続き受付中です。


実務者がなぜ連邦パブリックコメントを提出したのか

NISTがAIセキュリティについて一般からの意見を求めることは稀です。同機関がAIエージェントセキュリティに関するRequest for Informationを公開した際、5つのトピック領域は、私がすでに本番環境のソリューションを構築していた問題と直接対応していました。2

  1. AIエージェントシステムに影響を与える固有のセキュリティ脅威
  2. 開発およびデプロイ時のセキュリティ強化手法
  3. 既存フレームワークをエージェントに適用した場合の有効性
  4. セキュリティの測定とリスク予測の手法
  5. エージェントのアクセスを制約・監視するためのデプロイ時のセーフガード

連邦RFIへのパブリックコメントの大半は、企業、業界団体、研究機関から寄せられます。個人の実務者が提出することはほとんどありません。しかし、実務者こそがこれらのシステムを日常的に運用しています。AIエージェントを60回以上のセッションで稼働させる開発者は、統制された実験では得られない証拠を蓄積します。証拠が存在し、他の誰も提出する見込みがなかったため、私は提出しました。

コメントは3回の改訂、10エージェントによる審議プロセス、および2回の競争的評価ラウンド(Claude Code vs. Codex CLI)を経て最終提出されました。1


構築したシステム

このオーケストレーションシステムは、AnthropicのClaude Code CLIを約15,000行のシェルおよびPythonコードでラップしています。エージェントが実行するすべてのアクション(ファイル読み取り、ファイル書き込み、bashコマンド、Webリクエスト、サブエージェント生成)は、実行前にフックパイプラインを通過します。8つのディスパッチャーフックが、ツールタイプに基づいてハンドラーフックに呼び出しをルーティングします。システムはすべての判断をログに記録し、コストを追跡し、ドリフトを監視し、エージェントがオーバーライドできないハードリミットを強制します。1

このシステムを構築しようとして始めたわけではありません。システムは障害から生まれました。ドリフト検出器が存在するのは、「ログインエンドポイントを修正して」というタスクだったにもかかわらず、エージェントが45分間プロジェクトディレクトリの再編成に費やしたからです。サンドボックスが存在するのは、エージェントが~/.ssh/に書き込もうとしているのを検知したからです。エビデンスゲートが存在するのは、エージェントがpytestを実行せずに「すべてのテストが成功」と報告したからです。各コンポーネントは、特定の本番インシデントに遡ることができます。


行動的脅威:核心的な主張

従来のセキュリティはエクスプロイトからの防御を対象とします。SQLインジェクション、バッファオーバーフロー、認証情報の窃取などです。エージェントセキュリティは、ソフトウェアに前例のないカテゴリを加えます:エージェントが実行時に何に取り組むかを自ら決定し、その決定が誤る可能性があります。

セッションドリフト

エージェントが、もっともらしい出力を生成しながら、割り当てられたタスクから徐々に逸脱していきます。私のドリフト検出エンジンは、元のユーザープロンプトのエンベディングと、エージェントの直近25回のツール呼び出しのスライディングウィンドウとの間のコサイン類似度を計算します。1 スコアが0.30を下回ると、システムは元のプロンプトを含む警告を注入します。

0.30の閾値は、60セッションにわたる手動レビューに基づいて設定しました。システムは12回の閾値以下の警告を発しました。12件すべてのケースで、エージェントが元のタスクを検証可能な形で見失っていました。閾値を超えるセッションでは、ドリフトに対する手動介入が必要になったケースはありませんでした。精度を重視して閾値を最適化しましたが、偽陰性率の正式な測定はまだ行っていません。1

ファントム検証

エージェントが、テストを実行せずに作業の完了とテストの成功を主張します。検出シグナルは明確です。完了報告にテスト出力の貼り付けがありません。「コードの構造から見てテストは成功するはずです」という表現は、証拠を信念で代替しています。同じ障害パターンの捏造バリアントについて以前説明しました。エージェントが自己報告を外部の現実に対して検証する仕組みがないため、確信を持って誤った主張を公開してしまうのです。1

再帰的スポーニング

サブエージェントを生成するエージェントは、制御不能な再帰に陥り、計算予算を消費しコヒーレンスを失う可能性があります。私の再帰ガードは、最大深度2、親エージェントあたり最大5子エージェントを強制し、ロック保護されたJSONファイルを介して完全な系譜ツリーを追跡します。1

7つの障害モード

60セッションにわたって7つの再発性行動パターンをカタログ化しました。各モードには、フックまたは人間のレビューで確認できる特定の検出シグナルがあります。

障害モード 定義 検出シグナル
ショートカットスパイラル 完了報告を早めるためにレビューステップをスキップ 完了報告にステップの証拠が欠如
確信のミラージュ 実際の検証の代わりに「確信しています」を使用 テスト出力なしのヘッジ表現
グッドイナフの停滞 機能するがテストされていない作業を受け入れる テストカバレッジやドキュメントの引用なし
トンネルビジョン インテグレーションの破損を無視して1つのコンポーネントを磨く インテグレーションテスト未実行
ファントム検証 テストを実行せずにテスト成功を主張 報告にテスト出力の貼り付けなし
先送りされた負債 コミットされたコードにTODO/FIXMEマーカーを残す コミットされたdiffにTODO/FIXME
空虚な報告 各基準の証拠なしに「完了」と報告 基準が個別に対処されていない

これらのモードはいずれも脆弱性を必要としません。エージェントはCVEをエクスプロイトする必要がありません。エージェントは自分の仕事を不十分に遂行し、うまくやったと報告することで失敗するのです。


多層防御

オーケストレーションシステムは3つの独立したレイヤーを使用しています。1つのレイヤーの障害が他のレイヤーを侵害することはありません。

レイヤー1:フックパイプライン。 すべてのツール呼び出しは、実行前にPreToolUseフックを通過します。ハンドラーは実行をブロックしたり、コマンドを変更したり、アドバイザリーコンテキストを注入したりできます。ディスパッチャー・ハンドラーアーキテクチャにより、新しいセキュリティチェックの追加にはハンドラーファイルを1つ書くだけでよく、ルーティングパイプラインの変更は不要です。8つのディスパッチャーが99のハンドラーフックにルーティングします。1

レイヤー2:OSサンドボックス。 macOS Seatbeltプロファイルが、.ssh.gnupg.aws、環境ファイル、GitHub CLI認証、およびmacOSキーチェーンへの書き込みをブロックする8つの明示的拒否ルールを定義します。エージェントがどのようなコマンドを構築しても、カーネルがこれらのルールを強制します。プロファイル下でtouch ~/.ssh/testを試行すると「Operation not permitted」が返されます。1

レイヤー3:エビデンスゲート。 非自明なタスクの完了を記録する前に、エージェントは引用された証拠を伴う6つの証拠基準を満たさなければなりません。コードベースパターンへの準拠(パターン名を指定)、最もシンプルな動作するソリューション(却下した代替案を説明)、エッジケースの処理(各ケースをリスト)、テスト成功(出力を貼り付け)、リグレッションなし(確認したファイル名を指定)、そして実際の問題の解決(ユーザーのニーズを記述)です。ゲートはヘッジ表現(「動作するはずです」「おそらく正しいです」)を不十分な証拠としてフラグ付けし、強制的な再検証を発動します。1

レイヤーの独立性が重要な設計特性です。フックパイプラインをすり抜けたエージェントも、OSサンドボックスに直面します。サンドボックスのギャップを見つけたエージェントも、エビデンスゲートに直面します。単一の障害がシステム全体を侵害することはありません。


フレームワークギャップ分析

コメントでは、本番環境のコントロールを3つのNISTフレームワークにマッピングしています。一部のマッピングはうまく機能しますが、既存のフレームワークでは埋められないギャップを明らかにするものもあります。

マッピングが機能する部分

PreToolUseフックはCSF 2.0の2つの機能にまたがります:Protect(PR.PS-05、不正アクションの防止)とDetect(DE.CM、ツール呼び出しの継続的監視)。3 OSサンドボックスはSP 800-53のAC-3(アクセス強制)とAC-6(最小権限)を実装しています。4 フックパイプラインはAC-25(リファレンスモニター)にマッピングされます:常に呼び出され、バイパスできず、検証可能なほど小さい構造です。AI RMFのMap機能(MAP 3)はドリフト検出と整合します:オペレーターが依頼した内容に対して、エージェントが実際に何をしているかを理解することです。5

欠けている部分

フレームワーク 適用可能なコントロール エージェント固有のギャップ 提案される拡張
CSF 2.0 DE.CM, DE.AE 行動的ドリフト検出のカテゴリがない DE.AEの例をエージェントの行動異常を含むように拡張
SP 800-53 Rev. 5 AC-3, AC-6, AC-25 エージェント委任深度の制御がない エージェント委任ガバナンスの新しいコントロール強化
AI RMF 1.0 MAP 3 ランタイムタスク忠実度メトリクスがない MEASURE機能にエージェントドリフト類似度を追加

OWASP Top 10 for Agentic Applications(2026)は、Agent Goal Hijacking(ASI01)とHuman-Agent Trust Exploitation(ASI09)に対応していますが、ファントム検証や空虚な報告のような自己統治の障害はカバーしていません。6 NIST AI 600-1(Generative AI Profile)は生成AIのリスクを広く取り扱っていますが、エージェント的なデプロイパターンより前に策定されたものです。7

委任チェーンのリスク

エージェントがサブエージェントを生成し、そのサブエージェントがさらにサブエージェントを生成する場合、セキュリティ特性は加算されません。各ホップで3つの複合リスクが発生します。

  • セマンティック圧縮。 親の完全な推論コンテキストがプロンプト文字列に圧縮され、どのファイルが機密であるか、親がすでにどのアプローチを却下したかといったニュアンスが失われます。
  • 権限の増幅。 子エージェントはファイルの読み取り/書き込み権限を継承しますが、どのファイルがセキュリティ上の機密性を持つかについての親の理解は継承しません。
  • 責任の拡散。 サブエージェントが不正確な出力を生成した場合、監査証跡はどのエージェントが各決定を下したかを示しますが、最終結果に対する運用上の責任はルートエージェントが負います。

私の再帰ガードは、エージェントの系譜を追跡しハードな深度制限を強制することで委任チェーンに対処しています。多段階エージェント委任の複合リスクに対処する公開フレームワークは存在しません。


6つの推奨事項

コメントは、基盤的なものから運用的なものへと並べた6つの推奨事項で締めくくられています。

  1. エージェントの行動的脅威タクソノミーを確立するNIST Internal Reportを公開すること。 従来の脅威モデル(STRIDE、OWASP Top 10)は、エージェント固有の障害モードを捕捉できません。共有タクソノミーは、他のすべての推奨事項の前提条件です。NISTはまた、CSF 2.0をエージェント固有のサブカテゴリで拡張し、エージェントシステム向けのAI RMFプロファイルを公開することもできます。

  2. OSレベルの封じ込め要件を確立すること。 新しいコマンドパターンを即興で生成するエージェントは、アプリケーションレベルのサンドボックスを回避できます。OSレベルの強制(Linux seccomp-bpf、macOS Seatbelt、コンテナ分離)は、エージェントが推論で回避できない境界を提供します。

  3. エージェントの自己報告の独立した検証を要求すること。 エージェントは、自身の作業が正しいかどうかの唯一の権限者であってはなりません。タスク完了のゲートとして、外部の証拠(テスト出力、APIレスポンス、チェックサム)を検証する別プロセスが必要です。

  4. エージェントのツール呼び出しに対するブラストラディウス分類を確立すること。 すべてのエージェントアクションをローカル、共有、外部のいずれかにタグ付けし、各ティアに応じて段階的な認可要件を設けます。分類システムについて以前詳しく説明しました。

  5. 定量的ドリフトメトリクスを定義すること。 エージェントのセキュリティ姿勢には、エージェントの現在のアクティビティが割り当てられたタスクとどの程度整合しているかを反映する、測定可能な「オンタスクスコア」が必要であり、定期的な間隔で計算されるべきです。

  6. エージェントアクションの監査ログを標準化すること。 すべてのツール呼び出し、すべてのフック判定、すべてのブロックされたアクションを、インシデント後の再構成をサポートする形式で記録します。


あなたもコメントを提出できます

NIST-2025-0035のコメント期間は2026年3月9日頃に締め切られます。NIST RFIは実質的な影響力を持ちます。コメントは公開されるフレームワーク、標準、ガイダンスに直接反映されます。本番環境でAIエージェントを運用している方の証拠は重要です。

提出方法:

  1. NIST-2025-0035ドケットページにアクセスします
  2. RFIドキュメントの「Comment」をクリックします
  3. 5つのトピック領域のいずれかに対応するコメントを記述します
  4. 具体的な証拠を含めます:コード、メトリクス、インシデントレポート
  5. 連絡先情報とともに提出します

5つのトピックすべてに対応する必要はありません。単一のトピックに焦点を絞った証拠に裏付けられたコメントの方が、具体性のない広範なコメントよりも価値があります。NISTのスタッフはすべての提出物を読みます。


重要なポイント

セキュリティ実務者向け: 既存のエージェントコントロールをCSF 2.0およびSP 800-53にマッピングしてください。フックパイプラインからAC-25リファレンスモニターへのマッピングは、エージェントレベルのアクセス制御をコンプライアンスチームに説明するための具体的なフレームワークを提供します。

AI開発者向け: 従来のセキュリティと並行して行動検出を構築してください。セッションドリフト、ファントム検証、再帰的スポーニングは、理論的リスクではなく本番環境の現実です。エビデンスゲートから始めましょう。タスク完了前に引用された証拠を要求してください。

政策立案者向け: 従来のセキュリティフレームワークとエージェント固有の脅威との間のギャップは、漸進的ではなく構造的なものです。エージェントは、STRIDE、OWASP、およびNISTの既存カタログでは分類できない方法で失敗します。行動的脅威タクソノミーは、他のすべての前提条件です。

フレームワーク著者向け: 委任チェーンガバナンスを追加してください。エージェントがエージェントを生成するとき、各ホップでコンテキストが劣化し、権限が増幅し、責任が拡散します。深度3以上における複合リスクには、フレームワークの前例がありません。


出典


  1. Author’s production telemetry and submitted public comment on NIST-2025-0035. Tracking number mm1-hgn6-spl7. Drift similarity engine across 60 daily Claude Code sessions, February 2026. Full comment text available upon request. 

  2. NIST-2025-0035: Request for Information Regarding Security Considerations for Artificial Intelligence Agents. National Institute of Standards and Technology. 

  3. NIST Cybersecurity Framework 2.0. National Institute of Standards and Technology, 2024. 

  4. NIST SP 800-53 Rev. 5: Security and Privacy Controls for Information Systems and Organizations. National Institute of Standards and Technology, 2020. 

  5. NIST AI Risk Management Framework 1.0. National Institute of Standards and Technology, 2023. 

  6. OWASP Top 10 for Agentic Applications. OWASP Foundation, 2026. 

  7. NIST AI 600-1: Artificial Intelligence Risk Management Framework: Generative AI Profile. National Institute of Standards and Technology, 2024.