AIエージェントの監視には実行時介入が必要です
2026年5月15日、Parand A. Alamdari、Toryn Q. Klassen、Sheila A. McIlraithは、AIガバナンスにはオフライン監査、オンラインの実行時監視、そして予測された違反が実際に起きる前に介入できる監視機構が必要だと主張する論文を発表しました。1
最後の「介入できる」という点が重要です。
失敗を記録するだけの監視は、事後検証には役立ちます。しかし、エージェントを一時停止し、ブロックし、封じ込め、あるいは別の方向へ導ける監視は、結果がまだ確定していないうちに実行そのものを変えます。
AIエージェントの監視には、実行時介入が必要です。 ログ、トレース、ダッシュボード、承認記録は、チームに証拠を与えます。実行時介入は、その証拠を、エージェントがまだ危険な行動を避けられる段階での判断へ変えるのです。
要約
AIエージェントの監視は、事後鑑識のように振る舞うと失敗します。本格的なエージェント実行基盤なら、進行中の軌跡を監視し、ポリシー違反や決定的な誤りを検知し、範囲を限定した介入を選べるべきです。続行、警告、一時停止、ブロック、封じ込め、復旧、エスカレーションといった判断です。
最近の研究も、複数の角度から同じ方向を示しています。形式手法の研究は、時相論理を実行時監視と介入型の監視機構に適用しています。1 AgentForesightは、軌跡が終わる前のオンライン監査として失敗検知を位置づけています。2 AgentTrustは、危険なツール呼び出しを実行前に捕捉し、構造化された判定を返します。3 AIRは、インシデント対応をエージェントのループ内に置き、システムが検知、封じ込め、復旧を行い、将来のガードレールを合成できるようにします。4
実務上の教訓は明確です。可観測性で止めてはいけません。観測結果に基づいて行動できる実行基盤を作る必要があります。
重要なポイント
エージェントプラットフォームチーム向け: - 監視をダッシュボードではなく、制御ループとして扱いましょう。 - エージェントが高リスクなツールに触れる前に、介入アクションを定義してください。
セキュリティチーム向け: - 事後レビューから、コミットポイントでのオンライン検知へ移行しましょう。 - すべての介入について、ルール、証拠、判断、結果を記録してください。
プロダクトチーム向け: - 介入イベントは、構造化されたレビュー対象として表示しましょう。 - なぜ実行が止まったのか、どの証拠が停止を引き起こしたのか、どの安全な選択肢が残っているのかをユーザーに見せてください。
運用担当者向け: - 後から被害を説明するだけのトレースより、挙動を変えられるトレースを信頼しましょう。 - 監視機構に問うべきなのは、前の失敗を再構成できるかだけではありません。次の悪い一手を止められるかです。
なぜAIエージェントの監視は遅すぎるのでしょうか?
多くの監視は、エージェントがすでに行動した後に始まります。
ログを見れば、エージェントがシェルコマンドを実行したことは分かります。トレースを見れば、Webページを取得した、MCPサーバーを呼び出した、ファイルを書いた、承認を求めた、といったことも分かります。ダッシュボードは、ネットワークポリシーがドメインをブロックしたことを示せます。これらの記録は重要です。しかし、それだけでは次の行動は自動的には変わりません。
OpenAIのCodex安全性記事は、適切な証拠基盤を説明しています。境界づけられた実行、管理された設定、ネットワークポリシー、承認、エージェントに直接対応したテレメトリです。Codexは、ユーザープロンプト、ツール承認判断、ツール実行結果、MCPサーバー利用、ネットワークプロキシの許可・拒否イベントをOpenTelemetryイベントとしてエクスポートできます。5 OpenAIはまた、Codexログをセキュリティトリアージ用エージェントと組み合わせ、疑わしいエンドポイントのアラート周辺にある元の依頼、ツール活動、承認、ツール結果、ネットワークポリシー判断をレビュー担当者が確認できるようにする方法も説明しています。5
この可視性は重要です。問題は、可視性に行動を変える仕組みがないときに生じます。
監視機構が、エージェントが信頼できないコンテンツを読んだ後、新しい外部ドメインへデータを送ろうとしていることを検知したなら、その一連の流れを記録するだけでは不十分です。実行を一時停止するか、リクエストをブロックすべきです。コーディングエージェントが失敗したマイグレーションを3回リトライし、その後さらに広範で破壊的なコマンドを提案したなら、実行基盤は最終レビューまで待つべきではありません。進行中の軌跡を中断すべきです。
AIエージェントの監視は、2つの問いに同時に答える必要があります。
| 問い | 弱い監視 | 強い監視 |
|---|---|---|
| 何が起きたのか? | 実行後にイベントを記録する。 | 実行中に型付きイベントを記録する。 |
| 次に何をすべきか? | 判断を後のレビューに委ねる。 | 続行、警告、一時停止、ブロック、封じ込め、復旧、エスカレーションを行う。 |
2つ目の問いが、監視を介入へ変えます。
新しい実行時研究は何を加えたのでしょうか?
新しい研究群は、この分野により明確な語彙を与えています。
形式手法の論文は、時間的に拡張された行動制約に焦点を当てています。孤立したイベントだけでなく、順序、距離、並びに意味があるルールです。著者らは、LLMを含むブラックボックスAIシステムのオフライン監査とオンライン監視のために、形式手法と機械学習を組み合わせています。1 さらに、実行時に予測された違反を先回りして防ぐ、または軽減する、予測型および介入型の監視機構も導入しています。1
AgentForesightは、エージェントの文脈で失敗パターンに名前を与えています。この論文によると、長期視野のマルチエージェントシステムでは、1つの決定的な誤りを受け入れた後、軌跡全体の失敗へ連鎖することがあります。2 AgentForesightは、軌跡が終わった後に責任のあるステップを診断するのではなく、オンライン監査担当に現在の接頭辞だけを確認させ、続行するか、最初の決定的な誤りで警報を出すかを判断させます。2
AgentTrustは、ツール呼び出しの境界で動作します。エージェントのツール呼び出しを実行前に捕捉し、allow、warn、block、reviewという構造化された判定を返します。3 この形が重要なのは、ファイル操作、シェルコマンド、HTTPリクエスト、データベースクエリが現実の副作用を生むからです。3
AIRは、インシデント対応の層を追加します。この論文は、エージェント安全性の取り組みが、事前に失敗を防ぐことへ偏りがちで、インシデント発生後に対応、封じ込め、復旧する能力が限られていると指摘しています。4 AIRは、インシデント対応をエージェント実行ループに組み込みます。インシデントを検知し、封じ込めと復旧の行動を導き、将来の実行に向けたガードレールルールを合成します。4
まとめると、これらの論文は重心を次のように移しています。
| 古い重心 | 新しい重心 |
|---|---|
| 最終回答は正しく見えたか? | 進行中の軌跡は制約内に収まっていたか? |
| ログは失敗を説明したか? | 監視機構はコミットポイントの前に介入したか? |
| ベンチマークは完了済みタスクを採点したか? | 実行基盤は決定的な誤りを早期に捕捉したか? |
| 安全性プロンプトはモデルに警告したか? | ポリシー層は次に許可される行動を変えたか? |
この変化は、現実のエージェント作業に合っています。副作用は最終回答ではなく、実行中に起きるからです。
実行時介入とは何でしょうか?
実行時介入とは、ライブ証拠がポリシー、安全性、品質、リスクのしきい値を超えたために、システムが行う範囲限定の行動です。
介入は、パニックより狭く、ログ記録より強いものであるべきです。
| 介入 | 使う場面 |
|---|---|
| 続行 | イベントがポリシーと想定計画の範囲内にある。 |
| 警告 | イベントが通常と異なるが、取り返しがつく。 |
| 一時停止 | 次のステップに人間またはポリシーのレビューが必要。 |
| ブロック | 行動が強制ルールに違反している。 |
| 封じ込め | 権限を減らしたサンドボックスまたは能力セット内でのみ続行できる。 |
| 復旧 | 既知の補償経路をシステムが実行する。 |
| エスカレーション | セキュリティ、プロダクト、ドメインのレビューが必要。 |
良い介入は、モデルを叱りません。実行状態を変えます。
介入は、構造化された記録を生むべきです。
| フィールド | 必要な証拠 |
|---|---|
| 実行 | エージェント実行ID、タスク、フェーズ、所有者。 |
| イベント | ツール呼び出し、ネットワークリクエスト、ファイル書き込み、承認依頼、出力主張。 |
| ルール | 発火したポリシーまたは時間的制約。 |
| 証拠 | トレース断片、引数、対象リソース、先行イベント、リスク区分。 |
| 判断 | 続行、警告、一時停止、ブロック、封じ込め、復旧、エスカレーション。 |
| 次に許可される行動 | 判断後にエージェントが行ってよいこと。 |
| 人間の対応経路 | 誰がレビュー、上書き、またはインシデント終了をできるか。 |
| 結果 | 介入が防止、遅延、修復に役立ったか、または役立たなかったか。 |
別のレビュー担当者がイベントを確認し、なぜ実行基盤が進路を変えたのかを理解できるとき、監視機構は信頼を得ます。
なぜ時間的制約が重要なのでしょうか?
多くのエージェント失敗は、順序に依存します。
「テストなしで公開してはいけない」は、1つのコマンドの性質ではありません。公開アクションと、その前に存在する証拠との関係です。「信頼できないコンテンツを読んだ後に外部ネットワーク通信を送ってはいけない」は、順序に依存します。「失敗したマイグレーションの後に本番へ書き込んではいけない」は、前の失敗状態に依存します。「ソース検証が失敗した後にデプロイを承認してはいけない」は、承認イベントと検証イベントの両方に依存します。
Linear Temporal Logicは、before、after、until、eventually、neverといった時間上の制約を表現する手段を研究者に与えます。5月15日の形式手法論文は、LTLベースの監査・監視技術が、時間的に拡張された行動制約の違反検知において、LLMのベースライン手法を上回ったと報告しています。1 著者らはまた、この手法では小規模モデルのラベラーでさえ最先端のLLMジャッジと同等またはそれ以上の結果を示し、イベント間の距離、制約数、命題数が増えるにつれてLLMの時間的推論が劣化したとも報告しています。1
とはいえ、本番運用上の教訓は、すべてのチームが明日から完全な形式手法スタックを出荷しなければならない、というものではありません。
より直接的な教訓はシンプルです。順序を理解するルールを書きましょう。
| 時間的ルール | 実行時の意味 |
|---|---|
| レビューまでは、信頼できない取得後の外部書き込みを禁止 | 信頼できないコンテンツが文脈に入った場合、外部送信の前に一時停止する。 |
| テストとレンダリング確認が通るまでデプロイ禁止 | 証拠イベントが欠けている場合、デプロイをブロックする。 |
| 修復失敗が続いた後の破壊的コマンドを禁止 | 復旧がエスカレーションに変わった時点で一時停止する。 |
| スコープ変更後の承認の持ち越しを禁止 | 対象、ツール、リスク区分が変わったら許可を失効させる。 |
| 必須証拠がないまま完了を禁止 | 証明が存在するまで最終回答を止める。 |
これらの制約は、次のステップを判断できるだけの履歴を実行基盤に記憶させます。状態を持たないプロンプトだけでは、これを安定して行うことはできません。
実行時監視はどこに置くべきでしょうか?
実行時監視は、コミットポイントに置くべきです。
コミットポイントとは、エージェントが可逆的な分析から外部への効果へ踏み出す瞬間です。ファイル変更、データベース書き込み、ネットワーク送信、デプロイ、メッセージ送信、権限変更、支払い、削除、公開リリースなどが該当します。
OpenAIのCodex cloudドキュメントは、具体的な境界を1つ示しています。Codexはデフォルトでエージェントフェーズ中のインターネットアクセスをブロックしますが、セットアップスクリプトは依存関係取得のためにインターネットアクセスを使えます。6 同じドキュメントは、エージェントのインターネットアクセスを有効にすると、信頼できないWebコンテンツからのプロンプトインジェクション、コードや秘密情報の流出、マルウェアまたは脆弱な依存関係、ライセンス制限付きコンテンツなどのリスクが増えると警告しています。6 また、ドメインとHTTPメソッドの制限も推奨しており、GET、HEAD、OPTIONSにリクエストを限定すると追加の保護になるとしています。6
このポリシーの形は、ネットワークアクセス以外にも広げるべきです。
| コミットポイント | 監視入力 | 可能な介入 |
|---|---|---|
| シェルコマンド | コマンド、cwd、対象パス、先行失敗 | 許可、書き換え、一時停止、ブロック。 |
| ファイル書き込み | パス、差分サイズ、所有権、生成物かどうか | 続行、封じ込め、レビュー要求。 |
| ネットワーク呼び出し | メソッド、ドメイン、元の文脈、ペイロード種別 | 許可、承認要求、ブロック。 |
| データベース変更 | テーブル、行種別、環境、ロールバック経路 | マイグレーション証拠のため一時停止。 |
| 公開 | ルート、メタデータ、出典引用、翻訳状態 | レンダリング確認が通るまでブロック。 |
| 承認依頼 | リソース、リスク、有効期限、先行拒否 | スコープを絞る、またはエスカレーション。 |
すべてのトークンを監視しても、注意力を浪費するだけです。コミットポイントを監視すれば、失敗がトランスクリプトの外へ出ていく箇所を守れます。
エージェントは介入をどう受け取るべきでしょうか?
エージェントには、曖昧な叱責ではなく、正確な状態更新を返すべきです。
弱い応答:
注意してください。安全でない可能性があります。
より良い応答:
ブロック: 信頼できないコンテンツを読んだ後の外部
POSTです。次に許可される行動: リスクを要約する、対象ドメインとペイロード種別を含めてオペレーター承認を依頼する、またはネットワーク送信なしで続行する。
2つ目の応答は、エージェントに安全な計画空間を与えます。何が発火したのか、なぜその行動を実行できないのか、どの代替策が残っているのかを示しています。AgentTrustの判定形式も、この方向を示しています。リスクのあるコマンドに対して、allow、warn、block、reviewと、より安全な代替案を返す形です。3
実行時介入は、危険を残さず、主体性を残すべきです。
エージェントはまだタスクを修復できます。承認を依頼できます。ツールを変えられます。作業を読み取り専用の経路に分割できます。証拠パケットを作れます。実行基盤が取り除くのは、現在のポリシー状態に違反する行動だけです。
人間には何を見せるべきでしょうか?
人間には、謎の停止ではなく、介入カードを見せるべきです。
| カード項目 | 例 |
|---|---|
| ステータス | 実行時介入のため一時停止 |
| トリガー | 信頼できないソースを読んだ後の外部書き込み |
| ルール | レビューまでは信頼できない取得後の外部送信を禁止 |
| 証拠 | 読み取ったURL、提案されたドメイン、メソッド、ペイロード種別 |
| リスク | 秘密情報またはソースコードの流出 |
| エージェントの選択肢 | 読み取り専用で続行、承認依頼、外部送信の削除 |
| 人間の選択肢 | 1回だけ承認、拒否、スコープ縮小、エスカレーション |
| 監査 | 実行IDとトレースポインタの下に保存 |
このカードは、承認キュー、トレースタイムライン、レビューパケットと同じプロダクトファミリーに属します。違いはタイミングです。承認は、計画された行動を進めてよいかを尋ねます。実行時介入は、監視機構がライブのパターンを見て、次に許可されるステップを変えたと伝えます。
良いインターフェースは、停止の理由を理解するためにユーザーへ全トランスクリプトの読解を強いるべきではありません。カードは、重要なトレース断片を指し示すべきです。
チームは最初に何を作るべきでしょうか?
価値の高いコミットポイントに、シンプルな監視ルールを置くところから始めましょう。
- コミットポイントを定義する。 ミスがローカルの作業回を離れて外へ出るツール呼び出しとリソースに名前を付けます。
- 型付きイベントストリームを作る。 ツール、引数、対象、結果、関連する先行イベント、実行状態を記録します。
- 順序を理解するルールを書く。 test-before-deploy、review-before-egress、approval-before-writeなど、繰り返し重要になる順序関係から始めます。
- 狭い介入を追加する。 広範なシャットダウンより、一時停止、ブロック、封じ込めを優先します。
- 構造化された判定を返す。 何が発火したのか、どの行動がまだ許可されているのかをエージェントに伝えます。
- 介入カードを表示する。 人間にルール、証拠、リスク、次の選択肢を提示します。
- 結果をレビューする。 真陽性を昇格し、偽陽性を調整し、ノイズの多いルールを廃止します。
最初のバージョンは地味で構いません。ツール境界に置いた少数の決定論的ルールは、あらゆる文を見張る広範なモデルジャッジより有効なことがよくあります。
より深いバージョンでは、予測型監視、LTL制約、学習済み監査担当、インシデント対応ループを追加できます。ただし、それらの層は、イベントストリームと介入セマンティクスが機能してから構築しましょう。
ふさわしい基準
すべての一時停止が深刻そうに見え、すべての警告が同じ重みを持つなら、実行時介入は形だけの儀式になってしまいます。
基準は狭く保つべきです。
- 次の行動が重要な場面でだけ介入する。
- 発火したルールに名前を付ける。
- 証拠を見せる。
- 安全な次の経路を残す。
- 結果を記録する。
- 損害を防がずノイズだけを生むルールは取り除く。
良い監視は、作業を守ります。悪い監視は、ベンダーの責任回避の物語だけを守ります。
エージェント実行基盤が最大化すべきなのは、動きの多さではありません。説明責任のある前進です。ときには、エージェントを止めずに続行させることが、説明責任のある前進になります。ときには、次のステップを拒むことがそうなります。
品質の基準は、その違いを見極められるかにあります。
簡単なまとめ
AIエージェントの失敗は最後だけでなく、軌跡の途中で起きます。だからこそ、AIエージェントの監視には実行時介入が必要です。ログとトレースは、何が起きたかを説明します。介入型の監視機構は、次に何が起きるかを変えられます。
現在の研究の方向性は明確です。形式的な時間制約、オンライン監査担当、ツール呼び出し判定、インシデント対応ループは、いずれも監視を能動的な制御へ向かわせています。チームは、型付きイベントストリーム、コミットポイントルール、構造化された判定、介入カード、結果レビューから始めるべきです。目的はアラートを増やすことではありません。取り返しのつかないミスを減らすことです。
FAQ
AIエージェントにおける実行時介入とは何ですか?
実行時介入とは、ライブ証拠がポリシー、リスク、安全性、品質のしきい値を超えたために、システムが進行中のエージェント実行を変えることです。介入には、続行、警告、一時停止、ブロック、封じ込め、復旧、エスカレーションがあります。
実行時介入は可観測性とどう違いますか?
可観測性は、何が起きたかを記録します。実行時介入は、実行がまだ進行中の間に行動します。1つのトレースが両方を支えることはできますが、介入にはポリシー判断と、次に許可される行動が必要です。
すべてのエージェント行動を監視機構に通すべきですか?
意味のあるツール行動はすべて、型付きイベントを生成すべきです。ただし、中断ルールが必要なのは価値の高いコミットポイントだけです。読み取り専用イベントは、通常は静かにログへ残せば十分です。副作用のあるイベントには、より厳格な監視が必要です。
始めるために形式手法は必要ですか?
いいえ。チームは決定論的な順序ルールから始められます。テスト前のデプロイ禁止、信頼できない取得後の外部書き込み禁止、修復失敗が続いた後の破壊的コマンド禁止、必須証拠なしの最終完了禁止などです。形式手法が役立つのは、ルールセットが増え、時間的な関係を手作業で確認するのが難しくなってからです。
信頼できる実行時介入とは何ですか?
信頼できる介入は、ルールに名前を付け、証拠を示し、次の行動を制限し、結果を記録し、権限を持つ人間にレビュー経路を与えます。曖昧な警告は、介入とは言えません。
参考文献
-
Parand A. Alamdari, Toryn Q. Klassen, and Sheila A. McIlraith, “Formal Methods Meet LLMs: Auditing, Monitoring, and Intervention for Compliance of Advanced AI Systems,” arXiv:2605.16198v1, submitted May 15, 2026. オフライン監査、オンライン実行時監視、予測型監視、介入型監視機構、Linear Temporal Logic制約、小規模モデルラベラー比較、時間的推論劣化に関する出典。 ↩↩↩↩↩↩
-
Boxuan Zhang, Jianing Zhu, Zeru Shi, Dongfang Liu, and Ruixiang Tang, “AgentForesight: Online Auditing for Early Failure Prediction in Multi-Agent Systems,” arXiv:2605.08715v2, revised May 13, 2026. 進行中の軌跡接頭辞に対するオンライン監査、決定的誤りの警報、AFTraj-2K、ステップ特定の枠組み、デプロイ時介入に関する出典。 ↩↩↩
-
Chenglin Yang, “AgentTrust: Runtime Safety Evaluation and Interception for AI Agent Tool Use,” arXiv:2605.04785v1, submitted May 6, 2026. 実行前のツール呼び出し捕捉、構造化された判定、シェル難読化解除、SafeFix代替案、RiskChain検知、ベンチマーク範囲、判定精度、MCPサーバー統合に関する出典。 ↩↩↩↩
-
Zibo Xiao, Jun Sun, and Junjie Chen, “AIR: Improving Agent Safety through Incident Response,” arXiv:2602.11749v1, submitted February 12, 2026. LLMエージェント実行ループ内のインシデント対応、意味的インシデント検知、封じ込めと復旧アクション、合成されたガードレールルール、報告された検知・修復・根絶成功率に関する出典。 ↩↩↩
-
OpenAI, “Running Codex safely at OpenAI,” OpenAI, May 8, 2026. Codexの境界づけられた実行、管理された設定、ネットワークポリシー、承認、OpenTelemetryイベントエクスポート、Compliance Platformログ、Codex活動に対するセキュリティトリアージに関する出典。 ↩↩
-
OpenAI Developers, “Agent internet access,” accessed May 18, 2026. Codex cloudのインターネットアクセス既定値、エージェントフェーズのネットワークブロック、プロンプトインジェクションと流出リスク、ドメイン許可リスト、HTTPメソッド制限に関する出典。 ↩↩↩