エージェントには監督画面が必要です

2分で読めます

OpenAIは現在、Codexアプリを、複数のエージェントを管理し、作業を並行実行し、ソフトウェアライフサイクル全体で連携するチームを監督するための司令塔として説明しています。¹ この製品の方向性は、インターフェースの変化をはっきり示しています。難しい問題は、「エージェントは行動できるか？」から「人間はその行動を大規模に監督できるか？」へ移りました。

エージェントには監督画面が必要です。人が状態を把握し、リスクを確認し、影響の大きいツール操作を承認し、トレースを点検し、失敗から復旧し、証拠にもとづいて結果を承認できる場所です。より良いチャットは意図の表現を助けます。監督画面は作業を統制します。

要約

チャットは意図を伝える場として今も有用です。ただし、自律的な作業の唯一の画面としては不十分です。エージェントの実行には、ツール呼び出し、権限、トレース、記憶、失敗した分岐、完了の主張が含まれるためです。OpenAIのCodexクラウドドキュメントでは、サンドボックス化された環境でのバックグラウンドタスク、リアルタイムの進捗監視、ターミナルログの引用、テスト出力による証拠が説明されています。² OpenAIのAgents SDKは、ツール呼び出し、引き継ぎ、ガードレール、カスタムイベントに対する人間参加型の承認と組み込みトレースを提供します。³⁴ AnthropicのClaude Codeフックは、PreToolUse、PostToolUse、PermissionRequest、Stopなどのライフサイクル上の接点を公開しています。⁵

製品としての教訓は明確です。監督とは、最後に1つのモーダルを出すことではありません。作業が進んでいる間、エージェントの横に置かれる複数の画面の集合です。

重要なポイント

エージェント製品チーム向け: - チャットをさらに磨く前に、監督用のキューを作りましょう。キューには、停止中の実行、リスクの高い操作、古い証拠、失敗したチェック、レビュー可能な成果物を表示するべきです。 - 承認、トレース、復旧を主要なUXとして扱います。ユーザーに会話記録からツールの状態を復元させてはいけません。

デザインエンジニア向け: - すべてのエージェント操作に注意レベルを持たせます。静かに通す、要約する、割り込む、ブロックする、のどれかです。読み取り専用の作業が本番環境の変更と同じ見え方になってはいけません。 - メッセージだけでなく、レビュー対象そのものを設計します。レビュー対象には、ツールのペイロード、リスク理由、差分、証拠、次の操作が含まれます。

コーディングエージェントを導入するチーム向け: - オペレーターが次の問いに答えられるかを測りましょう。何が実行中か。何が待機中か。何が変わったか。何が失敗したか。何に承認が必要か。何が未検証のままか。 - チャットは委任に使います。責任を果たす場には監督画面を使います。

監督画面とは何か？

監督画面とは、説明責任のあるエージェント作業のためのUIです。

すべてのトークンを見せようとするものではありません。エージェントを続行させるかどうかを決める部分を見せるものです。

画面	ユーザーの問い
実行キュー	どのエージェントに注意が必要か？
状態パネル	各実行はどの段階にあるか？
承認キュー	どのツール呼び出しに人間の判断が必要か？
トレースタイムライン	何が、どの順番で起きたか？
証拠パネル	結果を何が証明しているか？
復旧コントロール	一時停止、再開、再試行、分岐、ロールバックをどう行うか？
レビューパケット	何を承認、拒否、差し戻しできるか？

チャットとの違いは、必要な場所へ直接アクセスできることです。チャットは「スクロールを読んでください」と言います。監督画面は「リスクのある部分を点検してから判断してください」と言います。

1人が複数のエージェントを動かすとき、この違いは重要です。エージェントが1つなら、しばらくは会話形式でも耐えられます。長時間動くエージェントが5つになると、それは運用になります。インターフェースは優先順位をつけ、要約し、注意を振り分ける必要があります。

なぜチャットは作業画面として失敗するのか？

チャットが失敗するのは、動き続ける作業に形が合っていないからです。

エージェント作業はイベントを生みます。計画、検索、ファイル読み取り、ファイル書き込み、シェルコマンド、ブラウザー操作、API呼び出し、テスト実行、却下された経路、失敗した再試行、最終的な証拠。会話記録にそれらのイベントを含めることはできます。しかし、リスク、段階、責任の単位で整理することはできません。

OpenAIのCodexアプリ発表は、この変化を直接示しています。開発者は作業を委任し、タスクを並行実行し、プロジェクト全体でエージェントを監督するようになりました。従来のIDEやターミナル画面は、その使い方に合いません。¹ この表現が重要なのは、監督にはプロンプト入力とは異なるレイアウトが必要だからです。オペレーターに必要なのはスクロールではなく、ボードです。

Microsoftが2019年に公開した人間とAIのインタラクション指針は、今でも基礎となる設計枠組みを提供しています。AIシステムは状態を伝え、修正を支援し、やり取りの時間軸全体で失敗に対応するべきだ、というものです。⁶ エージェントは、この古い指針を運用の問題に変えました。状態とは今や「どのツール呼び出しが保留中か？」です。修正とは「この実行を拒否して再開する」ことです。失敗とは「失敗したコマンド、変わった前提、修復経路を見せる」ことです。

監督を摩擦として扱うのは間違いです。悪い監督は摩擦を増やします。良い監督は、判断を置くべき場所に置くことで認知負荷を下げます。

実行キューには何を表示するべきか？

実行キューが示すべきなのは活動量ではなく、注意を向けるべき対象です。

アクティビティフィードは、起きたことをすべて伝えます。監督キューは、判断が必要なものを伝えます。多くのイベントは、少数の状態に圧縮できます。

実行状態	オペレーターに必要な情報
計画中	目標、範囲、使いそうなツール、受け入れ条件
実行中	現在のツール、対象、想定される副作用
待機中	承認、認証情報、不足している入力、外部要因による停止
検証中	テストコマンド、ソース確認、レンダリングされた経路、レビュー基準
修復中	失敗したチェック、変わった仮説、次の再試行
レビュー準備完了	成果物、差分、証拠、未解決の不足
ブロック中	理由、担当者、再開方法

OpenAIのCodexクラウドドキュメントでは、それぞれ独自のクラウド環境内で、並行実行を含むバックグラウンドタスクを実行できると説明されています。² 並行するバックグラウンド作業は、注意の向け方を変えます。ユーザーが各スレッドを見回るべきではありません。ブロックされた作業、リスクの高い作業、レビュー可能な作業を、システムが1か所に集めるべきです。

キューは偽の緊急性を避ける必要があります。下書きブランチのlint失敗と、本番デプロイの不整合は、同じ視覚的な重みを持つべきではありません。インターフェースが割り込みを使うべきなのは、取り消しにくい操作、公開リリース、セキュリティ上重要な操作、エージェントが責任を持って続行するだけの文脈を持っていない判断です。

承認はどう機能するべきか？

承認は、モーダル割り込みの連続ではなく、レビュー対象のキューとして機能するべきです。

OpenAIのAgents SDKにおける人間参加型フローでは、影響の大きいツール呼び出しを人が承認または拒否するまで実行を一時停止します。ドキュメントでは、保留中の承認はinterruptionsとして説明され、判断後にシリアライズして再開するためにRunStateが使われます。³ 同じページでは、承認が現在の最上位エージェントだけでなく、入れ子になったエージェントツールやMCPツールにも適用されると説明されています。³

AnthropicのClaude Codeフックドキュメントも、別の角度から同じ設計の形を示しています。PreToolUseはツール呼び出しの前に実行され、呼び出しをブロックできます。PermissionRequestは権限ダイアログが表示されたときに発火します。PostToolUseとPostToolUseFailureはツールの成功後または失敗後に発火し、StopはClaudeが応答を終えたときに発火します。⁵

これらの基本要素が示すべき画面は次のようなものです。

承認項目	UIに必要な理由
ツール名	機能の種類を識別する
引数	エージェントが何をしたいのかを示す
対象	ファイル、データベース、ホスト、ルート、アカウント、ブランチを示す
リスク階層	視覚的、手続き的な重みを決める
エージェントの理由	その呼び出しが計画に必要な理由を説明する
想定される副作用	読み取り、書き込み、ネットワーク、デプロイ、支出、削除を区別する
判断	1回だけ承認、常に承認、拒否、保留、書き換え

適切な承認画面なら、低リスクの読み取りは静かに通し、中リスクの判断はまとめ、高リスクの変更では割り込みます。ユーザーは段落を読んでいる最中にシェルコマンドを承認するべきではありません。説明責任を保てる十分な文脈を持った、型づけされた操作として承認するべきです。

トレース画面は何を証明するべきか？

トレース画面が証明するべきなのは、順序、原因、結果です。

OpenAIのAgents SDKトレースドキュメントでは、トレースはLLM生成、ツール呼び出し、引き継ぎ、ガードレール、カスタムイベントにまたがる実行を記録し、開発環境と本番環境でのデバッグ、可視化、監視を支援すると説明されています。⁴ この説明から、トレースは開発者向けの計測だけではなく、製品上の基本要素であることがわかります。

監督用トレースは、5つの問いに答える必要があります。

問い	必要なトレース詳細
エージェントは何を見たか？	ファイル、ソース、プロンプト、取得した文脈
何をしたか？	ツール呼び出し、引数、出力、終了状態
何が変わったか？	差分、生成された成果物、外部状態
なぜ進路を変えたか？	失敗したチェック、拒否された権限、新しい証拠
完了を何が証明するか？	コマンド、ソースリンク、ライブルート、レビュー状態

トレースに私的な推論を含める必要はありません。必要なのは運用上の証拠です。リリースを評価するために、ユーザーが隠れた思考過程を読む必要はありません。必要なのは、コマンド出力、ルートの状態、キャッシュ状態、D1の行、翻訳基準、ソース確認、残っているネイティブレビュー上の不足です。

この区別は、信頼と審美性の両方を守ります。内部情報を見せすぎると、インターフェースは雑音になります。見せなさすぎると、製品は見せかけになります。

復旧はフローにどう組み込むべきか？

復旧は、失敗したイベントの横に置くべきです。

エージェントシステムでは、通常の作業の中で頻繁に失敗が起きます。インストールコマンドがタイムアウトする。フォーマッターが無関係なファイルを変更する。ブラウザーのスモークテストが古いキャッシュを見つける。翻訳基準がロケールを拒否する。ソースリンクがスクリプトに403を返す。良い監督画面は、こうした瞬間を想定済みの状態として扱います。

復旧コントロールは具体的であるべきです。

コントロール	責任ある使い方
一時停止	状態を保持したまま、新しい副作用を止める
再開	承認または外部修正の後に続行する
再試行	入力を変えて失敗した手順を繰り返す
分岐	最初の経路を上書きせず、別の計画を探索する
取り消し	ローカルで戻せる変更を元に戻す
エスカレーション	人間または別のエージェントにレビューを依頼する
不足を明示して終了	未解決の作業を明示した場合にのみ完了する

OpenAIのCodexアプリ発表では、エージェントが隔離されたコードコピーで作業するため、ユーザーは異なる経路を探索し、エージェントが継続している間に変更をローカルでチェックアウトできると説明されています。¹ この分離は復旧を助けます。それでもインターフェースは、どの経路が採用され、どの経路が失敗し、どの作業がまだマージするには危険なのかを示す必要があります。

ユーザーに生ログから復旧手順を組み立てさせてはいけません。失敗した手順には、すでにコマンド、作業ディレクトリ、出力、対象が紐づいています。そのイベント上に、責任ある次の操作を置くべきです。

価値のある監督画面とは何か？

価値のある監督画面とは、責任を減らさずに作業を減らすものです。

簡単な作り方は、パネルを増やすことです。価値のある作り方は、迷いを減らすことです。ユーザーは重要な問いに、より速く答えられるようになるべきです。

どの実行に自分の対応が必要か？
どの操作が損害を起こしうるか？
どの結果には証拠があるか？
どの結果は文章で主張しているだけか？
どのブランチを残すべきか？
どの不足が未解決のままか？

NISTのAI Risk Management Frameworkは、信頼性を、AI製品とシステムの設計、開発、利用、評価に組み込むべきものとして位置づけています。⁷ 監督画面は、まさにその交点にあります。設計に運用リスクを担わせます。利用の中で証拠を生みます。ユーザーが承認する前に、評価を可視化します。

MCPも同じ責任を広げます。Model Context Protocolは、AIアプリケーションを外部データソース、ツール、ワークフローに接続し、エージェントが情報へアクセスしてタスクを実行できるようにします。⁸ 接続されるツールが増えれば、行動可能な範囲も広がります。広い行動範囲に必要なのは、より強い信頼ではなく、より良い監督です。

設計基準はシンプルであるべきです。エージェント製品は、自律的な動きを最大化するべきではありません。説明責任のある前進を最大化するべきです。

どこから作り始めるべきか？

まずは、最小限で役に立つ監督画面から始めます。

実行リスト: アクティブなエージェントごとに1行。段階、経過時間、ブロッカー、次の判断を表示します。
承認キュー: 影響の大きいツール呼び出しごとに1つの対象。引数、対象、リスク、承認・拒否・保留の操作を表示します。
トレーステーブル: 意味のあるイベントごとに1行。読み取り、書き込み、シェル、ブラウザー、ソース、テスト、デプロイ、レビューでフィルターできるようにします。
証拠パネル: 最終結果について、主張と証拠を対応させた表を表示します。
復旧メニュー: 失敗したイベントから、一時停止、再開、再試行、分岐、不足を明示して終了を実行できるようにします。

最初の版は地味でかまいません。リスクを隠す洗練された会話記録よりも、表、フィルター、バッジ、展開可能な行のほうが優れています。審美性の問題に取り組むのは、情報設計が誠実になった後です。雑音を減らし、警告色を温存し、低リスクイベントをまとめ、高リスクのペイロードを公開し、最終承認を証拠に結びつけます。

エージェント的デザインとは制御画面のデザインです。エージェントのインターフェースは運用レイヤーです。 HTMLはMarkdownが落としてしまう空間情報を保てます。監督画面は、これらの視点を組み合わせます。自律的な作業を、点検可能で、空間的で、説明責任のある運用へ変えるのです。

簡単なまとめ

エージェントに必要なのは、より良い会話記録というより、監督画面です。本格的なエージェントインターフェースには、実行キュー、承認キュー、トレースタイムライン、証拠パネル、復旧コントロールが必要です。OpenAI、Anthropic、Microsoft、NIST、MCPのドキュメントはいずれも同じ製品の形を指しています。自律システムには、可視化された状態、ツールの統制、レビュー可能なトレース、適切な注意レベルでの人間の判断が必要です。¹³⁴⁵⁶⁷⁸

チャットは委任の通路として残せます。監督は作業面にならなければなりません。

FAQ

エージェントの監督画面とは何ですか？

エージェントの監督画面とは、自律的なエージェント作業を監視し、制御するためのUIです。実行状態、保留中の承認、ツールのトレース、証拠、失敗、復旧コントロールを表示します。チャットは意図を集めます。監督画面は、エージェントに次に何を許可するか、その結果を承認するに値するかをオペレーターが判断する助けになります。

なぜAIエージェントにはチャットだけでは不十分なのですか？

チャットは順番に追記される形式です。エージェント作業には、状態、リスク、承認、トレース、差分、テスト出力、未解決の不足へ直接アクセスする必要があります。会話記録はそれらのイベントを記録できますが、リスクに応じて優先順位をつけたり、並行するエージェント全体で人間の注意を振り分けたりすることはできません。

チームは最初に何を作るべきですか？

最初に作るべきなのは、実行キューと承認キューです。この2つの画面だけで、ブロックされた作業と影響の大きい操作がすぐに見えるようになります。次にトレーステーブルを追加します。証拠、復旧、最終レビューは、すべてイベント記録に依存するためです。

監督画面はオブザーバビリティとどう違いますか？

オブザーバビリティは、作り手がシステムをデバッグするためのものです。監督は、オペレーターが作業の進行中に統制するためのものです。両者はデータを共有しますが、対象ユーザーが異なります。本番環境のトレースは、開発者向けのデバッグ画面と、人間の承認画面の両方に使えます。

すべてのエージェントに人間の承認が必要ですか？

いいえ。すべてのエージェントに必要なのは、調整された監督です。低リスクの読み取りは静かに実行できます。中リスクの変更はまとめてレビューできます。高リスクの操作は承認のために一時停止するべきです。公開リリース、破壊的なコマンド、顧客に影響する操作、資金移動には、より強い基準が必要です。

参考文献

OpenAI, 「Codexアプリの紹介」 OpenAI, 2026年2月2日、2026年3月4日更新。Codexアプリをマルチエージェントの司令塔として位置づける説明、並行エージェントワークフロー、隔離されたコードコピー、スキル、Automations、レビューキュー、サンドボックス化、権限リクエスト、監督という枠組みの出典。 ↩↩↩↩
OpenAI, 「Codex web」 OpenAI Developers。Codexを、コードを読み、編集し、実行できるコーディングエージェントとして説明する出典。独自のクラウド環境での並行作業を含む、バックグラウンドのクラウドタスクについても説明しています。 ↩↩
OpenAI, 「Human-in-the-loop」 OpenAI Agents SDK。実行を一時停止し、保留中の承認をinterruptionsとして返し、RunStateをシリアライズして再開し、function tools、shell tools、apply-patch tools、MCPサーバー、ホスト型MCPツール、入れ子になったエージェントツール全体で承認をサポートする承認フローの出典。 ↩↩↩↩
OpenAI, 「Tracing」 OpenAI Agents SDK。LLM生成、ツール呼び出し、引き継ぎ、ガードレール、カスタムイベント、traces、spans、開発環境または本番環境の監視に対する組み込みトレースの出典。 ↩↩↩
Anthropic, 「Hooks reference」 Claude Code Docs。PreToolUse、PermissionRequest、PostToolUse、PostToolUseFailure、PostToolBatch、サブエージェントイベント、Stopを含むClaude Codeライフサイクルフックの出典。 ↩↩↩
Saleema Amershi et al., 「Guidelines for Human-AI Interaction」 Microsoft Research, CHI 2019。一般に適用できる18の人間とAIのインタラクション指針、および49人の実務者による検証研究の出典。 ↩↩
National Institute of Standards and Technology, 「AI Risk Management Framework」 NIST。AI製品、サービス、システムの設計、開発、利用、評価に信頼性の考慮を組み込むことについての出典。 ↩↩
Model Context Protocol, 「Model Context Protocolとは？」ローカルファイル、データベース、ツール、ワークフローを含む外部システムにAIアプリケーションを接続するオープンソース標準としてのMCPの出典。 ↩↩