AI代理監控需要執行時介入
2026年5月15日,Parand A. Alamdari、Toryn Q. Klassen與Sheila A. McIlraith發表了一篇論文,主張AI治理需要離線稽核、線上執行期間監控,以及能在預測違規實際發生前先行介入的監控器。1
最後那個詞很關鍵。
只能記錄失敗的監控,有助於事後檢討。能暫停、阻擋、限制或重新導向代理的監控,則能在結果尚未定局時改變整次執行。
AI代理監控需要執行時介入。日誌、追蹤、儀表板與核准紀錄能為團隊提供證據。執行時介入,則是在代理仍有機會避開不良動作時,把證據轉化為決策。
TL;DR
如果AI代理監控只像事後鑑識一樣運作,就會失效。嚴謹的代理執行環境應該觀察當下軌跡,偵測政策違規與關鍵錯誤,並選擇有邊界的介入方式:繼續、警告、暫停、阻擋、限制、復原或升級處理。
近期研究從幾個方向指向同一件事。形式方法研究把時序邏輯用於執行期間監控與可介入的監控器。1AgentForesight把失敗偵測界定為軌跡結束前的線上稽核。2AgentTrust會在高風險工具呼叫執行前攔截,並回傳結構化裁定。3AIR則把事件回應放進代理迴圈,讓系統能偵測、限制、復原,並合成未來的防護規則。4
實務上的教訓是:不要停在可觀測性。請把執行環境中能根據觀察採取行動的那一層建起來。
重點整理
給代理平台團隊: - 把監控視為控制迴圈,而不只是儀表板。 - 在代理碰觸高風險工具之前,先定義介入動作。
給安全團隊: - 從事後審查,移向提交點的線上偵測。 - 為每一次介入記錄規則、證據、決策與結果。
給產品團隊: - 將介入事件呈現為結構化審查物件。 - 讓使用者看見執行為何暫停、哪些證據觸發暫停,以及還有哪些安全選項。
給操作人員: - 能改變行為的追蹤,比只能在事後解釋損害的追蹤更值得信任。 - 問題不只是監控器能否重建上一個錯誤步驟,而是能否阻止下一個錯誤步驟。
為什麼AI代理監控總是太晚才失效?
多數監控都是在代理已經採取行動後才開始發揮作用。
日誌可以顯示代理執行過一個Shell命令。追蹤可以顯示代理擷取了網頁、呼叫了MCP伺服器、寫入檔案或要求核准。儀表板可以顯示網路政策阻擋了某個網域。這些紀錄都很重要,但它們不會自動改變下一步動作。
OpenAI關於Codex安全性的文章描述了正確的證據基礎:有邊界的執行、受管理的設定、網路政策、核准機制,以及代理原生遙測。Codex可以匯出OpenTelemetry事件,涵蓋使用者提示、工具核准決策、工具執行結果、MCP伺服器使用情形,以及網路代理允許或拒絕事件。5OpenAI也描述了如何搭配安全分流代理使用Codex日誌,讓審查者能檢查可疑端點警示周邊的原始請求、工具活動、核准、工具結果與網路政策決策。5
這種可見性很重要。缺口出現在可見性沒有致動器的時候。
如果監控器偵測到代理讀取了不可信內容,接著試圖把資料送往新的外部網域,系統不應只是記錄這個序列。系統應該暫停執行或阻擋請求。如果程式碼代理對失敗的遷移重試3次後,提出範圍更廣的破壞性命令,執行環境不該等到最後審查才處理。執行環境應該中斷這條軌跡。
AI代理監控應該同時回答兩個問題:
| 問題 | 弱監控 | 強監控 |
|---|---|---|
| 發生了什麼? | 在執行後記錄事件。 | 在執行中記錄具型別的事件。 |
| 接下來應該發生什麼? | 把判斷留給之後審查。 | 繼續、警告、暫停、阻擋、限制、復原或升級處理。 |
第二個問題會把監控轉化為介入。
新的執行時論文補上了什麼?
這波新的研究讓這個領域有了更精準的詞彙。
形式方法論文聚焦於時序延展的行為限制:這類規則關心順序、距離與序列,而不只是孤立事件。作者結合形式方法與機器學習,用於黑箱AI系統的離線稽核與線上監控,其中也包含LLM。1他們也引入預測式與可介入的監控器,能在執行期間預先阻止或降低預測違規的影響。1
AgentForesight用代理語境命名了這種失敗模式。該論文指出,長視野多代理系統可能接受一個關鍵錯誤,接著一路級聯成軌跡層級的失敗。2AgentForesight不是等軌跡結束後再診斷哪一步該負責,而是要求線上稽核器只檢查目前前綴,並在最早的關鍵錯誤處選擇繼續或發出警報。2
AgentTrust則在工具呼叫邊界運作。它會在代理工具呼叫執行前攔截,並回傳結構化裁定:允許、警告、阻擋或審查。3這種形式很重要,因為檔案操作、Shell命令、HTTP請求與資料庫查詢都會產生真實副作用。3
AIR補上事件回應層。該論文主張,代理安全工作往往著重於事前預防失敗,卻缺乏在事件發生後回應、限制或復原的能力。4AIR將事件回應整合進代理執行迴圈:偵測事件、引導限制與復原動作,並為未來執行合成防護規則。4
合在一起看,這些論文轉移了重心:
| 舊重心 | 新重心 |
|---|---|
| 最終答案看起來是否正確? | 進行中的軌跡是否維持在限制內? |
| 日誌是否解釋了失敗? | 監控器是否在提交點前介入? |
| 基準測試是否替完成的任務打分? | 執行環境是否及早捕捉關鍵錯誤? |
| 安全提示是否警告了模型? | 政策層是否改變下一步允許的動作? |
這個轉向符合真實的代理工作。副作用發生在執行期間,而不是最終答案才發生。
什麼算是執行時介入?
執行時介入,是系統因為即時證據跨過政策、安全、品質或風險門檻,而採取的有邊界動作。
介入應該比驚慌更精準,也比單純記錄更有力。
| 介入 | 使用時機 |
|---|---|
| 繼續 | 事件仍在政策與預期計畫內。 |
| 警告 | 事件看起來異常,但可逆。 |
| 暫停 | 下一步需要人類或政策審查。 |
| 阻擋 | 動作違反硬性規則。 |
| 限制 | 執行只能在縮小後的沙箱或能力集合內繼續。 |
| 復原 | 系統執行已知的補償路徑。 |
| 升級處理 | 事件需要安全、產品或領域審查。 |
好的介入不是責備模型,而是改變執行環境狀態。
一次介入應該產生結構化紀錄:
| 欄位 | 必要證據 |
|---|---|
| 執行 | 代理執行ID、任務、階段與負責人。 |
| 事件 | 工具呼叫、網路請求、檔案寫入、核准請求或輸出聲明。 |
| 規則 | 觸發的政策或時序限制。 |
| 證據 | 追蹤片段、引數、目標資源、先前事件與風險分流。 |
| 決策 | 繼續、警告、暫停、阻擋、限制、復原或升級處理。 |
| 下一個允許動作 | 決策後代理可以做什麼。 |
| 人工路徑 | 誰可以審查、覆寫或結束事件。 |
| 結果 | 介入是否防止、延後、修復了問題,或未能帶來幫助。 |
當另一位審查者能檢查事件並理解執行環境為何改變方向時,監控器才會贏得信任。
為什麼時序限制很重要?
許多代理失敗取決於順序。
「未測試不得發布」不是單一命令的屬性,而是發布動作與先前證據之間的關係。「讀取不可信內容後不得傳送外部網路流量」取決於序列。「遷移失敗後不得寫入正式環境」取決於前一個失敗狀態。「來源驗證失敗後不得核准部署」同時取決於核准事件與驗證事件。
線性時序邏輯讓研究者能表達跨時間的限制:之前、之後、直到、最終,以及永不。5月15日的形式方法論文報告指出,基於LTL的稽核與監控技術,在偵測時序延展行為限制違規時,表現優於LLM基準方法。1作者也指出,在其方法下,即使是小型模型標註器,也能追平或超越前沿LLM裁判;而且當事件距離、限制數量與命題數量增加時,LLM的時序推理能力會下降。1
對正式產品環境而言,這不表示每個團隊明天都必須上線完整的形式方法堆疊。
眼前的教訓更簡單:寫出理解序列的規則。
| 時序規則 | 執行期間意義 |
|---|---|
| 不可信擷取後,未經審查不得外部寫入 | 若不可信內容進入脈絡,外送前先暫停。 |
| 測試與渲染檢查通過前不得部署 | 缺少證據事件時阻擋部署。 |
| 重複修復失敗後不得執行破壞性命令 | 當復原變成升級風險時暫停。 |
| 範圍改變後不得沿用黏著核准 | 當目標、工具或風險分流改變時,讓授權失效。 |
| 必要證據仍缺失時不得宣告完成 | 在證明存在前阻止最終答案。 |
這些限制要求執行環境記住足夠的歷史,才能判斷下一步。無狀態提示無法可靠做到這件事。
執行期間監控應該放在哪裡?
執行期間監控應該放在提交點。
提交點是代理從可逆分析跨入外部影響的任何時刻:檔案變更、資料庫寫入、網路外送、部署、訊息傳送、權限變更、付款、刪除或公開發布。
OpenAI的Codex雲端文件提供了一個具體邊界。Codex預設會在代理階段阻擋網際網路存取,但設定指令碼仍可使用網際網路來安裝相依套件。6同一份文件也警告,啟用代理網際網路存取會提高風險,包括來自不可信網頁內容的提示注入、程式碼或密鑰外洩、惡意軟體或脆弱相依套件,以及受授權限制的內容。6文件也建議限制網域與HTTP方法;其中,把請求限制為GET、HEAD與OPTIONS可提供額外保護。6
這種政策形式不應只套用在網路存取。
| 提交點 | 監控輸入 | 可能介入 |
|---|---|---|
| Shell命令 | 命令、cwd、目標路徑、先前失敗 | 允許、改寫、暫停或阻擋。 |
| 檔案寫入 | 路徑、diff大小、所有權、是否為生成內容 | 繼續、限制或要求審查。 |
| 網路呼叫 | 方法、網域、來源脈絡、酬載類別 | 允許、要求核准或阻擋。 |
| 資料庫變更 | 資料表、資料列類別、環境、回復路徑 | 暫停以等待遷移證據。 |
| 公開發布 | 路由、中繼資料、來源引用、翻譯狀態 | 阻擋直到渲染檢查通過。 |
| 核准請求 | 資源、風險、到期時間、先前拒絕紀錄 | 縮小範圍或升級處理。 |
監控每個token只會浪費注意力。監控提交點,才能保護那些錯誤會逃出逐字稿的執行片段。
代理應該如何接收介入?
代理應該收到精準的狀態更新,而不是模糊的責備。
較弱的回應:
請小心。這可能不安全。
較好的回應:
已阻擋:讀取不可信內容後嘗試外部
POST。允許的下一步:摘要說明風險、以目標網域與酬載類別要求操作人員核准,或在沒有網路外送的情況下繼續。
第二種回應為代理提供安全的計畫空間。它說明觸發了什麼、為何該動作不能執行,以及還有哪些替代方案。AgentTrust的裁定形式正是朝這個方向前進:允許、警告、阻擋或審查,並為高風險命令提供更安全的替代方案。3
執行時介入應該保留能動性,但不保留危險。
代理仍然可以修復任務。它可以要求核准,可以更換工具,可以把工作拆成唯讀檢查,也可以產出證據包。執行環境只移除那些違反目前政策狀態的動作。
人類應該看到什麼?
人類應該看到一張介入卡片,而不是不明原因的暫停。
| 卡片欄位 | 範例 |
|---|---|
| 狀態 | 因執行時介入而暫停 |
| 觸發條件 | 讀取不可信來源後進行外部寫入 |
| 規則 | 不可信擷取後,未經審查不得外送 |
| 證據 | 已讀取URL、擬議網域、方法、酬載類別 |
| 風險 | 密鑰或原始碼外洩 |
| 代理選項 | 繼續唯讀、要求核准或移除外送 |
| 人類選項 | 單次核准、拒絕、縮小範圍或升級處理 |
| 稽核 | 儲存在執行ID與追蹤指標下 |
這張卡片應該與核准佇列、追蹤時間軸與審查包同屬一個產品家族。差別在於時機。核准是在詢問某個計畫動作能否繼續。執行時介入則表示監控器看見了即時模式,並因此改變了下一步允許的動作。
好的介面不應要求使用者讀完整份逐字稿才理解暫停原因。卡片應該指向真正相關的追蹤片段。
團隊應該先建什麼?
從高價值提交點的簡單監控規則開始。
- 定義提交點。命名那些錯誤會離開本地會話的工具呼叫與資源。
- 建立具型別的事件串流。記錄工具、引數、目標、結果、先前相關事件與執行狀態。
- 撰寫感知序列的規則。從經常重要的順序關係開始:測試先於部署、審查先於外送、核准先於寫入。
- 加入窄範圍介入。優先採用暫停、阻擋或限制,而不是大範圍關閉。
- 回傳結構化裁定。告訴代理觸發了什麼,以及哪些動作仍被允許。
- 顯示介入卡片。提供規則、證據、風險與下一步選項給人類。
- 審查結果。提升真正例、調整假正例,並淘汰吵雜的規則。
第一版可以很樸素。在工具邊界放幾條確定性規則,往往勝過讓一個泛用模型裁判監看每一句話。
更深入的版本可以加入預測式監控、LTL限制、學習式稽核器與事件回應迴圈。但請等事件串流與介入語意運作穩定後,再建立這些層次。
值得採用的標準
如果每次暫停看起來都很嚴重、每個警告權重都一樣,執行時介入很容易變成表演。
標準應該保持精準:
- 只在下一步動作真正重要時介入。
- 說明觸發的規則。
- 顯示證據。
- 保留安全的下一步路徑。
- 記錄結果。
- 移除只製造噪音、卻無法防止損害的規則。
好的監控保護工作本身。壞的監控只保護供應商的責任敘事。
代理執行環境不應追求最大化動作量,而應最大化可負責的進展。有時候,可負責的進展代表讓代理不受干擾地繼續。有時候,則代表拒絕下一步。
品質門檻就在於知道兩者的差別。
快速摘要
AI代理監控需要執行時介入,因為代理失敗發生在軌跡內部,而不只發生在結尾。日誌與追蹤能解釋發生了什麼。可介入的監控器則能改變接下來會發生什麼。
目前研究方向相當清楚:形式化時序限制、線上稽核器、工具呼叫裁定與事件回應迴圈,都把監控推向主動控制。團隊應從具型別事件串流、提交點規則、結構化裁定、介入卡片與結果審查開始。目標不是更多警示,而是更少不可逆錯誤。
FAQ
什麼是AI代理的執行時介入?
執行時介入,是指系統因為即時證據跨過政策、風險、安全或品質門檻,而改變進行中的代理執行。介入可以讓執行繼續、警告、暫停、阻擋、限制、復原或升級處理。
執行時介入和可觀測性有何不同?
可觀測性記錄發生了什麼。執行時介入則在執行仍然進行時採取行動。同一段追蹤可以支援兩者,但介入需要政策決策與允許的下一步動作。
每個代理動作都應該通過監控器嗎?
每個有意義的工具動作都應產生具型別事件。只有高價值提交點需要會中斷流程的規則。唯讀事件通常可以安靜記錄。有副作用的事件則值得更嚴格監控。
團隊需要形式方法才能開始嗎?
不需要。團隊可以先從確定性的序列規則開始:測試前不得部署、不可信擷取後不得外部寫入、重複修復失敗後不得執行破壞性命令,以及缺少必要證據時不得宣告完成。當規則集合成長、時序關係變得難以人工檢查時,形式方法才會更有用。
什麼樣的執行時介入值得信任?
值得信任的介入會說明規則、顯示證據、限制下一步動作、記錄結果,並提供授權人員審查路徑。模糊警告不算數。
參考資料
-
Parand A. Alamdari, Toryn Q. Klassen, and Sheila A. McIlraith, “Formal Methods Meet LLMs: Auditing, Monitoring, and Intervention for Compliance of Advanced AI Systems,” arXiv:2605.16198v1,2026年5月15日提交。離線稽核、線上執行期間監控、預測式監控、可介入監控器、Linear Temporal Logic限制、小型模型標註器比較,以及時序推理退化主張的來源。 ↩↩↩↩↩↩
-
Boxuan Zhang, Jianing Zhu, Zeru Shi, Dongfang Liu, and Ruixiang Tang, “AgentForesight: Online Auditing for Early Failure Prediction in Multi-Agent Systems,” arXiv:2605.08715v2,2026年5月13日修訂。作用於進行中軌跡前綴的線上稽核、關鍵錯誤警報、AFTraj-2K、步驟定位框架,以及部署期間介入的來源。 ↩↩↩
-
Chenglin Yang, “AgentTrust: Runtime Safety Evaluation and Interception for AI Agent Tool Use,” arXiv:2605.04785v1,2026年5月6日提交。執行前工具呼叫攔截、結構化裁定、Shell去混淆、SafeFix替代方案、RiskChain偵測、基準範圍、裁定準確度,以及MCP伺服器整合的來源。 ↩↩↩↩
-
Zibo Xiao, Jun Sun, and Junjie Chen, “AIR: Improving Agent Safety through Incident Response,” arXiv:2602.11749v1,2026年2月12日提交。在LLM代理執行迴圈內進行事件回應、語意事件偵測、限制與復原動作、合成防護規則,以及所報告偵測、修復與根除成功率的來源。 ↩↩↩
-
OpenAI, “Running Codex safely at OpenAI,” OpenAI,2026年5月8日。Codex有邊界執行、受管理設定、網路政策、核准、OpenTelemetry事件匯出、Compliance Platform日誌,以及針對Codex活動進行安全分流的來源。 ↩↩
-
OpenAI Developers, “Agent internet access,” 2026年5月18日存取。Codex雲端網際網路存取預設值、代理階段網路阻擋、提示注入與外洩風險、網域允許清單,以及HTTP方法限制的來源。 ↩↩↩