← 所有文章

AI代理監控需要執行時介入

2026年5月15日,Parand A. Alamdari、Toryn Q. Klassen與Sheila A. McIlraith發表了一篇論文,主張AI治理需要離線稽核、線上執行期間監控,以及能在預測違規實際發生前先行介入的監控器。1

最後那個詞很關鍵。

只能記錄失敗的監控,有助於事後檢討。能暫停、阻擋、限制或重新導向代理的監控,則能在結果尚未定局時改變整次執行。

AI代理監控需要執行時介入。日誌、追蹤、儀表板與核准紀錄能為團隊提供證據。執行時介入,則是在代理仍有機會避開不良動作時,把證據轉化為決策。

TL;DR

如果AI代理監控只像事後鑑識一樣運作,就會失效。嚴謹的代理執行環境應該觀察當下軌跡,偵測政策違規與關鍵錯誤,並選擇有邊界的介入方式:繼續、警告、暫停、阻擋、限制、復原或升級處理。

近期研究從幾個方向指向同一件事。形式方法研究把時序邏輯用於執行期間監控與可介入的監控器。1AgentForesight把失敗偵測界定為軌跡結束前的線上稽核。2AgentTrust會在高風險工具呼叫執行前攔截,並回傳結構化裁定。3AIR則把事件回應放進代理迴圈,讓系統能偵測、限制、復原,並合成未來的防護規則。4

實務上的教訓是:不要停在可觀測性。請把執行環境中能根據觀察採取行動的那一層建起來。

重點整理

給代理平台團隊: - 把監控視為控制迴圈,而不只是儀表板。 - 在代理碰觸高風險工具之前,先定義介入動作。

給安全團隊: - 從事後審查,移向提交點的線上偵測。 - 為每一次介入記錄規則、證據、決策與結果。

給產品團隊: - 將介入事件呈現為結構化審查物件。 - 讓使用者看見執行為何暫停、哪些證據觸發暫停,以及還有哪些安全選項。

給操作人員: - 能改變行為的追蹤,比只能在事後解釋損害的追蹤更值得信任。 - 問題不只是監控器能否重建上一個錯誤步驟,而是能否阻止下一個錯誤步驟。

為什麼AI代理監控總是太晚才失效?

多數監控都是在代理已經採取行動後才開始發揮作用。

日誌可以顯示代理執行過一個Shell命令。追蹤可以顯示代理擷取了網頁、呼叫了MCP伺服器、寫入檔案或要求核准。儀表板可以顯示網路政策阻擋了某個網域。這些紀錄都很重要,但它們不會自動改變下一步動作。

OpenAI關於Codex安全性的文章描述了正確的證據基礎:有邊界的執行、受管理的設定、網路政策、核准機制,以及代理原生遙測。Codex可以匯出OpenTelemetry事件,涵蓋使用者提示、工具核准決策、工具執行結果、MCP伺服器使用情形,以及網路代理允許或拒絕事件。5OpenAI也描述了如何搭配安全分流代理使用Codex日誌,讓審查者能檢查可疑端點警示周邊的原始請求、工具活動、核准、工具結果與網路政策決策。5

這種可見性很重要。缺口出現在可見性沒有致動器的時候。

如果監控器偵測到代理讀取了不可信內容,接著試圖把資料送往新的外部網域,系統不應只是記錄這個序列。系統應該暫停執行或阻擋請求。如果程式碼代理對失敗的遷移重試3次後,提出範圍更廣的破壞性命令,執行環境不該等到最後審查才處理。執行環境應該中斷這條軌跡。

AI代理監控應該同時回答兩個問題:

問題 弱監控 強監控
發生了什麼? 在執行後記錄事件。 在執行中記錄具型別的事件。
接下來應該發生什麼? 把判斷留給之後審查。 繼續、警告、暫停、阻擋、限制、復原或升級處理。

第二個問題會把監控轉化為介入。

新的執行時論文補上了什麼?

這波新的研究讓這個領域有了更精準的詞彙。

形式方法論文聚焦於時序延展的行為限制:這類規則關心順序、距離與序列,而不只是孤立事件。作者結合形式方法與機器學習,用於黑箱AI系統的離線稽核與線上監控,其中也包含LLM。1他們也引入預測式與可介入的監控器,能在執行期間預先阻止或降低預測違規的影響。1

AgentForesight用代理語境命名了這種失敗模式。該論文指出,長視野多代理系統可能接受一個關鍵錯誤,接著一路級聯成軌跡層級的失敗。2AgentForesight不是等軌跡結束後再診斷哪一步該負責,而是要求線上稽核器只檢查目前前綴,並在最早的關鍵錯誤處選擇繼續或發出警報。2

AgentTrust則在工具呼叫邊界運作。它會在代理工具呼叫執行前攔截,並回傳結構化裁定:允許、警告、阻擋或審查。3這種形式很重要,因為檔案操作、Shell命令、HTTP請求與資料庫查詢都會產生真實副作用。3

AIR補上事件回應層。該論文主張,代理安全工作往往著重於事前預防失敗,卻缺乏在事件發生後回應、限制或復原的能力。4AIR將事件回應整合進代理執行迴圈:偵測事件、引導限制與復原動作,並為未來執行合成防護規則。4

合在一起看,這些論文轉移了重心:

舊重心 新重心
最終答案看起來是否正確? 進行中的軌跡是否維持在限制內?
日誌是否解釋了失敗? 監控器是否在提交點前介入?
基準測試是否替完成的任務打分? 執行環境是否及早捕捉關鍵錯誤?
安全提示是否警告了模型? 政策層是否改變下一步允許的動作?

這個轉向符合真實的代理工作。副作用發生在執行期間,而不是最終答案才發生。

什麼算是執行時介入?

執行時介入,是系統因為即時證據跨過政策、安全、品質或風險門檻,而採取的有邊界動作。

介入應該比驚慌更精準,也比單純記錄更有力。

介入 使用時機
繼續 事件仍在政策與預期計畫內。
警告 事件看起來異常,但可逆。
暫停 下一步需要人類或政策審查。
阻擋 動作違反硬性規則。
限制 執行只能在縮小後的沙箱或能力集合內繼續。
復原 系統執行已知的補償路徑。
升級處理 事件需要安全、產品或領域審查。

好的介入不是責備模型,而是改變執行環境狀態。

一次介入應該產生結構化紀錄:

欄位 必要證據
執行 代理執行ID、任務、階段與負責人。
事件 工具呼叫、網路請求、檔案寫入、核准請求或輸出聲明。
規則 觸發的政策或時序限制。
證據 追蹤片段、引數、目標資源、先前事件與風險分流。
決策 繼續、警告、暫停、阻擋、限制、復原或升級處理。
下一個允許動作 決策後代理可以做什麼。
人工路徑 誰可以審查、覆寫或結束事件。
結果 介入是否防止、延後、修復了問題,或未能帶來幫助。

當另一位審查者能檢查事件並理解執行環境為何改變方向時,監控器才會贏得信任。

為什麼時序限制很重要?

許多代理失敗取決於順序。

「未測試不得發布」不是單一命令的屬性,而是發布動作與先前證據之間的關係。「讀取不可信內容後不得傳送外部網路流量」取決於序列。「遷移失敗後不得寫入正式環境」取決於前一個失敗狀態。「來源驗證失敗後不得核准部署」同時取決於核准事件與驗證事件。

線性時序邏輯讓研究者能表達跨時間的限制:之前、之後、直到、最終,以及永不。5月15日的形式方法論文報告指出,基於LTL的稽核與監控技術,在偵測時序延展行為限制違規時,表現優於LLM基準方法。1作者也指出,在其方法下,即使是小型模型標註器,也能追平或超越前沿LLM裁判;而且當事件距離、限制數量與命題數量增加時,LLM的時序推理能力會下降。1

對正式產品環境而言,這不表示每個團隊明天都必須上線完整的形式方法堆疊。

眼前的教訓更簡單:寫出理解序列的規則。

時序規則 執行期間意義
不可信擷取後,未經審查不得外部寫入 若不可信內容進入脈絡,外送前先暫停。
測試與渲染檢查通過前不得部署 缺少證據事件時阻擋部署。
重複修復失敗後不得執行破壞性命令 當復原變成升級風險時暫停。
範圍改變後不得沿用黏著核准 當目標、工具或風險分流改變時,讓授權失效。
必要證據仍缺失時不得宣告完成 在證明存在前阻止最終答案。

這些限制要求執行環境記住足夠的歷史,才能判斷下一步。無狀態提示無法可靠做到這件事。

執行期間監控應該放在哪裡?

執行期間監控應該放在提交點。

提交點是代理從可逆分析跨入外部影響的任何時刻:檔案變更、資料庫寫入、網路外送、部署、訊息傳送、權限變更、付款、刪除或公開發布。

OpenAI的Codex雲端文件提供了一個具體邊界。Codex預設會在代理階段阻擋網際網路存取,但設定指令碼仍可使用網際網路來安裝相依套件。6同一份文件也警告,啟用代理網際網路存取會提高風險,包括來自不可信網頁內容的提示注入、程式碼或密鑰外洩、惡意軟體或脆弱相依套件,以及受授權限制的內容。6文件也建議限制網域與HTTP方法;其中,把請求限制為GETHEADOPTIONS可提供額外保護。6

這種政策形式不應只套用在網路存取。

提交點 監控輸入 可能介入
Shell命令 命令、cwd、目標路徑、先前失敗 允許、改寫、暫停或阻擋。
檔案寫入 路徑、diff大小、所有權、是否為生成內容 繼續、限制或要求審查。
網路呼叫 方法、網域、來源脈絡、酬載類別 允許、要求核准或阻擋。
資料庫變更 資料表、資料列類別、環境、回復路徑 暫停以等待遷移證據。
公開發布 路由、中繼資料、來源引用、翻譯狀態 阻擋直到渲染檢查通過。
核准請求 資源、風險、到期時間、先前拒絕紀錄 縮小範圍或升級處理。

監控每個token只會浪費注意力。監控提交點,才能保護那些錯誤會逃出逐字稿的執行片段。

代理應該如何接收介入?

代理應該收到精準的狀態更新,而不是模糊的責備。

較弱的回應:

請小心。這可能不安全。

較好的回應:

已阻擋:讀取不可信內容後嘗試外部POST。允許的下一步:摘要說明風險、以目標網域與酬載類別要求操作人員核准,或在沒有網路外送的情況下繼續。

第二種回應為代理提供安全的計畫空間。它說明觸發了什麼、為何該動作不能執行,以及還有哪些替代方案。AgentTrust的裁定形式正是朝這個方向前進:允許、警告、阻擋或審查,並為高風險命令提供更安全的替代方案。3

執行時介入應該保留能動性,但不保留危險。

代理仍然可以修復任務。它可以要求核准,可以更換工具,可以把工作拆成唯讀檢查,也可以產出證據包。執行環境只移除那些違反目前政策狀態的動作。

人類應該看到什麼?

人類應該看到一張介入卡片,而不是不明原因的暫停。

卡片欄位 範例
狀態 因執行時介入而暫停
觸發條件 讀取不可信來源後進行外部寫入
規則 不可信擷取後,未經審查不得外送
證據 已讀取URL、擬議網域、方法、酬載類別
風險 密鑰或原始碼外洩
代理選項 繼續唯讀、要求核准或移除外送
人類選項 單次核准、拒絕、縮小範圍或升級處理
稽核 儲存在執行ID與追蹤指標下

這張卡片應該與核准佇列、追蹤時間軸與審查包同屬一個產品家族。差別在於時機。核准是在詢問某個計畫動作能否繼續。執行時介入則表示監控器看見了即時模式,並因此改變了下一步允許的動作。

好的介面不應要求使用者讀完整份逐字稿才理解暫停原因。卡片應該指向真正相關的追蹤片段。

團隊應該先建什麼?

從高價值提交點的簡單監控規則開始。

  1. 定義提交點。命名那些錯誤會離開本地會話的工具呼叫與資源。
  2. 建立具型別的事件串流。記錄工具、引數、目標、結果、先前相關事件與執行狀態。
  3. 撰寫感知序列的規則。從經常重要的順序關係開始:測試先於部署、審查先於外送、核准先於寫入。
  4. 加入窄範圍介入。優先採用暫停、阻擋或限制,而不是大範圍關閉。
  5. 回傳結構化裁定。告訴代理觸發了什麼,以及哪些動作仍被允許。
  6. 顯示介入卡片。提供規則、證據、風險與下一步選項給人類。
  7. 審查結果。提升真正例、調整假正例,並淘汰吵雜的規則。

第一版可以很樸素。在工具邊界放幾條確定性規則,往往勝過讓一個泛用模型裁判監看每一句話。

更深入的版本可以加入預測式監控、LTL限制、學習式稽核器與事件回應迴圈。但請等事件串流與介入語意運作穩定後,再建立這些層次。

值得採用的標準

如果每次暫停看起來都很嚴重、每個警告權重都一樣,執行時介入很容易變成表演。

標準應該保持精準:

  • 只在下一步動作真正重要時介入。
  • 說明觸發的規則。
  • 顯示證據。
  • 保留安全的下一步路徑。
  • 記錄結果。
  • 移除只製造噪音、卻無法防止損害的規則。

好的監控保護工作本身。壞的監控只保護供應商的責任敘事。

代理執行環境不應追求最大化動作量,而應最大化可負責的進展。有時候,可負責的進展代表讓代理不受干擾地繼續。有時候,則代表拒絕下一步。

品質門檻就在於知道兩者的差別。

快速摘要

AI代理監控需要執行時介入,因為代理失敗發生在軌跡內部,而不只發生在結尾。日誌與追蹤能解釋發生了什麼。可介入的監控器則能改變接下來會發生什麼。

目前研究方向相當清楚:形式化時序限制、線上稽核器、工具呼叫裁定與事件回應迴圈,都把監控推向主動控制。團隊應從具型別事件串流、提交點規則、結構化裁定、介入卡片與結果審查開始。目標不是更多警示,而是更少不可逆錯誤。

FAQ

什麼是AI代理的執行時介入?

執行時介入,是指系統因為即時證據跨過政策、風險、安全或品質門檻,而改變進行中的代理執行。介入可以讓執行繼續、警告、暫停、阻擋、限制、復原或升級處理。

執行時介入和可觀測性有何不同?

可觀測性記錄發生了什麼。執行時介入則在執行仍然進行時採取行動。同一段追蹤可以支援兩者,但介入需要政策決策與允許的下一步動作。

每個代理動作都應該通過監控器嗎?

每個有意義的工具動作都應產生具型別事件。只有高價值提交點需要會中斷流程的規則。唯讀事件通常可以安靜記錄。有副作用的事件則值得更嚴格監控。

團隊需要形式方法才能開始嗎?

不需要。團隊可以先從確定性的序列規則開始:測試前不得部署、不可信擷取後不得外部寫入、重複修復失敗後不得執行破壞性命令,以及缺少必要證據時不得宣告完成。當規則集合成長、時序關係變得難以人工檢查時,形式方法才會更有用。

什麼樣的執行時介入值得信任?

值得信任的介入會說明規則、顯示證據、限制下一步動作、記錄結果,並提供授權人員審查路徑。模糊警告不算數。


參考資料


  1. Parand A. Alamdari, Toryn Q. Klassen, and Sheila A. McIlraith, “Formal Methods Meet LLMs: Auditing, Monitoring, and Intervention for Compliance of Advanced AI Systems,” arXiv:2605.16198v1,2026年5月15日提交。離線稽核、線上執行期間監控、預測式監控、可介入監控器、Linear Temporal Logic限制、小型模型標註器比較,以及時序推理退化主張的來源。 

  2. Boxuan Zhang, Jianing Zhu, Zeru Shi, Dongfang Liu, and Ruixiang Tang, “AgentForesight: Online Auditing for Early Failure Prediction in Multi-Agent Systems,” arXiv:2605.08715v2,2026年5月13日修訂。作用於進行中軌跡前綴的線上稽核、關鍵錯誤警報、AFTraj-2K、步驟定位框架,以及部署期間介入的來源。 

  3. Chenglin Yang, “AgentTrust: Runtime Safety Evaluation and Interception for AI Agent Tool Use,” arXiv:2605.04785v1,2026年5月6日提交。執行前工具呼叫攔截、結構化裁定、Shell去混淆、SafeFix替代方案、RiskChain偵測、基準範圍、裁定準確度,以及MCP伺服器整合的來源。 

  4. Zibo Xiao, Jun Sun, and Junjie Chen, “AIR: Improving Agent Safety through Incident Response,” arXiv:2602.11749v1,2026年2月12日提交。在LLM代理執行迴圈內進行事件回應、語意事件偵測、限制與復原動作、合成防護規則,以及所報告偵測、修復與根除成功率的來源。 

  5. OpenAI, “Running Codex safely at OpenAI,” OpenAI,2026年5月8日。Codex有邊界執行、受管理設定、網路政策、核准、OpenTelemetry事件匯出、Compliance Platform日誌,以及針對Codex活動進行安全分流的來源。 

  6. OpenAI Developers, “Agent internet access,” 2026年5月18日存取。Codex雲端網際網路存取預設值、代理階段網路阻擋、提示注入與外洩風險、網域允許清單,以及HTTP方法限制的來源。 

相關文章

每次迭代都讓您的程式碼更不安全

43.7% 的 LLM 迭代鏈引入的漏洞比基準線更多。加入 SAST 掃描器反而更糟。SCAFFOLD-CEGIS 將退化率降至 2.1%。

2 分鐘閱讀

隱形代理:為何您無法治理看不見的事物

Anthropic悄悄在使用者的Mac上放置了10GB的虛擬機。代理可觀測性需要三個層次:資源計量、策略執行與執行時期稽核。

3 分鐘閱讀

Ralph 迴圈:我如何在夜間運行自主 AI 代理

我建構了一套自主代理系統,搭配停止鉤子、生成預算與檔案系統記憶體。以下是失敗經驗與真正能交付程式碼的方法。

3 分鐘閱讀