← 所有文章

AI代理监控需要执行环境干预

2026年5月15日,Parand A. Alamdari、Toryn Q. Klassen和Sheila A. McIlraith发表了一篇论文,指出AI治理需要离线审计、在线执行环境监控,以及能够在预测到的违规真正发生前介入的监控器。1

最后这个词很关键。

只能记录失败的监控有助于事后复盘。能够暂停、阻止、隔离或重定向代理的监控,则会在结果尚未定型时改变本次运行。

AI代理监控需要执行环境干预。日志、追踪、仪表盘和审批记录能为团队提供证据。执行环境干预则会在代理仍有机会避开错误动作时,把证据转化为决策。

摘要

如果AI代理监控只像事后取证一样工作,它就会失效。严肃的代理执行环境应当观察正在进行的轨迹,检测策略违规和决定性错误,并选择有边界的干预动作:继续、警告、暂停、阻止、隔离、恢复或升级处理。

近期研究从多个角度指向同一方向。形式化方法研究将时序逻辑用于执行环境监控和可介入的监控器。1AgentForesight把故障检测定义为轨迹结束前的在线审计。2AgentTrust会在高风险工具调用执行前拦截,并返回结构化裁决。3AIR把事件响应放入代理循环,使系统能够检测、隔离、恢复,并生成未来的防护规则。4

实际启示很明确:不要止步于可观测性。要构建执行环境中能够根据观察采取行动的那一部分。

关键要点

对于代理平台团队: - 将监控视为控制循环,而不只是仪表盘。 - 在代理接触高风险工具之前,先定义干预动作。

对于安全团队: - 从事后审查转向提交点上的在线检测。 - 每次干预都要记录规则、证据、决策和结果。

对于产品团队: - 将干预事件呈现为结构化审查对象。 - 让用户看到运行为何暂停、哪些证据触发了暂停,以及还剩哪些安全选项。

对于运营人员: - 相比只能事后解释损害的追踪,更应信任能够改变行为的追踪。 - 要问监控器能否阻止下一步错误动作,而不只是还原上一步发生了什么。

为什么AI代理监控总是来得太晚?

大多数监控是在代理已经采取行动之后才开始发挥作用。

日志可以显示代理运行了一个shell命令。追踪可以显示代理抓取了网页、调用了MCP服务器、写入了文件,或请求了审批。仪表盘可以显示网络策略拦截了某个域名。这些记录很重要,但它们不会自动改变下一步动作。

OpenAI关于Codex安全的文章描述了正确的证据基础:有边界的执行、托管配置、网络策略、审批,以及代理原生遥测。Codex可以导出OpenTelemetry事件,覆盖用户提示、工具审批决策、工具执行结果、MCP服务器使用情况,以及网络代理允许或拒绝事件。5OpenAI还介绍了如何将Codex日志与安全分诊代理结合使用,使审查者能够检查可疑端点告警周围的原始请求、工具活动、审批、工具结果和网络策略决策。5

这种可见性很重要。问题出现在可见性没有执行器的时候。

如果监控器发现代理读取了不可信内容,随后试图把数据发送到新的外部域名,系统不应只记录这一序列。系统应暂停运行或阻止请求。如果编码代理连续3次重试失败的迁移,然后提出一个破坏性更强的宽泛命令,执行环境不应等到最终审查才处理。执行环境应中断这条轨迹。

AI代理监控应同时回答两个问题:

问题 弱监控 强监控
发生了什么? 在执行后记录事件。 在执行期间记录类型化事件。
下一步应发生什么? 把判断留给之后的审查。 继续、警告、暂停、阻止、隔离、恢复或升级处理。

第二个问题把监控变成了干预。

新的执行环境论文带来了什么?

这一组新研究为该领域提供了更清晰的词汇。

形式化方法论文关注的是时间上延展的行为约束:这些规则关心顺序、距离和序列,而不只是孤立事件。作者将形式化方法与机器学习结合,用于黑箱AI系统的离线审计和在线监控,其中包括LLM。1他们还提出了预测性监控器和干预性监控器,能够在执行环境中预先阻止或减轻预测到的违规。1

AgentForesight用代理术语命名了这种失败模式。论文指出,长周期多代理系统可能接受一个决定性错误,随后级联为轨迹级失败。2AgentForesight不是在轨迹结束后诊断哪个步骤应负责,而是让在线审计器只检查当前前缀,并在最早的决定性错误处选择继续或发出告警。2

AgentTrust工作在工具调用边界。它会在代理工具调用执行前进行拦截,并返回结构化裁决:允许、警告、阻止或审查。3这种形态很重要,因为文件操作、shell命令、HTTP请求和数据库查询都会产生真实副作用。3

AIR加入了事件响应层。论文认为,代理安全工作往往聚焦于事前预防失败,却对事件发生后的响应、隔离和恢复能力投入有限。4AIR将事件响应整合进代理执行循环:检测事件,指导隔离和恢复动作,并为未来运行生成防护规则。4

合在一起,这些论文改变了重心:

旧重心 新重心
最终答案看起来是否正确? 活跃轨迹是否始终处于约束之内?
日志是否解释了失败? 监控器是否在提交点前介入?
基准测试是否给已完成任务打分? 执行环境是否尽早捕捉决定性错误?
安全提示是否警告了模型? 策略层是否改变了下一步允许执行的动作?

这种转变符合真实的代理工作。副作用发生在运行过程中,而不是最终答案处。

什么算执行环境干预?

执行环境干预是指,当实时证据越过策略、安全、质量或风险阈值时,系统采取的有边界动作。

干预应比恐慌更克制,也比记录日志更有力。

干预 适用场景
继续 事件仍处于策略和预期计划之内。
警告 事件看起来异常,但可逆。
暂停 下一步需要人工或策略审查。
阻止 动作违反硬性规则。
隔离 运行只能在缩小后的沙箱或能力集合内继续。
恢复 系统执行已知的补偿路径。
升级处理 事件需要安全、产品或领域审查。

好的干预不是责备模型,而是改变执行环境状态。

一次干预应生成结构化记录:

字段 必需证据
运行 代理运行ID、任务、阶段和负责人。
事件 工具调用、网络请求、文件写入、审批请求或输出声明。
规则 被触发的策略或时序约束。
证据 追踪片段、参数、目标资源、先前事件和风险通道。
决策 继续、警告、暂停、阻止、隔离、恢复或升级处理。
下一步允许动作 决策后代理可以做什么。
人工路径 谁可以审查、覆盖或关闭事件。
结果 干预是阻止了、延迟了、修复了,还是未能起到帮助。

当另一位审查者能够查看事件,并理解执行环境为何改变方向时,监控器才会赢得信任。

为什么时序约束很重要?

许多代理失败都取决于顺序。

“未测试不得发布”不是某个单一命令的属性,而是发布动作与此前证据之间的关系。“读取不可信内容后不得发送外部网络流量”依赖序列。“迁移失败后不得写入生产环境”依赖先前的失败状态。“源验证失败后不得批准部署”同时依赖审批事件和验证事件。

线性时序逻辑让研究人员能够表达跨时间的约束:之前、之后、直到、最终以及永不。5月15日的形式化方法论文报告称,基于LTL的审计和监控技术在检测时间上延展的行为约束违规方面,优于LLM基线方法。1作者还报告称,在这种方法下,即使小模型标注器也能达到或超过前沿LLM评审器;同时,随着事件距离、约束数量和命题数量增加,LLM的时序推理能力会下降。1

生产环境中的启示,并不要求每个团队明天就上线完整的形式化方法技术栈。

更直接的启示很简单:编写能够理解序列的规则。

时序规则 执行环境含义
不可信抓取后,未经审查不得外部写入 如果不可信内容进入上下文,在出站前暂停。
测试和渲染检查通过前不得部署 缺少证据事件时阻止部署。
重复修复失败后不得执行破坏性命令 当恢复演变为升级时暂停。
范围变化后审批不得继续有效 当目标、工具或风险通道变化时,使授权过期。
必需证据缺失时不得完成 在证据存在前阻止最终回答。

这些约束要求执行环境记住足够多的历史,才能判断下一步。无状态提示无法可靠做到这一点。

执行环境监控应放在哪里?

执行环境监控应放在提交点上。

提交点是代理从可逆分析跨入外部影响的任何时刻:文件变更、数据库写入、网络出站、部署、发送消息、权限变更、付款、删除或公开发布。

OpenAI的Codex云文档给出了一个具体边界。Codex默认会在代理阶段阻止互联网访问,而设置脚本仍可使用互联网访问来安装依赖。6同一文档也警告,启用代理互联网访问会增加风险,包括来自不可信网页内容的提示注入、代码或密钥外泄、恶意软件或存在漏洞的依赖,以及受许可限制的内容。6文档还建议限制域名和HTTP方法,并指出将请求限制为GETHEADOPTIONS可以提供额外保护。6

这种策略形态应扩展到网络访问之外。

提交点 监控输入 可能的干预
Shell命令 命令、cwd、目标路径、先前失败 允许、重写、暂停或阻止。
文件写入 路径、diff大小、所有权、生成状态 继续、隔离或要求审查。
网络调用 方法、域名、来源上下文、负载类别 允许、要求审批或阻止。
数据库变更 表、行类别、环境、回滚路径 暂停以等待迁移证据。
公开发布 route、元数据、来源引用、翻译状态 在渲染检查通过前阻止。
审批请求 资源、风险、到期时间、先前拒绝 缩小范围或升级处理。

监控每个token会浪费注意力。监控提交点才能保护运行中错误最容易逃出转录文本的部分。

代理应如何体验干预?

代理应收到精确的状态更新,而不是含糊的斥责。

弱响应:

小心。这可能不安全。

更好的响应:

已阻止:读取不可信内容后发起外部POST。允许的下一步动作:总结风险,携带目标域名和负载类别请求操作员审批,或在不进行网络出站的情况下继续。

第二种响应给了代理一个安全的计划空间。它说明触发了什么、为什么该动作不能运行,以及还剩哪些替代方案。AgentTrust的裁决形态也指向这个方向:允许、警告、阻止或审查,并为高风险命令提供更安全的替代方案。3

执行环境干预应保留行动能力,但不保留危险。

代理仍然可以修复任务。它可以请求审批,可以更换工具,可以把工作拆成只读阶段,也可以生成证据包。执行环境只移除违反当前策略状态的动作。

人类应该看到什么?

人类应该看到一张干预卡片,而不是一次莫名其妙的暂停。

卡片字段 示例
状态 因执行环境干预而暂停
触发条件 读取不可信来源后进行外部写入
规则 不可信抓取后,未经审查不得出站
证据 已读取URL、拟访问域名、方法、负载类别
风险 密钥或源代码外泄
代理选项 继续只读、请求审批或移除出站
人工选项 一次性批准、拒绝、缩小范围或升级处理
审计 存储在运行ID和追踪指针下

这张卡片应与审批队列、追踪时间线和审查包属于同一产品体系。区别在于时机。审批询问计划动作是否可以继续。执行环境干预则说明监控器发现了实时模式,并因此改变了下一步允许执行的动作。

好的界面不应要求用户阅读完整转录文本才能理解暂停原因。卡片应指向真正相关的追踪片段。

团队应先构建什么?

从高价值提交点上的简单监控规则开始。

  1. 定义提交点。明确哪些工具调用和资源一旦出错就会离开本地会话。
  2. 创建类型化事件流。记录工具、参数、目标、结果、先前相关事件和运行状态。
  3. 编写序列感知规则。从反复重要的顺序关系开始:测试先于部署、审查先于出站、审批先于写入。
  4. 添加窄范围干预。优先选择暂停、阻止或隔离,而不是广泛关停。
  5. 返回结构化裁决。告诉代理触发了什么,以及哪些动作仍被允许。
  6. 展示干预卡片。向人类提供规则、证据、风险和下一步选项。
  7. 审查结果。提升真阳性规则,调整假阳性规则,淘汰噪声规则。

第一个版本可以朴素一些。工具边界上的少量确定性规则,往往胜过一个盯着每句话的泛化模型评审器。

更深入的版本可以加入预测性监控、LTL约束、学习型审计器和事件响应循环。但这些层应建立在事件流和干预语义已经可用之后。

值得采用的标准

如果每次暂停看起来都很严重、每个警告权重都一样,执行环境干预就会变成表演。

标准应保持克制:

  • 只在下一步动作确实重要时介入。
  • 说明触发的规则。
  • 展示证据。
  • 保留安全的下一步路径。
  • 记录结果。
  • 移除那些只制造噪声、却无法防止损害的规则。

好的监控保护工作本身。坏的监控只保护供应商的责任叙事。

代理执行环境不应最大化动作数量,而应最大化可问责的进展。有时,可问责的进展意味着让代理不受打断地继续。有时,则意味着拒绝下一步。

质量门槛就在于知道二者的区别。

快速总结

AI代理监控需要执行环境干预,因为代理失败发生在轨迹内部,而不只发生在终点。日志和追踪解释已经发生的事。可介入的监控器可以改变接下来会发生的事。

当前研究方向很清晰:形式化时序约束、在线审计器、工具调用裁决和事件响应循环,都在把监控推向主动控制。团队应从类型化事件流、提交点规则、结构化裁决、干预卡片和结果审查开始。目标不是更多告警,而是更少不可逆错误。

FAQ

什么是AI代理的执行环境干预?

执行环境干预是指,当实时证据越过策略、风险、安全或质量阈值时,系统改变正在进行的代理运行。干预可以让运行继续、发出警告、暂停、阻止、隔离、恢复或升级处理。

执行环境干预与可观测性有什么不同?

可观测性记录发生了什么。执行环境干预则在运行仍处于活跃状态时采取行动。同一条追踪可以同时支持二者,但干预还需要策略决策和允许的下一步动作。

每个代理动作都应经过监控器吗?

每个有意义的工具动作都应产生类型化事件。只有高价值提交点需要可中断规则。只读事件通常可以安静记录。具有副作用的事件则值得更严格监控。

团队必须先采用形式化方法吗?

不需要。团队可以从确定性的序列规则开始:测试前不得部署,不可信抓取后不得外部写入,重复修复失败后不得执行破坏性命令,缺少必需证据时不得最终完成。随着规则集扩大、时序关系难以人工检查,形式化方法会变得更有用。

什么样的执行环境干预值得信任?

值得信任的干预会说明规则、展示证据、限制下一步动作、记录结果,并为有权限的人类提供审查路径。含糊的警告并不算数。


参考文献


  1. Parand A. Alamdari, Toryn Q. Klassen, and Sheila A. McIlraith, “Formal Methods Meet LLMs: Auditing, Monitoring, and Intervention for Compliance of Advanced AI Systems,” arXiv:2605.16198v1,2026年5月15日提交。离线审计、在线执行环境监控、预测性监控、干预性监控器、线性时序逻辑约束、小模型标注器比较,以及时序推理退化相关主张的来源。 

  2. Boxuan Zhang, Jianing Zhu, Zeru Shi, Dongfang Liu, and Ruixiang Tang, “AgentForesight: Online Auditing for Early Failure Prediction in Multi-Agent Systems,” arXiv:2605.08715v2,2026年5月13日修订。活跃轨迹前缀上的在线审计、决定性错误告警、AFTraj-2K、步骤定位框架,以及部署时干预的来源。 

  3. Chenglin Yang, “AgentTrust: Runtime Safety Evaluation and Interception for AI Agent Tool Use,” arXiv:2605.04785v1,2026年5月6日提交。执行前工具调用拦截、结构化裁决、shell反混淆、SafeFix替代方案、RiskChain检测、基准范围、裁决准确率,以及MCP服务器集成的来源。 

  4. Zibo Xiao, Jun Sun, and Junjie Chen, “AIR: Improving Agent Safety through Incident Response,” arXiv:2602.11749v1,2026年2月12日提交。LLM代理执行循环内事件响应、语义事件检测、隔离和恢复动作、生成式防护规则,以及报告的检测、补救和清除成功率的来源。 

  5. OpenAI, “Running Codex safely at OpenAI,” OpenAI,2026年5月8日。Codex有边界执行、托管配置、网络策略、审批、OpenTelemetry事件导出、Compliance Platform日志,以及围绕Codex活动的安全分诊来源。 

  6. OpenAI Developers, “Agent internet access,” 访问日期:2026年5月18日。Codex云互联网访问默认设置、代理阶段网络阻断、提示注入和外泄风险、域名允许列表,以及HTTP方法限制的来源。 

相关文章

每次迭代都在削弱代码安全性

43.7%的LLM迭代链引入的漏洞比基线更多。添加SAST扫描器反而雪上加霜。SCAFFOLD-CEGIS将退化率降至2.1%。

2 分钟阅读

隐形代理:为何无法治理不可见之物

Anthropic悄然在用户Mac上部署了10GB虚拟机。代理可观测性需要三个层次:资源计量、策略执行和运行时审计。

3 分钟阅读

Ralph循环:我如何在夜间运行自主AI代理

我构建了一个使用停止钩子、生成预算和文件系统记忆的自主代理系统。以下是失败经验以及真正能交付代码的方法。

3 分钟阅读