AI代理监控需要执行环境干预
2026年5月15日,Parand A. Alamdari、Toryn Q. Klassen和Sheila A. McIlraith发表了一篇论文,指出AI治理需要离线审计、在线执行环境监控,以及能够在预测到的违规真正发生前介入的监控器。1
最后这个词很关键。
只能记录失败的监控有助于事后复盘。能够暂停、阻止、隔离或重定向代理的监控,则会在结果尚未定型时改变本次运行。
AI代理监控需要执行环境干预。日志、追踪、仪表盘和审批记录能为团队提供证据。执行环境干预则会在代理仍有机会避开错误动作时,把证据转化为决策。
摘要
如果AI代理监控只像事后取证一样工作,它就会失效。严肃的代理执行环境应当观察正在进行的轨迹,检测策略违规和决定性错误,并选择有边界的干预动作:继续、警告、暂停、阻止、隔离、恢复或升级处理。
近期研究从多个角度指向同一方向。形式化方法研究将时序逻辑用于执行环境监控和可介入的监控器。1AgentForesight把故障检测定义为轨迹结束前的在线审计。2AgentTrust会在高风险工具调用执行前拦截,并返回结构化裁决。3AIR把事件响应放入代理循环,使系统能够检测、隔离、恢复,并生成未来的防护规则。4
实际启示很明确:不要止步于可观测性。要构建执行环境中能够根据观察采取行动的那一部分。
关键要点
对于代理平台团队: - 将监控视为控制循环,而不只是仪表盘。 - 在代理接触高风险工具之前,先定义干预动作。
对于安全团队: - 从事后审查转向提交点上的在线检测。 - 每次干预都要记录规则、证据、决策和结果。
对于产品团队: - 将干预事件呈现为结构化审查对象。 - 让用户看到运行为何暂停、哪些证据触发了暂停,以及还剩哪些安全选项。
对于运营人员: - 相比只能事后解释损害的追踪,更应信任能够改变行为的追踪。 - 要问监控器能否阻止下一步错误动作,而不只是还原上一步发生了什么。
为什么AI代理监控总是来得太晚?
大多数监控是在代理已经采取行动之后才开始发挥作用。
日志可以显示代理运行了一个shell命令。追踪可以显示代理抓取了网页、调用了MCP服务器、写入了文件,或请求了审批。仪表盘可以显示网络策略拦截了某个域名。这些记录很重要,但它们不会自动改变下一步动作。
OpenAI关于Codex安全的文章描述了正确的证据基础:有边界的执行、托管配置、网络策略、审批,以及代理原生遥测。Codex可以导出OpenTelemetry事件,覆盖用户提示、工具审批决策、工具执行结果、MCP服务器使用情况,以及网络代理允许或拒绝事件。5OpenAI还介绍了如何将Codex日志与安全分诊代理结合使用,使审查者能够检查可疑端点告警周围的原始请求、工具活动、审批、工具结果和网络策略决策。5
这种可见性很重要。问题出现在可见性没有执行器的时候。
如果监控器发现代理读取了不可信内容,随后试图把数据发送到新的外部域名,系统不应只记录这一序列。系统应暂停运行或阻止请求。如果编码代理连续3次重试失败的迁移,然后提出一个破坏性更强的宽泛命令,执行环境不应等到最终审查才处理。执行环境应中断这条轨迹。
AI代理监控应同时回答两个问题:
| 问题 | 弱监控 | 强监控 |
|---|---|---|
| 发生了什么? | 在执行后记录事件。 | 在执行期间记录类型化事件。 |
| 下一步应发生什么? | 把判断留给之后的审查。 | 继续、警告、暂停、阻止、隔离、恢复或升级处理。 |
第二个问题把监控变成了干预。
新的执行环境论文带来了什么?
这一组新研究为该领域提供了更清晰的词汇。
形式化方法论文关注的是时间上延展的行为约束:这些规则关心顺序、距离和序列,而不只是孤立事件。作者将形式化方法与机器学习结合,用于黑箱AI系统的离线审计和在线监控,其中包括LLM。1他们还提出了预测性监控器和干预性监控器,能够在执行环境中预先阻止或减轻预测到的违规。1
AgentForesight用代理术语命名了这种失败模式。论文指出,长周期多代理系统可能接受一个决定性错误,随后级联为轨迹级失败。2AgentForesight不是在轨迹结束后诊断哪个步骤应负责,而是让在线审计器只检查当前前缀,并在最早的决定性错误处选择继续或发出告警。2
AgentTrust工作在工具调用边界。它会在代理工具调用执行前进行拦截,并返回结构化裁决:允许、警告、阻止或审查。3这种形态很重要,因为文件操作、shell命令、HTTP请求和数据库查询都会产生真实副作用。3
AIR加入了事件响应层。论文认为,代理安全工作往往聚焦于事前预防失败,却对事件发生后的响应、隔离和恢复能力投入有限。4AIR将事件响应整合进代理执行循环:检测事件,指导隔离和恢复动作,并为未来运行生成防护规则。4
合在一起,这些论文改变了重心:
| 旧重心 | 新重心 |
|---|---|
| 最终答案看起来是否正确? | 活跃轨迹是否始终处于约束之内? |
| 日志是否解释了失败? | 监控器是否在提交点前介入? |
| 基准测试是否给已完成任务打分? | 执行环境是否尽早捕捉决定性错误? |
| 安全提示是否警告了模型? | 策略层是否改变了下一步允许执行的动作? |
这种转变符合真实的代理工作。副作用发生在运行过程中,而不是最终答案处。
什么算执行环境干预?
执行环境干预是指,当实时证据越过策略、安全、质量或风险阈值时,系统采取的有边界动作。
干预应比恐慌更克制,也比记录日志更有力。
| 干预 | 适用场景 |
|---|---|
| 继续 | 事件仍处于策略和预期计划之内。 |
| 警告 | 事件看起来异常,但可逆。 |
| 暂停 | 下一步需要人工或策略审查。 |
| 阻止 | 动作违反硬性规则。 |
| 隔离 | 运行只能在缩小后的沙箱或能力集合内继续。 |
| 恢复 | 系统执行已知的补偿路径。 |
| 升级处理 | 事件需要安全、产品或领域审查。 |
好的干预不是责备模型,而是改变执行环境状态。
一次干预应生成结构化记录:
| 字段 | 必需证据 |
|---|---|
| 运行 | 代理运行ID、任务、阶段和负责人。 |
| 事件 | 工具调用、网络请求、文件写入、审批请求或输出声明。 |
| 规则 | 被触发的策略或时序约束。 |
| 证据 | 追踪片段、参数、目标资源、先前事件和风险通道。 |
| 决策 | 继续、警告、暂停、阻止、隔离、恢复或升级处理。 |
| 下一步允许动作 | 决策后代理可以做什么。 |
| 人工路径 | 谁可以审查、覆盖或关闭事件。 |
| 结果 | 干预是阻止了、延迟了、修复了,还是未能起到帮助。 |
当另一位审查者能够查看事件,并理解执行环境为何改变方向时,监控器才会赢得信任。
为什么时序约束很重要?
许多代理失败都取决于顺序。
“未测试不得发布”不是某个单一命令的属性,而是发布动作与此前证据之间的关系。“读取不可信内容后不得发送外部网络流量”依赖序列。“迁移失败后不得写入生产环境”依赖先前的失败状态。“源验证失败后不得批准部署”同时依赖审批事件和验证事件。
线性时序逻辑让研究人员能够表达跨时间的约束:之前、之后、直到、最终以及永不。5月15日的形式化方法论文报告称,基于LTL的审计和监控技术在检测时间上延展的行为约束违规方面,优于LLM基线方法。1作者还报告称,在这种方法下,即使小模型标注器也能达到或超过前沿LLM评审器;同时,随着事件距离、约束数量和命题数量增加,LLM的时序推理能力会下降。1
生产环境中的启示,并不要求每个团队明天就上线完整的形式化方法技术栈。
更直接的启示很简单:编写能够理解序列的规则。
| 时序规则 | 执行环境含义 |
|---|---|
| 不可信抓取后,未经审查不得外部写入 | 如果不可信内容进入上下文,在出站前暂停。 |
| 测试和渲染检查通过前不得部署 | 缺少证据事件时阻止部署。 |
| 重复修复失败后不得执行破坏性命令 | 当恢复演变为升级时暂停。 |
| 范围变化后审批不得继续有效 | 当目标、工具或风险通道变化时,使授权过期。 |
| 必需证据缺失时不得完成 | 在证据存在前阻止最终回答。 |
这些约束要求执行环境记住足够多的历史,才能判断下一步。无状态提示无法可靠做到这一点。
执行环境监控应放在哪里?
执行环境监控应放在提交点上。
提交点是代理从可逆分析跨入外部影响的任何时刻:文件变更、数据库写入、网络出站、部署、发送消息、权限变更、付款、删除或公开发布。
OpenAI的Codex云文档给出了一个具体边界。Codex默认会在代理阶段阻止互联网访问,而设置脚本仍可使用互联网访问来安装依赖。6同一文档也警告,启用代理互联网访问会增加风险,包括来自不可信网页内容的提示注入、代码或密钥外泄、恶意软件或存在漏洞的依赖,以及受许可限制的内容。6文档还建议限制域名和HTTP方法,并指出将请求限制为GET、HEAD和OPTIONS可以提供额外保护。6
这种策略形态应扩展到网络访问之外。
| 提交点 | 监控输入 | 可能的干预 |
|---|---|---|
| Shell命令 | 命令、cwd、目标路径、先前失败 | 允许、重写、暂停或阻止。 |
| 文件写入 | 路径、diff大小、所有权、生成状态 | 继续、隔离或要求审查。 |
| 网络调用 | 方法、域名、来源上下文、负载类别 | 允许、要求审批或阻止。 |
| 数据库变更 | 表、行类别、环境、回滚路径 | 暂停以等待迁移证据。 |
| 公开发布 | route、元数据、来源引用、翻译状态 | 在渲染检查通过前阻止。 |
| 审批请求 | 资源、风险、到期时间、先前拒绝 | 缩小范围或升级处理。 |
监控每个token会浪费注意力。监控提交点才能保护运行中错误最容易逃出转录文本的部分。
代理应如何体验干预?
代理应收到精确的状态更新,而不是含糊的斥责。
弱响应:
小心。这可能不安全。
更好的响应:
已阻止:读取不可信内容后发起外部
POST。允许的下一步动作:总结风险,携带目标域名和负载类别请求操作员审批,或在不进行网络出站的情况下继续。
第二种响应给了代理一个安全的计划空间。它说明触发了什么、为什么该动作不能运行,以及还剩哪些替代方案。AgentTrust的裁决形态也指向这个方向:允许、警告、阻止或审查,并为高风险命令提供更安全的替代方案。3
执行环境干预应保留行动能力,但不保留危险。
代理仍然可以修复任务。它可以请求审批,可以更换工具,可以把工作拆成只读阶段,也可以生成证据包。执行环境只移除违反当前策略状态的动作。
人类应该看到什么?
人类应该看到一张干预卡片,而不是一次莫名其妙的暂停。
| 卡片字段 | 示例 |
|---|---|
| 状态 | 因执行环境干预而暂停 |
| 触发条件 | 读取不可信来源后进行外部写入 |
| 规则 | 不可信抓取后,未经审查不得出站 |
| 证据 | 已读取URL、拟访问域名、方法、负载类别 |
| 风险 | 密钥或源代码外泄 |
| 代理选项 | 继续只读、请求审批或移除出站 |
| 人工选项 | 一次性批准、拒绝、缩小范围或升级处理 |
| 审计 | 存储在运行ID和追踪指针下 |
这张卡片应与审批队列、追踪时间线和审查包属于同一产品体系。区别在于时机。审批询问计划动作是否可以继续。执行环境干预则说明监控器发现了实时模式,并因此改变了下一步允许执行的动作。
好的界面不应要求用户阅读完整转录文本才能理解暂停原因。卡片应指向真正相关的追踪片段。
团队应先构建什么?
从高价值提交点上的简单监控规则开始。
- 定义提交点。明确哪些工具调用和资源一旦出错就会离开本地会话。
- 创建类型化事件流。记录工具、参数、目标、结果、先前相关事件和运行状态。
- 编写序列感知规则。从反复重要的顺序关系开始:测试先于部署、审查先于出站、审批先于写入。
- 添加窄范围干预。优先选择暂停、阻止或隔离,而不是广泛关停。
- 返回结构化裁决。告诉代理触发了什么,以及哪些动作仍被允许。
- 展示干预卡片。向人类提供规则、证据、风险和下一步选项。
- 审查结果。提升真阳性规则,调整假阳性规则,淘汰噪声规则。
第一个版本可以朴素一些。工具边界上的少量确定性规则,往往胜过一个盯着每句话的泛化模型评审器。
更深入的版本可以加入预测性监控、LTL约束、学习型审计器和事件响应循环。但这些层应建立在事件流和干预语义已经可用之后。
值得采用的标准
如果每次暂停看起来都很严重、每个警告权重都一样,执行环境干预就会变成表演。
标准应保持克制:
- 只在下一步动作确实重要时介入。
- 说明触发的规则。
- 展示证据。
- 保留安全的下一步路径。
- 记录结果。
- 移除那些只制造噪声、却无法防止损害的规则。
好的监控保护工作本身。坏的监控只保护供应商的责任叙事。
代理执行环境不应最大化动作数量,而应最大化可问责的进展。有时,可问责的进展意味着让代理不受打断地继续。有时,则意味着拒绝下一步。
质量门槛就在于知道二者的区别。
快速总结
AI代理监控需要执行环境干预,因为代理失败发生在轨迹内部,而不只发生在终点。日志和追踪解释已经发生的事。可介入的监控器可以改变接下来会发生的事。
当前研究方向很清晰:形式化时序约束、在线审计器、工具调用裁决和事件响应循环,都在把监控推向主动控制。团队应从类型化事件流、提交点规则、结构化裁决、干预卡片和结果审查开始。目标不是更多告警,而是更少不可逆错误。
FAQ
什么是AI代理的执行环境干预?
执行环境干预是指,当实时证据越过策略、风险、安全或质量阈值时,系统改变正在进行的代理运行。干预可以让运行继续、发出警告、暂停、阻止、隔离、恢复或升级处理。
执行环境干预与可观测性有什么不同?
可观测性记录发生了什么。执行环境干预则在运行仍处于活跃状态时采取行动。同一条追踪可以同时支持二者,但干预还需要策略决策和允许的下一步动作。
每个代理动作都应经过监控器吗?
每个有意义的工具动作都应产生类型化事件。只有高价值提交点需要可中断规则。只读事件通常可以安静记录。具有副作用的事件则值得更严格监控。
团队必须先采用形式化方法吗?
不需要。团队可以从确定性的序列规则开始:测试前不得部署,不可信抓取后不得外部写入,重复修复失败后不得执行破坏性命令,缺少必需证据时不得最终完成。随着规则集扩大、时序关系难以人工检查,形式化方法会变得更有用。
什么样的执行环境干预值得信任?
值得信任的干预会说明规则、展示证据、限制下一步动作、记录结果,并为有权限的人类提供审查路径。含糊的警告并不算数。
参考文献
-
Parand A. Alamdari, Toryn Q. Klassen, and Sheila A. McIlraith, “Formal Methods Meet LLMs: Auditing, Monitoring, and Intervention for Compliance of Advanced AI Systems,” arXiv:2605.16198v1,2026年5月15日提交。离线审计、在线执行环境监控、预测性监控、干预性监控器、线性时序逻辑约束、小模型标注器比较,以及时序推理退化相关主张的来源。 ↩↩↩↩↩↩
-
Boxuan Zhang, Jianing Zhu, Zeru Shi, Dongfang Liu, and Ruixiang Tang, “AgentForesight: Online Auditing for Early Failure Prediction in Multi-Agent Systems,” arXiv:2605.08715v2,2026年5月13日修订。活跃轨迹前缀上的在线审计、决定性错误告警、AFTraj-2K、步骤定位框架,以及部署时干预的来源。 ↩↩↩
-
Chenglin Yang, “AgentTrust: Runtime Safety Evaluation and Interception for AI Agent Tool Use,” arXiv:2605.04785v1,2026年5月6日提交。执行前工具调用拦截、结构化裁决、shell反混淆、SafeFix替代方案、RiskChain检测、基准范围、裁决准确率,以及MCP服务器集成的来源。 ↩↩↩↩
-
Zibo Xiao, Jun Sun, and Junjie Chen, “AIR: Improving Agent Safety through Incident Response,” arXiv:2602.11749v1,2026年2月12日提交。LLM代理执行循环内事件响应、语义事件检测、隔离和恢复动作、生成式防护规则,以及报告的检测、补救和清除成功率的来源。 ↩↩↩
-
OpenAI, “Running Codex safely at OpenAI,” OpenAI,2026年5月8日。Codex有边界执行、托管配置、网络策略、审批、OpenTelemetry事件导出、Compliance Platform日志,以及围绕Codex活动的安全分诊来源。 ↩↩
-
OpenAI Developers, “Agent internet access,” 访问日期:2026年5月18日。Codex云互联网访问默认设置、代理阶段网络阻断、提示注入和外泄风险、域名允许列表,以及HTTP方法限制的来源。 ↩↩↩