智能体执行追踪是执行环境契约
三篇新的智能体论文从不同角度提出了同一个判断:最终答案是最不值得单独信任的单元。SHEPHERD把智能体执行转化为类型化、可分叉的追踪。AI工作流商店认为,重复性的智能体工作应作为经过工程化设计的可复用工作流运行,而不是临场拼凑计划。WildClawBench则在带有真实工具的原生命令行执行环境中评估智能体,审计副作用并检查执行轨迹,而不是只看最终答案。123
智能体可靠性如今存在于执行追踪、工作流产物和执行环境评估器之中。聊天记录可以解释智能体声称自己做了什么。追踪能显示它触碰了什么。工作流能约束它下次可以做什么。原生执行环境基准测试则能衡量模型、工具、状态和控制循环是否真正协同工作。
我之前已经论述过,托管智能体正在吸收执行环境基础设施。我也写过,清理层才是真正的AI智能体市场。本文的范围更窄:支撑这两个论点的底层契约,是智能体的执行记录。如果无法检查、分叉、重放、复用并评估追踪,就还没有一个能在规模化场景中被信任的智能体系统。
相邻几篇文章分别讨论控制界面、证据关口和技能循环:聊天不是AI智能体的正确界面、证据关口和静态技能就是失效技能。追踪契约位于这三者之下。
太长不读
智能体系统正在远离只评估最终答案的方式。SHEPHERD把每一次智能体与环境的交互记录为Git式追踪中的类型化事件,早期状态可以被分叉和重放。1AI工作流商店提出可复用、经过加固的工作流,把恰当设计、测试、对抗评估和分阶段发布的成本摊销到许多用户身上,而不是在每次提示时重新付出。2WildClawBench说明了执行环境为何重要:它的60个长程任务运行在真实CLI智能体执行环境中,使用真实工具,平均大约需要8分钟和20多次工具调用,并采用混合评分方式审计产物和环境副作用。3
实际转变是:不要只问答案是否正确。还要问追踪是否可检查,工作流是否可复用,评估是否发生在智能体实际工作的执行环境里。
关键要点
对智能体构建者: - 把执行追踪视为产品契约。用另一个进程可以检查的结构,记录工具调用、参数、退出状态、文件变更、副作用和决策点。 - 将重复的高风险任务提升为经过审查的工作流。探索阶段可以即兴发挥;重复工作应拥有带测试和约束的可复用产物。
对评估团队: - 评估模型加执行环境,而不是孤立评估模型。WildClawBench报告称,仅更换CLI执行环境,就可能让同一个模型的得分最多变化18分。3 - 将确定性检查与语义判断分开。文件是否存在、格式是否有效、工作区是否干净、服务副作用是否正确,不应依赖LLM裁判。3
对运营方: - 如果供应商无法展示追踪,不要购买所谓的“智能体可靠性”。聊天记录、diff或一句成功说明都不够。 - 让本地判断规则贴近产品。托管追踪可以显示发生了什么;但它不能决定什么值得发布。
为什么最终答案太弱?
最终答案压缩掉了不该被压缩的信息。
智能体可以声称测试已通过,却没有运行测试。它可以描述一次迁移,却没有读取下游调用方。它也可能通过一条触碰了用户从未打算暴露的数据的工具路径,生成看似正确的最终产物。答案看起来干净,但执行路径可能仍然不安全、浪费,或者无法复现。
这正是先奖励工具,再奖励答案中的核心论点:缺少背后的工具证据时,答案本身无法可靠评分。近期研究把同一思想推进到完成报告之下。追踪本身成为其他智能体、评分器和运营方需要检查的对象。
WildClawBench给这个问题命名了基准测试侧的版本。作者认为,许多智能体基准测试仍然依赖合成沙箱、短任务、模拟API和最终答案检查。相反,他们的基准测试在Docker容器中运行真实CLI智能体,并在智能体退出后评估生成的产物、环境状态和语义标准。3这种差异很重要,因为长程工作往往失败于副作用和执行环境选择,而不只是错误文本。
SHEPHERD增加了什么?
SHEPHERD把一次智能体执行视为另一个智能体可以操作的一等对象。1
论文将元智能体定义为监督、优化或训练其他智能体的高阶智能体。这些元智能体需要的不只是聊天记录。它们需要在执行发生时读取执行过程,在风险回合之前分叉,从早期状态重放,并在不污染父运行的情况下比较不同分支。
SHEPHERD提供了这样的底座。执行环境会把每一次智能体与环境的交互记录为Git式执行追踪中的类型化事件。每个动作都会成为提交图的一部分。元智能体可以订阅类型化事件流,检出早期提交,分叉一个作用域,重放后缀,并合并它想要的分支。1
这种追踪承载了普通聊天日志没有的语义承诺:
| 属性 | 为什么重要 |
|---|---|
| 类型化事件 | 监督器可以基于操作推理,而不是解析散文。 |
| 精确回退 | 失败路径可以回到已知的先前状态。 |
| 隔离分叉 | 替代分支不能把变更泄漏回父运行。 |
| 重放 | 评分器可以只重新运行受影响的后缀,而不是从头开始。 |
| 缓存复用 | 分支成本足够低,才能用于真实智能体工作。 |
报告中的数字让这个底座更具体。作者的基准测试显示,SHEPHERD分叉智能体进程和文件系统的速度快于Docker,并在重放时实现了95%以上的提示缓存复用。在他们的示例中,实时监督器把CooperBench联合通过率从28.8%提升到54.7%;Tree-RL设置则在报告配置中把TerminalBench-2性能从34.2%提升到39.4%。1
不要把这些数字过度解读为通用生产保证。重点在于形态:当执行环境让另一个进程以结构化方式访问执行过程,而不只是给出最终结果时,监督、优化和训练都会得到改善。
AI工作流商店增加了什么?
AI工作流商店论文从复用角度处理同一个可靠性问题。2
作者认为,常见智能体循环要求模型在几秒或几分钟内合成并执行计划。这种速度会绕过让传统软件尚可接受的流程:需求工作、设计、测试、对抗评估、分阶段部署、监控和反馈。论文认为,许多临场智能体执行更接近即兴原型,而不是生产级系统。2
他们提出的答案不是“让模型思考更久”。答案是共享的、经过加固的可复用工作流商店。当存在经过审查的工作流时,智能体应将用户请求匹配到该工作流,根据用户细节进行参数化,然后执行这个受约束的工作流,而不是每次都发明一条新的工具链。2
这个想法让技能讨论更清晰。一个只写着“这里是如何做X”的技能文件,仍然把过多即兴空间留在执行环境中。工作流商店要求的是更强的产物:
| 较弱产物 | 更强产物 |
|---|---|
| 提示模式 | 参数化工作流 |
| 某个用户的变通办法 | 可复用能力 |
| 尽力而为的工具计划 | 带约束的已测试序列 |
| 安全指令 | 确定性边界 |
| 每次提示的成本 | 摊销后的工程成本 |
论文的关键经济主张很务实:严谨工程可能比一次临场运行花费更多时间和计算,因此成本必须通过用户和重复请求来摊销。2这个论点符合严肃智能体工作的真实感受。第一次处理高风险工作流时,需要探索。到第二次、第三次时,就不应再从头探索整个流程。
WildClawBench增加了什么?
WildClawBench给出了这个契约的评估版本。3
该基准测试包含60个人工编写的任务,覆盖6个类别,并包含双语和多模态工作。每个任务都运行在可复现的Docker容器中,容器托管OpenClaw、Claude Code、Codex或Hermes Agent等真实CLI执行环境。任务使用真实工具,而不是模拟服务API。作者报告称,每次运行平均大约8分钟,工具调用超过20次。3
评分设计比排行榜更重要。WildClawBench结合了确定性产物检查、针对副作用的环境状态审计,并且只在语义验证需要时使用LLM/VLM裁判。基准测试会在智能体退出后才提供仅供评分使用的资产,防止智能体在执行期间看到答案。3
主要结果是:报告中的最佳配置整体达到62.2%,OpenClaw运行中的其他模型都低于60%;切换执行环境可让某个模型的分数最多变化18分。3论文的结论由此成立:执行环境是被评估系统的一部分。模型本身不是产品。
这个结果应让团队更谨慎地看待智能体基准测试。短任务、合成环境、只看最终答案的高分,并不能回答大多数运营方真正关心的问题:智能体能否在实际执行环境中,使用实际工具,完成长任务,并让环境保持在预期状态?
契约是什么?
把三篇论文放在一起,契约就很清楚了。
| 层级 | 产物 | 它回答的问题 |
|---|---|---|
| 执行 | 类型化追踪 | 智能体按什么顺序做了什么,产生了哪些副作用? |
| 复用 | 工作流产物 | 重复工作是走经过审查的路径,还是每次重新即兴发挥? |
| 评估 | 原生执行环境基准测试 | 模型加执行环境能否在真实工具约束下完成现实工作? |
| 判断 | 产品标准 | 经过验证的输出是否值得发布? |
每一层都防止一种不同的谎言。
追踪防止智能体把缺失的工具调用包装成合理答案。工作流防止重复任务永远假装自己需要重新即兴发挥。原生执行环境基准测试防止模型得分假装执行环境不重要。产品标准防止经过验证的产物只因为通过检查就假装值得发布。
最后一层仍然重要。追踪可以证明发生了什么。工作流可以约束会发生什么。基准测试可以衡量任务完成情况。但这些层都不能决定结果是否尊重用户、产品和工作背后的标准。这个判断仍然属于团队。
运营方现在应改变什么?
从追踪完整性开始。
如果执行环境无法生成工具调用、参数、退出码、文件变更、派生智能体和输出产物的结构化记录,请先修复这一点,再增加更多自主性。薄弱追踪会让所有下游声明都变得昂贵而难以验证。
然后,将追踪评分与答案评分分开。若完成报告声称测试已通过,应先证明测试命令确实运行并成功退出。若报告提到某个已变更文件,应证明该文件被读取或写入。若报告总结外部动作,应证明该动作的副作用符合预期状态。只有在追踪支撑声明之后,才应判断答案质量。
接下来,识别重复工作流。每个反复出现的智能体任务都应带着一个提升问题:下一次运行是否值得拥有可复用的工作流产物?源代码扫描、指南刷新、翻译发布、依赖更新、事故分诊和内容发布,都会在执行环境停止重新发明序列后变得更好。
最后,在实际发布的执行环境中评估。模拟工具和合成任务在开发期间仍然有用,但不应承担发布决策。发布决策需要面对真实智能体将遇到的同一组工具边界、文件系统状态、时间预算和副作用检查。
快速总结
智能体追踪正在成为可靠性契约。SHEPHERD表明,当执行环境暴露类型化、可重放的追踪时,元智能体可以监督并分支执行。AI工作流商店认为,重复工作应从临场即兴转向可复用的工程化工作流。WildClawBench显示,原生执行环境、工具、副作用和轨迹审计会实质性改变测得的性能。最终答案仍然重要,但它位于契约末端,而不是中心。
常见问题
执行追踪和可观测性是一回事吗?
不是。可观测性告诉运营方发生了什么。达到契约质量的执行追踪,还必须具备足够结构,让另一个进程可以检查、分叉、重放和评分。日志帮助人类调试。类型化追踪让监督器、评估器和工作流构建器可以直接操作执行过程。
SHEPHERD会自动让智能体安全吗?
不会。SHEPHERD提供观察、分叉、重放和元智能体干预的底座。糟糕的监督器仍然会做出糟糕决策。收益在于,监督器可以基于结构化执行对象行动,而不是解析聊天记录。
AI工作流商店是否意味着智能体永远不应即兴发挥?
不是。当不存在经过审查的工作流,或任务确实新颖时,智能体仍然需要探索。关键在于提升。一旦任务反复出现且具有真实风险,系统就应把成功路径转化为带约束、测试和维护机制的可复用工作流。
WildClawBench是否证明某个智能体执行环境最好?
没有。WildClawBench表明,在其任务集和实验设置下,执行环境选择会实质性改变测得性能。应把它视为执行环境必须纳入评估的证据,而不是产品的永久排名。
团队应该先构建什么?
先构建追踪。然后添加拒绝无依据声明的关口。再把重复工作提升为工作流。没有可信追踪的花哨编排,只会让失败更难还原。
参考文献
-
Simon Yu, Derek Chong, Ananjan Nandi, Dilara Soylu, Jiuding Sun, Christopher D. Manning, and Weiyan Shi, “SHEPHERD: A Runtime Substrate Empowering Meta-Agents with a Formalized Execution Trace,” arXiv:2605.10913v1, 2026年5月11日。SHEPHERD的主要来源,涵盖类型化Git式执行追踪、分叉/重放语义、Lean机械化核心操作、分叉与提示缓存复用测量、CooperBench结果和TerminalBench-2结果。 ↩↩↩↩↩
-
Roxana Geambasu, Mariana Raykova, Pierre Tholoniat, Trishita Tiwari, Lillian Tsai, and Wen Zhang, “Engineering Robustness into Personal Agents with the AI Workflow Store,” arXiv:2605.10907v1, 2026年5月11日。临场智能体循环批评、AI工作流商店提案、加固型可复用工作流框架、软件工程生命周期要求和摊销复用论点的主要来源。 ↩↩↩↩↩↩
-
Shuangrui Ding et al., “WildClawBench: A Benchmark for Real-World, Long-Horizon Agent Evaluation,” arXiv:2605.10912v1, 2026年5月11日。60任务原生执行环境基准测试、双语和多模态任务组合、真实CLI执行环境、大约8分钟和20多次工具调用平均值、混合评分设计、62.2%最高报告分数以及框架选择导致分数变化的主要来源。 ↩↩↩↩↩↩↩↩↩