智能体执行追踪是执行环境契约

三篇新的智能体论文从不同角度提出了同一个判断：最终答案是最不值得单独信任的单元。SHEPHERD把智能体执行转化为类型化、可分叉的追踪。AI工作流商店认为，重复性的智能体工作应作为经过工程化设计的可复用工作流运行，而不是临场拼凑计划。WildClawBench则在带有真实工具的原生命令行执行环境中评估智能体，审计副作用并检查执行轨迹，而不是只看最终答案。¹²³

智能体可靠性如今存在于执行追踪、工作流产物和执行环境评估器之中。聊天记录可以解释智能体声称自己做了什么。追踪能显示它触碰了什么。工作流能约束它下次可以做什么。原生执行环境基准测试则能衡量模型、工具、状态和控制循环是否真正协同工作。

我之前已经论述过，托管智能体正在吸收执行环境基础设施。我也写过，清理层才是真正的AI智能体市场。本文的范围更窄：支撑这两个论点的底层契约，是智能体的执行记录。如果无法检查、分叉、重放、复用并评估追踪，就还没有一个能在规模化场景中被信任的智能体系统。

相邻几篇文章分别讨论控制界面、证据关口和技能循环：聊天不是AI智能体的正确界面、证据关口和静态技能就是失效技能。追踪契约位于这三者之下。

太长不读

智能体系统正在远离只评估最终答案的方式。SHEPHERD把每一次智能体与环境的交互记录为Git式追踪中的类型化事件，早期状态可以被分叉和重放。¹AI工作流商店提出可复用、经过加固的工作流，把恰当设计、测试、对抗评估和分阶段发布的成本摊销到许多用户身上，而不是在每次提示时重新付出。²WildClawBench说明了执行环境为何重要：它的60个长程任务运行在真实CLI智能体执行环境中，使用真实工具，平均大约需要8分钟和20多次工具调用，并采用混合评分方式审计产物和环境副作用。³

实际转变是：不要只问答案是否正确。还要问追踪是否可检查，工作流是否可复用，评估是否发生在智能体实际工作的执行环境里。

关键要点

对智能体构建者： - 把执行追踪视为产品契约。用另一个进程可以检查的结构，记录工具调用、参数、退出状态、文件变更、副作用和决策点。 - 将重复的高风险任务提升为经过审查的工作流。探索阶段可以即兴发挥；重复工作应拥有带测试和约束的可复用产物。

对评估团队： - 评估模型加执行环境，而不是孤立评估模型。WildClawBench报告称，仅更换CLI执行环境，就可能让同一个模型的得分最多变化18分。³ - 将确定性检查与语义判断分开。文件是否存在、格式是否有效、工作区是否干净、服务副作用是否正确，不应依赖LLM裁判。³

对运营方： - 如果供应商无法展示追踪，不要购买所谓的“智能体可靠性”。聊天记录、diff或一句成功说明都不够。 - 让本地判断规则贴近产品。托管追踪可以显示发生了什么；但它不能决定什么值得发布。

为什么最终答案太弱？

最终答案压缩掉了不该被压缩的信息。

智能体可以声称测试已通过，却没有运行测试。它可以描述一次迁移，却没有读取下游调用方。它也可能通过一条触碰了用户从未打算暴露的数据的工具路径，生成看似正确的最终产物。答案看起来干净，但执行路径可能仍然不安全、浪费，或者无法复现。

这正是先奖励工具，再奖励答案中的核心论点：缺少背后的工具证据时，答案本身无法可靠评分。近期研究把同一思想推进到完成报告之下。追踪本身成为其他智能体、评分器和运营方需要检查的对象。

WildClawBench给这个问题命名了基准测试侧的版本。作者认为，许多智能体基准测试仍然依赖合成沙箱、短任务、模拟API和最终答案检查。相反，他们的基准测试在Docker容器中运行真实CLI智能体，并在智能体退出后评估生成的产物、环境状态和语义标准。³这种差异很重要，因为长程工作往往失败于副作用和执行环境选择，而不只是错误文本。

SHEPHERD增加了什么？

SHEPHERD把一次智能体执行视为另一个智能体可以操作的一等对象。¹

论文将元智能体定义为监督、优化或训练其他智能体的高阶智能体。这些元智能体需要的不只是聊天记录。它们需要在执行发生时读取执行过程，在风险回合之前分叉，从早期状态重放，并在不污染父运行的情况下比较不同分支。

SHEPHERD提供了这样的底座。执行环境会把每一次智能体与环境的交互记录为Git式执行追踪中的类型化事件。每个动作都会成为提交图的一部分。元智能体可以订阅类型化事件流，检出早期提交，分叉一个作用域，重放后缀，并合并它想要的分支。¹

这种追踪承载了普通聊天日志没有的语义承诺：

属性	为什么重要
类型化事件	监督器可以基于操作推理，而不是解析散文。
精确回退	失败路径可以回到已知的先前状态。
隔离分叉	替代分支不能把变更泄漏回父运行。
重放	评分器可以只重新运行受影响的后缀，而不是从头开始。
缓存复用	分支成本足够低，才能用于真实智能体工作。

报告中的数字让这个底座更具体。作者的基准测试显示，SHEPHERD分叉智能体进程和文件系统的速度快于Docker，并在重放时实现了95%以上的提示缓存复用。在他们的示例中，实时监督器把CooperBench联合通过率从28.8%提升到54.7%；Tree-RL设置则在报告配置中把TerminalBench-2性能从34.2%提升到39.4%。¹

不要把这些数字过度解读为通用生产保证。重点在于形态：当执行环境让另一个进程以结构化方式访问执行过程，而不只是给出最终结果时，监督、优化和训练都会得到改善。

AI工作流商店增加了什么？

AI工作流商店论文从复用角度处理同一个可靠性问题。²

作者认为，常见智能体循环要求模型在几秒或几分钟内合成并执行计划。这种速度会绕过让传统软件尚可接受的流程：需求工作、设计、测试、对抗评估、分阶段部署、监控和反馈。论文认为，许多临场智能体执行更接近即兴原型，而不是生产级系统。²

他们提出的答案不是“让模型思考更久”。答案是共享的、经过加固的可复用工作流商店。当存在经过审查的工作流时，智能体应将用户请求匹配到该工作流，根据用户细节进行参数化，然后执行这个受约束的工作流，而不是每次都发明一条新的工具链。²

这个想法让技能讨论更清晰。一个只写着“这里是如何做X”的技能文件，仍然把过多即兴空间留在执行环境中。工作流商店要求的是更强的产物：

较弱产物	更强产物
提示模式	参数化工作流
某个用户的变通办法	可复用能力
尽力而为的工具计划	带约束的已测试序列
安全指令	确定性边界
每次提示的成本	摊销后的工程成本

论文的关键经济主张很务实：严谨工程可能比一次临场运行花费更多时间和计算，因此成本必须通过用户和重复请求来摊销。²这个论点符合严肃智能体工作的真实感受。第一次处理高风险工作流时，需要探索。到第二次、第三次时，就不应再从头探索整个流程。

WildClawBench增加了什么？

WildClawBench给出了这个契约的评估版本。³

该基准测试包含60个人工编写的任务，覆盖6个类别，并包含双语和多模态工作。每个任务都运行在可复现的Docker容器中，容器托管OpenClaw、Claude Code、Codex或Hermes Agent等真实CLI执行环境。任务使用真实工具，而不是模拟服务API。作者报告称，每次运行平均大约8分钟，工具调用超过20次。³

评分设计比排行榜更重要。WildClawBench结合了确定性产物检查、针对副作用的环境状态审计，并且只在语义验证需要时使用LLM/VLM裁判。基准测试会在智能体退出后才提供仅供评分使用的资产，防止智能体在执行期间看到答案。³

主要结果是：报告中的最佳配置整体达到62.2%，OpenClaw运行中的其他模型都低于60%；切换执行环境可让某个模型的分数最多变化18分。³论文的结论由此成立：执行环境是被评估系统的一部分。模型本身不是产品。

这个结果应让团队更谨慎地看待智能体基准测试。短任务、合成环境、只看最终答案的高分，并不能回答大多数运营方真正关心的问题：智能体能否在实际执行环境中，使用实际工具，完成长任务，并让环境保持在预期状态？

契约是什么？

把三篇论文放在一起，契约就很清楚了。

层级	产物	它回答的问题
执行	类型化追踪	智能体按什么顺序做了什么，产生了哪些副作用？
复用	工作流产物	重复工作是走经过审查的路径，还是每次重新即兴发挥？
评估	原生执行环境基准测试	模型加执行环境能否在真实工具约束下完成现实工作？
判断	产品标准	经过验证的输出是否值得发布？

每一层都防止一种不同的谎言。

追踪防止智能体把缺失的工具调用包装成合理答案。工作流防止重复任务永远假装自己需要重新即兴发挥。原生执行环境基准测试防止模型得分假装执行环境不重要。产品标准防止经过验证的产物只因为通过检查就假装值得发布。

最后一层仍然重要。追踪可以证明发生了什么。工作流可以约束会发生什么。基准测试可以衡量任务完成情况。但这些层都不能决定结果是否尊重用户、产品和工作背后的标准。这个判断仍然属于团队。

运营方现在应改变什么？

从追踪完整性开始。

如果执行环境无法生成工具调用、参数、退出码、文件变更、派生智能体和输出产物的结构化记录，请先修复这一点，再增加更多自主性。薄弱追踪会让所有下游声明都变得昂贵而难以验证。

然后，将追踪评分与答案评分分开。若完成报告声称测试已通过，应先证明测试命令确实运行并成功退出。若报告提到某个已变更文件，应证明该文件被读取或写入。若报告总结外部动作，应证明该动作的副作用符合预期状态。只有在追踪支撑声明之后，才应判断答案质量。

接下来，识别重复工作流。每个反复出现的智能体任务都应带着一个提升问题：下一次运行是否值得拥有可复用的工作流产物？源代码扫描、指南刷新、翻译发布、依赖更新、事故分诊和内容发布，都会在执行环境停止重新发明序列后变得更好。

最后，在实际发布的执行环境中评估。模拟工具和合成任务在开发期间仍然有用，但不应承担发布决策。发布决策需要面对真实智能体将遇到的同一组工具边界、文件系统状态、时间预算和副作用检查。

快速总结

智能体追踪正在成为可靠性契约。SHEPHERD表明，当执行环境暴露类型化、可重放的追踪时，元智能体可以监督并分支执行。AI工作流商店认为，重复工作应从临场即兴转向可复用的工程化工作流。WildClawBench显示，原生执行环境、工具、副作用和轨迹审计会实质性改变测得的性能。最终答案仍然重要，但它位于契约末端，而不是中心。

常见问题

执行追踪和可观测性是一回事吗？

不是。可观测性告诉运营方发生了什么。达到契约质量的执行追踪，还必须具备足够结构，让另一个进程可以检查、分叉、重放和评分。日志帮助人类调试。类型化追踪让监督器、评估器和工作流构建器可以直接操作执行过程。

SHEPHERD会自动让智能体安全吗？

不会。SHEPHERD提供观察、分叉、重放和元智能体干预的底座。糟糕的监督器仍然会做出糟糕决策。收益在于，监督器可以基于结构化执行对象行动，而不是解析聊天记录。

AI工作流商店是否意味着智能体永远不应即兴发挥？

不是。当不存在经过审查的工作流，或任务确实新颖时，智能体仍然需要探索。关键在于提升。一旦任务反复出现且具有真实风险，系统就应把成功路径转化为带约束、测试和维护机制的可复用工作流。

WildClawBench是否证明某个智能体执行环境最好？

没有。WildClawBench表明，在其任务集和实验设置下，执行环境选择会实质性改变测得性能。应把它视为执行环境必须纳入评估的证据，而不是产品的永久排名。

团队应该先构建什么？

先构建追踪。然后添加拒绝无依据声明的关口。再把重复工作提升为工作流。没有可信追踪的花哨编排，只会让失败更难还原。

参考文献

Simon Yu, Derek Chong, Ananjan Nandi, Dilara Soylu, Jiuding Sun, Christopher D. Manning, and Weiyan Shi, “SHEPHERD: A Runtime Substrate Empowering Meta-Agents with a Formalized Execution Trace,” arXiv:2605.10913v1, 2026年5月11日。SHEPHERD的主要来源，涵盖类型化Git式执行追踪、分叉/重放语义、Lean机械化核心操作、分叉与提示缓存复用测量、CooperBench结果和TerminalBench-2结果。 ↩↩↩↩↩
Roxana Geambasu, Mariana Raykova, Pierre Tholoniat, Trishita Tiwari, Lillian Tsai, and Wen Zhang, “Engineering Robustness into Personal Agents with the AI Workflow Store,” arXiv:2605.10907v1, 2026年5月11日。临场智能体循环批评、AI工作流商店提案、加固型可复用工作流框架、软件工程生命周期要求和摊销复用论点的主要来源。 ↩↩↩↩↩↩
Shuangrui Ding et al., “WildClawBench: A Benchmark for Real-World, Long-Horizon Agent Evaluation,” arXiv:2605.10912v1, 2026年5月11日。60任务原生执行环境基准测试、双语和多模态任务组合、真实CLI执行环境、大约8分钟和20多次工具调用平均值、混合评分设计、62.2%最高报告分数以及框架选择导致分数变化的主要来源。 ↩↩↩↩↩↩↩↩↩