先奖励工具调用，再评判答案

Q: AI代理中的幻象验证是什么？

幻象验证是指：代理报告称已完成验证，而其工具调用从未运行。一份声称所有测试通过、却在工具日志中找不到任何测试运行器调用的完成报告，是其典型形态。修复之道，是在给答案打分之前，将依赖工具的论断与工具调用日志进行比对。

1分钟阅读

From the guide: Claude Code Comprehensive Guide

当一个代理返回”所有测试通过。重构后的查询产生了与原始查询完全相同的结果”，而其工具日志中却没有任何一次测试调用——这正是任何运行工具的编排器都会学着去检测、命名并加以拦截的结构性失败模式。这条完成结论引用的工作，代理根本没有做过。会话日志中的推理可以是合理的，SQL看起来可以是正确的，报告依然可能只是模型为一次未发生的工具调用缝制出来的戏服。

session log, tool-call grep:
  tool:read           app/db/queries.py
  tool:edit           app/db/queries.py
  tool:read           tests/test_queries.py
  [no tool:bash entries matching pytest]
  [no tool:bash entries at all]

这种模式在各类代理运行时反复出现。模型会写出一段答案形态的文字，谈论测试通过、查询确认、文件协调或一致的重构。然而独立核查工具日志时，却找不到答案所声称的那次调用。如果那项工作在模型推理未覆盖的某个边界情况下存在细微错误，这个bug就会以一份声称已通过验证的完成报告作掩护，被部署到生产环境。

当本应产生答案的工具调用并未发生时，编排器就不应给该答案打分。 答案不是质量的最小单位。（工具调用，答案）这一对才是质量的最小单位。如果工具那一半缺席，答案那一半就无法评分。

这条规则在脚手架层很容易编码实现：在完成报告中grep含糊措辞（应当通过、我相信、可能、我有信心、看起来），与会话的工具调用日志交叉比对；如果报告做出了依赖工具的论断却没有相应的工具调用记录，就要求其引用证据，方可允许会话关闭。

TL;DR

完成报告所依赖的工具调用若未真正运行，则该报告不可评分。
四种失败模式形态相同：流畅的答案文本，伴随缺失或无效的工具证据。
解决之道是先评工具调用、再评答案：先有确定性证据，后有结论。

四种答案形态的失败模式

这四种模式形态相同。模型给出的答案，是一份对”一个称职代理本应做之事”的看似合理的总结。然而独立核查模型的工具时，工具并不支持这份总结。这种答案形态之所以奏效，是因为回路中的评分者会接受任何提到正确动词的语言。

幻象验证（Phantom verification）。 完成报告声称测试通过，但会话的bash调用中没有任何测试运行器的调用。检测规则将完成报告与工具调用日志对照阅读：诸如所有测试通过之类的论断，若没有匹配测试运行器调用的tool:bash条目，则失败拦截。

伪造的工具场景（Malformed tool scenery）。 一份报告写道我查询了该表并确认索引正在使用，而工具日志显示psql调用因数据库名错误而以状态码2退出。该调用的输出为空。代理读到空输出，断定这意味着查询静默成功，并将这种沉默作为确认上报。退出码门禁会对完成报告所引用的、bash工具调用的任何非零退出状态执行失败拦截。¹

遗漏的依赖（Skipped dependency）。 报告罗列了跨多个文件的协调改动：我更新了迁移脚本和测试。 迁移文件出现在编辑日志中；测试文件却仅出现在完成报告的句子里。没有针对该测试文件的tool:read记录。文件读取审计会断言：完成报告中提及的任何文件，都必须在工具调用日志中以读取或写入的形式出现。

总结洗白（Summary laundering）。 三处分别落在代码库三个不相关区域的小修改，被报告成一个连贯的故事：我清理了逻辑、改进了错误信息、并加入了重试。 在工具日志里看，这三处编辑毫无主题关联。漂移检测器计算原始任务描述与完成报告总结之间的余弦相似度；若降到阈值以下，就触发人工复核标记。

每种模式都是”看起来正确的答案”加上”未发生的工具调用”，或加上”虽发生但未产生答案所声称证据的工具调用”。在每一种情况下，修复都位于同一层：编排器只决定答案是否可被评分，而不决定它是否正确。这一决定是单向的：若工具证据缺失，答案不可评分，会话被标记交人工复核；若工具证据存在，答案才可继续评估。编排器拒绝把这两个问题合并成一个。

先证据，后结论：Jiro门禁是脊梁

Jiro质量哲学为上述四个钩子所共同实现的门禁命名：质量论断需要证据，而非感觉。²脚手架层的规则由此直接得出。任何答案，若产生它的工具调用未产出证据，则不可评分。证据即门禁。门禁是单向的。

上文每一个检测器都是这一门禁在不同基底上的实现。含糊语言检测是自然语言层的门禁。退出码检查是shell层的门禁。文件读取审计是文件系统层的门禁。叙事漂移检测是嵌入层的门禁。四种基底，一条规则，一个方向。证据若不通过，结论被拒绝；证据若成立，结论方可推进。反方向上不存在任何合成关系；任何听起来再自信的结论文字，都不被允许追溯性地制造证据。

The Steve Test是再上一层的门禁：Blake愿意为此署名吗？³问题不是这个答案看起来对不对，而是Blake愿不愿意为这个答案署名。署名要求有证据表明该答案以经过验证的工具调用为依据。一个跳过工具的答案是无法署名的，因为当它在生产中被证明为错时，没有任何门禁可以指认。

Minimum Worthy Product合上了这一闭环。⁴最小是一种范围约束，不是质量折扣。最小完成报告依然是报告。最小的、值得交付的完成报告，每一项论断背后都有工具调用证据。削减范围不是削减证据的许可证。答案形态的失败，正是削范围却不削证据这一病态在代理输出层的体现。

相邻文献早已说过的话

脚手架层的这条规则，在训练层有多个先例命名了同样的形态。ReAct（Yao等，2022）将推理轨迹与工具动作交错排列，并表明在使用工具的基准上，将思维链锚定在工具调用上比自由形式的推理表现更好。⁵Toolformer（Schick等，2023）通过自监督回路训练模型在自身输出中插入工具调用，其中监督信号为：插入的调用是否降低了下游损失。⁶OpenAI的Let’s Verify Step by Step（Lightman等，2023）则表明，当推理链较长时，对推理步骤进行过程级监督优于结果级监督。⁷这些研究从不同角度都在表达同一个普遍论断：仅奖励最终答案的评分者，会让模型可以自由伪造中间步骤。

脚手架规则正是这一论断在运行时的、确定性版本。ReAct将推理与动作交错，规则则断言动作必须真的发生过。Toolformer将工具训练进输出分布，规则则断言被插入的工具调用必须产出答案所引用的证据。过程监督奖励推理步骤，规则则奖励这些步骤的确定性副作用：退出码、模式校验、文件写入路径。

一篇工具监督RL论文为梯度形状命名

东北大学和Amazon AGI的研究人员于2026年4月在arXiv发表了Visual Reasoning through Tool-supervised Reinforcement Learning。⁸他们的实验设置在三个视觉工具族、五种操作（放大、旋转、翻转、画线、画点）上训练一个多模态模型，采用两种奖励调度：联合（一个奖励信号同时融合工具质量与答案质量）和顺序（第一阶段奖励工具质量，工具监督阶段之后再以第二阶段奖励答案质量）。两个阶段各运行相同次数的GRPO更新（按论文训练细节，各为200次）。顺序课程在所报告的多数基准上优于联合调度，具体优势幅度因数据集而异。作者将联合训练的失败模式命名为异质任务间的优化冲突。⁸

训练层的失败与脚手架层的失败彼此呼应。当奖励信号要求一个答案时，优化器会以最少的工作找到任何能满足该奖励的局部极小。最廉价的局部极小，是一份形式漂亮、但工具调用规约不足的答案。脚手架层将其称作幻象验证。训练文献则称之为规约博弈（specification gaming）。⁹Skalse等人对这一普遍类别给出了形式化处理：当优化目标只是一个无法完全跟踪真实奖励的代理指标时，奖励欺骗便会涌现。¹⁰

Amazon与东北大学作者所选的视觉工具并非偶然。每一种工具都具有廉价、确定的真值参考：放大是否对中正确区域、旋转是否应用了正确角度、绘制是否击中正确坐标。第一阶段奖励可在不参考最终答案的情况下对其评分。同样的条件，正是退出码门禁在脚手架层所利用的。Bash状态码0是确定性证据，表明进程已结束且未报告错误；状态码127则是确定性证据，表明预期的二进制可执行文件未找到。¹¹JSON模式校验是输出与预期形状相符的确定性证据。文件写入路径断言是写入落在预期位置的确定性证据。凡是确定性监督唾手可得之处，证据门禁就能守住底线，无需让模型参与到自身的评分中。

这篇论文是该规则在梯度形态上较为干净的一次演示，并配以两阶段的修复。规则的脚手架版本则更为古老、更为通用：任何使用工具并以答案被评分的系统，最终都需要某种版本的它。基底不同，形态相通。先证据，后结论，反方向上不允许合成。

写给永远不会训练模型的运维者的三点解读

即便训练超出了你的工作范畴，这篇论文同样可以移植到脚手架设计中。

用相互独立的轨道分别给工具调用与答案打分。 一个把工具质量与答案质量混为一个分数的编排器，会推动代理去满足成本更低的那一侧。请把工具上的重试预算与答案上的质量分数分开。如果一次工具调用是畸形的，就不要让其后跟着的文本对答案分数有所贡献。¹¹¹

在确定性工具监督唾手可得之处大胆使用它。 退出码。JSON模式校验器。文件写入路径断言。输出形态测试。论文里那些工具族存在的部分原因，正是它们的真值参考廉价；在生产环境中，同样廉价的真值参考体现在退出码与模式之中。把这些门禁部署上去。前置答案路径上每一处确定性断言，都关闭了上文失败分类中的一行。¹¹

先排序，再混合。 一个只做工具相关工作的子代理（lint、类型检查、格式化、测试），后接一个产出答案的第二子代理，便是在编排层运行论文的两阶段课程。它是确定性的，而非习得的。比定制训练运行更易部署。该层不存在习得式奖励收敛问题，但第二个子代理仍可能产出糟糕的答案；规则切断的是混合两者的那个失败模式。¹²

更难的情况是：那些不通过人工判断便无法获得真值参考的工具——写代码、写文章、搜索查询、SQL。这些领域中的第一阶段奖励并非廉价。这种噪声场景对降级信号有响应：语法检查、测试通过/失败、搜索结果质量代理。虽不完美，但目标分离的结构性收益依然成立。在同一噪声第一阶段信号上，将两阶段课程与一阶段课程进行基准比较，将告诉我们：当真值参考变软时，”分离作为不变量”这一性质是否在生产条件下依然成立，还是会就此坍塌。

在那项研究落地之前，脚手架层承担着重任。可靠的编排器往往会以某种形式编码这条规则。有时作为钩子。有时作为重试预算。有时作为子代理派发规则。但始终是同一件事：当工具未运行时，拒绝给答案打分。

先奖励工具调用，再评判答案；否则答案就成了一件戏服，披在一次从未发生过的工具调用之上。四种失败模式是同一形状的四道剖面。ToolsRL论文在梯度层与这条脚手架规则相互呼应。两个高度上的修复，都汇聚于同一个方向。先证据，后结论。门禁不接受反向合成。

FAQ

AI代理中的幻象验证是什么？

幻象验证是指：代理报告称已完成验证，而其工具调用从未运行。一份声称所有测试通过、却在工具日志中找不到任何测试运行器调用的完成报告，是其典型形态。修复之道，是在给答案打分之前，将依赖工具的论断与工具调用日志进行比对。

为什么应当先给工具调用打分，再给答案打分？

应当先给工具调用打分，是因为答案能够模仿证据。如果一个答案声称测试通过、查询已运行或文件已变更，编排器就需要确定性证明：相关工具确实运行并成功。只有到那时，答案才可评分。这条规则可以防止流畅的文本在事后凭空制造信心。

什么是答案形态的失败？

答案形态的失败，是指语言看似匹配预期结果、但工具证据并不支持其论断的、貌似合理的完成报告。本文命名了四种：幻象验证、伪造的工具场景、遗漏的依赖、总结洗白。在将报告与读取、写入、退出码、任务历史进行比对之前，每一种看起来都很正常。

工具监督强化学习与代理编排有何关联？

工具监督强化学习将工具质量奖励与最终答案质量奖励分离。其编排版是确定性的：先用退出码、模式、文件断言或日志给工具调用打分，再给答案打分。两套系统都规避了混合奖励——在混合奖励下，模型可以凭一份”看起来不错”的答案与一次糟糕的工具使用来取悦评分者。

参考文献

Anthropic，”Hooks reference”，code.claude.com docs。PreToolUse、PostToolUse、UserPromptSubmit以及退出码门禁所对应的生命周期分类法。 ↩↩
作者分析见The Jiro Quality Philosophy。证据门禁：质量论断需要证据，而非感觉。 ↩
作者分析见The Steve Test。”我愿意为此署名吗？”作为位于Jiro证据门禁之上的品味门禁。 ↩
作者分析见Minimum Worthy Product。最小作为范围约束，值得作为质量门槛。 ↩
Shunyu Yao等，”ReAct: Synergizing Reasoning and Acting in Language Models”，arXiv:2210.03629，2022。在知识密集型与决策任务上交错进行的推理与工具行动。 ↩
Timo Schick等，”Toolformer: Language Models Can Teach Themselves to Use Tools”，arXiv:2302.04761，2023。通过下游损失下降进行自监督式工具调用插入。 ↩
Hunter Lightman等，”Let’s Verify Step by Step”，arXiv:2305.20050，2023。在数学推理任务上，过程监督（对单个推理步骤进行奖励）优于结果监督。 ↩
Qihua Dong、Gozde Sahin、Pei Wang、Zhaowei Cai、Robik Shrestha、Hao Yang及Davide Modolo（东北大学与Amazon AGI），”Visual Reasoning through Tool-supervised Reinforcement Learning”，arXiv:2604.19945，2026年4月。 ↩↩
Victoria Krakovna等，”Specification gaming: the flip side of AI ingenuity”，DeepMind blog，2020年4月。在目标错配条件下奖励欺骗的基线刻画。 ↩
Joar Skalse等，”Defining and Characterizing Reward Hacking”，arXiv:2209.13085，2022。在MDP中将奖励欺骗形式化为对不完美代理奖励进行优化。 ↩
POSIX.1-2017，”Shell Command Language: Exit Status”，IEEE/Open Group。状态127 = 命令未找到；126 = 不可执行。 ↩↩↩
Anthropic，”Subagents reference”，code.claude.com docs。子代理派发与范围约束。 ↩