Anthropic 量化了有效方法,我的 Hooks 将其强制执行
Anthropic 在 2026 年 1 月的一周内分析了 Claude.ai 上的 9,830 次对话。1 该分析使用了 CLIO,一种在不阅读个人消息的前提下对对话模式进行分类的隐私保护工具。研究人员追踪了由 Rick Dakan 教授和 Joseph Feller 教授开发的 24 项行为 AI 流利度框架中的 11 项可观察行为。2
核心发现:85.7% 的对话包含迭代和优化。迭代对话平均展现 2.67 种流利度行为,大约是非迭代对话 1.33 种的两倍。迭代对话中的用户质疑模型推理的可能性高出 5.6 倍,识别缺失上下文的可能性高出 4 倍。1
迭代是区分有效 AI 使用和平庸 AI 使用的变量。Anthropic 对此进行了量化。问题在于迭代是否一致发生,还是仅在人类记得去做时才会发生。
摘要
Anthropic 的 AI 流利度指数发现,在 9,830 次对话中,迭代优化使流利度指标翻倍。”产物悖论”解释了为什么迭代不会默认发生:当模型产出精美的输出时,用户变得更具指令性但评估性更弱。事实核查下降了 3.7 个百分点。识别缺失上下文下降了 5.2 个百分点。质疑推理下降了 3.1 个百分点。其认知机制是加工流畅性:精美的输出触发自动信任(Kahneman 的系统 1)并抑制批判性评估(系统 2)。质量循环强制执行单次通过所跳过的迭代:强制审查、证据关卡、集成检查,并重复直到所有标准都引用了证据。Hooks 强制执行 Anthropic 所量化的行为。模型无法跳过迭代,因为基础设施要求如此。
Anthropic 量化了什么
AI 流利度指数追踪的是可观察行为,而非主观质量评估。该框架将 AI 流利度定义为”在人机交互的新兴模式中有效、高效、合乎道德且安全地工作的能力”。2 24 项行为涵盖四个维度:委托、描述、判断和勤勉。其中 11 项可在对话中直接观察到。其余 13 项发生在聊天界面之外(在生产环境中评估输出、与同事分享结果、对照外部来源进行验证)。
11 项可观察行为包括迭代和优化、质疑推理、识别缺失上下文、澄清目标、指定格式、提供示例和事实核查。研究人员使用 Claude Sonnet 作为分析模型,将每次对话按此分类法进行分类。
三项发现对工程基础设施至关重要。
发现 1:迭代是最强信号。 85.7% 的对话包含至少一定程度的迭代。包含迭代的对话展现的流利度行为大约翻倍(2.67 对 1.33)。进行迭代的用户质疑推理的可能性高出 5.6 倍,识别差距的可能性高出 4 倍。1 迭代不是可有可无的。它是与有效 AI 使用最强关联的行为。
发现 2:精美输出抑制评估。 12.3% 的对话涉及产物生成(代码、文档、交互工具)。当模型产出产物时,用户变得更具指令性:澄清目标增加了 14.7 个百分点,指定格式增加了 14.5 个百分点,提供示例增加了 13.4 个百分点。但评估行为下降了:识别缺失上下文下降了 5.2 个百分点,事实核查下降了 3.7 个百分点,质疑推理下降了 3.1 个百分点。1 用户指导得更好,但评估得更少。
发现 3:很少有用户设置协作模式。 只有 30% 的对话包含明确的协作指令,例如”如果我的假设有误请反驳”或”告诉我我遗漏了什么”。1 默认模式是委托,而非对话。大多数用户将模型视为执行者而非协作者。
产物悖论
Anthropic 命名了这一模式,但没有命名其机制。认知科学对此有一个精确的术语:加工流畅性。
加工流畅性是与心理任务相关的主观轻松或困难体验。Alter 和 Oppenheimer 记录了这样一种现象:经过语义启动、视觉清晰或易于处理的刺激物,无论实际准确性如何,都会被判断为更真实、更可靠、更值得信赖。3 Oppenheimer 表明,流畅性启发式自动运作:人们在没有意识觉察的情况下,将加工的轻松程度作为质量的替代指标。4
Kahneman 的系统 1/系统 2 框架解释了原因。系统 1 自动处理信息,将认知轻松与真实性关联。系统 2 进行审慎分析,但需要努力和动机。精美的 AI 输出具有很高的加工流畅性。代码可以编译。格式很规范。解释很连贯。系统 1 在系统 2 有机会评估其是否正确之前,就将其标记为”好的”。5
Kahneman 指出了具体的失败模式:”人们因为一个判断构成了一个好故事就对其产生信心,这是一个错误,因为实际上信心应该基于证据的质量和数量。”5 将”好故事”替换为”整洁的代码”,产物悖论就是 WYSIATI(所见即全部)应用于 AI 生成输出的表现。
West 等人从模型侧形式化了互补发现。在 ICLR 2024 上发表的两篇论文中,他们证明了生成模型获得的生产能力超越了其评估能力。6 模型在数秒内生成专家级代码,同时犯下人类专家绝不会犯的错误。模型无法可靠地评估自己的输出,因为生成和评估是独立的能力,它们的规模化方式不同。
悖论叠加了:模型产出了它无法正确评估的精美输出,而人类在遇到这种精美时,也减少了自己的评估。双方都不进行验证。双方都假设是正确的。Jeff Gothelf 描述了组织层面的版本:”生产力提升的一部分来自 AI 产出的质量外观。它看起来好,看起来精美,看起来完成了。”7
产物悖论不是用户教育问题。教育有所帮助,但 Anthropic 的数据表明,即使是进行迭代的用户(85.7% 的对话)在产物存在时也会减少评估。事实核查和缺失上下文识别的下降发生在整个用户群体中,而非仅限于新手用户。其机制是认知层面的,而非信息层面的。知道偏差的存在并不能消除它。
基础设施可以消除它。
将发现映射到基础设施
Anthropic 的每项发现都映射到特定的基础设施组件。下表展示了从测量行为到强制执行机制的链条。
| 流利度行为 | Anthropic 的发现 | 基础设施修复 | 实现方式 |
|---|---|---|---|
| 迭代和优化 | 存在时流利度指标翻倍 | 强制质量循环 | 7 步循环:实现、审查、评估、优化、全局检查、重复、报告。如果跳过任何步骤,Hook 会阻止完成。 |
| 质疑推理 | 在迭代对话中可能性高 5.6 倍 | 证据关卡 | 6 项标准要求提供具体证明。”我有信心”不是证据。模糊用语会触发阻止。 |
| 识别缺失上下文 | 可能性高 4 倍;产物存在时下降 5.2 个百分点 | 全局检查步骤 | 完成前强制进行调用方搜索、导入验证和集成测试。 |
| 事实核查 | 产物存在时下降 3.7 个百分点 | 独立测试运行器 | 每次代码更改后运行测试套件。代理不能自行报告测试结果。 |
| 协作指令 | 仅 30% 的对话包含 | 自动注入上下文 | 9 个 Hooks 在每次提示时触发,注入日期、分支、规范以及明确指令以质疑假设。 |
Hooks 强制执行 Anthropic 所量化的行为。模型不需要记住去迭代,因为基础设施要求如此。用户不需要记住包含协作指令,因为 Hooks 在每次提示时自动注入。事实核查不依赖于用户的加工流畅性,因为独立的测试运行器无论代码看起来多么精美都会报告结果。
为什么单次通过会失败
Jiro 品质哲学中描述的质量循环运行七个步骤:实现、审查、评估、优化、全局检查、重复、报告。单次通过代理执行步骤 1 和步骤 7,跳过了中间的五个步骤。Anthropic 的数据量化了每个被跳过的步骤的代价。
跳过审查意味着代理不会重新阅读自己的输出。审查步骤捕获的是代理如果再看一遍就会注意到的那类错误:拼写错误、命名不清晰、差一错误。没有审查,这些错误会进入完成报告,仿佛它们不存在一样。
跳过评估意味着证据关卡永远不会运行。六项标准(遵循代码库模式、最简方案、边界情况已处理、测试通过、无回归、解决实际问题)永远不会收到证据。完成报告包含的是声明,而非证明。Anthropic 发现迭代使流利度指标翻倍的结论直接映射到此处:证据关卡通过阻止缺乏证据的报告来强制迭代。
跳过优化意味着发现的问题被推迟而非修复。一条 TODO 注释替代了解决方案。延迟债务不断累积。GitClear 量化了下游影响:在 AI 辅助的代码库中,重构相关变更从所有变更的 25% 下降到不足 10%,而代码重复率从 8.3% 上升到 12.3%。8
跳过全局检查意味着代理从不检查集成。函数正常工作。调用方崩溃了。隧道视野未被发现。Anthropic 关于产物存在时”识别缺失上下文”下降 5.2 个百分点的发现,从人类侧描述了同样的失败:精美的输出使上下文缺口变得不可见。
跳过重复意味着通过证据关卡一次就被视为足够。第一次通过发现了问题。修复这些问题可能引入新的问题。没有第二次通过,修复的质量未经验证。质量循环迭代直到所有六项标准在同一次通过中引用证据。单次通过永远达不到这个标准。
来自工具链数据:平均质量循环在每次非平凡变更中捕获 3.2 个问题。其中 1.1 个在审查(步骤 2)中被发现,0.8 个在评估(步骤 3)中被发现,1.3 个在全局检查(步骤 5)中被发现。单次通过代理会将所有 3.2 个问题交付。审查-评估-全局检查序列在完成报告之前将它们消除。
模糊用语问题
Anthropic 发现迭代用户质疑模型推理的可能性高出 5.6 倍。1 模糊用语是反向信号:模型在未被质疑的情况下表达确定性。
模糊用语包括”应该能用”、”我有信心”、”看起来正确”、”可能没问题”和”我认为”。每个短语都用预测替代了观察。”测试应该能通过”意味着代理预测了结果。”14 项测试通过,0 项失败”意味着代理观察了结果。这一区别就是幻影验证和实际验证之间的差异。
Xiong 等人发现,LLM 无论实际准确性如何,都在 80-100% 的范围内表达信心,GPT-4 的失败预测仅略高于随机猜测(AUROC 62.7%)。9 Anthropic 的 Kadavath 等人发现,模型在熟悉任务上校准良好,但在新颖任务上表现吃力,”基本上”这个限定词掩盖了系统性盲点。10 语言化的信心与正确性不相关。模型说”我有信心”对代码是否能用提供的信息量为零。
模糊语言检测器捕获这一模式。一个 grep Hook 在每次完成报告时触发,搜索可配置的模糊用语模式。模糊用语的存在如果没有相邻的测试输出或文件路径引用,就会触发阻止。模型必须用证据替换模糊用语。该 Hook 强制执行 Anthropic 在迭代对话中发现的质疑行为,不同的是它在每次对话中确定性运作,而非以 85.7% 的概率运作。
#!/bin/bash
# hedge-detector.sh — block hedging without evidence
INPUT=$(cat)
HEDGES=$(echo "$INPUT" | grep -ciE '\bshould (work|pass|be fine)\b|\bprobably\b|\blooks correct\b|\bI.m confident\b')
if [ "$HEDGES" -gt 0 ]; then
echo '{"decision":"block","reason":"Hedging language detected. Replace with test output or file paths."}'
else
echo '{"decision":"allow"}'
fi
您今天就能实施的措施
Anthropic 的数据指向三项最低干预措施,可捕获最高价值的流利度行为。
一个协作 Hook。 在每次提示时注入指令,告诉模型质疑假设、识别缺失上下文并质疑自己的推理。Anthropic 发现只有 30% 的用户手动这样做。一个 Hook 可以在 100% 的提示中做到这一点。五行 bash 代码。
#!/bin/bash
# inject-collaboration.sh — force evaluative behavior
echo "INSTRUCTIONS: Push back if assumptions are wrong."
echo "Identify missing context before proceeding."
echo "Question your own reasoning at each step."
一个证据关卡。 阻止使用模糊用语而非引用证据的完成报告。该关卡通过使迭代成为强制性的,将 Anthropic 关于迭代使流利度指标翻倍的发现操作化。模型在没有为每项质量标准提供证据的情况下,无法报告”完成”。
一个独立验证器。 在每次代码更改后运行测试套件并将结果注入对话。该验证器直接解决产物悖论:无论输出看起来多么精美,测试结果都会报告实际有效的内容。事实核查不依赖于人类的加工流畅性,因为 Hook 将其自动化了。
这三个 Hooks 共同强制执行 Anthropic 发现的与有效 AI 使用最强关联的三种行为:迭代、质疑推理和识别缺失上下文。每个 Hook 都是确定性的。每个都在每次交互中触发。没有一个依赖于用户记得去激活它。
Anthropic 量化了有效方法。Hooks 使其不可跳过。
参考来源
-
Kyle Swanson, Daniel Bent, Zack Ludwig, Rick Dakan, and Joseph Feller, “Anthropic Education Report: The AI Fluency Index,” Anthropic Research, February 23, 2026, anthropic.com. 9,830 anonymized conversations on Claude.ai, January 20-26, 2026. Iterative conversations: 2.67 fluency behaviors (vs 1.33 non-iterative). 5.6x more likely to question reasoning. Artifact paradox: -5.2pp missing context identification, -3.7pp fact-checking. ↩↩↩↩↩↩
-
Rick Dakan and Joseph Feller, “The AI Fluency Framework,” developed in collaboration with Anthropic, supported by Ireland’s Higher Education Authority, 2025, aifluencyframework.org. 24 behaviors across 4 dimensions: Delegation, Description, Discernment, Diligence. Definition: “The ability to work effectively, efficiently, ethically, and safely within emerging modalities of Human-AI interaction.” ↩↩
-
Adam L. Alter and Daniel M. Oppenheimer, “Uniting the Tribes of Fluency to Form a Metacognitive Nation,” Personality and Social Psychology Review, 13(3), 219-235, 2009, doi.org. Processing fluency causes stimuli to be judged as more true, reliable, and trustworthy regardless of actual accuracy. ↩
-
Daniel M. Oppenheimer, “The Secret Life of Fluency,” Trends in Cognitive Sciences, 12(6), 237-241, 2008, sciencedirect.com. The fluency heuristic operates automatically: processing ease serves as a proxy for quality without conscious awareness. ↩
-
Daniel Kahneman, Thinking, Fast and Slow (New York: Farrar, Straus and Giroux, 2011). System 1 (automatic) associates cognitive ease with truth. System 2 (deliberate) requires effort. WYSIATI: conclusions drawn from available information without accounting for what is missing. Quote: “It’s a mistake for people to have confidence in a judgment because it made for a good story when in fact confidence should be based on the quality and quantity of evidence.” ↩↩
-
Peter West et al., “The Generative AI Paradox: What It Can Create, It May Not Understand,” ICLR 2024, arxiv.org; Peter West et al., “The Generative AI Paradox on Evaluation: What It Can Solve, It May Not Evaluate,” arXiv:2402.06204, 2024, arxiv.org. Generative capabilities exceed evaluation capabilities. Models produce expert-level output they cannot reliably self-evaluate. ↩
-
Jeff Gothelf, “Confusing Artifact Quality with Certainty,” 2024, jeffgothelf.com. “Part of productivity gains comes from the appearance of quality in AI-produced output. It looks good, it looks polished, it looks done.” ↩
-
William Harding and Matthew Kloster, “Coding on Copilot: 2023 Data Suggests Downward Pressure on Code Quality,” GitClear, January 2024, gitclear.com. 153 million changed lines. Refactoring fell from 25% to under 10%. Code duplication rose from 8.3% to 12.3%. ↩
-
Miao Xiong, Zhiyuan Hu, Xinyang Lu, et al., “Can LLMs Express Their Uncertainty? An Empirical Evaluation of Confidence Elicitation in LLMs,” ICLR 2024, arxiv.org. LLMs express confidence in 80-100% range regardless of accuracy. GPT-4 failure prediction AUROC: 62.7%. ↩
-
Saurav Kadavath, Tom Conerly, Amanda Askell, et al., “Language Models (Mostly) Know What They Know,” Anthropic, arXiv:2207.05221, July 2022, arxiv.org. Well-calibrated on familiar tasks, systematic blind spots on novel tasks. ↩
-
CodeRabbit, “State of AI vs. Human Code Generation Report,” December 17, 2025, coderabbit.ai. 470 PRs analyzed. AI-authored: 1.7x more issues, 1.75x more logic errors. Polished output masks higher defect rates. ↩
-
Laura Tacho, “AI-Assisted Engineering: Q4 Impact Report,” DX, November 4, 2025, getdx.com. 121,000+ developers. Productivity plateaued at ~10% despite 91% adoption. ↩
-
Author’s analysis. Quality loop described in “Jiro Quality Philosophy.” Hook system described in “Anatomy of a Claw.” Failure modes described in “What Actually Breaks When You Run AI Agents Unsupervised.” 10% wall explained in “The 10% Wall.” ↩