Anthropic量化了有效方法，我的钩子将其强制执行。

3分钟阅读

From the guide: Claude Code Comprehensive Guide

Anthropic在2026年1月的一周内分析了Claude.ai上的9,830次对话。¹该分析使用了CLIO——一种隐私保护工具，能够在不读取单条消息的情况下对对话模式进行分类。研究人员追踪了Rick Dakan教授和Joseph Feller教授开发的24项行为AI流畅度框架中的11项可观测行为。²

核心发现：85.7%的对话包含迭代和优化。迭代对话平均展现2.67个流畅度行为，大约是非迭代对话1.33个的两倍。迭代对话中的用户质疑模型推理的可能性高出5.6倍，识别缺失上下文的可能性高出4倍。¹

迭代是区分有效AI使用与平庸AI使用的关键变量。Anthropic对此进行了量化。DX对135,000名开发者的调查发现，尽管采用率达到91%，AI每周仅为开发者节省约四个小时，这一数字在最近几个季度趋于平稳，尽管采用率持续上升，这表明没有迭代基础设施的采用会触及天花板。¹²问题在于：迭代是持续发生的，还是仅在人们记得去做时才会发生。

摘要

Anthropic的AI流畅度指数发现，迭代优化在9,830次对话中使流畅度指标翻倍。工件悖论解释了为什么迭代默认会失败：精美的输出抑制了评估行为（事实核查下降3.7个百分点，缺失上下文识别下降5.2个百分点，质疑推理下降3.1个百分点）。其机制是加工流畅性：系统1在系统2评估代码是否真正有效之前，就将整洁的代码标记为正确。质量循环强制执行单次通过所跳过的迭代：强制审查、证据关卡、集成检查，以及重复直到所有标准都引用证据。这些钩子强制执行了Anthropic所量化的内容。

Anthropic量化了什么

AI流畅度指数追踪的是可观测行为，而非主观质量评估。该框架将AI流畅度定义为”在人机交互的新兴模式中有效、高效、合乎道德且安全地工作的能力”。²24项行为涵盖四个维度：委派（Delegation）、描述（Description）、辨别（Discernment）和勤勉（Diligence）。其中11项可在对话中直接观测。其余13项发生在聊天界面之外（在生产环境中评估输出、与同事分享结果、对照外部来源进行验证）。

11项可观测行为包括迭代和优化、质疑推理、识别缺失上下文、明确目标、指定格式、提供示例和事实核查。研究人员使用Claude Sonnet作为分析模型，将每次对话按此分类体系进行分类。

三个发现对工程基础设施具有重要意义。

发现1：迭代是最强信号。 85.7%的对话至少包含一些迭代。有迭代的对话展现大约两倍的流畅度行为（2.67 vs 1.33）。进行迭代的用户质疑推理的可能性高出5.6倍，识别差距的可能性高出4倍。¹迭代不是锦上添花，而是与有效AI使用最强相关的行为。

发现2：精美输出抑制评估。 12.3%的对话涉及工件生成（代码、文档、交互式工具）。当模型生成工件时，用户变得更具指令性：明确目标增加了14.7个百分点，指定格式增加了14.5个百分点，提供示例增加了13.4个百分点。但评估行为下降了：识别缺失上下文下降了5.2个百分点，事实核查下降了3.7个百分点，质疑推理下降了3.1个百分点。¹用户的指令更精确了，但评估更少了。

发现3：很少有用户建立协作模式。 只有30%的对话包含明确的协作指令，例如”如果我的假设有误请提出反对”或”告诉我我遗漏了什么”。¹默认模式是委派，而非对话。大多数用户将模型视为执行者而非协作者。

工件悖论

Anthropic命名了这一模式，但没有命名其背后的机制。认知科学对此有一个精确的术语：加工流畅性。

加工流畅性是与心理任务相关的主观轻松或困难体验。Alter和Oppenheimer记录了这样一个现象：经过语义启动、视觉清晰或易于处理的刺激，会被判断为更真实、更可靠、更值得信赖，而不考虑实际准确性。³ Oppenheimer证明流畅性启发式自动运作：人们将加工容易度作为质量的代理指标，而没有意识到这一点。⁴

Kahneman的系统1/系统2框架解释了其中的原因。系统1自动处理信息，将认知轻松与真实性关联。系统2进行审慎分析，但需要付出努力和动机。精美的AI输出具有高度的加工流畅性。代码能编译。格式整洁。解释连贯。系统1在系统2有机会评估其是否正确之前，就将其标记为”好”。⁵

Kahneman识别出了具体的失败模式：”人们因为一个判断构成了好故事就对其充满信心，这是一个错误——事实上，信心应该建立在证据的质量和数量之上。”⁵将”好故事”替换为”整洁的代码”，工件悖论就是WYSIATI（你所看到的就是全部）应用于AI生成输出的版本。

West等人从模型角度形式化了互补发现。在ICLR 2024的一篇论文和一篇配套预印本中，他们证明了生成式模型获得的生产能力超过了其评估能力。⁶模型在几秒内生成专家级代码，同时犯下人类专家不会犯的错误。模型无法可靠地评估自己的输出，因为生成和评估是独立的能力，且扩展速度不同。

悖论叠加：模型产生了它无法正确评估的精美输出，而人类面对这种精美度时减少了自己的评估。双方都没有验证。双方都假设正确。CodeRabbit对470个拉取请求的分析发现，AI编写的代码问题多出1.7倍，逻辑错误多出1.75倍，尽管在审查中看起来很精美。¹¹ Jeff Gothelf捕捉到了组织层面的版本：”生产力提升的一部分来自AI产出的质量外观。它看起来好，看起来精美，看起来完成了。”⁷

工件悖论不是用户教育问题。教育有帮助，但Anthropic的数据表明，即使是进行迭代的用户（85.7%的对话），在存在工件时也会减少评估。事实核查和缺失上下文识别的下降发生在整个群体中，而不仅仅是新手用户。这一机制是认知性的，而非信息性的。知道偏见的存在并不能消除它。

基础设施能消除它。

将发现映射到基础设施

Anthropic的每个发现都映射到一个具体的基础设施组件。下表展示了从量化行为到执行机制的完整链条。

流畅度行为	Anthropic的发现	基础设施修复	实现方式
迭代和优化	存在时流畅度指标翻倍	强制质量循环	7步循环：实现、审查、评估、优化、宏观检查、重复、报告。钩子在任何步骤被跳过时阻止完成。
质疑推理	迭代对话中可能性高5.6倍	证据关卡	6项标准要求具体证明。”我很有信心”不是证据。含糊措辞触发阻止。
识别缺失上下文	可能性高4倍；工件存在时下降5.2个百分点	宏观检查步骤	完成前强制执行调用方搜索、导入验证和集成测试。
事实核查	工件存在时下降3.7个百分点	独立测试运行器	每次代码更改后运行测试套件。代理不能自行报告测试结果。
协作指令	仅30%的对话	自动注入上下文	9个钩子在每次提示时触发，注入日期、分支、规范和明确的反驳假设指令。

这些钩子强制执行了Anthropic所量化的内容。模型不需要记住去迭代，因为基础设施要求它这样做。用户不需要记住包含协作指令，因为钩子在每次提示时自动注入它们。事实核查不依赖于用户的加工流畅性，因为独立的测试运行器会报告结果，无论代码看起来多么精美。

质量循环模拟器：逐步演示一个代理编写邮箱验证器的具体场景。七个阶段展示每个质量循环步骤捕获的内容：初始输出（未捕获任何问题，工件悖论生效）、审查（正则表达式错误、不清晰的命名）、评估（6项证据标准中0项通过，检测到幻影验证）、优化（所有问题修复，无TODO）、宏观检查（2个调用文件因签名变更而损坏）、重复（所有6项标准现在都引用了证据）以及最终报告（单次通过的"完成"与完整的证据报告对比）。

为什么单次通过会失败

Jiro质量哲学中描述的质量循环运行七个步骤：实现、审查、评估、优化、宏观检查、重复、报告。单次通过的代理执行步骤1和步骤7，跳过了中间的五个步骤。Anthropic的数据量化了每个被跳过步骤的代价。

跳过审查意味着代理不会重新阅读自己的输出。审查步骤捕获的是代理如果再看一遍就会注意到的那类错误：拼写错误、不清晰的命名、差一错误。没有审查，这些错误会以不存在的姿态进入完成报告。

跳过评估意味着证据关卡永远不会运行。六项标准（遵循代码库模式、最简方案、边界情况已处理、测试通过、无回归、解决实际问题）永远不会收到证据。完成报告包含的是断言，而非证明。Anthropic关于迭代使流畅度指标翻倍的发现直接映射到这里：证据关卡通过阻止缺乏证据的报告来强制迭代。

跳过优化意味着发现的问题被推迟而非修复。一条TODO注释替代了解决方案。延迟债务不断累积。GitClear量化了下游影响：在AI辅助代码库中，与重构相关的变更从25%降至不到10%，而代码重复率从8.3%升至12.3%。⁸

跳过宏观检查意味着代理永远不会检查集成。函数能工作。调用方却崩溃了。隧道视野未被发现。Anthropic关于工件存在时”识别缺失上下文”下降5.2个百分点的发现，从人的角度描述了同样的失败：精美的输出使上下文差距变得不可见。

跳过重复意味着通过证据关卡的一次通过被视为充分的。第一次通过捕获了问题。修复这些问题可能引入新的问题。没有第二次通过，修复的质量是未经验证的。质量循环迭代直到所有六项标准在同一次通过中都引用了证据。单次通过永远达不到这个标准。

来自500多次会话的质量循环数据（每次都记录了钩子遥测数据和结构化元数据）：¹³平均每次非平凡变更，质量循环捕获3.2个问题。其中1.1个在审查（步骤2）中捕获，0.8个在评估（步骤3）中捕获，1.3个在宏观检查（步骤5）中捕获。单次通过的代理会将全部3.2个问题发布出去。审查-评估-宏观检查序列在完成报告之前就消除了它们。

含糊语言问题

Anthropic发现迭代用户质疑模型推理的可能性高5.6倍。¹含糊语言是相反的信号：模型在未被质疑的情况下表达确定性。

含糊短语包括”应该能工作”、”我很有信心”、”看起来正确”、”大概没问题”和”我认为”。每个短语都用预测替代了观察。”测试应该能通过”意味着代理预测了结果。”14个测试通过，0个失败”意味着代理观察了结果。这一区别就是幻影验证与实际验证之间的差异。

Xiong等人发现，LLM无论实际准确性如何，都在80-100%的范围内表达信心，各模型的失败预测AUROC在0.5-0.6范围内，仅略高于随机猜测。⁹ Kadavath等人在Anthropic发现，模型在熟悉任务上校准良好，但在新任务上存在困难，”大部分”这个限定词掩盖了系统性盲点。¹⁰语言化的信心与正确性不相关。模型说”我很有信心”对代码是否有效提供了零信息。

含糊检测器捕获了这一模式。一个grep钩子在每份完成报告上触发，搜索可配置的含糊模式。含糊语言在没有相邻测试输出或文件路径引用的情况下出现，会触发阻止。模型必须用证据替换含糊表述。该钩子强制执行了Anthropic在迭代对话中发现的质疑行为，但它以确定性方式在每次对话中运作，而非以85.7%的概率运作。

#!/bin/bash
# hedge-detector.sh — block hedging without evidence
INPUT=$(cat)
HEDGES=$(echo "$INPUT" | grep -ciE '\bshould (work|pass|be fine)\b|\bprobably\b|\blooks correct\b|\bI.m confident\b')
if [ "$HEDGES" -gt 0 ]; then
  echo '{"decision":"block","reason":"Hedging language detected. Replace with test output or file paths."}'
else
  echo '{"decision":"allow"}'
fi

您今天就可以实施的方案

Anthropic的数据指向三个最小干预措施，它们捕获了最高价值的流畅度行为。

一个协作钩子。 在每次提示中注入指令，告诉模型质疑假设、识别缺失上下文并质疑自己的推理。Anthropic发现只有30%的用户手动这样做。一个钩子在100%的提示上执行此操作。五行bash代码。

#!/bin/bash
# inject-collaboration.sh — force evaluative behavior
echo "INSTRUCTIONS: Push back if assumptions are wrong."
echo "Identify missing context before proceeding."
echo "Question your own reasoning at each step."

一个证据关卡。 阻止使用含糊语言而非引用证据的完成报告。该关卡将Anthropic关于迭代使流畅度指标翻倍的发现操作化，使迭代成为强制性的。模型在没有为每项质量标准提供证据的情况下无法报告”完成”。

一个独立验证器。 在每次代码更改后运行测试套件，并将结果注入对话。验证器直接解决工件悖论：无论输出看起来多么精美，测试结果报告的是实际有效的内容。事实核查不依赖于人类的加工流畅性，因为钩子将其自动化了。

这三个钩子共同强制执行了Anthropic发现的与有效AI使用最强相关的三种行为：迭代、质疑推理和识别缺失上下文。每个钩子都是确定性的。每个在每次交互时触发。没有一个依赖于用户记住去激活它。

Anthropic量化了有效方法。钩子使其成为非可选项。

关键要点

面向个人开发者。 添加一个协作钩子，在每次提示中注入”如果假设有误请提出反对”和”识别缺失上下文”。Anthropic发现只有30%的用户手动设置协作指令。¹该钩子使评估行为在100%的交互中自动执行。

面向团队负责人。 迭代是信号，而非采用率。Anthropic量化了迭代对话中流畅度指标是非迭代对话的2倍。¹构建强制迭代的基础设施（证据关卡、强制审查步骤），而非奖励首次通过的输出。DX的数据证实：尽管采用率达到91%，生产力增益在最近几个季度趋于平稳。¹²

面向平台工程师。 用独立测试运行器解决工件悖论。精美的AI输出通过加工流畅性触发自动信任，当工件存在时事实核查下降3.7个百分点。¹一个在每次代码更改后运行测试套件的独立验证器，通过报告实际有效的内容完全绕过加工流畅性，而不管代码看起来如何。

来源

Kyle Swanson, Daniel Bent, Zack Ludwig, Rick Dakan, and Joseph Feller, “Anthropic Education Report: The AI Fluency Index,” Anthropic Research, February 23, 2026, anthropic.com. 9,830 anonymized conversations on Claude.ai, January 20-26, 2026. Iterative conversations: 2.67 fluency behaviors (vs 1.33 non-iterative). 5.6x more likely to question reasoning. Artifact paradox: -5.2pp missing context identification, -3.7pp fact-checking. ↩↩↩↩↩↩↩↩↩
Rick Dakan and Joseph Feller, “The AI Fluency Framework,” developed in collaboration with Anthropic, supported by Ireland’s Higher Education Authority, 2025, aifluencyframework.org. 24 behaviors across 4 dimensions: Delegation, Description, Discernment, Diligence. Definition: “The ability to work effectively, efficiently, ethically, and safely within emerging modalities of Human-AI interaction.” ↩↩
Adam L. Alter and Daniel M. Oppenheimer, “Uniting the Tribes of Fluency to Form a Metacognitive Nation,” Personality and Social Psychology Review, 13(3), 219-235, 2009, doi.org. Processing fluency causes stimuli to be judged as more true, reliable, and trustworthy regardless of actual accuracy. ↩
Daniel M. Oppenheimer, “The Secret Life of Fluency,” Trends in Cognitive Sciences, 12(6), 237-241, 2008, sciencedirect.com. The fluency heuristic operates automatically: processing ease serves as a proxy for quality without conscious awareness. ↩
Daniel Kahneman, Thinking, Fast and Slow (New York: Farrar, Straus and Giroux, 2011). System 1 (automatic) associates cognitive ease with truth. System 2 (deliberate) requires effort. WYSIATI: conclusions drawn from available information without accounting for what is missing. Quote: “It’s a mistake for people to have confidence in a judgment because it made for a good story when in fact confidence should be based on the quality and quantity of evidence.” ↩↩
Peter West et al., “The Generative AI Paradox: What It Can Create, It May Not Understand,” ICLR 2024, arxiv.org; Peter West et al., “The Generative AI Paradox on Evaluation: What It Can Solve, It May Not Evaluate,” arXiv:2402.06204, 2024, arxiv.org. Generative capabilities exceed evaluation capabilities. Models produce expert-level output they cannot reliably self-evaluate. ↩
Jeff Gothelf, “Confusing Artifact Quality with Certainty,” 2026, jeffgothelf.com. “Part of productivity gains comes from the appearance of quality in AI-produced output. It looks good, it looks polished, it looks done.” ↩
William Harding and Matthew Kloster, “Coding on Copilot: 2023 Data Suggests Downward Pressure on Code Quality,” GitClear, January 2024, gitclear.com. 153 million changed lines. Refactoring fell from 25% to under 10%. Code duplication rose from 8.3% to 12.3%. ↩
Miao Xiong, Zhiyuan Hu, Xinyang Lu, et al., “Can LLMs Express Their Uncertainty? An Empirical Evaluation of Confidence Elicitation in LLMs,” ICLR 2024, arxiv.org. LLMs express confidence in 80-100% range regardless of accuracy. Failure prediction AUROC across models ranges 0.5-0.6, barely above random. ↩
Saurav Kadavath, Tom Conerly, Amanda Askell, et al., “Language Models (Mostly) Know What They Know,” Anthropic, arXiv:2207.05221, July 2022, arxiv.org. Well-calibrated on familiar tasks, systematic blind spots on novel tasks. ↩
CodeRabbit, “State of AI vs. Human Code Generation Report,” December 17, 2025, coderabbit.ai. 470 PRs analyzed. AI-authored: 1.7x more issues, 1.75x more logic errors. Polished output masks higher defect rates. ↩
Laura Tacho, “AI-Assisted Engineering: Q4 Impact Report,” DX, November 4, 2025, getdx.com. 135,000+ developers across 435 companies. Average savings of about four hours per week despite 91% adoption. ↩↩
Author’s analysis. Quality loop described in “Jiro Quality Philosophy.” Hook system described in “Anatomy of a Claw.” Failure modes described in “What Actually Breaks When You Run AI Agents Unsupervised.” 10% wall explained in “The 10% Wall.” ↩

Anthropic量化了有效方法，我的钩子将其强制执行。

摘要

Anthropic量化了什么

工件悖论

将发现映射到基础设施

为什么单次通过会失败

含糊语言问题

您今天就可以实施的方案

关键要点

来源

相关文章

无人监督运行AI智能体时，究竟什么会出问题

10%之墙：为什么AI生产力停滞不前

Claude Code Mac桌面端+远程控制：CLI用户指南