Anthropic量化了有效方法,我的钩子将其强制执行。
Anthropic在2026年1月的一周内分析了Claude.ai上的9,830次对话。1该分析使用了CLIO——一种隐私保护工具,能够在不读取单条消息的情况下对对话模式进行分类。研究人员追踪了Rick Dakan教授和Joseph Feller教授开发的24项行为AI流畅度框架中的11项可观测行为。2
核心发现:85.7%的对话包含迭代和优化。迭代对话平均展现2.67个流畅度行为,大约是非迭代对话1.33个的两倍。迭代对话中的用户质疑模型推理的可能性高出5.6倍,识别缺失上下文的可能性高出4倍。1
迭代是区分有效AI使用与平庸AI使用的关键变量。Anthropic对此进行了量化。DX对135,000名开发者的调查发现,尽管采用率达到91%,AI每周仅为开发者节省约四个小时,这一数字在最近几个季度趋于平稳,尽管采用率持续上升,这表明没有迭代基础设施的采用会触及天花板。12问题在于:迭代是持续发生的,还是仅在人们记得去做时才会发生。
摘要
Anthropic的AI流畅度指数发现,迭代优化在9,830次对话中使流畅度指标翻倍。工件悖论解释了为什么迭代默认会失败:精美的输出抑制了评估行为(事实核查下降3.7个百分点,缺失上下文识别下降5.2个百分点,质疑推理下降3.1个百分点)。其机制是加工流畅性:系统1在系统2评估代码是否真正有效之前,就将整洁的代码标记为正确。质量循环强制执行单次通过所跳过的迭代:强制审查、证据关卡、集成检查,以及重复直到所有标准都引用证据。这些钩子强制执行了Anthropic所量化的内容。
Anthropic量化了什么
AI流畅度指数追踪的是可观测行为,而非主观质量评估。该框架将AI流畅度定义为”在人机交互的新兴模式中有效、高效、合乎道德且安全地工作的能力”。224项行为涵盖四个维度:委派(Delegation)、描述(Description)、辨别(Discernment)和勤勉(Diligence)。其中11项可在对话中直接观测。其余13项发生在聊天界面之外(在生产环境中评估输出、与同事分享结果、对照外部来源进行验证)。
11项可观测行为包括迭代和优化、质疑推理、识别缺失上下文、明确目标、指定格式、提供示例和事实核查。研究人员使用Claude Sonnet作为分析模型,将每次对话按此分类体系进行分类。
三个发现对工程基础设施具有重要意义。
发现1:迭代是最强信号。 85.7%的对话至少包含一些迭代。有迭代的对话展现大约两倍的流畅度行为(2.67 vs 1.33)。进行迭代的用户质疑推理的可能性高出5.6倍,识别差距的可能性高出4倍。1迭代不是锦上添花,而是与有效AI使用最强相关的行为。
发现2:精美输出抑制评估。 12.3%的对话涉及工件生成(代码、文档、交互式工具)。当模型生成工件时,用户变得更具指令性:明确目标增加了14.7个百分点,指定格式增加了14.5个百分点,提供示例增加了13.4个百分点。但评估行为下降了:识别缺失上下文下降了5.2个百分点,事实核查下降了3.7个百分点,质疑推理下降了3.1个百分点。1用户的指令更精确了,但评估更少了。
发现3:很少有用户建立协作模式。 只有30%的对话包含明确的协作指令,例如”如果我的假设有误请提出反对”或”告诉我我遗漏了什么”。1默认模式是委派,而非对话。大多数用户将模型视为执行者而非协作者。
工件悖论
Anthropic命名了这一模式,但没有命名其背后的机制。认知科学对此有一个精确的术语:加工流畅性。
加工流畅性是与心理任务相关的主观轻松或困难体验。Alter和Oppenheimer记录了这样一个现象:经过语义启动、视觉清晰或易于处理的刺激,会被判断为更真实、更可靠、更值得信赖,而不考虑实际准确性。3 Oppenheimer证明流畅性启发式自动运作:人们将加工容易度作为质量的代理指标,而没有意识到这一点。4
Kahneman的系统1/系统2框架解释了其中的原因。系统1自动处理信息,将认知轻松与真实性关联。系统2进行审慎分析,但需要付出努力和动机。精美的AI输出具有高度的加工流畅性。代码能编译。格式整洁。解释连贯。系统1在系统2有机会评估其是否正确之前,就将其标记为”好”。5
Kahneman识别出了具体的失败模式:”人们因为一个判断构成了好故事就对其充满信心,这是一个错误——事实上,信心应该建立在证据的质量和数量之上。”5将”好故事”替换为”整洁的代码”,工件悖论就是WYSIATI(你所看到的就是全部)应用于AI生成输出的版本。
West等人从模型角度形式化了互补发现。在ICLR 2024的一篇论文和一篇配套预印本中,他们证明了生成式模型获得的生产能力超过了其评估能力。6模型在几秒内生成专家级代码,同时犯下人类专家不会犯的错误。模型无法可靠地评估自己的输出,因为生成和评估是独立的能力,且扩展速度不同。
悖论叠加:模型产生了它无法正确评估的精美输出,而人类面对这种精美度时减少了自己的评估。双方都没有验证。双方都假设正确。CodeRabbit对470个拉取请求的分析发现,AI编写的代码问题多出1.7倍,逻辑错误多出1.75倍,尽管在审查中看起来很精美。11 Jeff Gothelf捕捉到了组织层面的版本:”生产力提升的一部分来自AI产出的质量外观。它看起来好,看起来精美,看起来完成了。”7
工件悖论不是用户教育问题。教育有帮助,但Anthropic的数据表明,即使是进行迭代的用户(85.7%的对话),在存在工件时也会减少评估。事实核查和缺失上下文识别的下降发生在整个群体中,而不仅仅是新手用户。这一机制是认知性的,而非信息性的。知道偏见的存在并不能消除它。
基础设施能消除它。
将发现映射到基础设施
Anthropic的每个发现都映射到一个具体的基础设施组件。下表展示了从量化行为到执行机制的完整链条。
| 流畅度行为 | Anthropic的发现 | 基础设施修复 | 实现方式 |
|---|---|---|---|
| 迭代和优化 | 存在时流畅度指标翻倍 | 强制质量循环 | 7步循环:实现、审查、评估、优化、宏观检查、重复、报告。钩子在任何步骤被跳过时阻止完成。 |
| 质疑推理 | 迭代对话中可能性高5.6倍 | 证据关卡 | 6项标准要求具体证明。”我很有信心”不是证据。含糊措辞触发阻止。 |
| 识别缺失上下文 | 可能性高4倍;工件存在时下降5.2个百分点 | 宏观检查步骤 | 完成前强制执行调用方搜索、导入验证和集成测试。 |
| 事实核查 | 工件存在时下降3.7个百分点 | 独立测试运行器 | 每次代码更改后运行测试套件。代理不能自行报告测试结果。 |
| 协作指令 | 仅30%的对话 | 自动注入上下文 | 9个钩子在每次提示时触发,注入日期、分支、规范和明确的反驳假设指令。 |
这些钩子强制执行了Anthropic所量化的内容。模型不需要记住去迭代,因为基础设施要求它这样做。用户不需要记住包含协作指令,因为钩子在每次提示时自动注入它们。事实核查不依赖于用户的加工流畅性,因为独立的测试运行器会报告结果,无论代码看起来多么精美。
为什么单次通过会失败
Jiro质量哲学中描述的质量循环运行七个步骤:实现、审查、评估、优化、宏观检查、重复、报告。单次通过的代理执行步骤1和步骤7,跳过了中间的五个步骤。Anthropic的数据量化了每个被跳过步骤的代价。
跳过审查意味着代理不会重新阅读自己的输出。审查步骤捕获的是代理如果再看一遍就会注意到的那类错误:拼写错误、不清晰的命名、差一错误。没有审查,这些错误会以不存在的姿态进入完成报告。
跳过评估意味着证据关卡永远不会运行。六项标准(遵循代码库模式、最简方案、边界情况已处理、测试通过、无回归、解决实际问题)永远不会收到证据。完成报告包含的是断言,而非证明。Anthropic关于迭代使流畅度指标翻倍的发现直接映射到这里:证据关卡通过阻止缺乏证据的报告来强制迭代。
跳过优化意味着发现的问题被推迟而非修复。一条TODO注释替代了解决方案。延迟债务不断累积。GitClear量化了下游影响:在AI辅助代码库中,与重构相关的变更从25%降至不到10%,而代码重复率从8.3%升至12.3%。8
跳过宏观检查意味着代理永远不会检查集成。函数能工作。调用方却崩溃了。隧道视野未被发现。Anthropic关于工件存在时”识别缺失上下文”下降5.2个百分点的发现,从人的角度描述了同样的失败:精美的输出使上下文差距变得不可见。
跳过重复意味着通过证据关卡的一次通过被视为充分的。第一次通过捕获了问题。修复这些问题可能引入新的问题。没有第二次通过,修复的质量是未经验证的。质量循环迭代直到所有六项标准在同一次通过中都引用了证据。单次通过永远达不到这个标准。
来自500多次会话的质量循环数据(每次都记录了钩子遥测数据和结构化元数据):13平均每次非平凡变更,质量循环捕获3.2个问题。其中1.1个在审查(步骤2)中捕获,0.8个在评估(步骤3)中捕获,1.3个在宏观检查(步骤5)中捕获。单次通过的代理会将全部3.2个问题发布出去。审查-评估-宏观检查序列在完成报告之前就消除了它们。
含糊语言问题
Anthropic发现迭代用户质疑模型推理的可能性高5.6倍。1含糊语言是相反的信号:模型在未被质疑的情况下表达确定性。
含糊短语包括”应该能工作”、”我很有信心”、”看起来正确”、”大概没问题”和”我认为”。每个短语都用预测替代了观察。”测试应该能通过”意味着代理预测了结果。”14个测试通过,0个失败”意味着代理观察了结果。这一区别就是幻影验证与实际验证之间的差异。
Xiong等人发现,LLM无论实际准确性如何,都在80-100%的范围内表达信心,各模型的失败预测AUROC在0.5-0.6范围内,仅略高于随机猜测。9 Kadavath等人在Anthropic发现,模型在熟悉任务上校准良好,但在新任务上存在困难,”大部分”这个限定词掩盖了系统性盲点。10语言化的信心与正确性不相关。模型说”我很有信心”对代码是否有效提供了零信息。
含糊检测器捕获了这一模式。一个grep钩子在每份完成报告上触发,搜索可配置的含糊模式。含糊语言在没有相邻测试输出或文件路径引用的情况下出现,会触发阻止。模型必须用证据替换含糊表述。该钩子强制执行了Anthropic在迭代对话中发现的质疑行为,但它以确定性方式在每次对话中运作,而非以85.7%的概率运作。
#!/bin/bash
# hedge-detector.sh — block hedging without evidence
INPUT=$(cat)
HEDGES=$(echo "$INPUT" | grep -ciE '\bshould (work|pass|be fine)\b|\bprobably\b|\blooks correct\b|\bI.m confident\b')
if [ "$HEDGES" -gt 0 ]; then
echo '{"decision":"block","reason":"Hedging language detected. Replace with test output or file paths."}'
else
echo '{"decision":"allow"}'
fi
您今天就可以实施的方案
Anthropic的数据指向三个最小干预措施,它们捕获了最高价值的流畅度行为。
一个协作钩子。 在每次提示中注入指令,告诉模型质疑假设、识别缺失上下文并质疑自己的推理。Anthropic发现只有30%的用户手动这样做。一个钩子在100%的提示上执行此操作。五行bash代码。
#!/bin/bash
# inject-collaboration.sh — force evaluative behavior
echo "INSTRUCTIONS: Push back if assumptions are wrong."
echo "Identify missing context before proceeding."
echo "Question your own reasoning at each step."
一个证据关卡。 阻止使用含糊语言而非引用证据的完成报告。该关卡将Anthropic关于迭代使流畅度指标翻倍的发现操作化,使迭代成为强制性的。模型在没有为每项质量标准提供证据的情况下无法报告”完成”。
一个独立验证器。 在每次代码更改后运行测试套件,并将结果注入对话。验证器直接解决工件悖论:无论输出看起来多么精美,测试结果报告的是实际有效的内容。事实核查不依赖于人类的加工流畅性,因为钩子将其自动化了。
这三个钩子共同强制执行了Anthropic发现的与有效AI使用最强相关的三种行为:迭代、质疑推理和识别缺失上下文。每个钩子都是确定性的。每个在每次交互时触发。没有一个依赖于用户记住去激活它。
Anthropic量化了有效方法。钩子使其成为非可选项。
关键要点
面向个人开发者。 添加一个协作钩子,在每次提示中注入”如果假设有误请提出反对”和”识别缺失上下文”。Anthropic发现只有30%的用户手动设置协作指令。1该钩子使评估行为在100%的交互中自动执行。
面向团队负责人。 迭代是信号,而非采用率。Anthropic量化了迭代对话中流畅度指标是非迭代对话的2倍。1构建强制迭代的基础设施(证据关卡、强制审查步骤),而非奖励首次通过的输出。DX的数据证实:尽管采用率达到91%,生产力增益在最近几个季度趋于平稳。12
面向平台工程师。 用独立测试运行器解决工件悖论。精美的AI输出通过加工流畅性触发自动信任,当工件存在时事实核查下降3.7个百分点。1一个在每次代码更改后运行测试套件的独立验证器,通过报告实际有效的内容完全绕过加工流畅性,而不管代码看起来如何。
来源
-
Kyle Swanson, Daniel Bent, Zack Ludwig, Rick Dakan, and Joseph Feller, “Anthropic Education Report: The AI Fluency Index,” Anthropic Research, February 23, 2026, anthropic.com. 9,830 anonymized conversations on Claude.ai, January 20-26, 2026. Iterative conversations: 2.67 fluency behaviors (vs 1.33 non-iterative). 5.6x more likely to question reasoning. Artifact paradox: -5.2pp missing context identification, -3.7pp fact-checking. ↩↩↩↩↩↩↩↩↩
-
Rick Dakan and Joseph Feller, “The AI Fluency Framework,” developed in collaboration with Anthropic, supported by Ireland’s Higher Education Authority, 2025, aifluencyframework.org. 24 behaviors across 4 dimensions: Delegation, Description, Discernment, Diligence. Definition: “The ability to work effectively, efficiently, ethically, and safely within emerging modalities of Human-AI interaction.” ↩↩
-
Adam L. Alter and Daniel M. Oppenheimer, “Uniting the Tribes of Fluency to Form a Metacognitive Nation,” Personality and Social Psychology Review, 13(3), 219-235, 2009, doi.org. Processing fluency causes stimuli to be judged as more true, reliable, and trustworthy regardless of actual accuracy. ↩
-
Daniel M. Oppenheimer, “The Secret Life of Fluency,” Trends in Cognitive Sciences, 12(6), 237-241, 2008, sciencedirect.com. The fluency heuristic operates automatically: processing ease serves as a proxy for quality without conscious awareness. ↩
-
Daniel Kahneman, Thinking, Fast and Slow (New York: Farrar, Straus and Giroux, 2011). System 1 (automatic) associates cognitive ease with truth. System 2 (deliberate) requires effort. WYSIATI: conclusions drawn from available information without accounting for what is missing. Quote: “It’s a mistake for people to have confidence in a judgment because it made for a good story when in fact confidence should be based on the quality and quantity of evidence.” ↩↩
-
Peter West et al., “The Generative AI Paradox: What It Can Create, It May Not Understand,” ICLR 2024, arxiv.org; Peter West et al., “The Generative AI Paradox on Evaluation: What It Can Solve, It May Not Evaluate,” arXiv:2402.06204, 2024, arxiv.org. Generative capabilities exceed evaluation capabilities. Models produce expert-level output they cannot reliably self-evaluate. ↩
-
Jeff Gothelf, “Confusing Artifact Quality with Certainty,” 2026, jeffgothelf.com. “Part of productivity gains comes from the appearance of quality in AI-produced output. It looks good, it looks polished, it looks done.” ↩
-
William Harding and Matthew Kloster, “Coding on Copilot: 2023 Data Suggests Downward Pressure on Code Quality,” GitClear, January 2024, gitclear.com. 153 million changed lines. Refactoring fell from 25% to under 10%. Code duplication rose from 8.3% to 12.3%. ↩
-
Miao Xiong, Zhiyuan Hu, Xinyang Lu, et al., “Can LLMs Express Their Uncertainty? An Empirical Evaluation of Confidence Elicitation in LLMs,” ICLR 2024, arxiv.org. LLMs express confidence in 80-100% range regardless of accuracy. Failure prediction AUROC across models ranges 0.5-0.6, barely above random. ↩
-
Saurav Kadavath, Tom Conerly, Amanda Askell, et al., “Language Models (Mostly) Know What They Know,” Anthropic, arXiv:2207.05221, July 2022, arxiv.org. Well-calibrated on familiar tasks, systematic blind spots on novel tasks. ↩
-
CodeRabbit, “State of AI vs. Human Code Generation Report,” December 17, 2025, coderabbit.ai. 470 PRs analyzed. AI-authored: 1.7x more issues, 1.75x more logic errors. Polished output masks higher defect rates. ↩
-
Laura Tacho, “AI-Assisted Engineering: Q4 Impact Report,” DX, November 4, 2025, getdx.com. 135,000+ developers across 435 companies. Average savings of about four hours per week despite 91% adoption. ↩↩
-
Author’s analysis. Quality loop described in “Jiro Quality Philosophy.” Hook system described in “Anatomy of a Claw.” Failure modes described in “What Actually Breaks When You Run AI Agents Unsupervised.” 10% wall explained in “The 10% Wall.” ↩