← 所有文章

Anthropic量化了有效方法,我的钩子将其强制执行。

From the guide: Claude Code Comprehensive Guide

Anthropic在2026年1月的一周内分析了Claude.ai上的9,830次对话。1该分析使用了CLIO——一种隐私保护工具,能够在不读取单条消息的情况下对对话模式进行分类。研究人员追踪了Rick Dakan教授和Joseph Feller教授开发的24项行为AI流畅度框架中的11项可观测行为。2

核心发现:85.7%的对话包含迭代和优化。迭代对话平均展现2.67个流畅度行为,大约是非迭代对话1.33个的两倍。迭代对话中的用户质疑模型推理的可能性高出5.6倍,识别缺失上下文的可能性高出4倍。1

迭代是区分有效AI使用与平庸AI使用的关键变量。Anthropic对此进行了量化。DX对135,000名开发者的调查发现,尽管采用率达到91%,AI每周仅为开发者节省约四个小时,这一数字在最近几个季度趋于平稳,尽管采用率持续上升,这表明没有迭代基础设施的采用会触及天花板。12问题在于:迭代是持续发生的,还是仅在人们记得去做时才会发生。

摘要

Anthropic的AI流畅度指数发现,迭代优化在9,830次对话中使流畅度指标翻倍。工件悖论解释了为什么迭代默认会失败:精美的输出抑制了评估行为(事实核查下降3.7个百分点,缺失上下文识别下降5.2个百分点,质疑推理下降3.1个百分点)。其机制是加工流畅性:系统1在系统2评估代码是否真正有效之前,就将整洁的代码标记为正确。质量循环强制执行单次通过所跳过的迭代:强制审查、证据关卡、集成检查,以及重复直到所有标准都引用证据。这些钩子强制执行了Anthropic所量化的内容。


Anthropic量化了什么

AI流畅度指数追踪的是可观测行为,而非主观质量评估。该框架将AI流畅度定义为”在人机交互的新兴模式中有效、高效、合乎道德且安全地工作的能力”。224项行为涵盖四个维度:委派(Delegation)、描述(Description)、辨别(Discernment)和勤勉(Diligence)。其中11项可在对话中直接观测。其余13项发生在聊天界面之外(在生产环境中评估输出、与同事分享结果、对照外部来源进行验证)。

11项可观测行为包括迭代和优化、质疑推理、识别缺失上下文、明确目标、指定格式、提供示例和事实核查。研究人员使用Claude Sonnet作为分析模型,将每次对话按此分类体系进行分类。

三个发现对工程基础设施具有重要意义。

发现1:迭代是最强信号。 85.7%的对话至少包含一些迭代。有迭代的对话展现大约两倍的流畅度行为(2.67 vs 1.33)。进行迭代的用户质疑推理的可能性高出5.6倍,识别差距的可能性高出4倍。1迭代不是锦上添花,而是与有效AI使用最强相关的行为。

发现2:精美输出抑制评估。 12.3%的对话涉及工件生成(代码、文档、交互式工具)。当模型生成工件时,用户变得更具指令性:明确目标增加了14.7个百分点,指定格式增加了14.5个百分点,提供示例增加了13.4个百分点。但评估行为下降了:识别缺失上下文下降了5.2个百分点,事实核查下降了3.7个百分点,质疑推理下降了3.1个百分点。1用户的指令更精确了,但评估更少了。

发现3:很少有用户建立协作模式。 只有30%的对话包含明确的协作指令,例如”如果我的假设有误请提出反对”或”告诉我我遗漏了什么”。1默认模式是委派,而非对话。大多数用户将模型视为执行者而非协作者。


工件悖论

Anthropic命名了这一模式,但没有命名其背后的机制。认知科学对此有一个精确的术语:加工流畅性。

加工流畅性是与心理任务相关的主观轻松或困难体验。Alter和Oppenheimer记录了这样一个现象:经过语义启动、视觉清晰或易于处理的刺激,会被判断为更真实、更可靠、更值得信赖,而不考虑实际准确性。3 Oppenheimer证明流畅性启发式自动运作:人们将加工容易度作为质量的代理指标,而没有意识到这一点。4

Kahneman的系统1/系统2框架解释了其中的原因。系统1自动处理信息,将认知轻松与真实性关联。系统2进行审慎分析,但需要付出努力和动机。精美的AI输出具有高度的加工流畅性。代码能编译。格式整洁。解释连贯。系统1在系统2有机会评估其是否正确之前,就将其标记为”好”。5

Kahneman识别出了具体的失败模式:”人们因为一个判断构成了好故事就对其充满信心,这是一个错误——事实上,信心应该建立在证据的质量和数量之上。”5将”好故事”替换为”整洁的代码”,工件悖论就是WYSIATI(你所看到的就是全部)应用于AI生成输出的版本。

West等人从模型角度形式化了互补发现。在ICLR 2024的一篇论文和一篇配套预印本中,他们证明了生成式模型获得的生产能力超过了其评估能力。6模型在几秒内生成专家级代码,同时犯下人类专家不会犯的错误。模型无法可靠地评估自己的输出,因为生成和评估是独立的能力,且扩展速度不同。

悖论叠加:模型产生了它无法正确评估的精美输出,而人类面对这种精美度时减少了自己的评估。双方都没有验证。双方都假设正确。CodeRabbit对470个拉取请求的分析发现,AI编写的代码问题多出1.7倍,逻辑错误多出1.75倍,尽管在审查中看起来很精美。11 Jeff Gothelf捕捉到了组织层面的版本:”生产力提升的一部分来自AI产出的质量外观。它看起来好,看起来精美,看起来完成了。”7

工件悖论不是用户教育问题。教育有帮助,但Anthropic的数据表明,即使是进行迭代的用户(85.7%的对话),在存在工件时也会减少评估。事实核查和缺失上下文识别的下降发生在整个群体中,而不仅仅是新手用户。这一机制是认知性的,而非信息性的。知道偏见的存在并不能消除它。

基础设施能消除它。


将发现映射到基础设施

Anthropic的每个发现都映射到一个具体的基础设施组件。下表展示了从量化行为到执行机制的完整链条。

流畅度行为 Anthropic的发现 基础设施修复 实现方式
迭代和优化 存在时流畅度指标翻倍 强制质量循环 7步循环:实现、审查、评估、优化、宏观检查、重复、报告。钩子在任何步骤被跳过时阻止完成。
质疑推理 迭代对话中可能性高5.6倍 证据关卡 6项标准要求具体证明。”我很有信心”不是证据。含糊措辞触发阻止。
识别缺失上下文 可能性高4倍;工件存在时下降5.2个百分点 宏观检查步骤 完成前强制执行调用方搜索、导入验证和集成测试。
事实核查 工件存在时下降3.7个百分点 独立测试运行器 每次代码更改后运行测试套件。代理不能自行报告测试结果。
协作指令 仅30%的对话 自动注入上下文 9个钩子在每次提示时触发,注入日期、分支、规范和明确的反驳假设指令。

这些钩子强制执行了Anthropic所量化的内容。模型不需要记住去迭代,因为基础设施要求它这样做。用户不需要记住包含协作指令,因为钩子在每次提示时自动注入它们。事实核查不依赖于用户的加工流畅性,因为独立的测试运行器会报告结果,无论代码看起来多么精美。


为什么单次通过会失败

Jiro质量哲学中描述的质量循环运行七个步骤:实现、审查、评估、优化、宏观检查、重复、报告。单次通过的代理执行步骤1和步骤7,跳过了中间的五个步骤。Anthropic的数据量化了每个被跳过步骤的代价。

跳过审查意味着代理不会重新阅读自己的输出。审查步骤捕获的是代理如果再看一遍就会注意到的那类错误:拼写错误、不清晰的命名、差一错误。没有审查,这些错误会以不存在的姿态进入完成报告。

跳过评估意味着证据关卡永远不会运行。六项标准(遵循代码库模式、最简方案、边界情况已处理、测试通过、无回归、解决实际问题)永远不会收到证据。完成报告包含的是断言,而非证明。Anthropic关于迭代使流畅度指标翻倍的发现直接映射到这里:证据关卡通过阻止缺乏证据的报告来强制迭代。

跳过优化意味着发现的问题被推迟而非修复。一条TODO注释替代了解决方案。延迟债务不断累积。GitClear量化了下游影响:在AI辅助代码库中,与重构相关的变更从25%降至不到10%,而代码重复率从8.3%升至12.3%。8

跳过宏观检查意味着代理永远不会检查集成。函数能工作。调用方却崩溃了。隧道视野未被发现。Anthropic关于工件存在时”识别缺失上下文”下降5.2个百分点的发现,从人的角度描述了同样的失败:精美的输出使上下文差距变得不可见。

跳过重复意味着通过证据关卡的一次通过被视为充分的。第一次通过捕获了问题。修复这些问题可能引入新的问题。没有第二次通过,修复的质量是未经验证的。质量循环迭代直到所有六项标准在同一次通过中都引用了证据。单次通过永远达不到这个标准。

来自500多次会话的质量循环数据(每次都记录了钩子遥测数据和结构化元数据):13平均每次非平凡变更,质量循环捕获3.2个问题。其中1.1个在审查(步骤2)中捕获,0.8个在评估(步骤3)中捕获,1.3个在宏观检查(步骤5)中捕获。单次通过的代理会将全部3.2个问题发布出去。审查-评估-宏观检查序列在完成报告之前就消除了它们。


含糊语言问题

Anthropic发现迭代用户质疑模型推理的可能性高5.6倍。1含糊语言是相反的信号:模型在未被质疑的情况下表达确定性。

含糊短语包括”应该能工作”、”我很有信心”、”看起来正确”、”大概没问题”和”我认为”。每个短语都用预测替代了观察。”测试应该能通过”意味着代理预测了结果。”14个测试通过,0个失败”意味着代理观察了结果。这一区别就是幻影验证与实际验证之间的差异。

Xiong等人发现,LLM无论实际准确性如何,都在80-100%的范围内表达信心,各模型的失败预测AUROC在0.5-0.6范围内,仅略高于随机猜测。9 Kadavath等人在Anthropic发现,模型在熟悉任务上校准良好,但在新任务上存在困难,”大部分”这个限定词掩盖了系统性盲点。10语言化的信心与正确性不相关。模型说”我很有信心”对代码是否有效提供了零信息。

含糊检测器捕获了这一模式。一个grep钩子在每份完成报告上触发,搜索可配置的含糊模式。含糊语言在没有相邻测试输出或文件路径引用的情况下出现,会触发阻止。模型必须用证据替换含糊表述。该钩子强制执行了Anthropic在迭代对话中发现的质疑行为,但它以确定性方式在每次对话中运作,而非以85.7%的概率运作。

#!/bin/bash
# hedge-detector.sh — block hedging without evidence
INPUT=$(cat)
HEDGES=$(echo "$INPUT" | grep -ciE '\bshould (work|pass|be fine)\b|\bprobably\b|\blooks correct\b|\bI.m confident\b')
if [ "$HEDGES" -gt 0 ]; then
  echo '{"decision":"block","reason":"Hedging language detected. Replace with test output or file paths."}'
else
  echo '{"decision":"allow"}'
fi

您今天就可以实施的方案

Anthropic的数据指向三个最小干预措施,它们捕获了最高价值的流畅度行为。

一个协作钩子。 在每次提示中注入指令,告诉模型质疑假设、识别缺失上下文并质疑自己的推理。Anthropic发现只有30%的用户手动这样做。一个钩子在100%的提示上执行此操作。五行bash代码。

#!/bin/bash
# inject-collaboration.sh — force evaluative behavior
echo "INSTRUCTIONS: Push back if assumptions are wrong."
echo "Identify missing context before proceeding."
echo "Question your own reasoning at each step."

一个证据关卡。 阻止使用含糊语言而非引用证据的完成报告。该关卡将Anthropic关于迭代使流畅度指标翻倍的发现操作化,使迭代成为强制性的。模型在没有为每项质量标准提供证据的情况下无法报告”完成”。

一个独立验证器。 在每次代码更改后运行测试套件,并将结果注入对话。验证器直接解决工件悖论:无论输出看起来多么精美,测试结果报告的是实际有效的内容。事实核查不依赖于人类的加工流畅性,因为钩子将其自动化了。

这三个钩子共同强制执行了Anthropic发现的与有效AI使用最强相关的三种行为:迭代、质疑推理和识别缺失上下文。每个钩子都是确定性的。每个在每次交互时触发。没有一个依赖于用户记住去激活它。

Anthropic量化了有效方法。钩子使其成为非可选项。


关键要点

面向个人开发者。 添加一个协作钩子,在每次提示中注入”如果假设有误请提出反对”和”识别缺失上下文”。Anthropic发现只有30%的用户手动设置协作指令。1该钩子使评估行为在100%的交互中自动执行。

面向团队负责人。 迭代是信号,而非采用率。Anthropic量化了迭代对话中流畅度指标是非迭代对话的2倍。1构建强制迭代的基础设施(证据关卡、强制审查步骤),而非奖励首次通过的输出。DX的数据证实:尽管采用率达到91%,生产力增益在最近几个季度趋于平稳。12

面向平台工程师。 用独立测试运行器解决工件悖论。精美的AI输出通过加工流畅性触发自动信任,当工件存在时事实核查下降3.7个百分点。1一个在每次代码更改后运行测试套件的独立验证器,通过报告实际有效的内容完全绕过加工流畅性,而不管代码看起来如何。


来源


  1. Kyle Swanson, Daniel Bent, Zack Ludwig, Rick Dakan, and Joseph Feller, “Anthropic Education Report: The AI Fluency Index,” Anthropic Research, February 23, 2026, anthropic.com. 9,830 anonymized conversations on Claude.ai, January 20-26, 2026. Iterative conversations: 2.67 fluency behaviors (vs 1.33 non-iterative). 5.6x more likely to question reasoning. Artifact paradox: -5.2pp missing context identification, -3.7pp fact-checking. 

  2. Rick Dakan and Joseph Feller, “The AI Fluency Framework,” developed in collaboration with Anthropic, supported by Ireland’s Higher Education Authority, 2025, aifluencyframework.org. 24 behaviors across 4 dimensions: Delegation, Description, Discernment, Diligence. Definition: “The ability to work effectively, efficiently, ethically, and safely within emerging modalities of Human-AI interaction.” 

  3. Adam L. Alter and Daniel M. Oppenheimer, “Uniting the Tribes of Fluency to Form a Metacognitive Nation,” Personality and Social Psychology Review, 13(3), 219-235, 2009, doi.org. Processing fluency causes stimuli to be judged as more true, reliable, and trustworthy regardless of actual accuracy. 

  4. Daniel M. Oppenheimer, “The Secret Life of Fluency,” Trends in Cognitive Sciences, 12(6), 237-241, 2008, sciencedirect.com. The fluency heuristic operates automatically: processing ease serves as a proxy for quality without conscious awareness. 

  5. Daniel Kahneman, Thinking, Fast and Slow (New York: Farrar, Straus and Giroux, 2011). System 1 (automatic) associates cognitive ease with truth. System 2 (deliberate) requires effort. WYSIATI: conclusions drawn from available information without accounting for what is missing. Quote: “It’s a mistake for people to have confidence in a judgment because it made for a good story when in fact confidence should be based on the quality and quantity of evidence.” 

  6. Peter West et al., “The Generative AI Paradox: What It Can Create, It May Not Understand,” ICLR 2024, arxiv.org; Peter West et al., “The Generative AI Paradox on Evaluation: What It Can Solve, It May Not Evaluate,” arXiv:2402.06204, 2024, arxiv.org. Generative capabilities exceed evaluation capabilities. Models produce expert-level output they cannot reliably self-evaluate. 

  7. Jeff Gothelf, “Confusing Artifact Quality with Certainty,” 2026, jeffgothelf.com. “Part of productivity gains comes from the appearance of quality in AI-produced output. It looks good, it looks polished, it looks done.” 

  8. William Harding and Matthew Kloster, “Coding on Copilot: 2023 Data Suggests Downward Pressure on Code Quality,” GitClear, January 2024, gitclear.com. 153 million changed lines. Refactoring fell from 25% to under 10%. Code duplication rose from 8.3% to 12.3%. 

  9. Miao Xiong, Zhiyuan Hu, Xinyang Lu, et al., “Can LLMs Express Their Uncertainty? An Empirical Evaluation of Confidence Elicitation in LLMs,” ICLR 2024, arxiv.org. LLMs express confidence in 80-100% range regardless of accuracy. Failure prediction AUROC across models ranges 0.5-0.6, barely above random. 

  10. Saurav Kadavath, Tom Conerly, Amanda Askell, et al., “Language Models (Mostly) Know What They Know,” Anthropic, arXiv:2207.05221, July 2022, arxiv.org. Well-calibrated on familiar tasks, systematic blind spots on novel tasks. 

  11. CodeRabbit, “State of AI vs. Human Code Generation Report,” December 17, 2025, coderabbit.ai. 470 PRs analyzed. AI-authored: 1.7x more issues, 1.75x more logic errors. Polished output masks higher defect rates. 

  12. Laura Tacho, “AI-Assisted Engineering: Q4 Impact Report,” DX, November 4, 2025, getdx.com. 135,000+ developers across 435 companies. Average savings of about four hours per week despite 91% adoption. 

  13. Author’s analysis. Quality loop described in “Jiro Quality Philosophy.” Hook system described in “Anatomy of a Claw.” Failure modes described in “What Actually Breaks When You Run AI Agents Unsupervised.” 10% wall explained in “The 10% Wall.” 

相关文章

What Actually Breaks When You Run AI Agents Unsupervised

Seven named failure modes from 500+ autonomous agent sessions. Each has a detection signal, a real example, and a concre…

16 分钟阅读

The 10% Wall: Why AI Productivity Plateaus

121,000 developers surveyed, 92.6% using AI tools, productivity stuck at 10%. The wall is infrastructure, not intelligen…

18 分钟阅读

Your Agent Writes Faster Than You Can Read

Five research groups published about the same problem this week: AI agents produce code faster than developers can under…

16 分钟阅读