← 所有文章

Anthropic量化了有效做法。我的Hooks將其強制執行。

From the guide: Claude Code Comprehensive Guide

Anthropic於2026年1月的某一週內,分析了Claude.ai上的9,830段對話。1 該分析使用了CLIO,一個在不讀取個別訊息的情況下對對話模式進行分類的隱私保護工具。研究人員追蹤了Rick Dakan教授與Joseph Feller教授所開發的24項行為AI流暢度框架中的11項可觀察行為。2

核心發現:85.7%的對話包含迭代與改善。迭代對話平均展現2.67項流暢度行為,大約是非迭代對話1.33項的兩倍。迭代對話中的使用者質疑模型推理的可能性高出5.6倍,識別缺失脈絡的可能性高出4倍。1

迭代是區分有效AI使用與平庸AI使用的變數。Anthropic量化了這一點。問題在於迭代是否持續發生,還是僅在人類記得時才發生。

摘要

Anthropic的AI流暢度指數發現,迭代改善使9,830段對話中的流暢度指標倍增。「成品悖論」解釋了為何迭代不會預設發生:當模型產出精美的輸出時,使用者變得更具指令性但評估性降低。事實查核下降了3.7個百分點。識別缺失脈絡下降了5.2個百分點。質疑推理下降了3.1個百分點。認知機制是處理流暢性:精美的輸出觸發自動信任(Kahneman的系統1)並抑制批判性評估(系統2)。品質迴圈強制執行單次處理所跳過的迭代:強制審查、證據閘門、整合檢查,並重複直到所有標準引用證據。Hooks強制執行Anthropic所量化的行為。模型無法跳過迭代,因為基礎設施要求它。


Anthropic量化了什麼

AI流暢度指數追蹤的是可觀察行為,而非主觀品質評估。該框架將AI流暢度定義為「在人機互動的新興模式中有效、高效、合乎倫理且安全地工作的能力」。2 24項行為涵蓋四個維度:委派、描述、辨識與勤勉。其中11項可在對話中直接觀察。其餘13項發生在聊天介面之外(在生產環境中評估輸出、與同事分享結果、對照外部來源進行驗證)。

11項可觀察行為包括迭代與改善、質疑推理、識別缺失脈絡、釐清目標、指定格式、提供範例,以及事實查核。研究人員使用Claude Sonnet作為分析模型,將每段對話按此分類法進行歸類。

有三項發現對工程基礎設施至關重要。

發現一:迭代是最強的訊號。 85.7%的對話至少包含某種程度的迭代。有迭代的對話展現大約兩倍的流暢度行為(2.67 vs 1.33)。迭代的使用者質疑推理的可能性高出5.6倍,識別缺口的可能性高出4倍。1 迭代不是錦上添花。它是與有效AI使用最強關聯的行為。

發現二:精美的輸出抑制評估。 12.3%的對話涉及成品生成(程式碼、文件、互動工具)。當模型產出成品時,使用者變得更具指令性:釐清目標提升了14.7個百分點,指定格式提升了14.5個百分點,提供範例提升了13.4個百分點。但評估行為下降了:識別缺失脈絡下降了5.2個百分點,事實查核下降了3.7個百分點,質疑推理下降了3.1個百分點。1 使用者的指令更好了,但評估更少了。

發現三:很少使用者建立協作機制。 僅30%的對話包含明確的協作指令,如「如果我的假設有誤,請反駁」或「告訴我我遺漏了什麼」。1 預設模式是委派,而非對話。多數使用者將模型視為執行者而非協作者。


成品悖論

Anthropic命名了這個模式,但沒有命名其機制。認知科學對此有一個精確的術語:處理流暢性。

處理流暢性是與心智任務相關的主觀輕鬆或困難體驗。Alter與Oppenheimer記錄了經過語義預激、視覺清晰或易於處理的刺激,無論實際準確度如何,都會被判斷為更真實、更可靠、更值得信賴。3 Oppenheimer展示了流暢性捷思法自動運作:人們在無意識的情況下,將處理的容易程度作為品質的替代指標。4

Kahneman的系統1/系統2框架解釋了原因。系統1自動處理資訊,將認知輕鬆與真實相關聯。系統2進行刻意分析,但需要努力和動機。精美的AI輸出具有高處理流暢性。程式碼可以編譯。格式整潔。解釋連貫。系統1在系統2有機會評估其是否正確之前,就將其標記為「好的」。5

Kahneman指出了具體的失敗模式:「人們因為一個判斷構成了好故事就對其有信心,這是一個錯誤,因為信心實際上應該基於證據的品質和數量。」5 將「好故事」替換為「整潔的程式碼」,成品悖論就是WYSIATI(你所見即全部)應用於AI生成輸出。

West等人從模型端形式化了互補的發現。在2024年ICLR發表的兩篇論文中,他們證明了生成模型獲得的生產能力超越了其評估能力。6 模型在幾秒內生成專家級程式碼,同時犯下沒有人類專家會犯的錯誤。模型無法可靠地評估自身的輸出,因為生成和評估是以不同速率擴展的獨立能力。

這個悖論相互強化:模型產出它無法正確評估的精美輸出,而人類在接觸到這種精美度時,降低了自己的評估。雙方都不驗證。雙方都假設正確。Jeff Gothelf捕捉到了組織層面的版本:「部分生產力提升來自AI產出輸出的品質外觀。它看起來好,看起來精美,看起來完成了。」7

成品悖論不是使用者教育問題。教育有幫助,但Anthropic的資料顯示,即使是進行迭代的使用者(85.7%的對話),在成品存在時評估也會減少。事實查核和缺失脈絡識別的下降發生在整個群體中,而不僅僅是在新手使用者中。這個機制是認知性的,而非資訊性的。知道偏見的存在並不能消除它。

基礎設施消除它。


將發現對應到基礎設施

每項Anthropic的發現都對應到一個特定的基礎設施元件。下表展示了從量化行為到強制執行機制的鏈結。

流暢度行為 Anthropic的發現 基礎設施修正 實作方式
迭代與改善 存在時流暢度指標倍增 強制品質迴圈 7步驟迴圈:實作、審查、評估、改善、縮放觀察、重複、報告。若任何步驟被跳過,Hook會阻止完成。
質疑推理 在迭代對話中可能性高5.6倍 證據閘門 6項標準要求具體證明。「我有信心」不是證據。模糊用語觸發阻止。
識別缺失脈絡 可能性高4倍;成品存在時-5.2百分點 縮放觀察步驟 完成前強制進行呼叫者搜尋、匯入驗證和整合測試。
事實查核 成品存在時-3.7百分點 獨立測試執行器 每次程式碼變更後執行測試套件。代理程式無法自行報告測試結果。
協作指令 僅30%的對話包含 自動注入脈絡 每個提示詞觸發9個Hooks,注入日期、分支、慣例,以及明確指示以反駁假設。

Hooks強制執行Anthropic所量化的行為。模型不需要記住要迭代,因為基礎設施要求它。使用者不需要記住包含協作指令,因為Hooks在每個提示詞上注入它們。事實查核不依賴於使用者的處理流暢性,因為獨立測試執行器會報告結果,無論程式碼看起來多麼精美。


為何單次處理會失敗

Jiro品質哲學中描述的品質迴圈執行七個步驟:實作、審查、評估、改善、縮放觀察、重複、報告。單次處理的代理程式執行步驟1和步驟7,跳過中間的五個步驟。Anthropic的資料量化了每個被跳過步驟的代價。

跳過審查意味著代理程式不會重新閱讀自己的輸出。審查步驟捕捉代理程式若再次查看就會注意到的那類錯誤:拼寫錯誤、命名不清、差一錯誤。沒有審查,這些錯誤會進入完成報告,彷彿它們不存在。

跳過評估意味著證據閘門永遠不會執行。六項標準(遵循程式碼庫模式、最簡方案、邊界情況處理、測試通過、無迴歸、解決實際問題)永遠不會收到證據。完成報告包含的是宣稱,而非證明。Anthropic的發現——迭代使流暢度指標倍增——直接對應此處:證據閘門通過阻止缺乏證據的報告來強制迭代。

跳過改善意味著發現的問題被延後而非修正。TODO註解取代了解決方案。延遲債務不斷累積。GitClear量化了下游效應:在AI輔助的程式碼庫中,與重構相關的變更從所有變更的25%降至10%以下,而程式碼重複率從8.3%上升至12.3%。8

跳過縮放觀察意味著代理程式從不檢查整合。函式可以運作。呼叫者崩潰了。隧道視野未被偵測到。Anthropic在成品存在時「識別缺失脈絡」下降5.2個百分點的發現,從人類端描述了同樣的失敗:精美的輸出使脈絡缺口變得不可見。

跳過重複意味著一次通過證據閘門就被視為足夠。第一次通過會發現問題。修正這些問題可能會引入新問題。沒有第二次通過,修正的品質是未經驗證的。品質迴圈迭代直到所有六項標準在同一次通過中引用證據。單次處理永遠達不到這個標準。

根據工具鏈資料:平均品質迴圈在每次非瑣碎變更中發現3.2個問題。其中1.1個在審查(步驟2)中發現,0.8個在評估(步驟3)中發現,1.3個在縮放觀察(步驟5)中發現。單次處理的代理程式會將所有3.2個問題交付。審查-評估-縮放觀察序列在完成報告之前消除它們。


模糊用語問題

Anthropic發現迭代使用者質疑模型推理的可能性高出5.6倍。1 模糊用語是反向訊號:模型在未被質疑時表達確定性。

模糊用語包括「應該可以」、「我有信心」、「看起來正確」、「可能沒問題」和「我相信」。每個詞組都用預測取代了觀察。「測試應該會通過」意味著代理程式預測了結果。「14項測試通過,0項失敗」意味著代理程式觀察了結果。這個區別是幻影驗證與實際驗證之間的差異。

Xiong等人發現LLM無論實際準確度如何,都在80-100%的範圍內表達信心,其中GPT-4的失敗預測僅略高於隨機猜測(AUROC 62.7%)。9 Kadavath等人在Anthropic發現模型在熟悉任務上校準良好,但在新穎任務上表現困難,其中「大致上」這個修飾詞掩蓋了系統性的盲點。10 口頭表達的信心與正確性無關。模型說「我有信心」對程式碼是否有效提供零資訊。

模糊偵測器捕捉這個模式。grep Hook在每份完成報告上觸發,搜尋可配置的模糊模式。模糊用語出現時若無相鄰的測試輸出或檔案路徑引用,則觸發阻止。模型必須用證據替換模糊用語。Hook強制執行Anthropic在迭代對話中發現的質疑行為,只是它在每次對話中確定性地運作,而非以85.7%的機率運作。

#!/bin/bash
# hedge-detector.sh — block hedging without evidence
INPUT=$(cat)
HEDGES=$(echo "$INPUT" | grep -ciE '\bshould (work|pass|be fine)\b|\bprobably\b|\blooks correct\b|\bI.m confident\b')
if [ "$HEDGES" -gt 0 ]; then
  echo '{"decision":"block","reason":"Hedging language detected. Replace with test output or file paths."}'
else
  echo '{"decision":"allow"}'
fi

您今天就能實作的內容

Anthropic的資料指向三項最低限度的介入措施,能夠捕捉最高價值的流暢度行為。

一個協作Hook。 在每個提示詞上注入指令,告訴模型反駁假設、識別缺失脈絡,並質疑自己的推理。Anthropic發現僅30%的使用者手動執行此操作。一個Hook在100%的提示詞上執行。五行bash。

#!/bin/bash
# inject-collaboration.sh — force evaluative behavior
echo "INSTRUCTIONS: Push back if assumptions are wrong."
echo "Identify missing context before proceeding."
echo "Question your own reasoning at each step."

一個證據閘門。 阻止使用模糊用語而非引用證據的完成報告。該閘門將Anthropic關於迭代使流暢度指標倍增的發現轉化為操作,使迭代成為強制性的。模型無法在沒有每項品質標準證據的情況下報告「完成」。

一個獨立驗證器。 在每次程式碼變更後執行測試套件,並將結果注入對話。驗證器直接解決成品悖論:無論輸出看起來多麼精美,測試結果都會報告實際有效的內容。事實查核不依賴於人類處理流暢性,因為Hook將其自動化。

這三個Hooks共同強制執行Anthropic發現的與有效AI使用最強關聯的三種行為:迭代、質疑推理和識別缺失脈絡。每個Hook都是確定性的。每個都在每次互動時觸發。沒有任何一個依賴於使用者記住要啟動它。

Anthropic量化了有效做法。Hooks使其不可選擇。


來源


  1. Kyle Swanson, Daniel Bent, Zack Ludwig, Rick Dakan, and Joseph Feller, “Anthropic Education Report: The AI Fluency Index,” Anthropic Research, February 23, 2026, anthropic.com. 9,830 anonymized conversations on Claude.ai, January 20-26, 2026. Iterative conversations: 2.67 fluency behaviors (vs 1.33 non-iterative). 5.6x more likely to question reasoning. Artifact paradox: -5.2pp missing context identification, -3.7pp fact-checking. 

  2. Rick Dakan and Joseph Feller, “The AI Fluency Framework,” developed in collaboration with Anthropic, supported by Ireland’s Higher Education Authority, 2025, aifluencyframework.org. 24 behaviors across 4 dimensions: Delegation, Description, Discernment, Diligence. Definition: “The ability to work effectively, efficiently, ethically, and safely within emerging modalities of Human-AI interaction.” 

  3. Adam L. Alter and Daniel M. Oppenheimer, “Uniting the Tribes of Fluency to Form a Metacognitive Nation,” Personality and Social Psychology Review, 13(3), 219-235, 2009, doi.org. Processing fluency causes stimuli to be judged as more true, reliable, and trustworthy regardless of actual accuracy. 

  4. Daniel M. Oppenheimer, “The Secret Life of Fluency,” Trends in Cognitive Sciences, 12(6), 237-241, 2008, sciencedirect.com. The fluency heuristic operates automatically: processing ease serves as a proxy for quality without conscious awareness. 

  5. Daniel Kahneman, Thinking, Fast and Slow (New York: Farrar, Straus and Giroux, 2011). System 1 (automatic) associates cognitive ease with truth. System 2 (deliberate) requires effort. WYSIATI: conclusions drawn from available information without accounting for what is missing. Quote: “It’s a mistake for people to have confidence in a judgment because it made for a good story when in fact confidence should be based on the quality and quantity of evidence.” 

  6. Peter West et al., “The Generative AI Paradox: What It Can Create, It May Not Understand,” ICLR 2024, arxiv.org; Peter West et al., “The Generative AI Paradox on Evaluation: What It Can Solve, It May Not Evaluate,” arXiv:2402.06204, 2024, arxiv.org. Generative capabilities exceed evaluation capabilities. Models produce expert-level output they cannot reliably self-evaluate. 

  7. Jeff Gothelf, “Confusing Artifact Quality with Certainty,” 2024, jeffgothelf.com. “Part of productivity gains comes from the appearance of quality in AI-produced output. It looks good, it looks polished, it looks done.” 

  8. William Harding and Matthew Kloster, “Coding on Copilot: 2023 Data Suggests Downward Pressure on Code Quality,” GitClear, January 2024, gitclear.com. 153 million changed lines. Refactoring fell from 25% to under 10%. Code duplication rose from 8.3% to 12.3%. 

  9. Miao Xiong, Zhiyuan Hu, Xinyang Lu, et al., “Can LLMs Express Their Uncertainty? An Empirical Evaluation of Confidence Elicitation in LLMs,” ICLR 2024, arxiv.org. LLMs express confidence in 80-100% range regardless of accuracy. GPT-4 failure prediction AUROC: 62.7%. 

  10. Saurav Kadavath, Tom Conerly, Amanda Askell, et al., “Language Models (Mostly) Know What They Know,” Anthropic, arXiv:2207.05221, July 2022, arxiv.org. Well-calibrated on familiar tasks, systematic blind spots on novel tasks. 

  11. CodeRabbit, “State of AI vs. Human Code Generation Report,” December 17, 2025, coderabbit.ai. 470 PRs analyzed. AI-authored: 1.7x more issues, 1.75x more logic errors. Polished output masks higher defect rates. 

  12. Laura Tacho, “AI-Assisted Engineering: Q4 Impact Report,” DX, November 4, 2025, getdx.com. 121,000+ developers. Productivity plateaued at ~10% despite 91% adoption. 

  13. Author’s analysis. Quality loop described in “Jiro Quality Philosophy.” Hook system described in “Anatomy of a Claw.” Failure modes described in “What Actually Breaks When You Run AI Agents Unsupervised.” 10% wall explained in “The 10% Wall.” 

相關文章

What Actually Breaks When You Run AI Agents Unsupervised

7 named failure modes from 500+ agent sessions. Each has a detection signal, a real output example, and a concrete fix. …

13 分鐘閱讀

The 10% Wall: Why AI Productivity Plateaus and What Breaks Through

121,000 developers surveyed, 92.6% using AI tools, productivity stuck at 10%. The wall is infrastructure, not intelligen…

17 分鐘閱讀

Your Agent Writes Faster Than You Can Read

Five research groups published about the same problem this week: AI agents produce code faster than developers can under…

16 分鐘閱讀