Anthropic 量化了有效做法,而我的 Hooks 強制執行它
Anthropic 於2026年1月的某一週內,在 Claude.ai 上分析了9,830次對話。1 該分析使用了 CLIO——一種在不讀取個別訊息的情況下對對話模式進行分類的隱私保護工具。研究人員追蹤了由 Rick Dakan 教授和 Joseph Feller 教授開發的24項行為 AI 流暢度框架中的11項可觀察行為。2
核心發現:85.7%的對話包含迭代與精煉。迭代式對話平均展現2.67項流暢度行為,大約是非迭代對話1.33項的兩倍。迭代式對話中的使用者質疑模型推理的可能性高出5.6倍,識別缺失脈絡的可能性高出4倍。1
迭代是區分有效AI使用與平庸AI使用的關鍵變數。Anthropic 量化了這一點。DX對135,000名開發者的調查發現,儘管採用率高達91%,AI每週僅為開發者節省約四小時,且這一數字在近幾季趨於平穩,即便採用率持續攀升,這表明缺乏迭代基礎設施的採用會觸及天花板。12 問題在於迭代是否能夠持續發生,還是只在人類記得時才會進行。
摘要
Anthropic 的AI流暢度指數發現,迭代式精煉在9,830次對話中使流暢度指標提升一倍。人工製品悖論解釋了為何迭代在預設情況下會失敗:精緻的輸出抑制了評估行為(事實查核下降3.7個百分點,缺失脈絡識別下降5.2個百分點,質疑推理下降3.1個百分點)。其機制是處理流暢性:系統1在系統2評估程式碼是否真正有效之前,就將整潔的程式碼標記為正確。品質迴圈強制執行單次通過所跳過的迭代:強制審查、證據關卡、整合檢查,以及反覆執行直到所有標準都能引用證據。Hooks 強制執行了 Anthropic 所量化的行為。
Anthropic 量化了什麼
AI流暢度指數追蹤的是可觀察行為,而非主觀品質評估。該框架將AI流暢度定義為「在人類與AI互動的新興模式中,有效、高效、合乎倫理且安全地工作的能力」。2 這24項行為橫跨四個維度:委派、描述、辨別和勤勉。其中11項可在對話中直接觀察。其餘13項發生在聊天介面之外(在生產環境中評估輸出、與同事分享結果、對照外部來源進行驗證)。
這11項可觀察行為包括迭代與精煉、質疑推理、識別缺失脈絡、釐清目標、指定格式、提供範例和事實查核。研究人員使用 Claude Sonnet 作為分析模型,將每次對話按此分類法進行歸類。
有三項發現對工程基礎設施至關重要。
發現1:迭代是最強的訊號。 85.7%的對話包含至少某種程度的迭代。有迭代的對話展現約兩倍的流暢度行為(2.67對1.33)。進行迭代的使用者質疑推理的可能性高出5.6倍,識別缺漏的可能性高出4倍。1 迭代不是錦上添花,而是與有效AI使用最強相關的行為。
發現2:精緻的輸出抑制了評估。 12.3%的對話涉及人工製品生成(程式碼、文件、互動工具)。當模型產生人工製品時,使用者變得更具指導性:釐清目標增加了14.7個百分點,指定格式增加了14.5個百分點,提供範例增加了13.4個百分點。但評估行為下降了:識別缺失脈絡下降了5.2個百分點,事實查核下降了3.7個百分點,質疑推理下降了3.1個百分點。1 使用者的指導變好了,但評估變少了。
發現3:很少使用者建立協作機制。 僅有30%的對話包含明確的協作指令,例如「如果我的假設有誤請提出反對」或「告訴我我遺漏了什麼」。1 預設模式是委派,而非對話。大多數使用者將模型視為執行者而非協作者。
人工製品悖論
Anthropic 命名了這個模式,但未命名其機制。認知科學對此有一個精確的術語:處理流暢性。
處理流暢性是與心智任務相關的主觀輕鬆或困難體驗。Alter和Oppenheimer記錄到,經過語義啟動、視覺清晰或易於處理的刺激會被判斷為更真實、更可靠、更值得信賴,而與實際準確性無關。3 Oppenheimer證明了流暢性捷思法是自動運作的:人們在無意識的情況下,將處理的容易程度作為品質的替代指標。4
Kahneman的系統1/系統2框架解釋了原因。系統1自動處理資訊,將認知輕鬆與真實性聯繫起來。系統2進行刻意分析,但需要努力和動機。精緻的AI輸出具有高度的處理流暢性。程式碼能編譯。格式整潔。解釋連貫。系統1在系統2有機會評估其是否正確之前,就將其標記為「好的」。5
Kahneman指出了具體的失敗模式:「人們因為一個判斷構成了一個好故事就對其產生信心,這是一個錯誤;事實上,信心應該基於證據的品質和數量。」5 將「好故事」替換為「整潔的程式碼」,人工製品悖論就是WYSIATI(你所看到的就是全部)應用於AI生成輸出的表現。
West等人從模型端形式化了互補的發現。在ICLR 2024的論文和一篇配套預印本中,他們證明了生成式模型獲得的生產能力超越了其評估能力。6 模型在幾秒內生成專家級程式碼,同時犯下人類專家不會犯的錯誤。模型無法可靠地評估自身的輸出,因為生成和評估是以不同速率擴展的獨立能力。
這個悖論是複合的:模型產生了它無法正確評估的精緻輸出,而人類遇到這種精緻度時,也降低了自身的評估。雙方都不進行驗證,都假定正確。CodeRabbit對470個拉取請求的分析發現,AI撰寫的程式碼問題多出1.7倍,邏輯錯誤多出1.75倍,儘管在審查中看起來很精緻。11 Jeff Gothelf捕捉到了組織層面的版本:「生產力提升的一部分來自AI產出的品質外觀。它看起來好,看起來精緻,看起來完成了。」7
人工製品悖論不是使用者教育問題。教育有幫助,但 Anthropic 的資料顯示,即使是進行迭代的使用者(85.7%的對話)在人工製品存在時也減少了評估。事實查核和缺失脈絡識別的下降發生在整個群體中,而不僅僅是新手使用者。其機制是認知層面的,而非資訊層面的。知道偏誤的存在並不能消除它。
基礎設施能消除它。
將發現對應到基礎設施
Anthropic 的每項發現都對應到特定的基礎設施元件。下表顯示了從量化行為到執行機制的鏈條。
| 流暢度行為 | Anthropic 的發現 | 基礎設施修正 | 實作方式 |
|---|---|---|---|
| 迭代與精煉 | 存在時流暢度指標提升2倍 | 強制品質迴圈 | 7步迴圈:實作、審查、評估、精煉、全局檢視、重複、報告。Hook在任何步驟被跳過時阻止完成。 |
| 質疑推理 | 在迭代式對話中可能性高5.6倍 | 證據關卡 | 6項標準要求具體證明。「我有信心」不算證據。模糊措辭觸發阻止。 |
| 識別缺失脈絡 | 可能性高4倍;人工製品存在時-5.2個百分點 | 全局檢視步驟 | 完成前強制進行呼叫端搜尋、匯入驗證和整合測試。 |
| 事實查核 | 人工製品存在時-3.7個百分點 | 獨立測試執行器 | 每次程式碼變更後執行測試套件。代理無法自行報告測試結果。 |
| 協作指令 | 僅30%的對話包含 | 自動注入脈絡 | 9個hooks在每次提示時觸發,注入日期、分支、慣例,以及明確指令要求對假設提出質疑。 |
Hooks強制執行了 Anthropic 所量化的行為。模型不需要記住要迭代,因為基礎設施要求它這樣做。使用者不需要記住包含協作指令,因為hooks在每次提示時注入它們。事實查核不依賴於使用者的處理流暢性,因為獨立的測試執行器無論程式碼看起來多精緻都會報告結果。
為何單次通過會失敗
Jiro品質哲學中描述的品質迴圈執行七個步驟:實作、審查、評估、精煉、全局檢視、重複、報告。單次通過的代理執行步驟1和步驟7,跳過了中間五個步驟。Anthropic 的資料量化了每個被跳過步驟的代價。
跳過審查意味著代理不會重新閱讀自己的輸出。審查步驟捕捉的是代理如果重新檢視就會注意到的那類錯誤:拼寫錯誤、命名不清、差一錯誤。沒有審查,這些錯誤會進入完成報告,彷彿它們不存在。
跳過評估意味著證據關卡永遠不會執行。六項標準(遵循程式碼庫模式、最簡方案、邊界情況已處理、測試通過、無回歸、解決實際問題)永遠不會收到證據。完成報告包含的是聲稱,而非證明。Anthropic 關於迭代使流暢度指標翻倍的發現直接對應於此:證據關卡通過阻止缺乏證據的報告來強制迭代。
跳過精煉意味著發現的問題被延後,而非修復。TODO註解取代了解決方案。延遲債務不斷累積。GitClear量化了下游影響:在AI輔助的程式碼庫中,重構相關的變更從25%降至不到10%,而程式碼重複從8.3%上升至12.3%。8
跳過全局檢視意味著代理永遠不會檢查整合性。函式能運作,但呼叫端損壞了。隧道視野未被偵測到。Anthropic 關於人工製品存在時「識別缺失脈絡」下降5.2個百分點的發現,從人類端描述了相同的失敗:精緻的輸出使脈絡缺口變得不可見。
跳過重複意味著一次通過證據關卡就被視為足夠。第一次通過捕捉到問題。修復這些問題可能引入新的問題。沒有第二次通過,修復的品質是未經驗證的。品質迴圈持續迭代,直到所有六項標準在同一次通過中都引用了證據。單次通過永遠無法達到該標準。
根據500多次會話的品質迴圈資料(每次均以hook遙測和結構化後設資料記錄):13 品質迴圈平均在每次非瑣碎變更中捕捉到3.2個問題。其中1.1個在審查(步驟2)期間捕捉,0.8個在評估(步驟3)期間捕捉,1.3個在全局檢視(步驟5)期間捕捉。單次通過的代理會將全部3.2個問題發布出去。審查-評估-全局檢視序列在完成報告之前就消除了它們。
模糊措辭問題
Anthropic 發現迭代式使用者質疑模型推理的可能性高出5.6倍。1 模糊措辭是反向訊號:模型在未被質疑的情況下表達確定性。
模糊措辭包括「應該能用」、「我有信心」、「看起來正確」、「大概沒問題」和「我認為」。每個措辭都用預測替代了觀察。「測試應該會通過」意味著代理預測了結果。「14個測試通過,0個失敗」意味著代理觀察了結果。這個區別就是虛假驗證與實際驗證之間的差異。
Xiong等人發現 LLM 無論實際準確度如何,都在80-100%的範圍內表達信心,各模型的失敗預測AUROC在0.5-0.6之間,僅略高於隨機猜測。9 Anthropic 的Kadavath等人發現,模型在熟悉任務上校準良好,但在新穎任務上表現不佳,「大部分」這個修飾詞掩蓋了系統性盲點。10 口頭表達的信心與正確性不相關。模型說「我有信心」對程式碼是否有效提供的資訊為零。
模糊偵測器捕捉了這種模式。一個grep hook在每次完成報告時觸發,搜尋可設定的模糊模式。模糊措辭存在但缺乏相鄰測試輸出或檔案路徑引用時會觸發阻止。模型必須用證據替換模糊措辭。該hook強制執行了 Anthropic 在迭代式對話中發現的質疑行為,只不過它在每次對話中確定性地運作,而非在85.7%的對話中機率性地運作。
#!/bin/bash
# hedge-detector.sh — block hedging without evidence
INPUT=$(cat)
HEDGES=$(echo "$INPUT" | grep -ciE '\bshould (work|pass|be fine)\b|\bprobably\b|\blooks correct\b|\bI.m confident\b')
if [ "$HEDGES" -gt 0 ]; then
echo '{"decision":"block","reason":"Hedging language detected. Replace with test output or file paths."}'
else
echo '{"decision":"allow"}'
fi
您今天就能實施的措施
Anthropic 的資料指向三項最低限度介入措施,能捕捉到最高價值的流暢度行為。
一個協作hook。 在每次提示中注入指令,告訴模型對假設提出質疑、識別缺失脈絡,並質疑自身推理。Anthropic 發現僅有30%的使用者手動這樣做。Hook使其在100%的提示上執行。五行bash即可實現。
#!/bin/bash
# inject-collaboration.sh — force evaluative behavior
echo "INSTRUCTIONS: Push back if assumptions are wrong."
echo "Identify missing context before proceeding."
echo "Question your own reasoning at each step."
一個證據關卡。 阻止使用模糊措辭而非引用證據的完成報告。該關卡通過使迭代成為強制性的,將 Anthropic 關於迭代使流暢度指標翻倍的發現付諸實踐。模型在沒有為每項品質標準提供證據的情況下,無法報告「完成」。
一個獨立驗證器。 在每次程式碼變更後執行測試套件,並將結果注入對話中。驗證器直接解決了人工製品悖論:無論輸出看起來多精緻,測試結果都會報告實際有效的部分。事實查核不依賴於人類的處理流暢性,因為hook將其自動化了。
這三個hooks共同強制執行了 Anthropic 發現與有效AI使用最強相關的三種行為:迭代、質疑推理和識別缺失脈絡。每個hook都是確定性的。每個都在每次互動時觸發。沒有任何一個依賴於使用者記住去啟動它。
Anthropic 量化了有效做法。Hooks使其成為非可選項。
關鍵要點
給個人開發者。 新增一個協作hook,在每次提示中注入「如果假設有誤請提出質疑」和「識別缺失脈絡」。Anthropic 發現僅有30%的使用者手動設定協作指令。1 Hook使評估行為在100%的互動中自動執行。
給團隊主管。 迭代才是訊號,而非採用率。Anthropic 量化了迭代式對話與非迭代對話的流暢度指標差異為2倍。1 建立強制迭代的基礎設施(證據關卡、強制審查步驟),而非獎勵首次通過的輸出。DX的資料證實:儘管採用率達91%,生產力提升在近幾季已趨於平穩。12
給平台工程師。 以獨立測試執行器解決人工製品悖論。精緻的AI輸出通過處理流暢性觸發自動信任,當人工製品存在時事實查核下降3.7個百分點。1 在每次程式碼變更後執行測試套件的獨立驗證器,通過報告實際有效的部分,完全繞過了處理流暢性——無論程式碼看起來如何。
參考來源
-
Kyle Swanson, Daniel Bent, Zack Ludwig, Rick Dakan, and Joseph Feller, “Anthropic Education Report: The AI Fluency Index,” Anthropic Research, February 23, 2026, anthropic.com. 9,830 anonymized conversations on Claude.ai, January 20-26, 2026. Iterative conversations: 2.67 fluency behaviors (vs 1.33 non-iterative). 5.6x more likely to question reasoning. Artifact paradox: -5.2pp missing context identification, -3.7pp fact-checking. ↩↩↩↩↩↩↩↩↩
-
Rick Dakan and Joseph Feller, “The AI Fluency Framework,” developed in collaboration with Anthropic, supported by Ireland’s Higher Education Authority, 2025, aifluencyframework.org. 24 behaviors across 4 dimensions: Delegation, Description, Discernment, Diligence. Definition: “The ability to work effectively, efficiently, ethically, and safely within emerging modalities of Human-AI interaction.” ↩↩
-
Adam L. Alter and Daniel M. Oppenheimer, “Uniting the Tribes of Fluency to Form a Metacognitive Nation,” Personality and Social Psychology Review, 13(3), 219-235, 2009, doi.org. Processing fluency causes stimuli to be judged as more true, reliable, and trustworthy regardless of actual accuracy. ↩
-
Daniel M. Oppenheimer, “The Secret Life of Fluency,” Trends in Cognitive Sciences, 12(6), 237-241, 2008, sciencedirect.com. The fluency heuristic operates automatically: processing ease serves as a proxy for quality without conscious awareness. ↩
-
Daniel Kahneman, Thinking, Fast and Slow (New York: Farrar, Straus and Giroux, 2011). System 1 (automatic) associates cognitive ease with truth. System 2 (deliberate) requires effort. WYSIATI: conclusions drawn from available information without accounting for what is missing. Quote: “It’s a mistake for people to have confidence in a judgment because it made for a good story when in fact confidence should be based on the quality and quantity of evidence.” ↩↩
-
Peter West et al., “The Generative AI Paradox: What It Can Create, It May Not Understand,” ICLR 2024, arxiv.org; Peter West et al., “The Generative AI Paradox on Evaluation: What It Can Solve, It May Not Evaluate,” arXiv:2402.06204, 2024, arxiv.org. Generative capabilities exceed evaluation capabilities. Models produce expert-level output they cannot reliably self-evaluate. ↩
-
Jeff Gothelf, “Confusing Artifact Quality with Certainty,” 2026, jeffgothelf.com. “Part of productivity gains comes from the appearance of quality in AI-produced output. It looks good, it looks polished, it looks done.” ↩
-
William Harding and Matthew Kloster, “Coding on Copilot: 2023 Data Suggests Downward Pressure on Code Quality,” GitClear, January 2024, gitclear.com. 153 million changed lines. Refactoring fell from 25% to under 10%. Code duplication rose from 8.3% to 12.3%. ↩
-
Miao Xiong, Zhiyuan Hu, Xinyang Lu, et al., “Can LLMs Express Their Uncertainty? An Empirical Evaluation of Confidence Elicitation in LLMs,” ICLR 2024, arxiv.org. LLMs express confidence in 80-100% range regardless of accuracy. Failure prediction AUROC across models ranges 0.5-0.6, barely above random. ↩
-
Saurav Kadavath, Tom Conerly, Amanda Askell, et al., “Language Models (Mostly) Know What They Know,” Anthropic, arXiv:2207.05221, July 2022, arxiv.org. Well-calibrated on familiar tasks, systematic blind spots on novel tasks. ↩
-
CodeRabbit, “State of AI vs. Human Code Generation Report,” December 17, 2025, coderabbit.ai. 470 PRs analyzed. AI-authored: 1.7x more issues, 1.75x more logic errors. Polished output masks higher defect rates. ↩
-
Laura Tacho, “AI-Assisted Engineering: Q4 Impact Report,” DX, November 4, 2025, getdx.com. 135,000+ developers across 435 companies. Average savings of about four hours per week despite 91% adoption. ↩↩
-
Author’s analysis. Quality loop described in “Jiro Quality Philosophy.” Hook system described in “Anatomy of a Claw.” Failure modes described in “What Actually Breaks When You Run AI Agents Unsupervised.” 10% wall explained in “The 10% Wall.” ↩