Anthropicが効果を測定した。私のHooksがそれを強制する。
Anthropicは2026年1月の1週間で、Claude.ai上の9,830件の会話を分析しました。1 この分析にはCLIOが使用されました。これは個々のメッセージを読むことなく会話パターンを分類する、プライバシー保護型のツールです。研究者たちは、Rick Dakan教授とJoseph Feller教授が開発した24項目のAIフルエンシーフレームワークから、11の観察可能な行動を追跡しました。2
核心的な発見は、85.7%の会話に反復と改善が含まれているということです。反復的な会話では平均2.67のフルエンシー行動が観察され、非反復的な会話の1.33のおよそ2倍でした。反復的な会話のユーザーは、モデルの推論に疑問を呈する可能性が5.6倍、欠落しているコンテキストを特定する可能性が4倍高くなっています。1
反復こそが、効果的なAI活用と凡庸なAI活用を分ける変数です。Anthropicはそれを測定しました。DXによる135,000人の開発者を対象とした調査では、91%の導入率にもかかわらず、AIによる節約時間は週あたり約4時間にとどまり、この数値は導入率の上昇にもかかわらず直近の四半期で横ばいとなっています。これは、反復インフラなしの導入には天井があることを示唆しています。12 問題は、反復が一貫して行われるか、それとも人間が思い出したときだけ行われるかです。
TL;DR
AnthropicのAIフルエンシーインデックスは、9,830件の会話において反復的な改善がフルエンシー指標を2倍にすることを発見しました。アーティファクトパラドックスは、なぜ反復がデフォルトで失敗するかを説明します。洗練された出力が評価を抑制するのです(ファクトチェックが3.7pp低下、欠落コンテキストの特定が5.2pp低下、推論への疑問提起が3.1pp低下)。そのメカニズムは処理流暢性です。System 1がクリーンなコードをSystem 2が実際に動作するかどうかを評価する前に「正しい」とフラグ付けします。品質ループは、シングルパスが省略する反復を強制します。必須のレビュー、エビデンスゲート、統合チェック、そしてすべての基準がエビデンスを引用するまで繰り返す。HooksがAnthropicの測定結果を強制します。
Anthropicが測定したもの
AIフルエンシーインデックスは、主観的な品質評価ではなく、観察可能な行動を追跡します。このフレームワークはAIフルエンシーを「Human-AIインタラクションの新しいモダリティにおいて、効果的、効率的、倫理的、かつ安全に働く能力」と定義しています。2 24の行動は4つの次元にまたがります:Delegation(委任)、Description(記述)、Discernment(識別)、Diligence(勤勉)です。11は会話内で直接観察可能です。残りの13は、チャットインターフェースの外で発生します(本番環境での出力評価、同僚との結果共有、外部ソースとの照合など)。
観察可能な11の行動には、反復と改善、推論への疑問提起、欠落コンテキストの特定、目標の明確化、フォーマットの指定、例の提供、ファクトチェックが含まれます。研究者たちは、分析モデルとしてClaude Sonnetを使用し、各会話をこの分類体系に照らして分類しました。
エンジニアリングインフラにとって重要な3つの発見があります。
発見1:反復が最も強いシグナルである。 85.7%の会話に少なくとも何らかの反復が含まれています。反復のある会話では、フルエンシー行動がおよそ2倍(2.67対1.33)になります。反復するユーザーは、推論に疑問を呈する可能性が5.6倍、ギャップを特定する可能性が4倍高くなります。1 反復はあれば良いというものではありません。効果的なAI活用と最も強く関連する行動です。
発見2:洗練された出力が評価を抑制する。 会話の12.3%がアーティファクト生成(コード、ドキュメント、インタラクティブツール)を伴いました。モデルがアーティファクトを生成すると、ユーザーはより指示的になります。目標の明確化が14.7ポイント増加、フォーマットの指定が14.5ポイント増加、例の提供が13.4ポイント増加しました。しかし評価は低下しました。欠落コンテキストの特定が5.2ポイント低下、ファクトチェックが3.7ポイント低下、推論への疑問提起が3.1ポイント低下しました。1 ユーザーはより良く指示するようになりましたが、評価は減りました。
発見3:コラボレーションを設定するユーザーはほとんどいない。 「私の前提が間違っていたら反論してください」や「何が欠けているか教えてください」といった明示的なコラボレーション指示を含む会話はわずか30%でした。1 デフォルトのモードは対話ではなく委任です。ほとんどのユーザーはモデルを協力者ではなく実行者として扱っています。
アーティファクトパラドックス
Anthropicはこのパターンに名前を付けましたが、メカニズムには名前を付けませんでした。認知科学にはそれに対する正確な用語があります。処理流暢性です。
処理流暢性とは、精神的タスクに伴う容易さまたは困難さの主観的体験です。AlterとOppenheimerは、意味的にプライミングされた、視覚的に明瞭な、または処理しやすい刺激が、実際の正確性に関係なく、より真実で、より信頼性が高く、より信用できると判断されることを立証しました。3 Oppenheimerは、流暢性ヒューリスティックが自動的に作用することを示しました。人々は意識的な認識なしに、処理の容易さを品質の代理指標として使用します。4
KahnemanのSystem 1/System 2フレームワークがその理由を説明します。System 1は情報を自動的に処理し、認知的な容易さを真実と結びつけます。System 2は意図的な分析に従事しますが、努力と動機を必要とします。洗練されたAI出力は処理流暢性が高いです。コードはコンパイルされます。フォーマットはきれいです。説明は一貫しています。System 1は、System 2がそれが正しいかどうかを評価する機会を得る前に、「良い」とフラグ付けします。5
Kahnemanは具体的な失敗モードを特定しました。「良いストーリーだからといって判断に自信を持つのは間違いです。自信はエビデンスの質と量に基づくべきです。」5「良いストーリー」を「クリーンなコード」に置き換えれば、アーティファクトパラドックスはWYSIATI(What You See Is All There Is:見えているものがすべて)がAI生成出力に適用されたものです。
Westらは、モデル側から補完的な発見を体系化しました。ICLR 2024での論文と付随するプレプリントにおいて、生成モデルが評価能力を超える生成能力を獲得することを実証しました。6 モデルは数秒でエキスパートレベルのコードを生成しますが、人間のエキスパートなら決して犯さないエラーを起こします。生成と評価は異なるスケーリングをする別々の能力であるため、モデルは自身の出力を確実に評価できません。
パラドックスは複合的に作用します。モデルは適切に評価できない洗練された出力を生成し、人間はその洗練さに遭遇することで自身の評価を低下させます。どちらも検証しません。両者が正確性を仮定します。CodeRabbitの470件のプルリクエスト分析では、AI作成コードは1.7倍多くの問題と1.75倍多くのロジックエラーを含んでいました。レビューでは洗練されて見えるにもかかわらずです。11 Jeff Gothelfは組織版をこう表現しました。「生産性向上の一部は、AI生成出力の品質の外見から来ています。見栄えが良く、洗練されていて、完成しているように見えます。」7
アーティファクトパラドックスはユーザー教育の問題ではありません。教育は助けになりますが、Anthropicのデータは、反復するユーザー(会話の85.7%)であっても、アーティファクトが存在すると評価が低下することを示しています。ファクトチェックと欠落コンテキスト特定の低下は、初心者ユーザーだけでなく、全体に見られます。メカニズムは情報的ではなく認知的です。バイアスを知っていてもそれは排除されません。
インフラがそれを排除します。
発見からインフラへのマッピング
Anthropicの各発見は、特定のインフラコンポーネントに対応します。以下の表は、測定された行動から強制メカニズムへの連鎖を示しています。
| フルエンシー行動 | Anthropicの発見 | インフラによる解決 | 実装 |
|---|---|---|---|
| 反復と改善 | 存在時にフルエンシー指標が2倍 | 必須の品質ループ | 7ステップループ:実装、レビュー、評価、改善、ズームアウト、繰り返し、報告。いずれかのステップが省略されるとHookがブロック。 |
| 推論への疑問提起 | 反復的な会話で5.6倍高い可能性 | エビデンスゲート | 具体的な証拠を要求する6つの基準。「自信があります」はエビデンスではない。ヘッジング表現はブロックをトリガー。 |
| 欠落コンテキストの特定 | 4倍高い可能性;アーティファクトで-5.2pp | ズームアウトステップ | 完了前に必須の呼び出し元検索、インポート検証、統合テスト。 |
| ファクトチェック | アーティファクトで-3.7pp | 独立したテストランナー | コード変更のたびにテストスイートを実行。エージェントはテスト結果を自己申告できない。 |
| コラボレーション指示 | 会話のわずか30% | 自動注入コンテキスト | 9つのHooksがすべてのプロンプトで発火し、日付、ブランチ、規約、および前提への反論を明示的に指示する。 |
HooksはAnthropicが測定したものを強制します。モデルは反復を覚えておく必要がありません。インフラがそれを要求するからです。ユーザーはコラボレーション指示を含めることを覚えておく必要がありません。Hooksがすべてのプロンプトにそれを注入するからです。ファクトチェックはユーザーの処理流暢性に依存しません。コードがどれほど洗練されて見えようと、独立したテストランナーが結果を報告するからです。
シングルパスが失敗する理由
Jiro品質哲学で説明されている品質ループは7つのステップを実行します:実装、レビュー、評価、改善、ズームアウト、繰り返し、報告。シングルパスエージェントはステップ1とステップ7を実行し、間の5つのステップを省略します。Anthropicのデータは、省略された各ステップのコストを定量化しています。
レビューの省略は、エージェントが自身の出力を再読しないことを意味します。レビューステップは、もう一度見れば気づくであろうクラスのエラーを検出します:タイポ、不明瞭な命名、オフバイワンエラー。レビューなしでは、これらのエラーは存在しないかのように完了報告に到達します。
評価の省略は、エビデンスゲートが実行されないことを意味します。6つの基準(コードベースパターンに従う、最もシンプルな解決策、エッジケースの処理、テスト合格、リグレッションなし、実際の問題を解決)はエビデンスを受け取ることがありません。完了報告には証拠ではなく主張が含まれます。Anthropicの反復がフルエンシー指標を2倍にするという発見はここに直接対応します:エビデンスゲートはエビデンスのない報告をブロックすることで反復を強制します。
改善の省略は、発見された問題が修正されずに先送りされることを意味します。TODOコメントが解決策の代わりになります。先送りされた負債が蓄積します。GitClearは下流への影響を測定しました:AI支援コードベースでは、リファクタリング関連の変更がすべての変更の25%から10%未満に減少し、コードの重複が8.3%から12.3%に増加しました。8
ズームアウトの省略は、エージェントが統合を確認しないことを意味します。関数は動作します。呼び出し元が壊れます。トンネルビジョンは検出されません。Anthropicのアーティファクト存在時の「欠落コンテキストの特定」の-5.2ポイントの低下は、人間側から同じ失敗を説明しています:洗練された出力がコンテキストのギャップを見えなくします。
繰り返しの省略は、エビデンスゲートの1回のパスが十分とみなされることを意味します。最初のパスで問題を検出します。それらの問題を修正すると新たな問題が発生する可能性があります。2回目のパスなしでは、修正の品質は未検証です。品質ループは、すべての6つの基準が同じパスでエビデンスを引用するまで反復します。シングルパスはその水準に決して到達しません。
500以上のセッションにわたる品質ループデータから(各セッションはHookテレメトリと構造化メタデータで記録):13 平均的な品質ループは、非自明な変更ごとに3.2件の問題を検出します。そのうち1.1件はレビュー(ステップ2)で、0.8件は評価(ステップ3)で、1.3件はズームアウト(ステップ5)で検出されます。シングルパスエージェントは3.2件すべての問題をそのまま出荷します。レビュー・評価・ズームアウトのシーケンスが、完了報告の前にそれらを排除します。
ヘッジング言語の問題
Anthropicは、反復的なユーザーがモデルの推論に疑問を呈する可能性が5.6倍高いことを発見しました。1 ヘッジング言語は逆のシグナルです:モデルが疑問を呈されることなく確信を表明することです。
ヘッジングフレーズには「動くはずです」「自信があります」「正しく見えます」「おそらく大丈夫です」「〜だと思います」が含まれます。各フレーズは観察の代わりに予測を置き換えます。「テストは通るはずです」はエージェントが結果を予測していることを意味します。「14テスト合格、0失敗」はエージェントが結果を観察したことを意味します。この区別は、ファントム検証と実際の検証の違いです。
Xiongらは、LLMが実際の正確性に関係なく80〜100%の範囲で確信を表明し、モデル全体の失敗予測AUROCが0.5〜0.6の範囲、ランダム推測をわずかに上回る程度であることを発見しました。9 AnthropicのKadavathらは、モデルが馴染みのあるタスクではよく較正されているが、新規タスクでは苦戦することを発見しました。「ほとんど」という修飾語が体系的な盲点を隠しています。10 言語化された確信は正確性と相関しません。モデルが「自信があります」と言っても、コードが動作するかどうかについてゼロの情報を提供します。
ヘッジ検出器がこのパターンを検出します。grepフックがすべての完了報告で発火し、設定可能なヘッジングパターンを検索します。テスト出力やファイルパスの引用が隣接していないヘッジング言語の存在がブロックをトリガーします。モデルはヘッジをエビデンスに置き換えなければなりません。このHookは、Anthropicが反復的な会話で発見した疑問提起行動を強制しますが、85.7%で確率的にではなく、すべての会話で決定論的に動作します。
#!/bin/bash
# hedge-detector.sh — block hedging without evidence
INPUT=$(cat)
HEDGES=$(echo "$INPUT" | grep -ciE '\bshould (work|pass|be fine)\b|\bprobably\b|\blooks correct\b|\bI.m confident\b')
if [ "$HEDGES" -gt 0 ]; then
echo '{"decision":"block","reason":"Hedging language detected. Replace with test output or file paths."}'
else
echo '{"decision":"allow"}'
fi
今日から実装できること
Anthropicのデータは、最も価値の高いフルエンシー行動を捉える3つの最小限の介入を示しています。
1つのコラボレーションHook。 すべてのプロンプトに、前提への反論、欠落コンテキストの特定、自身の推論への疑問提起をモデルに指示するインストラクションを注入します。Anthropicはこれを手動で行うユーザーが30%しかいないことを発見しました。Hookはプロンプトの100%でこれを実行します。bashで5行です。
#!/bin/bash
# inject-collaboration.sh — force evaluative behavior
echo "INSTRUCTIONS: Push back if assumptions are wrong."
echo "Identify missing context before proceeding."
echo "Question your own reasoning at each step."
1つのエビデンスゲート。 エビデンスの引用ではなくヘッジング言語を使用する完了報告をブロックします。このゲートは、反復がフルエンシー指標を2倍にするというAnthropicの発見を、反復を必須にすることで運用化します。モデルは各品質基準についてエビデンスなしに「完了」と報告できません。
1つの独立した検証器。 コード変更のたびにテストスイートを実行し、結果を会話に注入します。この検証器はアーティファクトパラドックスに直接対処します。出力がどれほど洗練されて見えようと、テスト結果は実際に何が動作するかを報告します。ファクトチェックは人間の処理流暢性に依存しません。Hookがそれを自動化するからです。
3つのHooksを合わせることで、Anthropicが効果的なAI活用と最も強く関連する3つの行動を強制します:反復、推論への疑問提起、欠落コンテキストの特定。各Hookは決定論的です。各Hookはすべてのインタラクションで発火します。ユーザーが起動を覚えておくことに依存するものはありません。
Anthropicが効果を測定しました。Hooksがそれを任意ではなくします。
重要なポイント
個人の開発者向け。 すべてのプロンプトに「前提が間違っていたら反論してください」「欠落コンテキストを特定してください」を注入する1つのコラボレーションHookを追加してください。Anthropicはコラボレーション指示を手動で設定するユーザーが30%しかいないことを発見しました。1 Hookにより、評価行動がインタラクションの100%で自動的に行われます。
チームリーダー向け。 シグナルは導入率ではなく反復です。Anthropicは、反復的な会話と非反復的な会話で2倍のフルエンシー指標を測定しました。1 初回パスの出力を評価するのではなく、反復を強制するインフラ(エビデンスゲート、必須のレビューステップ)を構築してください。DXのデータが確認しています:91%の導入率にもかかわらず、生産性の向上は直近の四半期で横ばいになりました。12
プラットフォームエンジニア向け。 独立したテストランナーでアーティファクトパラドックスに対処してください。洗練されたAI出力は処理流暢性を通じて自動的な信頼をトリガーし、アーティファクトが存在する場合にファクトチェックを3.7ポイント低下させます。1 コード変更のたびにテストスイートを実行する独立した検証器は、コードの見た目に関係なく実際に何が動作するかを報告することで、処理流暢性を完全にバイパスします。
ソース
-
Kyle Swanson, Daniel Bent, Zack Ludwig, Rick Dakan, and Joseph Feller, “Anthropic Education Report: The AI Fluency Index,” Anthropic Research, February 23, 2026, anthropic.com. 9,830 anonymized conversations on Claude.ai, January 20-26, 2026. Iterative conversations: 2.67 fluency behaviors (vs 1.33 non-iterative). 5.6x more likely to question reasoning. Artifact paradox: -5.2pp missing context identification, -3.7pp fact-checking. ↩↩↩↩↩↩↩↩↩
-
Rick Dakan and Joseph Feller, “The AI Fluency Framework,” developed in collaboration with Anthropic, supported by Ireland’s Higher Education Authority, 2025, aifluencyframework.org. 24 behaviors across 4 dimensions: Delegation, Description, Discernment, Diligence. Definition: “The ability to work effectively, efficiently, ethically, and safely within emerging modalities of Human-AI interaction.” ↩↩
-
Adam L. Alter and Daniel M. Oppenheimer, “Uniting the Tribes of Fluency to Form a Metacognitive Nation,” Personality and Social Psychology Review, 13(3), 219-235, 2009, doi.org. Processing fluency causes stimuli to be judged as more true, reliable, and trustworthy regardless of actual accuracy. ↩
-
Daniel M. Oppenheimer, “The Secret Life of Fluency,” Trends in Cognitive Sciences, 12(6), 237-241, 2008, sciencedirect.com. The fluency heuristic operates automatically: processing ease serves as a proxy for quality without conscious awareness. ↩
-
Daniel Kahneman, Thinking, Fast and Slow (New York: Farrar, Straus and Giroux, 2011). System 1 (automatic) associates cognitive ease with truth. System 2 (deliberate) requires effort. WYSIATI: conclusions drawn from available information without accounting for what is missing. Quote: “It’s a mistake for people to have confidence in a judgment because it made for a good story when in fact confidence should be based on the quality and quantity of evidence.” ↩↩
-
Peter West et al., “The Generative AI Paradox: What It Can Create, It May Not Understand,” ICLR 2024, arxiv.org; Peter West et al., “The Generative AI Paradox on Evaluation: What It Can Solve, It May Not Evaluate,” arXiv:2402.06204, 2024, arxiv.org. Generative capabilities exceed evaluation capabilities. Models produce expert-level output they cannot reliably self-evaluate. ↩
-
Jeff Gothelf, “Confusing Artifact Quality with Certainty,” 2026, jeffgothelf.com. “Part of productivity gains comes from the appearance of quality in AI-produced output. It looks good, it looks polished, it looks done.” ↩
-
William Harding and Matthew Kloster, “Coding on Copilot: 2023 Data Suggests Downward Pressure on Code Quality,” GitClear, January 2024, gitclear.com. 153 million changed lines. Refactoring fell from 25% to under 10%. Code duplication rose from 8.3% to 12.3%. ↩
-
Miao Xiong, Zhiyuan Hu, Xinyang Lu, et al., “Can LLMs Express Their Uncertainty? An Empirical Evaluation of Confidence Elicitation in LLMs,” ICLR 2024, arxiv.org. LLMs express confidence in 80-100% range regardless of accuracy. Failure prediction AUROC across models ranges 0.5-0.6, barely above random. ↩
-
Saurav Kadavath, Tom Conerly, Amanda Askell, et al., “Language Models (Mostly) Know What They Know,” Anthropic, arXiv:2207.05221, July 2022, arxiv.org. Well-calibrated on familiar tasks, systematic blind spots on novel tasks. ↩
-
CodeRabbit, “State of AI vs. Human Code Generation Report,” December 17, 2025, coderabbit.ai. 470 PRs analyzed. AI-authored: 1.7x more issues, 1.75x more logic errors. Polished output masks higher defect rates. ↩
-
Laura Tacho, “AI-Assisted Engineering: Q4 Impact Report,” DX, November 4, 2025, getdx.com. 135,000+ developers across 435 companies. Average savings of about four hours per week despite 91% adoption. ↩↩
-
Author’s analysis. Quality loop described in “Jiro Quality Philosophy.” Hook system described in “Anatomy of a Claw.” Failure modes described in “What Actually Breaks When You Run AI Agents Unsupervised.” 10% wall explained in “The 10% Wall.” ↩