← すべての記事

Anthropicが効果を測定した。私のHooksがそれを強制する。

From the guide: Claude Code Comprehensive Guide

Anthropicは2026年1月の1週間で、Claude.ai上の9,830件の会話を分析しました。1 この分析にはCLIOが使用されました。これは個々のメッセージを読むことなく会話パターンを分類する、プライバシーを保護するツールです。研究者たちは、Rick Dakan教授とJoseph Feller教授が開発した24項目のAIフルエンシーフレームワークから、11の観察可能な行動を追跡しました。2

核心的な発見:会話の85.7%に反復と改善が含まれています。反復的な会話では平均2.67のフルエンシー行動が見られ、非反復的な会話の1.33のおよそ2倍です。反復的な会話のユーザーは、モデルの推論に疑問を呈する可能性が5.6倍高く、欠落しているコンテキストを特定する可能性が4倍高くなっています。1

反復こそが、効果的なAI活用と平凡なAI活用を分ける変数です。Anthropicはそれを測定しました。問題は、反復が一貫して行われるのか、それとも人間が思い出したときだけ行われるのかです。

TL;DR

AnthropicのAIフルエンシーインデックスは、9,830件の会話において反復的な改善がフルエンシー指標を2倍にすることを発見しました。「アーティファクトパラドックス」は、なぜ反復がデフォルトでは起きないのかを説明します。モデルが洗練されたアウトプットを生成すると、ユーザーはより指示的になる一方で、評価的ではなくなります。ファクトチェックは3.7ポイント低下します。欠落コンテキストの特定は5.2ポイント低下します。推論への疑問提起は3.1ポイント低下します。認知的メカニズムは処理流暢性です。洗練されたアウトプットが自動的な信頼(KahnemanのSystem 1)を引き起こし、批判的評価(System 2)を抑制します。品質ループは、シングルパスでは省略される反復を強制します。必須のレビュー、エビデンスゲート、統合チェック、そしてすべての基準がエビデンスを引用するまで繰り返します。HooksがAnthropicの測定結果を強制します。インフラがそれを要求するため、モデルは反復を省略できません。


Anthropicが測定したもの

AIフルエンシーインデックスは、主観的な品質評価ではなく、観察可能な行動を追跡します。このフレームワークはAIフルエンシーを「Human-AIインタラクションの新しいモダリティの中で、効果的、効率的、倫理的、かつ安全に働く能力」と定義しています。2 24の行動は4つの次元にまたがります:Delegation(委任)、Description(記述)、Discernment(識別)、Diligence(勤勉)。そのうち11は会話内で直接観察可能です。残りの13はチャットインターフェース外で発生します(本番環境でのアウトプット評価、同僚との結果共有、外部ソースとの照合など)。

11の観察可能な行動には、反復と改善、推論への疑問提起、欠落コンテキストの特定、目標の明確化、フォーマットの指定、例の提供、ファクトチェックが含まれます。研究者たちはClaude Sonnetを分析モデルとして使用し、各会話をこの分類体系に基づいて分類しました。

エンジニアリングインフラにとって重要な3つの発見があります。

発見1:反復が最も強いシグナルである。 会話の85.7%に少なくとも何らかの反復が含まれています。反復のある会話ではフルエンシー行動がおよそ2倍になります(2.67対1.33)。反復するユーザーは、推論に疑問を呈する可能性が5.6倍、ギャップを特定する可能性が4倍高くなります。1 反復はあれば良いというものではありません。効果的なAI活用と最も強く関連する行動です。

発見2:洗練されたアウトプットが評価を抑制する。 会話の12.3%にアーティファクト生成(コード、ドキュメント、インタラクティブツール)が含まれていました。モデルがアーティファクトを生成すると、ユーザーはより指示的になります。目標の明確化は14.7ポイント増加し、フォーマットの指定は14.5ポイント増加し、例の提供は13.4ポイント増加しました。しかし評価は低下しました。欠落コンテキストの特定は5.2ポイント低下し、ファクトチェックは3.7ポイント低下し、推論への疑問提起は3.1ポイント低下しました。1 ユーザーはより良く指示しましたが、評価は減りました。

発見3:コラボレーションを設定するユーザーは少ない。 「私の前提が間違っていたら指摘してください」や「見落としていることを教えてください」などの明示的なコラボレーション指示を含む会話はわずか30%でした。1 デフォルトのモードは対話ではなく委任です。ほとんどのユーザーはモデルを協力者ではなく実行者として扱っています。


アーティファクトパラドックス

Anthropicはパターンに名前を付けましたが、メカニズムには名前を付けませんでした。認知科学にはそれに対する正確な用語があります:処理流暢性です。

処理流暢性とは、精神的なタスクに伴う容易さや困難さの主観的体験です。AlterとOppenheimerは、意味的にプライミングされた、視覚的に明瞭な、あるいは処理しやすい刺激は、実際の正確さに関係なく、より真実で、より信頼でき、より信用に値すると判断されることを実証しました。3 Oppenheimerは流暢性ヒューリスティックが自動的に作動することを示しました。人々は意識的な自覚なしに、処理の容易さを品質の代理指標として使用します。4

KahnemanのSystem 1/System 2フレームワークがその理由を説明します。System 1は情報を自動的に処理し、認知的容易さを真実と結びつけます。System 2は意図的な分析を行いますが、努力と動機を必要とします。洗練されたAIアウトプットは処理流暢性が高いです。コードはコンパイルされます。フォーマットはきれいです。説明は首尾一貫しています。System 2がそれが正しいかどうかを評価する機会を得る前に、System 1がそれを「良い」とフラグ付けします。5

Kahnemanは具体的な失敗モードを特定しました。「良い話だからという理由で判断に自信を持つのは間違いであり、実際には自信はエビデンスの質と量に基づくべきである。」5「良い話」を「きれいなコード」に置き換えれば、アーティファクトパラドックスはWYSIATI(What You See Is All There Is:見えているものがすべて)がAI生成アウトプットに適用されたものです。

Westらはモデル側からの補完的な発見を形式化しました。ICLR 2024で発表された2つの論文で、生成モデルはその評価能力を超える生成能力を獲得することを実証しました。6 モデルは数秒でエキスパートレベルのコードを生成しますが、人間のエキスパートなら犯さないようなエラーを起こします。生成と評価は異なるスケールで発展する別々の能力であるため、モデルは自身のアウトプットを確実に評価できません。

パラドックスは複合的です。モデルは適切に評価できない洗練されたアウトプットを生成し、その洗練さに遭遇した人間は自身の評価を減らします。どちらの当事者も検証しません。どちらも正しさを仮定します。Jeff Gothelfは組織版を捉えました。「生産性の向上の一部は、AI生成アウトプットの品質の見た目から来ている。見た目が良く、洗練されていて、完成しているように見える。」7

アーティファクトパラドックスはユーザー教育の問題ではありません。教育は役立ちますが、Anthropicのデータは、反復するユーザー(会話の85.7%)でさえ、アーティファクトが存在するときには評価が減ることを示しています。ファクトチェックと欠落コンテキスト特定の低下は、初心者ユーザーだけでなく、全体にわたって発生します。メカニズムは情報的ではなく認知的です。バイアスを知っていてもそれは排除されません。

インフラがそれを排除します。


発見からインフラへのマッピング

Anthropicの各発見は、特定のインフラコンポーネントに対応します。以下の表は、測定された行動から強制メカニズムへの連鎖を示しています。

フルエンシー行動 Anthropicの発見 インフラによる修正 実装
反復と改善 存在する場合、フルエンシー指標が2倍 必須の品質ループ 7ステップループ:実装、レビュー、評価、改善、俯瞰、繰り返し、報告。いずれかのステップが省略されるとhookが完了をブロックします。
推論への疑問提起 反復的な会話で5.6倍の可能性 エビデンスゲート 具体的な証拠を要求する6つの基準。「自信があります」はエビデンスではありません。曖昧な表現はブロックを引き起こします。
欠落コンテキストの特定 4倍の可能性、アーティファクト使用時に-5.2pp 俯瞰ステップ 完了前に必須の呼び出し元検索、インポート検証、統合テスト。
ファクトチェック アーティファクト使用時に-3.7pp 独立したテストランナー すべてのコード変更後にテストスイートを実行。エージェントはテスト結果を自己報告できません。
コラボレーション指示 会話の30%のみ 自動注入コンテキスト すべてのプロンプトで9つのhookが起動し、日付、ブランチ、規約、および前提に疑問を呈する明示的な指示を注入します。

HooksがAnthropicの測定結果を強制します。インフラがそれを要求するため、モデルは反復を覚えておく必要がありません。hookが毎回のプロンプトで注入するため、ユーザーはコラボレーション指示を含めることを覚えておく必要がありません。独立したテストランナーがコードの見た目に関係なく結果を報告するため、ファクトチェックはユーザーの処理流暢性に依存しません。


シングルパスが失敗する理由

Jiro Quality Philosophyで説明されている品質ループは7つのステップを実行します:実装、レビュー、評価、改善、俯瞰、繰り返し、報告。シングルパスのエージェントはステップ1とステップ7を実行し、間の5つのステップを省略します。Anthropicのデータは、省略された各ステップのコストを定量化しています。

レビューの省略は、エージェントが自身のアウトプットを再読しないことを意味します。レビューステップは、もう一度見れば気づくであろうクラスのエラーを検出します:タイポ、不明確な命名、オフバイワンエラー。レビューがなければ、これらのエラーは存在しないかのように完了報告に到達します。

評価の省略は、エビデンスゲートが実行されないことを意味します。6つの基準(コードベースのパターンに従っている、最もシンプルな解決策、エッジケースの処理、テストの合格、リグレッションなし、実際の問題を解決)にエビデンスが提供されることはありません。完了報告には証拠ではなく主張が含まれます。Anthropicの反復がフルエンシー指標を2倍にするという発見は、ここに直接対応します。エビデンスゲートは、エビデンスを欠くレポートをブロックすることで反復を強制します。

改善の省略は、発見された問題が修正されるのではなく先送りされることを意味します。TODOコメントが解決策に取って代わります。先送りされた負債が蓄積します。GitClearは下流への影響を測定しました:AI支援コードベースにおいて、リファクタリング関連の変更が全変更の25%から10%未満に減少し、コード重複が8.3%から12.3%に増加しました。8

俯瞰の省略は、エージェントが統合を確認しないことを意味します。関数は動作します。呼び出し元が壊れます。トンネルビジョンは検出されません。Anthropicのアーティファクト存在時の「欠落コンテキストの特定」の-5.2ポイントの低下は、人間側から見た同じ失敗を記述しています:洗練されたアウトプットがコンテキストのギャップを見えなくします。

繰り返しの省略は、エビデンスゲートの1回のパスで十分として扱われることを意味します。最初のパスで問題が見つかります。それらの問題の修正が新たな問題を導入する可能性があります。2回目のパスがなければ、修正の品質は未検証です。品質ループは、同じパスで6つの基準すべてがエビデンスを引用するまで反復します。シングルパスではその基準に到達しません。

ハーネスデータから:品質ループは非trivialな変更あたり平均3.2件の問題を検出します。そのうち1.1件はレビュー(ステップ2)で、0.8件は評価(ステップ3)で、1.3件は俯瞰(ステップ5)で検出されます。シングルパスのエージェントは3.2件すべての問題をそのまま出荷します。レビュー→評価→俯瞰のシーケンスが、完了報告の前にそれらを排除します。


曖昧な言語の問題

Anthropicは、反復的なユーザーがモデルの推論に疑問を呈する可能性が5.6倍高いことを発見しました。1 曖昧な言語は逆のシグナルです。つまり、モデルが疑問を呈されることなく確信を表現することです。

曖昧なフレーズには「うまくいくはずです」「自信があります」「正しそうです」「おそらく大丈夫です」「〜だと思います」が含まれます。各フレーズは観察の代わりに予測を使っています。「テストは通るはずです」はエージェントが結果を予測したことを意味します。「14テスト合格、0失敗」はエージェントが結果を観察したことを意味します。この違いがファントム検証と実際の検証の違いです。

Xiongらは、LLMが実際の精度に関係なく80〜100%の範囲で自信を表明し、GPT-4の失敗予測はランダム推測をわずかに上回る程度(AUROC 62.7%)であることを発見しました。9 AnthropicのKadavathらは、モデルが馴染みのあるタスクでは適切にキャリブレーションされているが、新しいタスクでは苦戦することを発見しました。「ほとんど」という修飾語が体系的なブラインドスポットを隠しています。10 言語化された自信は正確性と相関していません。モデルが「自信があります」と言っても、コードが動作するかどうかについてゼロの情報しか提供しません。

ヘッジ検出器がこのパターンを検出します。grepフックがすべての完了報告で起動し、設定可能なヘッジパターンを検索します。テスト出力やファイルパスの引用が隣接していないヘッジ言語の存在はブロックを引き起こします。モデルはヘッジをエビデンスに置き換えなければなりません。フックは、Anthropicが反復的な会話で発見した疑問提起行動を強制しますが、85.7%で確率的に動作するのではなく、すべての会話で決定論的に動作します。

#!/bin/bash
# hedge-detector.sh — block hedging without evidence
INPUT=$(cat)
HEDGES=$(echo "$INPUT" | grep -ciE '\bshould (work|pass|be fine)\b|\bprobably\b|\blooks correct\b|\bI.m confident\b')
if [ "$HEDGES" -gt 0 ]; then
  echo '{"decision":"block","reason":"Hedging language detected. Replace with test output or file paths."}'
else
  echo '{"decision":"allow"}'
fi

今日から実装できること

Anthropicのデータは、最も価値の高いフルエンシー行動を捉える3つの最小限の介入を示しています。

1つのコラボレーションフック。 すべてのプロンプトで、前提に疑問を呈し、欠落コンテキストを特定し、自身の推論に疑問を呈するようモデルに指示を注入します。Anthropicはこれを手動で行うユーザーがわずか30%であることを発見しました。フックは100%のプロンプトでそれを行います。bashの5行です。

#!/bin/bash
# inject-collaboration.sh — force evaluative behavior
echo "INSTRUCTIONS: Push back if assumptions are wrong."
echo "Identify missing context before proceeding."
echo "Question your own reasoning at each step."

1つのエビデンスゲート。 エビデンスの引用の代わりに曖昧な言語を使用する完了報告をブロックします。ゲートは、反復がフルエンシー指標を2倍にするというAnthropicの発見を、反復を必須にすることで運用化します。モデルは各品質基準のエビデンスなしに「完了」と報告できません。

1つの独立した検証者。 すべてのコード変更後にテストスイートを実行し、結果を会話に注入します。検証者はアーティファクトパラドックスに直接対処します。アウトプットがどれほど洗練されて見えても、テスト結果は実際に何が動作するかを報告します。フックがそれを自動化するため、ファクトチェックは人間の処理流暢性に依存しません。

3つのフックを合わせると、Anthropicが効果的なAI活用と最も強く関連すると発見した3つの行動を強制します:反復、推論への疑問提起、欠落コンテキストの特定。各フックは決定論的です。各フックはすべてのインタラクションで起動します。ユーザーが起動を覚えておくことに依存するものはありません。

Anthropicが効果を測定しました。Hooksがそれを任意ではなくします。


参考文献


  1. Kyle Swanson, Daniel Bent, Zack Ludwig, Rick Dakan, and Joseph Feller, “Anthropic Education Report: The AI Fluency Index,” Anthropic Research, February 23, 2026, anthropic.com. 9,830 anonymized conversations on Claude.ai, January 20-26, 2026. Iterative conversations: 2.67 fluency behaviors (vs 1.33 non-iterative). 5.6x more likely to question reasoning. Artifact paradox: -5.2pp missing context identification, -3.7pp fact-checking. 

  2. Rick Dakan and Joseph Feller, “The AI Fluency Framework,” developed in collaboration with Anthropic, supported by Ireland’s Higher Education Authority, 2025, aifluencyframework.org. 24 behaviors across 4 dimensions: Delegation, Description, Discernment, Diligence. Definition: “The ability to work effectively, efficiently, ethically, and safely within emerging modalities of Human-AI interaction.” 

  3. Adam L. Alter and Daniel M. Oppenheimer, “Uniting the Tribes of Fluency to Form a Metacognitive Nation,” Personality and Social Psychology Review, 13(3), 219-235, 2009, doi.org. Processing fluency causes stimuli to be judged as more true, reliable, and trustworthy regardless of actual accuracy. 

  4. Daniel M. Oppenheimer, “The Secret Life of Fluency,” Trends in Cognitive Sciences, 12(6), 237-241, 2008, sciencedirect.com. The fluency heuristic operates automatically: processing ease serves as a proxy for quality without conscious awareness. 

  5. Daniel Kahneman, Thinking, Fast and Slow (New York: Farrar, Straus and Giroux, 2011). System 1 (automatic) associates cognitive ease with truth. System 2 (deliberate) requires effort. WYSIATI: conclusions drawn from available information without accounting for what is missing. Quote: “It’s a mistake for people to have confidence in a judgment because it made for a good story when in fact confidence should be based on the quality and quantity of evidence.” 

  6. Peter West et al., “The Generative AI Paradox: What It Can Create, It May Not Understand,” ICLR 2024, arxiv.org; Peter West et al., “The Generative AI Paradox on Evaluation: What It Can Solve, It May Not Evaluate,” arXiv:2402.06204, 2024, arxiv.org. Generative capabilities exceed evaluation capabilities. Models produce expert-level output they cannot reliably self-evaluate. 

  7. Jeff Gothelf, “Confusing Artifact Quality with Certainty,” 2024, jeffgothelf.com. “Part of productivity gains comes from the appearance of quality in AI-produced output. It looks good, it looks polished, it looks done.” 

  8. William Harding and Matthew Kloster, “Coding on Copilot: 2023 Data Suggests Downward Pressure on Code Quality,” GitClear, January 2024, gitclear.com. 153 million changed lines. Refactoring fell from 25% to under 10%. Code duplication rose from 8.3% to 12.3%. 

  9. Miao Xiong, Zhiyuan Hu, Xinyang Lu, et al., “Can LLMs Express Their Uncertainty? An Empirical Evaluation of Confidence Elicitation in LLMs,” ICLR 2024, arxiv.org. LLMs express confidence in 80-100% range regardless of accuracy. GPT-4 failure prediction AUROC: 62.7%. 

  10. Saurav Kadavath, Tom Conerly, Amanda Askell, et al., “Language Models (Mostly) Know What They Know,” Anthropic, arXiv:2207.05221, July 2022, arxiv.org. Well-calibrated on familiar tasks, systematic blind spots on novel tasks. 

  11. CodeRabbit, “State of AI vs. Human Code Generation Report,” December 17, 2025, coderabbit.ai. 470 PRs analyzed. AI-authored: 1.7x more issues, 1.75x more logic errors. Polished output masks higher defect rates. 

  12. Laura Tacho, “AI-Assisted Engineering: Q4 Impact Report,” DX, November 4, 2025, getdx.com. 121,000+ developers. Productivity plateaued at ~10% despite 91% adoption. 

  13. Author’s analysis. Quality loop described in “Jiro Quality Philosophy.” Hook system described in “Anatomy of a Claw.” Failure modes described in “What Actually Breaks When You Run AI Agents Unsupervised.” 10% wall explained in “The 10% Wall.” 

関連記事

What Actually Breaks When You Run AI Agents Unsupervised

7 named failure modes from 500+ agent sessions. Each has a detection signal, a real output example, and a concrete fix. …

13 分で読める

The 10% Wall: Why AI Productivity Plateaus and What Breaks Through

121,000 developers surveyed, 92.6% using AI tools, productivity stuck at 10%. The wall is infrastructure, not intelligen…

17 分で読める

Your Agent Writes Faster Than You Can Read

Five research groups published about the same problem this week: AI agents produce code faster than developers can under…

16 分で読める