← Wszystkie wpisy

Anthropic zmierzył, co działa. Moje hooki to wymuszają.

From the guide: Claude Code Comprehensive Guide

Anthropic przeanalizował 9 830 rozmów na Claude.ai w ciągu jednego tygodnia w styczniu 2026 roku.1 Analiza wykorzystała CLIO — narzędzie chroniące prywatność, które klasyfikuje wzorce rozmów bez odczytywania poszczególnych wiadomości. Badacze śledzili 11 obserwowalnych zachowań z 24-elementowego AI Fluency Framework opracowanego przez profesorów Ricka Dakana i Josepha Fellera.2

Główne odkrycie: 85,7% rozmów zawiera iterację i doskonalenie. Rozmowy iteracyjne wykazują średnio 2,67 zachowań biegłości — mniej więcej dwukrotnie więcej niż 1,33 w rozmowach nieiteracyjnych. Użytkownicy w rozmowach iteracyjnych są 5,6 razy bardziej skłonni do kwestionowania rozumowania modelu i 4 razy bardziej skłonni do identyfikowania brakującego kontekstu.1

Iteracja jest zmienną, która oddziela efektywne korzystanie z AI od przeciętnego. Anthropic to zmierzył. Pytanie brzmi, czy iteracja zachodzi konsekwentnie, czy tylko wtedy, gdy ludzie pamiętają, żeby ją stosować.

TL;DR

AI Fluency Index Anthropic wykazał, że iteracyjne doskonalenie podwaja wskaźniki biegłości w 9 830 rozmowach. „Paradoks artefaktu” wyjaśnia, dlaczego iteracja nie zachodzi domyślnie: gdy model produkuje dopracowany wynik, użytkownicy stają się bardziej dyrektywni, ale mniej ewaluatywni. Weryfikacja faktów spada o 3,7 punktu procentowego. Identyfikowanie brakującego kontekstu spada o 5,2 punktu procentowego. Kwestionowanie rozumowania spada o 3,1 punktu procentowego. Mechanizm poznawczy to płynność przetwarzania: dopracowany wynik uruchamia automatyczne zaufanie (System 1 Kahnemana) i tłumi krytyczną ewaluację (System 2). Pętla jakości wymusza iterację, którą jednoprzebiegowe podejście pomija: obowiązkowy przegląd, bramka dowodowa, sprawdzenie integracji i powtórzenie do momentu, aż wszystkie kryteria powołują się na dowody. Hooki wymuszają to, co Anthropic zmierzył. Model nie może pominąć iteracji, ponieważ infrastruktura tego wymaga.


Co zmierzył Anthropic

AI Fluency Index śledzi obserwowalne zachowania, a nie subiektywne oceny jakości. Framework definiuje biegłość AI jako „zdolność do efektywnej, wydajnej, etycznej i bezpiecznej pracy w ramach nowych modalności interakcji człowiek-AI”.2 24 zachowania obejmują cztery wymiary: Delegację, Opis, Rozeznanie i Staranność. Jedenaście jest bezpośrednio obserwowalnych w rozmowie. Pozostałe trzynaście występuje poza interfejsem czatu (ewaluacja wyników w produkcji, dzielenie się rezultatami ze współpracownikami, weryfikacja wobec zewnętrznych źródeł).

11 obserwowalnych zachowań obejmuje iterację i doskonalenie, kwestionowanie rozumowania, identyfikowanie brakującego kontekstu, precyzowanie celów, specyfikowanie formatów, podawanie przykładów oraz weryfikację faktów. Badacze sklasyfikowali każdą rozmowę według tej taksonomii, używając Claude Sonnet jako modelu analitycznego.

Trzy odkrycia mają znaczenie dla infrastruktury inżynieryjnej.

Odkrycie 1: Iteracja jest najsilniejszym sygnałem. 85,7% rozmów zawiera przynajmniej pewien stopień iteracji. Rozmowy z iteracją wykazują mniej więcej dwukrotnie więcej zachowań biegłości (2,67 vs 1,33). Użytkownicy iterujący są 5,6 razy bardziej skłonni do kwestionowania rozumowania i 4 razy bardziej skłonni do identyfikowania luk.1 Iteracja to nie „miło mieć”. To zachowanie najsilniej powiązane z efektywnym korzystaniem z AI.

Odkrycie 2: Dopracowany wynik tłumi ewaluację. 12,3% rozmów dotyczyło generowania artefaktów (kod, dokumenty, interaktywne narzędzia). Gdy model produkuje artefakty, użytkownicy stają się bardziej dyrektywni: precyzowanie celów wzrosło o 14,7 punktu procentowego, specyfikowanie formatu o 14,5 punktu, podawanie przykładów o 13,4 punktu. Ale ewaluacja spadła: identyfikowanie brakującego kontekstu spadło o 5,2 punktu, weryfikacja faktów o 3,7 punktu, kwestionowanie rozumowania o 3,1 punktu.1 Użytkownicy kierowali lepiej, ale ewaluowali mniej.

Odkrycie 3: Niewielu użytkowników ustanawia ramy współpracy. Tylko 30% rozmów zawierało jawne instrukcje współpracy, takie jak „sprzeciw się, jeśli moje założenia są błędne” czy „powiedz mi, czego mi brakuje”.1 Domyślnym trybem jest delegacja, nie dialog. Większość użytkowników traktuje model jako wykonawcę, a nie współpracownika.


Paradoks artefaktu

Anthropic nazwał wzorzec, ale nie nazwał mechanizmu. Nauka kognitywna ma na to precyzyjny termin: płynność przetwarzania.

Płynność przetwarzania to subiektywne doświadczenie łatwości lub trudności związanej z zadaniem mentalnym. Alter i Oppenheimer udokumentowali, że bodźce semantycznie przygotowane, wizualnie czytelne lub łatwe w przetwarzaniu są oceniane jako bardziej prawdziwe, bardziej wiarygodne i bardziej godne zaufania — niezależnie od rzeczywistej trafności.3 Oppenheimer wykazał, że heurystyka płynności działa automatycznie: ludzie wykorzystują łatwość przetwarzania jako przybliżenie jakości bez świadomego udziału.4

Framework System 1/System 2 Kahnemana wyjaśnia dlaczego. System 1 przetwarza informacje automatycznie, kojarząc łatwość poznawczą z prawdą. System 2 angażuje świadomą analizę, ale wymaga wysiłku i motywacji. Dopracowany wynik AI ma wysoką płynność przetwarzania. Kod się kompiluje. Formatowanie jest czyste. Wyjaśnienie jest spójne. System 1 oznacza to jako „dobre”, zanim System 2 zdąży ocenić, czy jest poprawne.5

Kahneman zidentyfikował konkretny tryb awarii: „To błąd, gdy ludzie pokładają ufność w osądzie, ponieważ tworzył dobrą historię, podczas gdy w rzeczywistości pewność powinna opierać się na jakości i ilości dowodów.”5 Zamieńmy „dobrą historię” na „czysty kod”, a paradoks artefaktu to WYSIATI (What You See Is All There Is) zastosowane do wyników generowanych przez AI.

West i in. sformalizowali komplementarne odkrycie po stronie modelu. W dwóch pracach zaprezentowanych na ICLR 2024 wykazali, że modele generatywne nabywają zdolności produkcyjne przewyższające ich zdolności ewaluacyjne.6 Model generuje kod na poziomie eksperta w sekundy, jednocześnie popełniając błędy, których żaden ludzki ekspert by nie popełnił. Model nie jest w stanie rzetelnie ocenić własnego wyniku, ponieważ generowanie i ewaluacja to odrębne zdolności skalujące się w różnym tempie.

Paradoks się kumuluje: model produkuje dopracowany wynik, którego nie potrafi właściwie ocenić, a człowiek napotykający tę staranność redukuje własną ewaluację. Żadna ze stron nie weryfikuje. Obie zakładają poprawność. Jeff Gothelf uchwycił wersję organizacyjną: „Część zysków produktywności wynika z pozoru jakości w wynikach produkowanych przez AI. Wygląda dobrze, wygląda na dopracowane, wygląda na skończone.”7

Paradoks artefaktu nie jest problemem edukacji użytkownika. Edukacja pomaga, ale dane Anthropic pokazują, że nawet użytkownicy, którzy iterują (85,7% rozmów), ewaluują mniej w obecności artefaktów. Spadek weryfikacji faktów i identyfikowania brakującego kontekstu występuje w całej populacji, nie tylko wśród początkujących użytkowników. Mechanizm jest poznawczy, nie informacyjny. Wiedza o skrzywieniu nie eliminuje go.

Infrastruktura go eliminuje.


Mapowanie odkryć na infrastrukturę

Każde odkrycie Anthropic mapuje się na konkretny komponent infrastruktury. Poniższa tabela pokazuje łańcuch od zmierzonego zachowania do mechanizmu wymuszania.

Zachowanie biegłości Odkrycie Anthropic Naprawa infrastrukturalna Implementacja
Iteracja i doskonalenie 2x wskaźniki biegłości, gdy obecne Obowiązkowa pętla jakości 7-krokowa pętla: implementuj, przejrzyj, oceń, udoskonal, oddalenie, powtórz, raportuj. Hook blokuje zakończenie, jeśli jakikolwiek krok zostanie pominięty.
Kwestionowanie rozumowania 5,6x bardziej prawdopodobne w rozmowach iteracyjnych Bramka dowodowa 6 kryteriów wymagających konkretnych dowodów. „Jestem pewien” to nie dowód. Wyrażenia unikowe uruchamiają blokadę.
Identyfikowanie brakującego kontekstu 4x bardziej prawdopodobne; -5,2pp z artefaktami Krok oddalenia Obowiązkowe wyszukiwanie wywołań, weryfikacja importów i test integracji przed zakończeniem.
Weryfikacja faktów -3,7pp z artefaktami Niezależny runner testów Zestaw testów uruchamiany po każdej zmianie kodu. Agent nie może sam raportować wyników testów.
Instrukcje współpracy Tylko 30% rozmów Automatycznie wstrzykiwany kontekst 9 hooków uruchamia się przy każdym prompcie, wstrzykując datę, gałąź, konwencje i jawne instrukcje sprzeciwienia się założeniom.

Hooki wymuszają to, co Anthropic zmierzył. Model nie musi pamiętać o iteracji, ponieważ infrastruktura tego wymaga. Użytkownik nie musi pamiętać o dołączeniu instrukcji współpracy, ponieważ hooki wstrzykują je przy każdym prompcie. Weryfikacja faktów nie zależy od płynności przetwarzania użytkownika, ponieważ niezależny runner testów raportuje wyniki niezależnie od tego, jak dopracowany wydaje się kod.


Dlaczego jednoprzebiegowe podejście zawodzi

Pętla jakości opisana w Filozofia jakości Jiro obejmuje siedem kroków: implementuj, przejrzyj, oceń, udoskonal, oddalenie, powtórz, raportuj. Jednoprzebiegowy agent wykonuje krok 1 i krok 7, pomijając pięć kroków pomiędzy. Dane Anthropic kwantyfikują, ile kosztuje każdy pominięty krok.

Pominięcie przeglądu oznacza, że agent nie odczytuje ponownie własnego wyniku. Krok przeglądu wychwytuje klasę błędów, które agent zauważyłby, gdyby spojrzał ponownie: literówki, niejasne nazewnictwo, błędy o jeden. Bez przeglądu te błędy trafiają do raportu końcowego, jakby nie istniały.

Pominięcie oceny oznacza, że Bramka dowodowa nigdy nie zostaje uruchomiona. Sześć kryteriów (zgodność z wzorcami bazy kodu, najprostsze rozwiązanie, obsługa przypadków brzegowych, testy przechodzą, brak regresji, rozwiązuje właściwy problem) nigdy nie otrzymuje dowodów. Raport końcowy zawiera twierdzenia, nie dowody. Odkrycie Anthropic, że iteracja podwaja wskaźniki biegłości, mapuje się bezpośrednio tutaj: Bramka dowodowa wymusza iterację, blokując raporty pozbawione dowodów.

Pominięcie udoskonalenia oznacza, że odkryte problemy są odkładane, nie naprawiane. Komentarz TODO zastępuje rozwiązanie. Odłożony dług narasta. GitClear zmierzył efekt downstream: zmiany związane z refaktoryzacją spadły z 25% do poniżej 10% wszystkich zmian w bazach kodu wspomaganych przez AI, podczas gdy duplikacja kodu wzrosła z 8,3% do 12,3%.8

Pominięcie oddalenia oznacza, że agent nigdy nie sprawdza integracji. Funkcja działa. Wywołujące ją miejsca się psują. Tunnel Vision pozostaje niewykryte. Spadek o 5,2 punktu procentowego w „identyfikowaniu brakującego kontekstu” zmierzony przez Anthropic w obecności artefaktów opisuje tę samą awarię po stronie ludzkiej: dopracowany wynik czyni luki kontekstowe niewidocznymi.

Pominięcie powtórzenia oznacza, że jedno przejście przez Bramkę dowodową jest traktowane jako wystarczające. Pierwsze przejście wychwytuje problemy. Naprawienie tych problemów może wprowadzić nowe. Bez drugiego przejścia jakość naprawy jest niezweryfikowana. Pętla jakości iteruje, aż wszystkie sześć kryteriów powołuje się na dowody w tym samym przejściu. Jednoprzebiegowe podejście nigdy nie osiąga tego standardu.

Z danych harnessa: średnia pętla jakości wychwytuje 3,2 problemu na nietrywialną zmianę. Z tych 1,1 jest wychwytywanych podczas przeglądu (krok 2), 0,8 podczas oceny (krok 3) i 1,3 podczas oddalenia (krok 5). Jednoprzebiegowy agent wysłałby wszystkie 3,2 problemu. Sekwencja przegląd-ocena-oddalenie eliminuje je przed raportem końcowym.


Problem języka unikowego

Anthropic odkrył, że iteracyjni użytkownicy są 5,6 razy bardziej skłonni do kwestionowania rozumowania modelu.1 Język unikowy to sygnał odwrotny: model wyrażający pewność bez bycia zakwestionowanym.

Wyrażenia unikowe obejmują „powinno działać”, „jestem pewien”, „wygląda poprawnie”, „prawdopodobnie w porządku” i „sądzę, że”. Każde wyrażenie zastępuje obserwację przewidywaniem. „Testy powinny przejść” oznacza, że agent przewiduje wynik. „14 testów przeszło, 0 nie przeszło” oznacza, że agent zaobserwował wynik. Różnica to odróżnienie Phantom Verification od rzeczywistej weryfikacji.

Xiong i in. odkryli, że LLM wyrażają pewność w zakresie 80-100% niezależnie od rzeczywistej trafności, a przewidywanie niepowodzeń GPT-4 ledwo przekracza losowe zgadywanie (AUROC 62,7%).9 Kadavath i in. w Anthropic odkryli, że modele są dobrze skalibrowane na znanych zadaniach, ale mają trudności z nowymi, przy czym kwalifikator „w większości” ukrywa systematyczne martwe pola.10 Werbalizowana pewność nie koreluje z poprawnością. Model mówiący „jestem pewien” dostarcza zero informacji o tym, czy kod działa.

Detektor wyrażeń unikowych wychwytuje ten wzorzec. Hook grep uruchamia się przy każdym raporcie końcowym i wyszukuje konfigurowalne wzorce unikowe. Obecność języka unikowego bez sąsiadujących wyników testów lub cytowań ścieżek plików uruchamia blokadę. Model musi zastąpić wyrażenie unikowe dowodem. Hook wymusza zachowanie kwestionujące, które Anthropic zaobserwował w rozmowach iteracyjnych, z tą różnicą, że działa deterministycznie w każdej rozmowie, a nie probabilistycznie w 85,7%.

#!/bin/bash
# hedge-detector.sh — block hedging without evidence
INPUT=$(cat)
HEDGES=$(echo "$INPUT" | grep -ciE '\bshould (work|pass|be fine)\b|\bprobably\b|\blooks correct\b|\bI.m confident\b')
if [ "$HEDGES" -gt 0 ]; then
  echo '{"decision":"block","reason":"Hedging language detected. Replace with test output or file paths."}'
else
  echo '{"decision":"allow"}'
fi

Co można wdrożyć już dziś

Dane Anthropic wskazują na trzy minimalne interwencje, które przechwytują najwartościowsze zachowania biegłości.

Jeden hook współpracy. Wstrzykuj instrukcje przy każdym prompcie, które nakazują modelowi kwestionować założenia, identyfikować brakujący kontekst i kwestionować własne rozumowanie. Anthropic odkrył, że tylko 30% użytkowników robi to ręcznie. Hook robi to przy 100% promptów. Pięć linii basha.

#!/bin/bash
# inject-collaboration.sh — force evaluative behavior
echo "INSTRUCTIONS: Push back if assumptions are wrong."
echo "Identify missing context before proceeding."
echo "Question your own reasoning at each step."

Jedna bramka dowodowa. Blokuj raporty końcowe używające języka unikowego zamiast powoływania się na dowody. Bramka operacjonalizuje odkrycie Anthropic, że iteracja podwaja wskaźniki biegłości, czyniąc iterację obowiązkową. Model nie może raportować „gotowe” bez dowodów dla każdego kryterium jakości.

Jeden niezależny weryfikator. Uruchamiaj zestaw testów po każdej zmianie kodu i wstrzykuj wyniki do rozmowy. Weryfikator bezpośrednio adresuje paradoks artefaktu: niezależnie od tego, jak dopracowany wydaje się wynik, wyniki testów raportują, co faktycznie działa. Weryfikacja faktów nie zależy od ludzkiej płynności przetwarzania, ponieważ hook ją automatyzuje.

Trzy hooki razem wymuszają trzy zachowania, które Anthropic znalazł jako najsilniej powiązane z efektywnym korzystaniem z AI: iterację, kwestionowanie rozumowania i identyfikowanie brakującego kontekstu. Każdy hook jest deterministyczny. Każdy uruchamia się przy każdej interakcji. Żaden nie zależy od tego, czy użytkownik pamięta, żeby go aktywować.

Anthropic zmierzył, co działa. Hooki czynią to nieobowiązkowym do pominięcia.


Źródła


  1. Kyle Swanson, Daniel Bent, Zack Ludwig, Rick Dakan, and Joseph Feller, “Anthropic Education Report: The AI Fluency Index,” Anthropic Research, February 23, 2026, anthropic.com. 9,830 anonymized conversations on Claude.ai, January 20-26, 2026. Iterative conversations: 2.67 fluency behaviors (vs 1.33 non-iterative). 5.6x more likely to question reasoning. Artifact paradox: -5.2pp missing context identification, -3.7pp fact-checking. 

  2. Rick Dakan and Joseph Feller, “The AI Fluency Framework,” developed in collaboration with Anthropic, supported by Ireland’s Higher Education Authority, 2025, aifluencyframework.org. 24 behaviors across 4 dimensions: Delegation, Description, Discernment, Diligence. Definition: “The ability to work effectively, efficiently, ethically, and safely within emerging modalities of Human-AI interaction.” 

  3. Adam L. Alter and Daniel M. Oppenheimer, “Uniting the Tribes of Fluency to Form a Metacognitive Nation,” Personality and Social Psychology Review, 13(3), 219-235, 2009, doi.org. Processing fluency causes stimuli to be judged as more true, reliable, and trustworthy regardless of actual accuracy. 

  4. Daniel M. Oppenheimer, “The Secret Life of Fluency,” Trends in Cognitive Sciences, 12(6), 237-241, 2008, sciencedirect.com. The fluency heuristic operates automatically: processing ease serves as a proxy for quality without conscious awareness. 

  5. Daniel Kahneman, Thinking, Fast and Slow (New York: Farrar, Straus and Giroux, 2011). System 1 (automatic) associates cognitive ease with truth. System 2 (deliberate) requires effort. WYSIATI: conclusions drawn from available information without accounting for what is missing. Quote: “It’s a mistake for people to have confidence in a judgment because it made for a good story when in fact confidence should be based on the quality and quantity of evidence.” 

  6. Peter West et al., “The Generative AI Paradox: What It Can Create, It May Not Understand,” ICLR 2024, arxiv.org; Peter West et al., “The Generative AI Paradox on Evaluation: What It Can Solve, It May Not Evaluate,” arXiv:2402.06204, 2024, arxiv.org. Generative capabilities exceed evaluation capabilities. Models produce expert-level output they cannot reliably self-evaluate. 

  7. Jeff Gothelf, “Confusing Artifact Quality with Certainty,” 2024, jeffgothelf.com. “Part of productivity gains comes from the appearance of quality in AI-produced output. It looks good, it looks polished, it looks done.” 

  8. William Harding and Matthew Kloster, “Coding on Copilot: 2023 Data Suggests Downward Pressure on Code Quality,” GitClear, January 2024, gitclear.com. 153 million changed lines. Refactoring fell from 25% to under 10%. Code duplication rose from 8.3% to 12.3%. 

  9. Miao Xiong, Zhiyuan Hu, Xinyang Lu, et al., “Can LLMs Express Their Uncertainty? An Empirical Evaluation of Confidence Elicitation in LLMs,” ICLR 2024, arxiv.org. LLMs express confidence in 80-100% range regardless of accuracy. GPT-4 failure prediction AUROC: 62.7%. 

  10. Saurav Kadavath, Tom Conerly, Amanda Askell, et al., “Language Models (Mostly) Know What They Know,” Anthropic, arXiv:2207.05221, July 2022, arxiv.org. Well-calibrated on familiar tasks, systematic blind spots on novel tasks. 

  11. CodeRabbit, “State of AI vs. Human Code Generation Report,” December 17, 2025, coderabbit.ai. 470 PRs analyzed. AI-authored: 1.7x more issues, 1.75x more logic errors. Polished output masks higher defect rates. 

  12. Laura Tacho, “AI-Assisted Engineering: Q4 Impact Report,” DX, November 4, 2025, getdx.com. 121,000+ developers. Productivity plateaued at ~10% despite 91% adoption. 

  13. Author’s analysis. Quality loop described in “Jiro Quality Philosophy.” Hook system described in “Anatomy of a Claw.” Failure modes described in “What Actually Breaks When You Run AI Agents Unsupervised.” 10% wall explained in “The 10% Wall.” 

Powiązane artykuły

What Actually Breaks When You Run AI Agents Unsupervised

7 named failure modes from 500+ agent sessions. Each has a detection signal, a real output example, and a concrete fix. …

13 min czytania

The 10% Wall: Why AI Productivity Plateaus and What Breaks Through

121,000 developers surveyed, 92.6% using AI tools, productivity stuck at 10%. The wall is infrastructure, not intelligen…

17 min czytania

Your Agent Writes Faster Than You Can Read

Five research groups published about the same problem this week: AI agents produce code faster than developers can under…

16 min czytania