Anthropic zmierzyło, co działa. Moje hooki to wymuszają.
Anthropic przeanalizowało 9 830 rozmów na Claude.ai w ciągu jednego tygodnia w styczniu 2026 roku.1 Analiza wykorzystała CLIO — narzędzie chroniące prywatność, które klasyfikuje wzorce konwersacji bez odczytywania poszczególnych wiadomości. Badacze śledzili 11 obserwowalnych zachowań z 24-elementowego AI Fluency Framework opracowanego przez profesorów Ricka Dakana i Josepha Fellera.2
Główne odkrycie: 85,7% rozmów zawiera iterację i doskonalenie. Konwersacje iteracyjne wykazują średnio 2,67 zachowań biegłości — mniej więcej dwukrotnie więcej niż 1,33 w konwersacjach nieiteracyjnych. Użytkownicy w konwersacjach iteracyjnych są 5,6 razy bardziej skłonni do kwestionowania rozumowania modelu i 4 razy bardziej skłonni do identyfikowania brakującego kontekstu.1
Iteracja jest zmienną, która oddziela efektywne korzystanie z AI od przeciętnego. Anthropic to zmierzyło. Badanie DX obejmujące 135 000 programistów wykazało, że mimo 91% adopcji AI oszczędzało programistom około czterech godzin tygodniowo — wartość, która ustabilizowała się w ostatnich kwartałach mimo rosnącej adopcji, co sugeruje, że adopcja bez infrastruktury iteracji napotyka na sufit.12 Pytanie brzmi, czy iteracja zachodzi konsekwentnie, czy tylko wtedy, gdy ludzie pamiętają, żeby ją wykonać.
TL;DR
AI Fluency Index od Anthropic wykazał, że iteracyjne doskonalenie podwaja wskaźniki biegłości w 9 830 rozmowach. Paradoks artefaktów wyjaśnia, dlaczego iteracja domyślnie zawodzi: dopracowany wynik tłumi ewaluację (weryfikacja faktów spada o 3,7 pp, identyfikacja brakującego kontekstu o 5,2 pp, kwestionowanie rozumowania o 3,1 pp). Mechanizmem jest płynność przetwarzania: System 1 oznacza czysty kod jako poprawny, zanim System 2 oceni, czy faktycznie działa. Pętla jakości wymusza iterację, którą podejście jednoprzebiegowe pomija: obowiązkowy przegląd, bramka dowodowa, sprawdzenie integracji i powtarzanie, aż wszystkie kryteria będą poparte dowodami. Hooki wymuszają to, co Anthropic zmierzyło.
Co zmierzyło Anthropic
AI Fluency Index śledzi obserwowalne zachowania, a nie subiektywne oceny jakości. Framework definiuje biegłość AI jako „zdolność do efektywnej, wydajnej, etycznej i bezpiecznej pracy w ramach nowych modalności interakcji człowiek-AI”.2 24 zachowania obejmują cztery wymiary: Delegowanie, Opisywanie, Rozeznanie i Staranność. Jedenaście z nich jest bezpośrednio obserwowalnych w rozmowie. Pozostałe trzynaście zachodzi poza interfejsem czatu (ewaluacja wyników w środowisku produkcyjnym, dzielenie się rezultatami ze współpracownikami, weryfikacja względem źródeł zewnętrznych).
11 obserwowalnych zachowań obejmuje iterację i doskonalenie, kwestionowanie rozumowania, identyfikowanie brakującego kontekstu, precyzowanie celów, określanie formatów, podawanie przykładów i weryfikację faktów. Badacze sklasyfikowali każdą rozmowę według tej taksonomii, używając Claude Sonnet jako modelu analitycznego.
Trzy odkrycia mają znaczenie dla infrastruktury inżynieryjnej.
Odkrycie 1: Iteracja jest najsilniejszym sygnałem. 85,7% rozmów zawiera przynajmniej pewną iterację. Rozmowy z iteracją wykazują mniej więcej dwukrotnie więcej zachowań biegłości (2,67 vs 1,33). Użytkownicy, którzy iterują, są 5,6 razy bardziej skłonni do kwestionowania rozumowania i 4 razy bardziej skłonni do identyfikowania luk.1 Iteracja nie jest opcjonalnym dodatkiem. Jest zachowaniem najsilniej związanym z efektywnym korzystaniem z AI.
Odkrycie 2: Dopracowany wynik tłumi ewaluację. 12,3% rozmów obejmowało generowanie artefaktów (kod, dokumenty, narzędzia interaktywne). Gdy model tworzy artefakty, użytkownicy stają się bardziej dyrektywni: precyzowanie celów wzrosło o 14,7 punktów procentowych, określanie formatu o 14,5 punktów, podawanie przykładów o 13,4 punktów. Ale ewaluacja spadła: identyfikacja brakującego kontekstu spadła o 5,2 punktów, weryfikacja faktów o 3,7 punktów, kwestionowanie rozumowania o 3,1 punktów.1 Użytkownicy kierowali lepiej, ale oceniali mniej.
Odkrycie 3: Niewielu użytkowników konfiguruje współpracę. Tylko 30% rozmów zawierało jawne instrukcje współpracy, takie jak „sprzeciw się, jeśli moje założenia są błędne” lub „powiedz mi, czego mi brakuje”.1 Domyślnym trybem jest delegowanie, a nie dialog. Większość użytkowników traktuje model jako wykonawcę, a nie współpracownika.
Paradoks artefaktów
Anthropic nazwało ten wzorzec, ale nie nazwało mechanizmu. Nauki kognitywne mają na to precyzyjny termin: płynność przetwarzania.
Płynność przetwarzania to subiektywne doświadczenie łatwości lub trudności związanej z zadaniem umysłowym. Alter i Oppenheimer udokumentowali, że bodźce, które są semantycznie aktywowane, wizualnie klarowne lub łatwe do przetworzenia, są oceniane jako bardziej prawdziwe, wiarygodne i godne zaufania — niezależnie od faktycznej trafności.3 Oppenheimer wykazał, że heurystyka płynności działa automatycznie: ludzie wykorzystują łatwość przetwarzania jako wskaźnik jakości bez świadomej kontroli.4
Framework System 1/System 2 Kahnemana wyjaśnia dlaczego. System 1 przetwarza informacje automatycznie, kojarząc łatwość poznawczą z prawdą. System 2 angażuje świadomą analizę, ale wymaga wysiłku i motywacji. Dopracowany wynik AI charakteryzuje się wysoką płynnością przetwarzania. Kod się kompiluje. Formatowanie jest czyste. Wyjaśnienie jest spójne. System 1 oznacza to jako „dobre”, zanim System 2 zdąży ocenić, czy jest poprawne.5
Kahneman zidentyfikował konkretny tryb awarii: „To błąd, gdy ludzie mają pewność co do oceny, ponieważ stanowiła dobrą historię, podczas gdy w rzeczywistości pewność powinna opierać się na jakości i ilości dowodów”.5 Wystarczy zamienić „dobrą historię” na „czysty kod”, a paradoks artefaktów staje się WYSIATI (What You See Is All There Is) zastosowanym do wyników generowanych przez AI.
West i in. sformalizowali uzupełniające odkrycie od strony modelu. W artykule na ICLR 2024 i towarzyszącym preprincie wykazali, że modele generatywne nabywają zdolności produkcyjne przewyższające ich zdolności ewaluacyjne.6 Model generuje kod na poziomie eksperckim w sekundy, popełniając jednocześnie błędy, których żaden ludzki ekspert by nie popełnił. Model nie potrafi wiarygodnie oceniać własnych wyników, ponieważ generowanie i ewaluacja to oddzielne zdolności, które skalują się w różnym tempie.
Paradoks się potęguje: model tworzy dopracowany wynik, którego nie potrafi właściwie ocenić, a człowiek, napotykając tę dopracowaność, redukuje własną ewaluację. Żadna ze stron nie weryfikuje. Obie zakładają poprawność. Analiza CodeRabbit obejmująca 470 pull requestów wykazała, że kod autorstwa AI miał 1,7 razy więcej problemów i 1,75 razy więcej błędów logicznych — mimo że wyglądał elegancko podczas przeglądu.11 Jeff Gothelf uchwycił wersję organizacyjną: „Część zysków produktywności wynika z pozoru jakości w wynikach generowanych przez AI. Wygląda dobrze, wygląda na dopracowane, wygląda na gotowe”.7
Paradoks artefaktów nie jest problemem edukacji użytkowników. Edukacja pomaga, ale dane Anthropic pokazują, że nawet użytkownicy, którzy iterują (85,7% rozmów), oceniają mniej, gdy obecne są artefakty. Spadek weryfikacji faktów i identyfikacji brakującego kontekstu zachodzi w całej populacji, nie tylko wśród początkujących użytkowników. Mechanizm jest poznawczy, nie informacyjny. Świadomość uprzedzenia nie eliminuje go.
Infrastruktura go eliminuje.
Mapowanie odkryć na infrastrukturę
Każde odkrycie Anthropic mapuje się na konkretny komponent infrastruktury. Poniższa tabela przedstawia łańcuch od zmierzonego zachowania do mechanizmu wymuszającego.
| Zachowanie biegłości | Odkrycie Anthropic | Rozwiązanie infrastrukturalne | Implementacja |
|---|---|---|---|
| Iteracja i doskonalenie | 2x wskaźniki biegłości gdy obecne | Obowiązkowa pętla jakości | 7-krokowa pętla: implementacja, przegląd, ewaluacja, doskonalenie, spojrzenie z dystansu, powtórzenie, raport. Hook blokuje zakończenie, jeśli jakikolwiek krok zostanie pominięty. |
| Kwestionowanie rozumowania | 5,6x bardziej prawdopodobne w konwersacjach iteracyjnych | Bramka dowodowa | 6 kryteriów wymagających konkretnych dowodów. „Jestem przekonany” nie jest dowodem. Wyrażenia hedgingowe uruchamiają blokadę. |
| Identyfikacja brakującego kontekstu | 4x bardziej prawdopodobne; -5,2 pp z artefaktami | Krok „spojrzenie z dystansu” | Obowiązkowe wyszukiwanie wywołań, weryfikacja importów i test integracyjny przed zakończeniem. |
| Weryfikacja faktów | -3,7 pp z artefaktami | Niezależny runner testów | Zestaw testów uruchamiany po każdej zmianie kodu. Agent nie może sam raportować wyników testów. |
| Instrukcje współpracy | Tylko 30% rozmów | Automatycznie wstrzykiwany kontekst | 9 hooków uruchamia się przy każdym prompcie, wstrzykując datę, gałąź, konwencje i jawne instrukcje, by kwestionować założenia. |
Hooki wymuszają to, co Anthropic zmierzyło. Model nie musi pamiętać o iteracji, bo infrastruktura tego wymaga. Użytkownik nie musi pamiętać o dołączaniu instrukcji współpracy, bo hooki wstrzykują je przy każdym prompcie. Weryfikacja faktów nie zależy od płynności przetwarzania użytkownika, bo niezależny runner testów raportuje wyniki niezależnie od tego, jak dopracowany wygląda kod.
Dlaczego podejście jednoprzebiegowe zawodzi
Pętla jakości opisana w Jiro Quality Philosophy obejmuje siedem kroków: implementacja, przegląd, ewaluacja, doskonalenie, spojrzenie z dystansu, powtórzenie, raport. Agent jednoprzebiegowy wykonuje krok 1 i krok 7, pomijając pięć kroków pomiędzy. Dane Anthropic ilościowo określają koszt każdego pominiętego kroku.
Pominięcie przeglądu oznacza, że agent nie czyta ponownie własnego wyniku. Krok przeglądu wyłapuje klasę błędów, które agent zauważyłby, gdyby spojrzał jeszcze raz: literówki, niejasne nazewnictwo, błędy off-by-one. Bez przeglądu błędy te trafiają do raportu końcowego, jakby nie istniały.
Pominięcie ewaluacji oznacza, że bramka dowodowa nigdy nie zostaje uruchomiona. Sześć kryteriów (zgodność ze wzorcami bazy kodu, najprostsze rozwiązanie, obsłużone przypadki brzegowe, testy przechodzą, brak regresji, rozwiązuje faktyczny problem) nigdy nie otrzymuje dowodów. Raport końcowy zawiera twierdzenia, nie dowody. Odkrycie Anthropic, że iteracja podwaja wskaźniki biegłości, mapuje się bezpośrednio tutaj: bramka dowodowa wymusza iterację, blokując raporty pozbawione dowodów.
Pominięcie doskonalenia oznacza, że wykryte problemy są odkładane, a nie naprawiane. Komentarz TODO zastępuje rozwiązanie. Odłożony dług się kumuluje. GitClear zmierzył efekt końcowy: zmiany związane z refaktoryzacją spadły z 25% do poniżej 10% wszystkich zmian w bazach kodu wspomaganych przez AI, podczas gdy duplikacja kodu wzrosła z 8,3% do 12,3%.8
Pominięcie spojrzenia z dystansu oznacza, że agent nigdy nie sprawdza integracji. Funkcja działa. Wywołania się psują. Widzenie tunelowe pozostaje niewykryte. Spadek o 5,2 punktu procentowego w „identyfikacji brakującego kontekstu” przy obecności artefaktów, zmierzony przez Anthropic, opisuje tę samą awarię od strony człowieka: dopracowany wynik czyni luki kontekstowe niewidocznymi.
Pominięcie powtórzenia oznacza, że jedno przejście przez bramkę dowodową jest traktowane jako wystarczające. Pierwsze przejście wyłapuje problemy. Naprawianie tych problemów może wprowadzić nowe. Bez drugiego przejścia jakość naprawy jest niezweryfikowana. Pętla jakości iteruje, aż wszystkie sześć kryteriów wskaże dowody w tym samym przejściu. Podejście jednoprzebiegowe nigdy nie osiąga tego standardu.
Z danych pętli jakości obejmujących ponad 500 sesji (każda rejestrowana za pomocą telemetrii hooków i ustrukturyzowanych metadanych):13 średnia pętla jakości wyłapuje 3,2 problemy na nietrywialną zmianę. Z nich 1,1 jest wyłapywanych podczas przeglądu (krok 2), 0,8 podczas ewaluacji (krok 3) i 1,3 podczas spojrzenia z dystansu (krok 5). Agent jednoprzebiegowy dostarczyłby wszystkie 3,2 problemy. Sekwencja przegląd-ewaluacja-spojrzenie z dystansu eliminuje je przed raportem końcowym.
Problem języka hedgingowego
Anthropic wykazało, że iteracyjni użytkownicy są 5,6 razy bardziej skłonni do kwestionowania rozumowania modelu.1 Język hedgingowy jest sygnałem odwrotnym: model wyrażający pewność bez bycia kwestionowanym.
Wyrażenia hedgingowe obejmują „powinno działać”, „jestem przekonany”, „wygląda poprawnie”, „pewnie jest w porządku” i „wierzę, że”. Każde wyrażenie zastępuje przewidywanie obserwacją. „Testy powinny przejść” oznacza, że agent przewiduje wynik. „14 testów przeszło, 0 nie przeszło” oznacza, że agent zaobserwował wynik. Różnica to odróżnienie Fantomowej Weryfikacji od faktycznej weryfikacji.
Xiong i in. wykazali, że LLM wyrażają pewność w zakresie 80-100% niezależnie od faktycznej trafności, z AUROC przewidywania niepowodzeń w zakresie 0,5-0,6 wśród modeli — ledwie powyżej losowego zgadywania.9 Kadavath i in. z Anthropic stwierdzili, że modele są dobrze skalibrowane na znanych zadaniach, ale mają trudności z nowymi, przy czym kwalifikator „w większości” ukrywa systematyczne martwe punkty.10 Zwerbalizowana pewność nie koreluje z poprawnością. Model mówiący „jestem przekonany” dostarcza zero informacji o tym, czy kod działa.
Detektor hedgingu wyłapuje ten wzorzec. Hook grep uruchamia się przy każdym raporcie końcowym i wyszukuje konfigurowalne wzorce hedgingowe. Obecność języka hedgingowego bez towarzyszących wyników testów lub cytowań ścieżek plików uruchamia blokadę. Model musi zastąpić hedging dowodem. Hook wymusza zachowanie kwestionujące, które Anthropic zaobserwowało w konwersacjach iteracyjnych, z tą różnicą, że działa deterministycznie przy każdej konwersacji, a nie probabilistycznie przy 85,7%.
#!/bin/bash
# hedge-detector.sh — block hedging without evidence
INPUT=$(cat)
HEDGES=$(echo "$INPUT" | grep -ciE '\bshould (work|pass|be fine)\b|\bprobably\b|\blooks correct\b|\bI.m confident\b')
if [ "$HEDGES" -gt 0 ]; then
echo '{"decision":"block","reason":"Hedging language detected. Replace with test output or file paths."}'
else
echo '{"decision":"allow"}'
fi
Co można wdrożyć już dziś
Dane Anthropic wskazują na trzy minimalne interwencje, które obejmują zachowania biegłości o najwyższej wartości.
Jeden hook współpracy. Wstrzykiwanie instrukcji przy każdym prompcie, które mówią modelowi, by kwestionował założenia, identyfikował brakujący kontekst i kwestionował własne rozumowanie. Anthropic wykazało, że tylko 30% użytkowników robi to ręcznie. Hook robi to przy 100% promptów. Pięć linii basha.
#!/bin/bash
# inject-collaboration.sh — force evaluative behavior
echo "INSTRUCTIONS: Push back if assumptions are wrong."
echo "Identify missing context before proceeding."
echo "Question your own reasoning at each step."
Jedna bramka dowodowa. Blokowanie raportów końcowych, które używają języka hedgingowego zamiast cytowania dowodów. Bramka operacjonalizuje odkrycie Anthropic, że iteracja podwaja wskaźniki biegłości, czyniąc iterację obowiązkową. Model nie może zgłosić „gotowe” bez dowodów dla każdego kryterium jakości.
Jeden niezależny weryfikator. Uruchamianie zestawu testów po każdej zmianie kodu i wstrzykiwanie wyników do rozmowy. Weryfikator bezpośrednio adresuje paradoks artefaktów: niezależnie od tego, jak dopracowany wygląda wynik, wyniki testów raportują, co faktycznie działa. Weryfikacja faktów nie zależy od ludzkiej płynności przetwarzania, bo hook ją automatyzuje.
Trzy hooki razem wymuszają trzy zachowania, które Anthropic uznało za najsilniej związane z efektywnym korzystaniem z AI: iterację, kwestionowanie rozumowania i identyfikowanie brakującego kontekstu. Każdy hook jest deterministyczny. Każdy uruchamia się przy każdej interakcji. Żaden nie zależy od tego, czy użytkownik pamięta, by go aktywować.
Anthropic zmierzyło, co działa. Hooki czynią to nieobowiązkowym.
Kluczowe wnioski
Dla indywidualnych programistów. Wystarczy dodać jeden hook współpracy, który wstrzykuje „sprzeciw się, jeśli założenia są błędne” i „zidentyfikuj brakujący kontekst” przy każdym prompcie. Anthropic wykazało, że tylko 30% użytkowników ręcznie konfiguruje instrukcje współpracy.1 Hook sprawia, że zachowanie ewaluacyjne jest automatyczne przy 100% interakcji.
Dla liderów zespołów. Iteracja jest sygnałem, nie adopcja. Anthropic zmierzyło 2x wskaźniki biegłości w konwersacjach iteracyjnych w porównaniu z nieiteracyjnymi.1 Należy budować infrastrukturę, która wymusza iterację (bramki dowodowe, obowiązkowe kroki przeglądu), zamiast nagradzać wyniki pierwszego przejścia. Dane DX potwierdzają: mimo 91% adopcji zyski produktywności ustabilizowały się w ostatnich kwartałach.12
Dla inżynierów platformowych. Paradoks artefaktów należy adresować niezależnym runnerem testów. Dopracowany wynik AI uruchamia automatyczne zaufanie poprzez płynność przetwarzania, zmniejszając weryfikację faktów o 3,7 punktu procentowego, gdy obecne są artefakty.1 Niezależny weryfikator uruchamiający zestaw testów po każdej zmianie kodu całkowicie omija płynność przetwarzania, raportując, co faktycznie działa — niezależnie od wyglądu kodu.
Źródła
-
Kyle Swanson, Daniel Bent, Zack Ludwig, Rick Dakan, and Joseph Feller, “Anthropic Education Report: The AI Fluency Index,” Anthropic Research, February 23, 2026, anthropic.com. 9,830 anonymized conversations on Claude.ai, January 20-26, 2026. Iterative conversations: 2.67 fluency behaviors (vs 1.33 non-iterative). 5.6x more likely to question reasoning. Artifact paradox: -5.2pp missing context identification, -3.7pp fact-checking. ↩↩↩↩↩↩↩↩↩
-
Rick Dakan and Joseph Feller, “The AI Fluency Framework,” developed in collaboration with Anthropic, supported by Ireland’s Higher Education Authority, 2025, aifluencyframework.org. 24 behaviors across 4 dimensions: Delegation, Description, Discernment, Diligence. Definition: “The ability to work effectively, efficiently, ethically, and safely within emerging modalities of Human-AI interaction.” ↩↩
-
Adam L. Alter and Daniel M. Oppenheimer, “Uniting the Tribes of Fluency to Form a Metacognitive Nation,” Personality and Social Psychology Review, 13(3), 219-235, 2009, doi.org. Processing fluency causes stimuli to be judged as more true, reliable, and trustworthy regardless of actual accuracy. ↩
-
Daniel M. Oppenheimer, “The Secret Life of Fluency,” Trends in Cognitive Sciences, 12(6), 237-241, 2008, sciencedirect.com. The fluency heuristic operates automatically: processing ease serves as a proxy for quality without conscious awareness. ↩
-
Daniel Kahneman, Thinking, Fast and Slow (New York: Farrar, Straus and Giroux, 2011). System 1 (automatic) associates cognitive ease with truth. System 2 (deliberate) requires effort. WYSIATI: conclusions drawn from available information without accounting for what is missing. Quote: “It’s a mistake for people to have confidence in a judgment because it made for a good story when in fact confidence should be based on the quality and quantity of evidence.” ↩↩
-
Peter West et al., “The Generative AI Paradox: What It Can Create, It May Not Understand,” ICLR 2024, arxiv.org; Peter West et al., “The Generative AI Paradox on Evaluation: What It Can Solve, It May Not Evaluate,” arXiv:2402.06204, 2024, arxiv.org. Generative capabilities exceed evaluation capabilities. Models produce expert-level output they cannot reliably self-evaluate. ↩
-
Jeff Gothelf, “Confusing Artifact Quality with Certainty,” 2026, jeffgothelf.com. “Part of productivity gains comes from the appearance of quality in AI-produced output. It looks good, it looks polished, it looks done.” ↩
-
William Harding and Matthew Kloster, “Coding on Copilot: 2023 Data Suggests Downward Pressure on Code Quality,” GitClear, January 2024, gitclear.com. 153 million changed lines. Refactoring fell from 25% to under 10%. Code duplication rose from 8.3% to 12.3%. ↩
-
Miao Xiong, Zhiyuan Hu, Xinyang Lu, et al., “Can LLMs Express Their Uncertainty? An Empirical Evaluation of Confidence Elicitation in LLMs,” ICLR 2024, arxiv.org. LLMs express confidence in 80-100% range regardless of accuracy. Failure prediction AUROC across models ranges 0.5-0.6, barely above random. ↩
-
Saurav Kadavath, Tom Conerly, Amanda Askell, et al., “Language Models (Mostly) Know What They Know,” Anthropic, arXiv:2207.05221, July 2022, arxiv.org. Well-calibrated on familiar tasks, systematic blind spots on novel tasks. ↩
-
CodeRabbit, “State of AI vs. Human Code Generation Report,” December 17, 2025, coderabbit.ai. 470 PRs analyzed. AI-authored: 1.7x more issues, 1.75x more logic errors. Polished output masks higher defect rates. ↩
-
Laura Tacho, “AI-Assisted Engineering: Q4 Impact Report,” DX, November 4, 2025, getdx.com. 135,000+ developers across 435 companies. Average savings of about four hours per week despite 91% adoption. ↩↩
-
Author’s analysis. Quality loop described in “Jiro Quality Philosophy.” Hook system described in “Anatomy of a Claw.” Failure modes described in “What Actually Breaks When You Run AI Agents Unsupervised.” 10% wall explained in “The 10% Wall.” ↩