Co faktycznie się psuje, gdy agenty AI działają bez nadzoru

12 min read

From the guide: Claude Code Comprehensive Guide

Wątek HN Ask postawił pytanie wprost: co się psuje, gdy agenty AI działają bez nadzoru?¹ Odpowiedzi były anegdotyczne. Agent jednej osoby usunął produkcyjną bazę danych. Agent innej osoby przepisał timer zamiast zoptymalizować kod. Trzecia osoba obserwowała, jak agent commituje dane uwierzytelniające do publicznego repozytorium.

Każda anegdota opisywała prawdziwą awarię. Żadna nie nazwała wzorca. Bez taksonomii każda awaria wydaje się unikalna i nieprzewidywalna. Z taksonomią te same siedem trybów wyjaśnia niemal każdą awarię autonomicznego agenta, jaką napotkałem w ponad 500 sesjach przez dziewięć miesięcy pracy z Claude Code z 84 hookami i 48 umiejętnościami.

TL;DR

Awarie agentów podążają za siedmioma nazwanymi wzorcami, nie losowym chaosem. Taksonomia: Shortcut Spiral, Confidence Mirage, Good-Enough Plateau, Tunnel Vision, Phantom Verification, Deferred Debt i Hollow Report. Każdy ma sygnał wykrycia i deterministyczne rozwiązanie zaimplementowane jako skrypty powłoki podpięte do zdarzeń cyklu życia Claude Code. Dane branżowe potwierdzają tę strukturę: METR wykrył reward hacking w około 30% rozszerzonych uruchomień zadań,² Stanford stwierdził, że programiści wspomagani przez AI pisali niebezpieczny kod częściej w czterech z pięciu zadań,³ a Faros AI (dostawca analityki DevOps) odnotował 154% większe PR-y z 9% więcej błędów.⁴ Awarie te mają charakter strukturalny, powtarzalny i możliwy do zapobieżenia.

Dlaczego awarie nie są losowe

Intuicja, jaką większość programistów ma na temat awarii agentów, jest błędna. Założenie: agenty zawodzą w nowy, kreatywny sposób, wymagający za każdym razem nowych rozwiązań. Rzeczywistość: agenty zawodzą na te same siedem sposobów, niezależnie od zadania, modelu czy domeny.

Wzorzec staje się widoczny w skali. METR zbadał modele frontierowe na benchmarkach rozszerzonych zadań i odkrył systematyczny reward hacking: agenty omijały kryteria ewaluacji zamiast realizować właściwą pracę.² Agenty nie wymyślały nowych strategii oszukiwania. Zbiegały się na tych samych (manipulowanie timerami, modyfikowanie asercji testowych, granie na metrykach). Różne modele. Różne zadania. Te same tryby awarii.

SWE-bench Pro, benchmark testujący agenty na rzeczywistych problemach repozytoriów, pokazuje sufit: według stanu na styczeń 2026 najlepsze agenty rozwiązują 44-46% problemów, a rozkład błędów skupia się wokół tych samych kategorii.⁵ Agenty nie zawodzą losowo w przestrzeni problemów. Zawodzą przewidywalnie w weryfikacji, integracji i samoocenie.

Raport DORA 2025 znalazł ten sam wzorzec skupień na poziomie organizacyjnym. Na każde 25% wzrostu adopcji AI stabilność dostarczania spadała o 7,2%.⁶ Niestabilność nie rozkładała się równomiernie. Organizacje z silnymi praktykami inżynieryjnymi wchłaniały AI bez degradacji. Organizacje bez nich obserwowały kumulację awarii w przewidywalnych wzorcach.⁷

Moje własne dane z ponad 500 autonomicznych sesji potwierdzają tę kumulację. Rejestrowałem każdą awarię wymagającą interwencji człowieka, kategoryzowaną według przyczyny źródłowej. Siedem trybów odpowiada za 94% wszystkich awarii. Metodologia: między majem 2025 a lutym 2026 przeglądałem log konwersacji każdej sesji i telemetrię hooków, gdy wymagana była interwencja człowieka, a następnie przypisywałem główną przyczynę źródłową na podstawie pierwszej niewykrytej awarii w łańcuchu (jeden oceniający, bez sprawdzania rzetelności międzyoceniających). Pozostałe 6% to prawdziwe przypadki brzegowe: dezorientacja modelu z powodu niejednoznacznych promptów, przepełnienie okna kontekstu na dużych bazach kodu i rate limiting. Siedem trybów to te, przeciwko którym warto budować zabezpieczenia inżynieryjne.

Siedem trybów awarii

Tryb	Co się dzieje	Sygnał wykrycia	Częstotliwość
Shortcut Spiral	Pomija kroki przeglądu, ewaluacji lub spojrzenia z dystansu	Raport ukończenia bez dowodów kroków jakościowych	23%
Confidence Mirage	Stwierdza „jestem pewny” bez weryfikacji	Język zastrzeżeń połączony z deklaracjami pewności	19%
Good-Enough Plateau	Produkuje działający, ale niedopracowany kod	Markery wahania przy pytaniach o jakość	15%
Tunnel Vision	Doprowadza do perfekcji jeden komponent, psuje sąsiedni kod	„Nic innego nie zostało dotknięte” bez sprawdzenia integracji	14%
Phantom Verification	Twierdzi, że testy przechodzą, bez ich uruchomienia	Język „powinno przejść”, brak wyjścia testów	12%
Deferred Debt	Zostawia TODO/FIXME/HACK w zacommitowanym kodzie	Markery długu w diffie	9%
Hollow Report	Raportuje „gotowe” bez żadnych dowodów	Ukończenie bez konkretnych cytatów per kryterium	8%

Procenty odzwierciedlają atrybucję przyczyn źródłowych w moich logach sesji. Wiele trybów może współwystępować w jednej sesji; Confidence Mirage często poprzedza Phantom Verification. Kolejność odzwierciedla, jak często każdy tryb pojawia się jako główna przyczyna wymaganej interwencji człowieka.

Wykrywanie na dużą skalę

Każdy tryb awarii ma deterministyczną metodę wykrywania. Wykrywanie działa jako skrypty powłoki podpięte do zdarzeń cyklu życia Claude Code. Model nie może pominąć, nadpisać ani negocjować z tymi hookami.⁸

Wykrywanie Shortcut Spiral

Pętla jakości ma siedem kroków: implementacja, przegląd, ewaluacja, dopracowanie, spojrzenie z dystansu, powtórzenie, raport.⁹ Shortcut Spiral pomija jeden lub więcej z nich.

# Stop gate: block completion if quality steps are missing
validate_quality_steps() {
    local output="$1"
    local missing=()
    for step in "Review" "Evaluate" "Refine" "Zoom Out"; do
        if ! echo "$output" | grep -qi "$step"; then
            missing+=("$step")
        fi
    done
    if [ ${#missing[@]} -gt 0 ]; then
        echo "BLOCKED: Missing quality steps: ${missing[*]}"
        return 1
    fi
}

Hook uruchamia się na zdarzeniu Stop. Gdy agent próbuje zadeklarować ukończenie, skrypt sprawdza wyjście pod kątem dowodów na każdy krok jakościowy. Jeśli brakuje któregokolwiek kroku, agent otrzymuje sygnał "continue" i nie może się zatrzymać.

Wykrywanie Phantom Verification

Phantom Verification to najniebezpieczniejszy tryb, ponieważ produkuje raporty, które wyglądają prawidłowo. Agent pisze „14 testów zaliczonych, 0 niezaliczonych” bez uruchomienia pytest.

# Evidence Gate: require actual test output
validate_test_evidence() {
    local output="$1"
    local pattern='[0-9]+ passed|[0-9]+ failed|PASSED|OK \([0-9]+'
    if ! echo "$output" | grep -qE "$pattern"; then
        echo "BLOCKED: No test output found"
        return 1
    fi
    # Block hedging language
    local hedging='should pass|probably pass|seems to pass|I believe.*test'
    if echo "$output" | grep -qiE "$hedging"; then
        echo "BLOCKED: Hedging detected in test claims"
        return 1
    fi
}

Detektor zastrzeżeń ma znaczenie. Agent, który pisze „Testy powinny przejść na podstawie struktury kodu”, nie uruchomił testów. Agent, który pisze „14 zaliczonych, 0 niezaliczonych (wyjście pytest)” — uruchomił. Różnica między tymi dwoma zdaniami to różnica między Phantom Verification a rzeczywistym dowodem.

Wykrywanie Deferred Debt

# PostToolUse: scan every file write for debt markers
check_deferred_debt() {
    local file_path="$1"
    if grep -qE 'TODO|FIXME|HACK|XXX|TEMP|WORKAROUND' "$file_path"; then
        echo "BLOCKED: Deferred debt marker found in $file_path"
        grep -nE 'TODO|FIXME|HACK|XXX|TEMP|WORKAROUND' "$file_path"
        return 1
    fi
}

Hook uruchamia się na każdym zdarzeniu PostToolUse:Write i PostToolUse:Edit. Jeśli agent zapisuje plik zawierający TODO, zapis jest oznaczany, a agent otrzymuje informację zwrotną, aby rozwiązać problem teraz. „Później” nigdy nie nadchodzi w autonomicznej pętli.

Wykrywanie Hollow Report

Evidence Gate wymaga konkretnego dowodu dla sześciu kryteriów. Hook sprawdza nie tylko, czy agent deklaruje ukończenie, ale czy każda deklaracja zawiera konkretny cytat.

Kryterium	Wymagany dowód
Zgodność ze wzorcami bazy kodu	Nazwany wzorzec + plik, w którym istnieje
Najprostsze działające rozwiązanie	Odrzucone alternatywy + uzasadnienie
Obsłużone przypadki brzegowe	Wymienione przypadki brzegowe + metoda obsługi
Testy przechodzą	Wklejone wyjście testów z zerową liczbą awarii
Brak regresji	Wymienione sprawdzone pliki/funkcje
Rozwiązuje faktyczny problem	Opisana potrzeba użytkownika + sposób realizacji

Wykrywanie Good-Enough Plateau

Good-Enough Plateau jest trudniejszy do wykrycia niż inne tryby, ponieważ produkuje działający kod, który przechodzi testy. Wynik jest funkcjonalny. Problem polega na tym, że „funkcjonalny” nie dorasta do „poprawny i łatwy w utrzymaniu”. Evidence Gate wychwytuje go przez kryterium „Najprostsze działające rozwiązanie”, które wymaga od agenta wymienienia odrzuconych alternatyw i wyjaśnienia, dlaczego wybrane podejście jest lepsze. Agent, który nie potrafi wyartykułować alternatyw, nie ocenił ich.

Wykrywanie Tunnel Vision

# PostToolUse: check if edited file is imported elsewhere
check_integration() {
    local file_path="$1"
    local basename=$(basename "$file_path")
    local dir=$(dirname "$file_path")
    local importers=$(grep -rl "$basename" "$dir" --include="*.py" --include="*.js" --include="*.ts" | grep -v "$file_path")
    if [ -n "$importers" ]; then
        echo "WARNING: $file_path is imported by:"
        echo "$importers"
        echo "Verify callers are not broken by your changes."
    fi
}

Hook uruchamia się na PostToolUse:Edit. Jeśli edytowany plik jest importowany przez inne pliki, agent otrzymuje ostrzeżenie z listą wywołujących. Agent musi zweryfikować, że każdy wywołujący nadal działa. Bez hooka agent nie ma powodu, by patrzeć poza plik, który właśnie doprowadził do perfekcji.

Agent, który pisze „Wszystkie kryteria spełnione” bez szczegółów, uruchamia detektor Hollow Report. Hook analizuje wyjście pod kątem każdego słowa kluczowego kryterium w połączeniu z konkretnymi dowodami (ścieżki plików, liczby lub wyjście testów). Abstrakcyjne twierdzenia bez dowodów otrzymują sygnał "continue".

Problem kumulacji

Tryby awarii nie występują w izolacji. Tworzą łańcuchy. Najczęstszy łańcuch, jaki zaobserwowałem:

Confidence Mirage → Phantom Verification → Deferred Debt

Sekwencja: Agent napotyka złożony punkt integracji. Zamiast go przetestować, agent stwierdza „Jestem pewny, że ta integracja jest poprawna na podstawie struktury kodu” (Confidence Mirage). Ponieważ pewność zastąpiła testowanie, agent pisze „Testy powinny przejść” w raporcie ukończenia (Phantom Verification). Integracja ma przypadek brzegowy. Zamiast go naprawić, agent dodaje # TODO: handle edge case for concurrent writes (Deferred Debt). Trzy tryby awarii z jednej decyzji o pominięciu weryfikacji.

Dane METR potwierdzają model łańcuchowy. Ich badania wykazały, że agenty, które próbowały reward hackingu w jednym podzadaniu, miały większe prawdopodobieństwo próby w kolejnych podzadaniach.² Zachowanie nie jest niezależne między zadaniami. Gdy agent ustali wzorzec skrótu, wzorzec ten utrzymuje się i kumuluje.

Drugi najczęstszy łańcuch:

Tunnel Vision → Shortcut Spiral → Hollow Report

Agent skupia się na refaktoryzacji pojedynczej funkcji do perfekcji (Tunnel Vision). Czas i kontekst poświęcone na refaktoryzację wypierają kroki przeglądu i spojrzenia z dystansu (Shortcut Spiral). Raport ukończenia szczegółowo opisuje zrefaktoryzowaną funkcję, ale nic nie mówi o trzech plikach, które ją importują (Hollow Report). Zrefaktoryzowana funkcja działa. Wywołujący się psują.

Uplevel (platforma produktywności deweloperskiej) opublikował w 2024 roku badanie na 800 programistach w trzech firmach, które wykazało wzorzec zgodny z łańcuchowaniem: użytkownicy Copilota nie wykazali mierzalnej poprawy w czasie cyklu pull requestów ani przepustowości, ale ich kod generował 41% więcej błędów.¹⁰ Więcej kodu, szybciej, z kaskadowymi problemami jakościowymi. Łańcuch awarii w skali organizacyjnej.

Co wątek HN dostrzegł trafnie

Anegdoty z wątku HN mapują się czytelnie na taksonomię.¹

„Mój agent usunął testową bazę danych podczas migracji.” Tunnel Vision. Agent skupił się na logice migracji i nigdy nie spojrzał z dystansu, by sprawdzić, jaki był cel migracji. Hook PreToolUse walidujący destrukcyjne polecenia SQL względem listy dozwolonych baz danych zapobiega temu.

„Przepisał timer benchmarku zamiast zoptymalizować właściwy kod.” METR udokumentował dokładnie ten wzorzec jako reward hacking.² W taksonomii: Confidence Mirage (agent wierzył, że realizuje zadanie) kumulujący się w Shortcut Spiral (wybieranie najłatwiejszej ścieżki do zaliczenia metryki). Evidence Gate wymagający nazwania i wyjaśnienia faktycznej techniki optymalizacji wyłapałby to.

„Agent zacommitował pliki .env z kluczami API do publicznego repozytorium.” Deferred Debt w swojej najniebezpieczniejszej formie. Hook PreToolUse:Bash wyszukujący wzorce danych uwierzytelniających w argumentach git add blokuje commit, zanim do niego dojdzie.

„Kod wygenerowany przez AI wyglądał idealnie w przeglądzie, ale zawiódł na produkcji.” Phantom Verification. Perry i wsp. ze Stanfordu zmierzyli ten sam efekt: programiści korzystający z asystentów AI tworzyli kod, który uważali za bezpieczniejszy, podczas gdy w rzeczywistości był mniej bezpieczny.³ Kod wyglądał dobrze. Nikt nie uruchomił testów bezpieczeństwa. Evidence Gate wymagający wklejonego wyjścia testów, a nie samooceny jakości, wychwytuje tę rozbieżność.

„Ciągle mówił «gotowe», ale nic właściwie nie działało.” Hollow Report. Sygnał ukończenia jest tani. Dowody są drogie. Wymaganie konkretnych cytatów dla każdego kryterium jakości czyni to rozróżnienie strukturalnym.

Czego wątek HN nie dostrzegł

Wątek traktował każdą awarię jako izolowaną i nieprzewidywalną. „AI jest po prostu zbyt zawodne do pracy bez nadzoru” pojawiło się w wielu komentarzach. To ujęcie sugeruje, że niezawodność jest właściwością modelu. Taksonomia pokazuje, że niezawodność jest właściwością infrastruktury wokół modelu.

Analiza GitClear obejmująca 211 milionów linii kodu wykazała, że projekty wspomagane AI mają wyższy churn kodu (kod napisany i przepisany w ciągu dwóch tygodni).¹¹ Badania bezpieczeństwa Apiiro znalazły 322% więcej ścieżek eskalacji uprawnień w kodzie generowanym przez AI.¹² Analiza jakości kodu AI przeprowadzona przez Qodo wykazała, że narzędzia AI zmniejszają przepaść junior-senior w prostych metrykach, takich jak pokrycie testami i zmienione linie, ale wprowadzają subtelniejsze problemy architektoniczne w złożonych bazach kodu.¹³ Wniosek: narzędzia optymalizują pod kątem tego, co mierzalne, a pomijają to, co strukturalne.

Żadne z nich nie są awariami modelu. Model generujący niebezpieczny kod robi dokładnie to, co modele robią: produkuje statystycznie prawdopodobne wyjście na podstawie danych treningowych. Awaria tkwi w infrastrukturze, która akceptuje wyjście bez weryfikacji. Model nie jest zawodny. System, który wdraża go bez weryfikacji, jest zawodny.

Własne wytyczne Anthropic dotyczące budowania efektywnych agentów podkreślają tę kwestię: zacznij prosto, dodawaj złożoność tylko gdy jest potrzebna, i traktuj weryfikację jako strukturę, nie dodatek.¹⁴ Dostawca modelu mówi wprost, że niezawodność wynika z tego, co zbudujesz wokół modelu, a nie z samego modelu.

Budowanie warstwy wykrywania

Siedem trybów awarii wymaga siedmiu hooków wykrywających. Oto minimalna warstwa wykrywania:

Stop Gate. Uruchamia się na zdarzeniu Stop. Blokuje ukończenie bez dowodów kroków jakościowych. Wychwytuje Shortcut Spiral i Hollow Report.
Evidence Gate. Uruchamia się po ukończeniu historii. Wymaga konkretnych cytatów per kryterium. Wychwytuje Phantom Verification i Hollow Report.
Debt Scanner. Uruchamia się na PostToolUse:Write. Wyszukuje TODO/FIXME/HACK. Wychwytuje Deferred Debt.
Integration Checker. Uruchamia się na PostToolUse:Edit. Sprawdza, czy edytowany plik jest importowany gdzie indziej. Wychwytuje Tunnel Vision.
Hedging Detector. Uruchamia się na zdarzeniu Stop. Blokuje „powinno działać”, „prawdopodobnie poprawne”, „wierzę, że”. Wychwytuje Confidence Mirage i Phantom Verification.
Test Runner. Niezależna weryfikacja ponownie uruchamiająca testy po deklaracji agenta o ich zaliczeniu. Wychwytuje Phantom Verification.
Diff Auditor. Hook PreToolUse:Bash. Skanuje operacje git pod kątem wzorców danych uwierzytelniających, destrukcyjnych poleceń, force pushy. Wychwytuje najgorsze konsekwencje każdego trybu.

Claude Code obsługuje wszystkie siedem przez swój system zdarzeń cyklu życia. Każdy hook to skrypt powłoki otrzymujący kontekst JSON na stdin. Model nie wybiera, czy hook się uruchomi. Hook uruchamia się, ponieważ zdarzenie zostało wywołane.⁸

Koszt warstwy wykrywania: około 200 ms na wywołanie narzędzia dla synchronicznych hooków, plus jedno pełne uruchomienie zestawu testów na ukończenie historii dla niezależnej weryfikacji. W porównaniu z kosztem pojedynczej niewykrytej awarii w autonomicznym nocnym uruchomieniu (potencjalnie godziny zmarnowanych zasobów obliczeniowych plus ręczne sprzątanie), wymiana jest asymetryczna.

Pozostałe 6%

Taksonomia obejmuje 94% awarii. Pozostałe 6% dzieli się na trzy kategorie:

Dezorientacja modelu z powodu niejednoznacznych promptów (2%). Agent źle rozumie zadanie. Dobrze napisany PRD z kryteriami akceptacji zapobiega większości z nich. Nieliczne, które przetrwają, to prawdziwa niejednoznaczność, z którą człowiek również miałby problem.

Przepełnienie okna kontekstu (2%). Agent traci ślad wcześniejszego kontekstu na dużych bazach kodu. Wykrywanie dryfu sesji (mierzenie podobieństwa kosinusowego między bieżącym zadaniem a oryginalnym promptem) wychwytuje degradację, zanim spowoduje awarie.¹⁵

Awarie zewnętrzne (2%). Rate limity, błędy sieciowe, zmiany API. Standardowa logika ponawiania i circuit breakery obsługują je. To nie są tryby awarii agentów. To tryby awarii infrastruktury, które akurat dotyczą agentów.

Te 6% ma znaczenie, ale nie wymaga specjalistycznego wykrywania. Standardowe praktyki inżynieryjne obsługują wszystkie trzy. Siedem nazwanych trybów to miejsce, gdzie inwestycja w infrastrukturę wykrywania się zwraca.

Kluczowe wnioski

Dla indywidualnych programistów. Poznaj siedem nazw: Shortcut Spiral, Confidence Mirage, Good-Enough Plateau, Tunnel Vision, Phantom Verification, Deferred Debt, Hollow Report. Nazwanie wzorca to pierwszy krok do jego wykrycia. Gdy agent mówi „powinno działać” zamiast wkleić wyjście testów, patrzysz na Phantom Verification.

Dla liderów zespołów. Obserwuj łańcuchowanie. Confidence Mirage prowadzi do Phantom Verification, która prowadzi do Deferred Debt. Jeden pominięty krok weryfikacji produkuje trzy kolejne awarie. Warstwa wykrywania wychwytuje pierwszy tryb w łańcuchu, zanim drugi i trzeci się zmaterializują.

Dla inżynierów platformowych. Zbuduj siedmiohookową warstwę wykrywania: Stop Gate, Evidence Gate, Debt Scanner, Integration Checker, Hedging Detector, Test Runner i Diff Auditor. Narzut to około 200 ms na wywołanie narzędzia dla synchronicznych hooków plus jedno uruchomienie zestawu testów na ukończenie historii. Koszt jest asymetryczny w porównaniu z niewykrytymi awariami w autonomicznych nocnych uruchomieniach.

Zasada podstawowa. Model nie jest zawodny. System, który wdraża go bez infrastruktury weryfikacyjnej, jest zawodny. Wątek HN obwiniał modele. Taksonomia obwinia brak hooków.

Artykuły towarzyszące opisują infrastrukturę szczegółowo: Claude Code jako infrastruktura wyjaśnia architekturę, The 10% Wall wyjaśnia, dlaczego infrastruktura ma większe znaczenie niż możliwości modelu, The Fabrication Firewall wyjaśnia weryfikację wyjścia, a Jiro Quality Philosophy wyjaśnia system jakości, który koduje te tryby awarii jako egzekwowalne ograniczenia.

Wątek HN Ask, „What breaks when you let AI agents run unsupervised?”, luty 2026. https://news.ycombinator.com/item?id=47112543 ↩↩
METR, „Recent Frontier Models Are Reward Hacking”, czerwiec 2025. Analiza modeli frontierowych na rozszerzonych zadaniach RE-Bench wykazała systematyczny reward hacking: manipulowanie timerami, modyfikowanie asercji testowych, granie na metrykach. https://metr.org/blog/2025-06-05-recent-reward-hacking/ ↩↩↩↩
Perry, N. et al., „Do Users Write More Insecure Code with AI Assistants?”, Stanford University, 2023. Uczestnicy wspomagani przez AI pisali niebezpieczne rozwiązania częściej w 4 z 5 zadań; w zadaniu dotyczącym SQL injection 36% grupy AI napisało podatny kod wobec 7% grupy kontrolnej. Uczestnicy korzystający z AI wierzyli, że ich kod jest bezpieczniejszy. https://arxiv.org/abs/2211.03622 ↩↩
Faros AI (dostawca analityki DevOps), „The AI Productivity Paradox”, 2025. Analiza telemetrii inżynieryjnej ponad 10 000 programistów: 154% większe PR-y, 91% dłuższe przeglądy kodu, 9% wzrost wskaźnika błędów skorelowany z adopcją AI. https://www.faros.ai/ai-productivity-paradox ↩
Dashboard wyników SWE-bench Pro, 2025-2026. Najlepsze autonomiczne agenty rozwiązują 44-46% rzeczywistych problemów repozytoriów, a rozkład błędów skupia się wokół awarii weryfikacji i integracji. https://www.swebench.com/ ↩
DORA, „Accelerate State of DevOps Report 2024”, Google Cloud, 2024. Ankieta 39 000 profesjonalistów. Każde 25% wzrostu adopcji AI korelowało z 1,5% spadkiem przepustowości i 7,2% spadkiem stabilności dostarczania. https://dora.dev/research/2024/dora-report/ ↩
DORA, „Accelerate State of DevOps Report 2025”, Google Cloud, 2025. Relacja AI-przepustowość stała się pozytywna, ale stabilność pozostała negatywna. Organizacje z silnymi praktykami inżynieryjnymi wchłaniały AI bez degradacji. https://dora.dev/research/2025/dora-report/ ↩
Anthropic, „Claude Code Hooks Documentation”, 2025-2026. Hooki uruchamiają się na zdarzeniach PreToolUse, PostToolUse, UserPromptSubmit, Stop i 13 innych zdarzeniach cyklu życia. Każdy otrzymuje kontekst JSON na stdin. https://docs.anthropic.com/en/docs/claude-code/hooks ↩↩
Crosley, B., „Why My AI Agent Has a Quality Philosophy”, blakecrosley.com, luty 2026. Dokumentuje 7-krokową pętlę jakości i 6-kryterialny evidence gate. https://blakecrosley.com/blog/jiro-quality-philosophy ↩
Uplevel (platforma produktywności deweloperskiej), „Can Generative AI Improve Developer Productivity?”, 2024. Badanie 800 programistów w 3 firmach: brak mierzalnej poprawy w czasie cyklu PR ani przepustowości; 41% więcej błędów w kodzie wspomaganym przez Copilota. https://uplevelteam.com/blog/ai-for-developer-productivity ↩
GitClear, „AI Coding Assistant Code Quality in 2025”, GitClear, 2025. Analiza 211 milionów linii kodu. Projekty wspomagane AI wykazują podwyższony churn kodu (kod napisany i przepisany w ciągu dwóch tygodni). https://www.gitclear.com/ai_assistant_code_quality_2025_research ↩
Apiiro, „AI Coding Assistants: Velocity vs. Vulnerabilities”, Apiiro, 2025. Analiza wykazała 322% więcej ścieżek eskalacji uprawnień w kodzie generowanym przez AI w porównaniu z kodem pisanym przez ludzi. https://apiiro.com/blog/4x-velocity-10x-vulnerabilities-ai-coding-assistants-are-shipping-more-risks/ ↩
Qodo, „State of AI Code Quality”, Qodo, 2025. Narzędzia AI zmniejszają przepaść junior-senior w prostych metrykach, ale wprowadzają subtelniejsze problemy architektoniczne w kodzie doświadczonych programistów. https://www.qodo.ai/reports/state-of-ai-code-quality/ ↩
Anthropic, „Building Effective Agents”, Anthropic Research, 2024. Zaleca rozpoczęcie od pojedynczych wywołań LLM, traktowanie definicji narzędzi jako dokumentacji i budowanie weryfikacji jako struktury. https://www.anthropic.com/research/building-effective-agents ↩
Crosley, B., „Claude Code as Infrastructure”, blakecrosley.com, luty 2026. Dokumentuje detektor dryfu sesji wykorzystujący mierzenie podobieństwa kosinusowego. https://blakecrosley.com/blog/claude-code-as-infrastructure ↩