← Wszystkie wpisy

Mur 10%: dlaczego produktywność AI osiąga plateau i co pozwala go przebić

From the guide: Claude Code Comprehensive Guide

DX przebadało 121 000 programistów w 450 firmach. 92,6% korzysta z asystentów kodowania AI co najmniej raz w miesiącu. Kod generowany przez AI stanowi obecnie 26,9% produkcyjnych merge’ów. Programiści deklarują oszczędność około czterech godzin tygodniowo.1 Produktywność nie przekroczyła 10%.

Ta liczba utrzymuje się na stałym poziomie od trzech kolejnych kwartałów.1 2 Adopcja rosła. Wolumen kodu rósł. Narzędzia się doskonaliły. Zyski — nie. Laura Tacho, CTO w DX, ujęła to wprost: „To tak naprawdę problem zarządzania. Szum medialny sprawił, że brzmiało to tak, jakby samo wypróbowanie AI miało automatycznie się opłacić.”3

Raport DORA 2025 ujawnił rozbieżność. Organizacje z silnymi praktykami inżynieryjnymi doświadczyły wzmocnienia istniejących atutów przez AI. Organizacje ze słabymi praktykami doświadczyły wzmocnienia istniejących dysfunkcji. Te same narzędzia. Przeciwne wyniki. Raport konkludował: „Podstawową rolą AI w tworzeniu oprogramowania jest rola wzmacniacza. Potęguje mocne strony organizacji o wysokiej wydajności i dysfunkcje organizacji borykających się z problemami.”4

Mur nie jest problemem modelu. Jest problemem infrastruktury. Lepsze modele nie przebiją muru zbudowanego z braku weryfikacji, braku kontekstu i braku nadzoru. Towarzyszące wpisy opisują architekturę: Anatomy of a Claw wyjaśnia warstwę orkiestracji, The Fabrication Firewall wyjaśnia bramkę wyjściową, a Context Is Architecture wyjaśnia system wstrzykiwania kontekstu. Ten wpis wyjaśnia, dlaczego te systemy istnieją.

Podsumowanie

121 000 przebadanych programistów. 92,6% adopcji. Produktywność utknęła na 10%. Mur istnieje, ponieważ AI generuje kod szybciej, niż organizacje są w stanie go zweryfikować, skontekstualizować lub objąć nadzorem. Trzy przyczyny źródłowe: głód kontekstu (AI halucynuje bez wiedzy specyficznej dla projektu), próżnia weryfikacji (kod trafia do produkcji szybciej, niż adaptują się procesy przeglądu) oraz luka w nadzorze (AI omija standardy jakości, które egzekwują ludzie). Przebicie wymaga infrastruktury wokół AI, a nie lepszego AI. Dowody: organizacje, które zbudowały infrastrukturę weryfikacji i nadzoru, zmniejszyły liczbę incydentów o połowę; organizacje, które wdrożyły AI bez infrastruktury, podwoiły ich liczbę.4 5 To próba N=1 budowy takiej infrastruktury, udokumentowana konkretnymi liczbami. Nie może dowieść uniwersalności. Może pokazać, jak wygląda druga strona muru.


Co mówią badania

Zbiór danych DX obejmuje 4,2 miliona programistów obserwowanych od listopada 2025 do lutego 2026, z szczegółowym panelem 121 000 programistów z 450 firm.1 Liczby opowiadają dwie historie.

Historia adopcji jest jednoznaczna. Asystenci kodowania AI osiągnęli niemal powszechną penetrację. DX zmierzyło 92,6% miesięcznej adopcji i około 75% tygodniowego użycia.1 Ankieta Stack Overflow z 2025 roku wykazała, że 84% programistów używa lub planuje używać narzędzi AI.6 JetBrains zmierzył 85% regularnego użycia wśród 24 534 programistów w 194 krajach.7 Pułap adopcji jest bliski.

Historia produktywności utknęła w martwym punkcie. DX zmierzyło średnio cztery godziny oszczędności tygodniowo, bez zmian w porównaniu z 3,6 godziny w poprzednim kwartale.1 2 Kod generowany przez AI wzrósł z 22% do 26,9% scalonego kodu, ale dodatkowy wolumen nie przełożył się na dodatkową wydajność.1 2 Laura Tacho wskazała na matematykę: programiści poświęcają około 20% czasu na pisanie kodu. 10% poprawy na 20% dnia pracy to 2% poprawy ogólnej. „Szybkość pisania nigdy nie była wąskim gardłem.”8

Wskaźnik Zmiana Źródło
Adopcja AI 76% do 92,6% DX Q4 2025 do Q1 20261 2
Kod generowany przez AI 22% do 26,9% DX Q4 2025 do Q1 20261 2
Godziny zaoszczędzone tygodniowo 3,6 do ~4 DX Q4 2025 do Q1 20261 2
Wzrost produktywności ~10% (bez zmian) DX Q1 20261
Zaufanie do dokładności AI 40% do 29% Stack Overflow 2024 do 20256
Stabilność dostarczania -7,2% na każde 25% adopcji AI DORA 20245

Kluczowy jest ostatni wiersz. Raport DORA z 2024 roku objął 39 000 profesjonalistów i wykazał, że na każde 25% wzrostu adopcji AI przepustowość dostarczania spadała o szacowane 1,5%, a stabilność dostarczania o 7,2%.5 Raport DORA z 2025 roku stwierdził, że przepustowość się poprawiła (zależność zmieniła się z negatywnej na pozytywną), ale stabilność pozostała ujemna.4 Adopcja AI nadal korelowała ze zwiększoną niestabilnością, nawet gdy przepustowość się poprawiła.

Rozbieżność ma większe znaczenie niż średnie. METR zbadał 16 doświadczonych programistów open-source pracujących nad 246 rzeczywistymi problemami w repozytoriach i stwierdził, że z narzędziami AI potrzebowali o 19% więcej czasu niż bez nich.9 Randomizowane badanie kontrolowane Google obejmujące 96 inżynierów wykazało 21% przyspieszenie, ale wynik nie był istotny statystycznie (95% CI przecinał zero).10 McKinsey stwierdził zyski rzędu 35-50% przy prostych zadaniach, ale poniżej 10% przy zadaniach o wysokiej złożoności.11 Wzorzec: AI przyspiesza te elementy programowania, które nigdy nie były wąskim gardłem.

Firmy, które przebiły mur, nie używały lepszych modeli. Zbudowały infrastrukturę, która wyłapywała to, czego modele nie były w stanie wykryć.


Dlaczego mur istnieje

Trzy przyczyny źródłowe wyjaśniają plateau. Każda działa niezależnie. Razem tworzą sufit, którego lepsze modele nie mogą przebić.

Głód kontekstu

Asystenci kodowania AI operują na kodzie widocznym w bieżącym pliku i kontekście, który mieści się w oknie promptu. Nie znają decyzji architektonicznych, kontraktów API, ograniczeń wdrożeniowych ani konwencji nazewnictwa zespołu — chyba że ktoś wstrzyknie te informacje.

Bez kontekstu specyficznego dla projektu model zgaduje. Halucynuje ścieżki plików, które podążają za wiarygodnymi konwencjami, ale nie istnieją. Generuje wywołania API do endpointów, które pasują do typowych wzorców, ale nie do wzorców danego projektu. Sugeruje importy z pakietów, których projekt nie używa.12

Faros AI przeanalizowało telemetrię od 10 000 programistów w 1 255 zespołach i stwierdziło, że pull requesty wspomagane AI są o 154% większe niż te bez wspomagania.12 Większe PR-y niosą większą powierzchnię błędów zależnych od kontekstu. AI generuje kod pewnie. Kod się kompiluje. Kod nie uwzględnia ograniczenia udokumentowanego na stronie Confluence, której AI nigdy nie widział.

To nie jest problem halucynacji w sensie bezpieczeństwa modeli. Model działa dokładnie tak, jak został zaprojektowany: przewiduje prawdopodobny kod na podstawie dostępnego kontekstu. Problem polega na tym, że dostępny kontekst wyklucza większość tego, co ma znaczenie dla poprawności w konkretnej bazie kodu.

Próżnia weryfikacji

AI generuje kod szybciej, niż istniejące procesy przeglądu mogą go wchłonąć. Faros stwierdził, że PR-y wspomagane AI wymagają o 91% więcej czasu na review.12 Programiści realizują o 21% więcej zadań i scalają o 98% więcej pull requestów, ale pipeline przeglądu obsługuje tempo ludzkie.12

Badanie Stanforda dotyczące niebezpiecznego kodu określiło ilościowo wymiar bezpieczeństwa. Badacze dali 47 programistom zadania kodowania z asystentem AI i bez niego. Grupa wspomagana AI częściej pisała niebezpieczne rozwiązania w czterech z pięciu zadań. W zadaniu dotyczącym SQL injection 36% grupy AI napisało podatny kod w porównaniu z 7% grupy kontrolnej. Uczestnicy korzystający z AI częściej wierzyli, że napisali bezpieczny kod, nawet gdy tak nie było.13 Połączenie szybszego generowania i wyższej fałszywej pewności tworzy lukę weryfikacyjną, której ręczny przegląd nie może zamknąć na dużą skalę.

GitClear przeanalizował 153 miliony zmienionych linii kodu i stwierdził, że churn kodu (kod przepisywany w ciągu dwóch tygodni od napisania) miał się podwoić w 2024 roku w porównaniu z bazą sprzed ery AI.14 Wzrost wolumenu generowanego przez narzędzia AI tworzy przeróbki, które częściowo niwelują zyski produktywności. Ankieta Stack Overflow z 2025 roku potwierdza te tarcia: 66% programistów deklaruje, że spędza więcej czasu na naprawianiu „prawie poprawnego” kodu generowanego przez AI.6

Luka w nadzorze

Kod generowany przez AI omija mechanizmy nadzoru, które ludzcy programiści zinternalizowali. Doświadczony programista wie, że trzeba sprawdzić przewodnik stylu, uruchomić linter, zaktualizować changelog i powiadomić lidera zespołu o zmianach architektonicznych. Asystent AI generuje rozwiązanie spełniające prompt. Dystans między „kompiluje się i przechodzi testy” a „spełnia standardy organizacyjne” to właśnie nadzór.

Badanie McKinsey z 2023 roku wykazało, że młodsi programiści korzystający z AI byli o 7-10% wolniejsi, a nie szybsi.11 Badacze przypisali to dystansowi między generowanym kodem a kontekstem organizacyjnym. Młodsi programiści nie mają doświadczenia, by ocenić, czy wynik AI spełnia standardy, których jeszcze nie zinternalizowali. Bez infrastruktury nadzoru, która koduje te standardy jako automatyczne kontrole, wynik AI przepływa dalej bez weryfikacji.

Luka w nadzorze kumuluje się w zespołach. Wygenerowana przez AI funkcja pomocnicza jednego programisty duplikuje istniejący moduł innego. Dwa wygenerowane przez AI endpointy używają różnych formatów błędów dla tego samego API. Migracje generowane przez AI stosują inną konwencję nazewnictwa niż standard zespołu. Każde naruszenie jest niewielkie. Skumulowany efekt to baza kodu, która odchodzi od własnych konwencji szybciej, niż przegląd jest w stanie to skorygować.


Jak wygląda druga strona

Odkrycie DORA opisuje dwie populacje używające identycznych narzędzi. Jedna zmniejszyła liczbę incydentów o połowę. Druga ją podwoiła.4 Zmienną między nimi nie jest to, jakiego AI używają. Jest nią infrastruktura wokół AI.

Każda przyczyna źródłowa mapuje się na rozwiązanie infrastrukturalne. Poniższa tabela przedstawia łańcuch od problemu do rozwiązania, z jedną konkretną implementacją z systemu, który zbudowałem i udokumentowałem w towarzyszących wpisach. To jedna próba z konkretnymi liczbami, nie uniwersalna recepta.

Przyczyna źródłowa Co się psuje Rozwiązanie infrastrukturalne Implementacja
Głód kontekstu Halucynowane ścieżki, błędne API, brakujące ograniczenia Wstrzykiwanie kontekstu w momencie promptu 9 hooków na każdy prompt wstrzykuje datę, branch, dokumentację projektu i kontekst architektoniczny15 (szczegółowa architektura)
Próżnia weryfikacji Błędy trafiają do produkcji szybciej, niż review je wyłapuje Niezależne wykonywanie testów, automatyczny przegląd Autonomiczna pętla Ralph: test runner weryfikuje każdą zmianę, następnie 3 niezależne agenty przeglądu (poprawność, bezpieczeństwo, konwencje) oceniają przed scaleniem15 (pełny system)
Luka w nadzorze Standardy pomijane, konwencje dryfują Automatyczne bramki jakości z wymaganiami dowodowymi Evidence Gate: 6 kryteriów z wymaganym dowodem, 7 nazwanych trybów awarii, wykrywanie języka asekuracyjnego15 (filozofia jakości)

Wstrzykiwanie kontekstu rozwiązuje problem głodu, zapewniając, że model otrzymuje informacje specyficzne dla projektu przy każdym prompcie. Hook dysponujący uruchamia dziewięć sekwencyjnych handlerów, które wstrzykują bieżącą datę, branch git, katalog roboczy, konwencje projektu, kontekst aktywnego zadania i ograniczenia architektoniczne. Model otrzymuje 200-400 tokenów kontekstu gruntującego przed przetworzeniem zapytania użytkownika. Zmierzone opóźnienie: 200 ms łącznie dla wszystkich dziewięciu hooków. Model przestaje zgadywać ścieżki plików, ponieważ został poinformowany o rzeczywistych ścieżkach.15

Niezależna weryfikacja rozwiązuje problem próżni, usuwając ludzi z wąskiego gardła weryfikacji przy rutynowych kontrolach. Autonomiczna pętla programistyczna (udokumentowana w Anatomy of a Claw) generuje kod, uruchamia pełen zestaw testów i przekazuje wyniki trzem agentom przeglądu, którzy działają niezależnie. Agent implementujący nigdy nie ocenia własnego wyniku. To odzwierciedla odkrycie, że grupa wspomagana AI w badaniu Stanforda była bardziej pewna niebezpiecznego kodu: autoweryifikacja jest zawodna, niezależnie od tego, czy autorem jest człowiek, czy maszyna.13

Automatyczny nadzór rozwiązuje problem luki, kodując standardy zespołu jako wykonywalne kontrole. The Fabrication Firewall klasyfikuje każdą akcję wychodzącą jako lokalną, współdzieloną lub zewnętrzną, delegując publikację zewnętrzną do przeglądu ludzkiego. Bramki jakości blokują raporty ukończenia, które używają języka asekuracyjnego („powinno działać”, „wygląda poprawnie”) zamiast cytowania wyników testów i ścieżek plików. System egzekwuje standardy, które ludzcy programiści stosowaliby, gdyby mieli czas na przegląd każdej linii. Przy prędkości generowania AI — nie mają.15

Połączony system daje mierzalne wyniki w swojej własnej bazie kodu: 4 518 fragmentów kodu zaindeksowanych do wyszukiwania semantycznego, 49 746 fragmentów w vault obejmującym 15 800 plików jako pamięć trwała, oraz zestaw testów uruchamiany automatycznie przed raportowaniem ukończenia jakiejkolwiek zmiany.15 Te liczby opisują infrastrukturę jednego programisty. Nie mogą dowieść, że podejście się uogólnia. Mogą pokazać, że mur jest przenikliwy, jeśli po drugiej stronie znajdują się odpowiednie narzędzia.


Wskaźnik nadzoru

System hooków opisany w Anatomy of a Claw zawiera 84 hooki. Zweryfikowane zestawienie dzieli je według funkcji: 35 hooków oceniających, które decydują, czy coś powinno się wydarzyć, i 44 hooki automatyzujące, które wykonują z góry określone akcje. Proporcja wynosi 4:5. Na początku wynosiła 1:6.15

Początkowa proporcja odzwierciedla to, co większość zespołów buduje najpierw: automatyzację. Wstrzykiwanie kontekstu. Rejestrowanie metryk. Formatowanie wyników. Logowanie użycia. Te hooki wychwytują 10%, które każdy dostaje. Automatyzują mechaniczne aspekty programowania, które były już częściowo zautomatyzowane przed erą AI. Dane DX to potwierdzają: cztery zaoszczędzone godziny tygodniowo pochodzą z generowania kodu i redukcji powtarzalnego kodu — zadań, które były już najszybszą częścią cyklu programistycznego.1

Przesunięcie w kierunku hooków oceniających odzwierciedla źródło dodatkowych zysków.

Inwestycja Co wychwytuje Etap
Hooki automatyzujące (wstrzykiwanie, logowanie, formatowanie) Pierwsze 10% Bazowa adopcja
Hooki oceniające (weryfikacja, bramki, przegląd) Następne 10-30% Przebijanie muru
Integracja organizacyjna (przepływ pracy, pętle zwrotne) Zyski kumulatywne Trwała poprawa

Ankieta McKinsey z 2025 roku obejmująca blisko 300 firm wykazała, że najlepsi uzyskali poprawę produktywności o 16-30% i poprawę jakości o 31-45%.16 Organizacje te miały 80-100% adopcji wśród programistów w połączeniu z integracją organizacyjną. Czynnikiem wyróżniającym nie był wskaźnik adopcji (który koreluje z 10% zyskami w całej populacji), ale infrastruktura i procesy zbudowane wokół tej adopcji.

Ujęcie Laury Tacho ma tu zastosowanie: „Jestem sceptyczna wobec każdej technologii obiecującej poprawę wydajności bez zajęcia się tymi fundamentalnymi ograniczeniami.”3 Fundamentalne ograniczenia to ograniczenia oceny. Czy ten kod spełnia nasze standardy? Czy ta zmiana psuje coś dalej w procesie? Czy ten wynik zawiera fabrykację? Hooki automatyzujące nie mogą odpowiedzieć na te pytania. Hooki oceniające mogą — niedoskonale — kodując kryteria, które doświadczeni programiści stosują mentalnie.

Proporcja nie osiągnęła jeszcze parytetu. System wciąż automatyzuje więcej, niż nadzoruje. To samo w sobie jest diagnostyczne: każda warstwa orkiestracji, w której hooki automatyzujące przewyższają liczbą hooki oceniające, ma przestrzeń do poprawy.


Co tak naprawdę trzeba zbudować

System opisany w towarzyszących wpisach ma 84 hooki, 43 skille, 19 agentów i 15 000 linii infrastruktury. Nie potrzeba 15 000 linii. Potrzeba trzech rzeczy.

Jednego hooka wstrzykiwania kontekstu. Pięć linii bash, które wstrzykują bieżącą datę, branch i katalog roboczy do każdego promptu AI. To eliminuje całą kategorię halucynacji: model przestaje wymyślać ścieżki plików i nazwy branchy, ponieważ dysponuje prawdziwymi.

#!/bin/bash
# inject-context.sh — minimum viable context injection
echo "Date: $(date +%Y-%m-%d)"
echo "Branch: $(git branch --show-current 2>/dev/null || echo 'not a git repo')"
echo "Directory: $(pwd)"

Jednej bramki jakości. Piętnaście linii, które przeszukują raporty ukończenia pod kątem języka asekuracyjnego. Jeśli agent pisze „powinno działać” zamiast cytować wyniki testów, bramka blokuje. To rozwiązuje próżnię weryfikacji przy najniższym możliwym koszcie wejścia.15

#!/bin/bash
# quality-gate.sh — minimum viable verification
INPUT=$(cat)
HEDGES=$(echo "$INPUT" | grep -ciE '\bshould (work|pass|be fine)\b|\bprobably\b|\blooks correct\b')
if [ "$HEDGES" -gt 0 ]; then
  echo '{"decision":"block","reason":"Hedging language detected. Cite test output instead."}'
else
  echo '{"decision":"allow"}'
fi

Jednego niezależnego test runnera. Hooka, który uruchamia zestaw testów projektu po każdej zmianie kodu i głośno informuje o niepowodzeniu, gdy testy się psują. Implementacja różni się w zależności od projektu. Zasada nie: agent, który pisze kod, nie może być jedynym sędzią tego kodu.

Zacznij od tego, co najczęściej się psuje w przepływie pracy. Jeśli AI halucynuje ścieżki plików, zbuduj najpierw hook kontekstu. Jeśli AI wypuszcza nieprzetestowany kod, zbuduj najpierw test runner. Jeśli AI pisze „zrobione” bez dowodów, zbuduj najpierw bramkę jakości.

Karpathy opisał ewolucję od vibe coding do inżynierii agentowej: „orkiestrowanie agentów, którzy wykonują [pracę] i pełnienie roli nadzoru.”17 Trzy powyższe hooki to minimalny realny nadzór. Nie przyniosą 30% zysków. Przesuną z 10% w kierunku 15%, a każdy dodany ujawni kolejne ograniczenie warte zaadresowania.

Mur jest realny. Jest też konkretny. Głód kontekstu, próżnia weryfikacji i luka w nadzorze to problemy inżynieryjne z inżynieryjnymi rozwiązaniami. Modele będą się dalej doskonalić. Mur pozostanie na 10% dla każdego zespołu, który traktuje AI jako generator kodu zamiast systemu wymagającego infrastruktury do nadzorowania swoich wyników.


Źródła


  1. Ivan Brezak Brkan, “This CTO Says 93% of Developers Use AI – but Productivity Is Still ~10%,” ShiftMag, February 18, 2026, shiftmag.dev. Data from DX, based on 121,000+ developers across 450+ companies and a broader pool of 4.2 million developers observed November 2025 to February 2026. 

  2. Laura Tacho, “AI-Assisted Engineering: Q4 Impact Report,” DX, November 4, 2025, getdx.com. Data from 135,000+ developers across 435 companies, July to October 2025. 

  3. Laura Tacho, quoted in Brkan, “This CTO Says 93% of Developers Use AI.” Full quote: “This is really a management problem. The hype made it sound like just trying AI would automatically pay off.” 

  4. DORA, Accelerate State of AI-assisted Software Development 2025, Google, September 29, 2025, dora.dev. Nearly 5,000 technology professionals surveyed. Key finding: “AI’s primary role in software development is that of an amplifier.” 

  5. DORA, Accelerate State of DevOps Report 2024, Google, October 2024, dora.dev. 39,000+ professionals surveyed. For every 25% increase in AI adoption: estimated 1.5% decrease in delivery throughput, 7.2% decrease in delivery stability. 

  6. Stack Overflow, 2025 Developer Survey, July 29, 2025, survey.stackoverflow.co. 49,000+ developers from 177 countries. AI trust at historic low: 29% (down from 40%). 46% actively distrust AI accuracy. 66% report spending more time fixing “almost-right” AI-generated code. 

  7. JetBrains, State of Developer Ecosystem 2025, October 2025, blog.jetbrains.com. 24,534 developers across 194 countries. 85% regular AI tool usage; 23% cite code quality as top concern. 

  8. Laura Tacho, interviewed by Gergely Orosz, “Measuring the Impact of AI on Software Engineering,” Pragmatic Engineer, July 23, 2025, newsletter.pragmaticengineer.com. “Typing speed has never been the bottleneck.” 

  9. Joel Becker, Nate Rush, Elizabeth Barnes, and David Rein, “Measuring the Impact of Early-2025 AI on Experienced Open-Source Developer Productivity,” METR, July 10, 2025, metr.org. 16 experienced developers, 246 real repository issues. Developers took 19% longer with AI tools. 

  10. Elise Paradis et al., “How Much Does AI Impact Development Speed? An Enterprise-Based Randomized Controlled Trial,” arXiv preprint, October 16, 2024, arxiv.org. 96 Google engineers. ~21% speed improvement, not statistically significant (95% CI: [-0.51, 0.03]). 

  11. Begum Karaci Deniz et al., “Unleashing Developer Productivity with Generative AI,” McKinsey, June 27, 2023, mckinsey.com. 40 McKinsey developers. Gains of 35-50% on simple tasks; less than 10% on high-complexity tasks. Junior developers 7-10% slower. 

  12. Neely Dunlap, “The AI Productivity Paradox Research Report,” Faros AI, July 23, 2025 (updated January 8, 2026), faros.ai. 10,000+ developers across 1,255 teams. AI-assisted PRs: 9% more bugs, 91% longer reviews, 154% larger. Developers complete 21% more tasks and merge 98% more PRs. 

  13. Neil Perry, Megha Srivastava, Deepak Kumar, and Dan Boneh, “Do Users Write More Insecure Code with AI Assistants?” in CCS ‘23: Proceedings of the 2023 ACM SIGSAC Conference, November 2023, arxiv.org. 47 participants. AI-assisted group wrote insecure solutions more often in 4 of 5 tasks. SQL injection vulnerability: 36% AI group vs. 7% control. 

  14. William Harding and Matthew Kloster, “Coding on Copilot: 2023 Data Suggests Downward Pressure on Code Quality,” GitClear, January 2024, gitclear.com. 153 million changed lines of code analyzed. Code churn projected to double in 2024 compared to 2021 pre-AI baseline. 

  15. Author’s analysis. Hook system described in “Anatomy of a Claw: 84 Hooks as an Orchestration Layer.” Output firewall described in “The Fabrication Firewall.” Context injection described in “Context Is Architecture.” Quality system described in “Jiro Quality Philosophy.” Verified counts: 84 hooks (35 judgment, 44 automation), 43 skills, 19 agents, 30+ library modules, ~15,000 lines of code. Semantic code search: 4,518 chunks indexed across 653 files. Persistent memory: 49,746 chunks across 15,800 files. 

  16. McKinsey, “Unlocking the Value of AI in Software Development,” November 3, 2025, mckinsey.com. Nearly 300 publicly traded companies. Highest performers: 16-30% productivity, 31-45% quality improvement. Companies with 80-100% developer adoption saw gains of 110%+. 

  17. Andrej Karpathy, post on X, February 4, 2026. “Many people have tried to come up with a better name…my current favourite: ‘agentic engineering.’ ‘Agentic’ because the new default is that you are not writing the code directly 99% of the time, you are orchestrating agents who do and acting as oversight.” 

Powiązane artykuły

Anthropic Measured What Works. My Hooks Enforce It.

Anthropic analyzed 9,830 conversations. Iterative refinement doubles fluency markers. Polished outputs suppress evaluati…

13 min czytania

What Actually Breaks When You Run AI Agents Unsupervised

7 named failure modes from 500+ agent sessions. Each has a detection signal, a real output example, and a concrete fix. …

13 min czytania

Context Window Management: What 50 Sessions Taught Me About AI Development

I measured token consumption across 50 Claude Code sessions. Context exhaustion degrades output before you notice. Here …

6 min czytania