← Alle Beitrage

Die 10%-Mauer: Warum KI-Produktivität stagniert und was sie durchbricht

From the guide: Claude Code Comprehensive Guide

DX befragte 121.000 Entwickler in 450 Unternehmen. 92,6 % nutzen KI-gestützte Programmierassistenten mindestens monatlich. KI-generierter Code macht mittlerweile 26,9 % der in Produktion zusammengeführten Änderungen aus. Entwickler berichten, dass sie etwa vier Stunden pro Woche einsparen.1 Die Produktivität hat sich nicht über 10 % hinaus bewegt.

Diese Zahl ist seit drei aufeinanderfolgenden Quartalen konstant geblieben.1 2 Die Akzeptanz stieg. Das Codevolumen stieg. Die Tools verbesserten sich. Die Produktivitätsgewinne nicht. Laura Tacho, CTO bei DX, formulierte es direkt: „Das ist wirklich ein Managementproblem. Der Hype ließ es so klingen, als würde das bloße Ausprobieren von KI automatisch Ergebnisse bringen.”3

Der DORA-Report 2025 deckte die Divergenz auf. Organisationen mit starken Engineering-Praktiken sahen, wie KI ihre bestehenden Stärken verstärkte. Organisationen mit schwachen Praktiken sahen, wie KI ihre bestehenden Dysfunktionen verstärkte. Dieselben Tools. Gegenteilige Ergebnisse. Der Report kam zu dem Schluss: „Die primäre Rolle von KI in der Softwareentwicklung ist die eines Verstärkers. Sie vergrößert die Stärken leistungsstarker Organisationen und die Dysfunktionen schwächelnder.”4

Die Mauer ist kein Modellproblem. Sie ist ein Infrastrukturproblem. Bessere Modelle werden keine Mauer durchbrechen, die aus fehlender Verifikation, fehlendem Kontext und fehlender Governance besteht. Die Begleitartikel zu diesem Beitrag beschreiben die Architektur: Anatomy of a Claw erklärt die Orchestrierungsschicht, The Fabrication Firewall erklärt das Ausgabe-Gate und Context Is Architecture erklärt das Kontextinjektionssystem. Dieser Beitrag erklärt, warum diese Systeme existieren.

Zusammenfassung

121.000 befragte Entwickler. 92,6 % Akzeptanz. Produktivität stagniert bei 10 %. Die Mauer existiert, weil KI Code schneller generiert, als Organisationen ihn verifizieren, kontextualisieren oder steuern können. Drei Grundursachen: Kontexthunger (die KI halluziniert ohne projektspezifisches Wissen), Verifikationsvakuum (Code wird schneller ausgeliefert, als sich Reviewprozesse anpassen) und Governance-Lücke (KI umgeht Qualitätsstandards, die Menschen durchsetzen). Der Durchbruch erfordert Infrastruktur rund um die KI, nicht bessere KI. Die Evidenz: Organisationen, die Verifikations- und Governance-Infrastruktur aufbauten, halbierten ihre Vorfälle; Organisationen, die KI ohne Infrastruktur einführten, verdoppelten sie.4 5 Dies ist ein N=1-Versuch, diese Infrastruktur aufzubauen, dokumentiert mit konkreten Zahlen. Er kann keine Verallgemeinerbarkeit beweisen. Er kann zeigen, wie die andere Seite der Mauer aussieht.


Was die Umfrage zeigt

Der DX-Datensatz umfasst 4,2 Millionen Entwickler, die zwischen November 2025 und Februar 2026 beobachtet wurden, mit einem detaillierten Panel von 121.000 Entwicklern in 450 Unternehmen.1 Die Zahlen erzählen zwei Geschichten.

Die Akzeptanzgeschichte ist eindeutig. KI-gestützte Programmierassistenten erreichten nahezu flächendeckende Verbreitung. DX maß 92,6 % monatliche Nutzung und ungefähr 75 % wöchentliche Nutzung.1 Die Stack-Overflow-Umfrage 2025 ergab, dass 84 % der Entwickler KI-Tools nutzen oder planen, sie zu nutzen.6 JetBrains maß 85 % regelmäßige Nutzung unter 24.534 Entwicklern in 194 Ländern.7 Die Akzeptanzobergrenze ist fast erreicht.

Die Produktivitätsgeschichte stagniert. DX maß durchschnittlich vier eingesparte Stunden pro Woche, unverändert gegenüber den 3,6 Stunden des Vorquartals.1 2 KI-generierter Code stieg von 22 % auf 26,9 % des zusammengeführten Codes, doch das zusätzliche Volumen ließ sich nicht in zusätzlichen Output übersetzen.1 2 Laura Tacho identifizierte die Rechnung: Entwickler verbringen ungefähr 20 % ihrer Zeit mit dem Schreiben von Code. Eine 10%ige Verbesserung auf 20 % des Arbeitstages ergibt insgesamt eine 2%ige Verbesserung. „Tippgeschwindigkeit war nie der Engpass.”8

Metrik Entwicklung Quelle
KI-Akzeptanz 76 % auf 92,6 % DX Q4 2025 bis Q1 20261 2
KI-generierter Code 22 % auf 26,9 % DX Q4 2025 bis Q1 20261 2
Eingesparte Stunden pro Woche 3,6 auf ~4 DX Q4 2025 bis Q1 20261 2
Produktivitätsgewinn ~10 % (unverändert) DX Q1 20261
Vertrauen in KI-Genauigkeit 40 % auf 29 % Stack Overflow 2024 bis 20256
Lieferstabilität -7,2 % pro 25 % KI-Akzeptanz DORA 20245

Die kritische Zeile ist die letzte. Der DORA-Report 2024 befragte 39.000 Fachleute und stellte fest, dass mit jedem 25%igen Anstieg der KI-Akzeptanz der Lieferdurchsatz um geschätzte 1,5 % und die Lieferstabilität um 7,2 % sank.5 Der DORA-Report 2025 ergab, dass sich der Durchsatz erholte (die Korrelation kippte von negativ zu positiv), die Stabilität jedoch weiterhin negativ blieb.4 KI-Akzeptanz korrelierte weiterhin mit erhöhter Instabilität, selbst als sich der Durchsatz verbesserte.

Die Divergenz ist wichtiger als die Durchschnittswerte. METR untersuchte 16 erfahrene Open-Source-Entwickler, die an 246 realen Repository-Issues arbeiteten, und stellte fest, dass sie mit KI-Tools 19 % länger brauchten als ohne.9 Googles randomisierte kontrollierte Studie mit 96 Ingenieuren ergab eine Geschwindigkeitsverbesserung von 21 %, doch das Ergebnis war nicht statistisch signifikant (95 % KI: Konfidenzintervall überschritt die Null).10 McKinsey fand Verbesserungen von 35–50 % bei einfachen Aufgaben, aber weniger als 10 % bei hochkomplexen Aufgaben.11 Das Muster: KI beschleunigt die Teile der Entwicklung, die nie der Engpass waren.

Die Unternehmen, die die Mauer durchbrachen, nutzten keine besseren Modelle. Sie bauten Infrastruktur auf, die auffing, was die Modelle übersahen.


Warum die Mauer existiert

Drei Grundursachen erklären das Plateau. Jede wirkt unabhängig. Zusammen bilden sie eine Decke, die bessere Modelle nicht durchdringen können.

Kontexthunger

KI-gestützte Programmierassistenten operieren auf dem Code, der in der aktuellen Datei sichtbar ist, und dem Kontext, der in das Promptfenster passt. Sie kennen weder Ihre Architekturentscheidungen, noch Ihre API-Verträge, Ihre Deployment-Einschränkungen oder die Namenskonventionen Ihres Teams – es sei denn, jemand injiziert diese Informationen.

Ohne projektspezifischen Kontext rät das Modell. Es halluziniert Dateipfade, die plausiblen Konventionen folgen, aber nicht existieren. Es generiert API-Aufrufe an Endpunkte, die gängigen Mustern entsprechen, aber nicht Ihren Mustern. Es schlägt Imports aus Paketen vor, die Ihr Projekt nicht verwendet.12

Faros AI analysierte Telemetriedaten von 10.000 Entwicklern in 1.255 Teams und stellte fest, dass KI-unterstützte Pull Requests 154 % größer sind als nicht unterstützte.12 Größere PRs bieten mehr Angriffsfläche für kontextabhängige Fehler. Die KI generiert Code mit Überzeugung. Der Code kompiliert. Der Code berücksichtigt nicht die Einschränkung, die auf einer Confluence-Seite dokumentiert ist, die die KI nie gesehen hat.

Dies ist kein Halluzinationsproblem im Sinne der Modellsicherheit. Das Modell funktioniert genau wie vorgesehen: Es sagt wahrscheinlichen Code anhand des verfügbaren Kontexts vorher. Das Problem ist, dass der verfügbare Kontext das meiste ausschließt, was für Korrektheit in einer spezifischen Codebasis relevant ist.

Verifikationsvakuum

KI generiert Code schneller, als bestehende Reviewprozesse ihn aufnehmen können. Faros stellte fest, dass KI-unterstützte PRs 91 % länger für das Review brauchen.12 Entwickler erledigen 21 % mehr Aufgaben und mergen 98 % mehr Pull Requests, aber die Review-Pipeline ist auf menschliche Geschwindigkeit ausgelegt.12

Die Stanford-Studie zu unsicherem Code quantifizierte die Sicherheitsdimension. Forscher gaben 47 Entwicklern Programmieraufgaben mit und ohne KI-Unterstützung. Die KI-unterstützte Gruppe schrieb in vier von fünf Aufgaben häufiger unsichere Lösungen. Bei der SQL-Injection-Aufgabe schrieben 36 % der KI-Gruppe verwundbaren Code gegenüber 7 % der Kontrollgruppe. Teilnehmer mit KI-Unterstützung waren eher davon überzeugt, sicheren Code geschrieben zu haben, selbst wenn dies nicht der Fall war.13 Die Kombination aus schnellerem Output und höherer falscher Zuversicht erzeugt eine Verifikationslücke, die manuelles Review im großen Maßstab nicht schließen kann.

GitClear analysierte 153 Millionen geänderte Codezeilen und stellte fest, dass Code-Churn (Code, der innerhalb von zwei Wochen nach dem Schreiben umgeschrieben wird) sich 2024 im Vergleich zu den Vor-KI-Basiswerten voraussichtlich verdoppeln würde.14 Der Volumenzuwachs durch KI-Tools erzeugt Nacharbeit, die die Produktivitätsgewinne teilweise aufhebt. Die Stack-Overflow-Umfrage 2025 bestätigt die Reibung: 66 % der Entwickler berichten, dass sie mehr Zeit damit verbringen, „fast richtigen” KI-generierten Code zu korrigieren.6

Governance-Lücke

KI-generierter Code umgeht die Governance-Mechanismen, die menschliche Entwickler verinnerlicht haben. Ein erfahrener Entwickler weiß, dass er den Style Guide prüfen, den Linter ausführen, das Changelog aktualisieren und den Teamleiter über Architekturänderungen informieren muss. Ein KI-Assistent generiert eine Lösung, die den Prompt erfüllt. Die Lücke zwischen „kompiliert und besteht Tests” und „erfüllt organisatorische Standards” ist Governance.

McKinseys Studie von 2023 ergab, dass Junior-Entwickler mit KI 7–10 % langsamer waren, nicht schneller.11 Die Forscher führten dies auf die Lücke zwischen generiertem Code und organisatorischem Kontext zurück. Junior-Entwicklern fehlt das Urteilsvermögen, um zu bewerten, ob KI-Output Standards entspricht, die sie noch nicht verinnerlicht haben. Ohne Governance-Infrastruktur, die diese Standards als automatisierte Prüfungen kodifiziert, fließt KI-Output unkontrolliert weiter.

Die Governance-Lücke potenziert sich über Teams hinweg. Das KI-generierte Utility eines Entwicklers dupliziert das bestehende Modul eines anderen. Zwei KI-generierte Endpunkte verwenden unterschiedliche Fehlerformate für dieselbe API. KI-verfasste Migrationen folgen einer anderen Namenskonvention als der Teamstandard. Jeder einzelne Verstoß ist klein. Der kumulative Effekt ist eine Codebasis, die schneller von ihren eigenen Konventionen abdriftet, als Reviews korrigieren können.


Wie die andere Seite aussieht

Das DORA-Ergebnis beschreibt zwei Populationen, die identische Tools verwenden. Die eine halbierte ihre Vorfälle. Die andere verdoppelte sie.4 Die Variable zwischen ihnen ist nicht, welche KI sie verwenden. Es ist die Infrastruktur rund um die KI.

Jede Grundursache entspricht einer Infrastrukturlösung. Die folgende Tabelle zeigt die Kette von Problem zu Lösung, mit einer konkreten Implementierung aus einem System, das ich erstellt und in den Begleitartikeln dokumentiert habe. Dies ist ein Versuch mit konkreten Zahlen, keine universelle Empfehlung.

Grundursache Was bricht Infrastrukturlösung Implementierung
Kontexthunger Halluzinierte Pfade, falsche APIs, fehlende Einschränkungen Kontextinjektion zum Promptzeitpunkt 9 Hooks bei jedem Prompt injizieren Datum, Branch, Projektdokumentation und architektonischen Kontext15 (detaillierte Architektur)
Verifikationsvakuum Bugs werden schneller ausgeliefert, als Reviews sie finden Unabhängige Testausführung, automatisiertes Review Ralph-Autonomieschleife: Test Runner verifiziert jede Änderung, dann bewerten 3 unabhängige Review-Agenten (Korrektheit, Sicherheit, Konventionen) vor dem Merge15 (vollständiges System)
Governance-Lücke Standards werden umgangen, Konventionen driften Automatisierte Quality Gates mit Evidenzanforderungen Evidence Gate: 6 Kriterien mit erforderlichem Nachweis, 7 benannte Fehlermodi, Erkennung von Abschwächungssprache15 (Qualitätsphilosophie)

Kontextinjektion adressiert den Kontexthunger, indem sichergestellt wird, dass das Modell bei jedem Prompt projektspezifische Informationen erhält. Ein Dispatcher-Hook feuert neun sequenzielle Handler, die das aktuelle Datum, den Git-Branch, das Arbeitsverzeichnis, Projektkonventionen, den aktiven Aufgabenkontext und architektonische Einschränkungen injizieren. Das Modell erhält 200–400 Token an Grundierungskontext, bevor es die Anfrage des Benutzers verarbeitet. Gemessene Latenz: 200 ms insgesamt für alle neun Hooks. Das Modell hört auf, Dateipfade zu erfinden, weil ihm die tatsächlichen Pfade mitgeteilt wurden.15

Unabhängige Verifikation adressiert das Vakuum, indem Menschen aus dem Verifikationsengpass bei Routineprüfungen entfernt werden. Die autonome Entwicklungsschleife (dokumentiert in Anatomy of a Claw) generiert Code, führt die vollständige Testsuite aus und übergibt die Ergebnisse an drei Review-Agenten, die unabhängig arbeiten. Der Implementierungsagent überprüft nie seinen eigenen Output. Dies spiegelt das Ergebnis wider, dass die KI-unterstützte Gruppe in der Stanford-Studie bei unsicherem Code zuversichtlicher war: Selbstverifikation ist unzuverlässig, egal ob der Autor Mensch oder künstlich ist.13

Automatisierte Governance adressiert die Lücke, indem Teamstandards als ausführbare Prüfungen kodifiziert werden. Die Fabrication Firewall klassifiziert jede ausgehende Aktion als lokal, geteilt oder extern und delegiert externe Veröffentlichungen an menschliches Review. Quality Gates blockieren Abschlussberichte, die Abschwächungssprache verwenden („sollte funktionieren”, „sieht korrekt aus”) anstatt Testausgaben und Dateipfade zu zitieren. Das System setzt Standards durch, die menschliche Entwickler anwenden würden, wenn sie die Zeit hätten, jede Zeile zu überprüfen. Bei KI-Generierungsgeschwindigkeit haben sie das nicht.

Das kombinierte System liefert messbare Ergebnisse für seine eigene Codebasis: 4.518 Code-Chunks indiziert für semantische Suche, 49.746 Vault-Chunks über 15.800 Dateien für persistenten Speicher und eine Testsuite, die automatisch vor jedem Abschluss einer Änderung läuft.15 Diese Zahlen beschreiben die Infrastruktur eines einzelnen Entwicklers. Sie können nicht beweisen, dass der Ansatz verallgemeinerbar ist. Sie können demonstrieren, dass die Mauer mit den richtigen Werkzeugen auf der anderen Seite durchlässig ist.


Das Governance-Verhältnis

Das in Anatomy of a Claw beschriebene Hook-System enthält 84 Hooks. Eine verifizierte Zählung trennt sie nach Funktion: 35 Urteilshooks, die entscheiden, ob etwas geschehen soll, und 44 Automatisierungshooks, die vorbestimmte Aktionen ausführen. Das Verhältnis beträgt 4:5. Es begann bei 1:6.15

Das Ausgangsverhältnis spiegelt wider, was die meisten Teams zuerst bauen: Automatisierung. Kontext injizieren. Metriken erfassen. Output formatieren. Nutzung protokollieren. Diese Hooks erfassen die 10 %, die jeder bekommt. Sie automatisieren die mechanischen Teile der Entwicklung, die schon vor der KI teilweise automatisiert waren. Die DX-Daten bestätigen dies: Die vier eingesparten Stunden pro Woche stammen aus Codegenerierung und Boilerplate-Reduktion – Aufgaben, die bereits der schnellste Teil des Entwicklungszyklus waren.1

Die Verschiebung hin zu Urteilshooks spiegelt wider, woher zusätzliche Gewinne kommen.

Investition Was sie erfasst Phase
Automatisierungshooks (injizieren, protokollieren, formatieren) Die ersten 10 % Akzeptanz-Baseline
Urteilshooks (verifizieren, sperren, reviewen) Die nächsten 10–30 % Durchbruch
Organisatorische Integration (Workflows, Feedback-Schleifen) Die kumulativen Gewinne Nachhaltige Verbesserung

McKinseys Umfrage von 2025 unter knapp 300 Unternehmen ergab, dass die leistungsstärksten Unternehmen Produktivitätsverbesserungen von 16–30 % und Qualitätsverbesserungen von 31–45 % verzeichneten.16 Diese Organisationen hatten eine Entwickler-Akzeptanz von 80–100 % in Kombination mit organisatorischer Integration. Der unterscheidende Faktor war nicht die Akzeptanzrate (die branchenübergreifend mit 10 % Gewinn korreliert), sondern die Infrastruktur und Prozesse, die um diese Akzeptanz herum aufgebaut wurden.

Laura Tachos Einordnung trifft auch hier zu: „Ich bin skeptisch gegenüber dem Versprechen jeder Technologie, die Leistung zu verbessern, ohne diese zugrunde liegenden Einschränkungen zu adressieren.”3 Die zugrunde liegenden Einschränkungen sind Urteilseinschränkungen. Entspricht dieser Code unseren Standards? Bricht diese Änderung etwas Nachgelagertes? Enthält dieser Output eine Erfindung? Automatisierungshooks können diese Fragen nicht beantworten. Urteilshooks können es – unvollkommen –, indem sie die Kriterien kodifizieren, die erfahrene Entwickler mental anwenden.

Das Verhältnis hat noch keine Parität erreicht. Das System automatisiert immer noch mehr, als es steuert. Das ist selbst eine Diagnose: Jede Orchestrierungsschicht, in der Automatisierungshooks Urteilshooks überzählig sind, hat Verbesserungspotenzial.


Was Sie tatsächlich bauen müssen

Das in den Begleitartikeln beschriebene System hat 84 Hooks, 43 Skills, 19 Agenten und 15.000 Zeilen Infrastruktur. Sie brauchen keine 15.000 Zeilen. Sie brauchen drei Dinge.

Einen Kontextinjektionshook. Fünf Zeilen Bash, die das aktuelle Datum, den Branch und das Arbeitsverzeichnis in jeden KI-Prompt injizieren. Das eliminiert eine ganze Kategorie von Halluzinationen: Das Modell hört auf, Dateipfade und Branchnamen zu erfinden, weil es echte hat.

#!/bin/bash
# inject-context.sh — minimum viable context injection
echo "Date: $(date +%Y-%m-%d)"
echo "Branch: $(git branch --show-current 2>/dev/null || echo 'not a git repo')"
echo "Directory: $(pwd)"

Ein Quality Gate. Fünfzehn Zeilen, die Abschlussberichte auf Abschwächungssprache durchsuchen. Wenn der Agent „sollte funktionieren” sagt, anstatt Testausgaben zu zitieren, blockiert das Gate. Das adressiert das Verifikationsvakuum am günstigsten Einstiegspunkt.15

#!/bin/bash
# quality-gate.sh — minimum viable verification
INPUT=$(cat)
HEDGES=$(echo "$INPUT" | grep -ciE '\bshould (work|pass|be fine)\b|\bprobably\b|\blooks correct\b')
if [ "$HEDGES" -gt 0 ]; then
  echo '{"decision":"block","reason":"Hedging language detected. Cite test output instead."}'
else
  echo '{"decision":"allow"}'
fi

Einen unabhängigen Test Runner. Ein Hook, der die Testsuite des Projekts nach jeder Codeänderung ausführt und laut fehlschlägt, wenn Tests brechen. Die Implementierung variiert je nach Projekt. Das Prinzip nicht: Der Agent, der Code schreibt, darf nicht der einzige Richter über diesen Code sein.

Beginnen Sie mit dem, was in Ihrem Workflow am häufigsten schiefgeht. Wenn Ihre KI Dateipfade halluziniert, bauen Sie zuerst den Kontexthook. Wenn Ihre KI ungetesteten Code ausliefert, bauen Sie zuerst den Test Runner. Wenn Ihre KI „fertig” schreibt, ohne Nachweise zu liefern, bauen Sie zuerst das Quality Gate.

Karpathy beschrieb die Entwicklung vom Vibe Coding zum Agentic Engineering: „Agenten orchestrieren, die [die Arbeit] erledigen, und als Aufsicht fungieren.”17 Die drei oben genannten Hooks sind die minimal tragfähige Aufsicht. Sie werden keine 30 % Verbesserung bringen. Sie werden Sie von 10 % in Richtung 15 % bewegen, und jeder weitere, den Sie hinzufügen, offenbart die nächste Einschränkung, die es zu adressieren lohnt.

Die Mauer ist real. Sie ist auch spezifisch. Kontexthunger, Verifikationsvakuum und Governance-Lücke sind Ingenieurprobleme mit Ingenieurlösungen. Die Modelle werden sich weiter verbessern. Die Mauer wird bei 10 % bleiben für jedes Team, das KI als Codegenerator behandelt statt als System, das Infrastruktur braucht, um seinen Output zu steuern.


Quellen


  1. Ivan Brezak Brkan, “This CTO Says 93% of Developers Use AI – but Productivity Is Still ~10%,” ShiftMag, February 18, 2026, shiftmag.dev. Data from DX, based on 121,000+ developers across 450+ companies and a broader pool of 4.2 million developers observed November 2025 to February 2026. 

  2. Laura Tacho, “AI-Assisted Engineering: Q4 Impact Report,” DX, November 4, 2025, getdx.com. Data from 135,000+ developers across 435 companies, July to October 2025. 

  3. Laura Tacho, quoted in Brkan, “This CTO Says 93% of Developers Use AI.” Full quote: “This is really a management problem. The hype made it sound like just trying AI would automatically pay off.” 

  4. DORA, Accelerate State of AI-assisted Software Development 2025, Google, September 29, 2025, dora.dev. Nearly 5,000 technology professionals surveyed. Key finding: “AI’s primary role in software development is that of an amplifier.” 

  5. DORA, Accelerate State of DevOps Report 2024, Google, October 2024, dora.dev. 39,000+ professionals surveyed. For every 25% increase in AI adoption: estimated 1.5% decrease in delivery throughput, 7.2% decrease in delivery stability. 

  6. Stack Overflow, 2025 Developer Survey, July 29, 2025, survey.stackoverflow.co. 49,000+ developers from 177 countries. AI trust at historic low: 29% (down from 40%). 46% actively distrust AI accuracy. 66% report spending more time fixing “almost-right” AI-generated code. 

  7. JetBrains, State of Developer Ecosystem 2025, October 2025, blog.jetbrains.com. 24,534 developers across 194 countries. 85% regular AI tool usage; 23% cite code quality as top concern. 

  8. Laura Tacho, interviewed by Gergely Orosz, “Measuring the Impact of AI on Software Engineering,” Pragmatic Engineer, July 23, 2025, newsletter.pragmaticengineer.com. “Typing speed has never been the bottleneck.” 

  9. Joel Becker, Nate Rush, Elizabeth Barnes, and David Rein, “Measuring the Impact of Early-2025 AI on Experienced Open-Source Developer Productivity,” METR, July 10, 2025, metr.org. 16 experienced developers, 246 real repository issues. Developers took 19% longer with AI tools. 

  10. Elise Paradis et al., “How Much Does AI Impact Development Speed? An Enterprise-Based Randomized Controlled Trial,” arXiv preprint, October 16, 2024, arxiv.org. 96 Google engineers. ~21% speed improvement, not statistically significant (95% CI: [-0.51, 0.03]). 

  11. Begum Karaci Deniz et al., “Unleashing Developer Productivity with Generative AI,” McKinsey, June 27, 2023, mckinsey.com. 40 McKinsey developers. Gains of 35-50% on simple tasks; less than 10% on high-complexity tasks. Junior developers 7-10% slower. 

  12. Neely Dunlap, “The AI Productivity Paradox Research Report,” Faros AI, July 23, 2025 (updated January 8, 2026), faros.ai. 10,000+ developers across 1,255 teams. AI-assisted PRs: 9% more bugs, 91% longer reviews, 154% larger. Developers complete 21% more tasks and merge 98% more PRs. 

  13. Neil Perry, Megha Srivastava, Deepak Kumar, and Dan Boneh, “Do Users Write More Insecure Code with AI Assistants?” in CCS ‘23: Proceedings of the 2023 ACM SIGSAC Conference, November 2023, arxiv.org. 47 participants. AI-assisted group wrote insecure solutions more often in 4 of 5 tasks. SQL injection vulnerability: 36% AI group vs. 7% control. 

  14. William Harding and Matthew Kloster, “Coding on Copilot: 2023 Data Suggests Downward Pressure on Code Quality,” GitClear, January 2024, gitclear.com. 153 million changed lines of code analyzed. Code churn projected to double in 2024 compared to 2021 pre-AI baseline. 

  15. Author’s analysis. Hook system described in “Anatomy of a Claw: 84 Hooks as an Orchestration Layer.” Output firewall described in “The Fabrication Firewall.” Context injection described in “Context Is Architecture.” Quality system described in “Jiro Quality Philosophy.” Verified counts: 84 hooks (35 judgment, 44 automation), 43 skills, 19 agents, 30+ library modules, ~15,000 lines of code. Semantic code search: 4,518 chunks indexed across 653 files. Persistent memory: 49,746 chunks across 15,800 files. 

  16. McKinsey, “Unlocking the Value of AI in Software Development,” November 3, 2025, mckinsey.com. Nearly 300 publicly traded companies. Highest performers: 16-30% productivity, 31-45% quality improvement. Companies with 80-100% developer adoption saw gains of 110%+. 

  17. Andrej Karpathy, post on X, February 4, 2026. “Many people have tried to come up with a better name…my current favourite: ‘agentic engineering.’ ‘Agentic’ because the new default is that you are not writing the code directly 99% of the time, you are orchestrating agents who do and acting as oversight.” 

Verwandte Beiträge

Anthropic Measured What Works. My Hooks Enforce It.

Anthropic analyzed 9,830 conversations. Iterative refinement doubles fluency markers. Polished outputs suppress evaluati…

13 Min. Lesezeit

What Actually Breaks When You Run AI Agents Unsupervised

7 named failure modes from 500+ agent sessions. Each has a detection signal, a real output example, and a concrete fix. …

13 Min. Lesezeit

Context Window Management: What 50 Sessions Taught Me About AI Development

I measured token consumption across 50 Claude Code sessions. Context exhaustion degrades output before you notice. Here …

6 Min. Lesezeit