10%의 벽: AI 생산성이 정체되는 이유와 이를 돌파하는 방법
DX는 450개 기업에 소속된 121,000명의 개발자를 대상으로 설문 조사를 실시했습니다. 92.6%가 월 1회 이상 AI 코딩 어시스턴트를 사용합니다. AI가 작성한 코드는 현재 프로덕션 병합의 26.9%를 차지합니다. 개발자들은 주당 약 4시간을 절약한다고 보고합니다.1 생산성은 10%를 넘기지 못했습니다.
이 수치는 3분기 연속 변하지 않았습니다.1 2 도입률은 올랐습니다. 코드 생산량도 올랐습니다. 도구도 개선되었습니다. 하지만 성과는 그대로였습니다. DX의 CTO인 Laura Tacho는 이를 직설적으로 표현했습니다: “이것은 본질적으로 관리의 문제입니다. 과대 광고 때문에 AI를 사용하기만 하면 자동으로 성과가 따라올 것처럼 들렸죠.”3
2025 DORA 보고서는 이 분기점을 발견했습니다. 탄탄한 엔지니어링 관행을 갖춘 조직에서는 AI가 기존 강점을 증폭시켰습니다. 취약한 관행을 가진 조직에서는 AI가 기존 기능 장애를 증폭시켰습니다. 같은 도구, 반대의 결과. 보고서는 다음과 같이 결론지었습니다: “소프트웨어 개발에서 AI의 주된 역할은 증폭기입니다. 고성과 조직의 강점과 어려움을 겪는 조직의 기능 장애를 모두 확대합니다.”4
벽은 모델의 문제가 아닙니다. 인프라의 문제입니다. 더 나은 모델로는 검증 부재, 컨텍스트 부재, 거버넌스 부재로 쌓인 벽을 돌파할 수 없습니다. 이 글의 연관 포스트들은 해당 아키텍처를 설명합니다: Anatomy of a Claw는 오케스트레이션 레이어를, The Fabrication Firewall는 출력 게이트를, Context Is Architecture는 컨텍스트 주입 시스템을 설명합니다. 이 글은 왜 그런 시스템이 필요한지를 설명합니다.
요약
121,000명의 개발자 설문 조사. 92.6% 도입률. 생산성은 10%에서 정체. 이 벽이 존재하는 이유는 AI가 조직이 검증하고, 컨텍스트를 부여하고, 거버넌스를 적용할 수 있는 속도보다 더 빠르게 코드를 생성하기 때문입니다. 세 가지 근본 원인: 컨텍스트 결핍(프로젝트별 지식 없이 AI가 환각을 일으킴), 검증 공백(코드가 리뷰 프로세스의 적응보다 빠르게 배포됨), 거버넌스 격차(AI가 인간이 적용하던 품질 기준을 우회함). 돌파에 필요한 것은 더 나은 AI가 아니라 AI를 둘러싼 인프라입니다. 근거: 검증 및 거버넌스 인프라를 구축한 조직은 장애를 절반으로 줄였고, 인프라 없이 AI를 도입한 조직은 장애가 두 배로 늘었습니다.4 5 이것은 그 인프라를 구축하려는 N=1 시도이며, 구체적인 수치와 함께 문서화되었습니다. 일반화 가능성을 증명할 수는 없습니다. 하지만 벽 너머가 어떤 모습인지는 보여줄 수 있습니다.
설문 조사가 말하는 것
DX 데이터셋은 2025년 11월부터 2026년 2월까지 관측된 420만 명의 개발자를 포괄하며, 450개 기업에 걸친 121,000명의 개발자로 구성된 상세 패널을 포함합니다.1 이 수치는 두 가지 이야기를 들려줍니다.
도입 현황은 명확합니다. AI 코딩 어시스턴트는 거의 보편적인 보급률에 도달했습니다. DX는 92.6%의 월간 도입률과 약 75%의 주간 사용률을 측정했습니다.1 Stack Overflow의 2025년 설문 조사에서는 84%의 개발자가 AI 도구를 사용하거나 사용할 계획이라고 응답했습니다.6 JetBrains는 194개국 24,534명의 개발자를 대상으로 85%의 정기적 사용률을 측정했습니다.7 도입률의 상한선은 가까워지고 있습니다.
생산성 이야기는 정체되었습니다. DX는 주당 평균 4시간 절약을 측정했으며, 이는 전 분기의 3.6시간과 변화가 없습니다.1 2 AI가 작성한 코드는 병합 코드의 22%에서 26.9%로 증가했지만, 추가된 코드량이 추가 산출물로 전환되지는 않았습니다.1 2 Laura Tacho는 계산을 명확히 했습니다: 개발자는 업무 시간의 약 20%를 코드 작성에 사용합니다. 하루 업무의 20%에서 10% 개선은 전체적으로 2% 개선에 불과합니다. “타이핑 속도는 결코 병목이 아니었습니다.”8
| 지표 | 변화 | 출처 |
|---|---|---|
| AI 도입률 | 76%에서 92.6%로 | DX 2025년 4분기에서 2026년 1분기1 2 |
| AI 작성 코드 | 22%에서 26.9%로 | DX 2025년 4분기에서 2026년 1분기1 2 |
| 주당 절약 시간 | 3.6시간에서 약 4시간으로 | DX 2025년 4분기에서 2026년 1분기1 2 |
| 생산성 향상 | 약 10% (변화 없음) | DX 2026년 1분기1 |
| AI 정확도 신뢰도 | 40%에서 29%로 | Stack Overflow 2024년에서 2025년6 |
| 배포 안정성 | AI 도입 25%당 -7.2% | DORA 20245 |
가장 중요한 행은 마지막 행입니다. DORA의 2024년 보고서는 39,000명의 전문가를 대상으로 조사했으며, AI 도입률이 25% 증가할 때마다 배포 처리량이 약 1.5% 감소하고 배포 안정성이 7.2% 감소한다는 것을 발견했습니다.5 2025년 DORA 보고서에서는 처리량이 회복되었지만(부정적 관계가 긍정적으로 전환) 안정성은 여전히 부정적이었습니다.4 처리량이 개선되었음에도 불구하고 AI 도입은 여전히 불안정성 증가와 상관관계가 있었습니다.
편차는 평균보다 더 중요합니다. METR은 246개의 실제 리포지토리 이슈를 작업하는 16명의 숙련된 오픈소스 개발자를 연구했으며, AI 도구를 사용했을 때 사용하지 않았을 때보다 19% 더 오래 걸렸다는 것을 발견했습니다.9 Google의 96명의 엔지니어를 대상으로 한 무작위 대조 시험에서는 21%의 속도 향상을 발견했지만, 통계적으로 유의하지 않았습니다(95% 신뢰구간이 0을 포함).10 McKinsey는 단순 작업에서 35-50%의 향상을 발견했지만, 고복잡도 작업에서는 10% 미만이었습니다.11 패턴: AI는 결코 병목이 아니었던 개발 부분을 가속화합니다.
벽을 돌파한 기업들은 더 나은 모델을 사용한 것이 아닙니다. 모델이 놓치는 것을 잡아내는 인프라를 구축했습니다.
벽이 존재하는 이유
세 가지 근본 원인이 정체를 설명합니다. 각각은 독립적으로 작용합니다. 함께 작용하면 더 나은 모델로도 뚫을 수 없는 천장을 형성합니다.
컨텍스트 결핍
AI 코딩 어시스턴트는 현재 파일에 보이는 코드와 프롬프트 창에 들어가는 컨텍스트만으로 작동합니다. 누군가 그 정보를 주입하지 않는 한, 여러분의 아키텍처 결정, API 계약, 배포 제약 조건, 팀의 네이밍 컨벤션을 알지 못합니다.
프로젝트별 컨텍스트 없이 모델은 추측합니다. 그럴듯한 관례를 따르지만 실제로는 존재하지 않는 파일 경로를 만들어냅니다. 일반적인 패턴에는 맞지만 여러분의 패턴에는 맞지 않는 API 호출을 생성합니다. 프로젝트에서 사용하지 않는 패키지의 임포트를 제안합니다.12
Faros AI는 1,255개 팀에 걸친 10,000명의 개발자로부터 텔레메트리를 분석했으며, AI 지원 풀 리퀘스트가 비지원 풀 리퀘스트보다 154% 더 크다는 것을 발견했습니다.12 더 큰 PR은 컨텍스트 의존적 오류에 대한 더 넓은 표면적을 가집니다. AI는 자신 있게 코드를 생성합니다. 코드는 컴파일됩니다. 하지만 AI가 보지 못한 Confluence 페이지에 문서화된 제약 조건은 반영하지 못합니다.
이것은 모델 안전성 의미의 환각 문제가 아닙니다. 모델은 설계된 대로 정확히 작동합니다: 이용 가능한 컨텍스트를 기반으로 가능성 높은 코드를 예측하는 것입니다. 문제는 이용 가능한 컨텍스트가 특정 코드베이스에서 정확성에 중요한 대부분의 정보를 배제한다는 것입니다.
검증 공백
AI는 기존 리뷰 프로세스가 소화할 수 있는 것보다 더 빠르게 코드를 생성합니다. Faros에 따르면 AI 지원 PR은 리뷰에 91% 더 오래 걸립니다.12 개발자는 21% 더 많은 작업을 완료하고 98% 더 많은 풀 리퀘스트를 병합하지만, 리뷰 파이프라인은 인간 속도의 산출물을 처리하도록 설계되어 있습니다.12
Stanford의 보안 취약 코드 연구는 보안 측면을 정량화했습니다. 연구자들은 47명의 개발자에게 AI 지원 여부에 따라 코딩 과제를 부여했습니다. AI 지원 그룹은 5개 과제 중 4개에서 더 자주 보안 취약한 솔루션을 작성했습니다. SQL 인젝션 과제에서는 AI 그룹의 36%가 취약한 코드를 작성한 반면, 대조군은 7%에 불과했습니다. AI를 지원받은 참가자들은 실제로는 보안이 취약한 코드를 작성했음에도 자신이 보안에 안전한 코드를 작성했다고 더 많이 믿었습니다.13 더 빠른 산출물과 더 높은 거짓 확신의 조합은 수동 리뷰로는 규모에 맞게 메울 수 없는 검증 격차를 만듭니다.
GitClear는 1억 5,300만 줄의 변경된 코드를 분석했으며, 코드 이탈(작성 후 2주 이내에 다시 작성되는 코드)이 AI 이전 기준선 대비 2024년에 두 배로 증가할 것으로 예측했습니다.14 AI 도구에 의한 코드량 증가는 생산성 향상을 부분적으로 상쇄하는 재작업을 만들어냅니다. Stack Overflow의 2025년 설문 조사도 이 마찰을 확인합니다: 66%의 개발자가 “거의 맞는” AI 생성 코드를 수정하는 데 더 많은 시간을 쓴다고 보고합니다.6
거버넌스 격차
AI가 생성한 코드는 인간 개발자가 내면화한 거버넌스 메커니즘을 우회합니다. 시니어 개발자는 스타일 가이드를 확인하고, 린터를 실행하고, 변경 로그를 업데이트하고, 아키텍처 변경 사항에 대해 팀 리드에게 알려야 한다는 것을 알고 있습니다. AI 어시스턴트는 프롬프트를 충족하는 솔루션을 생성합니다. “컴파일되고 테스트를 통과하는 것”과 “조직의 기준을 충족하는 것” 사이의 격차가 거버넌스입니다.
McKinsey의 2023년 연구에서는 AI를 사용하는 주니어 개발자가 더 빨라지는 것이 아니라 오히려 7-10% 느려졌다는 것을 발견했습니다.11 연구자들은 이를 생성된 코드와 조직적 컨텍스트 사이의 격차 때문이라고 분석했습니다. 주니어 개발자는 아직 내면화하지 못한 기준에 AI 출력이 부합하는지 평가할 판단력이 부족합니다. 그 기준을 자동화된 검사로 코드화하는 거버넌스 인프라 없이는 AI 출력이 검증 없이 다운스트림으로 흘러갑니다.
거버넌스 격차는 팀 전체에 걸쳐 복합적으로 작용합니다. 한 개발자의 AI 생성 유틸리티가 다른 개발자의 기존 모듈과 중복됩니다. 두 개의 AI 생성 엔드포인트가 같은 API에 대해 서로 다른 오류 형식을 사용합니다. AI가 작성한 마이그레이션이 팀 표준과 다른 네이밍 컨벤션을 따릅니다. 각각의 위반은 사소합니다. 누적 효과는 리뷰가 교정할 수 있는 속도보다 빠르게 자체 관례에서 벗어나는 코드베이스입니다.
벽 너머의 모습
DORA의 발견은 동일한 도구를 사용하는 두 집단을 설명합니다. 한 쪽은 장애를 절반으로 줄였습니다. 다른 쪽은 두 배로 늘렸습니다.4 이들 사이의 변수는 어떤 AI를 사용하느냐가 아닙니다. AI를 둘러싼 인프라입니다.
각 근본 원인은 인프라 해결책에 매핑됩니다. 아래 표는 문제에서 해결책까지의 흐름을 매핑하며, 제가 구축하고 연관 포스트에 문서화한 시스템의 구체적인 구현 하나를 포함합니다. 이것은 구체적인 수치를 가진 하나의 시도이지, 보편적인 처방이 아닙니다.
| 근본 원인 | 무엇이 망가지는가 | 인프라 해결책 | 구현 |
|---|---|---|---|
| 컨텍스트 결핍 | 환각된 경로, 잘못된 API, 누락된 제약 조건 | 프롬프트 시점의 컨텍스트 주입 | 모든 프롬프트에 9개의 훅이 날짜, 브랜치, 프로젝트 문서, 아키텍처 컨텍스트를 주입15 (상세 아키텍처) |
| 검증 공백 | 리뷰가 잡아낼 수 있는 것보다 빠르게 버그가 배포됨 | 독립적 테스트 실행, 자동화된 리뷰 | Ralph 자율 루프: 테스트 러너가 모든 변경을 검증한 후 3개의 독립 리뷰 에이전트(정확성, 보안, 컨벤션)가 병합 전 평가15 (전체 시스템) |
| 거버넌스 격차 | 기준 우회, 컨벤션 표류 | 증거 요구 사항이 있는 자동화된 품질 게이트 | Evidence Gate: 필수 증거가 있는 6개 기준, 7개의 명명된 실패 모드, 회피 표현 감지15 (품질 철학) |
컨텍스트 주입은 모든 프롬프트에서 모델이 프로젝트별 정보를 받도록 하여 결핍을 해결합니다. 디스패처 훅이 현재 날짜, Git 브랜치, 작업 디렉토리, 프로젝트 컨벤션, 활성 태스크 컨텍스트, 아키텍처 제약 조건을 주입하는 9개의 순차적 핸들러를 실행합니다. 모델은 사용자의 요청을 처리하기 전에 200-400개의 토큰으로 구성된 기반 컨텍스트를 받습니다. 측정된 지연 시간: 9개 훅 전체에 대해 총 200ms. 모델은 실제 경로를 알려주었기 때문에 파일 경로를 추측하지 않습니다.15
독립적 검증은 일상적인 검사에서 인간을 검증 병목에서 제거하여 공백을 해결합니다. 자율 개발 루프(Anatomy of a Claw에 문서화)는 코드를 생성하고, 전체 테스트 스위트를 실행하며, 결과를 독립적으로 운영되는 3개의 리뷰 에이전트에 제출합니다. 구현 에이전트는 자신의 출력을 리뷰하지 않습니다. 이는 Stanford 연구에서 AI 지원 그룹이 보안 취약 코드에 대해 더 높은 확신을 보인 결과를 반영합니다: 작성자가 인간이든 인공지능이든 자기 검증은 신뢰할 수 없습니다.13
자동화된 거버넌스는 팀 기준을 실행 가능한 검사로 코드화하여 격차를 해결합니다. The Fabrication Firewall는 모든 아웃바운드 액션을 로컬, 공유, 외부로 분류하며, 외부 게시는 인간 리뷰로 지연합니다. 품질 게이트는 테스트 출력과 파일 경로를 인용하는 대신 회피 표현(“작동할 것입니다”, “올바른 것 같습니다”)을 사용하는 완료 보고서를 차단합니다. 시스템은 인간 개발자가 모든 줄을 리뷰할 시간이 있다면 적용했을 기준을 강제합니다. AI 생성 속도에서는 그 시간이 없습니다.
결합된 시스템은 자체 코드베이스에서 측정 가능한 결과를 만들어냅니다: 시맨틱 검색을 위해 인덱싱된 4,518개의 코드 청크, 15,800개 파일에 걸친 49,746개의 볼트 청크로 구성된 영구 메모리, 그리고 변경 사항이 완료를 보고하기 전에 자동으로 실행되는 테스트 스위트.15 이 수치는 한 개발자의 인프라를 설명합니다. 이 접근 방식이 일반화 가능하다는 것을 증명할 수는 없습니다. 하지만 올바른 도구가 있을 때 벽이 투과 가능하다는 것은 보여줄 수 있습니다.
거버넌스 비율
Anatomy of a Claw에서 설명한 훅 시스템은 84개의 훅을 포함합니다. 검증된 수치로 기능별로 분류하면: 무언가가 수행되어야 하는지 판단하는 35개의 판단 훅과, 사전 결정된 작업을 실행하는 44개의 자동화 훅입니다. 비율은 4:5입니다. 시작은 1:6이었습니다.15
시작 비율은 대부분의 팀이 먼저 구축하는 것을 반영합니다: 자동화. 컨텍스트를 주입합니다. 지표를 기록합니다. 출력을 포맷합니다. 사용량을 로깅합니다. 이런 훅들은 모든 사람이 얻는 10%를 포착합니다. AI 이전에 이미 부분적으로 자동화되어 있던 개발의 기계적 부분을 자동화합니다. DX의 데이터가 이를 확인합니다: 주당 4시간의 절약은 코드 생성과 보일러플레이트 감소에서 비롯되며, 이는 이미 개발 주기에서 가장 빠른 부분이었던 작업들입니다.1
판단 훅으로의 전환은 추가적인 성과가 어디에서 오는지를 반영합니다.
| 투자 | 포착하는 것 | 단계 |
|---|---|---|
| 자동화 훅 (주입, 로깅, 포맷) | 처음 10% | 도입 기준선 |
| 판단 훅 (검증, 게이트, 리뷰) | 다음 10-30% | 돌파 |
| 조직적 통합 (워크플로, 피드백 루프) | 복리적 성과 | 지속적 개선 |
McKinsey의 2025년 약 300개 기업 설문 조사에서는 최고 성과 조직이 16-30%의 생산성 향상과 31-45%의 품질 향상을 보였다는 것을 발견했습니다.16 이러한 조직은 80-100%의 개발자 도입률과 조직적 통합을 결합했습니다. 차별화 요인은 도입률(전반적으로 10% 향상과 상관)이 아니라 그 도입을 둘러싸고 구축된 인프라와 프로세스였습니다.
Laura Tacho의 프레이밍이 여기에 적용됩니다: “저는 근본적인 제약 조건을 해결하지 않으면서 성과를 개선하겠다는 기술의 약속에 회의적입니다.”3 근본적인 제약 조건은 판단 제약 조건입니다. 이 코드가 우리 기준에 부합하는가? 이 변경이 다운스트림에서 무언가를 깨뜨리는가? 이 출력에 허위 정보가 포함되어 있는가? 자동화 훅은 이런 질문에 답할 수 없습니다. 판단 훅은 경험 많은 개발자가 머릿속으로 적용하는 기준을 코드화함으로써, 불완전하지만, 답할 수 있습니다.
비율은 아직 동등에 도달하지 않았습니다. 시스템은 여전히 거버넌스보다 자동화에 더 많이 치우쳐 있습니다. 이것 자체가 진단입니다: 자동화 훅이 판단 훅보다 많은 오케스트레이션 레이어는 개선의 여지가 있습니다.
실제로 구축해야 할 것
연관 포스트에서 설명하는 시스템은 84개의 훅, 43개의 스킬, 19개의 에이전트, 15,000줄의 인프라를 가지고 있습니다. 15,000줄이 필요하지 않습니다. 세 가지가 필요합니다.
컨텍스트 주입 훅 하나. 모든 AI 프롬프트에 현재 날짜, 브랜치, 작업 디렉토리를 주입하는 5줄의 bash 스크립트. 이것은 환각의 전체 범주를 제거합니다: 모델이 실제 파일 경로와 브랜치 이름을 가지고 있기 때문에 더 이상 만들어내지 않습니다.
#!/bin/bash
# inject-context.sh — minimum viable context injection
echo "Date: $(date +%Y-%m-%d)"
echo "Branch: $(git branch --show-current 2>/dev/null || echo 'not a git repo')"
echo "Directory: $(pwd)"
품질 게이트 하나. 완료 보고서에서 회피 표현을 검색하는 15줄의 스크립트. 에이전트가 테스트 출력을 인용하는 대신 “작동할 것입니다”라고 말하면, 게이트가 차단합니다. 이것은 가장 저렴한 진입점에서 검증 공백을 해결합니다.15
#!/bin/bash
# quality-gate.sh — minimum viable verification
INPUT=$(cat)
HEDGES=$(echo "$INPUT" | grep -ciE '\bshould (work|pass|be fine)\b|\bprobably\b|\blooks correct\b')
if [ "$HEDGES" -gt 0 ]; then
echo '{"decision":"block","reason":"Hedging language detected. Cite test output instead."}'
else
echo '{"decision":"allow"}'
fi
독립 테스트 러너 하나. 모든 코드 변경 후 프로젝트의 테스트 스위트를 실행하고 테스트가 깨지면 명확하게 실패하는 훅. 구현은 프로젝트마다 다릅니다. 원칙은 같습니다: 코드를 작성하는 에이전트가 그 코드의 유일한 판단자가 되어서는 안 됩니다.
여러분의 워크플로에서 가장 많이 깨지는 것부터 시작하세요. AI가 파일 경로를 환각한다면, 컨텍스트 훅을 먼저 구축하세요. AI가 테스트되지 않은 코드를 배포한다면, 테스트 러너를 먼저 구축하세요. AI가 증거 없이 “완료”라고 쓴다면, 품질 게이트를 먼저 구축하세요.
Karpathy는 바이브 코딩에서 에이전틱 엔지니어링으로의 진화를 다음과 같이 설명했습니다: “[작업을 수행하는] 에이전트를 오케스트레이션하고 감독자 역할을 하는 것.”17 위의 세 가지 훅은 최소한의 실행 가능한 감독입니다. 30%의 성과를 만들어내지는 않을 것입니다. 하지만 10%에서 15%로 이동시킬 것이며, 추가하는 각 훅이 다음으로 해결할 가치가 있는 제약 조건을 드러내줄 것입니다.
벽은 현실입니다. 하지만 구체적이기도 합니다. 컨텍스트 결핍, 검증 공백, 거버넌스 격차는 엔지니어링적 해결책이 있는 엔지니어링 문제입니다. 모델은 계속 개선될 것입니다. 하지만 AI를 산출물을 거버닝하는 인프라가 필요한 시스템이 아닌, 단순한 코드 생성기로 취급하는 모든 팀에게 벽은 10%에 머물 것입니다.
출처
-
Ivan Brezak Brkan, “This CTO Says 93% of Developers Use AI – but Productivity Is Still ~10%,” ShiftMag, February 18, 2026, shiftmag.dev. Data from DX, based on 121,000+ developers across 450+ companies and a broader pool of 4.2 million developers observed November 2025 to February 2026. ↩↩↩↩↩↩↩↩↩↩↩
-
Laura Tacho, “AI-Assisted Engineering: Q4 Impact Report,” DX, November 4, 2025, getdx.com. Data from 135,000+ developers across 435 companies, July to October 2025. ↩↩↩↩↩↩
-
Laura Tacho, quoted in Brkan, “This CTO Says 93% of Developers Use AI.” Full quote: “This is really a management problem. The hype made it sound like just trying AI would automatically pay off.” ↩↩
-
DORA, Accelerate State of AI-assisted Software Development 2025, Google, September 29, 2025, dora.dev. Nearly 5,000 technology professionals surveyed. Key finding: “AI’s primary role in software development is that of an amplifier.” ↩↩↩↩
-
DORA, Accelerate State of DevOps Report 2024, Google, October 2024, dora.dev. 39,000+ professionals surveyed. For every 25% increase in AI adoption: estimated 1.5% decrease in delivery throughput, 7.2% decrease in delivery stability. ↩↩↩
-
Stack Overflow, 2025 Developer Survey, July 29, 2025, survey.stackoverflow.co. 49,000+ developers from 177 countries. AI trust at historic low: 29% (down from 40%). 46% actively distrust AI accuracy. 66% report spending more time fixing “almost-right” AI-generated code. ↩↩↩
-
JetBrains, State of Developer Ecosystem 2025, October 2025, blog.jetbrains.com. 24,534 developers across 194 countries. 85% regular AI tool usage; 23% cite code quality as top concern. ↩
-
Laura Tacho, interviewed by Gergely Orosz, “Measuring the Impact of AI on Software Engineering,” Pragmatic Engineer, July 23, 2025, newsletter.pragmaticengineer.com. “Typing speed has never been the bottleneck.” ↩
-
Joel Becker, Nate Rush, Elizabeth Barnes, and David Rein, “Measuring the Impact of Early-2025 AI on Experienced Open-Source Developer Productivity,” METR, July 10, 2025, metr.org. 16 experienced developers, 246 real repository issues. Developers took 19% longer with AI tools. ↩
-
Elise Paradis et al., “How Much Does AI Impact Development Speed? An Enterprise-Based Randomized Controlled Trial,” arXiv preprint, October 16, 2024, arxiv.org. 96 Google engineers. ~21% speed improvement, not statistically significant (95% CI: [-0.51, 0.03]). ↩
-
Begum Karaci Deniz et al., “Unleashing Developer Productivity with Generative AI,” McKinsey, June 27, 2023, mckinsey.com. 40 McKinsey developers. Gains of 35-50% on simple tasks; less than 10% on high-complexity tasks. Junior developers 7-10% slower. ↩↩
-
Neely Dunlap, “The AI Productivity Paradox Research Report,” Faros AI, July 23, 2025 (updated January 8, 2026), faros.ai. 10,000+ developers across 1,255 teams. AI-assisted PRs: 9% more bugs, 91% longer reviews, 154% larger. Developers complete 21% more tasks and merge 98% more PRs. ↩↩↩↩
-
Neil Perry, Megha Srivastava, Deepak Kumar, and Dan Boneh, “Do Users Write More Insecure Code with AI Assistants?” in CCS ‘23: Proceedings of the 2023 ACM SIGSAC Conference, November 2023, arxiv.org. 47 participants. AI-assisted group wrote insecure solutions more often in 4 of 5 tasks. SQL injection vulnerability: 36% AI group vs. 7% control. ↩↩
-
William Harding and Matthew Kloster, “Coding on Copilot: 2023 Data Suggests Downward Pressure on Code Quality,” GitClear, January 2024, gitclear.com. 153 million changed lines of code analyzed. Code churn projected to double in 2024 compared to 2021 pre-AI baseline. ↩
-
Author’s analysis. Hook system described in “Anatomy of a Claw: 84 Hooks as an Orchestration Layer.” Output firewall described in “The Fabrication Firewall.” Context injection described in “Context Is Architecture.” Quality system described in “Jiro Quality Philosophy.” Verified counts: 84 hooks (35 judgment, 44 automation), 43 skills, 19 agents, 30+ library modules, ~15,000 lines of code. Semantic code search: 4,518 chunks indexed across 653 files. Persistent memory: 49,746 chunks across 15,800 files. ↩↩↩↩↩↩↩
-
McKinsey, “Unlocking the Value of AI in Software Development,” November 3, 2025, mckinsey.com. Nearly 300 publicly traded companies. Highest performers: 16-30% productivity, 31-45% quality improvement. Companies with 80-100% developer adoption saw gains of 110%+. ↩
-
Andrej Karpathy, post on X, February 4, 2026. “Many people have tried to come up with a better name…my current favourite: ‘agentic engineering.’ ‘Agentic’ because the new default is that you are not writing the code directly 99% of the time, you are orchestrating agents who do and acting as oversight.” ↩