10% 벽: AI 생산성이 정체되는 이유

12분 소요

From the guide: Claude Code Comprehensive Guide

DX는 450개 기업에 걸쳐 121,000명의 개발자를 대상으로 설문조사를 실시했습니다. 92.6%가 최소 월 1회 이상 AI 코딩 어시스턴트를 사용하고 있습니다. AI가 작성한 코드는 현재 프로덕션 머지의 26.9%를 차지합니다. 개발자들은 주당 약 4시간을 절약한다고 보고합니다.¹ 그러나 생산성은 10%를 넘지 못했습니다.

이 수치는 3분기 연속 변동 없이 유지되고 있습니다.¹ ² 도입률은 올랐습니다. 코드 생산량도 올랐습니다. 도구도 개선되었습니다. 하지만 성과는 그대로였습니다. DX의 CTO Laura Tacho는 이를 직접적으로 지적했습니다: “이것은 실제로 관리의 문제입니다. 과대광고가 AI를 시도하기만 하면 자동으로 성과가 나올 것처럼 들리게 만들었죠.”³

2025 DORA 보고서는 이 분기점을 발견했습니다. 강력한 엔지니어링 프랙티스를 갖춘 조직에서는 AI가 기존의 강점을 증폭시켰습니다. 취약한 프랙티스를 가진 조직에서는 AI가 기존의 기능 장애를 증폭시켰습니다. 동일한 도구, 반대의 결과. 보고서는 다음과 같이 결론지었습니다: “소프트웨어 개발에서 AI의 주된 역할은 증폭기입니다. 고성과 조직의 강점과 어려움을 겪는 조직의 기능 장애를 모두 확대합니다.”⁴

이 벽은 모델의 문제가 아닙니다. 인프라의 문제입니다. 검증 부재, 컨텍스트 부재, 거버넌스 부재로 쌓인 벽을 더 좋은 모델로는 돌파할 수 없습니다. 이 글의 동반 포스트들은 그 아키텍처를 설명합니다: 발톱의 해부학은 오케스트레이션 레이어를, 조작 방화벽은 출력 게이트를, 컨텍스트가 곧 아키텍처다는 컨텍스트 주입 시스템을 설명합니다. 아래 글은 이러한 시스템이 왜 존재하는지를 설명합니다.

요약

121,000명의 개발자 설문조사, 92.6% 도입률, 생산성은 10%에서 정체. 세 가지 근본 원인이 이 한계를 설명합니다: 컨텍스트 결핍(AI가 프로젝트 지식 없이 추측함), 검증 공백(코드가 리뷰보다 빠르게 배포됨), 그리고 거버넌스 격차(AI가 인간이 적용하는 기준을 우회함). DORA는 AI가 주변 인프라에 따라 강점과 기능 장애를 모두 증폭시킨다는 것을 발견했습니다.⁴ 돌파구는 더 나은 AI가 아니라 AI를 둘러싼 인프라에 있습니다. 이 글은 84개의 훅, 43개의 스킬, 19개의 에이전트로 운영되는 시스템의 구체적인 수치와 함께 그 인프라를 구축한 N=1 시도를 기록합니다.

설문조사가 말하는 것

DX 데이터셋은 2025년 11월부터 2026년 2월 사이에 관측된 420만 명의 개발자를 포괄하며, 450개 기업에 걸친 121,000명의 개발자로 구성된 상세 패널을 포함합니다.¹ 이 수치는 두 가지 이야기를 들려줍니다.

도입 이야기는 명확합니다. AI 코딩 어시스턴트는 거의 보편적인 보급률에 도달했습니다. DX는 92.6%의 월간 도입률과 약 75%의 주간 사용률을 측정했습니다.¹ Stack Overflow의 2025년 설문조사에서는 84%의 개발자가 AI 도구를 사용 중이거나 사용할 계획이라고 답했습니다.⁶ JetBrains는 194개국 24,534명의 개발자 대상으로 85%의 정기 사용률을 측정했습니다.⁷ 도입률의 천장은 가까이 와 있습니다.

생산성 이야기는 정체되었습니다. DX는 주당 평균 4시간 절약을 측정했으며, 이는 직전 분기의 3.6시간에서 변화가 없는 수준입니다.¹ ² AI 작성 코드는 머지된 코드의 22%에서 26.9%로 증가했지만, 추가 코드량이 추가 성과로 이어지지는 않았습니다.¹ ² Laura Tacho는 그 계산을 지적했습니다: 개발자는 업무 시간의 약 20%를 코드 작성에 사용합니다. 업무 시간의 20%에 대한 10% 개선은 전체적으로 2% 개선에 불과합니다. “타이핑 속도가 병목이었던 적은 없습니다.”⁸

지표	변화	출처
AI 도입률 (월간)	92.6%	DX Q1 2026¹
AI 작성 코드	22%에서 26.9%로	DX Q4 2025에서 Q1 2026¹ ²
주당 절약 시간	3.6에서 ~4시간	DX Q4 2025에서 Q1 2026¹ ²
생산성 향상	~10% (변동 없음)	DX Q1 2026¹
AI 정확도 신뢰	43%에서 29%로 (복합 신뢰도)	Stack Overflow 2024에서 2025⁶
배포 안정성	AI 도입 25%당 -7.2%	DORA 2024⁵

핵심 행은 마지막 줄입니다. DORA의 2024년 보고서는 39,000명의 전문가를 대상으로 조사했으며, AI 도입이 25% 증가할 때마다 배포 처리량이 약 1.5% 감소하고 배포 안정성이 7.2% 감소하는 것을 발견했습니다.⁵ 2025년 DORA 보고서에서는 AI-처리량 관계가 2024년에 관찰된 음의 상관관계에서 양의 상관관계로 전환되었으나, 배포 안정성은 여전히 AI 도입과 부정적으로 연관되어 있음을 발견했습니다.⁴ 처리량이 개선되는 와중에도 AI 도입은 계속해서 불안정성 증가와 상관관계를 보였습니다.

평균보다 분기점이 더 중요합니다. METR은 246개의 실제 저장소 이슈에 대해 작업하는 16명의 숙련된 오픈소스 개발자를 연구했으며, AI 도구를 사용할 때 사용하지 않을 때보다 19% 더 오래 걸린다는 것을 발견했습니다.⁹ Google의 96명의 엔지니어를 대상으로 한 무작위 대조 시험에서는 21%의 속도 향상을 발견했으나, 이 결과는 통계적으로 유의하지 않았습니다(95% 신뢰구간이 영점을 넘었습니다).¹⁰

McKinsey는 단순한 작업에서 35-50%의 향상을 발견했으나 고복잡도 작업에서는 10% 미만이었으며, 자사 개발자 40명을 대상으로 한 연구에서 AI를 사용하는 주니어 개발자가 7-10% 더 느렸습니다.¹¹ 패턴은 명확합니다: AI는 결코 병목이 아니었던 개발 과정의 부분을 가속화합니다.

벽을 돌파한 기업들은 더 좋은 모델을 사용한 것이 아닙니다. 모델이 놓치는 것을 잡아내는 인프라를 구축했습니다.

벽이 존재하는 이유

세 가지 근본 원인이 정체를 설명합니다. 각각은 독립적으로 작용합니다. 함께 결합되면 더 나은 모델로는 뚫을 수 없는 한계를 형성합니다.

컨텍스트 결핍

AI 코딩 어시스턴트는 현재 파일에 보이는 코드와 프롬프트 창에 들어갈 수 있는 컨텍스트만으로 작동합니다. 누군가가 그 정보를 주입하지 않는 한, 여러분의 아키텍처 결정, API 계약, 배포 제약 조건, 팀의 명명 규칙을 알지 못합니다.

프로젝트별 컨텍스트가 없으면 모델은 추측합니다. 그럴듯한 관례를 따르지만 존재하지 않는 파일 경로를 만들어냅니다. 일반적인 패턴에는 맞지만 여러분의 패턴에는 맞지 않는 엔드포인트에 대한 API 호출을 생성합니다. 프로젝트에서 사용하지 않는 패키지의 임포트를 제안합니다.¹²

Faros AI는 1,255개 팀에 걸친 10,000명의 개발자 텔레메트리를 분석한 결과, AI 지원 풀 리퀘스트가 미지원 풀 리퀘스트보다 154% 더 크다는 것을 발견했습니다.¹² 더 큰 PR은 컨텍스트 의존적 오류에 대한 표면적이 더 넓습니다. AI는 자신감 있게 코드를 생성합니다. 코드는 컴파일됩니다. 하지만 AI가 한 번도 보지 못한 Confluence 페이지에 문서화된 제약 조건을 고려하지 않습니다.

이 동작은 모델 안전성 측면의 환각 문제가 아닙니다. 모델은 설계된 대로 정확히 수행하고 있습니다: 사용 가능한 컨텍스트에 기반하여 가능성 있는 코드를 예측하는 것입니다. 문제는 사용 가능한 컨텍스트가 특정 코드베이스에서 정확성을 위해 중요한 것의 대부분을 제외하고 있다는 점입니다.

검증 공백

AI는 기존 리뷰 프로세스가 소화할 수 있는 것보다 빠르게 코드를 생성합니다. Faros는 AI 지원 PR의 리뷰 시간이 91% 더 길다는 것을 발견했습니다.¹² 개발자는 21% 더 많은 작업을 완료하고 98% 더 많은 풀 리퀘스트를 머지하지만, 리뷰 파이프라인은 인간 속도의 출력을 처리하도록 설계되어 있습니다.¹²

Stanford의 안전하지 않은 코드 연구는 보안 차원을 정량화했습니다. 연구자들은 47명의 개발자에게 AI 보조 유무에 따른 코딩 작업을 부여했습니다. AI 보조 그룹은 5개 작업 중 4개에서 더 자주 안전하지 않은 솔루션을 작성했습니다. SQL 인젝션 작업에서 AI 그룹의 36%가 취약한 코드를 작성한 반면, 대조군에서는 7%에 불과했습니다. AI 보조를 받은 참가자들은 실제로 안전하지 않은 코드를 작성했음에도 자신이 안전한 코드를 작성했다고 더 높은 확률로 믿었습니다.¹³ 더 빠른 출력과 더 높은 거짓 확신의 조합은 수동 리뷰로는 대규모에서 메울 수 없는 검증 격차를 만들어냅니다.

GitClear는 1억 5,300만 줄의 변경된 코드를 분석한 결과, 코드 이탈률(작성 후 2주 이내에 재작성되는 코드)이 AI 이전 기준 대비 2024년에 두 배로 증가할 것으로 예측했습니다.¹⁴ AI 도구로 인한 코드량 증가는 생산성 향상을 부분적으로 상쇄하는 재작업을 만들어냅니다. Stack Overflow의 2025년 설문조사가 이 마찰을 확인합니다: 66%의 개발자가 “거의 맞는” AI 생성 코드를 수정하는 데 더 많은 시간을 쓴다고 보고합니다.⁶

거버넌스 격차

AI 생성 코드는 인간 개발자가 내면화한 거버넌스 메커니즘을 우회합니다. 시니어 개발자는 스타일 가이드를 확인하고, 린터를 실행하고, 변경 로그를 업데이트하고, 아키텍처 변경에 대해 팀 리드에게 알려야 한다는 것을 알고 있습니다. AI 어시스턴트는 프롬프트를 충족하는 솔루션을 생성합니다. “컴파일되고 테스트를 통과함”과 “조직 기준을 충족함” 사이의 격차가 바로 거버넌스입니다.

McKinsey 연구자들은 주니어 개발자의 속도 저하를 생성된 코드와 조직 컨텍스트 사이의 격차에 기인한다고 분석했습니다. 주니어 개발자는 AI 출력이 아직 내면화하지 못한 기준을 충족하는지 판단할 능력이 부족합니다. 이러한 기준을 자동화된 검사로 인코딩하는 거버넌스 인프라 없이는 AI 출력이 검증 없이 하류로 흘러갑니다.

거버넌스 격차는 팀 전체에 걸쳐 복합적으로 작용합니다. 한 개발자의 AI 생성 유틸리티가 다른 개발자의 기존 모듈을 중복합니다. AI가 생성한 두 개의 엔드포인트가 동일한 API에 대해 다른 오류 형식을 사용합니다. AI가 작성한 마이그레이션이 팀 표준과 다른 명명 규칙을 따릅니다. 각 위반은 작습니다. 누적 효과는 리뷰가 교정할 수 있는 것보다 빠르게 자체 관례에서 이탈하는 코드베이스입니다.

벽 너머의 모습

DORA의 발견은 동일한 도구를 사용하는 두 집단을 묘사합니다. 강력한 프랙티스를 가진 조직에서는 AI가 강점을 증폭시켰습니다. 취약한 프랙티스를 가진 조직에서는 AI가 기능 장애를 증폭시켰습니다.⁴ 이들 사이의 변수는 어떤 AI를 사용하느냐가 아닙니다. AI를 둘러싼 인프라입니다.

각 근본 원인은 인프라 해결책으로 매핑됩니다. 아래 표는 문제에서 솔루션까지의 체인을 매핑하며, 제가 직접 구축하고 동반 포스트에 문서화한 시스템의 구체적인 구현 사례를 포함합니다. 이 예시는 구체적인 수치를 가진 하나의 시도이며, 보편적 처방이 아닙니다.

근본 원인	무엇이 깨지는가	인프라 해결책	구현 사례
컨텍스트 결핍	환각된 경로, 잘못된 API, 누락된 제약 조건	프롬프트 시점의 컨텍스트 주입	모든 프롬프트에 날짜, 브랜치, 프로젝트 문서, 아키텍처 컨텍스트를 주입하는 9개의 훅¹⁵ (상세 아키텍처)
검증 공백	리뷰가 잡는 것보다 빠르게 버그가 배포됨	독립적 테스트 실행, 자동화된 리뷰	Ralph 자율 루프: 테스트 러너가 모든 변경 사항을 검증한 후, 3개의 독립 리뷰 에이전트(정확성, 보안, 관례)가 머지 전 평가¹⁵ (전체 시스템)
거버넌스 격차	기준이 우회되고, 관례가 이탈함	증거 요구사항이 있는 자동화된 품질 게이트	Evidence Gate: 필수 증거가 있는 6개 기준, 7개의 명명된 실패 모드, 회피 언어 감지¹⁵ (품질 철학)

컨텍스트 주입은 모든 프롬프트에 프로젝트별 정보를 모델이 받도록 보장함으로써 결핍을 해결합니다. 디스패처 훅이 현재 날짜, Git 브랜치, 작업 디렉토리, 프로젝트 관례, 활성 작업 컨텍스트, 아키텍처 제약 조건을 주입하는 9개의 순차 핸들러를 실행합니다. 모델은 사용자의 요청을 처리하기 전에 200-400 토큰의 기반 컨텍스트를 받습니다. 측정된 지연 시간: 9개 훅 전체에 대해 총 200ms. 모델은 실제 경로를 전달받았기 때문에 더 이상 파일 경로를 추측하지 않습니다.¹⁵

독립적 검증은 일상적인 검사의 검증 병목에서 인간을 제거함으로써 공백을 해결합니다. 자율 개발 루프(발톱의 해부학에 문서화됨)는 코드를 생성하고, 전체 테스트 스위트를 실행하며, 결과를 독립적으로 운영되는 3개의 리뷰 에이전트에 제출합니다. 구현 에이전트는 자신의 출력을 절대 리뷰하지 않습니다. 이 분리는 Stanford 연구에서 AI 보조 그룹이 안전하지 않은 코드에 대해 더 높은 확신을 가졌다는 발견을 반영합니다: 자체 검증은 작성자가 인간이든 인공지능이든 신뢰할 수 없습니다.¹³

자동화된 거버넌스는 팀 기준을 실행 가능한 검사로 인코딩함으로써 격차를 해결합니다. 조작 방화벽은 모든 아웃바운드 작업을 로컬, 공유, 외부로 분류하며, 외부 공개는 인간 리뷰로 유보합니다. 품질 게이트는 테스트 출력과 파일 경로를 인용하는 대신 회피 언어(“작동할 것입니다”, “올바른 것 같습니다”)를 사용하는 완료 보고서를 차단합니다. 이 시스템은 인간 개발자가 모든 줄을 리뷰할 시간이 있다면 적용할 기준을 강제합니다. AI 생성 속도에서는 그 시간이 없습니다.

결합된 시스템은 자체 코드베이스에서 측정 가능한 결과를 산출합니다: 시맨틱 검색을 위해 인덱싱된 4,518개의 코드 청크, 15,800개 파일에 걸친 49,746개의 볼트 청크(영구 메모리), 그리고 모든 변경 사항이 완료를 보고하기 전에 자동으로 실행되는 테스트 스위트.¹⁵ 이 수치들은 한 개발자의 인프라를 설명합니다. 이 접근법이 일반화된다는 것을 증명할 수는 없습니다. 하지만 올바른 도구가 반대편에 있을 때 벽이 투과 가능하다는 것은 보여줄 수 있습니다.

AI 인프라 성숙도 모델: 채팅 상자(1배, 복사-붙여넣기)에서 IDE Copilot(약 1.1배, 인라인 완성), 커스텀 컨텍스트(약 1.2배, CLAUDE.md와 훅), 검증된 자동화(약 1.3배, 품질 게이트와 증거 요구사항), 완전 인프라(1.3-1.5배 이상, 자율 루프와 멀티 에이전트 리뷰)까지 5단계. 각 단계는 역량, 정체 지점, 다음에 구축할 것을 보여줍니다.

인프라 격차 감사: AI 코딩 설정에 대한 8개의 예/아니오 질문에 답하여 인프라가 컨텍스트 결핍, 검증 공백, 거버넌스 격차를 해결하는지 평가합니다. 점수: 해결된 격차 0-2개 = "벽 아래", 3-5개 = "벽에서", 6-8개 = "벽을 돌파 중". 각 격차는 구현 세부 사항을 위한 관련 동반 포스트로 연결됩니다.

거버넌스 비율

발톱의 해부학에 설명된 훅 시스템은 84개의 훅을 포함합니다. 검증된 집계는 기능별로 분류합니다: 무언가가 일어나야 하는지를 판단하는 35개의 판단 훅, 사전 결정된 작업을 실행하는 44개의 자동화 훅, 그리고 5개의 유틸리티 훅(디스패처, 상태 관리). 거버넌스 비율은 4:5입니다. 처음에는 1:6이었습니다.¹⁵

시작 비율은 대부분의 팀이 먼저 구축하는 것을 반영합니다: 자동화. 컨텍스트를 주입하고, 메트릭을 기록하고, 출력을 포맷하고, 사용량을 로깅합니다. 이러한 훅은 모두가 얻는 10%를 포착합니다. AI 이전에도 이미 부분적으로 자동화되어 있던 개발의 기계적 부분을 자동화합니다. DX의 데이터가 이를 확인합니다: 주당 절약되는 4시간은 코드 생성과 보일러플레이트 감소에서 나오며, 이는 이미 개발 주기에서 가장 빠른 부분이었던 작업입니다.¹

판단 훅으로의 전환은 추가 성과가 어디에서 나오는지를 반영합니다.

투자	포착하는 것	단계
자동화 훅 (주입, 로그, 포맷)	처음 10%	도입 기준선
판단 훅 (검증, 게이트, 리뷰)	다음 10-30%	벽 돌파
조직 통합 (워크플로, 피드백 루프)	복리 효과	지속적 개선

McKinsey의 2025년 설문조사(약 300개 상장 기업 대상)에서 최고 성과 기업은 생산성 16-30% 향상과 품질 31-45% 향상을 달성한 것으로 나타났습니다.¹⁶ 이 조직들은 80-100%의 개발자 도입률과 함께 조직적 통합을 갖추고 있었습니다. 구별 요인은 도입률(전반적으로 10% 성과와 상관관계)이 아니라 그 도입을 둘러싼 인프라와 프로세스였습니다.

Laura Tacho의 프레이밍이 여기에 적용됩니다: “저는 근본적인 제약 조건을 해결하지 않고 성과를 개선하겠다는 어떤 기술의 약속에도 회의적입니다.”³ 근본적인 제약 조건은 판단의 제약 조건입니다. 이 코드가 우리의 기준을 충족하는가? 이 변경이 하류에서 무언가를 깨뜨리는가? 이 출력에 조작이 포함되어 있는가? 자동화 훅은 이 질문에 답할 수 없습니다. 판단 훅은 숙련된 개발자가 머릿속으로 적용하는 기준을 인코딩함으로써, 불완전하지만, 답할 수 있습니다.

비율은 아직 균형에 도달하지 않았습니다. 시스템은 여전히 통치하는 것보다 자동화하는 것이 더 많습니다. 불균형 자체가 진단입니다: 자동화 훅이 판단 훅보다 많은 모든 오케스트레이션 레이어에는 개선의 여지가 있습니다.

실제로 구축해야 하는 것

동반 포스트에 설명된 시스템은 84개의 훅, 43개의 스킬, 19개의 에이전트, 15,000줄의 인프라를 갖추고 있습니다.¹⁵ 15,000줄이 필요한 것은 아닙니다. 세 가지가 필요합니다.

하나의 컨텍스트 주입 훅. 모든 AI 프롬프트에 현재 날짜, 브랜치, 작업 디렉토리를 주입하는 5줄의 bash. 이 주입은 환각의 한 범주 전체를 제거합니다: 모델은 실제 파일 경로와 브랜치 이름을 갖고 있기 때문에 더 이상 만들어내지 않습니다.

#!/bin/bash
# inject-context.sh — minimum viable context injection
echo "Date: $(date +%Y-%m-%d)"
echo "Branch: $(git branch --show-current 2>/dev/null || echo 'not a git repo')"
echo "Directory: $(pwd)"

하나의 품질 게이트. 완료 보고서에서 회피 언어를 grep으로 검색하는 15줄. 에이전트가 테스트 출력을 인용하는 대신 “작동할 것입니다”라고 말하면 게이트가 차단합니다. 이 게이트는 가장 저렴한 진입점에서 검증 공백을 해결합니다.¹⁵

#!/bin/bash
# quality-gate.sh — minimum viable verification
INPUT=$(cat)
HEDGES=$(echo "$INPUT" | grep -ciE '\bshould (work|pass|be fine)\b|\bprobably\b|\blooks correct\b')
if [ "$HEDGES" -gt 0 ]; then
  echo '{"decision":"block","reason":"Hedging language detected. Cite test output instead."}'
else
  echo '{"decision":"allow"}'
fi

하나의 독립적 테스트 러너. 모든 코드 변경 후 프로젝트의 테스트 스위트를 실행하고 테스트가 깨지면 명확하게 실패를 알리는 훅. 구현은 프로젝트마다 다릅니다. 원칙은 다르지 않습니다: 코드를 작성하는 에이전트가 그 코드의 유일한 심판이 되어서는 안 됩니다.

워크플로에서 가장 자주 깨지는 것부터 시작하세요. AI가 파일 경로를 환각하면 컨텍스트 훅을 먼저 구축하세요. AI가 테스트되지 않은 코드를 배포하면 테스트 러너를 먼저 구축하세요. AI가 증거 없이 “완료”라고 쓰면 품질 게이트를 먼저 구축하세요.

Karpathy는 바이브 코딩에서 에이전틱 엔지니어링으로의 진화를 설명했습니다: “[작업을] 수행하는 에이전트를 오케스트레이션하고 감독으로서 행동하는 것.”¹⁷ 위의 세 가지 훅은 최소한의 실행 가능한 감독입니다. 30%의 성과를 내지는 않을 것입니다. 하지만 10%에서 15%로 나아가게 해줄 것이며, 추가하는 각 훅이 다음으로 해결할 가치가 있는 제약 조건을 드러냅니다.

벽은 실재합니다. 하지만 또한 구체적입니다. 컨텍스트 결핍, 검증 공백, 거버넌스 격차는 엔지니어링 솔루션이 있는 엔지니어링 문제입니다. 모델은 계속 개선될 것입니다. AI를 코드 생성기가 아닌 출력을 통제할 인프라가 필요한 시스템으로 대하지 않는 모든 팀에게 벽은 10%에 머물 것입니다.

핵심 시사점

개인 개발자를 위해. 하나의 컨텍스트 주입 훅부터 시작하세요. 날짜, 브랜치, 작업 디렉토리를 주입하는 5줄의 bash가 AI 환각의 한 범주 전체를 제거합니다. 모델이 추측하는 대신 여러분의 실제 파일 경로를 알게 될 때 벽이 무너지기 시작합니다.

팀 리드를 위해. 거버넌스 비율을 측정하세요: AI 훅 중 출력을 검증하는 것과 작업을 자동화하는 것의 비율. 자동화 훅이 판단 훅보다 많다면 팀은 처음 10%만 포착하고 있습니다. DX의 데이터는 주당 절약되는 4시간이 코드 생성에서 나온다는 것을 확인하며, 이는 이미 개발 주기에서 가장 빠른 부분이었던 작업입니다.¹

플랫폼 엔지니어를 위해. AI 도입을 확대하기 전에 검증 레이어를 먼저 구축하세요. DORA는 엔지니어링 인프라 없이 AI를 배포한 조직에서 도입과 함께 불안정성이 증가하는 것을 발견했습니다.⁴ ⁵ 세 가지 근본 원인은 세 가지 인프라 해결책으로 매핑됩니다. 파이프라인에서 가장 많은 마찰을 일으키는 것부터 시작하세요.

출처

Ivan Brezak Brkan, “This CTO Says 93% of Developers Use AI – but Productivity Is Still ~10%,” ShiftMag, February 18, 2026, shiftmag.dev. Data from DX (a developer analytics company), based on 121,000+ developers across 450+ companies and a broader pool of 4.2 million developers observed November 2025 to February 2026. ↩↩↩↩↩↩↩↩↩↩↩↩
Laura Tacho, “AI-Assisted Engineering: Q4 Impact Report,” DX, November 4, 2025, getdx.com. Data from 135,000+ developers across 435 companies, July to October 2025. ↩↩↩↩↩
Laura Tacho, quoted in Brkan, “This CTO Says 93% of Developers Use AI.” Full quote: “This is really a management problem. The hype made it sound like just trying AI would automatically pay off.” ↩↩
DORA, Accelerate State of AI-assisted Software Development 2025, Google, September 29, 2025, dora.dev. Nearly 5,000 technology professionals surveyed. Key finding: “AI’s primary role in software development is that of an amplifier.” ↩↩↩↩↩
DORA, Accelerate State of DevOps Report 2024, Google, October 2024, dora.dev. 39,000+ professionals surveyed. For every 25% increase in AI adoption: estimated 1.5% decrease in delivery throughput, 7.2% decrease in delivery stability. ↩↩↩
Stack Overflow, 2025 Developer Survey, July 29, 2025, survey.stackoverflow.co. 49,000+ total respondents from 177 countries. Combined trust declined from 43% (2024) to 29% (2025). Nearly 46% actively distrust AI accuracy (26.1% somewhat + 19.6% highly). 66% report spending more time fixing “almost-right” AI-generated code. ↩↩↩
JetBrains, State of Developer Ecosystem 2025, October 2025, blog.jetbrains.com. 24,534 developers across 194 countries. 85% regular AI tool usage; 23% cite code quality as top concern. ↩
Laura Tacho, interviewed by Gergely Orosz, “Measuring the Impact of AI on Software Engineering,” Pragmatic Engineer, July 23, 2025, newsletter.pragmaticengineer.com. “Typing speed has never been the bottleneck.” ↩
Joel Becker, Nate Rush, Elizabeth Barnes, and David Rein, “Measuring the Impact of Early-2025 AI on Experienced Open-Source Developer Productivity,” METR, July 10, 2025, metr.org. 16 experienced developers, 246 real repository issues. Developers took 19% longer with AI tools. ↩
Elise Paradis et al., “How Much Does AI Impact Development Speed? An Enterprise-Based Randomized Controlled Trial,” arXiv preprint, October 16, 2024, arxiv.org. 96 Google engineers. ~21% speed improvement, not statistically significant (95% CI: [-0.51, 0.03]). ↩
Begum Karaci Deniz et al., “Unleashing Developer Productivity with Generative AI,” McKinsey, June 27, 2023, mckinsey.com. 40 McKinsey developers. Gains of 35-50% on simple tasks; less than 10% on high-complexity tasks. Junior developers 7-10% slower. ↩
Neely Dunlap, “The AI Productivity Paradox Research Report,” Faros AI (a DevOps analytics vendor), July 23, 2025 (updated January 8, 2026), faros.ai. 10,000+ developers across 1,255 teams. AI-assisted PRs: 9% more bugs, 91% longer reviews, 154% larger. Developers complete 21% more tasks and merge 98% more PRs. ↩↩↩↩
Neil Perry, Megha Srivastava, Deepak Kumar, and Dan Boneh, “Do Users Write More Insecure Code with AI Assistants?” in CCS ‘23: Proceedings of the 2023 ACM SIGSAC Conference, November 2023, arxiv.org. 47 participants. AI-assisted group wrote insecure solutions more often in 4 of 5 tasks. SQL injection vulnerability: 36% AI group vs. 7% control. ↩↩
William Harding and Matthew Kloster, “Coding on Copilot: 2023 Data Suggests Downward Pressure on Code Quality,” GitClear (a code analytics vendor), January 2024, gitclear.com. 153 million changed lines of code analyzed. Code churn projected to double in 2024 compared to 2021 pre-AI baseline. ↩
Author’s analysis. Hook system described in “Anatomy of a Claw: 84 Hooks as an Orchestration Layer.” Output firewall described in “The Fabrication Firewall.” Context injection described in “Context Is Architecture.” Quality system described in “Jiro Quality Philosophy.” Verified counts: 84 hooks (35 judgment, 44 automation), 43 skills, 19 agents, 30+ library modules, ~15,000 lines of code. Semantic code search: 4,518 chunks indexed across 653 files. Persistent memory: 49,746 chunks across 15,800 files. ↩↩↩↩↩↩↩↩
McKinsey, “Unlocking the Value of AI in Software Development,” November 3, 2025, mckinsey.com. Nearly 300 publicly traded companies. Highest performers: 16-30% productivity, 31-45% quality improvement. Companies with 80-100% developer adoption saw gains of 110%+. ↩
Andrej Karpathy, post on X, February 4, 2026. “Many people have tried to come up with a better name…my current favourite: ‘agentic engineering.’ ‘Agentic’ because the new default is that you are not writing the code directly 99% of the time, you are orchestrating agents who do and acting as oversight.” ↩