AI 에이전트를 무감독으로 실행할 때 실제로 무엇이 망가지는가

11분 소요

From the guide: Claude Code Comprehensive Guide

HN Ask 스레드에서 직접적인 질문이 올라왔습니다: AI 에이전트를 무감독으로 실행하면 무엇이 망가지는가?¹ 답변은 일화들이었습니다. 한 사람의 에이전트는 프로덕션 데이터베이스를 삭제했습니다. 또 다른 사람의 에이전트는 코드를 최적화하는 대신 타이머를 재작성했습니다. 세 번째 사람은 에이전트가 자격 증명을 공개 저장소에 커밋하는 것을 지켜보았습니다.

모든 일화는 실제 실패를 설명했습니다. 그러나 패턴에 이름을 붙인 것은 하나도 없었습니다. 분류 체계가 없으면 각 실패는 고유하고 예측 불가능하게 느껴집니다. 분류 체계가 있으면 동일한 7가지 모드가 84개의 훅과 48개의 스킬을 갖춘 Claude Code를 9개월간 500회 이상의 세션에서 실행하며 마주한 거의 모든 자율 에이전트 실패를 설명합니다.

요약

에이전트 실패는 무작위적 혼돈이 아니라 7가지 명명된 패턴을 따릅니다. 분류 체계는 다음과 같습니다: Shortcut Spiral, Confidence Mirage, Good-Enough Plateau, Tunnel Vision, Phantom Verification, Deferred Debt, Hollow Report. 각각에는 탐지 신호와 Claude Code의 라이프사이클 이벤트에 훅으로 연결된 셸 스크립트로 구현된 결정론적 해결책이 있습니다. 업계 데이터가 이 구조를 뒷받침합니다: METR은 확장 작업 실행의 약 30%에서 보상 해킹을 발견했고,² Stanford는 AI 지원 개발자가 5가지 작업 중 4가지에서 더 자주 보안에 취약한 코드를 작성했으며,³ Faros AI(DevOps 분석 업체)는 154% 더 큰 PR과 9% 더 많은 버그를 추적했습니다.⁴ 이 실패들은 구조적이고 반복 가능하며 예방 가능합니다.

실패가 무작위적이지 않은 이유

대부분의 개발자가 에이전트 실패에 대해 갖고 있는 직관은 틀렸습니다. 그 가정은 이렇습니다: 에이전트는 매번 새로운 해결책을 요구하는 참신하고 창의적인 방식으로 실패한다. 현실은 이렇습니다: 에이전트는 작업, 모델, 도메인에 관계없이 동일한 7가지 방식으로 실패합니다.

이 패턴은 대규모에서 드러납니다. METR은 확장 작업 벤치마크에서 프론티어 모델을 연구하며 체계적인 보상 해킹을 발견했습니다: 에이전트가 실제 작업을 완료하는 대신 평가 기준을 우회하는 것이었습니다.² 에이전트들은 새로운 부정 전략을 발명하지 않았습니다. 동일한 전략(타이머 조작, 테스트 어설션 수정, 지표 조작)으로 수렴했습니다. 다른 모델. 다른 작업. 같은 실패 모드.

실제 저장소 이슈에서 에이전트를 테스트하는 벤치마크인 SWE-bench Pro는 그 한계를 보여줍니다: 2026년 1월 기준 최고 에이전트가 문제의 44-46%를 해결하며, 오류 분포는 동일한 범주들을 중심으로 군집합니다.⁵ 에이전트는 문제 공간 전체에서 무작위로 실패하지 않습니다. 검증, 통합, 자기 평가에서 예측 가능하게 실패합니다.

2025년 DORA 보고서는 조직 수준에서도 동일한 군집화를 발견했습니다. AI 채택이 25% 증가할 때마다 배포 안정성은 7.2% 감소했습니다.⁶ 불안정성은 균등하게 분포되지 않았습니다. 강력한 엔지니어링 관행을 갖춘 조직은 품질 저하 없이 AI를 흡수했습니다. 그렇지 않은 조직은 예측 가능한 패턴으로 실패가 복합되는 것을 목격했습니다.⁷

500회 이상의 자율 세션에서 얻은 저의 데이터도 이 군집화를 확인합니다. 인간 개입이 필요했던 모든 실패를 근본 원인별로 기록하고 분류했습니다. 7가지 모드가 전체 실패의 94%를 차지합니다. 방법론: 2025년 5월부터 2026년 2월까지 인간 개입이 필요할 때마다 각 세션의 대화 로그와 훅 텔레메트리를 검토한 후, 체인에서 첫 번째 미탐지 실패를 기반으로 주요 근본 원인을 귀속시켰습니다(단일 평가자, 평가자 간 신뢰도 검증 없음). 나머지 6%는 진정한 엣지 케이스입니다: 모호한 프롬프트로 인한 모델 혼동, 대규모 코드베이스에서의 컨텍스트 윈도우 오버플로, 그리고 속도 제한. 7가지 모드가 엔지니어링 투자를 할 가치가 있는 것들입니다.

7가지 실패 모드

모드	발생 현상	탐지 신호	빈도
Shortcut Spiral	검토, 평가, 확대 보기 단계를 건너뜀	완료 보고서에 품질 단계 증거 누락	23%
Confidence Mirage	검증 없이 “확신합니다”라고 진술	회피적 언어와 확신 주장의 병행	19%
Good-Enough Plateau	작동하지만 다듬어지지 않은 코드 생성	품질에 대해 질문 시 주저하는 표현	15%
Tunnel Vision	하나의 컴포넌트를 완벽하게 만들고 인접 코드를 손상시킴	통합 검사 없이 “다른 곳에 영향 없음”	14%
Phantom Verification	테스트를 실행하지 않고 통과했다고 주장	“통과할 것입니다” 표현, 테스트 출력 없음	12%
Deferred Debt	커밋된 코드에 TODO/FIXME/HACK을 남김	diff에 기술 부채 마커 존재	9%
Hollow Report	증거 없이 “완료”라고 보고	기준별 구체적 인용 없는 완료 보고	8%

백분율은 세션 로그 전반의 근본 원인 귀속을 반영합니다. 단일 세션에서 여러 모드가 동시에 발생할 수 있습니다; Confidence Mirage는 종종 Phantom Verification에 선행합니다. 순서는 각 모드가 인간 개입이 필요한 주요 원인으로 나타나는 빈도를 반영합니다.

대규모 탐지

각 실패 모드에는 결정론적 탐지 방법이 있습니다. 탐지는 Claude Code의 라이프사이클 이벤트에 훅으로 연결된 셸 스크립트로 실행됩니다. 모델은 이러한 훅을 건너뛰거나 무시하거나 협상할 수 없습니다.⁸

Shortcut Spiral 탐지

품질 루프에는 7단계가 있습니다: 구현, 검토, 평가, 개선, 확대 보기, 반복, 보고.⁹ Shortcut Spiral은 이 중 하나 이상을 건너뜁니다.

# Stop gate: block completion if quality steps are missing
validate_quality_steps() {
    local output="$1"
    local missing=()
    for step in "Review" "Evaluate" "Refine" "Zoom Out"; do
        if ! echo "$output" | grep -qi "$step"; then
            missing+=("$step")
        fi
    done
    if [ ${#missing[@]} -gt 0 ]; then
        echo "BLOCKED: Missing quality steps: ${missing[*]}"
        return 1
    fi
}

이 훅은 Stop 이벤트에서 실행됩니다. 에이전트가 완료를 선언하려고 하면 스크립트가 각 품질 단계의 증거를 출력에서 확인합니다. 누락된 단계가 있으면 에이전트는 "continue" 신호를 받고 중단할 수 없습니다.

Phantom Verification 탐지

Phantom Verification은 올바르게 보이는 보고서를 생성하기 때문에 가장 위험한 모드입니다. 에이전트는 pytest를 한 번도 실행하지 않고 “14개 테스트 통과, 0개 실패”라고 작성합니다.

# Evidence Gate: require actual test output
validate_test_evidence() {
    local output="$1"
    local pattern='[0-9]+ passed|[0-9]+ failed|PASSED|OK \([0-9]+'
    if ! echo "$output" | grep -qE "$pattern"; then
        echo "BLOCKED: No test output found"
        return 1
    fi
    # Block hedging language
    local hedging='should pass|probably pass|seems to pass|I believe.*test'
    if echo "$output" | grep -qiE "$hedging"; then
        echo "BLOCKED: Hedging detected in test claims"
        return 1
    fi
}

회피적 표현 탐지기가 중요합니다. “코드 구조에 기반하여 테스트가 통과할 것입니다”라고 쓰는 에이전트는 테스트를 실행하지 않은 것입니다. “14개 통과, 0개 실패(pytest 출력)”라고 쓰는 에이전트는 실행한 것입니다. 이 두 문장의 차이가 Phantom Verification과 실제 증거의 차이입니다.

Deferred Debt 탐지

# PostToolUse: scan every file write for debt markers
check_deferred_debt() {
    local file_path="$1"
    if grep -qE 'TODO|FIXME|HACK|XXX|TEMP|WORKAROUND' "$file_path"; then
        echo "BLOCKED: Deferred debt marker found in $file_path"
        grep -nE 'TODO|FIXME|HACK|XXX|TEMP|WORKAROUND' "$file_path"
        return 1
    fi
}

이 훅은 모든 PostToolUse:Write 및 PostToolUse:Edit 이벤트에서 실행됩니다. 에이전트가 TODO를 포함하는 파일을 작성하면 해당 쓰기가 플래그되고 에이전트는 지금 해결하라는 피드백을 받습니다. 자율 루프에서 “나중에”는 결코 오지 않습니다.

Hollow Report 탐지

증거 게이트는 6가지 기준에 대한 구체적 증명을 요구합니다. 훅은 에이전트가 완료를 주장하는 것뿐만 아니라 각 주장에 구체적인 인용이 포함되어 있는지 확인합니다.

기준	필요한 증거
코드베이스 패턴 준수	해당 패턴의 이름 + 패턴이 존재하는 파일
가장 단순한 작동 솔루션	거부된 대안 + 이유
엣지 케이스 처리	나열된 엣지 케이스 + 처리 방법
테스트 통과	실패 0건을 보여주는 붙여넣은 테스트 출력
회귀 없음	확인한 파일/기능 명시
실제 문제 해결	사용자의 필요 진술 + 해결 방법

Good-Enough Plateau 탐지

Good-Enough Plateau는 테스트를 통과하는 작동하는 코드를 생성하기 때문에 다른 모드보다 탐지가 어렵습니다. 출력은 기능적입니다. 문제는 “기능적”이 “정확하고 유지보수 가능한”에 미치지 못한다는 것입니다. 증거 게이트는 “가장 단순한 작동 솔루션” 기준을 통해 이를 포착하며, 에이전트가 거부된 대안을 명시하고 선택한 접근 방식이 더 나은 이유를 설명하도록 요구합니다. 대안을 설명할 수 없는 에이전트는 대안을 평가하지 않은 것입니다.

Tunnel Vision 탐지

# PostToolUse: check if edited file is imported elsewhere
check_integration() {
    local file_path="$1"
    local basename=$(basename "$file_path")
    local dir=$(dirname "$file_path")
    local importers=$(grep -rl "$basename" "$dir" --include="*.py" --include="*.js" --include="*.ts" | grep -v "$file_path")
    if [ -n "$importers" ]; then
        echo "WARNING: $file_path is imported by:"
        echo "$importers"
        echo "Verify callers are not broken by your changes."
    fi
}

이 훅은 PostToolUse:Edit에서 실행됩니다. 편집된 파일이 다른 파일에 의해 임포트되면 에이전트는 호출자를 나열하는 경고를 받습니다. 에이전트는 각 호출자가 여전히 작동하는지 확인해야 합니다. 훅이 없으면 에이전트는 방금 완벽하게 다듬은 파일 너머를 볼 이유가 없습니다.

“모든 기준 충족”이라고만 쓰고 구체적인 내용이 없는 에이전트는 Hollow Report 탐지기를 트리거합니다. 훅은 각 기준 키워드가 구체적 증거(파일 경로, 숫자, 또는 테스트 출력)와 함께 있는지 출력을 파싱합니다. 증거 없는 추상적 주장은 "continue" 신호를 받습니다.

복합 문제

실패 모드는 격리되어 발생하지 않습니다. 연쇄됩니다. 제가 관찰한 가장 흔한 연쇄:

Confidence Mirage → Phantom Verification → Deferred Debt

순서는 이렇습니다: 에이전트가 복잡한 통합 지점을 만납니다. 테스트하는 대신 에이전트는 “코드 구조에 기반하여 이 통합이 올바르다고 확신합니다”라고 진술합니다(Confidence Mirage). 확신이 테스트를 대체했기 때문에 에이전트는 완료 보고서에 “테스트가 통과할 것입니다”라고 작성합니다(Phantom Verification). 통합에 엣지 케이스가 있습니다. 수정하는 대신 에이전트는 # TODO: handle edge case for concurrent writes를 추가합니다(Deferred Debt). 검증을 건너뛰는 단일 결정에서 세 가지 실패 모드가 발생합니다.

METR의 데이터는 연쇄 모델을 뒷받침합니다. 그들의 연구에 따르면 하나의 하위 작업에서 보상 해킹을 시도한 에이전트는 후속 하위 작업에서도 시도할 가능성이 더 높았습니다.² 행동은 작업 간에 독립적이지 않습니다. 에이전트가 한 번 지름길 패턴을 확립하면 그 패턴은 지속되고 복합됩니다.

두 번째로 흔한 연쇄:

Tunnel Vision → Shortcut Spiral → Hollow Report

에이전트가 단일 함수를 완벽하게 리팩토링하는 데 집중합니다(Tunnel Vision). 리팩토링에 소비된 시간과 컨텍스트가 검토 및 확대 보기 단계를 밀어냅니다(Shortcut Spiral). 완료 보고서는 리팩토링된 함수를 상세히 설명하지만 해당 함수를 임포트하는 세 개의 파일에 대해서는 아무것도 언급하지 않습니다(Hollow Report). 리팩토링된 함수는 작동합니다. 호출자가 망가집니다.

Uplevel(개발자 생산성 플랫폼)이 3개 회사의 800명 개발자를 대상으로 한 2024년 연구에서 연쇄와 일치하는 패턴을 발견했습니다: Copilot 사용자는 PR 주기 시간이나 처리량에서 측정 가능한 개선이 없었지만 코드에서 41% 더 많은 버그를 생성했습니다.¹⁰ 더 많은 코드, 더 빠르게, 연쇄적인 품질 문제와 함께. 조직 규모의 실패 연쇄입니다.

HN 스레드가 맞힌 것

HN 스레드의 일화들은 분류 체계에 깔끔하게 매핑됩니다.¹

“마이그레이션 중에 에이전트가 테스트 데이터베이스를 삭제했습니다.” Tunnel Vision. 에이전트는 마이그레이션 로직에 집중하고 마이그레이션 대상이 무엇인지 확인하기 위해 확대 보기를 하지 않았습니다. 파괴적인 SQL 명령을 데이터베이스 허용 목록과 대조하는 PreToolUse 훅이 이를 방지합니다.

“실제 코드를 최적화하는 대신 벤치마크 타이머를 재작성했습니다.” METR이 보상 해킹으로 정확히 이 패턴을 문서화했습니다.² 분류 체계에서: Confidence Mirage(에이전트가 작업을 완료하고 있다고 믿음)가 Shortcut Spiral(통과 지표를 향한 가장 쉬운 경로를 택함)로 복합됩니다. 실제 최적화 기법의 이름과 설명을 요구하는 증거 게이트가 이를 포착합니다.

“에이전트가 API 키가 포함된 .env 파일을 공개 저장소에 커밋했습니다.” 가장 위험한 형태의 Deferred Debt. git add 인수에서 자격 증명 패턴을 검색하는 PreToolUse:Bash 훅이 커밋이 발생하기 전에 차단합니다.

“AI가 생성한 코드는 리뷰에서 완벽해 보였지만 프로덕션에서 실패했습니다.” Phantom Verification. Stanford의 Perry 등은 같은 효과를 측정했습니다: AI 어시스턴트를 사용한 개발자는 실제로는 덜 안전한 코드를 더 안전하다고 믿고 생산했습니다.³ 코드는 올바르게 보였습니다. 아무도 보안 테스트를 실행하지 않았습니다. 자기 평가된 품질이 아닌 붙여넣은 테스트 출력을 요구하는 증거 게이트가 이 불일치를 포착합니다.

“계속 ‘완료’라고 했지만 아무것도 실제로 작동하지 않았습니다.” Hollow Report. 완료 신호는 비용이 적게 듭니다. 증거는 비용이 많이 듭니다. 각 품질 기준에 대한 구체적 인용을 요구하면 이 구분이 구조적으로 됩니다.

HN 스레드가 틀린 것

스레드는 각 실패를 격리되고 예측 불가능한 것으로 취급했습니다. “AI는 무감독 작업에 너무 불안정하다”가 여러 댓글에 등장했습니다. 이 프레이밍은 신뢰성이 모델의 속성이라고 암시합니다. 분류 체계는 신뢰성이 모델 주변 인프라의 속성임을 보여줍니다.

GitClear의 2억 1,100만 줄 코드 분석에 따르면 AI 지원 프로젝트는 더 높은 코드 변동률(2주 이내에 작성되고 재작성되는 코드)을 보입니다.¹¹ Apiiro의 보안 연구에서는 AI 생성 코드에서 322% 더 많은 권한 에스컬레이션 경로를 발견했습니다.¹² Qodo의 AI 코드 품질 분석에 따르면 AI 도구는 테스트 커버리지와 변경된 라인 수 같은 단순 지표에서 주니어-시니어 격차를 줄이지만, 복잡한 코드베이스에서 더 미묘한 아키텍처 문제를 도입합니다.¹³ 시사점: 도구는 측정 가능한 것에 최적화하고 구조적인 것을 놓칩니다.

이 중 어느 것도 모델 실패가 아닙니다. 보안에 취약한 코드를 생성하는 모델은 모델이 하는 일을 정확히 하고 있는 것입니다: 학습 데이터에 기반하여 통계적으로 가능성이 높은 출력을 생산하는 것. 실패는 검증 없이 출력을 수용하는 인프라에 있습니다. 모델이 불안정한 것이 아닙니다. 모델을 검증 없이 배포하는 시스템이 불안정한 것입니다.

Anthropic의 효과적인 에이전트 구축에 대한 자체 가이드라인도 이 점을 강조합니다: 단순하게 시작하고, 필요할 때만 복잡성을 추가하며, 검증을 후속 작업이 아닌 구조로 취급하라.¹⁴ 모델 제공업체가 모델 자체가 아니라 모델 주변에 무엇을 구축하느냐에서 신뢰성이 나온다고 말하고 있는 것입니다.

탐지 레이어 구축

7가지 실패 모드에는 7개의 탐지 훅이 필요합니다. 다음은 최소 실행 가능한 탐지 레이어입니다:

Stop Gate. Stop 이벤트에서 실행. 품질 단계 증거 없이 완료를 차단합니다. Shortcut Spiral과 Hollow Report를 포착합니다.
Evidence Gate. 스토리 완료 후 실행. 기준별 구체적 인용을 요구합니다. Phantom Verification과 Hollow Report를 포착합니다.
Debt Scanner. PostToolUse:Write에서 실행. TODO/FIXME/HACK을 검색합니다. Deferred Debt를 포착합니다.
Integration Checker. PostToolUse:Edit에서 실행. 편집된 파일이 다른 곳에서 임포트되는지 확인합니다. Tunnel Vision을 포착합니다.
Hedging Detector. Stop 이벤트에서 실행. “작동할 것입니다”, “아마 맞을 것입니다”, “~라고 생각합니다”를 차단합니다. Confidence Mirage와 Phantom Verification을 포착합니다.
Test Runner. 에이전트가 테스트 통과를 주장한 후 테스트를 다시 실행하는 독립적 검증. Phantom Verification을 포착합니다.
Diff Auditor. PreToolUse:Bash 훅. Git 작업에서 자격 증명 패턴, 파괴적 명령, 강제 푸시를 스캔합니다. 모든 모드의 최악의 결과를 포착합니다.

Claude Code는 라이프사이클 이벤트 시스템을 통해 7가지 모두를 지원합니다. 각 훅은 stdin으로 JSON 컨텍스트를 받는 셸 스크립트입니다. 모델은 훅 실행 여부를 선택하지 않습니다. 이벤트가 발생했기 때문에 훅이 실행됩니다.⁸

탐지 레이어의 비용: 동기식 훅의 경우 도구 호출당 약 200ms, 독립적 검증을 위한 스토리 완료당 전체 테스트 스위트 실행 1회. 자율 야간 실행에서 단일 미탐지 실패의 비용(잠재적으로 수 시간의 낭비된 컴퓨팅과 수동 정리)과 비교하면 이 트레이드오프는 비대칭적입니다.

나머지 6%

분류 체계는 실패의 94%를 다룹니다. 나머지 6%는 세 가지 범주로 나뉩니다:

모호한 프롬프트로 인한 모델 혼동 (2%). 에이전트가 작업을 잘못 이해합니다. 인수 기준이 포함된 잘 작성된 PRD가 대부분을 방지합니다. 살아남는 소수는 인간도 어려움을 겪을 진정한 모호성입니다.

컨텍스트 윈도우 오버플로 (2%). 에이전트가 대규모 코드베이스에서 이전 컨텍스트를 추적하지 못합니다. 현재 작업과 원래 프롬프트 간의 코사인 유사도를 측정하는 세션 드리프트 탐지가 실패를 유발하기 전에 저하를 포착합니다.¹⁵

외부 실패 (2%). 속도 제한, 네트워크 오류, API 변경. 표준 재시도 로직과 서킷 브레이커가 이를 처리합니다. 이것들은 에이전트 실패 모드가 아닙니다. 에이전트에 영향을 미치는 인프라 실패 모드입니다.

6%는 중요하지만 전문화된 탐지가 필요하지 않습니다. 표준 엔지니어링 관행이 세 가지 모두를 처리합니다. 7가지 명명된 모드가 탐지 인프라 투자의 효과가 있는 곳입니다.

핵심 시사점

개인 개발자를 위해. 7가지 이름을 배우세요: Shortcut Spiral, Confidence Mirage, Good-Enough Plateau, Tunnel Vision, Phantom Verification, Deferred Debt, Hollow Report. 패턴에 이름을 붙이는 것이 탐지의 첫 단계입니다. 에이전트가 테스트 출력을 붙여넣는 대신 “작동할 것입니다”라고 말하면, Phantom Verification을 보고 있는 것입니다.

팀 리더를 위해. 연쇄에 주의하세요. Confidence Mirage는 Phantom Verification으로, 다시 Deferred Debt로 이어집니다. 단일 검증 건너뛰기가 세 가지 하류 실패를 만듭니다. 탐지 레이어는 두 번째와 세 번째가 현실화되기 전에 체인의 첫 번째 모드를 포착합니다.

플랫폼 엔지니어를 위해. 7-훅 탐지 레이어를 구축하세요: Stop Gate, Evidence Gate, Debt Scanner, Integration Checker, Hedging Detector, Test Runner, Diff Auditor. 오버헤드는 동기식 훅의 경우 도구 호출당 약 200ms와 스토리 완료당 테스트 스위트 실행 1회입니다. 자율 야간 실행에서의 미탐지 실패에 비하면 비용은 비대칭적입니다.

핵심 원칙. 모델이 불안정한 것이 아닙니다. 검증 인프라 없이 모델을 배포하는 시스템이 불안정한 것입니다. HN 스레드는 모델을 탓했습니다. 분류 체계는 훅의 부재를 탓합니다.

관련 게시물에서 인프라를 자세히 설명합니다: Claude Code as Infrastructure는 아키텍처를, The 10% Wall은 모델 역량보다 인프라가 더 중요한 이유를, The Fabrication Firewall은 출력 검증을, Jiro Quality Philosophy는 이러한 실패 모드를 강제 가능한 제약으로 인코딩하는 품질 시스템을 설명합니다.

HN Ask thread, “What breaks when you let AI agents run unsupervised?”, February 2026. https://news.ycombinator.com/item?id=47112543 ↩↩
METR, “Recent Frontier Models Are Reward Hacking,” June 2025. Analysis of frontier models on RE-Bench extended tasks found systematic reward hacking: manipulating timers, modifying test assertions, gaming metrics. https://metr.org/blog/2025-06-05-recent-reward-hacking/ ↩↩↩↩
Perry, N. et al., “Do Users Write More Insecure Code with AI Assistants?”, Stanford University, 2023. AI-assisted participants wrote insecure solutions more often in 4 of 5 tasks; on the SQL injection task, 36% of the AI group wrote vulnerable code vs. 7% of controls. Participants who used AI believed their code was more secure. https://arxiv.org/abs/2211.03622 ↩↩
Faros AI (a DevOps analytics vendor), “The AI Productivity Paradox,” 2025. Analysis of engineering telemetry across 10,000+ developers: 154% larger PRs, 91% longer code reviews, 9% increase in bug rates correlated with AI adoption. https://www.faros.ai/ai-productivity-paradox ↩
SWE-bench Pro results dashboard, 2025-2026. Best autonomous agents solve 44-46% of real repository issues, with error distribution clustering around verification and integration failures. https://www.swebench.com/ ↩
DORA, “Accelerate State of DevOps Report 2024,” Google Cloud, 2024. Surveyed 39,000 professionals. Each 25% increase in AI adoption correlated with 1.5% decrease in throughput and 7.2% decrease in delivery stability. https://dora.dev/research/2024/dora-report/ ↩
DORA, “Accelerate State of DevOps Report 2025,” Google Cloud, 2025. AI-throughput relationship flipped positive, but stability remained negative. Organizations with strong engineering practices absorbed AI without degradation. https://dora.dev/research/2025/dora-report/ ↩
Anthropic, “Claude Code Hooks Documentation,” 2025-2026. Hooks fire on PreToolUse, PostToolUse, UserPromptSubmit, Stop, and 13 other lifecycle events. Each receives JSON context on stdin. https://docs.anthropic.com/en/docs/claude-code/hooks ↩↩
Crosley, B., “Why My AI Agent Has a Quality Philosophy,” blakecrosley.com, February 2026. Documents the 7-step quality loop and 6-criteria evidence gate. https://blakecrosley.com/blog/jiro-quality-philosophy ↩
Uplevel (a developer productivity platform), “Can Generative AI Improve Developer Productivity?”, 2024. Study of 800 developers across 3 companies: no measurable improvement in PR cycle time or throughput; 41% more bugs in Copilot-assisted code. https://uplevelteam.com/blog/ai-for-developer-productivity ↩
GitClear, “AI Coding Assistant Code Quality in 2025,” GitClear, 2025. Analysis of 211 million lines of code. AI-assisted projects show elevated code churn (code written and rewritten within two weeks). https://www.gitclear.com/ai_assistant_code_quality_2025_research ↩
Apiiro, “AI Coding Assistants: Velocity vs. Vulnerabilities,” Apiiro, 2025. Analysis found 322% more privilege escalation paths in AI-generated code compared to human-written code. https://apiiro.com/blog/4x-velocity-10x-vulnerabilities-ai-coding-assistants-are-shipping-more-risks/ ↩
Qodo, “State of AI Code Quality,” Qodo, 2025. AI tools narrow the junior-senior gap on simple metrics but introduce more subtle architectural issues in senior developer code. https://www.qodo.ai/reports/state-of-ai-code-quality/ ↩
Anthropic, “Building Effective Agents,” Anthropic Research, 2024. Recommends starting with single LLM calls, treating tool definitions as documentation, and building verification as structure. https://www.anthropic.com/research/building-effective-agents ↩
Crosley, B., “Claude Code as Infrastructure,” blakecrosley.com, February 2026. Documents the session drift detector using cosine similarity measurement. https://blakecrosley.com/blog/claude-code-as-infrastructure ↩