10%之牆：AI生產力為何停滯不前

4分鐘閱讀

From the guide: Claude Code Comprehensive Guide

DX調查了450家公司的121,000名開發者。92.6%至少每月使用AI程式碼助手。AI撰寫的程式碼現佔生產環境合併的26.9%。開發者回報每週約節省四小時。¹ 生產力始終未突破10%。

這個數字已連續三個季度維持不變。¹ ² 採用率攀升了。程式碼量攀升了。工具改進了。收益卻沒有。DX技術長Laura Tacho直言：「這其實是管理問題。炒作讓大家以為只要試用AI就能自動獲得回報。」³

2025年DORA報告揭示了分化現象。擁有強健工程實踐的組織，AI放大了其既有優勢。工程實踐薄弱的組織，AI放大了其既有問題。相同的工具，截然相反的結果。報告總結：「AI在軟體開發中的主要角色是放大器。它放大高績效組織的優勢，也放大掙扎中組織的問題。」⁴

這道牆不是模型問題，而是基礎設施問題。更好的模型無法突破由缺乏驗證、缺乏脈絡和缺乏治理所築成的牆。本文的姊妹篇描述了這套架構：Anatomy of a Claw說明協調層，The Fabrication Firewall說明輸出閘門，Context Is Architecture說明脈絡注入系統。以下內容說明這些系統存在的原因。

TL;DR

121,000名開發者受訪，92.6%採用率，生產力卡在10%。三個根本原因解釋了這個天花板：脈絡匱乏（AI在缺乏專案知識的情況下只能猜測）、驗證真空（程式碼產出速度超過審查適應速度）、以及治理缺口（AI繞過了人類所執行的標準）。DORA發現AI會放大優勢或問題，取決於周圍的基礎設施。⁴ 突破瓶頸需要的是圍繞AI的基礎設施，而非更好的AI。本文記錄了一個N=1的基礎設施建構嘗試，附有來自一個運行84個hook、43個skill和19個agent的系統的具體數據。

調查數據顯示什麼

DX的資料集涵蓋2025年11月至2026年2月間觀測的420萬名開發者，其中包含一個橫跨450家公司、121,000名開發者的詳細樣本。¹ 這些數字講述了兩個故事。

採用率的故事毫無疑義。 AI程式碼助手已達到近乎普及的滲透率。DX測得92.6%的月度採用率和約75%的週度使用率。¹ Stack Overflow的2025年調查發現84%的開發者正在使用或計劃使用AI工具。⁶ JetBrains在194個國家的24,534名開發者中測得85%的常規使用率。⁷ 採用率的天花板已近在咫尺。

生產力的故事已經停滯。 DX測得平均每週節省四小時，與前一季度的3.6小時相比基本持平。¹ ² AI撰寫的程式碼從合併程式碼的22%上升至26.9%，但額外的量並未轉化為額外的產出。¹ ² Laura Tacho點出了其中的數學關係：開發者大約花20%的時間撰寫程式碼。對工作日20%的環節提升10%，整體只改善了2%。「打字速度從來都不是瓶頸。」⁸

指標	變化	來源
AI採用率（月度）	92.6%	DX 2026年第一季¹
AI撰寫的程式碼	22%升至26.9%	DX 2025年第四季至2026年第一季¹ ²
每週節省時數	3.6升至約4	DX 2025年第四季至2026年第一季¹ ²
生產力提升	約10%（未變）	DX 2026年第一季¹
對AI準確性的信任	43%降至29%（綜合信任度）	Stack Overflow 2024至2025⁶
交付穩定性	每增加25% AI採用率下降-7.2%	DORA 2024⁵

關鍵在最後一行。DORA的2024年報告調查了39,000名專業人士，發現每增加25%的AI採用率，交付吞吐量預估下降1.5%，交付穩定性下降7.2%。⁵ 2025年DORA報告發現，AI與吞吐量的關係從2024年觀察到的負相關轉為正相關，但交付穩定性仍與AI採用率呈負相關。⁴ 即使吞吐量有所改善，AI採用率仍持續與不穩定性增加相關。

分化比平均值更重要。METR研究了16名經驗豐富的開源開發者處理246個真實儲存庫議題的情況，發現使用AI工具比不使用多花了19%的時間。⁹ Google對96名工程師進行的隨機對照試驗發現速度提升了21%，但該結果不具統計顯著性（95%信賴區間跨越零點）。¹⁰

McKinsey發現簡單任務有35-50%的提升，但高複雜度任務不到10%，而在一項針對自家40名開發者的研究中，初級開發者使用AI反而慢了7-10%。¹¹ 規律很明確：AI加速的是開發中從來都不是瓶頸的環節。

突破瓶頸的公司並非使用了更好的模型，而是建構了能夠捕捉模型遺漏的基礎設施。

為何存在這道牆

三個根本原因解釋了這個停滯現象。每個原因獨立運作，合在一起形成了更好的模型無法穿透的天花板。

脈絡匱乏

AI程式碼助手基於當前檔案中可見的程式碼以及prompt視窗能容納的脈絡來運作。除非有人注入這些資訊，否則它們不知道您的架構決策、您的API合約、您的部署限制或團隊的命名慣例。

缺乏專案特定的脈絡，模型只能猜測。它會幻想出遵循合理慣例但實際不存在的檔案路徑。它會產生呼叫符合常見模式但不符合您的模式的API。它會建議從您專案未使用的套件匯入。¹²

Faros AI分析了來自1,255個團隊、10,000名開發者的遙測資料，發現AI輔助的pull request比非輔助的大了154%。¹² 更大的PR帶來更多脈絡相依錯誤的表面積。AI自信地產生程式碼。程式碼能編譯。但程式碼沒有考慮到記錄在AI從未看過的Confluence頁面上的限制條件。

這種行為並非模型安全意義上的幻覺問題。模型完全按照設計運作：根據可用脈絡預測可能的程式碼。問題在於，可用脈絡排除了在特定程式碼庫中對正確性至關重要的大部分資訊。

驗證真空

AI產生程式碼的速度超過了現有審查流程所能吸收的速度。Faros發現AI輔助的PR審查時間延長了91%。¹² 開發者完成的任務增加了21%，合併的pull request增加了98%，但審查管線只能處理人類速度的產出。¹²

Stanford的不安全程式碼研究量化了安全面向。研究人員讓47名開發者在有無AI輔助的情況下完成程式設計任務。AI輔助組在五項任務中的四項寫出了更多不安全的解決方案。在SQL注入任務中，AI組有36%寫出了有漏洞的程式碼，而對照組只有7%。使用AI輔助的參與者更傾向於相信自己寫出了安全的程式碼，即使實際上並非如此。¹³ 更快的產出加上更高的錯誤自信，造成了人工審查無法在規模上彌補的驗證缺口。

GitClear分析了1.53億行變更程式碼，發現程式碼異動率（撰寫後兩週內被重寫的程式碼）預計在2024年相對於AI之前的基準翻倍。¹⁴ AI工具帶來的量增加造成了部分抵消生產力收益的返工。Stack Overflow的2025年調查證實了這個摩擦：66%的開發者表示花了更多時間修復「差一點就對」的AI產生程式碼。⁶

治理缺口

AI產生的程式碼繞過了人類開發者內化的治理機制。一位資深開發者知道要檢查風格指南、執行linter、更新changelog，以及在架構變更時通知團隊主管。AI助手產生的解決方案只滿足prompt的要求。「能編譯且通過測試」和「符合組織標準」之間的差距就是治理。

McKinsey的研究人員將初級開發者的速度下降歸因於產生的程式碼與組織脈絡之間的差距。初級開發者缺乏判斷AI產出是否符合他們尚未內化的標準的能力。沒有將這些標準編碼為自動化檢查的治理基礎設施，AI產出就會在未經檢查的情況下流向下游。

治理缺口在團隊間會複合累積。一個開發者的AI產生工具函式重複了另一個開發者已有的模組。兩個AI產生的端點對同一個API使用了不同的錯誤格式。AI撰寫的遷移腳本遵循了與團隊標準不同的命名慣例。每個違規都很小。累積的效果是程式碼庫偏離自身慣例的速度超過了審查能夠糾正的速度。

牆的另一邊是什麼樣子

DORA的發現描述了使用相同工具的兩個群體。擁有強健實踐的組織，AI放大了其優勢。實踐薄弱的組織，AI放大了其問題。⁴ 區別它們的變數不是使用哪個AI，而是AI周圍的基礎設施。

每個根本原因都對應一個基礎設施修復方案。下表從問題到解決方案進行對映，並附上一個我在姊妹篇中建構和記錄的系統的具體實作。此範例是一個有具體數據的嘗試，而非通用處方。

根本原因	破壞了什麼	基礎設施修復	實作方式
脈絡匱乏	幻想的路徑、錯誤的API、缺失的限制條件	在prompt時注入脈絡	每次prompt觸發9個hook，注入日期、分支、專案文件和架構脈絡¹⁵（詳細架構）
驗證真空	錯誤的發布速度超過審查的發現速度	獨立測試執行、自動化審查	Ralph自主迴圈：測試執行器驗證每項變更，然後3個獨立審查agent（正確性、安全性、慣例）在合併前評估¹⁵（完整系統）
治理缺口	標準被繞過、慣例偏移	帶有證據要求的自動化品質閘門	證據閘門：6項標準需附證明，7種具名失敗模式，模糊語言偵測¹⁵（品質哲學）

脈絡注入透過確保模型在每次prompt時都收到專案特定資訊來解決匱乏問題。一個dispatcher hook觸發九個序列處理器，注入當前日期、Git分支、工作目錄、專案慣例、活動任務脈絡和架構限制。模型在處理使用者請求之前會收到200-400個token的定錨脈絡。測量延遲：所有九個hook共計200毫秒。模型不再猜測檔案路徑，因為它已被告知實際路徑。¹⁵

獨立驗證透過將人類從例行檢查的驗證瓶頸中移除來解決真空問題。自主開發迴圈（記錄於Anatomy of a Claw）產生程式碼、執行完整測試套件，並將結果提交給三個獨立運作的審查agent。實作agent永遠不會審查自己的產出。這種分離呼應了Stanford研究的發現：AI輔助組對不安全的程式碼更有信心——無論作者是人類還是人工智慧，自我驗證都不可靠。¹³

自動化治理透過將團隊標準編碼為可執行檢查來解決缺口問題。The Fabrication Firewall將每個對外操作分類為本地、共享或外部，將外部發布推遲給人工審查。品質閘門會阻止使用模糊語言（「應該可以」、「看起來正確」）而不引用測試輸出和檔案路徑的完成報告。系統執行的是有經驗的開發者在有時間審查每一行程式碼時會應用的標準。在AI產生速度下，他們沒有這個時間。

這套組合系統在其自身的程式碼庫上產生了可衡量的結果：4,518個程式碼區塊用於語義搜索索引，49,746個vault區塊橫跨15,800個檔案用於持久記憶，以及一個在任何變更報告完成前自動執行的測試套件。¹⁵ 這些數字描述的是一位開發者的基礎設施。它們無法證明這種方法具有普遍性。但它們能夠證明，只要另一邊有合適的工具，這道牆是可以穿透的。

AI基礎設施成熟度模型：從聊天框（1倍，複製貼上）到IDE Copilot（約1.1倍，行內補全）、自訂脈絡（約1.2倍，CLAUDE.md和hook）、驗證自動化（約1.3倍，品質閘門和證據要求）、到完整基礎設施（1.3-1.5倍以上，自主迴圈和多agent審查），共五個等級。每個等級顯示其能力、停滯點，以及下一步該建構什麼。

基礎設施缺口審計：回答8個關於您AI程式碼設定的是非題，以評估您的基礎設施是否解決了脈絡匱乏、驗證真空和治理缺口。評分：解決0-2個缺口＝「牆下」，3-5個＝「在牆邊」，6-8個＝「正在突破」。每個缺口連結到相關姊妹篇以獲取實作細節。

治理比率

Anatomy of a Claw中描述的hook系統包含84個hook。經過驗證的計數按功能區分：35個判斷hook決定某件事是否應該發生，44個自動化hook執行預定操作，以及5個工具hook（dispatcher、狀態管理）。治理比率為4:5。起初是1:6。¹⁵

起始比率反映了大多數團隊首先建構的東西：自動化。注入脈絡。記錄指標。格式化輸出。記錄使用量。這些hook捕獲了人人都能獲得的那10%。它們自動化了開發中在AI之前就已經部分自動化的機械性部分。DX的資料證實了這一點：每週節省的四小時來自程式碼產生和樣板程式碼簡化，這些任務本來就是開發週期中最快的部分。¹

向判斷hook的轉移反映了額外收益的來源。

投入	捕獲什麼	階段
自動化hook（注入、記錄、格式化）	最初的10%	採用基準線
判斷hook（驗證、閘門、審查）	接下來的10-30%	突破中
組織整合（工作流程、回饋迴圈）	複合收益	持續改善

McKinsey 2025年對近300家上市公司的調查發現，最高績效者的生產力提升了16-30%，品質提升了31-45%。¹⁶ 這些組織擁有80-100%的開發者採用率以及組織整合。區別因素不是採用率（採用率在所有組織中都與10%的收益相關），而是圍繞該採用率建構的基礎設施和流程。

Laura Tacho的闡述在此適用：「我對任何聲稱無需解決底層限制就能提升績效的技術持懷疑態度。」³ 底層限制是判斷限制。這段程式碼是否符合我們的標準？這個變更是否會破壞下游某些東西？這個產出是否包含捏造內容？自動化hook無法回答這些問題。判斷hook可以——雖然不完美——透過編碼資深開發者在心理上應用的標準來實現。

這個比率尚未達到均衡。系統仍然自動化多於治理。這種失衡本身就是一個診斷指標：任何自動化hook多於判斷hook的協調層都有改善空間。

您真正需要建構的東西

姊妹篇中描述的系統有84個hook、43個skill、19個agent和15,000行基礎設施程式碼。¹⁵ 您不需要15,000行。您需要三樣東西。

一個脈絡注入hook。 五行bash腳本，在每次AI prompt中注入當前日期、分支和工作目錄。這個注入消除了一整類幻覺：模型不再憑空發明檔案路徑和分支名稱，因為它已經有了真實的資訊。

#!/bin/bash
# inject-context.sh — minimum viable context injection
echo "Date: $(date +%Y-%m-%d)"
echo "Branch: $(git branch --show-current 2>/dev/null || echo 'not a git repo')"
echo "Directory: $(pwd)"

一個品質閘門。 十五行腳本，在完成報告中搜尋模糊語言。如果agent說「應該可以」而不是引用測試輸出，閘門就會阻止。這個閘門以最低成本的切入點解決了驗證真空問題。¹⁵

#!/bin/bash
# quality-gate.sh — minimum viable verification
INPUT=$(cat)
HEDGES=$(echo "$INPUT" | grep -ciE '\bshould (work|pass|be fine)\b|\bprobably\b|\blooks correct\b')
if [ "$HEDGES" -gt 0 ]; then
  echo '{"decision":"block","reason":"Hedging language detected. Cite test output instead."}'
else
  echo '{"decision":"allow"}'
fi

一個獨立測試執行器。 一個在每次程式碼變更後執行專案測試套件的hook，測試失敗時大聲報錯。具體實作因專案而異。原則不變：撰寫程式碼的agent不能是該程式碼的唯一裁判。

從您工作流程中最常出問題的地方開始。如果您的AI幻想檔案路徑，先建構脈絡hook。如果您的AI發布未測試的程式碼，先建構測試執行器。如果您的AI在沒有證據的情況下寫「完成」，先建構品質閘門。

Karpathy描述了從vibe coding到agentic engineering的演進：「協調執行[工作]的agent並擔任監督角色。」¹⁷ 上述三個hook是最小可行監督。它們不會產生30%的收益。但它們會讓您從10%向15%邁進，而每增加一個hook都會揭示下一個值得解決的限制。

這道牆是真實的。但它也是具體的。脈絡匱乏、驗證真空和治理缺口是工程問題，有工程解決方案。模型會持續改進。但對於每個將AI視為程式碼產生器而非需要基礎設施來治理其產出的系統的團隊，這道牆將始終停在10%。

重點摘要

給個人開發者。 從一個脈絡注入hook開始。五行bash腳本注入日期、分支和工作目錄，就能消除一整類AI幻覺。當模型知道您的實際檔案路徑而不是猜測時，這道牆就開始瓦解。

給團隊主管。 衡量您的治理比率：您的AI hook中有多少在驗證產出，又有多少在自動化任務。如果自動化hook多於判斷hook，您的團隊只捕獲了最初的10%。DX的資料證實，每週節省的四小時來自程式碼產生——這本來就是開發週期中最快的環節。¹

給平台工程師。 在擴大AI採用之前先建構驗證層。DORA發現，在沒有工程基礎設施的情況下部署AI的組織，不穩定性隨採用率增加。⁴ ⁵ 三個根本原因對應三個基礎設施修復方案。從您管線中造成最多摩擦的那個開始。

參考資料

Ivan Brezak Brkan, “This CTO Says 93% of Developers Use AI – but Productivity Is Still ~10%,” ShiftMag, February 18, 2026, shiftmag.dev. Data from DX (a developer analytics company), based on 121,000+ developers across 450+ companies and a broader pool of 4.2 million developers observed November 2025 to February 2026. ↩↩↩↩↩↩↩↩↩↩↩↩
Laura Tacho, “AI-Assisted Engineering: Q4 Impact Report,” DX, November 4, 2025, getdx.com. Data from 135,000+ developers across 435 companies, July to October 2025. ↩↩↩↩↩
Laura Tacho, quoted in Brkan, “This CTO Says 93% of Developers Use AI.” Full quote: “This is really a management problem. The hype made it sound like just trying AI would automatically pay off.” ↩↩
DORA, Accelerate State of AI-assisted Software Development 2025, Google, September 29, 2025, dora.dev. Nearly 5,000 technology professionals surveyed. Key finding: “AI’s primary role in software development is that of an amplifier.” ↩↩↩↩↩
DORA, Accelerate State of DevOps Report 2024, Google, October 2024, dora.dev. 39,000+ professionals surveyed. For every 25% increase in AI adoption: estimated 1.5% decrease in delivery throughput, 7.2% decrease in delivery stability. ↩↩↩
Stack Overflow, 2025 Developer Survey, July 29, 2025, survey.stackoverflow.co. 49,000+ total respondents from 177 countries. Combined trust declined from 43% (2024) to 29% (2025). Nearly 46% actively distrust AI accuracy (26.1% somewhat + 19.6% highly). 66% report spending more time fixing “almost-right” AI-generated code. ↩↩↩
JetBrains, State of Developer Ecosystem 2025, October 2025, blog.jetbrains.com. 24,534 developers across 194 countries. 85% regular AI tool usage; 23% cite code quality as top concern. ↩
Laura Tacho, interviewed by Gergely Orosz, “Measuring the Impact of AI on Software Engineering,” Pragmatic Engineer, July 23, 2025, newsletter.pragmaticengineer.com. “Typing speed has never been the bottleneck.” ↩
Joel Becker, Nate Rush, Elizabeth Barnes, and David Rein, “Measuring the Impact of Early-2025 AI on Experienced Open-Source Developer Productivity,” METR, July 10, 2025, metr.org. 16 experienced developers, 246 real repository issues. Developers took 19% longer with AI tools. ↩
Elise Paradis et al., “How Much Does AI Impact Development Speed? An Enterprise-Based Randomized Controlled Trial,” arXiv preprint, October 16, 2024, arxiv.org. 96 Google engineers. ~21% speed improvement, not statistically significant (95% CI: [-0.51, 0.03]). ↩
Begum Karaci Deniz et al., “Unleashing Developer Productivity with Generative AI,” McKinsey, June 27, 2023, mckinsey.com. 40 McKinsey developers. Gains of 35-50% on simple tasks; less than 10% on high-complexity tasks. Junior developers 7-10% slower. ↩
Neely Dunlap, “The AI Productivity Paradox Research Report,” Faros AI (a DevOps analytics vendor), July 23, 2025 (updated January 8, 2026), faros.ai. 10,000+ developers across 1,255 teams. AI-assisted PRs: 9% more bugs, 91% longer reviews, 154% larger. Developers complete 21% more tasks and merge 98% more PRs. ↩↩↩↩
Neil Perry, Megha Srivastava, Deepak Kumar, and Dan Boneh, “Do Users Write More Insecure Code with AI Assistants?” in CCS ‘23: Proceedings of the 2023 ACM SIGSAC Conference, November 2023, arxiv.org. 47 participants. AI-assisted group wrote insecure solutions more often in 4 of 5 tasks. SQL injection vulnerability: 36% AI group vs. 7% control. ↩↩
William Harding and Matthew Kloster, “Coding on Copilot: 2023 Data Suggests Downward Pressure on Code Quality,” GitClear (a code analytics vendor), January 2024, gitclear.com. 153 million changed lines of code analyzed. Code churn projected to double in 2024 compared to 2021 pre-AI baseline. ↩
Author’s analysis. Hook system described in “Anatomy of a Claw: 84 Hooks as an Orchestration Layer.” Output firewall described in “The Fabrication Firewall.” Context injection described in “Context Is Architecture.” Quality system described in “Jiro Quality Philosophy.” Verified counts: 84 hooks (35 judgment, 44 automation), 43 skills, 19 agents, 30+ library modules, ~15,000 lines of code. Semantic code search: 4,518 chunks indexed across 653 files. Persistent memory: 49,746 chunks across 15,800 files. ↩↩↩↩↩↩↩↩
McKinsey, “Unlocking the Value of AI in Software Development,” November 3, 2025, mckinsey.com. Nearly 300 publicly traded companies. Highest performers: 16-30% productivity, 31-45% quality improvement. Companies with 80-100% developer adoption saw gains of 110%+. ↩
Andrej Karpathy, post on X, February 4, 2026. “Many people have tried to come up with a better name…my current favourite: ‘agentic engineering.’ ‘Agentic’ because the new default is that you are not writing the code directly 99% of the time, you are orchestrating agents who do and acting as oversight.” ↩