10%之墙:为什么AI生产力会触顶,以及如何突破
DX对450家公司的121,000名开发者进行了调查。92.6%的人至少每月使用AI编程助手。AI编写的代码现已占生产环境合并代码的26.9%。开发者报告每周大约节省四个小时。1然而生产力并未突破10%。
这个数字已经连续三个季度保持不变。1 2采用率在攀升。代码量在攀升。工具在改进。但收益没有。DX的CTO Laura Tacho直言不讳地指出:”这实际上是一个管理问题。炒作让人们以为只要尝试AI就能自动获得回报。”3
2025年DORA报告揭示了分化现象。拥有强大工程实践的组织看到AI放大了他们既有的优势。工程实践薄弱的组织则看到AI放大了他们既有的弊病。同样的工具,截然相反的结果。报告总结道:”AI在软件开发中的主要角色是放大器。它放大了高绩效组织的优势,也放大了陷入困境的组织的弊病。”4
这堵墙不是模型问题,而是基础设施问题。更好的模型无法突破一堵由缺失的验证、缺失的上下文和缺失的治理所筑成的墙。本文的姊妹篇描述了相应的架构:Anatomy of a Claw解释了编排层,The Fabrication Firewall解释了输出门控,Context Is Architecture解释了上下文注入系统。本文解释的是这些系统存在的原因。
摘要
121,000名开发者接受调查。92.6%的采用率。生产力停滞在10%。这堵墙之所以存在,是因为AI生成代码的速度远超组织验证、理解上下文和治理代码的能力。三个根本原因:上下文饥饿(AI在缺乏项目特定知识时会产生幻觉)、验证真空(代码发布的速度超过评审流程的适应速度)、以及治理缺口(AI绕过了人类本会执行的质量标准)。突破瓶颈需要围绕AI构建基础设施,而非追求更好的AI。证据显示:构建了验证和治理基础设施的组织将事故减少了一半;在没有基础设施的情况下采用AI的组织则将事故翻了一番。4 5这是构建此类基础设施的一次N=1尝试,并附有具体数据。它无法证明普遍适用性,但可以展示墙的另一面是什么样子。
调查数据揭示了什么
DX的数据集涵盖了2025年11月至2026年2月期间观测到的420万名开发者,其中包含一个由450家公司的121,000名开发者组成的详细调研面板。1这些数据讲述了两个故事。
采用率的故事毫无争议。 AI编程助手已接近普遍渗透。DX测得月度采用率为92.6%,周度使用率约75%。1 Stack Overflow 2025年调查发现84%的开发者正在使用或计划使用AI工具。6 JetBrains在194个国家的24,534名开发者中测得85%的常规使用率。7采用率的天花板已近在咫尺。
生产力的故事则已停滞。 DX测得每周平均节省四个小时,与上一季度的3.6小时相比基本没有变化。1 2 AI编写的代码从22%上升到26.9%,但额外的代码量并未转化为额外的产出。1 2 Laura Tacho指出了背后的算术逻辑:开发者大约20%的时间用于编写代码。在工作日20%的时间上实现10%的改进,整体改进只有2%。”打字速度从来都不是瓶颈所在。”8
| 指标 | 变化 | 来源 |
|---|---|---|
| AI采用率 | 76%升至92.6% | DX 2025年Q4至2026年Q11 2 |
| AI编写的代码 | 22%升至26.9% | DX 2025年Q4至2026年Q11 2 |
| 每周节省时间 | 3.6小时升至约4小时 | DX 2025年Q4至2026年Q11 2 |
| 生产力提升 | 约10%(未变化) | DX 2026年Q11 |
| 对AI准确性的信任度 | 40%降至29% | Stack Overflow 2024至20256 |
| 交付稳定性 | 每增加25% AI采用率降低7.2% | DORA 20245 |
最关键的是最后一行。DORA 2024年报告调查了39,000名专业人员,发现AI采用率每增加25%,交付吞吐量估计下降1.5%,交付稳定性下降7.2%。5 2025年DORA报告发现吞吐量有所恢复(关系从负相关转为正相关),但稳定性仍然为负。4即使吞吐量有所改善,AI采用率的增长仍与不稳定性的加剧相关。
分化现象比平均数更值得关注。METR研究了16名经验丰富的开源开发者处理246个真实代码库问题的情况,发现使用AI工具时他们花费的时间反而多了19%。9 Google对96名工程师进行的随机对照试验发现速度提升了21%,但该结果在统计学上并不显著(95%置信区间跨越零点)。10 McKinsey发现简单任务的效率提升为35-50%,但高复杂度任务的提升不到10%。11规律很明显:AI加速的恰恰是开发过程中从来就不是瓶颈的那些环节。
成功突破的公司并非使用了更好的模型,而是构建了能够捕获模型遗漏的基础设施。
这堵墙为何存在
三个根本原因解释了这一平台期。每个原因独立发挥作用,合在一起形成了更好的模型也无法穿透的天花板。
上下文饥饿
AI编程助手只能基于当前文件中可见的代码以及提示窗口中能容纳的上下文来工作。它不知道您的架构决策、您的API契约、您的部署约束或团队的命名规范——除非有人将这些信息注入其中。
缺少项目特定的上下文时,模型只能猜测。它会幻觉出符合常见惯例但实际不存在的文件路径。它会生成对匹配通用模式但不符合您的模式的API端点的调用。它会建议从您的项目并未使用的包中导入模块。12
Faros AI分析了来自1,255个团队的10,000名开发者的遥测数据,发现AI辅助的Pull Request比非辅助的大154%。12更大的PR意味着更多的上下文依赖型错误暴露面。AI自信地生成代码,代码能够编译通过,但代码没有考虑到记录在AI从未见过的Confluence页面上的约束条件。
这不是模型安全意义上的幻觉问题。模型的表现完全符合其设计:基于可用上下文预测最可能的代码。问题在于可用上下文排除了特定代码库中对正确性至关重要的大部分信息。
验证真空
AI生成代码的速度超过了现有评审流程的消化能力。Faros发现AI辅助的PR需要多花91%的时间来评审。12开发者完成的任务多了21%,合并的Pull Request多了98%,但评审管道只能处理人类速度的产出。12
斯坦福大学的不安全代码研究量化了安全维度。研究人员让47名开发者在有和没有AI辅助的情况下完成编程任务。在五个任务中的四个里,AI辅助组编写不安全代码的频率更高。在SQL注入任务中,AI组有36%编写了存在漏洞的代码,而对照组仅为7%。使用AI辅助的参与者更倾向于相信自己编写了安全的代码,即使事实并非如此。13更快的产出速度与更高的错误自信相结合,制造了人工评审在规模化条件下无法弥合的验证缺口。
GitClear分析了1.53亿行变更代码,发现代码翻搅率(代码在编写后两周内被重写的比率)预计在2024年比AI出现前的基线翻一番。14 AI工具带来的代码量增长产生的返工部分抵消了生产力的提升。Stack Overflow 2025年调查证实了这一摩擦:66%的开发者报告花费更多时间修复AI生成的”差一点就对”的代码。6
治理缺口
AI生成的代码绕过了人类开发者已经内化的治理机制。一名资深开发者知道要检查风格指南、运行代码检查器、更新变更日志、并就架构变更通知技术负责人。AI助手生成的解决方案只满足提示的要求。”能编译通过并通过测试”与”符合组织标准”之间的差距,就是治理缺口。
McKinsey 2023年的研究发现,使用AI的初级开发者慢了7-10%,而不是更快。11研究人员将此归因于生成代码与组织上下文之间的差距。初级开发者缺乏判断AI输出是否符合他们尚未内化的标准的能力。在没有将这些标准编码为自动化检查的治理基础设施的情况下,AI输出未经审查便流向下游。
治理缺口在团队间产生叠加效应。一个开发者AI生成的工具函数与另一个开发者已有的模块功能重复。两个AI生成的端点对同一个API使用了不同的错误格式。AI编写的数据库迁移采用了与团队标准不同的命名规范。每一个违规都很小,但累积效应是代码库偏离自身规范的速度超过了评审纠偏的速度。
墙的另一面是什么样子
DORA的发现描述了两个使用完全相同工具的群体。一个将事故减少了一半,另一个则翻了一番。4两者之间的变量不是他们使用了哪种AI,而是围绕AI构建的基础设施。
每个根本原因都对应一个基础设施解决方案。下表展示了从问题到解决方案的链条,并附有我构建并记录在姊妹篇中的一个具体实现。这是一次附有具体数据的尝试,而非通用处方。
| 根本原因 | 什么被破坏 | 基础设施修复 | 实现方式 |
|---|---|---|---|
| 上下文饥饿 | 幻觉路径、错误的API、遗漏的约束 | 在提示时注入上下文 | 9个hook在每次提示时注入日期、分支、项目文档和架构上下文15(详细架构) |
| 验证真空 | Bug的发布速度超过评审的捕获速度 | 独立测试执行、自动化评审 | Ralph自主循环:测试运行器验证每个变更,然后3个独立的评审代理(正确性、安全性、规范性)在合并前进行评估15(完整系统) |
| 治理缺口 | 标准被绕过、规范发生漂移 | 带有证据要求的自动化质量门禁 | 证据门禁:6项标准需要具体证明,7种命名的失败模式,模糊语言检测15(质量哲学) |
上下文注入通过确保模型在每次提示时接收项目特定信息来解决上下文饥饿问题。一个分发hook触发九个顺序处理器,注入当前日期、Git分支、工作目录、项目规范、活跃任务上下文和架构约束。模型在处理用户请求之前会收到200-400个token的锚定上下文。实测延迟:所有九个hook总计200毫秒。模型不再猜测文件路径,因为它已经被告知了实际路径。15
独立验证通过将人类从常规检查的验证瓶颈中解放出来,解决验证真空问题。自主开发循环(详见Anatomy of a Claw)生成代码、运行完整测试套件,并将结果提交给三个独立运行的评审代理。实现代理绝不评审自己的输出。这与斯坦福研究的发现一致:AI辅助组对不安全代码更有信心——无论作者是人类还是人工智能,自我验证都是不可靠的。13
自动化治理通过将团队标准编码为可执行检查来弥合治理缺口。Fabrication Firewall将每个对外操作分类为本地、共享或外部,将外部发布推迟到人工评审。质量门禁会阻止使用模糊语言(”应该可以”“看起来正确”)而非引用测试输出和文件路径的完成报告。该系统执行的是人类开发者如果有时间逐行评审就会应用的标准。在AI生成速度下,他们没有这个时间。
该组合系统在其自身的代码库上产生了可量化的结果:4,518个代码块被索引用于语义搜索,49,746个知识库块覆盖15,800个文件用于持久化记忆,测试套件在任何变更报告完成之前自动运行。15这些数字描述的是一个开发者的基础设施,无法证明该方法的普适性,但可以证明在正确的工具加持下,这堵墙是可以穿透的。
治理比率
Anatomy of a Claw中描述的hook系统包含84个hook。经过验证的计数按功能分类:35个判断型hook决定某件事是否应该发生,44个自动化hook执行预定义的操作。比例为4:5,最初为1:6。15
起始比率反映了大多数团队首先构建的内容:自动化。注入上下文、记录指标、格式化输出、记录使用情况。这些hook捕获的是每个人都能获得的那10%。它们自动化的是开发中在AI出现之前就已经部分自动化的机械性工作。DX的数据证实了这一点:每周节省的四个小时来自代码生成和样板代码的减少,而这些任务本就是开发周期中最快的部分。1
向判断型hook的转变反映了额外收益的来源。
| 投入 | 捕获的价值 | 阶段 |
|---|---|---|
| 自动化hook(注入、记录、格式化) | 最初的10% | 采用基线 |
| 判断型hook(验证、门禁、评审) | 接下来的10-30% | 突破阶段 |
| 组织层面整合(工作流、反馈循环) | 复利式增长 | 持续改善 |
McKinsey 2025年对近300家公司的调查发现,表现最好的组织实现了16-30%的生产力提升和31-45%的质量提升。16这些组织拥有80-100%的开发者采用率,并结合了组织层面的整合。区别因素不是采用率(采用率在各组织中普遍对应10%的收益),而是围绕采用率构建的基础设施和流程。
Laura Tacho的框架在此同样适用:”我对任何声称能在不解决深层约束的情况下提升绩效的技术都持怀疑态度。”3深层约束是判断约束。这段代码是否符合我们的标准?这个变更是否会破坏下游功能?这个输出是否包含捏造?自动化hook无法回答这些问题。判断型hook可以——虽然不完美——通过将经验丰富的开发者在头脑中应用的标准编码为规则来实现。
这个比率尚未达到均衡。系统自动化的仍然多于它治理的。这本身就是一个诊断信号:任何自动化hook数量超过判断型hook的编排层都有改进空间。
您真正需要构建的是什么
姊妹篇中描述的系统有84个hook、43个技能、19个代理和15,000行基础设施代码。您不需要15,000行。您需要三样东西。
一个上下文注入hook。 五行bash脚本,在每次AI提示中注入当前日期、分支和工作目录。这消除了整整一类幻觉:模型不再编造文件路径和分支名称,因为它已经有了真实的。
#!/bin/bash
# inject-context.sh — minimum viable context injection
echo "Date: $(date +%Y-%m-%d)"
echo "Branch: $(git branch --show-current 2>/dev/null || echo 'not a git repo')"
echo "Directory: $(pwd)"
一个质量门禁。 十五行脚本,在完成报告中搜索模糊语言。如果代理说”应该可以”而不是引用测试输出,门禁就会阻止。这以最低的入门成本解决了验证真空问题。15
#!/bin/bash
# quality-gate.sh — minimum viable verification
INPUT=$(cat)
HEDGES=$(echo "$INPUT" | grep -ciE '\bshould (work|pass|be fine)\b|\bprobably\b|\blooks correct\b')
if [ "$HEDGES" -gt 0 ]; then
echo '{"decision":"block","reason":"Hedging language detected. Cite test output instead."}'
else
echo '{"decision":"allow"}'
fi
一个独立测试运行器。 在每次代码变更后运行项目测试套件的hook,如果测试失败则大声报错。实现因项目而异,但原则不变:编写代码的代理绝不能是该代码的唯一裁判。
从您工作流中最常出问题的地方开始。如果您的AI经常幻觉文件路径,先构建上下文hook。如果您的AI发布未经测试的代码,先构建测试运行器。如果您的AI写”完成”却没有证据,先构建质量门禁。
Karpathy描述了从随性编码到代理工程的演进:”编排执行[工作]的代理,并充当监督者。”17上述三个hook就是最小可行的监督机制。它们不会产生30%的收益,但会将您从10%推向15%,而您添加的每一个都会揭示下一个值得解决的约束。
这堵墙是真实的,但它也是具体的。上下文饥饿、验证真空和治理缺口是工程问题,有工程解决方案。模型会持续改进。但对于每一个将AI视为代码生成器而非需要基础设施来治理其输出的系统的团队来说,这堵墙将永远停在10%。
来源
-
Ivan Brezak Brkan, “This CTO Says 93% of Developers Use AI – but Productivity Is Still ~10%,” ShiftMag, February 18, 2026, shiftmag.dev. Data from DX, based on 121,000+ developers across 450+ companies and a broader pool of 4.2 million developers observed November 2025 to February 2026. ↩↩↩↩↩↩↩↩↩↩↩
-
Laura Tacho, “AI-Assisted Engineering: Q4 Impact Report,” DX, November 4, 2025, getdx.com. Data from 135,000+ developers across 435 companies, July to October 2025. ↩↩↩↩↩↩
-
Laura Tacho, quoted in Brkan, “This CTO Says 93% of Developers Use AI.” Full quote: “This is really a management problem. The hype made it sound like just trying AI would automatically pay off.” ↩↩
-
DORA, Accelerate State of AI-assisted Software Development 2025, Google, September 29, 2025, dora.dev. Nearly 5,000 technology professionals surveyed. Key finding: “AI’s primary role in software development is that of an amplifier.” ↩↩↩↩
-
DORA, Accelerate State of DevOps Report 2024, Google, October 2024, dora.dev. 39,000+ professionals surveyed. For every 25% increase in AI adoption: estimated 1.5% decrease in delivery throughput, 7.2% decrease in delivery stability. ↩↩↩
-
Stack Overflow, 2025 Developer Survey, July 29, 2025, survey.stackoverflow.co. 49,000+ developers from 177 countries. AI trust at historic low: 29% (down from 40%). 46% actively distrust AI accuracy. 66% report spending more time fixing “almost-right” AI-generated code. ↩↩↩
-
JetBrains, State of Developer Ecosystem 2025, October 2025, blog.jetbrains.com. 24,534 developers across 194 countries. 85% regular AI tool usage; 23% cite code quality as top concern. ↩
-
Laura Tacho, interviewed by Gergely Orosz, “Measuring the Impact of AI on Software Engineering,” Pragmatic Engineer, July 23, 2025, newsletter.pragmaticengineer.com. “Typing speed has never been the bottleneck.” ↩
-
Joel Becker, Nate Rush, Elizabeth Barnes, and David Rein, “Measuring the Impact of Early-2025 AI on Experienced Open-Source Developer Productivity,” METR, July 10, 2025, metr.org. 16 experienced developers, 246 real repository issues. Developers took 19% longer with AI tools. ↩
-
Elise Paradis et al., “How Much Does AI Impact Development Speed? An Enterprise-Based Randomized Controlled Trial,” arXiv preprint, October 16, 2024, arxiv.org. 96 Google engineers. ~21% speed improvement, not statistically significant (95% CI: [-0.51, 0.03]). ↩
-
Begum Karaci Deniz et al., “Unleashing Developer Productivity with Generative AI,” McKinsey, June 27, 2023, mckinsey.com. 40 McKinsey developers. Gains of 35-50% on simple tasks; less than 10% on high-complexity tasks. Junior developers 7-10% slower. ↩↩
-
Neely Dunlap, “The AI Productivity Paradox Research Report,” Faros AI, July 23, 2025 (updated January 8, 2026), faros.ai. 10,000+ developers across 1,255 teams. AI-assisted PRs: 9% more bugs, 91% longer reviews, 154% larger. Developers complete 21% more tasks and merge 98% more PRs. ↩↩↩↩
-
Neil Perry, Megha Srivastava, Deepak Kumar, and Dan Boneh, “Do Users Write More Insecure Code with AI Assistants?” in CCS ‘23: Proceedings of the 2023 ACM SIGSAC Conference, November 2023, arxiv.org. 47 participants. AI-assisted group wrote insecure solutions more often in 4 of 5 tasks. SQL injection vulnerability: 36% AI group vs. 7% control. ↩↩
-
William Harding and Matthew Kloster, “Coding on Copilot: 2023 Data Suggests Downward Pressure on Code Quality,” GitClear, January 2024, gitclear.com. 153 million changed lines of code analyzed. Code churn projected to double in 2024 compared to 2021 pre-AI baseline. ↩
-
Author’s analysis. Hook system described in “Anatomy of a Claw: 84 Hooks as an Orchestration Layer.” Output firewall described in “The Fabrication Firewall.” Context injection described in “Context Is Architecture.” Quality system described in “Jiro Quality Philosophy.” Verified counts: 84 hooks (35 judgment, 44 automation), 43 skills, 19 agents, 30+ library modules, ~15,000 lines of code. Semantic code search: 4,518 chunks indexed across 653 files. Persistent memory: 49,746 chunks across 15,800 files. ↩↩↩↩↩↩↩
-
McKinsey, “Unlocking the Value of AI in Software Development,” November 3, 2025, mckinsey.com. Nearly 300 publicly traded companies. Highest performers: 16-30% productivity, 31-45% quality improvement. Companies with 80-100% developer adoption saw gains of 110%+. ↩
-
Andrej Karpathy, post on X, February 4, 2026. “Many people have tried to come up with a better name…my current favourite: ‘agentic engineering.’ ‘Agentic’ because the new default is that you are not writing the code directly 99% of the time, you are orchestrating agents who do and acting as oversight.” ↩