10%の壁:AI生産性が頭打ちになる理由と、それを突破するもの
DXは450社にわたる121,000人の開発者を調査しました。92.6%が少なくとも月1回はAIコーディングアシスタントを使用しています。AIが書いたコードは本番マージの26.9%を占めるようになりました。開発者は週あたり約4時間の節約を報告しています。1 しかし、生産性は10%を超えていません。
この数字は3四半期連続で変わっていません。1 2 導入率は上がりました。コード量も増えました。ツールも改善されました。しかし成果は伸びませんでした。DXのCTOであるLaura Tachoは率直にこう述べています:「これは本質的にマネジメントの問題です。AIを試すだけで自動的に成果が出るかのような誇大広告がまかり通っていました。」3
2025年のDORAレポートはこの乖離を明らかにしました。優れたエンジニアリングプラクティスを持つ組織では、AIが既存の強みを増幅しました。脆弱なプラクティスしか持たない組織では、AIが既存の機能不全を増幅しました。同じツール。正反対の結果。レポートはこう結論付けています:「ソフトウェア開発におけるAIの主要な役割はアンプリファイアーです。高パフォーマンス組織の強みと、苦戦する組織の機能不全を、いずれも拡大します。」4
壁はモデルの問題ではありません。インフラの問題です。検証の欠如、コンテキストの欠如、ガバナンスの欠如から成る壁を、より優れたモデルでは突破できません。この記事の関連投稿がそのアーキテクチャを説明しています:Anatomy of a Clawはオーケストレーションレイヤーを、The Fabrication Firewallは出力ゲートを、Context Is Architectureはコンテキスト注入システムを解説しています。本記事では、それらのシステムがなぜ必要なのかを説明します。
TL;DR
121,000人の開発者を調査。92.6%の導入率。生産性は10%で停滞。壁が存在するのは、AIが組織の検証・文脈化・統制の能力を超える速度でコードを生成するためです。3つの根本原因があります:コンテキスト飢餓(プロジェクト固有の知識がなければAIは幻覚を生む)、検証の真空(コードがレビュープロセスの適応より速く出荷される)、ガバナンスのギャップ(人間が担保していた品質基準をAIが迂回する)。突破に必要なのは、より優れたAIではなく、AIの周囲のインフラです。エビデンス:検証とガバナンスのインフラを構築した組織はインシデントを半減させ、インフラなしにAIを導入した組織はインシデントを倍増させました。4 5 これは、そのインフラ構築に対する具体的な数値を伴ったN=1の試みです。一般化可能性を証明するものではありません。しかし、壁の向こう側がどのようなものかを示すことはできます。
調査が示すもの
DXのデータセットは、2025年11月から2026年2月の間に観測された420万人の開発者を対象とし、450社にわたる121,000人の開発者の詳細パネルを含んでいます。1 そこから2つのストーリーが読み取れます。
導入のストーリーは明確です。 AIコーディングアシスタントはほぼ普遍的な浸透に達しました。DXは月間92.6%の導入率と約75%の週間利用率を測定しました。1 Stack Overflowの2025年調査では、84%の開発者がAIツールを使用している、または使用予定であることがわかりました。6 JetBrainsは194カ国の24,534人の開発者を対象に85%の常用率を測定しました。7 導入の天井は近いです。
生産性のストーリーは停滞しています。 DXは週あたり平均4時間の節約を測定しましたが、これは前四半期の3.6時間からほぼ横ばいです。1 2 AIが書いたコードは22%から26.9%に増加しましたが、追加のボリュームは追加のアウトプットにつながりませんでした。1 2 Laura Tachoはその算数をこう示しました:開発者がコードを書くのに費やす時間は全体の約20%です。業務時間の20%に対する10%の改善は、全体では2%の改善にすぎません。「タイピング速度がボトルネックだったことは一度もありません。」8
| 指標 | 変動 | 出典 |
|---|---|---|
| AI導入率 | 76%→92.6% | DX 2025年Q4→2026年Q11 2 |
| AIが書いたコード | 22%→26.9% | DX 2025年Q4→2026年Q11 2 |
| 週あたり節約時間 | 3.6→約4時間 | DX 2025年Q4→2026年Q11 2 |
| 生産性向上 | 約10%(変化なし) | DX 2026年Q11 |
| AI精度への信頼 | 40%→29% | Stack Overflow 2024→20256 |
| デリバリー安定性 | AI導入25%ごとに-7.2% | DORA 20245 |
最も重要な行は最後の行です。DORAの2024年レポートは39,000人の専門家を調査し、AI導入率が25%増加するごとにデリバリースループットが推定1.5%低下し、デリバリー安定性が7.2%低下することを発見しました。5 2025年のDORAレポートでは、スループットは回復しました(負の相関から正の相関に転じました)が、安定性は依然として負のままでした。4 スループットが改善してもなお、AI導入は不安定性の増大と相関し続けていたのです。
平均値よりも乖離が重要です。METRは246件の実際のリポジトリ課題に取り組む16人の経験豊富なオープンソース開発者を研究し、AIツールを使用した場合に19%長く時間がかかることを発見しました。9 Googleの96人のエンジニアを対象としたランダム化比較試験では21%の速度向上が見られましたが、統計的に有意ではありませんでした(95%信頼区間がゼロをまたいでいます)。10 McKinseyは単純なタスクで35〜50%の向上を見出しましたが、高複雑性タスクでは10%未満でした。11 パターンは明確です:AIが加速するのは、もともとボトルネックではなかった部分なのです。
壁を突破した企業は、より優れたモデルを使ったのではありません。モデルが見逃すものを捕捉するインフラを構築したのです。
壁が存在する理由
3つの根本原因がこの頭打ちを説明します。それぞれが独立して作用し、合わさることでより優れたモデルでは突破できない天井を形成します。
コンテキスト飢餓
AIコーディングアシスタントは、現在のファイルに表示されるコードとプロンプトウィンドウに収まるコンテキストだけで動作します。誰かがその情報を注入しない限り、あなたのアーキテクチャ上の判断、APIの規約、デプロイの制約、チームの命名規則を知ることはありません。
プロジェクト固有のコンテキストがなければ、モデルは推測します。もっともらしい規則に従いつつ実在しないファイルパスを幻覚します。一般的なパターンには合致するがあなたのパターンには合致しないエンドポイントへのAPI呼び出しを生成します。プロジェクトで使用していないパッケージからのインポートを提案します。12
Faros AIは1,255チームにわたる10,000人の開発者のテレメトリを分析し、AIが支援したプルリクエストはそうでないものと比べて154%大きいことを発見しました。12 大きなプルリクエストはコンテキスト依存のエラーの表面積が広くなります。AIは自信を持ってコードを生成します。コードはコンパイルできます。しかしそのコードは、AIが一度も見たことのないConfluenceのページに記載された制約を考慮していません。
これはモデル安全性の意味でのハルシネーション問題ではありません。モデルは設計通りに動作しています:利用可能なコンテキストに基づいて確からしいコードを予測するのです。問題は、利用可能なコンテキストが特定のコードベースでの正確性にとって重要な情報のほとんどを除外していることです。
検証の真空
AIは既存のレビュープロセスが吸収できる速度を超えてコードを生成します。Farosは、AIが支援したプルリクエストのレビューに91%長い時間がかかることを発見しました。12 開発者は21%多くのタスクを完了し、98%多くのプルリクエストをマージしますが、レビューパイプラインは人間の速度の出力を前提に設計されています。12
Stanfordの安全でないコードに関する研究は、セキュリティの側面を定量化しました。研究者は47人の開発者にAIアシスタントの有無でコーディングタスクを与えました。AIの支援を受けたグループは、5つのタスクのうち4つでより頻繁に安全でないソリューションを書きました。SQLインジェクションのタスクでは、AIグループの36%が脆弱なコードを書いたのに対し、コントロールグループでは7%でした。AIの支援を受けた参加者は、実際にはそうでなかったにもかかわらず、安全なコードを書いたと信じる傾向が高くなっていました。13 より速い出力とより高い誤った自信の組み合わせが、手動レビューではスケールに対応できない検証ギャップを生み出します。
GitClearは1億5,300万行の変更コードを分析し、コードチャーン(書かれてから2週間以内に書き直されるコード)がAI以前のベースラインと比較して2024年に倍増すると予測しました。14 AIツールによるボリューム増加は、生産性の向上を部分的に相殺する手戻りを生みます。Stack Overflowの2025年調査はこの摩擦を裏付けています:66%の開発者が「ほぼ正しい」AIが生成したコードの修正により多くの時間を費やしていると報告しています。6
ガバナンスのギャップ
AIが生成したコードは、人間の開発者が内面化しているガバナンスの仕組みを迂回します。シニア開発者はスタイルガイドを確認し、リンターを実行し、変更ログを更新し、アーキテクチャの変更についてチームリーダーに通知することを知っています。AIアシスタントはプロンプトを満たすソリューションを生成します。「コンパイルが通りテストに合格する」と「組織の基準を満たす」の間のギャップがガバナンスです。
McKinseyの2023年の研究では、AIを使用したジュニア開発者は速くなるどころか7〜10%遅くなりました。11 研究者はこれを、生成されたコードと組織のコンテキストとのギャップに起因するとしました。ジュニア開発者は、まだ内面化していない基準にAIの出力が適合しているかどうかを評価する判断力を欠いています。それらの基準を自動化されたチェックとしてエンコードするガバナンスインフラがなければ、AIの出力はチェックされないまま下流に流れます。
ガバナンスのギャップはチーム全体で複合的に蓄積します。ある開発者のAIが生成したユーティリティが、別の開発者の既存モジュールと重複します。2つのAIが生成したエンドポイントが、同じAPIに対して異なるエラーフォーマットを使用します。AIが書いたマイグレーションがチーム標準とは異なる命名規則に従います。個々の違反は小さなものです。しかし累積的な効果として、コードベースはレビューが修正できる速度を超えて、独自の規約から乖離していきます。
壁の向こう側はどうなっているか
DORAの発見は、同一のツールを使用する2つの集団を描写しています。一方はインシデントを半減させました。もう一方は倍増させました。4 両者を分ける変数は、どのAIを使っているかではありません。AIの周囲のインフラです。
各根本原因にはインフラによる解決策が対応します。以下の表は、問題から解決策への連鎖を示し、関連投稿で文書化した私が構築したシステムからの具体的な実装例を1つ含んでいます。これは特定の数値を伴う1つの試みであり、普遍的な処方箋ではありません。
| 根本原因 | 何が壊れるか | インフラによる解決策 | 実装 |
|---|---|---|---|
| コンテキスト飢餓 | ファイルパスの幻覚、誤ったAPI、制約の欠落 | プロンプト時のコンテキスト注入 | すべてのプロンプトに日付、ブランチ、プロジェクトドキュメント、アーキテクチャコンテキストを注入する9つのフック15(詳細なアーキテクチャ) |
| 検証の真空 | レビューが捕捉する前にバグが出荷される | 独立したテスト実行、自動レビュー | Ralph自律ループ:テストランナーがすべての変更を検証し、その後3つの独立したレビューエージェント(正確性、セキュリティ、規約)がマージ前に評価15(フルシステム) |
| ガバナンスのギャップ | 基準の迂回、規約の乖離 | エビデンス要件を伴う自動品質ゲート | エビデンスゲート:必要な証拠を伴う6つの基準、7つの名前付き失敗モード、曖昧な表現の検出15(品質の哲学) |
コンテキスト注入は、モデルがすべてのプロンプトでプロジェクト固有の情報を受け取ることを保証し、コンテキスト飢餓に対処します。ディスパッチャーフックが9つの逐次ハンドラーを起動し、現在の日付、Gitブランチ、作業ディレクトリ、プロジェクト規約、アクティブなタスクコンテキスト、アーキテクチャ上の制約を注入します。モデルはユーザーのリクエストを処理する前に200〜400トークンのグラウンディングコンテキストを受け取ります。計測されたレイテンシ:全9フックの合計で200ms。モデルは実際のパスを教えられているため、ファイルパスの推測をやめます。15
独立した検証は、ルーチンチェックの検証ボトルネックから人間を排除し、検証の真空に対処します。自律開発ループ(Anatomy of a Clawで文書化)はコードを生成し、完全なテストスイートを実行し、結果を独立して動作する3つのレビューエージェントに提出します。実装エージェントは自分自身の出力をレビューしません。これはStanfordの研究でAI支援グループが安全でないコードに対してより高い自信を持っていたという発見を反映しています:自己検証は、著者が人間であれ人工知能であれ、信頼できません。13
自動化されたガバナンスは、チームの基準を実行可能なチェックとしてエンコードし、ガバナンスのギャップに対処します。The Fabrication Firewallはすべての送信アクションをローカル、共有、外部に分類し、外部への公開は人間のレビューに委ねます。品質ゲートは、テスト出力やファイルパスを引用する代わりに曖昧な表現(「うまくいくはずです」「正しいようです」)を使用する完了報告をブロックします。このシステムは、人間の開発者がすべての行をレビューする時間があれば適用するであろう基準を強制します。AIの生成速度では、そのような時間はありません。
統合されたシステムは、自身のコードベースで測定可能な結果を生み出しています:セマンティック検索用に4,518のコードチャンクをインデックス化、永続メモリとして15,800ファイルにわたる49,746のボルトチャンク、そして変更の完了報告前に自動実行されるテストスイートです。15 これらの数値は1人の開発者のインフラを記述するものです。このアプローチが一般化可能であることを証明するものではありません。しかし、適切なツールがあれば壁は透過可能であることを示すことはできます。
ガバナンス比率
Anatomy of a Clawで説明されているフックシステムには84のフックが含まれています。機能別に検証済みの数を分類すると、何かを実行すべきかどうかを判断する35の判断フックと、あらかじめ決められたアクションを実行する44の自動化フックがあります。比率は4:5です。開始時は1:6でした。15
開始時の比率は、ほとんどのチームが最初に構築するものを反映しています:自動化です。コンテキストを注入する。メトリクスを記録する。出力をフォーマットする。使用状況をログに記録する。これらのフックは、誰もが得られる最初の10%を捕捉します。AI以前からすでに部分的に自動化されていた開発の機械的な部分を自動化するのです。DXのデータはこれを裏付けています:週あたり4時間の節約は、コード生成とボイラープレートの削減から生まれます。これらはすでに開発サイクルの中で最も速い部分でした。1
判断フックへのシフトは、追加の利益がどこから生まれるかを反映しています。
| 投資 | 捕捉するもの | 段階 |
|---|---|---|
| 自動化フック(注入、ログ、フォーマット) | 最初の10% | 導入ベースライン |
| 判断フック(検証、ゲート、レビュー) | 次の10〜30% | 壁の突破 |
| 組織への統合(ワークフロー、フィードバックループ) | 複利的な利益 | 持続的改善 |
McKinseyの2025年の約300社を対象とした調査では、最高パフォーマンスの組織は16〜30%の生産性向上と31〜45%の品質向上を達成していました。16 これらの組織は80〜100%の開発者導入率と組織への統合を兼ね備えていました。差別化要因は導入率(全体で10%の向上と相関する)ではなく、その導入の周りに構築されたインフラとプロセスでした。
Laura Tachoの見解はここにも当てはまります:「根本的な制約に対処することなく、パフォーマンスを向上させるというテクノロジーの約束には懐疑的です。」3 根本的な制約は判断の制約です。このコードは我々の基準を満たしているか? この変更は下流で何かを壊さないか? この出力に捏造が含まれていないか? 自動化フックはこれらの質問に答えられません。判断フックは、経験豊富な開発者が頭の中で適用する基準をエンコードすることで、不完全ながらも答えることができます。
比率はまだ均衡に達していません。システムはまだ統治するよりも多く自動化しています。これ自体が診断指標です:自動化フックが判断フックの数を上回るオーケストレーションレイヤーには、改善の余地があります。
実際に構築すべきもの
関連投稿で説明されたシステムは84のフック、43のスキル、19のエージェント、15,000行のインフラを持っています。15,000行は必要ありません。必要なのは3つです。
1つのコンテキスト注入フック。 すべてのAIプロンプトに現在の日付、ブランチ、作業ディレクトリを注入する5行のbashです。これにより、幻覚のカテゴリ全体が排除されます:モデルは実際のファイルパスとブランチ名を持っているため、それらを捏造しなくなります。
#!/bin/bash
# inject-context.sh — minimum viable context injection
echo "Date: $(date +%Y-%m-%d)"
echo "Branch: $(git branch --show-current 2>/dev/null || echo 'not a git repo')"
echo "Directory: $(pwd)"
1つの品質ゲート。 完了報告から曖昧な表現をgrepする15行です。エージェントがテスト出力を引用する代わりに「うまくいくはずです」と言えば、ゲートがブロックします。これは最も低コストなエントリーポイントで検証の真空に対処します。15
#!/bin/bash
# quality-gate.sh — minimum viable verification
INPUT=$(cat)
HEDGES=$(echo "$INPUT" | grep -ciE '\bshould (work|pass|be fine)\b|\bprobably\b|\blooks correct\b')
if [ "$HEDGES" -gt 0 ]; then
echo '{"decision":"block","reason":"Hedging language detected. Cite test output instead."}'
else
echo '{"decision":"allow"}'
fi
1つの独立したテストランナー。 コード変更のたびにプロジェクトのテストスイートを実行し、テストが壊れた場合に大きく警告するフックです。実装はプロジェクトによって異なります。原則は変わりません:コードを書くエージェントが、そのコードの唯一の審判であってはなりません。
ワークフローで最も壊れやすいものから始めてください。AIがファイルパスを幻覚するなら、コンテキストフックを最初に構築してください。AIがテストされていないコードを出荷するなら、テストランナーを最初に構築してください。AIがエビデンスなしに「完了」と書くなら、品質ゲートを最初に構築してください。
Karpathyはバイブコーディングからエージェンティックエンジニアリングへの進化をこう述べました:「エージェントにやらせて、自分は監督に回る」17 上記の3つのフックは、最小限の実行可能な監督です。30%の利益を生むわけではありません。しかし10%から15%へと押し上げ、追加するたびに次に対処すべき制約が明らかになります。
壁は現実です。しかし具体的でもあります。コンテキスト飢餓、検証の真空、ガバナンスのギャップは、エンジニアリング上の問題であり、エンジニアリング上の解決策があります。モデルは改善され続けます。しかし壁は、AIをコードジェネレーターとしてではなく、その出力を統治するインフラを必要とするシステムとして扱わないすべてのチームにとって、10%に留まり続けます。
出典
-
Ivan Brezak Brkan, “This CTO Says 93% of Developers Use AI – but Productivity Is Still ~10%,” ShiftMag, February 18, 2026, shiftmag.dev. Data from DX, based on 121,000+ developers across 450+ companies and a broader pool of 4.2 million developers observed November 2025 to February 2026. ↩↩↩↩↩↩↩↩↩↩↩
-
Laura Tacho, “AI-Assisted Engineering: Q4 Impact Report,” DX, November 4, 2025, getdx.com. Data from 135,000+ developers across 435 companies, July to October 2025. ↩↩↩↩↩↩
-
Laura Tacho, quoted in Brkan, “This CTO Says 93% of Developers Use AI.” Full quote: “This is really a management problem. The hype made it sound like just trying AI would automatically pay off.” ↩↩
-
DORA, Accelerate State of AI-assisted Software Development 2025, Google, September 29, 2025, dora.dev. Nearly 5,000 technology professionals surveyed. Key finding: “AI’s primary role in software development is that of an amplifier.” ↩↩↩↩
-
DORA, Accelerate State of DevOps Report 2024, Google, October 2024, dora.dev. 39,000+ professionals surveyed. For every 25% increase in AI adoption: estimated 1.5% decrease in delivery throughput, 7.2% decrease in delivery stability. ↩↩↩
-
Stack Overflow, 2025 Developer Survey, July 29, 2025, survey.stackoverflow.co. 49,000+ developers from 177 countries. AI trust at historic low: 29% (down from 40%). 46% actively distrust AI accuracy. 66% report spending more time fixing “almost-right” AI-generated code. ↩↩↩
-
JetBrains, State of Developer Ecosystem 2025, October 2025, blog.jetbrains.com. 24,534 developers across 194 countries. 85% regular AI tool usage; 23% cite code quality as top concern. ↩
-
Laura Tacho, interviewed by Gergely Orosz, “Measuring the Impact of AI on Software Engineering,” Pragmatic Engineer, July 23, 2025, newsletter.pragmaticengineer.com. “Typing speed has never been the bottleneck.” ↩
-
Joel Becker, Nate Rush, Elizabeth Barnes, and David Rein, “Measuring the Impact of Early-2025 AI on Experienced Open-Source Developer Productivity,” METR, July 10, 2025, metr.org. 16 experienced developers, 246 real repository issues. Developers took 19% longer with AI tools. ↩
-
Elise Paradis et al., “How Much Does AI Impact Development Speed? An Enterprise-Based Randomized Controlled Trial,” arXiv preprint, October 16, 2024, arxiv.org. 96 Google engineers. ~21% speed improvement, not statistically significant (95% CI: [-0.51, 0.03]). ↩
-
Begum Karaci Deniz et al., “Unleashing Developer Productivity with Generative AI,” McKinsey, June 27, 2023, mckinsey.com. 40 McKinsey developers. Gains of 35-50% on simple tasks; less than 10% on high-complexity tasks. Junior developers 7-10% slower. ↩↩
-
Neely Dunlap, “The AI Productivity Paradox Research Report,” Faros AI, July 23, 2025 (updated January 8, 2026), faros.ai. 10,000+ developers across 1,255 teams. AI-assisted PRs: 9% more bugs, 91% longer reviews, 154% larger. Developers complete 21% more tasks and merge 98% more PRs. ↩↩↩↩
-
Neil Perry, Megha Srivastava, Deepak Kumar, and Dan Boneh, “Do Users Write More Insecure Code with AI Assistants?” in CCS ‘23: Proceedings of the 2023 ACM SIGSAC Conference, November 2023, arxiv.org. 47 participants. AI-assisted group wrote insecure solutions more often in 4 of 5 tasks. SQL injection vulnerability: 36% AI group vs. 7% control. ↩↩
-
William Harding and Matthew Kloster, “Coding on Copilot: 2023 Data Suggests Downward Pressure on Code Quality,” GitClear, January 2024, gitclear.com. 153 million changed lines of code analyzed. Code churn projected to double in 2024 compared to 2021 pre-AI baseline. ↩
-
Author’s analysis. Hook system described in “Anatomy of a Claw: 84 Hooks as an Orchestration Layer.” Output firewall described in “The Fabrication Firewall.” Context injection described in “Context Is Architecture.” Quality system described in “Jiro Quality Philosophy.” Verified counts: 84 hooks (35 judgment, 44 automation), 43 skills, 19 agents, 30+ library modules, ~15,000 lines of code. Semantic code search: 4,518 chunks indexed across 653 files. Persistent memory: 49,746 chunks across 15,800 files. ↩↩↩↩↩↩↩
-
McKinsey, “Unlocking the Value of AI in Software Development,” November 3, 2025, mckinsey.com. Nearly 300 publicly traded companies. Highest performers: 16-30% productivity, 31-45% quality improvement. Companies with 80-100% developer adoption saw gains of 110%+. ↩
-
Andrej Karpathy, post on X, February 4, 2026. “Many people have tried to come up with a better name…my current favourite: ‘agentic engineering.’ ‘Agentic’ because the new default is that you are not writing the code directly 99% of the time, you are orchestrating agents who do and acting as oversight.” ↩