← すべての記事

AIシアター:90%の企業が「AIを活用」しているのに、価値を生み出しているのはわずか23%である理由

McKinseyの2025年グローバルAI調査によると、90%の組織が何らかの形でAIを活用していると報告していますが、AIエージェントを本番環境で大規模に展開しているのはわずか23%です。残りの67%はAIシアターを演じています。つまり、目に見える投資はあるものの、測定可能な成果がないのです。1

私はこれまでのキャリアで3つのAIシアターのパターンを目撃し、自分自身もその1つを実践していました。

TL;DR

AIシアターとは、企業がAIに目に見える投資(AIチームの採用、AIイニシアチブの発表、AIパイロットの実施)を行いながらも、測定可能なビジネス価値を生み出していない組織的行動を指します。ZipRecruiterでのプロダクトデザインリーダーシップの12年間と、独立してAIエージェントインフラの構築に取り組んだ1年間を経て、私は両方の側面を見てきました。AIシアターを演じる組織と、それに近いことをしていた自分自身の初期の取り組みです。AI導入とAI価値創造のギャップには3つの根本原因があります。成果よりも活動に報いるインセンティブの不整合、AIシステムが本番データにアクセスすることを妨げる技術的負債、そしてAIチームをビジネスの意思決定者から孤立させる組織構造です。


導入と価値のギャップ

McKinseyは業界横断で1,400人の経営幹部を対象に調査を実施しました。見出しの発見:AIの利用はほぼ普遍的になっています。埋もれた発見:価値創造はそのペースに追いついていません。2

指標 割合
AIを「活用している」組織 90%
AIを本番環境で運用している組織 約33%
AIエージェントをスケールさせている組織 23%
パイロット段階で停滞している組織 67%
AIから大きなROIを報告している組織 約15%

「活用している」と「価値を生み出している」のギャップは、すべての企業が自然にたどる成熟曲線ではありません。パイロット段階で停滞している企業の大多数は、意図的な組織変革なしには前進を妨げる構造的な特徴を共有しています。3


私が目撃した3つのパターン

パターン1:アナウンスメントゲーム

私が非公式にアドバイスしていたある企業で、プロダクトチームが「AI搭載の検索」機能を発表しました。その実態は、ファインチューニングなし、評価フレームワークなし、「ローンチした」以外の指標なしで、ユーザーのクエリを基盤モデルのAPIに渡しているだけでした。プレスリリースはメディアに取り上げられました。しかしその機能の利用率は2%にとどまり、6ヶ月後にひっそりと廃止されました。

診断のための質問:そのAI機能には利用指標、継続率、顧客満足度スコアがありますか?それとも、チームは「AI機能を出荷した」ということだけを追跡していますか?4

パターン2:パイロット工場

私の専門的なネットワークを通じて知っている中規模企業が、2024年に各部門で12件のAI概念実証を実施しました。各パイロットには専任チーム、特定のユースケース、90日間のタイムラインがありました。本番環境に到達したのは1件だけでした。残りの11件は、経営幹部が取締役会で見せるための印象的なデモを生み出しました。その組織には、AIシステムを大規模に運用するために必要なインフラ(MLOps、データパイプライン、モニタリング)が欠けていました。

診断のための質問:2024年に実施されたAIパイロットのうち、現在手動介入なしで本番環境で稼働しているものはいくつありますか?5

パターン3:採用して祈る戦略

元同僚がある企業に「AIヘッド」として入社し、業務を変革することを期待していました。AIチームは経営幹部を感嘆させる印象的なデモを構築しましたが、本番データベース、顧客向けシステム、ビジネス指標ダッシュボードにアクセスできませんでした。すべてのデータリクエストにはデータエンジニアリングチームへのチケットが必要で、対応には2〜3週間かかりました。18ヶ月後、チームは社内チャットボットの構築に方向転換しました。6

診断のための質問:AIチームは本番データベース、顧客向けシステム、ビジネス指標ダッシュボードに直接アクセスできますか?それとも、すべてのデータリクエストに別チームへのチケットが必要ですか?


私自身のAIシアターの瞬間

正直に言えば、私の初期のClaude CodeフックシステムにはAIシアターの要素がありました。最初の1ヶ月で25個のフックを構築しました。その多くは印象的なデモでした。コンテキスト注入、フィロソフィーの強制、デザイン原則の検証などです。しかし、それらがコード品質を向上させたか、バグを減らしたか、時間を節約したかを測定していませんでした。測定可能な成果ではなく、洗練されている「感覚」を最適化していたのです。

転機となったのはブログ品質リンターの構築でした。以前のフックとは異なり、リンターには測定可能な基準がありました。引用の正確性、メタディスクリプションの長さ、コードブロックの言語タグ、脚注の整合性です。発見事項を前後で数えることができました。誤検出率を測定できました。成功基準を構築前に定義したことで、リンターは「AI搭載」から「測定可能な価値」へと進化しました。

現在の私のアンチシアターチェックリストです: 1. 構築前に指標を定義する。「これがうまくいったら、どの数値が変わるか?」答えられないなら、シアターを構築しています。 2. ベースラインを測定する。 AIなしで現在のプロセスはどの程度機能していますか?私のブログ記事は、自動化システム導入前は平均4.2件のリンター指摘がありました。導入後は0.3件です。 3. 継続的な価値を追跡する。 私の95個のフックは毎セッション実行されます。recursion-guardは23回の暴走スポーン試行をブロックしました。git-safety-guardianは8回のフォースプッシュ試行を阻止しました。これらは実際の数値です。7


根本原因

インセンティブの不整合

ほとんどの組織は、AIチームに対して成果(収益の創出、コストの削減、意思決定の改善)ではなく、活動(パイロットの開始、モデルのトレーニング、機能の発表)に対して報酬を与えています。活動指標の方が測定・報告しやすいからです。8

インセンティブの不整合は連鎖的に広がります。AIチームはローンチが称賛されるため、印象的なパイロットの立ち上げを最適化します。本番運用は保守が目に見えないため、無視されます。

技術的負債がデータアクセスを阻害する

AIシステムは本番データへのアクセスを必要とします。本番データはAIが戦略的優先事項になる前に構築されたシステムに存在します。データインフラへの投資は通常、モデル開発コストの3〜5倍かかります。「AI」には予算をつけても「AIを可能にするデータインフラ」には予算をつけない組織は、一貫して期待を下回る結果に終わります。9

組織的な孤立

「イノベーションチーム」や「センターオブエクセレンス」として位置づけられたAIチームは、プロダクト開発プロセスの外側で活動しています。AIのスケーリングに成功している企業は、AIエンジニアをプロダクトチームに組み込んでいます。これは、組み込みデザイナーや組み込みアナリストで効果が実証されたのと同じモデルです。組織パターンはテクノロジーよりも重要です。10


実際に効果があること

モデルではなく、意思決定から始める

AIで価値を生み出している組織は、AIが改善できる特定のビジネス上の意思決定を特定することから始めます。意思決定ファーストのアプローチは、AIシステムを測定可能な成果に制約します。現在の意思決定品質を定量化し、AI支援時の品質を測定し、その差を計算するのです。11

私のブログリンターはこのパターンに従っています。意思決定:「どのブログ記事が公開の品質基準を満たしているか?」指標:記事あたりのリンター指摘数。ベースライン:リンターなしで記事あたり4.2件の指摘。現状:リンターと自動公開前ゲートで記事あたり0.3件の指摘。

まずデータインフラに投資する

パイロットを超えてAIをスケールさせている組織は、モデル開発の前にデータインフラに投資しています:

  • クリーンな本番データを継続的に供給するデータパイプライン
  • 一貫した特徴量定義を維持する特徴量ストア
  • モデルの劣化を検出するモニタリングシステム
  • データの系譜を追跡するガバナンスフレームワーク12

AIをプロダクトチームに組み込む

プロダクトチーム内に配置されたAIエンジニアは、チームの目標を共有し、チームの制約を理解し、チームのデータを日々目にします。Googleの最も成功した社内AIアプリケーション(スパム検出、広告ランキング、検索品質)は、それらのシステムを担当するプロダクトチームに組み込まれたAIエンジニアによって構築されました。13


エージェントのフロンティア

McKinseyのレポートは、AIエージェントを次の変曲点として強調しています。すでにAIから価値を生み出している組織のうち、62%がエージェントを試験的に導入しています。パイロット段階にとどまっている組織では、エージェントに取り組んでいるのはわずか8%です。14

エージェントはAIシアターの課題をさらに複雑にします。自律的にアクションを実行するエージェントには、モデル出力へのより高い信頼度、より強力なモニタリング、より明確なガバナンスが必要です。私の審議システムは、タスク適応型のコンセンサス閾値(セキュリティ決定には85%、ドキュメントには50%)とスポーン予算の強制でこれに対処しています。レコメンデーションモデルの展開に成功できない組織は、自律型エージェントの展開にも成功できません。


主要なポイント

経営幹部向け: - AIイニシアチブを活動指標ではなく成果指標(収益、コスト、意思決定の質)で監査してください。チームが成果を伴わない活動を報告している場合、その組織はAIシアターを演じています - データインフラにモデル開発コストの3〜5倍の予算を確保してください。インフラはすべてのAI本番システムの前提条件です

AI/MLリーダー向け: - 中央集権的なAIチームを構築するのではなく、AIエンジニアをプロダクトチームに組み込んでください。本番システムへの組織的な近接性がスケーリングの成否を決定します - 90日以内に本番化への道筋を明確にできないパイロットは中止してください。本番化計画のないパイロットはデモにすぎません

個人の実務者向け: - あらゆるAI機能を構築する前に、測定可能な成功基準を定義してください。「どの数値が変わるか?」がアンチシアターの問いです - ローンチ指標ではなく、継続的な価値を追跡してください。私のgit-safety-guardianは8回のフォースプッシュ試行を阻止しており、その数値は「セーフティフックをデプロイした」よりも重要です


参考文献


  1. McKinsey & Company, “The State of AI in 2025,” McKinsey Global AI Survey, 2025. 

  2. McKinsey & Company, “Superagency in the Workplace: Empowering People to Unlock AI’s Full Potential,” McKinsey Global Institute, 2025. 

  3. Davenport, Thomas & Ronanki, Rajeev, “Artificial Intelligence for the Real World,” Harvard Business Review, January-February 2018. 

  4. Nagle, Tadhg et al., “Only 8% of Companies That Do AI Are Scaling It,” MIT Sloan Management Review, 2020. 

  5. Sculley, D. et al., “Hidden Technical Debt in Machine Learning Systems,” NeurIPS 2015

  6. Fountaine, Tim et al., “Building the AI-Powered Organization,” Harvard Business Review, July-August 2019. 

  7. Author’s Claude Code infrastructure metrics. 95 hooks, git-safety-guardian interception count, recursion-guard spawn blocking count. Tracked in ~/.claude/state/

  8. Brynjolfsson, Erik & McAfee, Andrew, “The Business of Artificial Intelligence,” Harvard Business Review, 2017. 

  9. Sambasivan, Nithya et al., “‘Everyone Wants to Do the Model Work, Not the Data Work’: Data Cascades in High-Stakes AI,” CHI 2021

  10. Iansiti, Marco & Lakhani, Karim R., Competing in the Age of AI, Harvard Business Review Press, 2020. 

  11. Agrawal, Ajay et al., Prediction Machines, Harvard Business Review Press, 2018. 

  12. Polyzotis, Neoklis et al., “Data Lifecycle Challenges in Production Machine Learning,” SIGMOD 2018, ACM. 

  13. Sculley, D. et al., “Machine Learning: The High-Interest Credit Card of Technical Debt,” NeurIPS 2014. Originally published as Google internal research on ML production readiness. 

  14. McKinsey & Company, “Agents for Enterprise: The Next Frontier,” McKinsey Digital Report, 2025.