← 所有文章

AI劇場:為何90%的企業「使用AI」卻只有23%創造價值

McKinsey 2025年全球AI調查發現,90%的組織表示以某種形式使用AI,但僅有23%在生產規模上部署AI代理。其餘67%都在上演AI劇場:有可見的投資,卻無可衡量的成果。1

在我的職業生涯中,我親眼見證了三種AI劇場的樣貌,自己也曾實踐過其中一種。

TL;DR

AI劇場描述的是一種組織行為:企業在AI上進行高調投資(聘僱AI團隊、宣布AI計畫、運行AI試驗專案),卻未能創造可衡量的商業價值。在ZipRecruiter擔任12年產品設計領導職務,以及獨立建構AI代理基礎架構一年之後,我見過了兩面:組織上演AI劇場,以及我自己早期幾乎也踩進同樣陷阱的經歷。AI採用與AI價值創造之間的落差有三個根本原因:獎勵活動而非成果的錯位激勵機制、阻止AI系統存取生產資料的技術負債,以及將AI團隊與業務決策者隔離的組織結構。


採用與價值的落差

McKinsey調查了跨產業的1,400位高階主管。頭條發現:AI使用率已近乎普及。被掩蓋的發現:價值創造並未跟上腳步。2

指標 百分比
「使用AI」的組織 90%
將AI投入生產的組織 ~33%
擴展AI代理規模的組織 23%
停留在試驗階段的組織 67%
報告AI帶來顯著投資報酬率的組織 ~15%

「使用」與「創造價值」之間的落差,並非所有企業都會自然跨越的成熟度曲線。大多數停留在試驗階段的企業都具有共同的結構性特徵,若不進行刻意的組織變革,就無法取得進展。3


我親眼見證的三種樣貌

樣貌一:宣傳遊戲

在我非正式顧問的一家公司,產品團隊宣布了一個「AI驅動搜尋」功能,實際上只是將使用者查詢傳送到基礎模型API,沒有微調、沒有評估框架、除了「我們上線了」之外沒有任何指標。新聞稿獲得了媒體報導。該功能的使用率僅有2%,六個月後悄然下架。

診斷問題:該AI功能是否有使用指標、留存率和客戶滿意度分數?還是團隊只追蹤「我們出貨了一個AI功能」?4

樣貌二:試驗工廠

我透過職業人脈認識的一家中型企業,在2024年跨部門運行了12個AI概念驗證專案。每個試驗都有專責團隊、特定使用案例和90天時程。一個試驗進入了生產環境。其餘11個產出了令人印象深刻的展示,供高階主管在董事會議上展演。該組織缺乏大規模營運AI系統所需的基礎設施(MLOps、資料管線、監控系統)。

診斷問題:該組織2024年的AI試驗中,有多少現在無需人工介入即可在生產環境中運行?5

樣貌三:招聘即期望策略

一位前同事以「AI主管」的身份加入一家公司,期望能轉型營運。AI團隊建構了令高階主管驚豔的展示,卻無法存取生產資料庫、客戶端系統或業務指標儀表板。每一次資料請求都需要向資料工程團隊提交工單,週轉時間為2至3週。18個月後,團隊轉向建構內部聊天機器人。6

診斷問題:AI團隊是否能直接存取生產資料庫、客戶端系統和業務指標儀表板?還是每次資料請求都需要向另一個團隊提交工單?


我自己的AI劇場時刻

坦白說:我早期的Claude Code hook系統帶有AI劇場的成分。第一個月我建構了25個hook。許多都是令人印象深刻的展示:情境注入、哲學強制執行、設計原則驗證。但我並未衡量它們是否提升了程式碼品質、減少了錯誤,或節省了時間。我在追求精密感的滿足,而非可衡量的成果。

轉捩點是建構部落格品質檢查工具。與先前的hook不同,該檢查工具有可衡量的標準:引用準確性、meta描述長度、程式碼區塊語言標籤、註腳完整性。我能計算修正前後的發現數量。我能衡量誤報率。該檢查工具從「AI驅動」轉變為「可衡量地有價值」,因為我在建構之前就定義了成功標準。

我現在的反劇場檢核清單: 1. 在建構之前定義指標。「如果這個有效,哪個數字會改變?」如果我回答不出來,我就是在做劇場。 2. 衡量基線。沒有AI的情況下,現行流程表現如何?我的部落格文章在自動化系統之前平均有4.2個檢查發現。之後:0.3個。 3. 追蹤持續價值。我的95個hook在每次會話中運行。遞迴防護已阻擋了23次失控的生成嘗試。git安全守護已攔截了8次強制推送嘗試。這些是真實的數字。7


根本原因

錯位的激勵機制

大多數組織獎勵AI團隊的活動(啟動的試驗、訓練的模型、宣布的功能),而非成果(產生的營收、降低的成本、改善的決策)。活動指標更容易衡量和報告。8

激勵機制的錯位會層層傳遞。AI團隊為了啟動令人印象深刻的試驗而優化,因為上線會受到表揚。生產營運被忽視,因為維護是隱形的。

技術負債阻礙資料存取

AI系統需要存取生產資料。生產資料存在於AI成為策略優先事項之前建構的系統中。資料基礎設施投資通常是模型開發成本的3至5倍。那些為「AI」編列預算卻不為「使AI成為可能的資料基礎設施」編列預算的組織,始終無法達到預期成效。9

組織孤立

被定位為「創新團隊」或「卓越中心」的AI團隊在產品開發流程之外運作。成功擴展AI規模的企業將AI工程師嵌入產品團隊,遵循與嵌入式設計師和嵌入式分析師相同的已證明有效的模式。組織模式比技術更重要。10


真正有效的做法

從決策開始,而非從模型開始

創造AI價值的組織從識別AI可以改善的特定業務決策開始。以決策為先的方法將AI系統限縮在可衡量的成果上:量化當前決策品質、衡量AI輔助品質、計算差異。11

我的部落格檢查工具遵循這個模式。決策:「哪些部落格文章達到發布的品質標準?」指標:每篇文章的檢查發現數。基線:沒有檢查工具時每篇文章4.2個發現。當前狀態:使用檢查工具和自動化發布前閘門後每篇文章0.3個發現。

先投資資料基礎設施

將AI擴展到試驗之外的組織會在模型開發之前投資資料基礎設施:

  • 資料管線——持續交付乾淨的生產資料
  • 特徵儲存庫——維護一致的特徵定義
  • 監控系統——偵測模型退化
  • 治理框架——追蹤資料血統12

將AI嵌入產品團隊

坐在產品團隊中的AI工程師共享團隊目標、理解團隊限制,並且每天看到團隊的資料。Google最成功的內部AI應用(垃圾郵件偵測、廣告排名、搜尋品質)都是由嵌入在負責這些系統的產品團隊中的AI工程師所建構。13


代理的前沿

McKinsey報告將AI代理視為下一個轉折點。在已經從AI中創造價值的組織中,62%正在試驗代理。在仍處於試驗模式的組織中,僅有8%在研究代理。14

代理加劇了AI劇場的挑戰。一個自主採取行動的代理需要對模型輸出更高的信心、更強的監控和更清晰的治理。我的審議系統透過任務自適應共識門檻(安全決策85%、文件50%)和生成預算強制來解決這個問題。無法成功部署推薦模型的組織,也不會成功部署自主代理。


重點摘要

給高階主管: - 用成果指標(營收、成本、決策品質)而非活動指標來審計AI計畫;如果團隊報告活動卻沒有成果,該組織就是在上演AI劇場 - 為資料基礎設施編列模型開發成本3至5倍的預算;基礎設施是每個AI生產系統的先決條件

給AI/ML領導者: - 將AI工程師嵌入產品團隊,而非建構集中式AI團隊;與生產系統的組織鄰近性決定了擴展的成敗 - 終止無法在90天內闡明生產路徑的試驗;沒有生產計畫的試驗只是展示

給個人從業者: - 在建構任何AI功能之前定義可衡量的成功標準;「哪個數字會改變?」是反劇場的關鍵問題 - 追蹤持續價值,而非上線指標;我的git安全守護已攔截了8次強制推送嘗試,這個數字比「我們部署了一個安全hook」更重要


參考文獻


  1. McKinsey & Company,「The State of AI in 2025」,McKinsey Global AI Survey,2025年。 

  2. McKinsey & Company,「Superagency in the Workplace: Empowering People to Unlock AI’s Full Potential」,McKinsey Global Institute,2025年。 

  3. Davenport, Thomas & Ronanki, Rajeev,「Artificial Intelligence for the Real World」,Harvard Business Review,2018年1-2月。 

  4. Nagle, Tadhg et al.,「Only 8% of Companies That Do AI Are Scaling It」,MIT Sloan Management Review,2020年。 

  5. Sculley, D. et al.,「Hidden Technical Debt in Machine Learning Systems」,NeurIPS 2015。 

  6. Fountaine, Tim et al.,「Building the AI-Powered Organization」,Harvard Business Review,2019年7-8月。 

  7. 作者的Claude Code基礎設施指標。95個hook、git安全守護攔截次數、遞迴防護生成阻擋次數。追蹤於~/.claude/state/。 

  8. Brynjolfsson, Erik & McAfee, Andrew,「The Business of Artificial Intelligence」,Harvard Business Review,2017年。 

  9. Sambasivan, Nithya et al.,「’Everyone Wants to Do the Model Work, Not the Data Work’: Data Cascades in High-Stakes AI」,CHI 2021。 

  10. Iansiti, Marco & Lakhani, Karim R.,Competing in the Age of AI,Harvard Business Review Press,2020年。 

  11. Agrawal, Ajay et al.,Prediction Machines,Harvard Business Review Press,2018年。 

  12. Polyzotis, Neoklis et al.,「Data Lifecycle Challenges in Production Machine Learning」,SIGMOD 2018,ACM。 

  13. Sculley, D. et al.,「Machine Learning: The High-Interest Credit Card of Technical Debt」,NeurIPS 2014。最初作為Google內部ML生產就緒性研究發表。 

  14. McKinsey & Company,「Agents for Enterprise: The Next Frontier」,McKinsey Digital Report,2025年。