AI表演:为什么90%的公司"使用AI"但只有23%创造了价值
McKinsey 2025年全球AI调查发现,90%的组织报告在某种程度上使用AI,但只有23%在生产规模上部署了AI代理。其余67%在进行AI表演:有可见的投资,却没有可衡量的成果。1
在我的职业生涯中,我亲眼见证了三种AI表演形式,并且自己也曾实践过其中一种。
TL;DR
AI表演描述的是一种组织行为:公司在AI上进行高调投资(组建AI团队、宣布AI计划、开展AI试点),却未能创造可衡量的商业价值。在ZipRecruiter担任产品设计负责人的12年间,以及独立构建AI代理基础设施的一年中,我见证了两面:进行AI表演的组织,以及我自己早期近乎表演性质的工作。AI采用与AI价值创造之间的鸿沟有三个根本原因:奖励活动而非成果的激励错位、阻碍AI系统访问生产数据的技术债务,以及将AI团队与业务决策者隔离的组织结构。
采用与价值之间的鸿沟
McKinsey调查了来自各行各业的1,400名高管。头条发现是:AI使用已接近普及。被忽略的发现是:价值创造并未跟上步伐。2
| 指标 | 百分比 |
|---|---|
| “使用AI”的组织 | 90% |
| 将AI投入生产的组织 | ~33% |
| 规模化部署AI代理的组织 | 23% |
| 停留在试点阶段的组织 | 67% |
| 报告AI产生显著投资回报的组织 | ~15% |
“使用”与”创造价值”之间的鸿沟并非所有公司都会自然跨越的成熟度曲线。大多数停留在试点阶段的公司都具有结构性特征,如果不进行有意识的组织变革,就无法实现突破。3
我亲眼见证的三种表演形式
形式一:发布会游戏
在我非正式担任顾问的一家公司,产品团队宣布了一个”AI驱动的搜索”功能,实质上不过是将用户查询传递给基础模型API,没有微调、没有评估框架、除了”我们上线了”之外没有任何指标。新闻稿获得了报道。该功能的使用率只有2%,六个月后被悄然下线。
诊断性问题:该AI功能是否有使用指标、留存率和客户满意度评分?还是团队只追踪”我们发布了一个AI功能”?4
形式二:试点工厂
我通过职业网络了解到的一家中型公司在2024年跨部门开展了12个AI概念验证项目。每个试点都有专门的团队、特定的用例和90天的时间表。只有一个试点投入了生产。其余11个产出了令人印象深刻的演示,高管们在董事会上展示。该组织缺乏规模化运营AI系统所需的基础设施(MLOps、数据管道、监控)。
诊断性问题:该组织2024年的AI试点项目中,有多少现在无需人工干预即可在生产环境中运行?5
形式三:招人碰运气策略
一位前同事以”AI负责人”的身份加入一家公司,期望能够改变运营方式。AI团队构建了令人印象深刻的演示让高管们赞叹不已,但无法访问生产数据库、面向客户的系统或业务指标仪表板。每个数据请求都需要向数据工程团队提交工单,周转时间为2-3周。18个月后,该团队转向构建内部聊天机器人。6
诊断性问题:AI团队是否可以直接访问生产数据库、面向客户的系统和业务指标仪表板?还是每个数据请求都需要向另一个团队提交工单?
我自己的AI表演时刻
坦白说:我早期的Claude Code钩子系统带有AI表演的成分。第一个月我构建了25个钩子。许多都是令人印象深刻的演示:上下文注入、理念执行、设计原则验证。但我没有衡量它们是否提升了代码质量、减少了缺陷或节省了时间。我在追求精致感而非可衡量的成果。
转折点是构建博客质量检查器。与早期的钩子不同,该检查器有可衡量的标准:引用准确性、元描述长度、代码块语言标签、脚注完整性。我可以统计修复前后的发现数量。我可以衡量误报率。该检查器从”AI驱动”变为”可衡量地有价值”,因为我在构建之前就定义了成功标准。
我现在的反表演检查清单: 1. 在构建之前定义指标。“如果这个有效,哪个数字会改变?”如果我无法回答,我就是在制造表演。 2. 衡量基线。 没有AI的情况下,当前流程表现如何?我的博客文章在自动化系统之前平均有4.2个检查发现。之后:0.3个。 3. 追踪持续价值。 我的95个钩子在每次会话中运行。递归守卫已阻止了23次失控的生成尝试。git安全守卫已拦截了8次强制推送尝试。这些是真实的数字。7
根本原因
激励错位
大多数组织奖励AI团队的活动(启动试点、训练模型、发布功能),而非成果(创造收入、降低成本、改善决策)。活动指标更容易衡量和报告。8
激励错位会产生连锁反应。AI团队优化的是启动令人印象深刻的试点,因为启动会得到庆祝。生产运营被忽视,因为维护工作是隐形的。
技术债务阻碍数据访问
AI系统需要访问生产数据。生产数据存在于AI成为战略优先事项之前构建的系统中。数据基础设施投资通常是模型开发成本的3-5倍。那些为”AI”预算但未为”支持AI的数据基础设施”预算的组织,始终无法达到预期。9
组织隔离
被定位为”创新团队”或”卓越中心”的AI团队在产品开发流程之外运作。成功规模化AI的公司将AI工程师嵌入产品团队,遵循的是与嵌入式设计师和嵌入式分析师相同的、已被证明有效的模式。组织模式比技术本身更重要。10
真正有效的做法
从决策开始,而非从模型开始
创造AI价值的组织首先识别AI可以改善的特定业务决策。以决策为先的方法将AI系统约束在可衡量的成果上:量化当前决策质量、衡量AI辅助后的质量、计算差异。11
我的博客检查器遵循这种模式。决策:”哪些博客文章符合发布质量标准?”指标:每篇文章的检查发现数。基线:没有检查器时每篇文章4.2个发现。当前状态:有检查器和自动化发布前门禁后每篇文章0.3个发现。
优先投资数据基础设施
那些将AI扩展到试点之外的组织在模型开发之前就投资了数据基础设施:
- 数据管道——持续提供干净的生产数据
- 特征存储——维护一致的特征定义
- 监控系统——检测模型退化
- 治理框架——追踪数据血缘12
将AI嵌入产品团队
在产品团队内工作的AI工程师共享团队目标、理解团队约束,并且每天接触团队数据。Google最成功的内部AI应用(垃圾邮件检测、广告排名、搜索质量)都是由嵌入在负责这些系统的产品团队中的AI工程师构建的。13
代理前沿
McKinsey报告将AI代理列为下一个拐点。在已经从AI中创造价值的组织中,62%正在尝试代理。在仍处于试点模式的组织中,只有8%在使用代理。14
代理加剧了AI表演的挑战。一个自主采取行动的代理要求对模型输出有更高的置信度、更强的监控和更清晰的治理。我的审议系统通过任务自适应共识阈值(安全决策85%,文档50%)和生成预算限制来应对这一问题。无法成功部署推荐模型的组织也无法成功部署自主代理。
关键要点
对于高管: - 用成果指标(收入、成本、决策质量)而非活动指标来审计AI计划;如果团队报告活动而无成果,则该组织正在进行AI表演 - 为数据基础设施预算模型开发成本的3-5倍;基础设施是每个AI生产系统的前提条件
对于AI/ML负责人: - 将AI工程师嵌入产品团队,而非建设集中式AI团队;与生产系统的组织距离决定了规模化的成功 - 终止90天内无法明确投产路径的试点;没有生产计划的试点只是演示
对于个人从业者: - 在构建任何AI功能之前定义可衡量的成功标准;”哪个数字会改变?”是反表演问题 - 追踪持续价值,而非上线指标;我的git安全守卫已拦截了8次强制推送尝试,这个数字比”我们部署了一个安全钩子”更有意义
参考文献
-
McKinsey & Company, “The State of AI in 2025,” McKinsey Global AI Survey, 2025. ↩
-
McKinsey & Company, “Superagency in the Workplace: Empowering People to Unlock AI’s Full Potential,” McKinsey Global Institute, 2025. ↩
-
Davenport, Thomas & Ronanki, Rajeev, “Artificial Intelligence for the Real World,” Harvard Business Review, January-February 2018. ↩
-
Nagle, Tadhg et al., “Only 8% of Companies That Do AI Are Scaling It,” MIT Sloan Management Review, 2020. ↩
-
Sculley, D. et al., “Hidden Technical Debt in Machine Learning Systems,” NeurIPS 2015. ↩
-
Fountaine, Tim et al., “Building the AI-Powered Organization,” Harvard Business Review, July-August 2019. ↩
-
作者的Claude Code基础设施指标。95个钩子、git安全守卫拦截计数、递归守卫生成阻止计数。追踪于
~/.claude/state/。 ↩ -
Brynjolfsson, Erik & McAfee, Andrew, “The Business of Artificial Intelligence,” Harvard Business Review, 2017. ↩
-
Sambasivan, Nithya et al., “‘Everyone Wants to Do the Model Work, Not the Data Work’: Data Cascades in High-Stakes AI,” CHI 2021. ↩
-
Iansiti, Marco & Lakhani, Karim R., Competing in the Age of AI, Harvard Business Review Press, 2020. ↩
-
Agrawal, Ajay et al., Prediction Machines, Harvard Business Review Press, 2018. ↩
-
Polyzotis, Neoklis et al., “Data Lifecycle Challenges in Production Machine Learning,” SIGMOD 2018, ACM. ↩
-
Sculley, D. et al., “Machine Learning: The High-Interest Credit Card of Technical Debt,” NeurIPS 2014. Originally published as Google internal research on ML production readiness. ↩
-
McKinsey & Company, “Agents for Enterprise: The Next Frontier,” McKinsey Digital Report, 2025. ↩