← 所有文章

AI表演:为什么90%的公司"使用AI"但只有23%创造了价值

McKinsey 2025年全球AI调查发现,90%的组织报告在某种程度上使用AI,但只有23%在生产规模上部署了AI代理。其余67%在进行AI表演:有可见的投资,却没有可衡量的成果。1

在我的职业生涯中,我亲眼见证了三种AI表演形式,并且自己也曾实践过其中一种。

TL;DR

AI表演描述的是一种组织行为:公司在AI上进行高调投资(组建AI团队、宣布AI计划、开展AI试点),却未能创造可衡量的商业价值。在ZipRecruiter担任产品设计负责人的12年间,以及独立构建AI代理基础设施的一年中,我见证了两面:进行AI表演的组织,以及我自己早期近乎表演性质的工作。AI采用与AI价值创造之间的鸿沟有三个根本原因:奖励活动而非成果的激励错位、阻碍AI系统访问生产数据的技术债务,以及将AI团队与业务决策者隔离的组织结构。


采用与价值之间的鸿沟

McKinsey调查了来自各行各业的1,400名高管。头条发现是:AI使用已接近普及。被忽略的发现是:价值创造并未跟上步伐。2

指标 百分比
“使用AI”的组织 90%
将AI投入生产的组织 ~33%
规模化部署AI代理的组织 23%
停留在试点阶段的组织 67%
报告AI产生显著投资回报的组织 ~15%

“使用”与”创造价值”之间的鸿沟并非所有公司都会自然跨越的成熟度曲线。大多数停留在试点阶段的公司都具有结构性特征,如果不进行有意识的组织变革,就无法实现突破。3


我亲眼见证的三种表演形式

形式一:发布会游戏

在我非正式担任顾问的一家公司,产品团队宣布了一个”AI驱动的搜索”功能,实质上不过是将用户查询传递给基础模型API,没有微调、没有评估框架、除了”我们上线了”之外没有任何指标。新闻稿获得了报道。该功能的使用率只有2%,六个月后被悄然下线。

诊断性问题:该AI功能是否有使用指标、留存率和客户满意度评分?还是团队只追踪”我们发布了一个AI功能”?4

形式二:试点工厂

我通过职业网络了解到的一家中型公司在2024年跨部门开展了12个AI概念验证项目。每个试点都有专门的团队、特定的用例和90天的时间表。只有一个试点投入了生产。其余11个产出了令人印象深刻的演示,高管们在董事会上展示。该组织缺乏规模化运营AI系统所需的基础设施(MLOps、数据管道、监控)。

诊断性问题:该组织2024年的AI试点项目中,有多少现在无需人工干预即可在生产环境中运行?5

形式三:招人碰运气策略

一位前同事以”AI负责人”的身份加入一家公司,期望能够改变运营方式。AI团队构建了令人印象深刻的演示让高管们赞叹不已,但无法访问生产数据库、面向客户的系统或业务指标仪表板。每个数据请求都需要向数据工程团队提交工单,周转时间为2-3周。18个月后,该团队转向构建内部聊天机器人。6

诊断性问题:AI团队是否可以直接访问生产数据库、面向客户的系统和业务指标仪表板?还是每个数据请求都需要向另一个团队提交工单?


我自己的AI表演时刻

坦白说:我早期的Claude Code钩子系统带有AI表演的成分。第一个月我构建了25个钩子。许多都是令人印象深刻的演示:上下文注入、理念执行、设计原则验证。但我没有衡量它们是否提升了代码质量、减少了缺陷或节省了时间。我在追求精致感而非可衡量的成果。

转折点是构建博客质量检查器。与早期的钩子不同,该检查器有可衡量的标准:引用准确性、元描述长度、代码块语言标签、脚注完整性。我可以统计修复前后的发现数量。我可以衡量误报率。该检查器从”AI驱动”变为”可衡量地有价值”,因为我在构建之前就定义了成功标准。

我现在的反表演检查清单: 1. 在构建之前定义指标。“如果这个有效,哪个数字会改变?”如果我无法回答,我就是在制造表演。 2. 衡量基线。 没有AI的情况下,当前流程表现如何?我的博客文章在自动化系统之前平均有4.2个检查发现。之后:0.3个。 3. 追踪持续价值。 我的95个钩子在每次会话中运行。递归守卫已阻止了23次失控的生成尝试。git安全守卫已拦截了8次强制推送尝试。这些是真实的数字。7


根本原因

激励错位

大多数组织奖励AI团队的活动(启动试点、训练模型、发布功能),而非成果(创造收入、降低成本、改善决策)。活动指标更容易衡量和报告。8

激励错位会产生连锁反应。AI团队优化的是启动令人印象深刻的试点,因为启动会得到庆祝。生产运营被忽视,因为维护工作是隐形的。

技术债务阻碍数据访问

AI系统需要访问生产数据。生产数据存在于AI成为战略优先事项之前构建的系统中。数据基础设施投资通常是模型开发成本的3-5倍。那些为”AI”预算但未为”支持AI的数据基础设施”预算的组织,始终无法达到预期。9

组织隔离

被定位为”创新团队”或”卓越中心”的AI团队在产品开发流程之外运作。成功规模化AI的公司将AI工程师嵌入产品团队,遵循的是与嵌入式设计师和嵌入式分析师相同的、已被证明有效的模式。组织模式比技术本身更重要。10


真正有效的做法

从决策开始,而非从模型开始

创造AI价值的组织首先识别AI可以改善的特定业务决策。以决策为先的方法将AI系统约束在可衡量的成果上:量化当前决策质量、衡量AI辅助后的质量、计算差异。11

我的博客检查器遵循这种模式。决策:”哪些博客文章符合发布质量标准?”指标:每篇文章的检查发现数。基线:没有检查器时每篇文章4.2个发现。当前状态:有检查器和自动化发布前门禁后每篇文章0.3个发现。

优先投资数据基础设施

那些将AI扩展到试点之外的组织在模型开发之前就投资了数据基础设施:

  • 数据管道——持续提供干净的生产数据
  • 特征存储——维护一致的特征定义
  • 监控系统——检测模型退化
  • 治理框架——追踪数据血缘12

将AI嵌入产品团队

在产品团队内工作的AI工程师共享团队目标、理解团队约束,并且每天接触团队数据。Google最成功的内部AI应用(垃圾邮件检测、广告排名、搜索质量)都是由嵌入在负责这些系统的产品团队中的AI工程师构建的。13


代理前沿

McKinsey报告将AI代理列为下一个拐点。在已经从AI中创造价值的组织中,62%正在尝试代理。在仍处于试点模式的组织中,只有8%在使用代理。14

代理加剧了AI表演的挑战。一个自主采取行动的代理要求对模型输出有更高的置信度、更强的监控和更清晰的治理。我的审议系统通过任务自适应共识阈值(安全决策85%,文档50%)和生成预算限制来应对这一问题。无法成功部署推荐模型的组织也无法成功部署自主代理。


关键要点

对于高管: - 用成果指标(收入、成本、决策质量)而非活动指标来审计AI计划;如果团队报告活动而无成果,则该组织正在进行AI表演 - 为数据基础设施预算模型开发成本的3-5倍;基础设施是每个AI生产系统的前提条件

对于AI/ML负责人: - 将AI工程师嵌入产品团队,而非建设集中式AI团队;与生产系统的组织距离决定了规模化的成功 - 终止90天内无法明确投产路径的试点;没有生产计划的试点只是演示

对于个人从业者: - 在构建任何AI功能之前定义可衡量的成功标准;”哪个数字会改变?”是反表演问题 - 追踪持续价值,而非上线指标;我的git安全守卫已拦截了8次强制推送尝试,这个数字比”我们部署了一个安全钩子”更有意义


参考文献


  1. McKinsey & Company, “The State of AI in 2025,” McKinsey Global AI Survey, 2025. 

  2. McKinsey & Company, “Superagency in the Workplace: Empowering People to Unlock AI’s Full Potential,” McKinsey Global Institute, 2025. 

  3. Davenport, Thomas & Ronanki, Rajeev, “Artificial Intelligence for the Real World,” Harvard Business Review, January-February 2018. 

  4. Nagle, Tadhg et al., “Only 8% of Companies That Do AI Are Scaling It,” MIT Sloan Management Review, 2020. 

  5. Sculley, D. et al., “Hidden Technical Debt in Machine Learning Systems,” NeurIPS 2015

  6. Fountaine, Tim et al., “Building the AI-Powered Organization,” Harvard Business Review, July-August 2019. 

  7. 作者的Claude Code基础设施指标。95个钩子、git安全守卫拦截计数、递归守卫生成阻止计数。追踪于~/.claude/state/。 

  8. Brynjolfsson, Erik & McAfee, Andrew, “The Business of Artificial Intelligence,” Harvard Business Review, 2017. 

  9. Sambasivan, Nithya et al., “‘Everyone Wants to Do the Model Work, Not the Data Work’: Data Cascades in High-Stakes AI,” CHI 2021

  10. Iansiti, Marco & Lakhani, Karim R., Competing in the Age of AI, Harvard Business Review Press, 2020. 

  11. Agrawal, Ajay et al., Prediction Machines, Harvard Business Review Press, 2018. 

  12. Polyzotis, Neoklis et al., “Data Lifecycle Challenges in Production Machine Learning,” SIGMOD 2018, ACM. 

  13. Sculley, D. et al., “Machine Learning: The High-Interest Credit Card of Technical Debt,” NeurIPS 2014. Originally published as Google internal research on ML production readiness. 

  14. McKinsey & Company, “Agents for Enterprise: The Next Frontier,” McKinsey Digital Report, 2025.