← 모든 글

AI 시어터: 90%의 기업이 'AI를 사용한다'고 하지만 실제 가치를 창출하는 기업은 23%에 불과한 이유

McKinsey의 2025 글로벌 AI 설문조사에 따르면 90%의 조직이 어떤 형태로든 AI를 사용하고 있다고 보고했지만, AI 에이전트를 프로덕션 규모로 배포하는 조직은 23%에 불과합니다. 나머지 67%는 AI 시어터를 수행합니다. 즉, 눈에 보이는 투자만 있을 뿐 측정 가능한 성과는 없는 것입니다.1

저는 커리어 전반에 걸쳐 세 가지 유형의 AI 시어터를 목격했으며, 그중 하나를 직접 경험하기도 했습니다.

TL;DR

AI 시어터란 기업이 AI에 가시적으로 투자하면서도(AI 팀 채용, AI 이니셔티브 발표, AI 파일럿 운영) 측정 가능한 비즈니스 가치를 창출하지 못하는 조직적 행동을 말합니다. ZipRecruiter에서 12년간 프로덕트 디자인 리더십을 수행하고, 1년간 독립적으로 AI 에이전트 인프라를 구축한 경험을 통해 저는 양쪽 모두를 보았습니다. AI 시어터를 수행하는 조직과 그에 근접했던 저 자신의 초기 작업을 말입니다. AI 도입과 AI 가치 창출 사이의 격차에는 세 가지 근본 원인이 있습니다. 성과가 아닌 활동에 보상하는 잘못된 인센티브, AI 시스템이 프로덕션 데이터에 접근하지 못하게 하는 기술 부채, 그리고 AI 팀을 비즈니스 의사결정자로부터 고립시키는 조직 구조입니다.


도입-가치 격차

McKinsey는 여러 산업에 걸쳐 1,400명의 임원을 대상으로 설문조사를 실시했습니다. 헤드라인 발견: AI 사용이 거의 보편화되었습니다. 숨겨진 발견: 가치 창출은 그 속도를 따라가지 못했습니다.2

지표 비율
AI를 “사용하는” 조직 90%
AI를 프로덕션에 적용한 조직 ~33%
AI 에이전트를 확장하는 조직 23%
파일럿 단계에 머무는 조직 67%
AI에서 유의미한 ROI를 보고하는 조직 ~15%

“사용”과 “가치 창출” 사이의 격차는 모든 기업이 자연스럽게 통과하게 되는 성숙도 곡선이 아닙니다. 파일럿 단계에 머물러 있는 대다수의 기업은 의도적인 조직 변화 없이는 진전을 막는 구조적 특성을 공유하고 있습니다.3


제가 목격한 세 가지 유형

유형 1: 발표 게임

제가 비공식적으로 자문한 한 회사에서, 프로덕트 팀이 “AI 기반 검색” 기능을 발표했습니다. 실제로는 미세 조정도, 평가 프레임워크도, “출시했다”는 것 외에는 어떤 지표도 없이 사용자 쿼리를 파운데이션 모델 API에 전달하는 것에 불과했습니다. 보도자료는 언론 보도를 만들어냈습니다. 하지만 해당 기능의 사용률은 2%에 그쳤고, 6개월 후 조용히 폐기되었습니다.

진단 질문: AI 기능에 사용률 지표, 리텐션율, 고객 만족도 점수가 있습니까? 아니면 팀이 “AI 기능을 출시했다”는 것만 추적하고 있습니까?4

유형 2: 파일럿 공장

제 직업적 네트워크를 통해 알게 된 한 중견기업은 2024년에 부서별로 12개의 AI 개념증명(PoC)을 진행했습니다. 각 파일럿에는 전담팀, 구체적인 사용 사례, 90일 일정이 있었습니다. 프로덕션에 도달한 파일럿은 하나뿐이었습니다. 나머지 11개는 임원들이 이사회에서 보여주는 인상적인 데모를 만들어냈습니다. 조직에는 AI 시스템을 대규모로 운영하기 위한 인프라(MLOps, 데이터 파이프라인, 모니터링)가 부족했습니다.

진단 질문: 조직의 2024년 AI 파일럿 중 현재 수동 개입 없이 프로덕션에서 운영되고 있는 것은 몇 개입니까?5

유형 3: 채용하고 기대하는 전략

전직 동료가 “AI 책임자”로 한 회사에 합류하여 운영을 혁신할 것으로 기대했습니다. AI 팀은 임원들을 감탄시키는 인상적인 데모를 만들었지만, 프로덕션 데이터베이스, 고객 대면 시스템, 비즈니스 지표 대시보드에 접근할 수 없었습니다. 모든 데이터 요청은 데이터 엔지니어링 팀에 티켓을 보내야 했으며, 처리까지 2-3주가 걸렸습니다. 18개월 후 팀은 내부 챗봇 구축으로 방향을 전환했습니다.6

진단 질문: AI 팀이 프로덕션 데이터베이스, 고객 대면 시스템, 비즈니스 지표 대시보드에 직접 접근할 수 있습니까? 아니면 모든 데이터 요청이 다른 팀에 대한 티켓을 필요로 합니까?


나의 AI 시어터 순간

솔직히 말하면, 초기 Claude Code 훅 시스템에는 AI 시어터의 요소가 있었습니다. 첫 달에 25개의 훅을 만들었습니다. 많은 것이 인상적인 데모였습니다. 컨텍스트 주입, 철학 적용, 디자인 원칙 검증 등이었습니다. 하지만 이것들이 코드 품질을 개선하는지, 버그를 줄이는지, 시간을 절약하는지 측정하지 않았습니다. 측정 가능한 성과가 아니라 정교함의 느낌을 최적화하고 있었던 것입니다.

전환점은 블로그 품질 린터를 구축할 때였습니다. 이전 훅들과 달리 린터에는 측정 가능한 기준이 있었습니다. 인용 정확성, 메타 설명 길이, 코드 블록 언어 태그, 각주 무결성이었습니다. 적용 전후의 발견 사항 수를 셀 수 있었습니다. 오탐률을 측정할 수 있었습니다. 린터는 구축 전에 성공 기준을 정의했기 때문에 “AI 기반”에서 “측정 가능한 가치”로 전환할 수 있었습니다.

현재 제 반(反)시어터 체크리스트는 다음과 같습니다: 1. 구축 전에 지표를 정의합니다. “이것이 작동하면 어떤 숫자가 변합니까?” 이 질문에 답할 수 없다면, 시어터를 만들고 있는 것입니다. 2. 베이스라인을 측정합니다. AI 없이 현재 프로세스의 성과는 어떻습니까? 제 블로그 포스트는 자동화 시스템 도입 전 평균 4.2개의 린터 발견 사항이 있었습니다. 도입 후에는 0.3개입니다. 3. 지속적인 가치를 추적합니다. 95개의 훅이 매 세션마다 실행됩니다. recursion-guard는 23건의 폭주 스폰 시도를 차단했습니다. git-safety-guardian은 8건의 강제 푸시 시도를 가로챘습니다. 이것들은 실제 숫자입니다.7


근본 원인

잘못된 인센티브

대부분의 조직은 AI 팀에게 성과(수익 창출, 비용 절감, 의사결정 개선)가 아닌 활동(파일럿 출시, 모델 학습, 기능 발표)에 대해 보상합니다. 활동 지표는 측정하고 보고하기가 더 쉽습니다.8

인센티브 불일치는 연쇄적으로 확산됩니다. AI 팀은 인상적인 파일럿 출시에 최적화합니다. 출시는 축하를 받기 때문입니다. 프로덕션 운영은 무시됩니다. 유지보수는 눈에 보이지 않기 때문입니다.

기술 부채가 데이터 접근을 차단합니다

AI 시스템은 프로덕션 데이터에 대한 접근이 필요합니다. 프로덕션 데이터는 AI가 전략적 우선순위가 되기 전에 구축된 시스템에 존재합니다. 데이터 인프라 투자는 일반적으로 모델 개발 비용의 3-5배가 듭니다. “AI”에 예산을 배정하면서 “AI를 가능하게 하는 데이터 인프라”에 예산을 배정하지 않는 조직은 일관되게 기대에 미치지 못합니다.9

조직적 고립

“혁신팀” 또는 “우수센터”로 위치한 AI 팀은 프로덕트 개발 프로세스 밖에서 운영됩니다. AI를 성공적으로 확장하는 기업은 임베디드 디자이너와 임베디드 분석가에서 효과가 입증된 것과 동일한 모델을 따라, AI 엔지니어를 프로덕트 팀 내에 배치합니다. 조직 패턴이 기술보다 더 중요합니다.10


실제로 효과가 있는 방법

모델이 아니라 의사결정에서 시작합니다

AI 가치를 창출하는 조직은 AI가 개선할 수 있는 특정 비즈니스 의사결정을 식별하는 것에서 시작합니다. 의사결정 우선 접근법은 AI 시스템을 측정 가능한 성과로 제한합니다. 현재 의사결정 품질을 정량화하고, AI 지원 품질을 측정하고, 차이를 계산하는 것입니다.11

제 블로그 린터는 이 패턴을 따릅니다. 의사결정: “어떤 블로그 포스트가 게시를 위한 품질 기준을 충족합니까?” 지표: 포스트당 린터 발견 사항 수. 베이스라인: 린터 없이 포스트당 4.2개 발견 사항. 현재 상태: 린터와 자동 사전 게시 게이트를 적용한 후 포스트당 0.3개 발견 사항.

데이터 인프라에 먼저 투자합니다

파일럿 단계를 넘어 AI를 확장하는 조직은 모델 개발보다 데이터 인프라에 먼저 투자합니다:

  • 깨끗한 프로덕션 데이터를 지속적으로 전달하는 데이터 파이프라인
  • 일관된 피처 정의를 유지하는 피처 스토어
  • 모델 성능 저하를 감지하는 모니터링 시스템
  • 데이터 계보를 추적하는 거버넌스 프레임워크12

AI를 프로덕트 팀에 임베드합니다

프로덕트 팀 내에 배치된 AI 엔지니어는 팀의 목표를 공유하고, 팀의 제약 조건을 이해하며, 팀의 데이터를 매일 접합니다. Google의 가장 성공적인 내부 AI 애플리케이션(스팸 감지, 광고 랭킹, 검색 품질)은 해당 시스템을 담당하는 프로덕트 팀 내에 임베드된 AI 엔지니어들이 구축했습니다.13


에이전트 프론티어

McKinsey 보고서는 AI 에이전트를 다음 변곡점으로 강조합니다. 이미 AI에서 가치를 창출하고 있는 조직 중 62%가 에이전트를 실험하고 있습니다. 여전히 파일럿 모드에 있는 조직 중에서는 8%만이 에이전트를 다루고 있습니다.14

에이전트는 AI 시어터의 과제를 복합적으로 심화시킵니다. 자율적으로 행동하는 에이전트는 모델 출력에 대한 더 높은 확신, 더 강력한 모니터링, 더 명확한 거버넌스를 필요로 합니다. 제 심의 시스템은 작업 적응형 합의 임계값(보안 결정은 85%, 문서화는 50%)과 스폰 예산 적용으로 이 문제를 해결합니다. 추천 모델을 성공적으로 배포하지 못하는 조직은 자율 에이전트를 성공적으로 배포할 수 없습니다.


핵심 요약

경영진을 위한 제언: - AI 이니셔티브를 활동 지표가 아닌 성과 지표(수익, 비용, 의사결정 품질)로 감사하십시오. 팀이 성과 없이 활동만 보고한다면, 조직은 AI 시어터를 수행하고 있는 것입니다 - 데이터 인프라에 모델 개발 비용의 3-5배를 예산으로 책정하십시오. 인프라는 모든 AI 프로덕션 시스템의 전제 조건입니다

AI/ML 리더를 위한 제언: - 중앙집중식 AI 팀을 구축하기보다 AI 엔지니어를 프로덕트 팀 내에 임베드하십시오. 프로덕션 시스템에 대한 조직적 근접성이 확장 성공을 결정합니다 - 90일 이내에 프로덕션으로의 경로를 명확히 제시할 수 없는 파일럿은 중단하십시오. 프로덕션 계획이 없는 파일럿은 데모에 불과합니다

개별 실무자를 위한 제언: - AI 기능을 구축하기 전에 측정 가능한 성공 기준을 정의하십시오. “어떤 숫자가 변합니까?”가 반(反)시어터 질문입니다 - 출시 지표가 아닌 지속적인 가치를 추적하십시오. 제 git-safety-guardian은 8건의 강제 푸시 시도를 가로챘으며, 이 숫자는 “안전 훅을 배포했다”는 것보다 더 중요합니다


참고 문헌


  1. McKinsey & Company, “The State of AI in 2025,” McKinsey Global AI Survey, 2025. 

  2. McKinsey & Company, “Superagency in the Workplace: Empowering People to Unlock AI’s Full Potential,” McKinsey Global Institute, 2025. 

  3. Davenport, Thomas & Ronanki, Rajeev, “Artificial Intelligence for the Real World,” Harvard Business Review, January-February 2018. 

  4. Nagle, Tadhg et al., “Only 8% of Companies That Do AI Are Scaling It,” MIT Sloan Management Review, 2020. 

  5. Sculley, D. et al., “Hidden Technical Debt in Machine Learning Systems,” NeurIPS 2015

  6. Fountaine, Tim et al., “Building the AI-Powered Organization,” Harvard Business Review, July-August 2019. 

  7. Author’s Claude Code infrastructure metrics. 95 hooks, git-safety-guardian interception count, recursion-guard spawn blocking count. Tracked in ~/.claude/state/

  8. Brynjolfsson, Erik & McAfee, Andrew, “The Business of Artificial Intelligence,” Harvard Business Review, 2017. 

  9. Sambasivan, Nithya et al., “‘Everyone Wants to Do the Model Work, Not the Data Work’: Data Cascades in High-Stakes AI,” CHI 2021

  10. Iansiti, Marco & Lakhani, Karim R., Competing in the Age of AI, Harvard Business Review Press, 2020. 

  11. Agrawal, Ajay et al., Prediction Machines, Harvard Business Review Press, 2018. 

  12. Polyzotis, Neoklis et al., “Data Lifecycle Challenges in Production Machine Learning,” SIGMOD 2018, ACM. 

  13. Sculley, D. et al., “Machine Learning: The High-Interest Credit Card of Technical Debt,” NeurIPS 2014. Originally published as Google internal research on ML production readiness. 

  14. McKinsey & Company, “Agents for Enterprise: The Next Frontier,” McKinsey Digital Report, 2025.