Teatro de IA: Por qué el 90% de las empresas 'usan IA' pero solo el 23% genera valor

La Encuesta Global de IA 2025 de McKinsey encontró que el 90% de las organizaciones reportan usar IA en alguna capacidad, pero solo el 23% despliega agentes de IA a escala de producción. El 67% restante practica teatro de IA: inversión visible sin resultados medibles.¹

He presenciado tres variantes de teatro de IA a lo largo de mi carrera y he practicado una yo mismo.

TL;DR

El teatro de IA describe un comportamiento organizacional donde las empresas invierten visiblemente en IA (contratando equipos de IA, anunciando iniciativas de IA, ejecutando pilotos de IA) sin generar valor de negocio medible. Después de 12 años en liderazgo de diseño de producto en ZipRecruiter y un año construyendo infraestructura de agentes de IA de forma independiente, he visto ambos lados: organizaciones que practican teatro de IA y mi propio trabajo inicial que rozaba con ello. La brecha entre adopción de IA y creación de valor con IA tiene tres causas raíz: incentivos desalineados que recompensan la actividad sobre los resultados, deuda técnica que impide que los sistemas de IA accedan a datos de producción, y estructuras organizacionales que aíslan a los equipos de IA de quienes toman decisiones de negocio.

La brecha entre adopción y valor

McKinsey encuestó a 1.400 ejecutivos en diversas industrias. El hallazgo principal: el uso de IA ha alcanzado casi la ubicuidad. El hallazgo enterrado: la creación de valor no ha seguido el mismo ritmo.²

Métrica	Porcentaje
Organizaciones que “usan IA”	90%
Organizaciones con IA en producción	~33%
Organizaciones que escalan agentes de IA	23%
Organizaciones atascadas en piloto	67%
Organizaciones que reportan ROI significativo de IA	~15%

La brecha entre “usar” y “crear valor” no es una curva de madurez que todas las empresas recorrerán naturalmente. La mayoría de las empresas atascadas en piloto comparten características estructurales que impiden la progresión sin un cambio organizacional deliberado.³

Tres variantes que he presenciado

Variante 1: El juego de los anuncios

En una empresa que asesoré informalmente, el equipo de producto anunció una función de “búsqueda impulsada por IA” que consistía en pasar consultas de usuarios a través de una API de modelo fundacional sin ajuste fino, sin marco de evaluación y sin métricas más allá de “lo lanzamos”. El comunicado de prensa generó cobertura. La función generó una tasa de uso del 2% y fue silenciosamente descontinuada seis meses después.

La pregunta diagnóstica: ¿la función de IA tiene métricas de uso, tasas de retención y puntajes de satisfacción del cliente? ¿O el equipo solo rastrea “lanzamos una función de IA”?⁴

Variante 2: La fábrica de pilotos

Una empresa mediana que conozco a través de mi red profesional ejecutó 12 pruebas de concepto de IA en distintos departamentos en 2024. Cada piloto tenía un equipo dedicado, un caso de uso específico y un plazo de 90 días. Un piloto llegó a producción. Los otros 11 produjeron demos impresionantes que los ejecutivos mostraban en reuniones de directorio. La organización carecía de la infraestructura (MLOps, pipelines de datos, monitoreo) necesaria para operar sistemas de IA a escala.

La pregunta diagnóstica: ¿cuántos de los pilotos de IA de la organización de 2024 ahora funcionan en producción sin intervención manual?⁵

Variante 3: La estrategia de contratar y esperar

Un excolega se unió a una empresa como “Director de IA”, esperando transformar las operaciones. El equipo de IA construyó demos impresionantes que deslumbraron a los ejecutivos, pero no podía acceder a bases de datos de producción, sistemas orientados al cliente ni paneles de métricas de negocio. Cada solicitud de datos requería un ticket al equipo de ingeniería de datos, con un tiempo de respuesta de 2 a 3 semanas. Después de 18 meses, el equipo pivotó hacia la construcción de chatbots internos.⁶

La pregunta diagnóstica: ¿el equipo de IA tiene acceso directo a bases de datos de producción, sistemas orientados al cliente y paneles de métricas de negocio? ¿O cada solicitud de datos requiere un ticket a otro equipo?

Mi propio momento de teatro de IA

Seré honesto: mi sistema inicial de hooks de Claude Code tenía elementos de teatro de IA. Construí 25 hooks en el primer mes. Muchos eran demos impresionantes: inyección de contexto, aplicación de filosofía, validación de principios de diseño. Pero no había medido si mejoraban la calidad del código, reducían errores o ahorraban tiempo. Estaba optimizando para la sensación de sofisticación en lugar de resultados medibles.

El punto de inflexión fue construir el linter de calidad del blog. A diferencia de los hooks anteriores, el linter tenía criterios medibles: precisión de citas, longitud de meta descripciones, etiquetas de lenguaje en bloques de código, integridad de notas al pie. Podía contar hallazgos antes y después. Podía medir tasas de falsos positivos. El linter pasó de “impulsado por IA” a “mediblemente valioso” porque definí criterios de éxito antes de construir.

Mi lista de verificación anti-teatro ahora: 1. Definir la métrica antes de construir. “¿Qué número cambia si esto funciona?” Si no puedo responder, estoy construyendo teatro. 2. Medir la línea base. ¿Cómo se desempeña el proceso actual sin IA? Mis publicaciones del blog tenían un promedio de 4,2 hallazgos del linter antes del sistema automatizado. Después: 0,3. 3. Rastrear el valor continuo. Mis 95 hooks se ejecutan en cada sesión. El recursion-guard ha bloqueado 23 intentos de spawn descontrolados. El git-safety-guardian ha interceptado 8 intentos de force-push. Esos son números reales.⁷

Causas raíz

Incentivos desalineados

La mayoría de las organizaciones recompensan a los equipos de IA por actividad (pilotos lanzados, modelos entrenados, funciones anunciadas) en lugar de resultados (ingresos generados, costos reducidos, decisiones mejoradas). Las métricas de actividad son más fáciles de medir y reportar.⁸

La desalineación de incentivos se propaga en cascada. Los equipos de IA optimizan para lanzar pilotos impresionantes porque los lanzamientos se celebran. Las operaciones de producción se ignoran porque el mantenimiento es invisible.

La deuda técnica bloquea el acceso a datos

Los sistemas de IA requieren acceso a datos de producción. Los datos de producción residen en sistemas construidos antes de que la IA fuera una prioridad estratégica. La inversión en infraestructura de datos típicamente cuesta de 3 a 5 veces el costo de desarrollo del modelo. Las organizaciones que presupuestan para “IA” sin presupuestar para “infraestructura de datos que habilita la IA” consistentemente no cumplen sus objetivos.⁹

Aislamiento organizacional

Los equipos de IA posicionados como “equipos de innovación” o “centros de excelencia” operan fuera del proceso de desarrollo de producto. Las empresas que escalan IA exitosamente integran ingenieros de IA dentro de los equipos de producto, siguiendo el mismo modelo que demostró ser efectivo para diseñadores integrados y analistas integrados. El patrón organizacional importa más que la tecnología.¹⁰

Lo que realmente funciona

Comenzar con la decisión, no con el modelo

Las organizaciones que crean valor con IA comienzan identificando una decisión de negocio específica que la IA podría mejorar. El enfoque de decisión primero restringe el sistema de IA a un resultado medible: cuantificar la calidad actual de la decisión, medir la calidad asistida por IA, calcular la diferencia.¹¹

Mi linter de blog sigue este patrón. La decisión: “¿Qué publicaciones del blog cumplen los estándares de calidad para publicación?” La métrica: hallazgos del linter por publicación. La línea base: 4,2 hallazgos por publicación sin el linter. El estado actual: 0,3 hallazgos por publicación con el linter y la compuerta automatizada de pre-publicación.

Invertir en infraestructura de datos primero

Las organizaciones que escalan IA más allá de pilotos invierten en infraestructura de datos antes del desarrollo de modelos:

Pipelines de datos que entregan datos de producción limpios de forma continua
Feature stores que mantienen definiciones de características consistentes
Sistemas de monitoreo que detectan la degradación de modelos
Marcos de gobernanza que rastrean el linaje de datos¹²

Integrar IA en equipos de producto

Los ingenieros de IA que trabajan dentro de equipos de producto comparten los objetivos del equipo, comprenden las restricciones del equipo y ven los datos del equipo a diario. Las aplicaciones internas de IA más exitosas de Google (detección de spam, clasificación de anuncios, calidad de búsqueda) fueron construidas por ingenieros de IA integrados dentro de los equipos de producto responsables de esos sistemas.¹³

La frontera de los agentes

El informe de McKinsey destaca a los agentes de IA como el próximo punto de inflexión. Entre las organizaciones que ya generan valor con IA, el 62% está experimentando con agentes. Entre las organizaciones que aún están en modo piloto, solo el 8% trabaja con agentes.¹⁴

Los agentes multiplican los desafíos del teatro de IA. Un agente que toma acciones autónomamente requiere mayor confianza en la salida del modelo, monitoreo más robusto y gobernanza más clara. Mi sistema de deliberación aborda esto con umbrales de consenso adaptativos por tarea (85% para decisiones de seguridad, 50% para documentación) y aplicación de presupuesto de spawn. Las organizaciones que no pueden desplegar exitosamente un modelo de recomendación no desplegarán exitosamente un agente autónomo.

Conclusiones clave

Para ejecutivos: - Audite las iniciativas de IA buscando métricas de resultados (ingresos, costos, calidad de decisiones) en lugar de métricas de actividad; si el equipo reporta actividad sin resultados, la organización está practicando teatro de IA - Presupueste de 3 a 5 veces el costo de desarrollo del modelo para infraestructura de datos; la infraestructura es el prerrequisito para cada sistema de IA en producción

Para líderes de IA/ML: - Integre ingenieros de IA dentro de equipos de producto en lugar de construir equipos centralizados de IA; la proximidad organizacional a los sistemas de producción determina el éxito en la escalabilidad - Cancele pilotos que no puedan articular un camino a producción dentro de 90 días; un piloto sin plan de producción es una demo

Para profesionales individuales: - Defina criterios de éxito medibles antes de construir cualquier función de IA; “¿qué número cambia?” es la pregunta anti-teatro - Rastree el valor continuo, no las métricas de lanzamiento; mi git-safety-guardian ha interceptado 8 intentos de force-push, y ese número importa más que “desplegamos un hook de seguridad”

Referencias

McKinsey & Company, “The State of AI in 2025,” McKinsey Global AI Survey, 2025. ↩
McKinsey & Company, “Superagency in the Workplace: Empowering People to Unlock AI’s Full Potential,” McKinsey Global Institute, 2025. ↩
Davenport, Thomas & Ronanki, Rajeev, “Artificial Intelligence for the Real World,” Harvard Business Review, enero-febrero 2018. ↩
Nagle, Tadhg et al., “Only 8% of Companies That Do AI Are Scaling It,” MIT Sloan Management Review, 2020. ↩
Sculley, D. et al., “Hidden Technical Debt in Machine Learning Systems,” NeurIPS 2015. ↩
Fountaine, Tim et al., “Building the AI-Powered Organization,” Harvard Business Review, julio-agosto 2019. ↩
Métricas de infraestructura de Claude Code del autor. 95 hooks, conteo de intercepciones del git-safety-guardian, conteo de bloqueos de spawn del recursion-guard. Rastreado en ~/.claude/state/. ↩
Brynjolfsson, Erik & McAfee, Andrew, “The Business of Artificial Intelligence,” Harvard Business Review, 2017. ↩
Sambasivan, Nithya et al., “‘Everyone Wants to Do the Model Work, Not the Data Work’: Data Cascades in High-Stakes AI,” CHI 2021. ↩
Iansiti, Marco & Lakhani, Karim R., Competing in the Age of AI, Harvard Business Review Press, 2020. ↩
Agrawal, Ajay et al., Prediction Machines, Harvard Business Review Press, 2018. ↩
Polyzotis, Neoklis et al., “Data Lifecycle Challenges in Production Machine Learning,” SIGMOD 2018, ACM. ↩
Sculley, D. et al., “Machine Learning: The High-Interest Credit Card of Technical Debt,” NeurIPS 2014. Publicado originalmente como investigación interna de Google sobre preparación de ML para producción. ↩
McKinsey & Company, “Agents for Enterprise: The Next Frontier,” McKinsey Digital Report, 2025. ↩