← Todos os Posts

Teatro da IA: por que 90% das empresas "usam IA" mas apenas 23% criam valor

A Pesquisa Global de AI da McKinsey de 2025 constatou que 90% das organizações relatam usar AI de alguma forma, mas apenas 23% implantam agentes de AI em escala de produção. Os 67% restantes praticam teatro de AI: investimento visível sem resultados mensuráveis.1

Ao longo da minha carreira, testemunhei três sabores de teatro de AI — e pratiquei um deles eu mesmo.

TL;DR

Teatro de AI descreve o comportamento organizacional em que empresas investem visivelmente em AI (contratando equipes de AI, anunciando iniciativas de AI, executando pilotos de AI) sem criar valor de negócio mensurável. Após 12 anos em liderança de design de produto na ZipRecruiter e um ano construindo infraestrutura de agentes de AI de forma independente, vi os dois lados: organizações praticando teatro de AI e meu próprio trabalho inicial que beirava isso. A lacuna entre adoção de AI e criação de valor com AI tem três causas raiz: incentivos desalinhados que recompensam atividade em vez de resultados, dívida técnica que impede sistemas de AI de acessar dados de produção e estruturas organizacionais que isolam equipes de AI dos tomadores de decisão de negócio.


A lacuna entre adoção e valor

A McKinsey entrevistou 1.400 executivos de diversos setores. A manchete: o uso de AI atingiu quase ubiquidade. A descoberta enterrada: a criação de valor não acompanhou o ritmo.2

Métrica Porcentagem
Organizações “usando AI” 90%
Organizações com AI em produção ~33%
Organizações escalando agentes de AI 23%
Organizações presas em piloto 67%
Organizações reportando ROI significativo com AI ~15%

A lacuna entre “usar” e “criar valor” não é uma curva de maturidade que todas as empresas naturalmente percorrerão. A maioria das empresas presas em piloto compartilha características estruturais que impedem a progressão sem mudança organizacional deliberada.3


Três sabores que testemunhei

Sabor 1: O jogo dos anúncios

Em uma empresa que assessorei informalmente, a equipe de produto anunciou um recurso de “busca com AI” que consistia em passar consultas de usuários por uma API de modelo fundacional sem fine-tuning, sem framework de avaliação e sem métricas além de “lançamos”. O comunicado de imprensa gerou cobertura. O recurso gerou uma taxa de uso de 2% e foi silenciosamente descontinuado seis meses depois.

A pergunta diagnóstica: o recurso de AI tem métricas de uso, taxas de retenção e pontuações de satisfação do cliente? Ou a equipe apenas rastreia “lançamos um recurso de AI”?4

Sabor 2: A fábrica de pilotos

Uma empresa de médio porte que conheço através da minha rede profissional executou 12 provas de conceito de AI em diferentes departamentos em 2024. Cada piloto tinha uma equipe dedicada, um caso de uso específico e um prazo de 90 dias. Um piloto chegou à produção. Os outros 11 produziram demos impressionantes que executivos mostraram em reuniões de conselho. A organização não tinha a infraestrutura (MLOps, pipelines de dados, monitoramento) necessária para operar sistemas de AI em escala.

A pergunta diagnóstica: quantos dos pilotos de AI da organização de 2024 agora rodam em produção sem intervenção manual?5

Sabor 3: A estratégia de contratar e esperar

Um ex-colega entrou em uma empresa como “Head de AI”, esperando transformar as operações. A equipe de AI construiu demos impressionantes que encantaram executivos, mas não conseguia acessar bancos de dados de produção, sistemas voltados ao cliente ou dashboards de métricas de negócio. Cada solicitação de dados exigia um ticket para a equipe de engenharia de dados, com prazo de 2 a 3 semanas. Após 18 meses, a equipe pivotou para construir chatbots internos.6

A pergunta diagnóstica: a equipe de AI tem acesso direto a bancos de dados de produção, sistemas voltados ao cliente e dashboards de métricas de negócio? Ou cada solicitação de dados exige um ticket para outra equipe?


Meu próprio momento de teatro de AI

Vou ser honesto: meu sistema inicial de hooks do Claude Code tinha elementos de teatro de AI. Construí 25 hooks no primeiro mês. Muitos eram demos impressionantes: injeção de contexto, aplicação de filosofia, validação de princípios de design. Mas eu não havia medido se melhoraram a qualidade do código, reduziram bugs ou economizaram tempo. Estava otimizando para a sensação de sofisticação em vez de resultados mensuráveis.

O ponto de virada foi construir o linter de qualidade do blog. Diferente dos hooks anteriores, o linter tinha critérios mensuráveis: precisão de citações, tamanho da meta description, tags de linguagem em blocos de código, integridade de notas de rodapé. Eu podia contar achados antes e depois. Podia medir taxas de falsos positivos. O linter saiu de “com AI” para “mensuravelmente valioso” porque defini critérios de sucesso antes de construir.

Minha checklist anti-teatro agora: 1. Defina a métrica antes de construir. “Que número muda se isso funcionar?” Se não consigo responder, estou construindo teatro. 2. Meça a linha de base. Como o processo atual performa sem AI? Meus posts de blog tinham uma média de 4,2 achados do linter antes do sistema automatizado. Depois: 0,3. 3. Acompanhe o valor contínuo. Meus 95 hooks rodam em toda sessão. O recursion-guard bloqueou 23 tentativas de spawn descontrolado. O git-safety-guardian interceptou 8 tentativas de force-push. Esses são números reais.7


Causas raiz

Incentivos desalinhados

A maioria das organizações recompensa equipes de AI por atividade (pilotos lançados, modelos treinados, recursos anunciados) em vez de resultados (receita gerada, custos reduzidos, decisões aprimoradas). Métricas de atividade são mais fáceis de medir e reportar.8

O desalinhamento de incentivos gera efeito cascata. Equipes de AI otimizam para lançar pilotos impressionantes porque lançamentos são celebrados. Operações de produção são ignoradas porque manutenção é invisível.

Dívida técnica bloqueia acesso a dados

Sistemas de AI requerem acesso a dados de produção. Dados de produção residem em sistemas construídos antes de AI ser uma prioridade estratégica. O investimento em infraestrutura de dados tipicamente custa de 3 a 5 vezes o custo de desenvolvimento do modelo. Organizações que orçam para “AI” sem orçar para “infraestrutura de dados que viabiliza AI” consistentemente entregam abaixo do esperado.9

Isolamento organizacional

Equipes de AI posicionadas como “times de inovação” ou “centros de excelência” operam fora do processo de desenvolvimento de produto. Empresas que escalam AI com sucesso integram engenheiros de AI dentro das equipes de produto, seguindo o mesmo modelo que se provou eficaz para designers integrados e analistas integrados. O padrão organizacional importa mais do que a tecnologia.10


O que realmente funciona

Comece pela decisão, não pelo modelo

Organizações que criam valor com AI começam identificando uma decisão de negócio específica que AI poderia melhorar. A abordagem decisão-primeiro restringe o sistema de AI a um resultado mensurável: quantificar a qualidade atual da decisão, medir a qualidade assistida por AI, calcular a diferença.11

Meu linter de blog segue esse padrão. A decisão: “Quais posts de blog atendem aos padrões de qualidade para publicação?” A métrica: achados do linter por post. A linha de base: 4,2 achados por post sem o linter. O estado atual: 0,3 achados por post com o linter e gate de pré-publicação automatizado.

Invista em infraestrutura de dados primeiro

As organizações que escalam AI além de pilotos investem em infraestrutura de dados antes do desenvolvimento de modelos:

  • Pipelines de dados que entregam continuamente dados limpos de produção
  • Feature stores que mantêm definições consistentes de features
  • Sistemas de monitoramento que detectam degradação de modelos
  • Frameworks de governança que rastreiam a linhagem dos dados12

Integre AI nas equipes de produto

Engenheiros de AI que estão dentro das equipes de produto compartilham os objetivos da equipe, entendem as restrições da equipe e veem os dados da equipe diariamente. As aplicações internas de AI mais bem-sucedidas do Google (detecção de spam, ranqueamento de anúncios, qualidade de busca) foram construídas por engenheiros de AI integrados nas equipes de produto responsáveis por esses sistemas.13


A fronteira dos agentes

O relatório da McKinsey destaca agentes de AI como o próximo ponto de inflexão. Entre organizações que já criam valor com AI, 62% estão experimentando com agentes. Entre organizações ainda em modo piloto, apenas 8% estão trabalhando com agentes.14

Agentes amplificam os desafios do teatro de AI. Um agente que toma ações autonomamente requer maior confiança na saída do modelo, monitoramento mais robusto e governança mais clara. Meu sistema de deliberação aborda isso com limiares de consenso adaptativos por tarefa (85% para decisões de segurança, 50% para documentação) e aplicação de orçamento de spawn. Organizações que não conseguem implantar com sucesso um modelo de recomendação não conseguirão implantar com sucesso um agente autônomo.


Principais conclusões

Para executivos: - Audite iniciativas de AI por métricas de resultado (receita, custo, qualidade de decisão) em vez de métricas de atividade; se a equipe reporta atividade sem resultados, a organização está praticando teatro de AI - Orce de 3 a 5 vezes o custo de desenvolvimento do modelo para infraestrutura de dados; a infraestrutura é o pré-requisito para todo sistema de AI em produção

Para líderes de AI/ML: - Integre engenheiros de AI dentro das equipes de produto em vez de construir equipes centralizadas de AI; a proximidade organizacional dos sistemas de produção determina o sucesso na escalabilidade - Encerre pilotos que não conseguem articular um caminho para produção em 90 dias; um piloto sem plano de produção é uma demo

Para profissionais individuais: - Defina critérios de sucesso mensuráveis antes de construir qualquer recurso de AI; “que número muda?” é a pergunta anti-teatro - Acompanhe o valor contínuo, não métricas de lançamento; meu git-safety-guardian interceptou 8 tentativas de force-push, e esse número importa mais do que “implantamos um hook de segurança”


Referências


  1. McKinsey & Company, “The State of AI in 2025,” McKinsey Global AI Survey, 2025. 

  2. McKinsey & Company, “Superagency in the Workplace: Empowering People to Unlock AI’s Full Potential,” McKinsey Global Institute, 2025. 

  3. Davenport, Thomas & Ronanki, Rajeev, “Artificial Intelligence for the Real World,” Harvard Business Review, January-February 2018. 

  4. Nagle, Tadhg et al., “Only 8% of Companies That Do AI Are Scaling It,” MIT Sloan Management Review, 2020. 

  5. Sculley, D. et al., “Hidden Technical Debt in Machine Learning Systems,” NeurIPS 2015

  6. Fountaine, Tim et al., “Building the AI-Powered Organization,” Harvard Business Review, July-August 2019. 

  7. Author’s Claude Code infrastructure metrics. 95 hooks, git-safety-guardian interception count, recursion-guard spawn blocking count. Tracked in ~/.claude/state/

  8. Brynjolfsson, Erik & McAfee, Andrew, “The Business of Artificial Intelligence,” Harvard Business Review, 2017. 

  9. Sambasivan, Nithya et al., “‘Everyone Wants to Do the Model Work, Not the Data Work’: Data Cascades in High-Stakes AI,” CHI 2021

  10. Iansiti, Marco & Lakhani, Karim R., Competing in the Age of AI, Harvard Business Review Press, 2020. 

  11. Agrawal, Ajay et al., Prediction Machines, Harvard Business Review Press, 2018. 

  12. Polyzotis, Neoklis et al., “Data Lifecycle Challenges in Production Machine Learning,” SIGMOD 2018, ACM. 

  13. Sculley, D. et al., “Machine Learning: The High-Interest Credit Card of Technical Debt,” NeurIPS 2014. Originally published as Google internal research on ML production readiness. 

  14. McKinsey & Company, “Agents for Enterprise: The Next Frontier,” McKinsey Digital Report, 2025.