Teatr AI: dlaczego 90% firm „korzysta z AI", ale tylko 23% tworzy wartość
Globalne badanie AI przeprowadzone przez McKinsey w 2025 roku wykazało, że 90% organizacji deklaruje wykorzystywanie AI w jakimś zakresie, jednak tylko 23% wdraża agentów AI na skalę produkcyjną. Pozostałe 67% uprawia teatr AI: widoczne inwestycje bez mierzalnych rezultatów.1
W trakcie mojej kariery byłem świadkiem trzech odmian teatru AI — a jedną z nich sam praktykowałem.
TL;DR
Teatr AI opisuje zachowanie organizacyjne, w którym firmy inwestują w AI w sposób widoczny (zatrudniając zespoły AI, ogłaszając inicjatywy AI, prowadząc pilotaże AI), nie tworząc przy tym mierzalnej wartości biznesowej. Po 12 latach na stanowiskach kierowniczych w projektowaniu produktów w ZipRecruiter i roku samodzielnego budowania infrastruktury agentów AI widziałem obie strony: organizacje odgrywające teatr AI oraz moją własną wczesną pracę, która graniczyła z tym zjawiskiem. Przepaść między adopcją AI a tworzeniem wartości z AI ma trzy źródłowe przyczyny: niewłaściwie ustawione zachęty, które nagradzają aktywność zamiast wyników, dług technologiczny uniemożliwiający systemom AI dostęp do danych produkcyjnych oraz struktury organizacyjne, które izolują zespoły AI od osób podejmujących decyzje biznesowe.
Przepaść między adopcją a wartością
McKinsey przeprowadził badanie wśród 1400 dyrektorów z różnych branż. Główny wniosek: wykorzystanie AI osiągnęło niemal powszechność. Ukryty wniosek: tworzenie wartości nie nadążyło za tym tempem.2
| Wskaźnik | Procent |
|---|---|
| Organizacje „wykorzystujące AI” | 90% |
| Organizacje z AI w produkcji | ~33% |
| Organizacje skalujące agentów AI | 23% |
| Organizacje utknięte na etapie pilotażu | 67% |
| Organizacje raportujące istotny ROI z AI | ~15% |
Przepaść między „wykorzystywaniem” a „tworzeniem wartości” nie jest krzywą dojrzałości, którą wszystkie firmy naturalnie przejdą. Większość firm utkniętych na etapie pilotażu ma wspólne cechy strukturalne, które uniemożliwiają postęp bez świadomej zmiany organizacyjnej.3
Trzy odmiany, których byłem świadkiem
Odmiana 1: Gra w ogłoszenia
W firmie, którą nieformalnie doradzałem, zespół produktowy ogłosił funkcję „wyszukiwania opartego na AI”, która sprowadzała się do przepuszczania zapytań użytkowników przez API modelu fundamentowego — bez dostrajania, bez systemu ewaluacji i bez metryk poza „uruchomiliśmy to”. Komunikat prasowy wygenerował zainteresowanie mediów. Funkcja wygenerowała 2% wskaźnik użycia i została po cichu wycofana sześć miesięcy później.
Pytanie diagnostyczne: czy funkcja AI ma metryki użycia, wskaźniki retencji i wyniki satysfakcji klientów? Czy zespół śledzi jedynie „dostarczyliśmy funkcję AI”?4
Odmiana 2: Fabryka pilotaży
Średniej wielkości firma, którą znam przez moją sieć zawodową, przeprowadziła w 2024 roku 12 weryfikacji koncepcji AI w różnych działach. Każdy pilotaż miał dedykowany zespół, konkretny przypadek użycia i 90-dniowy harmonogram. Jeden pilotaż dotarł do produkcji. Pozostałe 11 wytworzyło imponujące dema, które dyrektorzy prezentowali na posiedzeniach zarządu. Organizacji brakowało infrastruktury (MLOps, potoki danych, monitoring) wymaganej do obsługi systemów AI na dużą skalę.
Pytanie diagnostyczne: ile pilotaży AI z 2024 roku działa obecnie w produkcji bez ręcznej interwencji?5
Odmiana 3: Strategia „zatrudnij i miej nadzieję”
Były współpracownik dołączył do firmy jako „Szef AI”, oczekując transformacji operacji. Zespół AI budował imponujące dema, które zachwycały kadrę kierowniczą, ale nie miał dostępu do produkcyjnych baz danych, systemów obsługujących klientów ani dashboardów z metrykami biznesowymi. Każde zapytanie o dane wymagało zgłoszenia do zespołu inżynierii danych z 2-3 tygodniowym czasem realizacji. Po 18 miesiącach zespół przeniósł się na budowanie wewnętrznych chatbotów.6
Pytanie diagnostyczne: czy zespół AI ma bezpośredni dostęp do produkcyjnych baz danych, systemów obsługujących klientów i dashboardów z metrykami biznesowymi? Czy każde zapytanie o dane wymaga zgłoszenia do innego zespołu?
Mój własny moment teatru AI
Przyznam szczerze: mój wczesny system hooków Claude Code miał elementy teatru AI. W pierwszym miesiącu zbudowałem 25 hooków. Wiele z nich to imponujące dema: wstrzykiwanie kontekstu, egzekwowanie filozofii, walidacja zasad projektowania. Ale nie zmierzyłem, czy poprawiły jakość kodu, zmniejszyły liczbę błędów czy zaoszczędziły czas. Optymalizowałem pod kątem poczucia wyrafinowania, a nie mierzalnych wyników.
Punktem zwrotnym było zbudowanie lintera jakości bloga. W odróżnieniu od wcześniejszych hooków, linter miał mierzalne kryteria: dokładność cytatów, długość opisu meta, tagi języka bloków kodu, integralność przypisów. Mogłem policzyć znalezione problemy przed i po. Mogłem zmierzyć wskaźnik fałszywych alarmów. Linter przeszedł od „opartego na AI” do „mierzalnie wartościowego”, ponieważ zdefiniowałem kryteria sukcesu przed rozpoczęciem budowy.
Moja lista kontrolna przeciw teatrowi: 1. Zdefiniuj metrykę przed budowaniem. „Jaka liczba się zmieni, jeśli to zadziała?” Jeśli nie potrafię odpowiedzieć, buduję teatr. 2. Zmierz punkt odniesienia. Jak radzi sobie obecny proces bez AI? Moje wpisy na blogu miały średnio 4,2 problemów wykrytych przez linter przed wdrożeniem systemu automatycznego. Po wdrożeniu: 0,3. 3. Śledź bieżącą wartość. Moje 95 hooków uruchamia się podczas każdej sesji. Recursion-guard zablokował 23 niekontrolowane próby tworzenia procesów potomnych. Git-safety-guardian przechwycił 8 prób wymuszenia push. To są realne liczby.7
Przyczyny źródłowe
Niewłaściwie ustawione zachęty
Większość organizacji nagradza zespoły AI za aktywność (uruchomione pilotaże, wytrenowane modele, ogłoszone funkcje), a nie za wyniki (wygenerowane przychody, obniżone koszty, ulepszone decyzje). Metryki aktywności są łatwiejsze do zmierzenia i raportowania.8
Niewłaściwe ustawienie zachęt kaskaduje dalej. Zespoły AI optymalizują pod kątem uruchamiania imponujących pilotaży, ponieważ uruchomienia są celebrowane. Operacje produkcyjne są ignorowane, ponieważ utrzymanie jest niewidoczne.
Dług technologiczny blokuje dostęp do danych
Systemy AI wymagają dostępu do danych produkcyjnych. Dane produkcyjne znajdują się w systemach zbudowanych zanim AI stało się priorytetem strategicznym. Inwestycja w infrastrukturę danych kosztuje zwykle 3-5 razy więcej niż rozwój modelu. Organizacje, które budżetują „AI” bez budżetowania „infrastruktury danych umożliwiającej AI”, konsekwentnie nie spełniają oczekiwań.9
Izolacja organizacyjna
Zespoły AI pozycjonowane jako „zespoły innowacji” lub „centra doskonałości” działają poza procesem rozwoju produktu. Firmy, które skutecznie skalują AI, osadzają inżynierów AI w zespołach produktowych, stosując ten sam model, który okazał się skuteczny w przypadku osadzonych projektantów i osadzonych analityków. Wzorzec organizacyjny ma większe znaczenie niż technologia.10
Co naprawdę działa
Zacznij od decyzji, nie od modelu
Organizacje, które tworzą wartość z AI, zaczynają od identyfikacji konkretnej decyzji biznesowej, którą AI może usprawnić. Podejście „najpierw decyzja” ogranicza system AI do mierzalnego wyniku: skwantyfikuj obecną jakość decyzji, zmierz jakość wspomaganą przez AI, oblicz różnicę.11
Mój linter bloga stosuje ten wzorzec. Decyzja: „Które wpisy na blogu spełniają standardy jakości do publikacji?” Metryka: liczba problemów wykrytych przez linter na wpis. Punkt odniesienia: 4,2 problemów na wpis bez lintera. Stan obecny: 0,3 problemów na wpis z linterem i automatyczną bramką przedpublikacyjną.
Inwestuj najpierw w infrastrukturę danych
Organizacje, które skalują AI poza pilotaże, inwestują w infrastrukturę danych przed rozwojem modeli:
- Potoki danych, które w sposób ciągły dostarczają czyste dane produkcyjne
- Magazyny cech (feature stores), które utrzymują spójne definicje cech
- Systemy monitoringu, które wykrywają degradację modelu
- Ramy zarządzania, które śledzą pochodzenie danych12
Osadź AI w zespołach produktowych
Inżynierowie AI, którzy pracują w zespołach produktowych, dzielą cele zespołu, rozumieją jego ograniczenia i codziennie widzą jego dane. Najbardziej udane wewnętrzne aplikacje AI w Google (wykrywanie spamu, ranking reklam, jakość wyszukiwania) zostały zbudowane przez inżynierów AI osadzonych w zespołach produktowych odpowiedzialnych za te systemy.13
Granica agentowa
Raport McKinsey wskazuje na agentów AI jako kolejny punkt przełomowy. Wśród organizacji już tworzących wartość z AI, 62% eksperymentuje z agentami. Wśród organizacji wciąż na etapie pilotażu tylko 8% pracuje z agentami.14
Agenci potęgują wyzwania teatru AI. Agent, który autonomicznie podejmuje działania, wymaga wyższego poziomu pewności co do wyników modelu, silniejszego monitoringu i jaśniejszego zarządzania. Mój system deliberacji rozwiązuje to poprzez adaptacyjne progi konsensusu dostosowane do zadania (85% dla decyzji bezpieczeństwa, 50% dla dokumentacji) oraz egzekwowanie budżetu na tworzenie procesów potomnych. Organizacje, które nie potrafią skutecznie wdrożyć modelu rekomendacji, nie wdrożą skutecznie autonomicznego agenta.
Kluczowe wnioski
Dla kadry kierowniczej: - Audytuj inicjatywy AI pod kątem metryk wynikowych (przychody, koszty, jakość decyzji), a nie metryk aktywności; jeśli zespół raportuje aktywność bez wyników, organizacja uprawia teatr AI - Zabudżetuj 3-5 razy więcej niż koszt rozwoju modelu na infrastrukturę danych; infrastruktura jest warunkiem wstępnym każdego produkcyjnego systemu AI
Dla liderów AI/ML: - Osadzaj inżynierów AI w zespołach produktowych zamiast budować scentralizowane zespoły AI; bliskość organizacyjna do systemów produkcyjnych determinuje sukces skalowania - Zamykaj pilotaże, które nie potrafią określić ścieżki do produkcji w ciągu 90 dni; pilotaż bez planu produkcyjnego to demo
Dla indywidualnych praktyków: - Zdefiniuj mierzalne kryteria sukcesu przed budowaniem jakiejkolwiek funkcji AI; „jaka liczba się zmieni?” to pytanie anty-teatralne - Śledź bieżącą wartość, nie metryki uruchomienia; mój git-safety-guardian przechwycił 8 prób wymuszenia push i ta liczba ma większe znaczenie niż „wdrożyliśmy hook bezpieczeństwa”
Bibliografia
-
McKinsey & Company, „The State of AI in 2025,” McKinsey Global AI Survey, 2025. ↩
-
McKinsey & Company, „Superagency in the Workplace: Empowering People to Unlock AI’s Full Potential,” McKinsey Global Institute, 2025. ↩
-
Davenport, Thomas & Ronanki, Rajeev, „Artificial Intelligence for the Real World,” Harvard Business Review, January-February 2018. ↩
-
Nagle, Tadhg et al., „Only 8% of Companies That Do AI Are Scaling It,” MIT Sloan Management Review, 2020. ↩
-
Sculley, D. et al., „Hidden Technical Debt in Machine Learning Systems,” NeurIPS 2015. ↩
-
Fountaine, Tim et al., „Building the AI-Powered Organization,” Harvard Business Review, July-August 2019. ↩
-
Metryki infrastruktury Claude Code autora. 95 hooków, licznik przechwyceń git-safety-guardian, licznik blokad tworzenia procesów potomnych recursion-guard. Śledzone w
~/.claude/state/. ↩ -
Brynjolfsson, Erik & McAfee, Andrew, „The Business of Artificial Intelligence,” Harvard Business Review, 2017. ↩
-
Sambasivan, Nithya et al., „’Everyone Wants to Do the Model Work, Not the Data Work’: Data Cascades in High-Stakes AI,” CHI 2021. ↩
-
Iansiti, Marco & Lakhani, Karim R., Competing in the Age of AI, Harvard Business Review Press, 2020. ↩
-
Agrawal, Ajay et al., Prediction Machines, Harvard Business Review Press, 2018. ↩
-
Polyzotis, Neoklis et al., „Data Lifecycle Challenges in Production Machine Learning,” SIGMOD 2018, ACM. ↩
-
Sculley, D. et al., „Machine Learning: The High-Interest Credit Card of Technical Debt,” NeurIPS 2014. Pierwotnie opublikowane jako wewnętrzne badania Google nad gotowością ML do produkcji. ↩
-
McKinsey & Company, „Agents for Enterprise: The Next Frontier,” McKinsey Digital Report, 2025. ↩