← Alle Beitrage

KI-Theater: Warum 90 % der Unternehmen „KI nutzen", aber nur 23 % Wert schaffen

McKinseys Global AI Survey 2025 ergab, dass 90 % der Organisationen angeben, KI in irgendeiner Form zu nutzen, doch nur 23 % KI-Agenten im Produktionsmaßstab einsetzen. Die verbleibenden 67 % betreiben KI-Theater: sichtbare Investitionen ohne messbare Ergebnisse.1

Im Laufe meiner Karriere habe ich drei Varianten von KI-Theater erlebt – und eine davon selbst praktiziert.

TL;DR

KI-Theater beschreibt organisatorisches Verhalten, bei dem Unternehmen sichtbar in KI investieren (KI-Teams einstellen, KI-Initiativen ankündigen, KI-Pilotprojekte durchführen), ohne messbaren Geschäftswert zu schaffen. Nach 12 Jahren in der Produktdesign-Leitung bei ZipRecruiter und einem Jahr eigenständigen Aufbaus von KI-Agenten-Infrastruktur habe ich beide Seiten erlebt: Organisationen, die KI-Theater aufführen, und meine eigene frühe Arbeit, die an KI-Theater grenzte. Die Kluft zwischen KI-Adoption und KI-Wertschöpfung hat drei Ursachen: fehlgeleitete Anreize, die Aktivität statt Ergebnisse belohnen, technische Schulden, die KI-Systemen den Zugang zu Produktionsdaten verwehren, und Organisationsstrukturen, die KI-Teams von geschäftlichen Entscheidungsträgern isolieren.


Die Lücke zwischen Adoption und Wertschöpfung

McKinsey befragte 1.400 Führungskräfte aus verschiedenen Branchen. Die Haupterkenntnis: Die KI-Nutzung hat nahezu Allgegenwärtigkeit erreicht. Die versteckte Erkenntnis: Die Wertschöpfung hat nicht Schritt gehalten.2

Kennzahl Prozentsatz
Organisationen, die „KI nutzen” 90 %
Organisationen mit KI in der Produktion ~33 %
Organisationen, die KI-Agenten skalieren 23 %
Organisationen, die im Pilotstadium feststecken 67 %
Organisationen, die signifikanten ROI aus KI melden ~15 %

Die Kluft zwischen „nutzen” und „Wert schaffen” ist keine Reifekurve, die alle Unternehmen natürlich durchlaufen werden. Die Mehrheit der Unternehmen, die im Pilotstadium feststecken, teilt strukturelle Merkmale, die einen Fortschritt ohne bewussten organisatorischen Wandel verhindern.3


Drei Varianten, die ich erlebt habe

Variante 1: Das Ankündigungsspiel

Bei einem Unternehmen, das ich informell beraten habe, kündigte das Produktteam eine „KI-gestützte Suche” an, die lediglich daraus bestand, Benutzeranfragen durch eine Foundation-Model-API zu leiten – ohne Feinabstimmung, ohne Evaluierungsrahmen und ohne Metriken jenseits von „wir haben es gelauncht”. Die Pressemitteilung generierte Berichterstattung. Die Funktion generierte eine Nutzungsrate von 2 % und wurde sechs Monate später stillschweigend eingestellt.

Die diagnostische Frage: Hat die KI-Funktion Nutzungsmetriken, Verweildauern und Kundenzufriedenheitswerte? Oder verfolgt das Team nur „wir haben eine KI-Funktion ausgeliefert”?4

Variante 2: Die Pilotfabrik

Ein mittelständisches Unternehmen aus meinem beruflichen Netzwerk führte 2024 zwölf KI-Proofs-of-Concept über Abteilungen hinweg durch. Jedes Pilotprojekt hatte ein dediziertes Team, einen spezifischen Anwendungsfall und einen 90-Tage-Zeitrahmen. Ein Pilot erreichte die Produktion. Die anderen elf produzierten beeindruckende Demos, die Führungskräfte bei Vorstandssitzungen zeigten. Der Organisation fehlte die Infrastruktur (MLOps, Datenpipelines, Monitoring), die für den Betrieb von KI-Systemen im großen Maßstab erforderlich ist.

Die diagnostische Frage: Wie viele der KI-Pilotprojekte der Organisation aus 2024 laufen jetzt in der Produktion ohne manuelle Eingriffe?5

Variante 3: Die Einstellen-und-Hoffen-Strategie

Ein ehemaliger Kollege trat als „Head of AI” in ein Unternehmen ein, um den Betrieb zu transformieren. Das KI-Team baute beeindruckende Demos, die Führungskräfte begeisterten, konnte jedoch nicht auf Produktionsdatenbanken, kundenorientierte Systeme oder Geschäftskennzahlen-Dashboards zugreifen. Jede Datenanforderung erforderte ein Ticket an das Data-Engineering-Team mit einer Bearbeitungszeit von 2–3 Wochen. Nach 18 Monaten schwenkte das Team auf den Bau interner Chatbots um.6

Die diagnostische Frage: Hat das KI-Team direkten Zugriff auf Produktionsdatenbanken, kundenorientierte Systeme und Geschäftskennzahlen-Dashboards? Oder erfordert jede Datenanforderung ein Ticket an ein anderes Team?


Mein eigener KI-Theater-Moment

Ich gebe es ehrlich zu: Mein frühes Claude Code Hook-System hatte Elemente von KI-Theater. Ich habe im ersten Monat 25 Hooks gebaut. Viele waren beeindruckende Demos: Kontexteinspeisung, Philosophie-Durchsetzung, Designprinzipien-Validierung. Aber ich hatte nicht gemessen, ob sie die Codequalität verbesserten, Fehler reduzierten oder Zeit sparten. Ich optimierte für das Gefühl von Raffinesse statt für messbare Ergebnisse.

Der Wendepunkt war der Bau des Blog-Qualitäts-Linters. Anders als die früheren Hooks hatte der Linter messbare Kriterien: Zitatgenauigkeit, Metabeschreibungslänge, Codeblock-Sprachtags, Fußnotenintegrität. Ich konnte Befunde vor und nach dem Einsatz zählen. Ich konnte Falsch-Positiv-Raten messen. Der Linter wandelte sich von „KI-gestützt” zu „messbar wertvoll”, weil ich Erfolgskriterien vor dem Bau definiert hatte.

Meine Anti-Theater-Checkliste heute: 1. Die Metrik vor dem Bau definieren. „Welche Zahl ändert sich, wenn das funktioniert?” Wenn ich das nicht beantworten kann, baue ich Theater. 2. Die Basislinie messen. Wie funktioniert der aktuelle Prozess ohne KI? Meine Blogbeiträge hatten durchschnittlich 4,2 Linter-Befunde vor dem automatisierten System. Danach: 0,3. 3. Den laufenden Wert verfolgen. Meine 95 Hooks laufen bei jeder Sitzung. Der Recursion-Guard hat 23 unkontrollierte Spawn-Versuche blockiert. Der Git-Safety-Guardian hat 8 Force-Push-Versuche abgefangen. Das sind echte Zahlen.7


Ursachen

Fehlgeleitete Anreize

Die meisten Organisationen belohnen KI-Teams für Aktivität (gestartete Pilotprojekte, trainierte Modelle, angekündigte Funktionen) statt für Ergebnisse (generierter Umsatz, reduzierte Kosten, verbesserte Entscheidungen). Aktivitätskennzahlen sind einfacher zu messen und zu berichten.8

Die Fehlanreize wirken kaskadenartig. KI-Teams optimieren für den Start beeindruckender Pilotprojekte, weil Launches gefeiert werden. Der Produktionsbetrieb wird ignoriert, weil Wartung unsichtbar ist.

Technische Schulden blockieren den Datenzugang

KI-Systeme erfordern Zugang zu Produktionsdaten. Produktionsdaten befinden sich in Systemen, die gebaut wurden, bevor KI eine strategische Priorität war. Die Investition in Dateninfrastruktur kostet typischerweise das 3- bis 5-Fache der Modellentwicklungskosten. Organisationen, die für „KI” budgetieren, ohne für „Dateninfrastruktur, die KI ermöglicht” zu budgetieren, liefern konsequent unter den Erwartungen.9

Organisatorische Isolation

KI-Teams, die als „Innovationsteams” oder „Center of Excellence” positioniert werden, arbeiten außerhalb des Produktentwicklungsprozesses. Unternehmen, die KI erfolgreich skalieren, betten KI-Ingenieure in Produktteams ein – nach demselben Modell, das sich für eingebettete Designer und eingebettete Analysten bewährt hat. Das organisatorische Muster ist wichtiger als die Technologie.10


Was tatsächlich funktioniert

Mit der Entscheidung beginnen, nicht mit dem Modell

Organisationen, die KI-Wert schaffen, beginnen damit, eine spezifische Geschäftsentscheidung zu identifizieren, die KI verbessern könnte. Der Entscheidung-zuerst-Ansatz beschränkt das KI-System auf ein messbares Ergebnis: die aktuelle Entscheidungsqualität quantifizieren, die KI-unterstützte Qualität messen und die Differenz berechnen.11

Mein Blog-Linter folgt diesem Muster. Die Entscheidung: „Welche Blogbeiträge erfüllen die Qualitätsstandards für die Veröffentlichung?” Die Metrik: Linter-Befunde pro Beitrag. Die Basislinie: 4,2 Befunde pro Beitrag ohne den Linter. Der aktuelle Stand: 0,3 Befunde pro Beitrag mit dem Linter und automatisierter Pre-Publish-Prüfung.

Zuerst in Dateninfrastruktur investieren

Die Organisationen, die KI über Pilotprojekte hinaus skalieren, investieren in Dateninfrastruktur vor der Modellentwicklung:

  • Datenpipelines, die kontinuierlich saubere Produktionsdaten liefern
  • Feature Stores, die konsistente Feature-Definitionen pflegen
  • Monitoring-Systeme, die Modelldegradation erkennen
  • Governance-Rahmenwerke, die die Datenherkunft nachverfolgen12

KI in Produktteams einbetten

KI-Ingenieure, die in Produktteams sitzen, teilen die Ziele des Teams, verstehen die Einschränkungen des Teams und sehen die Daten des Teams täglich. Googles erfolgreichste interne KI-Anwendungen (Spam-Erkennung, Anzeigen-Ranking, Suchqualität) wurden von KI-Ingenieuren gebaut, die in die jeweils verantwortlichen Produktteams eingebettet waren.13


Die Agenten-Grenze

Der McKinsey-Bericht hebt KI-Agenten als nächsten Wendepunkt hervor. Unter den Organisationen, die bereits Wert aus KI schöpfen, experimentieren 62 % mit Agenten. Unter den Organisationen, die noch im Pilotmodus sind, arbeiten nur 8 % mit Agenten.14

Agenten verschärfen die Herausforderungen des KI-Theaters. Ein Agent, der autonom Aktionen ausführt, erfordert höheres Vertrauen in die Modellausgabe, stärkeres Monitoring und klarere Governance. Mein Deliberation-System adressiert dies mit aufgabenadaptiven Konsens-Schwellenwerten (85 % für Sicherheitsentscheidungen, 50 % für Dokumentation) und Spawn-Budget-Durchsetzung. Organisationen, die ein Empfehlungsmodell nicht erfolgreich einsetzen können, werden auch keinen autonomen Agenten erfolgreich einsetzen.


Wichtigste Erkenntnisse

Für Führungskräfte: - Prüfen Sie KI-Initiativen auf Ergebniskennzahlen (Umsatz, Kosten, Entscheidungsqualität) statt auf Aktivitätskennzahlen; wenn das Team Aktivität ohne Ergebnisse berichtet, betreibt die Organisation KI-Theater - Budgetieren Sie das 3- bis 5-Fache der Modellentwicklungskosten für Dateninfrastruktur; die Infrastruktur ist die Voraussetzung für jedes KI-Produktionssystem

Für KI/ML-Führungskräfte: - Betten Sie KI-Ingenieure in Produktteams ein, statt zentralisierte KI-Teams aufzubauen; die organisatorische Nähe zu Produktionssystemen bestimmt den Skalierungserfolg - Beenden Sie Pilotprojekte, die keinen Weg zur Produktion innerhalb von 90 Tagen aufzeigen können; ein Pilot ohne Produktionsplan ist eine Demo

Für einzelne Fachkräfte: - Definieren Sie messbare Erfolgskriterien, bevor Sie eine KI-Funktion bauen; „Welche Zahl ändert sich?” ist die Anti-Theater-Frage - Verfolgen Sie den laufenden Wert, nicht die Launch-Metriken; mein Git-Safety-Guardian hat 8 Force-Push-Versuche abgefangen, und diese Zahl ist wichtiger als „wir haben einen Safety-Hook deployed”


Referenzen


  1. McKinsey & Company, „The State of AI in 2025,” McKinsey Global AI Survey, 2025. 

  2. McKinsey & Company, „Superagency in the Workplace: Empowering People to Unlock AI’s Full Potential,” McKinsey Global Institute, 2025. 

  3. Davenport, Thomas & Ronanki, Rajeev, „Artificial Intelligence for the Real World,” Harvard Business Review, Januar–Februar 2018. 

  4. Nagle, Tadhg et al., „Only 8% of Companies That Do AI Are Scaling It,” MIT Sloan Management Review, 2020. 

  5. Sculley, D. et al., „Hidden Technical Debt in Machine Learning Systems,” NeurIPS 2015

  6. Fountaine, Tim et al., „Building the AI-Powered Organization,” Harvard Business Review, Juli–August 2019. 

  7. Infrastrukturmetriken des Autors für Claude Code. 95 Hooks, Abfangzähler des Git-Safety-Guardian, Spawn-Blockierungszähler des Recursion-Guard. Verfolgt in ~/.claude/state/

  8. Brynjolfsson, Erik & McAfee, Andrew, „The Business of Artificial Intelligence,” Harvard Business Review, 2017. 

  9. Sambasivan, Nithya et al., „‚Everyone Wants to Do the Model Work, Not the Data Work’: Data Cascades in High-Stakes AI,” CHI 2021

  10. Iansiti, Marco & Lakhani, Karim R., Competing in the Age of AI, Harvard Business Review Press, 2020. 

  11. Agrawal, Ajay et al., Prediction Machines, Harvard Business Review Press, 2018. 

  12. Polyzotis, Neoklis et al., „Data Lifecycle Challenges in Production Machine Learning,” SIGMOD 2018, ACM. 

  13. Sculley, D. et al., „Machine Learning: The High-Interest Credit Card of Technical Debt,” NeurIPS 2014. Ursprünglich veröffentlicht als interne Google-Forschung zur ML-Produktionsreife. 

  14. McKinsey & Company, „Agents for Enterprise: The Next Frontier,” McKinsey Digital Report, 2025.