Agentisches Design ist die Gestaltung von Steuerungsoberflächen

Die meiste Arbeit an KI-Oberflächen behandelt den Agenten noch immer wie ein klügeres Texteingabefeld. Agentisches Design beginnt mit einer anderen Prämisse: Sobald Software über längere Zeit handeln, Werkzeuge aufrufen, auf Dateien zugreifen, Geld ausgeben oder den Produktionszustand verändern kann, wird das Designproblem zu einem Problem der Steuerungsoberfläche.

Agentisches Design ist die Disziplin, autonome Software sichtbar, unterbrechbar, einsehbar, rückgängig machbar und vertrauenswürdig zu machen. Das Produkt ist nicht das Chatprotokoll. Das Produkt ist die Oberfläche, über die ein Mensch versteht, was der Agent tut, entscheidet, was der Agent als Nächstes tun darf, und überprüft, was der Agent bereits getan hat.

Dieser Rahmen ist wichtig, weil Agenten anders scheitern als gewöhnliche Formulare, Dashboards oder Copilots. Ein Formular scheitert beim Absenden. Ein Dashboard scheitert, wenn es veraltete Daten zeigt. Ein Copilot scheitert, wenn er schlechten Text vorschlägt. Ein Agent scheitert durch Bewegung: Er nimmt den falschen Zweig, wählt das falsche Werkzeug, übersieht den richtigen Nachweis, verliert Kontext, nutzt Berechtigungen zu weit aus, hört zu früh auf oder ist lokal erfolgreich, während er das gesamte Produkt schwächt.

Design muss sich von Prompt-Politur zu operativer Kontrolle bewegen.

TL;DR

Agentisches Design ist nicht abstrakt „UX für KI“. Es ist die Gestaltung von Steuerungsoberflächen für Systeme, die handeln. Microsoft hat Mensch-KI-Interaktion schon Jahre vor den heutigen Coding-Agenten als eigenes Interface-Design-Problem beschrieben, und Google PAIR führt denselben menschenzentrierten Gedanken in seiner KI-Design-Anleitung fort.¹² Moderne Agentenprodukte verschärfen diesen Bedarf: OpenAI beschreibt Codex als Cloud-Agenten, der in einer isolierten Umgebung arbeitet, während Claude Code Hooks bereitstellt, die Werkzeugaufrufe vor der Ausführung abfangen können.⁵⁴

Die praktische Konsequenz: Agentenprodukte brauchen Oberflächen für Status, Berechtigungen, Ablaufspuren, Speicher, Nachweise, Rollback und Aufsicht. Chat kann ein Eingabekanal bleiben. Er kann nicht die gesamte Oberfläche bleiben.

Wichtigste Erkenntnisse

Für Produktdesigner: - Gestalten Sie zuerst den Agentenzustand und erst danach die Prompt-Eingabe. Der Benutzer muss wissen, ob der Agent plant, handelt, blockiert ist, wartet, prüft oder fertig ist. - Behandeln Sie die Berechtigungsprüfung als zentralen Arbeitsablauf. Ein riskanter Werkzeugaufruf sollte nicht wie eine beiläufige Chatunterbrechung wirken.

Für Agentenentwickler: - Protokollieren Sie genügend Ausführungsdetails, damit daraus eine Oberfläche für Ablaufspuren entstehen kann. Werkzeugnamen allein reichen nicht; die Oberfläche braucht Argumente, Ausgaben, Endzustände, Dateipfade und Nebenwirkungen. - Machen Sie Unterbrechung und Wiederherstellung zu Funktionen erster Klasse. Ein Benutzer sollte einen Agenten pausieren, prüfen, umlenken, zurücksetzen oder verzweigen können, ohne ein vollständiges Protokoll lesen zu müssen.

Für Teams, die Agenten einführen: - Messen Sie die Qualität der Oberfläche nicht daran, wie flüssig sich der Chat anfühlt. Messen Sie, ob der Operator beantworten kann: Was ist passiert, warum, mit welcher Berechtigung und mit welchem Nachweis? - Behalten Sie Geschmack im Prozess. Eine korrekte Agentenaktion kann dennoch Kohärenz, Würde oder Produktqualität beschädigen.

Der Benutzer hat sich verändert

Der Benutzer eines Agentenprodukts ist nicht nur jemand, der Prompts schreibt. Der Benutzer wird zum Operator.

Wer promptet, fragt nach einer Antwort. Ein Operator beaufsichtigt einen Prozess. Wer promptet, achtet darauf, ob der Text richtig klingt. Ein Operator achtet darauf, ob das System die richtigen Dateien berührt, die richtigen Quellen verwendet, die richtigen Einschränkungen bewahrt und zum richtigen Zeitpunkt aufgehört hat.

Dieser Unterschied verändert die Oberfläche. Promptfelder optimieren auf Ausdruck. Steuerungsoberflächen optimieren auf Zustand, Risiko, Timing und Belegbarkeit.

Traditionelle Software kann Prozesse verbergen, weil der Benutzer die meisten Zustandsänderungen direkt auslöst. Eine Schaltfläche sagt „Senden“. Der Benutzer klickt. Die App sendet. Agentensoftware schiebt eine entscheidende Ausführungsumgebung zwischen Absicht und Handlung. Der Benutzer verlangt ein Ergebnis, und das System wählt einen Weg. Die Oberfläche muss genug von diesem Weg offenlegen, damit der Benutzer für das Ergebnis verantwortlich bleiben kann.

Microsofts Richtlinien für Mensch-KI-Interaktion weisen in diese Richtung. Sie behandeln das Verhalten von KI-Systemen über die Interaktionszeit hinweg: Erwartungen setzen, sozialen Kontext berücksichtigen, Status anzeigen, Korrekturen unterstützen und mit Fehlern umgehen.¹ Diese alte Lektion passt sauber auf Agenten, aber Agenten erhöhen den Einsatz, weil KI-Verhalten nicht mehr bei einer Empfehlung endet. Das Verhalten kann zu einem Werkzeugaufruf werden.

Agentisches Design beginnt mit Zustand

Gutes agentisches Design macht Zustand sichtbar, bevor es um Vertrauen bittet.

Ein Agent hat mehr Zustände als „denkt nach“ und „fertig“:

Agentenzustand	Was der Benutzer braucht
Planung	Beabsichtigter Weg, Annahmen, wahrscheinliche Werkzeuge
Suche	Suchbegriffe, Quellen, Fehlstellen, nächste Suchanfrage
Handlung	Werkzeugaufruf, Argumente, Ziel, erwartete Nebenwirkung
Blockiert	Fehlende Berechtigung, fehlender Zugang, unklare Anforderung
Überprüfung	Testbefehl, Nachweisquelle, Abnahmekriterium
Wiederherstellung	Fehlgeschlagener Schritt, Wiederholungsweg, geänderte Annahme
Fertig	Artefakt, Nachweis, ungelöste Lücke

Die meisten Chatprodukte lassen diese Zustände in einem animierten Spinner verschwinden. Ein Spinner sagt, dass das System noch nicht aufgehört hat. Er sagt nicht, ob der Agent liest, schreibt, wartet, es erneut versucht oder feststeckt.

Agentischer Zustand braucht ein reichhaltigeres Vokabular. Die Oberfläche sollte die aktuelle Phase, die letzte sinnvolle Handlung, die nächste beabsichtigte Handlung und den Grund zeigen, warum der Agent noch nicht fertig ist. Eine gute Statusoberfläche verringert Unsicherheit, weil sie Geheimnis durch einsehbare Bewegung ersetzt.

Die schwierige Designfrage ist Dichte. Ein ernsthafter Agent kann während eines langen Laufs Tausende Ereignisse erzeugen. Jedes Ereignis zu zeigen, erzeugt Lärm. Jedes Ereignis zu verbergen, erzeugt blindes Vertrauen. Die Steuerungsoberfläche muss standardmäßig zusammenfassen und bei Bedarf Details öffnen.

Berechtigung ist ein Designmaterial

Berechtigung ist keine Einstellungsseite. Berechtigung ist eines der zentralen Materialien agentischen Designs.

Agenten handeln mit der Autorität, die der Benutzer ihnen gewährt. Schreibzugriffe auf Dateien, Shell-Befehle, Browseraktionen, API-Aufrufe, Deploy-Schritte, Zahlungsoperationen und kundenwirksame Aktionen tragen unterschiedliche Risiken. Die Oberfläche muss dieses Risiko im Moment der Entscheidung lesbar machen.

Die Hook-Referenz von Claude Code zeigt die primitive Form dieser Idee: Ein PreToolUse-Hook kann einen Bash-Befehl prüfen und eine Entscheidung zurückgeben, die eine destruktive Operation ablehnt, bevor der Werkzeugaufruf ausgeführt wird.⁴ Dieser Mechanismus belegt die Designform. Eine Steuerungsoberfläche kann ausstehende Operationen nach Risiko sortieren, den vollständigen Befehl oder die Werkzeug-Payload zeigen, den Grund für den Aufruf erklären und den Benutzer die Anfrage genehmigen, ablehnen, zurückstellen oder umschreiben lassen.

Die zentrale Verschiebung lautet: Berechtigungsprüfung sollte eine Warteschlange sein, keine Unterbrechung.

Unterbrechungen funktionieren für 1 oder 2 Entscheidungen. Sie scheitern, wenn der Agent über eine lange Aufgabe hinweg 40 Operationen ausführt. Eine Berechtigungswarteschlange lässt den Benutzer risikoarme Genehmigungen bündeln, riskante Aktionen pausieren und das gesamte Risikoprofil an einer Stelle prüfen. Der Benutzer wird nicht länger zwischen dem Lesen der Agentenprosa und dem Bewerten von Befehlen hin- und hergerissen.

Auch Risikodarstellung braucht Geschmack. Rote Rahmen, Warnsymbole und modale Reibung können helfen. Sie können den Benutzer aber auch darauf trainieren, Warnungen blind zu genehmigen, wenn alles dringend aussieht. Die Oberfläche sollte optischen Alarm irreversiblen oder extern sichtbaren Aktionen vorbehalten. Eine schreibgeschützte Suche sollte nicht dasselbe Gewand tragen wie eine Migration der Produktionsdatenbank.

Die Ablaufspur ist die neue Informationsarchitektur

Agentisches Design braucht eine Architektur für Ablaufspuren.

Eine Ablaufspur ist die geordnete Aufzeichnung dessen, was der Agent getan hat: Prompts, Werkzeugaufrufe, Argumente, gelesene Dateien, geänderte Dateien, ausgeführte Befehle, geöffnete Quellen, Testausgaben, Berechtigungsentscheidungen, Wiederholungen und abschließende Nachweise. Ein Chatprotokoll kann Teile dieser Aufzeichnung enthalten, aber ein Protokoll ist keine Informationsarchitektur. Es ist ein Scrollverlauf.

Die Oberfläche für Ablaufspuren sollte 4 Fragen schnell beantworten:

Frage	Anforderung an die Ablaufspurenoberfläche
Was ist passiert?	Zeitleiste mit Filtern nach Ereignistyp
Warum ist es passiert?	Vom Agenten angegebener Grund zu jeder Aktion
Was hat sich geändert?	Diffs, Artefakte, Nebenwirkungen und berührte Pfade
Was stützt das Ergebnis?	Nachweislinks, Befehlsausgaben, Zitate und ungelöste Lücken

Diese Oberfläche verbindet sich direkt mit der Nachweisschwelle. Eine abschließende Antwort, die sagt „Tests bestanden“, sollte auf den Testbefehl und den Exit-Status verweisen. Ein öffentlicher Artikel, der eine Arbeit zitiert, sollte auf die genaue Quelle und die Übereinstimmung mit der Aussage zeigen. Ein Migrationsbericht, der Parität behauptet, sollte auf den konkreten Benutzerpfad verweisen, der weiterhin funktioniert.

Die jüngere Forschung zu Ausführungsablaufspuren weist in dieselbe Richtung. In Ablaufspuren von Agenten sind der Laufzeitvertrag habe ich argumentiert, dass die abschließende Antwort die schwächste Vertrauenseinheit ist. Die Ablaufspur ist stärker, weil sie den Weg von Absicht zu Handlung zu Nachweis bewahrt.

Speicher braucht eine durchsuchbare Ansicht

Agentisches Design braucht auch Speicherdesign.

Agenten tragen Kontext über Zeit hinweg. Ein Teil des Kontexts liegt im aktiven Fenster. Ein Teil liegt in verdichteten Zusammenfassungen. Ein Teil liegt in Dateien, Notizen, Vector Stores, Datenbanken oder Projektanweisungen. Ein Teil verschwindet. Der Benutzer sieht die Grenze selten.

Diese Unsichtbarkeit erzeugt ein Designversagen. Wenn ein Agent einer früheren Entscheidung widerspricht, kann der Benutzer nicht erkennen, ob der Agent anderer Meinung war, sie vergessen hat, sie schlecht zusammengefasst hat oder den relevanten Speicher nie geladen hat. Chat lässt Speicher kontinuierlich wirken, auch wenn die Ausführungsumgebung verändert hat, was das Modell sehen kann.

Eine Speicheransicht sollte 3 Ebenen offenlegen:

Speicherebene	Benutzerfrage
Aktiver Kontext	Was kann der Agent gerade verwenden?
Gespeicherter Kontext	Was kann der Agent bei Bedarf abrufen?
Verdichteter oder veralteter Speicher	Was hat das System komprimiert, ausgelassen oder als unsicher markiert?

Diese Ansicht muss keine privaten Gedankengänge offenlegen. Sie muss operativen Speicher sichtbar machen: Anweisungen, Einschränkungen, Quellpfade, Entscheidungen, Artefakte und Zusammenfassungen, die das System für künftige Handlungen verwenden wird.

Suche gehört zur selben Designfamilie. Das grep/vector-Ergebnis aus dem vorherigen Artikel zeigte, dass Suchqualität von Ausführungsumgebung, Auslieferungsweg und der Fähigkeit des Modells abhängt, die Werkzeugschleife zu schließen, nicht nur vom Retriever.⁶ Wenn Suche in der Ausführungsumgebung lebt, gehört Suchsichtbarkeit in die Oberfläche. Der Benutzer muss wissen, wonach der Agent gesucht hat, was er übersehen hat, was er geöffnet hat und warum sich die nächste Suchanfrage geändert hat.

Aufsicht ist kein Mikromanagement

Agentenprodukte stellen menschliche Aufsicht oft als Reibung dar. Starkes agentisches Design behandelt Aufsicht als das Produkt.

NIST beschreibt das AI Risk Management Framework als Weg, Vertrauenswürdigkeitsaspekte in Design, Entwicklung, Nutzung und Bewertung von KI-Systemen einzubeziehen.³ Diese Formulierung ist wichtig. Vertrauenswürdigkeit entsteht nicht nur beim Modelltraining. Sie entsteht im Design, in der Nutzung und in der Bewertung.

Für Agenten bedeutet Aufsicht, dass der Benutzer:

sehen kann, was der Agent tut;
vor irreversiblen Aktionen unterbrechen kann;
den Nachweisweg prüfen kann;
sich von einem fehlgeschlagenen Zweig erholen kann;
alternative Zweige vergleichen kann;
das endgültige Artefakt genehmigen oder ablehnen kann;
versteht, was unüberprüft bleibt.

Mikromanagement verlangt vom Benutzer, jeden Tastendruck zu genehmigen. Aufsicht gibt dem Benutzer die richtige Kontrolle auf der richtigen Flughöhe. Ein Senior Engineer muss nicht jeden Dateilesezugriff beobachten. Diese Person muss aber eine vorgeschlagene Datenbankmigration, einen fehlgeschlagenen Testwiederholungsversuch, eine geänderte öffentliche Behauptung oder einen Befehl sehen, der den Produktionszustand berührt.

Gute Aufsichtsoberflächen bewahren den Fluss, indem sie risikoarme Details aus der Hauptspur herausnehmen und riskante Momente in den Fokus rücken. Die Designherausforderung lautet nicht „mehr Sichtbarkeit“. Sie lautet kalibrierte Sichtbarkeit.

Die Geschmacksebene zählt weiterhin

Agentisches Design kann jede operative Anforderung erfüllen und sich trotzdem falsch anfühlen.

Eine Berechtigungswarteschlange kann die richtigen Fakten zeigen und dem Benutzer dennoch das Gefühl geben, bestraft zu werden. Eine Ablaufspuren-Zeitleiste kann jedes Ereignis enthalten und Verständnis trotzdem unmöglich machen. Eine Speicheransicht kann jedes gespeicherte Element zeigen und durch Unordnung das Vertrauen des Benutzers zerstören. Eine Statusanzeige kann die Wahrheit sagen und das System dennoch kaputt wirken lassen.

Geschmack entscheidet, wie die Oberfläche Risiko, Zuversicht, Unsicherheit und Belege trägt. Geschmack ist ein technisches System: Einschränkungen, Bewertungskriterien, Mustererkennung und Kohärenz. Agentisches Design braucht alle 4.

Einschränkungen entscheiden, was der Agent ohne Prüfung tun darf. Bewertungskriterien entscheiden, was das endgültige Artefakt beweisen muss. Mustererkennung erkennt den Arbeitsablauf, der erfolgreich aussieht, sich aber brüchig anfühlt. Kohärenz fragt, ob die Arbeit des Agenten das gesamte Produkt verbessert oder nur die lokale Aufgabe erledigt hat.

Diese letzte Frage wird wichtiger, je billiger Agenten werden. KI macht Ausgabe im Überfluss verfügbar. Überfluss erhöht den Wert von Ablehnung, Redaktion, Kohärenz und Geschmack. Die beste agentische Oberfläche wird nicht möglichst viele Aktionen maximieren. Sie wird dem Operator helfen zu entscheiden, welche Aktionen es verdienen, stattzufinden.

Eine minimale Checkliste für agentisches Design

Beginnen Sie mit 7 Oberflächen:

Oberfläche	Mindestanforderung
Status	Aktuelle Phase, letzte Aktion, nächste Aktion, Blocker
Berechtigung	Nach Risiko gestufte Warteschlange mit vollständiger Werkzeug-Payload
Ablaufspur	Filterbare Zeitleiste mit Argumenten, Ausgaben und Nebenwirkungen
Nachweis	Aussagen, die Quelle, Befehl, Test oder ungelöster Lücke zugeordnet sind
Speicher	Aktiver Kontext, gespeicherter Kontext, verdichtete Zusammenfassungen
Wiederherstellung	Pausieren, Fortsetzen, Wiederholen, Rollback, Verzweigen und Abbrechen
Aufsicht	Agentenübergreifende Ansicht blockierter, riskanter und abgeschlossener Arbeit

Keine dieser Oberflächen verlangt ein Science-Fiction-Interface. Die erste Version kann aus schlichten Tabellen, aufklappbaren Zeilen und nüchternen Filtern bestehen. Ausgefallene Animation ist weniger wichtig als ehrlicher Zustand. Die Steuerungsoberfläche sollte schnell die Wahrheit sagen.

Die Designfrage für jede Agentenfunktion wird einfach:

Was muss der Mensch sehen, entscheiden, unterbrechen oder überprüfen, bevor die nächste Aktion des Agenten real wird?

Wenn die Oberfläche diese Frage nicht beantworten kann, verlässt sich das Produkt noch immer auf Vertrauenstheater.

Kurzzusammenfassung

Agentisches Design ist die Gestaltung von Steuerungsoberflächen. Chat bleibt als Eingabeprimitive nützlich, aber autonome Arbeit braucht sichtbaren Zustand, Berechtigungswarteschlangen, Ablaufspuren, Speicheransichten, Nachweisoberflächen, Wiederherstellungskontrollen und Aufsichtsansichten. Microsoft, Google und NIST weisen alle auf menschenzentriertes KI-Design und Vertrauenswürdigkeit als Produktverantwortung hin, nicht nur als Modelleigenschaft.¹²³ Agentenwerkzeuge machen den Punkt konkret: Die Ausführungsumgebung hat bereits Hooks, Container, Ablaufspuren, Dateien, Befehle und Nebenwirkungen.⁴⁵ Die Oberfläche muss diese Teile lesbar machen.

Das gewinnende Agentenprodukt wird nicht das mit dem charmantesten Chat sein. Das gewinnende Produkt wird dem Operator die klarste, schärfste und vertrauenswürdigste Oberfläche für autonome Arbeit geben.

FAQ

Unterscheidet sich agentisches Design von KI-UX?

Ja. KI-UX umfasst jede Erfahrung, die Machine Learning oder generative KI nutzt. Agentisches Design umfasst Systeme, die über Zeit hinweg handeln. Der Unterschied ist Handlungsfähigkeit: Werkzeugaufrufe, Berechtigungen, Zustandsänderungen, Speicher, Nebenwirkungen und Wiederherstellung. Diese Eigenschaften verlangen Steuerungsoberflächen, nicht nur hilfreiche Texte oder Prompt-Eingaben.

Braucht jedes Agentenprodukt alle 7 Oberflächen?

Nein. Der Oberflächenumfang sollte zum Risiko passen. Ein Schreibassistent mit geringem Einsatz braucht vielleicht Status, Nachweise und Versionsverlauf. Ein Coding- oder Operations-Agent braucht Berechtigung, Ablaufspur, Wiederherstellung, Speicher und Aufsicht. Ein Agent mit Kundenauswirkung braucht noch stärkere Audit- und Genehmigungskontrollen.

Warum nicht alles im Chat lassen?

Chat ist sequenziell und nur anhängend. Agentenaufsicht braucht Direktzugriff, Filterung, Vergleich, Sammelprüfung und Zustandsinspektion. Einklappbare Chatblöcke können die Lesbarkeit verbessern, aber sie können keine Berechtigungswarteschlange, Ablaufspuren-Zeitleiste, Speicheransicht oder Wiederherstellungsoberfläche ersetzen.

Welche Steuerungsoberfläche sollte zuerst gebaut werden?

Bauen Sie zuerst die Ablaufspur. Ohne Ablaufspur wird jede andere Oberfläche zur Vermutung. Die Ablaufspur liefert die Daten für Nachweise, Berechtigungen, Wiederherstellung, Audit und Aufsicht. Ein Produkt kann mit einer schlichten Ereignistabelle beginnen und das Design im Laufe der Zeit verbessern.

References

Saleema Amershi et al., “Guidelines for Human-AI Interaction,” Microsoft Research, CHI 2019. Primärquelle für die 18 Richtlinien zur Mensch-KI-Interaktion, den Validierungsprozess mit 49 Designpraktikern und die Einordnung von KI-Verhalten als Interface-Design-Problem. ↩↩↩
Google People + AI Research, “People + AI Guidebook,” und “People + AI Research,” Google Design. Quelle für den Rahmen eines menschenzentrierten KI-Designs und die taktische Ausrichtung des Guidebooks. ↩↩
National Institute of Standards and Technology, “AI Risk Management Framework,” NIST, 26. Januar 2023, mit späteren Profilaktualisierungen für generative KI. Quelle für die Einbeziehung von Vertrauenswürdigkeit in Design, Entwicklung, Nutzung und Bewertung von KI-Produkten, -Diensten und -Systemen. ↩↩
Anthropic, “Hooks reference,” Claude Code Docs. Quelle für Hook-Lebenszyklus, PreToolUse, Matcher-Verhalten und Berechtigungsentscheidungen, die Werkzeugaufrufe vor der Ausführung ablehnen können. ↩↩↩
OpenAI, “Introducing Codex,” OpenAI, Mai 2025. Quelle für Codexs Cloud-Ausführungsmodell, die Beschreibung isolierter Container und den Rahmen von Software-Engineering-Aufgaben im Hintergrund. ↩↩
Blake Crosley, “Agent Search Is a Runtime Problem,” blakecrosley.com, 15. Mai 2026. Quelle für die Analyse des Autors, die Suchqualität mit Ausführungsumgebung, Ergebnisbereitstellung und Werkzeugschleifenverhalten verbindet. ↩