Geschmack ist Infrastruktur
Ein Agent kann in Minuten eine funktionale Oberfläche erstellen. Korrektes HTML, valides CSS, funktionierende Interaktivität. Die Ausgabe besteht jeden automatisierten Test. Sie sieht allerdings aus, als hätte sie 2019 ein Komitee entworfen.
Das Problem liegt nicht in der Fähigkeit. Der Agent kann jedes Layout, jedes Farbschema, jede Typografie-Kombination generieren, die Sie beschreiben. Das Problem ist, dass Sie es beschreiben müssen. Der Agent hat keine Meinung darüber, was gut aussieht. Er greift zu Standardwerten: Systemschriften, gleichmäßige Abstände, sichere Farben, alles zentriert. Die Ausgabe funktioniert. Sie wirkt jedoch nicht durchdacht.
Das ist die Geschmackslücke. Die Distanz zwischen funktional und gut. Zwischen korrekt und durchdacht. Zwischen einer Oberfläche, die die Validierung besteht, und einer, die ein Designer respektieren würde.
Geschmack skaliert nicht durch Prompting. Sie können nicht jedes ästhetische Urteil in jedem Prompt beschreiben. „Mach es professionell” erzeugt generische Ergebnisse. „Verwende 1,5× die Schriftgröße des Fließtexts für Abschnittsabstände, kombiniere Inter mit Source Serif Pro, nutze ein 4:1-Kontrastverhältnis bei Sekundärtext” liefert bessere Ergebnisse — erfordert aber, dass Sie jede Entscheidung selbst treffen, was den Zweck eines Agenten zunichtemacht. Dies ist Teil meiner umfassenderen Geschmack-als-Infrastruktur-These: Qualitätssysteme müssen kodiert, nicht erzählt werden.
Geschmack skaliert, wenn er zur Infrastruktur wird.
Was Geschmack tatsächlich ist
Geschmack ist Mustererkennung, angewandt auf ästhetische Qualität. Ein Designer, der Tausende von Layouts überprüft hat, entwickelt eine Intuition dafür, was funktioniert: welche Schriftkombinationen Spannung erzeugen, welche Abstandsverhältnisse ausgewogen wirken, welche Farbverteilungen das Auge leiten. Diese Intuition ist nicht mystisch. Sie ist statistisch. Dahinter steckt dieselbe Erkenntnis wie hinter meiner Qualitätsphilosophie: Handwerk ist keine Magie, sondern akkumulierte Evidenz darüber, was funktioniert. Der Designer hat genug gute Arbeit gesehen, um die Muster zu erkennen, die sie gut machen.
Die Muster sind erlernbar, weil sie strukturell sind. Typografiekonventionen, Abstandsverhältnisse, Farbbeziehungen, Hierarchietiefe, Regeln zur Komponentenkomposition. Das sind keine willkürlichen Vorlieben. Es sind Lösungen für Wahrnehmungsprobleme, die sich in jedem Designbereich wiederholen. Eine Überschrift muss sich visuell vom Fließtext abheben. Eine Karte braucht Weißraum zum Atmen. Eine Farbpalette benötigt eine dominante, eine sekundäre und eine Akzentfarbe. Die konkreten Werte variieren. Die strukturellen Beziehungen bleiben konsistent.
Wenn die Muster strukturell und konsistent sind, lassen sie sich aus professioneller Arbeit extrahieren, in einem abfragbaren Format kodieren und von Agenten zur Generierungszeit anwenden.
Die LICA-Erkenntnis
Ein Forschungsteam veröffentlichte einen Datensatz mit 1.550.244 mehrschichtigen Grafikdesign-Kompositionen als strukturierte JSON-Ebenenbäume.1 Keine Bilder. Keine Pixel. JSON-Objekte, bei denen jede Designentscheidung ein abfragbares Feld ist: Schriftfamilie, Schriftgröße, Zeilenhöhe, Zeichenabstand, Farbe, Position, Deckkraft, Z-Reihenfolge, Eltern-Kind-Beziehungen.
Der Datensatz umfasst 971.850 einzigartige Vorlagen in 20 Designkategorien, 2.700 verschiedene Schriftfamilien und 27.261 animierte Layouts mit Keyframe-Daten pro Komponente. Jede Komposition ist ein Baum typisierter Komponenten (Text, Bild, Vektor, Gruppe) mit umfangreichen Metadaten pro Element.
Die zentrale Erkenntnis: Geschmack wird berechenbar, wenn Designentscheidungen als Daten statt als Pixel dargestellt werden. Sie brauchen kein Computer Vision, um zu analysieren, welche Schriftgröße Profis für Überschriften in Social-Media-Layouts verwenden. Sie fragen eine Datenbank ab.
Drei Schichten
Die Kodierung von Geschmack in Infrastruktur erfordert drei Schichten, wobei jede auf der vorherigen aufbaut.
Schicht 1: Design-Wissensgraph. Professionelle Layout-Bäume in eine abfragbare Datenbank überführen. Keine flachen Statistiken. Beziehungen: Wenn Designer eine 48px fette Sans-Serif-Überschrift verwenden, womit kombinieren sie den Fließtext? Welche Abstandsverhältnisse treten zwischen Eltern- und Kind-Komponenten auf? Wie unterscheiden sich Poster-Layouts strukturell von Social-Media-Layouts? Das Ergebnis ist eine Datenbank, die Sie abfragen können: „Welche Fließtext-Eigenschaften treten in professionellen Layouts bei einer Sans-Serif-Überschrift von 32px auf?”
Schicht 2: Layout-Embedder. Ein kleines Modell, trainiert auf Apple Silicon, das den Komponentenbaum eines Layouts nimmt und ein Vektor-Embedding erzeugt. Das Training nutzt kontrastives Lernen: echte professionelle Layouts als Positivbeispiele, gestörte Layouts (randomisierte Abstände, vertauschte Schriften, gebrochene Hierarchie) als Negativbeispiele. Das Modell lernt einen Embedding-Raum, in dem professionelle Layouts clustern und fehlerhafte Layouts entfernt liegen. Wenn ein Agent ein Layout erzeugt, wird es eingebettet und die 5 nächsten professionellen Layouts gesucht. Liegt es von allen weit entfernt, stimmt etwas nicht.
Schicht 3: Geschmacks-Schiedsrichter. Claude liest die Embedder-Ausgabe, die nächsten professionellen Layouts und die relevanten Wissensgraph-Muster. Es erzeugt ein Urteil, das auf professionellen Präzedenzfällen basiert: nicht „dieser Abstand wirkt falsch”, sondern „professionelle Layouts in dieser Kategorie verwenden 1,5× die Fließtext-Schriftgröße für Abschnittsabstände, Ihres verwendet 0,8×.”
Das Serving-Muster ist identisch mit semantischer Suche: die Anfrage einbetten, Nearest Neighbors in einem Vektorindex finden, strukturierten Kontext zurückgeben. Die Infrastruktur ist dieselbe. Die Domäne ist eine andere.
Warum Statistiken nicht ausreichen
Eine Häufigkeitsverteilung von Schriftgrößen über 1,5 Millionen Layouts verrät, was verbreitet ist. Sie verrät nicht, was gut ist. Die beliebteste Schriftkombination ist nicht die beste Schriftkombination. Sie ist die sicherste. Ein Agent mit Häufigkeitsstatistiken produziert Durchschnittsarbeit. Durchschnitt ist kein Geschmack.
Geschmack erfordert das Verständnis, warum eine Designentscheidung im Kontext funktioniert — nicht nur, wie häufig sie in allen Kontexten vorkommt. Eine fette Sans-Serif-Überschrift mit 48px funktioniert in einem Poster-Layout, weil der Betrachtungsabstand groß ist und die Hierarchie sofort lesbar sein muss. Dieselbe Überschrift in einem mobilen Karten-Layout wäre überwältigend. Häufigkeitsstatistiken können dieses kontextuelle Denken nicht erfassen. Ein kontrastives Modell, das den Unterschied zwischen professionellen und gestörten Layouts in spezifischen Kategorien lernt, schon.
Der kontrastive Ansatz erfasst zudem den negativen Raum. Ein professionelles Layout funktioniert oft durch das, was es weglässt: den leeren Raum, der Rhythmus erzeugt, die Elemente, die nicht da sind. Häufigkeitsstatistiken zählen, was vorhanden ist. Ein kontrastives Modell lernt aus der gesamten Struktur, einschließlich der Struktur der Abwesenheit.
Geschmack als Wettbewerbsvorteil
Jedes Team, das KI-Agenten zur Generierung von Oberflächen einsetzt, steht vor derselben Geschmackslücke. Die Standardausgabe jedes Agenten folgt derselben generischen Ästhetik. Die Teams, die diese Lücke zuerst schließen, werden bei gleicher Geschwindigkeit sichtbar bessere Arbeit liefern. Das Prinzip, auf das ich immer wieder zurückkomme: Qualität ist die einzige Variable — Geschwindigkeit und Kosten sind Konstanten, innerhalb derer Sie arbeiten, keine Hebel, an denen Sie ziehen.
Die Lücke schließt sich nicht durch besseres Prompting. Sie schließt sich nicht durch bessere Modelle. Modelle verbessern sich beim Reasoning, bei der Codegenerierung und beim Befolgen von Anweisungen. Bei ästhetischem Urteil verbessern sie sich nicht, weil ästhetisches Urteil nicht im Trainingsziel enthalten ist. Ein Modell, das darauf trainiert wurde, das nächste Token vorherzusagen, konvergiert zur wahrscheinlichsten Ausgabe — und das ist die mediane Ästhetik.
Die Lücke schließt sich durch Infrastruktur: Datensätze, die professionelle Designentscheidungen kodieren, Modelle, die strukturelle Qualität lernen, und Schiedsrichter-Systeme, die die Agentenausgabe in professionellen Präzedenzfällen verankern. Das Schiedsrichter-Muster ist ein Evidence Gate, angewandt auf Ästhetik — dasselbe Prinzip, das Code-Reviews antreibt, nur in einer anderen Domäne. Das Team, das diese Infrastruktur aufbaut, vergrößert seinen Vorsprung mit jedem Projekt, denn der Wissensgraph wächst, der Embedder verbessert sich, und der Schiedsrichter wird präziser.
Dies ist Compound Context, angewandt auf Design. Jedes analysierte professionelle Layout hinterlegt ein Muster. Jedes Muster macht die nächste Generation besser. Das Portfolio an Designwissen wächst anfangs langsam — und wird dann zum Grund, warum Ihre Ergebnisse anders aussehen als die aller anderen.
FAQ
Ist das nicht einfach ein Design-System?
Ein Design-System definiert Tokens und Komponenten. Geschmacksinfrastruktur bewertet, ob eine Komposition, die diese Tokens und Komponenten verwendet, ästhetisch gelungen ist. Ein Design-System sagt Ihnen, welche Farben Sie verwenden sollen. Geschmacksinfrastruktur sagt Ihnen, ob die Art, wie Sie sie kombiniert haben, funktioniert. Die Beziehung zwischen Einschränkung und Schönheit im Brutalismus untersuche ich in einem separaten Beitrag.
Braucht man 1,5 Millionen Layouts?
Nein. Der vollständige LICA-Datensatz umfasst 1,5 Millionen Kompositionen, aber die öffentlich verfügbare Teilmenge enthält 1.183 Layouts mit vollständigen JSON-Bäumen. Das reicht aus, um aussagekräftige Muster für eine fokussierte Domäne zu extrahieren (Social Media, Präsentationen, Dokumente). Der Wissensgraph wächst mit jedem Layout, das Sie analysieren.
Kann ein kleines Modell wirklich Geschmack lernen?
Das Modell muss keine Designs generieren. Es muss professionelle Layouts von gestörten unterscheiden können. Das ist eine Klassifikations-/Embedding-Aufgabe, keine Generierungsaufgabe. Ein Modell mit 2–5 Millionen Parametern, trainiert mit kontrastivem Lernen auf strukturierten Komponentenbäumen, reicht für eine Nearest-Neighbor-Qualitätsbewertung aus.
Wie funktioniert der Schiedsrichter?
Claude liest drei Eingaben: das vom Agenten generierte Layout (als strukturierte Daten, nicht als Screenshot), die 5 nächsten professionellen Layouts vom Embedder und relevante Muster aus dem Wissensgraph. Es erzeugt spezifische Korrekturen, die auf professionellen Präzedenzfällen basieren. Der Schiedsrichter analysiert die Lücke zwischen dem generierten Layout und dem professionellen Referenzset. Der Ansatz verlangt kritisches, aber wohlwollendes Feedback — präzise darin, was falsch ist, konstruktiv darin, wie es zu beheben ist, niemals abwertend gegenüber dem Versuch.
Quellen
-
Elad Hirsch, Shubham Yadav, Mohit Garg, Purvanshi Mehta, “LICA: Layered Image Composition Annotations for Graphic Design Research,” arXiv:2603.16098, March 2026. 1,550,244 compositions, 971,850 templates, 27,261 animated layouts. Dataset: github.com/purvanshi-lica/lica-dataset. ↩