Gust to infrastruktura

6 min read

Agent potrafi zbudować funkcjonalny interfejs w kilka minut. Poprawny HTML, prawidłowy CSS, działająca interaktywność. Wynik przechodzi każdy zautomatyzowany test. Wygląda jednak tak, jakby zaprojektował go komitet w 2019 roku.

Problem nie leży w możliwościach. Agent potrafi wygenerować dowolny układ, dowolną paletę kolorów, dowolne zestawienie typograficzne, które się opisze. Problem polega na tym, że trzeba to opisać. Agent nie ma opinii o tym, co wygląda dobrze. Sięga po wartości domyślne: czcionki systemowe, równe odstępy, bezpieczne kolory, centrowanie wszystkiego. Wynik działa. Nie sprawia jednak wrażenia przemyślanego.

To jest luka gustu. Dystans między funkcjonalnym a dobrym. Między poprawnym a przemyślanym. Między interfejsem, który przechodzi walidację, a takim, który wzbudziłby szacunek projektanta.

Gust nie skaluje się przez promptowanie. Nie da się opisać każdego estetycznego osądu w każdym prompcie. „Niech wygląda profesjonalnie” daje generyczny wynik. „Użyj 1,5x rozmiaru czcionki tekstu głównego jako odstępu między sekcjami, połącz Inter z Source Serif Pro, zastosuj kontrast 4:1 dla tekstu drugorzędnego” daje lepszy wynik, ale wymaga podejmowania każdej decyzji samodzielnie — a to niweczy sens posiadania agenta. To część mojej szerszej tezy o infrastrukturze gustu: systemy jakości muszą być zakodowane, nie opowiadane.

Gust skaluje się, gdy staje się infrastrukturą.

Czym naprawdę jest gust

Gust to rozpoznawanie wzorców zastosowane do jakości estetycznej. Projektant, który przeanalizował tysiące układów, rozwija intuicję dotyczącą tego, co działa: które zestawienia czcionek tworzą napięcie, które proporcje odstępów sprawiają wrażenie zrównoważonych, które rozkłady kolorów prowadzą wzrok. Ta intuicja nie jest mistyczna. Jest statystyczna. To ten sam wniosek, który stoi za moją filozofią jakości: rzemiosło to nie magia, lecz skumulowane dowody na to, co działa. Projektant widział wystarczająco dużo dobrej pracy, by rozpoznać wzorce, które ją taką czynią.

Wzorce są możliwe do nauczenia, ponieważ mają charakter strukturalny. Konwencje typograficzne, proporcje odstępów, relacje kolorystyczne, głębokość hierarchii, reguły kompozycji komponentów. To nie są arbitralne preferencje. To rozwiązania problemów percepcyjnych, które powtarzają się w każdej dziedzinie projektowania. Nagłówek musi wizualnie odróżniać się od tekstu głównego. Karta potrzebuje białej przestrzeni, żeby „oddychać”. Paleta kolorów wymaga koloru dominującego, drugorzędnego i akcentu. Konkretne wartości się różnią. Relacje strukturalne pozostają spójne.

Jeśli wzorce są strukturalne i spójne, można je wyodrębnić z profesjonalnych prac, zakodować w queryowalnym formacie i stosować przez agentów w momencie generowania.

Odkrycie LICA

Zespół badawczy opublikował zbiór danych zawierający 1 550 244 wielowarstwowych kompozycji graficznych w formie ustrukturyzowanych drzew warstw JSON.¹ Nie obrazów. Nie pikseli. Obiektów JSON, w których każda decyzja projektowa jest queryowalnym polem: rodzina czcionki, rozmiar czcionki, wysokość linii, odstępy między literami, kolor, pozycja, przezroczystość, kolejność z, relacje rodzic-dziecko.

Zbiór obejmuje 971 850 unikalnych szablonów w 20 kategoriach projektowych, 2700 odrębnych rodzin czcionek i 27 261 animowanych układów z danymi klatek kluczowych dla poszczególnych komponentów. Każda kompozycja to drzewo typowanych komponentów (tekst, obraz, wektor, grupa) z bogatymi metadanymi na poziomie elementu.

Kluczowe odkrycie: gust staje się obliczalny, gdy decyzje projektowe są reprezentowane jako dane, a nie piksele. Nie potrzeba widzenia komputerowego, żeby przeanalizować, jakiego rozmiaru czcionki profesjonaliści używają dla nagłówków w układach mediów społecznościowych. Wystarczy zapytanie do bazy danych.

Trzy warstwy

Kodowanie gustu w infrastrukturę wymaga trzech warstw, z których każda opiera się na poprzedniej.

Warstwa 1: Graf wiedzy projektowej. Parsowanie profesjonalnych drzew układów do queryowalnej bazy danych. Nie płaskie statystyki. Relacje: gdy projektanci używają nagłówka 48px bold sans-serif, z czym go łączą w tekście głównym? Jakie proporcje odstępów pojawiają się między komponentami rodzic-dziecko? Czym strukturalnie różnią się układy plakatów od układów mediów społecznościowych? Wynikiem jest baza danych, którą można odpytywać: „przy nagłówku sans-serif 32px, jakie właściwości tekstu głównego pojawiają się w profesjonalnych układach?”

Warstwa 2: Embedder układów. Mały model wytrenowany na Apple Silicon, który pobiera drzewo komponentów układu i generuje embedding wektorowy. Trening wykorzystuje uczenie kontrastowe: prawdziwe profesjonalne układy jako pozytywne przykłady, zaburzone układy (losowe odstępy, zamienione czcionki, złamana hierarchia) jako negatywne. Model uczy się przestrzeni embeddingów, w której profesjonalne układy skupiają się w klastrach, a uszkodzone układy są od nich odległe. Gdy agent wygeneruje układ, należy go osadzić i znaleźć 5 najbliższych profesjonalnych układów. Jeśli jest daleko od wszystkich — coś jest nie tak.

Warstwa 3: Sędzia gustu. Claude odczytuje wynik embeddera, najbliższe profesjonalne układy i odpowiednie wzorce z grafu wiedzy. Generuje ocenę opartą na profesjonalnym precedensie: nie „ten odstęp wydaje się niewłaściwy”, lecz „profesjonalne układy w tej kategorii używają 1,5x rozmiaru czcionki tekstu głównego jako odstępu między sekcjami, w Twoim jest 0,8x”.

Wzorzec serwowania jest identyczny z wyszukiwaniem semantycznym: osadź zapytanie, znajdź najbliższych sąsiadów w indeksie wektorowym, zwróć ustrukturyzowany kontekst. Infrastruktura jest ta sama. Domena inna.

Dlaczego statystyki nie wystarczą

Rozkład częstotliwości rozmiarów czcionek w 1,5 miliona układów mówi, co jest powszechne. Nie mówi, co jest dobre. Najpopularniejsze zestawienie czcionek to nie najlepsze zestawienie. To najbezpieczniejsze. Agent dysponujący statystykami częstotliwości tworzy medianową pracę. Mediana to nie gust.

Gust wymaga zrozumienia, dlaczego wybór projektowy działa w danym kontekście, a nie tylko tego, jak często pojawia się we wszystkich kontekstach. Pogrubiony nagłówek sans-serif 48px sprawdza się w układzie plakatu, ponieważ odległość oglądania jest duża, a hierarchia musi być natychmiast czytelna. Ten sam nagłówek w mobilnym układzie karty byłby przytłaczający. Statystyki częstotliwości nie są w stanie uchwycić tego kontekstowego rozumowania. Model kontrastowy, który uczy się różnicy między profesjonalnymi a zaburzonymi układami w konkretnych kategoriach — potrafi.

Podejście kontrastowe radzi sobie również z negatywną przestrzenią. Profesjonalny układ często działa dzięki temu, czego w nim nie ma: pusta przestrzeń tworząca rytm, elementy, które nie istnieją. Statystyki częstotliwości liczą to, co jest obecne. Model kontrastowy uczy się z pełnej struktury, włącznie ze strukturą nieobecności.

Gust jako przewaga konkurencyjna

Każdy zespół wykorzystujący agentów AI do generowania interfejsów staje przed tą samą luką gustu. Domyślny wynik każdego agenta to ta sama generyczna estetyka. Zespoły, które pierwsze zamkną tę lukę, będą tworzyć widocznie lepszą pracę przy tej samej prędkości. Zasada, do której wciąż wracam: jakość to jedyna zmienna — prędkość i koszt to stałe, w ramach których się pracuje, nie dźwignie, które się ciągnie.

Luka nie zamknie się dzięki lepszemu promptowaniu. Nie zamknie się dzięki lepszym modelom. Modele poprawiają się w rozumowaniu, generowaniu kodu i wykonywaniu instrukcji. Nie poprawiają się w osądzie estetycznym, ponieważ osąd estetyczny nie znajduje się w celu treningowym. Model wytrenowany do przewidywania następnego tokenu zbiegnie ku najbardziej prawdopodobnemu wynikowi, czyli medianowej estetyce.

Lukę zamyka infrastruktura: zbiory danych kodujące profesjonalne decyzje projektowe, modele uczące się jakości strukturalnej oraz systemy sędziowskie zakotwiczające wyniki agentów w profesjonalnym precedensie. Wzorzec sędziego to bramka dowodowa zastosowana do estetyki — ta sama zasada, która napędza przegląd kodu, tylko w innej dziedzinie. Zespół, który zbuduje tę infrastrukturę, kumuluje swoją przewagę z każdym projektem, ponieważ graf wiedzy rośnie, embedder się poprawia, a sędzia staje się bardziej precyzyjny.

To złożony kontekst zastosowany do projektowania. Każdy przeanalizowany profesjonalny układ deponuje wzorzec. Każdy wzorzec sprawia, że następna generacja jest lepsza. Portfolio wiedzy projektowej rośnie powoli na początku, a potem staje się powodem, dla którego wyniki wyglądają inaczej niż u wszystkich pozostałych.

FAQ

Czy to po prostu system projektowy?

System projektowy definiuje tokeny i komponenty. Infrastruktura gustu ocenia, czy kompozycja wykorzystująca te tokeny i komponenty jest estetycznie udana. System projektowy mówi, jakich kolorów użyć. Infrastruktura gustu mówi, czy sposób ich połączenia działa. Relację między ograniczeniem a pięknem w brutalizmie eksploruję w osobnym wpisie.

Czy potrzeba 1,5 miliona układów?

Nie. Pełny zbiór danych LICA to 1,5 miliona kompozycji, ale publicznie dostępny podzbiór to 1183 układy z pełnymi drzewami JSON. To wystarczy, by wyodrębnić znaczące wzorce dla konkretnej dziedziny (media społecznościowe, prezentacje, dokumenty). Graf wiedzy rośnie z każdym analizowanym układem.

Czy mały model naprawdę potrafi nauczyć się gustu?

Model nie musi generować projektów. Musi odróżniać profesjonalne układy od zaburzonych. To zadanie klasyfikacji/embeddingu, nie generowania. Model o 2–5 mln parametrów wytrenowany metodą uczenia kontrastowego na ustrukturyzowanych drzewach komponentów wystarcza do oceny jakości metodą najbliższych sąsiadów.

Jak działa sędzia?

Claude odczytuje trzy dane wejściowe: wygenerowany przez agenta układ (jako ustrukturyzowane dane, nie zrzut ekranu), 5 najbliższych profesjonalnych układów z embeddera oraz odpowiednie wzorce z grafu wiedzy. Generuje konkretne korekty zakotwiczone w profesjonalnym precedensie. Sędzia rozumuje o luce między wygenerowanym układem a profesjonalnym zestawem referencyjnym. Podejście wymaga krytycznej, lecz życzliwej informacji zwrotnej — precyzyjnej co do tego, co jest nie tak, konstruktywnej co do sposobu naprawy, nigdy lekceważącej wobec próby.

Źródła

Elad Hirsch, Shubham Yadav, Mohit Garg, Purvanshi Mehta, “LICA: Layered Image Composition Annotations for Graphic Design Research,” arXiv:2603.16098, March 2026. 1,550,244 compositions, 971,850 templates, 27,261 animated layouts. Dataset: github.com/purvanshi-lica/lica-dataset. ↩