Gosto é infraestrutura

6 min read

Um agente consegue construir uma interface funcional em minutos. HTML correto, CSS válido, interatividade funcionando. A saída passa em todas as verificações automatizadas. Mas também parece ter sido projetada por um comitê em 2019.

O problema não é capacidade. O agente consegue gerar qualquer layout, qualquer esquema de cores, qualquer combinação tipográfica que você descrever. O problema é que você precisa descrever. O agente não tem opinião sobre o que fica bom. Ele recorre aos padrões: fontes do sistema, espaçamento uniforme, cores seguras, tudo centralizado. A saída funciona. Mas não parece pensada.

Essa é a lacuna de gosto. A distância entre funcional e bom. Entre correto e pensado. Entre uma interface que passa na validação e uma que um designer respeitaria.

Gosto não escala por meio de prompts. Você não consegue descrever cada julgamento estético em cada prompt. “Deixe com cara profissional” produz saída genérica. “Use 1,5x o tamanho da fonte do corpo para espaçamento de seções, combine Inter com Source Serif Pro, use uma relação de contraste de 4:1 no texto secundário” produz saída melhor, mas exige que você tome cada decisão — o que anula o propósito de ter um agente. Isso faz parte da minha tese mais ampla sobre infraestrutura de gosto: sistemas de qualidade precisam ser codificados, não narrados.

Gosto escala quando se torna infraestrutura.

O que gosto realmente é

Gosto é reconhecimento de padrões aplicado à qualidade estética. Um designer que revisou milhares de layouts desenvolve intuição sobre o que funciona: quais combinações tipográficas criam tensão, quais proporções de espaçamento parecem equilibradas, quais distribuições de cor guiam o olhar. A intuição não é mística. É estatística. Essa é a mesma percepção por trás da minha filosofia de qualidade: ofício não é magia, é evidência acumulada sobre o que funciona. O designer viu trabalho bom o suficiente para reconhecer os padrões que o tornam bom.

Os padrões são aprendíveis porque são estruturais. Convenções tipográficas, proporções de espaçamento, relações de cor, profundidade de hierarquia, regras de composição de componentes. Não são preferências arbitrárias. São soluções para problemas perceptivos que se repetem em todos os domínios de design. Um título precisa ser visualmente distinto do texto do corpo. Um card precisa de espaço em branco para respirar. Uma paleta de cores precisa de uma cor dominante, uma secundária e uma de destaque. Os valores específicos variam. As relações estruturais são consistentes.

Se os padrões são estruturais e consistentes, podem ser extraídos de trabalhos profissionais, codificados em formato consultável e aplicados por agentes no momento da geração.

A percepção do LICA

Uma equipe de pesquisa publicou um dataset com 1.550.244 composições de design gráfico multicamada como árvores de camadas JSON estruturadas.¹ Não imagens. Não pixels. Objetos JSON onde cada decisão de design é um campo consultável: família tipográfica, tamanho da fonte, altura de linha, espaçamento entre letras, cor, posição, opacidade, ordem z, relações pai-filho.

O dataset inclui 971.850 templates únicos em 20 categorias de design, 2.700 famílias tipográficas distintas e 27.261 layouts animados com dados de keyframe por componente. Cada composição é uma árvore de componentes tipados (texto, imagem, vetor, grupo) com metadados detalhados por elemento.

A percepção é que gosto se torna computável quando decisões de design são representadas como dados em vez de pixels. Você não precisa de visão computacional para analisar qual tamanho de fonte profissionais usam para títulos em layouts de redes sociais. Você consulta um banco de dados.

Três camadas

Codificar gosto em infraestrutura requer três camadas, cada uma construída sobre a anterior.

Camada 1: Grafo de conhecimento de design. Transforme árvores de layout profissionais em um banco de dados consultável. Não estatísticas planas. Relações: quando designers usam um título sans-serif bold de 48px, com o que combinam para o texto do corpo? Quais proporções de espaçamento aparecem entre componentes pai e filho? Como layouts de pôster diferem estruturalmente de layouts de redes sociais? A saída é um banco de dados que você pode consultar: “dado um título sans-serif de 32px, quais propriedades de texto do corpo aparecem em layouts profissionais?”

Camada 2: Embedder de layout. Um modelo pequeno treinado em Apple Silicon que recebe a árvore de componentes de um layout e produz um embedding vetorial. O treinamento usa aprendizado contrastivo: layouts profissionais reais como positivos, layouts perturbados (espaçamento aleatório, fontes trocadas, hierarquia quebrada) como negativos. O modelo aprende um espaço de embedding onde layouts profissionais se agrupam e layouts quebrados ficam distantes. Quando um agente produz um layout, gere o embedding, encontre os 5 layouts profissionais mais próximos. Se estiver distante de todos, algo está errado.

Camada 3: Árbitro de gosto. Claude lê a saída do embedder, os layouts profissionais mais próximos e os padrões relevantes do grafo de conhecimento. Produz um julgamento fundamentado em precedentes profissionais: não “esse espaçamento parece estranho”, mas “layouts profissionais nesta categoria usam 1,5x o tamanho da fonte do corpo para espaçamento de seções, o seu usa 0,8x.”

O padrão de servir é idêntico à busca semântica: gere o embedding da consulta, encontre os vizinhos mais próximos em um índice vetorial, retorne contexto estruturado. A infraestrutura é a mesma. O domínio é diferente.

Por que estatísticas não são suficientes

Uma distribuição de frequência de tamanhos de fonte em 1,5 milhão de layouts diz o que é comum. Não diz o que é bom. A combinação tipográfica mais popular não é a melhor. É a mais segura. Um agente com estatísticas de frequência produz trabalho mediano. Mediano não é gosto.

Gosto requer entender por que uma escolha de design funciona em contexto, não apenas com que frequência ela aparece em todos os contextos. Um título sans-serif bold de 48px funciona em um layout de pôster porque a distância de visualização é grande e a hierarquia precisa ser imediatamente legível. O mesmo título em um layout de card mobile seria esmagador. Estatísticas de frequência não capturam esse raciocínio contextual. Um modelo contrastivo que aprende a diferença entre layouts profissionais e versões perturbadas em categorias específicas consegue.

A abordagem contrastiva também lida com espaço negativo. Um layout profissional frequentemente funciona por causa do que ele deixa de fora: o espaço vazio que cria ritmo, os elementos que não estão lá. Estatísticas de frequência contam o que está presente. Um modelo contrastivo aprende com a estrutura completa, incluindo a estrutura da ausência.

Gosto como vantagem competitiva

Toda equipe usando agentes de IA para gerar interfaces enfrenta a mesma lacuna de gosto. A saída padrão de todo agente é a mesma estética genérica. As equipes que fecharem essa lacuna primeiro vão produzir trabalho visivelmente melhor na mesma velocidade. O princípio ao qual sempre retorno: qualidade é a única variável — velocidade e custo são constantes dentro das quais você trabalha, não alavancas que você puxa.

A lacuna não vai se fechar com prompts melhores. Não vai se fechar com modelos melhores. Modelos melhoram em raciocínio, geração de código e seguimento de instruções. Não melhoram em julgamento estético porque julgamento estético não está no objetivo de treinamento. Um modelo treinado para prever o próximo token vai convergir para a saída mais provável, que é a estética mediana.

A lacuna se fecha por meio de infraestrutura: datasets que codificam decisões de design profissionais, modelos que aprendem qualidade estrutural e sistemas de arbitragem que fundamentam a saída do agente em precedentes profissionais. O padrão de árbitro é uma porta de evidência aplicada à estética — o mesmo princípio que guia revisão de código, só que em um domínio diferente. A equipe que constrói essa infraestrutura acumula sua vantagem a cada projeto, porque o grafo de conhecimento cresce, o embedder melhora e o árbitro se torna mais preciso.

Isso é contexto composto aplicado ao design. Cada layout profissional analisado deposita um padrão. Cada padrão torna a próxima geração melhor. O portfólio de conhecimento de design cresce devagar no início e depois se torna a razão pela qual sua saída parece diferente da de todo mundo.

FAQ

Isso é apenas um design system?

Um design system define tokens e componentes. Infraestrutura de gosto avalia se uma composição usando esses tokens e componentes é esteticamente bem-sucedida. Um design system diz quais cores usar. Infraestrutura de gosto diz se a forma como você as combinou funciona. Exploro a relação entre restrição e beleza no brutalismo em outro post.

Você precisa de 1,5 milhão de layouts?

Não. O dataset LICA completo tem 1,5 milhão de composições, mas o subconjunto disponível publicamente tem 1.183 layouts com árvores JSON completas. Isso é suficiente para extrair padrões significativos para um domínio focado (redes sociais, apresentações, documentos). O grafo de conhecimento cresce com cada layout que você analisa.

Um modelo pequeno realmente consegue aprender gosto?

O modelo não precisa gerar designs. Ele precisa distinguir layouts profissionais de versões perturbadas. Essa é uma tarefa de classificação/embedding, não de geração. Um modelo de 2-5M de parâmetros treinado com aprendizado contrastivo em árvores de componentes estruturadas é suficiente para avaliação de qualidade por vizinhos mais próximos.

Como o árbitro funciona?

Claude lê três entradas: o layout gerado pelo agente (como dados estruturados, não uma captura de tela), os 5 layouts profissionais mais próximos do embedder e padrões relevantes do grafo de conhecimento. Produz correções específicas fundamentadas em precedentes profissionais. O árbitro raciocina sobre a lacuna entre o layout gerado e o conjunto de referência profissional. A abordagem exige feedback crítico porém gentil — preciso sobre o que está errado, construtivo sobre como corrigir, nunca desdenhoso da tentativa.

Fontes

Elad Hirsch, Shubham Yadav, Mohit Garg, Purvanshi Mehta, “LICA: Layered Image Composition Annotations for Graphic Design Research,” arXiv:2603.16098, March 2026. 1,550,244 compositions, 971,850 templates, 27,261 animated layouts. Dataset: github.com/purvanshi-lica/lica-dataset. ↩