El gusto es infraestructura

7 min de lectura

Un agente puede construir una interfaz funcional en minutos. HTML correcto, CSS válido, interactividad funcional. El resultado pasa cada verificación automatizada. También parece diseñado por un comité en 2019.

El problema no es la capacidad. El agente puede generar cualquier disposición, cualquier esquema de colores, cualquier combinación tipográfica que describas. El problema es que tienes que describirlo. El agente no tiene opinión sobre qué se ve bien. Recurre a los valores por defecto: fuentes del sistema, espaciado uniforme, colores seguros, todo centrado. El resultado funciona. No se siente deliberado.

Esta es la brecha del gusto. La distancia entre funcional y bueno. Entre correcto y deliberado. Entre una interfaz que pasa validación y una que un diseñador respetaría.

El gusto no escala a través de prompts. No puedes describir cada juicio estético en cada prompt. “Que se vea profesional” produce resultados genéricos. “Usa 1.5x el tamaño de fuente del cuerpo para el espaciado entre secciones, combina Inter con Source Serif Pro, usa una relación de contraste 4:1 en texto secundario” produce mejores resultados, pero requiere que tomes cada decisión tú mismo, lo cual anula el propósito de tener un agente. Esto es parte de mi tesis más amplia sobre infraestructura del gusto: los sistemas de calidad deben codificarse, no narrarse.

El gusto escala cuando se convierte en infraestructura.

Qué es realmente el gusto

El gusto es reconocimiento de patrones aplicado a la calidad estética. Un diseñador que ha revisado miles de composiciones desarrolla intuición sobre qué funciona: qué combinaciones tipográficas crean tensión, qué proporciones de espaciado se sienten equilibradas, qué distribuciones de color guían la mirada. La intuición no es mística. Es estadística. Esta es la misma idea detrás de mi filosofía de calidad: el oficio no es magia, es evidencia acumulada sobre qué funciona. El diseñador ha visto suficiente buen trabajo para reconocer los patrones que lo hacen bueno.

Los patrones son aprendibles porque son estructurales. Convenciones tipográficas, proporciones de espaciado, relaciones de color, profundidad de jerarquía, reglas de composición de componentes. No son preferencias arbitrarias. Son soluciones a problemas perceptuales que se repiten en cada dominio de diseño. Un encabezado necesita ser visualmente distinto del texto del cuerpo. Una tarjeta necesita espacio en blanco para respirar. Una paleta de colores necesita un dominante, un secundario y un acento. Los valores específicos varían. Las relaciones estructurales son consistentes.

Si los patrones son estructurales y consistentes, pueden extraerse del trabajo profesional, codificarse en un formato consultable y aplicarse por agentes en el momento de generación.

La idea de LICA

Un equipo de investigación publicó un conjunto de datos de 1.550.244 composiciones de diseño gráfico multicapa como árboles de capas JSON estructurados.¹ No imágenes. No píxeles. Objetos JSON donde cada decisión de diseño es un campo consultable: familia tipográfica, tamaño de fuente, altura de línea, espaciado entre letras, color, posición, opacidad, orden z, relaciones padre-hijo.

El conjunto de datos incluye 971.850 plantillas únicas en 20 categorías de diseño, 2.700 familias tipográficas distintas y 27.261 composiciones animadas con datos de keyframes por componente. Cada composición es un árbol de componentes tipados (texto, imagen, vector, grupo) con metadatos detallados por elemento.

La idea clave es que el gusto se vuelve computable cuando las decisiones de diseño se representan como datos en lugar de píxeles. No necesitas visión por computadora para analizar qué tamaño de fuente usan los profesionales para encabezados en composiciones de redes sociales. Consultas una base de datos.

Tres capas

Codificar el gusto en infraestructura requiere tres capas, cada una construida sobre la anterior.

Capa 1: Grafo de conocimiento de diseño. Analizar árboles de composición profesional en una base de datos consultable. No estadísticas planas. Relaciones: cuando los diseñadores usan un encabezado sans-serif en negrita de 48px, ¿con qué lo combinan para el texto del cuerpo? ¿Qué proporciones de espaciado aparecen entre componentes padre e hijo? ¿Cómo difieren estructuralmente las composiciones de póster de las de redes sociales? El resultado es una base de datos que puedes consultar: “dado un encabezado sans-serif de 32px, ¿qué propiedades de texto del cuerpo aparecen en composiciones profesionales?”

Capa 2: Codificador de composición. Un modelo pequeño entrenado en Apple Silicon que toma el árbol de componentes de una composición y produce un embedding vectorial. El entrenamiento usa aprendizaje contrastivo: composiciones profesionales reales como positivos, composiciones perturbadas (espaciado aleatorio, fuentes intercambiadas, jerarquía rota) como negativos. El modelo aprende un espacio de embeddings donde las composiciones profesionales se agrupan y las composiciones defectuosas quedan distantes. Cuando un agente produce una composición, la codifica, encuentra las 5 composiciones profesionales más cercanas. Si está lejos de todas ellas, algo anda mal.

Capa 3: Árbitro de gusto. Claude lee la salida del codificador, las composiciones profesionales más cercanas y los patrones relevantes del grafo de conocimiento. Produce un juicio fundamentado en precedentes profesionales: no “este espaciado se siente raro” sino “las composiciones profesionales en esta categoría usan 1.5x el tamaño de fuente del cuerpo para el espaciado entre secciones, la tuya usa 0.8x.”

El patrón de servicio es idéntico a la búsqueda semántica: codificar la consulta, encontrar los vecinos más cercanos en un índice vectorial, devolver contexto estructurado. La infraestructura es la misma. El dominio es diferente.

Por qué las estadísticas no son suficientes

Una distribución de frecuencia de tamaños de fuente en 1,5 millones de composiciones te dice qué es común. No te dice qué es bueno. La combinación tipográfica más popular no es la mejor combinación tipográfica. Es la más segura. Un agente con estadísticas de frecuencia produce trabajo promedio. Lo promedio no es gusto.

El gusto requiere entender por qué una decisión de diseño funciona en contexto, no solo con qué frecuencia aparece en todos los contextos. Un encabezado sans-serif en negrita de 48px funciona en una composición de póster porque la distancia de visualización es grande y la jerarquía necesita ser inmediatamente legible. El mismo encabezado en una tarjeta móvil sería abrumador. Las estadísticas de frecuencia no pueden capturar este razonamiento contextual. Un modelo contrastivo que aprende la diferencia entre composiciones profesionales y versiones perturbadas en categorías específicas sí puede.

El enfoque contrastivo también maneja el espacio negativo. Una composición profesional frecuentemente funciona por lo que omite: el espacio vacío que crea ritmo, los elementos que no están presentes. Las estadísticas de frecuencia cuentan lo que existe. Un modelo contrastivo aprende de la estructura completa, incluyendo la estructura de la ausencia.

El gusto como ventaja competitiva

Cada equipo que usa agentes de IA para generar interfaces enfrenta la misma brecha de gusto. El resultado por defecto de cada agente es la misma estética genérica. Los equipos que cierren la brecha primero producirán trabajo visiblemente mejor a la misma velocidad. El principio al que sigo volviendo: la calidad es la única variable — la velocidad y el costo son constantes dentro de las cuales trabajas, no palancas que puedas jalar.

La brecha no se cerrará con mejores prompts. No se cerrará con mejores modelos. Los modelos mejoran en razonamiento, generación de código y seguimiento de instrucciones. No mejoran en juicio estético porque el juicio estético no está en el objetivo de entrenamiento. Un modelo entrenado para predecir el siguiente token convergerá en el resultado más probable, que es la estética promedio.

La brecha se cierra con infraestructura: conjuntos de datos que codifican decisiones de diseño profesional, modelos que aprenden calidad estructural, y sistemas árbitro que fundamentan la salida del agente en precedentes profesionales. El patrón del árbitro es una puerta de evidencia aplicada a la estética — el mismo principio que impulsa la revisión de código, solo que en un dominio diferente. El equipo que construye esta infraestructura multiplica su ventaja con cada proyecto, porque el grafo de conocimiento crece, el codificador mejora y el árbitro se vuelve más preciso.

Esto es contexto compuesto aplicado al diseño. Cada composición profesional analizada deposita un patrón. Cada patrón mejora la siguiente generación. El portafolio de conocimiento de diseño crece lentamente al principio y luego se convierte en la razón por la cual tu producción se ve diferente a la de todos los demás.

Preguntas frecuentes

¿Es esto simplemente un sistema de diseño?

Un sistema de diseño define tokens y componentes. La infraestructura de gusto evalúa si una composición que usa esos tokens y componentes es estéticamente exitosa. Un sistema de diseño te dice qué colores usar. La infraestructura de gusto te dice si la forma en que los combinaste funciona. Exploro la relación entre restricción y belleza en el brutalismo en un artículo aparte.

¿Necesitas 1,5 millones de composiciones?

No. El conjunto de datos completo de LICA tiene 1,5 millones de composiciones, pero el subconjunto disponible públicamente es de 1.183 composiciones con árboles JSON completos. Eso es suficiente para extraer patrones significativos en un dominio enfocado (redes sociales, presentaciones, documentos). El grafo de conocimiento crece con cada composición que analizas.

¿Puede un modelo pequeño realmente aprender gusto?

El modelo no necesita generar diseños. Necesita distinguir composiciones profesionales de versiones perturbadas. Esta es una tarea de clasificación/embedding, no una tarea de generación. Un modelo de 2-5M de parámetros entrenado con aprendizaje contrastivo sobre árboles de componentes estructurados es suficiente para evaluación de calidad por vecinos más cercanos.

¿Cómo funciona el árbitro?

Claude lee tres entradas: la composición generada por el agente (como datos estructurados, no una captura de pantalla), las 5 composiciones profesionales más cercanas del codificador, y los patrones relevantes del grafo de conocimiento. Produce correcciones específicas fundamentadas en precedentes profesionales. El árbitro razona sobre la brecha entre la composición generada y el conjunto de referencia profesional. El enfoque exige retroalimentación crítica pero amable — precisa sobre lo que está mal, constructiva sobre cómo arreglarlo, nunca despectiva con el intento.

Fuentes

Elad Hirsch, Shubham Yadav, Mohit Garg, Purvanshi Mehta, “LICA: Layered Image Composition Annotations for Graphic Design Research,” arXiv:2603.16098, March 2026. 1,550,244 compositions, 971,850 templates, 27,261 animated layouts. Dataset: github.com/purvanshi-lica/lica-dataset. ↩