Le goût est une infrastructure

7 min de lecture

Un agent peut construire une interface fonctionnelle en quelques minutes. Du HTML correct, du CSS valide, une interactivité opérationnelle. Le résultat passe tous les contrôles automatisés. Il ressemble aussi à quelque chose conçu par un comité en 2019.

Le problème n’est pas la capacité. L’agent peut générer n’importe quelle mise en page, n’importe quelle palette de couleurs, n’importe quel appariement typographique que vous décrivez. Le problème, c’est que vous devez le décrire. L’agent n’a aucun avis sur ce qui est beau. Il se rabat sur les valeurs par défaut : polices système, espacement uniforme, couleurs prudentes, tout centré. Le résultat fonctionne. Il ne donne pas l’impression d’avoir été réfléchi.

C’est le fossé du goût. La distance entre fonctionnel et bon. Entre correct et réfléchi. Entre une interface qui passe la validation et une qu’un designer respecterait.

Le goût ne passe pas à l’échelle par le prompting. Vous ne pouvez pas décrire chaque jugement esthétique dans chaque prompt. « Faites en sorte que ça ait l’air professionnel » produit un résultat générique. « Utilisez 1,5× la taille du corps de texte pour l’espacement des sections, associez Inter avec Source Serif Pro, utilisez un ratio de contraste de 4:1 sur le texte secondaire » produit un meilleur résultat, mais exige que vous preniez chaque décision vous-même, ce qui annule l’intérêt d’avoir un agent. Cela s’inscrit dans ma thèse plus large sur l’infrastructure du goût : les systèmes de qualité doivent être encodés, pas racontés.

Le goût passe à l’échelle quand il devient infrastructure.

Ce qu’est réellement le goût

Le goût est la reconnaissance de motifs appliquée à la qualité esthétique. Un designer qui a examiné des milliers de mises en page développe une intuition sur ce qui fonctionne : quels appariements typographiques créent de la tension, quels ratios d’espacement paraissent équilibrés, quelles distributions de couleurs guident le regard. Cette intuition n’a rien de mystique. Elle est statistique. C’est la même intuition qui sous-tend ma philosophie de la qualité : le savoir-faire n’est pas de la magie, c’est de l’évidence accumulée sur ce qui fonctionne. Le designer a vu suffisamment de bon travail pour reconnaître les motifs qui le rendent bon.

Ces motifs sont apprenables parce qu’ils sont structurels. Conventions typographiques, ratios d’espacement, relations chromatiques, profondeur de hiérarchie, règles de composition des composants. Ce ne sont pas des préférences arbitraires. Ce sont des solutions à des problèmes perceptifs qui se répètent dans chaque domaine du design. Un titre doit être visuellement distinct du corps de texte. Une carte a besoin d’espace blanc pour respirer. Une palette de couleurs nécessite une dominante, une secondaire et un accent. Les valeurs spécifiques varient. Les relations structurelles sont constantes.

Si les motifs sont structurels et constants, ils peuvent être extraits du travail professionnel, encodés dans un format interrogeable, et appliqués par les agents au moment de la génération.

L’intuition LICA

Une équipe de recherche a publié un jeu de données de 1 550 244 compositions graphiques multi-couches sous forme d’arbres de calques JSON structurés.¹ Pas des images. Pas des pixels. Des objets JSON où chaque décision de design est un champ interrogeable : famille de police, taille de police, hauteur de ligne, espacement des lettres, couleur, position, opacité, ordre z, relations parent-enfant.

Le jeu de données comprend 971 850 modèles uniques répartis dans 20 catégories de design, 2 700 familles de polices distinctes et 27 261 mises en page animées avec des données d’images clés par composant. Chaque composition est un arbre de composants typés (texte, image, vecteur, groupe) avec des métadonnées riches par élément.

L’intuition clé est que le goût devient calculable quand les décisions de design sont représentées sous forme de données plutôt que de pixels. Vous n’avez pas besoin de vision par ordinateur pour analyser quelle taille de police les professionnels utilisent pour les titres dans les mises en page pour les réseaux sociaux. Vous interrogez une base de données.

Trois couches

Encoder le goût dans l’infrastructure nécessite trois couches, chacune s’appuyant sur la précédente.

Couche 1 : graphe de connaissances du design. Analyser les arbres de mises en page professionnelles dans une base de données interrogeable. Pas des statistiques plates. Des relations : quand les designers utilisent un titre en sans-serif gras de 48px, avec quoi l’associent-ils pour le corps de texte ? Quels ratios d’espacement apparaissent entre composants parents et enfants ? En quoi les mises en page d’affiches diffèrent-elles structurellement de celles des réseaux sociaux ? Le résultat est une base de données interrogeable : « étant donné un titre sans-serif de 32px, quelles propriétés de corps de texte apparaissent dans les mises en page professionnelles ? »

Couche 2 : encodeur de mise en page. Un petit modèle entraîné sur Apple Silicon qui prend l’arbre de composants d’une mise en page et produit un vecteur d’embedding. L’entraînement utilise l’apprentissage contrastif : les mises en page professionnelles réelles comme positifs, les mises en page perturbées (espacement aléatoire, polices échangées, hiérarchie cassée) comme négatifs. Le modèle apprend un espace d’embedding où les mises en page professionnelles se regroupent et les mises en page défaillantes sont distantes. Quand un agent produit une mise en page, on l’encode, on trouve les 5 mises en page professionnelles les plus proches. Si elle est éloignée de toutes, quelque chose ne va pas.

Couche 3 : arbitre du goût. Claude lit la sortie de l’encodeur, les mises en page professionnelles les plus proches et les motifs pertinents du graphe de connaissances. Il produit un jugement ancré dans le précédent professionnel : non pas « cet espacement semble décalé » mais « les mises en page professionnelles dans cette catégorie utilisent 1,5× la taille du corps de texte pour l’espacement des sections, la vôtre utilise 0,8× ».

Le schéma de service est identique à la recherche sémantique : encoder la requête, trouver les voisins les plus proches dans un index vectoriel, renvoyer un contexte structuré. L’infrastructure est la même. Le domaine est différent.

Pourquoi les statistiques ne suffisent pas

Une distribution de fréquences des tailles de police sur 1,5 million de mises en page vous dit ce qui est courant. Elle ne vous dit pas ce qui est bon. L’appariement typographique le plus populaire n’est pas le meilleur. C’est le plus prudent. Un agent doté de statistiques de fréquence produit un travail médian. Le médian n’est pas le goût.

Le goût exige de comprendre pourquoi un choix de design fonctionne en contexte, pas seulement à quelle fréquence il apparaît dans tous les contextes. Un titre sans-serif gras de 48px fonctionne dans une mise en page d’affiche parce que la distance de lecture est grande et que la hiérarchie doit être immédiatement lisible. Le même titre dans une carte mobile serait écrasant. Les statistiques de fréquence ne peuvent pas capturer ce raisonnement contextuel. Un modèle contrastif qui apprend la différence entre mises en page professionnelles et versions perturbées dans des catégories spécifiques le peut.

L’approche contrastive gère également l’espace négatif. Une mise en page professionnelle fonctionne souvent grâce à ce qu’elle omet : l’espace vide qui crée le rythme, les éléments qui ne sont pas là. Les statistiques de fréquence comptent ce qui est présent. Un modèle contrastif apprend de la structure complète, y compris la structure de l’absence.

Le goût comme avantage concurrentiel

Chaque équipe utilisant des agents IA pour générer des interfaces fait face au même fossé du goût. Le résultat par défaut de chaque agent est la même esthétique générique. Les équipes qui comblent ce fossé en premier produiront un travail visiblement meilleur à la même vitesse. Le principe auquel je reviens sans cesse : la qualité est la seule variable — la vitesse et le coût sont des constantes dans lesquelles vous opérez, pas des leviers que vous actionnez.

Ce fossé ne se comblera pas par un meilleur prompting. Ni par de meilleurs modèles. Les modèles progressent en raisonnement, en génération de code et en suivi d’instructions. Ils ne progressent pas en jugement esthétique parce que le jugement esthétique n’est pas dans l’objectif d’entraînement. Un modèle entraîné à prédire le prochain token convergera vers le résultat le plus probable, c’est-à-dire l’esthétique médiane.

Le fossé se comble par l’infrastructure : des jeux de données qui encodent les décisions de design professionnelles, des modèles qui apprennent la qualité structurelle, et des systèmes d’arbitrage qui ancrent le résultat de l’agent dans le précédent professionnel. Le schéma d’arbitrage est un portail d’évidence appliqué à l’esthétique — le même principe qui régit la revue de code, dans un domaine différent. L’équipe qui construit cette infrastructure compose son avantage à chaque projet, car le graphe de connaissances grandit, l’encodeur s’améliore et l’arbitre devient plus précis.

C’est le contexte composé appliqué au design. Chaque mise en page professionnelle analysée dépose un motif. Chaque motif rend la prochaine génération meilleure. Le portefeuille de connaissances en design croît lentement au début, puis devient la raison pour laquelle votre production se distingue de celle de tout le monde.

FAQ

Est-ce simplement un design system ?

Un design system définit des tokens et des composants. L’infrastructure du goût évalue si une composition utilisant ces tokens et composants est esthétiquement réussie. Un design system vous dit quelles couleurs utiliser. L’infrastructure du goût vous dit si la manière dont vous les avez combinées fonctionne. J’explore la relation entre contrainte et beauté dans le brutalisme dans un article séparé.

A-t-on besoin de 1,5 million de mises en page ?

Non. Le jeu de données LICA complet comprend 1,5 million de compositions, mais le sous-ensemble publiquement disponible contient 1 183 mises en page avec des arbres JSON complets. C’est suffisant pour extraire des motifs significatifs pour un domaine ciblé (réseaux sociaux, présentations, documents). Le graphe de connaissances grandit avec chaque mise en page analysée.

Un petit modèle peut-il vraiment apprendre le goût ?

Le modèle n’a pas besoin de générer des designs. Il doit distinguer les mises en page professionnelles de celles qui ont été perturbées. C’est une tâche de classification/embedding, pas de génération. Un modèle de 2 à 5 millions de paramètres entraîné par apprentissage contrastif sur des arbres de composants structurés suffit pour l’évaluation de qualité par plus proches voisins.

Comment fonctionne l’arbitre ?

Claude lit trois entrées : la mise en page générée par l’agent (sous forme de données structurées, pas une capture d’écran), les 5 mises en page professionnelles les plus proches fournies par l’encodeur, et les motifs pertinents du graphe de connaissances. Il produit des corrections spécifiques ancrées dans le précédent professionnel. L’arbitre raisonne sur l’écart entre la mise en page générée et l’ensemble de références professionnelles. L’approche exige un retour critique mais bienveillant — précis sur ce qui ne va pas, constructif sur la manière de corriger, jamais méprisant envers la tentative.

Sources

Elad Hirsch, Shubham Yadav, Mohit Garg, Purvanshi Mehta, “LICA: Layered Image Composition Annotations for Graphic Design Research,” arXiv:2603.16098, March 2026. 1,550,244 compositions, 971,850 templates, 27,261 animated layouts. Dataset: github.com/purvanshi-lica/lica-dataset. ↩