审美是基础设施

1分钟阅读

智能体能在几分钟内构建一个功能完备的界面。正确的HTML、有效的CSS、可用的交互。输出通过了所有自动化检查，但看起来像是2019年某个委员会设计的产物。

问题不在于能力。智能体可以生成你描述的任何布局、任何配色方案、任何字体搭配。问题在于——你必须亲自描述。智能体对什么好看没有主见。它倾向于默认值：系统字体、等距间距、安全配色、居中一切。输出能用，但毫无考究之感。

这就是审美鸿沟。功能与优秀之间的距离。正确与考究之间的距离。一个通过验证的界面与一个让设计师心生敬意的界面之间的距离。

审美无法通过提示词规模化。你不可能在每条提示词中描述每一个审美判断。”让它看起来专业”只会产出千篇一律的结果。”标题间距用正文字号的1.5倍，Inter搭配Source Serif Pro，副文本对比度4:1”——效果更好，但每个决定都得你自己做，这就失去了使用智能体的意义。这正是我在审美基础设施论述中探讨的核心观点：质量体系必须被编码，而非口述。

审美在成为基础设施时才能规模化。

审美的本质

审美是应用于美学质量的模式识别。一位审阅过数千个布局的设计师会形成直觉——哪些字体搭配产生张力，哪些间距比例感觉平衡，哪些色彩分布引导视线。这种直觉并非玄学，而是统计学。这与我在质量哲学中的洞察一脉相承：工艺不是魔法，而是关于”什么有效”的经验积累。设计师见过足够多的优秀作品，因此能识别使其优秀的模式。

这些模式可以学习，因为它们是结构性的。字体规范、间距比例、色彩关系、层次深度、组件组合规则——这些都不是随意的偏好，而是针对每个设计领域反复出现的感知问题的解决方案。标题需要与正文在视觉上明确区分。卡片需要留白来呼吸。配色方案需要主色、辅色和强调色。具体数值因场景而异，但结构关系始终如一。

既然模式是结构性且一致的，就可以从专业作品中提取、编码为可查询的格式，并在生成时由智能体应用。

LICA的启示

一个研究团队发布了一个包含1,550,244个多层图形设计组合的数据集，以结构化JSON层级树的形式呈现。¹ 不是图像，不是像素，而是JSON对象——每个设计决策都是一个可查询的字段：字体族、字号、行高、字间距、颜色、位置、透明度、层叠顺序、父子关系。

该数据集包含971,850个独立模板，覆盖20个设计类别、2,700种不同字体族，以及27,261个带有逐组件关键帧数据的动画布局。每个组合都是一棵由类型化组件（文本、图像、矢量、分组）构成的树，附带丰富的逐元素元数据。

关键洞察在于：当设计决策以数据而非像素的形式呈现时，审美就变得可计算。你不需要计算机视觉来分析专业设计师在社交媒体布局中使用什么标题字号——查询数据库即可。

三层架构

将审美编码为基础设施需要三个层级，层层递进。

第一层：设计知识图谱。 将专业布局树解析为可查询的数据库。不是扁平的统计数据，而是关系：当设计师使用48px粗体无衬线标题时，正文搭配什么？父子组件之间出现什么间距比例？海报布局与社交媒体布局在结构上有何不同？输出是一个可查询的数据库：”给定32px无衬线标题，专业布局中的正文属性是什么？”

第二层：布局嵌入器。 一个在Apple Silicon上训练的小型模型，接收布局的组件树并生成向量嵌入。训练采用对比学习：真实专业布局作为正样本，扰动布局（随机间距、字体互换、层次打乱）作为负样本。模型学习一个嵌入空间，专业布局聚集在一起，而问题布局远离中心。当智能体生成布局时，对其嵌入，找到最近的5个专业布局。如果与所有专业布局都相距甚远，说明存在问题。

第三层：审美裁判。 Claude读取嵌入器输出、最近的专业布局以及知识图谱中的相关模式，然后给出基于专业先例的判断——不是”这个间距感觉不对”，而是”该类别的专业布局标题间距使用正文字号的1.5倍，你的只有0.8倍。”

服务模式与语义搜索完全相同：嵌入查询、在向量索引中查找最近邻、返回结构化上下文。基础设施相同，领域不同。

为什么统计数据远远不够

150万个布局中字号的频率分布告诉你什么是常见的，但无法告诉你什么是好的。最流行的字体搭配不是最好的字体搭配，只是最安全的。依赖频率统计的智能体只会产出中位水平的作品。中位数不是审美。

审美需要理解一个设计决策为什么在特定语境下有效，而不仅仅是它在所有语境中出现的频率。48px粗体无衬线标题在海报布局中有效，因为观看距离大，层次需要一目了然。同样的标题放在移动端卡片布局中就会喧宾夺主。频率统计无法捕捉这种语境推理。而在特定类别中学习专业布局与扰动版本差异的对比模型可以。

对比学习还能处理负空间。专业布局之所以成功，往往在于它省略了什么：创造节奏的留白、刻意缺席的元素。频率统计只计算存在的东西，而对比模型从完整结构中学习——包括缺席的结构。

审美即竞争优势

每个使用AI智能体生成界面的团队都面临同样的审美鸿沟。每个智能体的默认输出都是同质化的泛泛美学。率先弥合这一差距的团队将以同等速度产出显著更优的作品。我反复强调的原则是：质量是唯一的变量——速度和成本是既定约束，不是可以拉动的杠杆。

这个差距不会通过更好的提示词弥合，也不会通过更好的模型弥合。模型在推理、代码生成和指令遵循方面持续进步，但在审美判断方面不会——因为审美判断不在训练目标中。一个以预测下一个token为目标训练的模型，最终会收敛到最大概率的输出，也就是中位审美。

弥合差距靠的是基础设施：编码专业设计决策的数据集、学习结构质量的模型，以及将智能体输出锚定在专业先例上的裁判系统。裁判模式本质上是将证据门控应用于美学——原理与代码审查相同，只是领域不同。构建这套基础设施的团队会随着每个项目积累复合优势——知识图谱不断扩展，嵌入器持续改进，裁判愈发精准。

这就是复合上下文在设计领域的应用。每一个被分析的专业布局都沉淀一个模式，每一个模式都让下一次生成更上一层楼。设计知识的积累起初缓慢，最终成为你的产出与众不同的根本原因。

常见问题

这和设计系统有什么区别？

设计系统定义设计令牌和组件。审美基础设施评估的是——使用这些令牌和组件构成的作品在美学上是否成功。设计系统告诉你该用哪些颜色，审美基础设施告诉你这些颜色的组合方式是否有效。我在另一篇文章中探讨了约束与极简主义之美之间的关系。

真的需要150万个布局吗？

不需要。完整的LICA数据集包含150万个组合，但公开可用的子集有1,183个完整JSON树的布局。这足以为特定领域（社交媒体、演示文稿、文档）提取有意义的模式。知识图谱会随着每一个被分析的布局持续增长。

小模型真的能学会审美吗？

这个模型不需要生成设计，只需要区分专业布局和扰动布局。这是一个分类/嵌入任务，而非生成任务。一个在结构化组件树上通过对比学习训练的2-5M参数模型，足以胜任最近邻质量评估。

裁判系统如何运作？

Claude读取三个输入：智能体生成的布局（结构化数据，非截图）、嵌入器返回的5个最近专业布局，以及知识图谱中的相关模式。它产出基于专业先例的具体修正建议。裁判对生成布局与专业参考集之间的差距进行推理。这种方式要求严谨而善意的反馈——精确指出问题所在，建设性地给出改进方向，绝不轻视任何尝试。

参考来源

Elad Hirsch, Shubham Yadav, Mohit Garg, Purvanshi Mehta, “LICA: Layered Image Composition Annotations for Graphic Design Research,” arXiv:2603.16098, March 2026. 1,550,244 compositions, 971,850 templates, 27,261 animated layouts. Dataset: github.com/purvanshi-lica/lica-dataset. ↩