品味即是基礎建設
代理程式能在幾分鐘內建構出功能完整的介面——正確的 HTML、有效的 CSS、可運作的互動效果。產出通過每一項自動化檢查,卻看起來像是 2019 年某個委員會設計出來的。
問題不在能力。代理程式能生成您描述的任何版面、任何配色方案、任何字型搭配。問題在於:您得親自描述。代理程式對什麼好看毫無主見,只會抓取預設值:系統字型、等距間距、安全色系、一切置中。產出能用,但感受不到用心。
這就是品味落差——功能與優秀之間的距離、正確與講究之間的距離、通過驗證的介面與讓設計師心服口服的介面之間的距離。
品味無法透過提示詞規模化。您不可能在每次提示中描述每一個審美判斷。「讓它看起來專業」只會產出千篇一律的結果。「段落間距使用 1.5 倍本文字級、搭配 Inter 與 Source Serif Pro、次要文字使用 4:1 對比度」——效果好得多,但等於每個決策都由您親自下達,這就失去了代理程式的意義。這正是我在品味基礎建設論述中的核心主張:品質系統必須被編碼,而非口述。
品味在成為基礎建設時才能規模化。
品味究竟是什麼
品味是將模式識別應用於審美品質。一位審閱過數千種版面的設計師,會對什麼有效產生直覺:哪些字型搭配製造張力、哪些間距比例讓人感到平衡、哪些色彩分布引導視線。這種直覺並非玄學,而是統計學。這與我的品質哲學一脈相承:工藝不是魔法,而是關於「什麼有效」的累積證據。設計師見過足夠多的優秀作品,因此能辨識出使其優秀的模式。
這些模式可以學習,因為它們是結構性的。字型排印慣例、間距比例、色彩關係、層次深度、元件組合規則——這些不是任意偏好,而是在每個設計領域反覆出現的知覺問題之解決方案。標題需要在視覺上有別於本文;卡片需要留白才能呼吸;色彩組合需要主色、輔色與強調色。具體數值各異,結構關係始終一致。
既然模式是結構性且一致的,就能從專業作品中萃取、以可查詢格式編碼,並由代理程式在生成時套用。
LICA 的啟示
一個研究團隊發表了一組包含 1,550,244 個多層圖形設計作品的資料集,以結構化 JSON 圖層樹呈現。1 不是圖片,不是像素,而是 JSON 物件——每個設計決策都是可查詢的欄位:字型家族、字級、行高、字距、色彩、位置、透明度、z 軸順序、父子關係。
資料集涵蓋 971,850 個獨特模板,橫跨 20 個設計類別、2,700 種不同字型家族,以及 27,261 個包含逐元件關鍵影格資料的動態版面。每個作品都是由具型別的元件(文字、圖片、向量、群組)所構成的樹狀結構,附帶豐富的逐元素中繼資料。
關鍵洞見在於:當設計決策以資料而非像素來表示時,品味就變得可計算。分析專業人士在社群媒體版面中使用什麼標題字級,不需要電腦視覺——查詢資料庫即可。
三個層次
將品味編碼為基礎建設需要三個層次,層層遞進。
第一層:設計知識圖譜。 將專業版面樹狀結構解析為可查詢的資料庫。不是扁平的統計數據,而是關係:當設計師使用 48px 粗體無襯線標題時,本文搭配什麼?父子元件之間出現什麼間距比例?海報版面與社群媒體版面在結構上有何差異?最終產出是一個可查詢的資料庫:「給定 32px 無襯線標題,專業版面中會出現什麼本文屬性?」
第二層:版面嵌入器。 一個在 Apple Silicon 上訓練的小型模型,接收版面的元件樹並產生向量嵌入。訓練採用對比學習:真實專業版面作為正樣本,擾動版面(隨機間距、錯換字型、破壞層次)作為負樣本。模型學習一個嵌入空間,使專業版面聚集、破損版面遠離。當代理程式產出版面時,進行嵌入,找出最近的 5 個專業版面。若與所有專業版面都距離甚遠,必定有問題。
第三層:品味裁判。 Claude 讀取嵌入器輸出、最近的專業版面,以及知識圖譜中的相關模式,據此做出以專業先例為依據的判斷——不是「這個間距感覺不對」,而是「該類別的專業版面使用 1.5 倍本文字級作為段落間距,您的版面使用 0.8 倍」。
服務模式與語意搜尋完全相同:嵌入查詢、在向量索引中找最近鄰、回傳結構化上下文。基礎建設相同,領域不同。
為何統計數據不夠
150 萬個版面的字級頻率分布告訴您什麼最常見,但不能告訴您什麼最好。最熱門的字型搭配不是最佳搭配,只是最安全的選擇。依賴頻率統計的代理程式產出中位數水準的作品——中位數不是品味。
品味需要理解一個設計決策為何在特定情境中有效,而非僅僅統計它在所有情境中出現的頻率。48px 粗體無襯線標題在海報版面中有效,因為觀看距離大、層次需要立即可辨。同樣的標題放在行動裝置卡片中則令人窒息。頻率統計無法捕捉這種情境推理。而在特定類別中學習專業版面與擾動版本差異的對比模型可以。
對比方法還能處理留白。專業版面之所以有效,往往在於它省略了什麼:創造節奏的空白、不存在的元素。頻率統計計算存在的事物;對比模型則從完整結構中學習——包括缺席的結構。
品味作為競爭優勢
每個使用 AI 代理程式生成介面的團隊都面臨相同的品味落差。每個代理程式的預設產出都是千篇一律的泛化美學。率先填補落差的團隊,將在相同速度下產出明顯更好的成果。我反覆回到的原則是:品質是唯一的變數——速度和成本是您在其中運作的常數,不是您拉動的槓桿。
這個落差不會因為更好的提示詞而消弭,也不會因為更好的模型而消弭。模型在推理、程式碼生成和指令遵循方面不斷進步,但審美判斷不會提升,因為審美判斷不在訓練目標中。一個以預測下一個 token 為目標訓練的模型,會收斂到最可能的輸出——也就是中位數美學。
落差的消弭靠的是基礎建設:編碼專業設計決策的資料集、學習結構品質的模型、以及將代理程式產出錨定於專業先例的裁判系統。裁判模式本質上是證據閘門應用於美學——與程式碼審查相同的原則,只是領域不同。建立這套基礎建設的團隊會隨每個專案複利其優勢,因為知識圖譜在成長、嵌入器在改進、裁判在變得更精準。
這是複合情境應用於設計。每一個被分析的專業版面都沉澱為一個模式,每一個模式都讓下一次生成更好。設計知識的資產組合起初增長緩慢,然後成為您的產出有別於他人的根本原因。
常見問題
這跟設計系統有什麼不同?
設計系統定義設計符記與元件。品味基礎建設評估的是:使用這些符記和元件組成的作品在美學上是否成功。設計系統告訴您該用哪些顏色,品味基礎建設告訴您組合這些顏色的方式是否奏效。我在另一篇文章中探討了約束與極簡主義之美之間的關係。
真的需要 150 萬個版面嗎?
不需要。完整的 LICA 資料集包含 150 萬個作品,但公開可用的子集為 1,183 個完整 JSON 樹的版面。對於聚焦領域(社群媒體、簡報、文件),這已足以萃取有意義的模式。知識圖譜會隨著每一個分析的版面而增長。
小型模型真的能學會品味嗎?
模型不需要生成設計,只需要區分專業版面與擾動版面。這是分類/嵌入任務,不是生成任務。一個以對比學習在結構化元件樹上訓練的 200 萬至 500 萬參數模型,足以進行最近鄰品質評估。
裁判如何運作?
Claude 讀取三項輸入:代理程式生成的版面(結構化資料,非截圖)、嵌入器回傳的 5 個最近專業版面,以及知識圖譜中的相關模式。它產出以專業先例為依據的具體修正建議。裁判推理的是生成版面與專業參考集之間的差距。這種方法要求嚴謹而溫和的回饋——精確指出問題所在、建設性地提出修正方向,絕不輕蔑對待嘗試本身。
參考文獻
-
Elad Hirsch, Shubham Yadav, Mohit Garg, Purvanshi Mehta, “LICA: Layered Image Composition Annotations for Graphic Design Research,” arXiv:2603.16098, March 2026. 1,550,244 compositions, 971,850 templates, 27,261 animated layouts. Dataset: github.com/purvanshi-lica/lica-dataset. ↩