品味即是基礎建設

1分鐘閱讀

代理程式能在幾分鐘內建構出功能完整的介面——正確的 HTML、有效的 CSS、可運作的互動效果。產出通過每一項自動化檢查，卻看起來像是 2019 年某個委員會設計出來的。

問題不在能力。代理程式能生成您描述的任何版面、任何配色方案、任何字型搭配。問題在於：您得親自描述。代理程式對什麼好看毫無主見，只會抓取預設值：系統字型、等距間距、安全色系、一切置中。產出能用，但感受不到用心。

這就是品味落差——功能與優秀之間的距離、正確與講究之間的距離、通過驗證的介面與讓設計師心服口服的介面之間的距離。

品味無法透過提示詞規模化。您不可能在每次提示中描述每一個審美判斷。「讓它看起來專業」只會產出千篇一律的結果。「段落間距使用 1.5 倍本文字級、搭配 Inter 與 Source Serif Pro、次要文字使用 4:1 對比度」——效果好得多，但等於每個決策都由您親自下達，這就失去了代理程式的意義。這正是我在品味基礎建設論述中的核心主張：品質系統必須被編碼，而非口述。

品味在成為基礎建設時才能規模化。

品味究竟是什麼

品味是將模式識別應用於審美品質。一位審閱過數千種版面的設計師，會對什麼有效產生直覺：哪些字型搭配製造張力、哪些間距比例讓人感到平衡、哪些色彩分布引導視線。這種直覺並非玄學，而是統計學。這與我的品質哲學一脈相承：工藝不是魔法，而是關於「什麼有效」的累積證據。設計師見過足夠多的優秀作品，因此能辨識出使其優秀的模式。

這些模式可以學習，因為它們是結構性的。字型排印慣例、間距比例、色彩關係、層次深度、元件組合規則——這些不是任意偏好，而是在每個設計領域反覆出現的知覺問題之解決方案。標題需要在視覺上有別於本文；卡片需要留白才能呼吸；色彩組合需要主色、輔色與強調色。具體數值各異，結構關係始終一致。

既然模式是結構性且一致的，就能從專業作品中萃取、以可查詢格式編碼，並由代理程式在生成時套用。

LICA 的啟示

一個研究團隊發表了一組包含 1,550,244 個多層圖形設計作品的資料集，以結構化 JSON 圖層樹呈現。¹ 不是圖片，不是像素，而是 JSON 物件——每個設計決策都是可查詢的欄位：字型家族、字級、行高、字距、色彩、位置、透明度、z 軸順序、父子關係。

資料集涵蓋 971,850 個獨特模板，橫跨 20 個設計類別、2,700 種不同字型家族，以及 27,261 個包含逐元件關鍵影格資料的動態版面。每個作品都是由具型別的元件（文字、圖片、向量、群組）所構成的樹狀結構，附帶豐富的逐元素中繼資料。

關鍵洞見在於：當設計決策以資料而非像素來表示時，品味就變得可計算。分析專業人士在社群媒體版面中使用什麼標題字級，不需要電腦視覺——查詢資料庫即可。

三個層次

將品味編碼為基礎建設需要三個層次，層層遞進。

第一層：設計知識圖譜。 將專業版面樹狀結構解析為可查詢的資料庫。不是扁平的統計數據，而是關係：當設計師使用 48px 粗體無襯線標題時，本文搭配什麼？父子元件之間出現什麼間距比例？海報版面與社群媒體版面在結構上有何差異？最終產出是一個可查詢的資料庫：「給定 32px 無襯線標題，專業版面中會出現什麼本文屬性？」

第二層：版面嵌入器。 一個在 Apple Silicon 上訓練的小型模型，接收版面的元件樹並產生向量嵌入。訓練採用對比學習：真實專業版面作為正樣本，擾動版面（隨機間距、錯換字型、破壞層次）作為負樣本。模型學習一個嵌入空間，使專業版面聚集、破損版面遠離。當代理程式產出版面時，進行嵌入，找出最近的 5 個專業版面。若與所有專業版面都距離甚遠，必定有問題。

第三層：品味裁判。 Claude 讀取嵌入器輸出、最近的專業版面，以及知識圖譜中的相關模式，據此做出以專業先例為依據的判斷——不是「這個間距感覺不對」，而是「該類別的專業版面使用 1.5 倍本文字級作為段落間距，您的版面使用 0.8 倍」。

服務模式與語意搜尋完全相同：嵌入查詢、在向量索引中找最近鄰、回傳結構化上下文。基礎建設相同，領域不同。

為何統計數據不夠

150 萬個版面的字級頻率分布告訴您什麼最常見，但不能告訴您什麼最好。最熱門的字型搭配不是最佳搭配，只是最安全的選擇。依賴頻率統計的代理程式產出中位數水準的作品——中位數不是品味。

品味需要理解一個設計決策為何在特定情境中有效，而非僅僅統計它在所有情境中出現的頻率。48px 粗體無襯線標題在海報版面中有效，因為觀看距離大、層次需要立即可辨。同樣的標題放在行動裝置卡片中則令人窒息。頻率統計無法捕捉這種情境推理。而在特定類別中學習專業版面與擾動版本差異的對比模型可以。

對比方法還能處理留白。專業版面之所以有效，往往在於它省略了什麼：創造節奏的空白、不存在的元素。頻率統計計算存在的事物；對比模型則從完整結構中學習——包括缺席的結構。

品味作為競爭優勢

每個使用 AI 代理程式生成介面的團隊都面臨相同的品味落差。每個代理程式的預設產出都是千篇一律的泛化美學。率先填補落差的團隊，將在相同速度下產出明顯更好的成果。我反覆回到的原則是：品質是唯一的變數——速度和成本是您在其中運作的常數，不是您拉動的槓桿。

這個落差不會因為更好的提示詞而消弭，也不會因為更好的模型而消弭。模型在推理、程式碼生成和指令遵循方面不斷進步，但審美判斷不會提升，因為審美判斷不在訓練目標中。一個以預測下一個 token 為目標訓練的模型，會收斂到最可能的輸出——也就是中位數美學。

落差的消弭靠的是基礎建設：編碼專業設計決策的資料集、學習結構品質的模型、以及將代理程式產出錨定於專業先例的裁判系統。裁判模式本質上是證據閘門應用於美學——與程式碼審查相同的原則，只是領域不同。建立這套基礎建設的團隊會隨每個專案複利其優勢，因為知識圖譜在成長、嵌入器在改進、裁判在變得更精準。

這是複合情境應用於設計。每一個被分析的專業版面都沉澱為一個模式，每一個模式都讓下一次生成更好。設計知識的資產組合起初增長緩慢，然後成為您的產出有別於他人的根本原因。

常見問題

這跟設計系統有什麼不同？

設計系統定義設計符記與元件。品味基礎建設評估的是：使用這些符記和元件組成的作品在美學上是否成功。設計系統告訴您該用哪些顏色，品味基礎建設告訴您組合這些顏色的方式是否奏效。我在另一篇文章中探討了約束與極簡主義之美之間的關係。

真的需要 150 萬個版面嗎？

不需要。完整的 LICA 資料集包含 150 萬個作品，但公開可用的子集為 1,183 個完整 JSON 樹的版面。對於聚焦領域（社群媒體、簡報、文件），這已足以萃取有意義的模式。知識圖譜會隨著每一個分析的版面而增長。

小型模型真的能學會品味嗎？

模型不需要生成設計，只需要區分專業版面與擾動版面。這是分類／嵌入任務，不是生成任務。一個以對比學習在結構化元件樹上訓練的 200 萬至 500 萬參數模型，足以進行最近鄰品質評估。

裁判如何運作？

Claude 讀取三項輸入：代理程式生成的版面（結構化資料，非截圖）、嵌入器回傳的 5 個最近專業版面，以及知識圖譜中的相關模式。它產出以專業先例為依據的具體修正建議。裁判推理的是生成版面與專業參考集之間的差距。這種方法要求嚴謹而溫和的回饋——精確指出問題所在、建設性地提出修正方向，絕不輕蔑對待嘗試本身。

參考文獻

Elad Hirsch, Shubham Yadav, Mohit Garg, Purvanshi Mehta, “LICA: Layered Image Composition Annotations for Graphic Design Research,” arXiv:2603.16098, March 2026. 1,550,244 compositions, 971,850 templates, 27,261 animated layouts. Dataset: github.com/purvanshi-lica/lica-dataset. ↩