代理介面就是代理框架

OpenAI將Codex描述為雲端軟體工程代理，能在隔離環境中讀取檔案、編輯檔案並執行測試；Anthropic則記錄了可在工具呼叫執行前進行檢查並拒絕的掛鉤。⁴³這些不是枝微末節。它們就是產品本身。

提示輸入框之所以吸引注意，是因為它看起來像介面。但真正的代理介面其實圍繞在提示之外：工具存取、權限規則、記憶載入、追蹤擷取、證據要求、復原控制與發布關口。這一層決定使用者停止輸入後，代理會如何行動。

代理產品不會因為提示文字寫得更漂亮就變得可信。只有當模型周圍的運作表面能把意圖轉化為受治理的工作，它才會真正值得信任。

TL;DR

代理介面就是運作層。聊天可以收集意圖，但周邊表面決定代理能看見什麼、能做什麼、必須證明什麼，以及何時需要人介入。Microsoft將人與AI互動視為跨時間展開的行為；NIST則把可信度定義為團隊在設計、開發、使用與評估中都必須納入的事項。¹²

這表示代理UX不能止步於對話設計。介面必須寫入權限、記憶、工具邊界、證據與品味。若介面沒有承載這些約束，代理就會自行即興發揮。

代理式設計就是控制表面設計命名的是可見表面。下面這套框架，命名的是其背後的運作層。

重點摘要

給產品團隊： - 將提示輸入框視為接收表面，而非運作表面。 - 在打磨聊天體驗之前，先設計代理的權限、追蹤、記憶、證據與復原路徑。

給設計工程師： - 把品質規則放在代理真正行動的位置：工具呼叫前、編輯後、發布前，以及完成時。 - 讓不可見狀態具備足夠可檢視性，使人仍能對結果負責。

給導入代理的團隊： - 詢問介面是否揭露代理看見了什麼、改了什麼、略過了什麼、驗證了什麼。 - 不要把流暢的最終文字當成受治理工作的證明。

介面決定代理能成為什麼

每一次代理會話都從使用者意圖開始，但行為並不只由意圖決定。

代理的行為也取決於：

介面層	行為效果
工具	定義代理能採取哪些行動
權限	定義代理何時必須停止或詢問
記憶	定義哪些既有脈絡會影響本次執行
追蹤	定義後續審查可以檢查什麼
證據	定義什麼才算完成
復原	定義失敗如何保持可逆
品味	定義系統應該拒絕什麼

這些層對工作的改變不亞於模型本身。同一個模型，在可以執行測試、只能編輯檔案、看見發布關口、必須引用來源，或有停止關口阻擋過早完成時，都會展現不同的行為。

若產品團隊把這些層視為「設定」，就是誤解了媒介本身。設定位於工作之外。代理介面層則會成為工作的形狀。

Microsoft的人與AI互動指引提出了一個早已重要的觀點：AI系統需要溝通狀態、支援修正，並在互動時間中回應失敗。¹代理讓這項要求更尖銳，因為系統能在使用者兩次輸入之間採取行動。介面不能再只說：「模型回答了。」介面必須說：「系統在這些約束下行動了。」

工具存取就是介面設計

工具存取看似技術問題。它同時也是UX。

只能憑記憶回答的代理，擁有一種介面。能搜尋檔案的代理，是另一種介面。能執行shell命令、編輯程式碼、開啟瀏覽器、呼叫API並部署軟體的代理，則需要與使用者建立不同的契約。

Model Context Protocol描述了一種常見模式：AI應用程式會連接到本機檔案、資料庫、工具與工作流程等外部系統。⁵這種連接擴大了能力，但能力本身不等於品質。每增加一個新工具，介面都必須回答一個問題：

工具問題	介面要求
代理能碰觸什麼？	範圍與權限邊界
代理送出了什麼？	可檢視的工具酬載
回傳了什麼？	輸出、錯誤與副作用紀錄
改變了什麼？	差異、產物或狀態摘要
誰核准了？	權限紀錄
能否復原？	復原路徑

埋在設定裡的工具清單無法承擔這項責任。使用者需要一個表面，讓工具權限在工作進行時仍然清晰可讀。

Claude Code的PreToolUse掛鉤展示了這個基本原型。掛鉤可以在執行前接收工具名稱與輸入，然後允許、拒絕、詢問、延後或修改該呼叫。³這套機制應該進入代理介面設計的心智模型。介面也應在合適的高度，把同一個決策點呈現給使用者。

低風險讀取可以安靜通過。具破壞性的shell命令需要更強的阻力。公開發布需要最後關口。會影響客戶的變更需要稽核。好的介面不是要求使用者批准一切，而是讓每個行動獲得它應有的儀式感。

記憶是產品的一部分

記憶經常以基礎設施的形式進入代理產品：脈絡視窗、檔案、摘要、向量儲存、快取、專案指令與檢索系統。使用者感受到的，卻是這些系統形成的產品行為。

當代理記得設計標準，產品會顯得一致。當代理忘記40分鐘前的限制，產品會顯得粗心。當代理取回過時指引，產品會像被舊決策纏住。

記憶需要介面，因為記憶會改變責任。使用者無法監督自己無法檢視的東西。

介面至少應區分4種記憶狀態：

記憶狀態	面向使用者的意義
作用中	代理現在可以使用
可用	代理需要時可以取回
已壓縮	系統已摘要，細節可能遺失
過時	系統有紀錄，但信任度應降低

缺少這種區分，使用者就只能從代理行為推測記憶品質。這是本末倒置。介面應揭露足夠的記憶狀態，讓使用者能在代理建立於錯誤前提之上之前介入。

同樣的道理也適用於個人或團隊哲學。藏在提示中的品質準則，可能會也可能不會撐過一場長會話。若準則被寫入技能、掛鉤、範本、檢查與完成關口，它就擁有更多著力點。模型仍可能漏失；但運作層能捕捉更多漏失，因為規則存在於工作發生之處。

證據把輸出變成工作

最終回答是代理會話中最薄弱的證明單位。

最終回答可以聲稱測試已通過，即使根本沒有執行測試。它可以說引用已驗證，但來源其實不支持該主張。它也可以說部署成功，然而公開路由仍從快取回傳404。流暢文字可以掩蓋失敗。

證據必須成為一個表面。使用者應看見主張、支撐與缺口：

主張類型	必要證據
程式碼已變更	檔案路徑與差異
測試已通過	命令、結束狀態與相關輸出
內容正確	來源連結，以及主張與來源的對齊
SEO路徑可運作	已轉譯的中繼資料、schema與探索檔案
發布成功	線上路由狀態與快取狀態
翻譯可發布	本機關口、D1資料列、線上頁面與審查狀態

這個證據表面會改變代理行為。當系統知道完成需要證據，代理就會在任務過程中尋找證明，而不是到最後才寫出自信摘要。

證據關口就是為此而存在。它迫使代理把主張連回觀察到的行為。代理執行追蹤是執行環境契約把同一個論點推得更深：追蹤比最終回答更接近真相，因為追蹤保存了路徑。

NIST的AI Risk Management Framework在此很重要，因為可信度進入的是設計、開發、使用與評估，而不只是模型選擇。²證據正是這些階段與使用者畫面相遇之處。

復原應該存在於主流程

代理介面常把失敗視為例外。代理工作則讓失敗成為常態。

搜尋查不到。測試失敗。權限關口阻擋。翻譯檢查發現格式不一致。部署成功了，但CDN仍送出過時的HTML。好的介面不會在這些狀態下慌亂。好的介面會讓復原路徑一目了然。

復原需要5種控制：

控制	目的
暫停	在不遺失狀態的情況下停止行動
繼續	在審查或外部修正後接續執行
重試	以變更後的輸入重複失敗步驟
分叉	探索替代路徑，而不覆寫第一條路徑
回復	復原可逆工作，或標記不可逆工作以供修補

復原路徑應靠近追蹤與證據表面。使用者不應被迫從逐字稿中複製失敗命令、推測工作目錄，再手動重建代理狀態。介面已經知道失敗步驟；介面就應提供下一個負責任的行動。

這項原則同樣適用於內容工作。當翻譯品質關口失敗時，介面應顯示失敗語系、失敗片段、原因與修復路徑。當公開頁面無法通過線上驗證時，介面應顯示是應用程式失敗、資料庫失敗，還是邊緣快取送出過時輸出。只要使用者可見路徑尚未運作，代理就不該宣稱發布完成。

品味不是提示

AI程式撰寫讓實作變得更便宜。實作越便宜，判斷越有價值。

重要問題會從「代理能不能做出東西？」轉向「這個版本應不應該存在？」這個問題屬於人類審查者，也同樣屬於介面。

品味會以約束的形式出現：

移除不必要的步驟；
拒絕削弱產品的聰明捷徑；
維持各種產物之間的一致性；
驗證公開路徑，而不是慶祝本機成功；
保護私有機制，不讓它進入公開文案；
選擇更小、更銳利的方案，而不是更繁雜的方案。

代理可以透過文字接收這些價值。文字有幫助，但光靠文字無法保證行為。價值需要變成可操作的形式：能阻擋偷懶語句的部落格技能、能拒絕未受支持主張的引用驗證器、能檢查線上頁面的發布驗證器、能拒絕缺乏證據就完成的停止關口，以及能避免視覺漂移的設計規則。

介面讓品味變得可檢視。使用者能看見系統拒絕了什麼、簡化了什麼、驗證了什麼，以及留下了哪些尚未證明的部分。這份紀錄很重要，因為代理輸出只會越來越便宜。真正稀缺的，會是決定什麼能留下的標準。

實用的代理介面地圖

團隊可以從一張簡單地圖開始。不需要未來感十足的儀表板。

表面	最小可行版本
意圖接收	提示、任務類型、程式碼庫或工作區範圍
計畫	假設、預計使用的工具、驗收標準
權限	依風險分級的佇列，含完整酬載
記憶	作用中指令、已載入檔案、過時警告
追蹤	工具呼叫、輸出與副作用的時間軸
證據	將主張對應到命令、檔案、來源或缺口
復原	暫停、重試、分叉、回復、取消
發布	使用者可見路由、schema、探索、翻譯、快取
品味	拒絕、簡化、標準與最終是否值得

這張地圖之所以有效，是因為每個表面都回答了一項使用者責任。使用者不需要每一個原始事件；使用者需要足夠的可見性與控制權，才能對結果保持負責。

這項區分能避免兩種常見錯誤。一種錯誤是把一切藏在聊天背後，然後稱之為魔法。另一種錯誤是暴露每個內部事件，然後稱之為透明。強健的代理介面設計兩者皆非。它會在正確時刻，給操作者正確的控制。

快速總結

代理介面就是運作層。提示收集意圖，但工具、權限、記憶、追蹤、證據、復原與品味才決定實際發生什麼。OpenAI的Codex與Claude Code的掛鉤顯示了方向：代理產品已經包含執行環境、工具呼叫與政策決策點。⁴³MCP擴大了代理與外部系統之間的連接。⁵NIST與Microsoft則提供了更早的人與AI設計及信任框架。²¹

產品問題不再是代理能不能回答。產品問題是周邊表面是否足以治理自主工作，讓人能信任、檢視、中斷、修復，並為結果簽核。

FAQ

「介面就是代理框架」是什麼意思？

這句話的意思是，介面不只是顯示代理輸出。它定義了模型周圍的運作層：工具、權限、記憶、追蹤、證據、復原與標準。這些部分會在最終回答出現前塑造行為。

聊天介面仍然適合代理嗎？

聊天可以作為意圖接收表面，也可以作為輕量審查通道。但如果聊天成為唯一的運作表面，就會失效。代理工作需要隨機存取、權限審查、追蹤檢視、記憶可見性與復原控制。

這和提示工程有什麼不同？

提示工程塑造指令。介面設計塑造權限、狀態與問責。提示可以要求代理驗證工作；發布表面則可以要求提供線上路由證據，任務才能關閉。

團隊應該先建什麼？

先建立追蹤與證據表面。追蹤顯示發生了什麼，證據表面顯示什麼能證明結果。當團隊能檢視工作路徑後，權限、復原與記憶會更容易設計。

參考資料

Saleema Amershi等人，“人與AI互動指引，”Microsoft Research，CHI 2019。18項人與AI互動指引的主要來源，並經49位設計實務工作者驗證。 ↩↩↩
National Institute of Standards and Technology，“AI風險管理框架，”NIST。此框架自願性風險管理目的，以及其設計、開發、使用與評估架構的來源。 ↩↩↩
Anthropic，“掛鉤參考，”Claude Code Docs。掛鉤事件、PreToolUse輸入欄位，以及可在執行前允許、拒絕、詢問、延後或修改工具呼叫之決策控制的來源。 ↩↩↩
OpenAI，“Codex介紹，”OpenAI，2025年5月。Codex作為雲端軟體工程代理、其獨立沙箱任務，以及讀取檔案、編輯檔案與執行命令能力的來源。 ↩↩
Model Context Protocol，“什麼是Model Context Protocol？”MCP作為開放標準，能將AI應用程式連接到資料來源、工具與工作流程等外部系統的來源。 ↩↩