← 所有文章

代理介面就是代理框架

OpenAI將Codex描述為雲端軟體工程代理,能在隔離環境中讀取檔案、編輯檔案並執行測試;Anthropic則記錄了可在工具呼叫執行前進行檢查並拒絕的掛鉤。43這些不是枝微末節。它們就是產品本身。

提示輸入框之所以吸引注意,是因為它看起來像介面。但真正的代理介面其實圍繞在提示之外:工具存取、權限規則、記憶載入、追蹤擷取、證據要求、復原控制與發布關口。這一層決定使用者停止輸入後,代理會如何行動。

代理產品不會因為提示文字寫得更漂亮就變得可信。只有當模型周圍的運作表面能把意圖轉化為受治理的工作,它才會真正值得信任。

TL;DR

代理介面就是運作層。聊天可以收集意圖,但周邊表面決定代理能看見什麼、能做什麼、必須證明什麼,以及何時需要人介入。Microsoft將人與AI互動視為跨時間展開的行為;NIST則把可信度定義為團隊在設計、開發、使用與評估中都必須納入的事項。12

這表示代理UX不能止步於對話設計。介面必須寫入權限、記憶、工具邊界、證據與品味。若介面沒有承載這些約束,代理就會自行即興發揮。

代理式設計就是控制表面設計命名的是可見表面。下面這套框架,命名的是其背後的運作層。

重點摘要

給產品團隊: - 將提示輸入框視為接收表面,而非運作表面。 - 在打磨聊天體驗之前,先設計代理的權限、追蹤、記憶、證據與復原路徑。

給設計工程師: - 把品質規則放在代理真正行動的位置:工具呼叫前、編輯後、發布前,以及完成時。 - 讓不可見狀態具備足夠可檢視性,使人仍能對結果負責。

給導入代理的團隊: - 詢問介面是否揭露代理看見了什麼、改了什麼、略過了什麼、驗證了什麼。 - 不要把流暢的最終文字當成受治理工作的證明。

介面決定代理能成為什麼

每一次代理會話都從使用者意圖開始,但行為並不只由意圖決定。

代理的行為也取決於:

介面層 行為效果
工具 定義代理能採取哪些行動
權限 定義代理何時必須停止或詢問
記憶 定義哪些既有脈絡會影響本次執行
追蹤 定義後續審查可以檢查什麼
證據 定義什麼才算完成
復原 定義失敗如何保持可逆
品味 定義系統應該拒絕什麼

這些層對工作的改變不亞於模型本身。同一個模型,在可以執行測試、只能編輯檔案、看見發布關口、必須引用來源,或有停止關口阻擋過早完成時,都會展現不同的行為。

若產品團隊把這些層視為「設定」,就是誤解了媒介本身。設定位於工作之外。代理介面層則會成為工作的形狀。

Microsoft的人與AI互動指引提出了一個早已重要的觀點:AI系統需要溝通狀態、支援修正,並在互動時間中回應失敗。1代理讓這項要求更尖銳,因為系統能在使用者兩次輸入之間採取行動。介面不能再只說:「模型回答了。」介面必須說:「系統在這些約束下行動了。」

工具存取就是介面設計

工具存取看似技術問題。它同時也是UX。

只能憑記憶回答的代理,擁有一種介面。能搜尋檔案的代理,是另一種介面。能執行shell命令、編輯程式碼、開啟瀏覽器、呼叫API並部署軟體的代理,則需要與使用者建立不同的契約。

Model Context Protocol描述了一種常見模式:AI應用程式會連接到本機檔案、資料庫、工具與工作流程等外部系統。5這種連接擴大了能力,但能力本身不等於品質。每增加一個新工具,介面都必須回答一個問題:

工具問題 介面要求
代理能碰觸什麼? 範圍與權限邊界
代理送出了什麼? 可檢視的工具酬載
回傳了什麼? 輸出、錯誤與副作用紀錄
改變了什麼? 差異、產物或狀態摘要
誰核准了? 權限紀錄
能否復原? 復原路徑

埋在設定裡的工具清單無法承擔這項責任。使用者需要一個表面,讓工具權限在工作進行時仍然清晰可讀。

Claude Code的PreToolUse掛鉤展示了這個基本原型。掛鉤可以在執行前接收工具名稱與輸入,然後允許、拒絕、詢問、延後或修改該呼叫。3這套機制應該進入代理介面設計的心智模型。介面也應在合適的高度,把同一個決策點呈現給使用者。

低風險讀取可以安靜通過。具破壞性的shell命令需要更強的阻力。公開發布需要最後關口。會影響客戶的變更需要稽核。好的介面不是要求使用者批准一切,而是讓每個行動獲得它應有的儀式感。

記憶是產品的一部分

記憶經常以基礎設施的形式進入代理產品:脈絡視窗、檔案、摘要、向量儲存、快取、專案指令與檢索系統。使用者感受到的,卻是這些系統形成的產品行為。

當代理記得設計標準,產品會顯得一致。當代理忘記40分鐘前的限制,產品會顯得粗心。當代理取回過時指引,產品會像被舊決策纏住。

記憶需要介面,因為記憶會改變責任。使用者無法監督自己無法檢視的東西。

介面至少應區分4種記憶狀態:

記憶狀態 面向使用者的意義
作用中 代理現在可以使用
可用 代理需要時可以取回
已壓縮 系統已摘要,細節可能遺失
過時 系統有紀錄,但信任度應降低

缺少這種區分,使用者就只能從代理行為推測記憶品質。這是本末倒置。介面應揭露足夠的記憶狀態,讓使用者能在代理建立於錯誤前提之上之前介入。

同樣的道理也適用於個人或團隊哲學。藏在提示中的品質準則,可能會也可能不會撐過一場長會話。若準則被寫入技能、掛鉤、範本、檢查與完成關口,它就擁有更多著力點。模型仍可能漏失;但運作層能捕捉更多漏失,因為規則存在於工作發生之處。

證據把輸出變成工作

最終回答是代理會話中最薄弱的證明單位。

最終回答可以聲稱測試已通過,即使根本沒有執行測試。它可以說引用已驗證,但來源其實不支持該主張。它也可以說部署成功,然而公開路由仍從快取回傳404。流暢文字可以掩蓋失敗。

證據必須成為一個表面。使用者應看見主張、支撐與缺口:

主張類型 必要證據
程式碼已變更 檔案路徑與差異
測試已通過 命令、結束狀態與相關輸出
內容正確 來源連結,以及主張與來源的對齊
SEO路徑可運作 已轉譯的中繼資料、schema與探索檔案
發布成功 線上路由狀態與快取狀態
翻譯可發布 本機關口、D1資料列、線上頁面與審查狀態

這個證據表面會改變代理行為。當系統知道完成需要證據,代理就會在任務過程中尋找證明,而不是到最後才寫出自信摘要。

證據關口就是為此而存在。它迫使代理把主張連回觀察到的行為。代理執行追蹤是執行環境契約把同一個論點推得更深:追蹤比最終回答更接近真相,因為追蹤保存了路徑。

NIST的AI Risk Management Framework在此很重要,因為可信度進入的是設計、開發、使用與評估,而不只是模型選擇。2證據正是這些階段與使用者畫面相遇之處。

復原應該存在於主流程

代理介面常把失敗視為例外。代理工作則讓失敗成為常態。

搜尋查不到。測試失敗。權限關口阻擋。翻譯檢查發現格式不一致。部署成功了,但CDN仍送出過時的HTML。好的介面不會在這些狀態下慌亂。好的介面會讓復原路徑一目了然。

復原需要5種控制:

控制 目的
暫停 在不遺失狀態的情況下停止行動
繼續 在審查或外部修正後接續執行
重試 以變更後的輸入重複失敗步驟
分叉 探索替代路徑,而不覆寫第一條路徑
回復 復原可逆工作,或標記不可逆工作以供修補

復原路徑應靠近追蹤與證據表面。使用者不應被迫從逐字稿中複製失敗命令、推測工作目錄,再手動重建代理狀態。介面已經知道失敗步驟;介面就應提供下一個負責任的行動。

這項原則同樣適用於內容工作。當翻譯品質關口失敗時,介面應顯示失敗語系、失敗片段、原因與修復路徑。當公開頁面無法通過線上驗證時,介面應顯示是應用程式失敗、資料庫失敗,還是邊緣快取送出過時輸出。只要使用者可見路徑尚未運作,代理就不該宣稱發布完成。

品味不是提示

AI程式撰寫讓實作變得更便宜。實作越便宜,判斷越有價值。

重要問題會從「代理能不能做出東西?」轉向「這個版本應不應該存在?」這個問題屬於人類審查者,也同樣屬於介面。

品味會以約束的形式出現:

  • 移除不必要的步驟;
  • 拒絕削弱產品的聰明捷徑;
  • 維持各種產物之間的一致性;
  • 驗證公開路徑,而不是慶祝本機成功;
  • 保護私有機制,不讓它進入公開文案;
  • 選擇更小、更銳利的方案,而不是更繁雜的方案。

代理可以透過文字接收這些價值。文字有幫助,但光靠文字無法保證行為。價值需要變成可操作的形式:能阻擋偷懶語句的部落格技能、能拒絕未受支持主張的引用驗證器、能檢查線上頁面的發布驗證器、能拒絕缺乏證據就完成的停止關口,以及能避免視覺漂移的設計規則。

介面讓品味變得可檢視。使用者能看見系統拒絕了什麼、簡化了什麼、驗證了什麼,以及留下了哪些尚未證明的部分。這份紀錄很重要,因為代理輸出只會越來越便宜。真正稀缺的,會是決定什麼能留下的標準。

實用的代理介面地圖

團隊可以從一張簡單地圖開始。不需要未來感十足的儀表板。

表面 最小可行版本
意圖接收 提示、任務類型、程式碼庫或工作區範圍
計畫 假設、預計使用的工具、驗收標準
權限 依風險分級的佇列,含完整酬載
記憶 作用中指令、已載入檔案、過時警告
追蹤 工具呼叫、輸出與副作用的時間軸
證據 將主張對應到命令、檔案、來源或缺口
復原 暫停、重試、分叉、回復、取消
發布 使用者可見路由、schema、探索、翻譯、快取
品味 拒絕、簡化、標準與最終是否值得

這張地圖之所以有效,是因為每個表面都回答了一項使用者責任。使用者不需要每一個原始事件;使用者需要足夠的可見性與控制權,才能對結果保持負責。

這項區分能避免兩種常見錯誤。一種錯誤是把一切藏在聊天背後,然後稱之為魔法。另一種錯誤是暴露每個內部事件,然後稱之為透明。強健的代理介面設計兩者皆非。它會在正確時刻,給操作者正確的控制。

快速總結

代理介面就是運作層。提示收集意圖,但工具、權限、記憶、追蹤、證據、復原與品味才決定實際發生什麼。OpenAI的Codex與Claude Code的掛鉤顯示了方向:代理產品已經包含執行環境、工具呼叫與政策決策點。43MCP擴大了代理與外部系統之間的連接。5NIST與Microsoft則提供了更早的人與AI設計及信任框架。21

產品問題不再是代理能不能回答。產品問題是周邊表面是否足以治理自主工作,讓人能信任、檢視、中斷、修復,並為結果簽核。

FAQ

「介面就是代理框架」是什麼意思?

這句話的意思是,介面不只是顯示代理輸出。它定義了模型周圍的運作層:工具、權限、記憶、追蹤、證據、復原與標準。這些部分會在最終回答出現前塑造行為。

聊天介面仍然適合代理嗎?

聊天可以作為意圖接收表面,也可以作為輕量審查通道。但如果聊天成為唯一的運作表面,就會失效。代理工作需要隨機存取、權限審查、追蹤檢視、記憶可見性與復原控制。

這和提示工程有什麼不同?

提示工程塑造指令。介面設計塑造權限、狀態與問責。提示可以要求代理驗證工作;發布表面則可以要求提供線上路由證據,任務才能關閉。

團隊應該先建什麼?

先建立追蹤與證據表面。追蹤顯示發生了什麼,證據表面顯示什麼能證明結果。當團隊能檢視工作路徑後,權限、復原與記憶會更容易設計。

參考資料


  1. Saleema Amershi等人,“人與AI互動指引,”Microsoft Research,CHI 2019。18項人與AI互動指引的主要來源,並經49位設計實務工作者驗證。 

  2. National Institute of Standards and Technology,“AI風險管理框架,”NIST。此框架自願性風險管理目的,以及其設計、開發、使用與評估架構的來源。 

  3. Anthropic,“掛鉤參考,”Claude Code Docs。掛鉤事件、PreToolUse輸入欄位,以及可在執行前允許、拒絕、詢問、延後或修改工具呼叫之決策控制的來源。 

  4. OpenAI,“Codex介紹,”OpenAI,2025年5月。Codex作為雲端軟體工程代理、其獨立沙箱任務,以及讀取檔案、編輯檔案與執行命令能力的來源。 

  5. Model Context Protocol,“什麼是Model Context Protocol?”MCP作為開放標準,能將AI應用程式連接到資料來源、工具與工作流程等外部系統的來源。 

相關文章

代理式設計就是控制介面設計

代理式設計不是更漂亮的聊天框,而是讓自主軟體可見、可中斷、可稽核,並值得信任的控制介面。

1 分鐘閱讀

聊天是 AI 代理的錯誤介面

聊天適合提示輸入,但無法勝任代理操作。六種介面模式以真正的控制面板取代滾動文字視窗。

2 分鐘閱讀

Ralph 迴圈:我如何在夜間運行自主 AI 代理

我建構了一套自主代理系統,搭配停止鉤子、生成預算與檔案系統記憶體。以下是失敗經驗與真正能交付程式碼的方法。

3 分鐘閱讀