受管代理 vs 本地 harness:哪些該保留
Anthropic 與 OpenAI 正在把代理執行階段的基礎設施轉變為產品介面:託管會話、沙箱、追蹤、記憶、移交、評分標準與事件串流,現在更貼近模型供應商,而不是團隊內部那個私有的腳本資料夾。12
關鍵重點是什麼?
- 受管代理正成為執行階段層。當供應商達到團隊的安全標準時,會話、沙箱、追蹤、事件與非同步執行,愈來愈應該交給受管基礎設施處理。12
- 本地 harness 仍然重要。保留那些承載品味、證據、公開發表完整性、隱私邊界、來源驗證與專案記憶的部分。
- 遷移的單位是工作本身,不是命令本身。斜線命令、Codex 技能、SDK 移交、MCP 伺服器或受管成果,只要驗收標準保留下來,都能承載同一套工作流程。
- 不要把私有機制公開發布。公開貼文應該說明模式與驗收標準,而不是私有提示、確切的 hook 內容、帳號細節或內部評分規則。
- 晉升需要證據。先保持顯式呼叫,跑一次真實任務,記錄結果,只有當使用者可見的路徑確實改善時才晉升。
受管代理平台應該吸收那些屬於通用品的執行階段工作:沙箱執行、有狀態會話、事件串流、追蹤、檔案執行與非同步完成。本地 harness 仍有意義,但職責變得更小、更銳利。保留那些承載產品品味、證據門檻、公開發表完整性、隱私邊界、來源驗證與專案專屬操作記憶的部分。把那些只因為過去沒人封裝執行階段才存在的東西移走。
糟糕的遷移之一,是因為供應商推出了受管基礎設施,就把本地 harness 刪光。第二種糟糕的遷移,是因為某個本地命令、hook 或提示曾解決過真實問題,就全數保留。正確的遷移會對每個元件問一個問題:這承載的是我的標準,還是只是在操作機器?
關於更宏觀的架構,請參閱 AI 代理架構指南。關於本文背後實際運行的本地遷移模式,請參閱 Claude Code 到 Codex 遷移指南、AGENTS.md 模式 以及 Jiro 品質哲學。
關於這道分界中本地工具那一側的討論,Claude Code 作為基礎設施 說明了私有執行階段層為何會壯大,而 Claude Code vs Codex CLI 2026 則比較了兩者的啟動與安全介面。
受管代理改變了什麼?
Claude Managed Agents 為開發者提供一套預先建好、運行於受管基礎設施上的代理 harness。Anthropic 將其定位為適合長時間任務與非同步工作的方案,核心概念涵蓋代理、環境、會話與事件。1 同一份文件描述了一個受管環境,讓 Claude 能夠讀取檔案、執行命令、瀏覽網頁、執行程式碼、使用 MCP 伺服器,並在伺服器端持久化事件歷史。1
Anthropic 的工程說明把這項架構決策講得比產品文件更清楚。Managed Agents 團隊把會話日誌、harness 與沙箱拆分開來,讓三者可以獨立失敗或變更。3 這項分離之所以重要,是因為它把一個脆弱的單容器代理迴圈,轉化為一套擁有可恢復會話狀態、可替換執行環境、且憑證安全邊界更狹窄的系統。3
OpenAI 透過 Agents SDK 也在朝同方向前進。其 2026 年 4 月 15 日的更新加入了模型原生 harness、原生沙箱執行、工作空間 manifest 抽象,並支援 MCP、技能、AGENTS.md、shell 執行與 patch 套用等常見原語。2 SDK 文件也揭露了支援多次執行記憶的會話、追蹤 LLM 生成、工具呼叫、移交、護欄與自訂事件,以及讓專家代理之間轉移工作的移交機制。456
這些是新聞。策略問題卻不同:一旦平台推出代理執行階段,本地 harness 還應該做什麼?
執行階段與判斷之間如何劃分?
大多數本地代理 harness 混雜了兩項不該總是擺在一起的工作。
第一項是執行階段的基礎設施。執行階段負責啟動會話、授予工具、準備工作空間、執行命令、儲存事件、處理中斷、恢復工作、串流狀態並記錄追蹤。這項工作從標準化中受益。它也從安全工程中受益,而多數獨立團隊除非有強烈理由,不該再從零打造一套。
第二項是判斷。判斷說明何謂好作品、哪些公開主張需要一手來源、何時某份指南過時到不該發布、何時某個 hook 吵雜到不該強制執行、何時某次來源掃描應該變成筆記而不是文章、何時代理該拒絕一個技術上正確但不值得發出的輸出。這項工作必須留在本地,因為它源自產品、團隊與讀者。
受管基礎設施可以跑出更好的迴圈。它無法決定你的品味該是什麼。
哪些東西該移到受管代理?
把那些不承載產品標準的元件移走。
| 本地元件 | 平台支援時更合適的歸宿 | 原因 |
|---|---|---|
| 沙箱設定 | 受管環境或 SDK 沙箱 | 供應商能維護隔離、設定、網路規則與供應商配接層。 |
| 會話持久化 | 受管會話日誌或 SDK 會話儲存 | 長時間工作需要能撐過上下文視窗與工作節點失效的狀態。 |
| 事件串流與 webhook | 受管事件或應用層工作佇列 | 應用程式應該觀察狀態,而不是輪詢私有的 shell 狀態。 |
| 追蹤 | 供應商追蹤或自家追蹤處理器 | 代理除錯需要結構化的 span,涵蓋模型呼叫、工具、護欄與移交。 |
| 工具執行黏合層 | 受管工具、MCP 或 SDK 工具配接器 | 工具呼叫應該躲在穩定介面後,而不是脆弱的提示慣例後。 |
| 多代理分支 | 受管編排或 SDK 移交 | 委派需要可見性、輸入過濾與清楚的移交合約。 |
Anthropic 的 Outcomes 功能展示了這股趨勢的下一步。開發者定義評分標準,受管 harness 佈建一個獨立的評分器,代理則依評分器的回饋反覆迭代。7 這並沒有取消本地標準。它只是給這些標準一個執行階段的位置。
同樣的模式也適用於 OpenAI 的追蹤。SDK 預設會追蹤整次執行、代理 span、生成、函式工具呼叫、護欄與移交,並提供關閉追蹤的控制與導向其他目的地的處理器。5 本地腳本可以模擬這套機制。但生產系統通常更該選擇標準化的追蹤,並送往團隊既有的除錯場域。
哪些該留在本地?
保留那些定義你的標準、你的讀者、或你私有運作脈絡的元件。
產品品味。平台能執行任務,卻無法判斷結果是否讓整體產品更好。保留那些拒絕忙碌、平庸、低尊嚴輸出的品味規則。
證據門檻。保留那些要求當次會話證據、使用者路徑驗證、明指缺口與根因分析的規則。受管追蹤告訴你發生了什麼;由你的標準決定證據是否足夠。
公開發表完整性。把引用規則、來源等級規則、私有邊界檢查、SEO/AIO 檢查與發布門檻都緊靠網站本身。模型供應商不該決定哪些私有工作流程細節可以安全公開。
專案記憶。把精煉的專案準則、風格決策、已知風險、發布邊界與運作日誌放在團隊能檢視的地方。只有當受管會話儲存確實提升耐用性時,才把儲存層移走。
來源情報。保留編輯路由層。掃描器找到 14 則好條目,仍可能輸出零篇貼文,因為正確動作可能是監測、指南維護或一則私人筆記。
晉升政策。保留分階段規則。某項技能可以先設為僅顯式呼叫,某個 hook 可以先以影子模式執行,某個外掛可以停在安裝試行階段,直到真實工作證明它的助益超過干擾。
這份清單才是真正的 harness。檔案與命令只是其中一種實作方式。
團隊該避開哪種遷移錯誤?
毀掉這次遷移最容易的方式,就是保留外形而非工作。
Claude Code 斜線命令、Codex 技能、SDK 工具、受管成果與 MCP 伺服器,並非同一件事換上不同語法。它們是不同的啟動介面。某個斜線命令可能變成一項技能。某項技能可能變成一份受管成果評分標準。某個 hook 可能變成一個追蹤處理器。某段本地腳本可能因為平台揭露了會話或 webhook,直接就不再需要了。
Anthropic 的長時間代理說明從反方向講了同一件事:單靠壓縮並未產出生產等級的作品,因此有效模式還加上了功能清單、進度產物、乾淨的移交狀態與端對端測試。8 這些不是 UI 慣例。它們是證明義務。
遷移時不該問:「我把 /scan-intel 放哪?」應該問:「來源情報工作流程做的是哪份工作?」
對來源掃描器而言,工作不是「執行一個命令」。工作是掃描已設定的來源、證明來源可達、為候選評分、拒絕那些低訊號量的廣泛寫入、把有用的筆記私下保留下來,並把可公開的機會路由到編輯審查。確切的啟動詞可以變,工作流程不會因此流失。
同樣的規則也適用於品質準則。不要把私有的提示集公開發布。把準則轉化為可觀察的完成門檻:證據、使用者路徑驗證、私有邊界審查,以及拒絕削弱產品的工作的權利。
這套思維如何套用到來源情報掃描器?
來源情報掃描器讓這道分界更具體。
執行階段那一側可以移走。受管平台可以執行排程任務、儲存會話、執行瀏覽器或饋送抓取工具、發出事件並保留追蹤。如果一次掃描超時,受管會話應該知道哪些步驟跑過、哪些來源失敗、下一次應該從哪裡接續。
判斷那一側則應該留在本地。掃描器仍需要私有的來源圖譜、評分閾值、重複檢查、寫入量限制與一條編輯路由。當一次掃描找到 14 則候選,不該自動發布 14 則筆記或一篇文章。正確動作可能是一則私人筆記、一項指南維護任務、一條監測佇列,或拒絕公開發出任何東西。
這道區分把吵雜的自動化變成有用的工作流程:
| 掃描器步驟 | 受管層 | 本地 harness 層 |
|---|---|---|
| 抓取來源 | 瀏覽器、饋送、搜尋或 MCP 工具 | 來源圖譜與信任等級 |
| 持久化執行狀態 | 會話日誌、事件、追蹤 | 主題分類帳與既往報導記憶 |
| 為候選評分 | 選用的模型/工具流程 | 編輯閾值與品味規則 |
| 寫出輸出 | 檔案或筆記工具 | 寫入量門檻與私有邊界檢查 |
| 路由下一動作 | 事件、webhook 或移交 | 發布、更新指南、監測或不行動的決策 |
同樣的邏輯也適用於程式設計、指南維護、翻譯與公開發表的工作流程。當平台執行得更好時,把執行機制移走。保留決定該輸出是否值得存在的標準。
移動 harness 前該用哪份檢查清單?
把任何本地 harness 元件移到受管代理平台之前,使用以下檢查清單。
| 問題 | 是 | 否 |
|---|---|---|
| 此元件是否只在操作執行階段基礎設施? | 將它推往受管會話、沙箱、追蹤或事件。 | 留在本地或專案內掌握。 |
| 此元件是否承載品味、信任或編輯標準? | 把標準留在本地;只暴露安全的評分標準或驗收條件。 | 考慮淘汰。 |
| 此元件是否觸及機密、帳號狀態或私有提示? | 把私有細節擋在公開套件與文章之外。 | 它或許可以用通用模式的形式公開。 |
| 平台能否以評分標準、追蹤、hook 或處理器表達同一道門檻? | 試行平台原生版本。 | 維持本地版本,並僅供顯式呼叫。 |
| 是否有真實工作證實過該行為? | 從僅顯式呼叫晉升為試行或強制執行。 | 維持分階段。 |
| 此元件是否製造雜訊? | 簡化、影子化或移除。 | 持續對照真實成果衡量。 |
晉升路徑應該乏善可陳:
- 盤點元件。
- 為它命名其執行的工作。
- 將它歸類為執行階段、判斷、記憶、發布、來源情報或安全。
- 移植最小可用版本。
- 在一項真實任務上跑它。
- 記錄發生了什麼。
- 晉升、修訂或移除。
任何更繁複的做法,通常都是在隱藏不確定性。
團隊今日該如何拆分一套真實的 harness?
對於一套認真的程式設計與寫作配置,我會這樣拆分。
供應商或受管層:
- 沙箱建立
- 檔案執行
- 持久化會話
- 事件串流
- webhook
- 追蹤與 span
- 長時間工作節點復原
- 基本多代理委派
- 供應商支援時的評分標準執行
本地或專案層:
AGENTS.md或等效的專案政策- 公開發表標準
- 引用與來源等級規則
- 產品品質準則
- 私有運作記憶
- 站台專屬的 SEO/AIO 檢查
- 來源情報路由
- 最終發布門檻
- 適用於外掛與共享套件的發布邊界政策
分界線不是「受管 vs 自架」。分界線是「通用執行階段 vs 產品判斷」。
受管代理在哪些地方仍需謹慎?
受管代理平台沒有移除困難的部分。它們只是把這些部分搬了個位置。
你仍需要為工具、檔案、網路存取與憑證設計安全模型。Anthropic 的架構明確把憑證與執行生成程式碼的沙箱分開,方向是對的,但團隊仍需要正確設定資源、保險庫與存取邊界。3
你仍需要可觀察性。追蹤能呈現呼叫圖,卻無法告訴你這份工作值不值得發出。評分器能評估評分標準,卻無法判斷這份評分標準是否表達了正確的品味。
你仍需要內容邊界。公開的遷移文章可以描述模式,卻不該倒出私有提示、確切的 hook 內部、私有檔案路徑、來源清單、帳號細節或專屬編輯評分。
你仍需要分階段策略。Anthropic 指出 Managed Agents 仍處於 beta 階段,所有端點都需要 managed-agents-2026-04-01 這個 beta header,部分功能還需要 preview 存取權。1 beta 執行階段可以有用,但不必成為每條工作流程的預設路徑。
團隊該帶走什麼?
對工程主管:
- 當平台達到你的安全門檻時,把執行階段工作推往受管會話、沙箱、事件與追蹤。
- 為證據、來源品質、產品品味與發布邊界保留本地標準。
- 把受管評分標準視為承載你既有標準的執行槽,而不是它們的替代品。
對代理打造者:
- 不要一對一移植命令。移植的是待辦的工作。
- 先設為僅顯式呼叫,等真實任務證明價值後再晉升。
- 優先採用追蹤、會話日誌與公開產物,而非私有提示考古。
對公開寫作者:
- 把私有流程轉成公開的驗收條件。
- 引述官方產品文件來描述當下行為。
- 當更好的文章是決策框架時,拒絕只做回顧。
簡短摘要是什麼?
受管代理平台讓本地 harness 變得更小,卻不會讓它失去意義。當平台贏得這份信任時,把執行階段工作移到受管會話、沙箱、追蹤、事件與編排之中。保留那些定義品質、證據、隱私、公開發表完整性,以及哪些工作值得發出的本地標準。
FAQ:受管代理與本地 harness
受管代理會取代本地 AI agent harness 嗎?
不會。受管平台取代的是更多執行階段層:會話、沙箱、事件串流、追蹤與工具執行。本地 harness 在承載產品標準、證據門檻、公開發表規則、隱私邊界、來源情報與專案專屬記憶時,仍然重要。
AGENTS.md 或 CLAUDE.md 裡該保留什麼?
把耐久的專案規則放在那裡:產品看重什麼、完成如何驗證、哪些私有細節不能發布、公開寫作如何審查,以及哪些使用者可見的路徑必須能跑通,任務才算完成。不要把短暫的工具輸出或私有的提示內容塞進永久指示檔案裡。
團隊何時該採用受管代理平台?
當工作需要長時間執行、安全容器、耐久會話、事件串流、非同步完成、追蹤或受管多代理編排,且供應商的安全、成本與資料控管符合用例時,使用受管基礎設施。12
哪些東西不該移進公開的 harness 套件?
不要公開私有提示、確切的 hook 內容、敏感檔案路徑、帳號識別碼、token 處理方式、私有來源清單、專屬評分規則,或任何能讓陌生人重建你內部運作系統的東西。要公開的是模式與驗收條件。
參考文獻
-
Anthropic,「Claude Managed Agents overview」。檢索日期 2026 年 5 月 7 日。 ↩↩↩↩↩↩
-
OpenAI,「The next evolution of the Agents SDK」,2026 年 4 月 15 日。 ↩↩↩↩
-
Anthropic Engineering,「Scaling Managed Agents: Decoupling the brain from the hands」,2026 年 4 月 8 日。 ↩↩↩
-
OpenAI Agents SDK,「Sessions」。檢索日期 2026 年 5 月 7 日。 ↩
-
OpenAI Agents SDK,「Handoffs」。檢索日期 2026 年 5 月 7 日。 ↩
-
Anthropic,「Define outcomes」。檢索日期 2026 年 5 月 7 日。 ↩
-
Anthropic Engineering,「Effective harnesses for long-running agents」,2025 年 11 月 26 日。 ↩