代理的執行追蹤就是執行環境契約
三篇新的代理論文從不同角度提出同一個主張:最不值得單獨信任的單位,是最後答案。SHEPHERD把代理執行轉為型別化、可分支的追蹤。AI工作流程商店認為,重複出現的代理工作應該以工程化、可重用的工作流程執行,而不是每次都臨場拼湊計畫。WildClawBench則在原生命令列執行環境中評分代理,使用真實工具、副作用稽核與軌跡檢查,而不只看最後答案。123
代理可靠性如今存在於執行追蹤、工作流程成品,以及執行環境評估器之中。聊天紀錄可以說明代理聲稱自己做了什麼;追蹤可以顯示它實際碰了什麼;工作流程可以限制它下次能做什麼;原生執行環境基準測試則能衡量模型、工具、狀態與控制迴圈是否協同運作。
我先前已經主張過,託管式代理正在吸收執行環境基礎設施。我也論證過,清理層才是真正的代理市場。這篇文章的範圍更窄:支撐這兩個論點的底層契約,是代理的執行紀錄。若無法檢查、分支、重播、重用並評分追蹤,就還沒有一套能在規模化情境中信任的代理系統。
相鄰的幾篇文章分別討論控制介面、證據關口與技能迴圈:聊天不是AI代理的正確介面、證據關口,以及靜態技能就是死亡技能。追蹤契約位在這三者之下。
TL;DR
代理系統正持續遠離只評估最後答案的做法。SHEPHERD把每一次代理與環境的互動記錄成類Git追蹤中的型別化事件,讓較早的狀態可以被分支與重播。1AI工作流程商店提出可重用、經強化的工作流程,讓適當設計、測試、對抗式評估與分階段推出的成本分攤到許多使用者身上,而不是每次提示都重新支付。2WildClawBench說明了為什麼執行環境很重要:其60個長程任務在真實CLI代理執行環境中、搭配真實工具執行,平均約8分鐘、超過20次工具呼叫,並採用混合式評分來稽核成品與環境副作用。3
實務上的轉變是:不要只問答案是否正確。還要問追蹤是否可檢查、工作流程是否可重用,以及評估是否在代理實際工作的執行環境中進行。
重點摘要
給代理建構者: - 將執行追蹤視為產品契約。以其他程序能檢查的結構,記錄工具呼叫、引數、結束狀態、檔案變更、副作用與決策點。 - 將重複且高風險的任務提升為經審核的工作流程。探索階段可以即興;重複工作則需要有測試與限制的可重用成品。
給評估團隊: - 評分模型加執行環境,而不是孤立評分模型。WildClawBench報告指出,光是更換CLI執行環境,就可能讓同一個模型的分數最多相差18分。3 - 將確定性檢查與語意判斷分開。檔案是否存在、格式是否有效、工作區是否乾淨,以及服務副作用是否正確,不應該需要LLM裁判。3
給營運者: - 如果供應商無法展示追蹤,就不要購買所謂的「代理可靠性」。聊天紀錄、diff或成功句子都不夠。 - 將本地判斷規則貼近產品。託管式追蹤可以顯示發生了什麼;它不能決定什麼值得發布。
為什麼最後答案太薄弱?
最後答案壓縮了錯誤的資訊。
代理可以在沒有執行測試的情況下回報測試通過。它可以在沒有讀取下游呼叫端的情況下描述遷移。它也可能透過一條工具路徑產出正確的最終成品,卻碰觸了使用者從未打算暴露的資料。答案看起來可能很乾淨,但執行環境中的路徑仍然不安全、浪費,或無法重現。
這正是先獎勵工具,再獎勵答案的核心論點:缺少背後的工具證據時,答案無法被評分。近期研究把同一個想法往完成報告之下推進。追蹤本身成為其他代理、評分器與營運者需要檢查的物件。
WildClawBench指出了這個問題在基準測試端的版本。作者認為,許多代理基準測試仍然倚賴合成沙箱、短任務、模擬API,以及最後答案檢查。他們的基準測試改為在Docker容器中執行實際CLI代理,並在代理結束後評分產生成品、環境狀態與語意條件。3這項差異很重要,因為長程工作失敗往往來自副作用與執行環境選擇,而不只是文字錯誤。
SHEPHERD帶來了什麼?
SHEPHERD把一次代理執行視為另一個代理可以操作的一級物件。1
這篇論文將元代理定義為高階代理,用來監督、最佳化或訓練其他代理。這些元代理需要的不只是聊天紀錄。它們需要在執行發生時讀取執行狀態,在高風險回合前分支,從較早狀態重播,並在不污染父執行的前提下比較不同分支。
SHEPHERD提供了這個基底。執行環境會把每次代理與環境的互動記錄為類Git執行追蹤中的型別化事件。每個動作都成為提交圖的一部分。元代理可以訂閱型別化事件串流、取出較早的提交、分支一個作用範圍、重播後綴,並合併它想要的分支。1
這種追蹤承載了一般聊天紀錄沒有的語意承諾:
| 屬性 | 為什麼重要 |
|---|---|
| 型別化事件 | 監督器可以針對操作推理,而不是剖析散文。 |
| 精確倒帶 | 失敗路徑可以回到已知的先前狀態。 |
| 隔離分支 | 替代分支不會把變更滲漏到父執行。 |
| 重播 | 評分器可以只重新執行受影響的後綴,而不是從頭開始。 |
| 快取重用 | 分支成本低到足以在真實代理工作中使用。 |
論文報告的數字讓這個基底更具體。在作者的基準測試中,SHEPHERD分支代理程序與檔案系統的速度快於Docker,並在重播時回報超過95%的提示快取重用率。在他們的範例中,即時監督器把CooperBench聯合通過率從28.8%提高到54.7%;一個Tree-RL設定則在報告配置中把TerminalBench-2表現從34.2%提高到39.4%。1
不要把這些數字過度解讀為普遍的生產保證。重點在於形狀:當執行環境提供另一個程序對執行的結構化存取,而不只是最後結果時,監督、最佳化與訓練都會改善。
AI工作流程商店帶來了什麼?
AI工作流程商店論文從重用的角度處理同一個可靠性問題。2
作者認為,常見的代理迴圈會要求模型在數秒或數分鐘內合成並執行計畫。這種速度繞過了讓傳統軟體變得可忍受的流程:需求工作、設計、測試、對抗式評估、分階段部署、監控與回饋。論文指出,許多臨場代理執行更接近即興原型,而不是生產級系統。2
他們提出的答案不是「讓模型想久一點」。答案是一個共享的、經強化且可重用的工作流程商店。當存在經審核的工作流程時,代理應該將使用者請求對應到該流程,依照使用者細節參數化,並執行受限制的工作流程,而不是每次都發明新的工具鏈。2
這個想法讓技能討論更精準。只寫著「這是做X的方法」的技能檔案,仍然把太多即興留在執行環境裡。工作流程商店要求更強的成品:
| 薄弱成品 | 更強成品 |
|---|---|
| 提示模式 | 參數化工作流程 |
| 單一使用者的替代做法 | 可重用能力 |
| 盡力而為的工具計畫 | 帶有限制的已測試序列 |
| 安全指示 | 確定性邊界 |
| 每次提示成本 | 攤銷後的工程成本 |
這篇論文的關鍵經濟主張很務實:嚴謹工程可能比臨場執行花更多時間與運算,因此成本必須在使用者與重複請求之間攤銷。2這個論點符合嚴肅代理工作的實際感受。第一次處理高風險工作流程時,您會探索。第二次、第三次,就不該再從頭探索整件事。
WildClawBench帶來了什麼?
WildClawBench提供了這份契約的評估版本。3
該基準測試包含60個由人撰寫的任務,橫跨6個類別,也包含雙語與多模態工作。每項任務都在可重現的Docker容器中執行,容器內託管實際CLI執行環境,例如OpenClaw、Claude Code、Codex或Hermes Agent。任務使用真實工具,而不是模擬服務的API;作者報告每次執行平均約8分鐘,且超過20次工具呼叫。3
評分設計比排行榜更重要。WildClawBench結合確定性成品檢查、環境狀態副作用稽核,以及只在語意驗證需要時才使用的LLM/VLM裁判。基準測試會保留僅供評分使用的資產,直到代理結束後才釋出,以避免代理在執行期間看到答案鍵。3
頭條結果是:最佳報告配置整體達到62.2%;在OpenClaw執行中,其他所有模型都低於60%;而切換執行環境可能讓某一模型的分數最多移動18分。3論文結論也因此成立:執行環境是被評估系統的一部分。模型本身不是產品。
這個結果應該讓團隊更謹慎看待代理基準測試。短程、合成、只看最後答案的基準測試高分,並不能回答多數營運者真正關心的問題:代理能否在實際執行環境中,使用實際工具,完成長任務,同時讓環境維持在預期狀態?
契約是什麼?
把這三篇論文放在一起,契約就很清楚了。
| 層級 | 成品 | 它回答的問題 |
|---|---|---|
| 執行 | 型別化追蹤 | 代理依序做了什麼,帶來哪些副作用? |
| 重用 | 工作流程成品 | 重複工作走的是經審核路徑,還是全新的即興? |
| 評估 | 原生執行環境基準測試 | 模型加執行環境是否能在真實工具限制下完成實際工作? |
| 判斷 | 產品標準 | 經驗證的輸出是否值得發布? |
每一層都防止一種不同的謊言。
追蹤防止代理把缺失的工具呼叫洗成看似可信的答案。工作流程防止重複任務永遠假裝自己需要全新即興。原生執行環境基準測試防止模型分數假裝執行環境不重要。產品標準則防止經驗證的成品只因通過檢查,就假裝自己值得交付。
最後一層仍然重要。追蹤可以證明發生了什麼。工作流程可以限制會發生什麼。基準測試可以衡量任務完成度。但這些層級都無法決定結果是否尊重使用者、產品與工作背後的標準。這個決定仍然屬於團隊。
營運者現在該改變什麼?
先從追蹤完整性開始。
如果執行環境無法產生工具呼叫、引數、結束碼、檔案變更、衍生代理與輸出成品的結構化紀錄,就應該先修正這件事,再增加更多自主性。薄弱的追蹤會讓每個下游主張都變得昂貴而難以驗證。
接著,分離追蹤評分與答案評分。聲稱測試通過的完成報告,應先證明測試命令確實執行且成功結束。提到變更檔案的報告,應證明該檔案曾被讀取或寫入。摘要外部動作的報告,應證明該動作的副作用符合預期狀態。只有在追蹤支撐主張之後,才判斷答案品質。
再來,找出重複工作流程。每個週期性代理工作都應帶著一個提升問題:下一次執行是否值得擁有可重用的工作流程成品?來源掃描、指南更新、翻譯發布、相依性更新、事故分診與內容發布,都會在執行環境停止重新發明序列後變得更好。
最後,在您實際發布的執行環境中評估。模擬工具與合成任務在開發期間仍然有用,但不應承擔發布決策。發布決策需要真實代理將面對的相同工具邊界、檔案系統狀態、時間預算與副作用檢查。
簡短總結
代理追蹤正在成為可靠性契約。SHEPHERD展示了當執行環境暴露型別化且可重播的追蹤時,元代理如何監督並分支執行。AI工作流程商店主張,重複工作應從臨場即興移入可重用的工程化工作流程。WildClawBench則顯示,原生執行環境、工具、副作用與軌跡稽核會實質改變量測到的表現。最後答案仍然重要,但它位在契約的末端,而不是中心。
FAQ
執行追蹤和可觀測性是一樣的嗎?
不是。可觀測性告訴營運者發生了什麼。具契約品質的執行追蹤,還必須有足夠結構,讓另一個程序能夠檢查、分支、重播與評分。日誌有助於人類除錯;型別化追蹤讓監督器、評估器與工作流程建構者能直接操作執行。
SHEPHERD會自動讓代理安全嗎?
不會。SHEPHERD提供觀察、分支、重播與元代理介入的基底。糟糕的監督器仍然可能做出糟糕決策。真正的增益在於,監督器可以作用於結構化執行物件,而不是剖析聊天紀錄。
AI工作流程商店代表代理永遠不該即興嗎?
不是。當沒有經審核的工作流程,或任務確實新穎時,代理仍然需要探索。重點是提升。一旦任務反覆出現且具備實際風險,系統就應把成功路徑轉成帶有限制、測試與維護的可重用工作流程。
WildClawBench證明了某個代理執行環境最好嗎?
沒有。WildClawBench顯示,在其任務集與實驗設定下,執行環境選擇會實質改變量測到的表現。應把這視為執行環境必須納入評估的證據,而不是產品的永久排名。
團隊應該先建什麼?
先建立追蹤。接著加入會拒絕無證據主張的關口。然後把重複工作提升為工作流程。缺少可信追蹤的華麗編排,只會讓失敗更難重建。
參考資料
-
Simon Yu, Derek Chong, Ananjan Nandi, Dilara Soylu, Jiuding Sun, Christopher D. Manning, and Weiyan Shi, “SHEPHERD: A Runtime Substrate Empowering Meta-Agents with a Formalized Execution Trace,” arXiv:2605.10913v1, 2026年5月11日。SHEPHERD型別化類Git執行追蹤、分支/重播語意、Lean機械化核心操作、分支與提示快取重用量測、CooperBench結果,以及TerminalBench-2結果的主要來源。 ↩↩↩↩↩
-
Roxana Geambasu, Mariana Raykova, Pierre Tholoniat, Trishita Tiwari, Lillian Tsai, and Wen Zhang, “Engineering Robustness into Personal Agents with the AI Workflow Store,” arXiv:2605.10907v1, 2026年5月11日。臨場代理迴圈批判、AI工作流程商店提案、經強化可重用工作流程框架、軟體工程生命週期需求,以及攤銷重用論點的主要來源。 ↩↩↩↩↩↩
-
Shuangrui Ding et al., “WildClawBench: A Benchmark for Real-World, Long-Horizon Agent Evaluation,” arXiv:2605.10912v1, 2026年5月11日。60項任務原生執行環境基準測試、雙語與多模態任務組合、真實CLI執行環境、約8分鐘與20多次工具呼叫平均值、混合式評分設計、62.2%最高報告分數,以及框架選擇造成分數變動的主要來源。 ↩↩↩↩↩↩↩↩↩