代理的執行追蹤就是執行環境契約

三篇新的代理論文從不同角度提出同一個主張：最不值得單獨信任的單位，是最後答案。SHEPHERD把代理執行轉為型別化、可分支的追蹤。AI工作流程商店認為，重複出現的代理工作應該以工程化、可重用的工作流程執行，而不是每次都臨場拼湊計畫。WildClawBench則在原生命令列執行環境中評分代理，使用真實工具、副作用稽核與軌跡檢查，而不只看最後答案。¹²³

代理可靠性如今存在於執行追蹤、工作流程成品，以及執行環境評估器之中。聊天紀錄可以說明代理聲稱自己做了什麼；追蹤可以顯示它實際碰了什麼；工作流程可以限制它下次能做什麼；原生執行環境基準測試則能衡量模型、工具、狀態與控制迴圈是否協同運作。

我先前已經主張過，託管式代理正在吸收執行環境基礎設施。我也論證過，清理層才是真正的代理市場。這篇文章的範圍更窄：支撐這兩個論點的底層契約，是代理的執行紀錄。若無法檢查、分支、重播、重用並評分追蹤，就還沒有一套能在規模化情境中信任的代理系統。

相鄰的幾篇文章分別討論控制介面、證據關口與技能迴圈：聊天不是AI代理的正確介面、證據關口，以及靜態技能就是死亡技能。追蹤契約位在這三者之下。

TL;DR

代理系統正持續遠離只評估最後答案的做法。SHEPHERD把每一次代理與環境的互動記錄成類Git追蹤中的型別化事件，讓較早的狀態可以被分支與重播。¹AI工作流程商店提出可重用、經強化的工作流程，讓適當設計、測試、對抗式評估與分階段推出的成本分攤到許多使用者身上，而不是每次提示都重新支付。²WildClawBench說明了為什麼執行環境很重要：其60個長程任務在真實CLI代理執行環境中、搭配真實工具執行，平均約8分鐘、超過20次工具呼叫，並採用混合式評分來稽核成品與環境副作用。³

實務上的轉變是：不要只問答案是否正確。還要問追蹤是否可檢查、工作流程是否可重用，以及評估是否在代理實際工作的執行環境中進行。

重點摘要

給代理建構者： - 將執行追蹤視為產品契約。以其他程序能檢查的結構，記錄工具呼叫、引數、結束狀態、檔案變更、副作用與決策點。 - 將重複且高風險的任務提升為經審核的工作流程。探索階段可以即興；重複工作則需要有測試與限制的可重用成品。

給評估團隊： - 評分模型加執行環境，而不是孤立評分模型。WildClawBench報告指出，光是更換CLI執行環境，就可能讓同一個模型的分數最多相差18分。³ - 將確定性檢查與語意判斷分開。檔案是否存在、格式是否有效、工作區是否乾淨，以及服務副作用是否正確，不應該需要LLM裁判。³

給營運者： - 如果供應商無法展示追蹤，就不要購買所謂的「代理可靠性」。聊天紀錄、diff或成功句子都不夠。 - 將本地判斷規則貼近產品。託管式追蹤可以顯示發生了什麼；它不能決定什麼值得發布。

為什麼最後答案太薄弱？

最後答案壓縮了錯誤的資訊。

代理可以在沒有執行測試的情況下回報測試通過。它可以在沒有讀取下游呼叫端的情況下描述遷移。它也可能透過一條工具路徑產出正確的最終成品，卻碰觸了使用者從未打算暴露的資料。答案看起來可能很乾淨，但執行環境中的路徑仍然不安全、浪費，或無法重現。

這正是先獎勵工具，再獎勵答案的核心論點：缺少背後的工具證據時，答案無法被評分。近期研究把同一個想法往完成報告之下推進。追蹤本身成為其他代理、評分器與營運者需要檢查的物件。

WildClawBench指出了這個問題在基準測試端的版本。作者認為，許多代理基準測試仍然倚賴合成沙箱、短任務、模擬API，以及最後答案檢查。他們的基準測試改為在Docker容器中執行實際CLI代理，並在代理結束後評分產生成品、環境狀態與語意條件。³這項差異很重要，因為長程工作失敗往往來自副作用與執行環境選擇，而不只是文字錯誤。

SHEPHERD帶來了什麼？

SHEPHERD把一次代理執行視為另一個代理可以操作的一級物件。¹

這篇論文將元代理定義為高階代理，用來監督、最佳化或訓練其他代理。這些元代理需要的不只是聊天紀錄。它們需要在執行發生時讀取執行狀態，在高風險回合前分支，從較早狀態重播，並在不污染父執行的前提下比較不同分支。

SHEPHERD提供了這個基底。執行環境會把每次代理與環境的互動記錄為類Git執行追蹤中的型別化事件。每個動作都成為提交圖的一部分。元代理可以訂閱型別化事件串流、取出較早的提交、分支一個作用範圍、重播後綴，並合併它想要的分支。¹

這種追蹤承載了一般聊天紀錄沒有的語意承諾：

屬性	為什麼重要
型別化事件	監督器可以針對操作推理，而不是剖析散文。
精確倒帶	失敗路徑可以回到已知的先前狀態。
隔離分支	替代分支不會把變更滲漏到父執行。
重播	評分器可以只重新執行受影響的後綴，而不是從頭開始。
快取重用	分支成本低到足以在真實代理工作中使用。

論文報告的數字讓這個基底更具體。在作者的基準測試中，SHEPHERD分支代理程序與檔案系統的速度快於Docker，並在重播時回報超過95%的提示快取重用率。在他們的範例中，即時監督器把CooperBench聯合通過率從28.8%提高到54.7%；一個Tree-RL設定則在報告配置中把TerminalBench-2表現從34.2%提高到39.4%。¹

不要把這些數字過度解讀為普遍的生產保證。重點在於形狀：當執行環境提供另一個程序對執行的結構化存取，而不只是最後結果時，監督、最佳化與訓練都會改善。

AI工作流程商店帶來了什麼？

AI工作流程商店論文從重用的角度處理同一個可靠性問題。²

作者認為，常見的代理迴圈會要求模型在數秒或數分鐘內合成並執行計畫。這種速度繞過了讓傳統軟體變得可忍受的流程：需求工作、設計、測試、對抗式評估、分階段部署、監控與回饋。論文指出，許多臨場代理執行更接近即興原型，而不是生產級系統。²

他們提出的答案不是「讓模型想久一點」。答案是一個共享的、經強化且可重用的工作流程商店。當存在經審核的工作流程時，代理應該將使用者請求對應到該流程，依照使用者細節參數化，並執行受限制的工作流程，而不是每次都發明新的工具鏈。²

這個想法讓技能討論更精準。只寫著「這是做X的方法」的技能檔案，仍然把太多即興留在執行環境裡。工作流程商店要求更強的成品：

薄弱成品	更強成品
提示模式	參數化工作流程
單一使用者的替代做法	可重用能力
盡力而為的工具計畫	帶有限制的已測試序列
安全指示	確定性邊界
每次提示成本	攤銷後的工程成本

這篇論文的關鍵經濟主張很務實：嚴謹工程可能比臨場執行花更多時間與運算，因此成本必須在使用者與重複請求之間攤銷。²這個論點符合嚴肅代理工作的實際感受。第一次處理高風險工作流程時，您會探索。第二次、第三次，就不該再從頭探索整件事。

WildClawBench帶來了什麼？

WildClawBench提供了這份契約的評估版本。³

該基準測試包含60個由人撰寫的任務，橫跨6個類別，也包含雙語與多模態工作。每項任務都在可重現的Docker容器中執行，容器內託管實際CLI執行環境，例如OpenClaw、Claude Code、Codex或Hermes Agent。任務使用真實工具，而不是模擬服務的API；作者報告每次執行平均約8分鐘，且超過20次工具呼叫。³

評分設計比排行榜更重要。WildClawBench結合確定性成品檢查、環境狀態副作用稽核，以及只在語意驗證需要時才使用的LLM/VLM裁判。基準測試會保留僅供評分使用的資產，直到代理結束後才釋出，以避免代理在執行期間看到答案鍵。³

頭條結果是：最佳報告配置整體達到62.2%；在OpenClaw執行中，其他所有模型都低於60%；而切換執行環境可能讓某一模型的分數最多移動18分。³論文結論也因此成立：執行環境是被評估系統的一部分。模型本身不是產品。

這個結果應該讓團隊更謹慎看待代理基準測試。短程、合成、只看最後答案的基準測試高分，並不能回答多數營運者真正關心的問題：代理能否在實際執行環境中，使用實際工具，完成長任務，同時讓環境維持在預期狀態？

契約是什麼？

把這三篇論文放在一起，契約就很清楚了。

層級	成品	它回答的問題
執行	型別化追蹤	代理依序做了什麼，帶來哪些副作用？
重用	工作流程成品	重複工作走的是經審核路徑，還是全新的即興？
評估	原生執行環境基準測試	模型加執行環境是否能在真實工具限制下完成實際工作？
判斷	產品標準	經驗證的輸出是否值得發布？

每一層都防止一種不同的謊言。

追蹤防止代理把缺失的工具呼叫洗成看似可信的答案。工作流程防止重複任務永遠假裝自己需要全新即興。原生執行環境基準測試防止模型分數假裝執行環境不重要。產品標準則防止經驗證的成品只因通過檢查，就假裝自己值得交付。

最後一層仍然重要。追蹤可以證明發生了什麼。工作流程可以限制會發生什麼。基準測試可以衡量任務完成度。但這些層級都無法決定結果是否尊重使用者、產品與工作背後的標準。這個決定仍然屬於團隊。

營運者現在該改變什麼？

先從追蹤完整性開始。

如果執行環境無法產生工具呼叫、引數、結束碼、檔案變更、衍生代理與輸出成品的結構化紀錄，就應該先修正這件事，再增加更多自主性。薄弱的追蹤會讓每個下游主張都變得昂貴而難以驗證。

接著，分離追蹤評分與答案評分。聲稱測試通過的完成報告，應先證明測試命令確實執行且成功結束。提到變更檔案的報告，應證明該檔案曾被讀取或寫入。摘要外部動作的報告，應證明該動作的副作用符合預期狀態。只有在追蹤支撐主張之後，才判斷答案品質。

再來，找出重複工作流程。每個週期性代理工作都應帶著一個提升問題：下一次執行是否值得擁有可重用的工作流程成品？來源掃描、指南更新、翻譯發布、相依性更新、事故分診與內容發布，都會在執行環境停止重新發明序列後變得更好。

最後，在您實際發布的執行環境中評估。模擬工具與合成任務在開發期間仍然有用，但不應承擔發布決策。發布決策需要真實代理將面對的相同工具邊界、檔案系統狀態、時間預算與副作用檢查。

簡短總結

代理追蹤正在成為可靠性契約。SHEPHERD展示了當執行環境暴露型別化且可重播的追蹤時，元代理如何監督並分支執行。AI工作流程商店主張，重複工作應從臨場即興移入可重用的工程化工作流程。WildClawBench則顯示，原生執行環境、工具、副作用與軌跡稽核會實質改變量測到的表現。最後答案仍然重要，但它位在契約的末端，而不是中心。

FAQ

執行追蹤和可觀測性是一樣的嗎？

不是。可觀測性告訴營運者發生了什麼。具契約品質的執行追蹤，還必須有足夠結構，讓另一個程序能夠檢查、分支、重播與評分。日誌有助於人類除錯；型別化追蹤讓監督器、評估器與工作流程建構者能直接操作執行。

SHEPHERD會自動讓代理安全嗎？

不會。SHEPHERD提供觀察、分支、重播與元代理介入的基底。糟糕的監督器仍然可能做出糟糕決策。真正的增益在於，監督器可以作用於結構化執行物件，而不是剖析聊天紀錄。

AI工作流程商店代表代理永遠不該即興嗎？

不是。當沒有經審核的工作流程，或任務確實新穎時，代理仍然需要探索。重點是提升。一旦任務反覆出現且具備實際風險，系統就應把成功路徑轉成帶有限制、測試與維護的可重用工作流程。

WildClawBench證明了某個代理執行環境最好嗎？

沒有。WildClawBench顯示，在其任務集與實驗設定下，執行環境選擇會實質改變量測到的表現。應把這視為執行環境必須納入評估的證據，而不是產品的永久排名。

團隊應該先建什麼？

先建立追蹤。接著加入會拒絕無證據主張的關口。然後把重複工作提升為工作流程。缺少可信追蹤的華麗編排，只會讓失敗更難重建。

參考資料

Simon Yu, Derek Chong, Ananjan Nandi, Dilara Soylu, Jiuding Sun, Christopher D. Manning, and Weiyan Shi, “SHEPHERD: A Runtime Substrate Empowering Meta-Agents with a Formalized Execution Trace,” arXiv:2605.10913v1, 2026年5月11日。SHEPHERD型別化類Git執行追蹤、分支/重播語意、Lean機械化核心操作、分支與提示快取重用量測、CooperBench結果，以及TerminalBench-2結果的主要來源。 ↩↩↩↩↩
Roxana Geambasu, Mariana Raykova, Pierre Tholoniat, Trishita Tiwari, Lillian Tsai, and Wen Zhang, “Engineering Robustness into Personal Agents with the AI Workflow Store,” arXiv:2605.10907v1, 2026年5月11日。臨場代理迴圈批判、AI工作流程商店提案、經強化可重用工作流程框架、軟體工程生命週期需求，以及攤銷重用論點的主要來源。 ↩↩↩↩↩↩
Shuangrui Ding et al., “WildClawBench: A Benchmark for Real-World, Long-Horizon Agent Evaluation,” arXiv:2605.10912v1, 2026年5月11日。60項任務原生執行環境基準測試、雙語與多模態任務組合、真實CLI執行環境、約8分鐘與20多次工具呼叫平均值、混合式評分設計、62.2%最高報告分數，以及框架選擇造成分數變動的主要來源。 ↩↩↩↩↩↩↩↩↩