← 所有文章

代理的執行追蹤就是執行環境契約

三篇新的代理論文從不同角度提出同一個主張:最不值得單獨信任的單位,是最後答案。SHEPHERD把代理執行轉為型別化、可分支的追蹤。AI工作流程商店認為,重複出現的代理工作應該以工程化、可重用的工作流程執行,而不是每次都臨場拼湊計畫。WildClawBench則在原生命令列執行環境中評分代理,使用真實工具、副作用稽核與軌跡檢查,而不只看最後答案。123

代理可靠性如今存在於執行追蹤、工作流程成品,以及執行環境評估器之中。聊天紀錄可以說明代理聲稱自己做了什麼;追蹤可以顯示它實際碰了什麼;工作流程可以限制它下次能做什麼;原生執行環境基準測試則能衡量模型、工具、狀態與控制迴圈是否協同運作。

我先前已經主張過,託管式代理正在吸收執行環境基礎設施。我也論證過,清理層才是真正的代理市場。這篇文章的範圍更窄:支撐這兩個論點的底層契約,是代理的執行紀錄。若無法檢查、分支、重播、重用並評分追蹤,就還沒有一套能在規模化情境中信任的代理系統。

相鄰的幾篇文章分別討論控制介面、證據關口與技能迴圈:聊天不是AI代理的正確介面證據關口,以及靜態技能就是死亡技能。追蹤契約位在這三者之下。

TL;DR

代理系統正持續遠離只評估最後答案的做法。SHEPHERD把每一次代理與環境的互動記錄成類Git追蹤中的型別化事件,讓較早的狀態可以被分支與重播。1AI工作流程商店提出可重用、經強化的工作流程,讓適當設計、測試、對抗式評估與分階段推出的成本分攤到許多使用者身上,而不是每次提示都重新支付。2WildClawBench說明了為什麼執行環境很重要:其60個長程任務在真實CLI代理執行環境中、搭配真實工具執行,平均約8分鐘、超過20次工具呼叫,並採用混合式評分來稽核成品與環境副作用。3

實務上的轉變是:不要只問答案是否正確。還要問追蹤是否可檢查、工作流程是否可重用,以及評估是否在代理實際工作的執行環境中進行。

重點摘要

給代理建構者: - 將執行追蹤視為產品契約。以其他程序能檢查的結構,記錄工具呼叫、引數、結束狀態、檔案變更、副作用與決策點。 - 將重複且高風險的任務提升為經審核的工作流程。探索階段可以即興;重複工作則需要有測試與限制的可重用成品。

給評估團隊: - 評分模型加執行環境,而不是孤立評分模型。WildClawBench報告指出,光是更換CLI執行環境,就可能讓同一個模型的分數最多相差18分。3 - 將確定性檢查與語意判斷分開。檔案是否存在、格式是否有效、工作區是否乾淨,以及服務副作用是否正確,不應該需要LLM裁判。3

給營運者: - 如果供應商無法展示追蹤,就不要購買所謂的「代理可靠性」。聊天紀錄、diff或成功句子都不夠。 - 將本地判斷規則貼近產品。託管式追蹤可以顯示發生了什麼;它不能決定什麼值得發布。

為什麼最後答案太薄弱?

最後答案壓縮了錯誤的資訊。

代理可以在沒有執行測試的情況下回報測試通過。它可以在沒有讀取下游呼叫端的情況下描述遷移。它也可能透過一條工具路徑產出正確的最終成品,卻碰觸了使用者從未打算暴露的資料。答案看起來可能很乾淨,但執行環境中的路徑仍然不安全、浪費,或無法重現。

這正是先獎勵工具,再獎勵答案的核心論點:缺少背後的工具證據時,答案無法被評分。近期研究把同一個想法往完成報告之下推進。追蹤本身成為其他代理、評分器與營運者需要檢查的物件。

WildClawBench指出了這個問題在基準測試端的版本。作者認為,許多代理基準測試仍然倚賴合成沙箱、短任務、模擬API,以及最後答案檢查。他們的基準測試改為在Docker容器中執行實際CLI代理,並在代理結束後評分產生成品、環境狀態與語意條件。3這項差異很重要,因為長程工作失敗往往來自副作用與執行環境選擇,而不只是文字錯誤。

SHEPHERD帶來了什麼?

SHEPHERD把一次代理執行視為另一個代理可以操作的一級物件。1

這篇論文將元代理定義為高階代理,用來監督、最佳化或訓練其他代理。這些元代理需要的不只是聊天紀錄。它們需要在執行發生時讀取執行狀態,在高風險回合前分支,從較早狀態重播,並在不污染父執行的前提下比較不同分支。

SHEPHERD提供了這個基底。執行環境會把每次代理與環境的互動記錄為類Git執行追蹤中的型別化事件。每個動作都成為提交圖的一部分。元代理可以訂閱型別化事件串流、取出較早的提交、分支一個作用範圍、重播後綴,並合併它想要的分支。1

這種追蹤承載了一般聊天紀錄沒有的語意承諾:

屬性 為什麼重要
型別化事件 監督器可以針對操作推理,而不是剖析散文。
精確倒帶 失敗路徑可以回到已知的先前狀態。
隔離分支 替代分支不會把變更滲漏到父執行。
重播 評分器可以只重新執行受影響的後綴,而不是從頭開始。
快取重用 分支成本低到足以在真實代理工作中使用。

論文報告的數字讓這個基底更具體。在作者的基準測試中,SHEPHERD分支代理程序與檔案系統的速度快於Docker,並在重播時回報超過95%的提示快取重用率。在他們的範例中,即時監督器把CooperBench聯合通過率從28.8%提高到54.7%;一個Tree-RL設定則在報告配置中把TerminalBench-2表現從34.2%提高到39.4%。1

不要把這些數字過度解讀為普遍的生產保證。重點在於形狀:當執行環境提供另一個程序對執行的結構化存取,而不只是最後結果時,監督、最佳化與訓練都會改善。

AI工作流程商店帶來了什麼?

AI工作流程商店論文從重用的角度處理同一個可靠性問題。2

作者認為,常見的代理迴圈會要求模型在數秒或數分鐘內合成並執行計畫。這種速度繞過了讓傳統軟體變得可忍受的流程:需求工作、設計、測試、對抗式評估、分階段部署、監控與回饋。論文指出,許多臨場代理執行更接近即興原型,而不是生產級系統。2

他們提出的答案不是「讓模型想久一點」。答案是一個共享的、經強化且可重用的工作流程商店。當存在經審核的工作流程時,代理應該將使用者請求對應到該流程,依照使用者細節參數化,並執行受限制的工作流程,而不是每次都發明新的工具鏈。2

這個想法讓技能討論更精準。只寫著「這是做X的方法」的技能檔案,仍然把太多即興留在執行環境裡。工作流程商店要求更強的成品:

薄弱成品 更強成品
提示模式 參數化工作流程
單一使用者的替代做法 可重用能力
盡力而為的工具計畫 帶有限制的已測試序列
安全指示 確定性邊界
每次提示成本 攤銷後的工程成本

這篇論文的關鍵經濟主張很務實:嚴謹工程可能比臨場執行花更多時間與運算,因此成本必須在使用者與重複請求之間攤銷。2這個論點符合嚴肅代理工作的實際感受。第一次處理高風險工作流程時,您會探索。第二次、第三次,就不該再從頭探索整件事。

WildClawBench帶來了什麼?

WildClawBench提供了這份契約的評估版本。3

該基準測試包含60個由人撰寫的任務,橫跨6個類別,也包含雙語與多模態工作。每項任務都在可重現的Docker容器中執行,容器內託管實際CLI執行環境,例如OpenClaw、Claude Code、Codex或Hermes Agent。任務使用真實工具,而不是模擬服務的API;作者報告每次執行平均約8分鐘,且超過20次工具呼叫。3

評分設計比排行榜更重要。WildClawBench結合確定性成品檢查、環境狀態副作用稽核,以及只在語意驗證需要時才使用的LLM/VLM裁判。基準測試會保留僅供評分使用的資產,直到代理結束後才釋出,以避免代理在執行期間看到答案鍵。3

頭條結果是:最佳報告配置整體達到62.2%;在OpenClaw執行中,其他所有模型都低於60%;而切換執行環境可能讓某一模型的分數最多移動18分。3論文結論也因此成立:執行環境是被評估系統的一部分。模型本身不是產品。

這個結果應該讓團隊更謹慎看待代理基準測試。短程、合成、只看最後答案的基準測試高分,並不能回答多數營運者真正關心的問題:代理能否在實際執行環境中,使用實際工具,完成長任務,同時讓環境維持在預期狀態?

契約是什麼?

把這三篇論文放在一起,契約就很清楚了。

層級 成品 它回答的問題
執行 型別化追蹤 代理依序做了什麼,帶來哪些副作用?
重用 工作流程成品 重複工作走的是經審核路徑,還是全新的即興?
評估 原生執行環境基準測試 模型加執行環境是否能在真實工具限制下完成實際工作?
判斷 產品標準 經驗證的輸出是否值得發布?

每一層都防止一種不同的謊言。

追蹤防止代理把缺失的工具呼叫洗成看似可信的答案。工作流程防止重複任務永遠假裝自己需要全新即興。原生執行環境基準測試防止模型分數假裝執行環境不重要。產品標準則防止經驗證的成品只因通過檢查,就假裝自己值得交付。

最後一層仍然重要。追蹤可以證明發生了什麼。工作流程可以限制會發生什麼。基準測試可以衡量任務完成度。但這些層級都無法決定結果是否尊重使用者、產品與工作背後的標準。這個決定仍然屬於團隊。

營運者現在該改變什麼?

先從追蹤完整性開始。

如果執行環境無法產生工具呼叫、引數、結束碼、檔案變更、衍生代理與輸出成品的結構化紀錄,就應該先修正這件事,再增加更多自主性。薄弱的追蹤會讓每個下游主張都變得昂貴而難以驗證。

接著,分離追蹤評分與答案評分。聲稱測試通過的完成報告,應先證明測試命令確實執行且成功結束。提到變更檔案的報告,應證明該檔案曾被讀取或寫入。摘要外部動作的報告,應證明該動作的副作用符合預期狀態。只有在追蹤支撐主張之後,才判斷答案品質。

再來,找出重複工作流程。每個週期性代理工作都應帶著一個提升問題:下一次執行是否值得擁有可重用的工作流程成品?來源掃描、指南更新、翻譯發布、相依性更新、事故分診與內容發布,都會在執行環境停止重新發明序列後變得更好。

最後,在您實際發布的執行環境中評估。模擬工具與合成任務在開發期間仍然有用,但不應承擔發布決策。發布決策需要真實代理將面對的相同工具邊界、檔案系統狀態、時間預算與副作用檢查。

簡短總結

代理追蹤正在成為可靠性契約。SHEPHERD展示了當執行環境暴露型別化且可重播的追蹤時,元代理如何監督並分支執行。AI工作流程商店主張,重複工作應從臨場即興移入可重用的工程化工作流程。WildClawBench則顯示,原生執行環境、工具、副作用與軌跡稽核會實質改變量測到的表現。最後答案仍然重要,但它位在契約的末端,而不是中心。

FAQ

執行追蹤和可觀測性是一樣的嗎?

不是。可觀測性告訴營運者發生了什麼。具契約品質的執行追蹤,還必須有足夠結構,讓另一個程序能夠檢查、分支、重播與評分。日誌有助於人類除錯;型別化追蹤讓監督器、評估器與工作流程建構者能直接操作執行。

SHEPHERD會自動讓代理安全嗎?

不會。SHEPHERD提供觀察、分支、重播與元代理介入的基底。糟糕的監督器仍然可能做出糟糕決策。真正的增益在於,監督器可以作用於結構化執行物件,而不是剖析聊天紀錄。

AI工作流程商店代表代理永遠不該即興嗎?

不是。當沒有經審核的工作流程,或任務確實新穎時,代理仍然需要探索。重點是提升。一旦任務反覆出現且具備實際風險,系統就應把成功路徑轉成帶有限制、測試與維護的可重用工作流程。

WildClawBench證明了某個代理執行環境最好嗎?

沒有。WildClawBench顯示,在其任務集與實驗設定下,執行環境選擇會實質改變量測到的表現。應把這視為執行環境必須納入評估的證據,而不是產品的永久排名。

團隊應該先建什麼?

先建立追蹤。接著加入會拒絕無證據主張的關口。然後把重複工作提升為工作流程。缺少可信追蹤的華麗編排,只會讓失敗更難重建。

參考資料


  1. Simon Yu, Derek Chong, Ananjan Nandi, Dilara Soylu, Jiuding Sun, Christopher D. Manning, and Weiyan Shi, “SHEPHERD: A Runtime Substrate Empowering Meta-Agents with a Formalized Execution Trace,” arXiv:2605.10913v1, 2026年5月11日。SHEPHERD型別化類Git執行追蹤、分支/重播語意、Lean機械化核心操作、分支與提示快取重用量測、CooperBench結果,以及TerminalBench-2結果的主要來源。 

  2. Roxana Geambasu, Mariana Raykova, Pierre Tholoniat, Trishita Tiwari, Lillian Tsai, and Wen Zhang, “Engineering Robustness into Personal Agents with the AI Workflow Store,” arXiv:2605.10907v1, 2026年5月11日。臨場代理迴圈批判、AI工作流程商店提案、經強化可重用工作流程框架、軟體工程生命週期需求,以及攤銷重用論點的主要來源。 

  3. Shuangrui Ding et al., “WildClawBench: A Benchmark for Real-World, Long-Horizon Agent Evaluation,” arXiv:2605.10912v1, 2026年5月11日。60項任務原生執行環境基準測試、雙語與多模態任務組合、真實CLI執行環境、約8分鐘與20多次工具呼叫平均值、混合式評分設計、62.2%最高報告分數,以及框架選擇造成分數變動的主要來源。 

相關文章

每次迭代都讓您的程式碼更不安全

43.7% 的 LLM 迭代鏈引入的漏洞比基準線更多。加入 SAST 掃描器反而更糟。SCAFFOLD-CEGIS 將退化率降至 2.1%。

2 分鐘閱讀

清理層才是真正的 AI 代理市場

Charlie Labs 從建構代理轉向清理代理留下的爛攤子。AI 代理市場正從生成轉向證明。清理才是耐久的那一層。

2 分鐘閱讀

Ralph 迴圈:我如何在夜間運行自主 AI 代理

我建構了一套自主代理系統,搭配停止鉤子、生成預算與檔案系統記憶體。以下是失敗經驗與真正能交付程式碼的方法。

3 分鐘閱讀