← 所有文章

AI代理技能需要行為稽核,而不是通過率

AI代理技能看似容易評估,直到通過率幾乎沒有變化。

反事實追蹤稽核指出,在某個基準設定中,技能帶來的平均任務成功率只增加了0.3個百分點;但同一項稽核仍在49項任務中找出522種技能改變代理行為的具體方式。1若只看通過率儀表板,這幾乎等於沒有差異。追蹤稽核看到的,才是真正的變化。

AI代理技能需要行為稽核,而不是通過率。技能可以改變代理選擇哪個工具、讀取哪條路徑、略過哪些證據、忽視哪些風險,以及產生哪些副作用;即使最終任務結果看起來沒有改變,也是如此。

重點摘要

AI代理技能不應只靠通過率取得信任。通過率告訴團隊,在基準評分器之下,最終任務是否成功。行為稽核要問的是:技能是否以團隊預期的方式改變了代理的行動。

近期研究讓這個落差難以忽視。反事實追蹤稽核會比較有技能與無技能時的代理追蹤,揭露一般成功指標看不見的技能誘發模式。1行為完整性驗證會比較技能宣稱會做什麼,以及技能實際做了什麼,並回報大型技能語料中普遍存在的描述與行為不一致。2SkillsBench顯示,經過整理的技能可以提升代理表現,但也顯示自行產生的技能不一定有幫助,而且某些任務在使用技能後反而變差。3

實務規則很直接:不要因為基準分數上升就安裝技能。請在追蹤顯示該行為確實合理之後,再安裝技能。

重要結論

給使用代理技能的團隊: - 即使檔案只有Markdown,也要把每個技能視為會改變行為的程式碼。 - 在跨專案共享技能之前,先稽核追蹤變化、副作用與失敗模式。

給技能作者: - 明確宣告預期行為、允許工具、禁止動作與證據義務。 - 用成對追蹤測試技能,而不只看最終任務結果。

給安全審查者: - 比較宣稱能力與觀察到的能力。 - 將隱性擴權、外部存取、破壞性動作與政策繞過視為技能缺陷。

給評估團隊: - 分別回報通過率、行為變化、副作用變化與審查負擔。 - 持平的通過率仍可能藏著危險的行為改變。

為什麼通過率會漏掉技能風險?

通過率壓縮了錯誤的對象。

技能會在任務開始前改變代理。它可能加入領域流程、工具偏好、格式規則、審查步驟、信心措辭或復原行為。基準評分器通常只看到最終產物:正確或錯誤。

這會造成盲點:

技能效果 通過率看到什麼 行為稽核看到什麼
更好的工具順序 可能是成功 哪個呼叫提前了,以及原因。
額外讀取檔案 可能是成功 哪些檔案進入了脈絡。
更積極地修改程式碼 可能是成功 差異大小、所有權與回復風險。
略過驗證 可能是成功 完成前缺少哪些證據。
隱藏的外部存取 可能是成功 網路或MCP邊界擴張。
較低的審查負擔 可能是成功 更短的追蹤、更清楚的證明、更少未解主張。

最終答案可能看起來正確,但技能讓整次執行更不值得信任。反過來也可能成立:技能可能產生失敗結果,卻教出更好的搜尋或復原模式;這種技能值得修補,而不是直接刪除。

通過率應該是稽核的一部分。它不能等同於稽核本身。

反事實追蹤稽核增加了什麼?

反事實追蹤稽核比較兩次執行:一次使用技能,一次不使用技能。1

這篇論文之所以有力,是因為在其回報的WebArena設定中,通過率增幅非常小。使用技能後,平均任務成功率只上升0.3個百分點。1然而作者在49項任務中辨識出522種技能誘發的行為模式,涵蓋驗證步驟、表單互動、錯誤復原、頁面導覽與誤用模式等變化。1

這個落差,就是本文的核心。

即使整體任務成功率幾乎不動,技能仍然影響了行為。

這種稽核方法會將追蹤對齊成不同階段,並辨識技能誘發的模式。稽核不只問任務是否通過。它會問技能在哪裡改變了軌跡、該改變是幫助還是傷害,以及哪條技能指令看起來要負責。1

這種方法給團隊一個更好的審查對象:

稽核問題 重要原因
哪個步驟改變了? 將行為連到追蹤中的位置。
哪條指令造成改變? 將行為連到技能文字。
改變是有幫助、有傷害,還是只是轉移成本? 避免通過率作秀。
改變是否產生副作用? 抓出藏在成功背後的風險。
改變能否跨任務泛化? 區分一次幸運執行與值得保留的技能。

團隊在把技能從本地實驗提升為共享流程之前,需要先取得這個審查對象。

行為完整性驗證增加了什麼?

行為完整性驗證問的是另一個問題:技能是否真的做到描述中宣稱的事?2

BIV論文研究大規模技能儲存庫,並回報超過80%的受分析技能出現某種描述與行為偏差。2作者將多數偏差歸類為疏忽造成,而非對抗性行為;但仍然找到了對抗性案例與多階段風險模式。2

這個發現很重要,因為描述會驅動啟用。

在代理系統中,技能描述通常決定技能是否進入脈絡。描述會說明代理何時應該載入它。如果描述低估能力、隱藏副作用,或沒有提到工具存取,代理與使用者都會在任何任務特定推理開始前,先做出錯誤的路由決策。

BIV指向技能缺少的一層清單:

宣告面向 行為稽核應驗證
啟用條件 技能是否只在宣稱的任務類型中執行?
能力 觀察到的行為是否維持在宣稱範圍內?
工具使用 技能會造成哪些工具、命令、MCP伺服器或檔案被使用?
副作用 技能是否讀取、寫入、刪除、傳送、花費、發布或部署?
外部存取 技能是否造成網路、瀏覽器或第三方服務互動?
安全宣稱 技能是否真的加入承諾的檢查?
拒絕邊界 技能是否保留被封鎖的動作?

可怕的版本,是惡意技能說謊。常見的版本,是草率技能忘了說實話。

兩種版本都需要稽核。

SkillsBench增加了什麼?

SkillsBench說明了為什麼團隊不應過度修正,直接宣告技能毫無價值。

該基準在86項任務與7,308條軌跡中評估代理技能。3論文回報,相較於無技能基準,經整理的技能讓平均通過率提升16.2個百分點;自行產生的技能平均而言沒有帶來好處。3它也回報某些任務出現負向變化,代表技能可能讓特定工作變差。3

這個結果提供了平衡觀點。

技能可能有幫助。技能品質很重要。任務適配很重要。來源很重要。評估方法也很重要。

採用上的教訓不是「避開技能」。真正的教訓是「像審查能力套件一樣審查技能」。

有用的技能應能回答:

問題 必要回答
技能改善哪件工作? 具體任務類型與讀者/使用者。
哪些行為應該改變? 工具選擇、證據檢查、格式、審查或復原模式。
哪些行為絕不能改變? 禁止工具、路徑、副作用與權限邊界。
哪些證據證明技能有幫助? 追蹤變化、通過率、審查工作量與副作用輪廓。
團隊如何移除它? 版本、負責人、回復與替代路徑。

只有當觀察到的行為符合這些答案,技能才取得升級資格。

行為稽核長什麼樣子?

行為稽核會比較預期的技能行為與觀察到的代理行為。

最低限度的稽核有4個階段。

稽核階段 證據
宣告稽核 技能描述、啟用條件、能力、工具與禁止動作。
反事實追蹤稽核 在同一組任務上,比較有技能與無技能的成對執行。
副作用稽核 檔案、命令、網路呼叫、外部寫入、核准與回復狀態。
失敗稽核 失敗執行、差點失敗、已復原錯誤與重複修補模式。

輸出應該更像審查資料包,而不是排行榜。

每項任務都要捕捉:

  1. 任務名稱與風險通道。
  2. 技能版本與來源。
  3. 基準追蹤。
  4. 技能追蹤。
  5. 改變的步驟。
  6. 改變的工具呼叫。
  7. 改變的副作用。
  8. 取得或失去的證據。
  9. 最終結果。
  10. 審查者決策:保留、修訂、限縮範圍、封鎖或淘汰。

這份資料包讓人工審查者能做出判斷,而且這個判斷不會只依附於單次基準執行。

技能契約應放在哪裡?

ContractSkill指出,對需要更嚴格行為的技能,可以採用更清楚的形式。4

該論文主張,用自然語言撰寫的Web代理技能可能含糊、脆弱且難以除錯。它提出以契約為基礎的技能,明確定義任務、前置條件、後置條件與步驟層級流程,讓系統能定位失敗並修補受影響的部分,而不是重寫整個技能。4

這種契約框架很適合行為稽核。

自由形式技能 契約式技能
「發布時要小心。」 「發布前,驗證來源URL、路由渲染、結構化資料與回復方式。」
「檢查頁面。」 「擷取路由,確認狀態為200,確認變更標記,確認沒有後備文字。」
「避免高風險命令。」 「封鎖刪除、強制推送、外部POST,以及在所屬路徑外寫入。」
「自然翻譯。」 「保留URL與引用;翻譯可見標題;檢查英文殘留。」

契約式技能能降低模糊性。它也讓稽核成本更低,因為預期行為位於可供審查者與追蹤比較的結構中。

契約不應讓每個技能都變得龐大。對低風險的寫作格式或清單任務而言,普通技能仍然可行。當技能可能改變外部系統、公開內容、資料、金錢、安全態勢或共享專案行為時,契約才特別重要。

如何修補不良技能?

不要因為一次執行失敗,就刪除有用的技能。先找出行為在哪裡壞掉。

AgentRx著重於修補代理失敗:它會在執行軌跡中定位關鍵失敗步驟、產生限制條件,並用可稽核日誌驗證修補結果。5該論文主要處理廣義代理行為,而非特定技能檔案;但修補形式很適合映射到技能:找出失敗步驟、推導限制、測試修補後的行為,並保留證據。

技能修補應遵循同一順序:

失敗 修補
技能啟用範圍過廣 收窄描述與觸發範例。
技能改變了錯誤的工具選擇 加入工具選擇規則與反例。
技能略過驗證 在完成前加入停止條件。
技能造成過大的差異 加入所有權與變更路徑限制。
技能造成網路移動 加入對外連線規則與核准要求。
技能改善一項任務但傷害另一項 拆分技能,或將它限縮到有效的任務類型。

修補應以新的稽核結束,而不是以自信的提交訊息結束。

如果修補後的追蹤仍顯示錯誤行為,就淘汰該技能。

最低標準

團隊共享AI代理技能之前,至少要求一份行為稽核資料包。

欄位 必要證據
來源 儲存庫、作者、版本與安裝路徑。
目的 技能宣稱要改善的任務類型。
啟用 應載入技能的精確條件。
允許行為 技能可影響的工具、檔案、資源與動作。
禁止行為 技能不得擴張的工具、路徑、副作用與權限。
反事實追蹤 同一任務在有技能與無技能時的執行。
結果變化 通過率、失敗率、審查工作量與執行成本。
行為變化 改變的步驟、工具呼叫、副作用與證據。
風險決策 保留、修訂、限縮範圍、封鎖或淘汰。
回復 團隊如何移除技能並回到先前行為。

這份資料包會迫使團隊提出正確問題。

問題不是「技能是否曾經有幫助?」問題是「技能是否能可靠地依照團隊想要的方式改變行為?」

更值得採用的標準

技能能很快讓代理感覺更好用。這種速度會誘惑團隊累積流程檔案、命令、代理、掛鉤與提示,因為每一項看起來都很便宜。

便宜的脈絡仍然會改變行為。

值得採用的技能,必須透過改善整體工作流程來贏得位置。它應該降低審查負擔、強化證據、收窄風險,或教會代理一套沒有技能時無法可靠執行的流程。只讓代理聽起來更有信心的技能,應該移除。提高通過率卻擴張隱藏副作用的技能,應該無法通過審查。

標準應維持簡單:

  • 宣告技能應該改變什麼。
  • 證明追蹤確實朝那個方向改變。
  • 說明哪些事不得改變。
  • 證明追蹤遵守了該邊界。
  • 只有當行為值得存在時,才保留技能。

AI代理技能不是魔法筆記。它們是行為修補。請像對待程式碼一樣對待它們。

快速總結

AI代理技能需要行為稽核,因為通過率隱藏太多東西。反事實追蹤稽核顯示,即使整體成功率幾乎不動,技能仍能改變數百種追蹤模式。1行為完整性驗證顯示,技能描述經常偏離實際能力。2SkillsBench顯示,經整理的技能可以幫上忙,但自行產生的技能與任務不匹配可能失敗或造成傷害。3

操作規則很直接:評估行為,而不只評估分數。當技能的宣告、追蹤、副作用、失敗、修補與回復路徑全部一致時,它才值得信任。

常見問題

什麼是AI代理技能的行為稽核?

行為稽核會檢查技能如何改變代理的實際執行:工具呼叫、檔案存取、副作用、驗證步驟、復原行為與最終結果。它會比較觀察到的行為,以及技能宣告的目的與邊界。

為什麼通過率不足以評估技能?

通過率顯示任務是否在評分器下成功。它不會顯示技能是否擴張了工具存取、略過證據、增加副作用,或以團隊未預期的方式改變行為。

什麼是反事實追蹤稽核?

反事實追蹤稽核會比較代理在有技能與無技能時的軌跡,對齊追蹤階段,並辨識技能誘發的行為模式。它幫助團隊看見整體成功指標可能漏掉的行為變化。1

什麼是行為完整性驗證?

行為完整性驗證會比較技能描述與實際技能行為。它能偵測技能宣稱的能力、啟用條件或安全宣稱是否與觀察到的行為不符。2

團隊共享技能前應稽核什麼?

團隊應稽核技能來源、啟用條件、宣稱能力、允許與禁止動作、成對追蹤、副作用、失敗案例、修補路徑與回復計畫。


參考資料


  1. Xuanyu Zhang, Yiding Liu, Chengsong Huang, Ensheng Shi, Weizhi Ma, Yifei Zhang, Qun Liu, Shumin Deng, Jiahang Shen, and Shiqi Wang, “Counterfactual Trace Auditing of LLM Agent Skills,” arXiv:2605.11946v1, submitted May 13, 2026. 成對追蹤比較、技能誘發模式偵測、階段對齊、WebArena技能評估、整體通過率增加0.3個百分點,以及49項任務中522種行為模式的來源。 

  2. Ning Liu, Meng Fang, Youtao Zhang, Dominik T. Matt, Stanislav Pletnev, Hongzhi Wang, and Erwin Schoitsch, “Behavioral Integrity Verification for Agentic AI Skills,” arXiv:2605.11770v1, submitted May 13, 2026. 宣稱與實際技能能力驗證、儲存庫規模技能分析、描述與行為偏差發現、疏忽與對抗性偏差類別,以及多階段風險模式的來源。 

  3. Lingkai Kong, Xiangliang Zhang, and Jiamou Liu, “SkillsBench: Can LLMs Learn from Their Own and Other Agents’ Skills for Reliable Task Execution?,” arXiv:2602.12670v1, submitted February 17, 2026. 86項任務、7,308條軌跡的SkillsBench評估、經整理技能的通過率提升、自行產生技能結果,以及負向任務變化的來源。 

  4. Meiyi Ma, Fengan Xia, Canran Xu, Wenqi Li, Aranya Roy, Zhaopeng Tu, Ranveer Chandra, and Dongmei Zhang, “ContractSkill: Contract-based Skill Design for LLM-powered Web Agents,” arXiv:2603.20340v1, submitted March 25, 2026. 以契約為基礎的技能定義、前置條件、後置條件、步驟層級流程、決定性驗證、故障定位與最小局部修補的來源。 

  5. Cunxiang Wang, Ruoxi Sun, Yidong Wang, Piji Li, and Yue Zhang, “AgentRx: Scalable Automated Failure Diagnosis and Repair for LLM Agents,” arXiv:2602.02475v1, submitted February 3, 2026. LLM代理失敗中的關鍵步驟失敗定位、限制條件產生、追蹤驗證與可稽核修補日誌的來源。 

相關文章

AI程式碼審查需要異議,而不是共識

AI程式碼審查需要獨立代理保留異議、驗證發現、將不確定性轉交給人類,並在團隊合併PR前重新審查修正。

2 分鐘閱讀

靜態的技能就是死掉的技能

一旦沒人觀察軌跡資料,代理技能就會在那一刻開始衰退。一篇關於跨使用者技能演化的新論文,點出了問題本身與解方。

1 分鐘閱讀

Ralph 迴圈:我如何在夜間運行自主 AI 代理

我建構了一套自主代理系統,搭配停止鉤子、生成預算與檔案系統記憶體。以下是失敗經驗與真正能交付程式碼的方法。

3 分鐘閱讀