AI代理技能需要行為稽核,而不是通過率
AI代理技能看似容易評估,直到通過率幾乎沒有變化。
反事實追蹤稽核指出,在某個基準設定中,技能帶來的平均任務成功率只增加了0.3個百分點;但同一項稽核仍在49項任務中找出522種技能改變代理行為的具體方式。1若只看通過率儀表板,這幾乎等於沒有差異。追蹤稽核看到的,才是真正的變化。
AI代理技能需要行為稽核,而不是通過率。技能可以改變代理選擇哪個工具、讀取哪條路徑、略過哪些證據、忽視哪些風險,以及產生哪些副作用;即使最終任務結果看起來沒有改變,也是如此。
重點摘要
AI代理技能不應只靠通過率取得信任。通過率告訴團隊,在基準評分器之下,最終任務是否成功。行為稽核要問的是:技能是否以團隊預期的方式改變了代理的行動。
近期研究讓這個落差難以忽視。反事實追蹤稽核會比較有技能與無技能時的代理追蹤,揭露一般成功指標看不見的技能誘發模式。1行為完整性驗證會比較技能宣稱會做什麼,以及技能實際做了什麼,並回報大型技能語料中普遍存在的描述與行為不一致。2SkillsBench顯示,經過整理的技能可以提升代理表現,但也顯示自行產生的技能不一定有幫助,而且某些任務在使用技能後反而變差。3
實務規則很直接:不要因為基準分數上升就安裝技能。請在追蹤顯示該行為確實合理之後,再安裝技能。
重要結論
給使用代理技能的團隊: - 即使檔案只有Markdown,也要把每個技能視為會改變行為的程式碼。 - 在跨專案共享技能之前,先稽核追蹤變化、副作用與失敗模式。
給技能作者: - 明確宣告預期行為、允許工具、禁止動作與證據義務。 - 用成對追蹤測試技能,而不只看最終任務結果。
給安全審查者: - 比較宣稱能力與觀察到的能力。 - 將隱性擴權、外部存取、破壞性動作與政策繞過視為技能缺陷。
給評估團隊: - 分別回報通過率、行為變化、副作用變化與審查負擔。 - 持平的通過率仍可能藏著危險的行為改變。
為什麼通過率會漏掉技能風險?
通過率壓縮了錯誤的對象。
技能會在任務開始前改變代理。它可能加入領域流程、工具偏好、格式規則、審查步驟、信心措辭或復原行為。基準評分器通常只看到最終產物:正確或錯誤。
這會造成盲點:
| 技能效果 | 通過率看到什麼 | 行為稽核看到什麼 |
|---|---|---|
| 更好的工具順序 | 可能是成功 | 哪個呼叫提前了,以及原因。 |
| 額外讀取檔案 | 可能是成功 | 哪些檔案進入了脈絡。 |
| 更積極地修改程式碼 | 可能是成功 | 差異大小、所有權與回復風險。 |
| 略過驗證 | 可能是成功 | 完成前缺少哪些證據。 |
| 隱藏的外部存取 | 可能是成功 | 網路或MCP邊界擴張。 |
| 較低的審查負擔 | 可能是成功 | 更短的追蹤、更清楚的證明、更少未解主張。 |
最終答案可能看起來正確,但技能讓整次執行更不值得信任。反過來也可能成立:技能可能產生失敗結果,卻教出更好的搜尋或復原模式;這種技能值得修補,而不是直接刪除。
通過率應該是稽核的一部分。它不能等同於稽核本身。
反事實追蹤稽核增加了什麼?
反事實追蹤稽核比較兩次執行:一次使用技能,一次不使用技能。1
這篇論文之所以有力,是因為在其回報的WebArena設定中,通過率增幅非常小。使用技能後,平均任務成功率只上升0.3個百分點。1然而作者在49項任務中辨識出522種技能誘發的行為模式,涵蓋驗證步驟、表單互動、錯誤復原、頁面導覽與誤用模式等變化。1
這個落差,就是本文的核心。
即使整體任務成功率幾乎不動,技能仍然影響了行為。
這種稽核方法會將追蹤對齊成不同階段,並辨識技能誘發的模式。稽核不只問任務是否通過。它會問技能在哪裡改變了軌跡、該改變是幫助還是傷害,以及哪條技能指令看起來要負責。1
這種方法給團隊一個更好的審查對象:
| 稽核問題 | 重要原因 |
|---|---|
| 哪個步驟改變了? | 將行為連到追蹤中的位置。 |
| 哪條指令造成改變? | 將行為連到技能文字。 |
| 改變是有幫助、有傷害,還是只是轉移成本? | 避免通過率作秀。 |
| 改變是否產生副作用? | 抓出藏在成功背後的風險。 |
| 改變能否跨任務泛化? | 區分一次幸運執行與值得保留的技能。 |
團隊在把技能從本地實驗提升為共享流程之前,需要先取得這個審查對象。
行為完整性驗證增加了什麼?
行為完整性驗證問的是另一個問題:技能是否真的做到描述中宣稱的事?2
BIV論文研究大規模技能儲存庫,並回報超過80%的受分析技能出現某種描述與行為偏差。2作者將多數偏差歸類為疏忽造成,而非對抗性行為;但仍然找到了對抗性案例與多階段風險模式。2
這個發現很重要,因為描述會驅動啟用。
在代理系統中,技能描述通常決定技能是否進入脈絡。描述會說明代理何時應該載入它。如果描述低估能力、隱藏副作用,或沒有提到工具存取,代理與使用者都會在任何任務特定推理開始前,先做出錯誤的路由決策。
BIV指向技能缺少的一層清單:
| 宣告面向 | 行為稽核應驗證 |
|---|---|
| 啟用條件 | 技能是否只在宣稱的任務類型中執行? |
| 能力 | 觀察到的行為是否維持在宣稱範圍內? |
| 工具使用 | 技能會造成哪些工具、命令、MCP伺服器或檔案被使用? |
| 副作用 | 技能是否讀取、寫入、刪除、傳送、花費、發布或部署? |
| 外部存取 | 技能是否造成網路、瀏覽器或第三方服務互動? |
| 安全宣稱 | 技能是否真的加入承諾的檢查? |
| 拒絕邊界 | 技能是否保留被封鎖的動作? |
可怕的版本,是惡意技能說謊。常見的版本,是草率技能忘了說實話。
兩種版本都需要稽核。
SkillsBench增加了什麼?
SkillsBench說明了為什麼團隊不應過度修正,直接宣告技能毫無價值。
該基準在86項任務與7,308條軌跡中評估代理技能。3論文回報,相較於無技能基準,經整理的技能讓平均通過率提升16.2個百分點;自行產生的技能平均而言沒有帶來好處。3它也回報某些任務出現負向變化,代表技能可能讓特定工作變差。3
這個結果提供了平衡觀點。
技能可能有幫助。技能品質很重要。任務適配很重要。來源很重要。評估方法也很重要。
採用上的教訓不是「避開技能」。真正的教訓是「像審查能力套件一樣審查技能」。
有用的技能應能回答:
| 問題 | 必要回答 |
|---|---|
| 技能改善哪件工作? | 具體任務類型與讀者/使用者。 |
| 哪些行為應該改變? | 工具選擇、證據檢查、格式、審查或復原模式。 |
| 哪些行為絕不能改變? | 禁止工具、路徑、副作用與權限邊界。 |
| 哪些證據證明技能有幫助? | 追蹤變化、通過率、審查工作量與副作用輪廓。 |
| 團隊如何移除它? | 版本、負責人、回復與替代路徑。 |
只有當觀察到的行為符合這些答案,技能才取得升級資格。
行為稽核長什麼樣子?
行為稽核會比較預期的技能行為與觀察到的代理行為。
最低限度的稽核有4個階段。
| 稽核階段 | 證據 |
|---|---|
| 宣告稽核 | 技能描述、啟用條件、能力、工具與禁止動作。 |
| 反事實追蹤稽核 | 在同一組任務上,比較有技能與無技能的成對執行。 |
| 副作用稽核 | 檔案、命令、網路呼叫、外部寫入、核准與回復狀態。 |
| 失敗稽核 | 失敗執行、差點失敗、已復原錯誤與重複修補模式。 |
輸出應該更像審查資料包,而不是排行榜。
每項任務都要捕捉:
- 任務名稱與風險通道。
- 技能版本與來源。
- 基準追蹤。
- 技能追蹤。
- 改變的步驟。
- 改變的工具呼叫。
- 改變的副作用。
- 取得或失去的證據。
- 最終結果。
- 審查者決策:保留、修訂、限縮範圍、封鎖或淘汰。
這份資料包讓人工審查者能做出判斷,而且這個判斷不會只依附於單次基準執行。
技能契約應放在哪裡?
ContractSkill指出,對需要更嚴格行為的技能,可以採用更清楚的形式。4
該論文主張,用自然語言撰寫的Web代理技能可能含糊、脆弱且難以除錯。它提出以契約為基礎的技能,明確定義任務、前置條件、後置條件與步驟層級流程,讓系統能定位失敗並修補受影響的部分,而不是重寫整個技能。4
這種契約框架很適合行為稽核。
| 自由形式技能 | 契約式技能 |
|---|---|
| 「發布時要小心。」 | 「發布前,驗證來源URL、路由渲染、結構化資料與回復方式。」 |
| 「檢查頁面。」 | 「擷取路由,確認狀態為200,確認變更標記,確認沒有後備文字。」 |
| 「避免高風險命令。」 | 「封鎖刪除、強制推送、外部POST,以及在所屬路徑外寫入。」 |
| 「自然翻譯。」 | 「保留URL與引用;翻譯可見標題;檢查英文殘留。」 |
契約式技能能降低模糊性。它也讓稽核成本更低,因為預期行為位於可供審查者與追蹤比較的結構中。
契約不應讓每個技能都變得龐大。對低風險的寫作格式或清單任務而言,普通技能仍然可行。當技能可能改變外部系統、公開內容、資料、金錢、安全態勢或共享專案行為時,契約才特別重要。
如何修補不良技能?
不要因為一次執行失敗,就刪除有用的技能。先找出行為在哪裡壞掉。
AgentRx著重於修補代理失敗:它會在執行軌跡中定位關鍵失敗步驟、產生限制條件,並用可稽核日誌驗證修補結果。5該論文主要處理廣義代理行為,而非特定技能檔案;但修補形式很適合映射到技能:找出失敗步驟、推導限制、測試修補後的行為,並保留證據。
技能修補應遵循同一順序:
| 失敗 | 修補 |
|---|---|
| 技能啟用範圍過廣 | 收窄描述與觸發範例。 |
| 技能改變了錯誤的工具選擇 | 加入工具選擇規則與反例。 |
| 技能略過驗證 | 在完成前加入停止條件。 |
| 技能造成過大的差異 | 加入所有權與變更路徑限制。 |
| 技能造成網路移動 | 加入對外連線規則與核准要求。 |
| 技能改善一項任務但傷害另一項 | 拆分技能,或將它限縮到有效的任務類型。 |
修補應以新的稽核結束,而不是以自信的提交訊息結束。
如果修補後的追蹤仍顯示錯誤行為,就淘汰該技能。
最低標準
團隊共享AI代理技能之前,至少要求一份行為稽核資料包。
| 欄位 | 必要證據 |
|---|---|
| 來源 | 儲存庫、作者、版本與安裝路徑。 |
| 目的 | 技能宣稱要改善的任務類型。 |
| 啟用 | 應載入技能的精確條件。 |
| 允許行為 | 技能可影響的工具、檔案、資源與動作。 |
| 禁止行為 | 技能不得擴張的工具、路徑、副作用與權限。 |
| 反事實追蹤 | 同一任務在有技能與無技能時的執行。 |
| 結果變化 | 通過率、失敗率、審查工作量與執行成本。 |
| 行為變化 | 改變的步驟、工具呼叫、副作用與證據。 |
| 風險決策 | 保留、修訂、限縮範圍、封鎖或淘汰。 |
| 回復 | 團隊如何移除技能並回到先前行為。 |
這份資料包會迫使團隊提出正確問題。
問題不是「技能是否曾經有幫助?」問題是「技能是否能可靠地依照團隊想要的方式改變行為?」
更值得採用的標準
技能能很快讓代理感覺更好用。這種速度會誘惑團隊累積流程檔案、命令、代理、掛鉤與提示,因為每一項看起來都很便宜。
便宜的脈絡仍然會改變行為。
值得採用的技能,必須透過改善整體工作流程來贏得位置。它應該降低審查負擔、強化證據、收窄風險,或教會代理一套沒有技能時無法可靠執行的流程。只讓代理聽起來更有信心的技能,應該移除。提高通過率卻擴張隱藏副作用的技能,應該無法通過審查。
標準應維持簡單:
- 宣告技能應該改變什麼。
- 證明追蹤確實朝那個方向改變。
- 說明哪些事不得改變。
- 證明追蹤遵守了該邊界。
- 只有當行為值得存在時,才保留技能。
AI代理技能不是魔法筆記。它們是行為修補。請像對待程式碼一樣對待它們。
快速總結
AI代理技能需要行為稽核,因為通過率隱藏太多東西。反事實追蹤稽核顯示,即使整體成功率幾乎不動,技能仍能改變數百種追蹤模式。1行為完整性驗證顯示,技能描述經常偏離實際能力。2SkillsBench顯示,經整理的技能可以幫上忙,但自行產生的技能與任務不匹配可能失敗或造成傷害。3
操作規則很直接:評估行為,而不只評估分數。當技能的宣告、追蹤、副作用、失敗、修補與回復路徑全部一致時,它才值得信任。
常見問題
什麼是AI代理技能的行為稽核?
行為稽核會檢查技能如何改變代理的實際執行:工具呼叫、檔案存取、副作用、驗證步驟、復原行為與最終結果。它會比較觀察到的行為,以及技能宣告的目的與邊界。
為什麼通過率不足以評估技能?
通過率顯示任務是否在評分器下成功。它不會顯示技能是否擴張了工具存取、略過證據、增加副作用,或以團隊未預期的方式改變行為。
什麼是反事實追蹤稽核?
反事實追蹤稽核會比較代理在有技能與無技能時的軌跡,對齊追蹤階段,並辨識技能誘發的行為模式。它幫助團隊看見整體成功指標可能漏掉的行為變化。1
什麼是行為完整性驗證?
行為完整性驗證會比較技能描述與實際技能行為。它能偵測技能宣稱的能力、啟用條件或安全宣稱是否與觀察到的行為不符。2
團隊共享技能前應稽核什麼?
團隊應稽核技能來源、啟用條件、宣稱能力、允許與禁止動作、成對追蹤、副作用、失敗案例、修補路徑與回復計畫。
參考資料
-
Xuanyu Zhang, Yiding Liu, Chengsong Huang, Ensheng Shi, Weizhi Ma, Yifei Zhang, Qun Liu, Shumin Deng, Jiahang Shen, and Shiqi Wang, “Counterfactual Trace Auditing of LLM Agent Skills,” arXiv:2605.11946v1, submitted May 13, 2026. 成對追蹤比較、技能誘發模式偵測、階段對齊、WebArena技能評估、整體通過率增加0.3個百分點,以及49項任務中522種行為模式的來源。 ↩↩↩↩↩↩↩↩
-
Ning Liu, Meng Fang, Youtao Zhang, Dominik T. Matt, Stanislav Pletnev, Hongzhi Wang, and Erwin Schoitsch, “Behavioral Integrity Verification for Agentic AI Skills,” arXiv:2605.11770v1, submitted May 13, 2026. 宣稱與實際技能能力驗證、儲存庫規模技能分析、描述與行為偏差發現、疏忽與對抗性偏差類別,以及多階段風險模式的來源。 ↩↩↩↩↩↩
-
Lingkai Kong, Xiangliang Zhang, and Jiamou Liu, “SkillsBench: Can LLMs Learn from Their Own and Other Agents’ Skills for Reliable Task Execution?,” arXiv:2602.12670v1, submitted February 17, 2026. 86項任務、7,308條軌跡的SkillsBench評估、經整理技能的通過率提升、自行產生技能結果,以及負向任務變化的來源。 ↩↩↩↩↩
-
Meiyi Ma, Fengan Xia, Canran Xu, Wenqi Li, Aranya Roy, Zhaopeng Tu, Ranveer Chandra, and Dongmei Zhang, “ContractSkill: Contract-based Skill Design for LLM-powered Web Agents,” arXiv:2603.20340v1, submitted March 25, 2026. 以契約為基礎的技能定義、前置條件、後置條件、步驟層級流程、決定性驗證、故障定位與最小局部修補的來源。 ↩↩
-
Cunxiang Wang, Ruoxi Sun, Yidong Wang, Piji Li, and Yue Zhang, “AgentRx: Scalable Automated Failure Diagnosis and Repair for LLM Agents,” arXiv:2602.02475v1, submitted February 3, 2026. LLM代理失敗中的關鍵步驟失敗定位、限制條件產生、追蹤驗證與可稽核修補日誌的來源。 ↩