AIエージェントのスキルに必要なのはパス率ではなく行動監査です
AIエージェントのスキルは、パス率がほとんど動かない瞬間まで、評価しやすそうに見えます。
反事実的な実行記録監査では、あるベンチマーク設定において、スキルによる平均タスク成功率の改善は+0.3パーセントポイントにとどまりました。一方で、同じ監査では49件のタスクにわたり、スキルがエージェントの行動を変えた具体的なパターンが522件見つかっています。1 パス率のダッシュボードなら、ほぼ何も起きていないと判断するでしょう。実行記録の監査なら、実際の変化が見えます。
AIエージェントのスキルに必要なのは、パス率ではなく行動監査です。 スキルは、エージェントが選ぶツール、読むパス、見落とす証拠、無視するリスク、生み出す副作用を変えます。最終的なタスク結果が同じに見えても、その内側の行動は変わっているのです。
要点
AIエージェントのスキルは、パス率だけで信頼すべきではありません。パス率が示すのは、ベンチマークの採点器のもとで最終タスクが成功したかどうかです。行動監査が問うのは、そのスキルがチームの意図どおりにエージェントの行動を変えたかどうかです。
最近の研究を見ると、この差は無視できません。反事実的な実行記録監査は、スキルありとスキルなしのエージェント実行記録を比較し、通常の成功指標では見落とされるスキル起因のパターンを浮かび上がらせます。1 Behavioral Integrity Verificationは、スキルが自称する内容と実際の行動を比較し、大規模なスキル群において説明と行動の不一致が広く見られると報告しています。2 SkillsBenchは、選別されたスキルがエージェント性能を改善し得ることを示す一方で、自己生成されたスキルは役に立たない場合があり、スキルによって悪化するタスクもあることを示しています。3
実務上のルールは明快です。ベンチマークが上がったからスキルを入れるのではありません。実行記録を見て、その行動が採用に値すると確認してから入れるべきです。
重要なポイント
エージェントスキルを使うチームへ: - ファイルの中身がMarkdownだけでも、すべてのスキルを行動を変えるコードとして扱いましょう。 - プロジェクト横断で共有する前に、実行記録の変化、副作用、失敗モードを監査してください。
スキル作者へ: - 期待される行動、許可されたツール、禁止された操作、証拠の責務を明示してください。 - 最終タスク結果だけでなく、ペアの実行記録に対してスキルをテストしましょう。
セキュリティレビュー担当者へ: - 宣言された機能と観測された機能を比較してください。 - 隠れた権限拡大、外部アクセス、破壊的操作、ポリシー回避はスキルの欠陥として扱うべきです。
評価チームへ: - パス率、行動差分、副作用差分、レビュー負荷を分けて報告してください。 - パス率が横ばいでも、危険な行動変化が隠れていることがあります。
なぜパス率ではスキルのリスクを見落とすのか
パス率は、見るべき対象を潰してしまいます。
スキルはタスク開始前のエージェントを変えます。ドメイン手順、ツール選好、書式ルール、レビュー手順、確信度の表現、復旧行動を追加できます。ところがベンチマークの採点器が見るのは、たいてい最終成果物だけです。正しいか、間違っているか。
そこに死角が生まれます。
| スキルの効果 | パス率で見えるもの | 行動監査で見えるもの |
|---|---|---|
| ツール順序の改善 | 成功したかもしれない | どの呼び出しが前倒しされ、なぜそうなったか。 |
| 追加のファイル読み取り | 成功したかもしれない | どのファイルが文脈に入ったか。 |
| より積極的なパッチ適用 | 成功したかもしれない | 差分サイズ、所有範囲、ロールバックリスク。 |
| 検証の省略 | 成功したかもしれない | 完了前に欠けている証拠。 |
| 隠れた外部アクセス | 成功したかもしれない | ネットワークまたはMCP境界の拡大。 |
| レビュー負荷の低下 | 成功したかもしれない | より短い実行記録、より明確な証明、未解決主張の少なさ。 |
最終回答が正しく見えても、スキルによって実行が信頼しにくくなることがあります。逆もあります。スキルが失敗した結果を出していても、検索や復旧のより良いパターンを教えているなら、削除ではなく修正すべきかもしれません。
パス率は監査に含めるべきです。ただし、それ自体が監査にはなりません。
反事実的な実行記録監査は何を加えたのか
反事実的な実行記録監査は、スキルありとスキルなしの2つの実行を比較します。1
この論文の主張が強いのは、報告されたWebArena設定で、見出しになるパス率改善がごく小さいからです。スキルを使った場合でも、平均タスク成功率の上昇はわずか+0.3パーセントポイントでした。1 それでも著者らは、49件のタスクにわたり522件のスキル起因の行動パターンを特定しています。検証手順、フォーム操作、エラー復旧、ページ移動、誤用パターンなどの変化です。1
この記事の核心は、この分離にあります。
集計されたタスク成功率がほとんど動かなくても、スキルは行動に影響していました。
この手法は、実行記録を段階ごとにそろえ、スキル起因のパターンを特定します。タスクが通ったかどうかだけを問うのではありません。スキルがどこで軌道を変えたのか、その変化が役に立ったのか害になったのか、どのスキル指示が原因に見えるのかを問います。1
この方法により、チームはよりよいレビュー対象を得られます。
| 監査で問うこと | なぜ重要か |
|---|---|
| どのステップが変わったか | 行動を実行記録上の位置に結びつけます。 |
| どの指示が変化を引き起こしたか | 行動をスキル本文に結びつけます。 |
| その変化は役に立ったのか、害になったのか、単にコストを移しただけか | パス率だけの見せかけを防ぎます。 |
| その変化は副作用を生んだか | 成功の裏に隠れたリスクを捉えます。 |
| その変化はタスクをまたいで一般化するか | たまたまうまくいった1回と、残す価値のあるスキルを分けます。 |
ローカルな実験から共有プロセスへスキルを昇格させる前に、チームにはこのレビュー対象が必要です。
Behavioral Integrity Verificationは何を加えたのか
Behavioral Integrity Verificationは、別の問いを立てます。そのスキルは、説明どおりに動いているのか、という問いです。2
BIV論文は大規模なスキルリポジトリを調査し、分析対象スキルの80%以上で、何らかの説明と行動のずれが見られたと報告しています。2 著者らは、多くのずれを敵対的というより見落としに起因するものと分類していますが、それでも敵対的な事例や多段階のリスクパターンを確認しています。2
この発見が重要なのは、説明文が起動を左右するからです。
エージェントシステムでは、スキルの説明文が、そのスキルを文脈に入れるかどうかを決めることがよくあります。説明文は、エージェントがいつそれを読み込むべきかを示します。機能を控えめに書きすぎていたり、副作用を隠していたり、ツールアクセスに触れていなかったりすると、タスク固有の推論が始まる前に、エージェントもユーザーも誤った振り分けをしてしまいます。
BIVが示しているのは、スキルに欠けているマニフェスト層です。
| 宣言される面 | 行動監査で確認すべきこと |
|---|---|
| 起動条件 | スキルは宣言されたタスク種別でのみ実行されるか。 |
| 機能 | 観測された行動は主張の範囲内に収まっているか。 |
| ツール使用 | スキルはどのツール、コマンド、MCPサーバー、ファイルを引き起こすか。 |
| 副作用 | スキルは読み取り、書き込み、削除、送信、支出、公開、デプロイを行うか。 |
| 外部アクセス | スキルはネットワーク、ブラウザー、第三者サービスへの移動を生むか。 |
| 安全性の主張 | 約束された確認を実際に追加しているか。 |
| 拒否境界 | ブロックされた操作を引き続き守っているか。 |
怖いのは、悪意あるスキルが嘘をつくケースです。ありふれているのは、雑なスキルが真実を書き漏らすケースです。
どちらにも監査が必要です。
SkillsBenchは何を加えたのか
SkillsBenchは、チームが過剰反応して「スキルは無価値だ」と結論づけるべきではない理由を示しています。
このベンチマークは、86件のタスクと7,308件の軌跡にわたりエージェントスキルを評価しています。3 論文によると、選別されたスキルはスキルなしのベースラインに対して平均パス率を16.2パーセントポイント改善しました。一方で、自己生成されたスキルは平均的には利益をもたらしませんでした。3 また、一部のタスクでは負の差分も報告されています。つまり、スキルが特定の作業を悪化させることもあります。3
これが、バランスの取れた見方です。
スキルは役に立ちます。スキルの品質は重要です。タスクとの適合も重要です。出所も重要です。評価方法も重要です。
採用上の教訓は「スキルを避けよう」ではありません。「スキルを機能パッケージとしてレビューしよう」です。
有用なスキルは、次の問いに答えられるべきです。
| 問い | 必要な答え |
|---|---|
| どの仕事を改善するのか | 具体的なタスク種別と読み手またはユーザー。 |
| どの行動を変えるべきか | ツール選択、証拠確認、形式、レビュー、復旧パターン。 |
| どの行動を変えてはいけないか | 禁止ツール、パス、副作用、権限境界。 |
| スキルが役立ったことを示す証拠は何か | 実行記録の差分、パス率、レビュー工数、副作用の傾向。 |
| チームはどう取り外せるか | バージョン、所有者、ロールバック、置き換え手順。 |
観測された行動がこれらの答えと一致したときだけ、スキルは昇格に値します。
行動監査はどのようなものか
行動監査では、期待されるスキル行動と、観測されたエージェント行動を比較します。
最小限の監査には4つの確認があります。
| 監査項目 | 証拠 |
|---|---|
| 宣言監査 | スキル説明、起動条件、機能、ツール、禁止操作。 |
| 反事実的な実行記録監査 | 同じタスクセットで、スキルありとなしのペア実行。 |
| 副作用監査 | ファイル、コマンド、ネットワーク呼び出し、外部書き込み、承認、ロールバック状態。 |
| 失敗監査 | 失敗した実行、ヒヤリとした例、復旧されたエラー、繰り返される修正パターン。 |
出力は、ランキング表よりもレビューパケットに近い形であるべきです。
各タスクについて、次を記録します。
- タスク名とリスク区分。
- スキルのバージョンと出所。
- ベースラインの実行記録。
- スキルありの実行記録。
- 変化したステップ。
- 変化したツール呼び出し。
- 変化した副作用。
- 得られた証拠、または失われた証拠。
- 最終結果。
- レビュー判断: 維持、修正、範囲限定、ブロック、廃止。
このパケットがあれば、人間のレビュー担当者は、1回のベンチマーク実行を超えて残る判断を下せます。
スキル契約はどこに入るのか
ContractSkillは、より厳密な行動が必要なスキルについて、より整った形を示しています。4
この論文は、自然言語で書かれたWebエージェントスキルは曖昧で、壊れやすく、デバッグしにくいことがあると論じています。そこで、明示的なタスク定義、事前条件、事後条件、ステップ単位の手順を備えた契約ベースのスキルを提案しています。これにより、システムはスキル全体を書き換えるのではなく、失敗箇所を特定し、影響を受けた部分だけを修正できます。4
この契約という考え方は、行動監査と相性がよいものです。
| 自由形式のスキル | 契約型のスキル |
|---|---|
| 「公開時は注意する。」 | 「公開前に、ソースURL、ルート表示、スキーマ、ロールバックを確認する。」 |
| 「ページを確認する。」 | 「ルートを取得し、ステータス200、変更マーカー、フォールバック文言がないことを検証する。」 |
| 「危険なコマンドを避ける。」 | 「削除、force push、外部POST、所有外パスへの書き込みをブロックする。」 |
| 「自然に翻訳する。」 | 「URLと引用を保持し、表示見出しを翻訳し、英語の残存を判定する。」 |
契約型のスキルは曖昧さを減らします。また、期待される行動がレビュー担当者と実行記録で比較できる構造に入るため、監査コストも下がります。
ただし、契約によってすべてのスキルを巨大化させる必要はありません。低リスクな文章形式やチェックリスト作業なら、通常のスキルでも十分です。契約が重要になるのは、スキルが外部システム、公開コンテンツ、データ、金銭、セキュリティ姿勢、共有プロジェクトの行動を変え得る場合です。
悪いスキルはどう修正するのか
1回失敗したからといって、有用なスキルを削除しないでください。まず、どこで行動が壊れたのかを特定します。
AgentRxは、実行軌跡の中から重要な失敗ステップを見つけ、制約を生成し、監査可能なログに対して修正を検証することで、エージェントの失敗を修復することに焦点を当てています。5 この論文の対象はスキルファイルそのものではなくエージェント行動全般ですが、修復の形はスキルにもよく対応します。失敗ステップを見つけ、制約を導き、修正後の行動をテストし、証拠を残すという流れです。
スキル修正も同じ順序で進めるべきです。
| 失敗 | 修正 |
|---|---|
| スキルが広すぎる範囲で起動する | 説明文と起動例を狭める。 |
| スキルが誤ったツール選択を引き起こす | ツール選択ルールと反例を追加する。 |
| スキルが検証を省略する | 完了前の停止条件を追加する。 |
| スキルが大きすぎる差分を作る | 所有範囲と変更パスの制限を追加する。 |
| スキルがネットワーク移動を引き起こす | 外向き通信のルールと承認要件を追加する。 |
| あるタスクは改善するが別のタスクを悪化させる | スキルを分割するか、効果の出るタスク種別に限定する。 |
修正は、自信に満ちたコミットメッセージで終わらせるものではありません。新しい監査で終えるべきです。
修正後も実行記録が誤った行動を示すなら、そのスキルは廃止します。
最低基準
チームがAIエージェントスキルを共有する前に、行動監査パケットを1つ必須にしてください。
| 項目 | 必要な証拠 |
|---|---|
| 出所 | リポジトリ、作者、バージョン、インストールパス。 |
| 目的 | スキルが改善すると主張するタスク種別。 |
| 起動 | スキルを読み込むべき正確な条件。 |
| 許可される行動 | スキルが影響してよいツール、ファイル、リソース、操作。 |
| 禁止される行動 | スキルが拡大してはならないツール、パス、副作用、権限。 |
| 反事実的な実行記録 | 同じタスクでのスキルありとなしの実行。 |
| 結果差分 | パス率、失敗率、レビュー工数、実行時コスト。 |
| 行動差分 | 変化したステップ、ツール呼び出し、副作用、証拠。 |
| リスク判断 | 維持、修正、範囲限定、ブロック、廃止。 |
| ロールバック | スキルを取り外し、以前の行動に戻す方法。 |
このパケットは、正しい問いを強制します。
問うべきなのは「そのスキルは一度役に立ったか」ではありません。「そのスキルは、チームが望む形で行動を安定して変えているか」です。
価値ある基準
スキルは、エージェントをすぐに良くなったように感じさせます。その速さにより、チームはプロセスファイル、コマンド、エージェント、フック、プロンプトをため込みがちです。それぞれが安く見えるからです。
安い文脈でも、行動は変わります。
価値あるスキルは、ワークフロー全体を良くすることで居場所を得ます。レビュー負荷を下げる。証拠を鋭くする。リスクを狭める。エージェントが安定して実行できなかった手順を教える。そうした働きが必要です。エージェントを自信ありげに見せるだけのスキルは取り除くべきです。パス率を改善しながら隠れた副作用を広げるスキルは、レビューで落とすべきです。
基準はシンプルでよいのです。
- スキルが何を変えるべきかを宣言する。
- 実行記録がその通りに変わったことを証明する。
- 何を変えてはいけないかを明示する。
- 実行記録がその境界を守ったことを証明する。
- その行動が存在する価値があるときだけ、スキルを残す。
AIエージェントのスキルは魔法のメモではありません。行動へのパッチです。コードのように扱いましょう。
簡単なまとめ
AIエージェントのスキルには行動監査が必要です。パス率はあまりに多くを隠します。反事実的な実行記録監査は、集計成功率がほとんど動かなくても、スキルが数百件の実行記録パターンを変え得ることを示しています。1 Behavioral Integrity Verificationは、スキル説明が実際の機能からしばしばずれることを示しています。2 SkillsBenchは、選別されたスキルは役立つ一方で、自己生成スキルやタスク不適合は失敗や悪化を招くことを示しています。3
運用ルールは単純です。スコアだけではなく、行動を評価してください。スキルの宣言、実行記録、副作用、失敗、修正、ロールバック手順がすべてそろって初めて、そのスキルは信頼に値します。
FAQ
AIエージェントスキルの行動監査とは何ですか?
行動監査は、スキルがエージェントの実際の実行をどう変えるかを確認するものです。ツール呼び出し、ファイルアクセス、副作用、検証手順、復旧行動、最終結果を見ます。そして、観測された行動をスキルの宣言された目的や境界と比較します。
スキル評価にパス率だけでは不十分なのはなぜですか?
パス率が示すのは、採点器のもとでタスクが成功したかどうかです。スキルがツールアクセスを広げたのか、証拠を省略したのか、副作用を増やしたのか、チームが意図しない形で行動を変えたのかは示しません。
反事実的な実行記録監査とは何ですか?
反事実的な実行記録監査は、スキルありとスキルなしのエージェント軌跡を比較し、実行記録の段階をそろえ、スキル起因の行動パターンを特定します。集計された成功指標では見落とされる行動変化を、チームが確認できるようにします。1
Behavioral Integrity Verificationとは何ですか?
Behavioral Integrity Verificationは、スキル説明と実際のスキル行動を比較します。スキルが述べている機能、起動条件、安全性の主張が、観測された行動と一致していない場合に検出します。2
チームがスキルを共有する前に監査すべきものは何ですか?
スキルの出所、起動条件、宣言された機能、許可された操作と禁止された操作、ペアの実行記録、副作用、失敗事例、修正手順、ロールバック計画を監査すべきです。
参考文献
-
Xuanyu Zhang, Yiding Liu, Chengsong Huang, Ensheng Shi, Weizhi Ma, Yifei Zhang, Qun Liu, Shumin Deng, Jiahang Shen, and Shiqi Wang, “Counterfactual Trace Auditing of LLM Agent Skills,” arXiv:2605.11946v1, submitted May 13, 2026. ペアの実行記録比較、スキル起因パターン検出、フェーズ整列、WebArenaスキル評価、+0.3パーセントポイントの集計パス率改善、49件のタスクにおける522件の行動パターンの出典。 ↩↩↩↩↩↩↩↩
-
Ning Liu, Meng Fang, Youtao Zhang, Dominik T. Matt, Stanislav Pletnev, Hongzhi Wang, and Erwin Schoitsch, “Behavioral Integrity Verification for Agentic AI Skills,” arXiv:2605.11770v1, submitted May 13, 2026. 宣言されたスキル機能と実際の機能の検証、リポジトリ規模のスキル分析、説明と行動のずれに関する知見、見落とし起因および敵対的なずれのカテゴリ、多段階リスクパターンの出典。 ↩↩↩↩↩↩
-
Lingkai Kong, Xiangliang Zhang, and Jiamou Liu, “SkillsBench: Can LLMs Learn from Their Own and Other Agents’ Skills for Reliable Task Execution?,” arXiv:2602.12670v1, submitted February 17, 2026. 86件のタスクと7,308件の軌跡によるSkillsBench評価、選別スキルによるパス率改善、自己生成スキルの結果、タスクごとの負の差分の出典。 ↩↩↩↩↩
-
Meiyi Ma, Fengan Xia, Canran Xu, Wenqi Li, Aranya Roy, Zhaopeng Tu, Ranveer Chandra, and Dongmei Zhang, “ContractSkill: Contract-based Skill Design for LLM-powered Web Agents,” arXiv:2603.20340v1, submitted March 25, 2026. 契約ベースのスキル定義、事前条件、事後条件、ステップ単位の手順、決定的検証、障害箇所特定、最小限の局所修復の出典。 ↩↩
-
Cunxiang Wang, Ruoxi Sun, Yidong Wang, Piji Li, and Yue Zhang, “AgentRx: Scalable Automated Failure Diagnosis and Repair for LLM Agents,” arXiv:2602.02475v1, submitted February 3, 2026. LLMエージェントの失敗に関する重要ステップの障害箇所特定、制約生成、実行記録検証、監査可能な修復ログの出典。 ↩