Les compétences d’agents IA ont besoin d’audits comportementaux, pas de taux de réussite
Les compétences d’agents IA semblent faciles à évaluer, jusqu’au moment où le taux de réussite bouge à peine.
Counterfactual Trace Auditing rapporte un gain moyen de réussite de +0,3 point de pourcentage grâce aux compétences dans une configuration de benchmark, tout en identifiant, dans le même audit, 522 façons précises dont ces compétences ont modifié le comportement des agents sur 49 tâches.1 Un tableau de bord fondé sur le taux de réussite y verrait presque rien. Un audit de traces voit le déplacement réel.
Les compétences d’agents IA ont besoin d’audits comportementaux, pas de taux de réussite. Une compétence peut changer l’outil qu’un agent choisit, le chemin qu’il lit, la preuve qu’il ignore, le risque qu’il néglige et l’effet de bord qu’il produit, alors même que le résultat final de la tâche paraît inchangé.
TL;DR
Les compétences d’agents IA ne devraient pas inspirer confiance sur la seule foi des taux de réussite. Un taux de réussite indique aux équipes si la tâche finale a passé l’évaluation d’un benchmark. Un audit comportemental demande si la compétence a modifié les actions de l’agent comme l’équipe l’attendait.
Les recherches récentes rendent cet écart difficile à ignorer. Counterfactual Trace Auditing compare les traces d’agents avec et sans compétence, puis fait émerger les schémas induits par la compétence que les métriques de succès ordinaires ne voient pas.1 Behavioral Integrity Verification compare ce qu’une compétence prétend faire avec ce qu’elle fait réellement, puis relève de nombreux écarts entre description et comportement dans un vaste corpus de compétences.2 SkillsBench montre que des compétences sélectionnées peuvent améliorer les performances des agents, mais aussi que des compétences générées automatiquement peuvent ne rien apporter, et que certaines tâches se dégradent avec des compétences.3
La règle pratique est simple : n’installez pas une compétence parce qu’un benchmark a progressé. Installez-la lorsque la trace montre que le comportement a sa place.
Points clés
Pour les équipes qui utilisent des compétences d’agents : - Traitez chaque compétence comme du code qui modifie le comportement, même si le fichier ne contient que du Markdown. - Auditez les changements de trace, les effets de bord et les modes d’échec avant de partager la compétence entre projets.
Pour les auteurs de compétences : - Déclarez le comportement attendu, les outils autorisés, les actions interdites et les obligations de preuve. - Testez la compétence sur des traces appariées, pas seulement sur les résultats finaux des tâches.
Pour les équipes de sécurité : - Comparez les capacités déclarées avec les capacités observées. - Signalez comme défauts les extensions cachées, les accès externes, les actions destructrices et les contournements de politique.
Pour les équipes d’évaluation : - Rapportez séparément le taux de réussite, l’écart comportemental, l’écart d’effets de bord et la charge de revue. - Un taux de réussite stable peut encore masquer un changement de comportement dangereux.
Pourquoi les taux de réussite ratent-ils le risque des compétences ?
Les taux de réussite compressent le mauvais objet.
Une compétence modifie l’agent avant le début de la tâche. Elle peut ajouter une procédure métier, une préférence d’outil, des règles de formatage, des étapes de revue, un langage de confiance ou un comportement de reprise. L’évaluateur du benchmark ne voit généralement que l’artefact final : correct ou incorrect.
Cela crée un angle mort :
| Effet de la compétence | Ce que voit le taux de réussite | Ce que voit l’audit comportemental |
|---|---|---|
| Meilleur ordre des outils | Peut-être une réussite | Quel appel a été avancé, et pourquoi. |
| Lectures de fichiers supplémentaires | Peut-être une réussite | Quels fichiers sont entrés dans le contexte. |
| Patchs plus agressifs | Peut-être une réussite | Taille du diff, propriété et risque de retour arrière. |
| Vérification ignorée | Peut-être une réussite | Preuves manquantes avant la clôture. |
| Accès externe caché | Peut-être une réussite | Extension de la frontière réseau ou MCP. |
| Charge de revue réduite | Peut-être une réussite | Trace plus courte, preuve plus claire, moins d’affirmations non résolues. |
La réponse finale peut sembler correcte tandis que la compétence rend l’exécution moins digne de confiance. L’inverse peut aussi arriver : une compétence peut produire un échec tout en enseignant un meilleur schéma de recherche ou de reprise, qui mérite d’être réparé plutôt que supprimé.
Le taux de réussite a sa place dans l’audit. Il ne peut pas être l’audit.
Qu’apporte Counterfactual Trace Auditing ?
Counterfactual Trace Auditing compare deux exécutions : l’une avec la compétence, l’autre sans.1
Le propos de l’article frappe parce que le gain de taux de réussite annoncé reste minime dans la configuration WebArena rapportée. La réussite moyenne des tâches n’augmente que de +0,3 point de pourcentage lorsque le benchmark utilise des compétences.1 Pourtant, les auteurs identifient 522 schémas comportementaux induits par les compétences sur 49 tâches, avec des changements touchant notamment les étapes de validation, l’interaction avec les formulaires, la reprise après erreur, la navigation entre pages et des schémas de mauvaise utilisation.1
Tout l’enjeu est là.
La compétence a modifié le comportement, même lorsque la réussite agrégée des tâches a à peine bougé.
CTA fonctionne en alignant les traces en phases et en identifiant les schémas induits par les compétences. L’audit ne demande pas seulement si une tâche a réussi. Il demande où la compétence a modifié la trajectoire, si ce changement a aidé ou nui, et quelle instruction de la compétence semble responsable.1
Cette méthode donne aux équipes un meilleur objet de revue :
| Question d’audit | Pourquoi c’est important |
|---|---|
| Quelle étape a changé ? | Relie le comportement à un emplacement dans la trace. |
| Quelle instruction a causé le changement ? | Relie le comportement au texte de la compétence. |
| Le changement a-t-il aidé, nui, ou seulement déplacé le coût ? | Évite le théâtre du taux de réussite. |
| Le changement a-t-il créé des effets de bord ? | Repère le risque caché derrière le succès. |
| Le changement se généralise-t-il entre les tâches ? | Sépare l’exécution chanceuse d’une compétence qui mérite d’être conservée. |
Les équipes ont besoin de cet objet avant de promouvoir une compétence d’expérience locale en processus partagé.
Qu’apporte Behavioral Integrity Verification ?
Behavioral Integrity Verification pose une autre question : une compétence fait-elle ce que sa description annonce ?2
L’article BIV étudie des dépôts de compétences à grande échelle et rapporte que plus de 80 % des compétences analysées présentaient une forme d’écart entre description et comportement.2 Les auteurs classent la plupart de ces écarts comme relevant d’un manque de vigilance plutôt que d’une intention malveillante, mais ils trouvent aussi des cas adversariaux et des schémas de risque en plusieurs étapes.2
Ce résultat compte parce que les descriptions pilotent l’activation.
Dans les systèmes d’agents, la description d’une compétence décide souvent si cette compétence entre dans le contexte. Elle indique quand l’agent devrait la charger. Si la description sous-estime les capacités, cache des effets de bord ou omet de mentionner un accès à des outils, l’agent comme l’utilisateur prennent une mauvaise décision de routage avant même tout raisonnement propre à la tâche.
BIV met en lumière une couche de manifeste manquante pour les compétences :
| Surface déclarée | Ce que l’audit comportemental doit vérifier |
|---|---|
| Condition d’activation | La compétence ne s’exécute-t-elle que pour la classe de tâches annoncée ? |
| Capacité | Le comportement observé reste-t-il dans le périmètre revendiqué ? |
| Utilisation d’outils | Quels outils, commandes, serveurs MCP ou fichiers la compétence déclenche-t-elle ? |
| Effets de bord | La compétence lit-elle, écrit-elle, supprime-t-elle, envoie-t-elle, dépense-t-elle, publie-t-elle ou déploie-t-elle ? |
| Accès externe | La compétence crée-t-elle un mouvement réseau, navigateur ou tiers ? |
| Revendication de sécurité | La compétence ajoute-t-elle réellement le contrôle promis ? |
| Frontière de refus | La compétence préserve-t-elle les actions bloquées ? |
La version inquiétante est une compétence malveillante qui ment. La version ordinaire est une compétence négligée qui oublie de dire la vérité.
Les deux versions ont besoin d’un audit.
Qu’apporte SkillsBench ?
SkillsBench montre pourquoi les équipes ne doivent pas corriger à l’excès en déclarant les compétences inutiles.
Le benchmark évalue des compétences d’agents sur 86 tâches et 7 308 trajectoires.3 L’article rapporte que des compétences sélectionnées améliorent le taux de réussite moyen de 16,2 points de pourcentage par rapport à une base sans compétence, tandis que les compétences générées automatiquement n’apportent aucun bénéfice en moyenne.3 Il rapporte aussi des écarts négatifs sur certaines tâches, ce qui signifie qu’une compétence peut détériorer certains travaux.3
Ce résultat donne la lecture équilibrée.
Les compétences peuvent aider. La qualité de la compétence compte. L’adéquation à la tâche compte. La source compte. La méthode d’évaluation compte.
La leçon d’adoption n’est pas « évitez les compétences ». C’est plutôt : « évaluez les compétences comme des paquets de capacités ».
Une compétence utile devrait répondre à ceci :
| Question | Réponse requise |
|---|---|
| Quel travail la compétence améliore-t-elle ? | Classe de tâches concrète et lecteur/utilisateur concerné. |
| Quel comportement doit changer ? | Choix d’outil, contrôle de preuve, format, revue ou schéma de reprise. |
| Quel comportement ne doit pas changer ? | Outils, chemins, effets de bord et frontières d’autorité interdits. |
| Quelle preuve montre que la compétence a aidé ? | Écart de trace, taux de réussite, effort de revue et profil d’effets de bord. |
| Comment l’équipe peut-elle la retirer ? | Version, propriétaire, retour arrière et chemin de remplacement. |
La compétence ne mérite d’être promue que lorsque le comportement observé correspond à ces réponses.
À quoi ressemble un audit comportemental ?
Un audit comportemental compare le comportement attendu de la compétence avec le comportement observé de l’agent.
L’audit minimal comporte quatre passes.
| Passe d’audit | Preuve |
|---|---|
| Audit de déclaration | Description de la compétence, condition d’activation, capacités, outils et actions interdites. |
| Audit contrefactuel de traces | Exécutions appariées avec et sans compétence sur le même ensemble de tâches. |
| Audit des effets de bord | Fichiers, commandes, appels réseau, écritures externes, approbations et état de retour arrière. |
| Audit des échecs | Exécutions échouées, quasi-échecs, erreurs récupérées et schémas de réparation répétés. |
Le résultat devrait moins ressembler à un classement qu’à un dossier de revue.
Pour chaque tâche, capturez :
- Nom de la tâche et couloir de risque.
- Version et source de la compétence.
- Trace de référence.
- Trace avec compétence.
- Étapes modifiées.
- Appels d’outils modifiés.
- Effets de bord modifiés.
- Preuves gagnées ou perdues.
- Résultat final.
- Décision du relecteur : conserver, réviser, restreindre, bloquer ou retirer.
Ce dossier donne à un relecteur humain un moyen de formuler un jugement qui survivra à une seule exécution de benchmark.
Où placer les contrats de compétence ?
ContractSkill indique une forme plus nette pour les compétences qui nécessitent un comportement plus strict.4
L’article soutient que les compétences d’agents web écrites en langage naturel peuvent être ambiguës, fragiles et difficiles à déboguer. Il propose des compétences fondées sur des contrats, avec des définitions de tâches explicites, des préconditions, des postconditions et des procédures au niveau des étapes, afin qu’un système puisse localiser les échecs et réparer la portion concernée au lieu de réécrire toute la compétence.4
Ce cadrage par contrat s’accorde bien avec les audits comportementaux.
| Compétence libre | Compétence structurée comme un contrat |
|---|---|
| « Soyez prudent lors de la publication. » | « Avant publication, vérifiez les URL sources, le rendu de la route, le schéma et le retour arrière. » |
| « Vérifiez la page. » | « Récupérez la route, vérifiez le statut 200, vérifiez le marqueur modifié, vérifiez l’absence de texte de repli. » |
| « Évitez les commandes risquées. » | « Bloquez les suppressions, les force push, les POST externes et les écritures hors des chemins possédés. » |
| « Traduisez naturellement. » | « Préservez les URL et les citations ; traduisez les titres visibles ; bloquez les résidus anglais. » |
Les compétences structurées comme des contrats réduisent l’ambiguïté. Elles rendent aussi les audits moins coûteux, car le comportement attendu se trouve dans une structure que le relecteur peut comparer à la trace.
Le contrat ne doit pas rendre chaque compétence énorme. Les compétences simples restent adaptées aux tâches à faible risque de format d’écriture ou de checklist. Les contrats comptent lorsqu’une compétence peut modifier des systèmes externes, du contenu public, des données, de l’argent, la posture de sécurité ou le comportement partagé d’un projet.
Comment réparer une mauvaise compétence ?
Ne supprimez pas une compétence utile parce qu’une exécution a échoué. Commencez par trouver où le comportement a rompu.
AgentRx se concentre sur la réparation des échecs d’agents en localisant les étapes critiques d’échec dans les trajectoires d’exécution, en générant des contraintes et en validant les réparations contre un journal auditable.5 L’article vise le comportement des agents au sens large plutôt que les fichiers de compétences en particulier, mais la forme de réparation s’applique bien aux compétences : trouver l’étape d’échec, déduire une contrainte, tester le comportement réparé et conserver les preuves.
La réparation d’une compétence devrait suivre la même séquence :
| Échec | Réparation |
|---|---|
| La compétence s’active trop largement | Resserrez la description et les exemples de déclenchement. |
| La compétence modifie le mauvais choix d’outil | Ajoutez des règles de sélection d’outil et des contre-exemples. |
| La compétence saute la vérification | Ajoutez une condition d’arrêt avant clôture. |
| La compétence crée un diff trop important | Ajoutez des limites de propriété et de chemins modifiés. |
| La compétence provoque un mouvement réseau | Ajoutez des règles de sortie et des exigences d’approbation. |
| La compétence améliore une tâche mais en dégrade une autre | Scindez la compétence ou limitez-la à la classe de tâches gagnante. |
Une réparation doit se terminer par un nouvel audit, pas par un message de commit confiant.
Si la trace montre encore le mauvais comportement après réparation, retirez la compétence.
Le standard minimal
Avant qu’une équipe partage une compétence d’agent IA, exigez un dossier d’audit comportemental.
| Champ | Preuve requise |
|---|---|
| Source | Dépôt, auteur, version et chemin d’installation. |
| Objectif | Classe de tâches que la compétence prétend améliorer. |
| Activation | Condition exacte qui devrait charger la compétence. |
| Comportement autorisé | Outils, fichiers, ressources et actions que la compétence peut influencer. |
| Comportement interdit | Outils, chemins, effets de bord et autorité que la compétence ne doit pas étendre. |
| Traces contrefactuelles | Même tâche avec et sans compétence. |
| Écart de résultat | Taux de réussite, taux d’échec, effort de revue et coût d’exécution. |
| Écart comportemental | Étapes modifiées, appels d’outils, effets de bord et preuves. |
| Décision de risque | Conserver, réviser, restreindre, bloquer ou retirer. |
| Retour arrière | Comment l’équipe retire la compétence et revient au comportement précédent. |
Ce dossier impose la bonne question.
La question n’est pas « la compétence a-t-elle aidé une fois ? ». La question est : « la compétence modifie-t-elle de manière fiable le comportement dans le sens voulu par l’équipe ? »
Le standard digne d’être conservé
Les compétences donnent vite l’impression que les agents s’améliorent. Cette vitesse pousse les équipes à accumuler fichiers de processus, commandes, agents, points d’accroche et prompts, parce que chacun semble peu coûteux.
Un contexte peu coûteux modifie quand même le comportement.
Une compétence digne de sa place améliore tout le flux de travail. Elle doit réduire la charge de revue, affûter les preuves, réduire le risque ou enseigner une procédure que l’agent ne pouvait pas exécuter de façon fiable sans elle. Une compétence qui rend seulement l’agent plus sûr de lui doit disparaître. Une compétence qui améliore le taux de réussite tout en élargissant des effets de bord cachés doit échouer à la revue.
Le standard devrait rester simple :
- Déclarez ce que la compétence doit changer.
- Prouvez que la trace a changé de cette façon.
- Nommez ce qui ne doit pas changer.
- Prouvez que la trace a respecté cette frontière.
- Ne gardez la compétence que si le comportement mérite d’exister.
Les compétences d’agents IA ne sont pas des notes magiques. Ce sont des patchs comportementaux. Traitez-les comme du code.
Résumé rapide
Les compétences d’agents IA ont besoin d’audits comportementaux parce que les taux de réussite cachent trop de choses. Counterfactual Trace Auditing montre que les compétences peuvent modifier des centaines de schémas de trace alors que la réussite agrégée bouge à peine.1 Behavioral Integrity Verification montre que les descriptions de compétences divergent souvent des capacités réelles.2 SkillsBench montre que des compétences sélectionnées peuvent aider, mais que les compétences générées automatiquement et les inadéquations de tâches peuvent échouer ou nuire.3
La règle d’exploitation est directe : évaluez le comportement, pas seulement le score. Une compétence mérite la confiance lorsque sa déclaration, ses traces, ses effets de bord, ses échecs, ses réparations et son chemin de retour arrière s’alignent.
FAQ
Qu’est-ce qu’un audit comportemental pour les compétences d’agents IA ?
Un audit comportemental vérifie comment une compétence modifie l’exécution réelle d’un agent : appels d’outils, accès aux fichiers, effets de bord, étapes de vérification, comportement de reprise et résultat final. Il compare le comportement observé avec l’objectif et les frontières déclarés de la compétence.
Pourquoi les taux de réussite ne suffisent-ils pas pour évaluer une compétence ?
Les taux de réussite indiquent si une tâche a réussi selon un évaluateur. Ils ne montrent pas si la compétence a élargi l’accès aux outils, ignoré des preuves, augmenté les effets de bord ou modifié le comportement d’une façon que l’équipe n’avait pas prévue.
Qu’est-ce que Counterfactual Trace Auditing ?
Counterfactual Trace Auditing compare les trajectoires d’agents avec et sans compétence, aligne les phases de trace et identifie les schémas comportementaux induits par la compétence. Cette méthode aide les équipes à voir les changements de comportement que les métriques agrégées de succès peuvent manquer.1
Qu’est-ce que Behavioral Integrity Verification ?
Behavioral Integrity Verification compare les descriptions de compétences avec leur comportement réel. Elle détecte les cas où la capacité annoncée, la condition d’activation ou la promesse de sécurité d’une compétence ne correspond pas au comportement observé.2
Que doit auditer une équipe avant de partager une compétence ?
Les équipes devraient auditer la source de la compétence, sa condition d’activation, ses capacités déclarées, les actions autorisées et interdites, les traces appariées, les effets de bord, les cas d’échec, le chemin de réparation et le plan de retour arrière.
Références
-
Xuanyu Zhang, Yiding Liu, Chengsong Huang, Ensheng Shi, Weizhi Ma, Yifei Zhang, Qun Liu, Shumin Deng, Jiahang Shen, and Shiqi Wang, “Counterfactual Trace Auditing of LLM Agent Skills,” arXiv:2605.11946v1, soumis le 13 mai 2026. Source pour la comparaison de traces appariées, la détection de schémas induits par les compétences, l’alignement des phases, l’évaluation des compétences WebArena, le gain agrégé de taux de réussite de +0,3 point de pourcentage et les 522 schémas comportementaux sur 49 tâches. ↩↩↩↩↩↩↩↩
-
Ning Liu, Meng Fang, Youtao Zhang, Dominik T. Matt, Stanislav Pletnev, Hongzhi Wang, and Erwin Schoitsch, “Behavioral Integrity Verification for Agentic AI Skills,” arXiv:2605.11770v1, soumis le 13 mai 2026. Source pour la vérification des capacités déclarées par rapport aux capacités réelles des compétences, l’analyse de compétences à l’échelle de dépôts, les constats d’écarts entre description et comportement, les catégories d’écarts par négligence et adversariaux, ainsi que les schémas de risque en plusieurs étapes. ↩↩↩↩↩↩
-
Lingkai Kong, Xiangliang Zhang, and Jiamou Liu, “SkillsBench: Can LLMs Learn from Their Own and Other Agents’ Skills for Reliable Task Execution?,” arXiv:2602.12670v1, soumis le 17 février 2026. Source pour l’évaluation SkillsBench sur 86 tâches et 7 308 trajectoires, l’amélioration du taux de réussite avec des compétences sélectionnées, le résultat des compétences générées automatiquement et les écarts négatifs selon les tâches. ↩↩↩↩↩
-
Meiyi Ma, Fengan Xia, Canran Xu, Wenqi Li, Aranya Roy, Zhaopeng Tu, Ranveer Chandra, and Dongmei Zhang, “ContractSkill: Contract-based Skill Design for LLM-powered Web Agents,” arXiv:2603.20340v1, soumis le 25 mars 2026. Source pour les définitions de compétences fondées sur des contrats, les préconditions, les postconditions, les procédures au niveau des étapes, la vérification déterministe, la localisation des fautes et la réparation locale minimale. ↩↩
-
Cunxiang Wang, Ruoxi Sun, Yidong Wang, Piji Li, and Yue Zhang, “AgentRx: Scalable Automated Failure Diagnosis and Repair for LLM Agents,” arXiv:2602.02475v1, soumis le 3 février 2026. Source pour la localisation des étapes critiques d’échec, la génération de contraintes, la validation par trace et les journaux de réparation auditables pour les échecs d’agents LLM. ↩