Skills de agentes de IA precisam de auditorias comportamentais, não de taxas de aprovação

13 min read

Skills de agentes de IA parecem fáceis de avaliar até a taxa de aprovação quase não sair do lugar.

A Auditoria Contrafactual de Rastreamentos relatou um ganho médio de +0,3 ponto percentual no sucesso das tarefas com o uso de skills em uma configuração de benchmark, enquanto a mesma auditoria ainda encontrou 522 formas específicas pelas quais as skills mudaram o comportamento dos agentes em 49 tarefas.¹ Um painel de taxa de aprovação chamaria isso de quase nada. Uma auditoria de rastreamento enxerga a mudança real.

Skills de agentes de IA precisam de auditorias comportamentais, não de taxas de aprovação. Uma skill pode mudar qual ferramenta o agente escolhe, qual caminho ele lê, qual evidência ele ignora, qual risco ele deixa passar e qual efeito colateral ele cria, mesmo quando o resultado final da tarefa parece igual.

Resumo rápido

Skills de agentes de IA não devem ganhar confiança só por taxas de aprovação. Uma taxa de aprovação diz às equipes se a tarefa final teve sucesso segundo um avaliador de benchmark. Uma auditoria comportamental pergunta se a skill mudou as ações do agente da forma que a equipe queria.

Pesquisas recentes deixam essa diferença difícil de ignorar. A Auditoria Contrafactual de Rastreamentos compara rastreamentos de agentes com e sem uma skill e revela padrões induzidos pela skill que métricas comuns de sucesso deixam passar.¹ O Behavioral Integrity Verification compara o que uma skill afirma fazer com o que ela de fato faz e relata uma incompatibilidade ampla entre descrição e comportamento em um grande corpus de skills.² O SkillsBench mostra que skills selecionadas podem melhorar o desempenho dos agentes, mas também mostra que skills autogeradas podem não ajudar e que algumas tarefas pioram com skills.³

A regra prática: não instale uma skill porque um benchmark subiu. Instale uma skill depois que o rastreamento mostrar que o comportamento faz sentido.

Principais aprendizados

Para equipes que usam skills de agentes: - Trate cada skill como código que muda comportamento, mesmo quando o arquivo contém apenas Markdown. - Audite mudanças de rastreamento, efeitos colaterais e modos de falha antes de compartilhar a skill entre projetos.

Para autores de skills: - Declare o comportamento esperado, as ferramentas permitidas, as ações proibidas e as obrigações de evidência. - Teste a skill contra rastreamentos pareados, não apenas contra resultados finais das tarefas.

Para revisores de segurança: - Compare capacidades declaradas com capacidades observadas. - Marque expansão oculta, acesso externo, ações destrutivas e desvios de política como defeitos da skill.

Para equipes de avaliação: - Relate separadamente taxa de aprovação, variação de comportamento, variação de efeitos colaterais e esforço de revisão. - Uma taxa de aprovação estável ainda pode esconder uma mudança comportamental perigosa.

Por que taxas de aprovação deixam riscos de skill passar?

Taxas de aprovação comprimem o objeto errado.

Uma skill muda o agente antes de a tarefa começar. Ela pode acrescentar um procedimento de domínio, preferência por ferramentas, regras de formatação, etapas de revisão, linguagem de confiança ou comportamento de recuperação. O avaliador do benchmark geralmente vê apenas o artefato final: correto ou incorreto.

Isso cria um ponto cego:

Efeito da skill	O que a taxa de aprovação vê	O que a auditoria comportamental vê
Melhor ordem de ferramentas	Talvez sucesso	Qual chamada veio antes e por quê.
Leituras extras de arquivos	Talvez sucesso	Quais arquivos entraram no contexto.
Patches mais agressivos	Talvez sucesso	Tamanho do diff, propriedade e risco de rollback.
Verificação pulada	Talvez sucesso	Evidência ausente antes da conclusão.
Acesso externo oculto	Talvez sucesso	Expansão de rede ou limite de MCP.
Menor esforço de revisão	Talvez sucesso	Rastreamento menor, prova mais clara, menos alegações não resolvidas.

A resposta final pode parecer certa enquanto a skill torna a execução menos confiável. O contrário também pode acontecer: uma skill pode gerar um resultado com falha e, ainda assim, ensinar um padrão melhor de busca ou recuperação que merece reparo em vez de exclusão.

A taxa de aprovação pertence à auditoria. Ela não pode ser a auditoria.

O que a Auditoria Contrafactual de Rastreamentos acrescentou?

A Auditoria Contrafactual de Rastreamentos compara duas execuções: uma com a skill e outra sem ela.¹

O ponto do artigo se sustenta porque o ganho de taxa de aprovação destacado fica minúsculo na configuração WebArena relatada. O sucesso médio das tarefas sobe apenas +0,3 ponto percentual quando o benchmark usa skills.¹ Mesmo assim, os autores identificam 522 padrões de comportamento induzidos por skills em 49 tarefas, cobrindo mudanças como etapas de validação, interação com formulários, recuperação de erros, navegação em páginas e padrões de uso indevido.¹

Essa divisão é o artigo.

A skill afetou o comportamento mesmo quando o sucesso agregado das tarefas quase não mudou.

A CTA funciona alinhando rastreamentos em fases e identificando padrões induzidos pela skill. A auditoria não pergunta apenas se uma tarefa passou. Ela pergunta onde a skill mudou a trajetória, se a mudança ajudou ou atrapalhou e qual instrução da skill parece responsável.¹

Esse método oferece às equipes um objeto de revisão melhor:

Pergunta da auditoria	Por que importa
Qual etapa mudou?	Conecta o comportamento a um ponto do rastreamento.
Qual instrução causou a mudança?	Conecta o comportamento ao texto da skill.
A mudança ajudou, prejudicou ou só deslocou custo?	Evita teatro de taxa de aprovação.
A mudança criou efeitos colaterais?	Captura riscos escondidos atrás do sucesso.
A mudança se generaliza entre tarefas?	Separa uma execução sortuda de uma skill que vale manter.

As equipes precisam desse objeto antes de promover uma skill de experimento local a processo compartilhado.

O que o Behavioral Integrity Verification acrescentou?

O Behavioral Integrity Verification faz outra pergunta: uma skill faz o que sua descrição diz?²

O artigo do BIV estuda repositórios de skills em larga escala e relata que mais de 80% das skills analisadas apresentaram algum tipo de desvio entre descrição e comportamento.² Os autores classificam a maioria dos desvios como resultado de descuido, não de adversarialidade, mas ainda encontram casos adversariais e padrões de risco em múltiplos estágios.²

Esse achado importa porque descrições orientam a ativação.

Em sistemas de agentes, a descrição de uma skill muitas vezes decide se ela entra no contexto. A descrição diz quando o agente deve carregá-la. Se a descrição minimiza a capacidade, esconde efeitos colaterais ou deixa de mencionar acesso a ferramentas, o agente e o usuário tomam uma decisão ruim de roteamento antes de qualquer raciocínio específico da tarefa começar.

O BIV aponta para uma camada de manifesto ausente nas skills:

Superfície declarada	O que a auditoria comportamental deve verificar
Condição de ativação	A skill roda apenas para a classe de tarefa declarada?
Capacidade	O comportamento observado permanece dentro da alegação?
Uso de ferramentas	Quais ferramentas, comandos, servidores MCP ou arquivos a skill causa?
Efeitos colaterais	A skill lê, escreve, exclui, envia, gasta, publica ou faz deploy?
Acesso externo	A skill cria movimento de rede, navegador ou terceiros?
Alegação de segurança	A skill realmente acrescenta a verificação prometida?
Limite de recusa	A skill preserva ações bloqueadas?

A versão assustadora é uma skill maliciosa que mente. A versão comum é uma skill descuidada que esquece de dizer a verdade.

As duas versões precisam de auditoria.

O que o SkillsBench acrescentou?

O SkillsBench mostra por que as equipes não devem exagerar na correção e declarar que skills não servem para nada.

O benchmark avalia skills de agentes em 86 tarefas e 7.308 trajetórias.³ O artigo relata que skills selecionadas melhoram a taxa média de aprovação em 16,2 pontos percentuais em relação a uma linha de base sem skills, enquanto skills autogeradas não trazem benefício em média.³ Ele também relata variações negativas em algumas tarefas, ou seja, uma skill pode piorar certos trabalhos.³

Esse resultado dá a visão equilibrada.

Skills podem ajudar. A qualidade da skill importa. A adequação à tarefa importa. A origem importa. O método de avaliação importa.

A lição de adoção não é “evite skills”. A lição de adoção é “revise skills como pacotes de capacidade”.

Uma skill útil deve responder:

Pergunta	Resposta necessária
Qual trabalho a skill melhora?	Classe de tarefa e leitor/usuário concretos.
Qual comportamento deve mudar?	Escolha de ferramenta, checagem de evidência, formato, revisão ou padrão de recuperação.
Qual comportamento não pode mudar?	Ferramentas, caminhos, efeitos colaterais e limites de autoridade proibidos.
Que evidência prova que a skill ajudou?	Variação de rastreamento, taxa de aprovação, esforço de revisão e perfil de efeitos colaterais.
Como a equipe pode removê-la?	Versão, responsável, rollback e caminho de substituição.

A skill só merece promoção quando o comportamento observado corresponde a essas respostas.

Como é uma auditoria comportamental?

Uma auditoria comportamental compara o comportamento esperado da skill com o comportamento observado do agente.

A auditoria mínima tem quatro passagens.

Passagem da auditoria	Evidência
Auditoria de declaração	Descrição da skill, condição de ativação, capacidades, ferramentas e ações proibidas.
Auditoria contrafactual de rastreamento	Execuções pareadas com e sem a skill no mesmo conjunto de tarefas.
Auditoria de efeitos colaterais	Arquivos, comandos, chamadas de rede, escritas externas, aprovações e estado de rollback.
Auditoria de falhas	Execuções com falha, quase falhas, erros recuperados e padrões repetidos de reparo.

A saída deve se parecer menos com um ranking e mais com um pacote de revisão.

Para cada tarefa, registre:

Nome da tarefa e faixa de risco.
Versão e origem da skill.
Rastreamento de linha de base.
Rastreamento com a skill.
Etapas alteradas.
Chamadas de ferramentas alteradas.
Efeitos colaterais alterados.
Evidência obtida ou perdida.
Resultado final.
Decisão do revisor: manter, revisar, escopar, bloquear ou aposentar.

Esse pacote dá a um revisor humano uma forma de fazer um julgamento que sobreviva a uma única execução de benchmark.

Onde entram os contratos de skill?

O ContractSkill aponta para um formato mais limpo para skills que precisam de comportamento mais rigoroso.⁴

O artigo argumenta que skills para agentes web escritas em linguagem natural podem ser ambíguas, frágeis e difíceis de depurar. Ele propõe skills baseadas em contrato, com definições explícitas de tarefa, pré-condições, pós-condições e procedimentos no nível de etapas, para que um sistema consiga localizar falhas e reparar a parte afetada em vez de reescrever a skill inteira.⁴

Esse enquadramento por contrato combina com auditorias comportamentais.

Skill livre	Skill em formato de contrato
“Use cuidado ao publicar.”	“Antes de publicar, verifique URLs das fontes, renderização da rota, schema e rollback.”
“Verifique a página.”	“Busque a rota, confirme status 200, confirme marcador alterado, confirme ausência de texto de fallback.”
“Evite comandos arriscados.”	“Bloqueie delete, force push, POST externo e escritas fora dos caminhos sob responsabilidade.”
“Traduza com naturalidade.”	“Preserve URLs e citações; traduza headings visíveis; barre resíduos de inglês.”

Skills em formato de contrato reduzem ambiguidade. Elas também barateiam auditorias, porque o comportamento esperado fica em uma estrutura que o revisor pode comparar com o rastreamento.

O contrato não deve transformar toda skill em algo enorme. Skills simples ainda funcionam para tarefas de baixo risco, como formato de escrita ou checklists. Contratos importam quando uma skill pode alterar sistemas externos, conteúdo público, dados, dinheiro, postura de segurança ou comportamento compartilhado do projeto.

Como reparar uma skill ruim?

Não exclua uma skill útil porque uma execução falhou. Primeiro identifique onde o comportamento quebrou.

O AgentRx se concentra em reparar falhas de agentes localizando etapas críticas de falha em trajetórias de execução, gerando restrições e validando reparos contra um log auditável.⁵ O artigo mira o comportamento de agentes de forma ampla, não especificamente arquivos de skill, mas o formato de reparo se encaixa bem em skills: encontrar a etapa de falha, derivar uma restrição, testar o comportamento reparado e preservar a evidência.

O reparo de skills deve seguir a mesma sequência:

Falha	Reparo
A skill ativa de forma ampla demais	Restrinja a descrição e os exemplos de gatilho.
A skill muda a escolha de ferramenta errada	Adicione regras de seleção de ferramenta e contraexemplos.
A skill pula a verificação	Adicione uma condição de parada antes da conclusão.
A skill cria diff demais	Adicione limites de propriedade e caminhos alterados.
A skill causa movimento de rede	Adicione regras de saída e requisitos de aprovação.
A skill melhora uma tarefa, mas prejudica outra	Divida a skill ou limite seu escopo à classe de tarefa vencedora.

O reparo deve terminar com uma nova auditoria, não com uma mensagem de commit confiante.

Se o rastreamento ainda mostrar o comportamento errado depois do reparo, aposente a skill.

O padrão mínimo

Antes de uma equipe compartilhar uma skill de agente de IA, exija um pacote de auditoria comportamental.

Campo	Evidência necessária
Origem	Repositório, autor, versão e caminho de instalação.
Propósito	A classe de tarefa que a skill afirma melhorar.
Ativação	A condição exata que deve carregar a skill.
Comportamento permitido	Ferramentas, arquivos, recursos e ações que a skill pode influenciar.
Comportamento proibido	Ferramentas, caminhos, efeitos colaterais e autoridade que a skill não pode expandir.
Rastreamentos contrafactuais	A mesma tarefa com e sem a skill.
Variação de resultado	Taxa de aprovação, taxa de falha, esforço de revisão e custo de execução.
Variação de comportamento	Etapas alteradas, chamadas de ferramentas, efeitos colaterais e evidências.
Decisão de risco	Manter, revisar, escopar, bloquear ou aposentar.
Rollback	Como a equipe remove a skill e volta ao comportamento anterior.

Esse pacote força a pergunta certa.

A pergunta não é “a skill ajudou uma vez?”. A pergunta é “a skill muda o comportamento de forma confiável na direção que a equipe quer?”.

O padrão digno

Skills fazem agentes parecerem melhores rapidamente. Essa velocidade tenta equipes a acumular arquivos de processo, comandos, agentes, hooks e prompts porque cada item parece barato.

Contexto barato ainda muda comportamento.

Uma skill digna conquista seu lugar ao melhorar o fluxo de trabalho inteiro. Ela deve reduzir o esforço de revisão, tornar a evidência mais nítida, estreitar o risco ou ensinar um procedimento que o agente não conseguia executar de forma confiável sem ela. Uma skill que só faz o agente soar mais confiante deve desaparecer. Uma skill que melhora a taxa de aprovação enquanto expande efeitos colaterais ocultos deve falhar na revisão.

O padrão deve continuar simples:

Declare o que a skill deve mudar.
Prove que o rastreamento mudou dessa forma.
Nomeie o que não pode mudar.
Prove que o rastreamento respeitou esse limite.
Mantenha a skill apenas quando o comportamento merecer existir.

Skills de agentes de IA não são notas mágicas. Elas são patches de comportamento. Trate-as como código.

Resumo final

Skills de agentes de IA precisam de auditorias comportamentais porque taxas de aprovação escondem coisa demais. A Auditoria Contrafactual de Rastreamentos mostra que skills podem mudar centenas de padrões de rastreamento enquanto o sucesso agregado quase não muda.¹ O Behavioral Integrity Verification mostra que descrições de skills frequentemente divergem das capacidades reais.² O SkillsBench mostra que skills selecionadas podem ajudar, mas skills autogeradas e incompatibilidade com a tarefa podem falhar ou prejudicar.³

A regra operacional é direta: avalie o comportamento, não apenas a pontuação. Uma skill merece confiança quando sua declaração, seus rastreamentos, seus efeitos colaterais, suas falhas, seus reparos e seu caminho de rollback estão alinhados.

FAQ

O que é uma auditoria comportamental para skills de agentes de IA?

Uma auditoria comportamental verifica como uma skill muda a execução real de um agente: chamadas de ferramentas, acesso a arquivos, efeitos colaterais, etapas de verificação, comportamento de recuperação e resultado final. Ela compara o comportamento observado com o propósito e os limites declarados da skill.

Por que taxas de aprovação não bastam para avaliar skills?

Taxas de aprovação mostram se uma tarefa teve sucesso segundo um avaliador. Elas não mostram se a skill expandiu o acesso a ferramentas, pulou evidências, aumentou efeitos colaterais ou mudou o comportamento de formas que a equipe não pretendia.

O que é a Auditoria Contrafactual de Rastreamentos?

A Auditoria Contrafactual de Rastreamentos compara trajetórias de agentes com e sem uma skill, alinha fases de rastreamento e identifica padrões de comportamento induzidos pela skill. Ela ajuda equipes a enxergar mudanças de comportamento que métricas agregadas de sucesso podem deixar passar.¹

O que é Behavioral Integrity Verification?

Behavioral Integrity Verification compara descrições de skills com o comportamento real das skills. Ele detecta quando a capacidade declarada, a condição de ativação ou a alegação de segurança de uma skill não corresponde ao comportamento observado.²

O que uma equipe deve auditar antes de compartilhar uma skill?

As equipes devem auditar a origem da skill, a condição de ativação, as capacidades declaradas, as ações permitidas e proibidas, os rastreamentos pareados, os efeitos colaterais, os casos de falha, o caminho de reparo e o plano de rollback.

Referências

Xuanyu Zhang, Yiding Liu, Chengsong Huang, Ensheng Shi, Weizhi Ma, Yifei Zhang, Qun Liu, Shumin Deng, Jiahang Shen, and Shiqi Wang, “Counterfactual Trace Auditing of LLM Agent Skills,” arXiv:2605.11946v1, enviado em 13 de maio de 2026. Fonte para comparação de rastreamentos pareados, detecção de padrões induzidos por skills, alinhamento de fases, avaliação de skills no WebArena, ganho agregado de +0,3 ponto percentual na taxa de aprovação e 522 padrões de comportamento em 49 tarefas. ↩↩↩↩↩↩↩↩
Ning Liu, Meng Fang, Youtao Zhang, Dominik T. Matt, Stanislav Pletnev, Hongzhi Wang, and Erwin Schoitsch, “Behavioral Integrity Verification for Agentic AI Skills,” arXiv:2605.11770v1, enviado em 13 de maio de 2026. Fonte para verificação de capacidades declaradas versus reais de skills, análise de skills em escala de repositório, achados de desvio entre descrição e comportamento, categorias de desvio por descuido e adversariais, e padrões de risco em múltiplos estágios. ↩↩↩↩↩↩
Lingkai Kong, Xiangliang Zhang, and Jiamou Liu, “SkillsBench: Can LLMs Learn from Their Own and Other Agents’ Skills for Reliable Task Execution?,” arXiv:2602.12670v1, enviado em 17 de fevereiro de 2026. Fonte para a avaliação SkillsBench com 86 tarefas e 7.308 trajetórias, melhoria de taxa de aprovação com skills selecionadas, resultado de skills autogeradas e variações negativas por tarefa. ↩↩↩↩↩
Meiyi Ma, Fengan Xia, Canran Xu, Wenqi Li, Aranya Roy, Zhaopeng Tu, Ranveer Chandra, and Dongmei Zhang, “ContractSkill: Contract-based Skill Design for LLM-powered Web Agents,” arXiv:2603.20340v1, enviado em 25 de março de 2026. Fonte para definições de skills baseadas em contrato, pré-condições, pós-condições, procedimentos no nível de etapas, verificação determinística, localização de falhas e reparo local mínimo. ↩↩
Cunxiang Wang, Ruoxi Sun, Yidong Wang, Piji Li, and Yue Zhang, “AgentRx: Scalable Automated Failure Diagnosis and Repair for LLM Agents,” arXiv:2602.02475v1, enviado em 3 de fevereiro de 2026. Fonte para localização de etapas críticas de falha, geração de restrições, validação de rastreamentos e logs de reparo auditáveis para falhas de agentes LLM. ↩