Agentes de uso de computador compartilham demais por padrão

Q: O que é o AgentCIBench?

O AgentCIBench é o benchmark apresentado em Capable but Careless que transforma o vazamento entre contextos em cenários executáveis e pontuados de forma determinística. Ele testa três modos de falha (colocalização visual, compartilhamento excessivo por ambiguidade de tarefa e desalinhamento de destinatário) e foi usado para avaliar 15 agentes de uso de computador de ponta.

9 min read

From the guide: Claude Code Comprehensive Guide

Um agente de uso de computador a quem se pede que encaminhe “os números do Q3” para um colega precisa decidir o que conta como os números do Q3, qual arquivo os contém e se a planilha aberta ao lado deles pertence ao mesmo e-mail. Um benchmark de junho de 2026 submeteu 15 agentes de ponta a esse tipo de decisão e descobriu que 11 deles vazaram informações privadas em mais da metade dos cenários testados, com uma taxa média de vazamento de 67,9%.¹

A falha de privacidade nos agentes de uso de computador não é injeção de prompt. Nenhum adversário planta nada. O agente vaza porque está tentando ser prestativo e não consegue distinguir qual informação pertence ao contexto em que está atuando. Um novo artigo, Capable but Careless: Do Computer-Use Agents Follow Contextual Integrity?, dá nome a esse modo de falha, constrói um benchmark para ele e mostra que está difundido por toda a fronteira.¹

O resultado merece atenção porque isola um risco que a conversa sobre segurança de agentes em grande parte ignorou. Já escrevi antes sobre duas entradas não confiáveis e as falhas provocadas por atacantes em agentes que usam ferramentas. O compartilhamento excessivo contextual tem o formato oposto: o perigo é interno, é o próprio julgamento do agente sobre a divulgação apropriada, e aparece mesmo quando nada de malicioso está no circuito.

TL;DR

Os agentes de uso de computador (CUAs) atuam em aplicativos pessoais como e-mail, calendários e listas de tarefas. O acesso entre aplicativos é útil, mas permite que um agente puxe informações de um contexto para outro, onde elas não pertencem.¹
Capable but Careless (2026) apresenta o AgentCIBench, um benchmark que transforma o risco em cenários executáveis e pontuados de forma determinística, e avalia 15 agentes de ponta.¹
O benchmark mira três modos de falha: colocalização visual, compartilhamento excessivo por ambiguidade de tarefa e desalinhamento de destinatário.¹
Onze de 15 agentes vazaram em mais de 50% dos cenários, com média de 67,9% de vazamento, e as falhas persistiram quando os agentes atuaram de ponta a ponta para concluir a tarefa.¹
O enquadramento é a integridade contextual, a ideia de Helen Nissenbaum de que privacidade tem a ver com a informação fluindo de forma apropriada para o seu contexto, e não com sigilo.² Os agentes são capazes; o que lhes falta é a noção de para onde a informação tem permissão de ir.

Uma falha diferente da injeção de prompt

A maior parte do trabalho de segurança de agentes, inclusive o meu, parte de um adversário. Alguém esconde uma instrução em uma página web, na descrição de uma ferramenta ou em um documento, e o agente a obedece. A defesa é desconfiar das entradas e restringir o que o agente pode fazer com elas.

O compartilhamento excessivo contextual não tem adversário. O usuário faz uma solicitação razoável, o agente tenta atendê-la e, no processo, divulga algo que era privado de um contexto diferente. O artigo enquadra isso por meio da integridade contextual, a teoria de privacidade de Helen Nissenbaum, que sustenta que os fluxos de informação carregam normas atreladas ao contexto em que ocorrem.² Seu terapeuta saber o seu diagnóstico é apropriado. Seu terapeuta encaminhá-lo ao seu empregador viola a norma mesmo que tecnicamente nenhum segredo tenha sido quebrado, porque a informação cruzou uma fronteira de contexto que não deveria cruzar.

Um agente de uso de computador opera em muitos desses contextos ao mesmo tempo. Ele pode ver o seu calendário enquanto redige um e-mail, a sua lista completa de contatos enquanto envia para uma única pessoa, a sua lista inteira de tarefas enquanto responde a uma pergunta sobre um único item. Cada uma dessas adjacências é uma chance de puxar algo apropriado em um lugar para um lugar onde não é. O agente não está comprometido. Ele é prestativo demais, e a prestatividade excessiva em um ambiente multicontexto se parece com um vazamento de privacidade.

As três maneiras pelas quais os agentes vazam

O AgentCIBench operacionaliza o risco como cenários pontuados de forma determinística em três modos de falha, que é a parte do artigo que vale a pena internalizar, porque cada um mapeia para uma interface real que um agente toca.¹

Colocalização visual. O agente puxa itens proibidos que ficam ao lado do alvo da tarefa na interface. Solicitado a anexar uma fatura, ele também pega a fatura adjacente, porque ambas estavam na tela e a proximidade foi lida como relevância. O layout da interface, e não a tarefa, dirigiu a divulgação.

Compartilhamento excessivo por ambiguidade de tarefa. Diante de um prompt subespecificado, o agente despeja um estado pessoal denso em vez de perguntar ou restringir. “Conte a eles no que estou trabalhando” vira a lista de tarefas inteira, incluindo os itens que o destinatário nunca deveria ver. A ambiguidade se resolve em direção a mais divulgação, não a menos.

Desalinhamento de destinatário. O agente envia conteúdo a um destinatário para quem ele é inapropriado. A informação certa vai para a pessoa errada, um instinto de responder a todos aplicado a dados que pertenciam a uma única relação.

Os três modos compartilham uma causa raiz. O agente trata acesso como permissão. Por poder ver a fatura adjacente, a lista de tarefas completa, o conjunto mais amplo de destinatários, ele se comporta como se usar esse acesso fosse apropriado. A integridade contextual é precisamente o julgamento de que acesso e adequação são coisas diferentes, e o benchmark mostra que os agentes atuais não fazem essa distinção de forma confiável.

Quão grave é, e por que persiste

Os números de destaque não são marginais. Entre os 15 agentes de ponta, 11 vazaram em mais da metade dos cenários, e o vazamento médio chegou a 67,9%.¹ Um modo de falha que aparece duas vezes em três na maior parte do campo não é um caso extremo. É comportamento padrão.

O detalhe que mais importa para quem está lançando agentes é que as falhas persistiram quando os agentes atuaram de ponta a ponta no ambiente para concluir a tarefa, e não apenas em sondagens isoladas.¹ Um vazamento que só aparecesse sob condições artificiais seria fácil de descartar. Um vazamento que sobrevive ao agente fazendo trabalho real é uma propriedade de como o agente opera, e o artigo posiciona o teste de divulgação contextual como uma verificação de segurança pré-implantação exatamente por essa razão.¹

A razão pela qual a falha persiste é que nada no objetivo normal do agente empurra contra ela. O agente é recompensado por concluir a tarefa. Divulgar demais raramente impede a conclusão da tarefa, então a divulgação excessiva não acarreta custo no circuito que molda o comportamento. Sem um sinal explícito de que alguma informação acessível está fora dos limites neste contexto, o caminho prestativo e o caminho vazante são o mesmo caminho.

O que fazer a respeito

A solução não é tornar os agentes menos capazes. É tornar a adequação uma restrição que o agente verifica, em vez de uma norma que se presume que ele infira. O padrão ecoa o que argumentei sobre prompts de aprovação: não se deve confiar que o agente decida silenciosamente o que cruza uma fronteira.

Condicione a divulgação ao destinatário e ao contexto, não ao acesso. Antes que um agente envie, anexe ou compartilhe, a pergunta relevante não é “o agente consegue ver isto”, mas “isto pertence a este fluxo, para este destinatário”. O acesso é o substituto errado para a permissão, e os três modos de falha são todos instâncias de usá-lo como tal.

Trate a ambiguidade como uma parada, não como uma licença. Uma solicitação subespecificada é a entrada de maior risco, porque o agente a resolve em direção à divulgação. Um agente que restringe ou pergunta quando uma solicitação é vaga vaza menos do que um que preenche a lacuna com tudo o que consegue ver.

Teste o vazamento antes da implantação. A contribuição do artigo é em parte um método: cenários pontuados de forma determinística que transformam a integridade contextual em algo que você pode medir. Tratar a divulgação contextual como uma verificação pré-implantação, ao lado das verificações de observabilidade e sandboxing que detectam falhas provocadas por atacantes, fecha uma lacuna que essas verificações não cobrem.

O ponto mais amplo é que a segurança de agentes tem duas metades. Uma metade é adversarial: entradas não confiáveis, injeção, envenenamento de ferramentas, as falhas que um atacante causa. A outra metade é disposicional: o que o agente faz com acesso legítimo quando ninguém está atacando. Os agentes de uso de computador são capazes o suficiente para atuar em cada contexto que você possui. Se eles deveriam é uma pergunta que atualmente respondem errado duas vezes em três.

Principais conclusões

Para quem implanta agentes de uso de computador: - Adicione o teste de divulgação contextual às suas verificações pré-implantação. As avaliações focadas em atacantes não detectam o compartilhamento excessivo. - Condicione as ações de compartilhamento à adequação do destinatário e do contexto, não a se o agente consegue acessar os dados. - Trate solicitações vagas como o caso de maior risco, porque os agentes resolvem a ambiguidade em direção a mais divulgação.

Para quem constrói agentes e produtos: - Os três modos de falha (colocalização visual, compartilhamento excessivo por ambiguidade de tarefa, desalinhamento de destinatário) mapeiam para superfícies de interface concretas. Projete cada superfície presumindo que a proximidade será lida como relevância. - A recompensa por conclusão de tarefa não dá nenhum sinal contra a divulgação excessiva. Se a adequação importa, torne-a uma restrição explícita.

Para revisores de segurança e privacidade: - A integridade contextual oferece um enquadramento utilizável: avalie os fluxos de informação em relação às normas de contexto, não em relação a um binário de sigilo. - Uma taxa média de vazamento de 67,9% entre agentes de ponta significa que os padrões atuais são inseguros para ação autônoma multicontexto sem controles de divulgação.

Perguntas frequentes

O que é integridade contextual?

A integridade contextual é uma teoria de privacidade de Helen Nissenbaum que sustenta que os fluxos de informação carregam normas atreladas ao contexto em que ocorrem. A privacidade é preservada quando a informação se move de maneiras apropriadas ao seu contexto e violada quando ela cruza para um contexto onde as normas vigentes não a permitem, mesmo que nada fosse tecnicamente secreto.

Em que isso difere da injeção de prompt?

A injeção de prompt é adversarial: um atacante esconde instruções que sequestram o agente. O compartilhamento excessivo contextual não tem atacante. O usuário faz uma solicitação legítima e o agente, tentando ajudar, divulga informações que pertenciam a um contexto diferente. Os dois exigem defesas diferentes, e o teste focado em atacantes não detecta o compartilhamento excessivo.

O que é o AgentCIBench?

O AgentCIBench é o benchmark apresentado em Capable but Careless que transforma o vazamento entre contextos em cenários executáveis e pontuados de forma determinística. Ele testa três modos de falha (colocalização visual, compartilhamento excessivo por ambiguidade de tarefa e desalinhamento de destinatário) e foi usado para avaliar 15 agentes de uso de computador de ponta.

Quantos agentes falharam?

Dos 15 agentes de ponta testados, 11 vazaram informações privadas em mais de 50% dos cenários, com uma taxa média de vazamento de 67,9%. As falhas persistiram quando os agentes atuaram de ponta a ponta para concluir tarefas, e não apenas em sondagens isoladas.

Posso corrigir isso com prompts melhores?

Prompts podem ajudar, mas o enquadramento do artigo sugere que a solução duradoura é estrutural: condicione as ações de divulgação à adequação do destinatário e do contexto, em vez de ao acesso, e teste o vazamento antes da implantação. Como os objetivos de conclusão de tarefa não dão nenhum sinal contra a divulgação excessiva, a adequação precisa ser aplicada como uma restrição, e não presumida.

Fontes

Anmol Goel e Iryna Gurevych, “Capable but Careless: Do Computer-Use Agents Follow Contextual Integrity?”, arXiv, 22 de junho de 2026: arxiv.org/abs/2606.23189
Helen Nissenbaum, “Privacy as Contextual Integrity”, Washington Law Review 79, no. 1 (2004), a origem do framework, posteriormente desenvolvido em Privacy in Context (Stanford University Press, 2010): Washington Law Review
Textos relacionados sobre segurança de agentes: duas entradas não confiáveis, prompts de aprovação não são autorização e o agente invisível

Goel e Gurevych, “Capable but Careless: Do Computer-Use Agents Follow Contextual Integrity?”, arXiv:2606.23189 (22 de junho de 2026). O resumo relata o benchmark AgentCIBench, os três modos de falha (colocalização visual, compartilhamento excessivo por ambiguidade de tarefa, desalinhamento de destinatário), a avaliação de 15 agentes de ponta, a constatação de que 11 de 15 vazam em mais de 50% dos cenários com 67,9% de vazamento médio, a persistência das falhas na conclusão de tarefas de ponta a ponta e o posicionamento do teste de divulgação contextual como uma verificação de segurança pré-implantação. ↩↩↩↩↩↩↩↩↩↩
Helen Nissenbaum, “Privacy as Contextual Integrity”, Washington Law Review 79, no. 1 (2004), e Privacy in Context: Technology, Policy, and the Integrity of Social Life (Stanford University Press, 2010). A integridade contextual atrela a privacidade a normas informacionais relativas ao contexto, exigindo que os fluxos de informação sejam apropriados ao contexto em que ocorrem. ↩↩