← Todos os Posts

Agentes de uso de computador compartilham demais por padrão

From the guide: Claude Code Comprehensive Guide

Um agente de uso de computador a quem se pede que encaminhe “os números do Q3” para um colega precisa decidir o que conta como os números do Q3, qual arquivo os contém e se a planilha aberta ao lado deles pertence ao mesmo e-mail. Um benchmark de junho de 2026 submeteu 15 agentes de ponta a esse tipo de decisão e descobriu que 11 deles vazaram informações privadas em mais da metade dos cenários testados, com uma taxa média de vazamento de 67,9%.1

A falha de privacidade nos agentes de uso de computador não é injeção de prompt. Nenhum adversário planta nada. O agente vaza porque está tentando ser prestativo e não consegue distinguir qual informação pertence ao contexto em que está atuando. Um novo artigo, Capable but Careless: Do Computer-Use Agents Follow Contextual Integrity?, dá nome a esse modo de falha, constrói um benchmark para ele e mostra que está difundido por toda a fronteira.1

O resultado merece atenção porque isola um risco que a conversa sobre segurança de agentes em grande parte ignorou. Já escrevi antes sobre duas entradas não confiáveis e as falhas provocadas por atacantes em agentes que usam ferramentas. O compartilhamento excessivo contextual tem o formato oposto: o perigo é interno, é o próprio julgamento do agente sobre a divulgação apropriada, e aparece mesmo quando nada de malicioso está no circuito.

TL;DR

  • Os agentes de uso de computador (CUAs) atuam em aplicativos pessoais como e-mail, calendários e listas de tarefas. O acesso entre aplicativos é útil, mas permite que um agente puxe informações de um contexto para outro, onde elas não pertencem.1
  • Capable but Careless (2026) apresenta o AgentCIBench, um benchmark que transforma o risco em cenários executáveis e pontuados de forma determinística, e avalia 15 agentes de ponta.1
  • O benchmark mira três modos de falha: colocalização visual, compartilhamento excessivo por ambiguidade de tarefa e desalinhamento de destinatário.1
  • Onze de 15 agentes vazaram em mais de 50% dos cenários, com média de 67,9% de vazamento, e as falhas persistiram quando os agentes atuaram de ponta a ponta para concluir a tarefa.1
  • O enquadramento é a integridade contextual, a ideia de Helen Nissenbaum de que privacidade tem a ver com a informação fluindo de forma apropriada para o seu contexto, e não com sigilo.2 Os agentes são capazes; o que lhes falta é a noção de para onde a informação tem permissão de ir.

Uma falha diferente da injeção de prompt

A maior parte do trabalho de segurança de agentes, inclusive o meu, parte de um adversário. Alguém esconde uma instrução em uma página web, na descrição de uma ferramenta ou em um documento, e o agente a obedece. A defesa é desconfiar das entradas e restringir o que o agente pode fazer com elas.

O compartilhamento excessivo contextual não tem adversário. O usuário faz uma solicitação razoável, o agente tenta atendê-la e, no processo, divulga algo que era privado de um contexto diferente. O artigo enquadra isso por meio da integridade contextual, a teoria de privacidade de Helen Nissenbaum, que sustenta que os fluxos de informação carregam normas atreladas ao contexto em que ocorrem.2 Seu terapeuta saber o seu diagnóstico é apropriado. Seu terapeuta encaminhá-lo ao seu empregador viola a norma mesmo que tecnicamente nenhum segredo tenha sido quebrado, porque a informação cruzou uma fronteira de contexto que não deveria cruzar.

Um agente de uso de computador opera em muitos desses contextos ao mesmo tempo. Ele pode ver o seu calendário enquanto redige um e-mail, a sua lista completa de contatos enquanto envia para uma única pessoa, a sua lista inteira de tarefas enquanto responde a uma pergunta sobre um único item. Cada uma dessas adjacências é uma chance de puxar algo apropriado em um lugar para um lugar onde não é. O agente não está comprometido. Ele é prestativo demais, e a prestatividade excessiva em um ambiente multicontexto se parece com um vazamento de privacidade.

As três maneiras pelas quais os agentes vazam

O AgentCIBench operacionaliza o risco como cenários pontuados de forma determinística em três modos de falha, que é a parte do artigo que vale a pena internalizar, porque cada um mapeia para uma interface real que um agente toca.1

Colocalização visual. O agente puxa itens proibidos que ficam ao lado do alvo da tarefa na interface. Solicitado a anexar uma fatura, ele também pega a fatura adjacente, porque ambas estavam na tela e a proximidade foi lida como relevância. O layout da interface, e não a tarefa, dirigiu a divulgação.

Compartilhamento excessivo por ambiguidade de tarefa. Diante de um prompt subespecificado, o agente despeja um estado pessoal denso em vez de perguntar ou restringir. “Conte a eles no que estou trabalhando” vira a lista de tarefas inteira, incluindo os itens que o destinatário nunca deveria ver. A ambiguidade se resolve em direção a mais divulgação, não a menos.

Desalinhamento de destinatário. O agente envia conteúdo a um destinatário para quem ele é inapropriado. A informação certa vai para a pessoa errada, um instinto de responder a todos aplicado a dados que pertenciam a uma única relação.

Os três modos compartilham uma causa raiz. O agente trata acesso como permissão. Por poder ver a fatura adjacente, a lista de tarefas completa, o conjunto mais amplo de destinatários, ele se comporta como se usar esse acesso fosse apropriado. A integridade contextual é precisamente o julgamento de que acesso e adequação são coisas diferentes, e o benchmark mostra que os agentes atuais não fazem essa distinção de forma confiável.

Quão grave é, e por que persiste

Os números de destaque não são marginais. Entre os 15 agentes de ponta, 11 vazaram em mais da metade dos cenários, e o vazamento médio chegou a 67,9%.1 Um modo de falha que aparece duas vezes em três na maior parte do campo não é um caso extremo. É comportamento padrão.

O detalhe que mais importa para quem está lançando agentes é que as falhas persistiram quando os agentes atuaram de ponta a ponta no ambiente para concluir a tarefa, e não apenas em sondagens isoladas.1 Um vazamento que só aparecesse sob condições artificiais seria fácil de descartar. Um vazamento que sobrevive ao agente fazendo trabalho real é uma propriedade de como o agente opera, e o artigo posiciona o teste de divulgação contextual como uma verificação de segurança pré-implantação exatamente por essa razão.1

A razão pela qual a falha persiste é que nada no objetivo normal do agente empurra contra ela. O agente é recompensado por concluir a tarefa. Divulgar demais raramente impede a conclusão da tarefa, então a divulgação excessiva não acarreta custo no circuito que molda o comportamento. Sem um sinal explícito de que alguma informação acessível está fora dos limites neste contexto, o caminho prestativo e o caminho vazante são o mesmo caminho.

O que fazer a respeito

A solução não é tornar os agentes menos capazes. É tornar a adequação uma restrição que o agente verifica, em vez de uma norma que se presume que ele infira. O padrão ecoa o que argumentei sobre prompts de aprovação: não se deve confiar que o agente decida silenciosamente o que cruza uma fronteira.

Condicione a divulgação ao destinatário e ao contexto, não ao acesso. Antes que um agente envie, anexe ou compartilhe, a pergunta relevante não é “o agente consegue ver isto”, mas “isto pertence a este fluxo, para este destinatário”. O acesso é o substituto errado para a permissão, e os três modos de falha são todos instâncias de usá-lo como tal.

Trate a ambiguidade como uma parada, não como uma licença. Uma solicitação subespecificada é a entrada de maior risco, porque o agente a resolve em direção à divulgação. Um agente que restringe ou pergunta quando uma solicitação é vaga vaza menos do que um que preenche a lacuna com tudo o que consegue ver.

Teste o vazamento antes da implantação. A contribuição do artigo é em parte um método: cenários pontuados de forma determinística que transformam a integridade contextual em algo que você pode medir. Tratar a divulgação contextual como uma verificação pré-implantação, ao lado das verificações de observabilidade e sandboxing que detectam falhas provocadas por atacantes, fecha uma lacuna que essas verificações não cobrem.

O ponto mais amplo é que a segurança de agentes tem duas metades. Uma metade é adversarial: entradas não confiáveis, injeção, envenenamento de ferramentas, as falhas que um atacante causa. A outra metade é disposicional: o que o agente faz com acesso legítimo quando ninguém está atacando. Os agentes de uso de computador são capazes o suficiente para atuar em cada contexto que você possui. Se eles deveriam é uma pergunta que atualmente respondem errado duas vezes em três.

Principais conclusões

Para quem implanta agentes de uso de computador: - Adicione o teste de divulgação contextual às suas verificações pré-implantação. As avaliações focadas em atacantes não detectam o compartilhamento excessivo. - Condicione as ações de compartilhamento à adequação do destinatário e do contexto, não a se o agente consegue acessar os dados. - Trate solicitações vagas como o caso de maior risco, porque os agentes resolvem a ambiguidade em direção a mais divulgação.

Para quem constrói agentes e produtos: - Os três modos de falha (colocalização visual, compartilhamento excessivo por ambiguidade de tarefa, desalinhamento de destinatário) mapeiam para superfícies de interface concretas. Projete cada superfície presumindo que a proximidade será lida como relevância. - A recompensa por conclusão de tarefa não dá nenhum sinal contra a divulgação excessiva. Se a adequação importa, torne-a uma restrição explícita.

Para revisores de segurança e privacidade: - A integridade contextual oferece um enquadramento utilizável: avalie os fluxos de informação em relação às normas de contexto, não em relação a um binário de sigilo. - Uma taxa média de vazamento de 67,9% entre agentes de ponta significa que os padrões atuais são inseguros para ação autônoma multicontexto sem controles de divulgação.

Perguntas frequentes

O que é integridade contextual?

A integridade contextual é uma teoria de privacidade de Helen Nissenbaum que sustenta que os fluxos de informação carregam normas atreladas ao contexto em que ocorrem. A privacidade é preservada quando a informação se move de maneiras apropriadas ao seu contexto e violada quando ela cruza para um contexto onde as normas vigentes não a permitem, mesmo que nada fosse tecnicamente secreto.

Em que isso difere da injeção de prompt?

A injeção de prompt é adversarial: um atacante esconde instruções que sequestram o agente. O compartilhamento excessivo contextual não tem atacante. O usuário faz uma solicitação legítima e o agente, tentando ajudar, divulga informações que pertenciam a um contexto diferente. Os dois exigem defesas diferentes, e o teste focado em atacantes não detecta o compartilhamento excessivo.

O que é o AgentCIBench?

O AgentCIBench é o benchmark apresentado em Capable but Careless que transforma o vazamento entre contextos em cenários executáveis e pontuados de forma determinística. Ele testa três modos de falha (colocalização visual, compartilhamento excessivo por ambiguidade de tarefa e desalinhamento de destinatário) e foi usado para avaliar 15 agentes de uso de computador de ponta.

Quantos agentes falharam?

Dos 15 agentes de ponta testados, 11 vazaram informações privadas em mais de 50% dos cenários, com uma taxa média de vazamento de 67,9%. As falhas persistiram quando os agentes atuaram de ponta a ponta para concluir tarefas, e não apenas em sondagens isoladas.

Posso corrigir isso com prompts melhores?

Prompts podem ajudar, mas o enquadramento do artigo sugere que a solução duradoura é estrutural: condicione as ações de divulgação à adequação do destinatário e do contexto, em vez de ao acesso, e teste o vazamento antes da implantação. Como os objetivos de conclusão de tarefa não dão nenhum sinal contra a divulgação excessiva, a adequação precisa ser aplicada como uma restrição, e não presumida.


Fontes


  1. Goel e Gurevych, “Capable but Careless: Do Computer-Use Agents Follow Contextual Integrity?”, arXiv:2606.23189 (22 de junho de 2026). O resumo relata o benchmark AgentCIBench, os três modos de falha (colocalização visual, compartilhamento excessivo por ambiguidade de tarefa, desalinhamento de destinatário), a avaliação de 15 agentes de ponta, a constatação de que 11 de 15 vazam em mais de 50% dos cenários com 67,9% de vazamento médio, a persistência das falhas na conclusão de tarefas de ponta a ponta e o posicionamento do teste de divulgação contextual como uma verificação de segurança pré-implantação. 

  2. Helen Nissenbaum, “Privacy as Contextual Integrity”, Washington Law Review 79, no. 1 (2004), e Privacy in Context: Technology, Policy, and the Integrity of Social Life (Stanford University Press, 2010). A integridade contextual atrela a privacidade a normas informacionais relativas ao contexto, exigindo que os fluxos de informação sejam apropriados ao contexto em que ocorrem. 

Artigos relacionados

O Repo Não Deveria Ter Voto na Própria Confiança

Dois CVEs de bypass do diálogo de confiança do Claude Code em 37 dias revelam uma falha de ordem de carregamento. Um inv…

11 min de leitura

Cibersegurança é prova de trabalho: ataques de IA a $12.500 por tentativa

Claude Mythos completou uma simulação de ataque a rede corporativa de 32 etapas em 3 de 10 tentativas. Cada tentativa cu…

10 min de leitura

O Ralph Loop: Como Executo Agentes de IA Autônomos Durante a Noite

Construí um sistema de agentes autônomos com stop hooks, orçamentos de spawn e memória em sistema de arquivos. Aqui estã…

7 min de leitura