Los agentes de uso de computadora comparten de más por defecto

Q: ¿Qué es AgentCIBench?

AgentCIBench es el benchmark presentado en Capable but Careless que convierte la fuga entre contextos en escenarios ejecutables y puntuados de forma determinista. Prueba tres modos de falla (co-ubicación visual, exceso de divulgación por ambigüedad de la tarea y desajuste de destinatario) y se usó para evaluar a 15 agentes de uso de computadora de frontera.

9 min de lectura

From the guide: Claude Code Comprehensive Guide

Un agente de uso de computadora al que se le pide reenviar “las cifras del Q3” a un colega tiene que decidir qué cuenta como las cifras del Q3, qué archivo las contiene y si la hoja de cálculo abierta junto a ellas pertenece al mismo correo. Un benchmark de junio de 2026 sometió a 15 agentes de frontera a ese tipo de decisión y descubrió que 11 de ellos filtraron información privada en más de la mitad de los escenarios evaluados, con una tasa promedio de fuga del 67,9%.¹

La falla de privacidad en los agentes de uso de computadora no es la inyección de prompts. Ningún adversario planta nada. El agente filtra porque está intentando ser útil y no puede distinguir qué información pertenece al contexto en el que está actuando. Un nuevo artículo, Capable but Careless: Do Computer-Use Agents Follow Contextual Integrity?, nombra este modo de falla, construye un benchmark para medirlo y demuestra que está generalizado en toda la frontera.¹

El resultado merece atención porque aísla un riesgo que la conversación sobre seguridad de agentes ha pasado por alto en gran medida. Ya he escrito antes sobre dos entradas no confiables y las fallas impulsadas por atacantes en los agentes que usan herramientas. El exceso de divulgación contextual tiene la forma opuesta: el peligro es interno, es el propio juicio del agente sobre lo que es apropiado revelar, y aparece incluso cuando no hay nada malicioso en el circuito.

TL;DR

Los agentes de uso de computadora (CUA) actúan a través de aplicaciones personales como el correo electrónico, los calendarios y las listas de tareas. El acceso entre aplicaciones es útil, pero le permite a un agente extraer información de un contexto y llevarla a otro al que no pertenece.¹
Capable but Careless (2026) presenta AgentCIBench, un benchmark que convierte el riesgo en escenarios ejecutables y puntuados de forma determinista, y evalúa a 15 agentes de frontera.¹
El benchmark apunta a tres modos de falla: la co-ubicación visual, el exceso de divulgación por ambigüedad de la tarea y el desajuste de destinatario.¹
Once de los 15 agentes filtraron información en más del 50% de los escenarios, con un promedio del 67,9% de fuga, y las fallas persistieron cuando los agentes actuaron de extremo a extremo para completar la tarea.¹
El marco es la integridad contextual, la idea de Helen Nissenbaum de que la privacidad se trata de que la información fluya de manera apropiada para su contexto, no de que se mantenga en secreto.² Los agentes son capaces; lo que les falta es el sentido de a dónde se permite que vaya la información.

Una falla distinta a la inyección de prompts

La mayor parte del trabajo sobre seguridad de agentes, incluido el mío, parte de un adversario. Alguien esconde una instrucción en una página web, en la descripción de una herramienta o en un documento, y el agente la obedece. La defensa consiste en desconfiar de las entradas y limitar lo que el agente puede hacer con ellas.

El exceso de divulgación contextual no tiene ningún adversario. El usuario hace una solicitud razonable, el agente intenta satisfacerla y, en el proceso, revela algo que era privado de un contexto diferente. El artículo enmarca esto a través de la integridad contextual, la teoría de la privacidad de Helen Nissenbaum, que sostiene que los flujos de información llevan consigo normas vinculadas al contexto en el que ocurren.² Que tu terapeuta conozca tu diagnóstico es apropiado. Que tu terapeuta lo reenvíe a tu empleador viola la norma aunque técnicamente no se haya roto ningún secreto, porque la información cruzó un límite de contexto que no debía cruzar.

Un agente de uso de computadora opera a través de muchos de esos contextos a la vez. Puede ver tu calendario mientras redacta un correo, tu lista completa de contactos mientras envía un mensaje a una sola persona, toda tu lista de tareas mientras responde una pregunta sobre un solo elemento. Cada una de esas adyacencias es una oportunidad de trasladar algo que es apropiado en un lugar a un lugar donde no lo es. El agente no está comprometido. Está siendo demasiado servicial, y ese exceso de servicialidad en un entorno de múltiples contextos se ve como una fuga de privacidad.

Las tres maneras en que los agentes filtran

AgentCIBench convierte el riesgo en escenarios puntuados de forma determinista a través de tres modos de falla, que es la parte del artículo que vale la pena interiorizar, porque cada uno se corresponde con una interfaz real que un agente toca.¹

Co-ubicación visual. El agente incluye elementos prohibidos que se encuentran junto al objetivo de la tarea en la interfaz. Cuando se le pide adjuntar una factura, también toma la de al lado, porque ambas estaban en pantalla y la proximidad se interpretó como relevancia. Fue la disposición de la interfaz, no la tarea, lo que impulsó la divulgación.

Exceso de divulgación por ambigüedad de la tarea. Ante un prompt poco específico, el agente vuelca un denso estado personal en lugar de preguntar o acotar. “Diles en qué estoy trabajando” se convierte en la lista de tareas completa, incluidos los elementos que el destinatario nunca debería ver. La ambigüedad se resuelve hacia una mayor divulgación, no hacia una menor.

Desajuste de destinatario. El agente envía contenido a un destinatario para quien no es apropiado. La información correcta llega a la persona equivocada, un instinto de responder a todos aplicado a datos que pertenecían a una sola relación.

Los tres modos comparten una causa raíz. El agente trata el acceso como permiso. Como puede ver la factura adyacente, la lista completa de tareas o el conjunto más amplio de destinatarios, se comporta como si usar ese acceso fuera apropiado. La integridad contextual es precisamente el juicio de que el acceso y lo apropiado son cosas distintas, y el benchmark demuestra que los agentes actuales no hacen esa distinción de forma confiable.

Qué tan grave es, y por qué persiste

Las cifras destacadas no son marginales. Entre 15 agentes de frontera, 11 filtraron información en más de la mitad de los escenarios, y la fuga promedio alcanzó el 67,9%.¹ Un modo de falla que aparece dos de cada tres veces en la mayor parte del campo no es un caso extremo. Es el comportamiento por defecto.

El detalle que más importa para quien esté lanzando agentes es que las fallas persistieron cuando los agentes actuaron de extremo a extremo en el entorno para completar la tarea, no solo en pruebas aisladas.¹ Una fuga que solo apareciera en condiciones artificiales sería fácil de descartar. Una fuga que sobrevive al agente haciendo trabajo real es una propiedad de cómo opera el agente, y por exactamente esa razón el artículo posiciona la prueba de divulgación contextual como un control de seguridad previo al despliegue.¹

La razón por la que la falla persiste es que nada en el objetivo normal del agente actúa en su contra. El agente es recompensado por completar la tarea. Revelar demasiado rara vez impide completar la tarea, así que el exceso de divulgación no acarrea ningún costo en el circuito que moldea el comportamiento. Sin una señal explícita de que cierta información accesible está vedada en este contexto, el camino útil y el camino que filtra son el mismo camino.

Qué hacer al respecto

La solución no es hacer que los agentes sean menos capaces. Es hacer que lo apropiado sea una restricción que el agente verifica, en lugar de una norma que se presume que va a inferir. El patrón hace eco de lo que he argumentado sobre las solicitudes de aprobación: no se debe confiar en que el agente decida en silencio qué cruza un límite.

Condiciona la divulgación al destinatario y al contexto, no al acceso. Antes de que un agente envíe, adjunte o comparta, la pregunta relevante no es “¿puede el agente ver esto?”, sino “¿pertenece esto a este flujo, dirigido a este destinatario?”. El acceso es un sustituto equivocado del permiso, y los tres modos de falla son todos ejemplos de usarlo como tal.

Trata la ambigüedad como una parada, no como una licencia. Una solicitud poco específica es la entrada de mayor riesgo, porque el agente la resuelve hacia la divulgación. Un agente que acota o pregunta cuando una solicitud es vaga filtra menos que uno que llena el vacío con todo lo que puede ver.

Prueba la presencia de fugas antes del despliegue. La contribución del artículo es en parte un método: escenarios puntuados de forma determinista que convierten la integridad contextual en algo que puedes medir. Tratar la divulgación contextual como un control previo al despliegue, junto con los controles de observabilidad y de aislamiento (sandboxing) que detectan las fallas impulsadas por atacantes, cierra una brecha que esos controles no cubren.

El punto más amplio es que la seguridad de los agentes tiene dos mitades. Una mitad es adversaria: entradas no confiables, inyección, envenenamiento de herramientas, las fallas que causa un atacante. La otra mitad es disposicional: lo que el agente hace con un acceso legítimo cuando nadie lo está atacando. Los agentes de uso de computadora son lo bastante capaces para actuar en todos los contextos que posees. Si deberían hacerlo es una pregunta que actualmente responden mal dos de cada tres veces.

Conclusiones clave

Para quienes despliegan agentes de uso de computadora: - Agrega pruebas de divulgación contextual a tus controles previos al despliegue. Las evaluaciones centradas en atacantes no detectan el exceso de divulgación. - Condiciona las acciones de compartir a lo apropiado del destinatario y del contexto, no a si el agente puede acceder a los datos. - Trata las solicitudes vagas como el caso de mayor riesgo, porque los agentes resuelven la ambigüedad hacia una mayor divulgación.

Para quienes construyen agentes y productos: - Los tres modos de falla (co-ubicación visual, exceso de divulgación por ambigüedad de la tarea y desajuste de destinatario) se corresponden con superficies concretas de la interfaz. Diseña cada superficie suponiendo que la proximidad se va a interpretar como relevancia. - La recompensa por completar la tarea no da ninguna señal en contra del exceso de divulgación. Si lo apropiado importa, conviértelo en una restricción explícita.

Para quienes revisan seguridad y privacidad: - La integridad contextual ofrece un marco utilizable: evalúa los flujos de información frente a las normas del contexto, no frente a un binario de secreto. - Una tasa promedio de fuga del 67,9% entre los agentes de frontera significa que los valores por defecto actuales no son seguros para la acción autónoma en múltiples contextos sin controles de divulgación.

Preguntas frecuentes

¿Qué es la integridad contextual?

La integridad contextual es una teoría de la privacidad de Helen Nissenbaum que sostiene que los flujos de información llevan consigo normas vinculadas al contexto en el que ocurren. La privacidad se preserva cuando la información se mueve de maneras apropiadas a su contexto y se viola cuando cruza hacia un contexto en el que las normas que lo rigen no lo permiten, aunque técnicamente nada fuera secreto.

¿En qué se diferencia esto de la inyección de prompts?

La inyección de prompts es adversaria: un atacante esconde instrucciones que secuestran al agente. El exceso de divulgación contextual no tiene atacante. El usuario hace una solicitud legítima y el agente, al intentar ayudar, revela información que pertenecía a un contexto diferente. Las dos requieren defensas distintas, y las pruebas centradas en atacantes no detectan el exceso de divulgación.

¿Qué es AgentCIBench?

AgentCIBench es el benchmark presentado en Capable but Careless que convierte la fuga entre contextos en escenarios ejecutables y puntuados de forma determinista. Prueba tres modos de falla (co-ubicación visual, exceso de divulgación por ambigüedad de la tarea y desajuste de destinatario) y se usó para evaluar a 15 agentes de uso de computadora de frontera.

¿Cuántos agentes fallaron?

De los 15 agentes de frontera evaluados, 11 filtraron información privada en más del 50% de los escenarios, con una tasa promedio de fuga del 67,9%. Las fallas persistieron cuando los agentes actuaron de extremo a extremo para completar tareas, no solo en pruebas aisladas.

¿Puedo solucionar esto con mejores prompts?

Los prompts pueden ayudar, pero el enfoque del artículo sugiere que la solución duradera es estructural: condicionar las acciones de divulgación a lo apropiado del destinatario y del contexto en lugar de al acceso, y probar la presencia de fugas antes del despliegue. Como los objetivos de completar la tarea no dan ninguna señal en contra del exceso de divulgación, lo apropiado tiene que imponerse como una restricción en lugar de presumirse.

Fuentes

Anmol Goel e Iryna Gurevych, “Capable but Careless: Do Computer-Use Agents Follow Contextual Integrity?”, arXiv, 22 de junio de 2026: arxiv.org/abs/2606.23189
Helen Nissenbaum, “Privacy as Contextual Integrity”, Washington Law Review 79, n.º 1 (2004), el origen del marco, desarrollado más adelante en Privacy in Context (Stanford University Press, 2010): Washington Law Review
Escritos relacionados sobre seguridad de agentes: dos entradas no confiables, las solicitudes de aprobación no son autorización y el agente invisible

Goel y Gurevych, “Capable but Careless: Do Computer-Use Agents Follow Contextual Integrity?”, arXiv:2606.23189 (22 de junio de 2026). El resumen reporta el benchmark AgentCIBench, los tres modos de falla (co-ubicación visual, exceso de divulgación por ambigüedad de la tarea, desajuste de destinatario), la evaluación de 15 agentes de frontera, el hallazgo de que 11 de 15 filtran en más del 50% de los escenarios con un 67,9% de fuga promedio, la persistencia de las fallas en la realización de tareas de extremo a extremo y el posicionamiento de las pruebas de divulgación contextual como un control de seguridad previo al despliegue. ↩↩↩↩↩↩↩↩↩↩
Helen Nissenbaum, “Privacy as Contextual Integrity”, Washington Law Review 79, n.º 1 (2004), y Privacy in Context: Technology, Policy, and the Integrity of Social Life (Stanford University Press, 2010). La integridad contextual vincula la privacidad a normas informativas relativas al contexto, exigiendo que los flujos de información sean apropiados al contexto en el que ocurren. ↩↩