计算机使用智能体默认会过度共享信息

Q: 什么是AgentCIBench？

AgentCIBench是 Capable but Careless 中提出的基准测试，它把跨情境泄露转化为可执行、可确定性评分的场景。它测试三种失效模式（视觉邻近、任务歧义过度共享，以及收件人错位），并被用于评估15个前沿计算机使用智能体。

1分钟阅读

From the guide: Claude Code Comprehensive Guide

当一个计算机使用智能体被要求把”第三季度的数据”转发给同事时，它必须判断什么才算第三季度的数据、数据保存在哪个文件里，以及旁边打开的那个电子表格是否也该一并附进同一封邮件。2026年6月的一项基准测试让15个前沿智能体面对这类决策，结果发现其中11个在超过半数的测试场景中泄露了私密信息，平均泄露率高达67.9%。¹

计算机使用智能体的隐私失效并不是提示注入。没有任何对手在其中埋设内容。智能体之所以泄露，是因为它一心想帮上忙，却无法判断哪些信息属于它当下所处的情境。一篇新论文 Capable but Careless: Do Computer-Use Agents Follow Contextual Integrity? 为这种失效模式命名，为其构建了基准测试，并表明这一问题在前沿模型中普遍存在。¹

这一结果值得关注，因为它孤立出了一种智能体安全讨论大多忽略的风险。我此前写过关于两个不可信输入以及工具使用型智能体在攻击者驱动下的失效。情境过度共享则是相反的形态：危险来自内部，源于智能体自身对何为恰当披露的判断，即便回路中没有任何恶意因素，它仍会出现。

摘要

计算机使用智能体（CUA）会跨越电子邮件、日历、待办清单等个人应用执行操作。跨应用访问很有用，但它让智能体得以把一个情境中的信息拉进另一个并不属于它的情境。¹
Capable but Careless（2026）提出了AgentCIBench，这是一个把上述风险转化为可执行、可确定性评分场景的基准测试，并评估了15个前沿智能体。¹
该基准测试针对三种失效模式：视觉邻近、任务歧义过度共享，以及收件人错位。¹
15个智能体中有11个在超过50%的场景中泄露，平均泄露率为67.9%，而且当智能体端到端地执行以完成任务时，这些失效依然存在。¹
其理论框架是情境完整性，即Helen Nissenbaum提出的观点：隐私关乎信息是否按其情境恰当地流动，而非关乎保密。² 这些智能体很有能力；它们缺乏的，是对信息允许流向何处的判断力。

一种不同于提示注入的失效

大多数智能体安全工作，包括我自己的，都从一个对手出发。有人在网页、工具描述或文档中藏入一条指令，智能体便照做。防御之道是不信任输入，并约束智能体能对其做什么。

情境过度共享没有对手。用户提出一个合理的请求，智能体试图满足它，并在此过程中披露了某些原本属于另一个情境的私密内容。论文借助情境完整性来框定这一现象，这是源自Helen Nissenbaum的隐私理论，它主张信息流动承载着与其所处情境相关联的规范。² 你的心理治疗师知道你的诊断是恰当的。可你的治疗师把它转发给你的雇主，就违反了规范，尽管严格来说并没有泄露什么秘密，因为这条信息越过了一道它本不该越过的情境边界。

一个计算机使用智能体同时在许多这样的情境中运作。它能在撰写邮件时看到你的日历，在只发给一个人时看到你完整的联系人列表，在回答关于某一项的问题时看到你整份待办清单。每一处这样的邻近，都是把在某处恰当的东西拉进它并不恰当之处的机会。智能体并未被攻陷。它只是过度热心，而在多情境环境中，过度热心看起来就像隐私泄露。

智能体泄露的三种方式

AgentCIBench把这一风险落实为跨三种失效模式的可确定性评分场景，这是论文中最值得内化的部分，因为每一种都对应着智能体接触到的一个真实界面。¹

视觉邻近。 智能体把界面中紧挨着任务目标的违禁项一并拉了进来。被要求附上一份发票时，它连旁边那份也一起抓取，因为两者都显示在屏幕上，而邻近被读作了相关。驱动这次披露的是界面布局，而非任务本身。

任务歧义过度共享。 面对一个语焉不详的提示，智能体不去询问或收窄，而是把密集的个人状态一股脑倒出来。”告诉他们我在忙什么”变成了整份待办清单，连收件人永远不该看到的条目也包括在内。歧义被消解的方向是更多披露，而非更少。

收件人错位。 智能体把内容发给了不该收到它的对象。正确的信息发给了错误的人，这是把一种全体回复的本能套用到了本属于某一段关系的数据上。

这三种模式有着共同的根源。智能体把访问权当成了许可。因为它能看到旁边那份发票、完整的待办清单、更宽泛的收件人范围，它便表现得仿佛动用这些访问权是恰当的。情境完整性恰恰是这样一种判断：访问与恰当是两回事，而该基准测试表明，当前的智能体并不能可靠地作出这一区分。

有多严重，以及为何挥之不去

这些醒目的数字并非边缘个案。在15个前沿智能体中，11个在超过半数的场景中泄露，平均泄露率达到67.9%。¹ 一种在该领域大多数模型上三次里出现两次的失效模式，绝非边缘情形。它就是默认行为。

对任何要把智能体投入使用的人来说，最要紧的细节是：当智能体在环境中端到端地执行以完成任务时，这些失效依然存在，而不只出现在孤立的探测中。¹ 只在人为条件下才出现的泄露很容易被打发掉。而一种在智能体做真实工作时仍能存续的泄露，则是这个智能体运作方式的固有属性，论文正是出于这一原因，把情境披露测试定位为一项部署前的安全检查。¹

这种失效之所以挥之不去，是因为智能体的常规目标中没有任何东西在与之抗衡。智能体因完成任务而获得奖励。披露过多很少会阻碍任务完成，因此在塑造其行为的回路中，过度披露并不带来任何代价。如果没有一个明确的信号表明某些可访问的信息在当前情境中是禁区，那么帮上忙的路径与泄露的路径就是同一条路径。

该如何应对

解决之道不是让智能体变得能力更弱，而是让恰当性成为智能体去核查的约束，而非被假定它能自行推断出来的规范。这一模式呼应了我对审批提示的论述：不应信任智能体悄无声息地自行决定什么可以越过边界。

以收件人和情境为依据来限制披露，而非以访问权为依据。 在智能体发送、附加或共享之前，相关的问题不是”智能体能不能看到这个”，而是”这个东西是否属于这一流程、属于这位收件人”。访问权是判断许可的错误代理变量，而那三种失效模式都是把它当作代理来用的实例。

把歧义当作停止信号，而非许可。 语焉不详的请求是风险最高的输入，因为智能体会朝着披露的方向去消解它。一个在请求含糊时会收窄范围或主动询问的智能体，泄露要少于一个用它所能看到的一切去填补空白的智能体。

在部署前测试泄露情况。 论文的贡献部分在于一种方法：用可确定性评分的场景把情境完整性变成可以衡量的东西。把情境披露当作部署前的一项检查，与捕捉攻击者驱动失效的可观测性与沙箱检查并列，就能堵上那些检查覆盖不到的缺口。

更宏观的要点是，智能体安全有两半。一半是对抗性的：不可信输入、注入、工具投毒，也就是攻击者所造成的失效。另一半是倾向性的：当无人攻击时，智能体会如何运用它合法获得的访问权。计算机使用智能体有足够的能力跨越你拥有的每一个情境去行动。至于它们是否应该如此，这是一个它们当前在三次里答错两次的问题。

关键要点

对于部署计算机使用智能体的人： - 把情境披露测试加入你的部署前检查。聚焦攻击者的评估无法捕捉过度共享。 - 以收件人和情境的恰当性为依据来限制共享操作，而非以智能体能否访问该数据为依据。 - 把含糊的请求当作风险最高的情形，因为智能体会朝着更多披露的方向去消解歧义。

对于智能体和产品的构建者： - 这三种失效模式（视觉邻近、任务歧义过度共享、收件人错位）对应着具体的UI界面。设计每一处界面时，都应假设邻近会被读作相关。 - 任务完成奖励对过度披露不提供任何反向信号。如果恰当性很重要，就把它做成一项明确的约束。

对于安全与隐私审查者： - 情境完整性提供了一个可用的框架：依据情境规范来评估信息流动，而非依据保密与否的二元判断。 - 前沿智能体高达67.9%的平均泄露率意味着：在缺乏披露控制的情况下，当前的默认设置对于自主的多情境行动而言是不安全的。

常见问题

什么是情境完整性？

情境完整性是源自Helen Nissenbaum的一种隐私理论，它主张信息流动承载着与其所发生情境相关联的规范。当信息以恰当于其情境的方式流动时，隐私得以保全；当它越入一个其支配规范并不允许的情境时，隐私便遭到侵犯，哪怕严格来说没有任何东西是秘密。

这与提示注入有何不同？

提示注入是对抗性的：攻击者藏入指令以劫持智能体。情境过度共享没有攻击者。用户提出一个合法的请求，而智能体在试图帮忙时，披露了原本属于另一个情境的信息。两者需要不同的防御，而聚焦攻击者的测试检测不出过度共享。

什么是AgentCIBench？

AgentCIBench是 Capable but Careless 中提出的基准测试，它把跨情境泄露转化为可执行、可确定性评分的场景。它测试三种失效模式（视觉邻近、任务歧义过度共享，以及收件人错位），并被用于评估15个前沿计算机使用智能体。

有多少智能体失败了？

在受测的15个前沿智能体中，11个在超过50%的场景中泄露了私密信息，平均泄露率为67.9%。当智能体端到端地执行以完成任务时，这些失效依然存在，而不只出现在孤立的探测中。

我能靠更好的提示来解决吗？

提示能有所帮助，但论文的框架表明，持久的解决之道是结构性的：以收件人和情境的恰当性而非以访问权为依据来限制披露操作，并在部署前测试泄露情况。由于任务完成目标对过度披露不提供任何反向信号，恰当性必须作为一项约束来强制执行，而不能被假定为天然存在。

来源

Anmol Goel 与 Iryna Gurevych，”Capable but Careless: Do Computer-Use Agents Follow Contextual Integrity?”，arXiv，2026年6月22日：arxiv.org/abs/2606.23189
Helen Nissenbaum，”Privacy as Contextual Integrity”，Washington Law Review 79卷第1期（2004年），该框架的起源，后在 Privacy in Context（斯坦福大学出版社，2010年）中得到进一步发展：Washington Law Review
相关的智能体安全写作：两个不可信输入、审批提示不等于授权，以及隐形的智能体

Goel 与 Gurevych，”Capable but Careless: Do Computer-Use Agents Follow Contextual Integrity?”，arXiv:2606.23189（2026年6月22日）。摘要报告了AgentCIBench基准测试、三种失效模式（视觉邻近、任务歧义过度共享、收件人错位）、对15个前沿智能体的评估、15个中有11个在超过50%的场景中以67.9%的平均泄露率发生泄露这一发现、失效在端到端任务完成中的存续，以及把情境披露测试定位为部署前安全检查这一立场。 ↩↩↩↩↩↩↩↩↩↩
Helen Nissenbaum，”Privacy as Contextual Integrity”，Washington Law Review 79卷第1期（2004年），以及 Privacy in Context: Technology, Policy, and the Integrity of Social Life（斯坦福大学出版社，2010年）。情境完整性把隐私系于情境相关的信息规范，要求信息流动须恰当于其所发生的情境。 ↩↩