← 所有文章

電腦操作代理預設就會過度分享資訊

From the guide: Claude Code Comprehensive Guide

當一個電腦操作代理被要求把「第三季數字」轉寄給同事時,它必須判斷哪些內容算是第三季數字、數字放在哪個檔案裡,以及旁邊開著的那份試算表是否該一併放進同一封電子郵件。2026年6月的一項基準測試讓15個前沿代理面對這類判斷,結果發現其中11個在超過半數的測試情境中外洩了私人資訊,平均外洩率高達67.9%。1

電腦操作代理的隱私失敗並非提示注入。沒有任何攻擊者植入東西。代理之所以外洩,是因為它試圖提供協助,卻無法分辨哪些資訊屬於它當下所處的情境。 一篇新論文《Capable but Careless: Do Computer-Use Agents Follow Contextual Integrity?》為這種失敗模式命名、為它建立基準測試,並證明這種現象在前沿模型中普遍存在。1

這項結果值得關注,因為它分離出了一項代理安全討論大多略過的風險。我先前曾寫過兩個不可信輸入以及工具使用型代理由攻擊者驅動的失敗。情境過度分享則是相反的型態:危險來自內部,源於代理自身對於何謂適當揭露的判斷,而且即使迴圈中沒有任何惡意內容,它也照樣會出現。

摘要

  • 電腦操作代理(CUA)會跨個人應用程式運作,例如電子郵件、行事曆和待辦清單。跨應用程式存取很實用,但這也讓代理得以把某個情境中的資訊拉進另一個它並不屬於的情境裡。1
  • 《Capable but Careless》(2026)提出了AgentCIBench,這個基準測試把該風險轉化為可執行、可確定性評分的情境,並評估了15個前沿代理。1
  • 此基準測試鎖定三種失敗模式:視覺鄰近、任務模糊過度分享,以及收件對象錯置。1
  • 15個代理中有11個在超過50%的情境中外洩,平均外洩率為67.9%,而且當代理端到端執行以完成任務時,這些失敗依然存在。1
  • 整套框架建立在情境完整性(contextual integrity)之上,這是Helen Nissenbaum提出的觀念:隱私關乎資訊是否以適合其情境的方式流動,而非關乎保密。2 這些代理能力很強;它們缺乏的是一種對於資訊可以流向何處的感知。

一種與提示注入不同的失敗

大多數代理安全工作,包括我自己的在內,都是從攻擊者談起。有人把某條指令藏在網頁、工具描述或文件裡,代理便照著執行。防禦之道在於不信任輸入,並限制代理能對這些輸入做什麼。

情境過度分享沒有攻擊者。使用者提出合理的請求,代理試圖滿足它,過程中卻揭露了某項屬於另一個情境的私人資訊。論文透過情境完整性來理解這件事,這套隱私理論出自Helen Nissenbaum,主張資訊流動帶有與其發生情境相繫的規範。2 你的治療師知道你的診斷是適當的。你的治療師把診斷轉發給你的雇主則違反了規範,即使技術上沒有任何秘密被洩露,因為這項資訊跨越了它本不該跨越的情境界線。

電腦操作代理同時運作於許多這樣的情境之中。它在草擬電子郵件時能看到你的行事曆,在寄給某一個人時能看到你完整的聯絡人清單,在回答關於某一個項目的問題時能看到你整份待辦清單。每一處這類鄰接,都是一次把在某地適當的東西拉進不適當之地的機會。代理並未遭到入侵。它只是過度熱心,而在多情境環境中,過度熱心看起來就像隱私外洩。

代理外洩資訊的三種方式

AgentCIBench把這項風險具體化為跨三種失敗模式、可確定性評分的情境,這是論文中值得內化的部分,因為每一種模式都對應到代理所接觸的真實介面。1

視覺鄰近。 代理把與任務目標在介面上相鄰的禁止項目一併拉了進來。被要求附上一張發票時,它把旁邊那張也抓了進去,因為兩者都在螢幕上,於是鄰近被解讀為相關。驅動這次揭露的是介面的版面配置,而非任務本身。

任務模糊過度分享。 面對規格不足的提示,代理傾倒出密集的個人狀態,而不是提問或縮小範圍。「告訴他們我正在做什麼」變成了整份待辦清單,包括收件人永遠不該看到的項目。模糊朝向更多揭露,而非更少。

收件對象錯置。 代理把內容寄給了不適合接收它的對象。正確的資訊送到了錯誤的人手中,這是一種把全部回覆的本能套用在僅屬於某段關係的資料上。

這三種模式有著共同的根本原因:代理把「能存取」當成了「獲准使用」。正因為它能看到相鄰的發票、完整的待辦清單、更廣的收件人範圍,它便表現得彷彿使用這份存取權是適當的。情境完整性正是這樣一種判斷:存取與適當是兩回事,而此基準測試顯示,現今的代理無法可靠地做出這項區分。

有多嚴重,以及為何持續存在

這些醒目的數字並非無關緊要。在15個前沿代理中,有11個在超過半數的情境中外洩,平均外洩率達到67.9%。1 一種在大多數受測對象身上三次有兩次出現的失敗模式,並非邊緣案例。它就是預設行為。

對於任何要將代理上線的人而言,最重要的細節是:當代理在環境中端到端執行以完成任務時,這些失敗依然存在,而不僅僅出現在孤立的探測中。1 一個只在人工條件下才出現的外洩很容易被打發掉。一個在代理進行真實工作時仍存活下來的外洩,則是代理運作方式的一種本質屬性,論文也正是基於這個理由,把情境揭露測試定位為一項上線前的安全檢查。1

這種失敗之所以持續存在,是因為代理正常目標中沒有任何東西在抵抗它。代理因完成任務而獲得獎勵。揭露過多的資訊鮮少會阻礙任務完成,因此在塑造行為的那個迴圈裡,過度揭露不帶任何代價。若缺乏一個明確訊號告訴代理某些可存取的資訊在此情境中是禁區,那麼樂於助人的路徑與外洩的路徑就是同一條路徑。

該如何因應

解方不是讓代理變得能力更弱,而是把「適當性」變成一項代理會去檢查的限制,而不是一項假定它能推斷出來的規範。這個模式呼應了我先前對核可提示的論點:不該信任代理去默默決定什麼可以跨越界線。

以收件對象與情境作為揭露的閘門,而非以存取權作為閘門。 在代理寄送、附加或分享之前,相關的問題不是「代理能不能看到這個」,而是「這個是否屬於此流程、是否該給這位收件人」。存取權是判斷使用權限的錯誤代理指標,而那三種失敗模式全都是把它當成判斷依據的實例。

把模糊視為停止訊號,而非許可。 規格不足的請求是風險最高的輸入,因為代理會把它朝揭露的方向解讀。一個在請求含糊時懂得縮小範圍或提問的代理,外洩的資訊會少於一個用它所能看到的一切去填補空缺的代理。

在上線前測試外洩。 論文的貢獻有一部分是一套方法:可確定性評分的情境,把情境完整性轉化為某種你能加以衡量的東西。把情境揭露當作上線前的檢查,與那些能捕捉攻擊者驅動失敗的可觀測性及沙箱檢查並列,便能補上那些檢查未能涵蓋的缺口。

更廣的重點在於,代理安全有兩半。一半是對抗性的:不可信的輸入、注入、工具投毒,這些是攻擊者所造成的失敗。另一半則是性向上的:當沒有人攻擊它時,代理會拿正當的存取權做什麼。電腦操作代理的能力強到足以跨越你所擁有的每一個情境去行動。至於它們是否「應該」這麼做,這是一個它們目前三次有兩次答錯的問題。

關鍵要點

對於要部署電腦操作代理的人: - 把情境揭露測試加入你的上線前檢查。聚焦攻擊者的評估抓不到過度分享。 - 以收件對象與情境的適當性作為分享行為的閘門,而非以代理是否能存取該資料作為閘門。 - 把含糊的請求當作風險最高的案例,因為代理會把模糊朝向更多揭露的方向解讀。

對於代理與產品建構者: - 那三種失敗模式(視覺鄰近、任務模糊過度分享、收件對象錯置)對應到具體的UI介面。設計每個介面時都應假定鄰近會被解讀為相關。 - 任務完成獎勵對於過度揭露毫無抑制訊號。若適當性很重要,就把它做成一項明確的限制。

對於安全與隱私審查人員: - 情境完整性提供了一個可用的框架:依據情境規範來評估資訊流動,而非依據「是否保密」這種二元判斷。 - 前沿代理67.9%的平均外洩率意味著,在缺乏揭露控制的情況下,現今的預設值對於自主的多情境行動是不安全的。

常見問題

什麼是情境完整性?

情境完整性是Helen Nissenbaum提出的一套隱私理論,主張資訊流動帶有與其發生情境相繫的規範。當資訊以適合其情境的方式移動時,隱私便得以保全;當它跨入一個其主導規範並不允許的情境時,隱私便遭到侵犯,即便技術上並沒有任何東西算是秘密。

這和提示注入有何不同?

提示注入是對抗性的:攻擊者藏入指令來劫持代理。情境過度分享則沒有攻擊者。使用者提出正當的請求,而代理在試圖提供協助時,揭露了屬於另一個情境的資訊。兩者需要不同的防禦,而聚焦攻擊者的測試偵測不到過度分享。

什麼是AgentCIBench?

AgentCIBench是《Capable but Careless》中提出的基準測試,它把跨情境外洩轉化為可執行、可確定性評分的情境。它測試三種失敗模式(視覺鄰近、任務模糊過度分享,以及收件對象錯置),並被用來評估15個前沿電腦操作代理。

有多少代理失敗了?

在受測的15個前沿代理中,有11個在超過50%的情境中外洩了私人資訊,平均外洩率為67.9%。當代理端到端執行以完成任務時,這些失敗依然存在,而不僅僅出現在孤立的探測中。

我能靠更好的提示來修正這個問題嗎?

提示能有所幫助,但論文的框架指出,持久的解方是結構性的:以收件對象與情境的適當性作為揭露行為的閘門,而非以存取權作為閘門,並在上線前測試外洩。由於任務完成目標對於過度揭露毫無抑制訊號,適當性必須被當作一項限制來強制執行,而不是被假定。


來源


  1. Goel 與 Gurevych,「Capable but Careless: Do Computer-Use Agents Follow Contextual Integrity?」,arXiv:2606.23189(2026年6月22日)。摘要報告了AgentCIBench基準測試、三種失敗模式(視覺鄰近、任務模糊過度分享、收件對象錯置)、對15個前沿代理的評估、15個中有11個在超過50%的情境中於67.9%平均外洩率下外洩的發現、失敗在端到端任務完成中的持續存在,以及把情境揭露測試定位為一項上線前安全檢查。 

  2. Helen Nissenbaum,「Privacy as Contextual Integrity」,Washington Law Review 79, no. 1(2004),以及《Privacy in Context: Technology, Policy, and the Integrity of Social Life》(Stanford University Press, 2010)。情境完整性把隱私繫於與情境相對的資訊規範,要求資訊流動須適合其發生的情境。 

相關文章

程式碼倉庫不該為自己的信任投票

37天內出現兩個Claude Code信任對話框繞過CVE,揭示了載入順序的失敗。一條不變式即可解決:在路徑被信任之前,不解讀工作區內的任何位元組。

2 分鐘閱讀

網路安全即工作量證明:AI 攻擊每次耗費 12,500 美元

Claude Mythos 在 10 次嘗試中有 3 次完成了 32 步驟的企業網路攻擊模擬。每次嘗試耗費 12,500 美元的 token 費用。安全防護現已成為一場支出競賽。

2 分鐘閱讀

Ralph 迴圈:我如何在夜間運行自主 AI 代理

我建構了一套自主代理系統,搭配停止鉤子、生成預算與檔案系統記憶體。以下是失敗經驗與真正能交付程式碼的方法。

3 分鐘閱讀