AI 代理所有權是信任的基礎
2026年5月15日,內蓋夫本-古里安大學、東北大學與 Amrita Vishwa Vidyapeetham 的研究人員,將代理歸因定義為:把觀察到的 AI 代理互動,連結回託管供應商中應負責的帳戶。1
這個說法聽起來很狹窄。問題本身並不狹窄。代理可能對使用者發送垃圾訊息、抓取系統資料、冒充客服人員、執行資安任務、呼叫工具、花費金錢,或變更基礎架構。受影響的一方看得見行為,卻無法識別部署該代理的操作者。1
AI 代理所有權就是缺少的信任基礎。每一個自主動作,都應該對應到負責帳戶、工作階段、權限範圍、人類或組織擁有者,以及停止路徑。記錄告訴您發生了什麼;所有權告訴您誰能為此負責。
TL;DR
代理安全不能只停在工具權限、執行環境掛鉤,或最終答案的證據。這些控制很重要,但無法回答問責問題:正在執行的代理由誰負責?
新的代理歸因論文提出一套由供應商居中協調的協定,使用金絲雀標記,把觀察到的有害互動連結到供應商的工作階段與帳戶。1這項研究面向的是濫用回應與法律責任。產品團隊則需要在自家系統內建立一個更日常、更小型的版本:每一次代理執行,都應帶有所有權紀錄,串起帳戶、工作階段、權限範圍、工具活動、審查路徑與終止開關。
重點整理
給代理平台團隊: - 把所有權視為執行環境欄位,而不是帳務上的事後補充。 - 為每一次代理執行附上擁有者、帳戶、工作階段、工具範圍與停止控制。
給安全團隊: - 沒有所有權的記錄會拖慢事件回應。沒有記錄的所有權則會削弱證據。 - 兩者都要:動作追蹤,以及負責帳戶路徑。
給產品團隊: - 讓使用者看見誰或什麼正在代表他們行動。 - 區分委派動作與委派責任。
給政策與信任團隊: - 為授權回應設計歸因,而不是為了隨意去匿名化。 - 紀錄足以停止傷害、審查濫用並尊重正當程序的資訊。
所有權不是個人檔案名稱
多數產品已經會顯示某種形式的身分。聊天視窗可能顯示工作區、使用者頭像、機器人名稱、API 金鑰標籤,或組織。這層表面資訊能幫助人們判斷情境,卻不能證明所有權。
代理所有權需要更嚴格的契約:
| 欄位 | 它回答的問題 |
|---|---|
| 帳戶 | 哪個客戶、工作區或供應商帳戶資助了這次執行? |
| 工作階段 | 哪一次具體執行產生了這個動作? |
| 操作者 | 哪個人、服務或政策委派了這項工作? |
| 權限範圍 | 代理可以使用哪些工具、金鑰、預算與資源? |
| 動作追蹤 | 發生了哪些提示、核准、工具呼叫、輸出與網路決策? |
| 停止路徑 | 誰可以暫停、撤銷、限流或終止這次執行? |
| 審查路徑 | 投訴或警示出現後,誰可以調查? |
這份清單看起來偏營運,因為所有權本來就是營運問題。當代理發出2,000則不當訊息,或猛烈敲打第三方端點時,一個標籤幫不上忙。回應團隊需要工作階段、帳戶、權限範圍與停止路徑。
代理金鑰需要風險預算談的是權限面:金鑰應授予狹窄、由伺服器強制執行的能力。所有權談的是責任面:每一次使用該權限,都應指回一筆負責紀錄。
歸因論文補上了什麼
這篇論文正式描述了一個代理操作者很快就會認出的缺口。受害者看得到代理的行為。供應商看得到模型呼叫與帳戶記錄。任何一方單獨來看,都看不到兩邊的完整視角。1
論文提出的協定用金絲雀標記銜接這兩種視角。授權方把標記注入嫌疑代理很可能取用的內容。如果代理把該內容轉送進供應商託管的模型呼叫,供應商就能在狹窄時間窗內搜尋工作階段記錄,找到金絲雀標記,還原工作階段,並把工作階段連結到帳戶。1
論文區分了簡單與困難情境:
| 情境 | 實務上的金絲雀形式 | 為何有效 |
|---|---|---|
| 非對抗性誤用 | 詞彙標記、識別碼或獨特字串 | 代理未經過濾就把內容傳給模型。 |
| 對抗性濫用 | 具效用的詞彙或語意金絲雀 | 移除金絲雀也會移除代理需要的內容。 |
| 供應商回應 | 窄時間窗記錄搜尋 | 供應商搜尋注入時間附近的工作階段,而不是所有歷史記錄。 |
「具效用」這個概念很重要。詐騙代理可能需要目標的情緒線索。網頁代理可能需要可見頁面內容。資安代理可能需要檔名與回應產物。如果操作者過度過濾,代理的任務表現會與歸因證據一起流失。1
論文中的資安代理實驗把這個取捨具體化。當抑制措施移除任務相關產物時,能察覺金絲雀的對手讓代理解題率從51%降到9%。檔名與可見正文識別碼仍分別保留了77%與70%的歸因證據;語意金絲雀在對抗性語意軌道中,則達到至少98%的真陽性率。1
這些數字不該變成產品行銷話術。論文測試的是特定代理、包裝層與金絲雀類型。真正應該留下的教訓是:當歸因訊號附著在代理實際需要的內容上時,效果最好。
記錄必要但不足夠
OpenAI 的 Codex 安全文章描述了一種成熟的控制形態:有邊界的執行、核准、受管理的網路政策、憑證儲存、規則、受管理的設定,以及代理原生遙測。2遙測面包括使用者提示、核准決策、工具執行結果、MCP 伺服器使用情況,以及網路 Proxy 允許或拒絕事件的 OpenTelemetry 紀錄。2
OpenAI 也描述了一套安全分流工作流程:使用 Codex 記錄,檢查可疑端點警示周邊的原始請求、工具活動、核准決策、工具結果與網路政策決策。2
這些證據必要。它們仍然需要所有權。
工具追蹤可以說明:
| 追蹤證據 | 缺少的所有權問題 |
|---|---|
| 代理呼叫了 Shell 工具 | 哪個帳戶授權了這次執行? |
| 代理撞上網路封鎖 | 哪個政策擁有者可以審查這次封鎖? |
| 代理請求核准 | 誰核准、拒絕,或委派了核准? |
| 代理使用了 MCP 伺服器 | 哪個工作區設定了該伺服器? |
| 代理產生了輸出 | 哪個操作者接受發布責任? |
代理執行追蹤是執行環境契約主張,追蹤證明路徑。所有權證明該路徑背後的負責方。強健的系統需要把兩種紀錄在工作階段層級接起來。
Codex 說明這個問題已不再只是理論
OpenAI 於5月14日發布的 Codex 公告提到,每週有超過400萬人使用 Codex,並描述了一種行動工作流程:使用者可以用手機審查輸出、核准命令、切換模型、啟動工作,並追蹤截圖、終端機輸出、差異、測試結果與核准。3同一則公告也指出,Remote SSH 已達一般可用狀態,讓 Codex 能在遠端機器與受管理環境中執行工作串。3
這種產品形態把代理工作推進到多個裝置、機器、工作串、核准、憑證與本地工具之間。單次代理執行可能涉及筆電、手機核准、遠端主機、專案、外掛程式、瀏覽器、Shell,以及版本控制操作。
所有權紀錄必須跟著這次執行移動。否則系統能回答「執行了什麼命令?」,卻失去「命令執行當下,誰擁有這次執行?」這個答案。
Codex 掛鉤讓代理框架成真把掛鉤、核准、Git 監管、證據與品味,視為代理工作周圍的一層操作系統。所有權也屬於同一層。掛鉤可以阻擋高風險動作。追蹤可以解釋已完成動作。所有權則把這次執行連結到能為兩種結果負責的帳戶與操作者。
執行環境所有權契約
團隊不需要為每個內部任務套用完整的金絲雀歸因協定。他們需要的是第一方所有權契約,讓歸因在出事之前就成為日常。
從每次代理執行的一筆紀錄開始:
| 所有權紀錄欄位 | 最低行為 |
|---|---|
run_id |
代理工作階段或任務的穩定 ID。 |
account_id |
擁有這次執行的客戶、工作區、租戶或組織。 |
operator_id |
啟動這次執行的人、服務、排程工作或政策。 |
delegation_source |
UI 點擊、API 呼叫、排程規則、行動核准或自動化權杖。 |
authority_bundle |
工具、金鑰、範圍、預算、可寫入根目錄、網路政策與資料網域。 |
approval_events |
誰在何時、依據哪個政策,核准了什麼。 |
trace_pointer |
指向提示、工具呼叫、輸出、錯誤與網路決策的連結。 |
stop_controls |
暫停、撤銷、限流、隔離或終止控制。 |
review_owner |
接收濫用、安全、資安或品質審查的團隊或佇列。 |
retention_policy |
紀錄可保留多久,以及誰可以存取。 |
這筆紀錄應位於聊天逐字稿之下、原始基礎架構記錄之上。產品支援可以使用它。安全團隊可以使用它。法遵可以使用它。工程團隊也可以在復原時使用它。
欄位名稱不是重點。不變原則才是重點:沒有負責的執行紀錄,就不該有代理動作。
所有權需要隱私邊界
如果團隊把歸因當成預設揭露所有人身分的許可,歸因也可能被濫用。所有權論文直接點出這項風險,並把協定框在授權、可稽核的權責機關、政策依據與法律程序之內。1
產品團隊應該仿效這種克制。
| 邊界 | 產品規則 |
|---|---|
| 存取 | 只有授權審查者可以檢視擁有者紀錄。 |
| 目的 | 僅限濫用、安全、資安、支援、法遵或事件回應。 |
| 揭露 | 對外揭露需要政策、流程或法律依據。 |
| 最小化 | 儲存足以停止傷害並審查執行的資訊,而不是永久保存每個私人細節。 |
| 稽核 | 記錄每一次所有權查詢與每一次揭露。 |
所有權不應變成隨意監控。強健的歸因會為受害者、平台、供應商與操作者提供回應路徑。薄弱的治理,會把同一個信任基礎變成另一個信任問題。
設計原則很簡單:讓每個代理都對系統負責,也讓每次所有權查詢都對政策負責。
所有權與現有代理控制如何搭配
所有權不取代堆疊中的其他部分。
OpenAI 的 Agents SDK 公告指向同樣的分層形態。SDK 讓代理具備受控工作區、檔案與工具檢查、MCP、技能、AGENTS.md、Shell、修補、沙箱執行,以及以 Manifest 為基礎的工作區。4AgentTrust 則提出互補的安全論點:在執行前檢查工具呼叫,並回傳 allow、warn、block 或 review 等結構化判定。5
這些系統決定代理下一步能做什麼。所有權決定誰為這次執行負責。
| 控制 | 任務 | 所有權補上 |
|---|---|---|
| 範圍化金鑰 | 限制代理能做什麼 | 哪個帳戶與操作者授予該範圍 |
| 執行環境掛鉤 | 攔截高風險動作 | 哪次執行觸發了掛鉤 |
| 核准關口 | 加入人類判斷 | 誰核准了哪項權限擴張 |
| 執行追蹤 | 顯示發生了什麼 | 誰擁有追蹤,且誰能採取行動 |
| 審查包 | 封裝證據 | 哪個擁有者接受結果 |
| 模型工具 | 產生型別化估算 | 哪個系統委派了模型權限 |
AI 代理應該呼叫模型主張,代理應該呼叫訓練過的模型,而不是自行編造估算。所有權把同樣的紀律延伸到權限。系統應該知道一個動作來自人類點擊、代理工作階段、模型工具、排程自動化,還是委派政策。
這種區分能保護使用者。使用者不該被迫猜測:某個動作究竟來自自己、來自以其帳戶行事的助理、來自組織政策,或來自遭入侵的自動化。
代理需要監督介面談的是這個問題面向使用者的一側。所有權提供介面之下的紀錄。審查包是新的最終答案談的是完成成品。所有權提供能接受、拒絕或撤銷該成品的一方。
決策規則
在部署一個會影響其他人或外部系統的代理之前,先問一個問題:
如果明天有人投訴這個代理,我們能否識別該次執行、帳戶、權限範圍、核准事件,以及能停止它的人或團隊?
如果答案是否定的,這個代理就還沒準備好進入生產環境。
產品可能已經有記錄。可能已經有權限。也可能已經有提示,告訴模型要守規矩。這些部分在串成一筆可問責紀錄之前,都不等於所有權。
代理所有權應該變得和請求 ID、稽核記錄與 API 金鑰一樣平常。這項工作聽起來或許官僚,但替代方案更糟:自主系統可以行動,卻沒有人能為行動負責。
FAQ
什麼是 AI 代理所有權?
AI 代理所有權是執行環境紀錄,會把代理動作連結到負責該次執行的帳戶、工作階段、操作者、權限範圍、追蹤與停止路徑。
代理所有權和代理歸因有何不同?
代理所有權是第一方產品契約。系統會在執行前與執行中記錄所有權。代理歸因則處理更困難的事後問題:當受影響的一方本來不知道擁有者是誰時,把觀察到的有害行為連結到負責的供應商帳戶。1
為什麼只有記錄不夠?
記錄可以顯示命令、工具呼叫、核准與網路決策。但當記錄無法回答誰委派了這次執行、誰擁有權限範圍,以及誰能停止或審查代理時,記錄就失效了。
供應商是否應向任何提出要求的人揭露代理擁有者?
不應該。所有權查詢應要求授權存取、政策依據與稽核。對外揭露應有適當流程。只有當查詢路徑本身也受到治理時,歸因才能保護信任。1
最低生產要求是什麼?
每一次可能影響外部系統的代理執行,都應具備執行 ID、帳戶 ID、操作者 ID、權限組合、核准紀錄、追蹤連結、停止控制、審查擁有者與保留政策。
參考資料
-
Ruben Chocron, Doron Jonathan Ben Chayim, Eyal Lenga, Gilad Gressel, Alina Oprea, and Yisroel Mirsky, “Who Owns This Agent? Tracing AI Agents Back to Their Owners,” arXiv:2605.16035v1, submitted May 15, 2026. 來源:代理歸因定義、供應商託管 LLM 威脅模型、以金絲雀為基礎的歸因協定、詞彙與語意金絲雀分類、效用與規避取捨、資安代理評估數據、有界時間窗搜尋特性、限制,以及圍繞授權/可稽核權責機關的倫理框架。 ↩↩↩↩↩↩↩↩↩↩
-
OpenAI, “Running Codex safely at OpenAI,” OpenAI, May 8, 2026. 來源:Codex 沙箱、核准、受管理的網路政策、身分與憑證控制、受管理的設定、OpenTelemetry 事件、Compliance Platform 記錄,以及 OpenAI 在安全分流中使用 Codex 記錄的方式。 ↩↩↩
-
OpenAI, “Work with Codex from anywhere,” OpenAI, May 14, 2026. 來源:Codex 每週使用量、行動控制、遠端機器連線、跨工作串與核准的即時狀態、截圖、終端機輸出、差異、測試結果、Remote SSH 一般可用、掛鉤一般可用,以及程式化存取權杖。 ↩↩
-
OpenAI, “The next evolution of the Agents SDK,” OpenAI, April 15, 2026. 來源:Agents SDK 模型原生代理迴圈、受控工作區、檔案與工具檢查、MCP、技能、AGENTS.md、Shell、apply_patch、原生沙箱執行、Manifest 抽象,以及代理編排與運算環境的分離。 ↩
-
Chenglin Yang, “AgentTrust: Runtime Safety Evaluation and Interception for AI Agent Tool Use,” arXiv:2605.04785v1, submitted May 6, 2026. 來源:執行前工具呼叫攔截、allow/warn/block/review 判定、Shell 去混淆、RiskChain 偵測、基準範圍,以及 MCP 伺服器整合。 ↩