AI 代理归属权是信任的基础原语
2026年5月15日,来自内盖夫本-古里安大学、东北大学和 Amrita Vishwa Vidyapeetham 的研究人员将代理溯源定义为:把一次已观察到的 AI 代理交互关联到托管供应商处负责账户的问题。1
这个说法听起来范围很窄。实际问题并不窄。一个代理可以骚扰用户、抓取系统、冒充客服代表、执行网络安全任务、调用工具、花费资金,或更改基础设施。受影响的一方能看到行为,却无法识别部署该代理的操作者。1
AI 代理归属权是缺失的信任基础原语。每一次自主行动都应映射到一个负责账户、一次会话、一个权限范围、一个个人或组织所有者,以及一条停止路径。日志告诉您发生了什么。归属权告诉您谁能对此负责。
摘要
代理安全不能止步于工具权限、执行环境钩子或最终答案证据。这些控制很重要,但它们无法回答问责问题:正在运行的代理归谁负责?
这篇新的代理溯源论文提出了一种由供应商介导的协议,使用金丝雀标记把已观察到的有害交互连接到供应商会话和账户。1该研究面向滥用响应和法律问责。产品团队需要在自己的系统中落实一个更小、更日常的版本:每一次代理运行都应携带归属记录,把账户、会话、权限范围、工具活动、审查路径和终止开关连接起来。
核心要点
对于代理平台团队: - 将归属权视为执行环境字段,而不是计费后的附属信息。 - 为每一次代理运行附加所有者、账户、会话、工具范围和停止控制。
对于安全团队: - 没有归属权的日志会拖慢事件响应。没有日志的归属权会削弱证据。 - 两者都要:行动追踪和负责账户路径。
对于产品团队: - 向用户显示谁或什么正在代表他们行动。 - 区分委托行动与委托问责。
对于政策与信任团队: - 为授权响应设计溯源,而不是随意去匿名化。 - 记录足够信息,以便停止伤害、审查滥用并尊重正当程序。
归属权不是显示名称
多数产品已经显示某种身份信息。聊天窗口可能显示工作区、用户头像、机器人名称、API 密钥标签或组织。这一层界面可以帮助人理解当前上下文,但它不能证明归属权。
代理归属权需要更严格的契约:
| 字段 | 它回答的问题 |
|---|---|
| 账户 | 哪个客户、工作区或供应商账户为这次运行提供了资源? |
| 会话 | 哪一次具体运行产生了该行动? |
| 操作者 | 哪个人、服务或政策委托了这项工作? |
| 权限范围 | 代理可以使用哪些工具、密钥、预算和资源? |
| 行动追踪 | 发生了哪些提示、审批、工具调用、输出和网络决策? |
| 停止路径 | 谁可以暂停、撤销、限流或终止这次运行? |
| 审查路径 | 在收到投诉或警报后,谁可以开展调查? |
这个清单看起来偏运营,因为归属权本来就是运营问题。当一个代理发送了2000条有害消息,或猛烈请求第三方端点时,一个标签帮不上忙。响应团队需要会话、账户、权限范围和停止路径。
代理密钥需要风险预算讨论的是权限侧:密钥应授予狭窄且由服务器强制执行的能力。归属权讨论的是问责侧:对该权限的每一次使用,都应回指到一条负责记录。
溯源论文补上了什么
这篇论文形式化了代理操作者很快就会意识到的空白。受害者看见代理的行为。供应商看见模型调用和账户日志。任何一方单独都看不见两边的视角。1
论文提出的协议用金丝雀标记桥接这两个视角。获授权的一方把标记注入嫌疑代理可能消费的内容中。如果代理把该内容转发进供应商托管的模型调用,供应商就可以在一个狭窄时间窗口内搜索会话日志,找到金丝雀标记,恢复会话,并把该会话连接到账户。1
论文区分了简单场景和困难场景:
| 场景 | 实用的金丝雀形态 | 为什么有效 |
|---|---|---|
| 非对抗性误用 | 词法标记、标识符或唯一字符串 | 代理会在不做过滤的情况下把内容传给模型。 |
| 对抗性滥用 | 带有实用价值的词法或语义金丝雀 | 移除金丝雀也会移除代理完成任务所需的内容。 |
| 供应商响应 | 狭窄时间窗口日志搜索 | 供应商搜索注入时间附近的会话,而不是所有历史日志。 |
“带有实用价值”这个思路很关键。诈骗代理可能需要目标的情绪线索。网页代理可能需要可见页面内容。网络安全代理可能需要文件名和响应产物。如果操作者过滤得过于激进,代理会在丢失溯源证据的同时丧失任务表现。1
论文中的网络安全代理实验把这种取舍具体化了。当抑制策略移除与任务相关的产物时,能识别金丝雀的对手将代理解题率从51%降到9%。文件名和可见正文标识符仍分别保留了77%和70%的溯源证据;在对抗性语义轨道中,语义金丝雀达到至少98%的真阳性率。1
这些数字不应变成产品营销话术。论文测试的是特定代理、封装器和金丝雀族。真正应保留下来的教训是:当信号搭载在代理实际需要的内容上时,溯源最有效。
日志必要但不充分
OpenAI 关于 Codex 安全的文章描述了一种成熟的控制形态:有边界的执行、审批、托管网络策略、凭据存储、规则、托管配置和代理原生遥测。2遥测侧包括面向用户提示、审批决策、工具执行结果、MCP 服务器使用,以及网络代理允许或拒绝事件的 OpenTelemetry 记录。2
OpenAI 还描述了一个安全分流工作流,使用 Codex 日志检查可疑端点警报周围的原始请求、工具活动、审批决策、工具结果和网络策略决策。2
这些证据是必要的。它仍然需要归属权。
工具追踪可以说:
| 追踪证据 | 缺失的归属权问题 |
|---|---|
| 代理调用了 shell 工具 | 哪个账户授权了这次运行? |
| 代理命中了网络拦截 | 哪位政策所有者可以审查该拦截? |
| 代理请求了审批 | 谁批准、拒绝或委托了审批? |
| 代理使用了 MCP 服务器 | 哪个工作区配置了该服务器? |
| 代理生成了输出 | 哪位操作者承担发布责任? |
代理执行追踪是执行环境契约认为,追踪证明路径。归属权证明该路径背后的责任方。强健系统需要在会话层面连接这两类记录。
Codex 说明这个问题已不再只是理论
OpenAI 在5月14日发布的 Codex 公告中表示,每周有超过400万人使用 Codex,并描述了一种移动端工作流:用户可以在手机上审查输出、批准命令、更改模型、启动工作,并跟踪截图、终端输出、差异、测试结果和审批。3同一公告还表示 Remote SSH 已正式可用,允许 Codex 在远程机器和托管环境中运行线程。3
这种产品形态把代理工作推向设备、机器、线程、审批、凭据和本地工具之间。一次代理运行可能涉及一台笔记本电脑、一次手机审批、一台远程主机、一个项目、一个插件、一个浏览器、一个 shell,以及一次版本控制操作。
归属记录必须随运行一起移动。否则,系统也许能回答“运行了什么命令?”,却丢失“命令运行时,这次运行归谁负责?”。
Codex 钩子让本地框架成为现实把钩子、审批、Git 保管、证据和品味视为代理工作周围的一层操作系统。归属权也属于同一层。钩子可以拦截高风险行动。追踪可以解释已完成的行动。归属权把运行连接到能够对两种结果负责的账户和操作者。
执行环境归属契约
团队不需要为每个内部任务启用完整的金丝雀溯源协议。他们需要的是第一方归属契约,让溯源在出事之前就成为常规动作。
从每次代理运行一条记录开始:
| 归属记录字段 | 最低行为 |
|---|---|
run_id |
代理会话或任务的稳定 ID。 |
account_id |
拥有这次运行的客户、工作区、租户或组织。 |
operator_id |
发起这次运行的个人、服务、定时任务或政策。 |
delegation_source |
UI 点击、API 调用、定时规则、移动端审批或自动化令牌。 |
authority_bundle |
工具、密钥、范围、预算、可写根目录、网络策略和数据域。 |
approval_events |
谁在何时、依据哪项政策批准了什么。 |
trace_pointer |
指向提示、工具调用、输出、错误和网络决策的链接。 |
stop_controls |
暂停、撤销、限流、隔离或终止控制。 |
review_owner |
接收滥用、安全、安保或质量审查的团队或队列。 |
retention_policy |
记录保留多久,以及谁可以访问。 |
这条记录应位于聊天记录之下、原始基础设施日志之上。产品支持可以使用它。安全团队可以使用它。合规团队可以使用它。工程团队在回滚时也可以使用它。
字段名并不是最重要的。真正的不变量是:没有负责的运行记录,就不应有代理行动。
归属权需要隐私边界
如果团队把溯源视为默认揭示所有人身份的许可,溯源也可能被滥用。归属权论文直接指出了这一风险,并围绕授权、可审计的主体、政策资格和法律程序来设计协议。1
产品团队应借鉴这种克制。
| 边界 | 产品规则 |
|---|---|
| 访问 | 只有获授权的审查者可以检查所有者记录。 |
| 目的 | 仅限滥用、安全、安保、支持、合规或事件响应。 |
| 披露 | 对外披露需要政策、流程或法律依据。 |
| 最小化 | 存储足以停止伤害和审查运行的信息,而不是永久保存每个私人细节。 |
| 审计 | 记录每一次归属权查询和每一次披露。 |
归属权不应沦为随意监控。强溯源为受害者、平台、供应商和操作者提供响应路径。薄弱治理则会把同一个基础原语变成另一个信任问题。
设计原则很简单:让每个代理都对系统负责,也让每一次归属权查询都对政策负责。
归属权如何嵌入现有代理控制
归属权不会取代栈里的其他部分。
OpenAI 的 Agents SDK 公告指向了同样的分层形态。SDK 为代理提供受控工作区、文件和工具检查、MCP、skills、AGENTS.md、shell、补丁、沙箱执行和基于清单的工作区。4AgentTrust 提出了互补的安全论点:在执行前检查工具调用,并返回 allow、warn、block 或 review 等结构化裁决。5
这些系统决定代理下一步能做什么。归属权决定谁对这次运行负责。
| 控制 | 职责 | 归属权补充 |
|---|---|---|
| 范围化密钥 | 限制代理能做什么 | 哪个账户和操作者授予了该范围 |
| 执行环境钩子 | 拦截高风险行动 | 哪次运行触发了钩子 |
| 审批关口 | 加入人的判断 | 谁批准了哪项权限扩展 |
| 执行追踪 | 显示发生了什么 | 谁拥有该追踪,以及谁可以据此行动 |
| 审查包 | 打包证据 | 哪位所有者接受该结果 |
| 模型工具 | 生成类型化估计 | 哪个系统委托了模型权限 |
AI 代理应该调用模型认为,代理应调用经过训练的模型,而不是凭空编造估计。归属权把同一种纪律扩展到权限上。系统应知道某个行动来自人的点击、代理会话、模型工具、定时自动化,还是委托政策。
这种区分保护用户。用户不应猜测某个行动是他们自己做的,还是助手在其账户下执行的,抑或来自组织政策或被攻陷的自动化。
代理需要监督界面讨论的是这个问题面向用户的一侧。归属权提供界面底下的记录。审查包是新的最终答案讨论的是完成产物。归属权提供能够接受、拒绝或撤销该产物的责任方。
决策规则
在部署任何会影响他人或外部系统的代理之前,先问一个问题:
如果明天有人投诉这个代理,我们能否识别这次运行、账户、权限范围、审批事件,以及能够停止它的个人或团队?
如果答案是否定的,该代理就还没有达到生产就绪。
产品也许已经有日志。也许已经有权限。也许已经有提示词要求模型守规矩。这些片段只有汇入同一条可问责记录后,才构成归属权。
代理归属权应像请求 ID、审计日志和 API 密钥一样寻常。这项工作听起来可能像官僚流程,但替代方案更糟:自主系统可以行动,却没有人能为行动负责。
FAQ
什么是 AI 代理归属权?
AI 代理归属权是一条执行环境记录,它把代理行动连接到对这次运行负责的账户、会话、操作者、权限范围、追踪和停止路径。
代理归属权与代理溯源有什么区别?
代理归属权是第一方产品契约。系统在运行前和运行期间记录归属权。代理溯源解决的是更困难的事后问题:当受影响方尚不知道所有者是谁时,把已观察到的有害行为连接到负责的供应商账户。1
为什么只有日志不够?
日志可以显示命令、工具调用、审批和网络决策。当日志无法回答谁委托了这次运行、谁拥有权限范围,以及谁可以停止或审查代理时,日志就失效了。
供应商是否应向任何提出请求的人披露代理所有者?
不应。归属权查询应要求授权访问、政策资格和审计。对外披露应要求适当流程。只有查询路径本身也受到治理时,溯源才能保护信任。1
最低生产要求是什么?
每一次可能影响外部系统的代理运行,都应具备运行 ID、账户 ID、操作者 ID、权限包、审批记录、追踪指针、停止控制、审查所有者和保留政策。
参考资料
-
Ruben Chocron、Doron Jonathan Ben Chayim、Eyal Lenga、Gilad Gressel、Alina Oprea 和 Yisroel Mirsky,“Who Owns This Agent? Tracing AI Agents Back to Their Owners,” arXiv:2605.16035v1,提交于2026年5月15日。来源用于代理溯源定义、供应商托管的 LLM 威胁模型、基于金丝雀的溯源协议、词法和语义金丝雀分类、实用性与规避之间的取舍、网络安全代理评估数字、有界窗口搜索属性、局限性,以及围绕授权且可审计主体的伦理框架。 ↩↩↩↩↩↩↩↩↩↩
-
OpenAI,“Running Codex safely at OpenAI,” OpenAI,2026年5月8日。来源用于 Codex 沙箱、审批、托管网络策略、身份与凭据控制、托管配置、OpenTelemetry 事件、Compliance Platform 日志,以及 OpenAI 在安全分流中对 Codex 日志的使用。 ↩↩↩
-
OpenAI,“Work with Codex from anywhere,” OpenAI,2026年5月14日。来源用于 Codex 每周使用量、移动端控制、远程机器连接、跨线程和审批的实时状态、截图、终端输出、差异、测试结果、Remote SSH 正式可用、钩子正式可用,以及程序化访问令牌。 ↩↩
-
OpenAI,“The next evolution of the Agents SDK,” OpenAI,2026年4月15日。来源用于 Agents SDK 模型原生代理循环、受控工作区、文件和工具检查、MCP、skills、AGENTS.md、shell、apply_patch、原生沙箱执行、清单抽象,以及代理编排与计算环境的分离。 ↩
-
Chenglin Yang,“AgentTrust: Runtime Safety Evaluation and Interception for AI Agent Tool Use,” arXiv:2605.04785v1,提交于2026年5月6日。来源用于执行前工具调用拦截、allow/warn/block/review 裁决、shell 去混淆、RiskChain 检测、基准范围,以及 MCP 服务器集成。 ↩