AI 代理归属权是信任的基础原语

2分钟阅读

2026年5月15日，来自内盖夫本-古里安大学、东北大学和 Amrita Vishwa Vidyapeetham 的研究人员将代理溯源定义为：把一次已观察到的 AI 代理交互关联到托管供应商处负责账户的问题。¹

这个说法听起来范围很窄。实际问题并不窄。一个代理可以骚扰用户、抓取系统、冒充客服代表、执行网络安全任务、调用工具、花费资金，或更改基础设施。受影响的一方能看到行为，却无法识别部署该代理的操作者。¹

AI 代理归属权是缺失的信任基础原语。每一次自主行动都应映射到一个负责账户、一次会话、一个权限范围、一个个人或组织所有者，以及一条停止路径。日志告诉您发生了什么。归属权告诉您谁能对此负责。

摘要

代理安全不能止步于工具权限、执行环境钩子或最终答案证据。这些控制很重要，但它们无法回答问责问题：正在运行的代理归谁负责？

这篇新的代理溯源论文提出了一种由供应商介导的协议，使用金丝雀标记把已观察到的有害交互连接到供应商会话和账户。¹该研究面向滥用响应和法律问责。产品团队需要在自己的系统中落实一个更小、更日常的版本：每一次代理运行都应携带归属记录，把账户、会话、权限范围、工具活动、审查路径和终止开关连接起来。

核心要点

对于代理平台团队： - 将归属权视为执行环境字段，而不是计费后的附属信息。 - 为每一次代理运行附加所有者、账户、会话、工具范围和停止控制。

对于安全团队： - 没有归属权的日志会拖慢事件响应。没有日志的归属权会削弱证据。 - 两者都要：行动追踪和负责账户路径。

对于产品团队： - 向用户显示谁或什么正在代表他们行动。 - 区分委托行动与委托问责。

对于政策与信任团队： - 为授权响应设计溯源，而不是随意去匿名化。 - 记录足够信息，以便停止伤害、审查滥用并尊重正当程序。

归属权不是显示名称

多数产品已经显示某种身份信息。聊天窗口可能显示工作区、用户头像、机器人名称、API 密钥标签或组织。这一层界面可以帮助人理解当前上下文，但它不能证明归属权。

代理归属权需要更严格的契约：

字段	它回答的问题
账户	哪个客户、工作区或供应商账户为这次运行提供了资源？
会话	哪一次具体运行产生了该行动？
操作者	哪个人、服务或政策委托了这项工作？
权限范围	代理可以使用哪些工具、密钥、预算和资源？
行动追踪	发生了哪些提示、审批、工具调用、输出和网络决策？
停止路径	谁可以暂停、撤销、限流或终止这次运行？
审查路径	在收到投诉或警报后，谁可以开展调查？

这个清单看起来偏运营，因为归属权本来就是运营问题。当一个代理发送了2000条有害消息，或猛烈请求第三方端点时，一个标签帮不上忙。响应团队需要会话、账户、权限范围和停止路径。

代理密钥需要风险预算讨论的是权限侧：密钥应授予狭窄且由服务器强制执行的能力。归属权讨论的是问责侧：对该权限的每一次使用，都应回指到一条负责记录。

溯源论文补上了什么

这篇论文形式化了代理操作者很快就会意识到的空白。受害者看见代理的行为。供应商看见模型调用和账户日志。任何一方单独都看不见两边的视角。¹

论文提出的协议用金丝雀标记桥接这两个视角。获授权的一方把标记注入嫌疑代理可能消费的内容中。如果代理把该内容转发进供应商托管的模型调用，供应商就可以在一个狭窄时间窗口内搜索会话日志，找到金丝雀标记，恢复会话，并把该会话连接到账户。¹

论文区分了简单场景和困难场景：

场景	实用的金丝雀形态	为什么有效
非对抗性误用	词法标记、标识符或唯一字符串	代理会在不做过滤的情况下把内容传给模型。
对抗性滥用	带有实用价值的词法或语义金丝雀	移除金丝雀也会移除代理完成任务所需的内容。
供应商响应	狭窄时间窗口日志搜索	供应商搜索注入时间附近的会话，而不是所有历史日志。

“带有实用价值”这个思路很关键。诈骗代理可能需要目标的情绪线索。网页代理可能需要可见页面内容。网络安全代理可能需要文件名和响应产物。如果操作者过滤得过于激进，代理会在丢失溯源证据的同时丧失任务表现。¹

论文中的网络安全代理实验把这种取舍具体化了。当抑制策略移除与任务相关的产物时，能识别金丝雀的对手将代理解题率从51%降到9%。文件名和可见正文标识符仍分别保留了77%和70%的溯源证据；在对抗性语义轨道中，语义金丝雀达到至少98%的真阳性率。¹

这些数字不应变成产品营销话术。论文测试的是特定代理、封装器和金丝雀族。真正应保留下来的教训是：当信号搭载在代理实际需要的内容上时，溯源最有效。

日志必要但不充分

OpenAI 关于 Codex 安全的文章描述了一种成熟的控制形态：有边界的执行、审批、托管网络策略、凭据存储、规则、托管配置和代理原生遥测。²遥测侧包括面向用户提示、审批决策、工具执行结果、MCP 服务器使用，以及网络代理允许或拒绝事件的 OpenTelemetry 记录。²

OpenAI 还描述了一个安全分流工作流，使用 Codex 日志检查可疑端点警报周围的原始请求、工具活动、审批决策、工具结果和网络策略决策。²

这些证据是必要的。它仍然需要归属权。

工具追踪可以说：

追踪证据	缺失的归属权问题
代理调用了 shell 工具	哪个账户授权了这次运行？
代理命中了网络拦截	哪位政策所有者可以审查该拦截？
代理请求了审批	谁批准、拒绝或委托了审批？
代理使用了 MCP 服务器	哪个工作区配置了该服务器？
代理生成了输出	哪位操作者承担发布责任？

代理执行追踪是执行环境契约认为，追踪证明路径。归属权证明该路径背后的责任方。强健系统需要在会话层面连接这两类记录。

Codex 说明这个问题已不再只是理论

OpenAI 在5月14日发布的 Codex 公告中表示，每周有超过400万人使用 Codex，并描述了一种移动端工作流：用户可以在手机上审查输出、批准命令、更改模型、启动工作，并跟踪截图、终端输出、差异、测试结果和审批。³同一公告还表示 Remote SSH 已正式可用，允许 Codex 在远程机器和托管环境中运行线程。³

这种产品形态把代理工作推向设备、机器、线程、审批、凭据和本地工具之间。一次代理运行可能涉及一台笔记本电脑、一次手机审批、一台远程主机、一个项目、一个插件、一个浏览器、一个 shell，以及一次版本控制操作。

归属记录必须随运行一起移动。否则，系统也许能回答“运行了什么命令？”，却丢失“命令运行时，这次运行归谁负责？”。

Codex 钩子让本地框架成为现实把钩子、审批、Git 保管、证据和品味视为代理工作周围的一层操作系统。归属权也属于同一层。钩子可以拦截高风险行动。追踪可以解释已完成的行动。归属权把运行连接到能够对两种结果负责的账户和操作者。

执行环境归属契约

团队不需要为每个内部任务启用完整的金丝雀溯源协议。他们需要的是第一方归属契约，让溯源在出事之前就成为常规动作。

从每次代理运行一条记录开始：

归属记录字段	最低行为
`run_id`	代理会话或任务的稳定 ID。
`account_id`	拥有这次运行的客户、工作区、租户或组织。
`operator_id`	发起这次运行的个人、服务、定时任务或政策。
`delegation_source`	UI 点击、API 调用、定时规则、移动端审批或自动化令牌。
`authority_bundle`	工具、密钥、范围、预算、可写根目录、网络策略和数据域。
`approval_events`	谁在何时、依据哪项政策批准了什么。
`trace_pointer`	指向提示、工具调用、输出、错误和网络决策的链接。
`stop_controls`	暂停、撤销、限流、隔离或终止控制。
`review_owner`	接收滥用、安全、安保或质量审查的团队或队列。
`retention_policy`	记录保留多久，以及谁可以访问。

这条记录应位于聊天记录之下、原始基础设施日志之上。产品支持可以使用它。安全团队可以使用它。合规团队可以使用它。工程团队在回滚时也可以使用它。

字段名并不是最重要的。真正的不变量是：没有负责的运行记录，就不应有代理行动。

归属权需要隐私边界

如果团队把溯源视为默认揭示所有人身份的许可，溯源也可能被滥用。归属权论文直接指出了这一风险，并围绕授权、可审计的主体、政策资格和法律程序来设计协议。¹

产品团队应借鉴这种克制。

边界	产品规则
访问	只有获授权的审查者可以检查所有者记录。
目的	仅限滥用、安全、安保、支持、合规或事件响应。
披露	对外披露需要政策、流程或法律依据。
最小化	存储足以停止伤害和审查运行的信息，而不是永久保存每个私人细节。
审计	记录每一次归属权查询和每一次披露。

归属权不应沦为随意监控。强溯源为受害者、平台、供应商和操作者提供响应路径。薄弱治理则会把同一个基础原语变成另一个信任问题。

设计原则很简单：让每个代理都对系统负责，也让每一次归属权查询都对政策负责。

归属权如何嵌入现有代理控制

归属权不会取代栈里的其他部分。

OpenAI 的 Agents SDK 公告指向了同样的分层形态。SDK 为代理提供受控工作区、文件和工具检查、MCP、skills、AGENTS.md、shell、补丁、沙箱执行和基于清单的工作区。⁴AgentTrust 提出了互补的安全论点：在执行前检查工具调用，并返回 allow、warn、block 或 review 等结构化裁决。⁵

这些系统决定代理下一步能做什么。归属权决定谁对这次运行负责。

控制	职责	归属权补充
范围化密钥	限制代理能做什么	哪个账户和操作者授予了该范围
执行环境钩子	拦截高风险行动	哪次运行触发了钩子
审批关口	加入人的判断	谁批准了哪项权限扩展
执行追踪	显示发生了什么	谁拥有该追踪，以及谁可以据此行动
审查包	打包证据	哪位所有者接受该结果
模型工具	生成类型化估计	哪个系统委托了模型权限

AI 代理应该调用模型认为，代理应调用经过训练的模型，而不是凭空编造估计。归属权把同一种纪律扩展到权限上。系统应知道某个行动来自人的点击、代理会话、模型工具、定时自动化，还是委托政策。

这种区分保护用户。用户不应猜测某个行动是他们自己做的，还是助手在其账户下执行的，抑或来自组织政策或被攻陷的自动化。

代理需要监督界面讨论的是这个问题面向用户的一侧。归属权提供界面底下的记录。审查包是新的最终答案讨论的是完成产物。归属权提供能够接受、拒绝或撤销该产物的责任方。

决策规则

在部署任何会影响他人或外部系统的代理之前，先问一个问题：

如果明天有人投诉这个代理，我们能否识别这次运行、账户、权限范围、审批事件，以及能够停止它的个人或团队？

如果答案是否定的，该代理就还没有达到生产就绪。

产品也许已经有日志。也许已经有权限。也许已经有提示词要求模型守规矩。这些片段只有汇入同一条可问责记录后，才构成归属权。

代理归属权应像请求 ID、审计日志和 API 密钥一样寻常。这项工作听起来可能像官僚流程，但替代方案更糟：自主系统可以行动，却没有人能为行动负责。

FAQ

什么是 AI 代理归属权？

AI 代理归属权是一条执行环境记录，它把代理行动连接到对这次运行负责的账户、会话、操作者、权限范围、追踪和停止路径。

代理归属权与代理溯源有什么区别？

代理归属权是第一方产品契约。系统在运行前和运行期间记录归属权。代理溯源解决的是更困难的事后问题：当受影响方尚不知道所有者是谁时，把已观察到的有害行为连接到负责的供应商账户。¹

为什么只有日志不够？

日志可以显示命令、工具调用、审批和网络决策。当日志无法回答谁委托了这次运行、谁拥有权限范围，以及谁可以停止或审查代理时，日志就失效了。

供应商是否应向任何提出请求的人披露代理所有者？

不应。归属权查询应要求授权访问、政策资格和审计。对外披露应要求适当流程。只有查询路径本身也受到治理时，溯源才能保护信任。¹

最低生产要求是什么？

每一次可能影响外部系统的代理运行，都应具备运行 ID、账户 ID、操作者 ID、权限包、审批记录、追踪指针、停止控制、审查所有者和保留政策。

参考资料

Ruben Chocron、Doron Jonathan Ben Chayim、Eyal Lenga、Gilad Gressel、Alina Oprea 和 Yisroel Mirsky，“Who Owns This Agent? Tracing AI Agents Back to Their Owners,” arXiv:2605.16035v1，提交于2026年5月15日。来源用于代理溯源定义、供应商托管的 LLM 威胁模型、基于金丝雀的溯源协议、词法和语义金丝雀分类、实用性与规避之间的取舍、网络安全代理评估数字、有界窗口搜索属性、局限性，以及围绕授权且可审计主体的伦理框架。 ↩↩↩↩↩↩↩↩↩↩
OpenAI，“Running Codex safely at OpenAI,” OpenAI，2026年5月8日。来源用于 Codex 沙箱、审批、托管网络策略、身份与凭据控制、托管配置、OpenTelemetry 事件、Compliance Platform 日志，以及 OpenAI 在安全分流中对 Codex 日志的使用。 ↩↩↩
OpenAI，“Work with Codex from anywhere,” OpenAI，2026年5月14日。来源用于 Codex 每周使用量、移动端控制、远程机器连接、跨线程和审批的实时状态、截图、终端输出、差异、测试结果、Remote SSH 正式可用、钩子正式可用，以及程序化访问令牌。 ↩↩
OpenAI，“The next evolution of the Agents SDK,” OpenAI，2026年4月15日。来源用于 Agents SDK 模型原生代理循环、受控工作区、文件和工具检查、MCP、skills、AGENTS.md、shell、apply_patch、原生沙箱执行、清单抽象，以及代理编排与计算环境的分离。 ↩
Chenglin Yang，“AgentTrust: Runtime Safety Evaluation and Interception for AI Agent Tool Use,” arXiv:2605.04785v1，提交于2026年5月6日。来源用于执行前工具调用拦截、allow/warn/block/review 裁决、shell 去混淆、RiskChain 检测、基准范围，以及 MCP 服务器集成。 ↩