← 所有文章

AI 代理归属权是信任的基础原语

2026年5月15日,来自内盖夫本-古里安大学、东北大学和 Amrita Vishwa Vidyapeetham 的研究人员将代理溯源定义为:把一次已观察到的 AI 代理交互关联到托管供应商处负责账户的问题。1

这个说法听起来范围很窄。实际问题并不窄。一个代理可以骚扰用户、抓取系统、冒充客服代表、执行网络安全任务、调用工具、花费资金,或更改基础设施。受影响的一方能看到行为,却无法识别部署该代理的操作者。1

AI 代理归属权是缺失的信任基础原语。每一次自主行动都应映射到一个负责账户、一次会话、一个权限范围、一个个人或组织所有者,以及一条停止路径。日志告诉您发生了什么。归属权告诉您谁能对此负责。

摘要

代理安全不能止步于工具权限、执行环境钩子或最终答案证据。这些控制很重要,但它们无法回答问责问题:正在运行的代理归谁负责?

这篇新的代理溯源论文提出了一种由供应商介导的协议,使用金丝雀标记把已观察到的有害交互连接到供应商会话和账户。1该研究面向滥用响应和法律问责。产品团队需要在自己的系统中落实一个更小、更日常的版本:每一次代理运行都应携带归属记录,把账户、会话、权限范围、工具活动、审查路径和终止开关连接起来。

核心要点

对于代理平台团队: - 将归属权视为执行环境字段,而不是计费后的附属信息。 - 为每一次代理运行附加所有者、账户、会话、工具范围和停止控制。

对于安全团队: - 没有归属权的日志会拖慢事件响应。没有日志的归属权会削弱证据。 - 两者都要:行动追踪和负责账户路径。

对于产品团队: - 向用户显示谁或什么正在代表他们行动。 - 区分委托行动与委托问责。

对于政策与信任团队: - 为授权响应设计溯源,而不是随意去匿名化。 - 记录足够信息,以便停止伤害、审查滥用并尊重正当程序。

归属权不是显示名称

多数产品已经显示某种身份信息。聊天窗口可能显示工作区、用户头像、机器人名称、API 密钥标签或组织。这一层界面可以帮助人理解当前上下文,但它不能证明归属权。

代理归属权需要更严格的契约:

字段 它回答的问题
账户 哪个客户、工作区或供应商账户为这次运行提供了资源?
会话 哪一次具体运行产生了该行动?
操作者 哪个人、服务或政策委托了这项工作?
权限范围 代理可以使用哪些工具、密钥、预算和资源?
行动追踪 发生了哪些提示、审批、工具调用、输出和网络决策?
停止路径 谁可以暂停、撤销、限流或终止这次运行?
审查路径 在收到投诉或警报后,谁可以开展调查?

这个清单看起来偏运营,因为归属权本来就是运营问题。当一个代理发送了2000条有害消息,或猛烈请求第三方端点时,一个标签帮不上忙。响应团队需要会话、账户、权限范围和停止路径。

代理密钥需要风险预算讨论的是权限侧:密钥应授予狭窄且由服务器强制执行的能力。归属权讨论的是问责侧:对该权限的每一次使用,都应回指到一条负责记录。

溯源论文补上了什么

这篇论文形式化了代理操作者很快就会意识到的空白。受害者看见代理的行为。供应商看见模型调用和账户日志。任何一方单独都看不见两边的视角。1

论文提出的协议用金丝雀标记桥接这两个视角。获授权的一方把标记注入嫌疑代理可能消费的内容中。如果代理把该内容转发进供应商托管的模型调用,供应商就可以在一个狭窄时间窗口内搜索会话日志,找到金丝雀标记,恢复会话,并把该会话连接到账户。1

论文区分了简单场景和困难场景:

场景 实用的金丝雀形态 为什么有效
非对抗性误用 词法标记、标识符或唯一字符串 代理会在不做过滤的情况下把内容传给模型。
对抗性滥用 带有实用价值的词法或语义金丝雀 移除金丝雀也会移除代理完成任务所需的内容。
供应商响应 狭窄时间窗口日志搜索 供应商搜索注入时间附近的会话,而不是所有历史日志。

“带有实用价值”这个思路很关键。诈骗代理可能需要目标的情绪线索。网页代理可能需要可见页面内容。网络安全代理可能需要文件名和响应产物。如果操作者过滤得过于激进,代理会在丢失溯源证据的同时丧失任务表现。1

论文中的网络安全代理实验把这种取舍具体化了。当抑制策略移除与任务相关的产物时,能识别金丝雀的对手将代理解题率从51%降到9%。文件名和可见正文标识符仍分别保留了77%和70%的溯源证据;在对抗性语义轨道中,语义金丝雀达到至少98%的真阳性率。1

这些数字不应变成产品营销话术。论文测试的是特定代理、封装器和金丝雀族。真正应保留下来的教训是:当信号搭载在代理实际需要的内容上时,溯源最有效。

日志必要但不充分

OpenAI 关于 Codex 安全的文章描述了一种成熟的控制形态:有边界的执行、审批、托管网络策略、凭据存储、规则、托管配置和代理原生遥测。2遥测侧包括面向用户提示、审批决策、工具执行结果、MCP 服务器使用,以及网络代理允许或拒绝事件的 OpenTelemetry 记录。2

OpenAI 还描述了一个安全分流工作流,使用 Codex 日志检查可疑端点警报周围的原始请求、工具活动、审批决策、工具结果和网络策略决策。2

这些证据是必要的。它仍然需要归属权。

工具追踪可以说:

追踪证据 缺失的归属权问题
代理调用了 shell 工具 哪个账户授权了这次运行?
代理命中了网络拦截 哪位政策所有者可以审查该拦截?
代理请求了审批 谁批准、拒绝或委托了审批?
代理使用了 MCP 服务器 哪个工作区配置了该服务器?
代理生成了输出 哪位操作者承担发布责任?

代理执行追踪是执行环境契约认为,追踪证明路径。归属权证明该路径背后的责任方。强健系统需要在会话层面连接这两类记录。

Codex 说明这个问题已不再只是理论

OpenAI 在5月14日发布的 Codex 公告中表示,每周有超过400万人使用 Codex,并描述了一种移动端工作流:用户可以在手机上审查输出、批准命令、更改模型、启动工作,并跟踪截图、终端输出、差异、测试结果和审批。3同一公告还表示 Remote SSH 已正式可用,允许 Codex 在远程机器和托管环境中运行线程。3

这种产品形态把代理工作推向设备、机器、线程、审批、凭据和本地工具之间。一次代理运行可能涉及一台笔记本电脑、一次手机审批、一台远程主机、一个项目、一个插件、一个浏览器、一个 shell,以及一次版本控制操作。

归属记录必须随运行一起移动。否则,系统也许能回答“运行了什么命令?”,却丢失“命令运行时,这次运行归谁负责?”。

Codex 钩子让本地框架成为现实把钩子、审批、Git 保管、证据和品味视为代理工作周围的一层操作系统。归属权也属于同一层。钩子可以拦截高风险行动。追踪可以解释已完成的行动。归属权把运行连接到能够对两种结果负责的账户和操作者。

执行环境归属契约

团队不需要为每个内部任务启用完整的金丝雀溯源协议。他们需要的是第一方归属契约,让溯源在出事之前就成为常规动作。

从每次代理运行一条记录开始:

归属记录字段 最低行为
run_id 代理会话或任务的稳定 ID。
account_id 拥有这次运行的客户、工作区、租户或组织。
operator_id 发起这次运行的个人、服务、定时任务或政策。
delegation_source UI 点击、API 调用、定时规则、移动端审批或自动化令牌。
authority_bundle 工具、密钥、范围、预算、可写根目录、网络策略和数据域。
approval_events 谁在何时、依据哪项政策批准了什么。
trace_pointer 指向提示、工具调用、输出、错误和网络决策的链接。
stop_controls 暂停、撤销、限流、隔离或终止控制。
review_owner 接收滥用、安全、安保或质量审查的团队或队列。
retention_policy 记录保留多久,以及谁可以访问。

这条记录应位于聊天记录之下、原始基础设施日志之上。产品支持可以使用它。安全团队可以使用它。合规团队可以使用它。工程团队在回滚时也可以使用它。

字段名并不是最重要的。真正的不变量是:没有负责的运行记录,就不应有代理行动。

归属权需要隐私边界

如果团队把溯源视为默认揭示所有人身份的许可,溯源也可能被滥用。归属权论文直接指出了这一风险,并围绕授权、可审计的主体、政策资格和法律程序来设计协议。1

产品团队应借鉴这种克制。

边界 产品规则
访问 只有获授权的审查者可以检查所有者记录。
目的 仅限滥用、安全、安保、支持、合规或事件响应。
披露 对外披露需要政策、流程或法律依据。
最小化 存储足以停止伤害和审查运行的信息,而不是永久保存每个私人细节。
审计 记录每一次归属权查询和每一次披露。

归属权不应沦为随意监控。强溯源为受害者、平台、供应商和操作者提供响应路径。薄弱治理则会把同一个基础原语变成另一个信任问题。

设计原则很简单:让每个代理都对系统负责,也让每一次归属权查询都对政策负责。

归属权如何嵌入现有代理控制

归属权不会取代栈里的其他部分。

OpenAI 的 Agents SDK 公告指向了同样的分层形态。SDK 为代理提供受控工作区、文件和工具检查、MCP、skills、AGENTS.md、shell、补丁、沙箱执行和基于清单的工作区。4AgentTrust 提出了互补的安全论点:在执行前检查工具调用,并返回 allow、warn、block 或 review 等结构化裁决。5

这些系统决定代理下一步能做什么。归属权决定谁对这次运行负责。

控制 职责 归属权补充
范围化密钥 限制代理能做什么 哪个账户和操作者授予了该范围
执行环境钩子 拦截高风险行动 哪次运行触发了钩子
审批关口 加入人的判断 谁批准了哪项权限扩展
执行追踪 显示发生了什么 谁拥有该追踪,以及谁可以据此行动
审查包 打包证据 哪位所有者接受该结果
模型工具 生成类型化估计 哪个系统委托了模型权限

AI 代理应该调用模型认为,代理应调用经过训练的模型,而不是凭空编造估计。归属权把同一种纪律扩展到权限上。系统应知道某个行动来自人的点击、代理会话、模型工具、定时自动化,还是委托政策。

这种区分保护用户。用户不应猜测某个行动是他们自己做的,还是助手在其账户下执行的,抑或来自组织政策或被攻陷的自动化。

代理需要监督界面讨论的是这个问题面向用户的一侧。归属权提供界面底下的记录。审查包是新的最终答案讨论的是完成产物。归属权提供能够接受、拒绝或撤销该产物的责任方。

决策规则

在部署任何会影响他人或外部系统的代理之前,先问一个问题:

如果明天有人投诉这个代理,我们能否识别这次运行、账户、权限范围、审批事件,以及能够停止它的个人或团队?

如果答案是否定的,该代理就还没有达到生产就绪。

产品也许已经有日志。也许已经有权限。也许已经有提示词要求模型守规矩。这些片段只有汇入同一条可问责记录后,才构成归属权。

代理归属权应像请求 ID、审计日志和 API 密钥一样寻常。这项工作听起来可能像官僚流程,但替代方案更糟:自主系统可以行动,却没有人能为行动负责。

FAQ

什么是 AI 代理归属权?

AI 代理归属权是一条执行环境记录,它把代理行动连接到对这次运行负责的账户、会话、操作者、权限范围、追踪和停止路径。

代理归属权与代理溯源有什么区别?

代理归属权是第一方产品契约。系统在运行前和运行期间记录归属权。代理溯源解决的是更困难的事后问题:当受影响方尚不知道所有者是谁时,把已观察到的有害行为连接到负责的供应商账户。1

为什么只有日志不够?

日志可以显示命令、工具调用、审批和网络决策。当日志无法回答谁委托了这次运行、谁拥有权限范围,以及谁可以停止或审查代理时,日志就失效了。

供应商是否应向任何提出请求的人披露代理所有者?

不应。归属权查询应要求授权访问、政策资格和审计。对外披露应要求适当流程。只有查询路径本身也受到治理时,溯源才能保护信任。1

最低生产要求是什么?

每一次可能影响外部系统的代理运行,都应具备运行 ID、账户 ID、操作者 ID、权限包、审批记录、追踪指针、停止控制、审查所有者和保留政策。


参考资料


  1. Ruben Chocron、Doron Jonathan Ben Chayim、Eyal Lenga、Gilad Gressel、Alina Oprea 和 Yisroel Mirsky,“Who Owns This Agent? Tracing AI Agents Back to Their Owners,” arXiv:2605.16035v1,提交于2026年5月15日。来源用于代理溯源定义、供应商托管的 LLM 威胁模型、基于金丝雀的溯源协议、词法和语义金丝雀分类、实用性与规避之间的取舍、网络安全代理评估数字、有界窗口搜索属性、局限性,以及围绕授权且可审计主体的伦理框架。 

  2. OpenAI,“Running Codex safely at OpenAI,” OpenAI,2026年5月8日。来源用于 Codex 沙箱、审批、托管网络策略、身份与凭据控制、托管配置、OpenTelemetry 事件、Compliance Platform 日志,以及 OpenAI 在安全分流中对 Codex 日志的使用。 

  3. OpenAI,“Work with Codex from anywhere,” OpenAI,2026年5月14日。来源用于 Codex 每周使用量、移动端控制、远程机器连接、跨线程和审批的实时状态、截图、终端输出、差异、测试结果、Remote SSH 正式可用、钩子正式可用,以及程序化访问令牌。 

  4. OpenAI,“The next evolution of the Agents SDK,” OpenAI,2026年4月15日。来源用于 Agents SDK 模型原生代理循环、受控工作区、文件和工具检查、MCP、skills、AGENTS.md、shell、apply_patch、原生沙箱执行、清单抽象,以及代理编排与计算环境的分离。 

  5. Chenglin Yang,“AgentTrust: Runtime Safety Evaluation and Interception for AI Agent Tool Use,” arXiv:2605.04785v1,提交于2026年5月6日。来源用于执行前工具调用拦截、allow/warn/block/review 裁决、shell 去混淆、RiskChain 检测、基准范围,以及 MCP 服务器集成。 

相关文章

AI Agent安全:部署与防御的信任悖论

企业AI漏洞中每8起就有1起涉及自主代理。运行时钩子、操作系统级沙箱和漂移检测打破了部署与防御的循环。

2 分钟阅读

我向NIST提交了关于AI Agent安全的意见

提交给NIST的生产环境证据:AI代理威胁是行为性的。7种故障模式、3层防御,以及60次日常会话中发现的框架缺陷。

2 分钟阅读

Ralph循环:我如何在夜间运行自主AI代理

我构建了一个使用停止钩子、生成预算和文件系统记忆的自主代理系统。以下是失败经验以及真正能交付代码的方法。

3 分钟阅读