托管代理与本地代理框架:哪些值得保留
Anthropic与OpenAI正在将代理运行时基础设施转化为产品层面的能力:托管会话、沙箱、追踪、记忆、交接、评分标准与事件流,如今更靠近模型提供方,而非团队私有的脚本目录。12
核心要点是什么?
- 托管代理正在成为运行时层。当提供方满足团队的安全标准时,会话、沙箱、追踪、事件与异步执行越来越属于托管基础设施。12
- 本地框架依然重要。保留承载品味、证据、公开写作完整性、隐私边界、来源核验与项目记忆的部分。
- 迁移的单位是任务,不是命令。斜杠命令、Codex技能、SDK交接、MCP服务器,或托管出的成果,只要验收标准延续,都能承担同一套工作流。
- 不要发布私有机制。公开文章应阐述模式与验收标准,而不是私有提示词、确切的钩子内容、账号细节或内部评分规则。
- 晋级需要证据。先以显式调用启动,跑一个真实任务,记录结果,只有当用户可见的路径确实改善时才能晋级。
托管代理平台理应吸收通用的运行时工作:沙箱执行、有状态会话、事件流、追踪、文件执行与异步完成。本地框架仍有意义,但其职责会变得更小、更聚焦。保留那些承载产品品味、证据闸门、公开写作完整性、隐私边界、来源核验,以及项目专属操作记忆的部分。把那些只是因为别人尚未打包运行时才存在的部分迁移出去。
糟糕的迁移做法之一,是因为某家提供方推出了托管基础设施就删掉本地框架。糟糕的迁移做法之二,是因为某条本地命令、钩子或提示词曾经解决过真实问题就把它们悉数保留。正确的迁移要对每个组件追问一句:它承载的是我的标准,还是仅在操作机器?
关于更宏观的架构,请参阅AI代理架构指南。本文背后真实运行的本地迁移模式,请参阅Claude Code到Codex迁移指南、AGENTS.md模式与Jiro品质哲学。
至于这道分割线本地工具一侧的内容,Claude Code作为基础设施解释了私有运行时层为何会不断生长,Claude Code与Codex CLI 2026则比较了两者的激活面与安全面。
托管代理带来了什么变化?
Claude Managed Agents为开发者提供了一个运行在托管基础设施之上的预构建代理框架。Anthropic将其定位为长时任务与异步工作的合适选择,并围绕代理、环境、会话与事件提出了一组核心概念。1同一份文档描述了一个托管环境,其中Claude可以读取文件、运行命令、浏览网页、执行代码、调用MCP服务器,并在服务端持久化事件历史。1
Anthropic发布的工程文章把架构上的要点讲得比产品文档更清楚。Managed Agents团队将会话日志、框架与沙箱解耦,让每一部分都能独立失败或独立演进。3这种解耦之所以重要,是因为它把脆弱的单容器代理循环改造成一个具备可恢复会话状态、可替换执行环境,以及围绕凭据更收紧的安全边界的系统。3
OpenAI正通过Agents SDK朝同一方向推进。其2026年4月15日的更新加入了模型原生框架、原生沙箱执行、用于工作区的清单抽象,以及对常见原语的支持,例如MCP、技能、AGENTS.md、shell执行与补丁应用。2SDK的文档同样开放了用于多轮记忆的会话、用于LLM生成、工具调用、交接、护栏与自定义事件的追踪,以及在专业代理之间转移工作的交接能力。456
新闻就是这些。但战略问题不同:一旦平台把代理运行时打包好,本地框架还应当承担什么?
运行时与判断之间的边界在哪里?
大多数本地代理框架混合了两类不该总是绑在一起的工作。
第一类是运行时基础设施。运行时负责启动会话、授予工具权限、准备工作区、执行命令、存储事件、处理中断、恢复任务、流式上报状态与记录追踪。这类工作受益于标准化,也受益于安全工程——除非有充分理由,多数团队不必自己重新打造。
第二类是判断。判断决定了什么算作好工作、哪些公开声明需要一手来源、什么时候一份指南陈旧到不应发布、什么时候一个钩子噪声大到不应强制启用、什么时候来源扫描应当变为一条笔记而不是一篇文章,以及什么时候代理应当拒绝技术上正确但配不上产品的输出。这类工作必须留在本地,因为它来自产品、团队与读者。
托管基础设施可以跑出更好的循环。但它无法替你决定品味是什么。
哪些应当迁移到托管代理?
把那些不承载产品标准的组件迁移出去。
| 本地组件 | 平台支持时更合适的归处 | 原因 |
|---|---|---|
| 沙箱搭建 | 托管环境或SDK沙箱 | 提供方可以维护隔离、初始化、网络规则与提供方适配。 |
| 会话持久化 | 托管会话日志或SDK会话存储 | 长时任务需要在上下文窗口与工作进程崩溃后仍能存活的状态。 |
| 事件流与webhook | 托管事件或应用层任务队列 | 应用应当观察状态,而不是去轮询私有的shell状态。 |
| 追踪 | 提供方追踪或自有追踪处理器 | 代理调试需要为模型调用、工具、护栏与交接生成结构化span。 |
| 工具执行胶水代码 | 托管工具、MCP或SDK工具适配器 | 工具调用应当藏在稳定的接口背后,而不是依赖脆弱的提示词约定。 |
| 多代理分发 | 托管编排或SDK交接 | 委派需要可见性、输入过滤与清晰的交接契约。 |
Anthropic的Outcomes功能预示了这一趋势的下一步走向。开发者定义评分标准,托管框架配置一个独立的评判方,代理根据评判方的反馈进行迭代。7这并未取消本地标准。它为这些标准开出了运行时插槽。
同样的模式也适用于OpenAI的追踪。SDK默认会追踪运行、代理span、生成、函数工具调用、护栏与交接,并提供禁用追踪的开关,以及可将数据发送到其他目的地的处理器。5本地脚本可以做到近似效果。但生产系统通常应当优先选用标准化追踪,并把它送往团队已经在用的调试场所。
哪些应当保留在本地?
保留那些定义你的标准、你的读者,或你的私有运行上下文的组件。
产品品味。平台可以执行任务,却无从判断结果是否让产品整体变得更好。保留那些拒绝杂乱、平庸或缺乏分量的输出的品味规则。
证据闸门。保留那些要求当次会话证据、用户路径核验、显式列出缺口与根因分析的规则。托管追踪告诉你发生了什么。你的标准则决定证据是否足够。
公开写作的完整性。把引用规则、来源分级规则、私域边界检查、SEO/AIO检查与发布闸门留在站点附近。模型提供方不应替你决定哪些私有工作流细节适合公开。
项目记忆。把简明的项目准则、风格决策、已知风险、发布边界与运行日志放在团队可审阅的地方。只有当托管会话存储确实提升了持久性时,才把存储层迁移过去。
来源情报。保留编辑路由层。一次扫描可以发现14条优质素材,但如果正确的动作是监测、维护指南或写一条私有笔记,那它最终也可以产出零篇文章。
晋级策略。保留分级上线的规则。一项技能可以从仅显式调用起步,一个钩子可以先在影子模式下运行,一个插件可以一直停留在试点阶段,直到真实工作证明它带来的帮助大于干扰。
那张清单才是真正的框架。文件与命令只是它的某一种实现。
团队应当避开哪些迁移误区?
最容易搞砸这次迁移的方式,是保留外形而不是工作本身。
Claude Code斜杠命令、Codex技能、SDK工具、托管成果与MCP服务器并不是同一件事的可互换语法。它们是不同的激活面。一个斜杠命令可以变成一项技能。一项技能可以变成一份托管成果的评分标准。一个钩子可以变成一个追踪处理器。一旦平台开放了会话或webhook,某个本地脚本可能就此变得多余。
Anthropic关于长时代理的工程文章从相反的方向得出了同一结论:单靠上下文压缩并不能产出生产级的工作,真正奏效的模式补上了功能清单、进度产物、清晰的交接状态与端到端测试。8这些不是UI约定。它们是验收义务。
迁移要问的不是”我把/scan-intel放到哪里?”而是”来源情报这套工作流在做的工作究竟是什么?”
对一个来源扫描器而言,工作不是”运行一条命令”。工作是扫描已配置的来源、验证来源可达、对候选项打分、拒绝低信号的大批量写入、把有用的笔记保存在私有空间,并把可公开的机会路由至编辑审阅。具体的激活措辞可以变,工作流不会因此丢失。
同样的规则适用于品质准则。不要发布私有的提示词包。把准则转化为可观察的完成闸门:证据、用户路径核验、私域边界审阅,以及拒绝那些会削弱产品的工作的权利。
这一切如何落到来源情报扫描器上?
来源情报扫描器把这道分割线变得具体。
运行时一侧可以迁移。托管平台可以运行定时任务、存储会话、执行浏览器或抓取feed的工具、发出事件并保留追踪。如果某次扫描超时,托管会话应当知道哪些已经跑过、哪些来源失败,以及下一次运行应从何处续起。
判断一侧应当留在本地。扫描器仍需私有的来源图谱、分数阈值、查重、写入量上限以及编辑路由。一次扫到14条候选项的扫描,不应当自动产出14条笔记或一篇文章。正确的动作可能是一条私有笔记、一项指南维护任务、一项进入监测队列,或干脆拒绝公开写任何东西。
这种区分把一项噪声大的自动化变成了真正有用的工作流:
| 扫描器步骤 | 托管层 | 本地框架层 |
|---|---|---|
| 抓取来源 | 浏览器、feed、搜索或MCP工具 | 来源图谱与信任分级 |
| 持久化运行状态 | 会话日志、事件、追踪 | 选题台账与既往覆盖记忆 |
| 候选项打分 | 可选的模型/工具环节 | 编辑阈值与品味规则 |
| 写出输出 | 文件或笔记工具 | 写入量闸门与私域边界检查 |
| 路由下一步动作 | 事件、webhook或交接 | 发布、更新指南、监测或不动作的决策 |
同样的逻辑适用于编码、指南维护、翻译与公开写作工作流。当平台能更好地执行机制时,把执行迁移过去。保留那条决定输出是否值得存在的标准。
移动框架前应使用怎样的清单?
在把任何本地框架组件迁移到托管代理平台前,请使用此清单。
| 问题 | 是 | 否 |
|---|---|---|
| 该组件是否仅在操作运行时基础设施? | 朝托管会话、沙箱、追踪或事件迁移。 | 留在本地或归项目所有。 |
| 该组件是否承载品味、信任或编辑标准? | 标准留在本地;只暴露安全的评分标准或验收标准。 | 考虑下线。 |
| 该组件是否触及秘钥、账号状态或私有提示词? | 把私有细节排除在公开包与公开文章之外。 | 它可以作为通用模式公开。 |
| 平台是否能以评分标准、追踪、钩子或处理器表达同一道闸门? | 试点平台原生版本。 | 把本地版本保持在仅显式调用。 |
| 真实工作是否已经证明该行为? | 从仅显式调用晋级到试点或强制启用。 | 维持分级状态。 |
| 该组件是否制造噪声? | 简化、影子化或移除它。 | 继续以真实结果衡量它。 |
晋级路径应当保持平淡:
- 盘点该组件。
- 命名它承担的工作。
- 将其归类为运行时、判断、记忆、发布、来源情报或安全。
- 移植最小可用版本。
- 在一项真实任务上运行它。
- 记录发生了什么。
- 晋级、修订或移除它。
任何更花哨的做法,通常都是在掩盖不确定性。
团队今天该如何切分一个真实的框架?
对一套严肃的编码与写作设置,我会这样切分。
提供方层或托管层:
- 沙箱创建
- 文件执行
- 持久会话
- 事件流
- webhook
- 追踪与span
- 长时worker恢复
- 基础多代理委派
- 提供方支持时的评分标准执行
本地层或项目层:
AGENTS.md或同等的项目策略- 公开写作标准
- 引用与来源分级规则
- 产品品质准则
- 私有运行记忆
- 站点专属的SEO/AIO检查
- 来源情报路由
- 最终发布闸门
- 插件与共享包的发布边界策略
分割线不是”托管对自托管”。分割线是”通用运行时对产品判断”。
托管代理在哪些地方仍需谨慎?
托管代理平台并未消除困难的部分。它只是把这些部分转移了位置。
你仍需为工具、文件、网络访问与凭据制定安全模型。Anthropic的架构明确把凭据从执行生成代码的沙箱中分离出来,方向是对的,但团队仍要正确配置资源、保险库与访问边界。3
你仍需可观测性。一条追踪可以呈现调用图谱;它无法告诉你这份工作是否值得发布。一个评判方可以评估某份评分标准;它无法判断这份评分标准是否表达了正确的品味。
你仍需内容边界。一篇公开的迁移文章可以阐述模式,但它不应倾倒私有提示词、钩子的具体内部实现、私有文件路径、来源清单、账号细节或专有的编辑评分规则。
你仍需分级上线。Anthropic明确指出Managed Agents仍处于beta阶段,所有端点都需要managed-agents-2026-04-01这一beta头部,部分功能还需预览权限。1beta运行时可以有用,但不必直接成为每个工作流的默认路径。
团队该带走什么?
给工程负责人:
- 当平台满足你的安全门槛时,把运行时工作朝托管会话、沙箱、事件与追踪迁移。
- 保留关于证据、来源质量、产品品味与发布边界的本地标准。
- 把托管评分标准视为承载你标准的执行槽,而非它们的替代品。
给代理构建者:
- 不要把命令一一对应地搬过去。要搬运的是待完成的工作。
- 从仅显式调用起步,待真实任务证明价值后再晋级。
- 优先依赖追踪、会话日志与公开产物,不要去考古私有提示词。
给公开写作者:
- 把私有流程转化为公开的验收标准。
- 引用官方产品文档以反映当前行为。
- 当更好的文章是决策框架而非复盘时,拒绝复盘。
简要总结是什么?
托管代理平台让本地框架变得更小,但并未让它失去意义。当平台赢得这份信任时,把运行时工作迁入托管会话、沙箱、追踪、事件与编排。保留那些定义品质、证据、隐私、公开写作完整性,以及决定哪些工作配得上发布的本地标准。
FAQ:托管代理与本地框架
托管代理会取代本地AI代理框架吗?
不会。托管平台接管了更多运行时层:会话、沙箱、事件流、追踪与工具执行。本地框架在以下场景仍然重要:承载产品标准、证据闸门、公开写作规则、隐私边界、来源情报与项目专属记忆。
AGENTS.md或CLAUDE.md应保留什么?
把持久的项目规则放在那里:产品看重什么、完成如何核验、哪些私有细节不可发布、公开写作如何被检查,以及在某项任务被认定完成前哪些用户可见路径必须可用。不要把临时性的工具输出或私有提示词正文塞进永久指令文件。
团队何时应使用托管代理平台?
当工作需要长时执行、安全容器、持久会话、事件流、异步完成、追踪或托管的多代理编排,且提供方的安全、成本与数据控制契合该用例时,使用托管基础设施。12
哪些不应进入公开的框架包?
不要发布私有提示词、确切的钩子内容、敏感的文件路径、账号标识、令牌处理、私有来源清单、专有评分规则,或任何足以让陌生人重建你内部操作系统的东西。要发布的是模式与验收标准。
参考资料
-
Anthropic, “Claude Managed Agents overview”. 访问于2026年5月7日。 ↩↩↩↩↩↩
-
OpenAI, “The next evolution of the Agents SDK”, 2026年4月15日。 ↩↩↩↩
-
Anthropic Engineering, “Scaling Managed Agents: Decoupling the brain from the hands”, 2026年4月8日。 ↩↩↩
-
OpenAI Agents SDK, “Sessions”. 访问于2026年5月7日。 ↩
-
OpenAI Agents SDK, “Handoffs”. 访问于2026年5月7日。 ↩
-
Anthropic, “Define outcomes”. 访问于2026年5月7日。 ↩
-
Anthropic Engineering, “Effective harnesses for long-running agents”, 2025年11月26日。 ↩