托管代理与本地代理框架：哪些值得保留

Anthropic与OpenAI正在将代理运行时基础设施转化为产品层面的能力：托管会话、沙箱、追踪、记忆、交接、评分标准与事件流，如今更靠近模型提供方，而非团队私有的脚本目录。¹²

核心要点是什么？

托管代理正在成为运行时层。当提供方满足团队的安全标准时，会话、沙箱、追踪、事件与异步执行越来越属于托管基础设施。¹²
本地框架依然重要。保留承载品味、证据、公开写作完整性、隐私边界、来源核验与项目记忆的部分。
迁移的单位是任务，不是命令。斜杠命令、Codex技能、SDK交接、MCP服务器，或托管出的成果，只要验收标准延续，都能承担同一套工作流。
不要发布私有机制。公开文章应阐述模式与验收标准，而不是私有提示词、确切的钩子内容、账号细节或内部评分规则。
晋级需要证据。先以显式调用启动，跑一个真实任务，记录结果，只有当用户可见的路径确实改善时才能晋级。

托管代理平台理应吸收通用的运行时工作：沙箱执行、有状态会话、事件流、追踪、文件执行与异步完成。本地框架仍有意义，但其职责会变得更小、更聚焦。保留那些承载产品品味、证据闸门、公开写作完整性、隐私边界、来源核验，以及项目专属操作记忆的部分。把那些只是因为别人尚未打包运行时才存在的部分迁移出去。

糟糕的迁移做法之一，是因为某家提供方推出了托管基础设施就删掉本地框架。糟糕的迁移做法之二，是因为某条本地命令、钩子或提示词曾经解决过真实问题就把它们悉数保留。正确的迁移要对每个组件追问一句：它承载的是我的标准，还是仅在操作机器？

关于更宏观的架构，请参阅AI代理架构指南。本文背后真实运行的本地迁移模式，请参阅Claude Code到Codex迁移指南、AGENTS.md模式与Jiro品质哲学。

至于这道分割线本地工具一侧的内容，Claude Code作为基础设施解释了私有运行时层为何会不断生长，Claude Code与Codex CLI 2026则比较了两者的激活面与安全面。

托管代理带来了什么变化？

Claude Managed Agents为开发者提供了一个运行在托管基础设施之上的预构建代理框架。Anthropic将其定位为长时任务与异步工作的合适选择，并围绕代理、环境、会话与事件提出了一组核心概念。¹同一份文档描述了一个托管环境，其中Claude可以读取文件、运行命令、浏览网页、执行代码、调用MCP服务器，并在服务端持久化事件历史。¹

Anthropic发布的工程文章把架构上的要点讲得比产品文档更清楚。Managed Agents团队将会话日志、框架与沙箱解耦，让每一部分都能独立失败或独立演进。³这种解耦之所以重要，是因为它把脆弱的单容器代理循环改造成一个具备可恢复会话状态、可替换执行环境，以及围绕凭据更收紧的安全边界的系统。³

OpenAI正通过Agents SDK朝同一方向推进。其2026年4月15日的更新加入了模型原生框架、原生沙箱执行、用于工作区的清单抽象，以及对常见原语的支持，例如MCP、技能、AGENTS.md、shell执行与补丁应用。²SDK的文档同样开放了用于多轮记忆的会话、用于LLM生成、工具调用、交接、护栏与自定义事件的追踪，以及在专业代理之间转移工作的交接能力。⁴⁵⁶

新闻就是这些。但战略问题不同：一旦平台把代理运行时打包好，本地框架还应当承担什么？

运行时与判断之间的边界在哪里？

大多数本地代理框架混合了两类不该总是绑在一起的工作。

第一类是运行时基础设施。运行时负责启动会话、授予工具权限、准备工作区、执行命令、存储事件、处理中断、恢复任务、流式上报状态与记录追踪。这类工作受益于标准化，也受益于安全工程——除非有充分理由，多数团队不必自己重新打造。

第二类是判断。判断决定了什么算作好工作、哪些公开声明需要一手来源、什么时候一份指南陈旧到不应发布、什么时候一个钩子噪声大到不应强制启用、什么时候来源扫描应当变为一条笔记而不是一篇文章，以及什么时候代理应当拒绝技术上正确但配不上产品的输出。这类工作必须留在本地，因为它来自产品、团队与读者。

托管基础设施可以跑出更好的循环。但它无法替你决定品味是什么。

哪些应当迁移到托管代理？

把那些不承载产品标准的组件迁移出去。

本地组件	平台支持时更合适的归处	原因
沙箱搭建	托管环境或SDK沙箱	提供方可以维护隔离、初始化、网络规则与提供方适配。
会话持久化	托管会话日志或SDK会话存储	长时任务需要在上下文窗口与工作进程崩溃后仍能存活的状态。
事件流与webhook	托管事件或应用层任务队列	应用应当观察状态，而不是去轮询私有的shell状态。
追踪	提供方追踪或自有追踪处理器	代理调试需要为模型调用、工具、护栏与交接生成结构化span。
工具执行胶水代码	托管工具、MCP或SDK工具适配器	工具调用应当藏在稳定的接口背后，而不是依赖脆弱的提示词约定。
多代理分发	托管编排或SDK交接	委派需要可见性、输入过滤与清晰的交接契约。

Anthropic的Outcomes功能预示了这一趋势的下一步走向。开发者定义评分标准，托管框架配置一个独立的评判方，代理根据评判方的反馈进行迭代。⁷这并未取消本地标准。它为这些标准开出了运行时插槽。

同样的模式也适用于OpenAI的追踪。SDK默认会追踪运行、代理span、生成、函数工具调用、护栏与交接，并提供禁用追踪的开关，以及可将数据发送到其他目的地的处理器。⁵本地脚本可以做到近似效果。但生产系统通常应当优先选用标准化追踪，并把它送往团队已经在用的调试场所。

哪些应当保留在本地?

保留那些定义你的标准、你的读者，或你的私有运行上下文的组件。

产品品味。平台可以执行任务，却无从判断结果是否让产品整体变得更好。保留那些拒绝杂乱、平庸或缺乏分量的输出的品味规则。

证据闸门。保留那些要求当次会话证据、用户路径核验、显式列出缺口与根因分析的规则。托管追踪告诉你发生了什么。你的标准则决定证据是否足够。

公开写作的完整性。把引用规则、来源分级规则、私域边界检查、SEO/AIO检查与发布闸门留在站点附近。模型提供方不应替你决定哪些私有工作流细节适合公开。

项目记忆。把简明的项目准则、风格决策、已知风险、发布边界与运行日志放在团队可审阅的地方。只有当托管会话存储确实提升了持久性时，才把存储层迁移过去。

来源情报。保留编辑路由层。一次扫描可以发现14条优质素材，但如果正确的动作是监测、维护指南或写一条私有笔记，那它最终也可以产出零篇文章。

晋级策略。保留分级上线的规则。一项技能可以从仅显式调用起步，一个钩子可以先在影子模式下运行，一个插件可以一直停留在试点阶段，直到真实工作证明它带来的帮助大于干扰。

那张清单才是真正的框架。文件与命令只是它的某一种实现。

团队应当避开哪些迁移误区？

最容易搞砸这次迁移的方式，是保留外形而不是工作本身。

Claude Code斜杠命令、Codex技能、SDK工具、托管成果与MCP服务器并不是同一件事的可互换语法。它们是不同的激活面。一个斜杠命令可以变成一项技能。一项技能可以变成一份托管成果的评分标准。一个钩子可以变成一个追踪处理器。一旦平台开放了会话或webhook，某个本地脚本可能就此变得多余。

Anthropic关于长时代理的工程文章从相反的方向得出了同一结论：单靠上下文压缩并不能产出生产级的工作，真正奏效的模式补上了功能清单、进度产物、清晰的交接状态与端到端测试。⁸这些不是UI约定。它们是验收义务。

迁移要问的不是”我把/scan-intel放到哪里？”而是”来源情报这套工作流在做的工作究竟是什么？”

对一个来源扫描器而言，工作不是”运行一条命令”。工作是扫描已配置的来源、验证来源可达、对候选项打分、拒绝低信号的大批量写入、把有用的笔记保存在私有空间，并把可公开的机会路由至编辑审阅。具体的激活措辞可以变，工作流不会因此丢失。

同样的规则适用于品质准则。不要发布私有的提示词包。把准则转化为可观察的完成闸门：证据、用户路径核验、私域边界审阅，以及拒绝那些会削弱产品的工作的权利。

这一切如何落到来源情报扫描器上？

来源情报扫描器把这道分割线变得具体。

运行时一侧可以迁移。托管平台可以运行定时任务、存储会话、执行浏览器或抓取feed的工具、发出事件并保留追踪。如果某次扫描超时，托管会话应当知道哪些已经跑过、哪些来源失败，以及下一次运行应从何处续起。

判断一侧应当留在本地。扫描器仍需私有的来源图谱、分数阈值、查重、写入量上限以及编辑路由。一次扫到14条候选项的扫描，不应当自动产出14条笔记或一篇文章。正确的动作可能是一条私有笔记、一项指南维护任务、一项进入监测队列，或干脆拒绝公开写任何东西。

这种区分把一项噪声大的自动化变成了真正有用的工作流：

扫描器步骤	托管层	本地框架层
抓取来源	浏览器、feed、搜索或MCP工具	来源图谱与信任分级
持久化运行状态	会话日志、事件、追踪	选题台账与既往覆盖记忆
候选项打分	可选的模型/工具环节	编辑阈值与品味规则
写出输出	文件或笔记工具	写入量闸门与私域边界检查
路由下一步动作	事件、webhook或交接	发布、更新指南、监测或不动作的决策

同样的逻辑适用于编码、指南维护、翻译与公开写作工作流。当平台能更好地执行机制时，把执行迁移过去。保留那条决定输出是否值得存在的标准。

移动框架前应使用怎样的清单？

在把任何本地框架组件迁移到托管代理平台前，请使用此清单。

问题	是	否
该组件是否仅在操作运行时基础设施？	朝托管会话、沙箱、追踪或事件迁移。	留在本地或归项目所有。
该组件是否承载品味、信任或编辑标准？	标准留在本地；只暴露安全的评分标准或验收标准。	考虑下线。
该组件是否触及秘钥、账号状态或私有提示词？	把私有细节排除在公开包与公开文章之外。	它可以作为通用模式公开。
平台是否能以评分标准、追踪、钩子或处理器表达同一道闸门？	试点平台原生版本。	把本地版本保持在仅显式调用。
真实工作是否已经证明该行为？	从仅显式调用晋级到试点或强制启用。	维持分级状态。
该组件是否制造噪声？	简化、影子化或移除它。	继续以真实结果衡量它。

晋级路径应当保持平淡：

盘点该组件。
命名它承担的工作。
将其归类为运行时、判断、记忆、发布、来源情报或安全。
移植最小可用版本。
在一项真实任务上运行它。
记录发生了什么。
晋级、修订或移除它。

任何更花哨的做法，通常都是在掩盖不确定性。

团队今天该如何切分一个真实的框架？

对一套严肃的编码与写作设置，我会这样切分。

提供方层或托管层：

沙箱创建
文件执行
持久会话
事件流
webhook
追踪与span
长时worker恢复
基础多代理委派
提供方支持时的评分标准执行

本地层或项目层：

AGENTS.md或同等的项目策略
公开写作标准
引用与来源分级规则
产品品质准则
私有运行记忆
站点专属的SEO/AIO检查
来源情报路由
最终发布闸门
插件与共享包的发布边界策略

分割线不是”托管对自托管”。分割线是”通用运行时对产品判断”。

托管代理在哪些地方仍需谨慎？

托管代理平台并未消除困难的部分。它只是把这些部分转移了位置。

你仍需为工具、文件、网络访问与凭据制定安全模型。Anthropic的架构明确把凭据从执行生成代码的沙箱中分离出来，方向是对的，但团队仍要正确配置资源、保险库与访问边界。³

你仍需可观测性。一条追踪可以呈现调用图谱；它无法告诉你这份工作是否值得发布。一个评判方可以评估某份评分标准；它无法判断这份评分标准是否表达了正确的品味。

你仍需内容边界。一篇公开的迁移文章可以阐述模式，但它不应倾倒私有提示词、钩子的具体内部实现、私有文件路径、来源清单、账号细节或专有的编辑评分规则。

你仍需分级上线。Anthropic明确指出Managed Agents仍处于beta阶段，所有端点都需要managed-agents-2026-04-01这一beta头部，部分功能还需预览权限。¹beta运行时可以有用，但不必直接成为每个工作流的默认路径。

团队该带走什么？

给工程负责人：

当平台满足你的安全门槛时，把运行时工作朝托管会话、沙箱、事件与追踪迁移。
保留关于证据、来源质量、产品品味与发布边界的本地标准。
把托管评分标准视为承载你标准的执行槽，而非它们的替代品。

给代理构建者：

不要把命令一一对应地搬过去。要搬运的是待完成的工作。
从仅显式调用起步，待真实任务证明价值后再晋级。
优先依赖追踪、会话日志与公开产物，不要去考古私有提示词。

给公开写作者：

把私有流程转化为公开的验收标准。
引用官方产品文档以反映当前行为。
当更好的文章是决策框架而非复盘时，拒绝复盘。

简要总结是什么？

托管代理平台让本地框架变得更小，但并未让它失去意义。当平台赢得这份信任时，把运行时工作迁入托管会话、沙箱、追踪、事件与编排。保留那些定义品质、证据、隐私、公开写作完整性，以及决定哪些工作配得上发布的本地标准。

FAQ：托管代理与本地框架

托管代理会取代本地AI代理框架吗？

不会。托管平台接管了更多运行时层：会话、沙箱、事件流、追踪与工具执行。本地框架在以下场景仍然重要：承载产品标准、证据闸门、公开写作规则、隐私边界、来源情报与项目专属记忆。

AGENTS.md或CLAUDE.md应保留什么？

把持久的项目规则放在那里：产品看重什么、完成如何核验、哪些私有细节不可发布、公开写作如何被检查，以及在某项任务被认定完成前哪些用户可见路径必须可用。不要把临时性的工具输出或私有提示词正文塞进永久指令文件。

团队何时应使用托管代理平台？

当工作需要长时执行、安全容器、持久会话、事件流、异步完成、追踪或托管的多代理编排，且提供方的安全、成本与数据控制契合该用例时，使用托管基础设施。¹²

哪些不应进入公开的框架包？

不要发布私有提示词、确切的钩子内容、敏感的文件路径、账号标识、令牌处理、私有来源清单、专有评分规则，或任何足以让陌生人重建你内部操作系统的东西。要发布的是模式与验收标准。

参考资料

Anthropic, “Claude Managed Agents overview”. 访问于2026年5月7日。 ↩↩↩↩↩↩
OpenAI, “The next evolution of the Agents SDK”, 2026年4月15日。 ↩↩↩↩
Anthropic Engineering, “Scaling Managed Agents: Decoupling the brain from the hands”, 2026年4月8日。 ↩↩↩
OpenAI Agents SDK, “Sessions”. 访问于2026年5月7日。 ↩
OpenAI Agents SDK, “Tracing”. 访问于2026年5月7日。 ↩↩
OpenAI Agents SDK, “Handoffs”. 访问于2026年5月7日。 ↩
Anthropic, “Define outcomes”. 访问于2026年5月7日。 ↩
Anthropic Engineering, “Effective harnesses for long-running agents”, 2025年11月26日。 ↩