← 所有文章

托管代理与本地代理框架:哪些值得保留

From the guide: Codex CLI Comprehensive Guide

Anthropic与OpenAI正在将代理运行时基础设施转化为产品层面的能力:托管会话、沙箱、追踪、记忆、交接、评分标准与事件流,如今更靠近模型提供方,而非团队私有的脚本目录。12

核心要点是什么?

  • 托管代理正在成为运行时层。当提供方满足团队的安全标准时,会话、沙箱、追踪、事件与异步执行越来越属于托管基础设施。12
  • 本地框架依然重要。保留承载品味、证据、公开写作完整性、隐私边界、来源核验与项目记忆的部分。
  • 迁移的单位是任务,不是命令。斜杠命令、Codex技能、SDK交接、MCP服务器,或托管出的成果,只要验收标准延续,都能承担同一套工作流。
  • 不要发布私有机制。公开文章应阐述模式与验收标准,而不是私有提示词、确切的钩子内容、账号细节或内部评分规则。
  • 晋级需要证据。先以显式调用启动,跑一个真实任务,记录结果,只有当用户可见的路径确实改善时才能晋级。

托管代理平台理应吸收通用的运行时工作:沙箱执行、有状态会话、事件流、追踪、文件执行与异步完成。本地框架仍有意义,但其职责会变得更小、更聚焦。保留那些承载产品品味、证据闸门、公开写作完整性、隐私边界、来源核验,以及项目专属操作记忆的部分。把那些只是因为别人尚未打包运行时才存在的部分迁移出去。

糟糕的迁移做法之一,是因为某家提供方推出了托管基础设施就删掉本地框架。糟糕的迁移做法之二,是因为某条本地命令、钩子或提示词曾经解决过真实问题就把它们悉数保留。正确的迁移要对每个组件追问一句:它承载的是我的标准,还是仅在操作机器?

关于更宏观的架构,请参阅AI代理架构指南。本文背后真实运行的本地迁移模式,请参阅Claude Code到Codex迁移指南AGENTS.md模式Jiro品质哲学

至于这道分割线本地工具一侧的内容,Claude Code作为基础设施解释了私有运行时层为何会不断生长,Claude Code与Codex CLI 2026则比较了两者的激活面与安全面。

托管代理带来了什么变化?

Claude Managed Agents为开发者提供了一个运行在托管基础设施之上的预构建代理框架。Anthropic将其定位为长时任务与异步工作的合适选择,并围绕代理、环境、会话与事件提出了一组核心概念。1同一份文档描述了一个托管环境,其中Claude可以读取文件、运行命令、浏览网页、执行代码、调用MCP服务器,并在服务端持久化事件历史。1

Anthropic发布的工程文章把架构上的要点讲得比产品文档更清楚。Managed Agents团队将会话日志、框架与沙箱解耦,让每一部分都能独立失败或独立演进。3这种解耦之所以重要,是因为它把脆弱的单容器代理循环改造成一个具备可恢复会话状态、可替换执行环境,以及围绕凭据更收紧的安全边界的系统。3

OpenAI正通过Agents SDK朝同一方向推进。其2026年4月15日的更新加入了模型原生框架、原生沙箱执行、用于工作区的清单抽象,以及对常见原语的支持,例如MCP、技能、AGENTS.md、shell执行与补丁应用。2SDK的文档同样开放了用于多轮记忆的会话、用于LLM生成、工具调用、交接、护栏与自定义事件的追踪,以及在专业代理之间转移工作的交接能力。456

新闻就是这些。但战略问题不同:一旦平台把代理运行时打包好,本地框架还应当承担什么?

运行时与判断之间的边界在哪里?

大多数本地代理框架混合了两类不该总是绑在一起的工作。

第一类是运行时基础设施。运行时负责启动会话、授予工具权限、准备工作区、执行命令、存储事件、处理中断、恢复任务、流式上报状态与记录追踪。这类工作受益于标准化,也受益于安全工程——除非有充分理由,多数团队不必自己重新打造。

第二类是判断。判断决定了什么算作好工作、哪些公开声明需要一手来源、什么时候一份指南陈旧到不应发布、什么时候一个钩子噪声大到不应强制启用、什么时候来源扫描应当变为一条笔记而不是一篇文章,以及什么时候代理应当拒绝技术上正确但配不上产品的输出。这类工作必须留在本地,因为它来自产品、团队与读者。

托管基础设施可以跑出更好的循环。但它无法替你决定品味是什么。

哪些应当迁移到托管代理?

把那些不承载产品标准的组件迁移出去。

本地组件 平台支持时更合适的归处 原因
沙箱搭建 托管环境或SDK沙箱 提供方可以维护隔离、初始化、网络规则与提供方适配。
会话持久化 托管会话日志或SDK会话存储 长时任务需要在上下文窗口与工作进程崩溃后仍能存活的状态。
事件流与webhook 托管事件或应用层任务队列 应用应当观察状态,而不是去轮询私有的shell状态。
追踪 提供方追踪或自有追踪处理器 代理调试需要为模型调用、工具、护栏与交接生成结构化span。
工具执行胶水代码 托管工具、MCP或SDK工具适配器 工具调用应当藏在稳定的接口背后,而不是依赖脆弱的提示词约定。
多代理分发 托管编排或SDK交接 委派需要可见性、输入过滤与清晰的交接契约。

Anthropic的Outcomes功能预示了这一趋势的下一步走向。开发者定义评分标准,托管框架配置一个独立的评判方,代理根据评判方的反馈进行迭代。7这并未取消本地标准。它为这些标准开出了运行时插槽。

同样的模式也适用于OpenAI的追踪。SDK默认会追踪运行、代理span、生成、函数工具调用、护栏与交接,并提供禁用追踪的开关,以及可将数据发送到其他目的地的处理器。5本地脚本可以做到近似效果。但生产系统通常应当优先选用标准化追踪,并把它送往团队已经在用的调试场所。

哪些应当保留在本地?

保留那些定义你的标准、你的读者,或你的私有运行上下文的组件。

产品品味。平台可以执行任务,却无从判断结果是否让产品整体变得更好。保留那些拒绝杂乱、平庸或缺乏分量的输出的品味规则。

证据闸门。保留那些要求当次会话证据、用户路径核验、显式列出缺口与根因分析的规则。托管追踪告诉你发生了什么。你的标准则决定证据是否足够。

公开写作的完整性。把引用规则、来源分级规则、私域边界检查、SEO/AIO检查与发布闸门留在站点附近。模型提供方不应替你决定哪些私有工作流细节适合公开。

项目记忆。把简明的项目准则、风格决策、已知风险、发布边界与运行日志放在团队可审阅的地方。只有当托管会话存储确实提升了持久性时,才把存储层迁移过去。

来源情报。保留编辑路由层。一次扫描可以发现14条优质素材,但如果正确的动作是监测、维护指南或写一条私有笔记,那它最终也可以产出零篇文章。

晋级策略。保留分级上线的规则。一项技能可以从仅显式调用起步,一个钩子可以先在影子模式下运行,一个插件可以一直停留在试点阶段,直到真实工作证明它带来的帮助大于干扰。

那张清单才是真正的框架。文件与命令只是它的某一种实现。

团队应当避开哪些迁移误区?

最容易搞砸这次迁移的方式,是保留外形而不是工作本身。

Claude Code斜杠命令、Codex技能、SDK工具、托管成果与MCP服务器并不是同一件事的可互换语法。它们是不同的激活面。一个斜杠命令可以变成一项技能。一项技能可以变成一份托管成果的评分标准。一个钩子可以变成一个追踪处理器。一旦平台开放了会话或webhook,某个本地脚本可能就此变得多余。

Anthropic关于长时代理的工程文章从相反的方向得出了同一结论:单靠上下文压缩并不能产出生产级的工作,真正奏效的模式补上了功能清单、进度产物、清晰的交接状态与端到端测试。8这些不是UI约定。它们是验收义务。

迁移要问的不是”我把/scan-intel放到哪里?”而是”来源情报这套工作流在做的工作究竟是什么?”

对一个来源扫描器而言,工作不是”运行一条命令”。工作是扫描已配置的来源、验证来源可达、对候选项打分、拒绝低信号的大批量写入、把有用的笔记保存在私有空间,并把可公开的机会路由至编辑审阅。具体的激活措辞可以变,工作流不会因此丢失。

同样的规则适用于品质准则。不要发布私有的提示词包。把准则转化为可观察的完成闸门:证据、用户路径核验、私域边界审阅,以及拒绝那些会削弱产品的工作的权利。

这一切如何落到来源情报扫描器上?

来源情报扫描器把这道分割线变得具体。

运行时一侧可以迁移。托管平台可以运行定时任务、存储会话、执行浏览器或抓取feed的工具、发出事件并保留追踪。如果某次扫描超时,托管会话应当知道哪些已经跑过、哪些来源失败,以及下一次运行应从何处续起。

判断一侧应当留在本地。扫描器仍需私有的来源图谱、分数阈值、查重、写入量上限以及编辑路由。一次扫到14条候选项的扫描,不应当自动产出14条笔记或一篇文章。正确的动作可能是一条私有笔记、一项指南维护任务、一项进入监测队列,或干脆拒绝公开写任何东西。

这种区分把一项噪声大的自动化变成了真正有用的工作流:

扫描器步骤 托管层 本地框架层
抓取来源 浏览器、feed、搜索或MCP工具 来源图谱与信任分级
持久化运行状态 会话日志、事件、追踪 选题台账与既往覆盖记忆
候选项打分 可选的模型/工具环节 编辑阈值与品味规则
写出输出 文件或笔记工具 写入量闸门与私域边界检查
路由下一步动作 事件、webhook或交接 发布、更新指南、监测或不动作的决策

同样的逻辑适用于编码、指南维护、翻译与公开写作工作流。当平台能更好地执行机制时,把执行迁移过去。保留那条决定输出是否值得存在的标准。

移动框架前应使用怎样的清单?

在把任何本地框架组件迁移到托管代理平台前,请使用此清单。

问题
该组件是否仅在操作运行时基础设施? 朝托管会话、沙箱、追踪或事件迁移。 留在本地或归项目所有。
该组件是否承载品味、信任或编辑标准? 标准留在本地;只暴露安全的评分标准或验收标准。 考虑下线。
该组件是否触及秘钥、账号状态或私有提示词? 把私有细节排除在公开包与公开文章之外。 它可以作为通用模式公开。
平台是否能以评分标准、追踪、钩子或处理器表达同一道闸门? 试点平台原生版本。 把本地版本保持在仅显式调用。
真实工作是否已经证明该行为? 从仅显式调用晋级到试点或强制启用。 维持分级状态。
该组件是否制造噪声? 简化、影子化或移除它。 继续以真实结果衡量它。

晋级路径应当保持平淡:

  1. 盘点该组件。
  2. 命名它承担的工作。
  3. 将其归类为运行时、判断、记忆、发布、来源情报或安全。
  4. 移植最小可用版本。
  5. 在一项真实任务上运行它。
  6. 记录发生了什么。
  7. 晋级、修订或移除它。

任何更花哨的做法,通常都是在掩盖不确定性。

团队今天该如何切分一个真实的框架?

对一套严肃的编码与写作设置,我会这样切分。

提供方层或托管层:

  • 沙箱创建
  • 文件执行
  • 持久会话
  • 事件流
  • webhook
  • 追踪与span
  • 长时worker恢复
  • 基础多代理委派
  • 提供方支持时的评分标准执行

本地层或项目层:

  • AGENTS.md或同等的项目策略
  • 公开写作标准
  • 引用与来源分级规则
  • 产品品质准则
  • 私有运行记忆
  • 站点专属的SEO/AIO检查
  • 来源情报路由
  • 最终发布闸门
  • 插件与共享包的发布边界策略

分割线不是”托管对自托管”。分割线是”通用运行时对产品判断”。

托管代理在哪些地方仍需谨慎?

托管代理平台并未消除困难的部分。它只是把这些部分转移了位置。

你仍需为工具、文件、网络访问与凭据制定安全模型。Anthropic的架构明确把凭据从执行生成代码的沙箱中分离出来,方向是对的,但团队仍要正确配置资源、保险库与访问边界。3

你仍需可观测性。一条追踪可以呈现调用图谱;它无法告诉你这份工作是否值得发布。一个评判方可以评估某份评分标准;它无法判断这份评分标准是否表达了正确的品味。

你仍需内容边界。一篇公开的迁移文章可以阐述模式,但它不应倾倒私有提示词、钩子的具体内部实现、私有文件路径、来源清单、账号细节或专有的编辑评分规则。

你仍需分级上线。Anthropic明确指出Managed Agents仍处于beta阶段,所有端点都需要managed-agents-2026-04-01这一beta头部,部分功能还需预览权限。1beta运行时可以有用,但不必直接成为每个工作流的默认路径。

团队该带走什么?

给工程负责人:

  • 当平台满足你的安全门槛时,把运行时工作朝托管会话、沙箱、事件与追踪迁移。
  • 保留关于证据、来源质量、产品品味与发布边界的本地标准。
  • 把托管评分标准视为承载你标准的执行槽,而非它们的替代品。

给代理构建者:

  • 不要把命令一一对应地搬过去。要搬运的是待完成的工作。
  • 从仅显式调用起步,待真实任务证明价值后再晋级。
  • 优先依赖追踪、会话日志与公开产物,不要去考古私有提示词。

给公开写作者:

  • 把私有流程转化为公开的验收标准。
  • 引用官方产品文档以反映当前行为。
  • 当更好的文章是决策框架而非复盘时,拒绝复盘。

简要总结是什么?

托管代理平台让本地框架变得更小,但并未让它失去意义。当平台赢得这份信任时,把运行时工作迁入托管会话、沙箱、追踪、事件与编排。保留那些定义品质、证据、隐私、公开写作完整性,以及决定哪些工作配得上发布的本地标准。

FAQ:托管代理与本地框架

托管代理会取代本地AI代理框架吗?

不会。托管平台接管了更多运行时层:会话、沙箱、事件流、追踪与工具执行。本地框架在以下场景仍然重要:承载产品标准、证据闸门、公开写作规则、隐私边界、来源情报与项目专属记忆。

AGENTS.md或CLAUDE.md应保留什么?

把持久的项目规则放在那里:产品看重什么、完成如何核验、哪些私有细节不可发布、公开写作如何被检查,以及在某项任务被认定完成前哪些用户可见路径必须可用。不要把临时性的工具输出或私有提示词正文塞进永久指令文件。

团队何时应使用托管代理平台?

当工作需要长时执行、安全容器、持久会话、事件流、异步完成、追踪或托管的多代理编排,且提供方的安全、成本与数据控制契合该用例时,使用托管基础设施。12

哪些不应进入公开的框架包?

不要发布私有提示词、确切的钩子内容、敏感的文件路径、账号标识、令牌处理、私有来源清单、专有评分规则,或任何足以让陌生人重建你内部操作系统的东西。要发布的是模式与验收标准。

参考资料


  1. Anthropic, “Claude Managed Agents overview”. 访问于2026年5月7日。 

  2. OpenAI, “The next evolution of the Agents SDK”, 2026年4月15日。 

  3. Anthropic Engineering, “Scaling Managed Agents: Decoupling the brain from the hands”, 2026年4月8日。 

  4. OpenAI Agents SDK, “Sessions”. 访问于2026年5月7日。 

  5. OpenAI Agents SDK, “Tracing”. 访问于2026年5月7日。 

  6. OpenAI Agents SDK, “Handoffs”. 访问于2026年5月7日。 

  7. Anthropic, “Define outcomes”. 访问于2026年5月7日。 

  8. Anthropic Engineering, “Effective harnesses for long-running agents”, 2025年11月26日。 

相关文章

Claude Code to Codex Migration Guide 2026

Claude Code to Codex migration guide: move AGENTS.md, skills, hooks, profiles, MCP, public-writing gates, and verified C…

29 分钟阅读

解剖一只"爪子":84个Hook构建的编排层

Karpathy将"Claws"定义为一种新的架构层。本文展示了84个Hook、43个技能和19个智能体如何构成一个生产级编排系统。

2 分钟阅读

Code with Claude SF 2026:Anthropic实际发布了什么

Code with Claude SF 2026回顾:Claude Code速率限制翻倍、SpaceX Colossus 1合作、10个金融代理模板,以及对Vercept的收购。

1 分钟阅读