Protege模式
一个70亿参数的模型解决了SWE-bench Verified中42.4%的任务。此前小模型的最佳记录是17.0%。模型并没有变得更聪明,而是学会了何时寻求帮助。1
Kon等人训练了一个Qwen2.5-Coder-7B-Instruct模型,使其与前沿模型作为专家进行协作。专家在每个任务中大约回答四个问题,消耗了总token的11%。1其余89%的token来自小模型执行常规操作:读取文件、运行测试、应用补丁。成本从每个实例$0.54-$1.24(仅使用专家)降至$0.13-$0.15(protege搭配专家)。1与此前小模型的最佳水平相比,性能提升25个百分点,成本降低8.2倍。
这一结果验证了从业者们已经不约而同地趋向的一种模式:protege模式。
摘要
Protege模式将智能体工作分为两个层级:一个小型、低成本的模型(protege)负责常规执行,一个前沿模型(专家)负责判断决策。SWE-Protege实现了25.4个百分点的性能提升和8.2倍的成本降低。1 Anthropic自己的多智能体研究系统使用了相同的层级划分:Claude Opus作为主导智能体,Claude Sonnet作为子智能体。3该模式之所以有效,是因为大多数智能体工作都是机械性的。将这些机械性工作路由到每token成本低5倍的模型,可以回收80%的成本预算,而不会在真正重要的决策上牺牲质量。
专家-Protege框架
SWE-Protege精确地定义了这种关系。1 Protege是唯一的决策者。专家从不主动发起。Protege决定何时升级、提出什么问题,以及如何整合回复。强化学习训练protege优化两个相互竞争的目标:完成任务,同时最小化专家使用量。
强化学习的奖励结构惩罚三种失败模式:
退化循环。 Protege反复提出相同的问题。惩罚机制阻止习得性无助。
无效协作。 Protege提出问题,忽略答案,继续执行原始计划。惩罚机制阻止表演性升级。
过度依赖。 Protege将每个决策都路由给专家。惩罚机制阻止protege沦为透传层。
最终结果是protege对自身局限性发展出了真正的判断力。这个7B模型学会了区分它能独立处理的任务(文件读取、测试执行、简单补丁)和需要专家介入的任务(架构决策、模糊需求、多文件依赖分析)。1
路由为何有效
模型路由的学术基础早于SWE-Protege。RouteLLM证明了在强模型和弱模型之间路由可以实现高达3.66倍的成本节省,同时保持强模型95%的质量。11路由器学习哪些查询需要前沿能力,哪些查询较小模型同样能处理好。
IBM Research用一种”节约型”路由方法发现了类似的结果:依次调用更小的专业模型,直到其中一个产生有信心的答案。14该方法在简单查询上实现了高达85%的成本降低。
其底层洞察是分布性的。大多数智能体操作并不困难。读取文件、运行grep、应用明确定义的补丁、执行测试套件——这些操作需要正确执行,而非深度推理。每token成本低5倍的模型处理它们的效果与前沿模型完全相同。7真正困难的操作(诊断微妙的bug、在架构方案间做选择、评估解决方案是否正确)才能从前沿推理中受益。Protege模式将每个操作路由到适当的层级。
Anthropic自己的文档明确了层级划分。”选择合适的模型”指南建议将Haiku用于”子智能体任务”,将Opus用于”专业软件工程”和”高级智能体”。8这不是营销话术,而是反映了在不同任务复杂度分布上测量到的性能差异。
生产环境实现
三个生产系统展示了protege模式的大规模应用。
Anthropic的多智能体研究系统。 Claude Opus作为主导,Claude Sonnet作为子智能体执行。3该系统在内部评估中比单智能体Claude Opus提升了90.2%。这一提升并非来自更好的模型,而是来自更好的任务分解。Sonnet子智能体在研究操作上消耗了大部分token,而Opus将推理预算集中在综合与判断上。
Carlini的C编译器。 十六个并行Claude智能体产出了一个10万行基于Rust的C编译器,能够启动Linux 6.9。4成本:约2,000个会话共计$20,000。虽然所有智能体在同一层级运行,但该项目揭示了protege模式所形式化的自组织特性:智能体自然地趋向于”下一个最明显的问题”。4没有中央编排器分配任务。
Chris Lattner审查了该编译器,并指出了AI智能体擅长之处与人类判断仍然不可或缺之处的边界:”实现门槛的降低并没有减少工程师的重要性;相反,它提升了愿景、判断力和品味的重要性。”56这些智能体擅长组装已知技术,但在”生产级系统所需的开放式泛化”方面力有不逮。5
实践中的模型路由。 “What Claude Code Chooses”研究分析了三个Claude模型中的2,430个工具选择。9 Opus 4.6表现出前瞻性偏好(Drizzle 100% vs Prisma 0%),而Sonnet 4.5做出了更传统的选择。9这一差异引发了大量社区讨论。10不同层级在模糊决策中带来不同的偏差。Protege在做常规工具选择时不需要前沿推理能力。Protege在遇到模糊的架构选择时,则能从升级中受益。
成本计算
即使不考虑性能提升,经济性已经使这一模式极具吸引力。
按照当前Anthropic定价,层级价差恰好是5倍:7
| 模型 | 输入 | 输出 | 角色 |
|---|---|---|---|
| Opus 4.6 | $5/MTok | $25/MTok | 专家 |
| Haiku 4.5 | $1/MTok | $5/MTok | Protege |
典型的智能体会话在每个方向消耗50,000-200,000个token。假设在仅使用Opus的定价下有100K输入和100K输出token,每次会话成本为$0.50输入 + $2.50输出 = $3.00。如果protege处理80%的token,专家处理20%,同一会话的成本为:
- Protege(80K token):$0.08输入 + $0.40输出 = $0.48
- 专家(20K token):$0.10输入 + $0.50输出 = $0.60
- 总计:$1.08(节省64%)
SWE-Protege实现了更激进的节省,因为专家仅消耗了11%的token,而非20%。1如果每天运行100个智能体会话,差异将迅速累积:仅使用专家每天$300,使用protege路由每天$108。按月计算:$9,000对比$3,240。
SWE-bench排行榜提供了性能参考。12 Claude 4.5 Opus在高推理模式下达到76.8%的解决率,每个实例成本$0.754。Protege路由方案以42.4%的解决率,每个实例仅需$0.13-$0.15。1对于protege能力范围内的任务,每个已解决任务的成本更有利于路由方案。对于需要前沿推理的任务,专家随时可按需调用。
协作性现象
Wang等人发现了一个特性,解释了为什么protege模式能产生比任一单独模型更好的结果。13 “Mixture-of-Agents”论文发现,当模型被呈现其他模型的输出时,即使那些模型能力较弱,也能生成更好的回复。13
这一发现颠覆了预期的层级关系。前沿模型在阅读小模型的初始分析和文件读取结果后,比从零开始能产出更好的输出。小模型的工作不仅仅是从专家那里卸载的廉价劳动力。小模型的工作提供了结构化的上下文,从而提升了专家的推理能力。
Anthropic的多智能体研究证实了这一模式:将子智能体从Sonnet 3.7升级到Sonnet 4产生的性能提升,”比将Claude Sonnet 3.7的token预算翻倍还要大”。3Protege层级的模型质量很重要。更好的protege造就更好的专家。
您可以构建什么
三种升级模式对应逐步提升自主性的实现方式。
模式一:基于置信度的路由。 最简单的实现。Protege生成回复和置信度分数。低于阈值时,查询路由给专家。RouteLLM提供了用于训练路由器的开源框架。11从这里开始。
模式二:基于任务类型的路由。 按类型分类操作并进行确定性路由。文件读取、测试执行和格式化交给Haiku。代码审查、架构决策和模糊需求交给Opus。Anthropic的”Building Effective Agents”指南将此称为路由模式:”对输入进行分类,将简单/常见问题导向更小、更具成本效益的模型。”2
模式三:习得性升级。 SWE-Protege的方法。通过强化学习训练protege自行决定升级时机。1 Protege对自身局限性发展出真正的判断力。这是最复杂但性能最高的模式,需要强化学习基础设施和专家标注的训练数据。
每种模式在实现复杂度与成本节省及自主性之间做出权衡。模式一需要置信度校准数据集。模式二需要任务分类体系。模式三需要强化学习训练。三种模式在成本调整后的性能上均优于单层级部署。
关键要点
- Protege模式不是负载均衡。Protege对自身的局限性做出决策。专家提供的是判断力,而非吞吐量。
- 大多数智能体工作是机械性的。将这些工作路由到成本低5倍的模型,可以将成本预算回收用于需要前沿推理的决策。
- 更好的protege造就更好的专家。协作性现象表明,小模型的输出能提升前沿模型的推理能力。13
- Lattner的观察同样适用于这一模式本身:”随着编写代码变得越来越容易,软件设计变得比以往任何时候都更加重要。”5 Protege处理较容易的编写工作,专家处理较困难的设计工作。
本文属于AI Engineering系列。另请参阅:Context Is the New Memory、Claude Code as Infrastructure和The 10% Wall。
-
Kon, P.T.J., Pradeep, A., Chen, A., Ellis, A.P., Hunt, W., Wang, Z., Yang, J., & Thompson, S. “SWE-Protege: Learning to Selectively Collaborate With an Expert Unlocks Small Language Models as Software Engineering Agents.” arXiv:2602.22124. 42.4% Pass@1 on SWE-bench Verified, 8.2x cost reduction, expert consulted ~4 times per task. ↩↩↩↩↩↩↩↩↩
-
Schluntz, E. & Zhang, B. “Building Effective Agents.” Anthropic Research Blog. Routing pattern: easy questions to Haiku, hard questions to Sonnet/Opus. ↩
-
Hadfield, J. et al. “How We Built Our Multi-Agent Research System.” Anthropic Engineering Blog. Opus lead + Sonnet subagents, 90.2% improvement over single-agent Opus. ↩↩↩
-
Carlini, N. “Building a C Compiler with a Team of Parallel Claudes.” Anthropic Engineering Blog. 16 agents, $20K, 100K lines, bootable Linux. ↩↩
-
Lattner, C. “The Claude C Compiler: What It Reveals About the Future of Software.” Modular Blog. “Lower barriers to implementation elevate the importance of vision, judgment, and taste.” ↩↩↩
-
Willison, S. “The Claude C Compiler.” Simon Willison’s Weblog. Commentary synthesizing Carlini and Lattner perspectives. ↩
-
Anthropic Model Pricing. Pricing page. Opus 4.6: $5/$25 MTok. Haiku 4.5: $1/$5 MTok. 5x tier spread. ↩↩
-
Anthropic. “Choosing the Right Model.” API Documentation. Haiku for “sub-agent tasks,” Opus for “professional software engineering.” ↩
-
Ong, E. & Vikati, A. “What Claude Code Actually Chooses.” Amplifying Research. 2,430 tool picks, Opus shows forward-looking preferences. ↩↩
-
Hacker News. “What Claude Code Chooses.” Discussion. 573 points, 213 comments. ↩
-
Ong, I. et al. “RouteLLM: Learning to Route LLMs with Preference Data.” ICLR 2025. arXiv:2406.18665. 3.66x cost savings, 95% quality retention. ↩↩
-
SWE-bench. “SWE-bench Leaderboards.” swebench.com. Claude 4.5 Opus: 76.8% at $0.754/instance. ↩
-
Wang, J. et al. “Mixture-of-Agents Enhances Large Language Model Capabilities.” ICLR 2025 Spotlight. arXiv:2406.04692. Weaker models improve stronger models through structured collaboration. ↩↩↩
-
IBM Research. “LLM Routing for Quality, Low-Cost Responses.” IBM Research Blog. Up to 85% cost reduction with frugal routing. ↩