← 所有文章

Protege模式

From the guide: Claude Code Comprehensive Guide

一個70億參數的模型解決了SWE-bench Verified中42.4%的任務。先前小型模型的紀錄是17.0%。這個模型並沒有變得更聰明,而是學會了何時該求助。1

Kon等人訓練了一個Qwen2.5-Coder-7B-Instruct模型,讓它與一個前沿模型作為專家進行協作。專家每個任務大約回答四個問題,消耗了總token數的11%。1其餘89%的token來自小型模型執行例行操作:讀取檔案、執行測試、套用修補程式。成本從每個實例$0.54-$1.24(純專家)降至$0.13-$0.15(protege搭配專家)。1成本降低8.2倍,同時效能比先前小型模型的最佳成績提升了25個百分點。

這個結果驗證了實務工作者各自獨立收斂而成的一種模式:protege模式。

摘要

Protege模式將代理工作分為兩層:一個小型、低成本的模型(protege)處理例行執行,一個前沿模型(專家)處理判斷決策。SWE-Protege展示了25.4個百分點的提升和8.2倍的成本降低。1 Anthropic自己的多代理研究系統使用相同的分層拆分:Claude Opus作為主導代理,Claude Sonnet作為子代理。3這個模式之所以有效,是因為大多數代理工作都是機械性的。將這些機械性工作路由到每個token便宜5倍的模型,可以在不犧牲關鍵決策品質的前提下,收回80%的成本預算。


專家-Protege框架

SWE-Protege精確地定義了這種關係。1 Protege是唯一的決策者。專家從不主動發起。Protege選擇何時升級、提出什麼問題,以及如何整合回應。強化學習訓練protege去最佳化兩個相互競爭的目標:解決任務,同時最小化專家使用量。

強化學習的獎勵結構會懲罰三種失敗模式:

退化循環。 Protege反覆提出相同的問題。懲罰機制抑制習得性無助。

無效協作。 Protege提出問題,忽略答案,然後繼續執行原始計畫。懲罰機制抑制表演性升級。

過度依賴。 Protege將每個決策都路由給專家。懲罰機制防止protege淪為一個透傳層。

結果是protege發展出對自身局限的真正判斷力。這個7B模型學會了區分它可以獨立處理的任務(檔案讀取、測試執行、直接的修補程式)和需要專家介入的任務(架構決策、模糊需求、多檔案相依性分析)。1


路由為何有效

模型路由的學術基礎早於SWE-Protege。RouteLLM證明了在強模型和弱模型之間進行路由,可以在維持強模型95%品質的同時,實現高達3.66倍的成本節省。11路由器學習哪些查詢需要前沿能力,哪些查詢小型模型同樣能處理。

IBM Research用一種「節儉」路由方法發現了類似結果:依序呼叫較小的專門模型,直到其中一個產生有信心的答案。14這種方法在簡單查詢上實現了高達85%的成本降低。

底層洞見是分佈性的。大多數代理操作並不困難。讀取檔案、執行grep、套用定義明確的修補程式、執行測試套件:這些操作需要正確執行,而非深度推理。每個token便宜5倍的模型在處理這些操作時,與前沿模型表現完全相同。7困難的操作(診斷細微的bug、在架構方案之間做選擇、評估解決方案是否正確)則受益於前沿推理。Protege模式將每個操作路由到適當的層級。

Anthropic自己的文件明確說明了層級拆分。「選擇合適的模型」指南建議Haiku用於「子代理任務」,Opus用於「專業軟體工程」和「進階代理」。8這個指南不是行銷話術,而是反映了跨任務複雜度分佈的實測效能差異。


生產環境實作

三個生產系統展示了protege模式的大規模應用。

Anthropic的多代理研究系統。 Claude Opus主導,Claude Sonnet作為子代理執行。3該系統在內部評估中超越單代理Claude Opus達90.2%。改進不是來自更好的模型,而是來自更好的任務分解。Sonnet子代理在研究操作上消耗了大部分token,而Opus將推理預算集中在綜合判斷上。

Carlini的C編譯器。 十六個平行Claude代理產出了一個100,000行的Rust基C編譯器,能夠啟動Linux 6.9。4成本:約2,000個會話,花費$20,000。雖然所有代理都在相同層級運行,但這個專案揭示了protege模式所形式化的自組織特性:代理自然地趨向「下一個最明顯的問題」。4沒有中央編排器分配任務。

Chris Lattner審查了這個編譯器,並確定了AI代理擅長處理的事務與人類判斷仍然不可或缺的領域之間的邊界:「實作門檻的降低並不減少工程師的重要性;相反地,它提升了願景、判斷力和品味的重要性。」56代理擅長組裝已知技術,但在「生產品質系統所需的開放式泛化」上表現不佳。5

實務中的模型路由。 「What Claude Code Chooses」研究分析了三個Claude模型的2,430次工具選擇。9 Opus 4.6展現了前瞻性偏好(Drizzle 100% vs Prisma 0%),而Sonnet 4.5做出了更傳統的選擇。9這種分歧引發了大量社群討論。10不同層級在面對模糊決策時帶來不同的偏見。進行例行工具選擇的protege不需要前沿推理。遇到模糊架構選擇的protege則受益於升級。


成本算術

即使不考慮效能提升,經濟效益已使這個模式極具吸引力。

以目前Anthropic的定價,層級價差恰好是5倍:7

模型 輸入 輸出 角色
Opus 4.6 $5/MTok $25/MTok 專家
Haiku 4.5 $1/MTok $5/MTok Protege

一個典型的代理會話在每個方向消耗50,000-200,000個token。假設以純Opus定價計算100K輸入和100K輸出token,一個會話的成本為$0.50輸入 + $2.50輸出 = $3.00。如果protege處理80%的token,專家處理20%,相同會話的成本為:

  • Protege(80K token):$0.08輸入 + $0.40輸出 = $0.48
  • 專家(20K token):$0.10輸入 + $0.50輸出 = $0.60
  • 總計:$1.08(節省64%)

SWE-Protege實現了更激進的節省,因為專家僅消耗了11%的token,而非20%。1以每天100個代理會話計算,差異會累積:純專家每天$300,而protege路由每天$108。一個月下來:$9,000對比$3,240。

SWE-bench排行榜提供了效能背景。12 Claude 4.5 Opus在高推理模式下達到76.8%的解決率,每個實例$0.754。Protege路由方法以42.4%的解決率,每個實例僅需$0.13-$0.15。1對於protege能力範圍內的任務,每解決任務的成本有利於路由。對於需要前沿推理的任務,專家隨時可以按需介入。


協作性現象

Wang等人發現了一個特性,解釋了為何protege模式產生的結果優於任何單一模型。13「Mixture-of-Agents」論文發現,當模型接收到其他模型的輸出時,即使這些模型能力較弱,也會生成更好的回應。13

這一發現顛覆了預期的層級關係。前沿模型閱讀小型模型的初步分析和檔案讀取結果後,產出比前沿模型從零開始更好的輸出。小型模型的工作不僅僅是從專家那裡卸載的廉價勞動,它提供了結構化的上下文,從而改善了專家的推理。

Anthropic的多代理研究證實了這個模式:將子代理從Sonnet 3.7升級到Sonnet 4所帶來的效能提升,「大於在Claude Sonnet 3.7上將token預算加倍」。3 Protege層級的模型品質很重要。更好的protege造就更好的專家。


您可以建構的模式

三種升級模式對應到逐步提升自主性的實作方案。

模式1:基於信心度的路由。 最簡單的實作。Protege生成回應和信心分數。低於閾值時,查詢路由到專家。RouteLLM提供了一個訓練路由器的開源框架。11從這裡開始。

模式2:基於任務類型的路由。 按類型分類操作並確定性地路由。檔案讀取、測試執行和格式化交給Haiku。程式碼審查、架構決策和模糊需求交給Opus。Anthropic的「Building Effective Agents」指南稱之為路由模式:「分類輸入,將簡單/常見的問題導向更小、更具成本效益的模型。」2

模式3:學習式升級。 SWE-Protege的方法。透過強化學習訓練protege自行決定升級時機。1 Protege發展出對自身局限的真正判斷力。這是最精密且效能最高的模式,但需要強化學習基礎設施和專家標註的訓練資料。

每種模式都在實作複雜度與成本節省及自主性之間進行權衡。模式1需要信心校準資料集。模式2需要任務分類法。模式3需要強化學習訓練。三種模式在成本調整後的效能上都優於單層級部署。


重點摘要

  • Protege模式不是負載平衡。Protege對自身局限做出決策,專家提供的是判斷力,而非吞吐量。
  • 大多數代理工作是機械性的。將這些工作路由到便宜5倍的模型,可以為需要前沿推理的決策收回成本預算。
  • 更好的protege造就更好的專家。協作性現象意味著小型模型的輸出能改善前沿模型的推理。13
  • Lattner的觀察同樣適用於這個模式本身:「隨著寫程式碼變得越來越容易,設計軟體變得比以往更加重要。」5 Protege處理較簡單的編寫,專家處理較困難的設計。

AI Engineering系列的一部分。另見:Context Is the New MemoryClaude Code as InfrastructureThe 10% Wall


  1. Kon, P.T.J., Pradeep, A., Chen, A., Ellis, A.P., Hunt, W., Wang, Z., Yang, J., & Thompson, S. “SWE-Protege: Learning to Selectively Collaborate With an Expert Unlocks Small Language Models as Software Engineering Agents.” arXiv:2602.22124. 42.4% Pass@1 on SWE-bench Verified, 8.2x cost reduction, expert consulted ~4 times per task. 

  2. Schluntz, E. & Zhang, B. “Building Effective Agents.” Anthropic Research Blog. Routing pattern: easy questions to Haiku, hard questions to Sonnet/Opus. 

  3. Hadfield, J. et al. “How We Built Our Multi-Agent Research System.” Anthropic Engineering Blog. Opus lead + Sonnet subagents, 90.2% improvement over single-agent Opus. 

  4. Carlini, N. “Building a C Compiler with a Team of Parallel Claudes.” Anthropic Engineering Blog. 16 agents, $20K, 100K lines, bootable Linux. 

  5. Lattner, C. “The Claude C Compiler: What It Reveals About the Future of Software.” Modular Blog. “Lower barriers to implementation elevate the importance of vision, judgment, and taste.” 

  6. Willison, S. “The Claude C Compiler.” Simon Willison’s Weblog. Commentary synthesizing Carlini and Lattner perspectives. 

  7. Anthropic Model Pricing. Pricing page. Opus 4.6: $5/$25 MTok. Haiku 4.5: $1/$5 MTok. 5x tier spread. 

  8. Anthropic. “Choosing the Right Model.” API Documentation. Haiku for “sub-agent tasks,” Opus for “professional software engineering.” 

  9. Ong, E. & Vikati, A. “What Claude Code Actually Chooses.” Amplifying Research. 2,430 tool picks, Opus shows forward-looking preferences. 

  10. Hacker News. “What Claude Code Chooses.” Discussion. 573 points, 213 comments. 

  11. Ong, I. et al. “RouteLLM: Learning to Route LLMs with Preference Data.” ICLR 2025. arXiv:2406.18665. 3.66x cost savings, 95% quality retention. 

  12. SWE-bench. “SWE-bench Leaderboards.” swebench.com. Claude 4.5 Opus: 76.8% at $0.754/instance. 

  13. Wang, J. et al. “Mixture-of-Agents Enhances Large Language Model Capabilities.” ICLR 2025 Spotlight. arXiv:2406.04692. Weaker models improve stronger models through structured collaboration. 

  14. IBM Research. “LLM Routing for Quality, Low-Cost Responses.” IBM Research Blog. Up to 85% cost reduction with frugal routing. 

相關文章

Context Is the New Memory

Context engineering is the highest-impact skill in agent development. Three compression layers turn a 200K token window …

15 分鐘閱讀

The CLI Thesis

Three top HN Claude Code threads converge on one conclusion: CLI-first architecture is cheaper, faster, and more composa…

15 分鐘閱讀

The Ralph Loop: How I Run Autonomous AI Agents Overnight

I built an autonomous agent system with stop hooks, spawn budgets, and filesystem memory. Here are the failures and what…

8 分鐘閱讀