프로테제 패턴
70억 파라미터 모델이 SWE-bench Verified 과제의 42.4%를 해결했습니다. 이전 소형 모델의 기록은 17.0%였습니다. 모델이 더 똑똑해진 것이 아닙니다. 모델이 도움을 요청할 때를 학습한 것입니다.1
Kon 등은 Qwen2.5-Coder-7B-Instruct 모델을 프론티어 모델과 전문가로서 협업하도록 훈련시켰습니다. 전문가는 과제당 대략 네 번의 질문에 답했으며, 전체 토큰의 11%를 소비했습니다.1 나머지 89%의 토큰은 소형 모델이 일상적인 작업을 수행하는 데 사용되었습니다: 파일 읽기, 테스트 실행, 패치 적용. 비용은 인스턴스당 $0.54-$1.24(전문가 단독)에서 $0.13-$0.15(프로테제 + 전문가)로 감소했습니다.1 이전 소형 모델 최고 기록 대비 25점의 성능 향상과 함께 8.2배의 비용 절감을 달성한 것입니다.
이 결과는 실무자들이 독립적으로 수렴해 온 패턴, 즉 프로테제 패턴을 검증합니다.
요약
프로테제 패턴은 에이전트 작업을 일상적인 실행을 담당하는 소형·저비용 모델(프로테제)과 판단이 필요한 작업을 담당하는 프론티어 모델(전문가)로 분리합니다. SWE-Protege는 25.4점의 성능 향상과 8.2배의 비용 절감을 입증했습니다.1 Anthropic의 자체 다중 에이전트 연구 시스템도 동일한 계층 분리를 사용합니다: 리드 에이전트에 Claude Opus, 서브에이전트에 Claude Sonnet을 배치합니다.3 이 패턴이 효과적인 이유는 대부분의 에이전트 작업이 기계적이기 때문입니다. 이러한 기계적 작업을 토큰당 5배 저렴한 모델로 라우팅하면, 중요한 의사결정의 품질을 희생하지 않으면서 비용 예산의 80%를 절약할 수 있습니다.
전문가-프로테제 프레임워크
SWE-Protege는 이 관계를 정밀하게 정의합니다.1 프로테제가 유일한 의사결정자입니다. 전문가는 결코 먼저 시작하지 않습니다. 프로테제가 언제 에스컬레이션할지, 어떤 질문을 할지, 응답을 어떻게 반영할지를 결정합니다. 강화학습은 프로테제가 두 가지 상충하는 목표를 동시에 최적화하도록 훈련합니다: 과제를 해결하면서 동시에 전문가 사용을 최소화하는 것입니다.
강화학습 보상 구조는 세 가지 실패 모드에 페널티를 부과합니다:
퇴행적 반복. 프로테제가 같은 질문을 반복해서 합니다. 페널티는 학습된 무력감을 억제합니다.
비생산적 협업. 프로테제가 질문을 하고, 답변을 무시하고, 원래 계획대로 진행합니다. 페널티는 형식적인 에스컬레이션을 억제합니다.
과의존. 프로테제가 모든 의사결정을 전문가에게 전달합니다. 페널티는 프로테제가 단순 전달 계층이 되는 것을 억제합니다.
결과적으로 프로테제는 자신의 한계에 대한 진정한 판단력을 발전시킵니다. 7B 모델은 혼자 처리할 수 있는 작업(파일 읽기, 테스트 실행, 단순한 패치)과 전문가 개입이 필요한 작업(아키텍처 결정, 모호한 요구사항, 다중 파일 의존성 분석)을 구별하는 법을 학습했습니다.1
라우팅이 효과적인 이유
모델 라우팅의 학술적 기반은 SWE-Protege보다 앞섭니다. RouteLLM는 강한 모델과 약한 모델 간의 라우팅이 강한 모델 품질의 95%를 유지하면서 최대 3.66배의 비용 절감을 달성할 수 있음을 입증했습니다.11 라우터는 어떤 쿼리에 프론티어 수준의 역량이 필요한지, 어떤 쿼리를 소형 모델이 동등하게 처리할 수 있는지를 학습합니다.
IBM Research는 “절약형” 라우팅 방법으로 유사한 결과를 발견했습니다: 더 작고 전문화된 모델을 순차적으로 호출하여 하나가 자신 있는 답변을 생성할 때까지 진행합니다.14 이 접근법은 단순한 쿼리에서 최대 85%의 비용 절감을 달성합니다.
근본적인 통찰은 분포적입니다. 대부분의 에이전트 작업은 어렵지 않습니다. 파일 읽기, grep 실행, 잘 정의된 패치 적용, 테스트 스위트 실행: 이러한 작업은 정확한 실행이 필요하지, 깊은 추론이 필요하지 않습니다. 토큰당 5배 저렴한 모델이 프론티어 모델과 동일하게 처리합니다.7 어려운 작업(미묘한 버그 진단, 아키텍처 접근법 간 선택, 솔루션의 정확성 평가)은 프론티어 추론의 혜택을 받습니다. 프로테제 패턴은 각 작업을 적절한 계층으로 라우팅합니다.
Anthropic의 자체 문서도 계층 분리를 명시적으로 기술합니다. “올바른 모델 선택” 가이드는 “서브 에이전트 작업”에는 Haiku를, “전문 소프트웨어 엔지니어링”과 “고급 에이전트”에는 Opus를 권장합니다.8 이 가이드는 마케팅이 아닙니다. 작업 복잡도 분포에 걸친 측정된 성능 차이를 반영하는 것입니다.
프로덕션 구현 사례
세 가지 프로덕션 시스템이 프로테제 패턴의 대규모 활용을 보여줍니다.
Anthropic의 다중 에이전트 연구 시스템. Claude Opus가 리드하고, Claude Sonnet이 서브에이전트로 실행됩니다.3 이 시스템은 내부 평가에서 단일 에이전트 Claude Opus를 90.2% 능가했습니다. 향상은 더 나은 모델이 아니라 더 나은 작업 분해에서 비롯되었습니다. Sonnet 서브에이전트가 연구 작업에 대부분의 토큰을 소비하는 동안, Opus는 추론 예산을 종합과 판단에 집중했습니다.
Carlini의 C 컴파일러. 16개의 병렬 Claude 에이전트가 부팅 가능한 Linux 6.9를 빌드하는 100,000줄의 Rust 기반 C 컴파일러를 만들었습니다.4 비용: ~2,000 세션에 걸쳐 $20,000. 모든 에이전트가 동일한 계층에서 실행되었지만, 이 프로젝트는 프로테제 패턴이 공식화하는 자기 조직화 특성을 드러냈습니다: 에이전트들은 자연스럽게 “다음으로 가장 명확한 문제”로 수렴했습니다.4 중앙 오케스트레이터가 작업을 할당하지 않았습니다.
Chris Lattner는 이 컴파일러를 리뷰하면서 AI 에이전트가 잘 처리하는 영역과 인간의 판단이 여전히 필수적인 영역 사이의 경계를 식별했습니다: “구현의 장벽이 낮아진다고 해서 엔지니어의 중요성이 줄어드는 것이 아닙니다. 오히려 비전, 판단력, 그리고 안목의 중요성이 높아집니다.”56 에이전트들은 알려진 기법을 조합하는 데 탁월했습니다. 에이전트들은 “프로덕션 품질 시스템에 필요한 개방형 일반화”에서는 어려움을 겪었습니다.5
실제 모델 라우팅. “What Claude Code Chooses” 연구는 세 가지 Claude 모델에 걸쳐 2,430개의 도구 선택을 분석했습니다.9 Opus 4.6은 미래지향적 선호를 보였고(Drizzle 100% vs Prisma 0%), Sonnet 4.5는 더 관습적인 선택을 했습니다.9 이 차이는 상당한 커뮤니티 논의를 불러일으켰습니다.10 서로 다른 계층은 모호한 결정에 서로 다른 편향을 가져옵니다. 일상적인 도구 선택을 하는 프로테제에게는 프론티어 추론이 필요하지 않습니다. 모호한 아키텍처 선택에 직면한 프로테제는 에스컬레이션의 혜택을 받습니다.
비용 산술
이 패턴의 경제성은 성능 향상을 고려하기 전부터 설득력이 있습니다.
현재 Anthropic 가격 기준으로, 계층 간 가격 차이는 정확히 5배입니다:7
| 모델 | 입력 | 출력 | 역할 |
|---|---|---|---|
| Opus 4.6 | $5/MTok | $25/MTok | 전문가 |
| Haiku 4.5 | $1/MTok | $5/MTok | 프로테제 |
일반적인 에이전트 세션은 각 방향으로 50,000-200,000 토큰을 소비합니다. Opus 단독 가격으로 100K 입력 및 100K 출력 토큰을 가정하면, 세션 비용은 $0.50 입력 + $2.50 출력 = $3.00입니다. 프로테제가 80%의 토큰을 처리하고 전문가가 20%를 처리하면, 동일한 세션의 비용은 다음과 같습니다:
- 프로테제 (80K 토큰): $0.08 입력 + $0.40 출력 = $0.48
- 전문가 (20K 토큰): $0.10 입력 + $0.50 출력 = $0.60
- 합계: $1.08 (64% 절감)
SWE-Protege는 전문가가 20%가 아닌 11%의 토큰만 소비했기 때문에 더 공격적인 절감을 달성했습니다.1 하루 100개의 에이전트 세션에 걸쳐 그 차이는 누적됩니다: 전문가 단독 시 $300/일 대 프로테제 라우팅 시 $108/일. 한 달로 환산하면: $9,000 대 $3,240.
SWE-bench 리더보드는 성능 맥락을 제공합니다.12 Claude 4.5 Opus는 고추론 모드에서 인스턴스당 $0.754의 비용으로 76.8%의 해결률을 달성합니다. 프로테제 라우팅 방식은 인스턴스당 $0.13-$0.15의 비용으로 42.4%의 해결률을 보입니다.1 프로테제의 역량 범위 내의 과제에서는 해결 건당 비용이 라우팅에 유리합니다. 프론티어 추론이 필요한 과제에서는 전문가를 필요에 따라 활용할 수 있습니다.
협업 효과 현상
Wang 등은 프로테제 패턴이 어느 모델 단독보다 더 나은 결과를 내는 이유를 설명하는 특성을 발견했습니다.13 “Mixture-of-Agents” 논문은 모델이 다른 모델의 출력을 제시받으면 더 나은 응답을 생성한다는 것을 발견했으며, 그 다른 모델이 덜 유능한 경우에도 마찬가지였습니다.13
이 발견은 예상되는 위계를 뒤집습니다. 소형 모델의 초기 분석과 파일 읽기 결과를 읽는 프론티어 모델은 처음부터 시작하는 프론티어 모델보다 더 나은 출력을 생성합니다. 소형 모델의 작업은 전문가에게서 떠넘겨진 단순 노동이 아닙니다. 소형 모델의 작업은 전문가의 추론을 향상시키는 구조화된 컨텍스트를 제공합니다.
Anthropic의 다중 에이전트 연구도 이 패턴을 확인했습니다: 서브에이전트를 Sonnet 3.7에서 Sonnet 4로 업그레이드하면 “Claude Sonnet 3.7의 토큰 예산을 두 배로 늘리는 것보다 더 큰 성능 향상”이 나타났습니다.3 프로테제 계층의 모델 품질은 중요합니다. 더 나은 프로테제가 더 나은 전문가를 만듭니다.
구축 가능한 패턴
세 가지 에스컬레이션 패턴은 점진적으로 더 자율적인 구현에 대응합니다.
패턴 1: 신뢰도 기반 라우팅. 가장 단순한 구현입니다. 프로테제가 응답과 신뢰도 점수를 생성합니다. 임계값 미만이면 쿼리가 전문가에게 라우팅됩니다. RouteLLM가 라우터 훈련을 위한 오픈소스 프레임워크를 제공합니다.11 여기서 시작하세요.
패턴 2: 작업 유형 라우팅. 작업을 유형별로 분류하고 결정적으로 라우팅합니다. 파일 읽기, 테스트 실행, 서식 지정은 Haiku로. 코드 리뷰, 아키텍처 결정, 모호한 요구사항은 Opus로. Anthropic의 “효과적인 에이전트 구축” 가이드는 이를 라우팅 패턴이라 부릅니다: “입력을 분류하고 쉽거나 일반적인 질문을 더 작고 비용 효율적인 모델로 보내는 것.”2
패턴 3: 학습된 에스컬레이션. SWE-Protege의 접근법입니다. 강화학습을 통해 프로테제가 자체 에스컬레이션 시점을 결정하도록 훈련합니다.1 프로테제가 자신의 한계에 대한 진정한 판단력을 발전시킵니다. 가장 정교하고 성능이 높은 패턴이지만, RL 인프라와 전문가 레이블 훈련 데이터가 필요합니다.
각 패턴은 구현 복잡도와 비용 절감 및 자율성 간의 트레이드오프입니다. 패턴 1은 신뢰도 보정 데이터셋이 필요합니다. 패턴 2는 작업 분류 체계가 필요합니다. 패턴 3은 RL 훈련 실행이 필요합니다. 세 가지 모두 비용 조정 성능 기준으로 단일 계층 배포보다 우수합니다.
핵심 시사점
- 프로테제 패턴은 로드 밸런싱이 아닙니다. 프로테제가 자신의 한계에 대한 의사결정을 합니다. 전문가는 처리량이 아니라 판단력을 제공합니다.
- 대부분의 에이전트 작업은 기계적입니다. 이 작업을 5배 저렴한 모델로 라우팅하면, 프론티어 추론이 필요한 의사결정을 위한 비용 예산을 확보할 수 있습니다.
- 더 나은 프로테제가 더 나은 전문가를 만듭니다. 협업 효과 현상은 소형 모델의 출력이 프론티어 모델의 추론을 향상시킨다는 것을 의미합니다.13
- Lattner의 관찰은 이 패턴 자체에도 적용됩니다: “코드를 작성하는 것이 쉬워질수록, 소프트웨어를 설계하는 것이 그 어느 때보다 중요해집니다.”5 프로테제는 더 쉬운 작성을 담당합니다. 전문가는 더 어려운 설계를 담당합니다.
AI 엔지니어링 시리즈의 일부입니다. 함께 읽기: 컨텍스트가 새로운 메모리다, 인프라로서의 Claude Code, 10% 벽.
-
Kon, P.T.J., Pradeep, A., Chen, A., Ellis, A.P., Hunt, W., Wang, Z., Yang, J., & Thompson, S. “SWE-Protege: Learning to Selectively Collaborate With an Expert Unlocks Small Language Models as Software Engineering Agents.” arXiv:2602.22124. 42.4% Pass@1 on SWE-bench Verified, 8.2x cost reduction, expert consulted ~4 times per task. ↩↩↩↩↩↩↩↩↩
-
Schluntz, E. & Zhang, B. “Building Effective Agents.” Anthropic Research Blog. Routing pattern: easy questions to Haiku, hard questions to Sonnet/Opus. ↩
-
Hadfield, J. et al. “How We Built Our Multi-Agent Research System.” Anthropic Engineering Blog. Opus lead + Sonnet subagents, 90.2% improvement over single-agent Opus. ↩↩↩
-
Carlini, N. “Building a C Compiler with a Team of Parallel Claudes.” Anthropic Engineering Blog. 16 agents, $20K, 100K lines, bootable Linux. ↩↩
-
Lattner, C. “The Claude C Compiler: What It Reveals About the Future of Software.” Modular Blog. “Lower barriers to implementation elevate the importance of vision, judgment, and taste.” ↩↩↩
-
Willison, S. “The Claude C Compiler.” Simon Willison’s Weblog. Commentary synthesizing Carlini and Lattner perspectives. ↩
-
Anthropic Model Pricing. Pricing page. Opus 4.6: $5/$25 MTok. Haiku 4.5: $1/$5 MTok. 5x tier spread. ↩↩
-
Anthropic. “Choosing the Right Model.” API Documentation. Haiku for “sub-agent tasks,” Opus for “professional software engineering.” ↩
-
Ong, E. & Vikati, A. “What Claude Code Actually Chooses.” Amplifying Research. 2,430 tool picks, Opus shows forward-looking preferences. ↩↩
-
Hacker News. “What Claude Code Chooses.” Discussion. 573 points, 213 comments. ↩
-
Ong, I. et al. “RouteLLM: Learning to Route LLMs with Preference Data.” ICLR 2025. arXiv:2406.18665. 3.66x cost savings, 95% quality retention. ↩↩
-
SWE-bench. “SWE-bench Leaderboards.” swebench.com. Claude 4.5 Opus: 76.8% at $0.754/instance. ↩
-
Wang, J. et al. “Mixture-of-Agents Enhances Large Language Model Capabilities.” ICLR 2025 Spotlight. arXiv:2406.04692. Weaker models improve stronger models through structured collaboration. ↩↩↩
-
IBM Research. “LLM Routing for Quality, Low-Cost Responses.” IBM Research Blog. Up to 85% cost reduction with frugal routing. ↩