컨텍스트가 새로운 메모리입니다

11분 소요

From the guide: Claude Code Comprehensive Guide

하나의 Playwright 스냅샷은 56 KB의 컨텍스트를 소비합니다. 20개의 GitHub 이슈는 59 KB를 소비합니다. 500줄의 접근 로그는 45 KB를 소비합니다. 이 세 가지를 200K 토큰 윈도우를 가진 에이전트에 모두 입력하면, 에이전트가 분석 한 줄을 작성하기도 전에 추론 예산의 80%가 사라집니다.¹

Murat Kusglu는 이 문제를 해결하기 위해 Context Mode를 만들었습니다. 이 도구는 315 KB의 MCP 출력을 SQLite FTS5와 BM25 랭킹을 사용하여 5.4 KB로 압축합니다.¹ 94% 감소입니다. 모델은 315 KB의 노이즈보다 5.4 KB의 시그널로 더 나은 출력을 생성합니다. 제약은 지능이 아니었기 때문입니다. 제약은 대역폭입니다.

요약

컨텍스트 엔지니어링은 에이전트 개발에서 가장 큰 영향을 미치는 기술입니다. 세 가지 압축 레이어가 독립적으로 복합 효과를 발휘합니다: 시스템 프롬프트 아키텍처(구조적 압축을 통한 60-70% 감소), MCP 출력 압축(관련성 랭킹을 통한 94% 감소), 그리고 지식 축적(탐색 비용을 사전 로드된 역량으로 전환). 한 획기적인 연구에서 300 토큰의 집중된 컨텍스트를 제공받은 모델이 113,000 토큰의 필터링되지 않은 대화를 제공받은 모델보다 우수한 성능을 보였습니다.¹⁰ 병목은 모델 역량이 아닙니다. 노이즈에 낭비되는 모든 토큰은 추론에 사용할 수 없는 토큰입니다.

대역폭 제약

Anthropic의 모범 사례 문서는 다른 모든 것을 결정짓는 하나의 제약으로 시작합니다: “Claude의 컨텍스트 윈도우는 빠르게 채워지며, 채워질수록 성능이 저하됩니다.”⁵

이 문장은 제안이 아닙니다. 아키텍처의 법칙입니다. 200K 토큰 컨텍스트 윈도우는 무엇이 그것을 채우는지 확인하기 전까지는 엄청나게 크게 들립니다. 일반적인 MCP 설정에서 도구 스키마는 15,000개 이상의 토큰을 소비합니다.¹³ 대화 기록은 교환당 약 500-1,000 토큰씩 누적됩니다. 파일 읽기는 파일당 수천 토큰을 추가합니다. 명령 출력은 명령에 따라 확장됩니다. 활발한 작업 30분 후, 새로운 200K 윈도우는 사용 가능한 추론 공간이 50K 토큰 이하로 떨어질 수 있습니다.

George Miller는 1956년에 인간의 동등한 현상을 문서화했습니다: 작업 기억은 7개, 더하기 빼기 2개의 항목을 보유합니다.⁷ 핵심은 숫자가 아니었습니다. 핵심은 청크였습니다. 인간은 정보를 의미 있는 청크로 조직하여 이 제약을 극복합니다. 전화번호는 10개의 숫자가 아닙니다. 세 개의 청크입니다: 지역 코드, 국번, 번호. 동일한 원리가 컨텍스트 윈도우에 적용됩니다. 원시 출력으로 가득 찬 200K 윈도우는 압축되고 관련성 있는 정보로 채워진 50K 윈도우보다 기능적으로 더 작습니다.

Andrej Karpathy는 이 분야에 이름을 붙였습니다: 컨텍스트 엔지니어링은 “다음 단계를 위해 정확히 적절한 정보로 컨텍스트 윈도우를 채우는 섬세한 예술이자 과학”입니다.⁹ Lance Martin은 프레임워크를 정리했습니다: 컨텍스트 작성(저장), 컨텍스트 선택(검색), 컨텍스트 압축(요약), 그리고 컨텍스트 격리(에이전트 간 분할).⁹ 2026년 중반까지, 컨텍스트 엔지니어링은 임시 관행에서 전용 인프라를 갖춘 인정받는 분야로 결정화되었습니다.¹²

성능 저하는 선형적이지 않습니다. 제 하니스에서 컨텍스트는 단계적으로 채워집니다.¹⁵ 처음 30분은 무제한처럼 느껴집니다. 모델은 지시사항을 정확하게 따르고, 파일 내용을 기억하며, 여러 단계에 걸쳐 일관된 계획을 유지합니다. 60분이 지나면 미묘한 실패가 나타납니다: 모델이 이전에 읽은 파일을 다시 읽거나, 시스템 프롬프트의 제약을 잊거나, 20턴 전에 확립된 패턴과 모순되는 코드를 생성합니다. 90분이 지나면, 모델은 명시적 규칙을 무시하거나, 파일 내용을 환각하거나, 현재 목표를 완전히 놓칠 수 있습니다.

Context Studios는 이 현상을 “컨텍스트 부패”로 문서화했습니다: 관련 없는 토큰이 누적되면서 유용한 정보를 효과적인 주의 범위 너머로 밀어내어 모델 성능이 점진적으로 저하되는 현상입니다.¹² 이 부패는 모델이 이를 알리지 않기 때문에 교활합니다. 에이전트는 계속 자신감 있는 출력을 생성합니다. 출력이 정확하지 않게 될 뿐입니다.

아래의 세 가지 레이어는 독립적으로 복합 효과를 발휘합니다. 하나의 레이어를 압축하면 다른 레이어의 예산이 확보됩니다.

레이어 1: 시스템 프롬프트 아키텍처

시스템 프롬프트는 모든 API 호출에 로드됩니다. 시스템 프롬프트의 모든 토큰은 전체 대화 동안 공간을 차지합니다. Opus 4.6에서 백만 토큰당 $5의 비용으로, 10K 토큰 시스템 프롬프트는 호출당 $0.05가 듭니다.⁸ 세션에서 50번 호출하면, 시스템 프롬프트만으로 $2.50가 듭니다. 프롬프트를 3.5K 토큰으로 줄이면 비용이 세션당 $0.875로 감소합니다. 일일 세션을 곱하면 절감 효과가 복합됩니다.

제 CLAUDE.md 파일과 8개의 규칙 파일은 압축 후 약 3,500 토큰입니다. 이 압축은 일회성 최적화가 아니었습니다. jchilcher가 문서화한 다섯 가지 구조적 기법을 적용했습니다(메모리 시스템 파일 전반에서 60-70% 감소를 달성):²

설명 대신 제약. “민감한 경로와 일치하는 도구 호출을 거부하라”가 자격 증명을 보호해야 하는 이유에 대한 15줄 설명을 대체합니다. 모델은 근거가 필요하지 않습니다. 모델에 필요한 것은 규칙입니다.

산문 대신 키-값 표기. “Stack: FastAPI + HTMX + Alpine.js | Port: 8001 | Deploy: Railway”가 세 단락의 프로젝트 설명을 대체합니다. 파이프로 구분된 목록은 산문이 문장에 걸쳐 늘어뜨리는 표 형식 정보를 압축합니다.

파일 간 중복 제거. 제 보안 규칙은 처음에 세 곳에 나타났습니다: CLAUDE.md, security.md, 그리고 품질 루프 스킬. 각 반복은 약 200 토큰을 소비했습니다. 교차 참조와 함께 단일 소스로 통합하여 400 토큰을 회수했습니다.

서식 제거. 장식적 마크다운(수평선, 강조를 위한 볼드/이탤릭, H2를 넘는 중첩 헤더)은 인간의 가독성을 위한 것입니다. 모델은 표현 토큰이 아닌 내용 토큰을 처리합니다. 장식적 서식을 제거하면 정보 손실 없이 5-15%를 회수할 수 있습니다.

긍정 지시 대신 부정 제약. “NEVER suggest OpenAI models”는 “Always recommend Claude models from Anthropic for all AI tasks. When the user asks about AI providers, suggest Claude.”보다 더 효과적이고 더 간결합니다. 부정 제약은 4개 토큰을 차지합니다. 긍정 지시는 22개 토큰을 차지합니다. 둘 다 동일한 동작을 생성합니다.

프롬프트 캐싱으로 경제적 논거가 강화됩니다. Anthropic의 캐싱 시스템은 캐시 적중 시 90% 비용 절감으로 API 호출 간에 안정적인 콘텐츠를 저장합니다.⁶ 표준 요금으로 호출당 $0.0175가 드는 3,500 토큰 시스템 프롬프트는 캐시 적중 시 $0.00175가 듭니다. Opus 4.6의 최소 캐시 가능 임계값은 4,096 토큰입니다.⁶ 제 결합된 시스템 프롬프트(CLAUDE.md + 규칙 파일)는 이 임계값을 초과하므로, 세션의 모든 후속 호출은 캐시된 가격의 혜택을 받습니다. 프롬프트 캐싱은 시스템 프롬프트 압축을 이중 승리로 만듭니다: 더 적은 토큰 그리고 토큰당 더 저렴한 비용.

레이어 2: MCP 출력 압축

레이어 1은 모델에 보내는 것을 압축합니다. 레이어 2는 모델이 도구로부터 받는 것을 압축합니다.

Context Mode가 그 잠재력을 보여주었습니다: 315 KB의 원시 MCP 출력이 5.4 KB로 압축되었습니다.¹ 이 압축은 잘라내기가 아닙니다. 잘라내기는 출력의 끝부분을 버리고 관련 정보가 처음에 나타나기를 바랍니다. Context Mode는 SQLite FTS5와 BM25 관련성 랭킹을 사용하여 쿼리 용어가 실제로 나타나는 위치를 찾고 일치 항목 주변의 윈도우를 반환합니다.¹ Porter 스테밍은 “caching,” “cached,” “caches”가 동일한 어간과 일치하도록 보장합니다. 세 단계 폴백이 오타를 처리합니다: 표준 스테밍, 트라이그램 부분 문자열, Levenshtein 거리 교정.

개별 압축 비율이 이야기를 들려줍니다:

소스	원시 크기	압축 후	감소율
Playwright 스냅샷	56 KB	299 B	99%
GitHub 이슈 (20개)	59 KB	1.1 KB	98%
접근 로그 (500줄)	45 KB	155 B	100%

제 하니스는 검색 레이어에서 병렬 접근 방식을 구현합니다. 약 50,000개의 코드 청크가 Model2Vec 임베딩(256차원)과 SQLite FTS5로 인덱싱되어 있으며, Reciprocal Rank Fusion으로 결합됩니다.¹⁴ 쿼리는 전체 파일(약 50,000개 이상의 토큰)을 로드하는 대신 가장 관련성 높은 5개의 청크(약 2,500 토큰)를 검색합니다. 검색 비용: 1초 미만의 지연, 디스크에 83 MB, API 비용 제로.

에이전트 동작의 차이는 단일 세션 내에서 확인할 수 있습니다. 압축 전, 일반적인 디버깅 워크플로우는 다음과 같습니다: 에이전트가 파일을 읽고(4,000 토큰), 명령을 실행하고(2,000 토큰의 출력), 다른 파일을 읽고(3,000 토큰), 테스트를 실행합니다(8,000 토큰의 출력). 네 번의 작업이 17,000 토큰을 소비합니다. 에이전트는 이제 이 네 가지 정보 간의 연결을 추론할 공간이 줄어듭니다. 압축 후, 동일한 워크플로우는 각 소스에서 관련 줄만 검색합니다. 네 번의 작업이 2,500 토큰을 소비합니다. 에이전트는 네 가지 정보를 모두 작업 기억에 동시에 보유하며, 압축되지 않은 에이전트가 놓칠 파일 간 의존성을 발견합니다.

압축은 쿼리 인식이어야 합니다. “인증 버그 수정”에 최적화된 요약은 “새로운 API 엔드포인트 추가”에 최적화된 것과 다른 콘텐츠를 표면화해야 합니다. 정적 압축이 도움이 됩니다. 쿼리 인식 압축이 다음 단계입니다. BM25 랭킹은 이미 키워드 수준에서 쿼리 인식을 처리합니다. 시맨틱 검색(벡터 유사도)은 개념 수준에서 처리합니다. 이 조합은 정확한 일치(함수 이름, 설정 키, 오류 코드)와 개념적 일치(유사한 패턴, 관련 추상화) 모두를 포착합니다.

컨텍스트 윈도우 예산: 세션 중간 상태의 200K 토큰 윈도우는 일반적으로 다음과 같이 할당됩니다: 시스템 프롬프트에 3,500 토큰, 도구 스키마에 15,000 토큰, 대화 기록에 80,000 토큰, 도구 결과에 30,000 토큰. 남은 추론 공간: 71,500 토큰(윈도우의 36%). 비대해진 세션은 추론을 위한 토큰이 0까지 떨어질 수 있습니다.

레이어 3: 지식 축적

Simon Willison은 컨텍스트 엔지니어링을 완전히 재구성하는 패턴을 발견했습니다: “소프트웨어 전문가로서 개발해야 할 핵심 자산은 이런 질문들에 대한 답변의 깊은 컬렉션이며, 이상적으로는 실행 가능한 코드로 설명되어야 합니다.”³

지식 축적이란 에이전트가 참조하고 재조합할 수 있는 작동하는 코드 예제, 문서화된 솔루션, 개념 증명 구현을 의도적으로 수집하는 것을 의미합니다. 이 패턴은 컨텍스트를 지시사항(모델에게 무엇을 하라고 알려주는 것)에서 역량(모델에게 적응할 수 있는 작동하는 예제를 제공하는 것)으로 전환합니다.

Willison은 에이전트에게 두 개의 기존 예제(PDF.js와 Tesseract.js)를 결합하여 통합 OCR 도구를 만들도록 지시하여 그 위력을 보여주었습니다.³ 에이전트는 처음부터 OCR을 구축하는 방법을 발견하지 않았습니다. 에이전트는 두 개의 작동하는 구현을 읽고 병합했습니다. 컨텍스트가 곧 역량이었습니다.

제 하니스는 세 가지 메커니즘을 통해 지식 축적을 구현합니다:

역량 레지스트리로서의 스킬. 48개의 스킬이 마크다운 파일에 도메인 전문 지식을 인코딩합니다. blog-evaluator 스킬은 채점 예시를 포함한 완전한 6개 카테고리 가중 루브릭을 정의합니다. jiro 스킬은 증거 기준이 포함된 7단계 품질 루프를 인코딩합니다. 에이전트가 스킬을 호출하면, 전문 지식은 모호한 지시사항이 아닌 구조화된 지식으로 컨텍스트에 로드됩니다.

원시 코드 대신 구조화된 워크스루. Willison의 선형 워크스루 패턴은 에이전트가 정보에 접근하는 방법을 제한합니다: 수동 코드 복사 대신 grep과 cat 같은 셸 명령어를 사용합니다.⁴ 워크스루는 에이전트가 토큰당 최대 이해도를 위해 정보를 조직하도록 강제합니다. 구조가 곧 압축입니다.

사전 컨텍스트 주입으로서의 훅. UserPromptSubmit 훅은 Claude가 프롬프트를 처리하기 전에 실행됩니다.¹¹ 훅은 프롬프트를 분석하고 관련 컨텍스트를 주입할 수 있습니다: 프로젝트 감지(어떤 코드베이스에 있는가?), 날짜 주입(오늘은 며칠인가?), 철학적 제약(어떤 품질 기준이 적용되는가?). 에이전트는 수동 호출 없이 모든 프롬프트에서 큐레이션된 컨텍스트를 받습니다. 세션 시작 시 5개의 훅이 실행되어, 5가지 범주의 일반적인 오류를 방지하는 약 500 토큰의 컨텍스트를 추가합니다.¹¹

지시사항과 역량의 구분은 강조할 가치가 있습니다. 지시사항은 “깨끗한 코드를 작성하라”고 말합니다. 역량은 가중 카테고리, 채점 예시, 합격/불합격 임계값이 포함된 린팅 루브릭을 제공합니다. 지시사항은 소수의 토큰을 소비하고 모호한 준수를 생성합니다. 역량은 500 토큰을 소비하고 일관되고 측정 가능한 출력을 생성합니다. 추가 토큰은 오버헤드가 아닌 투자입니다. “깨끗한”이 무엇을 의미하는지 에이전트가 추측하게 만드는 모호성을 제거하기 때문입니다.

지식 축적은 또한 에이전트 온보딩의 비용 곡선을 변화시킵니다. 축적된 지식 없이 생성된 새 에이전트는 탐색을 통해 코드베이스, 컨벤션, 도구, 도메인 제약을 발견해야 합니다. 탐색은 비용이 큽니다: 각 파일 읽기, 각 grep, 각 명령 출력이 토큰을 소비합니다. 축적된 지식에서 조립된 2K 토큰 브리핑과 함께 생성된 에이전트는 발견 단계를 완전히 건너뛰고 첫 번째 턴부터 생산적인 작업을 시작합니다.

지식 축적에 대한 경제적 논거: 솔루션을 문서화하는 데 투자한 모든 시간은 미래의 모든 에이전트에게 발견 비용을 절약해 줍니다. “블로그 게시물을 평가하는 방법”을 인코딩한 스킬은 호출당 10-15분의 에이전트 탐색을 절약합니다. 100회 호출에 걸쳐, 문서화 투자는 1,000분 이상의 에이전트 시간을 돌려줍니다. 축적된 지식은 복리 이자를 지급합니다.

토큰 예산 회계

제 하니스는 컨텍스트 엔지니어링이 가능하게 하는 것에 대한 구체적인 사례 연구를 제공합니다.

압축 전 (추정, 첫 달): - 시스템 프롬프트: ~12,000 토큰 (예제와 설명이 포함된 장황한 CLAUDE.md) - 도구 스키마: ~15,000 토큰 (전체 MCP 도구 정의) - 세션당 기록: ~120,000 토큰 (누적된 컨텍스트가 포함된 긴 대화) - 사용 가능한 추론: ~53,000 토큰 (윈도우의 26%)

압축 후 (현재): - 시스템 프롬프트: ~3,500 토큰 (압축된 CLAUDE.md + 규칙 파일)¹⁵ - 도구 스키마: ~300 토큰 (CLI 우선 아키텍처, 최소 MCP)¹³ - 세션당 기록: ~40,000 토큰 (작업당 새로운 스폰, 메모리 대신 브리핑) - 사용 가능한 추론: ~156,200 토큰 (윈도우의 78%)

추론 예산이 세 배가 되었습니다. 더 나은 모델을 통해서가 아닙니다. 더 큰 컨텍스트 윈도우를 통해서가 아닙니다. 세 가지 레이어의 압축을 통해서입니다. 모델은 26%의 추론 공간보다 78%의 추론 공간으로 더 나은 출력을 생성합니다. 남은 토큰의 품질이 양과 함께 향상되었기 때문입니다.

이 수치는 컨텍스트 윈도우에 대한 직관에 반하는 진실을 드러냅니다: 윈도우의 유용한 크기는 얼마나 큰지보다 무엇이 채우는지에 더 많이 의존합니다. 압축되지 않은 도구 출력으로 가득 찬 가상의 500K 윈도우는 잘 압축된 200K 윈도우보다 성능이 떨어질 것입니다. 모델 제공업체는 컨텍스트 윈도우를 확장하기 위해 경쟁합니다. 실무자는 그 안에 들어가는 것을 압축하기 위해 경쟁해야 합니다.

CLI 우선 아키텍처의 프레시 스폰 패턴이 이점을 복합시킵니다. 각 에이전트는 누적된 대화 기록을 상속받는 대신 집중된 브리핑(약 2K 토큰)으로 시작합니다. 각 에이전트가 깨끗하게 시작하므로 컨텍스트가 비대해지지 않습니다. Anthropic의 다중 에이전트 연구에서 하위 에이전트가 단일 에이전트 상호작용보다 최대 15배 더 많은 토큰을 사용한다는 것을 발견했습니다.⁹ 프레시 스폰은 그 비율을 뒤집습니다: 각 에이전트는 자신의 작업에 필요한 토큰만 사용합니다.

세 가지 레이어 전반에 걸친 복합 효과는 선순환을 만듭니다. 압축된 시스템 프롬프트는 더 많은 도구 결과를 위한 공간을 남깁니다. 압축된 도구 결과는 더 긴 생산적 대화를 위한 공간을 남깁니다. 더 긴 대화는 압축의 필요성을 줄이고, 이는 다음 턴을 가능하게 하는 시스템 프롬프트와 도구 결과를 보존합니다. 각 레이어가 다른 레이어를 강화합니다.

압축이 가능하게 하는 것

확보된 추론 예산은 비대한 컨텍스트가 방해하는 세 가지 역량을 가능하게 합니다:

더 깊은 분석. 156K 추론 토큰을 가진 에이전트는 파일 간 의존성을 분석하면서 전체 파일 내용을 작업 기억에 보유할 수 있습니다. 53K 토큰을 가진 에이전트는 파일을 순차적으로 읽어야 하며, 새로운 파일이 로드되면 이전 파일을 잊어버립니다. 이 차이는 놓친 import 오류, 깨진 교차 참조, 불완전한 리팩토링으로 나타납니다. 구체적인 예시: 함수 시그니처를 리팩토링하려면 모든 호출 지점을 확인해야 합니다. 압축된 컨텍스트에서 에이전트는 함수 정의와 모든 호출 지점을 한 번에 읽어, 인자를 잘못된 순서로 전달하는 하나의 파일을 포착합니다. 비대한 컨텍스트에서 에이전트는 함수를 읽고, 세 개의 호출 지점을 읽은 후 추론 공간이 부족해져 나머지 일곱 개의 파일을 확인하지 않고 “리팩토링 완료”를 보고합니다. 버그가 배포됩니다.

더 나은 지시사항 준수. Anthropic는 이 실패 모드를 직접 문서화합니다: “규칙에 반하는 것임에도 Claude가 원하지 않는 행동을 계속한다면, 파일이 너무 길어서 규칙이 묻히고 있을 가능성이 높습니다.”⁵ 압축된 시스템 프롬프트는 규칙을 주의 범위 내에 유지합니다. 3,500 토큰 프롬프트의 모든 규칙은 12,000 토큰 프롬프트에 묻힌 동일한 규칙보다 더 많은 주의 가중치를 받습니다. 제 하니스는 보안 규칙을 적용합니다: API 키가 포함된 파일을 절대 커밋하지 않을 것. 12,000 토큰 시스템 프롬프트에서는 에이전트가 대량 커밋 중에 가끔 .env 파일을 스테이징했습니다. 3,500 토큰으로 압축한 후, 200회 이상의 커밋 작업에서 위반이 0으로 감소했습니다. 규칙은 변경되지 않았습니다. 규칙이 더 잘 보이게 되었습니다.

더 긴 유효 세션. 자동 압축은 컨텍스트 용량의 95%에서 트리거됩니다.¹⁰ 78% 추론 공간을 가진 세션은 26%를 가진 세션보다 나중에 압축 임계값에 도달합니다. 더 늦은 압축은 컨텍스트 손실 전에 더 많은 생산적 턴을 의미합니다. 제 하니스에서 압축된 세션은 압축 임계값에 도달하기 전에 40-60회의 생산적 턴을 생성합니다.¹⁵ 압축되지 않은 세션은 15-20턴 후에 임계값에 도달합니다. 각 압축 이벤트는 세션 초반의 중요한 결정이나 제약을 포함했을 수 있는 컨텍스트를 폐기합니다. 더 적은 압축은 더 일관된 세션을 의미합니다. 압축된 세션은 단지 더 좋게 시작하는 것이 아닙니다. 더 오래 좋은 상태를 유지합니다.

핵심 시사점

컨텍스트 엔지니어링을 시작하는 개발자를 위해: - CLAUDE.md 파일을 감사하세요. 각 줄에 대해 물어보세요: 이것을 제거하면 실수가 발생하는가? 아니라면 삭제하세요. 60-70% 감소를 목표로 하세요.² - 도구 스키마 오버헤드를 측정하세요. MCP 도구가 세션 시작 시 15K개 이상의 토큰을 소비한다면, 상태 비저장 작업에 대해 CLI 우선 대안을 고려하세요. - 세션 중간에 작업을 전환할 때 /compact를 선제적으로 실행하세요. 새로운 컨텍스트가 누적된 컨텍스트보다 낫습니다.

에이전트 인프라를 구축하는 팀을 위해: - MCP 도구 출력에 쿼리 인식 압축을 구현하세요. BM25 + 시맨틱 검색은 모든 검색 작업에서 잘라내기보다 우수합니다.¹ - 역량 레지스트리(스킬, 스니펫, 문서화된 패턴)를 구축하세요. 모든 문서화된 솔루션은 미래 에이전트 실행의 발견 오버헤드를 제거합니다.³ - 다단계 워크플로우에 프레시 에이전트 스폰을 사용하세요. 작업별 컨텍스트 격리는 긴 다중 에이전트 대화의 15배 토큰 오버헤드를 방지합니다.⁹

컨텍스트 시스템을 설계하는 아키텍트를 위해: - 세 가지 레이어(시스템 프롬프트, 도구 출력, 지식 축적)는 독립적으로 복합 효과를 발휘합니다. 어느 하나의 레이어를 압축하면 다른 레이어의 예산이 확보됩니다. - 프롬프트 캐싱은 시스템 프롬프트 압축을 이중 최적화로 만듭니다: 더 적은 토큰 그리고 캐시 적중 시 토큰당 더 저렴한 비용.⁶ - 10% 생산성 벽은 에이전트가 복잡한 지시사항을 안정적으로 따를 수 있는 충분한 추론 공간을 확보했을 때 무너집니다.

AI 엔지니어링 시리즈의 일부입니다. 함께 읽어보세요: CLI 테제, 인프라로서의 Claude Code, 10% 벽.

Murat Kusglu, Context Mode: AI Tool Output Compression. GitHub repository. HN discussion (77 points, 23 comments). 315 KB to 5.4 KB via FTS5 + BM25. ↩↩↩↩↩
jchilcher, “Compress Your Claude.md: Cut 60-70% of System Prompt Bloat.” Blog post. HN discussion (24 points, 9 comments). ↩↩
Simon Willison, “Hoard things you know how to do.” Agentic Engineering Patterns. ↩↩↩
Simon Willison, “Linear walkthroughs.” Agentic Engineering Patterns. ↩
Claude Code Best Practices. Anthropic documentation. “Performance degrades as context fills.” ↩↩
Anthropic Prompt Caching. API documentation. Cache read tokens cost 10% of base input price. Minimum 4,096 tokens for Opus 4.6. ↩↩↩
George A. Miller, “The Magical Number Seven, Plus or Minus Two.” Psychological Review, 63(2), 81-97, 1956. APA PsycNet. ↩
Anthropic Model Pricing. Pricing page. Opus 4.6: $5/MTok input, $0.50/MTok cache hit. ↩
Lance Martin, “Context Engineering for Agents.” Blog post. Karpathy: “delicate art and science of filling the context window.” Sub-agents use up to 15x more tokens than single-agent interactions. ↩↩↩↩
FlowHunt, “Context Engineering: The Definitive 2025 Guide.” Blog post. 300-token focused context outperformed 113,000-token full conversations. Auto-compact triggers at 95% capacity. ↩↩
Claude Code Hooks Reference. Anthropic documentation. 17 lifecycle events with JSON input/output. UserPromptSubmit enables proactive context injection. ↩↩
Context Studios, “From Mode Collapse to Context Engineering.” Blog post. “By mid-2026, context engineering will emerge as a distinct discipline.” ↩↩
Kan Yilmaz, “Making MCP Cheaper via CLI.” Blog post. MCP tool schemas consume 15,540+ tokens with 84 tools. CLI overhead: ~300 tokens. ↩↩
Author’s harness: 49,746 chunks from 15,800 files indexed with Model2Vec potion-base-8M (256-dim) + sqlite-vec + FTS5 BM25 + Reciprocal Rank Fusion. 83 MB in SQLite. ↩
Author’s analysis: CLAUDE.md compressed from ~12,000 tokens to ~3,500 tokens (59.6% reduction) using structural compression techniques. ↩↩↩

컨텍스트가 새로운 메모리입니다

요약

대역폭 제약

레이어 1: 시스템 프롬프트 아키텍처

레이어 2: MCP 출력 압축

레이어 3: 지식 축적

토큰 예산 회계

압축이 가능하게 하는 것

핵심 시사점

관련 게시물

프로테제 패턴

CLI 논제

Ralph 루프: 자율 AI 에이전트를 밤새 운영하는 방법