에이전트가 똑똑해진 게 아니라 — 프로젝트가 달라진 것입니다

5분 소요

6개월 전에는 코딩 작업 하나에 세션 전체를 들여 설명해야 했습니다. 지난주에는 같은 종류의 작업이 한 문장으로 끝났습니다. 두 세션 사이에 모델은 바뀌지 않았습니다. Claude Opus 4.6이 두 세션 모두를 처리했습니다. 동일한 가중치, 동일한 아키텍처, 동일한 컨텍스트 윈도우, 동일한 기능입니다.

AI 에이전트는 세션 1과 세션 500 사이에 똑똑해진 것이 아닙니다. 프로젝트 인프라가 달라진 것입니다. 이것이 AI engineering 영역의 핵심 주장입니다. 모델은 상수이고, 변수는 모델 주변에 구축한 모든 것입니다. 장기 프로젝트에서 모델은 세션 품질의 약 30%를 기여하고, 나머지 70%는 누적된 컨텍스트가 제공합니다. 컨벤션 문서, 의사결정 메모리, 핸드오프 산출물, 훅, 스킬, 그리고 테스트 커버리지입니다. 풍부한 컨텍스트를 갖춘 프로젝트의 열등한 모델이 아무것도 없는 프로젝트의 우월한 모델보다 더 나은 성과를 내는 경우가 많습니다.

프로젝트가 달라진 것입니다.

잘못된 논의

AI 생산성 논의는 거의 전적으로 모델 기능에 관한 것입니다. 어느 모델이 가장 빠른가. 어느 모델이 가장 좋은 코드를 작성하는가. 어느 모델이 가장 긴 컨텍스트를 처리하는가. 암묵적인 가정은 모델이 변수라는 것입니다. 모델을 업그레이드하면 결과물이 개선된다는 것이죠.

이 가정은 장기 프로젝트에서는 틀렸습니다. 제가 6개월 동안 500회 이상의 에이전트 세션과 함께 작업해온 한 프로젝트에서, 모델이 세션 품질에 기여하는 비중은 아마 30% 정도입니다. 나머지 70%는 누적된 프로젝트 인프라에서 나옵니다. 컨벤션 문서, 의사결정 메모리, 핸드오프 산출물, 행동 훅, 코드화된 스킬, 그리고 테스트 커버리지입니다.

아무것도 없는 프로젝트에서 더 나은 모델은 같은 환경의 더 못한 모델보다 더 나은 결과물을 만들어냅니다. 500세션의 누적된 컨텍스트를 가진 프로젝트의 더 못한 모델은 아무것도 없는 프로젝트의 더 나은 모델보다 더 나은 결과물을 만들어내는 경우가 많습니다. 인프라가 모델을 압도합니다. 이것이 바로 context is architecture인 이유입니다 – 누적된 프로젝트 지식은 보조 정보가 아니라 하중을 견디는 구조물입니다.

증거

market 페이지 성능 수정이 이 점을 잘 보여줍니다. 한 문장입니다: “fix the market page performance.” 에이전트는 다음과 같이 진행했습니다.

병목 지점을 진단한 이전 세션의 핸드오프 문서를 읽었습니다
올바른 코드 경로를 식별했습니다 (_fetch_market_data()가 아니라 market_hub())
집계 RPC와 함께 페이지네이션된 데이터베이스 쿼리를 구현했습니다
테스트를 작성했습니다
배포했습니다

Austin은 14초에서 108밀리초로 단축되었습니다. 단일 프롬프트로 132배 개선이 이루어진 것입니다.¹

이는 모델이 똑똑해서 일어난 일이 아닙니다. 핸드오프 문서가 존재했기 때문에 일어난 일입니다. 핸드오프는 4일에 걸쳐 세 번의 코드 리뷰 수정과 두 번의 우선순위 재조정을 거치며 살아남은 진단을 담고 있었습니다. 핸드오프가 없었다면 에이전트는 처음부터 시작했을 것입니다. (핸드오프 초안이 그랬듯이) 잘못된 코드 경로를 조사했을 것입니다. (원래 계획이 그랬듯이) 불필요한 HTMX 부분을 제안했을 것입니다. 핸드오프는 이미 저질러졌고 수정된 오류들을 담고 있었습니다. 에이전트는 수정된 이해를 물려받았습니다.

모델의 기여는 핸드오프를 읽고 수정사항을 구현한 것입니다. 인프라의 기여는 읽을 만한 올바른 핸드오프를 가지고 있었던 것입니다.

무엇이 변하고 무엇이 변하지 않는가

같은 프로젝트의 세션 1과 세션 500 사이에서 정확히 한 가지가 일정합니다. 바로 모델입니다. 그 외의 모든 것은 달라집니다.

달라지는 것:

CLAUDE.md가 비어 있던 상태에서 완전한 상태로 자랍니다. 컨벤션에 관한 질문이 사라집니다. AGENTS.md patterns 글은 이러한 파일을 효과적으로 만드는 구체적인 패턴을 설명합니다.
메모리 파일이 누적됩니다. 의사결정이 캐싱됩니다. 트레이드오프가 기록됩니다. 프로젝트는 이미 정리된 질문을 다시 논쟁하지 않게 됩니다.
Hooks이 누적됩니다. 각 훅은 이전 세션에서 발생한 한 가지 종류의 실패를 방지합니다. Claude Code이 노출하는 26개의 라이프사이클 이벤트 타입 중 15개를 가로채는 84개의 훅, 각각이 과거 사건의 흉터입니다.
스킬이 누적됩니다. 반복적인 워크플로가 한 번의 명령으로 처리되는 작업이 됩니다. 설계하는 데 세션 전체가 걸렸던 nightcheck가 이제 2분 만에 실행됩니다.
테스트가 누적됩니다. 에이전트는 즉시 검증할 수 있기 때문에 더 과감한 변경을 시도합니다.
핸드오프 문서가 누적됩니다. 복잡한 조사가 세션 경계를 넘어 지속됩니다.

그대로 유지되는 것:

모델입니다. 동일한 가중치. 동일한 기능. 작업에서 벗어나는 동일한 경향, 테스트 결과를 환영처럼 검증하는 경향(the evidence gate 참고), 그리고 불필요한 추상화를 제안하는 경향입니다.

모델의 실패 모드는 일정합니다. 그 실패 모드를 잡아내는 인프라의 능력은 매 세션마다 자랍니다. 세션 500이 세션 1보다 나은 것은 모델이 개선되었기 때문이 아니라, 인프라가 모델의 일정한 약점을 보완하는 법을 배웠기 때문입니다.

투자 관점

모델이 변수가 아니라면, 모델 선택은 일차적인 투자 결정이 아닙니다. 일차적인 투자는 컨텍스트 인프라에 있습니다.

월 $200를 Claude Max(기본적으로 Opus 4.7을 실행하는)에 쓰면서 CLAUDE.md 파일, 메모리 시스템, 훅, 스킬, 그리고 테스트 커버리지에 집중적으로 투자하는 팀이, 같은 플랜에 월 $200를 쓰면서 인프라 투자가 전혀 없는 팀보다 더 나은 성과를 냅니다. 모델 비용은 동일합니다. 결과물 품질이 갈라지는 이유는 인프라가 갈라지기 때문입니다.

이는 생산성 질문을 새로운 시각으로 재구성합니다. 질문은 “어느 모델을 써야 하는가?”가 아닙니다. 질문은 “매 세션이 이전 세션보다 나아지도록 모델 주변에 무엇을 구축했는가?”입니다.

AI 생산성에서 어려움을 겪고 있는 조직들을 보면, 그들은 잘못된 모델을 쓰고 있는 것이 아닙니다. 그들은 매 세션을 처음부터 시작하고 있습니다. 컨벤션 문서가 없습니다. 메모리 시스템이 없습니다. 훅이 없습니다. 스킬이 없습니다. 누적된 컨텍스트가 없습니다. 이전에 얼마나 많은 세션이 있었든 상관없이, 매 세션이 세션 1입니다.

모델은 개선될 것입니다

모델은 계속 개선될 것입니다. Claude Opus 4.7은 Claude Opus 4.6보다 나았고, Opus 5는 더 나을 것입니다. 그 개선은 실재하고 가치 있습니다. 하지만 그 개선은 가산적이지, 곱셈적이지 않습니다.

코드 생성에서 20% 더 나은 모델은 아무것도 없는 프로젝트에서 20% 더 나은 결과물을 만들어냅니다. 500세션의 누적 컨텍스트를 가진 같은 모델은 단순히 양적으로 더 나은 것이 아니라 질적으로 다른 결과물을 만들어냅니다. 컨텍스트 인프라는 모델 기능에 20%를 더하는 것이 아닙니다. 인프라는 모델이 아무리 뛰어나든 스스로는 만들어낼 수 없는 진단, 제약, 검증 기준, 그리고 운영 이력을 제공합니다.

어떤 모델도, 아무리 뛰어나더라도, market_hub()가 모든 company_markets 행을 로드하고 Python에서 페이지네이션을 한다는 것을 무엇인가가 알려주지 않으면 알 수 없습니다. 핸드오프 문서가 그것을 알려줍니다. 모델은 읽고 행동합니다. 지능은 모델(읽기, 추론, 구현)과 인프라(알기, 제약하기, 검증하기) 사이에 분산되어 있습니다.

세션 500

세션 500은 이렇습니다. 저는 원하는 것을 한 문장으로 말합니다. Ralph agent architecture는 이를 가능하게 하는 시스템입니다. 에이전트는 CLAUDE.md를 읽고 컨벤션을 압니다. 메모리 파일을 읽고 의사결정을 압니다. 핸드오프를 읽고 진단을 압니다. 3개월 전에 다른 에이전트가 저질렀던 것과 같은 실수를 방지하는 훅을 만나게 됩니다. 테스트 스위트로 자기 작업을 검증합니다. 모든 주장에 대한 증거와 함께 완료를 보고합니다.

세션 1은 이렇습니다. 저는 데이터베이스 스키마, 라우팅 컨벤션, 템플릿 상속, 캐시 계층, 배포 파이프라인, 그리고 테스트 패턴을 설명합니다. 에이전트는 명확화 질문을 합니다. 세 가지 컨벤션을 위반하는 접근법을 제안합니다. 저는 수정합니다. 에이전트는 수정사항을 구현합니다. pytest를 실행하지도 않고 “tests pass”라고 보고합니다.

두 세션에서 모델은 동일합니다. 프로젝트는 그렇지 않습니다.

FAQ

그래도 모델 품질은 여전히 중요하지 않나요?

중요합니다. 더 강력한 모델은 컨텍스트를 더 효과적으로 읽고, 트레이드오프를 더 정확하게 추론하고, 솔루션을 더 깔끔하게 구현합니다. 모델 품질은 바닥을 정합니다. 인프라는 천장을 올립니다. 성숙한 프로젝트에서는 천장이 바닥보다 더 중요합니다.

이것은 코딩 에이전트에만 해당되나요?

아닙니다. 같은 작업 영역이 세션 전반에 걸쳐 반복되는 모든 AI 워크플로는 누적된 컨텍스트로부터 이득을 얻습니다. 글쓰기, 리서치, 분석, 고객 지원이 그렇습니다. 구체적인 인프라는 다르지만(CLAUDE.md 대신 스타일 가이드, 훅 대신 지식 베이스), 역학은 같습니다. 모델 주변의 컨텍스트가 누적되기 때문에 프로젝트가 나아진다는 것입니다.

멀티모달 모델이나 추론 모델은 어떤가요?

같은 원칙입니다. 한 가지 문제에 대해 10분 동안 생각할 수 있는 추론 모델도 어떤 문제에 대해 생각해야 할지는 알아야 합니다. 핸드오프 문서, 컨벤션 파일, 그리고 메모리 시스템이 문제 정의를 제공합니다. 모델은 추론을 제공합니다. 잘 정의된 문제에 대한 더 나은 추론은 열등한 추론보다 더 나은 결과를 만들어내지만, 정의되지 않은 문제에 대한 더 나은 추론은 더 그럴듯하게 들리는 혼란을 만들어냅니다.

컨텍스트 인프라가 전혀 없다면 어떻게 시작하나요?

프로젝트 컨벤션을 설명하는 CLAUDE.md 파일을 작성하세요. 그 단일 파일이 가장 영향력 있는 투자입니다. 그 외의 모든 것은 거기서부터 복리로 쌓입니다.²

Sources

Blake Crosley, “Compound Context: Why AI Projects Get Better the Longer You Stay With Them,” blakecrosley.com, March 2026. ↩
Anthropic, “Manage Claude’s memory,” Anthropic Documentation, 2026. ↩