← 모든 글

당신이 작성하지 않은 에이전트의 기억

From the guide: Claude Code Comprehensive Guide

오늘 저는 하루의 대부분을 Hermes Agent를 위한 실무자용 레퍼런스를 작성하는 데 썼습니다. 그중 핵심이 되는 섹션 하나는 SOUL.md에 관한 내용입니다. 이 파일은 에이전트의 정체성을 고정해 두는 곳입니다. 목소리, 어조, 선호도, 행동 가드레일. 이 섹션의 전제는 정체성을 그 파일에 넣어두면, 에이전트가 매 시스템 프롬프트 최상단에서 이를 읽고 그에 따라 행동한다는 것입니다. 명시적 기억(explicit memory). 선언적이고, 감사 가능하며, 버전 관리가 되는 기억. 진지한 실무자라면 신경 써야 할 종류의, 올바른 형태의 기억입니다.

어제 arxiv에 올라온 한 논문이 오늘 밤 시그널 스캔에서 눈에 들어왔고, 이 논문을 읽고 난 뒤 저는 오늘 아침까지 품고 있던 SOUL.md에 대한 전제를 훨씬 더 느슨하게 잡게 되었습니다.1

이 논문의 제목은 ImplicitMemBench: Measuring Unconscious Behavioral Adaptation in Large Language Models입니다.1 저자들은 이 논문을 LLM의 암묵적 기억(implicit memory) 을 측정하는 최초의 체계적 벤치마크로 소개합니다. 저자들의 프레이밍에 따르면 이는 에이전트가 자동으로 실행에 옮기는 것을 형성하는 기억이며, 에이전트가 의식적으로 떠올리는 것을 형성하는 명시적 기억과는 구별됩니다.1 최상위 수행자도 66% 미만의 점수를 기록했습니다.1 저자들은 또한 그 점수 내부에서 “극적인(dramatic)” 비대칭성을 보고하는데,1 이 부분은 뒤에서 적절한 유보를 곁들여 풀어보겠습니다.

TL;DR

기존 메모리 벤치마크는 명시적 회상을 측정합니다. 모델에게 사실을 알려준 다음, 그것을 다시 꺼낼 수 있는지 확인하는 식입니다. ImplicitMemBench는 전혀 다른 기억 시스템을 측정합니다. 저자들에 따르면 이는 표준 인지과학 구성물(절차적 기억, 점화, 고전적 조건화)에서 가져온, “의식적 인출 없이” 자동적 행동을 형성하는 기억입니다.1 300개 항목으로 구성된 첫 시도 채점(first-attempt scoring) 벤치마크에서, 저자들이 테스트한 어떤 모델도 전체 66%를 넘지 못했습니다. DeepSeek-R1은 65.3%, Qwen3-32B는 64.1%, GPT-5는 63.0%를 기록했고, 저자들은 최상위 수행자들조차 “인간 기준선보다 한참 아래”라고 표현합니다.1 그런데 이 헤드라인 숫자가 이야기의 전부는 아닙니다. 초록은 “극적인” 비대칭성도 함께 보고합니다. 억제(inhibition)에서 17.6%선호(preference)에서 75.0%, 약 4배 차이이며, 저자들이 “파라미터 스케일링을 넘어서는 아키텍처적 혁신”이 필요하다고 말하는 “보편적 병목”으로 규정한 현상입니다.1 저는 이 비대칭성을, 초록이 그 두 숫자 뒤의 전체 방법론을 공개하지 않았다는 유보를 달고서, 제가 에이전트 작업에서 관찰해 온 한 가지 민속지학적(folklore) 실패 양상과 일관된 것으로 읽고 있습니다. 최근에 본 선호는 빠르게 강화하면서, 최근에 본 실패는 학습 해제하지 못하는 시스템 말입니다. 이 해석이 옳다면, 에이전트 정체성·안전성·스킬 진화에 대한 대화는 “프롬프트에 무엇을 넣었는가”에서 “당신의 명시적 고정값이 감사할 수 없는 무언가를 세션이 조용히 형성하고 있을 가능성은 무엇인가”로 재구성됩니다. 이 재구성은 저의 확장이지, 논문 자체의 주장이 아닙니다.

핵심 요점

아래 불릿들은 논문의 발견이 실무자에게 시사하는 바에 대한 저의 해석이며, 논문 자체가 주장하는 내용은 아닙니다. 논문은 17개의 LLM을 300개 항목의 인지과학 벤치마크에서 테스트합니다. 프로덕션 에이전트 하네스나 프롬프팅 전략을 평가하는 논문이 아닙니다. 각 요점에는 그에 맞는 라벨을 붙이겠습니다.

  • 확장: SOUL.md, AGENTS.md, CLAUDE.md, 시스템 프롬프트, 또는 영속 메모리 파일에 정체성을 고정하는 것은 명시적 선언 기억에 해당하며, 이는 기존 벤치마크에서 이미 모델이 잘 수행한다고 밝혀진 영역입니다. ImplicitMemBench는 전혀 다른 기억 시스템을 측정하며, 모델들은 그 시스템에서 66% 미만을 기록합니다.1 명시적 정체성 고정이 첫 시도 자동 행동에 깔끔하게 전파되지 않을 수 있다는 실무적 함의는 저의 추론이지, 논문의 주장이 아닙니다.
  • 확장: 17.6% 대 75.0%의 비대칭성이 벤치마크 밖에서도 일반화된다면, 에이전트는 최근에 본 선호는 빠르게 흡수하면서 최근에 본 실패를 반복하는 일은 천천히 멈추리라 예측할 수 있습니다. 논문은 두 숫자를 보고하며 그것을 “극적”이고 “보편적”이라 표현하지만,1 “선호”와 “억제”가 항목 단위로 어떻게 조작화되었는지에 대한 방법론은 공개하지 않으며, 에이전트 하네스에서 이 패턴을 테스트하지도 않습니다. 프로덕션 행동으로 연결되는 해석은 저의 것입니다.
  • 확장: 도구 호출, MCP 응답, 스크랩된 웹 페이지, 프롬프트 주입 시도에서 컨텍스트 윈도우에 들어오는 모든 토큰은 인컨텍스트 행동 영향력 입니다. 가중치 업데이트라는 의미의 학습은 아니지만, 다음 첫 시도 응답에 영향을 미치며, 명시적 프롬프트 계층에서는 깔끔하게 감사할 수 없는 영향입니다. 논문이 직접 이 주장을 하는 것은 아니고, 저는 암묵적 기억 프레이밍을 컨텍스트 윈도우 내용물로 확장하고 있는 것입니다.
  • 논문의 주장: 17개 모델 평가에서 “심각한 한계”, “극적인 비대칭성”, “파라미터 스케일링을 넘어서는 아키텍처적 혁신을 요구하는 보편적 병목”이 드러났다.1 저자들은 이 격차를 아키텍처적 문제로 규정합니다. 저는 이것을 “더 많은 프롬프트 엔지니어링이 이 문제를 해결할 것이다”에 반하는 약한 증거로 읽고 있지만, 논문은 프롬프팅 완화책을 구체적으로 테스트하지 않으므로 그 해석은 논문의 것이 아니라 저의 가설로 취급해 주십시오.

논문이 측정하는 것

논문의 프레이밍은 LLM 에이전트를 위한 기존 메모리 벤치마크들이 “사실의 명시적 회상을 평가할 뿐, 경험이 의식적 인출 없이 자동화된 행동으로 변모하는 암묵적 기억은 간과한다”는 것입니다.1 그들이 지적하는 간극은 이것입니다. “효과적인 어시스턴트는 명시적 상기 없이도 학습된 절차를 자동으로 적용하거나 실패했던 행동을 피할 수 있어야 한다.”1 에이전트가 실수를 피하는 유일한 방법이 매 턴마다 당신이 그 실수를 하지 말라고 다시 말해주는 것이라면, 당신은 암묵적 기억 위에 쌓아올리고 있는 것이 아닙니다. 요청마다 명시적 기억 비용을 지불하고 있는 것입니다.

ImplicitMemBench는 비선언적 기억에 대한 인지과학 설명에서 곧바로 가져온 세 가지 구성물을 테스트합니다. 초록에서 그대로 인용하면 다음과 같습니다.1

  1. 절차적 기억(Procedural Memory) — “간섭 이후의 원샷 스킬 습득”. 모델이 어떤 작업을 수행하는 방법을 한 번 배운 뒤, 다른 지시가 사이에 끼어든 뒤에도 나중에 실제로 그것을 다시 실행할 수 있는가? 이것은 인간이 자전거 타기를 배우게 하는 기억 시스템과 같습니다. 타는 법을 떠올리는 것이 아니라, 자전거에서 몇 년 떨어져 있어도 그냥 타는 것입니다.
  2. 점화(Priming) — “짝지어진 실험/대조 사례를 통한 주제 중심 편향”. 한 부류의 것을 본 결과, 모델이 다음의 관련 없는 작업에서 그 부류의 것을 만들어낼 가능성이 더 높아지는가? 그 점화가 일어났음을 모델이 자각하지 못하면서 말입니다.
  3. 고전적 조건화(Classical Conditioning) — “첫 결정을 형성하는 조건 자극–무조건 자극(CS–US) 연합”. 모델이 자극-반응 짝에 노출되었다면, 그 짝이 CS도 US도 질문의 요점이 아닌 완전히 새로운 과제에서 편향으로 나타나는가?

저자들은 “Learning/Priming-Interfere-Test 프로토콜과 첫 시도 채점”을 통합 적용한 300개 항목 스위트를 사용합니다.1 첫 시도 채점은 중요합니다. 틀렸다는 말을 듣고 나서 스스로 수정할 수 있는 모델은 괜찮습니다. 하지만 여기서의 연구 질문은 그 기억이 자동 첫 응답을 형성했는지 여부입니다. 만약 첫 응답이 틀렸고 수정이 오로지 명시적 피드백 뒤에만 일어난다면, 논문이 정의하는 암묵적 기억 시스템은 그 항목에서 실패한 것입니다. 저자들은 자신들의 기여를 한 문장으로 요약하는데, 그 문장을 그대로 가져오고 싶습니다. 이 벤치마크는 평가를 “‘에이전트가 무엇을 회상하는가’에서 ‘에이전트가 자동으로 무엇을 실행하는가’로 재구성한다”는 것입니다.1

결과

헤드라인 숫자는 “전체에서 66%를 넘는 모델이 없다”는 것입니다.1

  • DeepSeek-R1 — 65.3%
  • Qwen3-32B — 64.1%
  • GPT-5 — 63.0%

위 최상위 수행자들은 “인간 기준선보다 한참 아래”로 묘사되지만, 초록은 정확한 인간 기준선 수치나 전체 모델별 순위를 공개하지는 않습니다.1 논문에서 총 17개의 모델이 평가됩니다.1

헤드라인은 하위 결과를 가립니다. 저자들은 “분석을 통해 극적인 비대칭성(억제 17.6% 대 선호 75.0%)과, 파라미터 스케일링을 넘어서는 아키텍처적 혁신을 요구하는 보편적 병목이 드러났다”고 씁니다.1 여기서 숫자가 무엇을 의미하는지에 대해 조심하고 싶습니다. 초록은 이 두 숫자가 어떻게 산출되었는지에 대한 전체 방법론을 제공하지 않으므로, 제가 붙이는 해설은 논문의 내부 정의를 읽은 것이 아니라 초록 표현으로부터의 추론입니다. 그 유보를 먼저 명시하고 나면 다음과 같습니다.

  • 선호: 75.0% (논문의 숫자). 전체 논문을 보기 전까지 저의 해설: 이 숫자는 모델들이 자신이 자극 쪽으로 암묵적으로 끌어당겨졌음을 보이는 데 비교적 능하다는 것과 일관돼 보입니다. 행동을 특정 방향으로 편향시키는 점화와 CS–US 짝은 약 4분의 3 정도의 빈도로 올바르게 작동합니다.
  • 억제: 17.6% (논문의 숫자). 전체 논문을 보기 전까지 저의 해설: 이 숫자는 모델들이 자신이 자극으로부터 멀어지도록 암묵적으로 밀려났음을 보이는 데 극적으로 서툴다는 것과 일관돼 보입니다. “그거 다시 하지 마” 신호가 다섯 번 중 한 번도 안 되게 올바르게 작동하는 셈입니다. 저는 “억제”라는 단어와 논문의 고전적 조건화 프레이밍에서 행동적 의미를 추론하고 있습니다. 초록은 그 조작화를 명시적으로 풀어 설명하지 않습니다.

저자들은 이 비대칭성을 명시적으로 “극적”이라 부르며 “보편적 병목” 탓으로 돌립니다.1 그리고 보편적이라는 단어는 중요합니다. 저자들은 이를 17개 모델 평가에서 걸쳐 나타나는 패턴으로 제시하며, 단일 모델의 산물이 아니라고 봅니다. 저는 이 병목이 “프롬프팅 문제”이다 혹은 “프롬프팅 문제가 아니다”라고 주장할 생각이 없습니다. 논문은 프롬프팅을 완화책으로 테스트하지 않으며, 둘 중 어느 쪽을 말하든 초록이 지지하는 범위를 넘어서게 됩니다.

그 비대칭성이 실제로 의미하는 것

여기서 제가 무엇을 주장하고 있는지 정확히 하고 싶습니다. 벤치마크 하나를 과하게 읽고 싶어지는 대목이기 때문입니다.

논문이 보여주는 것. 첫 시도 답안으로 채점되는 300개 항목의 인지과학 기반 벤치마크에서, LLM은 테스트된 모든 모델에 걸쳐 암묵적 억제보다 암묵적 선호를 드러내는 데서 대략 4배 차이로 극적으로 더 서툽니다. 저자들은 이것을 스케일링으로 고칠 수 없는 보편적 병목이라 부릅니다.

제가 주장하는 것 — 논문과는 별개로. 이 비대칭성 패턴은 제가 몇 달 동안 제 에이전트 작업에서 관찰해 오면서도 이름을 붙이지 못했던 실패 양상에 맞닿아 있습니다. 제 경험상 에이전트 하네스는 선호되는 스타일, 도구, 접근 방식 쪽으로 끌고 가는 컨텍스트를 흡수하는 데 놀라울 정도로 능한 것 같습니다. 에이전트의 행동은 최근에 당신이 넣은 내용 쪽으로 빠르게 흘러갑니다. 반면 그들은 방금 일어난 실패를 반복하지 않는 데는 놀라울 정도로 서툴러 보입니다. 같은 세션 안에서 실패했는데도 에이전트는 같은 망가진 명령, 같은 잘못된 도구, 같은 낡은 경로를 다시 시도합니다. 이것은 측정이 아니라 민속지학(folklore)입니다. 통제된 연구가 아니라 실무자로서의 인상입니다. ImplicitMemBench 숫자는 그 민속지학과 일관적이며, 그래서 제가 이 논문을 중요하게 여기는 것입니다. 그 숫자가 그 민속지학을 자체적으로 검증해 주는 것은 아닙니다. 그리고 저는 논문이 제 민속지학에 “숫자를 붙여주었다”고 주장하고 싶지 않습니다. 논문은 제가 관찰한 것보다 더 타이트하고 통제된 무언가를 측정했으니까요.

제가 주장하지 않는 것. 저는 ImplicitMemBench가 에이전트 하네스 행동이나 프로덕션의 Claude Code / Cursor / Codex 워크플로우를 구체적으로 측정했다고 주장하는 게 아닙니다. 그것은 측정되지 않았습니다. 17개 모델을 구조화된 인지과학 프로토콜에 대해 측정한 것입니다. 벤치마크에서 프로덕션 행동으로의 매핑은 저의 확장이며, 그렇게 라벨이 붙어 있고, 누군가가 이 글을 읽고서 논문이 저 대신 그 주장을 해 주었다고 오해하지 않기를 바랍니다.

이 라벨들을 붙이고 나면, 벤치마크가 그어 보이는 구분, 즉 지시의 명시적 회상점화/조건화 하의 자동 첫 시도 행동의 구분은, 제 에이전트 작업이 진지하게 받아들이기 시작해야 할 구분입니다. 에이전트에게 “X 하지 마”라고 말할 수 있고, 명시적 회상은 아마 잘 작동할 것입니다. 물어보면 에이전트는 “X 하지 마”를 당신에게 되풀이해 줄 수 있습니다. ImplicitMemBench가 측정하고 있는 것은 다른 것입니다. 에이전트는 다음 첫 시도 결정에서, 아무런 명시적 상기 없이도 자동으로 X를 하지 않습니까? 저는 프로덕션 에이전트 하네스가 실제 환경에서 첫 시도 행동에 있어 벤치마크의 17.6% 집계 억제 수치를 물려받는지는 알지 못합니다. 그 매핑은 테스트되지 않았고, 저는 그것을 주장하지 않습니다. 저는 더 약한 무언가를 주장합니다. “규칙을 회상할 수 있다”와 “규칙을 자동으로 실행한다”의 구분은 제가 그동안 다루어 온 것보다 더 날카롭고, 논문의 결과가 그렇게 생각하게 된 이유 중 하나입니다.

SOUL.md 착각

오늘 제가 쓰고 있던 Hermes 가이드는 SOUL.md를 에이전트의 주요 정체성 고정점으로 다룹니다. 모든 시스템 프롬프트의 1번 슬롯. 어조, 목소리, 가드레일. 가이드는 지난 2년 동안 에이전트의 모든 영속 메모리 시스템이 해 온 주장의 한 버전을 제시합니다. 정체성을 올바른 선언적 메모리 파일에 넣으면 에이전트의 행동은 그와 정렬된 상태로 유지된다는 주장입니다.

그 주장이 틀린 것은 아니지만, ImplicitMemBench는 그것이 얼마나 완전하게 성립하는지에 대해 제게 덜 확신을 가질 이유를 주고 있습니다. SOUL.md는 명시적 선언 기억입니다. 기존 벤치마크가 이미 측정하고 있고, 모델이 이미 잘 해내는 기억 시스템입니다. 모델은 요청 시 그 내용을 회상할 수 있습니다. 그건 쉬운 부분입니다. 더 어려운 질문, 그리고 SOUL.md가 답해 준다고 생각되지 않는 질문은 이것입니다. 명시적 고정점이, 세션이 도구 출력, 인출된 문서, 이전 어시스턴트 턴, 사용자 수정, 그리고 인출 단계 없이 첫 시도 행동을 형성하는 모든 것들로 채워짐에 따라 축적되는 암묵적 점화·조건화·첫 시도 편향을 의미 있게 압도하는가? 저는 모릅니다. 논문은 SOUL.md나 그에 해당하는 정체성 고정 파일을 테스트하지 않으며, 저는 논문이 제 대신 그 질문에 답했다고 주장하고 싶지 않습니다.

여기 우려가 있습니다. 발견이 아니라 가설의 형태로 제시합니다. 만약 SOUL.md에 “간결하고 사실적으로 행동하라”는 정체성을 고정해 놓았는데, 세션이 사용자의 길고 서사적인 스타일의 대화 스레드로 가득 차면, 암묵적 기억 프레이밍은 다음 턴의 첫 시도 행동이 부분적으로 점화에 의해 형성될 것이라 예측합니다. 그동안 명시적 고정점은 회상에 대해서는 여전히 유효하게 남아 있는 채로 말입니다. 점화가 프로덕션에서 평균적으로 실제로 이기는지 — 저는 이 논문으로는 증명할 수 없고, 시도하지도 않겠습니다. 제가 이름 붙이고 있는 SOUL.md 착각이란, 당신이 정체성의 자동 실행이 아니라 정체성의 회상을 고정해 두었을 가능성이며, 그 둘은 같지 않다는 것입니다.

SOUL.md를 쓰지 말라고 말하는 것이 아닙니다. 저는 여전히 SOUL.md를 쓸 것이고, Hermes 가이드도 여전히 그것을 권장할 것입니다. 명시적 선언 기억은 그것이 잘 해내는 영역에서 여전히 핵심 역할을 하기 때문입니다. 제가 말하고 있는 것은 — 명확히 저의 외삽이라고 라벨을 붙이겠습니다 — 에이전트가 실수를 반복하지 않고, 최근에 본 스타일 쪽으로 흘러가지 않고, 의도하지 않은 점화 신호에 의해 과업에서 벗어나지 않는 것에 의존하는 무언가를 만들고 있다면, 저는 신뢰성 예산을 SOUL.md 하나에 걸지 않겠고, SOUL.md를 더 길게 쓰거나 더 구체적으로 만드는 것이 그것을 해결해 준다고 가정하지도 않겠다는 것입니다. 논문은 “파라미터 스케일링을 넘어서는 아키텍처적 혁신”이라는 표현을 사용하는데,1 저는 이것을 벤치마크가 측정하는 격차를 프롬프트 엔지니어링 완화책이 메우지 못할 것이라는 약한 증거로 — 조심스럽게 — 읽고 있습니다. 논문 자체는 프롬프트 엔지니어링 완화책을 테스트하지 않으므로, 그것들이 실패한다는 것을 증명했다고 말할 수는 없습니다. 저는 단지 그것들이 작동할 것이라는 확신을 논문이 주지 않는다고 말할 수 있을 뿐입니다.

논문이 말하지 않는 것 (그리고 제가 덧붙이는 것)

이 논문은 벤치마크 논문입니다. 격차를 측정하고, 수치화하고, 그 격차가 아키텍처적이라고 주장합니다. 논문은 구체적인 하네스 수준의 완화책을 처방하지 않으며, 구체적인 프로덕션 에이전트 시스템에 대해 어떤 주장도 하지 않습니다. 이 섹션의 모든 내용은 저의 프레이밍이며, 논문의 것이 아닙니다.

함의 1: 컨텍스트 윈도우의 모든 토큰은 인컨텍스트 행동 영향력이다. 암묵적 기억 프레이밍이 벤치마크 밖에서도 성립한다면 — 그리고 저는 지금 보고가 아니라 추측을 하고 있습니다 — 도구 호출, 인출된 문서, 중간 응답으로부터 컨텍스트 윈도우에 들어오는 모든 토큰은 다음 턴의 첫 시도 행동을 형성하고 있으며, 명시적 프롬프트를 읽는 것만으로는 깔끔하게 감사할 수 없는 방식으로 그렇게 합니다. 저는 이전에 silent egress 공격 표면(주입된 지시를 담고 있는 신뢰할 수 없는 도구 출력)과 당신이 검증하지 않은 중개자를 에이전트가 가지고 있다는 것(당신의 클라이언트와 모델 사이에 있는 신뢰할 수 없는 LLM API 라우터)에 대해 쓴 적이 있습니다. 두 글 모두 암묵적 기억을 인과적 메커니즘으로 주장하지 않았습니다. 프롬프트 주입과 공급망 손상을 메커니즘으로 주장했습니다. ImplicitMemBench는 왜 그 공격들이 그런 방식으로 작동하는지에 대한 가능한 추가 렌즈를 제공합니다. 적대적 도구 출력이나 손상된 라우터가 에이전트에게 무엇을 하라고 명시적으로 “말하지” 않더라도, 그것이 반환하는 내용이 에이전트의 다음 결정을 점화하고 있을 수 있다는 것입니다. 이것은 ImplicitMemBench와 일관된 가설이지, 논문이 보고하는 발견이 아닙니다.

함의 2: 세션 길이는 비용 위험일 뿐 아니라 신뢰성 위험일 수 있다. 민속지학적 관찰은 에이전트가 긴 세션에 걸쳐 점점 나빠진다는 것이고, 민속지학적 설명은 컨텍스트 윈도우 압력입니다. ImplicitMemBench는 전혀 세션 길이 연구가 아닙니다. 이것은 Learning/Priming-Interfere-Test 프로토콜 하의 300개 항목 첫 시도 채점 벤치마크이며,1 “프로덕션 세션에서 30턴에 걸쳐 무슨 일이 일어나는가”와는 다른 것을 측정합니다. 저는 그것이 프로덕션 세션에 직접 매핑된다고 주장하고 싶지 않습니다. 제가 — 가설로서 — 제시하고 있는 것은, 논문이 이름 붙이는 메커니즘(인출 없이 첫 시도 결정에 내려앉는 암묵적 점화와 고전적 조건화)이 민속지학적 드리프트에 대한 후보 대안 설명이라는 것이며, 논문이 그 프레임에서 이를 테스트하지 않더라도 진지하게 받아들일 가치가 있다는 것입니다. 그동안의 저의 운영 규칙은 이것입니다. 컨텍스트 윈도우가 허용하는 것보다 짧게 세션을 운영하라. 허용하는 만큼 길게 가지 말라. 진짜 메커니즘이 무엇으로 밝혀지든, 이것은 저렴한 보험입니다.

함의 3: “정적 스킬은 죽은 스킬”이라는 주장에는 각주가 필요하다. 저는 이번 주 초 Static Skills Are Dead Skills를 썼고, 궤적 피드백 루프를 구축하지 않는 한 스킬은 출시되는 순간 개선을 멈춘다고 주장했습니다. 그 주장은 실패 양상이 부재라고 가정했습니다. 집계의 부재, 패턴 탐지기의 부재, 진화기의 부재. ImplicitMemBench를 그 이전 글과 대조해 읽으면서, 그 위에 겹쳐 놓일 수 있는 두 번째 실패 양상을 표시해 두고 싶습니다. 궤적 기반 스킬 업데이트가 있더라도, 첫 시도 행동이 암묵적 기억 계층에 더 가까이서 작동하는 무언가에 의해 주도되고 있다면 스킬 파일(명시적 선언 기억)에 내려앉는 업데이트는 첫 시도 자동 행동으로 깔끔하게 전파되지 않을 수 있습니다. 저는 그것이 그렇다고 확신하지 않습니다. 논문은 스킬 업데이트를 테스트하지 않으니까요. 하지만 이것은 제가 이전 글을 쓸 때 가지지 않았던 우려이고, 결론이 아닌 우려로서 표시해 둡니다.

함의 4: 에이전트 품질의 측정 문제가 더 어려워지고 있을 수 있다. 대부분의 기존 에이전트 평가는 기능적 과제 완수(에이전트가 문제를 풀었는가) 아니면 명시적 사실 회상(에이전트가 당신이 말해 준 것을 기억했는가)을 측정합니다. ImplicitMemBench는 자체 프로토콜 위에서 세 번째 차원을 도입합니다. 암묵적 점화 하의 첫 시도 자동 행동 말입니다. 그 차원이 프로덕션에서 중요한 것으로 판명된다면 — 저는 모르고, 논문은 테스트하지 않습니다 — 에이전트 작업에 대한 어떤 진지한 품질 루프든 그것을 위한 측정 훅이 필요하며, 오늘날 대부분의 루프에는 그런 것이 없습니다. 저는 그것을 다른 사람에 대한 처방이 아니라 저 자신의 품질 시스템을 위한 TODO로 취급하고 있습니다.

실제로 무엇을 해야 하는가

이 섹션의 어느 것도 논문에 의해 처방되거나 테스트된 것이 아닙니다. 이것은 저의 해석이며, 제 이전 주장들로부터 앞으로 나아가면서 ImplicitMemBench를 하나의 추가 증거로 사용해, 현재 하네스에 대해 작업하는 실무자에게 그 발견이 시사하는 바가 무엇인지 읽어 내는 것입니다. 그에 맞게 라벨을 붙여 주십시오.

명시적 고정점이 충분하다는 가정을 멈춰라. SOUL.md, AGENTS.md, CLAUDE.md, 메모리 파일은 계속 작성하되, 필요조건이지만 충분조건은 아닌 것으로 취급하십시오. 제가 업데이트하고 있는 것은 “시스템 프롬프트에 있다면 유효하다”는 저 자신의 기본 가정입니다. 논문은 그 가정을 테스트하지 않습니다. 논문은 인접한 질문을 테스트하고, 어제까지보다 제 가정을 더 느슨하게 잡고 싶게 만드는 점수를 보고합니다.

세션을 의도적으로 짧게 가져가라. 민속지학적 관찰은 에이전트가 긴 세션에 걸쳐 점점 나빠진다는 것입니다. 제가 사용해 온 민속지학적 설명은 “컨텍스트 압력”입니다. ImplicitMemBench는 세션 길이에 대한 연구가 아닙니다. 이것은 장기 실행되는 프로덕션 세션이 아닌, 통제된 Learning/Priming-Interfere-Test 프로토콜을 사용합니다.1 하지만 이 논문이 이름 붙이는 메커니즘(인출 없이 내려앉는 암묵적 점화와 고전적 조건화)은 그 민속지학에 대한 후보 대안 설명입니다. 제가 채택하고 있는 운영 규칙은 이렇습니다. 세션이 표류하고 있을 때, 더 많은 명시적 수정으로 싸우지 말고 /new로 세션을 초기화하고 새로 시작하라. 드리프트가 컨텍스트 윈도우 압력이든, 암묵적 점화이든, 다른 무엇이든, 깨끗한 세션은 실제 원인이 무엇이든 그것을 리셋해 줍니다.

억제는 프롬프트에서 강제하기 어려운 것으로 취급하라. 에이전트가 무언가를 하지 않게 하고 싶다면, 하지 말라고 말해 두었다는 것에 의존하지 마십시오. 구조적 가드를 만드십시오. 린터, 사전 도구 훅, 샌드박스 정책, 호출을 거부하는 도구처럼, 금지를 코드 계층에서 강제하는 것 말입니다. 저의 Jiro 품질 루프 주장은 하드 게이트가 어떤 이유로든 모델 바깥에 있어야 한다는 것이었고, 저는 이 논문 이전에 이미 그 입장을 가지고 있었습니다. ImplicitMemBench는 제가 해 온 주장과 일관된 구체적인 패턴(17.6% 집계 억제 수치1)을 추가합니다. 논문 자체는 프롬프팅이나 에이전트 하네스를 테스트하지 않지만, 저는 그것이 그 입장을 증명했다고 과장하고 싶지는 않습니다.

컨텍스트를 토큰 수가 아니라 무엇을 점화하는가의 관점에서 감사하라. 토큰 수는 모두가 가진 측정치입니다. 암묵적 점화 프레이밍이 유용한 렌즈라면 — 그리고 저는 이것을 결론난 결과가 아니라 테스트해 보고 싶은 가설로 취급하고 있습니다 — 서사적 사용자 페르소나 내용으로 가득한 20k 토큰 컨텍스트는 구조화된 코드로 가득한 60k 토큰 컨텍스트보다 첫 시도 행동을 서사적 출력 쪽으로 더 많이 형성할 수 있습니다. 저는 그런 종류의 내용-축 감사를 위한 도구를 아직 가지고 있지 않고, 아무도 가지고 있다고 확신하지 못합니다. 최소 실행 가능 버전은 이것입니다. 최근 세션을 들여다보고 “이 컨텍스트를 읽는 인간은 무엇을 향해 점화될까?” 하고 물어보는 것. 그 질문이 에이전트 행동을 실제로 예측해 주는지는 경험적인 문제이며, 저는 논문이 그것을 결정해 주는 것처럼 꾸미지 않겠습니다.

최종 결과가 아니라 첫 시도 성향을 로깅하라. 스킬에 대해 어떤 형태로든 궤적 캡처를 운영하고 있다면, “에이전트가 처음 시도한 것”과 “수정 뒤에 에이전트가 안착한 것”을 분리하십시오. ImplicitMemBench의 첫 시도 채점 프로토콜1은 왜 그 분리가 중요한지에 대한 방법론적 주장입니다. 최종 성향은 에이전트에 수정 루프를 더한 것을 측정하지만, 첫 시도는 외부 피드백 이전에 에이전트가 실제로 만들어낸 것을 측정합니다. 사용자 경험이 첫 응답이 제대로 안착하느냐에 달려 있는 품질 루프라면 첫 시도 수치가 필요하며, 오늘날 그것을 별도로 로깅하는 시스템은 거의 없습니다.


FAQ

ImplicitMemBench는 특정 에이전트 하네스를 테스트합니까?

아닙니다. 이 논문은 첫 시도 채점을 적용한 Learning/Priming-Interfere-Test 프로토콜 하의 300개 항목 벤치마크에서 17개의 LLM을 직접 테스트합니다.1 이것은 하네스 벤치마크가 아닙니다. Claude Code, Cursor, Codex, Hermes, 또는 어떤 프로덕션 에이전트 루프도 평가하지 않습니다. 제가 이 글에서 벤치마크 결과로부터 에이전트 하네스 프로덕션 행동으로 그리는 매핑은 저의 확장이며, 글 전반에 그렇게 라벨이 붙어 있고, 논문의 발견이 아닙니다.

17.6% 대 75.0%의 비대칭성은 모델별 결과입니까, 아니면 집계입니까?

초록은 이 비대칭성을 모델 전체에 걸친 전반적인 벤치마크 결과에 대한 저자들의 분석의 일부로 묘사하며, “보편적 병목”의 증거로 라벨링합니다.1 저는 이것을 테스트된 17개 모델 전반에 걸쳐 일관되게 나타나는 비대칭성으로 읽고, 구체적인 숫자는 집계 패턴을 반영하는 것으로 봅니다. 초록은 모델별 분해를 공개하지 않으며, 저는 그것을 만들어 내지 않을 것입니다. 전체 모델별 분해는 논문이 출처입니다.

이것이 기존 벤치마크보다 프로덕션 에이전트에 왜 더 중요할 수 있습니까?

여기에는 부분적 유보가 있습니다. ImplicitMemBench 자체는 다단계 프로토콜(Learning/Priming-Interfere-Test)을 사용합니다.1 따라서 이 벤치마크가 “원샷”이라는 것은 아닙니다. 저는 벤치마크에 대한 흔한 부주의한 표현을 반복하고 싶지 않습니다. 제게 표시할 만하다고 — 논문의 발견이 아니라 실무자로서의 추측으로 — 보이는 것은, 사람들이 보는 대부분의 다른 에이전트 평가는 기능적 과제 완수나 명시적 사실 회상을 측정하며, 둘 다 모델에게 유리하다는 점입니다. 이 논문이 보고하는 암묵적 기억 격차가 자체 프로토콜을 넘어서 실재한다면(저는 그것이 그런지 알지 못합니다), 그런 다른 평가들은 사용자가 장기 실행 세션에서 실제로 경험하는 프로덕션 행동의 한 차원을 놓치고 있는 것입니다. 저는 이것을 결론이 아니라 테스트 가능한 가설로 취급하고 있습니다.

이것이 Hermes 가이드의 SOUL.md 조언과 모순됩니까?

아닙니다. 경계 조건을 추가할 뿐입니다. Hermes 가이드는 SOUL.md를 주요 정체성 고정점으로 권장합니다. 명시적 선언 기억이 잘 해내는 영역, 즉 일관된 정체성 회상, 감사 가능한 버전 관리, 직접 질문 시의 예측 가능한 행동에서 여전히 핵심 역할을 하기 때문입니다. Hermes 가이드가 다루지 않은 것은 — 이 논문이 나오기 전까지는 그것을 측정할 수 있는 것이 아무것도 없었기 때문입니다 — 명시적 정체성 고정점이 점화와 고전적 조건화 하에서 첫 시도 자동 행동으로 자동으로 전파되지는 않는다는 점입니다. 당신은 여전히 SOUL.md를 원합니다. 그리고 그 바깥에 구조적 가드도 원하게 됩니다.

프롬프트 엔지니어링이 이 중 어느 것이라도 고칠 수 있습니까?

솔직한 답은 논문이 프롬프팅을 완화 전략으로 테스트하지 않으므로, 논문의 권위에 기대어 답할 수는 없다는 것입니다. 제가 할 수 있는 말은 이것입니다. 저자들은 그 격차를 “파라미터 스케일링을 넘어서는 아키텍처적 혁신을 요구하는” 것으로 규정합니다.1 이것은 “더 나은 프롬프트가 도움이 될 것이다”보다 강한 주장이지만, “어떤 프롬프트도 도움이 될 수 없다”와는 같지 않습니다. 구체적으로 억제 쪽(17.6% 집계)에 대해서는, 실무자로서의 직관 — 논문 자체에 비해 할인해서 받아들이십시오 — 모델 바깥의 구조적 가드가 프롬프트 지시보다 더 안전한 베팅이라는 것입니다. 하지만 그건 제 이야기이지 논문의 이야기가 아닙니다.

이것이 요즘 많이 보이는 “메모리 벤치마크” 논문 중 하나입니까?

아닙니다. 그리고 논문은 명시적으로 자신을 그것들과 구별합니다. 초록의 프레이밍은 기존 메모리 벤치마크가 사실의 명시적 회상을 평가한다는 것입니다. 모델에게 사실을 주고, 그것을 회수하라고 요구하는 식입니다. ImplicitMemBench는 전혀 다른 것을 측정하고 있습니다. 인출 단계 없이 일어나는 자동 행동 적응 말입니다.1 그것이 논문의 기여이며, 논문이 ACL 2026 Main Conference에 채택된 이유입니다.1

이것이 에이전트 메모리에 대한 당신의 이전 글들과는 어떻게 맞물립니까?

이 글은 Static Skills Are Dead Skills의 직접적인 동반 글입니다. 그 이전 글은 스킬이 살아 있으려면 궤적 집계가 필요하다고 주장했고, 저는 실패 양상이 순수한 부재라고 가정했습니다. 궤적 데이터를 얻고 패턴 탐지기를 운영할 수 있다면 괜찮을 것이라고요. ImplicitMemBench는 그 위에 겹쳐진 두 번째 실패 양상이 있다고 말해 줍니다. 완벽한 궤적 기반 스킬 업데이트가 있어도, 업데이트가 명시적 기억에 내려앉았고 결정은 암묵적 기억에 의해 주도되고 있다면 첫 시도 행동이 업데이트를 반영하지 않을 수 있다는 것입니다. 이전 글은 주장한 내용에 대해 여전히 옳습니다. 이 글은 그 글이 주장할 줄 몰랐던 것에 대한 업데이트입니다.

이것이 측정 산물(artifact)일 수 있습니까?

그럴 수 있습니다. 이 논문은 새로운 것이고 — 2026년 4월 9일 제출, ACL 2026 Main Conference 채택 — 단일 벤치마크는 실제 현상을 측정하는 만큼이나 자기 프로토콜의 산물을 측정할 수 있습니다.1 저는 그렇지 않은 척하지 않겠습니다. 이것이 단지 산물은 아니라고 제가 생각하는 이유는, 이것이 묘사하는 실패 양상 — 선호는 빠르게 강화하면서 실패는 학습 해제하지 못하는 에이전트 — 이 1년이 넘도록 제가 이름 없이 관찰해 온 민속지학이기 때문입니다. 결과의 방향을 실무자가 행동의 근거로 삼기 위해 벤치마크가 완벽하게 보정될 필요는 없습니다.


참고문헌


  1. Chonghan Qin, Xiachong Feng, Weitao Ma, Xiaocheng Feng, Lingpeng Kong, “ImplicitMemBench: Measuring Unconscious Behavioral Adaptation in Large Language Models,” arXiv:2604.08064 [cs.AI], 2026년 4월 9일 제출, ACL 2026 Main Conference 채택. 다음 내용의 주 출처입니다. LLM 에이전트에서의 명시적 기억 대 암묵적 기억의 프레이밍(“LLM 에이전트에 대한 기존 메모리 벤치마크는 사실의 명시적 회상을 평가할 뿐, 경험이 의식적 인출 없이 자동화된 행동으로 변모하는 암묵적 기억은 간과한다”); 벤치마크의 세 가지 인지적 기반 구성물(절차적 기억 = “간섭 이후의 원샷 스킬 습득”; 점화 = “짝지어진 실험/대조 사례를 통한 주제 중심 편향”; 고전적 조건화 = “첫 결정을 형성하는 조건 자극–무조건 자극(CS–US) 연합”); 벤치마크 설계(300개 항목 스위트, 첫 시도 채점을 적용한 통합 Learning/Priming-Interfere-Test 프로토콜); 평가 범위(17개 모델); 구체적인 최상위 수행자 점수(DeepSeek-R1 65.3%, Qwen3-32B 64.1%, GPT-5 63.0%, 전체 66%를 넘는 모델 없음, 모두 “인간 기준선보다 한참 아래”로 묘사); 비대칭성 발견(“극적인 비대칭성(억제 17.6% 대 선호 75.0%)과 파라미터 스케일링을 넘어서는 아키텍처적 혁신을 요구하는 보편적 병목”); 그리고 재구성 표현(“평가를 ‘에이전트가 무엇을 회상하는가’에서 ‘에이전트가 자동으로 무엇을 실행하는가’로 재구성한다”). 이 글의 모든 직접 인용은 출판된 초록에서 가져온 것입니다. 벤치마크 발견이 SOUL.md, AGENTS.md, Claude Code, Hermes, MCP, 그리고 세션 길이 효과를 포함한 프로덕션 에이전트 하네스에 어떻게 적용되는지에 대한 주장은 모두 저 자신의 프레이밍이며, 글 전반에 그렇게 명확히 라벨이 붙어 있고, 논문에 귀속되지 않습니다. 

관련 게시물

The Protege Pattern

A 7B model with sparse expert access matches agents 50x its size. Route routine work to small models and judgment calls …

9 분 소요

The Forgetting Agent: Why Multi-Turn Conversations Collapse

LLMs degrade 39% in multi-turn use across 200K conversations. Three mechanisms drive the collapse, and longer context wi…

16 분 소요