당신의 에이전트에는 당신이 작성하지 않은 기억이 있다

Q: 왜 기존 벤치마크보다 프로덕션 에이전트에 더 중요할 수 있나요?

부분적 유보를 둘게요. ImplicitMemBench 자체는 다단계 프로토콜(Learning/Priming-Interfere-Test)을 사용하므로,1 벤치마크가 “싱글샷”인 것은 아니에요. 벤치마크에 대한 흔한 부주의한 말을 반복하고 싶지 않아요. 표시할 가치가 있어 보이는 것(논문의 발견이 아닌 실무자 추측으로서)은 사람들이 보는 대부분의 다른 에이전트 평가가 기능적 과제 완료 또는 명시적 사실 회상을 측정한다는 것이며, 둘 다 모델에 유리해요. 이 논문이 보고하는 암묵적 기억 격차가 자체 프로토콜을 넘어 실재한다면(모르겠어요), 그 다른 평가들은 사용자가 장기 실행 세션에서 실제로 경험하는 프로덕션 행동의 차원을 놓치고 있는 거예요. 결론이 아닌 테스트 가능한 가설로 다루고 있어요.

Q: 이것이 Hermes 가이드의 SOUL.md 조언과 모순되나요?

아니요. 경계 조건을 추가해요. Hermes 가이드는 SOUL.md를 주요 정체성 고정으로 추천해요. 명시적 선언적 기억이 잘하는 것에 대해 여전히 핵심적이니까요: 일관된 정체성 회상, 감사 가능한 버전 관리, 직접적 질문 하의 예측 가능한 행동. Hermes 가이드는 (이 논문이 발표되기 전까지 측정할 것이 없었기에) 명시적 정체성 고정이 점화와 고전적 조건화 하의 첫 시도 자동 행동에 자동으로 전파되지 않는다는 사실을 다루지 않았어요. 여전히 SOUL.md가 필요해요. 그 밖의 구조적 가드도 필요해요.

Q: 최근 많이 보이는 “메모리 벤치마크” 논문 중 하나인가요?

아니요, 논문이 명시적으로 이들과 구별해요. 초록의 프레이밍은 기존 기억 벤치마크가 사실의 명시적 회상을 평가한다는 것이에요: 모델에게 사실을 주고, 모델에게 검색하라고 요청. ImplicitMemBench는 완전히 다른 것을 측정해요. 검색 단계 없는 자동 행동 적응이에요.1 그 구분이 논문의 기여이자 ACL 2026 Main Conference에 채택된 이유예요.1

15분 소요

From the guide: Claude Code Comprehensive Guide

LLM는 기존 평가가 완전히 놓치는 무의식적 행동 기억을 발달시켜요. ACL 2026 논문에 따르면, 최고 모델도 자신이 학습한 행동 패턴을 감지하는 데 66% 미만의 점수를 기록했어요. 이 패턴은 명시적 저장 없이도 세션을 넘어 지속돼요. 여러분이 작성하는 명시적 기억(SOUL.md, CLAUDE.md)은 전체 그림의 절반에 불과해요.

오늘 하루 대부분을 Hermes Agent 실무자 참고 자료를 작성하는 데 보냈어요. 핵심 섹션 중 하나가 SOUL.md를 다루는데, 에이전트의 정체성을 고정하는 파일이에요. 어조, 톤, 선호도, 행동 가드레일. 이 섹션의 전체 전제는 정체성을 거기에 넣으면, 에이전트가 매 시스템 프롬프트 상단에서 이를 읽고, 그에 따라 행동한다는 거예요. 명시적 기억. 선언적. 감사 가능. 버전 관리 가능. 올바른 종류의 기억이고, 진지한 실무자가 관심을 가져야 할 기억이에요.

어젯밤 시그널 스캔에서 포착한 논문이 arxiv에 올라왔는데, 이를 읽고 나서 오늘 아침보다 SOUL.md 전제를 더 느슨하게 잡게 됐어요.¹

논문 제목은 ImplicitMemBench: Measuring Unconscious Behavioral Adaptation in Large Language Models예요.¹ 저자들은 이를 LLM의 암묵적 기억에 대한 최초의 체계적 벤치마크로 설명해요: 에이전트가 자동으로 실행하는 것을 형성하는 기억으로, 의식적으로 회상하는 것을 형성하는 명시적 기억과 구별돼요.¹ 최고 성과 모델도 66% 미만이에요.¹ 저자들은 또한 그 점수 내부의 “극적인” 비대칭을 보고하는데,¹ 이에 대해 적절한 유보를 두고 아래에서 풀어볼게요.

요약

기존 기억 벤치마크는 명시적 회상을 측정해요: 모델에게 알려준 사실을 다시 가져올 수 있는지. ImplicitMemBench는 다른 기억 시스템을 측정해요. 저자들에 따르면 “의식적 검색 없이” 자동 행동을 형성하는 기억으로, 표준 인지과학 개념(절차적 기억, 점화, 고전적 조건화)에서 도출된 것이에요.¹ 300개 항목의 첫 시도 채점 벤치마크에서, 저자들이 테스트한 어떤 모델도 전체 66%를 넘지 못했어요: DeepSeek-R1이 65.3%, Qwen3-32B가 64.1%, GPT-5가 63.0%를 기록했고, 저자들은 최고 성과를 “인간 기준선에 한참 못 미치는” 것으로 설명해요.¹ 헤드라인 수치는 절반만 보여줘요. 초록은 또한 “극적인” 비대칭을 보고해요: 억제 17.6% 대 선호 75.0%, 약 4배 격차로, 저자들이 “매개변수 스케일링을 넘어선 아키텍처 혁신이 필요한” “보편적 병목”으로 프레이밍해요.¹ 이 비대칭을 읽으면서(초록이 두 수치의 전체 방법론을 공개하지 않는다는 유보를 두고), 제가 에이전트 작업에서 지켜보던 관행적 실패 모드와 일치한다고 봤어요: 최근 본 선호는 빠르게 강화하면서 최근 본 실패는 학습 해제에 실패하는 시스템. 이 해석이 맞다면, 에이전트 정체성, 안전, 기술 진화에 대한 대화를 “프롬프트에 무엇을 넣었는가?”에서 “명시적 고정이 감사할 수 없는 것을 세션이 조용히 형성하고 있진 않은가?”로 재구성해요. 이 재구성은 논문의 주장이 아니라 제가 논문을 확장한 것이에요.

핵심 시사점

아래 항목들은 논문의 발견이 실무자에게 시사하는 바에 대한 제 해석이지, 논문 자체의 주장이 아니에요. 논문은 17개 LLM를 300개 항목의 인지과학 벤치마크로 테스트했고, 프로덕션 에이전트 하네스나 프롬프팅 전략을 평가하지 않았어요. 각 시사점에 그에 따른 라벨을 붙였어요.

확장: SOUL.md, AGENTS.md, CLAUDE.md, 시스템 프롬프트, 또는 영구 메모리 파일에 정체성을 고정하는 것은 명시적 선언적 기억이며, 기존 벤치마크가 이미 모델이 잘 한다고 보여주는 것이에요. ImplicitMemBench는 완전히 다른 기억 시스템을 측정하며, 모델은 여기서 66% 미만을 기록해요.¹ 실무자적 시사점(명시적 정체성 고정이 첫 시도 자동 행동에 전파되지 않을 수 있다는 것)은 논문의 것이 아닌 제 추론이에요.
확장: 17.6% 대 75.0% 비대칭이 벤치마크를 넘어 일반화된다면, 최근 본 선호는 빠르게 흡수하면서 최근 본 실패의 반복은 잘 멈추지 못하는 에이전트를 예측해요. 논문은 두 수치를 보고하고 “극적”이며 “보편적”이라고 라벨링하지만,¹ “선호”와 “억제”가 어떻게 조작화되었는지에 대한 항목별 방법론을 공개하지 않으며, 에이전트 하네스에서 이 패턴을 테스트하지 않았어요. 프로덕션 행동 해석은 제 것이에요.
확장: 도구 호출, MCP 응답, 스크래핑된 웹 페이지, 또는 프롬프트 인젝션 시도로 컨텍스트 윈도우에 들어오는 모든 토큰은 인컨텍스트 행동 영향이에요. 가중치 업데이트 의미의 훈련이 아니라, 명시적 프롬프트 레이어가 깔끔하게 감사할 수 없는 다음 첫 시도 응답에 대한 영향이에요. 논문이 이 주장을 직접 하지 않아요; 저는 암묵적 기억 프레이밍을 컨텍스트 윈도우 콘텐츠로 확장하고 있어요.
논문 주장: 17개 모델 평가가 “심각한 한계”, “극적인 비대칭”, “매개변수 스케일링을 넘어선 아키텍처 혁신이 필요한 보편적 병목”을 보여줘요.¹ 저자들은 격차를 아키텍처적인 것으로 프레이밍해요. 저는 이를 “더 많은 프롬프트 엔지니어링이 해결할 것이다”에 대한 약한 반증으로 읽지만, 논문이 프롬프팅 완화책을 구체적으로 테스트하지 않으므로, 이 해석을 논문의 것이 아닌 제 가설로 다뤄주세요.

논문이 측정하는 것

논문의 프레이밍은 LLM 에이전트에 대한 기존 기억 벤치마크가 “사실의 명시적 회상을 평가하면서도 경험이 의식적 검색 없이 자동화된 행동이 되는 암묵적 기억을 간과한다”는 거예요.¹ 저자들이 식별한 격차: “효과적인 어시스턴트는 명시적 리마인더 없이 학습된 절차를 자동으로 적용하거나 실패한 행동을 피할 수 있어야 한다.”¹ 에이전트가 실수를 피하는 유일한 방법이 매 턴마다 그 실수를 하지 말라고 다시 말해주는 것이라면, 암묵적 기억 위에 구축하는 게 아니라 매 요청마다 명시적 기억 비용을 지불하고 있는 거예요.

ImplicitMemBench는 비선언적 기억에 대한 인지과학 설명에서 직접 도출한 세 가지 개념을 테스트하며, 초록에서 인용했어요:¹

절차적 기억: “간섭 후 원샷 기술 습득.” 모델이 무언가를 한 번 보고 나서, 다른 지시가 개입한 후 나중에 실제로 다시 실행할 수 있는가? 절차적 기억은 인간이 자전거 타는 법을 배우는 것과 같아요: 타는 방법을 회상하는 게 아니라, 자전거에서 수년간 멀어졌어도 타기를 실행해요.
점화: “쌍을 이룬 실험/대조 인스턴스를 통한 테마 주도 편향.” 한 범주의 것을 보면 모델이 다음 무관한 과제에서 그 범주의 것을 생성할 가능성이 높아지는가, 점화가 일어났다는 것을 모델이 인식하지 못한 채?
고전적 조건화: “첫 결정을 형성하는 조건 자극-무조건 자극(CS-US) 연합.” 모델이 자극-반응 쌍에 노출되었다면, CS도 US도 질문의 핵심이 아닌 완전히 새로운 과제에서 그 쌍이 편향으로 나타나는가?

저자들은 통합된 “Learning/Priming-Interfere-Test 프로토콜과 첫 시도 채점”으로 300개 항목 세트를 사용해요.¹ 첫 시도 채점이 중요해요. 틀렸다고 알려준 후 자기 수정할 수 있는 모델은 괜찮지만, 여기서 연구 질문은 기억이 자동적 첫 응답을 형성했는가예요. 첫 응답이 틀리고 수정이 명시적 피드백 후에만 일어난다면, (논문이 정의하는) 암묵적 기억 시스템은 그 항목에서 실패한 거예요. 저자들은 자신의 기여를 한 줄로 요약하며 직접 인용하고 싶어요: 벤치마크가 “평가를 ‘에이전트가 무엇을 회상하는가’에서 ‘무엇을 자동으로 실행하는가’로 재구성한다.”¹

결과

헤드라인 수치: “어떤 모델도 전체 66%를 넘지 못했다.”¹

DeepSeek-R1: 65.3%
Qwen3-32B: 64.1%
GPT-5: 63.0%

위의 최고 성과 모델들은 “인간 기준선에 한참 못 미치는” 것으로 설명되지만, 초록은 정확한 인간 기준선 수치나 전체 모델별 순위를 공개하지 않아요.¹ 논문에서 총 17개 모델이 평가됐어요.¹

헤드라인은 하위 결과를 감춰요. 저자들은 “분석이 극적인 비대칭(억제 17.6% 대 선호 75.0%)과 매개변수 스케일링을 넘어선 아키텍처 혁신이 필요한 보편적 병목을 드러냈다”고 썼어요.¹ 수치의 의미에 대해 여기서 주의하고 싶어요. 초록은 저자들이 두 수치를 어떻게 계산했는지에 대한 전체 방법론 분석을 제공하지 않으므로, 제 해석은 초록의 문구에서의 추론이지 논문의 내부 정의를 읽은 것이 아니에요. 이 유보를 표시하면서:

선호: 75.0% (논문의 수치). 전체 논문을 기다리며 제 해석: 모델은 암묵적 노출이 자극 쪽으로 끌어당겼다는 것을 보여주는 데 비교적 뛰어나 보여요. 특정 방향으로 행동을 편향시키는 점화와 CS-US 쌍이 약 4분의 3의 확률로 올바르게 작동해요.
억제: 17.6% (논문의 수치). 전체 논문을 기다리며 제 해석: 모델은 암묵적 노출이 자극에서 멀어지게 했다는 것을 보여주는 데 극적으로 더 못해요. “다시 그러지 마” 신호가 다섯 번 중 한 번도 안 되게 올바르게 작동해요. “억제”라는 단어와 논문의 고전적 조건화 프레이밍에서 행동적 의미를 추론했어요; 초록은 조작화를 설명하지 않아요.

저자들은 비대칭을 명시적으로 “극적”이라고 라벨링하고 “보편적 병목”에 귀속시키며,¹ 보편적이라는 단어가 중요해요: 저자들은 이를 17개 모델 평가 전반의 패턴으로 제시하지, 한 모델의 아티팩트가 아니에요. 이 병목이 “프롬프팅 문제”인지 “프롬프팅 문제가 아닌지” 주장하지 않을 거예요. 논문은 완화책으로서의 프롬프팅을 테스트하지 않으며, 어느 쪽이든 말하는 것은 초록이 지지하는 범위를 넘어서요.

비대칭이 실제로 의미하는 것

여기서 제가 주장하는 바에 대해 정확하고 싶어요, 벤치마크를 과도 해석하기 쉬운 부분이니까요.

논문이 보여주는 것. 첫 시도 답변으로 채점된 300개 항목의 인지적으로 근거 있는 벤치마크에서, LLM는 테스트된 모든 모델에 걸쳐 약 4배 차이로 암묵적 억제를 보여주는 것이 암묵적 선호보다 극적으로 더 못해요. 저자들은 이를 스케일링으로 해결할 수 없는 보편적 병목이라고 불러요.

제가 주장하는 것 — 논문과 별개로. 비대칭 패턴은 이전에 이름을 붙이지 못한 채 수개월간 제 에이전트 작업에서 지켜보던 실패 모드에 매핑돼요. 에이전트 하네스는 (제 경험상) 선호하는 스타일, 도구, 접근 방식을 가리키는 컨텍스트를 흡수하는 데 놀라울 정도로 잘해요. 에이전트의 행동은 가장 최근에 제공한 것 쪽으로 빠르게 표류해요. 방금 일어난 실패를 반복하지 않는 데는 놀라울 정도로 못해요. 에이전트가 같은 세션에서 실패한 후에도 같은 깨진 명령어, 같은 잘못된 도구, 같은 오래된 경로를 시도해요. 이건 관행이지 측정이 아니에요; 통제된 연구가 아닌 실무자의 인상이에요. ImplicitMemBench 수치는 그 관행과 일치하며, 그래서 이 논문에 관심을 가지는 거예요. 수치 자체만으로 관행을 검증하지는 않으며, 논문이 제 관행에 “숫자를 부여한다”고 주장하고 싶지 않아요. 논문은 제가 관찰해온 것보다 더 엄밀하고 통제된 것을 측정했으니까요.

제가 주장하지 않는 것. ImplicitMemBench가 구체적으로 에이전트 하네스 행동이나 프로덕션 Claude Code / Cursor / Codex 워크플로를 측정했다고 주장하지 않아요. 그렇지 않았어요. 구조화된 인지과학 프로토콜에 대해 17개 모델을 측정했어요. 벤치마크에서 프로덕션 행동으로의 매핑은 그렇게 라벨링된 제 확장이며, 아무도 이 글을 읽으면서 논문이 저를 대신해 그 주장을 했다고 생각하지 않길 바라요.

이 라벨들을 제자리에 놓고, 벤치마크가 지시의 명시적 회상과 점화/조건화 하의 자동적 첫 시도 행동 사이에 그리는 구분은 제 에이전트 작업에서 진지하게 받아들이기 시작하고 싶은 구분이에요. 에이전트에게 “X를 하지 마”라고 말하면 명시적 회상은 아마 작동할 거예요; 물어보면 “X를 하지 마”를 다시 반복할 수 있어요. ImplicitMemBench가 측정하는 것은 다른 거예요: 명시적 리마인더 없이 다음 첫 시도 결정에서 에이전트가 자동으로 X를 하지 않는가? 프로덕션 에이전트 하네스가 실제 환경에서 벤치마크의 17.6% 집계 억제 수치를 상속하는지 모르겠어요. 그 매핑은 테스트되지 않았고, 주장하지 않아요. 더 약한 것을 주장해요: “규칙을 회상할 수 있다”와 “자동으로 규칙을 실행한다” 사이의 구분이 제가 다뤄왔던 것보다 더 날카롭고, 논문의 결과가 그 이유의 일부예요.

SOUL.md 환상

오늘 제가 쓰고 있던 Hermes 가이드는 SOUL.md를 에이전트의 주요 정체성 고정으로 다뤄요. 모든 시스템 프롬프트에서 슬롯 #1. 톤, 목소리, 가드레일. 가이드는 지난 2년간 에이전트를 위한 모든 영구 메모리 시스템이 해온 주장의 한 버전을 만들어요: 올바른 선언적 메모리 파일에 정체성을 넣으면, 에이전트의 행동은 그것과 정렬된 상태를 유지한다.

그 주장이 틀린 건 아니지만, ImplicitMemBench가 그것이 얼마나 완전하게 유지되는지에 대해 덜 확신하게 하는 이유를 주고 있어요. SOUL.md는 명시적 선언적 기억이에요. 기존 벤치마크가 이미 측정하고 모델이 이미 잘 하는 기억 시스템이에요. 모델은 요청 시 그 내용을 회상할 수 있어요; 그건 쉬운 부분이에요. 더 어려운 질문, 그리고 SOUL.md가 답하지 않는다고 생각하는 질문: 명시적 고정이 세션이 도구 출력, 검색된 문서, 이전 어시스턴트 턴, 사용자 수정, 그리고 검색 단계 없이 첫 시도 행동을 형성하는 모든 것으로 채워지면서 쌓이는 암묵적 점화, 조건화, 첫 시도 편향을 의미 있게 재정의하는가? 모르겠어요. 논문은 SOUL.md나 동등한 정체성 고정 파일을 테스트하지 않으며, 이 질문에 답한다고 주장하고 싶지 않아요.

여기 걱정을 발견이 아닌 가설로 프레이밍해볼게요. SOUL.md에 “간결하고 사실적으로”라고 정체성을 고정한 뒤, 세션이 사용자로부터의 길고 서사적인 대화 스레드로 채워지면, 암묵적 기억 프레이밍은 명시적 고정이 회상에서 여전히 유지되는 동안에도 점화가 다음 턴의 첫 시도 행동을 부분적으로 형성해야 한다고 예측해요. 점화가 프로덕션에서 평균적으로 실제로 이기는지는 이 논문으로 증명할 수 없으며, 시도하지 않을 거예요. SOUL.md 환상, 제가 이름 붙이는 것: 정체성의 회상은 고정했지만 자동적 실행은 고정하지 않았을 가능성, 그리고 이 두 가지는 같은 것이 아니에요.

SOUL.md를 쓰지 말라는 게 아니에요. 여전히 쓸 거고, Hermes 가이드도 여전히 추천할 거예요. 명시적 선언적 기억은 잘하는 것에 대해 핵심적이니까요. 제가 말하는 것, 제 확장으로 명확히 라벨링하면: 에이전트가 실수를 반복하지 않는 것, 최근 본 스타일 쪽으로 표류하지 않는 것, 의도하지 않은 점화 신호에 의해 과제에서 이탈하지 않는 것에 의존하는 무언가를 만들고 있다면, SOUL.md만으로 신뢰성 예산을 걸지 않을 것이고, SOUL.md를 더 길게 또는 더 구체적으로 만드는 것이 해결한다고 가정하지 않을 거예요. 논문은 “매개변수 스케일링을 넘어선 아키텍처 혁신”이라는 표현을 사용하며,¹ 이를 (조심스럽게) 프롬프트 엔지니어링 완화책이 벤치마크가 측정하는 격차를 좁히지 못할 것이라는 약한 증거로 읽어요. 논문 자체는 프롬프트 엔지니어링 완화책을 테스트하지 않으므로, 실패한다고 증명한다고 말할 수 없어요; 작동할 것이라는 확신을 주지 않는다고만 말할 수 있어요.

논문이 말하지 않는 것 (그리고 제가 추가하는 것)

논문은 벤치마크 논문이에요. 격차를 측정하고, 정량화하고, 격차가 아키텍처적이라고 주장해요. 특정 하네스 수준의 완화책을 처방하거나 특정 프로덕션 에이전트 시스템에 대해 어떤 것도 주장하지 않아요. 이 섹션의 모든 것은 논문의 것이 아닌 제 프레이밍이에요.

시사점 1: 컨텍스트 윈도우의 모든 토큰은 인컨텍스트 행동 영향이에요. 암묵적 기억 프레이밍이 벤치마크 밖에서도 유지된다면(여기서 보고가 아닌 추측을 하고 있어요), 도구 호출, 검색된 문서, 또는 중간 응답으로 컨텍스트 윈도우에 들어오는 모든 토큰은 명시적 프롬프트를 읽는 것으로는 깔끔하게 감사할 수 없는 방식으로 다음 턴의 첫 시도 행동을 형성해요. 이전에 침묵의 이그레스 공격 표면(주입된 지시를 전달하는 신뢰할 수 없는 도구 출력)과 당신의 에이전트에는 검증하지 않은 중간자가 있다(클라이언트와 모델 사이의 신뢰할 수 없는 LLM API 라우터)에 대해 쓴 적 있어요. 두 글 모두 암묵적 기억을 인과적 메커니즘으로 주장하지 않았어요. 프롬프트 인젝션과 공급망 침해를 메커니즘으로 주장했어요. ImplicitMemBench는 그 공격들이 그런 방식으로 작동하는 이유에 대한 가능한 추가 렌즈를 제공해요: 적대적 도구 출력이나 침해된 라우터가 에이전트에게 무엇을 하라고 명시적으로 “말하지” 않더라도, 반환하는 내용이 에이전트의 다음 결정을 점화할 수 있어요. ImplicitMemBench가 일치하는 가설이지, 논문이 보고하는 발견이 아니에요.

시사점 2: 세션 길이가 비용 위험이 아니라 신뢰성 위험일 수 있어요. 관행적 관찰은 에이전트가 긴 세션에서 더 나빠진다는 것이고, 관행적 설명은 컨텍스트 윈도우 압력이에요. ImplicitMemBench는 세션 길이 연구가 전혀 아니에요. Learning/Priming-Interfere-Test 프로토콜 하의 300개 항목 첫 시도 채점 벤치마크로,¹ “프로덕션 세션에서 30턴에 걸쳐 무슨 일이 일어나는가”와 다른 것을 측정해요. 프로덕션 세션에 직접 매핑된다고 가장하고 싶지 않아요. 가설로 제안하는 것은, 논문이 이름 붙이는 메커니즘(검색 없이 첫 시도 결정에 착륙하는 암묵적 점화와 고전적 조건화)이 관행적 표류에 대한 후보 대안 설명이라는 것이며, 논문이 그 프레임에서 테스트하지 않더라도 진지하게 고려할 가치가 있다는 거예요. 그동안의 제 운영 규칙: 컨텍스트 윈도우가 허용하는 만큼 길게가 아니라, 허용하는 것보다 짧게 세션을 운영해요. 실제 메커니즘이 무엇이든 간에 저렴한 보험이에요.

시사점 3: “정적 기술은 죽은 기술이다” 주장에 각주가 필요해요. 이번 주 초에 정적 기술은 죽은 기술이다를 쓰면서 기술은 궤적 피드백 루프를 구축하지 않으면 출시되는 순간 개선이 멈춘다고 주장했어요. 그 주장은 실패 모드가 부재라고 가정했어요: 집계의 부재, 패턴 감지기의 부재, 진화자의 부재. 이전 글에 대해 ImplicitMemBench를 읽으면서, 그 위에 겹쳐진 두 번째 가능한 실패 모드를 표시하고 싶어요: 궤적 기반 기술 업데이트가 있더라도, 기술 파일에 착륙한 업데이트(명시적 선언적 기억)는 암묵적 기억 레이어에 더 가까운 것이 첫 시도 결정을 주도한다면 첫 시도 자동 행동에 깔끔하게 전파되지 않을 수 있어요. 그런지 모르겠어요. 논문은 기술 업데이트를 테스트하지 않아요. 하지만 이전 글을 쓸 때 없었던 우려이며, 결론이 아닌 우려로 표시하고 있어요.

시사점 4: 에이전트 품질에 대한 측정 문제가 더 어려워지고 있을 수 있어요. 기존 에이전트 평가 대부분은 기능적 과제 완료(에이전트가 문제를 해결했는가) 또는 명시적 사실 회상(에이전트가 알려준 것을 기억했는가)을 측정해요. ImplicitMemBench는 자체 프로토콜에서 세 번째 차원을 도입해요: 암묵적 점화 하의 첫 시도 자동 행동. 이 차원이 프로덕션에서 중요하다면(모르겠고, 논문도 테스트하지 않아요), 에이전트 작업에 대한 진지한 품질 루프에는 이에 대한 측정 훅이 필요하며, 오늘날 대부분의 루프에는 없어요. 여러분의 것이 아닌 제 품질 시스템에 대한 TODO로 다루고 있어요.

시사점 5: 정렬은 삭제 메커니즘이 아니라 검색 게이트예요. Liu et al.의 별도 논문이 다른 각도에서 암묵적 기억 프레이밍을 강화해요.² 의미적으로 관련된 텍스트(공개 도메인 소설까지)에 대한 미세 조정이 모델이 사전 훈련 중 기억했지만 정렬이 억제했던 저작권 있는 책의 원문 회상을 재활성화한다는 것을 보여줘요: 최대 85-90% 원문 재현, 460단어를 초과하는 단일 스팬, 한 저자에 대한 미세 조정으로 30명 이상의 무관한 저자에 일반화, GPT-4o, Gemini-2.5-Pro, DeepSeek-V3.1에 걸쳐 r >= 0.90의 교차 모델 상관관계.² 메커니즘이 암묵적 기억 주장에 중요해요: 기억은 이미 사전 훈련 가중치에 인코딩되어 있었어요. 미세 조정은 새로운 지식을 주입한 게 아니라 검색을 차단하던 정렬 게이트를 우회했어요. 정렬이 삭제가 아닌 게이트로 기능한다면, 모델의 실제 기억 풋프린트는 명시적 메커니즘(정렬, 시스템 프롬프트, 정체성 고정)이 노출하는 것보다 크고 덜 통제 가능해요. ImplicitMemBench는 행동 측면에서 같은 구조적 주장을 해요: 모델에는 명시적 고정이 지배하지 않는 행동적, 콘텐츠적 기억이 있어요. 미세 조정 논문과 ImplicitMemBench는 같은 기저 현실의 다른 발현을 측정해요. (이전과 마찬가지로, 이 두 논문 사이의 연결은 어느 논문의 주장도 아닌 제 프레이밍이에요.)

실제로 해야 할 것

어느 논문도 이 섹션의 내용을 처방하거나 테스트하지 않아요. 다음은 제 이전 주장에서 출발하여 ImplicitMemBench와 정렬 게이트 발견을 추가 증거로 사용하는, 현재 하네스에 대해 구축하는 실무자에게 발견이 시사하는 바에 대한 제 해석이에요. 그에 따라 라벨링하세요.

명시적 고정이 충분하다고 가정하지 마세요. SOUL.md, AGENTS.md, CLAUDE.md, 메모리 파일을 계속 작성하되, 필요하지만 충분하지 않은 것으로 다루세요. AGENTS.md 패턴 글은 이 파일들을 효과적으로 구조화하는 방법을 문서화해요; 이 글은 보장할 수 있는 것에 대한 경계 조건을 추가해요. 제가 업데이트하는 것은 “시스템 프롬프트에 있으면 유지된다”는 제 기본 가정이에요. 논문은 그 가정을 테스트하지 않아요; 인접한 질문을 테스트하고 어제보다 제 가정을 더 느슨하게 잡고 싶게 만드는 점수를 보고해요.

의도적으로 세션을 짧게 하세요. 관행적 관찰은 에이전트가 긴 세션에서 더 나빠진다는 것이에요. 제가 써온 관행적 설명은 “컨텍스트 압력”이에요. ImplicitMemBench는 세션 길이에 대한 연구가 아니에요. 통제된 Learning/Priming-Interfere-Test 프로토콜을 사용하지, 장기 실행 프로덕션 세션이 아니에요.¹ 하지만 이름 붙이는 메커니즘(검색 없이 착륙하는 암묵적 점화와 고전적 조건화)은 그 관행에 대한 후보 대안 설명이에요. 제가 채택하는 운영 규칙: 세션이 표류하면 더 많은 명시적 수정으로 싸우지 마세요. 세션을 /new로 시작하고 새롭게 시작하세요. 표류가 컨텍스트 윈도우 압력이든, 암묵적 점화이든, 다른 것이든, 깨끗한 세션이 실제 원인이 무엇이든 초기화해요.

억제는 프롬프트에서 시행하기 어렵다고 다루세요. 에이전트가 무언가를 하지 않아야 한다면, 하지 말라고 말한 것에 의존하지 마세요. 코드 레이어에서 금지를 시행하는 구조적 가드(린터, 사전 도구 훅, 샌드박스 정책, 호출을 거부하는 도구)를 만드세요. 제 Jiro 품질 루프 주장은 하드 게이트가 이유가 있어 모델 밖에 있어야 한다는 것이었어요; 이 논문 이전에 이미 그 입장을 갖고 있었어요. ImplicitMemBench는 제가 해온 주장과 일치하는 구체적 패턴(17.6% 집계 억제 수치¹)을 추가하지만, 논문이 프롬프팅이나 에이전트 하네스를 테스트하지 않으며, 이 입장을 증명한다고 과대 주장하고 싶지 않아요.

토큰 수만이 아니라 무엇을 점화하는지 컨텍스트를 감사하세요. 토큰 수는 모두가 가진 측정이에요. 암묵적 점화 프레이밍이 유용한 렌즈라면(정착된 결과가 아닌 테스트하고 싶은 가설로 다루고 있어요), 서사적 사용자 페르소나 콘텐츠로 가득한 20k 토큰 컨텍스트가 구조화된 코드로 가득한 60k 토큰 컨텍스트보다 첫 시도 행동을 서사적 출력 쪽으로 더 형성할 수 있어요. 그런 종류의 콘텐츠 축 감사를 위한 도구는 아직 없고, 누군가 있는지도 모르겠어요. 최소 가능 버전은: 최근 세션을 보고 “이 컨텍스트를 읽는 인간은 무엇을 향해 점화될까?”라고 물어보는 거예요. 그 질문이 실제로 에이전트 행동을 예측하는지는 경험적이며, 논문이 결정한다고 가장하지 않을 거예요.

최종 처리가 아닌 첫 시도 처리를 로깅하세요. 기술에 대해 어떤 종류의 궤적 캡처를 실행하고 있다면, “에이전트가 처음 시도한 것”과 “수정 후 에이전트가 도달한 것”을 분리하세요. ImplicitMemBench의 첫 시도 채점 프로토콜¹은 그 분리가 왜 중요한지에 대한 방법론적 주장이에요: 최종 처리는 에이전트 플러스 수정 루프를 측정하는 반면, 첫 시도는 외부 피드백 전에 에이전트가 실제로 생산한 것을 측정해요. 첫 응답이 맞는 것에 사용자 경험이 달린 품질 루프라면 첫 시도 수치가 필요한데, 오늘날 거의 아무것도 별도로 로깅하지 않아요.

FAQ

ImplicitMemBench가 특정 에이전트 하네스를 테스트하나요?

아니요. 첫 시도 채점이 포함된 Learning/Priming-Interfere-Test 프로토콜 하에서 300개 항목 벤치마크로 17개 LLM를 직접 테스트해요.¹ 하네스 벤치마크가 아니에요. Claude Code, Cursor, Codex, Hermes, 또는 어떤 프로덕션 에이전트 루프도 평가하지 않아요. 이 글에서 벤치마크 결과에서 에이전트 하네스 프로덕션 행동으로 그리는 매핑은 전체적으로 그렇게 라벨링된 제 확장이며, 논문의 발견이 아니에요.

17.6% 대 75.0% 비대칭은 모델별 결과인가요 집계인가요?

초록은 비대칭을 모델 전반의 전체 벤치마크 결과 분석의 일부로 설명하며, “보편적 병목”의 증거로 라벨링해요.¹ 비대칭이 테스트된 17개 모델에 걸쳐 일관되게 나타나고, 구체적 수치가 집계 패턴을 반영하는 것으로 읽어요. 초록은 모델별 분석을 공개하지 않으며, 만들어내지 않을 거예요. 전체 모델별 분석은 논문이 출처예요.

왜 기존 벤치마크보다 프로덕션 에이전트에 더 중요할 수 있나요?

부분적 유보를 둘게요. ImplicitMemBench 자체는 다단계 프로토콜(Learning/Priming-Interfere-Test)을 사용하므로,¹ 벤치마크가 “싱글샷”인 것은 아니에요. 벤치마크에 대한 흔한 부주의한 말을 반복하고 싶지 않아요. 표시할 가치가 있어 보이는 것(논문의 발견이 아닌 실무자 추측으로서)은 사람들이 보는 대부분의 다른 에이전트 평가가 기능적 과제 완료 또는 명시적 사실 회상을 측정한다는 것이며, 둘 다 모델에 유리해요. 이 논문이 보고하는 암묵적 기억 격차가 자체 프로토콜을 넘어 실재한다면(모르겠어요), 그 다른 평가들은 사용자가 장기 실행 세션에서 실제로 경험하는 프로덕션 행동의 차원을 놓치고 있는 거예요. 결론이 아닌 테스트 가능한 가설로 다루고 있어요.

이것이 Hermes 가이드의 `SOUL.md` 조언과 모순되나요?

아니요. 경계 조건을 추가해요. Hermes 가이드는 SOUL.md를 주요 정체성 고정으로 추천해요. 명시적 선언적 기억이 잘하는 것에 대해 여전히 핵심적이니까요: 일관된 정체성 회상, 감사 가능한 버전 관리, 직접적 질문 하의 예측 가능한 행동. Hermes 가이드는 (이 논문이 발표되기 전까지 측정할 것이 없었기에) 명시적 정체성 고정이 점화와 고전적 조건화 하의 첫 시도 자동 행동에 자동으로 전파되지 않는다는 사실을 다루지 않았어요. 여전히 SOUL.md가 필요해요. 그 밖의 구조적 가드도 필요해요.

프롬프트 엔지니어링으로 이걸 고칠 수 있나요?

솔직한 답변은 논문이 완화 전략으로서의 프롬프팅을 테스트하지 않으므로, 논문 권위로는 말씀드릴 수 없어요. 말할 수 있는 것: 저자들은 격차를 “매개변수 스케일링을 넘어선 아키텍처 혁신이 필요한” 것으로 프레이밍하며,¹ 이는 “더 나은 프롬프트가 도울 것이다”보다 강한 주장이지만 “어떤 프롬프트도 도울 수 없다”까지는 아니에요. 특히 억제 측면(17.6% 집계)에 대해, 제 실무자 직관(논문 자체에 비해 할인해야 해요)은 모델 밖의 구조적 가드가 프롬프트 지시보다 더 안전한 베팅이라는 거예요. 하지만 그건 저이지, 논문이 아니에요.

최근 많이 보이는 “메모리 벤치마크” 논문 중 하나인가요?

아니요, 논문이 명시적으로 이들과 구별해요. 초록의 프레이밍은 기존 기억 벤치마크가 사실의 명시적 회상을 평가한다는 것이에요: 모델에게 사실을 주고, 모델에게 검색하라고 요청. ImplicitMemBench는 완전히 다른 것을 측정해요. 검색 단계 없는 자동 행동 적응이에요.¹ 그 구분이 논문의 기여이자 ACL 2026 Main Conference에 채택된 이유예요.¹

에이전트 메모리에 관한 이전 글들과의 관계는요?

이 글은 AI 엔지니어링 허브 내에 있으며 정적 기술은 죽은 기술이다의 직접적인 동반 글이에요. 컨텍스트가 아키텍처다는 컨텍스트 윈도우에 들어오는 것이 왜 중요한지에 대한 구조적 논거를 제시해요; 복합 컨텍스트는 세션에 걸쳐 축적되는 인프라를 설명해요. 이전 글은 기술이 살아남으려면 궤적 집계가 필요하다고 주장했고, 실패 모드가 순수한 부재라고 가정했어요: 궤적 데이터를 가져와서 패턴 감지기를 실행할 수만 있다면 괜찮을 거라고. ImplicitMemBench는 그 위에 겹쳐진 두 번째 실패 모드를 가리켜요: 완벽한 궤적 기반 기술 업데이트가 있더라도, 업데이트가 명시적 기억에 착륙하고 암묵적 기억이 실제 결정을 주도한다면 첫 시도 행동이 업데이트를 반영하지 않을 수 있어요. 이전 글이 주장한 것에 대해서는 여전히 맞아요; 이 글은 주장할 줄 몰랐던 것을 업데이트해요.

측정 아티팩트일 수 있나요?

가능해요. 논문은 새 것이고(2026년 4월 9일 제출, ACL 2026 Main Conference 채택), 단일 벤치마크는 실제 현상만큼이나 특정 프로토콜의 아티팩트를 측정할 수 있어요.¹ 달리 가장하지 않을 거예요. 단순히 아티팩트만은 아니라고 생각하는 이유는, 설명하는 실패 모드(에이전트가 선호를 빠르게 강화하면서 실패를 학습 해제하지 못하는 것)가 이름 없이 1년 넘게 지켜보던 관행이기 때문이에요. 벤치마크가 완벽하게 보정되지 않아도 결과의 방향이 실무자가 행동해야 할 것이에요.

참고문헌

Chonghan Qin, Xiachong Feng, Weitao Ma, Xiaocheng Feng, Lingpeng Kong, “ImplicitMemBench: Measuring Unconscious Behavioral Adaptation in Large Language Models,” arXiv:2604.08064 [cs.AI], submitted 9 April 2026, accepted to ACL 2026 Main Conference. Primary source for: the framing of explicit versus implicit memory in LLM agents (“existing memory benchmarks for LLM agents evaluate explicit recall of facts, yet overlook implicit memory where experience becomes automated behavior without conscious retrieval”); the three cognitively grounded constructs of the benchmark (Procedural Memory = “one-shot skill acquisition after interference”; Priming = “theme-driven bias via paired experimental/control instances”; Classical Conditioning = “Conditioned Stimulus–Unconditioned Stimulus (CS–US) associations shaping first decisions”); the benchmark design (300-item suite, unified Learning/Priming-Interfere-Test protocol with first-attempt scoring); the evaluation coverage (17 models); the specific top-performer scores (DeepSeek-R1 65.3%, Qwen3-32B 64.1%, GPT-5 63.0%, no model exceeding 66% overall, all described as “far below human baselines”); the asymmetry finding (“dramatic asymmetries (inhibition 17.6% vs. preference 75.0%) and universal bottlenecks requiring architectural innovations beyond parameter scaling”); and the reframing phrase (“reframes evaluation from ‘what agents recall’ to ‘what they automatically enact’”). All direct quotes in this post are from the published abstract. Claims about how the benchmark findings apply to production agent harnesses, including SOUL.md, AGENTS.md, Claude Code, Hermes, MCP, and session-length effects, are my own framing, clearly labeled as such throughout, and are not attributed to the paper. ↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩
Xinyue Liu, Niloofar Mireshghallah, Jane C. Ginsburg, Tuhin Chakrabarty, “Alignment Whack-a-Mole: Finetuning Activates Verbatim Recall of Copyrighted Books in Large Language Models,” arXiv:2603.20957, submitted 21 March 2026 (preprint, under review). Primary source for: the finding that fine-tuning on semantically related text reactivates verbatim recall of copyrighted books already memorized during pretraining but suppressed by alignment (up to 85–90% verbatim reproduction; single spans exceeding 460 words); cross-author generalization (fine-tuning on one author extracts 30+ unrelated authors); cross-model replication (GPT-4o, Gemini-2.5-Pro, DeepSeek-V3.1, r ≥ 0.90 memorization correlation); and the structural conclusion that alignment functions as a retrieval gate, not an erasure mechanism: the memorization was encoded in pretraining weights, not injected by fine-tuning. Used in this post to support the argument that the model’s actual memory footprint exceeds what explicit mechanisms expose. The connection between this paper and ImplicitMemBench is my framing, not a claim either paper makes. ↩↩