← 所有文章

你的Agent拥有你未曾编写的记忆

From the guide: Claude Code Comprehensive Guide

LLM会发展出无意识的行为记忆,而现有评估完全忽略了这一点。 ACL 2026的一篇论文发现,顶尖模型在检测自身习得的行为模式方面得分低于66%——这些模式在没有显式存储的情况下跨会话持续存在。你编写的显式记忆(SOUL.md、CLAUDE.md)只是全貌的一半。

今天大部分时间我都在为Hermes Agent编写一份实践者参考指南。其中一个关键章节涉及SOUL.md,即用于固定Agent身份的文件。语气、风格、偏好、行为护栏,一应俱全。这个章节的核心前提是:你将身份写入其中,Agent在每次系统提示的开头读取它,然后据此行动。显式记忆。声明式的。可审计的。受版本控制的。这才是正确的记忆类型——严肃的实践者应该关心的那种。

昨天arxiv上发表了一篇论文,我在今晚的信号扫描中捕捉到了它,读完之后,我对SOUL.md前提的信心比今天早些时候松动了不少。1

这篇论文名为ImplicitMemBench: Measuring Unconscious Behavioral Adaptation in Large Language Models1作者将其描述为针对LLM隐式记忆的首个系统性基准测试:按照他们的框架,这种记忆塑造Agent自动执行的行为,区别于塑造其有意识回忆的显式记忆。1表现最好的模型得分低于66%。1作者还报告了该得分内部一个”显著的”不对称性,1我将在后文中谨慎地加以分析。

摘要

现有记忆基准测试衡量的是显式回忆:给定你告诉模型的一个事实,它能否检索出来。ImplicitMemBench衡量的是一个不同的记忆系统——按照作者的说法,这个系统在”无需有意识检索”的情况下塑造自动行为,其构建基于标准认知科学概念(程序性记忆、启动效应、经典条件反射)。1在一个300项首次作答评分的基准测试中,作者测试的所有模型均未超过66%:DeepSeek-R1得分65.3%,Qwen3-32B为64.1%,GPT-5为63.0%,作者将顶尖表现者描述为”远低于人类基线”。1标题数字只揭示了一半真相。摘要还报告了一个”显著的”不对称性:抑制能力17.6% 对比 偏好能力75.0%,约4倍的差距,被描述为一种”普遍瓶颈”,作者认为需要”超越参数规模的架构创新”才能解决。1我对这种不对称性的解读(需要注意摘要并未公开这两个数字背后的完整方法论)与我在Agent开发中长期观察到的一个经验性故障模式一致:系统能快速强化最近接触到的偏好,却无法有效地不再重复最近遇到的失败。如果这一解读成立,它将Agent身份、安全性和技能演化的对话,从”你在提示中写了什么?”重新框定为”会话可能在悄然塑造什么,而你的显式固定无法审计?”这一重新框定是我对论文的延伸,而非论文本身的主张。

核心要点

以下要点是我对论文发现对实践者的启示的解读,并非论文本身的主张。论文在300项认知科学基准上测试了17个LLM;它没有评估生产级Agent框架或提示策略。我对每个要点做了相应标注。

  • 延伸: SOUL.mdAGENTS.mdCLAUDE.md、系统提示或持久化记忆文件中固定身份,属于显式声明性记忆,而现有基准测试已经表明模型在这方面表现良好。ImplicitMemBench衡量的是一个完全不同的记忆系统,且模型在该系统上得分低于66%。1实践者层面的启示(即显式身份固定可能无法传导至首次自动行为)是我的推断,而非论文的结论。
  • 延伸: 17.6%对75.0%的不对称性,如果能推广到基准测试之外,将预示Agent会快速吸收最近接触的偏好,却难以停止重复最近经历的失败。 论文报告了这两个数字并标注为”显著”和”普遍”,1但并未公开”偏好”和”抑制”具体如何操作化的逐项方法论,也未在Agent框架中测试这一模式。生产行为层面的解读是我自己的。
  • 延伸: 进入上下文窗口的每一个token——来自工具调用、MCP响应、抓取的网页或提示注入尝试——都是上下文内的行为影响因素。 这不是权重更新意义上的训练,而是对下一次首次响应的影响,且显式提示层无法清晰审计。论文并未直接提出这一主张;我是在将隐式记忆框架延伸到上下文窗口内容上。
  • 论文主张: 17个模型的评估揭示了”严重局限性”、”显著不对称性”和”需要超越参数规模的架构创新才能解决的普遍瓶颈”。1作者将这一差距归因于架构层面。我将其解读为”更多提示工程无法解决此问题”的弱证据,但论文本身并未测试提示层面的缓解措施,因此请将这一解读视为我的假设,而非论文的结论。

论文测量了什么

论文的框架是,现有的LLM Agent记忆基准测试”评估的是对事实的显式回忆,却忽略了隐式记忆——在这种记忆中,经验在无需有意识检索的情况下变成自动化行为。”1他们识别出的差距是:”有效的助手必须在没有显式提醒的情况下,自动应用习得的程序或避免失败的操作。”1如果你的Agent避免错误的唯一方式是你每轮都重新告诉它不要犯错,那你并没有在利用隐式记忆——你只是在每次请求中付出显式记忆的成本。

ImplicitMemBench测试三个直接取自认知科学非陈述性记忆理论的构建,引自摘要:1

  1. 程序性记忆: “干扰后的一次性技能习得。”模型在被展示如何做某事一次之后,当其他指令介入后,能否在稍后真正再次执行?程序性记忆让人类学会骑自行车:你不是在回忆如何骑,而是在执行骑行,即使多年没碰自行车。
  2. 启动效应: “通过配对的实验/控制实例产生的主题驱动偏差。”看到某一类事物是否会使模型在下一个不相关的任务中更倾向于产生该类事物,而模型本身并未意识到启动效应的发生?
  3. 经典条件反射: “条件刺激-无条件刺激(CS-US)关联塑造首次决策。”如果模型已经接触过一个刺激-反应配对,该配对是否会在一个全新的任务中表现为偏差——尽管该任务的重点既非CS也非US?

作者使用了一个300项的测试套件,采用统一的”学习/启动-干扰-测试协议,首次作答评分”。1首次作答评分至关重要。一个在被告知答错后能自我纠正的模型没什么问题,但这里的研究问题是:记忆是否塑造了自动的首次响应。如果首次响应错误,纠正只在显式反馈后才发生,那么隐式记忆系统(按论文定义)在该项上就是失败的。作者用一句话概括了他们的贡献,我想直接引用:该基准测试”将评估从’Agent回忆了什么’重新框定为’它们自动执行了什么’。”1

结果

标题数字:”没有模型总体超过66%。”1

  • DeepSeek-R1: 65.3%
  • Qwen3-32B: 64.1%
  • GPT-5: 63.0%

以上顶尖表现者被描述为”远低于人类基线”,但摘要并未公布确切的人类基线数字或完整的模型排名。1论文共评估了17个模型。1

标题数字掩盖了子结果。作者写道”分析揭示了显著的不对称性(抑制17.6%对偏好75.0%)和需要超越参数规模的架构创新才能解决的普遍瓶颈。”1我想对这些数字的含义保持审慎。摘要并未给出作者如何计算这两个数字的完整方法论说明,因此我对它们的解读是基于摘要措辞的推断,而非对论文内部定义的解读。在此标明这一保留意见后:

  • 偏好:75.0%(论文数字)。我的解读(待完整论文验证):模型在展示隐式接触将其拉向某一刺激方面表现相对出色。启动效应和CS-US配对将行为偏向特定方向的情况,约四分之三的时间是正确的。
  • 抑制:17.6%(论文数字)。我的解读(待完整论文验证):模型在展示隐式接触将其推离某一刺激方面表现急剧下降。”别再那样做”的信号,正确传达的概率不到五分之一。我从”抑制”一词和论文对经典条件反射的框架推断其行为含义;摘要并未明确阐述其操作化方式。

作者明确将这种不对称性标注为”显著”,并将其归因于”普遍瓶颈”,1而”普遍”这个词很重要:作者将此呈现为在17个模型评估中的一个共性模式,而非某个模型的个别现象。我不会声称这一瓶颈”是提示问题”或”不是提示问题”。论文并未测试提示作为缓解手段,做出任何一种判断都会超出摘要所支持的范围。

不对称性的真正含义

我想对自己在这里的主张保持精确,因为这正是容易过度解读基准测试的部分。

论文所展示的。 在一个以首次作答评分的300项认知科学基准测试中,LLM在展示隐式抑制方面的表现远逊于隐式偏好,差距约为四倍,且在所有测试模型中普遍存在。作者称之为无法通过规模扩展解决的普遍瓶颈。

我的主张——独立于论文。 这种不对称模式映射到我在自己Agent开发工作中观察了数月的一个故障模式,此前一直无以名之。根据我的经验,Agent框架似乎出奇地擅长吸收指向特定风格、工具或方法的上下文。Agent的行为会迅速漂移向你最近喂给它的内容。它们似乎出奇地不擅长不再重复刚刚发生的失败。Agent会尝试同一个不工作的命令、同一个错误的工具、同一个过时的路径——即使这些在同一会话中已经失败过。这是经验之谈,不是测量数据;这是我作为实践者的印象,不是受控研究。ImplicitMemBench的数字与这一经验一致,这正是我关注这篇论文的原因。但它们本身并不能验证这一经验,我也不想声称论文为我的经验观察”提供了一个数字”——论文测量的东西比我观察到的任何事物都更严格、更受控。

我没有主张的。 我并未声称ImplicitMemBench专门测量了Agent框架行为或生产环境中的Claude Code / Cursor / Codex工作流。它没有。它是在一个结构化的认知科学协议下测量17个模型。从基准测试到生产行为的映射是我的延伸,已明确标注,我不希望任何读者认为是论文替我做出了这一主张。

在这些标注到位之后,基准测试在对指令的显式回忆启动/条件反射下的自动首次行为之间所做的区分,正是我希望自己的Agent开发工作开始认真对待的区分。你可以告诉Agent”不要做X”,显式回忆很可能起效;被问到时它能向你复述”不要做X”。ImplicitMemBench测量的是另一回事:在没有任何显式提醒的情况下,Agent在下一次首次决策中是否自动不做X?我不知道生产Agent框架在实际运行中是否继承了基准测试17.6%的首次行为抑制率。这一映射未经测试,我不会声称它成立。我主张的是一个更弱的论点:”能回忆规则”与”自动执行规则”之间的区别比我此前认为的更加尖锐,而这篇论文的结果是原因之一。

SOUL.md幻觉

我今天编写的Hermes指南将SOUL.md视为Agent的主要身份锚点。每个系统提示中的第一位。语气、风格、护栏。该指南提出了过去两年每个Agent持久化记忆系统都在做的论证:如果你将身份写入正确的声明性记忆文件,Agent的行为就会与之保持一致。

这个论证没有错,但ImplicitMemBench给了我一个理由,让我对其完整性降低了信心。SOUL.md是显式声明性记忆,正是现有基准测试已经在测量且模型已经表现良好的记忆系统。模型能按需回忆其内容;这是容易的部分。更难的问题——也是我认为SOUL.md没有回答的问题——是:当会话中充满工具输出、检索到的文档、先前的助手回合、用户纠正,以及所有在没有任何检索步骤的情况下塑造首次行为的其他内容时,显式锚点是否能有效覆盖随之积累的隐式启动效应、条件反射和首次偏差?我不知道。论文没有测试SOUL.md或任何等效的身份锚点文件,我不想声称它替我回答了这个问题。

以下是以假设而非发现的方式框定的担忧。如果你在SOUL.md中固定的身份是”简洁而事实性的”,然后会话中充满了来自用户的长篇叙事风格的对话线程,隐式记忆框架预测启动效应应该会部分塑造下一轮的首次行为——即使显式锚点在回忆层面仍然有效。在生产环境中启动效应是否真的平均胜出,我无法从这篇论文中证明,也不打算尝试。我将其命名为SOUL.md幻觉:你可能固定的是身份的回忆而非其自动执行,而这两者并非同一回事。

我不是说不要写SOUL.md。我仍然会写,Hermes指南也仍然会推荐它,因为显式声明性记忆在其擅长的领域仍然至关重要。我要说的(明确标注为我自己的推断)是:如果你构建的系统依赖Agent不再重复某个错误、漂移向最近看到的风格、被你未预期的启动信号带偏,我不会把可靠性预算全押在SOUL.md上,也不会假设让SOUL.md更长或更具体就能解决问题。论文使用了”需要超越参数规模的架构创新”这一表述,1我(谨慎地)将其解读为”提示工程缓解措施无法弥合基准测试所测量的差距”的弱证据。论文本身没有测试提示工程缓解措施,因此我无法说它证明了这些措施会失败;我只能说它没有给我信心认为它们会奏效。

论文未说明的内容(以及我的补充)

这是一篇基准测试论文。它测量了一个差距,量化了它,并论证该差距是架构层面的。它没有开具具体的框架级缓解处方,也没有对任何特定的生产Agent系统做出主张。本节所有内容都是我的框架,不是论文的。

启示1:上下文窗口中的每个token都是上下文内的行为影响因素。 如果隐式记忆框架在基准测试之外成立(这里我是在推测,而非报告),来自工具调用、检索文档或中间响应的每个进入上下文窗口的token,都会以阅读显式提示无法清晰审计的方式塑造下一轮的首次行为。我此前写过无声数据外泄攻击面(不受信任的工具输出携带注入指令)和你的Agent有一个未经审查的中间人(不受信任的LLM API路由器介于你的客户端和模型之间)。这两篇文章都没有以隐式记忆作为因果机制。两者都以提示注入和供应链攻击作为机制。ImplicitMemBench为这些攻击的运作方式提供了一个可能的额外视角:即使恶意工具输出或被攻破的路由器从未显式”告诉”Agent该做什么,其返回的内容也可能在启动Agent的下一个决策。这是一个与ImplicitMemBench一致的假设,而非论文报告的发现。

启示2:会话长度可能不仅是成本风险,更是可靠性风险。 经验观察是Agent在长会话中表现变差,经验解释是上下文窗口压力。ImplicitMemBench根本不是一项会话长度研究。它是一个采用学习/启动-干扰-测试协议的300项首次作答评分基准测试,1测量的内容与”在生产会话中经过30轮后会发生什么”完全不同。我不想假装它能直接映射到生产会话。我提出的假设是:论文所命名的机制(隐式启动和经典条件反射在无需检索的情况下影响首次决策)是经验性漂移的一个候选替代解释,值得认真考虑,尽管论文没有在那个框架下进行测试。我目前的操作原则:会话长度应短于上下文窗口允许的极限,而非用尽它所允许的长度。这是对抗未知真实机制的低成本保险。

启示3:”静态技能即死技能”的论点需要一个脚注。 我本周早些时候写了Static Skills Are Dead Skills,论证技能在发布后便不再改进,除非你构建轨迹反馈循环。那个论证假定故障模式是缺失:缺乏聚合、缺乏模式检测器、缺乏进化器。将ImplicitMemBench与那篇文章对照阅读后,我想指出一个可能叠加在上面的第二个故障模式:即使有了轨迹驱动的技能更新,如果更接近隐式记忆层的东西驱动着首次决策,那么落入技能文件(显式声明性记忆)中的更新可能无法干净地传导到首次自动行为。我不确定是否如此。论文没有测试技能更新。但这是我写那篇文章时没有的一个担忧,我将其标注为担忧而非结论。

启示4:Agent质量的测量问题可能正变得更难。 现有的大多数Agent评估要么测量功能任务完成度(Agent是否解决了问题),要么测量显式事实回忆(Agent是否记住了你告诉它的内容)。ImplicitMemBench在其自有协议中引入了第三个维度:隐式启动下的首次自动行为。如果这个维度在生产中确实重要(我不知道,论文也没有测试),那么任何严肃的Agent质量循环都需要为此设置测量钩子,而今天大多数循环没有。我将其视为自己质量系统的待办事项,而非对他人的处方。

启示5:对齐是检索门控,而非擦除机制。 Liu等人的另一篇论文从不同角度强化了隐式记忆框架。2他们表明,对语义相关文本(甚至公版小说)进行微调,会重新激活模型在预训练期间记忆但被对齐机制抑制的版权书籍的逐字回忆:高达85-90%的逐字复现率,单个片段超过460个单词,对仅一位作者进行微调后便能泛化到30多位不相关的作者,且GPT-4o、Gemini-2.5-Pro和DeepSeek-V3.1之间的跨模型相关性r ≥ 0.90。2机制对隐式记忆论证很重要:记忆已经编码在预训练权重中。微调并未注入新知识——它绕过了阻止检索的对齐门控。如果对齐的功能是门控而非擦除,模型的实际记忆范围比显式机制(对齐、系统提示、身份锚点)所暴露的更大、更不可控。ImplicitMemBench从行为侧提出了相同的结构性主张:模型拥有的记忆——无论是行为性的还是内容性的——超出了你的显式锚点所能管辖的范围。微调论文和ImplicitMemBench测量的是同一底层现实的不同表现形式。(如前所述,这两篇论文之间的关联是我的框架,不是任何一篇论文的主张。)

具体该怎么做

两篇论文都未开具或测试本节中的任何内容。以下是我的解读,基于我此前的论点,并以ImplicitMemBench和对齐门控发现作为补充证据,推导出对当前使用框架构建系统的实践者的启示。请据此判断。

不要假设显式锚点就够了。 继续写SOUL.mdAGENTS.mdCLAUDE.md和记忆文件,但将其视为必要而非充分。AGENTS.md patterns一文记录了如何有效地组织这些文件;本文增加了对其保证范围的一个边界条件。我正在更新的是我自己的默认假设——“如果它在系统提示中,它就成立。”论文没有直接测试这一假设;它测试了相邻问题并报告了让我想要比昨天更松散地持有自己假设的得分。

刻意缩短会话。 经验观察是Agent在长会话中表现变差。我一直使用的经验解释是”上下文压力”。ImplicitMemBench不是会话长度研究。它使用受控的学习/启动-干扰-测试协议,而非长时间运行的生产会话。1但它所命名的机制(隐式启动和经典条件反射在无需检索的情况下影响决策)是那一经验观察的候选替代解释。我正在采用的操作原则:当会话出现漂移时,不要用更多显式纠正去对抗它。/new开启一个新会话,从头开始。无论漂移的原因是上下文窗口压力、隐式启动还是其他什么,干净的会话都能重置其中的实际原因。

将抑制视为难以在提示中强制执行。 如果你需要Agent做某事,不要依赖于曾经告诉过它不要做。构建一个结构性防护(linter、前置工具hook、沙箱策略、拒绝调用的工具),在代码层面强制执行禁令。我的Jiro质量循环论点一直是硬性门控必须在模型之外,我在这篇论文之前就持有这一立场。ImplicitMemBench增加了一个具体模式(17.6%的整体抑制率1),与我一直在提出的论点一致,尽管论文本身没有测试提示或Agent框架,我也不想过度声称它证明了这一立场。

审计上下文的启动效应,而不仅仅是token数量。 Token数量是每个人都有的指标。如果隐式启动框架是一个有用的视角(我将其视为想要测试的假设,而非已确立的结论),那么充满叙事性用户画像内容的20k token上下文,可能比充满结构化代码的60k token上下文更能将首次行为塑造向叙事性输出。我还没有这种内容轴审计的工具,我也不确定是否有人有。最低可行版本是:回顾你最近的会话,问一句”阅读这个上下文的人会被启动向什么方向?”这个问题是否真的能预测Agent行为是一个经验问题,我不会假装论文给出了定论。

记录首次行为倾向,而不仅仅是最终结果。 如果你对技能运行任何形式的轨迹捕获,将”Agent最初尝试了什么”与”Agent在纠正后最终做了什么”分开。ImplicitMemBench的首次作答评分协议1是这种分离为何重要的方法论论证:最终结果衡量的是Agent加纠正循环,而首次尝试衡量的是Agent在外部反馈之前实际产出的内容。对于任何用户体验取决于首次响应准确的质量循环而言,你需要首次尝试的数据,而今天几乎没有系统单独记录它。


常见问题

ImplicitMemBench是否测试了任何特定的Agent框架?

没有。它直接在一个采用学习/启动-干扰-测试协议、首次作答评分的300项基准上测试了17个LLM。1它不是框架基准测试。它没有评估Claude Code、Cursor、Codex、Hermes或任何生产Agent循环。我在本文中从基准结果到Agent框架生产行为的映射是我的延伸,全文均已标注,不是论文的发现。

17.6%对75.0%的不对称性是单模型结果还是整体结果?

摘要将不对称性描述为作者对跨模型整体基准结果分析的一部分,并标注为”普遍瓶颈”的证据。1我的理解是这种不对称性在所测试的17个模型中持续出现,具体数字反映的是整体模式。摘要未公布逐模型的分解数据,我也不会编造。完整的逐模型分解请以论文为准。

为什么这对生产Agent可能比现有基准更重要?

对此需要部分保留。ImplicitMemBench本身使用多步骤协议(学习/启动-干扰-测试),1因此不能说该基准是”单次测试”。我不想重复关于基准测试的常见草率论断。值得指出的是(作为实践者的推测,而非论文发现),人们关注的大多数其他Agent评估要么测量功能任务完成度,要么测量显式事实回忆,两者都对模型有利。如果这篇论文报告的隐式记忆差距在其自有协议之外是真实的(我不知道是否如此),那些其他评估就遗漏了用户在长时间运行的会话中实际体验到的一个生产行为维度。我将此视为可测试的假设,而非结论。

这是否与你在Hermes指南中关于SOUL.md的建议矛盾?

没有。它增加了一个边界条件。Hermes指南推荐SOUL.md作为主要身份锚点,因为显式声明性记忆在其擅长的领域仍然至关重要:一致的身份回忆、可审计的版本控制、在直接提问下的可预测行为。Hermes指南没有涵盖(因为在这篇论文发表之前没有什么可以测量它)这样一个事实:显式身份锚点不会自动传导到启动效应和经典条件反射下的首次自动行为。你仍然需要SOUL.md。但你也需要它之外的结构性防护。

提示工程能解决这些问题吗?

坦率地说,论文没有测试提示作为缓解策略,因此我无法以论文的权威性告诉你答案。我能说的是:作者将差距框定为”需要超越参数规模的架构创新”,1这比”更好的提示会有帮助”更强,但又不完全等于”任何提示都无济于事”。具体到抑制方面(17.6%的整体水平),我作为实践者的直觉(你应该相对论文本身给予折扣)是,模型之外的结构性防护比提示指令更为可靠。但这是我的判断,不是论文的。

这是我最近看到很多的那类”记忆基准”论文之一吗?

不是,论文明确将自己与它们区分开来。摘要的框架是,现有记忆基准评估的是对事实的显式回忆:给模型一个事实,让模型检索它。ImplicitMemBench测量的是完全不同的东西——无需任何检索步骤的自动行为适应。1这一区分是论文的核心贡献,也是它被ACL 2026主会议录用的原因。1

这篇文章相对于你之前关于Agent记忆的文章处于什么位置?

本文位于AI工程中心内,是Static Skills Are Dead Skills的直接伴随文章。Context is architecture为上下文窗口中的内容为何重要提供了结构性论证;compound context描述了跨会话积累的基础设施。那篇文章论证了技能需要轨迹聚合才能保持活力,我当时假定故障模式纯粹是缺失:如果你能获得轨迹数据并运行模式检测器,就没问题了。ImplicitMemBench指向一个叠加在上面的第二个故障模式:即使有了完美的轨迹驱动技能更新,首次行为也可能无法反映更新,因为更新落在显式记忆中,而隐式记忆驱动着实际决策。那篇文章对其主张的内容仍然正确;本文更新的是它当时无从主张的部分。

这可能是测量伪影吗?

有可能。论文很新(2026年4月9日提交,被ACL 2026主会议录用),单个基准测试可能测量的是其特定协议的伪影,与测量真实现象一样容易。1我不会假装并非如此。我认为它不仅仅是伪影的原因是:它所描述的故障模式(Agent快速强化偏好而无法有效纠正失败)是我在没有为其命名的情况下已经观察了一年多的经验现象。基准测试不必完美校准,其结果的方向性仍然是实践者应该据以行动的。


参考文献


  1. Chonghan Qin, Xiachong Feng, Weitao Ma, Xiaocheng Feng, Lingpeng Kong, “ImplicitMemBench: Measuring Unconscious Behavioral Adaptation in Large Language Models,” arXiv:2604.08064 [cs.AI], submitted 9 April 2026, accepted to ACL 2026 Main Conference. Primary source for: the framing of explicit versus implicit memory in LLM agents (“existing memory benchmarks for LLM agents evaluate explicit recall of facts, yet overlook implicit memory where experience becomes automated behavior without conscious retrieval”); the three cognitively grounded constructs of the benchmark (Procedural Memory = “one-shot skill acquisition after interference”; Priming = “theme-driven bias via paired experimental/control instances”; Classical Conditioning = “Conditioned Stimulus–Unconditioned Stimulus (CS–US) associations shaping first decisions”); the benchmark design (300-item suite, unified Learning/Priming-Interfere-Test protocol with first-attempt scoring); the evaluation coverage (17 models); the specific top-performer scores (DeepSeek-R1 65.3%, Qwen3-32B 64.1%, GPT-5 63.0%, no model exceeding 66% overall, all described as “far below human baselines”); the asymmetry finding (“dramatic asymmetries (inhibition 17.6% vs. preference 75.0%) and universal bottlenecks requiring architectural innovations beyond parameter scaling”); and the reframing phrase (“reframes evaluation from ‘what agents recall’ to ‘what they automatically enact’”). All direct quotes in this post are from the published abstract. Claims about how the benchmark findings apply to production agent harnesses, including SOUL.md, AGENTS.md, Claude Code, Hermes, MCP, and session-length effects, are my own framing, clearly labeled as such throughout, and are not attributed to the paper. 

  2. Xinyue Liu, Niloofar Mireshghallah, Jane C. Ginsburg, Tuhin Chakrabarty, “Alignment Whack-a-Mole: Finetuning Activates Verbatim Recall of Copyrighted Books in Large Language Models,” arXiv:2603.20957, submitted 21 March 2026 (preprint, under review). Primary source for: the finding that fine-tuning on semantically related text reactivates verbatim recall of copyrighted books already memorized during pretraining but suppressed by alignment (up to 85–90% verbatim reproduction; single spans exceeding 460 words); cross-author generalization (fine-tuning on one author extracts 30+ unrelated authors); cross-model replication (GPT-4o, Gemini-2.5-Pro, DeepSeek-V3.1, r ≥ 0.90 memorization correlation); and the structural conclusion that alignment functions as a retrieval gate, not an erasure mechanism: the memorization was encoded in pretraining weights, not injected by fine-tuning. Used in this post to support the argument that the model’s actual memory footprint exceeds what explicit mechanisms expose. The connection between this paper and ImplicitMemBench is my framing, not a claim either paper makes. 

相关文章

先奖励工具调用,再评判答案

当AI代理给出的答案声称完成了从未发生过的工具调用时,便会出现失败。本文剖析四种失败模式及一条可识别它们的规则,并对照工具监督强化学习。

1 分钟阅读

我随身携带的工作台

史蒂夫·乔布斯的隐形工艺哲学,在实践中落地:整体一体化、拒绝的力量,以及在基于Claude Code构建的AI框架中所蕴含的用心。

1 分钟阅读