你的Agent拥有你未曾写下的记忆
今天我大部分时间都在为Hermes Agent撰写一份实践者参考手册。其中一个承重章节是关于SOUL.md——你用来固定Agent身份的文件。语气、风格、偏好、行为护栏。该章节的整体前提是:你把身份放在那里,Agent在每次系统提示的最开始读取它,然后相应地行事。显式记忆。声明式。可审计。版本受控。这是正确的那种记忆,是一个严肃的实践者应该关心的那种。
昨天arxiv上登载了一篇论文,我在今晚的信号扫描中捕捉到了它。读完之后,我对今早所持有的SOUL.md前提的信心没有之前那么坚定了。1
这篇论文名为ImplicitMemBench: Measuring Unconscious Behavioral Adaptation in Large Language Models。1 作者将其描述为LLM中隐式记忆的首个系统性基准——这种记忆(按照他们的框架)塑造了Agent自动执行的内容,有别于塑造它有意识回忆内容的显式记忆。1 顶尖选手得分低于66%。1 作者还报告了该分数内部”戏剧性”的不对称性,1 我会在下文中以适当的保留态度加以解析。
TL;DR
现有的记忆基准测量显式回忆——给定你告诉模型的一个事实,它能否取回它。ImplicitMemBench测量的是另一个记忆系统:那个(按作者所述)在”没有有意识取回”的情况下塑造自动行为的系统,源自标准认知科学构念(程序性记忆、启动效应、经典条件反射)。1 在一个300项首次尝试评分的基准上,作者测试的所有模型整体得分均未超过66%:DeepSeek-R1得分65.3%,Qwen3-32B得64.1%,GPT-5得63.0%,作者将顶尖选手描述为”远低于人类基线”。1 这个头条数字并非故事的全部——摘要还报告了一种”戏剧性”的不对称性:抑制项17.6%对比偏好项75.0%,约4倍的差距,被定性为一种”普遍瓶颈”,作者称其需要”超越参数规模的架构创新”。1 我对这种不对称性的解读是——并附带保留:摘要未公布支持这两个数字的完整方法论——它与我在Agent工作中一直观察到的一种民间失败模式相一致:这类系统会快速强化最近见到的偏好,却无法取消学习最近见到的失败。如果这种解读正确,它将会把关于Agent身份、安全和技能演化的对话从”你在提示中放了什么?”重新定义为”会话可能正在悄悄塑造什么,而你的显式固定项无法审计?”这种重新定义是我对论文的延伸,并非论文本身的主张。
核心要点
下面的要点是我对论文发现对实践者意味着什么的解读,并非论文本身提出的主张。该论文在一个300项的认知科学基准上测试了17个LLM;它并未评估生产级Agent框架或提示策略。我相应地为每个要点打上标签。
- 延伸:在
SOUL.md、AGENTS.md、CLAUDE.md、系统提示或持久化记忆文件中固定身份,属于显式声明性记忆,现有基准已经表明模型在这方面表现良好。ImplicitMemBench测量的是一个完全不同的记忆系统,而模型在该系统上的得分低于66%。1 实践者层面的含义——即显式身份固定可能不会传导到首次尝试的自动行为——是我的推断,并非论文的。 - 延伸:17.6%对比75.0%的不对称性,若能推广到基准之外,将预示一个快速吸收最近见到的偏好、却迟迟无法停止重复最近见到的失败的Agent。论文报告了这两个数字,并将其标记为”戏剧性”和”普遍性”,1 但并未公布”偏好”和”抑制”如何被操作化的逐项方法论,也未在Agent框架中测试这种模式。对生产行为的解读是我的。
- 延伸:每一个因工具调用、MCP响应、被抓取的网页或提示注入尝试而落入上下文窗口的token,都构成上下文内的行为影响——这不是任何权重更新意义上的训练,而是对下一个首次尝试响应的影响,显式提示层无法干净地对其进行审计。论文并未直接提出此主张;这是我把隐式记忆框架延伸到上下文窗口内容所得。
- 论文主张:这项对17个模型的评估揭示了”严重的局限性”、”戏剧性的不对称”和”需要超越参数规模的架构创新的普遍瓶颈”。1 作者将这一差距定性为架构性的。我将其解读为反对”更多的提示工程会解决这个问题”的弱证据,但论文并未专门测试提示层面的缓解措施,因此请把这种解读视为我的假设,而非他们的。
论文测量了什么
该论文的框架是:现有的针对LLM Agent的记忆基准”评估事实的显式回忆,却忽视了经验在没有有意识取回的情况下变成自动行为的隐式记忆”。1 他们指出的差距是:”有效的助手必须在没有显式提醒的情况下自动应用已学会的程序或避免失败的动作”。1 如果让你的Agent避免某个错误的唯一办法,是你每一轮都要重新告诉它不要犯那个错误,那么你并没有在隐式记忆的基础上构建;你在每次请求时都付出显式记忆的成本。
ImplicitMemBench测试了三个直接取自认知科学非陈述性记忆论述的构念,以下引自摘要:1
- 程序性记忆——“干扰后的一次性技能习得”。在被展示一次某件事的做法后,当其它指令介入后,模型能否在之后真正再次执行它?这是让人类学会骑自行车的那种记忆系统:你不是回忆怎么骑,而是在做骑行这件事,即使多年不碰自行车也依然如此。
- 启动效应——“通过配对的实验/控制实例产生主题驱动的偏差”。看到某一类事物,是否会让模型在下一个无关任务中更有可能产生该类事物,而模型本身并未意识到启动效应的发生?
- 经典条件反射——“条件刺激——非条件刺激(CS–US)关联塑造最初的决策”。如果模型已经接触过某种刺激-反应配对,那么这种配对是否会在一个完全新颖、CS和US都不是问题重点的任务上以偏差的形式出现?
作者使用一套300项的测试套件,遵循统一的”学习/启动-干扰-测试协议,采用首次尝试评分”。1 首次尝试评分很重要。一个在被告知答错后能够自我纠正的模型是没问题的——但这里的研究问题是,记忆是否塑造了自动的首次反应。如果首次反应是错的,并且只有在显式反馈后才进行纠正,那么隐式记忆系统(按论文的定义)在该项上就失败了。作者用一句话概括他们的贡献,我想直接引用:该基准”将评估从’Agent回忆什么’重新定义为’它们自动执行什么’”。1
结果
头条数字:”没有模型整体超过66%”。1
- DeepSeek-R1——65.3%
- Qwen3-32B——64.1%
- GPT-5——63.0%
上述顶尖选手被描述为”远低于人类基线”,不过摘要并未公布确切的人类基线数字或完整的逐模型排名。1 论文总共评估了17个模型。1
头条数字掩盖了次级结果。作者写道:”分析揭示了戏剧性的不对称(抑制17.6%对偏好75.0%)和需要超越参数规模的架构创新的普遍瓶颈”。1 我想在这里谨慎地说明这些数字意味着什么——摘要并未对这两个数字的计算方式给出完整的方法论分解,所以我对它们的解读是对摘要措辞的推断,而非对论文内部定义的解读。在标明这一保留的前提下:
- 偏好:75.0%(论文数字)。我的解读,待论文全文佐证:该数字看起来与模型相对擅长表现它们被隐式地拉向某个刺激相一致——启动效应和CS–US配对使行为朝特定方向偏移,大约有四分之三的时间能正确落位。
- 抑制:17.6%(论文数字)。我的解读,待论文全文佐证:该数字看起来与模型在表现它们被隐式地推离某个刺激时戏剧性地更差相一致——“不要再做那个”的信号正确落位的时间少于五分之一。我是从”抑制”一词以及论文对经典条件反射的框架中推断这种行为含义的;摘要并未阐明其操作化方式。
作者明确地将这种不对称性标记为”戏剧性”,并将其归因于”普遍瓶颈”,1 普遍一词很重要:作者将其呈现为贯穿其17个模型评估的一种模式,而不是单一模型的产物。我不会主张这种瓶颈是”一个提示问题”或”不是一个提示问题”——论文并未测试把提示作为缓解措施,说哪一种都会超出摘要所支持的范围。
这种不对称性实际意味着什么
我想对我在此处所主张的内容保持精确,因为这是最容易过度解读基准的那一部分。
论文展示了什么。在一个以首次尝试答案评分、以认知科学为基础的300项基准上,LLM在展示隐式抑制方面戏剧性地差于展示隐式偏好,差距大约4倍,所有受测模型无一例外。作者将其称为一种无法通过扩大规模修复的普遍瓶颈。
我在主张什么——与论文分开。这种不对称模式映射到了我在自己的Agent工作中已经观察了几个月的一种失败模式,之前我没有为它命名。在我的经验中,Agent框架似乎出奇地擅长吸收指向某种偏好风格、工具或方法的上下文——Agent的行为会很快朝着你最近喂给它的任何东西漂移。它们似乎出奇地不擅长不重复它们刚刚目睹发生的失败——Agent会尝试同一个坏掉的命令、同一个错误的工具、同一个失效的路径,即使那些在同一会话中刚刚失败过。这是民间经验,而不是测量——这是我作为实践者的印象,不是对照研究。ImplicitMemBench的数字与该民间经验一致,这就是我关心这篇论文的原因。它们本身并不能验证这种民间经验——我也不想主张这篇论文给了我的民间经验”一个数字”,因为该论文测量的是比我所观察到的任何东西都要更紧凑、更受控的东西。
我没有在主张什么。我没有主张ImplicitMemBench专门测量了Agent框架行为或生产级Claude Code / Cursor / Codex工作流。它没有。它是针对17个模型按照一个结构化认知科学协议进行测试的。从基准到生产行为的映射是我的延伸,并如此标注,我不希望任何读到这篇文章的人认为论文代我做出了那种主张。
在贴好这些标签之后:该基准所绘的区分——指令的显式回忆与在启动/条件作用下的自动首次尝试行为之间的区分——正是我希望自己的Agent工作开始认真对待的区分。你可以告诉Agent”不要做X”,显式回忆很可能奏效——当被询问时它能向你重复”不要做X”。ImplicitMemBench测量的是另一回事:在没有任何显式提醒的情况下,Agent在下一个首次尝试决策中是否会自动不去做X?我不知道生产级Agent框架是否继承了该基准在真实环境首次尝试行为上的17.6%总体抑制数字——那种映射未经测试,我也不主张它。我主张的是更弱的东西:”能回忆起规则”与”自动执行规则”之间的区分,比我此前对待它时要更加尖锐,论文的结果是原因的一部分。
SOUL.md的幻觉
我今天撰写的Hermes指南把SOUL.md视为Agent的主要身份固定项。每次系统提示中的#1槽位。语气、声音、护栏。该指南所作的论证版本,是过去两年每一个Agent持久化记忆系统都做过的:如果你把身份放在正确的声明性记忆文件中,Agent的行为就会与之保持对齐。
这个论证并没有错,但ImplicitMemBench给了我一个理由,让我对它完整程度的自信降低一些。SOUL.md是显式声明性记忆——正是现有基准已经测量且模型已经表现良好的那个记忆系统。模型可以按需回忆其内容;那是容易的部分。更难的问题,也是我认为SOUL.md没有回答的问题是:当一个会话被工具输出、被检索的文档、先前的助手回合、用户更正以及其他所有在没有任何检索步骤的情况下塑造首次尝试行为的东西填满时,显式固定是否能有意义地覆盖在堆积中的隐式启动、条件作用和首次尝试偏差?我不知道。论文没有测试SOUL.md或任何等效的身份固定文件,我也不想主张它为我回答了这个问题。
这里有一个担忧,作为假设而非发现提出。如果你在SOUL.md中固定了一个身份”要简洁而客观”,然后会话被用户的长篇叙事风格对话线填满,隐式记忆框架预测:下一回合的首次尝试行为应当部分由启动塑造,即便显式固定在回忆上仍然生效。启动是否实际上在生产中平均获胜——我无法从这篇论文证明这一点,我也不打算尝试。我所命名的SOUL.md幻觉:你固定的可能是身份的回忆,而非其自动执行,这两者并不相同。
我并不是在说不要写SOUL.md。我仍会写它——Hermes指南仍会推荐它——因为显式声明性记忆在它所擅长的事情上仍是承重的。我明确贴上自己外推标签所说的是:如果你正在构建任何依赖于Agent不重复错误、不朝最近见到的风格漂移、不被你无意产生的启动信号拉偏任务的东西,我不会把可靠性预算押在SOUL.md单独一项上,我也不会假设把SOUL.md写得更长或更具体就能解决它。论文使用了”超越参数规模的架构创新”这个短语,1 我谨慎地将其解读为支持”更好的提示工程不会闭合该基准所测量的差距”的弱证据。论文本身并未测试提示工程缓解措施,所以我不能说它证明它们会失败;我只能说它没有让我有信心它们会奏效。
论文没说的(以及我在补充的)
这是一篇基准论文。它测量了一个差距,量化了它,并主张该差距是架构性的。它并未开出具体的框架层面缓解措施,也没有对任何具体的生产级Agent系统提出主张。本节中的所有内容都是我的框架,不是论文的。
含义1:上下文窗口中的每一个token都是上下文内的行为影响。如果隐式记忆框架在基准之外成立——我在这里是在推测,而非在报告——那么来自工具调用、检索文档或中间响应中落入上下文窗口的每一个token,都以读取显式提示无法干净审计的方式塑造着下一回合的首次尝试行为。我之前写过silent egress攻击面(携带注入指令的不受信工具输出)以及你的Agent有一个你没审过的中间人(位于你的客户端与模型之间的不受信LLM API路由器)。这两篇文章都没有把隐式记忆作为因果机制——它们把提示注入和供应链妥协作为机制。ImplicitMemBench提供了一种可能的额外视角,来解释这些攻击为何以它们那样的方式起作用:即使敌意工具输出或被妥协的路由器从未显式”告诉”Agent去做什么,它返回的内容也可能在启动Agent的下一个决策。那是一种与ImplicitMemBench相一致的假设,而非论文报告的发现。
含义2:会话长度可能是一种可靠性隐患,而不仅是成本隐患。民间观察是Agent在长会话中会变差,而民间的解释是上下文窗口压力。ImplicitMemBench根本不是一项会话长度研究——它是一个在学习/启动-干扰-测试协议下、以300项进行首次尝试评分的基准,1 这测量的是与”在生产会话中30回合里发生什么”不同的东西。我不想假装它直接映射到生产会话。我所提示的——作为一个假设——是:论文所命名的机制(隐式启动和经典条件反射在没有检索的情况下落入首次尝试决策)是对民间漂移现象的一种候选替代解释,值得认真对待,尽管论文并未在该框架下测试它。在此期间我的操作规则是:让会话运行的时间短于上下文窗口所允许的长度,而不是尽其所能地长。无论真正的机制最终是什么,这都是一份廉价的保险。
含义3:”静态技能即死技能”的论点需要一条脚注。我本周早些时候写了Static Skills Are Dead Skills,主张除非你构建一个轨迹反馈循环,否则技能在发布的那一刻就会停止改进。那个论点假设失败模式是缺失——缺少聚合、缺少模式检测器、缺少演化器。将ImplicitMemBench与那篇早期文章对照阅读,我想标注一个可能叠加在其之上的第二失败模式:即便有轨迹驱动的技能更新,如果首次尝试行为是由更接近隐式记忆层的东西驱动的,那么落入技能文件(显式声明性记忆)的更新也可能无法干净地传导到首次尝试的自动行为。我不知道确实如此——论文并未测试技能更新——但这是我写那篇早期文章时没有的一个顾虑,我将其标注为顾虑而非结论。
含义4:Agent质量的测量问题可能正在变得更困难。大多数现有的Agent评估要么测量功能性任务完成(Agent是否解决了问题),要么测量显式事实回忆(Agent是否记得你告诉它的)。ImplicitMemBench在自己的协议上引入了第三个维度:隐式启动下的首次尝试自动行为。如果这个维度最终在生产中事关重大——我不知道是否如此,论文也没有测试——那么任何针对Agent工作的严肃质量循环都需要一个测量钩子,而今天大多数循环都没有。我把这当作我自己质量系统的一个TODO,而不是给你的处方。
实际应该做什么
本节中没有任何内容是论文所开出或测试过的。这是我的解读——从我自己之前的论点出发,利用ImplicitMemBench作为另一块证据——关于这些发现对针对当前框架构建的实践者意味着什么。请相应地贴标签。
停止假设显式固定就足够了。继续写SOUL.md、AGENTS.md、CLAUDE.md和记忆文件——但把它们当作必要而非充分。我正在更新的是我自己”如果它在系统提示里,它就成立”的默认假设。论文并未测试那个假设;它测试的是相邻的问题,并报告了让我想比昨天更松弛地持有自己假设的分数。
有意地缩短会话。民间观察是Agent在长会话中会变差。我一直在用的民间解释是”上下文压力”。ImplicitMemBench并非一项关于会话长度的研究——它使用了受控的学习/启动-干扰-测试协议,而非长时运行的生产会话1——但它所命名的机制(隐式启动和经典条件反射在没有检索时落地)是那种民间现象的一种候选替代解释。我正在采用的操作规则是:当一个会话正在漂移时,不要用更多的显式更正去与之抗争——/new一下会话,从头开始。无论漂移是上下文窗口压力、隐式启动还是其他什么,干净的会话都会重置其中真正的原因。
把抑制视为难以在提示中强制执行。如果你需要你的Agent不要做某件事,不要指望告诉过它就够了。构建一个结构性护栏——一个linter、一个工具前钩子、一个沙箱策略、一个拒绝调用的工具——在代码层执行禁止。我的Jiro质量循环论点一直是硬闸必须出于某种原因位于模型之外;我在这篇论文之前就已经持有这个立场。ImplicitMemBench新增了一个具体的模式(17.6%的总体抑制数字1),这与我一直在做的论证相一致,尽管论文本身并未测试提示或Agent框架,我也不想过度主张它证明了这一立场。
审计上下文启动了什么,而不只是它有多少token。token计数是每个人都拥有的测量指标。如果隐式启动框架是一个有用的视角——我把它当作一个我想测试的假设,而非既定结果——那么一个塞满叙事性用户角色内容的20k token上下文,可能比一个塞满结构化代码的60k token上下文更能把首次尝试行为推向叙事性输出。我还没有用于那种内容维度审计的工具,我也不确定有没有人有。最小可行版本是:看看你最近的会话,问:”一个阅读这个上下文的人会被启动朝向什么?”那个问题是否真的能预测Agent行为是实证问题,我不会假装论文已经对此做出了判断。
记录首次尝试的处置,而不只是最终处置。如果你正在针对你的技能运行任何形式的轨迹捕获,请把”Agent首先尝试了什么”与”Agent在更正后落到了什么上”分开。ImplicitMemBench的首次尝试评分协议1是关于这种分离为何重要的方法论论证:最终处置衡量的是Agent加上更正循环,而首次尝试衡量的是在外部反馈之前Agent实际生产出了什么。对于任何用户体验依赖于首次反应落点正确的质量循环,你都需要首次尝试的数字,而今天几乎没有什么工具会单独记录它。
常见问题
ImplicitMemBench是否专门测试了某个Agent框架?
没有。它直接在17个LLM上以300项基准进行测试,采用学习/启动-干扰-测试协议并使用首次尝试评分。1 它不是一个框架基准。它没有评估Claude Code、Cursor、Codex、Hermes或任何生产级Agent循环。本文中我从基准结果到Agent框架生产行为所作的映射是我的延伸,在全文中已如此标注,并非论文的发现。
17.6%对比75.0%的不对称性是按模型划分的结果,还是一个总体结果?
摘要将这种不对称性描述为作者对跨模型总体基准结果分析的一部分,并将其标记为”普遍瓶颈”的证据。1 我将其解读为:这种不对称性在所测试的17个模型中一致地出现,具体的数字反映的是总体模式。摘要没有公布逐模型的分解,我也不会去编造一个。如需完整的逐模型分解,请以论文为准。
为什么这对生产级Agent比对现有基准更重要?
这一点我持部分保留意见。ImplicitMemBench本身使用了一个多步协议(学习/启动-干扰-测试),1 所以这个基准并非”单次射击”——我不想重复关于基准的那种粗心套话。在我看来——作为实践者的推测,而非论文的发现——值得标注的是:人们关注的大多数其他Agent评估测量的要么是功能性任务完成,要么是显式事实回忆,这两者都对模型有利。如果这篇论文报告的隐式记忆差距在其自身协议之外仍是真实的(我不知道是否如此),那些其他评估就遗漏了用户在长时运行会话中实际体验到的生产行为的一个维度。我把这当作一个可检验的假设,而非结论。
这与你在Hermes指南中关于SOUL.md的建议矛盾吗?
不矛盾——它增加了一个边界条件。Hermes指南推荐SOUL.md作为主要身份固定项,因为显式声明性记忆在它所擅长的事情上仍是承重的:身份的一致回忆、可审计的版本控制、在直接询问下的可预测行为。Hermes指南没有涵盖的——因为在这篇论文发布之前没有任何东西可以测量它——是显式身份固定不会自动传导到在启动和经典条件反射下的首次尝试自动行为。你仍然需要SOUL.md。你也需要它之外的结构性护栏。
提示工程能修复这些吗?
诚实的回答是:论文并未测试把提示作为缓解策略,所以我无法以论文的权威告诉你。我能说的是:作者把该差距定性为”需要超越参数规模的架构创新”,1 这比”更好的提示会有帮助”是更强的主张,但也不完全等同于”没有提示能帮上忙”。具体到抑制那一面(17.6%的总体数字),我的实践者直觉——你应该把它相对论文本身打折扣——是:模型之外的结构性护栏比提示指令是更安全的选择。但那是我,不是论文。
这是最近常见到的那种”记忆基准”论文之一吗?
不是,而且论文明确地把自己与它们区分开。摘要的框架是:现有的记忆基准评估的是事实的显式回忆——给模型一个事实,让模型取回它。ImplicitMemBench测量的是完全不同的东西:没有任何检索步骤的自动行为适应。1 那是论文的贡献,也是它被ACL 2026主会议接收的原因。1
这相对于你早期关于Agent记忆的文章位于何处?
这篇文章是Static Skills Are Dead Skills的直接姊妹篇。那篇早期文章论证了技能需要轨迹聚合才能保持生命力,我当时假设失败模式是纯粹的缺失——只要你能拿到轨迹数据并运行一个模式检测器,就没事了。ImplicitMemBench告诉我还有一种叠加其上的第二失败模式:即便有完美的轨迹驱动技能更新,首次尝试行为也可能不会反映该更新,因为更新落入了显式记忆,而决策是由隐式记忆驱动的。那篇早期文章关于它所主张的内容仍然是正确的;这篇文章是对它不知道去主张的内容的一个更新。
这会不会是一种测量产物?
有可能。这篇论文是新的——2026年4月9日提交,被ACL 2026主会议接收——单个基准测量其特定协议的产物与测量真实现象一样容易。1 我不会假装不是这样。我认为它不仅仅是产物的原因在于:它所描述的失败模式——Agent快速强化偏好而无法取消学习失败——是一年多以来我一直在观察但没有为它命名的民间经验。该基准不必完美校准,其结果的方向本身就值得实践者据以行动。
参考文献
-
Chonghan Qin, Xiachong Feng, Weitao Ma, Xiaocheng Feng, Lingpeng Kong, “ImplicitMemBench: Measuring Unconscious Behavioral Adaptation in Large Language Models,” arXiv:2604.08064 [cs.AI],2026年4月9日提交,被ACL 2026主会议接收。作为下列内容的主要来源:LLM Agent中显式与隐式记忆的框架(“现有的针对LLM Agent的记忆基准评估事实的显式回忆,却忽视了经验在没有有意识取回的情况下变成自动行为的隐式记忆”);基准的三个认知基础构念(程序性记忆 = “干扰后的一次性技能习得”;启动效应 = “通过配对的实验/控制实例产生主题驱动的偏差”;经典条件反射 = “条件刺激——非条件刺激(CS–US)关联塑造最初的决策”);基准设计(300项套件,统一的学习/启动-干扰-测试协议,采用首次尝试评分);评估覆盖(17个模型);具体的顶尖选手分数(DeepSeek-R1 65.3%,Qwen3-32B 64.1%,GPT-5 63.0%,无模型整体超过66%,全部被描述为”远低于人类基线”);不对称性发现(“戏剧性不对称(抑制17.6%对偏好75.0%)和需要超越参数规模的架构创新的普遍瓶颈”);以及重新定义的短语(“将评估从’Agent回忆什么’重新定义为’它们自动执行什么’”)。本文中所有直接引语均来自已发布的摘要。关于基准发现如何应用于生产级Agent框架的主张,包括
SOUL.md、AGENTS.md、Claude Code、Hermes、MCP以及会话长度效应,均为我自己的框架,在全文中已清晰标注,并未归于论文。 ↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩