您的Agent擁有您從未寫過的記憶
今天我大部分時間都在為Hermes Agent撰寫一份實務參考指南。其中一個關鍵章節是關於SOUL.md——您用來固定Agent身份的檔案。聲音、語調、偏好、行為護欄。該章節的整體前提是:您將身份寫在那裡,Agent在每個系統提示的開頭讀取它,然後Agent相應地運作。顯式記憶。宣告式。可稽核。版本控制。正確的記憶類型,是認真實務工作者應該關心的那種。
昨天arxiv上發布了一篇論文,我在今晚的訊號掃描中捕捉到,閱讀後讓我對SOUL.md的前提比今天稍早時更加鬆動。1
這篇論文名為ImplicitMemBench: Measuring Unconscious Behavioral Adaptation in Large Language Models。1作者將其描述為LLM中隱式記憶的第一個系統性基準——這種記憶(按其框架)塑造Agent自動執行的內容,有別於塑造其有意識回憶內容的顯式記憶。1頂尖表現者得分低於66%。1作者還報告了該得分內部的「戲劇性」不對稱,1我將在下文以適當的保留態度來展開說明。
TL;DR
現有的記憶基準測量顯式回憶——給定您告訴模型的一個事實,它能否檢索。ImplicitMemBench測量的是不同的記憶系統:那個(據作者所言)塑造自動行為「無需有意識檢索」的系統,取自標準認知科學建構(程序性記憶、促發、古典制約)。1在一個300題首次嘗試評分的基準上,作者測試的模型中沒有一個整體超過66%:DeepSeek-R1得分65.3%、Qwen3-32B 64.1%、GPT-5 63.0%,作者將頂尖表現者描述為「遠低於人類基準」。1頭條數字並非全部——摘要還報告了「戲劇性」的不對稱:抑制17.6%對比偏好75.0%,約4倍的差距,被定性為「普遍瓶頸」,作者表示需要「超越參數規模的架構創新」。1我的解讀是——附帶摘要並未公布這兩個數字背後完整方法論的保留——這種不對稱性與我在Agent工作中一直觀察到的一種民間傳聞式失敗模式一致:系統快速強化近期看到的偏好,卻無法忘掉近期看到的失敗。如果這個解讀正確,它會將關於Agent身份、安全性和技能演化的對話從「您在提示中放了什麼?」重新定位為「會話可能悄悄塑造了什麼,而您的顯式固定項無法稽核?」這個重新定位是我對論文的延伸,而非論文本身的主張。
關鍵重點
以下要點是我對論文發現對實務工作者的意義的解讀,而非論文本身的主張。該論文在一個300題認知科學基準上測試了17個LLM;它並未評估生產Agent框架或提示策略。我會相應地標注每個要點。
- 延伸:在
SOUL.md、AGENTS.md、CLAUDE.md、系統提示或持久記憶檔案中固定身份屬於顯式宣告記憶,現有基準已顯示模型在這方面表現良好。ImplicitMemBench測量的是完全不同的記憶系統,而模型在這上面的得分低於66%。1實務上的含義——顯式身份固定可能不會傳播到首次嘗試的自動行為——是我的推論,而非論文的主張。 - 延伸:17.6%對75.0%的不對稱性,如果能在基準之外推廣,將預測Agent會快速吸收近期看到的偏好,卻難以停止重複近期看到的失敗。論文報告了這兩個數字並標注為「戲劇性」和「普遍性」,1但並未公布關於「偏好」和「抑制」如何操作化的逐項方法論,也未在Agent框架中測試此模式。生產行為的解讀是我的。
- 延伸:每個從工具呼叫、MCP回應、爬取的網頁或提示注入嘗試進入上下文視窗的token都是情境內的行為影響——在權重更新意義上並非訓練,但對下一次首次嘗試回應的影響是顯式提示層無法乾淨稽核的。論文並未直接提出此主張;我是在將隱式記憶框架延伸到上下文視窗內容。
- 論文主張:17模型評估揭示了「嚴重限制」、「戲劇性不對稱」和「需要超越參數規模的架構創新的普遍瓶頸」。1作者將差距定性為架構性的。我將此解讀為反對「更多提示工程將修復此問題」的弱證據,但論文並未專門測試提示緩解措施,因此請將該解讀視為我的假設,而非他們的。
論文測量的內容
論文的框架是,現有的LLM Agent記憶基準「評估事實的顯式回憶,卻忽略了經驗在無需有意識檢索的情況下成為自動化行為的隱式記憶」。1他們識別出的差距是:「有效的助理必須自動應用已學習的程序或避免失敗的動作,而不需要明確提醒」。1如果您的Agent避免錯誤的唯一方式是每個回合重新告訴它不要犯錯,那您並非在建立隱式記憶;您是在每次請求都支付顯式記憶的成本。
ImplicitMemBench測試了三個直接源自認知科學對非宣告記憶敘述的建構,引自摘要:1
- 程序性記憶——「在干擾後一次性的技能習得」。模型在被示範過一次如何做某事之後,能否在其他指令介入後真正再次執行?這是讓人類學會騎單車的記憶系統:您不是回想如何騎,您是在做騎車,即使多年沒碰單車。
- 促發——「透過成對的實驗/控制實例產生的主題驅動偏見」。看到某類事物是否會讓模型在下一個不相關的任務上更可能產生該類事物,而模型本身並未意識到促發發生?
- 古典制約——「塑造首次決策的制約刺激—非制約刺激(CS–US)關聯」。如果模型曾接觸到刺激—反應配對,該配對是否會在一個全新的任務上表現為偏差,而CS和US都不是問題的重點?
作者在統一的「學習/促發-干擾-測試協議與首次嘗試評分」下使用300題套組。1首次嘗試評分很重要。一個在被告知出錯後能自我修正的模型沒問題——但此處的研究問題是記憶是否塑造了自動的首次回應。如果首次回應錯誤,而修正僅在明確反饋後才發生,那麼(按論文定義的)隱式記憶系統在該題上失敗了。作者用一句話總結他們的貢獻,我想直接引用:該基準「將評估從『Agent回憶什麼』重新定位為『它們自動執行什麼』」。1
結果
頭條數字:「沒有模型整體超過66%」。1
- DeepSeek-R1——65.3%
- Qwen3-32B——64.1%
- GPT-5——63.0%
上述頂尖表現者被描述為「遠低於人類基準」,儘管摘要並未公布確切的人類基準數字或完整的逐模型排名。1論文總共評估了17個模型。1
頭條隱藏了次要結果。作者寫道,「分析揭示了戲劇性的不對稱(抑制17.6%對比偏好75.0%)以及需要超越參數規模的架構創新的普遍瓶頸」。1我想在這裡謹慎地說明這些數字的含義——摘要並未對這兩個數字的計算方式給出完整的方法論細節,所以我對它們的解讀是從摘要措辭的推斷,而非論文內部定義的讀解。標注此保留之後:
- 偏好:75.0%(論文數字)。我的解讀,待完整論文驗證:這個數字看起來與模型相對擅長展示它們被隱式地拉向某個刺激一致——促發與CS–US配對使行為偏向某特定方向,約四分之三的時間正確落地。
- 抑制:17.6%(論文數字)。我的解讀,待完整論文驗證:這個數字看起來與模型在展示它們被隱式地推離某個刺激方面表現戲劇性地差一致——「別再那樣做」的訊號正確落地的時間少於五分之一。我從「抑制」一詞和論文對古典制約的框架推斷行為意義;摘要並未詳細說明操作化。
作者明確將這種不對稱標注為「戲劇性」,並歸因於「普遍瓶頸」,1而普遍一詞很重要:作者將其呈現為貫穿17模型評估的模式,而非單一模型的產物。我不會聲稱此瓶頸是「提示問題」或「非提示問題」——論文並未測試提示作為緩解措施,說其中任何一個都會超出摘要所支持的範圍。
不對稱性實際上意味著什麼
我想精確說明我在此處的主張,因為這部分容易過度解讀基準。
論文所顯示的內容。在一個300題認知基礎基準上,按首次嘗試答案評分,LLM在展示隱式抑制方面比隱式偏好戲劇性地差,約差四倍,橫跨所有測試的模型。作者稱此為無法透過規模擴展修復的普遍瓶頸。
我的主張——與論文分開。此不對稱模式對映到我在自己Agent工作中觀察了數月、但之前沒有名稱的一種失敗模式。Agent框架(依我經驗)似乎出奇地擅長吸收指向首選風格、工具或方法的上下文——Agent的行為快速漂向您最近餵給它的任何內容。它們似乎出奇地不擅長不重複剛剛看到發生的失敗——Agent嘗試相同的破損命令、相同的錯誤工具、相同的過時路徑,即使這些在同一會話中失敗過。這是民間傳聞,不是測量——是我的實務工作者印象,而非受控研究。ImplicitMemBench數字與該民間傳聞一致,這就是我關心這篇論文的原因。它們本身並不驗證該民間傳聞——而且我不想聲稱論文給了我的民間傳聞「一個數字」,因為論文測量的東西比我觀察到的任何東西都更嚴謹、更受控。
我不主張的內容。我並未聲稱ImplicitMemBench專門測量了Agent框架行為或生產Claude Code/Cursor/Codex工作流程。它沒有。它測量17個模型對比一個結構化的認知科學協議。從基準到生產行為的對映是我的延伸,已如實標注,我不希望任何讀者認為論文為我提出了該主張。
在這些標注就位後:基準所劃出的區別——對指令的顯式回憶與在促發/制約下的自動首次嘗試行為——是我想讓自己的Agent工作開始認真對待的區別。您可以告訴Agent「不要做X」,而顯式回憶很可能會工作——它能在被詢問時把「不要做X」複述給您。ImplicitMemBench測量的是不同的東西:在沒有任何明確提醒的情況下,Agent是否會在下一個首次嘗試決策上自動不做X?我不知道生產Agent框架是否在野外的首次嘗試行為上繼承了基準的17.6%整體抑制數字——該對映未經測試,我不會聲稱。我主張的是更弱的東西:「能回憶規則」與「自動執行規則」之間的區別比我一直對待它的方式更鋒利,而論文的結果是原因之一。
SOUL.md幻覺
我今天撰寫的Hermes指南將SOUL.md視為Agent的主要身份固定點。每個系統提示中的#1槽位。語調、聲音、護欄。該指南做出了過去兩年所有Agent持久記憶系統都做過的論點的一個版本:如果您將身份放在正確的宣告記憶檔案中,Agent的行為將與之保持一致。
該論點並不錯,但ImplicitMemBench給了我一個理由對它的成立程度不那麼有信心。SOUL.md是顯式宣告記憶——現有基準已經測量且模型已經表現良好的記憶系統。模型可以按需回憶其內容;這是容易的部分。更難的問題,也是我認為SOUL.md並未回答的問題是:顯式固定項是否有意義地覆蓋了隱式促發、制約和首次嘗試偏差——這些會在會話填滿工具輸出、檢索到的文件、先前助理回合、使用者修正以及所有在沒有檢索步驟的情況下塑造首次嘗試行為的其他內容時累積?我不知道。論文並未測試SOUL.md或任何等效的身份固定檔案,我不想聲稱它為我回答了該問題。
以下是擔憂,以假設而非發現的形式呈現。如果您在SOUL.md中固定一個身份說「簡潔且具事實性」,然後會話被使用者的長篇敘事風格對話串填滿,隱式記憶框架預測下一回合的首次嘗試行為應部分被促發所塑造,即使顯式固定項在回憶層面仍然成立。至於促發是否實際上在生產中平均勝出——我無法從這篇論文證明,我也不會嘗試。SOUL.md幻覺,依我所命名:您可能固定了身份的回憶而非其自動執行,而這兩者不是同一回事。
我並不是說不要寫SOUL.md。我還會繼續寫——Hermes指南也仍將推薦它——因為顯式宣告記憶對其擅長的事情是關鍵的。我正在說的——清楚標注為我自己的外推——是:如果您正在建立任何依賴於Agent不重複錯誤、不漂向近期看到的風格、不被您未預期的促發訊號拉離任務的東西,我不會僅靠SOUL.md押上可靠性預算,也不會假設讓SOUL.md變得更長或更具體就能解決它。論文使用了「超越參數規模的架構創新」這個措辭,1我謹慎地將其解讀為反對「提示工程緩解措施會關閉基準所測量差距」的弱證據。論文本身並未測試提示工程緩解措施,所以我無法說它證明了它們會失敗;我只能說它沒有給我它們能工作的信心。
論文沒有說的(以及我在補充的)
這是一篇基準論文。它測量了一個差距,量化了它,主張該差距是架構性的。它並未規定特定的框架層級緩解措施,也未對任何特定的生產Agent系統做出主張。本節中的所有內容都是我的框架,而非論文的。
含義1:上下文視窗中的每個token都是情境內的行為影響。如果隱式記憶框架在基準之外成立——我在此是在推測,不是在報告——那麼從工具呼叫、檢索文件或中介回應進入上下文視窗的每個token都在以閱讀顯式提示無法乾淨稽核的方式塑造下一回合的首次嘗試行為。我之前寫過靜默出口攻擊面(攜帶注入指令的不受信任工具輸出)以及您的Agent擁有您未審查的中間人(在您的客戶端與模型之間的不受信任LLM API路由器)。這兩篇文章都未聲稱隱式記憶是因果機制——它們聲稱提示注入和供應鏈危害是機制。ImplicitMemBench為這些攻擊以該方式工作的原因提供了一個可能的額外視角:即使敵對工具輸出或受損路由器從未明確「告訴」Agent該做什麼,它返回的內容也可能在促發Agent的下一個決策。這是ImplicitMemBench一致的假設,而非論文報告的發現。
含義2:會話長度可能是可靠性風險,而不僅僅是成本風險。民間傳聞的觀察是Agent在長會話中變差,民間傳聞的解釋是上下文視窗壓力。ImplicitMemBench根本不是會話長度研究——它是在學習/促發-干擾-測試協議下的300題首次嘗試評分基準,1測量的是與「生產會話中30個回合發生什麼」不同的東西。我不想假裝它直接對映到生產會話。我所建議的——作為假設——是論文所命名的機制(隱式促發和古典制約在沒有檢索的情況下落在首次嘗試決策上)是民間傳聞漂移的一個候選替代解釋,儘管論文並未在該框架下測試它,但值得認真對待。我在此期間的操作規則是:讓會話的運行短於上下文視窗允許的長度,而不是使用到極限。這是對真正機制的便宜保險。
含義3:「靜態技能即死技能」的論點需要一個註腳。我本週早些時候寫了靜態技能即死技能,主張技能在發布的那一刻就停止改進,除非您建立軌跡反饋迴路。該論點假設失敗模式是缺席——缺席聚合、缺席模式偵測器、缺席演化器。將ImplicitMemBench對照該早期貼文閱讀,我想標記一種可能疊加在上面的第二種失敗模式:即使有軌跡驅動的技能更新,落在技能檔案(顯式宣告記憶)中的更新也可能無法乾淨地傳播到首次嘗試的自動行為,如果首次嘗試行為是由更接近隱式記憶層的東西驅動的。我不知道是否如此——論文並未測試技能更新——但這是我寫早期貼文時沒有的擔憂,我將其標記為擔憂而非結論。
含義4:Agent品質的測量問題可能正在變得更困難。大多數現有的Agent評估測量功能任務完成(Agent是否解決了問題)或顯式事實回憶(Agent是否記得您告訴它的內容)。ImplicitMemBench在其自己的協議上引入了第三個維度:在隱式促發下的首次嘗試自動行為。如果該維度結果在生產中很重要——我不知道,論文也並未測試——任何針對Agent工作的嚴肅品質迴路都需要一個測量掛鉤,而今天大多數迴路沒有。我將其視為我自己品質系統的TODO,而非對您的處方。
實際該做什麼
本節中沒有任何內容是論文所規定或測試的。這是我的解讀——從我自己先前的論點向前推進,使用ImplicitMemBench作為額外的一片證據——關於這些發現對針對當前框架建立的實務工作者意味著什麼。相應地標注。
停止假設顯式固定項是足夠的。繼續撰寫SOUL.md、AGENTS.md、CLAUDE.md和記憶檔案——但將它們視為必要但不充分。我正在更新的是我自己「如果在系統提示中,它就成立」的預設假設。論文並未測試該假設;它測試了相鄰問題並報告了使我想比昨天更鬆動地持有自己假設的得分。
有意地縮短會話。民間傳聞的觀察是Agent在長會話中變差。我一直使用的民間傳聞解釋是「上下文壓力」。ImplicitMemBench不是會話長度的研究——它使用受控的學習/促發-干擾-測試協議,而非長時間運行的生產會話1——但它所命名的機制(在沒有檢索的情況下落下的隱式促發和古典制約)是該民間傳聞的候選替代解釋。我採用的操作規則:當會話漂移時,不要用更多顯式修正來對抗它——/new重置會話並重新開始。無論漂移是上下文視窗壓力、隱式促發還是其他,乾淨的會話都會重設實際原因。
將抑制視為難以在提示中執行。如果您需要您的Agent不做某事,不要依賴您已經告訴它不要做。建立結構性防護——linter、前置工具hook、沙箱策略、拒絕呼叫的工具——在程式碼層級執行禁令。我的Jiro品質迴路論點一直是硬性閘門必須在模型外部是有原因的;我在這篇論文之前就已持該立場。ImplicitMemBench增加了一個特定的模式(17.6%整體抑制數字1),它與我一直在闡述的論點一致,儘管論文本身並未測試提示或Agent框架,我也不想過度聲稱它證明了該立場。
稽核上下文所促發的內容,而不僅是有多少token。Token計數是每個人都有的測量。如果隱式促發框架是有用的視角——我將其視為我想測試的假設,而非已決議的結果——那麼充滿敘事使用者角色內容的2萬token上下文可能比充滿結構化程式碼的6萬token上下文更能將首次嘗試行為塑造為敘事輸出。我還沒有針對此類內容軸稽核的工具,我也不確定是否有人有。最小可行版本是:查看您最近的會話並問「閱讀此上下文的人會被促發向什麼?」該問題是否實際上能預測Agent行為是經驗性的,我不會假裝論文決定了它。
記錄首次嘗試結果,而不僅是最終結果。如果您正在對您的技能運行任何形式的軌跡捕捉,請將「Agent首先嘗試了什麼」與「Agent在修正後落定到什麼」分開。ImplicitMemBench的首次嘗試評分協議1是為什麼該分離很重要的方法論論點:最終結果測量的是Agent加上修正迴路,而首次嘗試測量的是Agent在外部反饋之前實際產生的內容。對於任何使用者體驗取決於首次回應正確落地的品質迴路,您都需要首次嘗試數字,而今天幾乎沒有任何東西單獨記錄它。
FAQ
ImplicitMemBench是否專門測試任何Agent框架?
否。它在一個300題基準上直接測試17個LLM,使用具首次嘗試評分的學習/促發-干擾-測試協議。1它不是框架基準。它並未評估Claude Code、Cursor、Codex、Hermes或任何生產Agent迴路。我在本文中從基準結果到Agent框架生產行為所作的對映是我的延伸,全文如實標注,並非論文的發現。
17.6%對比75.0%的不對稱性是逐模型結果還是總體結果?
摘要將不對稱性描述為作者對跨模型整體基準結果分析的一部分,並將其標注為「普遍瓶頸」的證據。1我將其解讀為不對稱性在測試的17個模型中一致出現,具體數字反映了整體模式。摘要並未發布逐模型細分,我也不會發明一個。完整的逐模型細分請以論文為準。
為何這對生產Agent可能比對現有基準更重要?
在這點上部分保留。ImplicitMemBench本身使用多步驟協議(學習/促發-干擾-測試),1所以這個基準並非「單次」——我不想重複對基準常見的粗心論調。依我所見——作為實務工作者的推測,而非論文的發現——值得標記的是,人們查看的大多數其他Agent評估測量的是功能任務完成或顯式事實回憶,這兩者都對模型有利。如果這篇論文報告的隱式記憶差距在其自身協議之外是真實的(我不知道是否如此),那些其他評估就遺漏了使用者在長時間運行會話中實際體驗到的生產行為的一個維度。我將其視為可測試的假設,而非結論。
這是否與您在Hermes指南中的SOUL.md建議相矛盾?
否——它增加了一個邊界條件。Hermes指南推薦SOUL.md作為主要身份固定點,因為顯式宣告記憶對它擅長的事情仍然是關鍵的:一致的身份回憶、可稽核的版本控制、直接詢問下的可預測行為。Hermes指南沒有涵蓋的——因為在這篇論文發布之前沒有東西可以測量它——是顯式身份固定項不會自動傳播到在促發和古典制約下的首次嘗試自動行為。您仍然想要SOUL.md。您也想要在它之外的結構性防護。
提示工程能修復任何這些嗎?
誠實的答案是論文並未測試提示作為緩解策略,所以我無法以論文權威告訴您。我可以說的是:作者將差距定性為「需要超越參數規模的架構創新」,1這是一個比「更好的提示會有幫助」更強的主張,但也不完全是「沒有提示能幫助」。具體針對抑制面(17.6%整體),我的實務工作者直覺——您應該相對論文本身打折扣——是模型外部的結構性防護比提示指令更安全。但那是我,不是論文。
這是我最近看到的很多「記憶基準」論文之一嗎?
否,而論文明確將自己與它們區分開。摘要的框架是現有記憶基準評估事實的顯式回憶——給模型一個事實,要求模型檢索它。ImplicitMemBench測量的是完全不同的東西:在沒有任何檢索步驟的情況下自動的行為適應。1這就是論文的貢獻,以及它被ACL 2026主會議接受的原因。1
這相對於您先前關於Agent記憶的貼文處於什麼位置?
本文是靜態技能即死技能的直接同伴。該早期貼文主張技能需要軌跡聚合以保持活躍,我假設失敗模式是純粹的缺席——如果您能夠獲得軌跡資料並運行模式偵測器,您就沒問題。ImplicitMemBench告訴我還有疊加在上面的第二種失敗模式:即使有完美的軌跡驅動技能更新,首次嘗試行為可能也不會反映該更新,因為更新落在顯式記憶中,而決策是由隱式記憶驅動的。早期貼文對它所主張的內容仍然正確;本文是對它不知道要主張的內容的更新。
這會不會是測量產物?
可能。論文是新的——2026年4月9日提交,被ACL 2026主會議接受——單一基準可以像測量真實現象一樣容易地測量其特定協議的產物。1我不會假裝相反。我認為它不只是產物的原因是它所描述的失敗模式——Agent快速強化偏好同時無法忘掉失敗——是我已經觀察超過一年而沒有名稱的民間傳聞。基準不必完美校準,結果的方向就是實務工作者應該採取行動的東西。
參考文獻
-
Chonghan Qin, Xiachong Feng, Weitao Ma, Xiaocheng Feng, Lingpeng Kong, “ImplicitMemBench: Measuring Unconscious Behavioral Adaptation in Large Language Models,” arXiv:2604.08064 [cs.AI],2026年4月9日提交,獲ACL 2026主會議接受。主要來源:LLM Agent中顯式對比隱式記憶的框架(「LLM Agent的現有記憶基準評估事實的顯式回憶,卻忽略了經驗在無需有意識檢索的情況下成為自動化行為的隱式記憶」);基準的三個認知基礎建構(程序性記憶=「在干擾後一次性的技能習得」;促發=「透過成對的實驗/控制實例產生的主題驅動偏見」;古典制約=「塑造首次決策的制約刺激—非制約刺激(CS–US)關聯」);基準設計(300題套組,統一的學習/促發-干擾-測試協議與首次嘗試評分);評估範圍(17個模型);具體的頂尖表現者得分(DeepSeek-R1 65.3%、Qwen3-32B 64.1%、GPT-5 63.0%,沒有模型整體超過66%,全部被描述為「遠低於人類基準」);不對稱發現(「戲劇性不對稱(抑制17.6%對比偏好75.0%)以及需要超越參數規模的架構創新的普遍瓶頸」);以及重新定位措辭(「將評估從『Agent回憶什麼』重新定位為『它們自動執行什麼』」)。本文中所有直接引用均來自已發布的摘要。關於基準發現如何適用於生產Agent框架(包括
SOUL.md、AGENTS.md、Claude Code、Hermes、MCP和會話長度效應)的主張是我自己的框架,全文清楚標注為此,並非歸屬於論文。 ↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩