你的 Agent 擁有你未曾寫下的記憶

Q: ImplicitMemBench 是否具體測試了任何 agent 框架？

沒有。它在一個 300 題的基準測試中，以學習/促發-干擾-測試協定和首次作答計分方式，直接測試了 17 個 LLM。1 它不是一個框架基準測試。它沒有評估 Claude Code、Cursor、Codex、Hermes 或任何生產 agent 迴路。我在本文中從基準測試結果到 agent 框架生產行為所做的映射是我的延伸，已在全文中如此標註，並非論文的發現。

Q: 17.6% 對 75.0% 的不對稱性是逐模型結果還是聚合結果？

摘要將不對稱性描述為作者對跨模型整體基準測試結果分析的一部分，並將其標記為「普遍瓶頸」的證據。1 我的解讀是，這種不對稱性在 17 個受測模型中一致出現，具體數字反映的是聚合模式。摘要並未公布逐模型分解，我也不打算自行捏造。完整的逐模型分解請參閱論文。

Q: 為什麼這對生產 agent 的重要性可能大於對現有基準測試？

這一點需要部分保留。ImplicitMemBench 本身使用多步驟協定（學習/促發-干擾-測試），1 所以它並非「單次測試」的基準。我不想重複那種常見的草率說法。值得標記的是（作為實務者的推測，而非論文的發現）：人們關注的大多數其他 agent 評估量測的要麼是功能性任務完成，要麼是顯式事實回憶——這兩者都對模型有利。如果論文報告的隱式記憶差距在其自身協定之外確實存在（我不知道是否如此），那麼那些其他評估就遺漏了使用者在長時間運行的工作階段中實際體驗到的一個生產行為維度。我將此視為一個可測試的假說，而非結論。

Q: 這是否與你在 Hermes 指南中的 SOUL.md 建議相矛盾？

不矛盾。它添加了一個邊界條件。Hermes 指南推薦 SOUL.md 作為主要身份錨定，因為顯式宣告記憶在其擅長的領域仍然不可或缺：一致的身份回憶、可稽核的版本控制、在直接提問下可預測的行為。Hermes 指南沒有涵蓋（因為在這篇論文發表之前無從量測）顯式身份錨定不會自動傳導到促發和古典制約下的首次自動行為這一事實。你仍然需要 SOUL.md。你同時也需要它之外的結構性防護。

Q: 這是不是我最近看到很多的那類「記憶基準測試」論文？

不是，論文明確地將自己與它們區分開來。摘要的框架是：現有的記憶基準測試評估的是對事實的顯式回憶：給模型一個事實，要求模型檢索它。ImplicitMemBench 量測的是完全不同的東西——無需任何檢索步驟的自動行為適應。1 這個區別是論文的貢獻，也是它獲選為 ACL 2026 Main Conference 的原因。1

3分鐘閱讀

From the guide: Claude Code Comprehensive Guide

LLM 會發展出無意識的行為記憶，而現有評估完全忽略了這一點。 一篇 ACL 2026 論文發現，頂尖模型在偵測自身已習得的行為模式上得分不到 66%——這些模式在未經明確儲存的情況下跨工作階段持續存在。你所撰寫的顯式記憶（SOUL.md、CLAUDE.md）只是全貌的一半。

我今天大部分時間都在為 Hermes Agent 撰寫一份實務者參考手冊。其中一個關鍵章節涵蓋了 SOUL.md——用來錨定 agent 身份的檔案。語氣、風格、偏好、行為護欄，全都寫在裡面。整個章節的前提是：你把身份寫在那裡，agent 在每次系統提示的開頭讀取它，然後據此行動。顯式記憶。宣告式。可稽核。版本控制。正確的記憶類型——嚴謹的實務者理應重視的那種。

昨天有一篇論文在 arxiv 上發表，我今晚在訊號掃描中注意到了它，讀完之後，我對 SOUL.md 這個前提的信心比今天稍早時鬆動了不少。¹

這篇論文名為 ImplicitMemBench: Measuring Unconscious Behavioral Adaptation in Large Language Models。¹ 作者將其描述為首個針對 LLM 隱式記憶的系統性基準測試：在他們的框架中，這種記憶塑造的是 agent 自動執行的行為，有別於塑造其有意識回憶的顯式記憶。¹ 表現最佳的模型得分仍低於 66%。¹ 作者還報告了該分數內部存在「顯著的」不對稱性，¹ 我會在下文以適當的保留態度加以剖析。

摘要

現有的記憶基準測試量測的是顯式回憶：給定你告訴模型的事實，它能否檢索出來。ImplicitMemBench 量測的是一個不同的記憶系統——根據作者的說法，這個系統塑造「無需有意識檢索」的自動行為，其構念取自標準的認知科學框架（程序性記憶、促發效應、古典制約）。¹ 在一項 300 題、以首次作答計分的基準測試中，作者測試的模型中沒有任何一個整體得分超過 66%：DeepSeek-R1 得 65.3%、Qwen3-32B 得 64.1%、GPT-5 得 63.0%，作者形容頂尖表現者「遠低於人類基準線」。¹ 但這個總分只道出了一半的故事。摘要還報告了一項「顯著的」不對稱性：抑制能力 17.6% 對比 偏好能力 75.0%，約 4 倍的差距，被定性為一種「普遍瓶頸」，作者認為需要「超越參數規模擴展的架構創新」。¹ 我對這個不對稱性的解讀（附帶保留——摘要並未公布這兩個數字背後的完整方法論）是：它與我在 agent 工作中長期觀察到的一種經驗法則式失敗模式一致——系統快速強化最近見到的偏好，卻無法消除最近見到的失敗。如果這個解讀成立，它會將 agent 身份、安全性和技能演化的對話，從「你在提示裡放了什麼？」重新框定為「工作階段可能正在悄悄塑造什麼，而你的顯式錨定無法稽核？」這個重新框定是我對論文的延伸，並非論文本身的主張。

關鍵要點

以下各點是我對論文發現對實務者之意涵的解讀，而非論文本身的主張。論文在一個 300 題的認知科學基準測試上測試了 17 個 LLM；它並未評估生產環境的 agent 框架或提示策略。每個要點都有相應的標註。

延伸： 在 SOUL.md、AGENTS.md、CLAUDE.md、系統提示或持久性記憶檔案中錨定身份，屬於顯式宣告記憶——現有基準測試已證明模型在這方面表現良好。ImplicitMemBench 量測的是一個完全不同的記憶系統，而模型在這個系統上的得分低於 66%。¹ 實務者層面的意涵（顯式身份錨定可能無法傳導至首次自動行為）是我的推論，並非論文的結論。
延伸： 17.6% 對 75.0% 的不對稱性，如果能推廣到基準測試之外，將預測 agent 會快速吸收最近見到的偏好，卻遲遲無法停止重複最近見到的失敗。 論文報告了這兩個數字並將其標記為「顯著」和「普遍」，¹ 但並未公布「偏好」和「抑制」如何被操作化的逐題方法論，也未在 agent 框架中測試這個模式。對生產行為的解讀是我的。
延伸： 從工具呼叫、MCP 回應、爬取的網頁或提示注入嘗試中進入上下文視窗的每一個 token，都是上下文內的行為影響。 不是任何權重更新意義上的訓練，而是對下一個首次回應的影響——顯式提示層無法乾淨地稽核的影響。論文並未直接提出這個主張；我是在將隱式記憶框架延伸到上下文視窗內容。
論文主張： 17 個模型的評估揭示了「嚴重的局限」、「顯著的不對稱性」以及「需要超越參數規模擴展之架構創新的普遍瓶頸」。¹ 作者將這個差距框定為架構性的。我將此解讀為「更多提示工程就能解決」這一說法的弱反證，但論文並未具體測試提示緩解措施，因此請將這個解讀視為我的假說，而非論文的結論。

論文量測了什麼

論文的框架是：現有的 LLM agent 記憶基準測試「評估的是對事實的顯式回憶，卻忽略了隱式記憶——經驗在無需有意識檢索的情況下成為自動化行為」。¹ 他們指出的缺口是：「有效的助手必須自動套用已習得的程序或避免失敗的動作，而無需顯式提醒。」¹ 如果你的 agent 避免錯誤的唯一方式是你每個回合都重新告訴它不要犯那個錯誤，那你依賴的不是隱式記憶，而是每次請求都在付出顯式記憶的成本。

ImplicitMemBench 測試了三個直接取自認知科學中非宣告記憶文獻的構念，引用自摘要：¹

程序性記憶： 「干擾後的一次性技能習得。」模型在被展示一次如何做某件事之後，在其他指令介入的情況下，能否在之後實際再次執行？程序性記憶讓人類學會騎腳踏車：你不是回憶怎麼騎，你是在騎，即使離開腳踏車多年之後也是如此。
促發效應： 「透過配對的實驗組／對照組實例產生的主題驅動偏誤。」看到某一類事物，是否會讓模型在下一個不相關的任務中更傾向產生那一類事物，而模型本身並未意識到促發的發生？
古典制約： 「制約刺激-非制約刺激（CS-US）配對塑造首次決策。」如果模型已接觸過某個刺激-反應配對，該配對是否會在一個全新的任務中（CS 和 US 都不是問題的重點）表現為偏誤？

作者使用了一個 300 題的套件，採用統一的「學習/促發-干擾-測試協定，以首次作答計分」。¹ 首次作答計分至關重要。一個在被告知答錯後能自我修正的模型固然不錯，但這裡的研究問題是：記憶是否塑造了自動的首次回應？如果首次回應是錯的，而修正只在顯式回饋之後才發生，那麼隱式記憶系統（按論文的定義）在該題上就是失敗的。作者用一句話總結了他們的貢獻，我想直接引用：這個基準測試「將評估從『agent 回憶了什麼』重新框定為『它們自動執行了什麼』」。¹

結果

總分：「沒有模型整體得分超過 66%。」¹

DeepSeek-R1： 65.3%
Qwen3-32B： 64.1%
GPT-5： 63.0%

以上頂尖表現者被描述為「遠低於人類基準線」，但摘要並未公布確切的人類基準線數字或完整的逐模型排名。¹ 論文共評估了 17 個模型。¹

總分掩蓋了子結果。作者寫道「分析揭示了顯著的不對稱性（抑制 17.6% 對比偏好 75.0%）以及需要超越參數規模擴展之架構創新的普遍瓶頸」。¹ 我想在此謹慎說明這些數字的意義。摘要未提供作者如何計算這兩個數字的完整方法論分解，因此我對它們的詮釋是基於摘要措辭的推論，而非對論文內部定義的直接引用。在標明這一保留態度的前提下：

偏好：75.0%（論文數字）。我的詮釋，待完整論文確認：模型在展示隱式接觸將其拉向某一刺激方面相對表現良好。促發效應和 CS-US 配對在約四分之三的情況下正確地偏導了行為。
抑制：17.6%（論文數字）。我的詮釋，待完整論文確認：模型在展示隱式接觸將其推離某一刺激方面表現顯著較差。「不要再那樣做」的訊號在五次中不到一次正確傳達。我從「抑制」一詞和論文對古典制約的框架推斷其行為意涵；摘要並未詳述操作化方式。

作者明確地將這種不對稱性標記為「顯著的」，並將其歸因於「普遍瓶頸」，¹「普遍」一詞至關重要：作者將此呈現為 17 個模型評估中的共同模式，而非單一模型的異常。我不打算聲稱這個瓶頸是「提示問題」或「不是提示問題」。論文未將提示作為緩解手段來測試，任何一種說法都會超出摘要所支持的範圍。

不對稱性的真正含義

我想精確說明我在這裡主張什麼，因為這一部分最容易對基準測試過度解讀。

論文所展示的。 在一個 300 題、以認知科學為基礎、以首次作答計分的基準測試中，LLM 在展示隱式抑制方面的表現遠遜於隱式偏好，差距約為四倍，且在所有受測模型中一致出現。作者稱之為無法透過擴展來修復的普遍瓶頸。

我的主張——獨立於論文。 這種不對稱模式對應了我在自己的 agent 工作中觀察了數月的一種失敗模式——此前一直找不到名稱。Agent 框架（就我的經驗而言）似乎在吸收指向特定風格、工具或方法的上下文方面出人意料地擅長。Agent 的行為會快速漂移向你最近餵給它的東西。它們似乎在不重複剛剛發生的失敗方面出人意料地糟糕。Agent 會在同一個工作階段中，在那些已經失敗的情況下，嘗試同一個壞掉的命令、同一個錯誤的工具、同一個過時的路徑。這是經驗觀察，不是量測；是我的實務者印象，不是受控研究。ImplicitMemBench 的數字與這些經驗觀察一致，這就是我關注這篇論文的原因。但它們本身並不能驗證這些觀察，而我也不想聲稱論文為我的觀察「提供了一個數字」——論文量測的東西比我觀察的任何東西都更嚴謹、更受控。

我並非在主張的。 我並非聲稱 ImplicitMemBench 具體量測了 agent 框架行為或生產環境的 Claude Code / Cursor / Codex 工作流程。它沒有。它量測的是 17 個模型在結構化認知科學協定下的表現。從基準測試到生產行為的映射是我的延伸，已如此標註，我不希望任何讀者認為論文替我做出了那個主張。

在這些標註到位的前提下，基準測試在對指令的顯式回憶和在促發/制約下的首次自動行為之間所劃出的區別，是我希望自己的 agent 工作開始認真對待的區別。你可以告訴 agent「不要做 X」，顯式回憶大概會起作用——被問到時，它能把「不要做 X」複述給你。但 ImplicitMemBench 量測的是不同的東西：在沒有任何顯式提醒的情況下，agent 是否在下一個首次決策中自動不做 X？我不知道生產環境的 agent 框架是否繼承了基準測試中 17.6% 的首次行為抑制聚合數字。這個映射未經測試，我也不聲稱如此。我主張的是更弱的東西：「能回憶規則」和「自動執行規則」之間的區別，比我此前認為的更加鮮明，而論文的結果是原因之一。

SOUL.md 幻覺

我今天撰寫的 Hermes 指南將 SOUL.md 視為 agent 的主要身份錨定。每個系統提示中的第一位。語氣、風格、護欄。該指南提出了過去兩年每個 agent 持久性記憶系統都曾提出的論點的一個版本：如果你把身份放在正確的宣告記憶檔案中，agent 的行為就會與之保持一致。

這個論點沒有錯，但 ImplicitMemBench 給了我一個理由，讓我對它的完整程度不再那麼有信心。SOUL.md 是顯式宣告記憶——現有基準測試已經量測且模型已經表現良好的記憶系統。模型可以隨時回憶其內容；這是容易的部分。更難的問題——也是我認為 SOUL.md 無法回答的——是：顯式錨定是否能有意義地覆蓋隨著工作階段填滿工具輸出、檢索文件、先前助手回合、使用者修正以及其他一切在無需任何檢索步驟下塑造首次行為的內容而累積起來的隱式促發、制約和首次偏誤？我不知道。論文沒有測試 SOUL.md 或任何等效的身份錨定檔案，我不想聲稱它替我回答了這個問題。

以下是我的擔憂，以假說而非發現的形式呈現。如果你在 SOUL.md 中錨定了「簡潔且就事論事」的身份，然後工作階段填滿了使用者的長篇敘事風格對話，隱式記憶框架預測促發效應會部分塑造下一回合的首次行為，即使顯式錨定在回憶層面仍然有效。促發效應在生產環境中是否平均而言真的勝出，我無法從這篇論文中證明，我也不打算嘗試。SOUL.md 幻覺，按我的命名：你錨定的可能是身份的回憶，而非身份的自動執行——而這兩者並不相同。

我並非在說不要寫 SOUL.md。我仍然會寫，Hermes 指南也仍然會推薦它，因為顯式宣告記憶在其擅長的領域是不可或缺的。我在說的——明確標註為我自己的推斷——是：如果你正在構建任何依賴 agent 不重複錯誤、不漂移向最近見到的風格、不被你無意中引入的促發訊號帶離正軌的東西，我不會把可靠性預算全押在 SOUL.md 上，也不會假設把 SOUL.md 寫得更長或更具體就能解決問題。論文使用了「超越參數規模擴展的架構創新」這個短語，¹ 我（謹慎地）將其解讀為提示工程緩解措施無法彌合基準測試量測到的差距的弱證據。論文本身並未測試提示工程緩解措施，所以我無法說它證明了它們會失敗；我只能說它沒有讓我有信心它們會有效。

論文未說的（以及我補充的）

論文是一篇基準測試論文。它量測了一個差距，量化了它，並論證這個差距是架構性的。它沒有規定具體的框架層緩解措施，也沒有針對特定的生產 agent 系統做出任何主張。本節的所有內容都是我的框架，而非論文的。

意涵 1：上下文視窗中的每一個 token 都是上下文內的行為影響。 如果隱式記憶框架在基準測試之外也成立（這裡我是在推測，而非報告），從工具呼叫、檢索文件或中介回應進入上下文視窗的每一個 token，都會以閱讀顯式提示無法乾淨稽核的方式，塑造下一回合的首次行為。我先前寫過關於靜默資料外洩攻擊面（不受信任的工具輸出攜帶注入的指令）以及你的 agent 有一個你未審查的中間人（不受信任的 LLM API 路由器介於你的客戶端和模型之間）。這兩篇文章都沒有將隱式記憶作為因果機制。兩者都主張提示注入和供應鏈入侵是其機制。ImplicitMemBench 提供了一個可能的額外視角來解釋為什麼那些攻擊以那種方式運作：即使惡意的工具輸出或被入侵的路由器從未明確「告訴」agent 該做什麼，其回傳的內容可能正在促發 agent 的下一個決策。這是一個與 ImplicitMemBench 一致的假說，而非論文報告的發現。

意涵 2：工作階段長度可能是可靠性風險，不僅是成本風險。 經驗觀察是 agent 在長工作階段中表現會變差，經驗解釋是上下文視窗壓力。ImplicitMemBench 根本不是一項工作階段長度研究。它是一個 300 題、以首次作答計分、採用學習/促發-干擾-測試協定的基準測試，¹ 量測的是與「在生產環境的 30 回合中會發生什麼」不同的東西。我不想假裝它直接映射到生產環境的工作階段。我提出的假說是：論文所指出的機制（隱式促發和古典制約在無需檢索的情況下影響首次決策）是對經驗觀察到的漂移的一個替代性候選解釋，即使論文並未在那個框架中測試它，它也值得認真考量。我目前的操作原則：工作階段執行得比上下文視窗允許的更短，而非盡可能地長。無論真正的機制是什麼，這都是低成本的保險。

意涵 3：「靜態技能是死技能」的論點需要加一個腳註。 我本週稍早寫了 Static Skills Are Dead Skills，論證技能一旦上線就會停止進步，除非你建立軌跡回饋迴路。那個論點假設失敗模式是缺失：缺少聚合、缺少模式偵測器、缺少演化器。將 ImplicitMemBench 對照那篇較早的文章來讀，我想標記一個可能疊加在上面的第二種失敗模式：即使有了軌跡驅動的技能更新，落在技能檔案中的更新（顯式宣告記憶）可能無法乾淨地傳導到首次自動行為——如果某種更接近隱式記憶層的東西驅動著首次決策的話。我不知道是否如此。論文沒有測試技能更新。但這是我寫那篇較早文章時尚未有的擔憂，我在此將其標記為擔憂而非結論。

意涵 4：agent 品質的量測問題可能正變得更難。 大多數現有的 agent 評估量測的要麼是功能性任務完成（agent 是否解決了問題），要麼是顯式事實回憶（agent 是否記住了你告訴它的）。ImplicitMemBench 在其自身的協定上引入了第三個維度：隱式促發下的首次自動行為。如果這個維度在生產環境中確實重要（我不知道，論文也沒有測試），任何嚴肅的 agent 工作品質迴路都需要一個量測鉤子來捕捉它，而今天大多數迴路都沒有。我將此視為自己品質系統的待辦事項，而非對你的處方。

意涵 5：對齊是一個檢索閘門，而非一個抹除機制。 Liu 等人的另一篇論文從不同角度強化了隱式記憶框架。² 他們展示了在語義相關的文本上進行微調（即便是公版小說），會重新啟動模型在預訓練期間已記憶但對齊已抑制的受版權保護書籍的逐字回憶：高達 85-90% 的逐字重現率、單一片段超過 460 字、僅對一位作者微調就能泛化至 30 位以上不相關的作者、跨 GPT-4o、Gemini-2.5-Pro 和 DeepSeek-V3.1 的 r >= 0.90 跨模型相關性。² 機制對隱式記憶論點很重要：記憶化已經編碼在預訓練權重中。微調並未注入新知識——它繞過了阻止檢索的對齊閘門。如果對齊作為閘門而非橡皮擦運作，模型的實際記憶足跡比顯式機制（對齊、系統提示、身份錨定）所暴露的更大且更不可控。ImplicitMemBench 從行為面提出了同樣的結構性主張：模型擁有你的顯式錨定無法治理的記憶——行為記憶和內容記憶皆然。微調論文和 ImplicitMemBench 量測的是同一底層現實的不同表現。（一如既往，這兩篇論文之間的連結是我的框架，並非任何一篇論文的主張。）

具體該怎麼做

兩篇論文都未在本節中規定或測試任何內容。以下是我的解讀——從我自己先前的論點出發，以 ImplicitMemBench 和對齊閘門發現作為額外的證據片段——對這些發現對基於當前框架進行開發的實務者的意涵。請據此判斷。

停止假設顯式錨定就足夠了。 繼續寫 SOUL.md、AGENTS.md、CLAUDE.md 和記憶檔案，但將它們視為必要但不充分的。AGENTS.md patterns 這篇文章記錄了如何有效地結構化這些檔案；本文為它們能保證什麼添加了一個邊界條件。我正在更新的是我自己的預設假設：「如果它在系統提示裡，它就會成立。」論文沒有測試這個假設；它測試了相鄰的問題，並報告了讓我想要比昨天更鬆散地持有自己這個假設的分數。

刻意縮短工作階段。 經驗觀察是 agent 在長工作階段中表現會變差。我一直使用的經驗解釋是「上下文壓力」。ImplicitMemBench 不是一項工作階段長度的研究。它使用受控的學習/促發-干擾-測試協定，而非長時間運行的生產環境工作階段。¹ 但它所指出的機制（隱式促發和古典制約在無需檢索的情況下產生影響）是對這個經驗觀察的一個候選替代解釋。我正在採用的操作原則是：當工作階段發生漂移時，不要用更多顯式修正去對抗它。/new 開一個新工作階段，從頭開始。無論漂移是上下文視窗壓力、隱式促發還是其他什麼，乾淨的工作階段會重設其中任何一個實際的成因。

將抑制視為難以在提示中強制執行的。 如果你需要 agent 不做某件事，不要依賴你曾經告訴過它不要做。建立一個結構性防護（linter、前置工具 hook、沙盒策略、拒絕呼叫的工具）在程式碼層強制執行禁止。我的 Jiro 品質迴路論點一直是硬性閘門必須在模型之外，而這是有原因的；在這篇論文之前我就已持有這個立場。ImplicitMemBench 增加了一個具體的模式（17.6% 的聚合抑制數字¹），與我一直在提出的論點一致，儘管論文本身並未測試提示或 agent 框架，而我不想過度聲稱它證明了我的立場。

稽核上下文所促發的內容，而非僅看有多少 token。 Token 計數是每個人都有的量測。如果隱式促發框架是一個有用的視角（我將其視為一個想要測試的假說，而非已定論的結果），一個充滿敘事性使用者角色內容的 20k-token 上下文，可能比一個充滿結構化程式碼的 60k-token 上下文更能將首次行為塑造向敘事風格的輸出。我還沒有進行這種內容軸稽核的工具，我不確定有誰有。最低可行版本是：回顧你最近的工作階段，問「一個閱讀這個上下文的人會被促發向什麼方向？」這個問題是否真的能預測 agent 行為，是經驗性的，我不打算假裝論文決定了它。

記錄首次決策傾向，而非僅記錄最終決策傾向。 如果你正在針對你的技能進行任何形式的軌跡捕捉，請將「agent 首先嘗試了什麼」與「agent 在修正後最終落在了什麼」分開。ImplicitMemBench 的首次作答計分協定¹是為什麼這種分離重要的方法論論據：最終傾向量測的是 agent 加上修正迴路，而首次作答量測的是 agent 在外部回饋之前實際產生的東西。對於任何使用者體驗取決於首次回應是否正確的品質迴路，你需要首次作答的數字，而今天幾乎沒有什麼東西會單獨記錄它。

常見問題

ImplicitMemBench 是否具體測試了任何 agent 框架？

沒有。它在一個 300 題的基準測試中，以學習/促發-干擾-測試協定和首次作答計分方式，直接測試了 17 個 LLM。¹ 它不是一個框架基準測試。它沒有評估 Claude Code、Cursor、Codex、Hermes 或任何生產 agent 迴路。我在本文中從基準測試結果到 agent 框架生產行為所做的映射是我的延伸，已在全文中如此標註，並非論文的發現。

17.6% 對 75.0% 的不對稱性是逐模型結果還是聚合結果？

摘要將不對稱性描述為作者對跨模型整體基準測試結果分析的一部分，並將其標記為「普遍瓶頸」的證據。¹ 我的解讀是，這種不對稱性在 17 個受測模型中一致出現，具體數字反映的是聚合模式。摘要並未公布逐模型分解，我也不打算自行捏造。完整的逐模型分解請參閱論文。

為什麼這對生產 agent 的重要性可能大於對現有基準測試？

這一點需要部分保留。ImplicitMemBench 本身使用多步驟協定（學習/促發-干擾-測試），¹ 所以它並非「單次測試」的基準。我不想重複那種常見的草率說法。值得標記的是（作為實務者的推測，而非論文的發現）：人們關注的大多數其他 agent 評估量測的要麼是功能性任務完成，要麼是顯式事實回憶——這兩者都對模型有利。如果論文報告的隱式記憶差距在其自身協定之外確實存在（我不知道是否如此），那麼那些其他評估就遺漏了使用者在長時間運行的工作階段中實際體驗到的一個生產行為維度。我將此視為一個可測試的假說，而非結論。

這是否與你在 Hermes 指南中的 `SOUL.md` 建議相矛盾？

不矛盾。它添加了一個邊界條件。Hermes 指南推薦 SOUL.md 作為主要身份錨定，因為顯式宣告記憶在其擅長的領域仍然不可或缺：一致的身份回憶、可稽核的版本控制、在直接提問下可預測的行為。Hermes 指南沒有涵蓋（因為在這篇論文發表之前無從量測）顯式身份錨定不會自動傳導到促發和古典制約下的首次自動行為這一事實。你仍然需要 SOUL.md。你同時也需要它之外的結構性防護。

提示工程能解決這些問題嗎？

誠實的回答是：論文並未將提示作為緩解策略來測試，所以我無法用論文的權威性告訴你。我能說的是：作者將差距框定為「需要超越參數規模擴展的架構創新」，¹ 這是一個比「更好的提示就能解決」更強的主張，但又不完全是「沒有任何提示能幫忙」。特別是對於抑制方面（17.6% 的聚合值），我的實務者直覺（你應該相對於論文本身打折扣）是：模型之外的結構性防護比提示指令是更安全的賭注。但這是我的看法，不是論文的。

這是不是我最近看到很多的那類「記憶基準測試」論文？

不是，論文明確地將自己與它們區分開來。摘要的框架是：現有的記憶基準測試評估的是對事實的顯式回憶：給模型一個事實，要求模型檢索它。ImplicitMemBench 量測的是完全不同的東西——無需任何檢索步驟的自動行為適應。¹ 這個區別是論文的貢獻，也是它獲選為 ACL 2026 Main Conference 的原因。¹

相對於你早期關於 agent 記憶的文章，這篇處於什麼位置？

本文屬於 AI engineering hub，是 Static Skills Are Dead Skills 的直接伴侶篇。Context is architecture 從結構面論證了進入上下文視窗的內容為何重要；compound context 描述了跨工作階段累積的基礎設施。那篇較早的文章論證技能需要軌跡聚合才能保持活力，而我假設失敗模式純粹是缺失：如果你能取得軌跡資料並運行模式偵測器，就沒問題了。ImplicitMemBench 指向了一個疊加在上面的第二種失敗模式：即使有了完美的軌跡驅動技能更新，首次行為可能不會反映更新，因為更新落在了顯式記憶中，而隱式記憶驅動著實際決策。那篇較早的文章對其所主張的仍然正確；本文更新的是它當時尚不知道要主張的部分。

這會不會是量測偽影？

有可能。論文是新的（2026 年 4 月 9 日提交，獲選 ACL 2026 Main Conference），單一基準測試量測到的可能是其特定協定的偽影，就像量測到真實現象一樣容易。¹ 我不會假裝並非如此。我認為它不僅是偽影的原因在於：它所描述的失敗模式（agent 快速強化偏好卻無法消除失敗）是我觀察了超過一年卻一直找不到名稱的經驗現象。基準測試不需要校準到完美，結果的方向就足以讓實務者據此行動。

參考文獻

Chonghan Qin, Xiachong Feng, Weitao Ma, Xiaocheng Feng, Lingpeng Kong, “ImplicitMemBench: Measuring Unconscious Behavioral Adaptation in Large Language Models,” arXiv:2604.08064 [cs.AI], submitted 9 April 2026, accepted to ACL 2026 Main Conference. Primary source for: the framing of explicit versus implicit memory in LLM agents (“existing memory benchmarks for LLM agents evaluate explicit recall of facts, yet overlook implicit memory where experience becomes automated behavior without conscious retrieval”); the three cognitively grounded constructs of the benchmark (Procedural Memory = “one-shot skill acquisition after interference”; Priming = “theme-driven bias via paired experimental/control instances”; Classical Conditioning = “Conditioned Stimulus–Unconditioned Stimulus (CS–US) associations shaping first decisions”); the benchmark design (300-item suite, unified Learning/Priming-Interfere-Test protocol with first-attempt scoring); the evaluation coverage (17 models); the specific top-performer scores (DeepSeek-R1 65.3%, Qwen3-32B 64.1%, GPT-5 63.0%, no model exceeding 66% overall, all described as “far below human baselines”); the asymmetry finding (“dramatic asymmetries (inhibition 17.6% vs. preference 75.0%) and universal bottlenecks requiring architectural innovations beyond parameter scaling”); and the reframing phrase (“reframes evaluation from ‘what agents recall’ to ‘what they automatically enact’”). All direct quotes in this post are from the published abstract. Claims about how the benchmark findings apply to production agent harnesses, including SOUL.md, AGENTS.md, Claude Code, Hermes, MCP, and session-length effects, are my own framing, clearly labeled as such throughout, and are not attributed to the paper. ↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩
Xinyue Liu, Niloofar Mireshghallah, Jane C. Ginsburg, Tuhin Chakrabarty, “Alignment Whack-a-Mole: Finetuning Activates Verbatim Recall of Copyrighted Books in Large Language Models,” arXiv:2603.20957, submitted 21 March 2026 (preprint, under review). Primary source for: the finding that fine-tuning on semantically related text reactivates verbatim recall of copyrighted books already memorized during pretraining but suppressed by alignment (up to 85–90% verbatim reproduction; single spans exceeding 460 words); cross-author generalization (fine-tuning on one author extracts 30+ unrelated authors); cross-model replication (GPT-4o, Gemini-2.5-Pro, DeepSeek-V3.1, r ≥ 0.90 memorization correlation); and the structural conclusion that alignment functions as a retrieval gate, not an erasure mechanism: the memorization was encoded in pretraining weights, not injected by fine-tuning. Used in this post to support the argument that the model’s actual memory footprint exceeds what explicit mechanisms expose. The connection between this paper and ImplicitMemBench is my framing, not a claim either paper makes. ↩↩

先獎勵工具，再獎勵答案

當答案宣稱進行了從未發生的工具操作時，AI代理就會失敗。本文剖析四種失敗模式與一條能識破它們的規則，並對照工具監督式強化學習的研究。

1 分鐘閱讀

我隨身攜帶的工作檯

將Steve Jobs「隱形工藝」的哲學轉化為可執行的操作：整體產品的完整性、拒絕的藝術,以及在Claude Code打造的AI工作系統中體現的用心。

2 分鐘閱讀

摘要