あなたのエージェントには、あなたが書いていないメモリがある
LLMは、既存の評価では完全に見逃される無意識的な行動メモリを発達させます。 ACL 2026の論文によると、トップモデルでも自身の学習済み行動パターンの検出スコアは66%未満でした。こうしたパターンは、明示的な保存なしにセッションを超えて持続するものです。あなたが書く明示的メモリ(SOUL.md、CLAUDE.md)は、全体像の半分にすぎません。
今日の大半をHermes Agentの実務者向けリファレンスの執筆に費やしました。その中で要となるセクションの一つがSOUL.md、つまりエージェントのアイデンティティを固定するファイルについてです。声のトーン、好み、行動上のガードレール。このセクションの前提は、アイデンティティをそこに記述し、エージェントが毎回システムプロンプトの冒頭でそれを読み、それに従って行動するというものです。明示的メモリ。宣言的。監査可能。バージョン管理済み。真剣な実務者が気にすべき、正しい種類のメモリです。
昨日arxivに論文が投稿され、今夜のシグナルスキャンでキャッチしました。これを読んで、今日の早い段階で持っていたSOUL.mdの前提を、より緩やかに捉えるようになりました。1
その論文はImplicitMemBench: Measuring Unconscious Behavioral Adaptation in Large Language Modelsです。1 著者らはこれを、LLMにおける暗黙的メモリの初の体系的ベンチマークと位置づけています。彼らの枠組みでは、暗黙的メモリとは、エージェントが意識的に想起する明示的メモリとは異なり、自動的に実行される行動を形作るメモリのことです。1 トップパフォーマーのスコアは66%未満。1 さらに著者らは、そのスコア内部に「劇的な」非対称性があると報告しており、1 これについては適切な留保をつけながら後述します。
TL;DR
既存のメモリベンチマークは明示的な想起を測定しています。モデルに伝えた事実を、取り出せるかどうかです。ImplicitMemBenchは異なるメモリシステムを測定します。著者らによれば、「意識的な検索なしに」自動的行動を形作るメモリで、認知科学の標準的な構成概念(手続き記憶、プライミング、古典的条件づけ)に基づいています。1 300項目の初回回答スコアリングベンチマークにおいて、著者らがテストしたどのモデルも全体で66%を超えませんでした。DeepSeek-R1が65.3%、Qwen3-32Bが64.1%、GPT-5が63.0%で、著者らはトップパフォーマーを「人間のベースラインをはるかに下回る」と評しています。1 しかし、見出しの数字だけでは全貌は見えません。アブストラクトでは「劇的な」非対称性も報告されています。抑制が17.6%に対して選好が75.0%、約4倍の差があり、著者らはこれを「パラメータスケーリングを超えたアーキテクチャ上のイノベーションを必要とする」「普遍的なボトルネック」と表現しています。1 この非対称性について私が読み取るのは(アブストラクトがこれら2つの数値の背後にある完全な方法論を公開していないという留保のもとで)、エージェント作業で観察してきたフォークロア的な失敗モードと一致するということです。最近見た選好を素早く強化し、最近見た失敗を学習解除できないシステムです。この読みが正しければ、エージェントのアイデンティティ、安全性、スキル進化に関する議論を、「プロンプトに何を入れたか?」から「セッションが静かに形作っているもので、あなたの明示的なピンでは監査できないものは何か?」へとリフレームすることになります。このリフレームは私が論文を拡張したものであり、論文自体の主張ではありません。
重要ポイント
以下の各項目は、論文の知見が実務者にとって何を意味するかについての私の解釈であり、論文自体の主張ではありません。論文は17のLLMを300項目の認知科学ベンチマークでテストしています。本番環境のエージェントハーネスやプロンプティング戦略を評価するものではありません。各項目にはそのラベルを付けています。
- 拡張解釈:
SOUL.md、AGENTS.md、CLAUDE.md、システムプロンプト、または永続メモリファイルにアイデンティティを固定することは、明示的宣言メモリです。既存のベンチマークでは、モデルがこれを得意とすることがすでに示されています。ImplicitMemBenchはまったく異なるメモリシステムを測定しており、モデルのスコアは66%未満です。1 実務者への含意(明示的なアイデンティティピンが初回の自動的行動に伝播しない可能性がある)は、論文のものではなく私の推論です。 - 拡張解釈: 17.6%対75.0%の非対称性がベンチマークの外にも一般化するなら、最近見た選好を素早く吸収し、最近見た失敗の繰り返しをやめるのが遅いエージェントを予測することになります。 論文はこの2つの数値を報告し、「劇的」かつ「普遍的」とラベル付けしていますが、1「選好」と「抑制」がどのように操作化されたかの項目別方法論は公開しておらず、エージェントハーネスでこのパターンをテストしていません。本番環境の行動についての解釈は私のものです。
- 拡張解釈: ツールコール、MCPレスポンス、スクレイピングしたウェブページ、またはプロンプトインジェクション試行からコンテキストウィンドウに入るすべてのトークンは、コンテキスト内の行動的影響です。 重み更新という意味でのトレーニングではありませんが、明示的プロンプト層ではクリーンに監査できない次の初回回答への影響です。論文はこの主張を直接していません。暗黙的メモリのフレーミングをコンテキストウィンドウの内容に拡張したのは私です。
- 論文の主張: 17モデルの評価は「深刻な限界」、「劇的な非対称性」、そして「パラメータスケーリングを超えたアーキテクチャ上のイノベーションを必要とする普遍的なボトルネック」を明らかにしています。1 著者らはこのギャップをアーキテクチャ的なものとして位置づけています。これは「より多くのプロンプトエンジニアリングで修正できる」に対する弱い反証と解釈しますが、論文はプロンプティングによる緩和策を具体的にテストしていないため、この解釈は私の仮説であり、論文の主張ではありません。
論文が測定しているもの
論文のフレーミングは、LLMエージェント向けの既存のメモリベンチマークが「事実の明示的想起を評価しているが、経験が意識的な検索なしに自動化された行動となる暗黙的メモリを見落としている」というものです。1 著者らが特定したギャップは次の通りです。「効果的なアシスタントは、明示的なリマインダーなしに、学習した手順を自動的に適用したり、失敗したアクションを回避したりしなければならない」。1 エージェントがミスを避ける唯一の方法が、毎ターンそのミスをしないよう再度伝えることであれば、暗黙的メモリの上に構築しているのではなく、リクエストごとに明示的メモリのコストを払っていることになります。
ImplicitMemBenchは、アブストラクトから引用した、非宣言的メモリの認知科学的説明から直接引き出された3つの構成概念をテストしています。1
- 手続き記憶: 「干渉後のワンショットスキル獲得」。モデルは、何かのやり方を一度見せられた後、他の指示が介入した後でも、実際にそれを再び実行できるでしょうか?手続き記憶により、人間は自転車の乗り方を学びます。乗り方を想起するのではなく、何年もブランクがあっても乗ることを実行するのです。
- プライミング: 「対になった実験/統制インスタンスによるテーマ駆動型バイアス」。あるクラスのものを見ることで、プライミングが起きたことにモデルが気づかないまま、次の無関係なタスクでそのクラスのものを生成しやすくなるでしょうか?
- 古典的条件づけ: 「最初の決定を形作る条件刺激-無条件刺激(CS-US)連合」。モデルが刺激-反応の対合に曝露された場合、CSもUSも質問のポイントではないまったく新しいタスクで、その対合がバイアスとして現れるでしょうか?
著者らは「初回回答スコアリングを用いた統一された学習/プライミング-干渉-テストプロトコル」のもとで300項目のスイートを使用しています。1 初回回答スコアリングは重要です。間違いを指摘された後に自己修正できるモデルは問題ありませんが、ここでの研究上の問いは、メモリが自動的な初回回答を形作ったかどうかです。初回回答が間違いで、修正が明示的なフィードバック後にのみ起きるなら、暗黙的メモリシステム(論文の定義による)はその項目で失敗しています。著者らは貢献を一文で要約しており、ここで直接引用したいと思います。このベンチマークは「評価を『エージェントが何を想起するか』から『何を自動的に実行するか』へとリフレームする」ものです。1
結果
見出しの数字は「どのモデルも全体で66%を超えない」です。1
- DeepSeek-R1: 65.3%
- Qwen3-32B: 64.1%
- GPT-5: 63.0%
上記のトップパフォーマーは「人間のベースラインをはるかに下回る」と評されていますが、アブストラクトは正確な人間のベースライン数値やモデル別の完全なランキングを公開していません。1 合計17モデルが論文で評価されています。1
見出しの数字の裏にサブ結果が隠れています。著者らは「分析により劇的な非対称性(抑制17.6%対選好75.0%)とパラメータスケーリングを超えたアーキテクチャ上のイノベーションを必要とする普遍的なボトルネックが明らかになった」と書いています。1 これらの数値が何を意味するかについては慎重でありたいと思います。アブストラクトは著者らがこれら2つの数値をどのように算出したかの完全な方法論の内訳を提示していないため、以下の私の解釈はアブストラクトの文言からの推論であり、論文内部の定義の読解ではありません。この留保を明示した上で:
- 選好:75.0%(論文の数値)。完全な論文を待っての私の解釈:モデルは、暗黙的な曝露が刺激に向かって引き寄せたことを示すのが比較的得意なようです。行動を特定の方向にバイアスさせるプライミングとCS-US対合は、約4分の3の確率で正しくランディングします。
- 抑制:17.6%(論文の数値)。完全な論文を待っての私の解釈:モデルは、暗黙的な曝露が刺激から離れる方向に押したことを示すのが劇的に苦手なようです。「もうそれをするな」というシグナルが正しくランディングするのは5回に1回未満です。この行動的意味は「抑制」という言葉と論文の古典的条件づけのフレーミングから推論しています。アブストラクトは操作化を詳述していません。
著者らは明示的にこの非対称性を「劇的」とラベル付けし、「普遍的なボトルネック」に帰しています。1 普遍的という言葉は重要です。著者らはこれを17モデルの評価全体にわたるパターンとして提示しており、1モデルだけのアーティファクトではありません。このボトルネックが「プロンプティングの問題」であるとも「プロンプティングの問題ではない」とも主張するつもりはありません。論文は緩和策としてのプロンプティングをテストしておらず、どちらかを言えばアブストラクトがサポートする範囲を超えることになります。
非対称性が実際に意味すること
ここでは、私が何を主張しているかについて正確でありたいと思います。ベンチマークを過剰に読み取りがちな箇所だからです。
論文が示していること。 初回回答でスコアリングされる300項目の認知科学的に根拠のあるベンチマークにおいて、LLMは暗黙的選好よりも暗黙的抑制を示すのが劇的に苦手であり、テストされたすべてのモデルで約4倍の差があります。著者らはこれをスケーリングでは修正できない普遍的ボトルネックと呼んでいます。
私が論文とは別に主張していること。 この非対称性パターンは、数ヶ月間自分のエージェント作業で観察してきた失敗モードに対応しており、以前は名前がありませんでした。エージェントハーネスは(私の経験では)好みのスタイル、ツール、またはアプローチを示すコンテキストの吸収が驚くほど得意なようです。エージェントの行動は、直近に与えられたものに向かって素早くドリフトします。一方で、直前に起きた失敗を繰り返さないことは驚くほど苦手なようです。エージェントは同じ壊れたコマンド、同じ間違ったツール、同じ古いパスを試行します。同じセッション内でそれらが失敗した後でも。これはフォークロアであり、測定ではありません。制御された研究ではなく、私の実務者としての印象です。ImplicitMemBenchの数値はそのフォークロアと一致しており、だからこそこの論文に注目しています。しかしそれ自体でフォークロアを検証するものではなく、論文が私のフォークロアに「数値を与えた」と主張するつもりはありません。論文は、私が観察してきたものよりもはるかにタイトで制御されたものを測定しています。
私が主張していないこと。 ImplicitMemBenchが具体的にエージェントハーネスの行動や本番環境のClaude Code / Cursor / Codexワークフローを測定したとは主張していません。測定していません。17モデルを構造化された認知科学プロトコルに対してテストしたのです。ベンチマークから本番行動へのマッピングは、全体を通してそうラベル付けされた私の拡張であり、論文がその主張を私のために行ったと読者に思わせたくはありません。
これらのラベルを置いた上で、ベンチマークが指示の明示的想起とプライミング/条件づけ下の自動的な初回回答行動の間に引く区別は、自分のエージェント作業で真剣に受け止め始めたい区別です。エージェントに「Xをするな」と伝えれば、明示的想起はおそらく機能するでしょう。聞かれれば「Xをするな」と繰り返すことができます。ImplicitMemBenchが測定しているのは異なることです。明示的なリマインダーなしに、次の初回の意思決定でエージェントが自動的にXをしないかどうか。本番環境のエージェントハーネスが、野生環境での初回行動においてベンチマークの17.6%という集計抑制数値を引き継ぐかどうかは分かりません。そのマッピングはテストされておらず、それを主張してはいません。より弱いことを主張しています。「ルールを想起できる」と「ルールを自動的に実行する」の区別は、自分がこれまで扱ってきた以上に鋭いものであり、論文の結果がその理由の一部です。
SOUL.mdの幻想
今日書いていたHermesガイドは、SOUL.mdをエージェントの主要なアイデンティティピンとして扱っています。すべてのシステムプロンプトのスロット#1。トーン、声、ガードレール。このガイドは、過去2年間のエージェント向け永続メモリシステムがすべて行ってきた議論のバージョンを展開しています。アイデンティティを適切な宣言的メモリファイルに入れれば、エージェントの行動はそれに整合し続けるという議論です。
その議論は間違っていませんが、ImplicitMemBenchはそれがどれだけ完全に成り立つかについて、確信を低くする理由を与えてくれます。SOUL.mdは明示的宣言メモリ、つまり既存のベンチマークがすでに測定し、モデルがすでに得意としているメモリシステムです。モデルは要求に応じてその内容を想起できます。それは簡単な部分です。より難しい問いは、SOUL.mdが答えるとは思えない問いです。明示的なピンは、ツール出力、取得したドキュメント、以前のアシスタントのターン、ユーザーの修正、そして検索ステップなしに初回行動を形作るその他すべてのもので蓄積される暗黙的プライミング、条件づけ、初回回答バイアスを意味のあるレベルでオーバーライドするでしょうか?分かりません。論文はSOUL.mdやそれに相当するアイデンティティピンファイルをテストしておらず、論文がその問いに答えてくれたとは主張しません。
ここでの懸念を、知見ではなく仮説として表現します。SOUL.mdに「簡潔で事実に基づく」というアイデンティティをピン留めし、その後セッションがユーザーからの長い物語調の会話スレッドで満たされた場合、暗黙的メモリのフレーミングは、明示的ピンが想起レベルで依然として保持されている間にも、プライミングが次のターンの初回行動を部分的に形作るべきだと予測します。プライミングが本番環境で実際に平均的に勝つかどうかは、この論文からは証明できませんし、試みるつもりもありません。SOUL.mdの幻想と私が名付けるもの:アイデンティティの想起をピン留めしたのであって、自動的な実行をピン留めしたのではなく、その2つは同じものではないという可能性です。
SOUL.mdを書くなと言っているのではありません。私はこれからも書きますし、Hermesガイドも引き続き推奨するでしょう。明示的宣言メモリは、それが得意とすることに対して重要な役割を果たしているからです。私が言っているのは、自分の拡張解釈として明確にラベル付けした上で、エージェントがミスを繰り返さないこと、最近見たスタイルにドリフトしないこと、意図しないプライミングシグナルによってタスクから外れないことに依存する何かを構築しているなら、信頼性予算をSOUL.mdだけに賭けることはしないし、SOUL.mdをより長くまたはより具体的にすることで解決するとも想定しないということです。論文は「パラメータスケーリングを超えたアーキテクチャ上のイノベーション」というフレーズを使用しており、1 これを(慎重に)プロンプトエンジニアリングによる緩和策ではベンチマークが測定するギャップを埋められないという弱い証拠として解釈しています。論文自体はプロンプトエンジニアリングによる緩和策をテストしていないため、それが失敗すると証明しているとは言えません。ただ、それが機能するという確信を与えてくれないとしか言えません。
論文が言っていないこと(そして私が付け加えていること)
論文はベンチマーク論文です。ギャップを測定し、定量化し、そのギャップがアーキテクチャ的であると主張しています。特定のハーネスレベルの緩和策を処方したり、特定の本番エージェントシステムについて何かを主張したりはしていません。このセクションのすべては、論文のものではなく私のフレーミングです。
含意1:コンテキストウィンドウ内のすべてのトークンは、コンテキスト内の行動的影響である。 暗黙的メモリのフレーミングがベンチマークの外でも成り立つなら(ここでは報告ではなく推測ですが)、ツールコール、取得したドキュメント、または仲介レスポンスからコンテキストウィンドウに入るすべてのトークンが、明示的プロンプトを読むだけではクリーンに監査できない方法で、次のターンの初回行動を形作ります。以前、サイレント・エグレスの攻撃サーフェス(注入された指示を運ぶ信頼できないツール出力)と審査していない仲介者がエージェントにいること(クライアントとモデルの間の信頼できないLLM APIルーター)について書きました。どちらの投稿も、暗黙的メモリを因果メカニズムとは主張していません。プロンプトインジェクションとサプライチェーン侵害をメカニズムとして主張しています。ImplicitMemBenchは、これらの攻撃がなぜそのように機能するかについて追加の可能なレンズを提供します。敵対的なツール出力や侵害されたルーターがエージェントに何をすべきか明示的に「指示」しなくても、返される内容がエージェントの次の決定をプライミングしている可能性があります。これはImplicitMemBenchと整合する仮説であり、論文が報告する知見ではありません。
含意2:セッションの長さは、コストの問題だけでなく信頼性の問題かもしれない。 フォークロア的な観察は、長いセッションでエージェントが悪化するというもので、フォークロア的な説明はコンテキストウィンドウの圧力です。ImplicitMemBenchはセッション長の研究ではまったくありません。学習/プライミング-干渉-テストプロトコルの下での300項目の初回回答スコアリングベンチマークであり、1「本番セッションで30ターンにわたって何が起きるか」とは異なるものを測定しています。本番セッションに直接マッピングできるふりをするつもりはありません。仮説として提案しているのは、論文が名付けるメカニズム(検索なしに初回の意思決定に着地する暗黙的プライミングと古典的条件づけ)が、フォークロア的なドリフトの候補的な代替説明であり、論文がそのフレームでテストしていなくても真剣な検討に値するということです。当面の運用ルール:コンテキストウィンドウが許す限り長くではなく、許すよりも短くセッションを実行すること。真のメカニズムが何であれ、安価な保険になります。
含意3:「静的スキルは死んだスキル」の議論には脚注が必要。 今週初めにStatic Skills Are Dead Skillsを書き、スキルはトラジェクトリーフィードバックループを構築しない限り、出荷した瞬間に改善が止まると主張しました。その議論は失敗モードが不在であると想定していました。集約の不在、パターン検出器の不在、進化器の不在です。ImplicitMemBenchをその以前の投稿と突き合わせて読むと、その上に重なる第2の失敗モードの可能性を指摘したいと思います。トラジェクトリー駆動のスキル更新があっても、スキルファイルに着地した更新(明示的宣言メモリ)は、暗黙的メモリ層に近い何かが初回の意思決定を駆動する場合、初回の自動的行動にクリーンに伝播しない可能性があります。そうであるかどうかは分かりません。論文はスキル更新をテストしていません。しかし、以前の投稿を書いたときには持っていなかった懸念であり、結論ではなく懸念としてフラグを立てています。
含意4:エージェント品質の測定問題はさらに難しくなっているかもしれない。 既存のエージェント評価のほとんどは、機能的タスク完了(エージェントが問題を解決したか)または明示的事実想起(伝えたことをエージェントが覚えているか)のいずれかを測定しています。ImplicitMemBenchは独自のプロトコルで第3の次元を導入しています。暗黙的プライミング下の初回自動行動です。この次元が本番環境で重要であることが判明した場合(私には分からず、論文もテストしていません)、エージェント作業のあらゆる真剣な品質ループにはそのための測定フックが必要であり、今日のほとんどのループにはそれがありません。これは他の人への処方ではなく、自分の品質システムへのTODOとして扱っています。
含意5:アラインメントは消去メカニズムではなく、検索ゲートである。 Liuらの別の論文が、異なる角度から暗黙的メモリのフレーミングを強化しています。2 意味的に関連するテキスト(パブリックドメインの小説でさえ)でファインチューニングすると、モデルが事前学習中に記憶したがアラインメントが抑制していた著作権のある書籍の逐語的想起が再活性化されることを示しています。最大85-90%の逐語的再現、460語を超える単一のスパン、1人の著者でファインチューニングしただけで30人以上の無関係な著者に一般化し、GPT-4o、Gemini-2.5-Pro、DeepSeek-V3.1にわたってr >= 0.90のクロスモデル相関があります。2 メカニズムが暗黙的メモリの議論にとって重要です。記憶はすでに事前学習の重みにエンコードされていました。ファインチューニングは新しい知識を注入したのではなく、検索をブロックするアラインメントゲートをバイパスしたのです。アラインメントが消去ではなくゲートとして機能するなら、モデルの実際のメモリフットプリントは、明示的メカニズム(アラインメント、システムプロンプト、アイデンティティピン)が公開するものよりも大きく、制御が困難です。ImplicitMemBenchは行動側から同じ構造的主張を行っています。モデルには、明示的なピンが統治しない行動的メモリとコンテンツメモリの両方があるのです。ファインチューニング論文とImplicitMemBenchは、同じ根底にある現実の異なる現れを測定しています。(先ほどと同様、これら2つの論文の間の接続は私のフレーミングであり、どちらかの論文が行っている主張ではありません。)
実際に何をすべきか
どちらの論文も、このセクションの内容を処方もテストもしていません。以下は、自分の過去の議論から前進し、ImplicitMemBenchとアラインメントゲートの知見を追加の証拠として使用した、現在のハーネスに対して構築している実務者にとっての知見の含意についての私の解釈です。適宜ラベル付けしてください。
明示的ピンで十分だと想定するのをやめる。 SOUL.md、AGENTS.md、CLAUDE.md、メモリファイルは引き続き書きましょう。ただし、必要だが十分ではないものとして扱ってください。AGENTS.mdのパターンの投稿は、これらのファイルを効果的に構成する方法を文書化しています。この投稿は、それらが保証できることの境界条件を追加します。更新しているのは、「システムプロンプトにあれば、それは保持される」という自分自身のデフォルトの想定です。論文はその想定をテストしていません。隣接する問いをテストし、昨日よりも自分の想定をより緩やかに保持したいと思わせるスコアを報告しています。
意図的にセッションを短くする。 フォークロア的な観察は、長いセッションでエージェントが悪化するというものです。使ってきたフォークロア的な説明は「コンテキスト圧力」です。ImplicitMemBenchはセッション長の研究ではありません。制御された学習/プライミング-干渉-テストプロトコルを使用しており、長時間実行される本番セッションではありません。1 しかし、それが名付けるメカニズム(検索なしに着地する暗黙的プライミングと古典的条件づけ)は、そのフォークロアの候補的な代替説明です。採用している運用ルール:セッションがドリフトしたら、より多くの明示的修正で戦わないこと。セッションを/newしてフレッシュに始めること。ドリフトがコンテキストウィンドウ圧力であれ、暗黙的プライミングであれ、その他のものであれ、クリーンなセッションは実際の原因がどれであれリセットします。
抑制はプロンプトで強制するのが難しいと扱う。 エージェントに何かをさせない必要がある場合、しないように伝えただけでは頼りにしないでください。禁止をコード層で強制する構造的ガード(リンター、プレツールフック、サンドボックスポリシー、コールを拒否するツール)を構築してください。私のJiro品質ループの議論は、ハードゲートがモデルの外にあるべき理由があるというものでした。この論文の前からその立場を持っていました。ImplicitMemBenchは、私が行ってきた議論と一致する特定のパターン(17.6%という集計抑制数値1)を追加しますが、論文自体はプロンプティングやエージェントハーネスをテストしておらず、それがその立場を証明するとは主張しません。
コンテキストをトークン数だけでなく、何をプライミングするかで監査する。 トークン数は誰もが持っている測定値です。暗黙的プライミングのフレーミングが有用なレンズであるなら(テストしたい仮説として扱っており、確定した結果ではありません)、物語的なユーザーペルソナコンテンツで満たされた20kトークンのコンテキストは、構造化されたコードで満たされた60kトークンのコンテキストよりも、初回行動を物語的出力に向かって形作る可能性があります。そのようなコンテンツ軸の監査のためのツーリングはまだ持っておらず、誰が持っているかも確信がありません。最小限の実行可能バージョンは:最近のセッションを見て、「このコンテキストを読んだ人間は何にプライミングされるだろうか?」と問うことです。その問いが実際にエージェントの行動を予測するかどうかは経験的であり、論文がそれを決定するふりはしません。
最終的な処理だけでなく、初回の処理をログに残す。 スキルに対して何らかのトラジェクトリーキャプチャを実行している場合、「エージェントが最初に試みたこと」と「修正後にエージェントが着地したこと」を分離してください。ImplicitMemBenchの初回回答スコアリングプロトコル1は、この分離が重要である理由の方法論的議論です。最終的な処理はエージェントと修正ループを測定し、初回は外部フィードバック前にエージェントが実際に生成したものを測定します。ユーザー体験が最初のレスポンスの正しさに依存する品質ループでは、初回の数値が必要であり、今日のほとんどのものはそれを別々にログに残していません。
FAQ
ImplicitMemBenchは特定のエージェントハーネスをテストしていますか?
いいえ。初回回答スコアリングを用いた学習/プライミング-干渉-テストプロトコルの下で、300項目のベンチマークに対して17のLLMを直接テストしています。1 ハーネスベンチマークではありません。Claude Code、Cursor、Codex、Hermes、またはいかなる本番エージェントループも評価していません。この投稿でベンチマーク結果からエージェントハーネスの本番行動に引くマッピングは、全体を通してそうラベル付けされた私の拡張であり、論文からの知見ではありません。
17.6%対75.0%の非対称性はモデルごとの結果ですか、集計ですか?
アブストラクトはこの非対称性をモデル全体のベンチマーク結果の著者らの分析の一部として記述し、「普遍的なボトルネック」の証拠としてラベル付けしています。1 テストされた17モデルにわたって一貫して非対称性が現れ、特定の数値は集計パターンを反映していると解釈しています。アブストラクトはモデルごとの内訳を公開しておらず、作り上げるつもりはありません。モデルごとの完全な内訳については、論文がソースです。
なぜ本番エージェントにとって既存のベンチマークよりも重要かもしれないのですか?
これについては部分的に留保があります。ImplicitMemBench自体はマルチステッププロトコル(学習/プライミング-干渉-テスト)を使用しているため、1 ベンチマークが「シングルショット」であるということではありません。ベンチマークについての通常の不注意な発言を繰り返したくはありません。実務者の推測として、ただし論文の知見としてではなく、指摘する価値があるように思えるのは、人々が見ている他のほとんどのエージェント評価は、機能的タスク完了か明示的事実想起のいずれかを測定しており、どちらもモデルに有利です。この論文が報告する暗黙的メモリのギャップが独自のプロトコルの外でも実在するなら(私には分かりません)、それらの他の評価は、ユーザーが長時間実行されるセッションで実際に経験する本番行動の次元を見逃していることになります。これを結論ではなく、テスト可能な仮説として扱っています。
HermesガイドのSOUL.mdのアドバイスと矛盾しますか?
いいえ。境界条件を追加するものです。Hermesガイドは、明示的宣言メモリが得意とすることに対して依然として重要な役割を果たしているため、SOUL.mdを主要なアイデンティティピンとして推奨しています。アイデンティティの一貫した想起、監査可能なバージョン管理、直接的な質問の下での予測可能な行動です。Hermesガイドがカバーしていなかったのは(この論文が発表されるまで測定するものが存在しなかったため)、明示的なアイデンティティピンがプライミングと古典的条件づけの下での初回自動行動に自動的に伝播しないという事実です。SOUL.mdは依然として必要です。その外に構造的ガードも必要です。
プロンプトエンジニアリングでこれを修正できますか?
正直な答えは、論文が緩和戦略としてのプロンプティングをテストしていないため、論文の権威をもってお伝えすることはできません。言えるのは、著者らがギャップを「パラメータスケーリングを超えたアーキテクチャ上のイノベーションを必要とする」とフレーミングしていることです。1 これは「より良いプロンプトが助ける」よりも強い主張ですが、「プロンプトでは無理」とまでは言っていません。特に抑制側(集計17.6%)については、私の実務者としての直感(論文自体に対してはディスカウントすべきですが)は、モデル外の構造的ガードがプロンプト指示よりも安全な賭けだということです。ただし、それは私の意見であり、論文のものではありません。
最近よく見かける「メモリベンチマーク」論文の1つですか?
いいえ、そして論文はそれらとの違いを明確に示しています。アブストラクトのフレーミングは、既存のメモリベンチマークが事実の明示的想起を評価しているというものです。モデルに事実を与え、モデルにそれを取り出させます。ImplicitMemBenchはまったく異なるもの、検索ステップなしの自動的行動適応を測定しています。1 その区別が論文の貢献であり、ACL 2026 Main Conferenceへの採択を獲得した理由です。1
エージェントメモリに関する以前の投稿との関連は?
この投稿はAIエンジニアリングハブ内に位置し、Static Skills Are Dead Skillsの直接的な姉妹記事です。Context is architectureはコンテキストウィンドウに入るものがなぜ重要かの構造的な議論を展開し、compound contextはセッションにわたって蓄積されるインフラストラクチャを説明しています。その以前の投稿は、スキルが生き続けるためにはトラジェクトリー集約が必要だと主張し、失敗モードは純粋な不在だと想定していました。トラジェクトリーデータを取得してパターン検出器を実行できさえすれば問題ないと。ImplicitMemBenchはその上に重なる第2の失敗モードを指摘しています。完璧なトラジェクトリー駆動のスキル更新があっても、更新が明示的メモリに着地し、暗黙的メモリが実際の決定を駆動する場合、初回行動は更新を反映しない可能性があります。以前の投稿は主張した内容について依然として正しいです。この投稿は、以前の投稿が主張するとは知らなかったことを更新しています。
測定上のアーティファクトである可能性はありますか?
あり得ます。論文は新しく(2026年4月9日提出、ACL 2026 Main Conference採択)、単一のベンチマークは実際の現象と同じくらい簡単に特定のプロトコルのアーティファクトを測定できます。1 そうでないふりをするつもりはありません。ただのアーティファクトではないと思う理由は、論文が記述する失敗モード(エージェントが選好を素早く強化する一方で失敗を学習解除できない)が、1年以上名前なしに観察してきたフォークロアだからです。ベンチマークが完璧にキャリブレーションされていなくても、結果の方向性は実務者が行動すべきものです。
参考文献
-
Chonghan Qin, Xiachong Feng, Weitao Ma, Xiaocheng Feng, Lingpeng Kong, “ImplicitMemBench: Measuring Unconscious Behavioral Adaptation in Large Language Models,” arXiv:2604.08064 [cs.AI], submitted 9 April 2026, accepted to ACL 2026 Main Conference. Primary source for: the framing of explicit versus implicit memory in LLM agents (“existing memory benchmarks for LLM agents evaluate explicit recall of facts, yet overlook implicit memory where experience becomes automated behavior without conscious retrieval”); the three cognitively grounded constructs of the benchmark (Procedural Memory = “one-shot skill acquisition after interference”; Priming = “theme-driven bias via paired experimental/control instances”; Classical Conditioning = “Conditioned Stimulus–Unconditioned Stimulus (CS–US) associations shaping first decisions”); the benchmark design (300-item suite, unified Learning/Priming-Interfere-Test protocol with first-attempt scoring); the evaluation coverage (17 models); the specific top-performer scores (DeepSeek-R1 65.3%, Qwen3-32B 64.1%, GPT-5 63.0%, no model exceeding 66% overall, all described as “far below human baselines”); the asymmetry finding (“dramatic asymmetries (inhibition 17.6% vs. preference 75.0%) and universal bottlenecks requiring architectural innovations beyond parameter scaling”); and the reframing phrase (“reframes evaluation from ‘what agents recall’ to ‘what they automatically enact’”). All direct quotes in this post are from the published abstract. Claims about how the benchmark findings apply to production agent harnesses, including
SOUL.md,AGENTS.md, Claude Code, Hermes, MCP, and session-length effects, are my own framing, clearly labeled as such throughout, and are not attributed to the paper. ↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩ -
Xinyue Liu, Niloofar Mireshghallah, Jane C. Ginsburg, Tuhin Chakrabarty, “Alignment Whack-a-Mole: Finetuning Activates Verbatim Recall of Copyrighted Books in Large Language Models,” arXiv:2603.20957, submitted 21 March 2026 (preprint, under review). Primary source for: the finding that fine-tuning on semantically related text reactivates verbatim recall of copyrighted books already memorized during pretraining but suppressed by alignment (up to 85–90% verbatim reproduction; single spans exceeding 460 words); cross-author generalization (fine-tuning on one author extracts 30+ unrelated authors); cross-model replication (GPT-4o, Gemini-2.5-Pro, DeepSeek-V3.1, r ≥ 0.90 memorization correlation); and the structural conclusion that alignment functions as a retrieval gate, not an erasure mechanism: the memorization was encoded in pretraining weights, not injected by fine-tuning. Used in this post to support the argument that the model’s actual memory footprint exceeds what explicit mechanisms expose. The connection between this paper and ImplicitMemBench is my framing, not a claim either paper makes. ↩↩