← すべての記事

エージェントには、あなたが書いていない記憶がある

From the guide: Claude Code Comprehensive Guide

今日はほぼ一日、Hermes Agentの実践者向けリファレンスを書くことに費やしました。その中で中核となるセクションの一つがSOUL.mdに関するものです。これはエージェントのアイデンティティを固定するファイルで、声のトーン、好み、振る舞いのガードレールなどを記述します。このセクションの前提はこうです。アイデンティティをそこに書き込めば、エージェントはシステムプロンプトの冒頭で毎回それを読み、それに従って振る舞う。明示的な記憶。宣言的で、監査可能、バージョン管理下にある。真剣な実践者が気にかけるべき、正しい種類の記憶というわけです。

昨日arxivに投稿された論文を、今夜のシグナルスキャンで見つけました。それを読んで、今朝持っていたSOUL.mdの前提を、以前よりもずっと緩く握るようになりました。1

その論文のタイトルはImplicitMemBench: Measuring Unconscious Behavioral Adaptation in Large Language Modelsです。1 著者らはこれを、LLMにおける暗黙記憶(implicit memory)を測定する初の体系的なベンチマークと位置づけています。彼らの枠組みでは、暗黙記憶とは、エージェントが意識的に想起する対象を形作る明示的記憶とは区別される、エージェントが自動的に実行する行動を形作る記憶のことです。1 トップパフォーマーでも66%を下回るスコアでした。1 著者らはさらに、そのスコアの内部に「劇的な」非対称性があると報告しており1、その点については適切な留保を付けながら後ほど詳しく掘り下げます。

TL;DR

既存の記憶ベンチマークは明示的な想起を測定します。つまり、モデルに教えた事実を、後で取り出せるかどうかです。ImplicitMemBenchはこれとは別の記憶システムを測定します。著者らによれば、「意識的な取り出しなしに」自動的な行動を形作る記憶システムであり、認知科学の標準的な構成概念(手続き記憶、プライミング、古典的条件付け)に基づいています。1 初回試行スコアリングによる300項目のベンチマークにおいて、著者らがテストしたどのモデルも総合で66%を超えませんでした。DeepSeek-R1が65.3%、Qwen3-32Bが64.1%、GPT-5が63.0%で、著者らはトップパフォーマーを「人間のベースラインをはるかに下回る」と表現しています。1 ヘッドラインの数字だけが全てではありません。アブストラクトはさらに「劇的な」非対称性も報告しています。抑制(inhibition)で17.6%選好(preference)で75.0%、約4倍の差があり、「普遍的なボトルネック」と位置づけられ、著者らは「パラメータスケーリングを超えたアーキテクチャレベルの革新」が必要だと述べています。1 この非対称性について、私は次のように読んでいます。アブストラクトではこの2つの数字の背後にある完全な方法論は公開されていませんが、という留保付きで、エージェント業務で観察してきたフォークロアの失敗モードと整合している、と。つまり、最近見た選好は素早く強化するくせに、最近見た失敗を学び落とすことに失敗するシステムです。もしこの読みが正しければ、エージェントのアイデンティティ、安全性、スキル進化についての議論を、「プロンプトに何を入れたか」から「明示的な固定では監査できない形で、セッションが静かに何を形作っている可能性があるか」へと再構成することになります。この再構成は論文自身の主張ではなく、私による論文の拡張です。

重要ポイント

以下の箇条書きは、論文の発見が実践者にとって何を示唆するかについての私の読みであって、論文自身の主張ではありません。論文は17のLLMを300項目の認知科学ベンチマークでテストしており、本番のエージェントハーネスやプロンプト戦略を評価しているわけではありません。それぞれのポイントにはラベルを付けています。

  • 拡張:SOUL.mdAGENTS.mdCLAUDE.md、システムプロンプト、永続的な記憶ファイルでアイデンティティを固定することは、明示的な宣言的記憶に該当し、これは既存のベンチマークでモデルがすでに高得点を取っていることが示されています。ImplicitMemBenchはまったく別の記憶システムを測定しており、モデルはそこで66%を下回るスコアとなっています。1 明示的なアイデンティティの固定が、初回試行の自動的な行動に伝播するとは限らない、という実践者向けの含意は、私の推論であって論文のものではありません。
  • 拡張:17.6%対75.0%の非対称性が、ベンチマークの外に一般化するのであれば、最近見た選好は素早く吸収するくせに、最近見た失敗を繰り返すのをやめるのは遅い、というエージェントを予測することになります。論文はこの2つの数字を報告し、それを「劇的」かつ「普遍的」とラベル付けしていますが1、「選好」や「抑制」がどのように操作的に定義されたかについての項目ごとの方法論は公開しておらず、エージェントハーネスでこのパターンをテストしてもいません。本番行動への適用はあくまで私の読みです。
  • 拡張:ツール呼び出し、MCPの応答、スクレイピングされたWebページ、プロンプトインジェクション攻撃からコンテキストウィンドウに入り込んだすべてのトークンは、文脈内での行動的影響であると言えます。重みを更新するという意味での訓練ではないものの、次の初回試行の応答への影響であり、明示的なプロンプト層ではきれいに監査できません。論文はこの主張を直接行ってはいません。私は暗黙記憶の枠組みをコンテキストウィンドウの内容へと拡張しているのです。
  • 論文の主張:17モデルの評価は、「深刻な限界」、「劇的な非対称性」、および「パラメータスケーリングを超えたアーキテクチャレベルの革新を必要とする普遍的なボトルネック」を明らかにしている。1 著者らはこのギャップをアーキテクチャ上の問題と位置づけています。私はこれを「プロンプトエンジニアリングを重ねればこれは解決する」という立場に対する弱い反証として読んでいますが、論文は具体的にプロンプティングによる緩和策をテストしているわけではないので、この読みは論文の主張ではなく私の仮説として扱ってください。

この論文が測定しているもの

論文の枠組みは次のとおりです。LLMエージェントの既存の記憶ベンチマークは、「事実の明示的な想起を評価するものの、意識的な取り出しなしに経験が自動化された行動になる暗黙記憶を見落としている」1。彼らが特定するギャップはこうです。「有効なアシスタントは、明示的な注意喚起なしに、学習した手順を自動的に適用し、失敗した行動を回避しなければならない」1。もしあなたのエージェントがミスを避ける唯一の方法が、毎ターン「そのミスをするな」と言い直すことであれば、あなたは暗黙記憶の上に構築しているのではなく、リクエストのたびに明示的記憶のコストを支払っていることになります。

ImplicitMemBenchは、非宣言的記憶に関する認知科学の説明から直接引き出された3つの構成概念をテストします。アブストラクトからの引用です。1

  1. 手続き記憶:「干渉後のワンショットのスキル獲得」。モデルは一度やり方を見せられた後、他の指示が介在しても、後で実際にそれを実行できるか。これは人間が自転車の乗り方を覚える記憶システムです。乗り方を思い出すのではなく、乗ること自体を行うのです。何年乗っていなくても。
  2. プライミング:「対応する実験/対照の事例による、テーマ駆動のバイアス」。あるクラスの事物を見たことで、次の無関係なタスクで同じクラスの事物を生成しやすくなるか、しかもプライミングが起きたことをモデル自身が意識しないままで。
  3. 古典的条件付け:「最初の決定を形作る条件刺激・無条件刺激(CS–US)の連合」。モデルが刺激と反応のペアにさらされていた場合、CSもUSも問いの主題ではない、まったく新しいタスクで、その連合がバイアスとして現れるか。

著者らは、「Learning/Priming-Interfere-Testプロトコルに初回試行スコアリングを組み合わせた統一プロトコル」の下で300項目のスイートを使用しています。1 初回試行スコアリングは重要です。間違いを指摘された後に自己修正できるモデルは問題ありません。しかし、ここでの研究課題は、記憶が自動的な初回応答を形作ったかどうかです。もし初回応答が誤りで、明示的なフィードバックがあって初めて修正が起きるなら、論文の定義する暗黙記憶システムはその項目で失敗したことになります。著者らは自分たちの貢献を次の一文でまとめており、私はそれをそのまま引用したいと思います。ベンチマークは「評価の枠組みを『エージェントが何を想起するか』から『何を自動的に実行するか』へと再構成する」のです。1

結果

ヘッドラインの数字は、「どのモデルも総合で66%を超えない」です。1

  • DeepSeek-R1 — 65.3%
  • Qwen3-32B — 64.1%
  • GPT-5 — 63.0%

上記のトップパフォーマーは「人間のベースラインをはるかに下回る」と表現されていますが、アブストラクトは正確な人間ベースラインの数値やモデルごとの完全なランキングを公開していません。1 論文では合計17のモデルが評価されています。1

ヘッドラインはサブ結果を隠しています。著者らはこう書いています。「分析は劇的な非対称性(抑制17.6%対選好75.0%)と、パラメータスケーリングを超えたアーキテクチャレベルの革新を必要とする普遍的なボトルネックを明らかにする」1。ここで数字が何を意味するかについて慎重になりたいと思います。アブストラクトはこれら2つの数字がどのように計算されたかの詳細な方法論を示していないため、私の解釈はアブストラクトの文言からの推論であって、論文内部の定義を読んだものではありません。その留保を明示した上で、

  • 選好:75.0%(論文の数字)。論文本体を読むまでの私の解釈:この数字は、モデルが刺激に向かって暗黙的に引き寄せられていることを示すのが比較的得意である、という見方と整合しています。特定の方向に行動をバイアスさせるプライミングやCS–USの対応づけは、約4分の3の確率で正しく着地します。
  • 抑制:17.6%(論文の数字)。論文本体を読むまでの私の解釈:この数字は、モデルが刺激から離れるように暗黙的に押し出されていることを示すのが劇的に下手である、という見方と整合しています。「もう二度とやるな」というシグナルが正しく着地するのは5回に1回未満です。私は「抑制」という言葉と論文の古典的条件付けの枠組みからこの行動的な意味を推論しています。アブストラクトは操作化の具体については明記していません。

著者らはこの非対称性を明示的に「劇的」とラベル付けし、「普遍的なボトルネック」に帰しています。1 そして普遍的という言葉は重要です。著者らはこれを17モデルの評価全体にわたるパターンとして提示しており、1モデルだけのアーティファクトではないとしています。私は、このボトルネックが「プロンプティングの問題である」とも「プロンプティングの問題ではない」とも主張するつもりはありません。論文はプロンプティングを緩和策としてテストしておらず、どちらを言ってもアブストラクトの裏付けを越えてしまいます。

この非対称性が実際に意味するもの

ここで自分が何を主張しているかについて正確でありたいと思います。ベンチマークを過剰に読み解きたくなる箇所だからです。

論文が示していること。 300項目の認知科学に基づくベンチマークにおいて、初回試行の回答で採点したところ、LLMはテストされたすべてのモデルで、暗黙的な抑制を示すのが暗黙的な選好を示すよりも劇的に下手であり、その差はおよそ4倍です。著者らはこれをスケーリングでは解決できない普遍的ボトルネックと呼んでいます。

私が主張していること——論文とは別に。 この非対称性のパターンは、私自身が数か月にわたって自分のエージェント業務で観察してきた、これまで名前のなかった失敗モードに一致します。エージェントハーネスは(私の経験では)、好まれるスタイル、ツール、アプローチを指し示すコンテキストを吸収するのが驚くほど上手です。エージェントの振る舞いは、直近で食わせたものに向かってすぐに漂っていきます。一方で、たった今目撃した失敗を繰り返さないことにかけては驚くほど下手に見えます。エージェントは同じ壊れたコマンド、同じ間違ったツール、同じ古くなったパスを試みます。同じセッション内でそれらが失敗した後でもです。これは測定ではなくフォークロアで、統制された研究ではなく私の実践者としての印象です。ImplicitMemBenchの数値はそのフォークロアと整合しています。だからこそ私はこの論文を気にかけています。ただし、それら自体がフォークロアを正当化するわけではありません。論文は私が観察してきたものよりもずっと厳密で統制された何かを測定しているのであって、私はこの論文が私のフォークロアに「数字」を与えてくれたかのように主張したくはありません。

私が主張していないこと。 私はImplicitMemBenchがエージェントハーネスの振る舞いや、本番のClaude Code / Cursor / Codexワークフローを具体的に測定した、とは主張していません。測定していません。17のモデルを、構造化された認知科学プロトコルに対してテストしたのです。ベンチマークから本番行動へのマッピングは私の拡張であって、そうと明示しており、この投稿を読んだ誰かが「論文が私に代わってその主張をしてくれた」と思ってほしくありません。

これらのラベルを明確にした上で、ベンチマークが描いている区別——指示の明示的想起と、プライミングや条件付けの下での自動的な初回試行行動との区別——は、私自身のエージェント業務でも真剣に受け止めるべき区別です。エージェントに「Xをするな」と伝えれば、明示的な想起はおそらく機能します。尋ねられれば「Xをするな」と返してくれるでしょう。ImplicitMemBenchが測定しているのはそれとは別のことです。何の明示的な注意喚起もない状態で、次の初回試行の決定において、エージェントはXを自動的にしないか、です。本番のエージェントハーネスが、野生の初回試行の振る舞いでこのベンチマークの17.6%という集計抑制値を引き継ぐのかどうか、私にはわかりません。そのマッピングは未検証であり、そう主張するつもりはありません。私が主張しているのはもっと弱いことです。「ルールを想起できる」と「ルールを自動的に実行する」との区別は、私がこれまで扱ってきたよりも鋭いものであり、論文の結果はそう思うに至った理由の一部だ、ということです。

SOUL.mdという幻想

今日書いていたHermesガイドは、SOUL.mdをエージェントの主要なアイデンティティ固定として扱っています。すべてのシステムプロンプトのスロット#1。トーン、声、ガードレール。このガイドは、過去2年間のあらゆる永続的記憶システムが行ってきた主張のバージョンを提示しています。すなわち、正しい宣言的記憶ファイルにアイデンティティを入れれば、エージェントの振る舞いはそれと整合したまま保たれる、と。

この主張は間違ってはいません。しかしImplicitMemBenchは、それがどこまで完全に成り立つかについて、私の確信を弱める理由を与えてくれています。SOUL.mdは明示的な宣言的記憶です。既存のベンチマークがすでに測定し、モデルがすでに高得点を取っている記憶システムです。モデルはその内容を要求に応じて想起できます。そこは簡単な部分です。より難しい問い、そしてSOUL.mdが答えてくれるとは思えない問いはこれです。明示的な固定は、セッションがツール出力、取得された文書、過去のアシスタントのターン、ユーザー修正、その他取り出しステップなしに初回試行の振る舞いを形作るあらゆるもので満たされるにつれて蓄積される暗黙的なプライミング、条件付け、初回試行バイアスを、意味ある形で上書きするのか。わかりません。論文はSOUL.mdや同等のアイデンティティ固定ファイルをテストしておらず、論文が私の代わりにその問いに答えてくれたと主張するつもりはありません。

以下は懸念を、発見ではなく仮説として提示したものです。もしSOUL.mdに「簡潔かつ事実的であれ」とアイデンティティを固定し、その後セッションがユーザーからの長い物語調の会話で埋まっていった場合、暗黙記憶の枠組みが予測するのは、次のターンの初回試行の振る舞いが部分的にそのプライミングによって形作られるはずだ、ということです。明示的な固定が想起の上ではまだ保持されていてもなお。プライミングが本番で平均として実際に勝つかどうか——この論文からそれを証明することはできませんし、やろうとも思いません。SOUL.mdの幻想、と私が名付けたのはこういう意味です。あなたが固定したのはアイデンティティの想起であって、その自動的な実行ではないかもしれない、そしてその2つは同じではない、という可能性です。

SOUL.mdを書くなと言っているわけではありません。私はこれからも書きますし、Hermesガイドもそれを推奨し続けます。明示的な宣言的記憶は、それが得意とする事柄にとって中核を担うものだからです。私が言っているのは——私自身の外挿として明確にラベル付けした上で——こうです。もしあなたが、エージェントが失敗を繰り返さないこと、直近で見たスタイルに漂わないこと、意図していなかったプライミングシグナルに引きずられないことに依存する何かを構築しているのであれば、信頼性予算をSOUL.mdだけに賭けることはしませんし、SOUL.mdを長くしたり具体化したりすれば解決すると仮定することもしません。論文は「パラメータスケーリングを超えたアーキテクチャレベルの革新」という表現を使っています。1 これを私は——慎重に——「プロンプトエンジニアリングによる緩和策ではベンチマークが測定するギャップは埋まらない」という立場の弱い根拠として読んでいます。論文自身はプロンプトエンジニアリングの緩和策をテストしていないので、それが失敗することを証明するとは言えません。言えるのは、それが機能するという確信を論文が与えてくれてはいない、ということだけです。

論文が言っていないこと(そして私が付け加えていること)

この論文はベンチマーク論文です。ギャップを測定し、定量化し、そのギャップがアーキテクチャ上のものだと主張します。特定のハーネスレベルの緩和策を処方したり、特定の本番エージェントシステムについて何かを主張したりはしていません。このセクションのすべての内容は私の枠組みであって、論文のものではありません。

含意1:コンテキストウィンドウ内のすべてのトークンは、文脈内での行動的影響である。 もし暗黙記憶の枠組みがベンチマークの外でも成り立つなら——ここは推測で、報告ではありません——ツール呼び出し、取得された文書、または中間応答からコンテキストウィンドウに入ってくるすべてのトークンは、明示的なプロンプトを読んでも綺麗に監査できない形で、次のターンの初回試行の行動を形作っています。私は以前、silent egress attack surface(注入された指示を運ぶ信頼できないツール出力)や、your agent having a middleman you didn’t vet(クライアントとモデルの間に挟まる信頼できないLLM APIルーター)について書いてきました。どちらの投稿も、暗黙記憶を因果メカニズムとしては主張しておらず、プロンプトインジェクションやサプライチェーンの侵害をメカニズムとして挙げていました。ImplicitMemBenchは、そうした攻撃がなぜそのように機能するのかについてあり得る追加のレンズを提供してくれます。敵対的なツール出力や侵害されたルーターが、エージェントに何をすべきかを明示的に「伝える」ことが一切なくても、それが返す内容はエージェントの次の決定をプライミングしている可能性があります。これはImplicitMemBenchと整合する仮説であって、論文が報告した発見ではありません。

含意2:セッションの長さは、コストの危険だけでなく信頼性の危険でもあるかもしれない。 フォークロア的な観察は、エージェントは長いセッションで悪くなる、というものであり、そのフォークロア的な説明はコンテキストウィンドウの圧迫です。ImplicitMemBenchはそもそもセッション長の研究ではありません。Learning/Priming-Interfere-Testプロトコル下での、300項目の初回試行スコアリングベンチマークであり1、「本番セッションで30ターン経った後に何が起きるか」とは別のものを測定しています。本番セッションに直接マッピングされるふりはしたくありません。私が提案しているのは——仮説として——論文が名指しているメカニズム(取り出しなしに初回試行の決定に着地する暗黙のプライミングと古典的条件付け)が、フォークロア的なドリフトに対する候補となる別の説明であり、論文がその枠組みでテストしていないにもかかわらず真剣に受け止める価値がある、ということです。当面の運用ルールはこうです。セッションはコンテキストウィンドウが許す限り長くではなく、コンテキストウィンドウが許すよりも短く実行しましょう。これは、本当のメカニズムが何であるにせよ、安価な保険になります。

含意3:「static skills are dead skills」の議論には脚注が必要かもしれない。 今週早く、Static Skills Are Dead Skillsを書き、トラジェクトリのフィードバックループを構築しない限り、スキルは出荷された瞬間から改善を止める、と論じました。その議論は、失敗モードが欠如である——集約の欠如、パターン検出器の欠如、進化装置の欠如——と仮定していました。ImplicitMemBenchを以前のその投稿に照らして読むと、その上に重ねられる可能性のある第2の失敗モードを示唆したくなります。トラジェクトリ駆動のスキル更新があったとしても、スキルファイル(明示的な宣言的記憶)に着地したその更新は、初回試行の自動的な行動が暗黙記憶層により近いところで動いている何かによって駆動されている場合、きれいには伝播しないかもしれないのです。そうであるかはわかりません——論文はスキルの更新をテストしていません——しかし、以前の投稿を書いたときには持っていなかった懸念であり、結論ではなく懸念としてフラグを立てています。

含意4:エージェント品質の測定問題はさらに難しくなっているかもしれない。 既存のエージェント評価のほとんどは、機能的なタスク完了(エージェントが問題を解決したか)か、明示的な事実の想起(エージェントが言われたことを覚えていたか)のいずれかを測定しています。ImplicitMemBenchは、独自のプロトコルに基づいて、第3の次元を導入します。暗黙のプライミング下での初回試行の自動的な行動です。その次元が本番で重要であることが判明するなら——私はそれを知らず、論文もそれをテストしていません——エージェント業務の真剣な品質ループには、その測定フックが必要になりますが、今日のほとんどのループはそれを持っていません。私はそれを自分の品質システムのTODOとして扱っており、あなたに対する処方箋としては扱っていません。

実際に何をすべきか

このセクションの内容はいずれも、論文によって処方されたものでもテストされたものでもありません。これは私の読みであり、自分自身の以前の議論から前に進み、ImplicitMemBenchを一つの追加の証拠として用いながら、現在のハーネス上で構築している実践者にとって発見が何を示唆するかを描いたものです。そのラベルに従って扱ってください。

明示的な固定で十分だと仮定するのをやめる。 SOUL.mdAGENTS.mdCLAUDE.md、記憶ファイルは書き続けましょう。ただし、それらを「必要ではあるが十分ではない」ものとして扱います。私が更新しているのは、「システムプロンプトにあれば成り立つ」という自分自身のデフォルト仮定です。論文はその仮定をテストしていません。隣接する問いをテストし、私が自分の仮定を昨日より緩く握りたくなるようなスコアを報告しているのです。

意図的にセッションを短く保つ。 フォークロア的な観察は、エージェントは長いセッションで悪くなる、というものです。私が使ってきたフォークロア的な説明は「コンテキストの圧迫」です。ImplicitMemBenchはセッション長の研究ではありません——それは統制されたLearning/Priming-Interfere-Testプロトコルを用いており、長時間にわたる本番セッションではありません1——しかし、それが名指すメカニズム(取り出しなしに着地する暗黙のプライミングと古典的条件付け)は、そのフォークロアに対する候補となる別の説明です。私が採用している運用ルール:セッションがドリフトしているときは、さらなる明示的な修正で戦おうとせず、セッションを/newして新しく始めます。ドリフトがコンテキストウィンドウの圧迫であろうと、暗黙のプライミングであろうと、その他の何かであろうと、クリーンなセッションは実際の原因が何であれそれをリセットしてくれます。

抑制はプロンプトで強制するのが難しいと扱う。 エージェントに何かをしないようにさせる必要がある場合、それをしないよう伝えたことに頼ってはいけません。構造的なガードを構築しましょう——リンター、プレツールフック、サンドボックスポリシー、呼び出しを拒否するツール——禁止事項をコード層で強制するものです。私のJiro quality loopの議論は、ハードなゲートはモデルの外側になければならない理由がある、というものでした。この立場はこの論文の前からすでに持っていました。ImplicitMemBenchは、私がしてきた議論と整合する具体的なパターン(17.6%の集計抑制値1)を付け加えてくれます。とはいえ、論文自身はプロンプティングやエージェントハーネスをテストしていないので、この立場を証明していると過剰に主張するつもりはありません。

トークン数だけでなく、コンテキストが何をプライミングしているかを監査する。 トークン数は誰もが持っている測定基準です。もし暗黙プライミングの枠組みが有用なレンズであるなら——私はそれを仮説として扱い、決着した結論としては扱っていません——物語調のユーザーペルソナコンテンツで満たされた20kトークンのコンテキストは、構造化コードで満たされた60kトークンのコンテキストよりも、初回試行の振る舞いを物語調の出力に向けて強く形作るかもしれません。この種のコンテンツ軸の監査のためのツーリングはまだ持っていませんし、誰か持っているとも思えません。最低限のバージョンはこうです。最近のセッションを見て、「このコンテキストを読んだ人間は、何に向かってプライミングされるだろうか」と問いかける。この問いがエージェントの振る舞いを実際に予測するかどうかは経験的な問題であり、論文がそれを決定しているふりをするつもりはありません。

最終的な結果ではなく、初回試行の結果をログに残す。 スキルに対して何らかのトラジェクトリキャプチャを実行しているなら、「エージェントが最初に試したこと」と「修正後にエージェントが着地したこと」を分けましょう。ImplicitMemBenchの初回試行スコアリングプロトコル1は、この分離がなぜ重要かについての方法論的な論拠です。最終的な結果は、エージェント+修正ループを測定しますが、初回試行は、外部からのフィードバック以前にエージェントが実際に生成したものを測定します。初回応答が正しく着地することにユーザー体験が依存するあらゆる品質ループで、初回試行の数字が必要ですが、今日それを別途ログに残しているものはほぼ存在しません。


FAQ

ImplicitMemBenchは特定のエージェントハーネスをテストしていますか。

いいえ。Learning/Priming-Interfere-Testプロトコルに初回試行スコアリングを組み合わせた300項目のベンチマーク上で、17のLLMを直接テストしています。1 ハーネスのベンチマークではありません。Claude Code、Cursor、Codex、Hermes、あるいは本番のエージェントループを評価してはいません。この投稿で私がベンチマーク結果からエージェントハーネスの本番行動へと描くマッピングは、私の拡張であり、本文を通じてそうとラベル付けされており、論文の発見ではありません。

17.6%対75.0%の非対称性は、モデルごとの結果ですか、それとも集計値ですか。

アブストラクトはこの非対称性を、モデル間のベンチマーク結果全体に対する著者らの分析の一部として記述しており、「普遍的なボトルネック」の証拠としてラベル付けしています。1 私はこれを、非対称性がテストされた17のモデル全体で一貫して現れていると読んでおり、具体的な数値は集計パターンを反映しています。アブストラクトはモデルごとの内訳を公開しておらず、私は勝手にそれをでっち上げるつもりはありません。モデルごとの完全な内訳については、論文が出典です。

なぜ既存のベンチマークよりも本番エージェントにとってこれがより重要となる可能性があるのですか。

この点については部分的に留保を付けます。ImplicitMemBench自身は複数ステップのプロトコル(Learning/Priming-Interfere-Test)を使っているので1、このベンチマークが「シングルショット」であるとは言えません。ベンチマークに関する雑な決まり文句を繰り返したくはありません。実践者の推測として——論文の発見ではなく——フラグを立てる価値があると私に思えるのは、人々が見るほとんどのその他のエージェント評価は、機能的なタスク完了か明示的な事実の想起のいずれかを測定しており、どちらもモデルに有利だということです。もしこの論文が報告する暗黙記憶のギャップがそれ自身のプロトコルを超えて現実であれば(私はそうであることを知りません)、それらの他の評価は、ユーザーが長時間のセッションで実際に体験する本番行動の次元を取り逃しています。私はそれを検証可能な仮説として扱っており、結論としては扱っていません。

これはHermesガイドにおけるあなたのSOUL.mdのアドバイスと矛盾しますか。

いいえ——境界条件を追加するものです。HermesガイドはSOUL.mdを主要なアイデンティティ固定として推奨しています。明示的な宣言的記憶は、それが得意とする事柄——アイデンティティの一貫した想起、監査可能なバージョン管理、直接質問への予測可能な振る舞い——にとって、依然として中核的だからです。Hermesガイドがカバーしていなかったのは——この論文が出るまでそれを測定するものが存在しなかったためですが——明示的なアイデンティティの固定が、プライミングと古典的条件付けの下での初回試行の自動的な行動に自動的に伝播するわけではない、ということです。SOUL.mdは依然として必要です。それに加えて、その外側にある構造的なガードも必要です。

プロンプトエンジニアリングでこのいずれかを修正できますか。

正直な答えは、論文はプロンプティングを緩和策としてテストしていないので、論文の権威でお答えすることはできません、ということです。私が言えるのはこうです。著者らはこのギャップを「パラメータスケーリングを超えたアーキテクチャレベルの革新を必要とする」と位置づけており1、これは「プロンプトを改善すれば助けになる」よりも強い主張ですが、「どのプロンプトも助けにならない」までは言っていません。抑制側(17.6%の集計値)について具体的には、私の実践者としての直感——論文そのものに比べて割り引いて受け取ってください——としては、モデルの外側にある構造的なガードの方が、プロンプト指示よりも安全な賭けだというものです。ただし、これは私であって論文ではありません。

これは最近よく見る「記憶ベンチマーク」論文の一つですか。

いいえ、そして論文は明示的に自身をそれらと区別しています。アブストラクトの枠組みは、既存の記憶ベンチマークが事実の明示的想起を評価する——モデルに事実を与え、それを取り出すよう求める——というものです。ImplicitMemBenchはまったく別のものを測定しています。取り出しステップを一切伴わない、自動的な行動適応です。1 それがこの論文の貢献であり、ACL 2026 Main Conferenceに採択された理由です。1

これはあなたのエージェント記憶に関する以前の投稿に対してどこに位置づけられますか。

この投稿はStatic Skills Are Dead Skillsの直接の伴走投稿です。あの以前の投稿は、スキルが生き続けるためにはトラジェクトリの集約が必要だと論じ、失敗モードが純粋な欠如であると仮定していました。トラジェクトリデータを手に入れてパターン検出器を走らせれば大丈夫だろう、と。ImplicitMemBenchは私にこう告げています。その上に重ねられる第2の失敗モードがある、と。完璧なトラジェクトリ駆動のスキル更新があったとしても、初回試行の行動は更新を反映しないかもしれません。更新は明示的記憶に着地したのに、決定は暗黙記憶によって駆動されているからです。以前の投稿は、それが主張したことについては依然として正しいままです。この投稿は、それが主張する方法を知らなかったことに関する更新です。

これは測定上のアーティファクトである可能性がありますか。

ありえます。論文は新しく——2026年4月9日に投稿され、ACL 2026 Main Conferenceに採択されました——単一のベンチマークは、実際の現象と同じくらい容易にそのプロトコル特有のアーティファクトを測定することもあります。1 それを否定するつもりはありません。それが単なるアーティファクトではないと私が思う理由は、それが記述する失敗モード——エージェントが選好を素早く強化する一方で、失敗を学び落とすことに失敗する——が、1年以上にわたって名前のないまま私が観察してきたフォークロアだからです。ベンチマークが完璧に較正されている必要はありません。結果の方向性が、実践者が行動すべきものであれば十分です。


参考文献


  1. Chonghan Qin, Xiachong Feng, Weitao Ma, Xiaocheng Feng, Lingpeng Kong, “ImplicitMemBench: Measuring Unconscious Behavioral Adaptation in Large Language Models,” arXiv:2604.08064 [cs.AI], 2026年4月9日投稿、ACL 2026 Main Conference採択。以下の事項の一次出典:LLMエージェントにおける明示的記憶と暗黙記憶の枠組み(「LLMエージェントの既存の記憶ベンチマークは、事実の明示的な想起を評価するものの、意識的な取り出しなしに経験が自動化された行動になる暗黙記憶を見落としている」)、ベンチマークの3つの認知科学的構成概念(手続き記憶=「干渉後のワンショットのスキル獲得」、プライミング=「対応する実験/対照の事例による、テーマ駆動のバイアス」、古典的条件付け=「最初の決定を形作る条件刺激・無条件刺激(CS–US)の連合」)、ベンチマークの設計(300項目スイート、Learning/Priming-Interfere-Testプロトコルに初回試行スコアリングを組み合わせた統一プロトコル)、評価範囲(17モデル)、具体的なトップパフォーマースコア(DeepSeek-R1 65.3%、Qwen3-32B 64.1%、GPT-5 63.0%、総合で66%を超えるモデルはなく、すべて「人間のベースラインをはるかに下回る」と表現)、非対称性の発見(「劇的な非対称性(抑制17.6%対選好75.0%)と、パラメータスケーリングを超えたアーキテクチャレベルの革新を必要とする普遍的なボトルネック」)、および再構成のフレーズ(「評価の枠組みを『エージェントが何を想起するか』から『何を自動的に実行するか』へと再構成する」)。この投稿のすべての直接引用は、公開されたアブストラクトからのものです。ベンチマークの発見が本番のエージェントハーネス(SOUL.mdAGENTS.md、Claude Code、Hermes、MCP、セッション長の影響を含む)にどう適用されるかに関する主張はすべて私自身の枠組みであり、本文全体を通じてそうと明確にラベル付けされており、論文に帰属するものではありません。 

関連記事

The Protege Pattern

A 7B model with sparse expert access matches agents 50x its size. Route routine work to small models and judgment calls …

9 分で読める

The Forgetting Agent: Why Multi-Turn Conversations Collapse

LLMs degrade 39% in multi-turn use across 200K conversations. Three mechanisms drive the collapse, and longer context wi…

16 分で読める