← Wszystkie wpisy

Twój agent ma pamięć, której nie napisałeś

From the guide: Claude Code Comprehensive Guide

LLMy rozwijają nieświadomą pamięć behawioralną, której istniejące ewaluacje w ogóle nie wychwytują. Artykuł z ACL 2026 wykazał, że najlepsze modele osiągają wynik poniżej 66% w wykrywaniu własnych wyuczonych wzorców behawioralnych — wzorców, które utrzymują się między sesjami bez jawnego zapisu. Jawna pamięć, którą Państwo zapisujecie (SOUL.md, CLAUDE.md), to tylko połowa obrazu.

Większą część dzisiejszego dnia spędziłem na pisaniu praktycznego przewodnika dla Hermes Agent. Jedna z kluczowych sekcji dotyczy SOUL.md — pliku, w którym utrwala się tożsamość agenta. Głos, ton, preferencje, zabezpieczenia behawioralne. Cała przesłanka tej sekcji zakłada, że umieszcza się tożsamość w tym pliku, agent odczytuje go na początku każdego zapytania systemowego, a następnie zachowuje się zgodnie z nim. Pamięć jawna. Deklaratywna. Możliwa do audytu. Kontrolowana wersjonowaniem. Właściwy rodzaj pamięci — taki, na którym powinno zależeć poważnemu praktykowi.

Wczoraj na arxiv pojawił się artykuł, który wyłapałem dziś wieczorem podczas skanowania sygnałów, a jego lektura sprawiła, że trzymam się przesłanki SOUL.md luźniej niż jeszcze kilka godzin temu.1

Artykuł nosi tytuł ImplicitMemBench: Measuring Unconscious Behavioral Adaptation in Large Language Models.1 Autorzy opisują go jako pierwszy systematyczny benchmark pamięci niejawnej w LLMach: pamięci, która (w ich ujęciu) kształtuje to, co agent automatycznie uruchamia, w odróżnieniu od pamięci jawnej, która kształtuje to, co świadomie odtwarza.1 Najlepsze modele osiągają wynik poniżej 66%.1 Autorzy raportują również „dramatyczną” asymetrię w obrębie tego wyniku,1 którą rozbiorę z odpowiednim zabezpieczeniem w dalszej części.

TL;DR

Istniejące benchmarki pamięci mierzą jawne odtwarzanie: czy model, otrzymawszy fakt, potrafi go odzyskać. ImplicitMemBench mierzy inny system pamięci — ten, który (według autorów) kształtuje automatyczne zachowanie „bez świadomego odtwarzania”, czerpiąc z klasycznych konstruktów nauk kognitywnych (pamięć proceduralna, torowanie, warunkowanie klasyczne).1 Na benchmarku złożonym z 300 elementów punktowanych za pierwszą próbę żaden z testowanych przez autorów modeli nie przekroczył 66% ogółem: DeepSeek-R1 uzyskał 65,3%, Qwen3-32B 64,1%, GPT-5 63,0%, a autorzy opisują najlepsze modele jako „znacznie poniżej ludzkich poziomów bazowych”.1 Główna liczba opowiada tylko połowę historii. Streszczenie raportuje również „dramatyczną” asymetrię: 17,6% w przypadku inhibicji wobec 75,0% w przypadku preferencji — około czterokrotna różnica, określona jako „uniwersalne wąskie gardło”, które zdaniem autorów wymaga „innowacji architektonicznych wykraczających poza skalowanie parametrów”.1 Odczytuję tę asymetrię (z zastrzeżeniem, że streszczenie nie publikuje pełnej metodologii stojącej za tymi dwoma liczbami) jako spójną z folklorystycznym trybem awarii, który obserwowałem w pracy agentowej: systemy, które szybko wzmacniają niedawno widziane preferencje i nie potrafią oduczyć się niedawno widzianych porażek. Jeśli ta interpretacja się utrzyma, przenosi rozmowę o tożsamości agenta, bezpieczeństwie i ewolucji umiejętności z pytania „co umieściłeś w zapytaniu?” na „co sesja może po cichu kształtować, a czego twoje jawne zapisy nie są w stanie skontrolować?”. To przeformułowanie jest moim rozszerzeniem artykułu, a nie jego własnym twierdzeniem.

Kluczowe wnioski

Poniższe punkty to moje odczytanie tego, co wnioski artykułu oznaczają dla praktyków, a nie twierdzenia samego artykułu. Artykuł testuje 17 LLMów na 300-elementowym benchmarku z nauk kognitywnych; nie ocenia produkcyjnych szkieletów agentowych ani strategii promptowania. Oznaczam każdy wniosek odpowiednio.

  • Rozszerzenie: utrwalanie tożsamości w SOUL.md, AGENTS.md, CLAUDE.md, zapytaniach systemowych lub plikach pamięci trwałej to jawna pamięć deklaratywna, z którą — jak pokazują istniejące benchmarki — modele radzą sobie dobrze. ImplicitMemBench mierzy zupełnie inny system pamięci, a modele uzyskują w nim wynik poniżej 66%.1 Implikacja praktyczna (że jawne zapisy tożsamości mogą nie przenosić się na automatyczne zachowanie przy pierwszej próbie) to mój wniosek, nie artykułu.
  • Rozszerzenie: asymetria 17,6% wobec 75,0%, jeśli uogólni się poza benchmark, przewidywałaby agenta, który szybko absorbuje niedawno widziane preferencje i wolno zaprzestaje powtarzania niedawno widzianych porażek. Artykuł raportuje obie liczby i określa je jako „dramatyczne” i „uniwersalne”,1 ale nie publikuje metodologii per-element dotyczącej tego, jak operacjonalizowano „preferencję” i „inhibicję”, i nie testuje tego wzorca w szkieletach agentowych. Interpretacja odnosząca się do zachowania produkcyjnego jest moja.
  • Rozszerzenie: każdy token, który trafia do okna kontekstu z wywołania narzędzia, odpowiedzi MCP, zeskrobanej strony internetowej lub próby iniekcji promptu, jest wpływem behawioralnym w kontekście. Nie jest to trenowanie w sensie aktualizacji wag, lecz wpływ na kolejną odpowiedź przy pierwszej próbie, którego jawna warstwa promptu nie może czysto skontrolować. Artykuł nie formułuje tego twierdzenia bezpośrednio; rozszerzam ramy pamięci niejawnej na zawartość okna kontekstu.
  • Twierdzenie artykułu: ewaluacja 17 modeli ujawnia „poważne ograniczenia”, „dramatyczne asymetrie” oraz „uniwersalne wąskie gardła wymagające innowacji architektonicznych wykraczających poza skalowanie parametrów”.1 Autorzy określają lukę jako architektoniczną. Odczytuję to jako słaby dowód przeciwko tezie „więcej inżynierii promptów to naprawi”, ale artykuł nie testuje konkretnie mitygacji opartych na promptach, więc proszę traktować tę interpretację jako moją hipotezę, a nie ich.

Co mierzy artykuł

Ramy artykułu zakładają, że istniejące benchmarki pamięci dla agentów LLM „oceniają jawne odtwarzanie faktów, lecz pomijają pamięć niejawną, w której doświadczenie staje się zautomatyzowanym zachowaniem bez świadomego odtwarzania”.1 Luka, którą identyfikują: „skuteczni asystenci muszą automatycznie stosować wyuczone procedury lub unikać nieudanych działań bez jawnych przypomnień”.1 Jeśli jedynym sposobem, aby agent uniknął błędu, jest powtarzanie mu co turę, by go nie popełniał, nie budujecie Państwo na pamięci niejawnej; płacicie koszt pamięci jawnej przy każdym żądaniu.

ImplicitMemBench testuje trzy konstrukty zaczerpnięte bezpośrednio z kognitywnych ujęć pamięci niedeklaratywnej, cytowane ze streszczenia:1

  1. Pamięć proceduralna: „jednostrzałowe nabycie umiejętności po interferencji”. Czy model, pokazawszy raz, jak coś zrobić, potrafi to faktycznie wykonać ponownie, gdy między tymi momentami pojawiły się inne instrukcje? Pamięć proceduralna pozwala człowiekowi nauczyć się jeździć na rowerze: nie odtwarza się tego, jak jeździć, tylko jeździ się, nawet po latach przerwy.
  2. Torowanie: „tematyczne nastawienie poprzez sparowane instancje eksperymentalne/kontrolne”. Czy zobaczenie jednej klasy obiektów sprawia, że model z większym prawdopodobieństwem wygeneruje tę klasę w kolejnym niezwiązanym zadaniu, bez świadomości, że torowanie nastąpiło?
  3. Warunkowanie klasyczne: „skojarzenia bodźca warunkowego — bodźca bezwarunkowego (CS-US) kształtujące pierwsze decyzje”. Jeśli model został wystawiony na sparowanie bodziec-reakcja, czy to sparowanie ujawnia się jako nastawienie w zupełnie nowym zadaniu, w którym ani CS, ani US nie są przedmiotem pytania?

Autorzy używają zestawu 300 elementów w ramach zunifikowanego „protokołu Learning/Priming-Interfere-Test z punktacją pierwszej próby”.1 Punktacja pierwszej próby jest istotna. Model, który potrafi poprawić się po otrzymaniu informacji, że się pomylił, jest w porządku, ale pytanie badawcze dotyczy tego, czy pamięć ukształtowała automatyczną pierwszą odpowiedź. Jeśli pierwsza odpowiedź jest błędna, a korekta następuje dopiero po jawnym sprzężeniu zwrotnym, system pamięci niejawnej (zgodnie z definicją artykułu) zawiódł w tym elemencie. Autorzy podsumowują swój wkład jednym zdaniem, które chcę zacytować wprost: benchmark „przeformułowuje ewaluację z ‘co agenci odtwarzają’ na ‘co automatycznie uruchamiają’”.1

Wyniki

Główna liczba: „żaden model nie przekracza 66% ogółem”.1

  • DeepSeek-R1: 65,3%
  • Qwen3-32B: 64,1%
  • GPT-5: 63,0%

Powyższe najlepsze modele są opisywane jako „znacznie poniżej ludzkich poziomów bazowych”, choć streszczenie nie publikuje dokładnej liczby ludzkiego poziomu bazowego ani pełnego rankingu per-model.1 W artykule oceniono łącznie siedemnaście modeli.1

Główna liczba skrywa pod-wynik. Autorzy piszą, że „analiza ujawnia dramatyczne asymetrie (inhibicja 17,6% wobec preferencji 75,0%) oraz uniwersalne wąskie gardła wymagające innowacji architektonicznych wykraczających poza skalowanie parametrów”.1 Chcę być tutaj ostrożny co do tego, co oznaczają te liczby. Streszczenie nie przedstawia pełnego rozbicia metodologicznego sposobu, w jaki autorzy obliczyli te dwie liczby, więc moja interpretacja jest wnioskiem wyciągniętym ze sformułowań streszczenia, a nie odczytem wewnętrznych definicji artykułu. Z zastrzeżeniem:

  • Preferencja: 75,0% (liczba z artykułu). Moja interpretacja, do weryfikacji z pełnym artykułem: modele wydają się stosunkowo dobre w pokazywaniu, że niejawna ekspozycja przyciągnęła je w stronę bodźca. Torowanie i sparowania CS-US, które nastawiają zachowanie w określonym kierunku, trafiają poprawnie mniej więcej w trzech czwartych przypadków.
  • Inhibicja: 17,6% (liczba z artykułu). Moja interpretacja, do weryfikacji z pełnym artykułem: modele wydają się dramatycznie gorsze w pokazywaniu, że niejawna ekspozycja odepchnęła je od bodźca. Sygnał „nie rób tego ponownie” trafia poprawnie rzadziej niż w co piątym przypadku. Wnioskuję znaczenie behawioralne ze słowa „inhibicja” i ram warunkowania klasycznego przyjętych przez autorów; streszczenie nie precyzuje operacjonalizacji.

Autorzy wyraźnie określają tę asymetrię jako „dramatyczną” i przypisują ją „uniwersalnym wąskim gardłom”,1 a słowo uniwersalne ma znaczenie: autorzy przedstawiają to jako wzorzec występujący w całej ich ewaluacji 17 modeli, a nie jako artefakt jednego modelu. Nie zamierzam twierdzić, że wąskie gardło to „problem promptowania” ani „nie problem promptowania”. Artykuł nie testuje promptowania jako mitygacji, a stwierdzenie którejkolwiek z tych rzeczy wykraczałoby poza to, co zawiera streszczenie.

Co asymetria naprawdę oznacza

Chcę być precyzyjny co do tego, co tutaj twierdzę, ponieważ to moment, w którym łatwo jest nadmiernie zinterpretować benchmark.

Co pokazuje artykuł. Na 300-elementowym benchmarku kognitywnie ugruntowanym, punktowanym za odpowiedzi przy pierwszej próbie, LLMy są dramatycznie gorsze w demonstrowaniu niejawnej inhibicji niż niejawnej preferencji — mniej więcej czterokrotnie — w przypadku każdego testowanego modelu. Autorzy określają to jako uniwersalne wąskie gardło, którego nie da się naprawić skalowaniem.

Co twierdzę — odrębnie od artykułu. Wzorzec asymetrii nakłada się na tryb awarii, który od miesięcy obserwuję we własnej pracy agentowej, nie mając wcześniej dla niego nazwy. Szkielety agentowe (w moim doświadczeniu) wydają się zaskakująco dobre w absorbowaniu kontekstu wskazującego na preferowany styl, narzędzie lub podejście. Zachowanie agenta szybko dryfuje ku temu, co zostało mu podane najświeższe. Wydają się zaskakująco słabe w niepowtarzaniu porażki, którą właśnie obserwowały. Agent próbuje tego samego zepsutego polecenia, tego samego błędnego narzędzia, tej samej nieaktualnej ścieżki, nawet po tym, jak zawiodły w tej samej sesji. To folklor, a nie pomiar; to moje wrażenie praktyka, a nie kontrolowane badanie. Liczby z ImplicitMemBench są spójne z tym folklorem, dlatego zależy mi na tym artykule. Same w sobie nie potwierdzają folkloru i nie chcę twierdzić, że artykuł daje mojemu folklorowi „liczbę”, skoro artykuł mierzył coś ściślejszego i bardziej kontrolowanego niż cokolwiek, co obserwowałem.

Czego nie twierdzę. Nie twierdzę, że ImplicitMemBench konkretnie mierzył zachowanie szkieletu agentowego ani produkcyjne przepływy Claude Code / Cursor / Codex. Nie mierzył. Mierzył 17 modeli wobec ustrukturyzowanego protokołu z nauk kognitywnych. Mapowanie z benchmarku na zachowanie produkcyjne jest moim rozszerzeniem, oznaczonym jako takie, i nie chcę, żeby ktokolwiek czytając to pomyślał, że artykuł stawiał to twierdzenie za mnie.

Z tymi oznaczeniami rozróżnienie, jakie benchmark rysuje między jawnym odtwarzaniem instrukcji a automatycznym zachowaniem przy pierwszej próbie pod torowaniem/warunkowaniem, to rozróżnienie, które chcę, by moja własna praca agentowa zaczęła traktować poważnie. Można powiedzieć agentowi „nie rób X”, a jawne odtwarzanie prawdopodobnie zadziała; agent potrafi powtórzyć „nie rób X” na żądanie. To, co mierzy ImplicitMemBench, jest czymś innym: czy agent automatycznie nie zrobi X przy kolejnej decyzji pierwszej próby, przy braku jakiegokolwiek jawnego przypomnienia? Nie wiem, czy produkcyjne szkielety agentowe dziedziczą wynik 17,6% zagregowanej inhibicji benchmarku w rzeczywistym zachowaniu przy pierwszej próbie. To mapowanie jest nieprzetestowane i go nie twierdzę. Twierdzę coś słabszego: rozróżnienie między „potrafi odtworzyć zasadę” a „automatycznie wprowadza zasadę w czyn” jest ostrzejsze, niż je dotąd traktowałem, a wyniki artykułu są jednym z powodów.

Iluzja SOUL.md

Przewodnik Hermesa, który pisałem dzisiaj, traktuje SOUL.md jako podstawowy zapis tożsamości agenta. Slot #1 w każdym zapytaniu systemowym. Ton, głos, zabezpieczenia. Przewodnik przedstawia wersję argumentu, który formułowały wszystkie systemy pamięci trwałej dla agentów przez ostatnie dwa lata: jeśli umieści się tożsamość w odpowiednim pliku pamięci deklaratywnej, zachowanie agenta pozostaje z nią zgodne.

Ten argument nie jest błędny, ale ImplicitMemBench daje mi powód, by być mniej pewnym, jak kompletnie się utrzymuje. SOUL.md to jawna pamięć deklaratywna — system pamięci, który istniejące benchmarki już mierzą i z którym modele już sobie dobrze radzą. Modele mogą odtworzyć jego zawartość na żądanie; to jest łatwa część. Trudniejsze pytanie, na które moim zdaniem SOUL.md nie odpowiada: czy jawny zapis znacząco nadpisuje niejawne torowanie, warunkowanie i nastawienie pierwszej próby, które narastają, gdy sesja wypełnia się wyjściami narzędzi, pobranymi dokumentami, wcześniejszymi turami asystenta, korektami użytkownika i wszystkim, co kształtuje zachowanie pierwszej próby bez żadnego kroku odtwarzania? Nie wiem. Artykuł nie testuje SOUL.md ani żadnego równoważnego pliku zapisu tożsamości i nie chcę twierdzić, że odpowiada mi na to pytanie.

Oto obawa, sformułowana jako hipoteza, a nie ustalenie. Jeśli utrwalicie Państwo w SOUL.md tożsamość mówiącą „bądź zwięzły i rzeczowy”, a następnie sesja wypełni się długim wątkiem rozmowy w stylu narracyjnym od użytkownika, ramy pamięci niejawnej przewidują, że torowanie powinno częściowo ukształtować zachowanie przy pierwszej próbie w kolejnej turze, nawet gdy jawny zapis nadal utrzymuje się przy odtwarzaniu. Czy torowanie faktycznie wygrywa średnio w produkcji, nie mogę udowodnić na podstawie tego artykułu i nie będę próbował. Iluzja SOUL.md, jak ją nazywam: możliwość, że utrwaliliście Państwo odtwarzanie tożsamości, a nie automatyczne jej urzeczywistnianie, a te dwie rzeczy to nie to samo.

Nie mówię, żeby nie pisać SOUL.md. Nadal będę go pisał, a przewodnik Hermesa nadal będzie go rekomendował, ponieważ jawna pamięć deklaratywna jest nośna dla rzeczy, które robi dobrze. To, co mówię, oznaczone wyraźnie jako moja własna ekstrapolacja: jeśli budujecie Państwo cokolwiek, co zależy od tego, by agent nie powtarzał błędu, nie dryfował ku niedawno widzianemu stylowi, nie dawał się ściągnąć z zadania przez niezamierzony sygnał torowania, nie postawiłbym budżetu niezawodności wyłącznie na SOUL.md i nie zakładałbym, że zrobienie SOUL.md dłuższym lub bardziej szczegółowym rozwiązuje problem. Artykuł używa wyrażenia „innowacje architektoniczne wykraczające poza skalowanie parametrów”,1 które odczytuję (ostrożnie) jako słaby dowód, że mitygacje oparte na inżynierii promptów nie zamkną luki mierzonej przez benchmark. Sam artykuł nie testuje mitygacji opartych na inżynierii promptów, więc nie mogę powiedzieć, że dowodzi ich porażki; mogę jedynie powiedzieć, że nie daje mi pewności, iż zadziałają.

Czego artykuł nie mówi (i co dodaję)

Artykuł jest artykułem benchmarkowym. Mierzy lukę, kwantyfikuje ją, argumentuje, że luka jest architektoniczna. Nie przepisuje konkretnych mitygacji na poziomie szkieletu ani nie twierdzi niczego o konkretnych produkcyjnych systemach agentowych. Wszystko w tej sekcji to moje ramy, nie artykułu.

Implikacja 1: każdy token w oknie kontekstu jest wpływem behawioralnym w kontekście. Jeśli ramy pamięci niejawnej utrzymują się poza benchmarkiem (a spekuluję tutaj, nie raportuję), każdy token trafiający do okna kontekstu z wywołania narzędzia, pobranego dokumentu lub pośredniczącej odpowiedzi kształtuje zachowanie przy pierwszej próbie kolejnej tury w sposób, którego odczyt jawnego promptu nie może czysto skontrolować. Pisałem wcześniej o cichej powierzchni ataku egress (niezaufane wyjścia narzędzi niosące wstrzyknięte instrukcje) oraz o agencie mającym pośrednika, którego nie zweryfikowałeś (niezaufane routery API LLM między klientem a modelem). Żaden z tych wpisów nie twierdził, że pamięć niejawna jest mechanizmem przyczynowym. Oba wskazywały iniekcję promptu i kompromitację łańcucha dostaw jako mechanizmy. ImplicitMemBench oferuje możliwy dodatkowy pryzmat na to, dlaczego te ataki działają tak, jak działają: nawet jeśli wrogie wyjście narzędzia ani skompromitowany router nigdy jawnie nie „mówi” agentowi, co ma robić, zawartość tego, co zwraca, mogłaby torować kolejną decyzję agenta. To hipoteza, z którą ImplicitMemBench jest spójny, a nie ustalenie raportowane przez artykuł.

Implikacja 2: długość sesji może być zagrożeniem dla niezawodności, a nie tylko zagrożeniem kosztowym. Obserwacja folklorystyczna brzmi, że agenci pogarszają się w długich sesjach, a folklorystyczne wyjaśnienie to nacisk okna kontekstu. ImplicitMemBench w ogóle nie jest badaniem długości sesji. To benchmark 300-elementowy z punktacją pierwszej próby w protokole Learning/Priming-Interfere-Test,1 który mierzy coś innego niż „co dzieje się podczas 30 tur w sesji produkcyjnej”. Nie chcę udawać, że mapuje się bezpośrednio na sesje produkcyjne. Sugeruję, jako hipotezę, że mechanizm, który artykuł nazywa (niejawne torowanie i warunkowanie klasyczne trafiające w decyzje pierwszej próby bez odtwarzania), jest kandydackim alternatywnym wyjaśnieniem folklorystycznego dryfu i zasługuje na poważne rozważenie, mimo że artykuł nie testuje go w tych ramach. Moja reguła operacyjna tymczasem: warto prowadzić sesje krótsze, niż pozwala okno kontekstu, a nie tak długie, jak na to zezwala. Tania polisa ubezpieczeniowa wobec tego, czym okaże się prawdziwy mechanizm.

Implikacja 3: argument „statyczne umiejętności to martwe umiejętności” wymaga przypisu. Napisałem Statyczne umiejętności to martwe umiejętności na początku tego tygodnia, argumentując, że umiejętności przestają się doskonalić w chwili, gdy zostają wydane, chyba że zbuduje się pętlę sprzężenia zwrotnego trajektorii. Ten argument zakładał, że trybem awarii jest brak: brak agregacji, brak detektora wzorców, brak ewolutora. Czytając ImplicitMemBench na tle tego wcześniejszego wpisu, chcę zasygnalizować możliwy drugi tryb awarii nałożony na wierzch: nawet przy aktualizacjach umiejętności sterowanych trajektorią, aktualizacja trafiająca do pliku umiejętności (jawna pamięć deklaratywna) może nie przenosić się czysto na automatyczne zachowanie przy pierwszej próbie, jeśli coś bliższego warstwie pamięci niejawnej steruje decyzjami pierwszej próby. Nie wiem, czy tak jest. Artykuł nie testuje aktualizacji umiejętności. Ale to obawa, której nie miałem, gdy pisałem wcześniejszy wpis, i sygnalizuję ją jako obawę, a nie wniosek.

Implikacja 4: problem pomiaru jakości agenta może stawać się trudniejszy. Większość istniejących ewaluacji agentów mierzy albo funkcjonalne ukończenie zadania (czy agent rozwiązał problem), albo jawne odtwarzanie faktów (czy agent zapamiętał, co mu powiedzieliście). ImplicitMemBench wprowadza, we własnym protokole, trzeci wymiar: automatyczne zachowanie pierwszej próby pod niejawnym torowaniem. Jeśli ten wymiar okaże się istotny w produkcji (czego nie wiem, a artykuł nie testuje), każda poważna pętla jakości dla pracy agentowej potrzebuje punktu zaczepienia pomiarowego, a większość pętli dzisiaj go nie ma. Traktuję to jako TODO dla mojego własnego systemu jakości, a nie przepis dla Państwa.

Implikacja 5: alignment to bramka odtwarzania, a nie mechanizm wymazywania. Osobny artykuł autorstwa Liu i wsp. wzmacnia ramy pamięci niejawnej z innej strony.2 Pokazują, że fine-tuning na semantycznie powiązanym tekście (nawet powieściach z domeny publicznej) reaktywuje dosłowne odtwarzanie zapamiętanych książek chronionych prawem autorskim, które model zapamiętał podczas pretreningu, lecz alignment je stłumił: do 85-90% dosłownej reprodukcji, pojedyncze fragmenty przekraczające 460 słów, uogólnienie na ponad 30 niepowiązanych autorów przy fine-tuningu na zaledwie jednym, z korelacją krzyżową r >= 0,90 w GPT-4o, Gemini-2.5-Pro i DeepSeek-V3.1.2 Mechanizm ma znaczenie dla argumentu o pamięci niejawnej: zapamiętanie było już zakodowane w wagach pretreningu. Fine-tuning nie wstrzyknął nowej wiedzy — obszedł bramkę alignmentu, która blokowała odtwarzanie. Jeśli alignment funkcjonuje raczej jako bramka niż wymazywacz, rzeczywisty ślad pamięciowy modelu jest większy i mniej kontrolowalny niż to, co jawne mechanizmy (alignment, zapytania systemowe, zapisy tożsamości) ujawniają. ImplicitMemBench formułuje to samo strukturalne twierdzenie od strony behawioralnej: model ma pamięć, zarówno behawioralną, jak i treściową, której jawne zapisy nie rządzą. Artykuł o finetuningu i ImplicitMemBench mierzą różne manifestacje tej samej leżącej u podstaw rzeczywistości. (Jak poprzednio, połączenie tych dwóch artykułów to moje ramy, a nie twierdzenie formułowane przez którykolwiek z nich.)

Co faktycznie robić

Żaden z artykułów nie przepisuje ani nie testuje niczego z tej sekcji. Poniższe to moje odczytanie, bazujące na moich wcześniejszych argumentach i wykorzystujące ImplicitMemBench oraz ustalenie o bramce alignmentu jako dodatkowych dowodach, tego, co wnioski oznaczają dla praktyków budujących przeciwko obecnym szkieletom. Proszę oznaczać odpowiednio.

Proszę przestać zakładać, że jawne zapisy są wystarczające. Warto nadal pisać SOUL.md, AGENTS.md, CLAUDE.md i pliki pamięci, ale należy traktować je jako konieczne-lecz-niewystarczające. Wpis wzorce AGENTS.md dokumentuje, jak skutecznie strukturyzować te pliki; niniejszy wpis dodaje warunek brzegowy dotyczący tego, co mogą zagwarantować. Tym, co aktualizuję, jest moje własne domyślne założenie, że „jeśli jest w zapytaniu systemowym, to obowiązuje”. Artykuł nie testuje tego założenia; testuje sąsiednie pytania i raportuje wyniki, które sprawiają, że chcę trzymać się własnego założenia luźniej niż wczoraj.

Proszę skracać sesje celowo. Obserwacja folklorystyczna brzmi, że agenci pogarszają się w długich sesjach. Folklorystyczne wyjaśnienie, z którego korzystałem, to „nacisk kontekstu”. ImplicitMemBench nie jest badaniem długości sesji. Używa kontrolowanego protokołu Learning/Priming-Interfere-Test, a nie długotrwałych sesji produkcyjnych.1 Ale mechanizm, który nazywa (niejawne torowanie i warunkowanie klasyczne trafiające bez odtwarzania), jest kandydackim alternatywnym wyjaśnieniem tego folkloru. Reguła operacyjna, którą przyjmuję: gdy sesja dryfuje, nie warto zwalczać tego większą liczbą jawnych korekt. Trzeba zrobić /new sesji i zacząć od nowa. Niezależnie od tego, czy dryf to nacisk okna kontekstu, niejawne torowanie czy coś innego, czysta sesja resetuje to, co faktycznie jest przyczyną.

Proszę traktować inhibicję jako trudną do wyegzekwowania w prompcie. Jeśli potrzebują Państwo, aby agent nie robił czegoś, nie warto polegać na tym, że mu to powiedziano. Należy zbudować strukturalny bezpiecznik (linter, pre-tool hook, politykę sandboxa, narzędzie, które odmawia wywołania), który egzekwuje zakaz na warstwie kodu. Mój argument z pętli jakości Jiro głosi, że twarde bramki muszą znajdować się poza modelem z pewnego powodu; tę pozycję zajmowałem już przed tym artykułem. ImplicitMemBench dodaje konkretny wzorzec (liczbę 17,6% zagregowanej inhibicji1), który jest spójny z argumentem, który wysuwałem, choć artykuł sam w sobie nie testuje promptowania ani szkieletów agentowych, i nie chcę nadmiernie twierdzić, że dowodzi tej pozycji.

Proszę audytować kontekst pod kątem tego, co toruje, a nie tylko ile ma tokenów. Liczba tokenów to pomiar, który wszyscy mają. Jeśli ramy niejawnego torowania są użytecznym pryzmatem (a traktuję je jako hipotezę, którą chcę przetestować, a nie ustalony wynik), kontekst o długości 20 tys. tokenów pełen narracyjnej treści persony użytkownika może kształtować zachowanie pierwszej próby ku wynikom narracyjnym bardziej niż kontekst o długości 60 tys. tokenów pełen ustrukturyzowanego kodu. Nie mam jeszcze narzędzi do tego rodzaju audytu osi treści i nie jestem pewien, czy ktokolwiek ma. Minimalna wersja to: spojrzeć na swoje ostatnie sesje i zapytać „ku czemu człowiek czytający ten kontekst byłby torowany?”. Czy to pytanie jest faktycznie predykcyjne dla zachowania agenta, jest kwestią empiryczną i nie będę udawał, że artykuł to rozstrzyga.

Proszę logować dyspozycję pierwszej próby, a nie tylko dyspozycję końcową. Jeśli prowadzą Państwo jakikolwiek rodzaj przechwytywania trajektorii wobec swoich umiejętności, należy oddzielić „co agent próbował najpierw” od „na czym agent wylądował po korekcie”. Protokół punktacji pierwszej próby ImplicitMemBench1 jest argumentem metodologicznym za tym, dlaczego to rozdzielenie ma znaczenie: dyspozycja końcowa mierzy agenta plus pętlę korekcyjną, a pierwsza próba mierzy to, co agent faktycznie wytworzył przed zewnętrznym sprzężeniem zwrotnym. Dla każdej pętli jakości, w której doświadczenie użytkownika zależy od tego, aby pierwsza odpowiedź trafiła w cel, potrzebna jest liczba pierwszej próby, a prawie nic dziś nie loguje jej osobno.


FAQ

Czy ImplicitMemBench testuje konkretnie jakiś szkielet agentowy?

Nie. Testuje 17 LLMów bezpośrednio na benchmarku 300-elementowym w protokole Learning/Priming-Interfere-Test z punktacją pierwszej próby.1 To nie jest benchmark szkieletowy. Nie ocenia Claude Code, Cursor, Codex, Hermesa ani żadnej produkcyjnej pętli agentowej. Mapowanie, które kreślę w tym wpisie, z wyników benchmarku na produkcyjne zachowanie szkieletu agentowego, to moje rozszerzenie, oznaczone jako takie w całym tekście, i nie jest ustaleniem z artykułu.

Czy asymetria 17,6% wobec 75,0% jest wynikiem per-model czy zagregowanym?

Streszczenie opisuje asymetrię jako część analizy przeprowadzonej przez autorów na ogólnych wynikach benchmarku w różnych modelach i określa ją jako dowód „uniwersalnych wąskich gardeł”.1 Odczytuję to tak, że asymetria pojawia się konsekwentnie w 17 testowanych modelach, a konkretne liczby odzwierciedlają zagregowany wzorzec. Streszczenie nie publikuje rozbicia per-model, a ja nie zamierzam go wymyślać. Pełne rozbicie per-model można znaleźć w samym artykule.

Dlaczego może to mieć większe znaczenie dla agentów produkcyjnych niż dla istniejących benchmarków?

Częściowe zastrzeżenie. Sam ImplicitMemBench używa protokołu wieloetapowego (Learning/Priming-Interfere-Test),1 więc nie jest tak, że benchmark jest „jednostrzałowy”. Nie chcę powtarzać zwykłej nieostrożnej linii o benchmarkach. To, co wydaje się warte zasygnalizowania (jako spekulacja praktyka, nie ustalenie artykułu), to fakt, że większość innych ewaluacji agentów, na które ludzie patrzą, mierzy albo funkcjonalne ukończenie zadania, albo jawne odtwarzanie faktów — obie sprzyjają modelom. Jeśli luka pamięci niejawnej raportowana przez ten artykuł jest rzeczywista poza jego własnym protokołem (czego nie wiem), te inne ewaluacje pomijają wymiar zachowania produkcyjnego, którego użytkownicy faktycznie doświadczają w długotrwałych sesjach. Traktuję to jako testowalną hipotezę, a nie wniosek.

Czy to zaprzecza Państwa radzie dotyczącej SOUL.md w przewodniku Hermesa?

Nie. Dodaje warunek brzegowy. Przewodnik Hermesa rekomenduje SOUL.md jako podstawowy zapis tożsamości, ponieważ jawna pamięć deklaratywna jest nadal nośna dla tego, co robi dobrze: konsekwentnego odtwarzania tożsamości, audytowalnej kontroli wersji, przewidywalnego zachowania pod bezpośrednim zapytaniem. Przewodnik Hermesa nie pokrywał (ponieważ nic nie istniało, by to zmierzyć, dopóki nie pojawił się ten artykuł) faktu, że jawny zapis tożsamości nie przenosi się automatycznie na automatyczne zachowanie pierwszej próby pod torowaniem i warunkowaniem klasycznym. Nadal warto mieć SOUL.md. Warto też mieć strukturalne bezpieczniki poza nim.

Czy inżynieria promptów może to jakoś naprawić?

Uczciwa odpowiedź brzmi, że artykuł nie testuje promptowania jako strategii mitygacyjnej, więc nie mogę tego powiedzieć z autorytetem artykułu. To, co mogę powiedzieć: autorzy ujmują lukę jako „wymagającą innowacji architektonicznych wykraczających poza skalowanie parametrów”,1 co jest mocniejszym twierdzeniem niż „lepsze prompty pomogą”, lecz niezupełnie „żaden prompt nie pomoże”. Konkretnie dla strony inhibicji (17,6% zagregowane) moja intuicja praktyka (którą należy zdyskontować względem samego artykułu) głosi, że strukturalne bezpieczniki poza modelem to bezpieczniejszy zakład niż instrukcje w prompcie. Ale to ja, nie artykuł.

Czy to jeden z artykułów o „benchmarku pamięci”, których widziałem ostatnio mnóstwo?

Nie, a artykuł wyraźnie odróżnia się od nich. Ramy streszczenia zakładają, że istniejące benchmarki pamięci oceniają jawne odtwarzanie faktów: daj modelowi fakt, poproś model o jego odzyskanie. ImplicitMemBench mierzy zupełnie inną rzecz — automatyczną adaptację zachowania bez żadnego kroku odtwarzania.1 To rozróżnienie jest wkładem artykułu i powodem, dla którego uzyskał akceptację na ACL 2026 Main Conference.1

Gdzie sytuuje się to względem Państwa wcześniejszych wpisów o pamięci agentów?

Wpis mieści się w hubie inżynierii AI i stanowi bezpośredniego towarzysza Statyczne umiejętności to martwe umiejętności. Kontekst to architektura przedstawia strukturalny argument za tym, dlaczego to, co trafia do okna kontekstu, ma znaczenie; compound context opisuje infrastrukturę, która akumuluje się między sesjami. Tamten wcześniejszy wpis argumentował, że umiejętności potrzebują agregacji trajektorii, by pozostać żywe, a ja zakładałem, że trybem awarii jest czysta absencja: gdybyście tylko mogli uzyskać dane trajektorii i uruchomić detektor wzorców, byłoby dobrze. ImplicitMemBench wskazuje na drugi tryb awarii nałożony na wierzch: nawet przy doskonałych aktualizacjach umiejętności sterowanych trajektorią, zachowanie pierwszej próby może nie odzwierciedlać aktualizacji, ponieważ aktualizacja trafiła do pamięci jawnej, a pamięć niejawna steruje rzeczywistymi decyzjami. Wcześniejszy wpis jest nadal poprawny co do tego, co twierdził; obecny wpis aktualizuje to, czego wtedy nie potrafił wiedzieć, by twierdzić.

Czy to może być artefakt pomiarowy?

Możliwe. Artykuł jest nowy (przesłany 9 kwietnia 2026, zaakceptowany na ACL 2026 Main Conference), a pojedyncze benchmarki mogą mierzyć artefakty swoich konkretnych protokołów równie łatwo, jak mierzą rzeczywiste zjawiska.1 Nie zamierzam udawać, że jest inaczej. Powód, dla którego myślę, że to nie jest tylko artefakt, to fakt, że tryb awarii, który opisuje (agenci szybko wzmacniający preferencje i niepotrafiący oduczyć się porażek), to folklor, który obserwuję bez nazwy dla niego od ponad roku. Benchmark nie musi być idealnie skalibrowany, by kierunek wyniku był czymś, na czym praktycy powinni się oprzeć.


Odnośniki


  1. Chonghan Qin, Xiachong Feng, Weitao Ma, Xiaocheng Feng, Lingpeng Kong, “ImplicitMemBench: Measuring Unconscious Behavioral Adaptation in Large Language Models,” arXiv:2604.08064 [cs.AI], przesłane 9 kwietnia 2026, zaakceptowane na ACL 2026 Main Conference. Źródło podstawowe dla: ram rozróżnienia pamięci jawnej i niejawnej w agentach LLM („istniejące benchmarki pamięci dla agentów LLM oceniają jawne odtwarzanie faktów, lecz pomijają pamięć niejawną, w której doświadczenie staje się zautomatyzowanym zachowaniem bez świadomego odtwarzania”); trzech kognitywnie ugruntowanych konstruktów benchmarku (pamięć proceduralna = „jednostrzałowe nabycie umiejętności po interferencji”; torowanie = „tematyczne nastawienie poprzez sparowane instancje eksperymentalne/kontrolne”; warunkowanie klasyczne = „skojarzenia bodźca warunkowego — bodźca bezwarunkowego (CS–US) kształtujące pierwsze decyzje”); konstrukcji benchmarku (zestaw 300 elementów, zunifikowany protokół Learning/Priming-Interfere-Test z punktacją pierwszej próby); zakresu ewaluacji (17 modeli); konkretnych wyników najlepszych modeli (DeepSeek-R1 65,3%, Qwen3-32B 64,1%, GPT-5 63,0%, żaden model nie przekracza 66% ogółem, wszystkie opisywane jako „znacznie poniżej ludzkich poziomów bazowych”); ustalenia o asymetrii („dramatyczne asymetrie (inhibicja 17,6% wobec preferencji 75,0%) oraz uniwersalne wąskie gardła wymagające innowacji architektonicznych wykraczających poza skalowanie parametrów”); i frazy przeformułowania („przeformułowuje ewaluację z ‘co agenci odtwarzają’ na ‘co automatycznie uruchamiają’”). Wszystkie bezpośrednie cytaty w tym wpisie pochodzą z opublikowanego streszczenia. Twierdzenia dotyczące tego, jak ustalenia benchmarku stosują się do produkcyjnych szkieletów agentowych, w tym SOUL.md, AGENTS.md, Claude Code, Hermesa, MCP i efektów długości sesji, są moimi własnymi ramami, wyraźnie oznaczonymi jako takie w całym tekście, i nie są przypisywane artykułowi. 

  2. Xinyue Liu, Niloofar Mireshghallah, Jane C. Ginsburg, Tuhin Chakrabarty, “Alignment Whack-a-Mole: Finetuning Activates Verbatim Recall of Copyrighted Books in Large Language Models,” arXiv:2603.20957, przesłane 21 marca 2026 (preprint, w recenzji). Źródło podstawowe dla: ustalenia, że fine-tuning na semantycznie powiązanym tekście reaktywuje dosłowne odtwarzanie zapamiętanych książek chronionych prawem autorskim, już zapamiętanych podczas pretreningu, lecz stłumionych przez alignment (do 85–90% dosłownej reprodukcji; pojedyncze fragmenty przekraczające 460 słów); uogólnienia między autorami (fine-tuning na jednym autorze wyciąga ponad 30 niepowiązanych autorów); replikacji między modelami (GPT-4o, Gemini-2.5-Pro, DeepSeek-V3.1, korelacja zapamiętywania r ≥ 0,90); oraz strukturalnego wniosku, że alignment funkcjonuje jako bramka odtwarzania, a nie mechanizm wymazywania: zapamiętanie było zakodowane w wagach pretreningu, a nie wstrzyknięte przez fine-tuning. Użyte w tym wpisie do wsparcia argumentu, że rzeczywisty ślad pamięciowy modelu przekracza to, co ujawniają jawne mechanizmy. Połączenie między tym artykułem a ImplicitMemBench to moje ramy, a nie twierdzenie formułowane przez którykolwiek z artykułów. 

Powiązane artykuły

Nagradzaj narzędzie przed odpowiedzią

Agenci AI zawodzą, gdy odpowiedzi przypisują sobie pracę narzędzi, która nigdy się nie wydarzyła. Cztery tryby awarii i …

10 min czytania

Warsztat, który noszę ze sobą

Filozofia niewidocznego rzemiosła Steve'a Jobsa w praktyce: integralność całego produktu, odmowa i dbałość wewnątrz uprz…

11 min czytania