Architektura pamięci agentów AI, która naprawdę działa

W lutym 2026 roku zbudowałem system pamięci semantycznej dla narzędzia do orkiestracji agentów AI. System indeksuje 49 746 fragmentów tekstu z 15 800 plików do lokalnej bazy danych SQLite, wyszukuje je za pomocą hybrydowego połączenia BM25 i wyszukiwania wektorowego scalonego metodą Reciprocal Rank Fusion, a następnie wykorzystuje podobieństwo kosinusowe między embeddingami zadania a ostatnimi działaniami agenta do wykrywania momentów, gdy agent odbiega od zadania.¹ Model embeddingów waży 8 megabajtów. Baza danych — 83 megabajty. Cały system działa na laptopie, bez jakiejkolwiek zależności od chmury.

Nie czytałem żadnych artykułów naukowych przed jego zbudowaniem. Rozwiązywałem problemy, które napotykałem: agent tracił kontekst między sesjami, powtarzał wcześniejsze błędy i odchodził od zadania bez wykrycia. Architektura wyłoniła się z tych porażek.

W marcu 2026 roku pięć artykułów naukowych doszło do tej samej architektury.

Podsumowanie

Konwergencja: pięć artykułów opublikowanych w marcu 2026 niezależnie potwierdza te same wzorce pamięci agentów, które twórcy systemów produkcyjnych wdrożyli miesiące wcześniej. Hybrydowe wyszukiwanie z fuzją RRF, umiejętności przechowywane jako ustrukturyzowany markdown, eksploracja trajektorii pod kątem trybów awarii oraz bramkowana pamięć zapobiegająca dryftowi.
Dowody: Structured Distillation przetestowało 20 konfiguracji wyszukiwania wektorowego i 20 konfiguracji BM25 na 4 182 rozmowach. Czyste wyszukiwanie wektorowe okazało się statystycznie nieistotne. Czyste BM25 pogarszało wyniki. Jedynie hybrydowe wyszukiwanie międzywarstwowe działało.² Mój system wykorzystuje dokładnie tę architekturę.
Liczby produkcyjne: 49 746 fragmentów, 15 800 plików, baza danych 83 MB, model embeddingów 8 MB, 12 wykrytych incydentów dryftu ze 100% precyzją przy progu kosinusowym 0,30.¹
Liczby z badań: Memento-Skills osiągnęło 116% względnej poprawy w teście Humanity’s Last Exam, wykorzystując umiejętności przechowywane jako pliki markdown.³ Trajectory-Informed Memory osiągnęło poprawę o 28,5 punktu procentowego w złożonych zadaniach.⁴ SuperLocalMemory osiągnęło 74,8% w benchmarku LoCoMo bez żadnych wywołań chmurowych.⁵
Co to oznacza: wzorce są prawidłowe. Gdy twórcy i badacze niezależnie dochodzą do tej samej architektury bez koordynacji, architektura ta jest prawdopodobnie optymalna dla danej przestrzeni problemowej. Pamięć agentów nie jest problemem badawczym czekającym na przełom. To problem inżynieryjny z rozwiązaniami, których większość zespołów jeszcze nie wdrożyła.

Pięć artykułów potwierdzających tę samą architekturę pamięci agentów

Hybrydowe wyszukiwanie — jedyna architektura, która działa

Sydney Lewis przetestowała 40 konfiguracji wyszukiwania na 4 182 rozmowach zawierających 14 340 wymian z sześciu projektów inżynierii oprogramowania.² Badanie skompresowało każdą wymianę ze średnio 371 tokenów do 38 tokenów przy użyciu ustrukturyzowanego formatu czteropolowego, a następnie przetestowało każdą kombinację wyszukiwania wektorowego i wyszukiwania słów kluczowych BM25.

Wynik był jednoznaczny. Wszystkie 20 konfiguracji wyłącznie wektorowych okazało się statystycznie nieistotnych po korekcji Bonferroniego. Wszystkie 20 konfiguracji wyłącznie BM25 istotnie pogarszało wyniki. Jedynie hybrydowe wyszukiwanie międzywarstwowe (łączące oba podejścia) dawało wiarygodne rezultaty, osiągając MRR 0,759 w porównaniu z 0,745 dla wyszukiwania dosłownego — 11-krotna kompresja bez utraty jakości wyszukiwania.²

Mój system wykorzystuje FTS5 BM25 do wyszukiwania słów kluczowych i sqlite-vec do 256-wymiarowego wyszukiwania wektorowego, scalone za pomocą Reciprocal Rank Fusion.¹ Wybrałem tę architekturę, ponieważ czyste wyszukiwanie wektorowe pomijało precyzyjne terminy techniczne (nazwy funkcji, kody błędów, ścieżki plików), podczas gdy czyste wyszukiwanie słów kluczowych nie uwzględniało podobieństwa semantycznego. Podejście hybrydowe wyłoniło się z debugowania błędów wyszukiwania, a nie z lektury literatury naukowej. Artykuł Lewis dostarcza statystycznego dowodu na to, co w praktyce wydawało się oczywiste.

Umiejętności jako pliki markdown

Memento-Skills wprowadził framework uczenia ze wzmocnieniem oparty na pamięci, w którym wielokrotnego użytku umiejętności przechowywane są jako ustrukturyzowane pliki markdown.³ Cykl uczenia refleksyjnego Read-Write wybiera odpowiednie umiejętności podczas wykonywania (Read) i aktualizuje bibliotekę umiejętności na podstawie nowego doświadczenia (Write). System osiągnął 26,2% względnej poprawy w benchmarku General AI Assistants i 116,2% względnej poprawy w teście Humanity’s Last Exam — wszystko bez aktualizacji parametrów modelu. Adaptacja zachodzi wyłącznie poprzez ewolucję zeksternalizowanych umiejętności.³

Zbudowałem to samo dziesięć miesięcy wcześniej. System Learner v2 w moim narzędziu orkiestracyjnym wykrywa semantyczne wzorce przepływów pracy z historii sesji na podstawie odcisków ścieżek plików, generuje pliki umiejętności jako ustrukturyzowany markdown z metadanymi frontmatter i przechowuje je do automatycznej aktywacji w przyszłych sesjach.⁶ Biblioteka umiejętności zawiera obecnie 48 umiejętności — od ewaluacji blogów, przez procedury nightcheck, po weryfikację wdrożeń. Każda umiejętność zaczynała się od kilku linii adresujących konkretną awarię i rozrastała się, gdy agent napotykał nowe przypadki brzegowe.

Thariq Shihipar z Anthropic potwierdził ten sam wzorzec wewnętrznie: „Większość umiejętności zaczynała się od kilku linii i jednej pułapki, a następnie rozrastała się, gdy Claude napotykał nowe przypadki brzegowe.” Anthropic posiada setki aktywnie używanych umiejętności, pogrupowanych w dziewięć kategorii, które precyzyjnie odpowiadają kategoriom, które opracowałem niezależnie.⁷

Ta konwergencja nie jest przypadkowa. Pliki markdown to właściwa abstrakcja dla umiejętności agentów, ponieważ są czytelne dla człowieka, wersjonowalne i mogą być ładowane do kontekstu bez narzutu serializacji. Model może je czytać, modyfikować i rozszerzać, korzystając z tych samych zdolności przetwarzania tekstu, których używa do kodu. Bez fine-tuningu, bez aktualizacji parametrów, bez pipeline’u treningowego. Plik umiejętności jest pamięcią.

Eksploracja trajektorii pod kątem trybów awarii

Trajectory-Informed Memory Generation z IBM Research wprowadził czteroetapowy pipeline do ekstrakcji wniosków z trajektorii wykonywania agentów.⁴ System analizuje semantyczne wzorce w rozumowaniu agenta, identyfikuje decyzje dotyczące awarii i odzyskiwania, generuje wskazówki strategiczne i optymalizacyjne, a następnie wstrzykuje dostosowane wnioski do przyszłych promptów. W scenariuszach AppWorld system osiągnął do 14,3 punktu procentowego poprawy w realizacji celów, z poprawą o 28,5 punktu procentowego w złożonych zadaniach — wzrost względny o 149%.⁴

Robiłem to ręcznie. Przez ponad 500 autonomicznych sesji kodowania między majem 2025 a lutym 2026 przeglądałem dziennik rozmów i telemetrię hooków każdej sesji, gdy wymagana była interwencja człowieka, a następnie przypisywałem główną przyczynę na podstawie pierwszej niewykrytej awarii w łańcuchu. Siedem trybów odpowiada za 94% wszystkich awarii: Spirala skrótów (23%), Miraż pewności (19%), Plateau „wystarczająco dobre” (15%), Widzenie tunelowe (14%), Weryfikacja widmo (12%), Odłożony dług (9%) i Pusty raport (8%).⁸

Artykuł IBM automatyzuje to, co robiłem ręcznie. Ich czteroetapowy pipeline to formalizacja tego procesu: obserwuj trajektorie, identyfikuj wzorce awarii, wyciągaj wnioski, wstrzykuj je do przyszłych uruchomień. Format wyjściowy się różni (ich system generuje wskazówki w języku naturalnym, mój generuje hooki shellowe przechwytujące określone wzorce wywołań narzędzi), ale architektura jest ta sama. Komentarz do NIST, który złożyłem w lutym 2026, argumentował, że zagrożenia agentów mają charakter behawioralny i że istniejące frameworki nie adresują behawioralnych trybów awarii. Artykuł IBM dostarcza niezależnych dowodów na tę samą tezę.

Bramkowana pamięć zapobiega dryftowi

CraniMem wprowadził bramkowanie uwarunkowane celem z tagowaniem użyteczności dla systemów pamięci agentów.⁹ Ograniczony bufor epizodyczny obsługuje ciągłość krótkoterminową. Ustrukturyzowany długoterminowy graf wiedzy obsługuje trwałe przywołanie. Zaplanowana pętla konsolidacji odtwarza ślady o wysokiej użyteczności, jednocześnie usuwając elementy o niskiej użyteczności. Zarówno przy czystych danych wejściowych, jak i przy wstrzykniętym szumie, CraniMem przewyższył standardowy RAG i Mem0.⁹

Mój system wykrywania dryftu to prostsza wersja tej samej zasady. Po każdych 25 wywołaniach narzędzi detektor oblicza podobieństwo kosinusowe między embeddingiem oryginalnego promptu użytkownika a przesuwnym oknem ostatnich działań agenta. Gdy wynik spada poniżej 0,30, system wstrzykuje ostrzeżenie zawierające oryginalny prompt. We wszystkich dwunastu przypadkach spadku poniżej progu w 60 sesjach agent weryfikowalnie stracił z oczu zadanie. Powyżej progu żadna sesja nie wymagała ręcznej interwencji z powodu dryftu.¹

CraniMem bramkuje pamięć na poziomie przechowywania: zapobiega przedostawaniu się nieistotnych informacji do pamięci długoterminowej. Mój system bramkuje zachowanie na poziomie wykonywania: wykrywa, gdy bieżące działania agenta odbiegają od przypisanego zadania. Oba adresują ten sam tryb awarii — zanieczyszczenie kontekstu — na różnych warstwach. Zasada bramkowania jest ta sama. Nieistotne informacje degradują wydajność agenta niezależnie od tego, czy trafiają do pamięci, czy do bieżącego kontekstu wykonywania.

Pamięć lokalna w skali produkcyjnej

SuperLocalMemory osiągnęło 74,8% w benchmarku LoCoMo bez żadnych wywołań API w chmurze, przewyższając Mem0 (66,9%) o 16 punktów procentowych.⁵ System wykorzystuje cztereokanałową fuzję Reciprocal Rank Fusion: wyszukiwanie geometryczne Fisher-Rao, wyszukiwanie leksykalne BM25, przechodzenie po grafie encji i wyszukiwanie temporalne. Z dodaną warstwą syntezy LLM wynik sięga 87,7%.⁵

Mój system korzysta z dwukanałowej RRF (wektorowe + BM25) na tej samej podstawowej architekturze.¹ SuperLocalMemory dodaje odległość geometryczną Fisher-Rao i przechodzenie po grafie encji jako dodatkowe kanały wyszukiwania. Dodatkowe kanały poprawiają dokładność w benchmarkach konwersacyjnych. Czy mają znaczenie dla pamięci agentów w przepływach kodowania — pozostaje pytaniem otwartym — mój dwukanałowy system nie wygenerował błędów wyszukiwania, które trzeci czy czwarty kanał by wychwycił.

Istotnym odkryciem nie jest konkretna liczba kanałów. Istotnym odkryciem jest to, że pamięć lokalna z hybrydowym wyszukiwaniem przewyższa systemy zależne od chmury, które korzystają z większych modeli i droższej infrastruktury. Tryb A SuperLocalMemory (zero chmury) bije system Mem0 zasilany chmurą. Mój system działa na 8-megabajtowym modelu embeddingów w lokalnej bazie SQLite. Pułap wydajności pamięci agentów nie jest ograniczony przez rozmiar modelu ani moc obliczeniową chmury. Jest ograniczony przez architekturę wyszukiwania.

Pamięć agentów to problem inżynieryjny, nie badawczy

Typowa relacja między badaniami a produkcją wygląda tak: badacze odkrywają, praktycy implementują. Pamięć agentów w marcu 2026 odwróciła tę kolejność. Twórcy systemów produkcyjnych wdrożyli rozwiązania pierwsi. Badacze sformalizowali te same wzorce tygodnie lub miesiące później, a rygorystyczna ewaluacja potwierdziła to, co twórcy zaobserwowali empirycznie.

Ten wzorzec konwergencji niesie konkretną implikację: pamięć agentów nie jest problemem badawczym czekającym na przełom. Architektura jest znana. Hybrydowe wyszukiwanie z fuzją RRF. Umiejętności zeksternalizowane jako ustrukturyzowany tekst. Eksploracja trajektorii pod kątem wzorców awarii. Bramkowana pamięć zapobiegająca zanieczyszczeniu kontekstu. Każdy komponent istnieje, działa i został niezależnie zwalidowany zarówno przez wdrożenia produkcyjne, jak i kontrolowane badania.

Luka nie dotyczy wiedzy. Luka dotyczy adopcji. Badanie z marca 2026 dotyczące mechanizmów pamięci agentów wykazało, że większość systemów produkcyjnych nadal nie korzysta z trwałej pamięci lub stosuje proste upychanie w oknie kontekstu.¹⁰ Tylko 21% dyrektorów korporacji ma pełną widoczność tego, do czego ich agenci mają dostęp, a 86% zgłasza brak widoczności w odniesieniu do ok. 1 200 nieoficjalnych aplikacji AI w ich organizacji.¹¹ Agenty, które zawodzą najgroźniej, to nie te bez dobrych modeli. To te bez pamięci własnych porażek.

Artykuły naukowe pojawiające się w marcu 2026 nie odkrywają nowego terytorium. Rysują mapę terytorium, na którym twórcy już żyli. Mapa jest użyteczna. Statystyczny dowód Structured Distillation, że hybrydowe wyszukiwanie przewyższa czyste wyszukiwanie wektorowe, oszczędza następnemu twórcy odkrywania tego poprzez debugowanie. Demonstracja Memento-Skills, że umiejętności-jako-markdown osiągają 116% poprawy bez aktualizacji parametrów, daje następnemu zespołowi pewność, by pominąć pipeline fine-tuningu. Artykuł IBM o trajektoriach automatyzuje to, co robiłem ręcznie przez 500 sesji.

Ale mapa istnieje, ponieważ terytorium zostało już zasiedlone. Twórcy dotarli tam pierwsi.

FAQ

Jakiego modelu embeddingów powinienem użyć do pamięci agentów?

W przypadku aplikacji wrażliwych na opóźnienia i działających lokalnie, Model2Vec potion-base-8M (256 wymiarów, 8 MB na dysku) zapewnia najlepszy kompromis między jakością a szybkością — 50 razy mniejszy i 500 razy szybszy niż pełne embeddingi transformerowe.¹² Gdy wymagana jest wyższa jakość wyszukiwania, a opóźnienie jest mniej krytyczne, potion-base-32M lub pełny model sentence transformer da lepsze wyniki. Model embeddingów ma mniejsze znaczenie niż architektura wyszukiwania. Dobry hybrydowy system wyszukiwania z małym modelem embeddingów przewyższa czyste wyszukiwanie wektorowe z dużym modelem.²

Czy RAG wystarczy do pamięci agentów?

Standardowy RAG (pobierz fragmenty, wrzuć do kontekstu) jest lepszy niż brak pamięci i gorszy niż pamięć ustrukturyzowana. Artykuł o CraniMem wykazał to bezpośrednio: bramkowana pamięć z przycinaniem opartym na użyteczności przewyższa standardowy RAG zarówno przy czystych, jak i zaszumionych danych.⁹ Praktycznym trybem awarii standardowego RAG w systemach agentowych jest zanieczyszczenie kontekstu — pobieranie pobocznie istotnych informacji, które powodują dryft agenta od zadania. Bramkowanie (decyzja o tym, czego nie pobierać) ma takie samo znaczenie jak jakość wyszukiwania.

Czy potrzebuję wektorowej bazy danych?

Nie. SQLite z rozszerzeniem sqlite-vec obsługuje 49 746 wektorów w pliku 83 MB z czasem zapytań poniżej sekundy.¹ Jeśli nie indeksujemy milionów dokumentów ani nie potrzebujemy rozproszonego dostępu, lokalna baza SQLite jest prostsza, szybsza do skonfigurowania i eliminuje zależność infrastrukturalną. SuperLocalMemory osiągnęło 74,8% w LoCoMo bez żadnych wywołań chmurowych, korzystając z lokalnej architektury.⁵

Jak wykryć dryft agenta?

Należy obliczyć podobieństwo kosinusowe między embeddingiem oryginalnego promptu zadania a przesuwnym oknem ostatnich działań agenta (w moim przypadku 25 ostatnich wywołań narzędzi). Próg warto ustalić empirycznie. U mnie wynosi 0,30, skalibrowany na 60 sesjach: wszystkie 12 przypadków spadku poniżej progu to prawdziwy dryft, żadna sesja powyżej progu nie wymagała interwencji. Próg będzie się różnił w zależności od domeny zadania i modelu embeddingów. Warto zacząć od 0,30 i dostosować na podstawie wskaźnika fałszywie pozytywnych wyników.¹

Jaki jest związek między pamięcią agentów a bezpieczeństwem agentów?

Bezpośredni. Siedem trybów awarii, które skatalogowałem z ponad 500 sesji, to wzorce behawioralne powtarzające się między agentami, modelami i zadaniami. Bez pamięci przeszłych awarii każda sesja na nowo odkrywa te same błędy. Artykuł IBM o eksploracji trajektorii wykazał to ilościowo: agenci z dostępem do wniosków z poprzednich trajektorii osiągnęli 149% poprawy w złożonych zadaniach.⁴ Pamięć nie tylko poprawia zdolności. Zapobiega powtarzaniu przez agenta znanych wzorców awarii.

Blake Crosley, “What I Told NIST About AI Agent Security,” blakecrosley.com, February 2026. Memory system architecture: Model2Vec potion-base-8M, sqlite-vec + FTS5 BM25, RRF fusion, 49,746 chunks, 15,800 files, 83MB database. ↩↩↩↩↩↩↩
Sydney Lewis, “Structured Distillation for Personalized Agent Memory,” arXiv:2603.13017, March 2026. 4,182 conversations, 14,340 exchanges, 11x compression, MRR 0.759 (hybrid) vs 0.745 (verbatim). ↩↩↩↩
Huichi Zhou et al., “Memento-Skills: Let Agents Design Agents,” arXiv:2603.18743, March 2026. 17 authors. 116.2% relative improvement on Humanity’s Last Exam. ↩↩↩
Gaodan Fang et al., “Trajectory-Informed Memory Generation for Self-Improving Agent Systems,” arXiv:2603.10600, March 2026. IBM Research. 14.3pp gains, 28.5pp on complex tasks (149% relative increase). ↩↩↩↩
SuperLocalMemory, GitHub and arXiv:2603.14588, March 2026. 4-channel RRF fusion. Mode A (zero cloud): 74.8% LoCoMo. Mode C: 87.7%. ↩↩↩↩
Blake Crosley, “What Actually Breaks When You Run AI Agents Unsupervised,” blakecrosley.com, February 2026. Learner v2 skill generation from semantic workflow detection. ↩
Thariq Shihipar, “Lessons from Building Claude Code: How We Use Skills,” LinkedIn, March 2026. Nine skill categories, hundreds in active use at Anthropic. ↩
Blake Crosley, “What Actually Breaks When You Run AI Agents Unsupervised,” blakecrosley.com, February 2026. Seven failure modes from 500+ sessions: Shortcut Spiral, Confidence Mirage, Good-Enough Plateau, Tunnel Vision, Phantom Verification, Deferred Debt, Hollow Report. ↩
Pearl Mody et al., “CraniMem: Cranial Inspired Gated and Bounded Memory for Agentic Systems,” arXiv:2603.15642, March 2026. Goal-conditioned gating, utility-based pruning. ↩↩↩
Pengfei Du, “Memory for Autonomous LLM Agents: Mechanisms, Evaluation, and Emerging Frontiers,” arXiv:2603.07670, March 2026. Survey of five mechanism families. ↩
Help Net Security, “Enterprise AI Agent Security in 2026,” March 2026. ↩
Model2Vec, GitHub. potion-base-8M: 256 dimensions, 8MB, 50x size reduction, 500x faster inference. ↩