Złożony kontekst: dlaczego projekty AI stają się lepsze, im dłużej się z nimi pracuje

Sześć miesięcy temu pojedyncze zadanie programistyczne w moim projekcie resumegeni wymagało całej sesji wyjaśnień. Agent musiał zrozumieć schemat bazy danych, konwencje routingu, dziedziczenie szablonów, warstwę cache, pipeline wdrożeniowy i wzorce testowe, zanim mógł dotknąć choćby jednej linii kodu. Każda sesja zaczynała się od zera.

W zeszłym tygodniu powiedziałem „napraw wydajność strony rynkowej” i agent odczytał dokument przekazania z poprzedniej sesji, zidentyfikował wąskie gardło w market_hub(), zaimplementował stronicowane zapytanie do bazy z zagregowanym RPC, napisał testy i wdrożył zmiany. Austin spadł z 14 sekund do 108 milisekund. Agent nie stał się mądrzejszy. Projekt stał się bogatszy.

Różnica nie tkwi w modelu. Różnica tkwi w zgromadzonym kontekście otaczającym projekt: CLAUDE.md opisujący konwencje, pliki pamięci utrwalające decyzje, dokumenty przekazania zachowujące diagnozę między sesjami, hooki wymuszające ograniczenia, umiejętności kodyfikujące przepływy pracy, zestawy testów weryfikujące poprawność, dzienniki kapitańskie rejestrujące, co zostało wdrożone i dlaczego. Każdy artefakt powstał, aby rozwiązać konkretny problem. Razem sprawiają, że każdy kolejny problem jest tańszy do rozwiązania.

To właśnie składanie kontekstu.

TL;DR

Składanie kontekstu to zjawisko, w którym projekty wspierane przez AI rozwijają się szybciej, im dłużej się z nimi pracuje, ponieważ rozwiązane problemy odkładają wielokrotnie wykorzystywalny kontekst, który obniża koszt rozwiązania kolejnego problemu.
Model nie poprawia się między sesjami. Poprawia się infrastruktura projektu: pliki CLAUDE.md, systemy pamięci, hooki, umiejętności, dokumenty przekazania, pokrycie testami, konwencje nazewnictwa i dzienniki operacyjne.
Składanie kontekstu wyjaśnia, dlaczego rozpoczynanie nowego projektu z agentem AI wydaje się powolne, a pięćsetna sesja przy tym samym projekcie — błyskawiczna. Pierwsza sesja buduje kontekst. Pięćsetna go wydaje.
Efekt nie jest automatyczny. Wymaga celowego inwestowania w artefakty kontekstowe: dokumenty utrwalające decyzje, hooki kodyfikujące ograniczenia, testy weryfikujące założenia i dzienniki zachowujące historię operacyjną.
Organizacje, które zrozumieją składanie kontekstu, przestaną rotować inżynierów między projektami co kwartał i zaczną traktować zgromadzony kontekst projektu jako zasób kapitałowy.

Co się składa

Składanie kontekstu działa poprzez sześć kategorii zgromadzonej wiedzy projektowej. Każda kategoria przynosi inny rodzaj zwrotu.

Dokumenty konwencji (CLAUDE.md). Plik CLAUDE.md informuje każdą sesję agenta, jak działa projekt: struktura plików, konwencje nazewnictwa, wzorce importów, podejście do testowania, proces wdrożeniowy. Pierwsza sesja bez CLAUDE.md poświęca znaczną część wysiłku na odkrywanie konwencji. Setna sesja z dojrzałym CLAUDE.md — zero. Dokument się składa, ponieważ każda uchwycona konwencja nigdy nie wymaga ponownego wyjaśnienia.

Pamięć decyzyjna. Pliki pamięci utrwalają, dlaczego podjęto daną decyzję, a nie tylko, co postanowiono. Gdy przyszła sesja napotka ten sam kompromis, odczytuje pamięć zamiast ponownie wyprowadzać odpowiedź. Mój system pamięci przechowuje decyzje projektowe, preferencje użytkownika, korekty zwrotne i wskaźniki referencyjne. Każda pamięć jest niewielka. Kolekcja stanowi cache decyzyjny, który zapobiega ponownemu rozstrzyganiu ustalonych kwestii.

Dokumenty przekazania. Dokument przekazania zachowuje diagnozę ponad granicami sesji. Przekazanie dotyczące wydajności strony rynkowej przetrwało trzy korekty z code review, dwa przeszeregowania priorytetów i ostatecznie poprowadziło implementację cztery dni później. Bez przekazania kolejna sesja rozpoczęłaby dochodzenie od zera, prawdopodobnie celując w niewłaściwą ścieżkę kodu (jak zrobił to pierwszy szkic). Przekazanie złożyło się, konwertując czas diagnozy w artefakt wielokrotnego użytku.

Hooki i ograniczenia. Każdy hook kodyfikuje lekcję wyniesioną z przeszłej awarii. Mój strażnik destrukcyjnego API istnieje, ponieważ agent wyczyścił cały cache Cloudflare. Mój hook piaskownicy istnieje, ponieważ agent próbował zapisywać do ~/.ssh/. Mój detektor dryfu istnieje, ponieważ agenci tracili wątek zadania dwanaście razy w sześćdziesiąt dni. Każdy hook zapobiega powtórzeniu tej samej klasy awarii we wszystkich przyszłych sesjach. Hooki się składają, ponieważ konwertują reakcję na incydent w trwałą prewencję.

Umiejętności i przepływy pracy. Umiejętność to skodyfikowany przepływ pracy, który agent może wykonać bez ponownego wymyślania procesu. Moja umiejętność /nightcheck uruchamia ponad 50 sprawdzeń stron z benchmarkami TTFB, weryfikacją cache i kompleksowym przeszukiwaniem mapy witryny. Moja umiejętność /scan-intel przeszukuje sześć źródeł akademickich w ośmiu tematach badawczych z deduplikacją i scoringiem. Moja umiejętność /blog-translator tłumaczy posty na dziewięć lokalizacji z zachowaniem formatowania. Każda umiejętność była kosztowna w jednorazowym stworzeniu, a uruchamianie jest bezpłatne na zawsze. Umiejętności się składają, ponieważ konwertują wiedzę procesową w wykonywalną automatyzację.

Zestawy testów. Testy weryfikują, że projekt nadal działa po zmianach. Dojrzały zestaw testów pozwala agentowi wprowadzać odważne zmiany z pewnością, ponieważ błędy są wychwytywane natychmiast. Projekt bez testów wymusza zachowawcze, przyrostowe zmiany, gdyż agent nie jest w stanie zweryfikować swojej pracy. Pokrycie testami składa się, ponieważ każdy test czyni przyszłe zmiany tańszymi i bezpieczniejszymi.

Krzywa składania

Składanie kontekstu podąża za charakterystyczną krzywą.

Sesje 1–10: faza inwestycyjna. Większość wysiłku idzie w budowanie kontekstu, nie w dostarczanie funkcjonalności. Piszesz CLAUDE.md, ustanawiasz konwencje, tworzysz pierwsze hooki, konfigurujesz framework testowy. Wyniki wydają się powolne, ponieważ budujesz infrastrukturę, nie produkt.

Sesje 10–50: faza przyspieszenia. Kontekst zaczyna zwracać wartość. Agent przestaje pytać o konwencje i zaczyna ich przestrzegać. Hooki wychwytują błędy przed wdrożeniem. Umiejętności automatyzują powtarzalne przepływy pracy. Każda sesja generuje więcej wyników niż poprzednia, ponieważ baza kontekstowa rośnie.

Sesje 50–200: faza składania. Projekt ma wystarczająco dużo zgromadzonego kontekstu, by trudne problemy stały się łatwe. Agent czytający dojrzały CLAUDE.md, zestaw plików pamięci i dokument przekazania potrafi przeprowadzić złożone, wieloetapowe implementacje bez dodatkowych wskazówek. Naprawa strony rynkowej miała miejsce w tej fazie. Jedno zdanie („napraw wydajność strony rynkowej”) uruchomiło czterodniowy proces, który zakończył się 132-krotną poprawą, ponieważ infrastruktura kontekstowa niosła diagnozę, ograniczenia i kryteria weryfikacji.

Sesje 200+: faza utrzymaniowa. Tempo tworzenia nowego kontekstu zwalnia, gdyż większość konwencji, ograniczeń i przepływów pracy jest już uchwycona. Nacisk przesuwa się na aktualizację istniejącego kontekstu (korektę przestarzałych pamięci, rozszerzanie umiejętności, dodawanie testów dla nowych przypadków brzegowych) zamiast tworzenia od zera. Efekt składania osiąga plateau, ale pozostaje wysoki.

Dlaczego to nie jest oczywiste

Trzy czynniki przesłaniają efekt składania.

Ulepszenia modeli maskują ulepszenia kontekstu. Gdy sesje AI poprawiają się z czasem, poprawę przypisuje się lepszym modelom. Claude Opus 4.6 jest lepszy niż Claude 3.5 Sonnet. Niemniej poprawa odczuwana przy długotrwałym projekcie przewyższa poprawę samego modelu, ponieważ składanie kontekstu nakłada się na poprawę modelu. Przejście do nowego projektu na tym samym modelu ujawnia różnicę: nowy projekt wydaje się powolny, bo nie ma złożonego kontekstu.

Kontekst jest niewidoczny. Plik CLAUDE.md to dokument tekstowy. Pliki pamięci to notatki w formacie markdown. Hooki to skrypty powłoki. Żaden z tych artefaktów nie robi wrażenia sam w sobie. Efekt składania nie jest widoczny w żadnym pojedynczym artefakcie. Widać go jedynie w zagregowanym zachowaniu sesji operujących na pełnym stosie kontekstowym. Nie da się wskazać jednego pliku i powiedzieć „dlatego projekt jest szybki”. Można jedynie porównać pięćsetną sesję z pierwszą i zauważyć różnicę.

Rozpoczynanie nowych projektów jest ekscytujące. Nowy projekt ma świeżą energię i żadnego zgromadzonego długu. Ale nie ma też zgromadzonego kontekstu. Pierwsza sesja przy nowym projekcie wydaje się produktywna, ponieważ podejmuje decyzje wysokopoziomowe, które sprawiają wrażenie znaczących. Dwudziesta sesja przy istniejącym projekcie wydaje się rutynowa, ponieważ działa w ramach ustalonych konwencji. To poczucie rutyny jest efektem działającego składania. To poczucie ekscytacji jest jego brakiem.

Co zapobiega składaniu

Cztery tryby awarii łamią krzywą składania.

Rozkład kontekstu. Przestarzałe pamięci, nieaktualne sekcje CLAUDE.md i zdeprecjonowane hooki tworzą zamęt zamiast jasności. Agent podążający za przestarzałymi konwencjami generuje gorsze wyniki niż agent bez żadnych konwencji. Kontekst wymaga utrzymania. Mój system pamięci zawiera znaczniki czasowe ostatniej aktualizacji i jawne kontrole aktualności. Martwy kontekst jest gorszy niż brak kontekstu.

Rozrost kontekstu. Zbyt wiele plików, zbyt wiele hooków, zbyt wiele umiejętności tworzy problem z odnajdywalnością. Jeśli agent nie potrafi znaleźć odpowiedniego kontekstu, kontekst się nie składa. Organizacja ma znaczenie: moje pliki pamięci używają frontmatter z opisami, dzięki czemu przyszłe sesje mogą ocenić trafność bez czytania pełnej zawartości. Moje hooki są zarejestrowane w dyspozytorze ładującym je według typu zdarzenia. Kontekst łatwy do odnalezienia się składa. Kontekst pogrzebany gnije.

Izolacja sesji. Jeśli sesje nie odczytują ani nie zapisują trwałego kontekstu, każda sesja startuje od zera. Efekt składania wymaga celowych mostów: dokumentów przekazania przenoszących diagnozę między sesjami, zapisów pamięci utrwalających decyzje, dzienników kapitańskich rejestrujących historię operacyjną. Bez tych mostów projekt z 500 sesjami ma taki sam efektywny kontekst jak projekt z jedną.

Rotacja platform. Przeskakiwanie między narzędziami AI resetuje stos kontekstowy. CLAUDE.md napisany dla jednej platformy nie pomaga automatycznie innej. Hooki napisane pod model zdarzeń jednej platformy nie uruchamiają się w innej. Składanie kontekstu jest specyficzne dla platformy, co tworzy uzależnienie będące jednocześnie fosą obronną. Im głębszy stos kontekstowy na danej platformie, tym wyższy koszt przejścia — i tym szybciej projekt rozwija się w porównaniu z konkurentami, którzy ciągle zmieniają narzędzia.

Składanie kontekstu jako kapitał

W finansach procent składany zamienia małe wpłaty w duże sumy przy dostatecznej ilości czasu. Kluczowa obserwacja: same zwroty generują dalsze zwroty. Składanie kontekstu działa tak samo.

Konwencja uchwycona w CLAUDE.md eliminuje ponowne wyjaśnianie w każdej przyszłej sesji. Zaoszczędzony czas przeznaczany jest na rozwiązywanie nowych problemów, co generuje nowe konwencje, które dalej redukują przyszłe ponowne wyjaśnianie. Hook zapobiegający klasie awarii eliminuje ponowne dochodzenie tej awarii w każdej przyszłej sesji. Zaoszczędzony czas przeznaczany jest na budowę nowych hooków dla nowych klas awarii. Każda inwestycja generuje zwroty umożliwiające dalsze inwestowanie.

Implikacja dla organizacji: kontekst projektu jest zasobem kapitałowym. Rotowanie inżynierów między projektami co kwartał niszczy zgromadzony kontekst tak samo, jak zamknięcie konta oszczędnościowego niszczy zgromadzone odsetki. Zespół, który pozostaje przy tym samym projekcie przez dwa lata ze wsparciem AI, przewyższy zespół rotujący co kwartał — nie dlatego, że ludzie są lepsi, lecz dlatego, że kontekst się składał.

Implikacja dla indywidualnych inżynierów: infrastruktura AI to portfel inwestycyjny. Każda sekcja CLAUDE.md, każdy plik pamięci, każdy hook, każda umiejętność, każdy dokument przekazania to wpłata. Portfel rośnie wolno na początku. Po setkach sesji generuje zwroty, które sprawiają, że trudne problemy wyglądają łatwo dla obserwatorów, którzy nie widzą stosu kontekstowego pod spodem.

Strona rynkowa przeszła z 14 sekund do 108 milisekund. Obserwator widzi poprawkę wydajności. Ja widzę dokument przekazania, który przetrwał trzy rewizje, system nightcheck, który zmierzył regresję, strażnika destrukcyjnego, który zapobiegł powtórzeniu czyszczenia cache, umiejętność code review, która wyłapała niewłaściwy początkowy cel, i pięćset sesji zgromadzonego kontekstu, które uczyniły to wszystko możliwym.

To właśnie złożony kontekst.

FAQ

Czym jest składanie kontekstu?

Składanie kontekstu to zjawisko, w którym projekty wspierane przez AI rozwijają się szybciej z upływem czasu, ponieważ rozwiązane problemy odkładają wielokrotnie wykorzystywalny kontekst (dokumenty, hooki, umiejętności, testy, pamięci), który obniża koszt rozwiązywania kolejnych problemów. Termin jest analogiczny do procentu składanego: same zwroty generują dalsze zwroty.

Czy to działa z dowolnym narzędziem AI?

Zasada ma szerokie zastosowanie, ale implementacja zależy od wsparcia narzędzia dla trwałego kontekstu. Claude Code obsługuje natywnie pliki CLAUDE.md, hooki, umiejętności i systemy pamięci. Inne narzędzia mogą wymagać zewnętrznego szkieletu, aby osiągnąć ten sam efekt. Krzywa składania jest bardziej stroma na platformach oferujących więcej mechanizmów trwałości kontekstu.

Jak zacząć budować złożony kontekst?

Zacznij od CLAUDE.md opisującego konwencje projektu. Dodaj pliki pamięci dla kluczowych decyzji. Napisz hooki dla wzorców awarii, których doświadczyłeś. Stwórz umiejętności dla przepływów pracy powtarzanych między sesjami. Inwestycja początkowo wydaje się powolna. Zwroty pojawiają się po 10–20 sesjach.

Czy to tylko dokumentacja?

Nie. Dokumentacja jest składnikiem, ale składanie kontekstu obejmuje również artefakty wykonywalne: hooki wymuszające ograniczenia w czasie działania, umiejętności automatyzujące przepływy pracy, zestawy testów weryfikujące poprawność i systemy pamięci wspierające podejmowanie decyzji. Statyczna dokumentacja wyjaśnia. Złożony kontekst działa.

A co z limitami okna kontekstowego?

Składanie kontekstu nie wymaga ładowania całego kontekstu do każdej sesji. Wymaga, by odpowiedni kontekst był dostępny, gdy jest potrzebny. CLAUDE.md ładuje się automatycznie. Pliki pamięci są odpytywane według trafności. Dokumenty przekazania są czytane przy kontynuowaniu konkretnego zadania. Stos kontekstowy jest większy niż jakiekolwiek pojedyncze okno kontekstowe. Agent uzyskuje dostęp do odpowiedniego wycinka na sesję.

Skąd wiadomo, czy mój projekt ma złożony kontekst?

Porównaj wysiłek wymagany przy podobnych zadaniach na początku i pod koniec historii projektu. Jeśli zadanie, które zajmowało pełną sesję w pierwszym miesiącu, wymaga jednego promptu w szóstym miesiącu — składanie kontekstu działa. Jeśli wysiłek jest taki sam, kontekst się nie gromadzi lub nie jest utrwalany między sesjami.

Źródła

Artykuł opiera się na doświadczeniu produkcyjnym z ponad 500 autonomicznych sesji kodowania w sześciu projektach od maja 2025 roku. Przywołane przykłady:

Wydajność strony rynkowej: dokument przekazania, weryfikacja nightcheck i wdrożenie opisane w dziennikach kapitańskich z 21–25 marca 2026
Strażniki destrukcyjnego API: zbudowane po tym, jak agent wyczyścił cały cache Cloudflare, opisane w poście deploy-and-defend
Infrastruktura hooków i umiejętności: 84 hooki przechwytujące 15 typów zdarzeń, opisane w komentarzu NIST
Wykrywanie dryfu: śledzenie podobieństwa kosinusowego w ponad 60 sesjach, opisane w The Invisible Agent
Pętle autoresearch: eksperymenty ze stałym budżetem na Apple Silicon, zwalidowane przez artykuł Claudini
Dokumentacja Anthropic na temat pamięci i instrukcji projektowych Claude Code: Manage Claude’s memory
Repozytorium autoresearch Andreja Karpathy’ego: autoresearch