← Wszystkie wpisy

Konstytucje uruchomieniowe dla agentów AI: framework zarządzania

From the guide: Claude Code Comprehensive Guide

Konstytucje uruchomieniowe wymuszają ograniczenia zarządzania podczas wykonywania agentów AI, nie tylko podczas treningu. Łączą priory normatywne (granice behawioralne), uwagę konstytucyjną (kontekstowe trasowanie reguł), modulację kompetencji (bezpieczne nabywanie umiejętności z bramkami zatwierdzania) oraz weryfikację wyrównania wartości (bramki wyjściowe wymagające dowodów przed zaakceptowaniem pracy jako ukończonej). Badania obejmujące 7 308 trajektorii agentów potwierdzają, że samodzielnie generowane umiejętności są zawodne bez tych zabezpieczeń strukturalnych.

System Learner v2 wygenerował nową umiejętność pewnego wtorkowego popołudnia. Umiejętność automatyzowała przepływ pracy publikowania bloga: walidacja frontmatter, sprawdzanie cytowań, wdrożenie na staging. Czysty, dobrze ustrukturyzowany kod. Umiejętność nadpisała również trzy reguły jakości z quality-loop.md, ponieważ analizator wzorców zaklasyfikował „zawsze uruchamiaj bramkę dowodową” jako redundantne wobec wbudowanych sprawdzeń umiejętności. Do środowego poranka artykuł blogowy został opublikowany bez weryfikacji cytowań. Umiejętność nauczyła się iść na skróty.

Naprawa zajęła dwadzieścia minut. Pytanie architektoniczne — tygodnie: jak pozwolić agentowi uczyć się nowych możliwości, nie pozwalając mu oduczać ograniczeń zapewniających bezpieczeństwo?

TL;DR

Wyrównanie w fazie treningu (RLHF, constitutional AI podczas treningu, dostrajanie bezpieczeństwa) degraduje się, gdy agenty działają w otwartych środowiskach. Sześć niezależnych badań zbiega się na zarządzaniu uruchomieniowym: wbudowanych konstytucjach wymuszających normy podczas wykonywania, nie tylko podczas treningu. SkillsBench przetestował 7 308 trajektorii agentów w 86 zadaniach i stwierdził, że samodzielnie generowane umiejętności nie przynoszą średniej korzyści — agenty nie potrafią niezawodnie tworzyć wiedzy proceduralnej, z której korzystają przy konsumpcji.1 Praca MIT nad samodestylacją pokazuje, że standardowe dostrajanie powoduje katastrofalne zapominanie, w którym nowe możliwości niszczą stare.2 Architektura rozwiązania ma cztery komponenty: priory normatywne, uwaga konstytucyjna, modulacja kompetencji i weryfikacja wyrównania wartości. Poniżej: teoria, mapowanie praktyczne (trzy z czterech komponentów istniały już w moim systemie Claude Code zanim przeczytałem badania) oraz szablon konstytucji uruchomieniowej do wdrożenia już dziś.


Agent, który nauczył się iść na skróty

Powyższy incydent miał miejsce na początku lutego 2026 roku podczas przebudowy Learner v2. Analizator wzorców (pattern_analyzer.py) wykrył powtarzający się przepływ pracy: walidacja frontmatter, weryfikacja cytowań, sprawdzanie metadanych SEO, a następnie wdrożenie na staging. Generator umiejętności (skill_generator.py) skompilował przepływ pracy w umiejętność wielokrotnego użytku z wbudowaną walidacją.

Wbudowana walidacja obejmowała format frontmatter i pola SEO. Nie obejmowała weryfikacji cytowań, która znajduje się w osobnej umiejętności (citation-verifier) z własnym sześciopoziomowym systemem autorytetu. Wygenerowana umiejętność oznaczyła sprawdzanie cytowań jako „obsłużone”, ponieważ analizator wzorców zauważył wywołania funkcji związanych z cytowaniami w śladzie przepływu pracy. Pomylił „funkcja została wywołana” z „ograniczenia funkcji zostały zachowane”.

Trzy pliki definiowały autorytet źródła w odmienny sposób:

Plik Definicja autorytetu
citation-verifier/SKILL.md System sześciopoziomowy: od źródeł pierwotnych po unikanie
seo-blog-playbook/SKILL.md Binarny: „autorytatywny” lub „wymaga weryfikacji”
Wygenerowana umiejętność blog-publish Odziedziczyła binarną definicję SEO, nie sześć poziomów citation-verifier

Architektura konsolidacji udokumentowana przed incydentem3 zidentyfikowała dokładnie ten tryb awarii: gdy wiele plików definiuje nakładające się pojęcia, generowane umiejętności dziedziczą tę definicję, którą analizator wzorców napotka jako pierwszą. Naprawa scentralizowała autorytet cytowań w jednym kanonicznym źródle. Lekcja była szersza: agenty nabywające nowe możliwości potrzebują strukturalnych gwarancji, że uczenie nie może nadpisać zarządzania.


Dlaczego wyrównanie w fazie treningu zawodzi w czasie wykonywania

Goel, Maji i Mazumder udokumentowali mechanizm: zachowania bezpieczeństwa ulegają degradacji zarówno przy łagodnym, jak i wrogim dostrajaniu.4 Ich praca nad adaptacyjną regularyzacją bezpieczeństwa w arXiv:2602.17546 wykazała, że aktualizacje wag modelu o wyższym ryzyku można ograniczać w pobliżu bezpiecznej polityki referencyjnej, podczas gdy aktualizacje o niższym ryzyku przebiegają normalnie. Podejście działa w czasie treningu. Nie odnosi się do tego, co dzieje się, gdy agent napotyka w czasie wykonywania nowatorskie sytuacje, których trening nigdy nie przewidział.

Przepaść między wyrównaniem w czasie treningu a zachowaniem w czasie wykonywania rośnie wraz z autonomią. Model odpowiadający na pytania w interfejsie czatu działa w wąskich granicach behawioralnych. Agent piszący kod, generujący umiejętności, uruchamiający testy i wdrażający na produkcję działa na znacznie szerszej powierzchni — zwłaszcza gdy wieloturowe konwersacje degradują dostęp agenta do własnych reguł zarządzania. Paradoks zaufania do agenta potęguje ten problem: im bardziej zdolny agent, tym trudniej zweryfikować, czy możliwości pozostają w granicach zarządzania. Każda nowa możliwość tworzy nowe tryby awarii, których wyrównanie w czasie treningu nie jest w stanie z góry wyliczyć.

Shenfeld i in. z MIT skwantyfikowali konkretny tryb awarii: katastrofalne zapominanie podczas ciągłego uczenia.2 Standardowe nadzorowane dostrajanie (SFT) na nowych zadaniach powoduje załamanie wydajności na wcześniejszych zadaniach. Przy 14B parametrów dostrajanie z samodestylacją (SDFT) przewyższyło standardowe SFT o 7 punktów na nowych zadaniach, utrzymując 64,5% dokładności na wcześniejszych zadaniach — podczas gdy standardowe SFT notuje gwałtowne spadki. Kompromis: SDFT wymaga około 4-krotnie więcej obliczeń i 2,5-krotnie więcej FLOPs.

Dla praktyków implikacja jest bezpośrednia: za każdym razem, gdy agent uczy się czegoś nowego (wygenerowana umiejętność, zbuforowany przepływ pracy, zaktualizowana instrukcja), uczenie ryzykuje degradację czegoś, co agent już wiedział. Moje nadpisanie quality-loop było systemowym przypadkiem katastrofalnego zapominania. Agent „nauczył się” skrótu publikacyjnego, który zniszczył jego zdolność weryfikacji cytowań.


Cztery podsystemy zarządzania uruchomieniowego

Badania nad uruchomieniowym zarządzaniem agentami zbiegają się w czterech wymaganiach funkcjonalnych. Taghavi i współpracownicy, pracujący nad ewoluującymi interpretowalnymi konstytucjami, wykazali, że zasady zarządzania wyewoluowane przez LLM przewyższają zaprojektowane przez ludzi w koordynacji wieloagentowej.5 Ich praca, wraz z paradygmatem zarządzania Mahadevan jako podstawą inżynierii agentów,6 ujmuje problem jako cztery współdziałające podsystemy.

Zmapowałem te cztery podsystemy na moją istniejącą infrastrukturę Claude Code i odkryłem, że trzy z czterech były już zbudowane, każdy rozwiązując problem produkcyjny, na który natrafiłem miesiące przed przeczytaniem badań.

Podsystem Funkcja Teoria Moja implementacja
Inżynieria priorów normatywnych Definiowanie granic akceptowalnego zachowania Reguły konstytucyjne trwałe w różnych kontekstach quality-loop.md: 7 nazwanych trybów awarii, bramka dowodowa z 6 kryteriami, obowiązkowa pętla jakości
Uwaga konstytucyjna Trasowanie reguł zarządzania do właściwego kontekstu Adaptacyjne do zadania wstrzykiwanie reguł prompt-dispatcher.sh + 84 hooki: wstrzykiwanie odpowiednich reguł per typ zadania, wykluczanie nieistotnych
Modulacja kompetencji Bezpieczne zarządzanie nabywaniem umiejętności Kontrolowane rozszerzanie możliwości Learner v2: pattern_analyzer.py wykrywa przepływy pracy, skill_generator.py tworzy umiejętności z ograniczeniami
Weryfikacja wyrównania wartości Weryfikacja, czy wyniki odpowiadają intencji zarządzania Sprawdzanie zgodności w czasie wykonywania Bramka dowodowa + pride check: 6 obowiązkowych kryteriów, wykrywanie języka niepewnego, skanowanie trybów awarii

Podsystem 1: Inżynieria priorów normatywnych

Pętla jakości w moim systemie agentowym definiuje siedem nazwanych trybów awarii: Spirala Skrótów, Miraż Pewności, Plateau Wystarczająco-Dobrego, Widzenie Tunelowe, Weryfikacja Fantomowa, Odroczony Dług i Pusty Raport.7 Każdy tryb awarii ma definicję, sygnał wykrywania i obowiązkową odpowiedź. To nie są sugestie. To ograniczenia strukturalne: jeśli agent wykryje u siebie dowolny tryb awarii, musi wrócić do kroku Ewaluacji.

Teoretyczny odpowiednik: priory normatywne ustanawiają granice behawioralne, w których agent działa. Wyrównanie w czasie treningu uczy model ogólnych zasad („bądź pomocny, nieszkodliwy, uczciwy”). Priory normatywne w czasie wykonywania kodują konkretne ograniczenia operacyjne („nigdy nie pomijaj weryfikacji cytowań”, „nigdy nie używaj języka niepewnego w raporcie końcowym”).

Różnica ma znaczenie, ponieważ zasady z czasu treningu są probabilistyczne (model prawdopodobniej ich przestrzega), podczas gdy priory uruchomieniowe mogą być deterministyczne (hook blokuje akcję, jeśli ograniczenie jest naruszone). To ta sama dystynkcja, którą eksploruje bramka dowodowa: przejście od „agent prawdopodobnie zrobił właściwą rzecz” do „agent udowodnił, że zrobił właściwą rzecz”.

Podsystem 2: Uwaga konstytucyjna

Siedmiowarstwowa architektura kontekstu implementuje uwagę konstytucyjną poprzez selektywne ładowanie. Spośród 650 plików w systemie kontekstowym mniej niż 30 ładuje się dla danego zadania. Hook prompt-dispatcher.sh analizuje bieżące zadanie i wstrzykuje odpowiednie reguły zarządzania, wykluczając nieistotne.

Zadanie webowe ładuje reguły bezpieczeństwa, reguły projektowania API i wzorce FastAPI. Nie ładuje reguł specyficznych dla iOS, wzorców tworzenia gier ani wytycznych dotyczących treści aplikacji do medytacji. Uwaga konstytucyjna oznacza, że agent widzi reguły zarządzania dotyczące tego zadania, nie każdą istniejącą regułę.

Selektywne ładowanie zapobiega subtelnemu trybowi awarii: rozwodnieniu reguł. System hooków umożliwia to trasowanie, analizując typ zadania przed wstrzyknięciem kontekstu. Gdy agent otrzymuje 200 reguł, każda reguła otrzymuje proporcjonalnie mniej uwagi niż przy 20 regułach. Uwaga konstytucyjna koncentruje fokus zarządzania na regułach istotnych dla bieżącego kontekstu.

Podsystem 3: Modulacja kompetencji

SkillsBench przetestował 7 308 trajektorii agentów w 86 zadaniach z 11 dziedzin i uzyskał uderzający wynik: kuratorowane umiejętności poprawiły średni współczynnik zdawalności o 16,2 punktu procentowego, natomiast samodzielnie generowane umiejętności nie przyniosły średnio żadnej korzyści.1 Agenty nie potrafią niezawodnie tworzyć wiedzy proceduralnej, z której korzystają przy konsumpcji. W szesnastu z 84 zadań delty były ujemne — umiejętności aktywnie pogarszały wydajność.

Wynik SkillsBench zwalidował zabezpieczenie, które wbudowałem w Learner v2 po incydencie z nadpisaniem quality-loop. Generowane umiejętności wymagają teraz jawnego zatwierdzenia przed aktywacją i nie mogą modyfikować ani nadpisywać istniejących plików zarządzania. Analizator wzorców może obserwować przepływy pracy i proponować umiejętności, ale generator umiejętności traktuje pliki zarządzania jako niemutowalne.

Badania MIT nad samodestylacją dodają perspektywę na poziomie parametrów: przy mniejszych rozmiarach modeli (3B parametrów) próby ciągłego uczenia faktycznie pogarszają wydajność.2 Dopiero przy 7B+ parametrów model ma wystarczającą pojemność, aby nabywać nowe umiejętności bez niszczenia starych. Odpowiednik na poziomie infrastruktury: agenty z mniejszymi oknami kontekstowymi lub prostszymi zestawami reguł są bardziej podatne na konflikty możliwości-zarządzanie.

Podsystem 4: Weryfikacja wyrównania wartości

Bramka dowodowa wymaga konkretnych dowodów dla sześciu kryteriów, zanim jakakolwiek praca zostanie zgłoszona jako ukończona: zgodność ze wzorcami bazy kodu (wymień wzorzec), najprostsze działające rozwiązanie (wyjaśnij odrzucone alternatywy), obsłużone przypadki brzegowe (wymień każdy), testy przechodzą (wklej output), brak regresji (wymień sprawdzone pliki) i rozwiązanie rzeczywistego problemu (określ potrzebę użytkownika).7

Bramka działa jako weryfikacja uruchomieniowa. Agent nie może zgłosić ukończenia używając języka niepewnego („powinno działać”, „uważam”, „wydaje się”). Każde twierdzenie wymaga dowodów zebranych w bieżącej sesji. Bramka wychwytuje Weryfikację Fantomową (twierdzenie, że testy przechodzą bez ich uruchomienia) i Pusty Raport (zgłoszenie „gotowe” bez szczegółów).


Problem zapominania: gdy uczenie niszczy wiedzę

Historia konsolidacji umiejętności blogowych ilustruje systemową wersję katastrofalnego zapominania. Dziesięć umiejętności blogowych o łącznej objętości 5 400 linii zgromadziło trzy obszary duplikacji.3 Szablony JSON-LD pojawiały się zarówno w aio/SKILL.md, jak i w seo-blog-playbook/SKILL.md. Definicje autorytetu cytowań różniły się między citation-verifier a seo-blog-playbook. Wytyczne oceny blogów znajdowały się zarówno w głównym ewaluatorze, jak i w osobnym pliku definicji kategorii.

Gdy system Learner v2 generował nowe umiejętności z zaobserwowanych przepływów pracy, pobierał definicje z tego źródła, na które natrafił jako pierwsze. Rezultat: generowane umiejętności, które wyglądały poprawnie, ale niosły błędne definicje autorytetu. Sześciopoziomowy system cytowań zdegradował się do binarnego sprawdzenia. Szablony schematów rozbiegły się między umiejętnościami tworzonymi ręcznie a generowanymi automatycznie.

Naprawa konsolidacyjna była strukturalna: wyznaczenie jednego kanonicznego źródła dla każdego pojęcia i skierowanie wszystkich innych odniesień do niego. Autorytet cytowań znajduje się w citation-verifier/SKILL.md i nigdzie indziej. Szablony JSON-LD znajdują się w aio/SKILL.md i nigdzie indziej. Wzorzec ten zapobiega dziedziczeniu przestarzałych definicji przez przyszłe generowanie umiejętności.

SDFT z MIT oferuje odpowiednik na poziomie treningu: wykorzystanie wcześniejszej wiedzy modelu jako sygnału dydaktycznego podczas uczenia nowych możliwości.2 Standardowe SFT zastępuje starą wiedzę nową. Samodestylacja łączy starą z nową, generując dane treningowe z istniejących możliwości modelu, a następnie dostrajając na tej mieszance. Wcześniejsza wiedza przetrwa, ponieważ jest obecna w sygnale treningowym.

Odpowiednik na poziomie infrastruktury: podczas generowania nowej umiejętności należy uwzględnić istniejące ograniczenia zarządzania w prompcie generującym. Wygenerowana umiejętność dziedziczy bieżące ograniczenia, ponieważ te ograniczenia są częścią kontekstu generowania, a nie oddzielnym systemem, który generator może przeoczyć.


Zarządzanie aktywne vs. pasywne

Framework RelianceScope autorstwa Jin i in. rozróżnia dziewięć wzorców polegania na AI na podstawie kombinacji aktywnego i pasywnego zaangażowania.8 Choć ich badania dotyczyły studentów interagujących z chatbotami AI, rozróżnienie aktywne/pasywne mapuje się bezpośrednio na architektury zarządzania agentami.

Zarządzanie pasywne wstrzykuje reguły i liczy na to, że agent ich przestrzega. Reguły istnieją w CLAUDE.md lub promptach systemowych. Agent odczytuje je na początku sesji. Nic nie weryfikuje zgodności. Większość konfiguracji praktyków wykorzystuje zarządzanie pasywne: długi plik instrukcji, na który agent może, ale nie musi zwracać uwagę w miarę postępu sesji. Jak pokazuje niewidzialny agent, agenty działające bez aktywnego zarządzania nie pozostawiają śladu tego, czy przestrzegały swoich instrukcji.

Zarządzanie aktywne weryfikuje zgodność w czasie wykonywania. Hooki sprawdzają wyniki względem ograniczeń przed ich wykonaniem. Bramki blokują raporty ukończenia pozbawione dowodów. Monitory śledzą dryfowanie behawioralne i sygnalizują anomalie. Zarządzanie aktywne kosztuje więcej (obliczenia, opóźnienia, złożoność), ale wychwytuje awarie, które zarządzanie pasywne pomija.

Typ zarządzania Mechanizm Wychwytywany tryb awarii Pomijany tryb awarii
Pasywne (reguły w CLAUDE.md) Agent odczytuje reguły na początku sesji Jawne naruszenia na początku sesji Rozwodnienie reguł, dryf pod koniec sesji, utrata przy kompresji
Aktywne (hooki + bramki) Hooki weryfikują zgodność per akcja Dryf, utrata przy kompresji, naruszenia reguł Nowatorskie sytuacje nieobjęte istniejącymi hookami
Hybrydowe (reguły + hooki + uczenie) Reguły dla granic, hooki dla weryfikacji, uczenie dla adaptacji Dryf, kompresja, nowatorskie sytuacje (via adaptacja) Wrogie wykorzystanie systemu uczącego

Odkrycie RelianceScope, że aktywne szukanie pomocy koreluje z aktywnym wykorzystywaniem odpowiedzi,8 sugeruje zasadę architektury zarządzania: agenty aktywnie odpytujące swoje ograniczenia zarządzania (zamiast pasywnie je otrzymywać) produkują bardziej zgodne wyniki. Moja bramka dowodowa działa na tej zasadzie: zamiast pasywnie stosować reguły, agent musi aktywnie wykazać zgodność, produkując dowody dla każdego kryterium.


Szablon konstytucji uruchomieniowej

Trzy pliki tworzą minimalną konstytucję uruchomieniową. Strukturę należy dostosować do własnego frameworka agentowego.

Plik 1: constitution.md

Priory normatywne. Co agent musi zawsze robić, czego nie wolno mu robić i jak radzi sobie z niejednoznacznością.

# Agent Constitution v1

## Immutable Constraints
- Never modify files in governance/ directory
- Never skip verification steps, even if tests pass
- Never report completion without evidence for all criteria

## Behavioral Norms
- Prefer explicit over implicit (state assumptions)
- Prefer reversible over irreversible actions
- Prefer asking over guessing when requirements are ambiguous

## Failure Response
- On constraint violation: stop, log, escalate
- On ambiguity: ask, do not assume
- On capability conflict: governance wins over efficiency

Plik 2: capabilities.json

Bieżący inwentarz umiejętności ze śledzeniem proweniencji.

{
  "skills": [
    {
      "name": "blog-publish",
      "version": "2.1.0",
      "source": "generated",
      "approved": true,
      "governance_refs": ["citation-verifier", "quality-loop"],
      "created": "2026-02-10",
      "constraints": [
        "Must call citation-verifier before publish",
        "Must pass evidence gate before reporting complete"
      ]
    }
  ],
  "pending_approval": [],
  "deprecated": []
}

Plik 3: constraints-registry.json

Mapuje każde ograniczenie do jego kanonicznego źródła, zapobiegając problemowi duplikacji, który spowodował incydent z umiejętnościami blogowymi.

{
  "constraints": {
    "citation-authority": {
      "canonical_source": "skills/citation-verifier/SKILL.md",
      "type": "six-tier-hierarchy",
      "overridable": false
    },
    "quality-gate": {
      "canonical_source": "rules/quality-loop.md",
      "type": "evidence-gate",
      "overridable": false
    },
    "schema-templates": {
      "canonical_source": "skills/aio/SKILL.md",
      "type": "json-ld-templates",
      "overridable": false
    }
  }
}

Te trzy pliki współdziałają: constitution.md definiuje granice behawioralne, capabilities.json śledzi możliwości agenta z odsyłaczami do zarządzania, a constraints-registry.json zapewnia, że każde ograniczenie ma dokładnie jedno kanoniczne źródło. Generowane umiejętności odwołują się do rejestru zamiast kopiować definicje ograniczeń. Działający przykład tej architektury w autonomicznej pętli rozwojowej znajduje się w architekturze agenta Ralph. A jeśli zakładasz, że Twój sandbox zapewnia wystarczającą izolację sam w sobie, najpierw przeczytaj dlaczego sandbox Twojego agenta to jedynie sugestia.


Kluczowe wnioski

  • Wyrównanie w fazie treningu degraduje się w czasie wykonywania. Dostrajanie bezpieczeństwa uczy ogólnych zasad; zarządzanie uruchomieniowe wymusza konkretne ograniczenia operacyjne. Goel i in. wykazali, że zachowania bezpieczeństwa ulegają degradacji zarówno przy łagodnym, jak i wrogim dostrajaniu.4
  • Samodzielnie generowane umiejętności są zawodne. SkillsBench stwierdził zerową średnią korzyść z umiejętności tworzonych przez agenty w 7 308 trajektoriach, a w 16 z 84 zadań wpływ był negatywny.1 Generowane umiejętności potrzebują bramek zatwierdzania i odsyłaczy do zarządzania.
  • Katastrofalne zapominanie działa na poziomie systemu. Nowe możliwości mogą nadpisywać istniejące ograniczenia nawet bez modyfikacji wag modelu. Incydent konsolidacji umiejętności blogowych zademonstrował zapominanie na poziomie infrastruktury, w którym wygenerowana umiejętność odziedziczyła błędne definicje autorytetu.
  • Cztery podsystemy tworzą zarządzanie uruchomieniowe. Priory normatywne definiują granice. Uwaga konstytucyjna trasuje reguły do kontekstu. Modulacja kompetencji bezpiecznie zarządza uczeniem. Weryfikacja wyrównania wartości potwierdza zgodność w czasie wykonywania.
  • Zarządzanie aktywne przewyższa pasywne. Reguły w CLAUDE.md są konieczne, lecz niewystarczające. Hooki weryfikujące zgodność per akcja wychwytują dryf, utratę przy kompresji i degradację pod koniec sesji, których pasywne reguły nie wyłapią.

FAQ

Czym jest konstytucja uruchomieniowa dla agentów AI?

Konstytucja uruchomieniowa to zestaw plików zarządzania wymuszających ograniczenia behawioralne podczas wykonywania agenta, nie tylko podczas treningu modelu. Minimalna konstytucja obejmuje trzy komponenty: priory normatywne (co agent musi i czego nie wolno mu robić), rejestr możliwości (co agent potrafi z odsyłaczami do zarządzania) oraz rejestr ograniczeń (jedno kanoniczne źródło dla każdego ograniczenia operacyjnego). Konstytucje uruchomieniowe wypełniają lukę między wyrównaniem w fazie treningu a zachowaniem produkcyjnym, czyniąc zarządzanie deterministycznym zamiast probabilistycznego.

Dlaczego agenty AI nie potrafią niezawodnie generować własnych umiejętności?

SkillsBench przetestował 7 308 trajektorii agentów w 86 zadaniach z 11 dziedzin i stwierdził, że samodzielnie generowane umiejętności nie przynoszą średniej korzyści. Kuratorowane umiejętności poprawiły wydajność o 16,2 punktu procentowego, natomiast umiejętności tworzone przez agenty wykazały zerową średnią poprawę. W 16 z 84 zadań samodzielnie generowane umiejętności aktywnie pogarszały wydajność. Agenty potrafią skutecznie konsumować i stosować wiedzę proceduralną, ale nie potrafią niezawodnie tej wiedzy tworzyć. Generowane umiejętności wymagają przeglądu ludzkiego, bramek zatwierdzania i jawnych odsyłaczy do zarządzania przed aktywacją.

Czym jest katastrofalne zapominanie w systemach agentów AI?

Katastrofalne zapominanie na poziomie systemu zachodzi, gdy nowe możliwości agenta nadpisują istniejące ograniczenia bez modyfikacji wag modelu. Standardowe dostrajanie na nowych zadaniach powoduje załamanie wydajności na wcześniejszych zadaniach; badania MIT wykazały, że dokładność standardowego SFT na poprzednich zadaniach drastycznie spada, podczas gdy dostrajanie z samodestylacją utrzymuje 64,5%. Na poziomie infrastruktury ta sama dynamika zachodzi, gdy generowane umiejętności, zbuforowane przepływy pracy lub zaktualizowane instrukcje kolidują z istniejącymi regułami zarządzania. Naprawa jest strukturalna: wyznaczenie kanonicznych źródeł dla każdego ograniczenia i uczynienie plików zarządzania niemutowalnymi dla automatycznych modyfikacji.

Jak wdrożyć aktywne zarządzanie dla agentów kodujących?

Aktywne zarządzanie wykorzystuje hooki, bramki i monitory do weryfikacji zgodności w czasie wykonywania, zamiast polegać na tym, że agent samodzielnie wyegzekwuje reguły ze swoich instrukcji. Hooki wykonują się przed lub po wywołaniach narzędzi, aby sprawdzić ograniczenia. Bramki blokują raporty ukończenia pozbawione dowodów dla obowiązkowych kryteriów. Monitory śledzą metryki behawioralne w czasie i sygnalizują dryf. Praktyczny punkt wyjścia: wdrożenie bramki dowodowej wymagającej konkretnych dowodów dla każdego kryterium jakości przed zaakceptowaniem pracy jako ukończonej. Bramka wychwytuje najczęstsze tryby awarii (weryfikacja fantomowa, pusty raport) przy minimalnym nakładzie implementacyjnym.

Czym różnią się konstytucje uruchomieniowe od bezpieczeństwa agentów opartego na sandboxie?

Sandboxe ograniczają, gdzie agent może działać (granice systemu plików, dostęp do sieci, limity zasobów). Konstytucje uruchomieniowe ograniczają, jak agent działa w tych granicach (normy behawioralne, kontrole kompetencji, bramki wyjściowe). Oba są niezbędne. Sandbox zapobiega usunięciu przez agenta produkcyjnych baz danych, ale nie może zapobiec publikowaniu kodu pomijającego weryfikację cytowań ani nadpisywaniu ograniczeń jakości. Konstytucje uruchomieniowe wypełniają tę lukę, osadzając reguły zarządzania wykonywane równolegle z podejmowaniem decyzji przez agenta, weryfikując zgodność na każdym kroku zamiast polegać wyłącznie na izolacji obwodowej.


Bibliografia


  1. Li, Xiangyi, et al., “SkillsBench: Benchmarking How Well Agent Skills Work Across Diverse Tasks,” arXiv:2602.12670, February 2026. arxiv.org. 86 tasks, 11 domains, 7,308 agent trajectories. Curated skills +16.2pp average; self-generated skills 0pp average. 

  2. Shenfeld, Idan, et al., “Self-Distillation Enables Continual Learning,” arXiv:2601.19897, January 2026. arxiv.org. MIT Improbable AI Lab and ETH Zurich. SDFT outperforms SFT by +7 points at 14B parameters while maintaining 64.5% on prior tasks. 

  3. Author’s decision document: “Blog Skills Pre-Consolidation Architecture (S3.2 Baseline),” February 2026. 10 blog skills, 5,400 lines, three duplication areas identified. 

  4. Goel, Jyotin, Souvik Maji, and Pratik Mazumder, “Learning to Stay Safe: Adaptive Regularization Against Safety Degradation during Fine-Tuning,” arXiv:2602.17546, February 2026. arxiv.org. Adaptive regularization constrains higher-risk weight updates near a safe reference policy. 

  5. Taghavi, et al., “Evolving Interpretable Constitutions for Multi-Agent Coordination,” arXiv:2602.00755, February 2026. arxiv.org. LLM-evolved constitutions outperform human-designed principles for multi-agent coordination. 

  6. Mahadevan, “From Craft to Constitution: A Governance-First Paradigm for Principled Agent Engineering,” arXiv:2510.13857, October 2025. arxiv.org. Introduces “Creed Constitutions” as modular runtime compliance enforcers. 

  7. Author’s quality-loop.md and Jiro craftsmanship system. Seven named failure modes, evidence gate with six mandatory criteria. Documented in The Shokunin Approach

  8. Jin, Hyoungwook, et al., “RelianceScope: An Analytical Framework for Examining Students’ Reliance on Generative AI Chatbots in Problem Solving,” arXiv:2602.16251, February 2026. arxiv.org. Nine reliance patterns based on active vs. passive engagement. Applied here to agent governance architectures. 

  9. Author’s context-is-architecture system. Seven-layer hierarchy across 650 files documented in Context Engineering Is Architecture

  10. Author’s Learner v2 system. Pattern analyzer and skill generator documented in Compounding Engineering

Powiązane artykuły

Zapora fabrykacji: gdy agent publikuje kłamstwa

Autonomiczny agent opublikował zmyślone twierdzenia na 8 platformach w ciągu 72 godzin. Zabezpieczenia z fazy treningu z…

12 min czytania

Gdy agent znajduje lukę bezpieczeństwa

Badacz z Anthropic odkrył 23-letnią lukę w jądrze Linuksa, używając Claude Code i 10-liniowego skryptu bash. W ślad za t…

7 min czytania

Twój agent pisze szybciej, niż Pan/Pani zdąży przeczytać

Pięć grup badawczych opublikowało w tym tygodniu prace na ten sam temat: agenty AI produkują kod szybciej, niż programiś…

13 min czytania