Umiejętności agentów AI wymagają audytów zachowania, a nie wskaźników powodzenia

11 min read

Umiejętności agentów AI wydają się łatwe do oceny, dopóki wskaźnik powodzenia prawie się nie zmienia.

Kontrfaktyczny audyt śladów wykazał średni wzrost skuteczności zadań dzięki umiejętnościom o +0,3 punktu procentowego w jednej konfiguracji benchmarku, a ten sam audyt znalazł 522 konkretne sposoby, w jakie umiejętności zmieniły zachowanie agenta w 49 zadaniach.¹ Panel ze wskaźnikiem powodzenia uznałby to za niemal nic. Audyt śladów pokazuje rzeczywistą zmianę.

Umiejętności agentów AI wymagają audytów zachowania, a nie wskaźników powodzenia. Umiejętność może zmienić narzędzie wybrane przez agenta, ścieżkę, którą odczytuje, dowód, który pomija, ryzyko, które ignoruje, oraz skutek uboczny, który tworzy, choć końcowy wynik zadania wygląda tak samo.

W skrócie

Umiejętności agentów AI nie powinny zdobywać zaufania wyłącznie dzięki wskaźnikom powodzenia. Wskaźnik powodzenia mówi zespołom, czy końcowe zadanie zostało zaliczone przez mechanizm oceny benchmarku. Audyt zachowania pyta, czy umiejętność zmieniła działania agenta w sposób zamierzony przez zespół.

Najnowsze badania pokazują, że tej luki trudno nie zauważyć. Kontrfaktyczny audyt śladów porównuje ślady agenta z umiejętnością i bez niej oraz ujawnia wzorce wywołane przez umiejętność, których zwykłe metryki sukcesu nie wychwytują.¹ Behavioral Integrity Verification zestawia to, co umiejętność deklaruje, z tym, co faktycznie robi, a następnie pokazuje powszechną rozbieżność między opisem a zachowaniem w dużym korpusie umiejętności.² SkillsBench pokazuje, że starannie dobrane umiejętności mogą poprawić skuteczność agentów, ale także że umiejętności wygenerowane samodzielnie mogą nie pomagać, a część zadań wypada gorzej z umiejętnościami.³

Praktyczna zasada brzmi: nie instalować umiejętności tylko dlatego, że wynik benchmarku wzrósł. Umiejętność warto zainstalować dopiero wtedy, gdy ślad pokazuje, że dane zachowanie powinno tam być.

Najważniejsze wnioski

Dla zespołów używających umiejętności agentów: - Traktować każdą umiejętność jak kod zmieniający zachowanie, nawet jeśli plik zawiera tylko Markdown. - Audytować zmiany śladu, skutki uboczne i tryby awarii przed udostępnieniem umiejętności między projektami.

Dla autorów umiejętności: - Deklarować oczekiwane zachowanie, dozwolone narzędzia, zabronione działania i obowiązki dowodowe. - Testować umiejętność na sparowanych śladach, nie tylko na końcowych wynikach zadań.

Dla recenzentów bezpieczeństwa: - Porównywać deklarowane możliwości z możliwościami zaobserwowanymi. - Oznaczać ukryte rozszerzenie zakresu, dostęp zewnętrzny, działania destrukcyjne i obchodzenie zasad jako wady umiejętności.

Dla zespołów ewaluacyjnych: - Raportować osobno wskaźnik powodzenia, zmianę zachowania, zmianę skutków ubocznych i obciążenie recenzją. - Niezmieniony wskaźnik powodzenia nadal może ukrywać niebezpieczną zmianę zachowania.

Dlaczego wskaźniki powodzenia pomijają ryzyko umiejętności?

Wskaźniki powodzenia upraszczają niewłaściwy obiekt.

Umiejętność zmienia agenta jeszcze przed rozpoczęciem zadania. Może dodać procedurę domenową, preferencję narzędzia, reguły formatowania, kroki recenzji, język pewności albo zachowanie naprawcze. Mechanizm oceny benchmarku zwykle widzi tylko końcowy artefakt: poprawny albo niepoprawny.

Tak powstaje martwy punkt:

Efekt umiejętności	Co widzi wskaźnik powodzenia	Co widzi audyt zachowania
Lepsza kolejność narzędzi	Być może sukces	Które wywołanie przesunęło się wcześniej i dlaczego.
Dodatkowe odczyty plików	Być może sukces	Które pliki trafiły do kontekstu.
Bardziej agresywne wprowadzanie poprawek	Być może sukces	Rozmiar diffu, własność zmian i ryzyko wycofania.
Pominięta weryfikacja	Być może sukces	Brakujące dowody przed zakończeniem.
Ukryty dostęp zewnętrzny	Być może sukces	Rozszerzenie granicy sieciowej lub MCP.
Niższe obciążenie recenzją	Być może sukces	Mniejszy ślad, jaśniejszy dowód, mniej nierozstrzygniętych twierdzeń.

Końcowa odpowiedź może wyglądać poprawnie, choć umiejętność obniża wiarygodność przebiegu. Może być też odwrotnie: umiejętność może dać wynik niezaliczony, ale nauczyć lepszego wzorca wyszukiwania lub odzyskiwania, który warto naprawić zamiast usuwać.

Wskaźnik powodzenia należy do audytu. Nie może być audytem.

Co wnosi kontrfaktyczny audyt śladów?

Kontrfaktyczny audyt śladów porównuje dwa przebiegi: jeden z umiejętnością i jeden bez niej.¹

Teza artykułu jest mocna właśnie dlatego, że nagłówkowy wzrost wskaźnika powodzenia w raportowanej konfiguracji WebArena pozostaje bardzo mały. Średnia skuteczność zadań rośnie tylko o +0,3 punktu procentowego, gdy benchmark używa umiejętności.¹ Autorzy identyfikują jednak 522 wzorce zachowań wywołanych przez umiejętności w 49 zadaniach, obejmujące między innymi zmiany w krokach walidacji, interakcji z formularzami, odzyskiwaniu po błędach, nawigacji po stronach i wzorcach nadużyć.¹

Właśnie ten rozdźwięk jest sednem sprawy.

Umiejętność wpłynęła na zachowanie, choć zagregowana skuteczność zadań ledwie się zmieniła.

CTA działa przez wyrównanie śladów do faz i identyfikację wzorców wywołanych przez umiejętność. Audyt nie pyta tylko, czy zadanie zostało zaliczone. Pyta, gdzie umiejętność zmieniła trajektorię, czy zmiana pomogła lub zaszkodziła oraz która instrukcja umiejętności wydaje się za nią odpowiadać.¹

Ta metoda daje zespołom lepszy obiekt recenzji:

Pytanie audytowe	Dlaczego jest ważne
Który krok się zmienił?	Łączy zachowanie z miejscem w śladzie.
Która instrukcja spowodowała zmianę?	Łączy zachowanie z tekstem umiejętności.
Czy zmiana pomogła, zaszkodziła, czy tylko przeniosła koszt?	Zapobiega pozorom opartym na samym wskaźniku powodzenia.
Czy zmiana stworzyła skutki uboczne?	Wychwytuje ryzyko ukryte za sukcesem.
Czy zmiana uogólnia się między zadaniami?	Oddziela jeden szczęśliwy przebieg od umiejętności wartej zachowania.

Zespoły potrzebują takiego obiektu, zanim awansują umiejętność z lokalnego eksperymentu do wspólnego procesu.

Co wnosi Behavioral Integrity Verification?

Behavioral Integrity Verification zadaje inne pytanie: czy umiejętność robi to, co mówi jej opis?²

Praca BIV bada repozytoria umiejętności na dużą skalę i raportuje, że ponad 80% analizowanych umiejętności wykazywało jakąś formę odchylenia między opisem a zachowaniem.² Autorzy klasyfikują większość odchyleń jako wynik przeoczeń, a nie działań wrogich, ale nadal znajdują przypadki wrogie i wieloetapowe wzorce ryzyka.²

To ustalenie ma znaczenie, ponieważ opisy sterują aktywacją.

W systemach agentowych opis umiejętności często decyduje, czy umiejętność trafi do kontekstu. Opis mówi, kiedy agent powinien ją załadować. Jeśli opis zaniża możliwości, ukrywa skutki uboczne albo pomija dostęp do narzędzi, agent i użytkownik podejmują złą decyzję kierowania zadania, zanim zacznie się jakiekolwiek rozumowanie dotyczące konkretnego zadania.

BIV wskazuje brakującą warstwę manifestu dla umiejętności:

Deklarowana powierzchnia	Co powinien zweryfikować audyt zachowania
Warunek aktywacji	Czy umiejętność uruchamia się tylko dla wskazanej klasy zadań?
Możliwość	Czy obserwowane zachowanie mieści się w deklaracji?
Użycie narzędzi	Jakie narzędzia, polecenia, serwery MCP lub pliki powoduje umiejętność?
Skutki uboczne	Czy umiejętność odczytuje, zapisuje, usuwa, wysyła, wydaje środki, publikuje lub wdraża?
Dostęp zewnętrzny	Czy umiejętność powoduje ruch sieciowy, przeglądarkowy lub do usług stron trzecich?
Deklaracja bezpieczeństwa	Czy umiejętność faktycznie dodaje obiecaną kontrolę?
Granica odmowy	Czy umiejętność zachowuje zablokowane działania?

Najgroźniejsza wersja to złośliwa umiejętność, która kłamie. Zwykła wersja to niestaranna umiejętność, która zapomina powiedzieć prawdę.

Obie wersje wymagają audytu.

Co wnosi SkillsBench?

SkillsBench pokazuje, dlaczego zespoły nie powinny przesadnie reagować i uznawać umiejętności za bezwartościowe.

Benchmark ocenia umiejętności agentów w 86 zadaniach i 7 308 trajektoriach.³ Praca raportuje, że starannie dobrane umiejętności poprawiają średni wskaźnik powodzenia o 16,2 punktu procentowego względem wariantu bazowego bez umiejętności, podczas gdy umiejętności wygenerowane samodzielnie średnio nie przynoszą korzyści.³ Raportuje też ujemne delty w niektórych zadaniach, co oznacza, że umiejętność może pogorszyć pewien typ pracy.³

Ten wynik daje zrównoważony obraz.

Umiejętności mogą pomagać. Jakość umiejętności ma znaczenie. Dopasowanie do zadania ma znaczenie. Źródło ma znaczenie. Metoda ewaluacji ma znaczenie.

Wniosek adopcyjny nie brzmi „unikać umiejętności”. Brzmi: „recenzować umiejętności jak pakiety możliwości”.

Użyteczna umiejętność powinna odpowiadać na pytania:

Pytanie	Wymagana odpowiedź
Jaką pracę umiejętność poprawia?	Konkretna klasa zadań i czytelnik/użytkownik.
Które zachowanie powinno się zmienić?	Wybór narzędzia, kontrola dowodów, format, recenzja lub wzorzec odzyskiwania.
Które zachowanie nie może się zmienić?	Zabronione narzędzia, ścieżki, skutki uboczne i granice uprawnień.
Jaki dowód potwierdza, że umiejętność pomogła?	Zmiana śladu, wskaźnik powodzenia, nakład recenzji i profil skutków ubocznych.
Jak zespół może ją usunąć?	Wersja, właściciel, wycofanie i ścieżka zastąpienia.

Umiejętność zasługuje na awans dopiero wtedy, gdy obserwowane zachowanie pasuje do tych odpowiedzi.

Jak wygląda audyt zachowania?

Audyt zachowania porównuje oczekiwane zachowanie umiejętności z obserwowanym zachowaniem agenta.

Minimalny audyt ma cztery przebiegi.

Przebieg audytu	Dowody
Audyt deklaracji	Opis umiejętności, warunek aktywacji, możliwości, narzędzia i zabronione działania.
Kontrfaktyczny audyt śladów	Sparowane przebiegi z umiejętnością i bez niej na tym samym zestawie zadań.
Audyt skutków ubocznych	Pliki, polecenia, wywołania sieciowe, zewnętrzne zapisy, zgody i stan wycofania.
Audyt awarii	Nieudane przebiegi, sytuacje bliskie błędu, odzyskane błędy i powtarzające się wzorce naprawy.

Wynik powinien przypominać raczej pakiet recenzji niż tabelę liderów.

Dla każdego zadania należy uchwycić:

Nazwę zadania i kategorię ryzyka.
Wersję i źródło umiejętności.
Ślad bazowy.
Ślad z umiejętnością.
Zmienione kroki.
Zmienione wywołania narzędzi.
Zmienione skutki uboczne.
Dowody zyskane lub utracone.
Końcowy wynik.
Decyzję recenzenta: zachować, poprawić, zawęzić, zablokować albo wycofać.

Taki pakiet daje ludzkiemu recenzentowi sposób na wydanie osądu, który przetrwa dłużej niż jeden przebieg benchmarku.

Gdzie pasują kontrakty umiejętności?

ContractSkill wskazuje czystszy kształt dla umiejętności, które wymagają ściślejszego zachowania.⁴

Praca argumentuje, że umiejętności agentów webowych zapisane w języku naturalnym mogą być niejednoznaczne, kruche i trudne do debugowania. Proponuje umiejętności oparte na kontraktach, z jawnymi definicjami zadań, warunkami wstępnymi, warunkami końcowymi i procedurami na poziomie kroków, aby system mógł lokalizować awarie i naprawiać dotknięty fragment zamiast przepisywać całą umiejętność.⁴

Takie ujęcie kontraktowe dobrze pasuje do audytów zachowania.

Swobodna umiejętność	Umiejętność w formie kontraktu
„Zachowaj ostrożność przy publikowaniu”.	„Przed publikacją zweryfikuj adresy URL źródeł, renderowanie trasy, schemat i wycofanie zmian”.
„Sprawdź stronę”.	„Pobierz trasę, potwierdź status 200, potwierdź znacznik zmiany, potwierdź brak tekstu zastępczego”.
„Unikaj ryzykownych poleceń”.	„Blokuj usuwanie, force push, zewnętrzny POST i zapisy poza posiadanymi ścieżkami”.
„Tłumacz naturalnie”.	„Zachowaj adresy URL i cytowania; przetłumacz widoczne nagłówki; zablokuj pozostałości angielszczyzny”.

Umiejętności w formie kontraktu zmniejszają niejednoznaczność. Obniżają też koszt audytów, bo oczekiwane zachowanie znajduje się w strukturze, którą recenzent może porównać ze śladem.

Kontrakt nie powinien zamieniać każdej umiejętności w ogromny dokument. Proste umiejętności nadal sprawdzają się przy zadaniach niskiego ryzyka, takich jak formatowanie tekstu lub listy kontrolne. Kontrakty mają znaczenie wtedy, gdy umiejętność może zmieniać systemy zewnętrzne, treści publiczne, dane, pieniądze, postawę bezpieczeństwa albo wspólne zachowanie projektu.

Jak naprawić złą umiejętność?

Nie należy usuwać użytecznej umiejętności tylko dlatego, że jeden przebieg się nie udał. Najpierw trzeba ustalić, gdzie zachowanie się zepsuło.

AgentRx koncentruje się na naprawianiu awarii agentów przez lokalizowanie krytycznych kroków awarii w trajektoriach wykonania, generowanie ograniczeń i walidowanie napraw względem dziennika nadającego się do audytu.⁵ Praca dotyczy szeroko zachowania agentów, a nie konkretnie plików umiejętności, ale kształt naprawy dobrze mapuje się na umiejętności: znaleźć krok awarii, wyprowadzić ograniczenie, przetestować naprawione zachowanie i zachować dowody.

Naprawa umiejętności powinna iść tą samą sekwencją:

Awaria	Naprawa
Umiejętność aktywuje się zbyt szeroko	Zawęzić opis i przykłady wyzwalaczy.
Umiejętność zmienia niewłaściwy wybór narzędzia	Dodać reguły wyboru narzędzia i kontrprzykłady.
Umiejętność pomija weryfikację	Dodać warunek zatrzymania przed zakończeniem.
Umiejętność tworzy zbyt duży diff	Dodać limity własności i zmienianych ścieżek.
Umiejętność powoduje ruch sieciowy	Dodać reguły ruchu wychodzącego i wymagania dotyczące zgody.
Umiejętność poprawia jedno zadanie, ale szkodzi innemu	Podzielić umiejętność albo zawęzić ją do zwycięskiej klasy zadań.

Naprawa powinna zakończyć się nowym audytem, nie pewnym siebie komunikatem commita.

Jeśli po naprawie ślad nadal pokazuje niewłaściwe zachowanie, umiejętność należy wycofać.

Minimalny standard

Zanim zespół udostępni umiejętność agenta AI, należy wymagać jednego pakietu audytu zachowania.

Pole	Wymagane dowody
Źródło	Repozytorium, autor, wersja i ścieżka instalacji.
Cel	Klasa zadań, którą umiejętność deklaruje poprawiać.
Aktywacja	Dokładny warunek, który powinien załadować umiejętność.
Dozwolone zachowanie	Narzędzia, pliki, zasoby i działania, na które umiejętność może wpływać.
Zabronione zachowanie	Narzędzia, ścieżki, skutki uboczne i uprawnienia, których umiejętność nie może rozszerzać.
Ślady kontrfaktyczne	To samo zadanie z umiejętnością i bez niej.
Zmiana wyniku	Wskaźnik powodzenia, wskaźnik awarii, nakład recenzji i koszt środowiska wykonawczego.
Zmiana zachowania	Zmienione kroki, wywołania narzędzi, skutki uboczne i dowody.
Decyzja ryzyka	Zachować, poprawić, zawęzić, zablokować albo wycofać.
Wycofanie	Jak zespół usuwa umiejętność i wraca do poprzedniego zachowania.

Taki pakiet wymusza właściwe pytanie.

Pytanie nie brzmi: „czy umiejętność pomogła raz?”. Pytanie brzmi: „czy umiejętność niezawodnie zmienia zachowanie w sposób, którego chce zespół?”.

Standard warty zachowania

Umiejętności szybko sprawiają, że agenci wydają się lepsi. Ta szybkość kusi zespoły do gromadzenia plików procesowych, poleceń, agentów, punktów zaczepienia i podpowiedzi, bo każdy z nich wydaje się tani.

Tani kontekst nadal zmienia zachowanie.

Umiejętność warta miejsca poprawia cały przepływ pracy. Powinna zmniejszać obciążenie recenzją, wyostrzać dowody, zawężać ryzyko albo uczyć procedury, której agent bez niej nie wykonywałby niezawodnie. Umiejętność, która tylko sprawia, że agent brzmi pewniej, powinna zniknąć. Umiejętność, która poprawia wskaźnik powodzenia, a jednocześnie rozszerza ukryte skutki uboczne, powinna nie przejść recenzji.

Standard powinien pozostać prosty:

Zadeklarować, co umiejętność ma zmienić.
Udowodnić, że ślad zmienił się właśnie w ten sposób.
Nazwać to, co nie może się zmienić.
Udowodnić, że ślad uszanował tę granicę.
Zachować umiejętność tylko wtedy, gdy dane zachowanie zasługuje na istnienie.

Umiejętności agentów AI nie są magicznymi notatkami. Są poprawkami zachowania. Należy traktować je jak kod.

Krótkie podsumowanie

Umiejętności agentów AI wymagają audytów zachowania, ponieważ wskaźniki powodzenia ukrywają zbyt wiele. Kontrfaktyczny audyt śladów pokazuje, że umiejętności mogą zmieniać setki wzorców śladów, choć zagregowany sukces ledwie się zmienia.¹ Behavioral Integrity Verification pokazuje, że opisy umiejętności często rozchodzą się z rzeczywistymi możliwościami.² SkillsBench pokazuje, że starannie dobrane umiejętności mogą pomagać, ale umiejętności wygenerowane samodzielnie i niedopasowanie do zadania mogą zawodzić albo szkodzić.³

Reguła operacyjna jest prosta: oceniać zachowanie, nie tylko wynik. Umiejętność zasługuje na zaufanie, gdy jej deklaracja, ślady, skutki uboczne, awarie, naprawy i ścieżka wycofania układają się w spójną całość.

FAQ

Czym jest audyt zachowania umiejętności agentów AI?

Audyt zachowania sprawdza, jak umiejętność zmienia rzeczywisty przebieg agenta: wywołania narzędzi, dostęp do plików, skutki uboczne, kroki weryfikacji, zachowanie naprawcze i końcowy wynik. Porównuje obserwowane zachowanie z deklarowanym celem i granicami umiejętności.

Dlaczego wskaźniki powodzenia nie wystarczają do oceny umiejętności?

Wskaźniki powodzenia pokazują, czy zadanie zostało zaliczone przez mechanizm oceny. Nie pokazują, czy umiejętność rozszerzyła dostęp do narzędzi, pominęła dowody, zwiększyła skutki uboczne albo zmieniła zachowanie w sposób niezamierzony przez zespół.

Czym jest kontrfaktyczny audyt śladów?

Kontrfaktyczny audyt śladów porównuje trajektorie agenta z umiejętnością i bez niej, wyrównuje fazy śladu i identyfikuje wzorce zachowań wywołane przez umiejętność. Pomaga zespołom zobaczyć zmiany zachowania, które zagregowane metryki sukcesu mogą pominąć.¹

Czym jest Behavioral Integrity Verification?

Behavioral Integrity Verification porównuje opisy umiejętności z rzeczywistym zachowaniem umiejętności. Wykrywa sytuacje, w których deklarowana możliwość, warunek aktywacji albo obietnica bezpieczeństwa nie pasują do obserwowanego zachowania.²

Co zespół powinien audytować przed udostępnieniem umiejętności?

Zespoły powinny audytować źródło umiejętności, warunek aktywacji, deklarowane możliwości, działania dozwolone i zabronione, sparowane ślady, skutki uboczne, przypadki awarii, ścieżkę naprawy i plan wycofania.

Bibliografia

Xuanyu Zhang, Yiding Liu, Chengsong Huang, Ensheng Shi, Weizhi Ma, Yifei Zhang, Qun Liu, Shumin Deng, Jiahang Shen, and Shiqi Wang, “Counterfactual Trace Auditing of LLM Agent Skills,” arXiv:2605.11946v1, submitted May 13, 2026. Źródło dotyczące porównania sparowanych śladów, wykrywania wzorców wywołanych przez umiejętności, wyrównania faz, oceny umiejętności w WebArena, zagregowanego wzrostu wskaźnika powodzenia o +0,3 punktu procentowego oraz 522 wzorców zachowania w 49 zadaniach. ↩↩↩↩↩↩↩↩
Ning Liu, Meng Fang, Youtao Zhang, Dominik T. Matt, Stanislav Pletnev, Hongzhi Wang, and Erwin Schoitsch, “Behavioral Integrity Verification for Agentic AI Skills,” arXiv:2605.11770v1, submitted May 13, 2026. Źródło dotyczące weryfikacji deklarowanych i rzeczywistych możliwości umiejętności, analizy umiejętności w skali repozytoriów, ustaleń o rozbieżnościach między opisem a zachowaniem, kategorii odchyleń wynikających z przeoczeń i działań wrogich oraz wieloetapowych wzorców ryzyka. ↩↩↩↩↩↩
Lingkai Kong, Xiangliang Zhang, and Jiamou Liu, “SkillsBench: Can LLMs Learn from Their Own and Other Agents’ Skills for Reliable Task Execution?,” arXiv:2602.12670v1, submitted February 17, 2026. Źródło dotyczące ewaluacji SkillsBench obejmującej 86 zadań i 7 308 trajektorii, poprawy wskaźnika powodzenia dzięki starannie dobranym umiejętnościom, wyniku umiejętności wygenerowanych samodzielnie oraz ujemnych delt dla zadań. ↩↩↩↩↩
Meiyi Ma, Fengan Xia, Canran Xu, Wenqi Li, Aranya Roy, Zhaopeng Tu, Ranveer Chandra, and Dongmei Zhang, “ContractSkill: Contract-based Skill Design for LLM-powered Web Agents,” arXiv:2603.20340v1, submitted March 25, 2026. Źródło dotyczące kontraktowych definicji umiejętności, warunków wstępnych, warunków końcowych, procedur na poziomie kroków, deterministycznej weryfikacji, lokalizacji błędów i minimalnej naprawy lokalnej. ↩↩
Cunxiang Wang, Ruoxi Sun, Yidong Wang, Piji Li, and Yue Zhang, “AgentRx: Scalable Automated Failure Diagnosis and Repair for LLM Agents,” arXiv:2602.02475v1, submitted February 3, 2026. Źródło dotyczące lokalizacji krytycznego kroku awarii, generowania ograniczeń, walidacji śladów oraz dzienników napraw nadających się do audytu dla awarii agentów LLM. ↩