Agenci AI do kodowania potrzebują mniejszych obszarów przeglądu
Badanie z marca 2026 roku dotyczące agentowych asystentów kodowania wykazało, że wraz z postępem zadań spada poznawcze zaangażowanie inżynierów oprogramowania, a obecne narzędzia w ograniczonym stopniu wspierają refleksję, weryfikację i budowanie zrozumienia.1
To ustalenie wskazuje główne ograniczenie agentów AI do kodowania. Trudność nie polega już na tym, by agent wygenerował kod. Trudność polega na utrzymaniu człowieka na tyle zaangażowanego, aby przed scaleniem potrafił zrozumieć, zweryfikować i wziąć odpowiedzialność za wykonaną pracę.
Artykuł z kwietnia 2026 roku o inżynierii oprogramowania ujmuje tę samą zmianę w skali całej dyscypliny: generowany kod staje się powszechnie dostępny, a zasadniczą pracą inżynierską stają się orkiestracja, weryfikacja oraz uporządkowana współpraca człowieka z AI.4
TL;DR
Agenci AI do kodowania potrzebują mniejszych obszarów przeglądu, ponieważ duże, wygenerowane diffy przekraczają realny budżet uwagi recenzentów. Zamiast ogromnych wyników pracy agenta zespoły powinny wymagać artefaktów dopasowanych do konkretnych decyzji: map zmienionych ścieżek, kategorii ryzyka, kart twierdzeń, dowodów z testów, notatek o wycofaniu zmian oraz list nierozwiązanych luk. Nadzór człowieka zawodzi, gdy interfejs każe inżynierom przeczytać wszystko dopiero po zakończeniu pracy przez agenta. Działa wtedy, gdy system sprawia, że każda akceptacja jest mała, konkretna i poparta dowodami.
Najważniejsze wnioski
Dla liderek i liderów inżynierii: - Uwagę recenzenta należy traktować jako rzadki zasób produkcyjny. - Sukces agenta warto mierzyć łatwością przeglądu, a nie tylko ukończeniem zadania.
Dla twórców narzędzi deweloperskich: - Obszary przeglądu należy projektować wokół decyzji: zaakceptować, odrzucić, poprosić o dowód, podzielić albo odesłać do poprawy. - Mechanizmy wymuszające namysł trzeba dodawać tam, gdzie mają znaczenie: przy ryzykownych zmianach należy wymagać wyraźnego osądu recenzenta, a nie biernego przewijania wygenerowanej pracy.
Dla recenzentów: - Nie należy akceptować pracy, której faktycznie się nie sprawdziło. - Przed czytaniem pełnego diffu warto poprosić agenta o ograniczenie wyniku do twierdzeń, objętych zmianą ścieżek, testów, ryzyk i notatek o wycofaniu zmian.
Dlaczego agenci AI do kodowania rozbijają uwagę recenzenta?
Przegląd oprogramowania zależy od uwagi, a agentowe przepływy pracy zużywają ją szybciej niż tradycyjny development.
Pull request napisany przez człowieka niesie ze sobą pewne użyteczne tarcie. Autor kształtuje zmianę w trakcie jej pisania. Recenzent widzi zakres, który zwykle odzwierciedla tempo ludzkiego pisania, presję czasu i koszt społeczny. Agent AI do kodowania może wytworzyć ten sam widoczny artefakt przy znacznie mniejszym tarciu: więcej plików, więcej szablonowego kodu, więcej testów, więcej wyjaśnień i więcej języka pewności.
Do recenzenta trafia większy obiekt, przy mniejszej pewności, że człowiek rozumie każdą jego część.
Artykuł warsztatowy CHI 2026 zatytułowany „I’m Not Reading All of That” badał inżynierów korzystających z agentowego asystenta kodowania i wykazał, że wraz z postępem zadań spadało ich poznawcze zaangażowanie. Autorzy argumentują, że agentowe narzędzia do kodowania powinny działać jako „narzędzia myślenia”, wspierające rozumowanie i budowanie zrozumienia, a nie wyłącznie autonomiczne wykonywanie zadań.1
To powinno zmienić sposób oceniania wyników pracy agenta. Zadanie ukończone w taki sposób, że nikt nie może go odpowiedzialnie przejrzeć, nie obniżyło ryzyka. Przeniosło je do nieprzeczytanej części diffu.
Co oznacza mniejszy obszar przeglądu?
Mniejszy obszar przeglądu to minimalny artefakt, którego recenzent potrzebuje do podjęcia konkretnej decyzji.
Nie chodzi o krótsze streszczenie. Streszczenie może ukryć ryzyko. Mniejszy obszar zawęża decyzję, ale zachowuje dowód.
| Obszar przeglądu | Zły kształt | Lepszy kształt |
|---|---|---|
| Diff | 2 000 wygenerowanych linii | Mapa zmienionych ścieżek oraz pliki uporządkowane według ryzyka |
| Streszczenie | „Wdrożono porządki w auth” | Twierdzenia, objęte zmianą wywołania, testy i luki |
| Testy | „Wszystkie testy przechodzą” | Polecenie, wynik, klasa błędu, brakujące pokrycie |
| Ryzyko | „Niskie ryzyko” | Dane objęte zmianą, wywołania zewnętrzne, ścieżka wycofania |
| Akceptacja | Jeden zielony przycisk | Zaakceptuj twierdzenie, poproś o dowód, podziel albo odrzuć |
| Dalsze kroki | Luźne TODO | Właściciel, data, stan i status blokady |
Obszar staje się mniejszy dzięki podzieleniu przeglądu na decyzje. Recenzent nie powinien musieć czytać całego wygenerowanego diffu, zanim zobaczy, gdzie potrzebny jest osąd. Interfejs powinien odpowiadać na pytania: co się zmieniło, dlaczego, gdzie leży ryzyko, jakie istnieją dowody i co nadal wymaga ludzkiej oceny.
Co recenzenci powinni zobaczyć najpierw?
Najpierw mapa, dopiero potem terytorium.
Pierwszy ekran powinien odpowiadać na 5 pytań:
- Które pliki się zmieniły?
- Jakie zachowanie się zmieniło?
- Jakie twierdzenia przedstawia agent?
- Które twierdzenia mają dowody?
- Które twierdzenia nadal wymagają ludzkiego osądu?
Taki początkowy obszar może wyglądać jak tabela:
| Ścieżka | Typ zmiany | Ryzyko | Dowód | Decyzja |
|---|---|---|---|---|
app/routes/webhooks.py |
Granica autoryzacji | Wysokie | Dodano test brakującego podpisu | Przejrzeć ręcznie |
tests/test_webhooks.py |
Test regresji | Średnie | Przed zmianą nie przechodzi, po zmianie przechodzi | Sprawdzić asercję |
docs/webhooks.md |
Dokumentacja publiczna | Niskie | Powiązano z zachowaniem źródłowym | Redakcja tekstu |
Tabela nie zastępuje diffu. Pokazuje recenzentowi, gdzie najpierw skierować uwagę.
Ta sama zasada dotyczy wyjaśnień agenta. Użyteczny agent nie mówi: „Zmieniłem przepływ webhooka i zaktualizowałem testy”. Użyteczny agent mówi:
- Twierdzenie: niepodpisane żądania ponowienia są teraz odrzucane przed parsowaniem body.
- Dowód:
test_unsigned_retry_rejected_before_json_readnie przechodzi przed poprawką i przechodzi po niej. - Ścieżka objęta zmianą: wyłącznie endpoint ponowień webhooka.
- Ryzyko: przypadki brzegowe podpisu i błędnie sformatowane payloady.
- Pozostała luka: brak odtworzenia w stagingu na prawdziwym payloadzie dostawcy.
Taki kształt daje człowiekowi obiekt decyzyjny.
Dlaczego przegląd wykonywany przez człowieka nadal jest inny?
Ludzcy recenzenci przekazują informacje zwrotne, których agenci nie dostarczają.
Empiryczne badanie z marca 2026 roku, obejmujące 278 790 rozmów w przeglądach kodu w 300 otwartoźródłowych projektach na GitHubie, wykazało, że ludzcy recenzenci dają informacje zwrotne wykraczające poza wykrywanie defektów, między innymi dotyczące zrozumienia, testowania i transferu wiedzy.2 Badanie pokazało też, że przy przeglądzie kodu wygenerowanego przez AI ludzcy recenzenci wymieniali o 11,8% więcej rund komentarzy niż przy kodzie napisanym przez człowieka, a sugestie agentów AI miały niższy wskaźnik przyjęcia niż sugestie ludzi.2
Najważniejsze ustalenie dla projektowania narzędzi: ponad połowa nieprzyjętych sugestii agentów AI była błędna albo została rozwiązana alternatywnymi poprawkami deweloperów. Gdy projekty przyjmowały sugestie agentów AI, prowadziły one do większych wzrostów złożoności i rozmiaru kodu niż sugestie ludzkich recenzentów.2
Te dowody oddalają nas od biernego zaufania. Przegląd z udziałem AI może skalować wykrywanie. Przegląd człowieka nadal wnosi kontekst, wyczucie, osąd utrzymywalności i transfer wiedzy. Mniejszy obszar przeglądu powinien chronić te ludzkie atuty, a nie grzebać je pod wygenerowanym wynikiem.
Gdzie zawodzą pull requesty agentów?
Agentowe pull requesty zawodzą wtedy, gdy wygenerowana praca przekracza zdolność zespołu do jej zweryfikowania.
Artykuł MSR 2026 przeanalizował 33 000 pull requestów autorstwa agentów na GitHubie. Najwyższy sukces scalania osiągały zadania dotyczące dokumentacji, CI i aktualizacji buildów, a najgorzej wypadały zadania wydajnościowe oraz poprawki błędów. Niescalone pull requesty zwykle obejmowały większą liczbę plików, wprowadzały większe zmiany i nie przechodziły CI. Jakościowe wzorce odrzucenia obejmowały słabe zaangażowanie recenzentów, zdublowane PR-y, niechciane implementacje i niedopasowanie agenta.3
Wniosek nie brzmi: „agenci powinni pisać tylko dokumentację”. Wniosek brzmi: rozmiar obszaru przeglądu i ryzyko zmiany wzajemnie na siebie wpływają. Mała, wygenerowana poprawka dokumentacji może być łatwa do sprawdzenia. Duża, wygenerowana poprawka błędu może zmusić recenzenta do odtworzenia rozumowania agenta od zera.
Przed scaleniem zespoły powinny zmniejszać obszar przeglądu:
| Wzorzec porażki | Odpowiedź w postaci mniejszego obszaru |
|---|---|
| Większy zestaw zmian | Podzielić według zachowania i granicy commita |
| Więcej objętych zmianą plików | Uporządkować pliki według ryzyka wykonania i ryzyka dla danych |
| Błąd CI | Pokazać zadanie z błędem, przyczynę i próbę naprawy |
| Słabe zaangażowanie recenzenta | Wymagać jawnych decyzji przy ryzykownych twierdzeniach |
| Zdublowana lub niechciana praca | Dołączyć cel, właściciela i kryteria akceptacji |
| Niedopasowanie agenta | Porównać wynik z pierwotnym wynikiem oczekiwanym przez użytkownika |
Recenzent nie powinien odkrywać zakresu, ryzyka i dryfu celu dopiero po przeczytaniu każdego pliku.
Co powinien wymuszać interfejs?
Dobre interfejsy przeglądu nakładają tarcie we właściwych momentach.
Nie powinny spowalniać każdej wygenerowanej zmiany. Powinny spowalniać te twierdzenia, które niosą ryzyko dla użytkowników, bezpieczeństwa, danych, pieniędzy albo architektury.
| Sygnał ryzyka | Mechanizm wymuszający namysł |
|---|---|
| Zmiana uwierzytelniania lub uprawnień | Recenzent musi sprawdzić ścieżki objęte zmianą i testy |
| Migracja bazy danych | Recenzent musi potwierdzić możliwość wycofania i zgodność danych |
| Treść publiczna | Recenzent musi potwierdzić sprawdzenie cytowań i granic prywatności |
| Wyłącznie wygenerowane testy | Recenzent musi potwierdzić, że test nie przeszedłby przed poprawką |
| Duży diff | Recenzent musi podzielić zmianę albo wyraźnie zaakceptować ciężar przeglądu |
| Niepewność agenta | Recenzent musi wybrać: dopuścić dalej, odrzucić albo poprosić o dowód |
| Brak ścieżki wycofania | Akceptacja pozostaje zablokowana |
Wymuszanie namysłu nie oznacza irytowania recenzenta. Oznacza wymaganie prawdziwej decyzji tam, gdzie bierne kliknięcie stworzyłoby fałszywą pewność.
Artykuł o poznawczym zaangażowaniu zaleca bogatsze modalności interakcji i mechanizmy wymuszające namysł, aby podtrzymywać głębsze myślenie w programowaniu wspieranym przez AI.1 Narzędzia deweloperskie powinny potraktować tę rekomendację dosłownie. Powinny pokazywać stan pracy w sposób, który ułatwia myślenie i utrudnia płytką akceptację.
Jak mniejsze obszary przeglądu łączą się z pakietami przeglądowymi?
Pakiety przeglądowe są trwałym artefaktem. Mniejsze obszary przeglądu są ludzkim interfejsem do tego artefaktu.
Pakiet może zawierać pełne dowody: zmienione pliki, wyniki poleceń, testy, sprawdzenia źródeł, dowody wydania, decyzje i nierozwiązane luki. Obszar przeglądu powinien pokazywać wycinek, którego człowiek potrzebuje właśnie teraz.
| Warstwa pakietu | Obszar przeglądu |
|---|---|
| Pełny ślad | Ważne wyniki poleceń |
| Pełny diff | Pliki uporządkowane według ryzyka |
| Wszystkie ustalenia | Twierdzenia wymagające decyzji |
| Wszystkie sprawdzenia | Sprawdzenia nieudane, brakujące lub wysokiego ryzyka |
| Wszystkie akceptacje | Bieżąca decyzja recenzenta |
| Wszystkie luki | Najpierw luki blokujące |
Ten podział ma znaczenie. Wrzucenie pakietu do PR-a nie rozwiązuje problemu uwagi. Pakiet daje systemowi dowody. Obszar przeglądu daje człowiekowi ścieżkę przez te dowody.
Przegląd kodu AI potrzebuje sprzeciwu, ale sprzeciw pomaga tylko wtedy, gdy recenzent może go zobaczyć. Mniejszościowe ustalenie zakopane na czwartej stronie raportu agenta nie chroni projektu. To samo ustalenie przekazane jako karta decyzji może już pomóc.
Co zespoły powinny zbudować najpierw?
Najpierw należy ustalić budżet obiektów przeglądu.
Dla każdego pull requesta autorstwa agenta należy wymagać:
- Jednego opisu celu.
- Jednej mapy zmienionych ścieżek.
- Jednej tabeli ryzyka.
- Jednej tabeli dowodów.
- Jednej listy nierozwiązanych luk.
- Jednej notatki o wycofaniu zmian.
- Jednego dziennika decyzji człowieka.
Następnie należy ograniczyć rozmiar każdego obiektu. Jeżeli agent nie potrafi zmieścić mapy, tabeli albo listy luk w czytelnym artefakcie, pull request jest zbyt duży albo zbyt słabo ustrukturyzowany, aby dało się go odpowiedzialnie przejrzeć.
Limit ma znaczenie, ponieważ agenci bez problemu wygenerują wyczerpujące artefakty, które odtworzą ten sam problem uwagi w prozie. Odpowiedzią na ogromny diff nie jest ogromne streszczenie. Odpowiedzią jest obiekt przeglądu, który mieści się w zakresie decyzji człowieka.
Krótkie podsumowanie
Agenci AI do kodowania sprawiają, że kod taniej się produkuje, ale drożej recenzuje. Badania nad agentowymi asystentami kodowania pokazują, że w trakcie zadań wspieranych przez agentów spada poznawcze zaangażowanie, a obecne narzędzia niedostatecznie wspierają refleksję i weryfikację.1 Empiryczne badania przeglądów kodu pokazują, że ludzie nadal wnoszą zrozumienie, osąd testowy i transfer wiedzy, podczas gdy sugestie agentów AI są rzadziej przyjmowane i po przyjęciu mogą zwiększać złożoność.2 Badania nieudanych agentowych PR-ów pokazują, że duże, niedopasowane i słabo sprawdzone zmiany zawodzą w przewidywalny sposób.3
Mniejsze obszary przeglądu są praktyczną odpowiedzią. Należy skłonić agenta do ograniczenia pracy do twierdzeń, ryzyk, dowodów, decyzji i luk. Następnie człowiek powinien akceptować wyłącznie to, co faktycznie sprawdził.
FAQ
Czym jest obszar przeglądu dla agentów AI do kodowania?
Obszar przeglądu to ta część wyniku pracy agenta, której człowiek używa do podjęcia decyzji. Diff pull requesta, karta twierdzenia, tabela dowodu z testów, mapa ryzyka albo notatka o wycofaniu zmian mogą być obszarami przeglądu. Dobre narzędzia utrzymują każdy taki obszar na tyle mały, aby dało się go odpowiedzialnie sprawdzić.
Dlaczego mniejsze obszary przeglądu są lepsze niż streszczenia?
Streszczenia mogą ukrywać ryzyko. Mniejsze obszary przeglądu zawężają decyzję, ale zachowują dowody. Recenzent powinien widzieć twierdzenie, ścieżkę objętą zmianą, dowód, ryzyko i nierozwiązaną lukę, a nie tylko płynny akapit mówiący, że zadanie zostało wykonane.
Czy mniejszy obszar przeglądu zastępuje pełny diff?
Nie. Pełny diff pozostaje dostępny. Mniejszy obszar mówi recenzentowi, gdzie najpierw spojrzeć, które twierdzenia mają znaczenie i które decyzje pozostają otwarte.
Jak agenci AI do kodowania wpływają na przegląd wykonywany przez człowieka?
Agenci AI do kodowania mogą szybciej tworzyć większe artefakty, niż ludzie są w stanie je sprawdzać. Badania nad agentowymi asystentami kodowania wykazały spadek poznawczego zaangażowania wraz z postępem zadania, a badania przeglądów kodu pokazały, że ludzcy recenzenci nadal dostarczają kontekstowe informacje zwrotne, których agentom brakuje.12
Co powinno blokować akceptację PR-a autorstwa agenta?
Akceptacja powinna być blokowana, gdy PR nie ma jasnego celu, mapy zmienionych ścieżek, dowodów dla głównych twierdzeń, ścieżki wycofania ryzykownych zmian, gdy pozostają nierozwiązane błędy testów, nieprzejrzane granice bezpieczeństwa lub danych albo wygenerowany kod, którego recenzent faktycznie nie sprawdził.
Źródła
-
Carlos Rafael Catalan, Lheane Marie Dizon, Patricia Nicole Monderin, and Emily Kuang, “I’m Not Reading All of That: Understanding Software Engineers’ Level of Cognitive Engagement with Agentic Coding Assistants,” arXiv:2603.14225, submitted March 15, 2026, revised March 18, 2026, published and presented in the CHI 2026 Workshop on Tools for Thought. Źródło twierdzeń dotyczących poznawczego zaangażowania, budowania zrozumienia, refleksji, weryfikacji i mechanizmów wymuszających namysł. ↩↩↩↩↩
-
Suzhen Zhong, Shayan Noei, Ying Zou, and Bram Adams, “Human-AI Synergy in Agentic Code Review,” arXiv:2603.15911, submitted March 16, 2026. Źródło danych o badaniu 278 790 rozmów w przeglądach, próbie 300 projektów, 11,8% większej liczbie rund dla kodu wygenerowanego przez AI, niższym wskaźniku przyjęcia sugestii agentów AI oraz ustaleniach dotyczących złożoności i rozmiaru kodu. ↩↩↩↩↩
-
Ramtin Ehsani, Sakshi Pathak, Shriya Rawal, Abdullah Al Mujahid, Mia Mohammad Imran, and Preetha Chatterjee, “Where Do AI Coding Agents Fail? An Empirical Study of Failed Agentic Pull Requests in GitHub,” arXiv:2601.15195, submitted January 21, 2026, accepted at MSR 2026. Źródło danych o badaniu 33 000 PR-ów autorstwa agentów, wzorcach sukcesu scalania, obserwacjach dotyczących CI i rozmiaru zmian oraz wzorcach odrzucania. ↩↩
-
Mamdouh Alenezi, “Rethinking Software Engineering for Agentic AI Systems,” arXiv:2604.10599, submitted April 12, 2026. Źródło ujęcia, zgodnie z którym inżynieria oprogramowania powinna reorganizować się wokół orkiestracji, weryfikacji i uporządkowanej współpracy człowieka z AI, gdy generowany kod staje się coraz bardziej powszechny. ↩