HTML to format, którego chcą agenci AI

8 min read

From the guide: Claude Code Comprehensive Guide

8 maja 2026 roku Thariq Shihipar, inżynier pracujący nad Claude Code w Anthropic, opublikował na prywatnej stronie zbiór 20 artefaktów HTML, które agent przygotował w dziewięciu kategoriach pracy z wiedzą, z jednym argumentem: gdy odpowiedź niesie strukturę przestrzenną, interakcję albo dowód wizualny, HTML wygrywa z Markdownem.¹²

HTML wygrywa z Markdownem jako format wyniku agenta, ponieważ struktura przestrzenna, interakcja i dowód wizualny niosą informacje, które proza spłaszcza. Format emitowany przez agenta jest powierzchnią sterowania, którą człowiek sprawdza, a nie opakowaniem wokół niej.

Wpis ukazał się sześć dni przed publikacją pracy w arXiv z 14 maja, która pokazała, że jakość wyszukiwania agentowego żyje w środowisku wykonawczym, a nie w komponencie pobierającym wyniki.³ Widać ten sam wzorzec: format i środowisko wykonawcze są podłożem, nie opakowaniem. Komponent ma znaczenie dopiero wtedy, gdy otaczająca go powierzchnia zamienia wynik modelu w coś, co człowiek może zweryfikować.

TL;DR

Thariq Shihipar opublikował stronę towarzyszącą z 20 przykładami HTML obejmującymi przegląd kodu, systemy projektowe, prototypowanie, eksplorację, diagramy, badania, raporty i powierzchnie edytorskie.¹ Teza: Markdown linearyzuje informacje, które przychodzą przestrzennie. Różnice w kodzie, grafy wywołań, porównania obok siebie i interaktywne prototypy niosą znaczenie, które proza spłaszcza. Epoka premiery GPT-4 z kontekstem 8K tokenów wypchnęła Markdown jako domyślny format oszczędny tokenowo; obecna dokumentacja okien kontekstu Claude wymienia modele z 200K i 1M tokenów, co zmienia rachunek dla wielu rozmiarów artefaktów.⁴⁵ Dla renderowanych po stronie serwera stosów webowych bez procesu budowania, takich jak FastAPI plus HTMX, wpis dostarcza argumentu po stronie agenta: HTML jest formatem, który model chce produkować, i formatem, który przeglądarka już renderuje. Przepuszczenie tego przez Markdown dodaje krok tłumaczenia, który obniża wierność na obu końcach.⁶

Kluczowe Wnioski

Dla twórców agentów: - Przestań domyślnie używać Markdowna dla wyniku agenta, gdy odpowiedzią jest porównanie, różnica w kodzie, schemat przepływu albo struktura do nawigacji. Poproś o HTML i pozwól agentowi zobowiązać się do układu przestrzennego.¹ - Traktuj format wyniku modelu jako część powierzchni narzędzia. Pojedynczy wyrenderowany artefakt da się sprawdzić łatwiej niż zapis rozmowy, który przewija się poza ekran.⁷

Dla projektantów interfejsów: - HTML jest medium, w którym twój system projektowy już trafia do użytkowników. Przepuszczenie przez Markdown wprowadza krok tłumaczenia, który traci wierność, a potem drugi krok tłumaczenia przy renderowaniu.¹ - Powierzchnią sterowania jest to, co produkuje agent. Jeśli człowiek nie widzi tego, co widział agent, powierzchnia jest zepsuta.⁷

Dla zespołów używających renderowanych po stronie serwera stosów bez procesu budowania: - Zakład na HTML zamiast procesu budowania ma teraz walidację po stronie agenta. Format, który model chce produkować, i format, który przeglądarka już renderuje, są tym samym.⁶ - Strona renderowana po stronie serwera usuwa warstwę tłumaczenia dwa razy: raz na etapie budowania, raz na etapie wyniku agenta. Oba usunięcia się wzmacniają.

Co Thariq Naprawdę Argumentował

Shihipar pracuje nad Claude Code w Anthropic; wpis znajduje się na jego prywatnej stronie, a nie na oficjalnym blogu Anthropic.² Towarzysząca galeria zawiera 20 samodzielnych plików HTML przygotowanych przez agenta, pogrupowanych w dziewięć kategorii pracy, w których HTML strukturalnie przewyższa Markdown.¹

Jego główne tezy:

Teza	Dlaczego ma znaczenie
“Diffs and call-graphs are spatial information; markdown flattens them.”	Różnica pokazana obok siebie, z adnotacjami oznaczonymi według ważności, komunikuje szybciej niż numerowana lista ścieżek plików.¹
“HTML is the medium your design system ships in.”	Tworzenie wariantów komponentów w HTML pasuje do formatu, w który system projektowy już celuje. Markdown wymusza krok tłumaczenia.¹
“Motion and interaction can’t be described, only felt.”	Prototyp z prawdziwymi krzywymi przyspieszenia i klikalnymi przepływami komunikuje w kilka sekund coś, czego akapit prozy nie odda.¹
Argument o tokenowej oszczędności Markdowna był artefaktem małych okien kontekstu.	Epoka premiery GPT-4 z 8K tokenów minęła; obecna dokumentacja okien kontekstu Claude wymienia znacznie większe budżety 200K i 1M tokenów.⁴⁵

Druga teza jest nośna dla każdego, kto buduje infrastrukturę webową. Jeśli system projektowy dostarcza HTML, agent powinien produkować HTML. Wszystko inne wprowadza stratną podróż w obie strony.

20 Przykładów Jest Argumentem

Kategorie w galerii Shihipara obejmują pracę, którą większość ludzi zleca dziś agentowi kodującemu:¹

Przegląd kodu: opisane różnice z uwagami w treści oznaczonymi według ważności; mapy modułów z wyróżnionymi ścieżkami wywołań.
Eksploracja: podejścia do kodu pokazane obok siebie; warianty projektu wizualnego rozłożone do wyboru zamiast do czytania po kolei.
Projektowanie: żywe strony systemu projektowego; arkusze wariantów komponentów, które renderują te warianty.
Prototypowanie: środowiska do animacji z prawdziwymi krzywymi przyspieszenia; interaktywne przepływy reagujące na kliknięcia.
Diagramy: figury SVG w treści; opisane schematy przepływu; szkice architektury z polami i strzałkami.
Badania: zwijane sekcje; interaktywne objaśnienia pojęć z demonstracjami na żywo.
Raporty: sformatowane osie czasu i wykresy, w których struktura niesie znaczenie.
Edytory: niestandardowe interfejsy z funkcją eksportu osadzoną w artefakcie.

Każdy z nich jest stroną HTML, którą model wyprodukował za jednym podejściem. Wspólny wzorzec: odpowiedź jest przestrzenna albo interaktywna, a wyrenderowany artefakt zachowuje to, co odpowiedź w Markdownie musiałaby opisać prozą.

Dlaczego Domyślny Był Markdown

Markdown wygrał jako domyślny format wyniku agenta z dwóch powodów, które już nie obowiązują.

Po pierwsze, generacja GPT-3.5 i GPT-4 trafiała w okna kontekstu z zakresu 4K do 8K w okresie, gdy utrwaliła się konwencja wyniku czatu.⁴ Zwięzłość Markdowna była realnym wymuszeniem: token wydany na <div class="..."> był tokenem niedostępnym dla analizy. Obecna dokumentacja okien kontekstu Claude wymienia konteksty 200K tokenów dla wielu modeli oraz konteksty 1M tokenów dla Opus 4.1 i Sonnet 4.6.⁵ Argument o tokenowej oszczędności osłabł dla wielu artefaktów przeznaczonych do inspekcji.

Po drugie, renderery terminalowe i okna czatu renderują Markdown trywialnie, podczas gdy HTML wymaga widoku webowego albo karty przeglądarki. Wygoda powierzchni utrzymała Markdown jako ścieżkę najmniejszego oporu nawet po tym, jak argument tokenowy stracił siłę.

Wpis Shihipara ma wagę, ponieważ autor pracuje nad Claude Code w Anthropic. Te 20 przykładów to konkretne artefakty, a nie abstrakcyjne twierdzenia.² Relacja Simona Willison z tego samego dnia odtworzyła wzorzec na przykładzie objaśnienia exploita bezpieczeństwa Linuksa, wyrenderowanego jako interaktywna strona HTML zamiast opisu w Markdownie.⁸

Co HTML Zachowuje, a Markdown Gubi

Argument niosą cztery właściwości:

Właściwość	Obsługa w Markdownie	Obsługa w HTML
Relacje przestrzenne	Linearyzowane do nagłówków i list	Zachowane jako układ, kolumny, panele obok siebie
Interakcja	Opisana prozą (“kliknij tutaj, aby rozwinąć”)	Ucieleśniona przez prawdziwe zdarzenia DOM i przejścia CSS
Gęstość bez przewijania	Długie przewijanie, brak celów skoku poza nagłówkami	Sekcje zwijane, kotwice na stronie, pływająca nawigacja
Hierarchia wizualna	Niesiona przez mentalny model nagłówków u czytelnika	Niesiona przez układ, który oko faktycznie skanuje

Każda właściwość mapuje się na klasę zadań agenta, które stają się trudniejsze po spłaszczeniu wyniku do prozy. Różnica w kodzie jest porównaniem przestrzennym; schemat przepływu jest grafem; przegląd systemu projektowego jest oceną wizualną. Przepychanie tego przez Markdown każe czytelnikowi rekonstruować to, co renderer mógł pokazać.

Połączenie ze Środowiskiem Wykonawczym

Jakość wyszukiwania agentowego żyje w środowisku wykonawczym, nie w komponencie pobierającym wyniki. Tamten wpis argumentował, że metoda wyszukiwania ma mniejsze znaczenie niż lokalne ramy agenta wokół niej: kształt polecenia, powierzchnia narzędzia, formatowanie zapisu rozmowy, dostarczenie wyniku, zachowanie przy ponawianiu.³

Argument HTML rozszerza tę samą ramę na wynik. Model może wyprodukować właściwą odpowiedź w dowolnym formacie. Format, o który prosisz, jest częścią kontraktu środowiska wykonawczego. Różne formaty tworzą różne powierzchnie możliwe do weryfikacji:

Dostarczenie w Markdownie: użytkownik czyta od góry do dołu, decyduje, co ma znaczenie, i mentalnie rekonstruuje strukturę.
Dostarczenie w HTML: model zobowiązuje się do struktury, renderer czyni tę strukturę skanowalną, a użytkownik sprawdza zamiast czytać.

Te same dane, inna powierzchnia sterowania. Projektowanie agentowe jest projektowaniem powierzchni sterowania. Format emitowany przez agenta jest częścią tej powierzchni, a nie opakowaniem wokół niej.⁷

Co To Oznacza dla Stosu Bez Procesu Budowania

Przewodnik FastAPI plus HTMX na tej stronie przedstawia argument za HTML renderowanym po stronie serwera zamiast procesu budowania JavaScriptu.⁶ Wpis Shihipara dostarcza argumentu po stronie agenta:

Model chce produkować HTML.
Przeglądarka chce renderować HTML.
Wstawienie między nie Markdowna albo JSX dodaje dwa stratne kroki tłumaczenia.

Strona renderowana po stronie serwera usuwa tłumaczenie w czasie budowania. Bezpośrednie produkowanie HTML przez agenta usuwa tłumaczenie w czasie wyniku. Zysk się kumuluje: ten sam format przechodzi od modelu przez trasę do przeglądarki bez form pośrednich.

Nie chodzi o twierdzenie, że React albo Markdown są wszędzie błędne. Chodzi o to, że koszt kroków tłumaczenia jest teraz widoczny z obu stron, a stos, który unika obu końców, upraszcza się proporcjonalnie.

Format Ma Znaczenie. Środowisko Wykonawcze Ma Znaczenie. Oba Są Podłożem.

Praca o wyszukiwaniu agentowym i wpis o HTML ukazały się w odstępie ośmiu dni i mają ten sam kształt argumentu:¹³

Komponent pobierający wyniki jest komponentem. Środowisko wykonawcze jest podłożem.
Model jest komponentem. Format wyniku jest podłożem.

Myślenie komponentowe wciąż proponuje lokalne ulepszenia: zmień komponent pobierający wyniki, dodaj pamięć, podmień model, dopracuj polecenie. Myślenie o podłożu zmienia powierzchnię, którą widzi użytkownik, i powierzchnię, którą produkuje agent. Oba znaleziska z tego tygodnia pchają pracę ku tej drugiej ramie.

Praktyczny ruch: gdy odpowiedź agenta niesie informacje przestrzenne, poproś o HTML. Gdy agent działa w lokalnych ramach, instrumentuj te ramy przed instrumentowaniem modelu. Oba ruchy się wzmacniają. Żaden samodzielnie nie jest magicznym rozwiązaniem.

FAQ

Czy Anthropic opublikowało ten wpis?

Nie. Thariq Shihipar opublikował go na swojej prywatnej stronie, thariqs.github.io/html-effectiveness/.¹ Pracuje nad Claude Code w Anthropic, więc sygnał autorytetu jest silny, ale wpis nie jest publikacją Anthropic.²

Czy argument dotyczy każdego zadania agenta?

Nie. Wpis wyraźnie celuje w pracę, w której struktura przestrzenna, interakcja albo dowód wizualny niosą znaczenie. Dla krótkich odpowiedzi faktograficznych albo wyników ograniczonych do terminala Markdown pozostaje dobrym domyślnym wyborem.¹

Co z kosztem tokenów?

Argument kosztowy za Markdownem był związany z małymi oknami kontekstu. Obecna dokumentacja okien kontekstu Claude wymienia modele 200K i 1M tokenów, co zmienia rachunek zwięzłości HTML dla rozmiarów artefaktów pokazywanych we wpisie.⁵

Czy to psuje istniejące domyślne zachowania Markdowna w Claude Code?

Nie. Argument dotyczy wyniku, o którego przygotowanie prosisz model na żądanie do inspekcji, a nie zapisu rozmowy ani wyniku w terminalu. Nadal możesz poprosić o HTML w jednym poleceniu i otrzymać samodzielny artefakt z powrotem.¹

Jak to łączy się z pracą o środowisku wykonawczym wyszukiwania agentowego?

Oba argumenty wskazują na podłoże wokół modelu, a nie na sam model. Jakość wyszukiwania zależy od lokalnych ram agenta; jakość wyniku zależy od formatu. Komponent jest konieczny; podłoże sprawia, że komponent staje się niezawodny.³

Co powinien z tym zrobić zespół FastAPI plus HTMX?

Traktować HTML jako pierwszorzędny cel wyjściowy dla każdej funkcji AI, którą wypuszcza. Ten sam format przechodzi od modelu przez trasę do przeglądarki, a stos bez procesu budowania już optymalizuje się pod tę ścieżkę.⁶

References

Thariq Shihipar, “The Unreasonable Effectiveness of HTML,” personal site, 8 May 2026. Primary source for the 20 HTML artifacts, the nine work categories (exploration, code review, design, prototyping, diagrams, research, reports, editors), the spatial-information argument (“diffs and call-graphs are spatial information; markdown flattens them”), the design-system claim (“HTML is the medium your design system ships in”), the interaction claim (“motion and interaction can’t be described, only felt”), and the position that HTML preserves user agency in agent loops. ↩↩↩↩↩↩↩↩↩↩↩↩↩
Thariq Shihipar, personal site. Source for Shihipar’s statement that he is currently working on Claude Code at Anthropic and for the personal-site provenance of the HTML article. ↩↩↩↩
Sahil Sen, Akhil Kasturi, Elias Lumer, Anmol Gulati, Vamse Kumar Subbiah, “Is Grep All You Need? How Agent Harnesses Reshape Agentic Search,” arXiv:2605.15184v1, submitted 14 May 2026. Source for the runtime-vs-component framing applied to agent search across Chronos, Claude Code, Codex CLI, and Gemini CLI on a 116-question LongMemEval-S subset. ↩↩↩↩
OpenAI, “GPT-4 Research,” OpenAI, 14 March 2023. Source for GPT-4’s 8,192-token launch context length and limited access to the 32,768-context gpt-4-32k variant. ↩↩↩
Anthropic, “Context windows,” Claude API Docs. Source for the current documentation that Opus 4.1 and Sonnet 4.6 have a 1M-token context window while other Claude models, including Sonnet 4.5 and Sonnet 4, have a 200K-token context window. ↩↩↩↩
Blake Crosley, “FastAPI + HTMX: The No-Build Full-Stack,” blakecrosley.com guide, updated 15 May 2026. Source for the no-build server-rendered architecture argument, including the claim that HTMX eliminates the JavaScript build pipeline while producing 100/100/100/100 Lighthouse scores. ↩↩↩↩
Blake Crosley, “Agentic Design Is Control Surface Design,” blakecrosley.com blog, 15 May 2026. Source for the control-surface frame: agentic design as the discipline of making autonomous software visible, interruptible, inspectable, and worthy of trust, with output format as part of that surface. ↩↩↩
Simon Willison, “Using Claude Code: The Unreasonable Effectiveness of HTML,” simonwillison.net, 8 May 2026. Secondary coverage and additional context on Shihipar’s post, including the worked example of a Linux security exploit explainer rendered as a richly interactive HTML page. ↩