HTML ist das Format, das KI-Agenten wollen

9 Min. Lesezeit

From the guide: Claude Code Comprehensive Guide

Am 8. Mai 2026 veröffentlichte Thariq Shihipar, der bei Anthropic an Claude Code arbeitet, eine persönliche Website mit 20 HTML-Artefakten, die ein Agent in 9 Kategorien der Wissensarbeit erzeugt hatte. Seine These: Wenn eine Antwort räumliche Struktur, Interaktion oder visuelle Belege trägt, schlägt HTML Markdown.¹²

HTML schlägt Markdown als Agentenausgabe, weil räumliche Struktur, Interaktion und visuelle Belege Informationen transportieren, die Prosa glättet. Das Format, das der Agent ausgibt, ist die Kontrollfläche, die der Mensch prüft, nicht bloß ihre Verpackung.

Der Beitrag erschien 6 Tage vor einem arXiv-Paper vom 14. Mai, das zeigte, dass die Suchqualität von Agenten in der Ausführungsumgebung liegt, nicht im Retriever.³ Dasselbe Muster zeigt sich erneut: Format und Ausführungsumgebung sind das Fundament, nicht die Hülle. Die einzelne Komponente zählt erst, nachdem die Oberfläche um sie herum die Modellausgabe in etwas verwandelt hat, das ein Mensch überprüfen kann.

Kurzfassung

Thariq Shihipar veröffentlichte eine begleitende Website mit 20 HTML-Beispielen aus Code-Review, Designsystemen, Prototyping, Exploration, Diagrammen, Recherche, Berichten und Editoroberflächen.¹ Die These: Markdown linearisiert Informationen, die räumlich ankommen. Diffs, Aufrufgraphen, direkte Vergleiche und interaktive Prototypen tragen Bedeutung, die Prosa verflacht. In der GPT-4-Startphase mit 8K Token setzte sich Markdown als tokeneffiziente Voreinstellung durch; die aktuelle Dokumentation zu Kontextfenstern von Claude nennt Modelle mit 200K und 1M Token und verschiebt damit die Abwägung für viele Artefaktgrößen.⁴⁵ Für serverseitig gerenderte Web-Stacks ohne Build-Schritt wie FastAPI plus HTMX liefert der Beitrag das Argument von der Agentenseite: HTML ist das Format, das das Modell erzeugen will, und zugleich das Format, das der Browser bereits rendert. Der Umweg über Markdown fügt einen Übersetzungsschritt hinzu, der an beiden Enden Genauigkeit kostet.⁶

Zentrale Erkenntnisse

Für Entwickler von Agenten: - Verwenden Sie Markdown nicht mehr automatisch als Agentenausgabe, wenn die Antwort ein Vergleich, Diff, Flussdiagramm oder eine navigierbare Struktur ist. Fordern Sie HTML an und lassen Sie den Agenten sich auf ein räumliches Layout festlegen.¹ - Behandeln Sie das Ausgabeformat des Modells als Teil der Werkzeugoberfläche. Ein einzelnes gerendertes Artefakt lässt sich besser prüfen als ein vorbeiscrollendes Transkript.⁷

Für Interface-Designer: - HTML ist das Medium, in dem Ihr Designsystem bereits ausgeliefert wird. Der Umweg über Markdown erzeugt einen Übersetzungsschritt, der Genauigkeit verliert, und danach beim Rendern noch einen zweiten.¹ - Die Kontrollfläche ist das, was der Agent produziert. Wenn der Mensch nicht sehen kann, was der Agent gesehen hat, ist diese Oberfläche kaputt.⁷

Für Teams mit serverseitig gerenderten No-Build-Stacks: - Die Wette auf HTML statt auf eine Build-Pipeline hat nun auch die Bestätigung von der Agentenseite. Das Format, das das Modell erzeugen will, und das Format, das der Browser bereits rendert, sind identisch.⁶ - Eine serverseitig gerenderte Website entfernt eine Übersetzungsschicht gleich 2-mal: einmal im Build-Schritt, einmal bei der Agentenausgabe. Beide Entfernungen verstärken sich gegenseitig.

Was Thariq wirklich argumentiert hat

Shihipar arbeitet bei Anthropic an Claude Code; der Beitrag steht auf seiner persönlichen Website, nicht im offiziellen Blog von Anthropic.² Die begleitende Galerie enthält 20 eigenständige HTML-Dateien, die ein Agent erzeugt hat, gruppiert in 9 Arbeitskategorien, in denen HTML Markdown strukturell überlegen ist.¹

Seine Kernthesen:

These	Warum sie trifft
„Diffs und Aufrufgraphen sind räumliche Informationen; Markdown macht sie flach.”	Ein nebeneinander dargestellter Diff mit nach Schweregrad codierten Anmerkungen vermittelt schneller, worum es geht, als eine nummerierte Liste von Dateipfaden.¹
„HTML ist das Medium, in dem Ihr Designsystem ausgeliefert wird.”	Komponentenvarianten in HTML zu erzeugen, entspricht dem Format, auf das das Designsystem ohnehin zielt. Markdown erzwingt einen Übersetzungsschritt.¹
„Bewegung und Interaktion lassen sich nicht beschreiben, nur erleben.”	Ein Prototyp mit echten Easing-Kurven und klickbaren Abläufen zeigt in Sekunden, was ein Absatz Prosa nicht leisten kann.¹
Das Argument der Token-Effizienz von Markdown war ein Nebenprodukt kleiner Kontextfenster.	Die GPT-4-Startphase mit 8K Token ist vorbei; die aktuelle Dokumentation zu Kontextfenstern von Claude nennt deutlich größere Budgets mit 200K und 1M Token.⁴⁵

Die zweite These trägt für alle, die Web-Infrastruktur bauen, die meiste Last. Wenn das Designsystem HTML ausliefert, sollte der Agent HTML erzeugen. Alles andere führt zu einem verlustbehafteten Umweg.

Die 20 Beispiele sind das Argument

Die Kategorien in Shihipars Galerie decken die Arbeit ab, die heute viele Menschen an einen Coding-Agent übergeben:¹

Code-Review: kommentierte Diffs mit nach Schweregrad codierten Inline-Hinweisen; Modulkarten mit hervorgehobenen Aufrufpfaden.
Exploration: Code-Ansätze im direkten Vergleich; visuelle Designoptionen, die zur Auswahl angeordnet sind, statt nacheinander gelesen zu werden.
Design: lebendige Designsystemseiten; Variantenblätter für Komponenten, die die Varianten wirklich rendern.
Prototyping: Animationsumgebungen mit echten Easing-Kurven; interaktive Abläufe, die auf Klicks reagieren.
Diagramme: eingebettete SVG-Abbildungen; annotierte Flussdiagramme; Architekturzeichnungen mit Kästen und Pfeilen.
Recherche: einklappbare Abschnitte; interaktive Konzepterklärungen mit Live-Demonstrationen.
Berichte: formatierte Zeitachsen und Diagramme, bei denen die Struktur die Bedeutung trägt.
Editoren: eigene Oberflächen mit Exportfunktion direkt im Artefakt.

Jedes davon ist eine HTML-Seite, die das Modell in einem Durchgang erzeugt hat. Das gemeinsame Muster: Die Antwort ist räumlich oder interaktiv, und das gerenderte Artefakt bewahrt, was eine Markdown-Antwort in Prosa beschreiben müsste.

Warum Markdown zur Voreinstellung wurde

Markdown wurde aus 2 Gründen zur Standardausgabe von Agenten. Beide gelten so nicht mehr.

Erstens stießen die GPT-3.5- und GPT-4-Generationen in der Phase, in der sich die Chat-Ausgabe als Konvention festigte, an Kontextfenster im Bereich von 4K bis 8K.⁴ Die Knappheit von Markdown war ein echter Zwang: Ein Token für <div class="..."> fehlte in der Analyse. Die aktuelle Dokumentation zu Kontextfenstern von Claude nennt 200K-Kontexte für viele Modelle und 1M-Kontexte für Opus 4.1 und Sonnet 4.6.⁵ Für viele Prüfarbeitsstücke ist das Token-Effizienz-Argument deutlich schwächer geworden.

Zweitens rendern Terminalausgaben und Chatfenster Markdown ohne Aufwand, während HTML eine Webview oder einen Browser-Tab braucht. Diese Bequemlichkeit der Oberfläche hielt Markdown auf dem Weg des geringsten Widerstands, auch nachdem das Token-Argument an Kraft verloren hatte.

Shihipars Beitrag hat Gewicht, weil der Autor bei Anthropic an Claude Code arbeitet. Die 20 Beispiele sind konkrete Artefakte, keine abstrakten Behauptungen.² Simon Willisons Bericht vom selben Tag zeigte dasselbe Muster mit einer Erklärung zu einem Linux-Sicherheitsexploit, die als interaktive HTML-Seite statt als Markdown-Text gerendert wurde.⁸

Was HTML bewahrt und Markdown verliert

4 Eigenschaften tragen das Argument:

Eigenschaft	Umgang in Markdown	Umgang in HTML
Räumliche Beziehungen	Linearisiert in Überschriften und Listen	Bewahrt als Layout, Spalten, nebeneinanderliegende Bereiche
Interaktion	In Prosa beschrieben („hier klicken, um zu erweitern”)	Umgesetzt durch echte DOM-Events und CSS-Übergänge
Dichte ohne Scrollen	Langes Scrollen, kaum Sprungziele außer Überschriften	Einklappbare Bereiche, Anker im Dokument, schwebende Navigation
Visuelle Hierarchie	Entsteht im Kopf des Lesers aus der Überschriftenlogik	Entsteht im Layout, das das Auge tatsächlich erfasst

Jede Eigenschaft entspricht einer Klasse von Agentenaufgaben, die schwieriger wird, sobald die Ausgabe zu Prosa verflacht. Ein Diff ist ein räumlicher Vergleich; ein Flussdiagramm ist ein Graph; eine Designsystemprüfung ist ein visuelles Urteil. Wer all das durch Markdown zwingt, bittet die Leserin oder den Leser, das zu rekonstruieren, was der Renderer direkt zeigen könnte.

Die Verbindung zur Ausführungsumgebung

Die Suchqualität von Agenten liegt in der Ausführungsumgebung, nicht im Retriever. Dieser Beitrag argumentierte, dass die Retrieval-Methode weniger zählt als das lokale Agentensystem darum herum: Prompt-Form, Werkzeugoberfläche, Transkriptformatierung, Ergebnisübergabe, Wiederholungsverhalten.³

Das HTML-Argument überträgt denselben Rahmen auf die Ausgabe. Das Modell kann die richtige Antwort in jedem Format erzeugen. Das Format, das Sie anfordern, ist Teil des Laufzeitvertrags. Unterschiedliche Formate erzeugen unterschiedliche überprüfbare Oberflächen:

Markdown-Ausgabe: Der Benutzer liest von oben nach unten, entscheidet, was wichtig ist, und rekonstruiert die Struktur im Kopf.
HTML-Ausgabe: Das Modell legt sich auf eine Struktur fest, der Renderer macht diese Struktur erfassbar, und der Benutzer prüft, statt nur zu lesen.

Gleiche Daten, andere Kontrollfläche. Agentisches Design ist Kontrollflächendesign. Das Format, das der Agent ausgibt, ist Teil dieser Oberfläche, nicht ihre Verpackung.⁷

Was das für den No-Build-Stack bedeutet

Der Leitfaden zu FastAPI plus HTMX auf dieser Website argumentiert für serverseitig gerendertes HTML statt einer JavaScript-Build-Pipeline.⁶ Shihipars Beitrag liefert das Argument von der Agentenseite:

Das Modell will HTML erzeugen.
Der Browser will HTML rendern.
Markdown oder JSX dazwischen einzufügen, erzeugt 2 verlustbehaftete Übersetzungsschritte.

Eine serverseitig gerenderte No-Build-Website entfernt die Übersetzung zur Build-Zeit. HTML direkt vom Agenten zu erzeugen, entfernt die Übersetzung zur Ausgabezeit. Der kumulative Gewinn: Dasselbe Format läuft vom Modell über die Route bis in den Browser, ohne Zwischenformen.

Das heißt nicht, dass React oder Markdown überall falsch wären. Es heißt, dass die Kosten der Übersetzungsschritte inzwischen an beiden Enden sichtbar sind und ein Stack, der beide vermeidet, entsprechend einfacher wird.

Format zählt. Ausführungsumgebung zählt. Beides ist das Fundament.

Das Paper zur Agentensuche und der HTML-Beitrag erschienen 8 Tage auseinander und argumentieren in derselben Form:¹³

Der Retriever ist eine Komponente. Die Ausführungsumgebung ist das Fundament.
Das Modell ist eine Komponente. Das Ausgabeformat ist das Fundament.

Komponentendenken bietet immer wieder lokale Verbesserungen an: Retriever austauschen, Speicher ergänzen, Modell wechseln, Prompt verfeinern. Fundamentdenken verändert die Oberfläche, die der Benutzer sieht, und die Oberfläche, die der Agent erzeugt. Beide Befunde dieser Woche verschieben die Arbeit in den zweiten Rahmen.

Der praktische Schritt: Wenn eine Agentenantwort räumliche Informationen enthält, fordern Sie HTML an. Wenn der Agent in einem lokalen Agentensystem läuft, instrumentieren Sie zuerst dieses System und erst danach das Modell. Beides verstärkt sich gegenseitig. Nichts davon ist allein ein Wundermittel.

FAQ

Hat Anthropic diesen Beitrag veröffentlicht?

Nein. Thariq Shihipar veröffentlichte ihn auf seiner persönlichen Website, thariqs.github.io/html-effectiveness/.¹ Er arbeitet bei Anthropic an Claude Code, daher ist das Autoritätssignal stark, aber der Beitrag ist keine Veröffentlichung von Anthropic.²

Gilt das Argument für jede Agentenaufgabe?

Nein. Der Beitrag zielt ausdrücklich auf Arbeit, bei der räumliche Struktur, Interaktion oder visuelle Belege Bedeutung tragen. Für kurze sachliche Antworten oder terminalgebundene Ausgabe bleibt Markdown eine gute Voreinstellung.¹

Was ist mit den Token-Kosten?

Das Kostenargument für Markdown hing an kleinen Kontextfenstern. Die aktuelle Dokumentation zu Kontextfenstern von Claude nennt Modelle mit 200K und 1M Token. Damit verändert sich die Abwägung rund um die Ausführlichkeit von HTML für die Artefaktgrößen, die der Beitrag zeigt.⁵

Bricht das die bestehenden Markdown-Voreinstellungen von Claude Code?

Nein. Das Argument betrifft Ausgaben, die Sie vom Modell gezielt zur Prüfung erzeugen lassen, nicht das Transkript oder die Terminalausgabe. Sie können weiterhin mit einem einzelnen Prompt HTML anfordern und ein eigenständiges Artefakt zurückbekommen.¹

Wie hängt das mit dem Paper zur Agentensuche in der Ausführungsumgebung zusammen?

Beide Argumente richten den Blick auf das Fundament um das Modell herum, nicht auf das Modell selbst. Suchqualität hängt vom lokalen Agentensystem ab; Ausgabequalität hängt vom Format ab. Die Komponente ist notwendig. Das Fundament macht sie verlässlich.³

Was sollte ein Team mit FastAPI plus HTMX daraus machen?

Behandeln Sie HTML als vollwertiges Ausgabeziel für jede KI-Funktion, die Sie ausliefern. Dasselbe Format läuft vom Modell über die Route bis in den Browser, und der No-Build-Stack ist bereits auf genau diesen Pfad optimiert.⁶

Quellen

Thariq Shihipar, „The Unreasonable Effectiveness of HTML”, persönliche Website, 8. Mai 2026. Primärquelle für die 20 HTML-Artefakte, die 9 Arbeitskategorien (Exploration, Code-Review, Design, Prototyping, Diagramme, Recherche, Berichte, Editoren), das Argument der räumlichen Information („Diffs und Aufrufgraphen sind räumliche Informationen; Markdown macht sie flach”), die Designsystem-These („HTML ist das Medium, in dem Ihr Designsystem ausgeliefert wird”), die Interaktionsthese („Bewegung und Interaktion lassen sich nicht beschreiben, nur erleben”) und die Position, dass HTML die Handlungsfähigkeit des Benutzers in Agentenschleifen bewahrt. ↩↩↩↩↩↩↩↩↩↩↩↩↩
Thariq Shihipar, persönliche Website. Quelle für Shihipars Angabe, dass er derzeit bei Anthropic an Claude Code arbeitet, sowie für die Herkunft des HTML-Artikels von seiner persönlichen Website. ↩↩↩↩
Sahil Sen, Akhil Kasturi, Elias Lumer, Anmol Gulati, Vamse Kumar Subbiah, „Is Grep All You Need? How Agent Harnesses Reshape Agentic Search”, arXiv:2605.15184v1, eingereicht am 14. Mai 2026. Quelle für den Rahmen „Ausführungsumgebung statt Komponente”, angewendet auf Agentensuche über Chronos, Claude Code, Codex CLI und Gemini CLI auf einem 116-Fragen-Subset von LongMemEval-S. ↩↩↩↩
OpenAI, „GPT-4 Research”, OpenAI, 14. März 2023. Quelle für GPT-4s Kontextlänge von 8.192 Token zum Start und den begrenzten Zugang zur Variante gpt-4-32k mit 32.768 Kontext. ↩↩↩
Anthropic, „Context windows”, Claude API Docs. Quelle für die aktuelle Dokumentation, laut der Opus 4.1 und Sonnet 4.6 ein Kontextfenster mit 1M Token haben, während andere Claude-Modelle, darunter Sonnet 4.5 und Sonnet 4, ein Kontextfenster mit 200K Token haben. ↩↩↩↩
Blake Crosley, „FastAPI + HTMX: Der No-Build-Full-Stack”, Leitfaden auf blakecrosley.com, aktualisiert am 15. Mai 2026. Quelle für das Architekturargument zugunsten von serverseitigem Rendering ohne Build-Schritt, einschließlich der Aussage, dass HTMX die JavaScript-Build-Pipeline entfernt und Lighthouse-Werte von 100/100/100/100 erreicht. ↩↩↩↩
Blake Crosley, „Agentisches Design ist Kontrollflächendesign”, Blog auf blakecrosley.com, 15. Mai 2026. Quelle für den Kontrollflächenrahmen: agentisches Design als Disziplin, autonome Software sichtbar, unterbrechbar, prüfbar und vertrauenswürdig zu machen, mit dem Ausgabeformat als Teil dieser Oberfläche. ↩↩↩
Simon Willison, „Using Claude Code: The Unreasonable Effectiveness of HTML”, simonwillison.net, 8. Mai 2026. Sekundärbericht und zusätzlicher Kontext zu Shihipars Beitrag, einschließlich des ausgearbeiteten Beispiels einer Erklärung zu einem Linux-Sicherheitsexploit, gerendert als reich interaktive HTML-Seite. ↩