← Tous les articles

HTML est le format que veulent les agents d’IA

From the guide: Claude Code Comprehensive Guide

Le 8 mai 2026, Thariq Shihipar, ingénieur travaillant sur Claude Code chez Anthropic, a publié sur son site personnel une collection de 20 artefacts HTML produits par un agent dans 9 catégories de travail intellectuel, avec une idée centrale : dès qu’une réponse porte une structure spatiale, une interaction ou une preuve visuelle, HTML surpasse Markdown.12

HTML surpasse Markdown pour les sorties d’agents parce que la structure spatiale, l’interaction et les preuves visuelles transmettent des informations que la prose aplatit. Le format émis par l’agent est la surface de contrôle que l’humain inspecte, pas un simple emballage autour d’elle.

L’article est paru 6 jours avant qu’un article arXiv du 14 mai montre que la qualité de recherche d’un agent se joue dans l’environnement d’exécution, pas dans le récupérateur.3 Le même motif apparaît : le format et l’environnement d’exécution sont le socle, pas l’emballage. Le composant ne compte vraiment qu’une fois la surface qui l’entoure capable de transformer la sortie du modèle en quelque chose qu’une personne peut vérifier.

TL;DR

Thariq Shihipar a publié un site compagnon avec 20 exemples HTML couvrant la revue de code, les systèmes de design, le prototypage, l’exploration, les schémas, la recherche, les rapports et les surfaces d’édition.1 Sa thèse : Markdown linéarise des informations qui arrivent de manière spatiale. Les diffs, les graphes d’appels, les comparaisons côte à côte et les prototypes interactifs portent un sens que la prose aplatit. L’époque du lancement de GPT-4 avec 8K tokens a imposé Markdown comme option par défaut économe en tokens ; la documentation actuelle de Claude sur les fenêtres de contexte mentionne des modèles à 200K tokens et 1M token, ce qui change l’arbitrage pour de nombreuses tailles d’artefacts.45 Pour les piles web sans build, rendues côté serveur, comme FastAPI avec HTMX, l’article apporte l’argument côté agent : HTML est à la fois le format que le modèle veut produire et celui que le navigateur sait déjà rendre. Passer par Markdown ajoute une étape de traduction qui fait perdre en fidélité aux deux extrémités.6

Points clés

Pour les créateurs d’agents : - Cessez d’utiliser Markdown par défaut pour les sorties d’agents quand la réponse est une comparaison, un diff, un organigramme ou une structure navigable. Demandez du HTML et laissez l’agent s’engager dans une mise en page spatiale.1 - Traitez le format de sortie du modèle comme une partie de la surface de l’outil. Un artefact rendu d’un seul tenant s’inspecte mieux qu’une transcription qui défile et disparaît.7

Pour les designers d’interface : - HTML est le médium dans lequel votre système de design est déjà livré. Passer par Markdown introduit une étape de traduction qui perd en fidélité, puis une seconde au rendu.1 - La surface de contrôle, c’est ce que produit l’agent. Si l’humain ne peut pas voir ce que l’agent a vu, cette surface est cassée.7

Pour les équipes qui utilisent des piles sans build rendues côté serveur : - Le pari de HTML plutôt qu’un pipeline de build est désormais validé côté agent. Le format que le modèle veut produire et celui que le navigateur rend déjà sont identiques.6 - Un site rendu côté serveur retire deux fois une couche de traduction : une fois à l’étape de build, une fois à l’étape de sortie de l’agent. Les deux suppressions se renforcent.

Ce que Thariq a vraiment soutenu

Shihipar travaille sur Claude Code chez Anthropic ; l’article se trouve sur son site personnel, pas sur le blog officiel d’Anthropic.2 La galerie compagnon contient 20 fichiers HTML autonomes produits par un agent, regroupés en 9 catégories de travail où HTML surpasse structurellement Markdown.1

Ses affirmations centrales :

Affirmation Pourquoi elle porte
« Les diffs et les graphes d’appels sont des informations spatiales ; Markdown les aplatit. » Un diff côte à côte avec des annotations codées par gravité communique plus vite qu’une liste numérotée de chemins de fichiers.1
« HTML est le médium dans lequel votre système de design est livré. » Produire des variantes de composants en HTML correspond au format que vise déjà le système de design. Markdown impose une étape de traduction.1
« Le mouvement et l’interaction ne se décrivent pas, ils se ressentent. » Un prototype avec de véritables courbes d’assouplissement et des parcours cliquables communique en quelques secondes ce qu’un paragraphe ne peut pas transmettre.1
L’argument de l’efficacité en tokens de Markdown était un artefact de petites fenêtres de contexte. L’époque du lancement de GPT-4 avec 8K tokens est terminée ; la documentation actuelle de Claude sur les fenêtres de contexte mentionne des budgets bien plus grands, à 200K tokens et 1M token.45

La deuxième affirmation est décisive pour quiconque construit une infrastructure web. Si le système de design livre du HTML, l’agent doit produire du HTML. Tout autre choix introduit un aller-retour avec perte.

Les 20 exemples sont l’argument

Les catégories de la galerie de Shihipar couvrent le travail que beaucoup confient désormais à un agent de codage :1

  • Revue de code : diffs annotés avec notes en ligne codées par gravité ; cartes de modules avec chemins d’appels mis en évidence.
  • Exploration : approches de code côte à côte ; options de design visuel disposées pour être choisies plutôt que lues séquentiellement.
  • Design : pages vivantes de système de design ; planches de variantes de composants qui rendent réellement les variantes.
  • Prototypage : bacs à sable d’animation avec de vraies courbes d’assouplissement ; parcours interactifs qui réagissent aux clics.
  • Schémas : figures SVG intégrées ; organigrammes annotés ; croquis d’architecture en boîtes et flèches.
  • Recherche : sections repliables ; explications interactives de concepts avec démonstrations en direct.
  • Rapports : frises chronologiques et graphiques mis en forme où la structure porte le sens.
  • Éditeurs : interfaces personnalisées avec fonctionnalité d’export intégrée à l’artefact.

Chacun est une page HTML produite par le modèle en une seule passe. Le motif commun : la réponse est spatiale ou interactive, et l’artefact rendu préserve ce qu’une réponse Markdown devrait décrire en prose.

Pourquoi Markdown était le choix par défaut

Markdown s’est imposé comme format par défaut des sorties d’agents pour 2 raisons qui ne tiennent plus.

D’abord, la génération GPT-3.5 et GPT-4 travaillait avec des fenêtres de contexte de 4K à 8K tokens au moment où la convention de sortie par chat s’est consolidée.4 La concision de Markdown était une contrainte réelle : un token dépensé dans <div class="..."> n’était plus disponible pour l’analyse. La documentation actuelle de Claude sur les fenêtres de contexte mentionne des contextes à 200K tokens pour de nombreux modèles et à 1M token pour Opus 4.1 et Sonnet 4.6.5 Pour beaucoup d’artefacts d’inspection, l’argument de l’efficacité en tokens s’est affaibli.

Ensuite, les rendus de terminal et les fenêtres de chat affichent Markdown sans effort, tandis que HTML exige une webview ou un onglet de navigateur. Cette commodité de surface a maintenu Markdown comme voie de moindre résistance, même après l’érosion de l’argument des tokens.

L’article de Shihipar a du poids parce que son auteur travaille sur Claude Code chez Anthropic. Les 20 exemples sont des artefacts concrets, pas des affirmations abstraites.2 La couverture de Simon Willison le même jour a reproduit le motif avec une explication d’un exploit de sécurité Linux rendue sous forme de page HTML interactive, plutôt que comme un article Markdown.8

Ce que HTML préserve et que Markdown perd

4 propriétés portent l’argument :

Propriété Traitement par Markdown Traitement par HTML
Relations spatiales Linéarisées en titres et listes Préservées sous forme de mise en page, colonnes, panneaux côte à côte
Interaction Décrite en prose (« cliquez ici pour déplier ») Incarnée par de vrais événements DOM et transitions CSS
Densité sans défilement Long défilement, sans cibles de saut hors titres Sections repliables, ancres internes, navigation flottante
Hiérarchie visuelle Portée par le modèle mental du lecteur autour des titres Portée par la mise en page que l’œil parcourt réellement

Chaque propriété correspond à une classe de tâches d’agent qui devient plus difficile quand vous aplatissez la sortie en prose. Un diff est une comparaison spatiale ; un organigramme est un graphe ; une revue de système de design est un jugement visuel. Les forcer à passer par Markdown oblige le lecteur à reconstruire ce que le moteur de rendu aurait pu montrer.

Le lien avec l’environnement d’exécution

La qualité de recherche des agents se joue dans l’environnement d’exécution, pas dans le récupérateur. Cet article soutenait que la méthode de récupération compte moins que le cadre qui l’entoure : forme du prompt, surface d’outil, formatage de la transcription, livraison des résultats, comportement de nouvelle tentative.3

L’argument HTML étend ce cadre à la sortie. Le modèle peut produire la bonne réponse dans n’importe quel format. Le format que vous demandez fait partie du contrat d’exécution. Des formats différents produisent des surfaces vérifiables différentes :

  • Livraison Markdown : l’utilisateur lit de haut en bas, décide de ce qui compte et reconstruit mentalement la structure.
  • Livraison HTML : le modèle s’engage dans une structure, le rendu la rend parcourable, et l’utilisateur inspecte au lieu de lire.

Mêmes données, surface de contrôle différente. Concevoir pour les agents, c’est concevoir des surfaces de contrôle. Le format émis par l’agent fait partie de cette surface ; ce n’est pas un emballage autour d’elle.7

Ce que cela signifie pour la pile sans build

Le guide FastAPI avec HTMX de ce site défend le HTML rendu côté serveur plutôt qu’un pipeline de build JavaScript.6 L’article de Shihipar apporte l’argument côté agent :

  • Le modèle veut produire du HTML.
  • Le navigateur veut rendre du HTML.
  • Insérer Markdown ou JSX entre les deux ajoute 2 étapes de traduction avec perte.

Un site sans build rendu côté serveur retire la traduction au moment du build. Produire directement du HTML depuis l’agent retire la traduction au moment de la sortie. Le gain se cumule : le même format circule du modèle à la route puis au navigateur, sans formes intermédiaires.

Cela ne revient pas à dire que React ou Markdown sont toujours mauvais. Cela signifie que le coût des étapes de traduction est désormais visible aux deux extrémités, et qu’une pile qui les évite des deux côtés devient plus simple d’autant.

Le format compte. L’environnement d’exécution compte. Les deux sont le socle.

L’article sur la recherche agentique et l’article sur HTML sont arrivés à 8 jours d’intervalle et dessinent la même forme :13

  • Le récupérateur est un composant. L’environnement d’exécution est le socle.
  • Le modèle est un composant. Le format de sortie est le socle.

Penser en composants pousse vers des améliorations locales : changer de récupérateur, ajouter de la mémoire, remplacer le modèle, affiner le prompt. Penser en socle change la surface que l’utilisateur voit et celle que l’agent produit. Les deux constats de cette semaine poussent le travail vers le second cadre.

Le geste pratique : quand une réponse d’agent porte une information spatiale, demandez du HTML. Quand l’agent tourne dans un cadre d’exécution, instrumentez ce cadre avant d’instrumenter le modèle. Les deux gestes se renforcent. Aucun n’est une solution miracle à lui seul.


FAQ

Anthropic a-t-il publié cet article ?

Non. Thariq Shihipar l’a publié sur son site personnel, thariqs.github.io/html-effectiveness/.1 Il travaille sur Claude Code chez Anthropic, ce qui constitue un signal d’autorité fort, mais l’article n’est pas une publication d’Anthropic.2

L’argument vaut-il pour toutes les tâches d’agent ?

Non. L’article vise explicitement les travaux où la structure spatiale, l’interaction ou la preuve visuelle portent du sens. Pour les réponses factuelles courtes ou les sorties destinées au terminal, Markdown reste un bon choix par défaut.1

Et le coût en tokens ?

L’argument de coût en faveur de Markdown était lié aux petites fenêtres de contexte. La documentation actuelle de Claude sur les fenêtres de contexte mentionne des modèles à 200K tokens et 1M token, ce qui modifie l’arbitrage lié à la verbosité de HTML pour les tailles d’artefacts mises en avant par l’article.5

Cela casse-t-il les paramètres Markdown existants de Claude Code ?

Non. L’argument porte sur les sorties que vous demandez au modèle de produire à la demande pour inspection, pas sur la transcription ou la sortie terminal. Vous pouvez toujours demander du HTML dans un simple prompt et recevoir un artefact autonome en retour.1

Quel est le lien avec l’article sur l’environnement d’exécution de la recherche agentique ?

Les deux arguments pointent vers le socle autour du modèle plutôt que vers le modèle lui-même. La qualité de recherche dépend du cadre d’exécution ; la qualité de sortie dépend du format. Le composant est nécessaire ; le socle est ce qui rend ce composant fiable.3

Que doit faire une équipe FastAPI avec HTMX ?

Traitez HTML comme une cible de sortie de premier ordre pour toute fonctionnalité d’IA que vous livrez. Le même format circule du modèle à la route puis au navigateur, et la pile sans build optimise déjà ce chemin.6


Références


  1. Thariq Shihipar, « The Unreasonable Effectiveness of HTML, » site personnel, 8 mai 2026. Source principale pour les 20 artefacts HTML, les 9 catégories de travail (exploration, revue de code, design, prototypage, schémas, recherche, rapports, éditeurs), l’argument sur l’information spatiale (« diffs and call-graphs are spatial information; markdown flattens them »), l’affirmation sur les systèmes de design (« HTML is the medium your design system ships in »), l’affirmation sur l’interaction (« motion and interaction can’t be described, only felt ») et la position selon laquelle HTML préserve l’autonomie utilisateur dans les boucles d’agents. 

  2. Thariq Shihipar, site personnel. Source pour l’affirmation de Shihipar selon laquelle il travaille actuellement sur Claude Code chez Anthropic, ainsi que pour la provenance personnelle de l’article sur HTML. 

  3. Sahil Sen, Akhil Kasturi, Elias Lumer, Anmol Gulati, Vamse Kumar Subbiah, « Is Grep All You Need? How Agent Harnesses Reshape Agentic Search, » arXiv:2605.15184v1, soumis le 14 mai 2026. Source pour le cadrage environnement d’exécution contre composant appliqué à la recherche agentique dans Chronos, Claude Code, Codex CLI et Gemini CLI sur un sous-ensemble LongMemEval-S de 116 questions. 

  4. OpenAI, « GPT-4 Research, » OpenAI, 14 mars 2023. Source pour la longueur de contexte de lancement de GPT-4, 8 192 tokens, et l’accès limité à la variante gpt-4-32k avec contexte de 32 768 tokens. 

  5. Anthropic, « Context windows, » Claude API Docs. Source pour la documentation actuelle indiquant qu’Opus 4.1 et Sonnet 4.6 disposent d’une fenêtre de contexte de 1M token, tandis que les autres modèles Claude, dont Sonnet 4.5 et Sonnet 4, disposent d’une fenêtre de contexte de 200K tokens. 

  6. Blake Crosley, « FastAPI + HTMX : le full-stack sans build, » guide blakecrosley.com, mis à jour le 15 mai 2026. Source pour l’argument d’architecture sans build rendue côté serveur, notamment l’affirmation selon laquelle HTMX élimine le pipeline de build JavaScript tout en produisant des scores Lighthouse de 100/100/100/100. 

  7. Blake Crosley, « Concevoir pour les agents, c’est concevoir des surfaces de contrôle, » blog blakecrosley.com, 15 mai 2026. Source pour le cadre de la surface de contrôle : le design agentique comme discipline visant à rendre les logiciels autonomes visibles, interruptibles, inspectables et dignes de confiance, avec le format de sortie comme partie de cette surface. 

  8. Simon Willison, « Using Claude Code : The Unreasonable Effectiveness of HTML, » simonwillison.net, 8 mai 2026. Couverture secondaire et contexte supplémentaire sur l’article de Shihipar, notamment l’exemple travaillé d’une explication d’un exploit de sécurité Linux rendue sous forme de page HTML richement interactive. 

Articles connexes

Projet Glasswing : quand un modèle trouve trop de bugs

Anthropic a construit un modèle qui trouve des milliers de zero-days, puis l'a restreint à 12 partenaires. Ce que le Pro…

8 min de lecture

Le contexte est la nouvelle mémoire

L'ingénierie de contexte est la compétence à plus fort impact dans le développement d'agents. Trois couches de compressi…

16 min de lecture

La boucle Ralph : comment je fais tourner des agents IA autonomes pendant la nuit

J'ai construit un système d'agents autonomes avec des hooks d'arrêt, des budgets de spawn et une mémoire par système de …

10 min de lecture