← 所有文章

HTML才是AI代理需要的格式

From the guide: Claude Code Comprehensive Guide

2026年5月8日,在Anthropic从事Claude Code工作的工程师Thariq Shihipar发布了一个个人网站,收录了代理在9类知识工作中生成的20个HTML成品。他的论点很明确:当答案承载空间结构、交互或视觉证据时,HTML胜过Markdown。12

对于代理输出,HTML优于Markdown,因为空间结构、交互和视觉证据承载着线性文字会压平的信息。代理输出的格式,就是人类用来检查它的控制界面,而不是包裹它的外层容器。

这篇文章发布6天后,5月14日的一篇arXiv论文指出,代理搜索质量取决于执行环境,而不是检索器。3两者呈现出同一种模式:格式和执行环境是底层基础,不是外层包装。只有当组件周围的界面能把模型输出转化为可验证内容时,组件本身才真正有意义。

TL;DR

Thariq Shihipar发布了一个配套网站,展示20个HTML示例,覆盖代码审查、设计系统、原型制作、探索、图表、研究、报告和编辑器界面等场景。1核心论点是:Markdown会把原本以空间方式呈现的信息线性化。差异对比、调用图、并排比较和交互式原型都承载意义,而纯文字会把这些意义压平。8K-token的GPT-4发布时代让Markdown成为节省token的默认选择;如今Claude上下文窗口文档列出了200K-token和1M-token模型,许多成品尺寸下的取舍已经改变。45对于FastAPI加HTMX这类服务器渲染、无构建Web技术栈,这篇文章给出了代理侧的理由:HTML是模型想要生成的格式,也是浏览器本来就能渲染的格式。绕道Markdown会多出一次转换,并在两端都损失保真度。6

关键要点

给代理构建者: - 当答案是比较、差异、流程图或可导航结构时,不要再默认使用Markdown输出。直接要求HTML,让代理明确给出空间布局。1 - 把模型输出格式视为工具界面的一部分。一个已渲染的成品,比一段不断滚动过去的转录文本更便于检查。7

给界面设计师: - HTML就是您的设计系统已经交付的媒介。先转成Markdown会引入一次失真转换,渲染时又要再转换一次。1 - 代理生成什么,什么就是控制界面。如果人类看不到代理看到的内容,这个界面就是坏的。7

给运行服务器渲染无构建技术栈的团队: - 选择HTML而不是构建流水线,如今也得到了代理侧的验证。模型想生成的格式,与浏览器已经能渲染的格式,是同一个。6 - 服务器渲染网站会移除两层转换:一层在构建步骤,一层在代理输出步骤。两者叠加,收益会放大。

Thariq真正主张了什么

Shihipar在Anthropic从事Claude Code工作;这篇文章发布在他的个人网站上,而不是Anthropic官方博客。2配套示例集包含20个由代理生成的独立HTML文件,分为9类工作。在这些场景中,HTML从结构上胜过Markdown。1

他的核心主张如下:

主张 为什么有分量
“差异和调用图是空间信息;Markdown会把它们压平。” 带有严重程度标注的并排差异,比一串编号文件路径传达得更快。1
“HTML是您的设计系统交付所用的媒介。” 以HTML生成组件变体,正好匹配设计系统本来面向的格式。Markdown会强行增加一次转换。1
“动效和交互无法被描述,只能被感受。” 带真实缓动曲线和可点击流程的原型,几秒内就能传达一段文字无法说清的内容。1
Markdown的token效率优势,是小上下文窗口时代的产物。 8K-token的GPT-4发布时代已经过去;当前Claude上下文窗口文档列出了更大的200K-token和1M-token预算。45

第二条主张对任何构建Web基础设施的人都最关键。如果设计系统交付的是HTML,代理就应该生成HTML。其他做法都会引入有损的往返转换。

这20个示例本身就是论证

Shihipar示例集中的类别,覆盖了现在大多数人会交给编码代理处理的工作:1

  • 代码审查:带严重程度编码内联备注的差异;高亮调用路径的模块图。
  • 探索:并排展示的代码方案;可直接选择的视觉设计选项,而不是只能按顺序阅读。
  • 设计:可运行的设计系统页面;真正渲染各个变体的组件变体表。
  • 原型制作:带真实缓动曲线的动画沙箱;能响应点击的交互流程。
  • 图表:内联SVG图形;带注释的流程图;框线式架构草图。
  • 研究:可折叠章节;带现场演示的交互式概念解释器。
  • 报告:结构本身承载意义的格式化时间线和图表。
  • 编辑器:把导出功能嵌入成品的自定义界面。

每个示例都是模型一次性生成的HTML页面。共同模式是:答案具有空间性或交互性,而渲染后的成品保留了Markdown回应只能用文字描述的内容。

为什么默认格式曾经是Markdown

Markdown之所以成为代理输出的默认选择,有两个原因,但它们已经不再成立。

第一,在聊天输出惯例成形的时期,GPT-3.5和GPT-4一代的上下文窗口通常只有4K到8K。4Markdown的简洁确实是一种硬约束:花在<div class="...">上的一个token,就不能再用于分析。Claude当前上下文窗口文档显示,许多模型已有200K-token上下文,Opus 4.1和Sonnet 4.6则有1M-token上下文。5对于许多审查型成品而言,token效率这一论据已经减弱。

第二,终端渲染器和聊天窗口可以轻松渲染Markdown,而HTML需要Webview或浏览器标签页。即使token论据已经失效,界面便利性仍让Markdown保留为阻力最小的路径。

Shihipar的文章之所以有分量,是因为作者在Anthropic从事Claude Code工作。那20个示例是具体成品,而不是抽象论断。2Simon Willison同一天的报道也复现了这一模式:一个Linux安全漏洞解释器被渲染成了交互丰富的HTML页面,而不是Markdown说明文。8

HTML保留了什么,而Markdown丢掉了什么

论证依赖4个属性:

属性 Markdown处理方式 HTML处理方式
空间关系 被线性化为标题和列表 保留为布局、列、并排窗格
交互 用文字描述(“点击此处展开”) 通过真实DOM事件和CSS过渡体现
无需长滚动的密度 长页面滚动,除标题外缺少跳转目标 折叠区、页内锚点、浮动导航
视觉层级 依赖读者对标题的心理建模 由眼睛实际扫描的布局承载

每个属性都对应一类代理任务。一旦把输出压平成文字,这些任务就会变难。差异是空间比较,流程图是图结构,设计系统审查是视觉判断。强行塞进Markdown,相当于要求读者重建渲染器本来可以直接展示的东西。

与执行环境的关系

代理搜索质量取决于执行环境,而不是检索器。那篇文章主张,检索方法不如周围的代理框架重要:提示形态、工具界面、转录格式、结果交付、重试行为。3

HTML论点把同一框架延伸到输出层。模型可以用任何格式生成正确答案。但您要求的格式,是执行环境契约的一部分。不同格式会产生不同的可验证界面:

  • Markdown交付:用户从头读到尾,自行判断重点,并在脑中重建结构。
  • HTML交付:模型承诺一种结构,渲染器让结构便于扫读,用户进行检查,而不是通读。

同样的数据,不同的控制界面。代理式设计就是控制界面设计。代理输出的格式属于这个界面的一部分,而不是外层包装。7

这对无构建技术栈意味着什么

本站关于FastAPI加HTMX的指南主张用服务器渲染HTML替代JavaScript构建流水线。6Shihipar的文章补上了代理侧论据:

  • 模型想生成HTML。
  • 浏览器想渲染HTML。
  • 在两者之间插入Markdown或JSX,会增加两次有损转换。

无构建的服务器渲染网站移除了构建时转换。代理直接生成HTML,则移除了输出时转换。叠加后的收益是:同一种格式可以从模型经过路由一路进入浏览器,中间无需其他形态。

这并不是说React或Markdown在所有场景都错。重点在于,转换步骤的成本如今已经从两端同时显现;能避开两端转换的技术栈,会按比例变得更简单。

格式重要。执行环境重要。二者都是底层基础。

代理搜索论文和HTML文章相隔8天发布,却呈现出同一种论证形态:13

  • 检索器是组件。执行环境是底层基础。
  • 模型是组件。输出格式是底层基础。

组件思维不断提供局部升级:更换检索器、添加记忆、替换模型、优化提示。底层基础思维则改变用户看到的界面,以及代理生成的界面。本周这两项发现,都把工作推向了第二种框架。

实际做法很简单:当代理答案承载空间信息时,要求输出HTML。当代理运行在框架中时,先对框架做观测,再对模型做观测。两者会相互放大。单独任何一个都不是万能药。


FAQ

这篇文章是Anthropic发布的吗?

不是。Thariq Shihipar把它发布在自己的个人网站thariqs.github.io/html-effectiveness/上。1他在Anthropic从事Claude Code工作,因此权威信号很强,但这篇文章不是Anthropic的官方发布。2

这个论点适用于所有代理任务吗?

不适用。文章明确针对的是空间结构、交互或视觉证据承载意义的工作。对于简短事实回答或受限于终端的输出,Markdown仍然是不错的默认选择。1

token成本怎么办?

Markdown的成本优势与小上下文窗口绑定。Claude当前上下文窗口文档列出了200K-token和1M-token模型,这改变了文章中那些成品尺寸下HTML更冗长所带来的取舍。5

这会破坏Claude Code现有的Markdown默认行为吗?

不会。这个论点讨论的是您按需要求模型生成、用于审查的输出,而不是转录文本或终端输出。仍然可以在单个提示中要求HTML,并获得一个自包含成品。1

这与代理搜索执行环境论文有什么关系?

两个论点都指向模型周围的底层基础,而不是模型本身。搜索质量取决于代理框架;输出质量取决于格式。组件是必要的;底层基础让组件变得可靠。3

使用FastAPI加HTMX的团队应该怎么做?

把HTML视为所有AI功能的一等输出目标。同一种格式可以从模型经过路由进入浏览器,而无构建技术栈本来就已经为这条路径做了优化。6


参考资料


  1. Thariq Shihipar,《HTML的不合理有效性》,个人网站,2026年5月8日。20个HTML成品、9类工作场景(探索、代码审查、设计、原型制作、图表、研究、报告、编辑器)、空间信息论点(“差异和调用图是空间信息;Markdown会把它们压平”)、设计系统主张(“HTML是您的设计系统交付所用的媒介”)、交互主张(“动效和交互无法被描述,只能被感受”),以及HTML在代理循环中保留用户能动性的观点,均以此为主要来源。 

  2. Thariq Shihipar,个人网站。来源用于确认Shihipar表示自己目前在Anthropic从事Claude Code工作,以及HTML文章的个人网站出处。 

  3. Sahil Sen、Akhil Kasturi、Elias Lumer、Anmol Gulati、Vamse Kumar Subbiah,“Is Grep All You Need? How Agent Harnesses Reshape Agentic Search,” arXiv:2605.15184v1,2026年5月14日提交。来源用于支撑代理搜索中的执行环境与组件框架,研究对象包括Chronos、Claude Code、Codex CLI和Gemini CLI,基于116题LongMemEval-S子集。 

  4. OpenAI,“GPT-4 Research,” OpenAI,2023年3月14日。来源用于GPT-4发布时8,192-token上下文长度,以及gpt-4-32k这个32,768上下文变体的受限访问情况。 

  5. Anthropic,“Context windows,” Claude API Docs。来源用于当前文档:Opus 4.1和Sonnet 4.6拥有1M-token上下文窗口,其他Claude模型,包括Sonnet 4.5和Sonnet 4,拥有200K-token上下文窗口。 

  6. Blake Crosley,《FastAPI + HTMX:无构建全栈》,blakecrosley.com指南,2026年5月15日更新。来源用于无构建服务器渲染架构论点,包括HTMX消除JavaScript构建流水线,同时取得100/100/100/100 Lighthouse评分的主张。 

  7. Blake Crosley,《代理式设计就是控制界面设计》,blakecrosley.com博客,2026年5月15日。来源用于控制界面框架:代理式设计是一门让自主软件可见、可中断、可检查、值得信任的学科,其中输出格式也是该界面的一部分。 

  8. Simon Willison,“Using Claude Code: The Unreasonable Effectiveness of HTML,” simonwillison.net,2026年5月8日。二级报道,并提供Shihipar文章的额外背景,包括将Linux安全漏洞解释器渲染成内容丰富的交互式HTML页面这一示例。 

相关文章

Project Glasswing:当模型发现过多漏洞之时

Anthropic构建了一个能发现数千个零日漏洞的模型,随后将其限制给12家合作伙伴使用。Project Glasswing对智能体辅助安全意味着什么——4月19日更新,涵盖Opus 4.7、正式上线的Cyber Verification …

1 分钟阅读

上下文即新型记忆

上下文工程是智能体开发中影响力最大的技能。三层压缩策略将200K token窗口从负担转化为优势。

1 分钟阅读

Ralph循环:我如何在夜间运行自主AI代理

我构建了一个使用停止钩子、生成预算和文件系统记忆的自主代理系统。以下是失败经验以及真正能交付代码的方法。

3 分钟阅读