代理式设计是控制界面设计
大多数AI界面设计仍然把代理当成更聪明的文本框。代理式设计的出发点不同:一旦软件能够持续行动、调用工具、接触文件、花钱,或改变生产环境状态,设计问题就会变成控制界面问题。
代理式设计,是让自主软件可见、可中断、可检查、可回滚,并值得信任的实践。产品不是聊天记录。真正的产品,是让人理解代理正在做什么、决定代理下一步可以做什么,并验证代理已经做了什么的界面。
这个视角很重要,因为代理的失败方式不同于普通表单、仪表盘或协作助手。表单在提交时失败。仪表盘因显示过期数据而失败。协作助手因给出糟糕文本而失败。代理则是在行动中失败:走错分支、选错工具、漏掉关键证据、丢失上下文、过度使用权限、过早停止,或在局部成功的同时削弱整个产品。
设计必须从打磨提示词,转向运行控制。
TL;DR
代理式设计不是抽象意义上的“AI UX”。它是为会行动的系统设计控制界面。早在今天的编码代理出现之前,Microsoft就已将人类与AI交互视为一个独立的界面设计问题;Google PAIR的AI设计指南也延续了以人为中心的思路。12现代代理产品让这种需求更加迫切:OpenAI将Codex描述为在隔离环境中工作的云端代理,而Claude Code则提供了可在执行前拦截工具调用的钩子。54
实际结论是:代理产品需要用于状态、权限、追踪、记忆、证据、回滚和监督的界面。聊天仍然可以作为输入方式,但不能继续充当整个界面。
关键要点
给产品设计师: - 先设计代理状态,再设计提示词输入。用户需要知道代理是在规划、行动、受阻、等待、验证,还是已经完成。 - 将权限审核视为核心工作流。高风险工具调用不应看起来像一次随意的聊天打断。
给代理构建者: - 记录足够的执行细节,以支撑追踪界面。仅有工具名称远远不够;界面还需要参数、输出、退出状态、文件路径和副作用。 - 将中断与恢复作为一等能力。用户应当能够暂停、检查、重定向、回滚或分叉代理,而不必阅读完整聊天记录。
给正在采用代理的团队: - 不要用聊天是否流畅来衡量界面质量。应当衡量操作员能否回答:发生了什么、为什么发生、基于什么权限、有什么证据? - 让品味持续参与判断。正确的代理行动,仍然可能破坏一致性、尊严或产品质量。
用户已经变了
代理产品的用户,不只是写提示词的人。用户变成了操作员。
写提示词的人想要一个答案。操作员监督一个过程。写提示词的人关心文本听起来是否正确。操作员关心系统是否接触了正确文件、使用了正确来源、保留了正确约束,并在正确时间停止。
这种差异会改变界面。提示词输入框优化的是表达。控制界面优化的是状态、风险、时机和证明。
传统软件可以隐藏过程,因为大多数状态变化都由用户直接触发。按钮写着“发送”。用户点击。应用发送。代理软件在意图和行动之间插入了一个决策执行环境。用户提出目标,系统选择路径。界面必须揭示足够多的路径,让用户仍然能对结果负责。
Microsoft的人类与AI交互指南已经指向这一方向。该指南覆盖AI系统在交互过程中的行为:设定预期、匹配社交语境、显示状态、支持纠正,以及处理失败。1这个旧经验可以直接用于代理,但代理把风险抬高了,因为AI行为不再止步于建议。行为可能变成一次工具调用。
代理式设计始于状态
好的代理式设计,会先让状态可见,再要求用户信任。
代理的状态不只是“思考中”和“已完成”:
| 代理状态 | 用户需要什么 |
|---|---|
| 规划中 | 预期路径、假设、可能使用的工具 |
| 搜索中 | 查询词、来源、遗漏、下一次查询 |
| 行动中 | 工具调用、参数、目标、预期副作用 |
| 受阻 | 缺少权限、缺少凭证、需求不清 |
| 验证中 | 测试命令、证据来源、验收标准 |
| 恢复中 | 失败步骤、重试路径、变化后的假设 |
| 已完成 | 产物、证据、未解决缺口 |
大多数聊天产品会把这些状态压缩成一个旋转动画。旋转动画只说明系统还没停下来。它并不说明代理是在读取、写入、等待、重试,还是卡住了。
代理状态需要更丰富的词汇。界面应展示当前阶段、最近一次有意义的行动、下一步意图,以及代理尚未完成的原因。好的状态界面能降低用户焦虑,因为它用可检查的行动替代了不透明的未知。
真正困难的设计问题是密度。严肃的代理在长时间运行中可能生成数千个事件。展示每个事件会制造噪音。隐藏所有事件则会制造盲目信任。控制界面必须默认总结,并允许按需展开。
权限是一种设计材料
权限不是设置页。权限是代理式设计的核心材料之一。
代理通过用户授予的权力来行动。文件写入、shell命令、浏览器操作、API调用、部署步骤、支付操作,以及会影响客户的行动,都带有不同风险。界面必须让这种风险在决策时清晰可见。
Claude Code的钩子参考文档展示了这一想法的原始形态:PreToolUse钩子可以检查一条Bash命令,并在工具调用执行前返回拒绝破坏性操作的决策。4这一机制证明了设计形态。控制界面可以按风险对待处理操作排序,展示完整命令或工具载荷,解释调用原因,并让用户批准、拒绝、延后或改写请求。
关键转变是:权限审核应当成为队列,而不是打断。
打断适合一两个决策。当代理在一项长期任务中执行40次操作时,打断就会失效。权限队列允许用户批量批准低风险操作、暂停高风险行动,并在一个地方查看整体风险画像。用户不再被迫在阅读代理说明和评估命令之间来回切换。
风险呈现也需要品味。红色边框、警告图标和模态阻力可能有帮助。但如果所有内容都显得紧急,它们也会训练用户盲目批准提醒。界面应当把视觉警报留给不可逆或外部可见的行动。只读搜索不应披上与生产数据库迁移相同的外衣。
追踪是新的信息架构
代理式设计需要追踪架构。
追踪是代理所做事情的有序记录:提示词、工具调用、参数、读取的文件、修改的文件、运行的命令、打开的来源、测试输出、权限决策、重试和最终证据。聊天记录可以包含这份记录的一部分,但聊天记录不是信息架构。它只是一个滚动列表。
追踪界面应当快速回答4个问题:
| 问题 | 追踪界面要求 |
|---|---|
| 发生了什么? | 可按事件类型筛选的时间线 |
| 为什么发生? | 每个行动附带代理陈述的理由 |
| 改变了什么? | 差异、产物、副作用和接触过的路径 |
| 结果由什么支撑? | 证据链接、命令输出、引用和未解决缺口 |
这个界面直接连接到证据关口。最终回答中说“测试通过”,就应指向测试命令和退出状态。公开文章引用论文,就应指向精确来源,并说明主张如何对齐。迁移报告声称达到同等能力,就应指向仍然可用的具体用户路径。
近期关于执行追踪的研究也指向同一方向。我在代理执行追踪是执行环境契约中提出,最终回答是最不可靠的信任单元。追踪更强,因为它保留了从意图到行动再到证据的路径。
记忆需要浏览器
代理式设计还需要记忆设计。
代理会跨时间携带上下文。有些上下文位于活动窗口。有些位于压缩摘要。有些位于文件、笔记、向量库、数据库或项目说明中。有些会消失。用户很少看见边界在哪里。
这种不可见性会造成设计失败。当代理与早先决定相矛盾时,用户无法判断代理是不同意、忘记了、摘要质量差,还是从未加载相关记忆。聊天让记忆显得连续,即使执行环境已经改变了模型可见的内容。
记忆浏览器应展示3个层次:
| 记忆层 | 用户问题 |
|---|---|
| 活动上下文 | 代理现在能使用什么? |
| 存储记忆 | 代理在需要时能检索什么? |
| 压缩或过期记忆 | 系统压缩、遗漏了什么,或将什么标记为不确定? |
这个浏览器不需要暴露私有的思维链。它需要暴露运行层面的记忆:指令、约束、来源路径、决策、产物,以及系统将用于指导未来行动的摘要。
搜索属于同一设计家族。上一篇文章中的grep/vector结果表明,搜索质量不仅取决于检索器,也取决于执行环境、交付路径,以及模型闭合工具循环的能力。6如果搜索存在于执行环境中,搜索可见性就应存在于界面中。用户需要知道代理搜索了什么、漏掉了什么、打开了什么,以及为什么改变了下一次查询。
监督不是微观管理
代理产品常常把人的监督描述为摩擦。强有力的代理式设计会把监督视为产品本身。
NIST将AI风险管理框架描述为一种方式,用于把可信性考量纳入AI系统的设计、开发、使用和评估。3这个表述很重要。可信性不只在模型训练时进入系统。它也在设计时、使用时和评估时进入系统。
对代理来说,监督意味着用户可以:
- 看见代理正在做什么;
- 在不可逆行动之前中断;
- 检查证据路径;
- 从失败分支中恢复;
- 比较备选分支;
- 批准或拒绝最终产物;
- 理解仍有哪些内容未经验证。
微观管理要求用户批准每一次按键。监督是在恰当层级提供恰当控制。资深工程师不需要观察每一次文件读取。但这位工程师确实需要看见拟议的数据库迁移、失败测试的重试、被修改的公开主张,或接触生产环境状态的命令。
好的监督界面,会把低风险细节移出主线,把高风险时刻拉入焦点,从而保留工作流。设计挑战不是“更多可见性”。设计挑战是经过校准的可见性。
品味层仍然重要
代理式设计可以满足每一项运行要求,却依然让人感觉不对。
权限队列可以暴露正确事实,却让用户感觉自己被惩罚。追踪时间线可以包含每个事件,却让理解变得不可能。记忆浏览器可以显示每个存储项,却因混乱破坏用户信心。状态仪表可以说真话,却让系统显得坏掉了。
品味决定界面如何承载风险、信心、不确定性和证明。品味是一套技术系统:约束、评估标准、模式识别和一致性。代理式设计需要全部这4项。
约束决定代理无需审核即可做什么。评估标准决定最终产物必须证明什么。模式识别能捕捉看似成功却感觉脆弱的工作流。一致性则追问代理的工作是改善了整个产品,还是只完成了局部任务。
随着代理变得更便宜,最后这个问题会更加重要。AI让输出变得充裕。充裕会提高拒绝、编辑、一致性和品味的价值。最好的代理界面不会最大化行动数量。它会帮助操作员决定哪些行动值得发生。
最小代理式设计清单
从7个界面开始:
| 界面 | 最低要求 |
|---|---|
| 状态 | 当前阶段、上一步行动、下一步行动、阻碍因素 |
| 权限 | 按风险分层的队列,并展示完整工具载荷 |
| 追踪 | 可筛选的时间线,包含参数、输出和副作用 |
| 证据 | 将主张映射到来源、命令、测试或未解决缺口 |
| 记忆 | 活动上下文、存储上下文、压缩摘要 |
| 恢复 | 暂停、继续、重试、回滚、分叉和取消 |
| 监督 | 跨代理查看受阻、高风险和已完成工作 |
这些界面都不需要科幻式界面。第一个版本可以是普通表格、可展开行和朴素筛选器。花哨动画不如真实状态重要。控制界面应当迅速说清真相。
每个代理功能的设计问题都可以变得很简单:
在代理的下一步行动成为现实之前,人需要看见什么、决定什么、中断什么或验证什么?
如果界面无法回答这个问题,产品仍然依赖信任表演。
简要总结
代理式设计就是控制界面设计。聊天作为输入原语仍然有用,但自主工作需要可见状态、权限队列、追踪、记忆浏览器、证据界面、恢复控制和监督视图。Microsoft、Google和NIST都指向以人为中心的AI设计,并将可信性视为产品责任,而不只是模型属性。123代理工具让这一点更加具体:执行环境已经拥有钩子、容器、追踪、文件、命令和副作用。45界面必须让这些部分变得清晰可读。
胜出的代理产品,不会是聊天最讨喜的那个。胜出的产品,会是为自主工作提供最清晰、最锋利、最值得信任操作界面的那个。
FAQ
代理式设计与AI UX不同吗?
是的。AI UX覆盖任何使用机器学习或生成式AI的体验。代理式设计覆盖会持续行动的系统。差异在于代理能力:工具调用、权限、状态变化、记忆、副作用和恢复。这些属性需要控制界面,而不只是有帮助的文案或提示词输入。
每个代理产品都需要7个界面吗?
不需要。界面范围应匹配风险。低风险写作助手可能需要状态、证据和修订历史。编码或运维代理需要权限、追踪、恢复、记忆和监督。会影响客户的代理,则需要更强的审计和审批控制。
为什么不把所有东西都放在聊天里?
聊天是顺序式、追加式的。代理监督需要随机访问、筛选、比较、批量审核和状态检查。可折叠聊天块可以提升可读性,但不能替代权限队列、追踪时间线、记忆浏览器或恢复界面。
第一个应构建的控制界面是什么?
先构建追踪。没有追踪,其他所有界面都会变成猜测。追踪为证据、权限、恢复、审计和监督提供数据。产品可以从普通事件表开始,再逐步改进设计。
参考资料
-
Saleema Amershi et al., “Guidelines for Human-AI Interaction,” Microsoft Research, CHI 2019。18条人类与AI交互指南、49位设计从业者参与的验证流程,以及将AI行为框定为界面设计问题的主要来源。 ↩↩↩
-
Google People + AI Research, “People + AI Guidebook,” and “People + AI Research,” Google Design。以人为中心的AI设计框架和战术性指南定位的来源。 ↩↩
-
National Institute of Standards and Technology, “AI Risk Management Framework,” NIST, 2023年1月26日,之后包含生成式AI画像更新。关于将可信性纳入AI产品、服务和系统的设计、开发、使用与评估的来源。 ↩↩
-
Anthropic, “Hooks reference,” Claude Code Docs。钩子生命周期、
PreToolUse、匹配器行为,以及可在执行前拒绝工具调用的权限决策来源。 ↩↩↩ -
OpenAI, “Introducing Codex,” OpenAI, 2025年5月。Codex云端执行模型、隔离容器描述,以及后台软件工程任务定位的来源。 ↩↩
-
Blake Crosley, “Agent Search Is a Runtime Problem,” blakecrosley.com, 2026年5月15日。作者分析来源,连接搜索质量与执行环境、结果交付和工具循环行为。 ↩