代理式设计是控制界面设计

大多数AI界面设计仍然把代理当成更聪明的文本框。代理式设计的出发点不同：一旦软件能够持续行动、调用工具、接触文件、花钱，或改变生产环境状态，设计问题就会变成控制界面问题。

代理式设计，是让自主软件可见、可中断、可检查、可回滚，并值得信任的实践。产品不是聊天记录。真正的产品，是让人理解代理正在做什么、决定代理下一步可以做什么，并验证代理已经做了什么的界面。

这个视角很重要，因为代理的失败方式不同于普通表单、仪表盘或协作助手。表单在提交时失败。仪表盘因显示过期数据而失败。协作助手因给出糟糕文本而失败。代理则是在行动中失败：走错分支、选错工具、漏掉关键证据、丢失上下文、过度使用权限、过早停止，或在局部成功的同时削弱整个产品。

设计必须从打磨提示词，转向运行控制。

TL;DR

代理式设计不是抽象意义上的“AI UX”。它是为会行动的系统设计控制界面。早在今天的编码代理出现之前，Microsoft就已将人类与AI交互视为一个独立的界面设计问题；Google PAIR的AI设计指南也延续了以人为中心的思路。¹²现代代理产品让这种需求更加迫切：OpenAI将Codex描述为在隔离环境中工作的云端代理，而Claude Code则提供了可在执行前拦截工具调用的钩子。⁵⁴

实际结论是：代理产品需要用于状态、权限、追踪、记忆、证据、回滚和监督的界面。聊天仍然可以作为输入方式，但不能继续充当整个界面。

关键要点

给产品设计师： - 先设计代理状态，再设计提示词输入。用户需要知道代理是在规划、行动、受阻、等待、验证，还是已经完成。 - 将权限审核视为核心工作流。高风险工具调用不应看起来像一次随意的聊天打断。

给代理构建者： - 记录足够的执行细节，以支撑追踪界面。仅有工具名称远远不够；界面还需要参数、输出、退出状态、文件路径和副作用。 - 将中断与恢复作为一等能力。用户应当能够暂停、检查、重定向、回滚或分叉代理，而不必阅读完整聊天记录。

给正在采用代理的团队： - 不要用聊天是否流畅来衡量界面质量。应当衡量操作员能否回答：发生了什么、为什么发生、基于什么权限、有什么证据？ - 让品味持续参与判断。正确的代理行动，仍然可能破坏一致性、尊严或产品质量。

用户已经变了

代理产品的用户，不只是写提示词的人。用户变成了操作员。

写提示词的人想要一个答案。操作员监督一个过程。写提示词的人关心文本听起来是否正确。操作员关心系统是否接触了正确文件、使用了正确来源、保留了正确约束，并在正确时间停止。

这种差异会改变界面。提示词输入框优化的是表达。控制界面优化的是状态、风险、时机和证明。

传统软件可以隐藏过程，因为大多数状态变化都由用户直接触发。按钮写着“发送”。用户点击。应用发送。代理软件在意图和行动之间插入了一个决策执行环境。用户提出目标，系统选择路径。界面必须揭示足够多的路径，让用户仍然能对结果负责。

Microsoft的人类与AI交互指南已经指向这一方向。该指南覆盖AI系统在交互过程中的行为：设定预期、匹配社交语境、显示状态、支持纠正，以及处理失败。¹这个旧经验可以直接用于代理，但代理把风险抬高了，因为AI行为不再止步于建议。行为可能变成一次工具调用。

代理式设计始于状态

好的代理式设计，会先让状态可见，再要求用户信任。

代理的状态不只是“思考中”和“已完成”：

代理状态	用户需要什么
规划中	预期路径、假设、可能使用的工具
搜索中	查询词、来源、遗漏、下一次查询
行动中	工具调用、参数、目标、预期副作用
受阻	缺少权限、缺少凭证、需求不清
验证中	测试命令、证据来源、验收标准
恢复中	失败步骤、重试路径、变化后的假设
已完成	产物、证据、未解决缺口

大多数聊天产品会把这些状态压缩成一个旋转动画。旋转动画只说明系统还没停下来。它并不说明代理是在读取、写入、等待、重试，还是卡住了。

代理状态需要更丰富的词汇。界面应展示当前阶段、最近一次有意义的行动、下一步意图，以及代理尚未完成的原因。好的状态界面能降低用户焦虑，因为它用可检查的行动替代了不透明的未知。

真正困难的设计问题是密度。严肃的代理在长时间运行中可能生成数千个事件。展示每个事件会制造噪音。隐藏所有事件则会制造盲目信任。控制界面必须默认总结，并允许按需展开。

权限是一种设计材料

权限不是设置页。权限是代理式设计的核心材料之一。

代理通过用户授予的权力来行动。文件写入、shell命令、浏览器操作、API调用、部署步骤、支付操作，以及会影响客户的行动，都带有不同风险。界面必须让这种风险在决策时清晰可见。

Claude Code的钩子参考文档展示了这一想法的原始形态：PreToolUse钩子可以检查一条Bash命令，并在工具调用执行前返回拒绝破坏性操作的决策。⁴这一机制证明了设计形态。控制界面可以按风险对待处理操作排序，展示完整命令或工具载荷，解释调用原因，并让用户批准、拒绝、延后或改写请求。

关键转变是：权限审核应当成为队列，而不是打断。

打断适合一两个决策。当代理在一项长期任务中执行40次操作时，打断就会失效。权限队列允许用户批量批准低风险操作、暂停高风险行动，并在一个地方查看整体风险画像。用户不再被迫在阅读代理说明和评估命令之间来回切换。

风险呈现也需要品味。红色边框、警告图标和模态阻力可能有帮助。但如果所有内容都显得紧急，它们也会训练用户盲目批准提醒。界面应当把视觉警报留给不可逆或外部可见的行动。只读搜索不应披上与生产数据库迁移相同的外衣。

追踪是新的信息架构

代理式设计需要追踪架构。

追踪是代理所做事情的有序记录：提示词、工具调用、参数、读取的文件、修改的文件、运行的命令、打开的来源、测试输出、权限决策、重试和最终证据。聊天记录可以包含这份记录的一部分，但聊天记录不是信息架构。它只是一个滚动列表。

追踪界面应当快速回答4个问题：

问题	追踪界面要求
发生了什么？	可按事件类型筛选的时间线
为什么发生？	每个行动附带代理陈述的理由
改变了什么？	差异、产物、副作用和接触过的路径
结果由什么支撑？	证据链接、命令输出、引用和未解决缺口

这个界面直接连接到证据关口。最终回答中说“测试通过”，就应指向测试命令和退出状态。公开文章引用论文，就应指向精确来源，并说明主张如何对齐。迁移报告声称达到同等能力，就应指向仍然可用的具体用户路径。

近期关于执行追踪的研究也指向同一方向。我在代理执行追踪是执行环境契约中提出，最终回答是最不可靠的信任单元。追踪更强，因为它保留了从意图到行动再到证据的路径。

记忆需要浏览器

代理式设计还需要记忆设计。

代理会跨时间携带上下文。有些上下文位于活动窗口。有些位于压缩摘要。有些位于文件、笔记、向量库、数据库或项目说明中。有些会消失。用户很少看见边界在哪里。

这种不可见性会造成设计失败。当代理与早先决定相矛盾时，用户无法判断代理是不同意、忘记了、摘要质量差，还是从未加载相关记忆。聊天让记忆显得连续，即使执行环境已经改变了模型可见的内容。

记忆浏览器应展示3个层次：

记忆层	用户问题
活动上下文	代理现在能使用什么？
存储记忆	代理在需要时能检索什么？
压缩或过期记忆	系统压缩、遗漏了什么，或将什么标记为不确定？

这个浏览器不需要暴露私有的思维链。它需要暴露运行层面的记忆：指令、约束、来源路径、决策、产物，以及系统将用于指导未来行动的摘要。

搜索属于同一设计家族。上一篇文章中的grep/vector结果表明，搜索质量不仅取决于检索器，也取决于执行环境、交付路径，以及模型闭合工具循环的能力。⁶如果搜索存在于执行环境中，搜索可见性就应存在于界面中。用户需要知道代理搜索了什么、漏掉了什么、打开了什么，以及为什么改变了下一次查询。

监督不是微观管理

代理产品常常把人的监督描述为摩擦。强有力的代理式设计会把监督视为产品本身。

NIST将AI风险管理框架描述为一种方式，用于把可信性考量纳入AI系统的设计、开发、使用和评估。³这个表述很重要。可信性不只在模型训练时进入系统。它也在设计时、使用时和评估时进入系统。

对代理来说，监督意味着用户可以：

看见代理正在做什么；
在不可逆行动之前中断；
检查证据路径；
从失败分支中恢复；
比较备选分支；
批准或拒绝最终产物；
理解仍有哪些内容未经验证。

微观管理要求用户批准每一次按键。监督是在恰当层级提供恰当控制。资深工程师不需要观察每一次文件读取。但这位工程师确实需要看见拟议的数据库迁移、失败测试的重试、被修改的公开主张，或接触生产环境状态的命令。

好的监督界面，会把低风险细节移出主线，把高风险时刻拉入焦点，从而保留工作流。设计挑战不是“更多可见性”。设计挑战是经过校准的可见性。

品味层仍然重要

代理式设计可以满足每一项运行要求，却依然让人感觉不对。

权限队列可以暴露正确事实，却让用户感觉自己被惩罚。追踪时间线可以包含每个事件，却让理解变得不可能。记忆浏览器可以显示每个存储项，却因混乱破坏用户信心。状态仪表可以说真话，却让系统显得坏掉了。

品味决定界面如何承载风险、信心、不确定性和证明。品味是一套技术系统：约束、评估标准、模式识别和一致性。代理式设计需要全部这4项。

约束决定代理无需审核即可做什么。评估标准决定最终产物必须证明什么。模式识别能捕捉看似成功却感觉脆弱的工作流。一致性则追问代理的工作是改善了整个产品，还是只完成了局部任务。

随着代理变得更便宜，最后这个问题会更加重要。AI让输出变得充裕。充裕会提高拒绝、编辑、一致性和品味的价值。最好的代理界面不会最大化行动数量。它会帮助操作员决定哪些行动值得发生。

最小代理式设计清单

从7个界面开始：

界面	最低要求
状态	当前阶段、上一步行动、下一步行动、阻碍因素
权限	按风险分层的队列，并展示完整工具载荷
追踪	可筛选的时间线，包含参数、输出和副作用
证据	将主张映射到来源、命令、测试或未解决缺口
记忆	活动上下文、存储上下文、压缩摘要
恢复	暂停、继续、重试、回滚、分叉和取消
监督	跨代理查看受阻、高风险和已完成工作

这些界面都不需要科幻式界面。第一个版本可以是普通表格、可展开行和朴素筛选器。花哨动画不如真实状态重要。控制界面应当迅速说清真相。

每个代理功能的设计问题都可以变得很简单：

在代理的下一步行动成为现实之前，人需要看见什么、决定什么、中断什么或验证什么？

如果界面无法回答这个问题，产品仍然依赖信任表演。

简要总结

代理式设计就是控制界面设计。聊天作为输入原语仍然有用，但自主工作需要可见状态、权限队列、追踪、记忆浏览器、证据界面、恢复控制和监督视图。Microsoft、Google和NIST都指向以人为中心的AI设计，并将可信性视为产品责任，而不只是模型属性。¹²³代理工具让这一点更加具体：执行环境已经拥有钩子、容器、追踪、文件、命令和副作用。⁴⁵界面必须让这些部分变得清晰可读。

胜出的代理产品，不会是聊天最讨喜的那个。胜出的产品，会是为自主工作提供最清晰、最锋利、最值得信任操作界面的那个。

FAQ

代理式设计与AI UX不同吗？

是的。AI UX覆盖任何使用机器学习或生成式AI的体验。代理式设计覆盖会持续行动的系统。差异在于代理能力：工具调用、权限、状态变化、记忆、副作用和恢复。这些属性需要控制界面，而不只是有帮助的文案或提示词输入。

每个代理产品都需要7个界面吗？

不需要。界面范围应匹配风险。低风险写作助手可能需要状态、证据和修订历史。编码或运维代理需要权限、追踪、恢复、记忆和监督。会影响客户的代理，则需要更强的审计和审批控制。

为什么不把所有东西都放在聊天里？

聊天是顺序式、追加式的。代理监督需要随机访问、筛选、比较、批量审核和状态检查。可折叠聊天块可以提升可读性，但不能替代权限队列、追踪时间线、记忆浏览器或恢复界面。

第一个应构建的控制界面是什么？

先构建追踪。没有追踪，其他所有界面都会变成猜测。追踪为证据、权限、恢复、审计和监督提供数据。产品可以从普通事件表开始，再逐步改进设计。

参考资料

Saleema Amershi et al., “Guidelines for Human-AI Interaction,” Microsoft Research, CHI 2019。18条人类与AI交互指南、49位设计从业者参与的验证流程，以及将AI行为框定为界面设计问题的主要来源。 ↩↩↩
Google People + AI Research, “People + AI Guidebook,” and “People + AI Research,” Google Design。以人为中心的AI设计框架和战术性指南定位的来源。 ↩↩
National Institute of Standards and Technology, “AI Risk Management Framework,” NIST, 2023年1月26日，之后包含生成式AI画像更新。关于将可信性纳入AI产品、服务和系统的设计、开发、使用与评估的来源。 ↩↩
Anthropic, “Hooks reference,” Claude Code Docs。钩子生命周期、PreToolUse、匹配器行为，以及可在执行前拒绝工具调用的权限决策来源。 ↩↩↩
OpenAI, “Introducing Codex,” OpenAI, 2025年5月。Codex云端执行模型、隔离容器描述，以及后台软件工程任务定位的来源。 ↩↩
Blake Crosley, “Agent Search Is a Runtime Problem,” blakecrosley.com, 2026年5月15日。作者分析来源，连接搜索质量与执行环境、结果交付和工具循环行为。 ↩