El diseño agéntico es diseño de superficies de control

13 min de lectura

La mayoría del trabajo de interfaces para IA todavía trata al agente como un cuadro de texto más inteligente. El diseño agéntico parte de una premisa distinta: cuando el software puede actuar a lo largo del tiempo, llamar herramientas, tocar archivos, gastar dinero o cambiar el estado de producción, el problema de diseño se convierte en un problema de superficie de control.

El diseño agéntico es la disciplina de hacer que el software autónomo sea visible, interrumpible, inspeccionable, reversible y digno de confianza. El producto no es la transcripción del chat. El producto es la superficie que le permite a una persona entender qué está haciendo el agente, decidir qué puede hacer después y verificar qué ya hizo.

Ese marco importa porque los agentes no fallan como los formularios, tableros o copilotos comunes. Un formulario falla al enviarse. Un tablero falla cuando muestra datos desactualizados. Un copiloto falla cuando sugiere un texto deficiente. Un agente falla en movimiento: toma la rama incorrecta, elige la herramienta equivocada, no encuentra la evidencia adecuada, pierde contexto, abusa de los permisos, se detiene demasiado pronto o tiene éxito localmente mientras debilita el producto completo.

El diseño tiene que pasar del pulido de instrucciones al control operativo.

Resumen rápido

El diseño agéntico no es “UX para IA” en abstracto. Es el diseño de superficies de control para sistemas que actúan. Microsoft planteó la interacción humano-IA como un problema específico de diseño de interfaces años antes de los agentes de código actuales, y Google PAIR mantiene ese mismo hilo centrado en las personas en su guía de diseño para IA.¹² Los productos modernos de agentes vuelven esa necesidad más urgente: OpenAI describe Codex como un agente en la nube que trabaja en un entorno aislado, mientras que Claude Code expone puntos de enlace que pueden interceptar llamadas a herramientas antes de su ejecución.⁵⁴

La conclusión práctica: los productos con agentes necesitan superficies para estado, permisos, trazas, memoria, evidencia, reversión y supervisión. El chat puede seguir siendo una entrada. No puede seguir siendo toda la interfaz.

Ideas clave

Para diseñadores de producto: - Diseña el estado del agente antes de diseñar la entrada de instrucciones. El usuario necesita saber si el agente está planificando, actuando, bloqueado, esperando, verificando o terminado. - Trata la revisión de permisos como un flujo de trabajo principal. Una llamada riesgosa a una herramienta no debería verse como una interrupción casual del chat.

Para quienes construyen agentes: - Registra suficiente detalle de ejecución para alimentar una superficie de trazas. Los nombres de herramientas no bastan; la superficie necesita argumentos, salidas, estados de salida, rutas de archivos y efectos secundarios. - Haz que la interrupción y la recuperación sean funciones de primer nivel. Un usuario debería poder pausar, inspeccionar, redirigir, revertir o bifurcar un agente sin leer una transcripción completa.

Para equipos que adoptan agentes: - No midas la calidad de la interfaz por lo fluido que se siente el chat. Mide si el operador puede responder: qué pasó, por qué, con qué permiso y con qué evidencia. - Mantén el criterio de calidad en el circuito. Una acción correcta del agente todavía puede dañar la coherencia, la dignidad o la calidad del producto.

El usuario cambió

El usuario de un producto con agentes no solo formula instrucciones. El usuario se convierte en operador.

Quien formula una instrucción pide una respuesta. Un operador supervisa un proceso. A quien formula la instrucción le importa si el texto suena bien. A un operador le importa si el sistema tocó los archivos correctos, usó las fuentes adecuadas, respetó las restricciones necesarias y se detuvo en el momento correcto.

Esa diferencia cambia la interfaz. Los cuadros de instrucciones optimizan la expresión. Las superficies de control optimizan el estado, el riesgo, el momento y la prueba.

El software tradicional puede ocultar el proceso porque el usuario activa directamente la mayoría de los cambios de estado. Un botón dice “Enviar”. El usuario hace clic. La aplicación envía. El software con agentes inserta un entorno de ejecución con toma de decisiones entre la intención y la acción. El usuario pide un resultado, y el sistema elige un camino. La interfaz debe revelar lo suficiente de ese camino para que el usuario siga siendo responsable del resultado.

Las directrices de Microsoft para la interacción humano-IA apuntan en esa dirección. Cubren el comportamiento de los sistemas de IA a lo largo del tiempo de interacción: establecer expectativas, adecuarse al contexto social, mostrar estado, apoyar correcciones y manejar fallos.¹ La lección antigua aplica con claridad a los agentes, pero los agentes elevan el riesgo porque el comportamiento de la IA ya no termina en una recomendación. Ese comportamiento puede convertirse en una llamada a una herramienta.

El diseño agéntico empieza con el estado

Un buen diseño agéntico hace visible el estado antes de pedir confianza.

Un agente tiene más estados que “pensando” y “listo”:

Estado del agente	Lo que el usuario necesita
Planificación	Camino previsto, supuestos, herramientas probables
Búsqueda	Términos de consulta, fuentes, omisiones, siguiente consulta
Acción	Llamada a herramienta, argumentos, objetivo, efecto secundario esperado
Bloqueo	Permiso faltante, credencial faltante, requisito poco claro
Verificación	Comando de prueba, fuente de evidencia, criterio de aceptación
Recuperación	Paso fallido, ruta de reintento, supuesto modificado
Terminado	Artefacto, evidencia, brecha no resuelta

La mayoría de los productos de chat colapsan estos estados en una sola animación de carga. Una animación dice que el sistema no se ha detenido. No dice si el agente está leyendo, escribiendo, esperando, reintentando o atascado.

El estado agéntico necesita un vocabulario más rico. La superficie debería mostrar la fase actual, la última acción significativa, la siguiente acción prevista y la razón por la que el agente aún no ha terminado. Una buena superficie de estado reduce la ansiedad del usuario porque reemplaza el misterio con movimiento inspeccionable.

La pregunta difícil de diseño es la densidad. Un agente serio puede generar miles de eventos durante una ejecución larga. Mostrar cada evento produce ruido. Ocultarlos todos produce confianza ciega. La superficie de control tiene que resumir de forma predeterminada y expandirse bajo demanda.

El permiso es material de diseño

El permiso no es una página de configuración. Es uno de los materiales centrales del diseño agéntico.

Los agentes actúan mediante la autoridad que el usuario les concede. Escrituras de archivos, comandos de shell, acciones en el navegador, llamadas a API, pasos de despliegue, operaciones de pago y acciones con impacto en clientes tienen riesgos distintos. La interfaz debe hacer que ese riesgo sea legible en el momento de decidir.

La referencia de puntos de enlace de Claude Code muestra la forma primitiva de esta idea: un punto de enlace PreToolUse puede inspeccionar un comando Bash y devolver una decisión que niega una operación destructiva antes de que se ejecute la llamada a la herramienta.⁴ Ese mecanismo demuestra la forma de diseño. Una superficie de control puede ordenar operaciones pendientes por riesgo, mostrar el comando completo o la carga útil de la herramienta, explicar la razón de la llamada y permitir que el usuario apruebe, niegue, posponga o reescriba la solicitud.

El cambio clave: la revisión de permisos debería convertirse en una cola, no en una interrupción.

Las interrupciones funcionan para una o dos decisiones. Fallan cuando el agente realiza 40 operaciones en una tarea larga. Una cola de permisos permite aprobar en lote acciones de bajo riesgo, pausar acciones de alto riesgo y revisar todo el perfil de riesgo en un solo lugar. El usuario deja de ser arrastrado entre leer la prosa del agente y evaluar comandos.

La presentación del riesgo también necesita criterio. Bordes rojos, íconos de advertencia y fricción modal pueden ayudar. También pueden entrenar al usuario a aprobar alertas a ciegas cuando todo parece urgente. La interfaz debería reservar la alarma visual para acciones irreversibles o visibles externamente. Una búsqueda de solo lectura no debería vestirse igual que una migración de base de datos en producción.

La traza es la nueva arquitectura de información

El diseño agéntico necesita arquitectura de trazas.

Una traza es el registro ordenado de lo que hizo el agente: instrucciones, llamadas a herramientas, argumentos, archivos leídos, archivos modificados, comandos ejecutados, fuentes abiertas, salidas de pruebas, decisiones de permisos, reintentos y evidencia final. Una transcripción de chat puede contener partes de ese registro, pero una transcripción no es una arquitectura de información. Es una lista desplazable.

La superficie de trazas debería responder cuatro preguntas rápidamente:

Pregunta	Requisito de la superficie de trazas
¿Qué pasó?	Línea de tiempo con filtros por tipo de evento
¿Por qué pasó?	Razón declarada por el agente adjunta a cada acción
¿Qué cambió?	Diferencias, artefactos, efectos secundarios y rutas tocadas
¿Qué respalda el resultado?	Enlaces de evidencia, salidas de comandos, citas y brechas no resueltas

Esa superficie se conecta directamente con la puerta de evidencia. Una respuesta final que dice “las pruebas pasaron” debería apuntar al comando de prueba y al estado de salida. Un artículo público que cita un artículo académico debería apuntar a la fuente exacta y a la alineación con la afirmación. Un informe de migración que afirma paridad debería apuntar al recorrido específico de usuario que todavía funciona.

La investigación reciente sobre trazas de ejecución apunta en la misma dirección. En Las trazas de ejecución de agentes son el contrato del entorno de ejecución, sostuve que la respuesta final es la unidad más débil para confiar. La traza es más fuerte porque conserva el camino desde la intención hasta la acción y la evidencia.

La memoria necesita un explorador

El diseño agéntico también necesita diseño de memoria.

Los agentes cargan contexto a lo largo del tiempo. Parte del contexto está en la ventana activa. Parte está en resúmenes compactados. Parte está en archivos, notas, almacenes vectoriales, bases de datos o instrucciones del proyecto. Parte desaparece. El usuario rara vez ve el límite.

Esa invisibilidad crea un fallo de diseño. Cuando un agente contradice una decisión anterior, el usuario no puede saber si el agente discrepó, olvidó, resumió mal o nunca cargó la memoria relevante. El chat hace que la memoria parezca continua aunque el entorno de ejecución haya cambiado lo que el modelo puede ver.

Un explorador de memoria debería exponer tres capas:

Capa de memoria	Pregunta del usuario
Contexto activo	¿Qué puede usar el agente ahora mismo?
Memoria almacenada	¿Qué puede recuperar el agente si lo necesita?
Memoria compactada o desactualizada	¿Qué comprimió, omitió o marcó como incierto el sistema?

Ese explorador no necesita revelar razonamiento privado paso a paso. Necesita revelar memoria operativa: instrucciones, restricciones, rutas de fuentes, decisiones, artefactos y resúmenes que el sistema usará para guiar acciones futuras.

La búsqueda pertenece a la misma familia de diseño. El resultado grep/vector del artículo anterior mostró que la calidad de búsqueda depende del entorno de ejecución, la ruta de entrega y la capacidad del modelo para cerrar el bucle de herramientas, no solo del recuperador.⁶ Si la búsqueda vive en el entorno de ejecución, su visibilidad pertenece a la interfaz. El usuario necesita saber qué buscó el agente, qué no encontró, qué abrió y por qué cambió la siguiente consulta.

Supervisar no es micromanejar

Los productos con agentes suelen presentar la supervisión humana como fricción. Un diseño agéntico sólido trata la supervisión como el producto.

NIST describe el AI Risk Management Framework como una forma de incorporar consideraciones de confiabilidad en el diseño, desarrollo, uso y evaluación de sistemas de IA.³ Esa formulación importa. La confiabilidad no entra solo durante el entrenamiento del modelo. Entra durante el diseño, el uso y la evaluación.

Para los agentes, supervisar significa que el usuario puede:

ver qué está haciendo el agente;
interrumpir antes de una acción irreversible;
inspeccionar la ruta de evidencia;
recuperarse de una rama fallida;
comparar ramas alternativas;
aprobar o rechazar el artefacto final;
entender qué queda sin verificar.

Micromanejar obliga al usuario a aprobar cada pulsación de tecla. Supervisar le da el control correcto en el nivel adecuado. Un ingeniero senior no necesita observar cada lectura de archivo. Sí necesita ver una migración de base de datos propuesta, un reintento tras una prueba fallida, un cambio en una afirmación pública o un comando que toca el estado de producción.

Las buenas superficies de supervisión preservan el flujo al sacar los detalles de bajo riesgo del carril principal y llevar los momentos de alto riesgo al foco. El desafío de diseño no es “más visibilidad”. El desafío es visibilidad calibrada.

La capa de criterio todavía importa

El diseño agéntico puede cumplir todos los requisitos operativos y aun así sentirse mal.

Una cola de permisos puede exponer los datos correctos y hacer que el usuario se sienta castigado. Una línea de tiempo de trazas puede contener cada evento y volver imposible la comprensión. Un explorador de memoria puede mostrar cada elemento almacenado y destruir la confianza del usuario por exceso de desorden. Un medidor de estado puede decir la verdad y hacer que el sistema parezca roto.

El criterio decide cómo la superficie carga riesgo, confianza, incertidumbre y prueba. El criterio de calidad es un sistema técnico: restricciones, criterios de evaluación, reconocimiento de patrones y coherencia. El diseño agéntico necesita los cuatro.

Las restricciones deciden qué puede hacer el agente sin revisión. Los criterios de evaluación deciden qué debe probar el artefacto final. El reconocimiento de patrones detecta el flujo de trabajo que parece exitoso pero se siente frágil. La coherencia pregunta si el trabajo del agente mejoró el producto completo o solo completó la tarea local.

Esa última pregunta importa más a medida que los agentes se abaratan. La IA vuelve abundante la producción. La abundancia eleva el valor de la negativa, la edición, la coherencia y el criterio. La mejor interfaz agéntica no maximizará acciones. Ayudará al operador a decidir qué acciones merecen ocurrir.

Una lista mínima para diseño agéntico

Empieza con siete superficies:

Superficie	Requisito mínimo
Estado	Fase actual, última acción, próxima acción, bloqueo
Permiso	Cola por niveles de riesgo con la carga útil completa de la herramienta
Traza	Línea de tiempo filtrable con argumentos, salidas y efectos secundarios
Evidencia	Afirmaciones mapeadas a fuente, comando, prueba o brecha no resuelta
Memoria	Contexto activo, contexto almacenado, resúmenes compactados
Recuperación	Pausar, reanudar, reintentar, revertir, bifurcar y cancelar
Supervisión	Vista cruzada de trabajo bloqueado, riesgoso y completado entre agentes

Ninguna de esas superficies requiere una interfaz de ciencia ficción. La primera versión puede ser tablas simples, filas expandibles y filtros aburridos. La animación vistosa importa menos que el estado honesto. La superficie de control debería decir la verdad rápido.

La pregunta de diseño para cada función con agentes se vuelve simple:

¿Qué necesita ver, decidir, interrumpir o verificar la persona antes de que la siguiente acción del agente se vuelva real?

Si la interfaz no puede responder esa pregunta, el producto todavía depende de una teatralización de confianza.

Resumen breve

El diseño agéntico es diseño de superficies de control. El chat sigue siendo útil como primitiva de entrada, pero el trabajo autónomo necesita estado visible, colas de permisos, trazas, exploradores de memoria, superficies de evidencia, controles de recuperación y vistas de supervisión. Microsoft, Google y NIST apuntan hacia el diseño de IA centrado en las personas y la confiabilidad como responsabilidades de producto, no solo como propiedades del modelo.¹²³ Las herramientas para agentes vuelven concreto el punto: el entorno de ejecución ya tiene puntos de enlace, contenedores, trazas, archivos, comandos y efectos secundarios.⁴⁵ La interfaz tiene que volver legibles esas partes.

El producto con agentes ganador no será el que tenga el chat más encantador. Será el que les dé a los operadores la superficie más clara, precisa y confiable para el trabajo autónomo.

FAQ

¿El diseño agéntico es diferente de la UX para IA?

Sí. La UX para IA cubre cualquier experiencia que usa aprendizaje automático o IA generativa. El diseño agéntico cubre sistemas que actúan a lo largo del tiempo. La diferencia es la agencia: llamadas a herramientas, permisos, cambios de estado, memoria, efectos secundarios y recuperación. Esas propiedades requieren superficies de control, no solo textos útiles o entrada de instrucciones.

¿Todo producto con agentes necesita las siete superficies?

No. El alcance de la superficie debe corresponder al riesgo. Un asistente de escritura de bajo impacto quizá necesite estado, evidencia e historial de revisiones. Un agente de código u operaciones necesita permisos, trazas, recuperación, memoria y supervisión. Un agente con impacto en clientes necesita controles de auditoría y aprobación todavía más sólidos.

¿Por qué no dejar todo en el chat?

El chat es secuencial y solo permite agregar al final. La supervisión de agentes necesita acceso aleatorio, filtros, comparación, revisión por lotes e inspección de estado. Los bloques de chat colapsables pueden mejorar la legibilidad, pero no reemplazan una cola de permisos, una línea de tiempo de trazas, un explorador de memoria ni una superficie de recuperación.

¿Cuál es la primera superficie de control que conviene construir?

Construye primero la traza. Sin la traza, todas las demás superficies se vuelven conjeturas. La traza aporta los datos para evidencia, permisos, recuperación, auditoría y supervisión. Un producto puede empezar con una tabla simple de eventos y mejorar el diseño con el tiempo.

Referencias

Saleema Amershi et al., “Guidelines for Human-AI Interaction,” Microsoft Research, CHI 2019. Fuente primaria para las 18 directrices de interacción humano-IA, el proceso de validación con 49 profesionales del diseño y el encuadre del comportamiento de IA como un problema de diseño de interfaces. ↩↩↩
Google People + AI Research, “People + AI Guidebook,” y “People + AI Research,” Google Design. Fuente para el encuadre de diseño de IA centrado en las personas y la orientación táctica de la guía. ↩↩
National Institute of Standards and Technology, “AI Risk Management Framework,” NIST, 26 de enero de 2023, con actualizaciones posteriores del perfil de IA generativa. Fuente para incorporar la confiabilidad en el diseño, desarrollo, uso y evaluación de productos, servicios y sistemas de IA. ↩↩
Anthropic, “Hooks reference,” documentación de Claude Code. Fuente para el ciclo de vida de los puntos de enlace, PreToolUse, el comportamiento de coincidencia y las decisiones de permisos que pueden negar llamadas a herramientas antes de la ejecución. ↩↩↩
OpenAI, “Introducing Codex,” OpenAI, mayo de 2025. Fuente para el modelo de ejecución en la nube de Codex, la descripción del contenedor aislado y el encuadre de tareas de ingeniería de software en segundo plano. ↩↩
Blake Crosley, “Agent Search Is a Runtime Problem,” blakecrosley.com, 15 de mayo de 2026. Fuente para el análisis del autor que conecta la calidad de búsqueda con el entorno de ejecución, la entrega de resultados y el comportamiento del bucle de herramientas. ↩