Chat es la interfaz equivocada para agentes de IA

16 min de lectura

Chat es una buena primitiva de entrada, pero un mal entorno operativo para agentes. Una vez que el software actúa a lo largo del tiempo — manteniendo estado, llamando herramientas, tomando decisiones, fallando y recuperándose — la interfaz debe pasar de conversación a operaciones. Los seis patrones de interfaz que se presentan a continuación definen lo que las superficies de control de agentes realmente requieren.

La mayoría de los agentes de IA se distribuyen como ventanas de chat. Claude Code es una conversación en terminal. Cursor es una conversación en editor. Codex ejecuta conversaciones en la nube. Devin envuelve una conversación alrededor de un navegador, una terminal y un editor. El marco conversacional es tan dominante que “hablar con la IA” se ha vuelto sinónimo de “usar la IA”. La metáfora tenía sentido cuando el modelo de interacción era prompt-respuesta: preguntas, responde, evalúas. Un turno. Dos turnos. Quizás diez.

La metáfora se rompe en el momento en que los agentes operan de forma autónoma.

Mi bucle Ralph ejecuta Claude Code durante la noche. Contexto nuevo por iteración, memoria en el sistema de archivos entre sesiones, hooks de detención que previenen la terminación prematura. Una sola ejecución nocturna produce entre 8 y 15 iteraciones, cada una con una ventana de contexto completa de 200K tokens. El sistema generó 3.455 líneas de Python en producción a lo largo de múltiples sesiones desatendidas.¹ Supervisar esas sesiones a través de una transcripción de chat con scroll habría requerido leer miles de líneas de llamadas a herramientas intercaladas, diffs de archivos y trazas de razonamiento. Nadie hace eso. Nadie puede hacer eso. La interfaz de chat colapsa bajo el peso de la operación autónoma.

Los profesionales están aprendiendo que la metáfora del chat está equivocada. Codex de OpenAI se ejecuta sin interfaz en la nube y devuelve trabajo completado. Las Claude Routines de Anthropic ejecutan flujos de trabajo de múltiples pasos con sesiones revisables. Devin divide la pantalla en navegador, terminal, editor y chat. Cada producto se aleja de la conversación pura hacia algo más operativo. Ninguno ha llegado a la solución completa. La brecha entre “chat con diffs de archivos” y “panel de operaciones de agentes” sigue siendo el mayor problema de UX sin resolver en herramientas de IA.

Cinco formas en que chat falla para los agentes

Sin línea de tiempo de trazas

Una sesión de agente de 90 minutos genera cientos de eventos: lecturas de archivos, escrituras de archivos, comandos bash, consultas de búsqueda, generación de sub-agentes, eventos de compactación y pasos de razonamiento. Chat presenta estos eventos como un scroll lineal de conversación. El formato hace imposible responder “¿qué pasó entre el minuto 30 y el minuto 45?” sin leer todo lo intermedio.

Mi sistema de hooks intercepta 15 tipos de eventos en cada llamada a herramientas, produciendo telemetría estructurada que la interfaz de chat no muestra.² La telemetría existe. La visualización no. Cuando depuro una sesión nocturna fallida, hago grep en archivos de log. No hago scroll en el chat.

Una línea de tiempo de trazas presentaría los eventos como una secuencia filtrable y con zoom. Muéstrame solo las escrituras de archivos. Muéstrame solo los comandos bash que modificaron el sistema de archivos. Muéstrame los puntos de decisión donde el agente eligió el camino A sobre el camino B. Las cajas negras de vuelo no presentan los eventos de cabina como una transcripción de conversación. Las interfaces de agentes tampoco deberían hacerlo.

Sin superficie de revisión de permisos

El modelo de permisos de Claude Code interrumpe la conversación para solicitar aprobación. “¿Permitir este comando bash?” aparece en línea con el razonamiento del agente, y el usuario debe cambiar de contexto entre leer el análisis y evaluar el riesgo. El modelo de interrupción funciona para sesiones interactivas. Falla por completo en la operación autónoma, donde el agente necesita aprobaciones por lotes y permisos escalonados por nivel de riesgo.

Mis 95 hooks funcionan como una capa de permisos programática. Los comandos en la lista de permitidos pasan silenciosamente. Los patrones bloqueados detienen la ejecución. Los hooks resuelven el problema de automatización, pero lo resuelven con código, no con interfaz.³ Una interfaz de compuerta de permisos presentaría las aprobaciones pendientes en una cola, ordenadas por nivel de riesgo, con aprobación o rechazo en un solo clic. Las operaciones de alto riesgo (force pushes, despliegues a producción, comandos destructivos) se mostrarían de manera diferente que las operaciones de bajo riesgo (lecturas de archivos, consultas de búsqueda). La interfaz comunicaría el riesgo antes de que el usuario evaluara el contenido.

Sin navegador de memoria

La compactación de contexto borra lo que el agente sabía. La ventana de 200K tokens se llena, el sistema resume los turnos anteriores y la información desaparece. Mis mediciones en 50 sesiones mostraron que la calidad del output se degradaba aproximadamente al 60% de utilización del contexto, mucho antes de que el límite duro activara la compactación.⁴ La investigación sobre degradación de memoria de Microsoft Research y Salesforce confirmó el problema estructural: una caída promedio del 39% en rendimiento de interacciones de un solo turno a múltiples turnos, evaluada en 15 LLMs y más de 200.000 conversaciones simuladas.⁵

El usuario no tiene visibilidad sobre qué sobrevivió a la compactación y qué no. ¿Olvidó el agente el contrato de API establecido hace 40 minutos? ¿Sobrevivió el grafo de dependencias del módulo al último resumen? La interfaz de chat no proporciona forma de responder estas preguntas. Un navegador de memoria mostraría lo que el agente tiene actualmente en contexto, lo que fue compactado, lo que se perdió y lo que persiste en la memoria del sistema de archivos. El patrón de sistema de archivos como memoria del bucle Ralph compensa la pérdida por compactación, pero el operador aún no puede inspeccionar la memoria de trabajo del agente sin leer archivos de estado en bruto.

Sin medidor de presupuesto de contexto

El consumo de tokens es invisible. El usuario no sabe si la ventana de contexto está al 40% o al 90% de capacidad. La primera señal de agotamiento es un output degradado: instrucciones olvidadas, sugerencias repetidas, visión de túnel en un solo archivo cuando minutos antes el agente mantenía coherencia entre múltiples archivos.⁴ Para cuando el usuario lo nota, el daño en calidad se ha acumulado a lo largo de varios turnos.

Un medidor de presupuesto de contexto mostraría el uso de tokens en tiempo real, el agotamiento proyectado según la tasa de consumo actual y el umbral de compactación. El medidor funcionaría como un indicador de combustible: no es información que revises cada segundo, pero sí la que necesitas antes de comprometerte con una operación larga. “Esta tarea de refactorización consumirá aproximadamente 80K tokens; tu presupuesto restante es de 60K” cambia el cálculo de decisión del usuario. Ninguna interfaz de chat proporciona esta información.

Sin auditoría de llamadas a herramientas

Los agentes ejecutan herramientas con argumentos que el usuario nunca inspecciona. Se ejecuta un comando bash. Se escribe un archivo. Se llama a una API. La interfaz de chat muestra el nombre de la herramienta y a veces el output. Los argumentos (las instrucciones reales que el agente envió a la herramienta) pasan de largo en un formato que desincentiva la lectura.

El modo de falla no es hipotético. Un desarrollador reportó que Claude Code eliminó toda su configuración de producción, incluyendo la base de datos y 2,5 años de snapshots.⁶ El agente ejecutó comandos destructivos sin solicitud de confirmación y sin intercepción de hooks. El incidente se remonta a una falla de interfaz: el usuario no pudo revisar eficientemente lo que el agente estaba a punto de hacer.

Una superficie de auditoría de llamadas a herramientas presentaría cada invocación con sus argumentos completos, diffs de antes/después para operaciones con archivos y capacidades de rollback para acciones destructivas. La compuerta de evidencia aborda el problema de verificación en la capa de output, exigiendo que los agentes citen rutas de archivos, resultados de pruebas y nombres de patrones antes de marcar el trabajo como completado. Una auditoría de llamadas a herramientas aborda el mismo problema en la capa de ejecución, antes de que ocurra el daño.

Seis patrones de interfaz para operaciones de agentes

Chat falla porque trata las operaciones de agentes como conversación. Los siguientes seis patrones tratan las operaciones de agentes como operaciones.

1. Línea de tiempo de trazas

Un registro cronológico de eventos con detalle expandible en cada nodo. Cada lectura de archivo, escritura de archivo, comando bash, llamada a API, generación de sub-agente, evento de compactación y punto de decisión aparece en la línea de tiempo. Los usuarios filtran por tipo de evento, hacen zoom en rangos de tiempo y expanden eventos individuales para ver argumentos y outputs completos.

La línea de tiempo resuelve el problema de “¿qué pasó?” que actualmente requiere análisis de archivos de log para depuración post-hoc. El problema del agente invisible (agentes consumiendo recursos sin visibilidad del operador) se vuelve visible cuando cada acción aparece en una línea de tiempo filtrable con métricas de consumo de recursos adjuntas.

2. Interfaz de compuerta de permisos

Una cola de aprobaciones pendientes, ordenadas por nivel de riesgo. Las operaciones destructivas (despliegues a producción, migraciones de bases de datos, force pushes) se muestran con bordes rojos y requieren confirmación explícita. Las operaciones de solo lectura (lecturas de archivos, consultas de búsqueda) se aprueban automáticamente o por lotes. La superficie de la compuerta muestra el comando completo, la evaluación de riesgo y la razón declarada por el agente para la acción.

La aprobación por lotes transforma el modelo de interacción. En lugar de interrumpir la conversación 47 veces durante una sesión nocturna, la compuerta de permisos presenta “aquí están las 12 operaciones que superaron tu umbral de aprobación automática” en una sola superficie de revisión. El usuario procesa las 12 en dos minutos en lugar de cambiar de contexto 12 veces a lo largo de seis horas.

3. Navegador de memoria

Una pantalla de tres paneles: contexto activo (lo que el agente tiene actualmente), resúmenes compactados (qué se resumió y cuándo) y memoria del sistema de archivos (lo que persiste en disco entre sesiones). Cada panel es buscable. Los usuarios pueden promover elementos compactados de vuelta al contexto activo o marcar memorias del sistema de archivos como obsoletas.

El navegador hace inspeccionable el estado de conocimiento del agente. Cuando el agente produce un output que contradice una decisión anterior, el operador puede verificar si la decisión anterior sobrevivió a la compactación. El problema de degradación de memoria de agentes no desaparece con un navegador. El navegador hace que la degradación sea visible, diagnosticable y parcialmente recuperable.

4. Medidor de presupuesto de contexto

Un contador de tokens en tiempo real que muestra la utilización actual, el agotamiento proyectado según la tasa de consumo promedio y el umbral de compactación. El medidor incluye un desglose: cuántos tokens son prompt del sistema, cuántos son historial de conversación, cuántos son outputs de herramientas y cuántos son contenido de archivos. El desglose revela hacia dónde se va el presupuesto. Con frecuencia, los outputs de herramientas consumen entre el 60% y el 70% de la ventana.

El medidor cambia el comportamiento. Mis prácticas de gestión de ventana de contexto (compactación proactiva, delegación a sub-agentes, memoria basada en sistema de archivos) surgieron de medir el consumo de tokens en 50 sesiones. Un medidor en tiempo real pone esas mismas mediciones a disposición de cada usuario, transformando la gestión de contexto de una práctica experta a una restricción de recursos visible.

5. Revisión de llamadas a herramientas

Una superficie de inspección para cada invocación de herramienta. Las operaciones con archivos muestran diffs de antes/después. Los comandos bash muestran el comando completo, el directorio de trabajo y el código de salida. Las llamadas a API muestran los payloads de solicitud y respuesta. Cada llamada a herramienta incluye un botón de rollback que revierte la operación (para operaciones reversibles) o la marca para revisión manual (para las irreversibles).

La superficie de revisión cumple doble función: supervisión en tiempo real durante sesiones interactivas y auditoría post-hoc durante ejecuciones autónomas. La capa de verificación de fábrica oscura explora cómo los sistemas autónomos manejan la verificación sin presencia humana. La revisión de llamadas a herramientas es el complemento con presencia humana, proporcionando la superficie de inspección que permite confianza informada en lugar de confianza ciega.

6. Cola de supervisión

Un panel multi-agente que muestra alertas prioritarias entre sesiones concurrentes. Al ejecutar múltiples agentes (un agente de refactorización, un agente de escritura de pruebas, un agente de documentación), la cola agrega su estado, destaca las fallas y dirige las decisiones que requieren intervención humana a una sola superficie.

La cola de supervisión importa porque el uso de agentes escala horizontalmente. Un desarrollador ejecutando un agente es una conversación. Un desarrollador ejecutando cinco agentes en cinco tareas es operaciones. La interfaz para operaciones es un panel de control, no cinco ventanas de chat. La cola prioriza por urgencia: un despliegue a producción fallando se muestra por encima de una pregunta sobre formato de documentación.

Lo que existe hoy

Ningún producto ha construido el panel de operaciones completo. Varios han construido piezas.

Claude Code proporciona la capa programática más sólida. Los hooks interceptan 15 tipos de eventos con decisiones de permitir/denegar/modificar. El comando /cost muestra el uso de tokens de la sesión. El sistema de contexto CLAUDE.md proporciona memoria en el sistema de archivos. Pero la superficie es una terminal. Sin línea de tiempo visual. Sin cola de permisos. Sin navegador de memoria. La infraestructura existe sin la interfaz.⁷

Cursor construyó diffs en línea, una revisión primitiva de llamadas a herramientas para operaciones con archivos. La superficie de diff muestra el estado antes/después y permite aceptar/rechazar a nivel de fragmento. El patrón es correcto pero limitado: los diffs cubren escrituras de archivos pero no comandos bash, llamadas a API ni coordinación de sub-agentes.

Devin es el que más se acerca a una interfaz de operaciones. El producto divide la pantalla en navegador, terminal, editor y chat: cuatro superficies que hacen visibles simultáneamente diferentes aspectos del comportamiento del agente. El diseño de paneles reconoce que la conversación sola es insuficiente. Pero los paneles son presentación, no superficies de control. El usuario observa al agente trabajar. El usuario no gestiona colas de aprobaciones, inspecciona el estado de la memoria ni audita los argumentos de herramientas a través de esos paneles.⁸

Claude Routines (lanzado en abril de 2026) ejecuta flujos de trabajo de múltiples pasos en segundo plano, y cada ejecución crea una sesión de Claude Code revisable. La superficie de revisión es una línea de tiempo de trazas: los usuarios pueden revisar lo que hizo el agente después del hecho. El patrón valida el argumento central: la ejecución en segundo plano requiere una superficie de revisión que no sea la conversación original.⁹

OpenAI Codex se ejecuta sin interfaz en la nube y devuelve diffs. El modelo de aislamiento (entorno sandboxed por tarea) elimina algunas preocupaciones de permisos pero introduce otras: el usuario cede toda supervisión en tiempo real a cambio de seguridad sandboxed. Sin línea de tiempo de operaciones dedicada ni superficie de control durante la ejecución. La compensación revela la tensión de diseño: autonomía total o supervisión total, sin nada intermedio.¹⁰

La brecha entre estas soluciones parciales y una interfaz completa de operaciones de agentes define la próxima frontera competitiva en herramientas de IA.

Las interfaces de agentes son un problema de diseño

Los patrones de interfaz descritos arriba son especificaciones de ingeniería. Construirlos requiere criterio de diseño que las especificaciones de ingeniería por sí solas no pueden proporcionar.

¿Cómo comunica una compuerta de permisos el riesgo? El color solo es insuficiente: el rojo significa “peligro” en contextos occidentales y “prosperidad” en contextos chinos. La elección de iconos, el posicionamiento espacial, el timing de las animaciones y el tono del texto contribuyen a la evaluación de riesgo del usuario. Una compuerta de permisos que técnicamente muestra la información correcta pero la comunica mal entrenará a los usuarios a hacer clic en “aprobar” sin leer. La compuerta se convierte en teatro.

¿Cómo comunica un medidor de presupuesto de contexto la urgencia sin inducir ansiedad? Un medidor que se pone rojo al 80% de utilización puede causar compactación prematura. Un medidor que se mantiene verde hasta el 95% puede causar agotamiento sorpresivo. Las curvas de umbral, las transiciones de color y el timing de las notificaciones son decisiones de gusto con consecuencias operativas.

¿Cómo maneja una línea de tiempo de trazas la densidad de información sin abrumar al usuario? Una sesión autónoma de 12 horas genera miles de eventos. Mostrar todos los eventos produce ruido. Filtrar los eventos “importantes” requiere que la interfaz defina la importancia, un juicio que varía según el usuario, la tarea y el modo de falla.

Estas son las mismas preguntas que Dieter Rams respondió para la electrónica de consumo y que Kenya Hara respondió para el diseño de información. Las preguntas no son nuevas. El dominio sí. El gusto es un sistema técnico: restricciones, criterios de evaluación, reconocimiento de patrones y verificaciones de coherencia que se descomponen en infraestructura de ingeniería. El diseño de interfaces de agentes requiere infraestructura de gusto construida específicamente para UX operativo: la capacidad de comunicar riesgo, confianza, incertidumbre y estado de recursos a través de superficies visuales que soporten la toma de decisiones rápida bajo presión de tiempo.

La empresa que trate las interfaces de agentes como un problema de diseño, no solo como una lista de funciones, construirá la interfaz en la que los operadores confíen para cargas de trabajo en producción. La empresa que trate las interfaces de agentes solo como un problema de ingeniería construirá un panel que es técnicamente completo y operativamente inutilizable.

El próximo foso competitivo

El modelo no es el foso. Los modelos de frontera convergen en benchmarks de capacidad cada trimestre. El fine-tuning y RLHF producen diferenciación significativa pero temporal. La capa del modelo es una carrera de commodities con rendimientos decrecientes en ventaja competitiva.¹¹

La capa de contexto tampoco es el foso. Las ventanas de contexto crecen de 128K a 200K a 1M tokens. Cada proveedor iguala en cuestión de meses. Un contexto más largo mejora la capacidad pero no diferencia productos.

La superficie de control es el foso. La interfaz que hace las operaciones autónomas de agentes visibles, auditables y gobernables: esa superficie determina en qué producto confían las empresas para cargas de trabajo en producción. La adopción empresarial requiere responder preguntas que las interfaces de chat no pueden: ¿Qué hizo el agente? ¿Por qué lo hizo? ¿Qué permisos ejerció? ¿Qué recursos consumió? ¿Puedo revertir las acciones del agente? ¿Puedo demostrarle a un auditor lo que hizo el agente?

Esas preguntas no son preguntas de prompting. Son preguntas de operaciones. El producto que las responda gana el mercado que importa.

Mis 95 hooks son una respuesta programática a esas preguntas, construidos desde la terminal, aplicados mediante scripts de shell, mantenidos a través de archivos de configuración. Los hooks funcionan. Los hooks también representan el estado del arte: infraestructura de nivel experto que ningún usuario no experto replicará. La compuerta de evidencia verifica el output del agente. Las capas de observabilidad del agente invisible monitorean el comportamiento del agente. Las prácticas de gestión de ventana de contexto mantienen la calidad de la sesión. Cada sistema aborda una necesidad operativa real. Cada sistema existe como código, no como interfaz.

El siguiente paso es obvio. Convertir el código en superficies de control. Convertir los hooks en una compuerta de permisos. Convertir la telemetría en una línea de tiempo de trazas. Convertir las mediciones de tokens en un medidor de presupuesto. Convertir la memoria del sistema de archivos en un estado de conocimiento navegable. Convertir la compuerta de evidencia en una superficie de revisión de llamadas a herramientas.

La infraestructura ya existe. La interfaz no. Construir la interfaz es un problema de diseño, un problema de ingeniería y un problema de gusto. El equipo que resuelva los tres lanzará el producto que defina la próxima era de la ingeniería de IA.

Preguntas frecuentes

¿Por qué no simplemente mejorar el chat con mejor formato?

Mejorar el formato trata el síntoma. El problema es estructural: chat es un medio secuencial de solo escritura. Las operaciones de agentes requieren inspección de acceso aleatorio (saltar a cualquier evento), vistas concurrentes (ver el estado de la memoria junto a las llamadas a herramientas) e interacción por lotes (aprobar cinco operaciones a la vez). Las mejoras de formato dentro del chat (secciones colapsables, resaltado de sintaxis, diffs en línea) ayudan marginalmente pero no pueden proporcionar acceso aleatorio, vistas concurrentes ni interacción por lotes dentro de una transcripción con scroll.

¿Pueden las compuertas de permisos reemplazar el juicio humano?

Las compuertas de permisos aumentan el juicio al presentar decisiones en un formato optimizado para evaluación rápida y precisa. La compuerta no decide. La compuerta muestra la decisión con contexto: el comando completo, el nivel de riesgo, el razonamiento del agente y el impacto potencial. El humano decide más rápido y con mayor precisión porque la interfaz reduce la carga cognitiva de extraer la información relevante de un scroll de conversación.

¿Cómo se aplican estos patrones a agentes que no son de programación?

Cada patrón se generaliza. Un agente de atención al cliente necesita una línea de tiempo de trazas (¿qué le dijo el agente al cliente?), una compuerta de permisos (¿puede el agente emitir un reembolso superior a $500?) y una auditoría de llamadas a herramientas (¿qué consultas a la base de datos ejecutó el agente?). Un agente de investigación necesita un navegador de memoria (¿qué fuentes ha consultado el agente?) y un medidor de presupuesto de contexto (¿cuánta capacidad de recuperación queda?). Los patrones son agnósticos al dominio porque los desafíos operativos (visibilidad, permisos, memoria, recursos, auditoría, supervisión) son universales para el software autónomo.

Fuentes

Blake Crosley, “The Ralph Loop: How I Run Autonomous AI Agents Overnight,” blakecrosley.com, febrero de 2026. Documenta la arquitectura del bucle nocturno, los presupuestos de generación y el patrón de sistema de archivos como memoria. ↩
Blake Crosley, “Claude Code Hooks: Why Each of My 95 Hooks Exists,” blakecrosley.com, febrero de 2026. El sistema de hooks intercepta 15 tipos de eventos en el inicio de sesión, uso de herramientas, envío de prompts y completación de respuestas. ↩
Blake Crosley, “AI Agent Observability: Monitoring What You Can’t See,” blakecrosley.com, marzo de 2026. Documenta 84 hooks ejecutándose por acción en 60 sesiones y la pila de observabilidad de tres capas. ↩
Blake Crosley, “Context Window Management: 50 Sessions of Data,” blakecrosley.com, febrero de 2026. Midió la degradación de calidad al ~60% de utilización de contexto en 50 sesiones de Claude Code. ↩↩
Zhiheng Xi et al., “The Rise and Potential of Large Language Model Based Agents: A Survey,” arXiv preprint arXiv:2309.07864, 2023; Salesforce Research y Microsoft Research, “Multi-Turn Benchmark,” mayo de 2025. Encontraron una caída promedio del 39% en rendimiento de un solo turno a múltiples turnos en 15 LLMs. ↩
Discusiones en Hacker News, marzo de 2026. Un desarrollador reportó que Claude Code ejecutó terraform apply contra producción (142 puntos, 158 comentarios). Otro desarrollador reportó que Claude Code eliminó la configuración de producción incluyendo 2,5 años de snapshots de base de datos. Ambos documentados en “AI Agent Observability,” blakecrosley.com. ↩
Anthropic, “Claude Code documentation,” 2025-2026. API de hooks, comando /cost y sistema de contexto CLAUDE.md. ↩
Cognition, “Devin documentation,” 2024-2026. Interfaz multi-panel con superficies de navegador, terminal, editor y chat. ↩
Anthropic, “Claude Routines,” abril de 2026. Ejecución en segundo plano de flujos de trabajo de múltiples pasos con sesiones de Claude Code revisables. ↩
OpenAI, “Codex,” mayo de 2025. Ejecución de agentes headless en la nube con entornos sandboxed y output basado en diffs. ↩
Publicaciones de benchmarks de Anthropic, Google DeepMind y OpenAI, 2024-2026. Los modelos de frontera convergen en benchmarks estándar en lanzamientos sucesivos, con diferenciación decreciente en suites de evaluación establecidas. ↩