El agente invisible: por qué no puede gobernar lo que no puede ver

20 min de lectura

From the guide: Claude Code Comprehensive Guide

Anthropic lanzó una función llamada Cowork en Claude Desktop. La función creó un paquete de máquina virtual de 10 GB en cada instalación de macOS. Los usuarios que nunca habilitaron Cowork igualmente recibieron la VM. Los usuarios que la eliminaron la vieron regenerarse. Un usuario reportó que el paquete creció hasta 21 GB. El issue de GitHub acumuló 345 puntos y 175 comentarios en Hacker News antes de que Anthropic reconociera el problema.¹

Nadie lo notó hasta que el espacio en disco se agotó.

TL;DR

Las herramientas de agentes ahora asignan recursos de cómputo (disco, memoria, CPU, red) sin visibilidad para el operador. La VM de Cowork de Anthropic es el ejemplo visible; cada llamada a herramientas MCP, cada sub-agente generado y cada solicitud web es un ejemplo invisible. Gobernar agentes requiere tres capas de observabilidad: medición de recursos (¿qué consumió?), aplicación de políticas (¿qué tenía permitido hacer?) y auditoría en tiempo de ejecución (¿qué hizo realmente?). Dos proyectos de código abierto abordan las capas de política y auditoría (mcp-firewall y Logira), pero ninguna herramienta en producción cubre las tres. A continuación: el problema de visibilidad, la pila de tres capas, qué detecta cada capa y los hooks mínimos de monitoreo que puede implementar hoy.

El problema de visibilidad

El software tradicional opera por debajo de una línea de observabilidad que los operadores eligen trazar. Un servidor web escribe logs de acceso porque los ingenieros configuraron el registro. Una base de datos rastrea consultas lentas porque alguien estableció log_min_duration_statement. El operador decide la granularidad.

Los sistemas de agentes invierten la relación. El agente decide qué ejecutar en tiempo de ejecución. Un agente de código que recibe “arregla el endpoint de login” podría leer 47 archivos, escribir en 12, generar tres sub-agentes, obtener dos páginas web y ejecutar 15 comandos bash. Cada acción consume recursos. Nada del consumo aparece en el monitoreo tradicional.

El incidente de Cowork expuso la inversión a nivel de infraestructura. Claude Desktop asignó 10 GB de espacio en disco, consumió 24-55% de CPU en reposo e incrementó el uso de swap de 20K a más de 24K swapins en máquinas con 8 GB.¹ Los usuarios descubrieron el consumo de recursos a través de las advertencias de almacenamiento de macOS, no a través de la telemetría de Anthropic. La aplicación no proporcionó ningún panel, ningún medidor ni ninguna divulgación de aceptación para la asignación de la VM.

El patrón no es hipotético. En marzo de 2026, un desarrollador reportó que Claude Code ejecutó un comando de Terraform que destruyó una base de datos de producción. El agente ejecutó terraform apply contra un archivo de estado de producción. No apareció ningún prompt de confirmación. Ningún hook interceptó el comando. El desarrollador descubrió la destrucción cuando la aplicación quedó fuera de línea. El incidente acumuló 142 puntos y 158 comentarios en Hacker News.¹² Días después, un desarrollador distinto reportó que Claude Code eliminó toda una configuración de producción, incluyendo snapshots de base de datos que representaban 2,5 años de registros.¹³ Ambos incidentes comparten la misma causa raíz: cero visibilidad sobre lo que el agente estaba haciendo antes de que el daño fuera irreversible.

Escale el patrón a sesiones de agentes. Mi sistema de orquestación de hooks intercepta 15 tipos de eventos en cada llamada a herramienta.¹¹ A lo largo de 60 sesiones, el sistema registró 84 hooks activándose en cada acción, produciendo telemetría que ninguna instalación predeterminada de agentes proporciona.² Sin esa instrumentación, no habría detectado los 12 incidentes de deriva, las fallas de verificación fantasma ni los bucles de generación recursiva documentados en mi comentario público al NIST.³

El Informe DORA 2024 Accelerate State of DevOps encontró que los equipos con prácticas sólidas de observabilidad despliegan con mayor frecuencia y se recuperan más rápido de las fallas. La edición 2025 extiende el marco al desarrollo asistido por IA, conectando la observabilidad con “cómo la codificación o las pruebas asistidas por IA afectan la calidad, el tiempo de entrega y la confiabilidad general.”⁴ La observabilidad de agentes no es un lujo. Medir el comportamiento de los agentes es un prerrequisito para gobernarlos.

Tres capas de visibilidad de agentes

La observabilidad de agentes requiere tres capas independientes. Cada capa responde una pregunta diferente. Una falla en una capa no compromete las demás.

Capa	Pregunta	Monitorea	Herramienta ejemplo
Medición de recursos	¿Qué consumió?	Disco, memoria, CPU, red por sesión	Cowork debería haber mostrado esto
Aplicación de políticas	¿Qué tenía permitido hacer?	Reglas de permitir/denegar, permisos de herramientas, límites de alcance	mcp-firewall
Auditoría en tiempo de ejecución	¿Qué hizo realmente?	Log de syscalls, acceso a archivos, tráfico de red saliente	Logira

La pila de visibilidad de agentes muestra tres capas de observabilidad: (1) Medición de Recursos que rastrea disco, memoria, CPU y red por sesión, (2) Aplicación de Políticas con reglas de permitir/denegar y permisos de herramientas, (3) Auditoría en Tiempo de Ejecución que registra syscalls, acceso a archivos y tráfico de red saliente. Alterne entre las vistas "sin instrumentación" e "instrumentada" para ver qué revela cada capa.

Las capas corresponden a una progresión: no se puede aplicar una política sobre recursos que no se miden, y no se puede auditar el cumplimiento de políticas que nunca se definieron. Cada capa se construye sobre la anterior.

Capa 1: Medición de recursos

La medición de recursos responde: ¿cuánto consumió el agente y dónde?

El incidente de Cowork es una falla de medición de recursos. El paquete de la VM consumió 10 GB de espacio en disco. El proceso de renderizado consumió 24% de CPU en reposo. La actividad de swap aumentó constantemente durante las sesiones. Todas estas métricas existían en el Monitor de Actividad de macOS. Ninguna apareció en la interfaz de Claude Desktop.¹

Para sesiones de codificación con agentes, la medición de recursos rastrea cuatro dimensiones:

Disco. Cada escritura de archivo, cada entrada de caché, cada archivo de log. Mis sesiones generan 200-400 KB de archivos de estado por sesión (jiro.state.json, jiro.progress.json, logs de hooks). A lo largo de 60 sesiones, eso se acumula a 12-24 MB de datos de estado que persisten entre sesiones a menos que se limpien explícitamente.²

Memoria. Consumo de la ventana de contexto por turno. Una ventana de contexto de 200.000 tokens cuesta aproximadamente $3 por llenado completo al precio actual de Opus. Mi rastreador de costos registra el uso acumulado de tokens por sesión, con umbrales de presupuesto al 80%, 90% y 95% de un límite configurable.⁵

CPU. Tiempo de ejecución de hooks. Mi dispatcher de prompts con nueve hooks añade 200 ms por prompt. Esa sobrecarga es invisible para los usuarios (la velocidad de escritura humana es el cuello de botella) pero se acumula en pipelines automatizados. El bucle autónomo ralph activa el dispatcher 50-100 veces por historia, añadiendo 10-20 segundos de sobrecarga de hooks por historia.²

Red. Solicitudes web, llamadas API, invocaciones de herramientas MCP. Cada solicitud saliente es un canal potencial de datos. Mi biblioteca de extracción web registra las URL de las solicitudes y los tamaños de respuesta. Sin medición de red, una solicitud web que devuelve una respuesta de 50 MB es indistinguible de una que devuelve 5 KB.⁶

Ninguna herramienta comercial de agentes proporciona un panel de recursos por sesión. Los proveedores de nube miden el cómputo para facturación, no para visibilidad del operador. La brecha entre lo que los agentes consumen y lo que los operadores pueden ver es el déficit de medición de recursos.

La ausencia se siente invisible hasta que los números se acumulan. Una sesión que escribe 400 KB de archivos de estado no es nada. Sesenta sesiones que escriben 400 KB cada una, sin limpieza, dejan 24 MB de estado huérfano. Una solicitud web que devuelve 847 KB es insignificante. Un pipeline de escaneo que obtiene 80 URL por ejecución genera 67 MB de contenido en caché que la abstracción de herramientas del agente oculta al operador. La medición de recursos hace visible lo acumulativo antes de que se convierta en la crisis que lleva a alguien a abrir el issue GitHub #22543.¹

Capa 2: Aplicación de políticas

La aplicación de políticas responde: ¿qué reglas restringen al agente y se aplican esas reglas de manera consistente?

mcp-firewall aborda la capa de políticas para agentes CLI.⁷ La herramienta se sitúa entre el agente y todas las solicitudes de uso de herramientas, evaluando cada solicitud contra una política basada en regex antes de la ejecución. Las políticas usan archivos de configuración JSONNet con alcance por carpeta, repositorio git o usuario. El firewall es compatible con Claude Code y GitHub Copilot CLI a través de la integración con hooks PreToolUse.

La arquitectura refleja una observación clave: cada agente implementa su propia solución parcial de lógica permitir/denegar. Claude Code usa patrones glob. Codex CLI usa coincidencia solo por prefijo. Cada enfoque cubre un subconjunto del espacio de políticas. mcp-firewall centraliza las reglas en un solo motor que funciona entre agentes.

Considere la brecha de políticas sin aplicación centralizada. Mi sistema de hooks incluye 12 handlers PreToolUse:Bash que verifican patrones de credenciales, operaciones destructivas de git, acceso a rutas sensibles y comandos de despliegue.² Cada handler es un script de shell separado con sus propios patrones regex. Cuando necesito añadir una nueva regla de denegación, escribo un nuevo script. Cuando necesito auditar qué reglas existen, hago grep en 12 archivos. mcp-firewall consolida todo eso en un solo archivo de configuración con arrays explícitos de permisos.

El OWASP Top 10 para Aplicaciones Agénticas (2025) identifica el Secuestro de Objetivos del Agente (ASI01) y la Agencia Excesiva (LLM06:2025) como riesgos principales.⁸ Ambos riesgos requieren aplicación de políticas a nivel de llamada de herramienta. Un agente que secuestra un objetivo aún realiza llamadas a herramientas. Un agente con agencia excesiva aún solicita permisos. La aplicación de políticas intercepta ambos en el límite donde la intención del agente se encuentra con las herramientas del sistema.

La aplicación de políticas difiere del control de acceso. El control de acceso tradicional pregunta “¿tiene este usuario permiso?” La aplicación de políticas para agentes pregunta “¿esta acción, en este contexto, para esta tarea, cae dentro del alcance aprobado?” La sensibilidad al contexto es el desafío. Un git push a una rama de funcionalidad y un git push --force a main son la misma herramienta (Bash) con radios de impacto diferentes. Los patrones regex de mcp-firewall pueden distinguir entre ellos. Los permisos predeterminados de los agentes no pueden.

La aplicación de políticas a nivel de aplicación también enfrenta riesgo de evasión. Un análisis de marzo de 2026 documentó tres técnicas de escape de sandbox en escalada contra la lista de denegación integrada de Claude Code: evasión basada en rutas (/proc/self/root/usr/bin/npx resuelve al mismo binario que el bloqueado /usr/bin/npx), deshabilitación auto-dirigida del sandbox (el agente razonó independientemente sobre remover el sandbox cuando este bloqueaba la finalización de la tarea) e invocación del enlazador dinámico (ld-linux-x86-64.so.2 carga binarios mediante mapeo de memoria, eludiendo completamente los hooks de aplicación a nivel de kernel).¹⁴ La tercera técnica es una clase de exploit: cualquier carga de código que evite execve elude la aplicación a nivel de proceso. La conclusión para la aplicación de políticas es que las listas de denegación basadas en coincidencia de cadenas son una primera capa necesaria, no suficiente. La aplicación dirigida por contenido (identificar binarios por hash SHA-256 en lugar de nombre de archivo) cierra la brecha de evasión por ruta, pero la evasión mediante enlazador dinámico requiere controles a nivel de kernel que se sitúan por debajo de la capa de políticas.

Capa 3: Auditoría en tiempo de ejecución

La auditoría en tiempo de ejecución responde: ¿qué hizo realmente el agente a nivel de syscall?

Logira aborda la capa de auditoría usando sondas eBPF para interceptar llamadas al sistema a nivel de kernel.⁹ La herramienta registra tres categorías de eventos: ejecución de procesos (eventos exec), operaciones de archivos (incluyendo acceso a archivos de credenciales) y conexiones de red (con seguimiento de destino). Cada ejecución auditada genera tres archivos: events.jsonl para revisión cronológica, index.sqlite para filtrado consultable y meta.json para metadatos de la ejecución.

La filosofía de diseño es “solo observar”: Logira registra y detecta pero no aplica ni bloquea.⁹ La separación de la capa de aplicación es deliberada. La aplicación de políticas previene acciones conocidas como malas. La auditoría en tiempo de ejecución descubre acciones desconocidas como malas después del hecho. Las dos capas sirven funciones temporales diferentes: prevención (antes) y forense (después).

Las sondas eBPF de Logira operan por debajo de la capa de aplicación. Un agente que construye un comando novedoso para exfiltrar datos aún realiza syscalls. El agente no puede ocultar lecturas de archivos, conexiones de red ni generación de procesos del rastreo a nivel de kernel. El enfoque captura lo que los hooks a nivel de aplicación no detectan: efectos secundarios que eluden la abstracción de llamadas a herramientas.

Las reglas de detección integradas apuntan específicamente a riesgos de agentes de IA: acceso a archivos de credenciales, cambios en mecanismos de persistencia (/etc, systemd, cron), cadenas de comandos sospechosas (patrones curl-pipe-sh), operaciones destructivas (rm -rf) y tráfico de red saliente anómalo.⁹ Las reglas son valores predeterminados con opinión para el modelo de amenazas de agentes, no auditoría genérica del sistema.

La restricción de plataforma importa. Logira requiere Linux 5.8+ con cgroup v2. Los agentes en macOS (Claude Desktop, Claude Code en Darwin) no pueden usar auditoría basada en eBPF. Mi sandbox del SO usa perfiles Seatbelt de macOS como el equivalente más cercano: reglas de denegación aplicadas por el kernel que bloquean escrituras en rutas sensibles.³ Seatbelt es aplicación, no auditoría. macOS carece de un equivalente listo para producción del registro de auditoría de solo observación de Logira.

Agent Safehouse, una herramienta de sandboxing nativa de macOS que acumuló 802 puntos y 181 comentarios en Hacker News en marzo de 2026, aborda la brecha de plataforma desde el lado de la aplicación.¹⁵ La herramienta proporciona perfiles de sandbox diseñados específicamente para agentes de IA locales en macOS. La respuesta de la comunidad (802 puntos es excepcional para una herramienta de sandboxing) refleja la urgencia: los profesionales que ejecutan agentes en macOS tienen opciones limitadas entre “sin sandbox” y “escribir su propio perfil Seatbelt.” Agent Safehouse llena esa brecha para la aplicación. La brecha de auditoría en macOS permanece abierta.

La distinción entre aplicación y auditoría corresponde a una división temporal en la respuesta a incidentes. La aplicación previene el incidente. La auditoría permite la reconstrucción después del incidente. Ambas son necesarias. Una capa de aplicación que bloquea todo acceso a credenciales previene la exfiltración pero también previene operaciones legítimas de SSH. Una capa de auditoría que registra todo acceso a credenciales sin bloquear permite al operador revisar patrones de acceso y ajustar las reglas de aplicación basándose en evidencia. El ciclo de retroalimentación entre datos de auditoría y refinamiento de políticas es como la pila de visibilidad mejora con el tiempo: la auditoría revela patrones, los patrones informan la política, la política reduce la superficie que la auditoría necesita cubrir.

El aislamiento por cgroup v2 de Logira añade una función que la auditoría a nivel de aplicación no puede replicar: atribución con alcance de ejecución. El sistema atribuye cada evento a una ejecución auditada específica, no al sistema globalmente. Cuando dos sesiones de agentes se ejecutan concurrentemente en la misma máquina, el aislamiento por cgroup asegura que el acceso a archivos en la sesión A no aparezca en el registro de auditoría de la sesión B. Los hooks a nivel de aplicación no pueden proporcionar la misma garantía porque los hooks se activan dentro del proceso del agente, que no tiene un límite a nivel de kernel separando sesiones concurrentes.⁹

Lo que realmente ejecuto

Mi sistema de orquestación cubre las tres capas a través de hooks, no a través de herramientas de monitoreo dedicadas.

Medición de recursos. El hook cost-gate rastrea el uso de tokens por sesión contra umbrales de presupuesto configurables.⁵ El monitor de rendimiento del sistema verifica CPU, memoria, disco y swap a intervalos configurables, inyectando advertencias cuando la presión de recursos excede los umbrales.¹⁰ El detector de deriva de sesión se activa cada 25 llamadas a herramientas, calculando la similitud coseno entre la incrustación del prompt original y una ventana deslizante de acciones recientes.²

Aplicación de políticas. Ocho hooks del dispatcher PreToolUse enrutan a hooks de manejo por tipo de herramienta. PreToolUse:Bash solo ejecuta 12 handlers que cubren patrones de credenciales, operaciones destructivas de git, acceso a rutas sensibles y comandos de despliegue. El guardián de recursión aplica una profundidad máxima de dos y un máximo de cinco hijos por agente padre.²

Auditoría en tiempo de ejecución. Los hooks PostToolUse registran el resultado de cada llamada a herramienta. Los hooks de escaneo de seguridad verifican la salida de bash en busca de fugas de credenciales después de la ejecución. Los archivos de estado de sesión (jiro.state.json) registran cada finalización de historia, veredicto de revisor y resultado de la puerta de evidencia.² El sistema no usa eBPF (limitación de macOS) pero captura telemetría a nivel de herramienta a través del pipeline de hooks.

Capa	Mi implementación	Limitación
Medición de recursos	cost-gate, sysmon, detector de deriva	Sin desglose de disco/red por herramienta
Aplicación de políticas	84 hooks en 15 tipos de eventos	Regex por hook, no configuración centralizada
Auditoría en tiempo de ejecución	Loggers PostToolUse, archivos de estado de sesión	Solo a nivel de aplicación, sin rastreo de syscalls

El sistema funciona porque cada acción pasa por el pipeline de hooks. La limitación es la profundidad: el monitoreo a nivel de hook captura lo que el agente pidió hacer, no lo que el sistema operativo realmente ejecutó. Un agente que construye un comando bash con subshells incrustados ejecuta código que el hook ve como una sola cadena. La auditoría a nivel de kernel vería cada subproceso.

Resultados concretos de incidentes en producción donde la pila de tres capas detectó fallas que el monitoreo predeterminado habría pasado por alto:

Incidente	Capa que lo detectó	Sin monitoreo
El agente pasó 45 min reorganizando el directorio del proyecto en lugar de arreglar el endpoint de login	Recursos: el detector de deriva se activó con similitud coseno de 0,23	La tarea se reportó como “completa” con el entregable incorrecto
El agente intentó escribir en `~/.ssh/authorized_keys`	Política: el handler PreToolUse:Bash bloqueó la ruta sensible	Clave SSH modificada, puerta trasera persistente
El agente reportó “todas las pruebas pasan” sin ejecutar pytest	Auditoría: el informe de finalización carecía de salida de pruebas pegada	Código roto fusionado con verificación fantasma
El agente hijo falló silenciosamente, el padre reportó éxito	Recursos: el presupuesto se excedió para un hijo sin salida	Migración de base de datos rota descubierta 3 horas después

El punto ciego que se multiplica

Los agentes que generan agentes multiplican la opacidad. Cada salto de delegación introduce pérdida de información.

Cuando mi sistema de orquestación ejecuta el bucle autónomo ralph, el proceso padre genera instancias frescas de Claude Code para cada historia PRD. Cada agente hijo recibe una tarea enfocada y una ventana de contexto fresca. El padre rastrea el estado de finalización. El padre no ve las llamadas individuales a herramientas, las lecturas de archivos ni el consumo de recursos del hijo.²

A profundidad uno (el padre genera al hijo), el padre ve la salida final del hijo. A profundidad dos (el hijo genera al nieto), el padre ve el informe del hijo sobre la salida del nieto. Cada salto comprime información. El análisis de la cadena de delegación en mi comentario al NIST midió tres riesgos que se acumulan: compresión semántica (el contexto se colapsa a una cadena de prompt), amplificación de autoridad (los hijos heredan permisos sin comprender la sensibilidad) y difusión de responsabilidad (el agente raíz asume la responsabilidad de resultados que nunca inspeccionó).³

La observabilidad se degrada al mismo ritmo. Una pila de visibilidad de tres capas en el agente raíz proporciona cero visibilidad sobre el agente nieto a menos que cada hijo ejecute independientemente su propio monitoreo. Mi guardián de recursión aplica el límite de profundidad, pero el guardián es un control de política, no un control de observabilidad. Saber que la delegación se detuvo a profundidad dos no le dice qué sucedió a profundidad dos.

Un ejemplo concreto de mi sistema en producción: el bucle ralph generó un agente hijo para implementar una historia de migración de base de datos. El agente hijo decidió que la migración necesitaba un “paso de verificación” y generó su propio sub-agente para ejecutar pruebas de integración. El agente nieto falló silenciosamente (la base de datos de pruebas no estaba configurada). El agente hijo recibió una respuesta vacía, interpretó el silencio como éxito y reportó la historia como completada. El padre registró “historia 4: completada.” Descubrí la migración rota tres horas después cuando la aplicación se cayó por la columna faltante. La telemetría del agente raíz mostraba una ejecución limpia. La falla vivía dos saltos de profundidad, invisible para cada capa de monitoreo que había desplegado en la raíz.²

El marco de Aplicaciones Agénticas de OWASP aborda las fallas en cascada y los agentes descontrolados pero no prescribe requisitos de observabilidad para cadenas de delegación multi-agente.⁸ La brecha es estructural: cada agente en la cadena necesitaría su propia medición de recursos, aplicación de políticas y auditoría en tiempo de ejecución, configuradas independientemente y reportadas independientemente. La sobrecarga es multiplicativa. Tres capas de monitoreo en tres agentes en una cadena son nueve instancias de monitoreo, cada una generando su propia telemetría, cada una requiriendo su propia configuración. Ninguna herramienta existente gestiona esa coordinación.

Lo que puede implementar hoy

Tres hooks mínimos de monitoreo que cubren la pila de visibilidad:

1. Recursos: rastreador de presupuesto de tokens. Registre los tokens de entrada y salida acumulados por sesión. Establezca un límite fijo. Alerte al 80%. La implementación requiere leer las estadísticas de uso del agente (Claude Code expone los costos de sesión vía /cost) y comparar contra un umbral. Mi hook cost-gate hace esto en 47 líneas de bash.⁵

2. Política: lista de denegación PreToolUse. Cree un hook que se active antes de cada llamada a la herramienta Bash. Verifique el comando contra una lista de patrones: rm -rf /, git push --force, rutas que contengan .ssh o .env, curl | sh. Bloquee las coincidencias. La implementación requiere un script de shell que lea stdin (la llamada a herramienta en JSON), extraiga el campo de comando y haga grep contra un archivo de patrones. Mi hook de verificación de credenciales hace esto en 31 líneas.²

3. Auditoría: log de sesión PostToolUse. Añada cada llamada a herramienta y su resultado a un archivo JSONL específico de la sesión. Incluya marca de tiempo, nombre de herramienta, argumentos y código de salida. El log permite la reconstrucción posterior a la sesión: ¿qué hizo el agente, en qué orden, y algo falló silenciosamente? Mi logger de sesión hace esto en 22 líneas de bash.²

Un ejemplo funcional del hook de lista de denegación en settings.json:

{
  "hooks": {
    "PreToolUse": [
      {
        "matcher": "Bash",
        "hooks": [
          {
            "type": "command",
            "command": "~/.claude/hooks/check-sensitive-paths.sh"
          }
        ]
      }
    ]
  }
}

El script del hook lee la llamada a herramienta desde stdin, extrae la cadena de comando y verifica contra patrones. Un comando bloqueado devuelve un objeto JSON con {"decision": "block", "reason": "Sensitive path access denied"}. Un comando permitido devuelve {"decision": "approve"}. Claude Code respeta ambas respuestas sin solicitar más confirmación. Todo el hook añade cero latencia a los comandos aprobados (la verificación regex se ejecuta en menos de 5 ms) y proporciona retroalimentación inmediata para los bloqueados.

Estos tres hooks requieren menos de 100 líneas en total. No reemplazan herramientas de monitoreo dedicadas. Reemplazan cero visibilidad con visibilidad mínima. La visibilidad mínima es el prerrequisito para cada decisión de gobernanza que siga. No puede establecer un presupuesto de recursos sin medición. No puede aplicar una política de alcance sin una lista de denegación. No puede investigar un incidente sin un log de auditoría. Comience con el log. Los otros dos le siguen.

Conclusiones clave

Para ingenieros de plataforma: Los agentes consumen recursos que el monitoreo existente no rastrea. El uso de disco, memoria, CPU y red por sesión de agente pertenece al mismo panel que las métricas de contenedores. El incidente de Cowork demuestra la necesidad: 10 GB asignados con cero visibilidad del operador.

Para equipos de seguridad: La aplicación de políticas en el límite de llamadas a herramientas es la postura mínima viable de seguridad de agentes. El enfoque centralizado de mcp-firewall consolida la lógica de permitir/denegar de cada agente en una sola configuración auditable. Evalúe si los permisos integrados de su agente cubren el espacio de políticas que su modelo de amenazas requiere.

Para gerentes de ingeniería: Haga tres preguntas sobre sus herramientas de agentes: ¿Puede ver el consumo de recursos por sesión? ¿Puede definir y auditar las políticas de llamadas a herramientas? ¿Puede reconstruir lo que un agente hizo después del hecho? Si alguna respuesta es “no,” tiene una brecha de visibilidad que crece con cada agente adicional en su flujo de trabajo.

FAQ

¿Qué es la observabilidad de agentes? La observabilidad de agentes es la capacidad de monitorear y comprender lo que un agente de IA hace durante la ejecución: qué recursos consume, qué acciones toma y si esas acciones cumplen con las políticas definidas.

¿Por qué Cowork de Anthropic creó una VM de 10 GB? La función Cowork en Claude Desktop aprovisiona una máquina virtual para sesiones de desarrollo colaborativo. Claude Desktop crea el paquete de la VM automáticamente en cada instalación de macOS, incluso para usuarios que nunca habilitan la función, y lo mantiene hasta que se elimine manualmente.¹

¿Qué es mcp-firewall? mcp-firewall es una herramienta de código abierto para la aplicación de políticas que intercepta solicitudes de uso de herramientas de agentes CLI (Claude Code, GitHub Copilot CLI) y las evalúa contra reglas de permitir/denegar basadas en regex antes de la ejecución.⁷

¿Qué es la auditoría en tiempo de ejecución con eBPF? eBPF (extended Berkeley Packet Filter) permite el rastreo a nivel de kernel de llamadas al sistema sin modificar el proceso auditado. Herramientas como Logira usan sondas eBPF para registrar la ejecución de procesos, operaciones de archivos y conexiones de red durante ejecuciones de agentes de IA.⁹

¿Cómo generan los agentes sub-agentes sin visibilidad del operador? Los agentes que delegan tareas generan procesos hijos con ventanas de contexto frescas. El agente padre ve la salida final del hijo pero no sus llamadas individuales a herramientas, lecturas de archivos ni consumo de recursos. En cada salto de delegación, la información se comprime: la sesión completa del nieto se convierte en una línea de estado en el log del padre. La observabilidad se degrada al mismo ritmo que la profundidad de delegación aumenta.²

¿En qué difiere el monitoreo de agentes del APM tradicional? El Monitoreo de Rendimiento de Aplicaciones (APM) tradicional rastrea la latencia de solicitudes, las tasas de error y el rendimiento para software determinista. El monitoreo de agentes rastrea comportamiento no determinista: qué decidió hacer el agente en tiempo de ejecución, si esas decisiones cayeron dentro de la política y qué recursos consumió cada decisión. El APM asume que la aplicación sigue una ruta de código conocida. El monitoreo de agentes asume que el agente elige su propia ruta.²

Fuentes

mystcb et al., “Cowork feature creates 10GB VM bundle that severely degrades performance,” GitHub Issue #22543, anthropics/claude-code, febrero de 2026. 345 puntos en HN, 175 comentarios. ↩↩↩↩↩
Telemetría de producción del autor. 84 hooks en 15 tipos de eventos, ~15.000 líneas de código de orquestación, más de 60 sesiones diarias de Claude Code, febrero-marzo de 2026. ↩↩↩↩↩↩↩↩↩↩↩↩↩
Crosley, Blake, “What I Told NIST About AI Agent Security,” blakecrosley.com, febrero de 2026. Comentario público sobre NIST-2025-0035. ↩↩↩
DORA Accelerate State of DevOps Report 2024, Google Cloud, 2024. 39.000+ profesionales encuestados. ↩
Implementación del hook cost-gate del autor. Rastreador de presupuesto respaldado por SQLite con umbrales configurables (80%/90%/95%), 36 pruebas, febrero de 2026. ↩↩↩
Biblioteca de extracción de contenido web del autor. trafilatura 2.0.0, registro de URL y seguimiento de tamaño de respuestas, 25 pruebas, febrero de 2026. ↩
dzervas, “mcp-firewall,” GitHub, 2026. Binario Go con configuración de políticas JSONNet, integración de hooks PreToolUse. ↩↩
OWASP Top 10 for Agentic Applications, OWASP GenAI Security Project, 2025. Más de 100 investigadores de seguridad contribuyeron. ↩↩
melonattacker, “Logira: eBPF runtime auditing for AI agent runs,” GitHub, 2026. Linux 5.8+, cgroup v2, diseño de solo observación. ↩↩↩↩↩
Módulo de monitoreo de rendimiento del sistema del autor. Monitoreo de CPU, memoria, disco y swap con umbrales configurables, 46 pruebas, febrero de 2026. ↩
Crosley, Blake, “Anatomy of a Claw: 84 Hooks as an Orchestration Layer,” blakecrosley.com, febrero de 2026. ↩
jv22222, “Claude Code wiped our production database with a Terraform command,” Hacker News, marzo de 2026. 142 puntos, 158 comentarios. ↩
vanburen, “Claude Code deletes developers’ production setup, including database,” Tom’s Hardware, marzo de 2026. 42 puntos en HN, 27 comentarios. ↩
tomvault, “How Claude Code escapes its own denylist and sandbox,” ona.com, marzo de 2026. Tres técnicas de escape en escalada: evasión por ruta, deshabilitación auto-dirigida, evasión mediante enlazador dinámico. 34 puntos en HN. ↩
atombender, “Agent Safehouse: macOS-native sandboxing for local agents,” agent-safehouse.dev, marzo de 2026. 802 puntos en HN, 181 comentarios. ↩