← Todos los articulos

Pensar con diez cerebros: cómo uso la deliberación de agentes como herramienta de decisión

From the guide: Claude Code Comprehensive Guide

Llevaba tres horas diseñando un sistema de recuperación de memoria para mi arnés de Claude Code cuando decidí pasar la decisión por mi sistema de deliberación multi-agente. Diez agentes de IA evaluaron el proyecto de forma independiente. Nueve de ellos tenían opiniones sobre arquitectura, seguridad y rendimiento. El décimo hizo una pregunta que yo no había pensado en formular: “¿Cuánto cuesta realmente el problema que está intentando resolver?”

La respuesta mató el proyecto. El exceso de tokens que planeaba optimizar costaba menos al mes que un café. El sistema de recuperación que planeaba construir requeriría entre 200 y 400 horas de ingeniería. Punto de equilibrio: de 18 a 36 años.1

Todos los demás agentes habían producido análisis útiles. El diseño del Arquitecto Técnico era limpio. El Analista de Seguridad encontró riesgos reales. Las matemáticas del Ingeniero de Rendimiento eran precisas. Pero ninguno cuestionó si el proyecto debería existir. Yo ciertamente no lo había cuestionado. Ya estaba anclado en la solución. El Analista de Costos no tenía tal ancla, porque evalúa cada propuesta desde cero.

TL;DR

No puede eliminar los sesgos cognitivos simplemente siendo consciente de ellos. Kahneman lo demostró hace décadas: incluso los expertos que estudian sesgos caen en ellos.2 La deliberación multi-agente es una intervención estructural, no un truco de prompting. Diez agentes de IA con diferentes prioridades de evaluación fuerzan la externalización del razonamiento, haciendo visibles los puntos ciegos antes de que se conviertan en compromisos. Construí la arquitectura en enero de 2026 y la he usado durante dos meses en decisiones que van desde sistemas de memoria hasta estrategia de blog y diseño de API. Este artículo trata sobre la práctica: cómo pensar con diez cerebros, cuándo hacerlo y cuándo empeora las cosas.


El problema de su propia cabeza

Daniel Kahneman dedicó toda una carrera a documentar un fallo estructural en la cognición humana. El Sistema 1 genera juicios rápidos e intuitivos. Se supone que el Sistema 2 los verifica. En la práctica, el Sistema 2 opera en “un cómodo modo de bajo esfuerzo” y aprueba las conclusiones del Sistema 1 sin escrutinio.2 El hallazgo central de Kahneman: el sistema de supervisión es perezoso. Sella con goma de estampar la intuición.

Esto se corresponde directamente con la forma en que la mayoría de las personas usa la IA. Usted le hace una pregunta a un agente. El agente genera una respuesta (Sistema 1). Usted lee la respuesta y decide si suena correcta (Sistema 2). Pero su Sistema 2 está evaluando la respuesta a través de los mismos sesgos que moldearon la pregunta. Se ancló en su primer encuadre. Le dio al agente contexto que confirmaba su hipótesis existente. El agente, entrenado para ser útil, reforzó su dirección. En ningún momento alguien cuestionó la premisa.

Estos son los sesgos que más afectan las decisiones de ingeniería:

Sesgo Cómo se manifiesta Qué lo detecta
Confirmación Buscar datos que apoyen el enfoque planificado Agente con mandato opuesto
Anclaje La primera estimación domina todo el pensamiento posterior Estimación independiente de múltiples agentes
Costo hundido “Ya construimos la base, mejor continuemos” Analista de Costos que evalúa desde cero
Disponibilidad Sobreponderar el incidente de producción más reciente Agente con acceso a patrones históricos
Dunning-Kruger Confianza en áreas donde le falta profundidad Agente especialista en el dominio
Supervivencia “Los últimos tres despliegues salieron bien” Pesimista de Mantenimiento que pregunta por los fallos que olvidó

Las contraestrategias están bien documentadas: procesos de abogado del diablo, análisis pre-mortem, marcos de decisión estructurada, ciclos de retroalimentación externa.3 El problema es la ejecución. Realizar un pre-mortem requiere reunir personas, coordinar horarios y superar la presión social. Buscar un abogado del diablo requiere encontrar a alguien dispuesto a estar en desacuerdo con la persona que firma su evaluación de desempeño.

La deliberación multi-agente elimina la barrera de ejecución. Los agentes siempre están disponibles. No tienen incentivos sociales para estar de acuerdo. Evalúan de forma independiente por diseño, no por disciplina.


La deliberación como pensamiento externalizado

Sam Altman describe la escritura como “pensamiento externalizado”: cuando un problema se siente confuso, escribirlo obliga a la claridad.4 El mismo mecanismo se aplica al debate estructurado. Cuando diez agentes articulan su razonamiento en paralelo, el razonamiento se convierte en un artefacto que se puede inspeccionar.

Esta no es una idea nueva. Marvin Minsky propuso en The Society of Mind que la inteligencia emerge de la interacción de muchos agentes más pequeños y simples, no de un único proceso sofisticado.5 Andrew Ng identificó tres patrones para sistemas multi-agente: debate (proponer, criticar, revisar), colaboración (especialistas en paralelo con un sintetizador) y evaluación adversarial (equipo rojo versus equipo azul).6 El marco de los Seis Sombreros para Pensar de Edward de Bono, publicado en 1985, asigna perspectivas paralelas (hechos, emociones, precaución, optimismo, creatividad, proceso) para evitar que los grupos se anclen en un solo modo de pensamiento.7

Mi sistema de deliberación implementa los tres patrones simultáneamente. Los diez agentes de investigación son especialistas (el patrón colaborativo de Ng). Los agentes de Debate y Síntesis crean desacuerdo estructurado (el patrón de debate de Ng). El Pesimista de Mantenimiento y el Analista de Seguridad funcionan como evaluadores adversariales. Cada agente corresponde a un sombrero de pensamiento:

Agente Sombrero de De Bono Modo de pensamiento
Arquitecto Técnico Blanco Hechos, factibilidad, patrones de integración
Analista de Costos Blanco Datos, economía, análisis de punto de equilibrio
Defensor de UX Rojo Sentimientos del usuario, carga cognitiva, fricción
Analista de Seguridad Negro Riesgos, vulnerabilidades, modos de fallo
Pesimista de Mantenimiento Negro Deuda técnica, costos a largo plazo
Explorador de Innovación Verde Enfoques novedosos, alternativas
Ingeniero de Rendimiento Amarillo Ganancias de eficiencia, potencial de optimización
Guardián de Calidad Azul Proceso, estrategia de testing, observabilidad

La arquitectura está documentada en otro lugar. Lo que importa aquí es la práctica. La deliberación lo obliga a externalizar la decisión en un formato donde los sesgos se hacen visibles. Deja de preguntarse “¿es esta una buena idea?” y empieza a leer diez respuestas independientes a “¿qué podría salir mal, qué dicen las matemáticas y qué alternativas existen?”

Pedro Domingos describe la IA ideal como un “exoesqueleto mental”: algo que extiende su pensamiento en lugar de reemplazarlo, que representa sus intereses en lugar de adular sus conclusiones.8 Un panel de deliberación que incluye un abogado del diablo, un analista de costos y un pesimista de mantenimiento es exactamente eso. Amplifica las partes de su cognición que son estructuralmente débiles.


Caso de estudio: la decisión de arquitectura de memoria

En febrero de 2026, ejecuté la primera prueba en vivo del sistema de deliberación sobre la pregunta del inicio: ¿qué arquitectura de memoria debería usar mi arnés de Claude Code en 12 proyectos activos?1

Mi arnés inyecta archivos MEMORY.md en cada conversación. Estos archivos contienen decisiones del proyecto, patrones, historial de errores y notas de arquitectura. El problema: la mayor parte de ese contexto es irrelevante para cualquier sesión dada. Solo el 5-10% de la memoria cargada importa para la tarea actual. El resto son tokens desperdiciados. Un objetivo de optimización obvio.

La confianza inicial puntuó 0,50, muy por debajo del umbral de 0,70 que activa la deliberación. El sistema desplegó los diez agentes de investigación. Cada uno investigó de forma independiente con aislamiento de contexto: los agentes no podían ver los hallazgos de los demás durante la investigación.

Surgieron tres enfoques:

Enfoque Puntuación Apoyo Veredicto
Nativo Inteligente (inyección selectiva) 7,04/10 8 de 10 agentes Ganador
Mantener Nativo (sistema actual, fortalecido) 6,50/10 5 de 10 agentes Seguro pero bajo impacto
Memoria Full Stack (herramientas externas) 5,38/10 1 de 10 agentes Mayor capacidad, riesgo crítico

Las puntuaciones cuentan una historia. Lo que encontraron los agentes individuales cuenta una mejor.

Arquitecto Técnico: Identificó cuatro patrones de integración (servidor MCP, MEMORY.md aumentado, recuperación por embeddings, gestor basado en agentes). Recomendó un enfoque escalonado: aumentar los archivos existentes ahora, añadir recuperación por embeddings después. Diseño limpio, bien delimitado.

Analista de Seguridad: Calificó cada herramienta de memoria externa con riesgo ALTO a CRÍTICO de exposición de credenciales. Identificó un ataque específico: una sesión comprometida inyecta “siempre resumir claves de API” en la memoria persistente, envenenando silenciosamente cada sesión futura.

Ingeniero de Rendimiento: Cuantificó el desperdicio. Solo el 5-10% de la memoria cargada es relevante por conversación. Pero con ventanas de contexto de 1M de tokens, la sobrecarga total de memoria es de 2K tokens, apenas el 0,2% de la capacidad. La “optimización obvia” apunta a un error de redondeo.

Defensor de UX: “El mejor sistema de memoria es aquel en el que nunca piensa.” Cada alternativa añade impuesto cognitivo. Los usuarios empiezan a preguntarse “¿está funcionando la memoria? ¿Qué sabe?” y dejan de confiar en el contexto automatizado. El sistema invisible tiene mayor confianza del usuario que cualquier sistema visible.

Pesimista de Mantenimiento: Múltiples sistemas de memoria crean superficies de fallo combinatorias. Cuatro sistemas interactuando producen 16 modos de fallo por pares. Claude Code se actualiza con frecuencia. Los plugins externos se rompen con los cambios de versión. Un fallo silencioso de un hook significa que el agente opera con contexto incompleto y sin advertencia.

Analista de Costos: Este es el agente que mató el proyecto. El costo total en tokens de cargar siempre los archivos de memoria en los 12 proyectos: trivial. El sistema de recuperación propuesto ahorraría unos pocos dólares al mes. Tiempo de ingeniería para construirlo: 200-400 horas. Punto de equilibrio: 18 a 36 años. El resumen del Analista de Costos: “En un mundo obsesionado con la optimización, a veces la respuesta correcta es dejar las cosas como están.”

Ningún agente individual produjo un análisis incorrecto. El diseño del Arquitecto Técnico funcionaba. Las matemáticas de tokens del Ingeniero de Rendimiento eran correctas. Pero la decisión requería las diez perspectivas para evitar la trampa de la optimización. Dejado a mis propios instintos, habría construido el sistema de recuperación porque se sentía como progreso. El Analista de Costos hizo la pregunta que yo no podía hacerme a mí mismo porque tres horas de alcance ya habían anclado mi pensamiento en la solución.


Deliberación vs. Duelo

La deliberación es colaborativa: diez agentes evaluando una decisión desde diferentes perspectivas. También construí una variante competitiva que enfrenta a Claude Code contra Codex CLI en la misma tarea, puntúa ambos planes a ciegas y sintetiza los elementos más fuertes de cada uno. Treinta y seis duelos han producido patrones que merecen su propio artículo. La versión corta: delibero las decisiones arquitectónicas y duelo los planes de implementación. La deliberación responde “¿deberíamos construir esto?” El duelo responde “¿cuál es la forma más sólida de construirlo?”


El Pesimista de Mantenimiento y el arte de la inversión

La técnica de inversión de Charlie Munger pregunta: en lugar de “¿cómo logro X?”, pregunte “¿qué garantizaría el fracaso en X?” Luego evite esas cosas.9 El pre-mortem de Gary Klein operacionaliza la misma idea: asuma que el proyecto fracasó, luego explique por qué.10 La investigación de Philip Tetlock sobre la precisión de los pronósticos encontró que los “zorros” que integran múltiples perspectivas superan consistentemente a los “erizos” que se comprometen con una sola gran idea.11

Cada agente de deliberación encarna un marco de pensamiento con nombre:

Agente Marco de pensamiento La pregunta que formula
Pesimista de Mantenimiento Inversión (Munger) “¿Qué nos hará arrepentirnos de esto en 6 meses?”
Analista de Seguridad Pre-mortem (Klein) “Se desplegó y fue vulnerado. ¿Qué nos faltó?”
Explorador de Innovación Pensamiento zorro (Tetlock) “¿Qué enfoques de otros dominios aplican aquí?”
Analista de Costos Primeros principios “¿Qué dicen realmente las matemáticas?”
Defensor de UX Mapeo de empatía “¿Cómo experimenta el usuario este fallo?”

El Pesimista de Mantenimiento es el agente más valioso de mi sistema. No porque sea el más inteligente o el más exhaustivo, sino porque hace la pregunta que es menos probable que yo me haga. Cuando estoy entusiasmado construyendo algo, lo último que quiero pensar es cuánto costará mantenerlo en seis meses. El Pesimista de Mantenimiento no tiene entusiasmo. No tiene costo hundido. Evalúa la propuesta como si ya existiera y pregunta qué se rompe.

En la deliberación de arquitectura de memoria, el Pesimista de Mantenimiento identificó que cuatro sistemas de memoria interactuando producen 16 modos de fallo por pares. Claude Code se actualiza con frecuencia. Los plugins externos se rompen con los cambios de versión. Los fallos silenciosos de hooks significan que el agente opera con contexto incompleto y sin advertencia. Estos no son riesgos hipotéticos. Son predicciones basadas en patrones que el pesimista ha sido entrenado para reconocer.

Kahneman describió el pre-mortem como una de las técnicas de eliminación de sesgos más efectivas que conoce, porque legitima el disenso.2 Un agente de deliberación que está diseñado para disentir elimina el costo social por completo.


La puerta de evidencia: no se permita autoevaluarse

Mi arnés usa un patrón de Puerta de Evidencia para cada informe de finalización.12 La regla: los sentimientos no son evidencia. “Creo que esto funciona” no es una afirmación válida. Ejecutar la suite de pruebas y pegar la salida sí lo es.

Criterio Evidencia requerida NO es suficiente
Sigue los patrones del código base Nombrar el patrón y el archivo donde existe “Seguí las mejores prácticas”
Solución funcional más simple Nombrar las alternativas rechazadas y por qué “Está limpio”
Casos extremos manejados Listar casos específicos y cómo se resuelve cada uno “Consideré los casos extremos”
Pruebas pasan Pegar la salida de las pruebas “Las pruebas deberían pasar”
Sin regresiones Nombrar archivos y funciones relacionadas verificadas “Nada más debería verse afectado”

El lenguaje evasivo es una señal de alarma: “debería,” “probablemente,” “parece que,” “creo que,” “se ve correcto.” Cada palabra señala que la verificación no ocurrió.12 Esto aplica también al razonamiento humano. Cuando se descubre diciendo “estoy bastante seguro de que este es el enfoque correcto,” eso no es evidencia. Es el Sistema 2 sellando con goma de estampar al Sistema 1.

La deliberación multi-agente impone la Puerta de Evidencia estructuralmente. El Analista de Costos no dice “esto probablemente tiene sentido económico.” Dice “$9/mes de costo actual, $5/mes de ahorro, 200-400 horas para construirlo, punto de equilibrio de 18-36 años.” El Analista de Seguridad no dice “la postura de seguridad parece razonable.” Dice “escenario de envenenamiento de memoria: una sesión comprometida inyecta instrucciones de recolección de credenciales en la memoria persistente.”

El mecanismo de eliminación de sesgos más efectivo que he encontrado no es una lista de verificación ni una filosofía. Es un sistema donde los agentes no pueden autoevaluarse. Deben producir evidencia, y esa evidencia es evaluada por otros agentes que no tienen incentivo para estar de acuerdo.


Cuándo NO deliberar

La deliberación también tiene modos de fallo. El sistema añade de 2 a 4 minutos y de $2 a $3 por invocación a escala completa. Más importante aún, puede sobrecorregir.

Ejecuté una deliberación sobre una refactorización directa de un endpoint de API. Diez agentes produjeron preocupaciones sobre compatibilidad retroactiva, rutas de migración, limitación de velocidad, manejo de errores, monitoreo y documentación. El endpoint servía a dos consumidores internos. La deliberación generó 14 elementos de acción para lo que debería haber sido un cambio de 20 líneas. Ignoré 12 de ellos y desplegué la refactorización. La deliberación era técnicamente correcta, los riesgos eran reales, pero la decisión era una puerta de dos vías.13

Jeff Bezos distingue las decisiones de Tipo 1 (irreversibles, puertas de una sola vía) de las decisiones de Tipo 2 (reversibles, puertas de dos vías). Las decisiones de Tipo 1 exigen deliberación cuidadosa: cambios de esquema de base de datos, arquitectura de seguridad, contratos públicos de API. Las decisiones de Tipo 2 exigen velocidad: refactorizaciones internas, actualizaciones de documentación, experimentos con feature flags.13 Aplicar un proceso pesado a decisiones ligeras es su propia forma de desperdicio.

Reglas que sigo:

Deliberar cuando: - La decisión es irreversible o costosa de revertir - Múltiples compensaciones requieren evaluación especializada - Su confianza está por debajo de 0,70 (se siente inseguro pero no puede articular por qué) - El dominio está fuera de su experiencia principal

Simplemente decidir cuando: - El cambio está detrás de un feature flag o es fácilmente reversible - El alcance está contenido (un archivo, una función, un endpoint) - Ya ha tomado este tipo de decisión exitosamente antes - El costo de equivocarse es menor que el costo de deliberar

Nunca deliberar sobre: - Correcciones de documentación - Renombrar variables - Actualizaciones de fixtures de prueba - Cambios en mensajes de log

El 10% de las decisiones que ameritan deliberación producen el 90% del valor. Deliberar sobre todo produce parálisis por análisis. No deliberar sobre nada despliega los sesgos que no puede ver.


Lo que he aprendido en dos meses

El sistema ha ejecutado aproximadamente 40 deliberaciones desde enero de 2026. Patrones:

  1. El Analista de Costos es el agente más subestimado. Los ingenieros instintivamente recurren al Ingeniero de Rendimiento y al Analista de Seguridad. El Analista de Costos ha matado más malas ideas que cualquier otra persona haciendo la única pregunta que los ingenieros detestan: “¿cuánto cuesta esto realmente?”

  2. Un consenso por debajo de 0,70 significa que la pregunta está mal formulada. Cuando los agentes no pueden ponerse de acuerdo, el problema suele ser un encuadre ambiguo, no un desacuerdo genuino. Replantear la pregunta y ejecutar de nuevo produce mejores resultados que forzar la convergencia.

  3. El Pesimista de Mantenimiento detecta lo que los post-mortems encuentran demasiado tarde. Cada preocupación que el Pesimista de Mantenimiento planteó sobre la arquitectura de memoria ha sido validada desde entonces por la experiencia real de mantener sistemas más simples.

  4. Dos agentes capturan el 80% del valor. El patrón mínimo viable: un agente argumenta A FAVOR, otro argumenta EN CONTRA. La independencia es el mecanismo. Diez agentes son mejores, pero dos agentes son infinitamente mejores que uno.

  5. La deliberación mejora la pregunta, no solo la respuesta. El resultado más común no es “el enfoque ganador.” Es “la pregunta replanteada de una forma que hace obvia la respuesta.”


Referencias


  1. Sesión de deliberación del autor delib-20260207-082618-9105e6. 10 agentes de investigación, 3 enfoques generados, enfoque ganador puntuado 7,04/10 con apoyo de 8/10 agentes. Registro completo de la sesión en bóveda de Obsidian. 

  2. Kahneman, Daniel, Thinking, Fast and Slow, Farrar, Straus and Giroux, 2011. El Sistema 2 opera en “un cómodo modo de bajo esfuerzo” y aprueba las conclusiones del Sistema 1 sin escrutinio. 

  3. Nota de bóveda del autor, “20 Cognitive Biases That Mess Up Your Decisions.” Contraestrategias: proceso de abogado del diablo, análisis pre-mortem, marcos de decisión estructurada, ciclos de retroalimentación externa. 

  4. Altman, Sam. “I think of writing as externalized thinking. If I have a very hard problem or if I feel a little bit confused about something, I have to write it down.” Vía @StartupArchive_. 

  5. Minsky, Marvin, The Society of Mind, Simon & Schuster, 1986. La inteligencia emerge de la interacción de muchos agentes más pequeños y simples, no de un único proceso sofisticado. 

  6. Ng, Andrew. Patrones de IA multi-agente: debate (proponer-criticar-revisar), colaboración (especialistas en paralelo con sintetizador), adversarial (equipo rojo vs. equipo azul). Reportado en marzo de 2024. 

  7. de Bono, Edward, Six Thinking Hats, Little, Brown and Company, 1985. Seis perspectivas paralelas previenen el anclaje en un solo modo de pensamiento. 

  8. Domingos, Pedro. La IA como “exoesqueleto mental”: extender en lugar de reemplazar la cognición humana, representar los intereses del usuario en lugar de adular sus conclusiones. 

  9. Munger, Charlie. Pensamiento de inversión: en lugar de “¿Cómo logro X?”, preguntar “¿Qué garantizaría el fracaso en X?” Luego evitar esas cosas. Citado frecuentemente en las reuniones de accionistas de Berkshire Hathaway. 

  10. Klein, Gary, “Performing a Project Premortem,” Harvard Business Review, septiembre de 2007. Asumir que el proyecto fracasó, luego explicar por qué. Basado en investigación de Mitchell, Russo y Pennington (1989) que muestra que la retrospectiva prospectiva aumenta la identificación de razones de fallo en un 30%. 

  11. Tetlock, Philip E., Expert Political Judgment: How Good Is It? How Can We Know?, Princeton University Press, 2005. Los “zorros” que integran múltiples perspectivas superan consistentemente a los “erizos” que se comprometen con una sola idea. Expandido en Superforecasting (Crown, 2015). 

  12. Patrón de Puerta de Evidencia del autor. Implementación en las reglas del Ciclo de Calidad (~/.claude/rules/quality-loop.md). El lenguaje evasivo activa la reverificación obligatoria. Véase también Filosofía de Calidad Jiro

  13. Bezos, Jeff, Carta a los Accionistas de Amazon 2015 (presentación ante la SEC). Decisiones de Tipo 1: irreversibles, puertas de una sola vía que requieren deliberación cuidadosa. Decisiones de Tipo 2: reversibles, puertas de dos vías que requieren velocidad. 

Artículos relacionados

The Blind Judge: Scoring Claude Code vs Codex in 36 Duels

Claude Code vs Codex CLI, scored blind on 5 dimensions across 36 duels. The winner matters less than the synthesis combi…

14 min de lectura

Anthropic Measured What Works. My Hooks Enforce It.

Anthropic analyzed 9,830 conversations. Iterative refinement doubles fluency markers. Polished outputs suppress evaluati…

13 min de lectura

Multi-Agent Deliberation: When Agreement Is the Bug

Multi-agent deliberation catches failures that single-agent systems miss. Here is the architecture, the dead ends, and w…

19 min de lectura