Constituciones de ejecución para agentes de IA: un marco de gobernanza
Las constituciones de ejecución imponen restricciones de gobernanza durante la ejecución de agentes de IA, no solo durante el entrenamiento. Combinan prioridades normativas (límites de comportamiento), atención constitucional (enrutamiento de reglas según el contexto), modulación de competencias (adquisición segura de habilidades con puertas de aprobación) y verificación de alineación de valores (puertas de salida que exigen evidencia antes de aceptar el trabajo como completo). La investigación a través de 7.308 trayectorias de agentes confirma que las habilidades autogeneradas no son confiables sin estas salvaguardas estructurales.
El sistema Learner v2 generó una nueva habilidad un martes por la tarde. La habilidad automatizaba un flujo de trabajo de publicación de blog: validar frontmatter, verificar citas, enviar a staging. Código limpio y bien estructurado. La habilidad también anuló tres reglas de calidad de quality-loop.md porque el analizador de patrones clasificó “ejecutar siempre la puerta de evidencia” como redundante con las verificaciones integradas de la habilidad. Para el miércoles por la mañana, un artículo de blog se publicó sin verificación de citas. La habilidad había aprendido a tomar atajos.
La corrección tomó veinte minutos. La pregunta arquitectónica tomó semanas: ¿cómo permites que un agente aprenda nuevas capacidades sin que desaprenda las restricciones que lo mantienen seguro?
TL;DR
La alineación en fase de entrenamiento (RLHF, IA constitucional durante el entrenamiento, ajuste fino de seguridad) se degrada cuando los agentes operan en entornos abiertos. Seis esfuerzos de investigación independientes convergen en la gobernanza en tiempo de ejecución: constituciones integradas que imponen normas durante la ejecución, no solo durante el entrenamiento. SkillsBench probó 7.308 trayectorias de agentes en 86 tareas y descubrió que las habilidades autogeneradas no proporcionan ningún beneficio promedio — los agentes no pueden crear de manera confiable el conocimiento procedimental del que se benefician al consumirlo.1 El trabajo de autodestilación del MIT demuestra que el ajuste fino estándar causa olvido catastrófico donde las nuevas capacidades destruyen las anteriores.2 La arquitectura de solución tiene cuatro componentes: prioridades normativas, atención constitucional, modulación de competencias y verificación de alineación de valores. A continuación: la teoría, el mapeo para profesionales (tres de los cuatro componentes ya existían en mi sistema Claude Code antes de leer la investigación), y una plantilla de constitución de ejecución que puedes implementar hoy.
El agente que aprendió a tomar atajos
El incidente anterior ocurrió a principios de febrero de 2026 durante la reconstrucción de Learner v2. El analizador de patrones (pattern_analyzer.py) detectó un flujo de trabajo repetido: validar frontmatter, verificar citas, comprobar metadatos SEO y luego enviar a staging. El generador de habilidades (skill_generator.py) compiló el flujo de trabajo en una habilidad reutilizable con validación en línea.
La validación en línea cubría el formato de frontmatter y los campos SEO. No cubría la verificación de citas, que reside en una habilidad separada (citation-verifier) con su propio sistema de autoridad de seis niveles. La habilidad generada marcó la verificación de citas como “resuelta” porque el analizador de patrones vio llamadas a funciones relacionadas con citas en la traza del flujo de trabajo. Confundió “la función fue llamada” con “las restricciones de la función fueron preservadas”.
Tres archivos definían la autoridad de fuentes de manera diferente:
| Archivo | Definición de autoridad |
|---|---|
citation-verifier/SKILL.md |
Sistema de seis niveles: desde fuentes primarias hasta evitar |
seo-blog-playbook/SKILL.md |
Binario: “autoritativo” o “necesita verificación” |
| Habilidad blog-publish generada | Heredó la definición binaria de SEO, no los seis niveles del citation-verifier |
La arquitectura de consolidación documentada antes del incidente3 identificó exactamente este modo de fallo: cuando múltiples archivos definen conceptos superpuestos, las habilidades generadas heredan la definición que el analizador de patrones encuentra primero. La corrección centralizó la autoridad de citas en una única fuente canónica. La lección fue más amplia: los agentes que adquieren nuevas capacidades necesitan garantías estructurales de que el aprendizaje no puede anular la gobernanza.
Por qué la alineación en fase de entrenamiento falla en ejecución
Goel, Maji y Mazumder documentaron el mecanismo: los comportamientos de seguridad se deterioran tanto bajo ajuste fino benigno como adversarial.4 Su trabajo de regularización adaptativa de seguridad en arXiv:2602.17546 demostró que las actualizaciones de mayor riesgo a los pesos del modelo pueden restringirse cerca de una política de referencia segura mientras las actualizaciones de menor riesgo proceden normalmente. El enfoque funciona en tiempo de entrenamiento. No aborda lo que sucede cuando un agente encuentra situaciones novedosas en ejecución que el entrenamiento nunca anticipó.
La brecha entre la alineación en tiempo de entrenamiento y el comportamiento en ejecución crece con la autonomía. Un modelo que responde preguntas en una interfaz de chat opera dentro de límites conductuales estrechos. Un agente que escribe código, genera habilidades, ejecuta pruebas y despliega en producción opera a través de una superficie vastamente más amplia — especialmente cuando las conversaciones de múltiples turnos degradan el acceso del agente a sus propias reglas de gobernanza. La paradoja de confianza del agente agrava esto: cuanto más capaz es el agente, más difícil se vuelve verificar que las capacidades permanezcan dentro de los límites de gobernanza. Cada nueva capacidad crea nuevos modos de fallo que la alineación en tiempo de entrenamiento no puede enumerar de antemano.
Shenfeld et al. en el MIT cuantificaron un modo de fallo específico: el olvido catastrófico durante el aprendizaje continuo.2 El ajuste fino supervisado estándar (SFT) en nuevas tareas causa el colapso del rendimiento en tareas anteriores. Con 14B parámetros, el ajuste fino por autodestilación (SDFT) superó al SFT estándar por 7 puntos en nuevas tareas mientras mantenía un 64,5% de precisión en tareas anteriores — donde las puntuaciones del SFT estándar se desploman. La contrapartida: SDFT requiere aproximadamente 4x la computación y 2,5x los FLOPs.
Para los profesionales, la implicación es directa: cada vez que tu agente aprende algo nuevo (una habilidad generada, un flujo de trabajo almacenado en caché, una instrucción actualizada), el aprendizaje arriesga degradar algo que el agente ya sabía. Mi anulación del quality-loop fue una instancia a nivel de sistema del olvido catastrófico. El agente “aprendió” un atajo de publicación que destruyó su capacidad de verificación de citas.
Cuatro subsistemas de gobernanza en ejecución
La investigación sobre gobernanza de agentes en tiempo de ejecución converge en cuatro requisitos funcionales. Taghavi y colaboradores, trabajando en constituciones interpretables evolutivas, demostraron que los principios de gobernanza evolucionados por LLM superan a los diseñados por humanos para la coordinación multiagente.5 Su trabajo, junto con el paradigma de gobernanza primero de Mahadevan para la ingeniería principista de agentes,6 enmarca el problema como cuatro subsistemas interactuantes.
Mapeé estos cuatro subsistemas a mi infraestructura existente de Claude Code y descubrí que tres de cuatro ya estaban construidos, cada uno resolviendo un problema de producción que había encontrado meses antes de leer la investigación.
| Subsistema | Función | Teoría | Mi implementación |
|---|---|---|---|
| Ingeniería de prioridades normativas | Definir límites de comportamiento aceptable | Reglas constitucionales que persisten entre contextos | quality-loop.md: 7 modos de fallo nombrados, puerta de evidencia con 6 criterios, ciclo de calidad obligatorio |
| Atención constitucional | Enrutar reglas de gobernanza al contexto correcto | Inyección de reglas adaptativa a la tarea | prompt-dispatcher.sh + 84 hooks: inyectar reglas relevantes por tipo de tarea, excluir las irrelevantes |
| Modulación de competencias | Gestionar la adquisición de habilidades de forma segura | Expansión controlada de capacidades | Learner v2: pattern_analyzer.py detecta flujos de trabajo, skill_generator.py crea habilidades con restricciones |
| Verificación de alineación de valores | Verificar que las salidas coincidan con la intención de gobernanza | Verificación de cumplimiento en ejecución | Puerta de evidencia + pride check: 6 criterios obligatorios, detección de lenguaje evasivo, escaneo de modos de fallo |
Subsistema 1: Ingeniería de prioridades normativas
El ciclo de calidad en mi sistema de agentes define siete modos de fallo nombrados: Espiral de atajos, Espejismo de confianza, Meseta del “suficientemente bueno”, Visión de túnel, Verificación fantasma, Deuda diferida e Informe vacío.7 Cada modo de fallo tiene una definición, señal de detección y respuesta obligatoria. No son sugerencias. Son restricciones estructurales: si el agente detecta que está exhibiendo algún modo de fallo, debe reiniciar desde el paso de Evaluación.
El paralelo teórico: las prioridades normativas establecen los límites conductuales dentro de los cuales opera un agente. La alineación en tiempo de entrenamiento enseña al modelo principios generales (“ser útil, inofensivo, honesto”). Las prioridades normativas en ejecución codifican restricciones operativas específicas (“nunca omitir la verificación de citas”, “nunca usar lenguaje evasivo en un informe de finalización”).
La diferencia importa porque los principios en tiempo de entrenamiento son probabilísticos (el modelo tiene más probabilidad de seguirlos) mientras que las prioridades en ejecución pueden ser deterministas (el hook bloquea la acción si se viola la restricción). Esta es la misma distinción explorada en la puerta de evidencia: pasar de “el agente probablemente hizo lo correcto” a “el agente demostró que hizo lo correcto”.
Subsistema 2: Atención constitucional
La arquitectura de contexto de siete capas implementa la atención constitucional mediante carga selectiva. De 650 archivos en el sistema de contexto, menos de 30 se cargan para cualquier tarea dada. El hook prompt-dispatcher.sh analiza la tarea actual e inyecta las reglas de gobernanza relevantes mientras excluye las irrelevantes.
Una tarea de desarrollo web carga reglas de seguridad, reglas de diseño API y patrones FastAPI. No carga reglas específicas de iOS, patrones de desarrollo de juegos ni directrices de contenido para aplicaciones de meditación. La atención constitucional significa que el agente ve las reglas de gobernanza que aplican a esta tarea, no todas las reglas que existen.
La carga selectiva previene un modo de fallo sutil: la dilución de reglas. El sistema de hooks habilita este enrutamiento al analizar el tipo de tarea antes de la inyección de contexto. Cuando un agente recibe 200 reglas, cada regla recibe proporcionalmente menos atención que cuando recibe 20 reglas. La atención constitucional concentra el enfoque de gobernanza en las reglas que importan para el contexto actual.
Subsistema 3: Modulación de competencias
SkillsBench probó 7.308 trayectorias de agentes en 86 tareas en 11 dominios y encontró un resultado sorprendente: las habilidades curadas mejoraron la tasa de aprobación promedio en 16,2 puntos porcentuales, pero las habilidades autogeneradas no proporcionaron ningún beneficio en promedio.1 Los agentes no pueden crear de manera confiable el conocimiento procedimental del que se benefician al consumirlo. Dieciséis de 84 tareas mostraron deltas negativos donde las habilidades perjudicaron activamente el rendimiento.
El resultado de SkillsBench validó una salvaguarda que construí en Learner v2 después del incidente de anulación del quality-loop. Las habilidades generadas ahora requieren aprobación explícita antes de activarse y no pueden modificar ni anular archivos de gobernanza existentes. El analizador de patrones puede observar flujos de trabajo y proponer habilidades, pero el generador de habilidades trata los archivos de gobernanza como inmutables.
La investigación de autodestilación del MIT añade una perspectiva a nivel de parámetros: con modelos más pequeños (3B parámetros), los intentos de aprendizaje continuo en realidad perjudican el rendimiento.2 Solo a partir de 7B+ parámetros el modelo tiene suficiente capacidad para adquirir nuevas habilidades sin destruir las anteriores. El análogo a nivel de infraestructura: los agentes con ventanas de contexto más pequeñas o conjuntos de reglas más simples son más vulnerables a conflictos entre capacidad y gobernanza.
Subsistema 4: Verificación de alineación de valores
La puerta de evidencia requiere evidencia específica para seis criterios antes de que cualquier trabajo se reporte como completo: sigue los patrones del código base (nombrar el patrón), solución funcional más simple (explicar alternativas rechazadas), casos límite manejados (listar cada uno), pruebas pasan (pegar la salida), sin regresiones (nombrar los archivos verificados), y resuelve el problema real (declarar la necesidad del usuario).7
La puerta opera como verificación en ejecución. El agente no puede reportar finalización usando lenguaje evasivo (“debería funcionar”, “creo que”, “parece que”). Cada afirmación requiere evidencia recopilada en la sesión actual. La puerta detecta la Verificación fantasma (afirmar que las pruebas pasan sin ejecutarlas) y el Informe vacío (reportar “listo” sin especificaciones).
El problema del olvido: cuando el aprendizaje destruye conocimiento
La historia de consolidación de habilidades de blog ilustra una versión a nivel de sistema del olvido catastrófico. Diez habilidades de blog que totalizaban 5.400 líneas habían acumulado tres áreas de duplicación.3 Las plantillas JSON-LD aparecían tanto en aio/SKILL.md como en seo-blog-playbook/SKILL.md. Las definiciones de autoridad de citas diferían entre citation-verifier y seo-blog-playbook. La guía de evaluación de blogs vivía tanto en el evaluador principal como en un archivo separado de definiciones de categorías.
Cuando el sistema Learner v2 generaba nuevas habilidades a partir de flujos de trabajo observados, extraía definiciones de la fuente que encontraba primero. El resultado: habilidades generadas que parecían correctas pero portaban las definiciones de autoridad equivocadas. El sistema de citas de seis niveles se degradó a una verificación binaria. Las plantillas de esquema divergieron entre las habilidades creadas manualmente y las autogeneradas.
La corrección de consolidación fue estructural: designar una única fuente canónica para cada concepto y hacer que todas las demás referencias apunten a ella. La autoridad de citas vive en citation-verifier/SKILL.md y en ningún otro lugar. Las plantillas JSON-LD viven en aio/SKILL.md y en ningún otro lugar. El patrón previene que la futura generación de habilidades herede definiciones obsoletas.
El SDFT del MIT ofrece un análogo en tiempo de entrenamiento: usar el conocimiento previo del propio modelo como señal de enseñanza al aprender nuevas capacidades.2 El SFT estándar reemplaza el conocimiento antiguo con el nuevo. La autodestilación mezcla antiguo y nuevo generando datos de entrenamiento a partir de las capacidades existentes del modelo, y luego haciendo ajuste fino sobre la mezcla. El conocimiento previo sobrevive porque está presente en la señal de entrenamiento.
El equivalente a nivel de infraestructura: al generar una nueva habilidad, incluir las restricciones de gobernanza existentes en el prompt de generación. La habilidad generada hereda las restricciones actuales porque esas restricciones son parte del contexto de generación, no un sistema separado que el generador puede pasar por alto.
Gobernanza activa vs. pasiva
El marco RelianceScope de Jin et al. distingue nueve patrones de dependencia de la IA basados en combinaciones de compromiso activo y pasivo.8 Aunque su investigación estudió a estudiantes interactuando con chatbots de IA, la distinción activo/pasivo se mapea directamente a las arquitecturas de gobernanza de agentes.
La gobernanza pasiva inyecta reglas y espera que el agente las siga. Las reglas existen en CLAUDE.md o en prompts del sistema. El agente las lee al inicio de la sesión. Nada verifica el cumplimiento. La mayoría de las configuraciones de profesionales usan gobernanza pasiva: un archivo largo de instrucciones al que el agente puede o no prestar atención a medida que avanza la sesión. Como demuestra el agente invisible, los agentes que operan sin gobernanza activa no dejan rastro de si siguieron sus instrucciones.
La gobernanza activa verifica el cumplimiento en ejecución. Los hooks verifican las salidas contra las restricciones antes de que se ejecuten. Las puertas bloquean los informes de finalización que carecen de evidencia. Los monitores rastrean la deriva conductual y señalan anomalías. La gobernanza activa cuesta más (computación, latencia, complejidad) pero detecta fallos que la gobernanza pasiva no detecta.
| Tipo de gobernanza | Mecanismo | Modo de fallo detectado | Modo de fallo no detectado |
|---|---|---|---|
| Pasiva (reglas en CLAUDE.md) | El agente lee las reglas al inicio de la sesión | Violaciones flagrantes al inicio de la sesión | Dilución de reglas, deriva tardía en la sesión, pérdida por compresión |
| Activa (hooks + puertas) | Los hooks verifican cumplimiento por acción | Deriva, pérdida por compresión, violaciones de reglas | Situaciones novedosas no cubiertas por los hooks existentes |
| Híbrida (reglas + hooks + aprendizaje) | Reglas para límites, hooks para verificación, aprendizaje para adaptación | Deriva, compresión, situaciones novedosas (vía adaptación) | Explotación adversarial del sistema de aprendizaje |
El hallazgo de RelianceScope de que la búsqueda activa de ayuda se correlaciona con el uso activo de respuestas8 sugiere un principio de arquitectura de gobernanza: los agentes que consultan activamente sus restricciones de gobernanza (en lugar de recibirlas pasivamente) producen salidas más conformes. Mi puerta de evidencia opera bajo este principio: en lugar de aplicar reglas pasivamente, el agente debe demostrar activamente el cumplimiento produciendo evidencia para cada criterio.
Plantilla de constitución de ejecución
Tres archivos componen una constitución de ejecución mínima. Adapta la estructura a tu marco de agentes.
Archivo 1: constitution.md
Las prioridades normativas. Lo que el agente siempre debe hacer, nunca debe hacer y cómo maneja la ambigüedad.
# Agent Constitution v1
## Immutable Constraints
- Never modify files in governance/ directory
- Never skip verification steps, even if tests pass
- Never report completion without evidence for all criteria
## Behavioral Norms
- Prefer explicit over implicit (state assumptions)
- Prefer reversible over irreversible actions
- Prefer asking over guessing when requirements are ambiguous
## Failure Response
- On constraint violation: stop, log, escalate
- On ambiguity: ask, do not assume
- On capability conflict: governance wins over efficiency
Archivo 2: capabilities.json
El inventario actual de habilidades con seguimiento de procedencia.
{
"skills": [
{
"name": "blog-publish",
"version": "2.1.0",
"source": "generated",
"approved": true,
"governance_refs": ["citation-verifier", "quality-loop"],
"created": "2026-02-10",
"constraints": [
"Must call citation-verifier before publish",
"Must pass evidence gate before reporting complete"
]
}
],
"pending_approval": [],
"deprecated": []
}
Archivo 3: constraints-registry.json
Mapea cada restricción a su fuente canónica, previniendo el problema de duplicación que causó el incidente de las habilidades de blog.
{
"constraints": {
"citation-authority": {
"canonical_source": "skills/citation-verifier/SKILL.md",
"type": "six-tier-hierarchy",
"overridable": false
},
"quality-gate": {
"canonical_source": "rules/quality-loop.md",
"type": "evidence-gate",
"overridable": false
},
"schema-templates": {
"canonical_source": "skills/aio/SKILL.md",
"type": "json-ld-templates",
"overridable": false
}
}
}
Los tres archivos interactúan: constitution.md define los límites conductuales, capabilities.json rastrea lo que el agente puede hacer con referencias cruzadas de gobernanza, y constraints-registry.json asegura que cada restricción tenga exactamente una fuente canónica. Las habilidades generadas referencian el registro en lugar de copiar definiciones de restricciones. Para un ejemplo funcional de esta arquitectura en un ciclo de desarrollo autónomo, consulta la arquitectura de agente de Ralph. Y si asumes que tu sandbox proporciona contención suficiente por sí solo, lee primero por qué el sandbox de tu agente es una sugerencia.
Conclusiones clave
- La alineación en fase de entrenamiento se degrada en ejecución. El ajuste fino de seguridad enseña principios generales; la gobernanza en ejecución impone restricciones operativas específicas. Goel et al. demostraron que los comportamientos de seguridad se deterioran tanto bajo ajuste fino benigno como adversarial.4
- Las habilidades autogeneradas no son confiables. SkillsBench encontró cero beneficio promedio de las habilidades creadas por agentes en 7.308 trayectorias, con 16 de 84 tareas mostrando impacto negativo.1 Las habilidades generadas necesitan puertas de aprobación y referencias cruzadas de gobernanza.
- El olvido catastrófico opera a nivel de sistema. Las nuevas capacidades pueden anular restricciones existentes incluso sin modificar los pesos del modelo. El incidente de consolidación de habilidades de blog demostró el olvido a nivel de infraestructura donde una habilidad generada heredó las definiciones de autoridad equivocadas.
- Cuatro subsistemas componen la gobernanza en ejecución. Las prioridades normativas definen límites. La atención constitucional enruta las reglas al contexto. La modulación de competencias gestiona el aprendizaje de forma segura. La verificación de alineación de valores confirma el cumplimiento en ejecución.
- La gobernanza activa supera a la gobernanza pasiva. Las reglas en CLAUDE.md son necesarias e insuficientes. Los hooks que verifican el cumplimiento por acción detectan la deriva, la pérdida por compresión y la degradación tardía en la sesión que las reglas pasivas no detectan.
Preguntas frecuentes
¿Qué es una constitución de ejecución para agentes de IA?
Una constitución de ejecución es un conjunto de archivos de gobernanza que imponen restricciones conductuales durante la ejecución del agente, no solo durante el entrenamiento del modelo. Una constitución mínima incluye tres componentes: prioridades normativas (lo que el agente debe y no debe hacer), un registro de capacidades (lo que el agente puede hacer con referencias cruzadas de gobernanza) y un registro de restricciones (una única fuente canónica para cada restricción operativa). Las constituciones de ejecución abordan la brecha entre la alineación en fase de entrenamiento y el comportamiento en producción al hacer que la gobernanza sea determinista en lugar de probabilística.
¿Por qué los agentes de IA no pueden generar sus propias habilidades de manera confiable?
SkillsBench probó 7.308 trayectorias de agentes en 86 tareas en 11 dominios y encontró que las habilidades autogeneradas no proporcionan ningún beneficio promedio. Las habilidades curadas mejoraron el rendimiento en 16,2 puntos porcentuales, pero las habilidades creadas por agentes mostraron cero mejora promedio. En 16 de 84 tareas, las habilidades autogeneradas degradaron activamente el rendimiento. Los agentes pueden consumir y aplicar conocimiento procedimental de manera efectiva, pero no pueden crear ese conocimiento de manera confiable. Las habilidades generadas requieren revisión humana, puertas de aprobación y referencias cruzadas explícitas de gobernanza antes de la activación.
¿Qué es el olvido catastrófico en sistemas de agentes de IA?
El olvido catastrófico a nivel de sistema ocurre cuando las nuevas capacidades del agente anulan restricciones existentes sin modificar los pesos del modelo. El ajuste fino estándar en nuevas tareas causa el colapso del rendimiento en tareas anteriores; la investigación del MIT mostró que la precisión del SFT estándar en tareas previas se degrada drásticamente mientras que el ajuste fino por autodestilación mantiene un 64,5%. A nivel de infraestructura, la misma dinámica ocurre cuando las habilidades generadas, los flujos de trabajo almacenados en caché o las instrucciones actualizadas entran en conflicto con las reglas de gobernanza existentes. La solución es estructural: designar fuentes canónicas para cada restricción y hacer que los archivos de gobernanza sean inmutables a la modificación automatizada.
¿Cómo se implementa la gobernanza activa para agentes de programación?
La gobernanza activa usa hooks, puertas y monitores para verificar el cumplimiento en ejecución en lugar de depender de que el agente auto-imponga las reglas de sus instrucciones. Los hooks se ejecutan antes o después de las llamadas a herramientas para verificar restricciones. Las puertas bloquean los informes de finalización que carecen de evidencia para los criterios obligatorios. Los monitores rastrean métricas conductuales a lo largo del tiempo y señalan la deriva. Un punto de partida práctico: implementar una puerta de evidencia que requiera pruebas específicas para cada criterio de calidad antes de aceptar el trabajo como completo. La puerta detecta los modos de fallo más comunes (verificación fantasma, informes vacíos) con una sobrecarga mínima de implementación.
¿En qué se diferencian las constituciones de ejecución de la seguridad basada en sandbox para agentes?
Los sandboxes restringen dónde puede operar un agente (límites del sistema de archivos, acceso a la red, límites de recursos). Las constituciones de ejecución restringen cómo opera un agente dentro de esos límites (normas conductuales, verificaciones de competencia, puertas de salida). Ambos son necesarios. Un sandbox previene que un agente elimine bases de datos de producción, pero no puede prevenir que un agente publique código que omite la verificación de citas o anula restricciones de calidad. Las constituciones de ejecución llenan esa brecha al integrar reglas de gobernanza que se ejecutan junto con la toma de decisiones del propio agente, verificando el cumplimiento en cada paso en lugar de depender únicamente de la contención perimetral.
Referencias
-
Li, Xiangyi, et al., “SkillsBench: Benchmarking How Well Agent Skills Work Across Diverse Tasks,” arXiv:2602.12670, February 2026. arxiv.org. 86 tasks, 11 domains, 7,308 agent trajectories. Curated skills +16.2pp average; self-generated skills 0pp average. ↩↩↩
-
Shenfeld, Idan, et al., “Self-Distillation Enables Continual Learning,” arXiv:2601.19897, January 2026. arxiv.org. MIT Improbable AI Lab and ETH Zurich. SDFT outperforms SFT by +7 points at 14B parameters while maintaining 64.5% on prior tasks. ↩↩↩↩
-
Author’s decision document: “Blog Skills Pre-Consolidation Architecture (S3.2 Baseline),” February 2026. 10 blog skills, 5,400 lines, three duplication areas identified. ↩↩
-
Goel, Jyotin, Souvik Maji, and Pratik Mazumder, “Learning to Stay Safe: Adaptive Regularization Against Safety Degradation during Fine-Tuning,” arXiv:2602.17546, February 2026. arxiv.org. Adaptive regularization constrains higher-risk weight updates near a safe reference policy. ↩↩
-
Taghavi, et al., “Evolving Interpretable Constitutions for Multi-Agent Coordination,” arXiv:2602.00755, February 2026. arxiv.org. LLM-evolved constitutions outperform human-designed principles for multi-agent coordination. ↩
-
Mahadevan, “From Craft to Constitution: A Governance-First Paradigm for Principled Agent Engineering,” arXiv:2510.13857, October 2025. arxiv.org. Introduces “Creed Constitutions” as modular runtime compliance enforcers. ↩
-
Author’s quality-loop.md and Jiro craftsmanship system. Seven named failure modes, evidence gate with six mandatory criteria. Documented in The Shokunin Approach. ↩↩
-
Jin, Hyoungwook, et al., “RelianceScope: An Analytical Framework for Examining Students’ Reliance on Generative AI Chatbots in Problem Solving,” arXiv:2602.16251, February 2026. arxiv.org. Nine reliance patterns based on active vs. passive engagement. Applied here to agent governance architectures. ↩↩
-
Author’s context-is-architecture system. Seven-layer hierarchy across 650 files documented in Context Engineering Is Architecture. ↩
-
Author’s Learner v2 system. Pattern analyzer and skill generator documented in Compounding Engineering. ↩