Constitutions d'exécution pour agents IA : un cadre de gouvernance

18 min de lecture

From the guide: Claude Code Comprehensive Guide

Les constitutions d’exécution appliquent des contraintes de gouvernance pendant l’exécution des agents IA, et non uniquement pendant l’entraînement. Elles combinent des priors normatifs (limites comportementales), une attention constitutionnelle (routage contextuel des règles), une modulation des compétences (acquisition sécurisée de capacités avec portes d’approbation) et une vérification de l’alignement des valeurs (portes de sortie exigeant des preuves avant d’accepter un travail comme terminé). Des recherches portant sur 7 308 trajectoires d’agents confirment que les compétences auto-générées sont peu fiables sans ces garde-fous structurels.

Le système Learner v2 a généré une nouvelle compétence un mardi après-midi. Cette compétence automatisait un flux de publication de blog : valider le frontmatter, vérifier les citations, pousser vers le staging. Du code propre et bien structuré. La compétence a également contourné trois règles de qualité de quality-loop.md parce que l’analyseur de motifs avait classé « toujours exécuter la porte de preuves » comme redondant avec les vérifications intégrées de la compétence. Le mercredi matin, un article de blog avait été publié sans vérification des citations. La compétence avait appris à prendre des raccourcis.

La correction a pris vingt minutes. La question architecturale a pris des semaines : comment permettre à un agent d’acquérir de nouvelles capacités sans lui laisser désapprendre les contraintes qui le maintiennent en sécurité ?

TL;DR

L’alignement en phase d’entraînement (RLHF, IA constitutionnelle pendant l’entraînement, ajustement de sécurité) se dégrade lorsque les agents opèrent dans des environnements ouverts. Six efforts de recherche indépendants convergent vers la gouvernance d’exécution : des constitutions embarquées qui appliquent les normes pendant l’exécution, pas seulement pendant l’entraînement. SkillsBench a testé 7 308 trajectoires d’agents sur 86 tâches et a constaté que les compétences auto-générées n’apportent aucun bénéfice moyen — les agents ne peuvent pas rédiger de manière fiable le savoir procédural dont ils tirent profit en le consommant.¹ Les travaux d’auto-distillation du MIT montrent que le fine-tuning standard provoque un oubli catastrophique où les nouvelles capacités détruisent les anciennes.² L’architecture de solution comprend quatre composants : priors normatifs, attention constitutionnelle, modulation des compétences et vérification de l’alignement des valeurs. Ci-dessous : la théorie, la correspondance praticienne (trois des quatre composants existaient déjà dans mon système Claude Code avant que je ne lise la recherche), et un modèle de constitution d’exécution que vous pouvez implémenter dès aujourd’hui.

L’agent qui a appris à prendre des raccourcis

L’incident décrit ci-dessus s’est produit début février 2026 lors de la reconstruction de Learner v2. L’analyseur de motifs (pattern_analyzer.py) a détecté un flux récurrent : valider le frontmatter, vérifier les citations, contrôler les métadonnées SEO, puis pousser vers le staging. Le générateur de compétences (skill_generator.py) a compilé ce flux en une compétence réutilisable avec validation intégrée.

La validation intégrée couvrait le format du frontmatter et les champs SEO. Elle ne couvrait pas la vérification des citations, qui réside dans une compétence séparée (citation-verifier) dotée de son propre système d’autorité à six niveaux. La compétence générée a marqué la vérification des citations comme « traitée » parce que l’analyseur de motifs avait vu des appels de fonction liés aux citations dans la trace du flux. Il a confondu « la fonction a été appelée » avec « les contraintes de la fonction ont été préservées ».

Trois fichiers définissaient l’autorité des sources différemment :

Fichier	Définition de l’autorité
`citation-verifier/SKILL.md`	Système à six niveaux : des sources primaires jusqu’à « à éviter »
`seo-blog-playbook/SKILL.md`	Binaire : « faisant autorité » ou « nécessite vérification »
Compétence blog-publish générée	A hérité de la définition binaire du SEO, pas des six niveaux du citation-verifier

L’architecture de consolidation documentée avant l’incident³ identifiait précisément ce mode de défaillance : lorsque plusieurs fichiers définissent des concepts qui se chevauchent, les compétences générées héritent de la définition que l’analyseur de motifs rencontre en premier. La correction a centralisé l’autorité des citations dans une source canonique unique. La leçon était plus large : les agents qui acquièrent de nouvelles capacités ont besoin de garanties structurelles empêchant l’apprentissage de supplanter la gouvernance.

Pourquoi l’alignement en phase d’entraînement échoue à l’exécution

Goel, Maji et Mazumder ont documenté le mécanisme : les comportements de sécurité se dégradent sous fine-tuning bénin comme adversarial.⁴ Leurs travaux sur la régularisation adaptative de sécurité (arXiv:2602.17546) ont montré que les mises à jour à haut risque des poids du modèle peuvent être contraintes à rester proches d’une politique de référence sûre, tandis que les mises à jour à faible risque procèdent normalement. L’approche fonctionne au moment de l’entraînement. Elle ne traite pas ce qui se passe lorsqu’un agent rencontre des situations nouvelles à l’exécution que l’entraînement n’avait jamais anticipées.

L’écart entre l’alignement au moment de l’entraînement et le comportement à l’exécution croît avec l’autonomie. Un modèle qui répond à des questions dans une interface de chat opère dans des limites comportementales étroites. Un agent qui écrit du code, génère des compétences, exécute des tests et déploie en production opère sur une surface considérablement plus étendue — d’autant plus lorsque les conversations multi-tours dégradent l’accès de l’agent à ses propres règles de gouvernance. Le paradoxe de confiance des agents aggrave la situation : plus l’agent est capable, plus il devient difficile de vérifier que ses capacités restent dans les limites de la gouvernance. Chaque nouvelle capacité crée de nouveaux modes de défaillance que l’alignement en phase d’entraînement ne peut pas énumérer à l’avance.

Shenfeld et al. au MIT ont quantifié un mode de défaillance spécifique : l’oubli catastrophique pendant l’apprentissage continu.² Le fine-tuning supervisé standard (SFT) sur de nouvelles tâches provoque l’effondrement des performances sur les tâches antérieures. À 14 milliards de paramètres, le fine-tuning par auto-distillation (SDFT) surpassait le SFT standard de 7 points sur les nouvelles tâches tout en maintenant une précision de 64,5 % sur les tâches antérieures — là où les scores du SFT standard s’effondraient. Le compromis : le SDFT nécessite environ 4 fois la puissance de calcul et 2,5 fois les FLOPs.

Pour les praticiens, l’implication est directe : chaque fois que votre agent apprend quelque chose de nouveau (une compétence générée, un flux mis en cache, une instruction mise à jour), cet apprentissage risque de dégrader ce que l’agent savait déjà. Mon contournement du quality-loop était une instance au niveau système de l’oubli catastrophique. L’agent a « appris » un raccourci de publication qui a détruit sa capacité de vérification des citations.

Quatre sous-systèmes de gouvernance d’exécution

La recherche sur la gouvernance des agents à l’exécution converge vers quatre exigences fonctionnelles. Taghavi et ses collaborateurs, travaillant sur l’évolution de constitutions interprétables, ont démontré que les principes de gouvernance évolués par LLM surpassent ceux conçus par l’humain pour la coordination multi-agents.⁵ Leurs travaux, combinés au paradigme de gouvernance prioritaire de Mahadevan pour l’ingénierie principielle des agents,⁶ formulent le problème comme quatre sous-systèmes en interaction.

J’ai mis en correspondance ces quatre sous-systèmes avec mon infrastructure Claude Code existante et j’ai découvert que trois sur quatre étaient déjà construits, chacun résolvant un problème de production rencontré des mois avant la lecture de la recherche.

Sous-système	Fonction	Théorie	Mon implémentation
Ingénierie des priors normatifs	Définir les limites de comportement acceptable	Règles constitutionnelles persistant à travers les contextes	`quality-loop.md` : 7 modes de défaillance nommés, porte de preuves avec 6 critères, boucle qualité obligatoire
Attention constitutionnelle	Router les règles de gouvernance vers le bon contexte	Injection de règles adaptative à la tâche	`prompt-dispatcher.sh` + 84 hooks : injectent les règles pertinentes par type de tâche, excluent les non pertinentes
Modulation des compétences	Gérer l’acquisition de compétences en sécurité	Expansion contrôlée des capacités	Learner v2 : `pattern_analyzer.py` détecte les flux, `skill_generator.py` crée des compétences avec contraintes
Vérification de l’alignement des valeurs	Vérifier que les sorties correspondent à l’intention de gouvernance	Vérification de conformité à l’exécution	Porte de preuves + pride check : 6 critères obligatoires, détection de langage évasif, analyse des modes de défaillance

Sous-système 1 : Ingénierie des priors normatifs

La boucle qualité de mon système d’agents définit sept modes de défaillance nommés : Spirale du raccourci, Mirage de confiance, Plateau du « suffisant », Vision tunnel, Vérification fantôme, Dette différée et Rapport creux.⁷ Chaque mode de défaillance possède une définition, un signal de détection et une réponse obligatoire. Ce ne sont pas des suggestions. Ce sont des contraintes structurelles : si l’agent détecte qu’il exhibe un mode de défaillance, il doit redémarrer à l’étape Évaluation.

Le parallèle théorique : les priors normatifs établissent les limites comportementales dans lesquelles un agent opère. L’alignement au moment de l’entraînement enseigne au modèle des principes généraux (« être utile, inoffensif, honnête »). Les priors normatifs à l’exécution encodent des contraintes opérationnelles spécifiques (« ne jamais sauter la vérification des citations », « ne jamais utiliser de langage évasif dans un rapport de complétion »).

La différence compte parce que les principes de l’entraînement sont probabilistes (le modèle est plus susceptible de les suivre) tandis que les priors à l’exécution peuvent être déterministes (le hook bloque l’action si la contrainte est violée). C’est la même distinction explorée dans la porte de preuves : passer de « l’agent a probablement fait ce qu’il fallait » à « l’agent a prouvé qu’il a fait ce qu’il fallait ».

Sous-système 2 : Attention constitutionnelle

L’architecture de contexte à sept couches implémente l’attention constitutionnelle par chargement sélectif. Sur 650 fichiers dans le système de contexte, moins de 30 sont chargés pour une tâche donnée. Le hook prompt-dispatcher.sh analyse la tâche en cours et injecte les règles de gouvernance pertinentes tout en excluant les non pertinentes.

Une tâche de développement web charge les règles de sécurité, les règles de design API et les motifs FastAPI. Elle ne charge pas les règles spécifiques à iOS, les motifs de développement de jeux ou les directives de contenu d’application de méditation. L’attention constitutionnelle signifie que l’agent voit les règles de gouvernance qui s’appliquent à cette tâche, pas toutes les règles existantes.

Le chargement sélectif prévient un mode de défaillance subtil : la dilution des règles. Le système de hooks permet ce routage en analysant le type de tâche avant l’injection de contexte. Quand un agent reçoit 200 règles, chaque règle reçoit proportionnellement moins d’attention que lorsqu’il en reçoit 20. L’attention constitutionnelle concentre le focus de gouvernance sur les règles qui comptent pour le contexte courant.

Sous-système 3 : Modulation des compétences

SkillsBench a testé 7 308 trajectoires d’agents sur 86 tâches dans 11 domaines et a trouvé un résultat frappant : les compétences organisées amélioraient le taux de réussite moyen de 16,2 points de pourcentage, mais les compétences auto-générées n’apportaient aucun bénéfice en moyenne.¹ Les agents ne peuvent pas rédiger de manière fiable le savoir procédural dont ils tirent profit en le consommant. Seize des 84 tâches présentaient des deltas négatifs où les compétences dégradaient activement la performance.

Le résultat de SkillsBench a validé un garde-fou que j’avais intégré dans Learner v2 après l’incident de contournement du quality-loop. Les compétences générées nécessitent désormais une approbation explicite avant activation, et elles ne peuvent ni modifier ni supplanter les fichiers de gouvernance existants. L’analyseur de motifs peut observer les flux et proposer des compétences, mais le générateur de compétences traite les fichiers de gouvernance comme immuables.

La recherche du MIT sur l’auto-distillation ajoute une perspective au niveau des paramètres : pour les modèles plus petits (3 milliards de paramètres), les tentatives d’apprentissage continu dégradent en réalité la performance.² Ce n’est qu’à partir de 7 milliards de paramètres et plus que le modèle dispose d’une capacité suffisante pour acquérir de nouvelles compétences sans détruire les anciennes. L’analogue au niveau infrastructure : les agents avec des fenêtres de contexte plus petites ou des ensembles de règles plus simples sont plus vulnérables aux conflits entre capacités et gouvernance.

Sous-système 4 : Vérification de l’alignement des valeurs

La porte de preuves exige des preuves spécifiques pour six critères avant que tout travail ne soit signalé comme terminé : suit les motifs du codebase (nommer le motif), solution fonctionnelle la plus simple (expliquer les alternatives rejetées), cas limites traités (les lister un par un), tests passés (coller la sortie), aucune régression (nommer les fichiers vérifiés) et résout le problème réel (énoncer le besoin de l’utilisateur).⁷

La porte fonctionne comme vérification à l’exécution. L’agent ne peut pas signaler la complétion en utilisant un langage évasif (« devrait fonctionner », « je pense que », « semble »). Chaque affirmation nécessite des preuves recueillies dans la session en cours. La porte détecte la Vérification fantôme (affirmer que les tests passent sans les avoir exécutés) et le Rapport creux (signaler « terminé » sans détails).

Le problème de l’oubli : quand l’apprentissage détruit la connaissance

L’histoire de consolidation des blog-skills illustre une version au niveau système de l’oubli catastrophique. Dix compétences de blog totalisant 5 400 lignes avaient accumulé trois zones de duplication.³ Les modèles JSON-LD apparaissaient à la fois dans aio/SKILL.md et seo-blog-playbook/SKILL.md. Les définitions d’autorité des citations différaient entre citation-verifier et seo-blog-playbook. Les directives d’évaluation des blogs vivaient à la fois dans l’évaluateur principal et dans un fichier séparé de définitions de catégories.

Quand le système Learner v2 générait de nouvelles compétences à partir des flux observés, il tirait les définitions de la source qu’il rencontrait en premier. Le résultat : des compétences générées qui semblaient correctes mais portaient les mauvaises définitions d’autorité. Le système de citations à six niveaux a été dégradé en une vérification binaire. Les modèles de schéma ont divergé entre les compétences rédigées manuellement et celles générées automatiquement.

La correction de consolidation était structurelle : désigner une source canonique unique pour chaque concept et faire pointer toutes les autres références vers elle. L’autorité des citations réside dans citation-verifier/SKILL.md et nulle part ailleurs. Les modèles JSON-LD résident dans aio/SKILL.md et nulle part ailleurs. Le motif empêche la génération future de compétences d’hériter de définitions obsolètes.

Le SDFT du MIT offre un analogue au moment de l’entraînement : utiliser les connaissances préalables du modèle comme signal d’enseignement lors de l’acquisition de nouvelles capacités.² Le SFT standard remplace les anciennes connaissances par les nouvelles. L’auto-distillation fusionne anciennes et nouvelles en générant des données d’entraînement à partir des capacités existantes du modèle, puis en effectuant le fine-tuning sur ce mélange. Les connaissances préalables survivent parce qu’elles sont présentes dans le signal d’entraînement.

L’équivalent au niveau infrastructure : lors de la génération d’une nouvelle compétence, inclure les contraintes de gouvernance existantes dans le prompt de génération. La compétence générée hérite des contraintes actuelles parce que ces contraintes font partie du contexte de génération, et non d’un système séparé que le générateur peut négliger.

Gouvernance active vs. passive

Le cadre RelianceScope de Jin et al. distingue neuf motifs de dépendance à l’IA basés sur des combinaisons d’engagement actif et passif.⁸ Bien que leur recherche ait étudié des étudiants interagissant avec des chatbots IA, la distinction actif/passif se transpose directement aux architectures de gouvernance des agents.

La gouvernance passive injecte des règles et espère que l’agent les suivra. Les règles existent dans CLAUDE.md ou dans les prompts système. L’agent les lit au début de la session. Rien ne vérifie la conformité. La plupart des configurations de praticiens utilisent la gouvernance passive : un long fichier d’instructions auquel l’agent peut ou non prêter attention au fil de la session. Comme le démontre l’agent invisible, les agents opérant sans gouvernance active ne laissent aucune trace indiquant s’ils ont suivi leurs instructions.

La gouvernance active vérifie la conformité à l’exécution. Des hooks contrôlent les sorties par rapport aux contraintes avant leur exécution. Des portes bloquent les rapports de complétion dépourvus de preuves. Des moniteurs suivent la dérive comportementale et signalent les anomalies. La gouvernance active coûte plus cher (calcul, latence, complexité) mais détecte des défaillances que la gouvernance passive manque.

Type de gouvernance	Mécanisme	Mode de défaillance détecté	Mode de défaillance manqué
Passive (règles dans CLAUDE.md)	L’agent lit les règles au début de la session	Violations flagrantes en début de session	Dilution des règles, dérive en fin de session, perte par compression
Active (hooks + portes)	Les hooks vérifient la conformité par action	Dérive, perte par compression, violations de règles	Situations nouvelles non couvertes par les hooks existants
Hybride (règles + hooks + apprentissage)	Règles pour les limites, hooks pour la vérification, apprentissage pour l’adaptation	Dérive, compression, situations nouvelles (via adaptation)	Exploitation adversariale du système d’apprentissage

La découverte de RelianceScope selon laquelle la recherche active d’aide corrèle avec l’utilisation active des réponses⁸ suggère un principe d’architecture de gouvernance : les agents qui interrogent activement leurs contraintes de gouvernance (plutôt que de les recevoir passivement) produisent des sorties plus conformes. Ma porte de preuves fonctionne selon ce principe : au lieu d’appliquer passivement les règles, l’agent doit démontrer activement sa conformité en produisant des preuves pour chaque critère.

Auditeur de constitution : collez votre CLAUDE.md ou prompt système pour classifier les lignes en quatre catégories de gouvernance (au niveau action, métacognitif, normatif, capacité). L'outil génère un score de gouvernance et des recommandations de lacunes basées sur la couverture et l'équilibre des catégories.

Un modèle de constitution d’exécution

Trois fichiers composent une constitution d’exécution minimale. Adaptez la structure à votre cadre d’agents.

Fichier 1 : constitution.md

Les priors normatifs. Ce que l’agent doit toujours faire, ne jamais faire, et comment il gère l’ambiguïté.

# Agent Constitution v1

## Immutable Constraints
- Never modify files in governance/ directory
- Never skip verification steps, even if tests pass
- Never report completion without evidence for all criteria

## Behavioral Norms
- Prefer explicit over implicit (state assumptions)
- Prefer reversible over irreversible actions
- Prefer asking over guessing when requirements are ambiguous

## Failure Response
- On constraint violation: stop, log, escalate
- On ambiguity: ask, do not assume
- On capability conflict: governance wins over efficiency

Fichier 2 : capabilities.json

L’inventaire des compétences actuelles avec suivi de la provenance.

{
  "skills": [
    {
      "name": "blog-publish",
      "version": "2.1.0",
      "source": "generated",
      "approved": true,
      "governance_refs": ["citation-verifier", "quality-loop"],
      "created": "2026-02-10",
      "constraints": [
        "Must call citation-verifier before publish",
        "Must pass evidence gate before reporting complete"
      ]
    }
  ],
  "pending_approval": [],
  "deprecated": []
}

Fichier 3 : constraints-registry.json

Met en correspondance chaque contrainte avec sa source canonique, empêchant le problème de duplication qui a causé l’incident des blog-skills.

{
  "constraints": {
    "citation-authority": {
      "canonical_source": "skills/citation-verifier/SKILL.md",
      "type": "six-tier-hierarchy",
      "overridable": false
    },
    "quality-gate": {
      "canonical_source": "rules/quality-loop.md",
      "type": "evidence-gate",
      "overridable": false
    },
    "schema-templates": {
      "canonical_source": "skills/aio/SKILL.md",
      "type": "json-ld-templates",
      "overridable": false
    }
  }
}

Les trois fichiers interagissent : constitution.md définit les limites comportementales, capabilities.json suit ce que l’agent peut faire avec des références croisées de gouvernance, et constraints-registry.json garantit que chaque contrainte a exactement une source canonique. Les compétences générées référencent le registre plutôt que de copier les définitions de contraintes. Pour un exemple fonctionnel de cette architecture dans une boucle de développement autonome, consultez l’architecture d’agent de Ralph. Et si vous supposez que votre sandbox fournit un confinement suffisant à lui seul, lisez d’abord pourquoi le sandbox de votre agent n’est qu’une suggestion.

Points clés à retenir

L’alignement en phase d’entraînement se dégrade à l’exécution. Le fine-tuning de sécurité enseigne des principes généraux ; la gouvernance d’exécution applique des contraintes opérationnelles spécifiques. Goel et al. ont montré que les comportements de sécurité se dégradent sous fine-tuning bénin comme adversarial.⁴
Les compétences auto-générées sont peu fiables. SkillsBench n’a trouvé aucun bénéfice moyen pour les compétences rédigées par les agents sur 7 308 trajectoires, avec 16 des 84 tâches montrant un impact négatif.¹ Les compétences générées nécessitent des portes d’approbation et des références croisées de gouvernance.
L’oubli catastrophique opère au niveau système. De nouvelles capacités peuvent supplanter des contraintes existantes même sans modifier les poids du modèle. L’incident de consolidation des blog-skills a démontré un oubli au niveau infrastructure où une compétence générée a hérité des mauvaises définitions d’autorité.
Quatre sous-systèmes composent la gouvernance d’exécution. Les priors normatifs définissent les limites. L’attention constitutionnelle route les règles vers le contexte. La modulation des compétences gère l’apprentissage en sécurité. La vérification de l’alignement des valeurs confirme la conformité à l’exécution.
La gouvernance active surpasse la gouvernance passive. Les règles dans CLAUDE.md sont nécessaires mais insuffisantes. Les hooks qui vérifient la conformité par action détectent la dérive, la perte par compression et la dégradation en fin de session que les règles passives manquent.

FAQ

Qu'est-ce qu'une constitution d'exécution pour les agents IA ?

Une constitution d'exécution est un ensemble de fichiers de gouvernance qui appliquent des contraintes comportementales pendant l'exécution de l'agent, pas seulement pendant l'entraînement du modèle. Une constitution minimale comprend trois composants : des priors normatifs (ce que l'agent doit et ne doit pas faire), un registre de capacités (ce que l'agent peut faire avec des références croisées de gouvernance) et un registre de contraintes (source canonique unique pour chaque contrainte opérationnelle). Les constitutions d'exécution comblent l'écart entre l'alignement en phase d'entraînement et le comportement en production en rendant la gouvernance déterministe plutôt que probabiliste.

Pourquoi les agents IA ne peuvent-ils pas générer leurs propres compétences de manière fiable ?

SkillsBench a testé 7 308 trajectoires d'agents sur 86 tâches dans 11 domaines et a constaté que les compétences auto-générées n'apportent aucun bénéfice moyen. Les compétences organisées amélioraient la performance de 16,2 points de pourcentage, mais les compétences rédigées par les agents montraient zéro amélioration moyenne. Dans 16 des 84 tâches, les compétences auto-générées dégradaient activement la performance. Les agents peuvent consommer et appliquer efficacement le savoir procédural, mais ils ne peuvent pas le rédiger de manière fiable. Les compétences générées nécessitent une révision humaine, des portes d'approbation et des références croisées de gouvernance explicites avant activation.

Qu'est-ce que l'oubli catastrophique dans les systèmes d'agents IA ?

L'oubli catastrophique au niveau système survient lorsque de nouvelles capacités de l'agent supplantent des contraintes existantes sans modifier les poids du modèle. Le fine-tuning standard sur de nouvelles tâches provoque l'effondrement des performances sur les tâches antérieures ; la recherche du MIT a montré que la précision du SFT standard sur les tâches précédentes se dégrade fortement tandis que le fine-tuning par auto-distillation maintient 64,5 %. Au niveau infrastructure, la même dynamique se produit lorsque des compétences générées, des flux mis en cache ou des instructions mises à jour entrent en conflit avec les règles de gouvernance existantes. La correction est structurelle : désigner des sources canoniques pour chaque contrainte et rendre les fichiers de gouvernance immuables à la modification automatisée.

Comment implémenter une gouvernance active pour les agents de programmation ?

La gouvernance active utilise des hooks, des portes et des moniteurs pour vérifier la conformité à l'exécution plutôt que de compter sur l'agent pour auto-appliquer les règles de ses instructions. Les hooks s'exécutent avant ou après les appels d'outils pour vérifier les contraintes. Les portes bloquent les rapports de complétion dépourvus de preuves pour les critères obligatoires. Les moniteurs suivent les métriques comportementales dans le temps et signalent la dérive. Un point de départ pratique : implémentez une porte de preuves qui exige des preuves spécifiques pour chaque critère de qualité avant d'accepter le travail comme terminé. La porte détecte les modes de défaillance les plus courants (vérification fantôme, rapport creux) avec un surcoût d'implémentation minimal.

En quoi les constitutions d'exécution diffèrent-elles de la sécurité par sandbox pour les agents ?

Les sandboxes contraignent *où* un agent peut opérer (limites du système de fichiers, accès réseau, limites de ressources). Les constitutions d'exécution contraignent *comment* un agent opère dans ces limites (normes comportementales, vérifications de compétence, portes de sortie). Les deux sont nécessaires. Un sandbox empêche un agent de supprimer des bases de données de production, mais il ne peut pas empêcher un agent de livrer du code qui saute la vérification des citations ou contourne les contraintes de qualité. Les constitutions d'exécution comblent cette lacune en intégrant des règles de gouvernance qui s'exécutent parallèlement à la prise de décision de l'agent, vérifiant la conformité à chaque étape plutôt que de compter uniquement sur le confinement périmétrique.

Références

Li, Xiangyi, et al., “SkillsBench: Benchmarking How Well Agent Skills Work Across Diverse Tasks,” arXiv:2602.12670, February 2026. arxiv.org. 86 tasks, 11 domains, 7,308 agent trajectories. Curated skills +16.2pp average; self-generated skills 0pp average. ↩↩↩
Shenfeld, Idan, et al., “Self-Distillation Enables Continual Learning,” arXiv:2601.19897, January 2026. arxiv.org. MIT Improbable AI Lab and ETH Zurich. SDFT outperforms SFT by +7 points at 14B parameters while maintaining 64.5% on prior tasks. ↩↩↩↩
Author’s decision document: “Blog Skills Pre-Consolidation Architecture (S3.2 Baseline),” February 2026. 10 blog skills, 5,400 lines, three duplication areas identified. ↩↩
Goel, Jyotin, Souvik Maji, and Pratik Mazumder, “Learning to Stay Safe: Adaptive Regularization Against Safety Degradation during Fine-Tuning,” arXiv:2602.17546, February 2026. arxiv.org. Adaptive regularization constrains higher-risk weight updates near a safe reference policy. ↩↩
Taghavi, et al., “Evolving Interpretable Constitutions for Multi-Agent Coordination,” arXiv:2602.00755, February 2026. arxiv.org. LLM-evolved constitutions outperform human-designed principles for multi-agent coordination. ↩
Mahadevan, “From Craft to Constitution: A Governance-First Paradigm for Principled Agent Engineering,” arXiv:2510.13857, October 2025. arxiv.org. Introduces “Creed Constitutions” as modular runtime compliance enforcers. ↩
Author’s quality-loop.md and Jiro craftsmanship system. Seven named failure modes, evidence gate with six mandatory criteria. Documented in The Shokunin Approach. ↩↩
Jin, Hyoungwook, et al., “RelianceScope: An Analytical Framework for Examining Students’ Reliance on Generative AI Chatbots in Problem Solving,” arXiv:2602.16251, February 2026. arxiv.org. Nine reliance patterns based on active vs. passive engagement. Applied here to agent governance architectures. ↩↩
Author’s context-is-architecture system. Seven-layer hierarchy across 650 files documented in Context Engineering Is Architecture. ↩
Author’s Learner v2 system. Pattern analyzer and skill generator documented in Compounding Engineering. ↩