Constituições de Runtime para Agentes de IA: Um Framework de Governança

16 min read

From the guide: Claude Code Comprehensive Guide

Constituições de runtime aplicam restrições de governança durante a execução de agentes de IA, não apenas durante o treinamento. Elas combinam priors normativos (limites comportamentais), atenção constitucional (roteamento de regras sensível ao contexto), modulação de competência (aquisição segura de skills com gates de aprovação) e verificação de alinhamento de valores (gates de saída que exigem evidências antes de aceitar o trabalho como concluído). Pesquisas em 7.308 trajetórias de agentes confirmam que skills autogeradas são pouco confiáveis sem essas salvaguardas estruturais.

O sistema Learner v2 gerou uma nova skill numa terça-feira à tarde. A skill automatizava um fluxo de publicação de blog: validar frontmatter, verificar citações, enviar para staging. Código limpo e bem estruturado. A skill também substituiu três regras de qualidade do quality-loop.md porque o analisador de padrões classificou “sempre executar o evidence gate” como redundante com as verificações embutidas da skill. Na manhã de quarta-feira, um post de blog foi publicado sem verificação de citações. A skill tinha aprendido a cortar caminho.

A correção levou vinte minutos. A questão arquitetural levou semanas: como permitir que um agente aprenda novas capacidades sem que ele desaprenda as restrições que o mantêm seguro?

TL;DR

O alinhamento na fase de treinamento (RLHF, IA constitucional durante o treinamento, fine-tuning de segurança) se degrada quando agentes operam em ambientes abertos. Seis esforços de pesquisa independentes convergem para governança em runtime: constituições embarcadas que aplicam normas durante a execução, não apenas durante o treinamento. O SkillsBench testou 7.308 trajetórias de agentes em 86 tarefas e descobriu que skills autogeradas não fornecem benefício médio — agentes não conseguem criar de forma confiável o conhecimento procedural que se beneficiam ao consumir.¹ O trabalho de autodestilação do MIT mostra que fine-tuning padrão causa esquecimento catastrófico, onde novas capacidades destroem as antigas.² A arquitetura de solução tem quatro componentes: priors normativos, atenção constitucional, modulação de competência e verificação de alinhamento de valores. Abaixo: a teoria, o mapeamento para praticantes (três dos quatro componentes já existiam no meu sistema Claude Code antes de eu ler a pesquisa) e um template de constituição de runtime que você pode implementar hoje.

O Agente Que Aprendeu a Cortar Caminho

O incidente acima aconteceu no início de fevereiro de 2026, durante a reconstrução do Learner v2. O analisador de padrões (pattern_analyzer.py) detectou um fluxo de trabalho recorrente: validar frontmatter, verificar citações, checar metadados de SEO e então enviar para staging. O gerador de skills (skill_generator.py) compilou o fluxo em uma skill reutilizável com validação inline.

A validação inline cobria formato de frontmatter e campos de SEO. Não cobria verificação de citações, que reside em uma skill separada (citation-verifier) com seu próprio sistema de autoridade de seis níveis. A skill gerada marcou a verificação de citações como “tratada” porque o analisador de padrões viu chamadas de funções relacionadas a citações no trace do fluxo de trabalho. Ele confundiu “a função foi chamada” com “as restrições da função foram preservadas.”

Três arquivos definiam autoridade de fontes de maneiras diferentes:

Arquivo	Definição de Autoridade
`citation-verifier/SKILL.md`	Sistema de seis níveis: fontes primárias até evitar
`seo-blog-playbook/SKILL.md`	Binário: “autoritativa” ou “necessita verificação”
Skill gerada de blog-publish	Herdou a definição binária do SEO, não os seis níveis do citation-verifier

A arquitetura de consolidação documentada antes do incidente³ identificou exatamente esse modo de falha: quando múltiplos arquivos definem conceitos sobrepostos, skills geradas herdam qualquer definição que o analisador de padrões encontra primeiro. A correção centralizou a autoridade de citações em uma única fonte canônica. A lição foi mais ampla: agentes que adquirem novas capacidades precisam de garantias estruturais de que o aprendizado não pode sobrescrever a governança.

Por Que o Alinhamento na Fase de Treinamento Falha em Runtime

Goel, Maji e Mazumder documentaram o mecanismo: comportamentos de segurança se deterioram tanto em fine-tuning benigno quanto adversarial.⁴ Seu trabalho de regularização adaptativa de segurança em arXiv:2602.17546 mostrou que atualizações de maior risco nos pesos do modelo podem ser restringidas perto de uma política de referência segura, enquanto atualizações de menor risco procedem normalmente. A abordagem funciona em tempo de treinamento. Ela não endereça o que acontece quando um agente encontra situações inéditas em runtime que o treinamento nunca antecipou.

A lacuna entre alinhamento em tempo de treinamento e comportamento em runtime cresce com a autonomia. Um modelo respondendo perguntas em uma interface de chat opera dentro de limites comportamentais estreitos. Um agente escrevendo código, gerando skills, rodando testes e fazendo deploy em produção opera em uma superfície vastamente mais ampla — especialmente quando conversas multi-turno degradam o acesso do agente às suas próprias regras de governança. O paradoxo de confiança do agente potencializa isso: quanto mais capaz o agente, mais difícil se torna verificar que as capacidades permanecem dentro dos limites de governança. Cada nova capacidade cria novos modos de falha que o alinhamento em tempo de treinamento não consegue enumerar antecipadamente.

Shenfeld et al. no MIT quantificaram um modo de falha específico: esquecimento catastrófico durante aprendizado contínuo.² Fine-tuning supervisionado padrão (SFT) em novas tarefas causa colapso do desempenho em tarefas anteriores. Com 14B parâmetros, fine-tuning por autodestilação (SDFT) superou o SFT padrão em 7 pontos em novas tarefas, mantendo 64,5% de acurácia em tarefas anteriores — onde a acurácia do SFT padrão despenca. O trade-off: SDFT requer aproximadamente 4x a computação e 2,5x os FLOPs.

Para praticantes, a implicação é direta: toda vez que seu agente aprende algo novo (uma skill gerada, um fluxo de trabalho em cache, uma instrução atualizada), o aprendizado arrisca degradar algo que o agente já sabia. Minha substituição do quality-loop foi uma instância em nível de sistema do esquecimento catastrófico. O agente “aprendeu” um atalho de publicação que destruiu sua capacidade de verificação de citações.

Quatro Subsistemas de Governança em Runtime

A pesquisa sobre governança de agentes em runtime converge em quatro requisitos funcionais. Taghavi e colaboradores, trabalhando em constituições interpretáveis evoluídas, demonstraram que princípios de governança evoluídos por LLM superam os projetados por humanos para coordenação multi-agente.⁵ O trabalho deles, junto com o paradigma de governança-primeiro de Mahadevan para engenharia de agentes baseada em princípios,⁶ enquadra o problema como quatro subsistemas interagindo.

Mapeei esses quatro subsistemas para minha infraestrutura Claude Code existente e descobri que três dos quatro já estavam construídos, cada um resolvendo um problema de produção que eu havia encontrado meses antes de ler a pesquisa.

Subsistema	Função	Teoria	Minha Implementação
Engenharia de Priors Normativos	Definir limites de comportamento aceitável	Regras constitucionais que persistem entre contextos	`quality-loop.md`: 7 modos de falha nomeados, evidence gate com 6 critérios, quality loop obrigatório
Atenção Constitucional	Rotear regras de governança para o contexto correto	Injeção de regras adaptativa à tarefa	`prompt-dispatcher.sh` + 84 hooks: injetar regras relevantes por tipo de tarefa, excluir irrelevantes
Modulação de Competência	Gerenciar aquisição de skills com segurança	Expansão controlada de capacidades	Learner v2: `pattern_analyzer.py` detecta fluxos de trabalho, `skill_generator.py` cria skills com restrições
Verificação de Alinhamento de Valores	Verificar se saídas correspondem à intenção de governança	Verificação de conformidade em runtime	Evidence gate + pride check: 6 critérios obrigatórios, detecção de linguagem evasiva, varredura de modos de falha

Subsistema 1: Engenharia de Priors Normativos

O quality loop no meu sistema de agente define sete modos de falha nomeados: Shortcut Spiral, Confidence Mirage, Good-Enough Plateau, Tunnel Vision, Phantom Verification, Deferred Debt e Hollow Report.⁷ Cada modo de falha tem uma definição, sinal de detecção e resposta obrigatória. Não são sugestões. São restrições estruturais: se o agente detectar que está exibindo qualquer modo de falha, deve reiniciar a partir da etapa Evaluate.

O paralelo teórico: priors normativos estabelecem os limites comportamentais dentro dos quais um agente opera. O alinhamento em tempo de treinamento ensina ao modelo princípios gerais (“seja útil, inofensivo, honesto”). Priors normativos em runtime codificam restrições operacionais específicas (“nunca pular verificação de citações”, “nunca usar linguagem evasiva em um relatório de conclusão”).

A diferença importa porque princípios de tempo de treinamento são probabilísticos (o modelo tem mais probabilidade de segui-los), enquanto priors de runtime podem ser determinísticos (o hook bloqueia a ação se a restrição for violada). Essa é a mesma distinção explorada no evidence gate: mudar de “o agente provavelmente fez a coisa certa” para “o agente provou que fez a coisa certa.”

Subsistema 2: Atenção Constitucional

A arquitetura de contexto de sete camadas implementa atenção constitucional por meio de carregamento seletivo. Dos 650 arquivos no sistema de contexto, menos de 30 são carregados para qualquer tarefa específica. O hook prompt-dispatcher.sh analisa a tarefa atual e injeta regras de governança relevantes enquanto exclui as irrelevantes.

Uma tarefa de desenvolvimento web carrega regras de segurança, regras de design API e padrões FastAPI. Não carrega regras específicas de iOS, padrões de desenvolvimento de jogos ou diretrizes de conteúdo de apps de meditação. Atenção constitucional significa que o agente vê as regras de governança que se aplicam a esta tarefa, não todas as regras que existem.

O carregamento seletivo previne um modo de falha sutil: diluição de regras. O sistema de hooks permite esse roteamento analisando o tipo de tarefa antes da injeção de contexto. Quando um agente recebe 200 regras, cada regra recebe proporcionalmente menos atenção do que quando recebe 20 regras. A atenção constitucional concentra o foco de governança nas regras que importam para o contexto atual.

Subsistema 3: Modulação de Competência

O SkillsBench testou 7.308 trajetórias de agentes em 86 tarefas em 11 domínios e encontrou um resultado marcante: skills curadas melhoraram a taxa média de aprovação em 16,2 pontos percentuais, mas skills autogeradas não forneceram benefício médio.¹ Agentes não conseguem criar de forma confiável o conhecimento procedural que se beneficiam ao consumir. Dezesseis das 84 tarefas mostraram deltas negativos, onde skills prejudicaram ativamente o desempenho.

O resultado do SkillsBench validou uma proteção que construí no Learner v2 após o incidente de substituição do quality-loop. Skills geradas agora requerem aprovação explícita antes da ativação, e não podem modificar ou substituir arquivos de governança existentes. O analisador de padrões pode observar fluxos de trabalho e propor skills, mas o gerador de skills trata arquivos de governança como imutáveis.

A pesquisa de autodestilação do MIT adiciona uma perspectiva em nível de parâmetros: em modelos menores (3B parâmetros), tentativas de aprendizado contínuo na verdade prejudicam o desempenho.² Apenas a partir de 7B+ parâmetros o modelo tem capacidade suficiente para adquirir novas skills sem destruir as antigas. O análogo em nível de infraestrutura: agentes com janelas de contexto menores ou conjuntos de regras mais simples são mais vulneráveis a conflitos entre capacidade e governança.

Subsistema 4: Verificação de Alinhamento de Valores

O evidence gate requer evidências específicas para seis critérios antes que qualquer trabalho seja reportado como concluído: segue padrões do codebase (nomear o padrão), solução mais simples que funciona (explicar alternativas rejeitadas), casos extremos tratados (listar cada um), testes passam (colar a saída), sem regressões (nomear os arquivos verificados) e resolve o problema real (declarar a necessidade do usuário).⁷

O gate opera como verificação em runtime. O agente não pode reportar conclusão usando linguagem evasiva (“deveria funcionar”, “acredito que”, “parece que”). Cada afirmação requer evidência coletada na sessão atual. O gate captura Phantom Verification (alegar que testes passam sem executá-los) e Hollow Report (reportar “feito” sem especificidades).

O Problema do Esquecimento: Quando o Aprendizado Destrói Conhecimento

A história de consolidação de blog-skills ilustra uma versão em nível de sistema do esquecimento catastrófico. Dez skills de blog totalizando 5.400 linhas haviam acumulado três áreas de duplicação.³ Templates de JSON-LD apareciam tanto em aio/SKILL.md quanto em seo-blog-playbook/SKILL.md. Definições de autoridade de citação diferiam entre citation-verifier e seo-blog-playbook. Orientações de avaliação de blog residiam tanto no avaliador principal quanto em um arquivo separado de definições de categorias.

Quando o sistema Learner v2 gerava novas skills a partir de fluxos de trabalho observados, ele puxava definições de qualquer fonte que encontrasse primeiro. O resultado: skills geradas que pareciam corretas mas carregavam definições de autoridade erradas. O sistema de citação de seis níveis se degradou para uma verificação binária. Templates de schema divergiram entre skills criadas manualmente e autogeradas.

A correção de consolidação foi estrutural: designar uma única fonte canônica para cada conceito e fazer todas as outras referências apontarem para ela. Autoridade de citação reside em citation-verifier/SKILL.md e em nenhum outro lugar. Templates de JSON-LD residem em aio/SKILL.md e em nenhum outro lugar. O padrão previne que futuras gerações de skills herdem definições obsoletas.

O SDFT do MIT oferece um análogo em tempo de treinamento: usar o próprio conhecimento prévio do modelo como sinal de ensino ao aprender novas capacidades.² O SFT padrão substitui conhecimento antigo por novo. A autodestilação mescla antigo e novo gerando dados de treinamento a partir das capacidades existentes do modelo e depois fazendo fine-tuning na mistura. O conhecimento prévio sobrevive porque está presente no sinal de treinamento.

O equivalente em nível de infraestrutura: ao gerar uma nova skill, incluir as restrições de governança existentes no prompt de geração. A skill gerada herda as restrições atuais porque essas restrições fazem parte do contexto de geração, não um sistema separado que o gerador pode ignorar.

Governança Ativa vs. Passiva

O framework RelianceScope de Jin et al. distingue nove padrões de dependência de IA com base em combinações de engajamento ativo e passivo.⁸ Embora a pesquisa deles tenha estudado estudantes interagindo com chatbots de IA, a distinção ativo/passivo se mapeia diretamente para arquiteturas de governança de agentes.

Governança passiva injeta regras e espera que o agente as siga. As regras existem em CLAUDE.md ou system prompts. O agente as lê no início da sessão. Nada verifica conformidade. A maioria das configurações de praticantes usa governança passiva: um longo arquivo de instruções ao qual o agente pode ou não prestar atenção conforme a sessão avança. Como o agente invisível demonstra, agentes operando sem governança ativa não deixam rastro de se seguiram suas instruções ou não.

Governança ativa verifica conformidade em runtime. Hooks checam saídas contra restrições antes de executá-las. Gates bloqueiam relatórios de conclusão que carecem de evidências. Monitores rastreiam desvios comportamentais e sinalizam anomalias. Governança ativa custa mais (computação, latência, complexidade), mas captura falhas que a governança passiva não detecta.

Tipo de Governança	Mecanismo	Modo de Falha Capturado	Modo de Falha Não Capturado
Passiva (regras em CLAUDE.md)	Agente lê regras no início da sessão	Violações flagrantes no início da sessão	Diluição de regras, desvio no final da sessão, perda por compressão
Ativa (hooks + gates)	Hooks verificam conformidade por ação	Desvio, perda por compressão, violações de regras	Situações inéditas não cobertas por hooks existentes
Híbrida (regras + hooks + aprendizado)	Regras para limites, hooks para verificação, aprendizado para adaptação	Desvio, compressão, situações inéditas (via adaptação)	Exploração adversarial do sistema de aprendizado

A descoberta do RelianceScope de que busca ativa de ajuda se correlaciona com uso ativo de respostas⁸ sugere um princípio de arquitetura de governança: agentes que consultam ativamente suas restrições de governança (em vez de recebê-las passivamente) produzem saídas mais conformes. Meu evidence gate opera nesse princípio: em vez de aplicar regras passivamente, o agente deve demonstrar ativamente conformidade produzindo evidências para cada critério.

Auditor de Constituição: Cole seu CLAUDE.md ou system prompt para classificar linhas em quatro categorias de governança (nível de ação, metacognitiva, normativa, capacidade). A ferramenta gera uma pontuação de governança e recomendações de lacunas com base na cobertura e equilíbrio das categorias.

Um Template de Constituição de Runtime

Três arquivos compõem uma constituição de runtime mínima. Adapte a estrutura ao seu framework de agente.

Arquivo 1: constitution.md

Os priors normativos. O que o agente deve sempre fazer, nunca deve fazer e como lida com ambiguidade.

# Agent Constitution v1

## Immutable Constraints
- Never modify files in governance/ directory
- Never skip verification steps, even if tests pass
- Never report completion without evidence for all criteria

## Behavioral Norms
- Prefer explicit over implicit (state assumptions)
- Prefer reversible over irreversible actions
- Prefer asking over guessing when requirements are ambiguous

## Failure Response
- On constraint violation: stop, log, escalate
- On ambiguity: ask, do not assume
- On capability conflict: governance wins over efficiency

Arquivo 2: capabilities.json

O inventário atual de skills com rastreamento de proveniência.

{
  "skills": [
    {
      "name": "blog-publish",
      "version": "2.1.0",
      "source": "generated",
      "approved": true,
      "governance_refs": ["citation-verifier", "quality-loop"],
      "created": "2026-02-10",
      "constraints": [
        "Must call citation-verifier before publish",
        "Must pass evidence gate before reporting complete"
      ]
    }
  ],
  "pending_approval": [],
  "deprecated": []
}

Arquivo 3: constraints-registry.json

Mapeia cada restrição à sua fonte canônica, prevenindo o problema de duplicação que causou o incidente das blog-skills.

{
  "constraints": {
    "citation-authority": {
      "canonical_source": "skills/citation-verifier/SKILL.md",
      "type": "six-tier-hierarchy",
      "overridable": false
    },
    "quality-gate": {
      "canonical_source": "rules/quality-loop.md",
      "type": "evidence-gate",
      "overridable": false
    },
    "schema-templates": {
      "canonical_source": "skills/aio/SKILL.md",
      "type": "json-ld-templates",
      "overridable": false
    }
  }
}

Os três arquivos interagem: constitution.md define limites comportamentais, capabilities.json rastreia o que o agente pode fazer com referências cruzadas de governança, e constraints-registry.json garante que cada restrição tenha exatamente uma fonte canônica. Skills geradas referenciam o registro em vez de copiar definições de restrições. Para um exemplo funcional dessa arquitetura em um loop de desenvolvimento autônomo, veja a arquitetura de agente do Ralph. E se você assume que sua sandbox fornece contenção suficiente por si só, leia por que a sandbox do seu agente é apenas uma sugestão primeiro.

Principais Conclusões

O alinhamento na fase de treinamento se degrada em runtime. Fine-tuning de segurança ensina princípios gerais; governança em runtime aplica restrições operacionais específicas. Goel et al. mostraram que comportamentos de segurança se deterioram tanto em fine-tuning benigno quanto adversarial.⁴
Skills autogeradas são pouco confiáveis. O SkillsBench não encontrou benefício médio em skills criadas por agentes em 7.308 trajetórias, com 16 de 84 tarefas mostrando impacto negativo.¹ Skills geradas precisam de gates de aprovação e referências cruzadas de governança.
O esquecimento catastrófico opera em nível de sistema. Novas capacidades podem sobrescrever restrições existentes mesmo sem modificar pesos do modelo. O incidente de consolidação das blog-skills demonstrou esquecimento em nível de infraestrutura, onde uma skill gerada herdou definições de autoridade erradas.
Quatro subsistemas compõem a governança em runtime. Priors normativos definem limites. Atenção constitucional roteia regras para o contexto. Modulação de competência gerencia aprendizado com segurança. Verificação de alinhamento de valores confirma conformidade em runtime.
Governança ativa supera a governança passiva. Regras em CLAUDE.md são necessárias e insuficientes. Hooks que verificam conformidade por ação capturam desvio, perda por compressão e degradação no final da sessão que regras passivas não detectam.

FAQ

O que é uma constituição de runtime para agentes de IA?

Uma constituição de runtime é um conjunto de arquivos de governança que aplicam restrições comportamentais durante a execução do agente, não apenas durante o treinamento do modelo. Uma constituição mínima inclui três componentes: priors normativos (o que o agente deve e não deve fazer), um registro de capacidades (o que o agente pode fazer com referências cruzadas de governança) e um registro de restrições (fonte canônica única para cada restrição operacional). Constituições de runtime endereçam a lacuna entre alinhamento na fase de treinamento e comportamento em produção, tornando a governança determinística em vez de probabilística.

Por que agentes de IA não conseguem gerar suas próprias skills de forma confiável?

O SkillsBench testou 7.308 trajetórias de agentes em 86 tarefas em 11 domínios e descobriu que skills autogeradas não fornecem benefício médio. Skills curadas melhoraram o desempenho em 16,2 pontos percentuais, mas skills criadas por agentes mostraram zero de melhoria média. Em 16 de 84 tarefas, skills autogeradas degradaram ativamente o desempenho. Agentes conseguem consumir e aplicar conhecimento procedural de forma eficaz, mas não conseguem criar esse conhecimento de forma confiável. Skills geradas requerem revisão humana, gates de aprovação e referências cruzadas de governança explícitas antes da ativação.

O que é esquecimento catastrófico em sistemas de agentes de IA?

Esquecimento catastrófico em nível de sistema ocorre quando novas capacidades do agente sobrescrevem restrições existentes sem modificar pesos do modelo. Fine-tuning padrão em novas tarefas causa colapso do desempenho em tarefas anteriores; pesquisas do MIT mostraram que a acurácia do SFT padrão em tarefas anteriores se degrada acentuadamente, enquanto fine-tuning por autodestilação mantém 64,5%. Em nível de infraestrutura, a mesma dinâmica ocorre quando skills geradas, fluxos de trabalho em cache ou instruções atualizadas entram em conflito com regras de governança existentes. A correção é estrutural: designar fontes canônicas para cada restrição e tornar arquivos de governança imutáveis para modificação automatizada.

Como implementar governança ativa para agentes de código?

Governança ativa usa hooks, gates e monitores para verificar conformidade em runtime, em vez de depender do agente para autoaplicar regras de suas instruções. Hooks executam antes ou depois de chamadas de ferramentas para verificar restrições. Gates bloqueiam relatórios de conclusão que carecem de evidências para critérios obrigatórios. Monitores rastreiam métricas comportamentais ao longo do tempo e sinalizam desvios. Um ponto de partida prático: implemente um evidence gate que requer prova específica para cada critério de qualidade antes de aceitar o trabalho como concluído. O gate captura os modos de falha mais comuns (verificação fantasma, relatório vazio) com overhead mínimo de implementação.

Como as constituições de runtime diferem da segurança baseada em sandbox para agentes?

Sandboxes restringem onde um agente pode operar (limites do sistema de arquivos, acesso à rede, limites de recursos). Constituições de runtime restringem como um agente opera dentro desses limites (normas comportamentais, verificações de competência, gates de saída). Ambas são necessárias. Uma sandbox impede que um agente delete bancos de dados de produção, mas não pode impedir que um agente publique código que pula verificação de citações ou sobrescreve restrições de qualidade. Constituições de runtime preenchem essa lacuna ao incorporar regras de governança que executam junto com a tomada de decisão do próprio agente, verificando conformidade em cada etapa em vez de depender apenas de contenção perimetral.

Referências

Li, Xiangyi, et al., “SkillsBench: Benchmarking How Well Agent Skills Work Across Diverse Tasks,” arXiv:2602.12670, February 2026. arxiv.org. 86 tasks, 11 domains, 7,308 agent trajectories. Curated skills +16.2pp average; self-generated skills 0pp average. ↩↩↩
Shenfeld, Idan, et al., “Self-Distillation Enables Continual Learning,” arXiv:2601.19897, January 2026. arxiv.org. MIT Improbable AI Lab and ETH Zurich. SDFT outperforms SFT by +7 points at 14B parameters while maintaining 64.5% on prior tasks. ↩↩↩↩
Author’s decision document: “Blog Skills Pre-Consolidation Architecture (S3.2 Baseline),” February 2026. 10 blog skills, 5,400 lines, three duplication areas identified. ↩↩
Goel, Jyotin, Souvik Maji, and Pratik Mazumder, “Learning to Stay Safe: Adaptive Regularization Against Safety Degradation during Fine-Tuning,” arXiv:2602.17546, February 2026. arxiv.org. Adaptive regularization constrains higher-risk weight updates near a safe reference policy. ↩↩
Taghavi, et al., “Evolving Interpretable Constitutions for Multi-Agent Coordination,” arXiv:2602.00755, February 2026. arxiv.org. LLM-evolved constitutions outperform human-designed principles for multi-agent coordination. ↩
Mahadevan, “From Craft to Constitution: A Governance-First Paradigm for Principled Agent Engineering,” arXiv:2510.13857, October 2025. arxiv.org. Introduces “Creed Constitutions” as modular runtime compliance enforcers. ↩
Author’s quality-loop.md and Jiro craftsmanship system. Seven named failure modes, evidence gate with six mandatory criteria. Documented in The Shokunin Approach. ↩↩
Jin, Hyoungwook, et al., “RelianceScope: An Analytical Framework for Examining Students’ Reliance on Generative AI Chatbots in Problem Solving,” arXiv:2602.16251, February 2026. arxiv.org. Nine reliance patterns based on active vs. passive engagement. Applied here to agent governance architectures. ↩↩
Author’s context-is-architecture system. Seven-layer hierarchy across 650 files documented in Context Engineering Is Architecture. ↩
Author’s Learner v2 system. Pattern analyzer and skill generator documented in Compounding Engineering. ↩