← 所有文章

AI智能体的运行时宪法:一套治理框架

From the guide: Claude Code Comprehensive Guide

运行时宪法在AI智能体执行过程中强制实施治理约束,而非仅在训练阶段生效。 它融合了四大核心机制:规范性先验(行为边界)、宪法注意力(上下文感知的规则路由)、能力调节(带审批门控的安全技能习得)以及价值对齐验证(要求提供证据才能认定工作完成的输出门控)。对7,308条智能体轨迹的研究证实,缺乏这些结构性保障,自生成技能并不可靠

Learner v2系统在某个周二下午生成了一项新技能。该技能自动化了博客发布流程:验证frontmatter、检查引用、推送至预发布环境。代码整洁、结构清晰。但它同时覆盖了quality-loop.md中的三条质量规则——模式分析器将”始终运行证据门控”归类为与该技能内置检查冗余。周三早上,一篇未经引用验证的博客文章上线了。技能学会了走捷径。

修复只花了二十分钟。但架构层面的问题思考了数周:如何让智能体学习新能力,同时防止它遗忘保障安全的约束?

摘要

训练阶段的对齐方法(RLHF、训练期宪法AI、安全微调)在智能体进入开放式环境时会退化。六项独立研究殊途同归,指向运行时治理:在执行期间而非仅在训练期间强制执行规范的嵌入式宪法。SkillsBench在86项任务中测试了7,308条智能体轨迹,发现自生成技能平均收益为零——智能体无法可靠地编写它们善于消费的程序性知识。1 MIT的自蒸馏研究表明,标准微调会导致灾难性遗忘,新能力摧毁旧能力。2 解决方案架构包含四个组件:规范性先验、宪法注意力、能力调节和价值对齐验证。下文详述理论基础、实践者映射(四个组件中有三个在我阅读相关研究之前就已存在于Claude Code系统中),以及一个可立即实施的运行时宪法模板。


学会走捷径的智能体

上述事件发生在2026年2月初的Learner v2重构期间。模式分析器(pattern_analyzer.py)检测到一个重复工作流:验证frontmatter、核实引用、检查SEO元数据,然后推送至预发布环境。技能生成器(skill_generator.py)将该工作流编译为带内联验证的可复用技能。

内联验证覆盖了frontmatter格式和SEO字段,但未覆盖引用验证——后者存在于独立的技能(citation-verifier)中,拥有自己的六层权威体系。生成的技能将引用检查标记为”已处理”,因为模式分析器在工作流追踪中看到了与引用相关的函数调用。它将”函数被调用”与”函数的约束被保留”混为一谈。

三个文件对源权威的定义各不相同:

文件 权威定义
citation-verifier/SKILL.md 六层体系:从一手来源到应避免
seo-blog-playbook/SKILL.md 二元判定:”权威”或”需验证”
生成的blog-publish技能 继承了SEO的二元定义,而非citation-verifier的六层体系

事件发生前记录的整合架构3恰好识别了这一失败模式:当多个文件定义了重叠概念时,生成的技能会继承模式分析器最先遇到的定义。修复方案是将引用权威集中到唯一的规范来源。更深层的教训是:获取新能力的智能体需要结构性保障,确保学习不能覆盖治理规则。


训练阶段对齐为何在运行时失效

Goel、Maji和Mazumder记录了其机制:安全行为在良性和对抗性微调下均会退化。4 他们在arXiv:2602.17546中的自适应安全正则化工作表明,较高风险的模型权重更新可以被约束在安全参考策略附近,而较低风险的更新正常进行。该方法在训练时有效,但无法解决智能体在运行时遭遇训练从未预见的新情境时会发生什么。

训练时对齐与运行时行为之间的鸿沟随自主性增长而扩大。在聊天界面中回答问题的模型运行在狭窄的行为边界内。而编写代码、生成技能、运行测试并部署到生产环境的智能体则在更广阔的攻击面上运行——尤其当多轮对话退化削弱了智能体对自身治理规则的访问能力时。智能体信任悖论使问题雪上加霜:智能体越强大,验证其能力是否仍在治理边界内就越困难。每项新能力都会创造训练时对齐无法预先枚举的新失败模式。

MIT的Shenfeld等人量化了一种具体的失败模式:持续学习中的灾难性遗忘。2 在新任务上进行标准监督微调(SFT)会导致先前任务的性能崩溃。在14B参数规模下,自蒸馏微调(SDFT)在新任务上比标准SFT高出7个百分点,同时在先前任务上保持64.5%的准确率——而标准SFT的表现则大幅下滑。代价是:SDFT需要约4倍的计算量和2.5倍的FLOPs。

对实践者而言,启示非常直接:每当智能体学到新东西(生成的技能、缓存的工作流、更新的指令),学习过程都有可能损害智能体已有的知识。我的质量循环覆盖事件就是灾难性遗忘在系统层面的实例。智能体”学会”了一个发布捷径,却摧毁了其引用检查能力。


运行时治理的四大子系统

运行时智能体治理的研究汇聚于四个功能需求。Taghavi及合作者在可演化的可解释宪法研究中证明,LLM演化的治理原则在多智能体协调方面优于人工设计的原则。5 他们的工作以及Mahadevan提出的治理优先的原则化智能体工程范式,6将问题框架化为四个相互作用的子系统。

我将这四个子系统映射到现有的Claude Code基础设施,发现其中三个早已构建完成——每个都解决了我在阅读相关研究数月前就遇到的生产问题。

子系统 功能 理论 我的实现
规范性先验工程 定义可接受的行为边界 跨上下文持续存在的宪法规则 quality-loop.md:7种命名失败模式,含6项标准的证据门控,强制质量循环
宪法注意力 将治理规则路由到正确的上下文 任务自适应规则注入 prompt-dispatcher.sh + 84个钩子:按任务类型注入相关规则,排除无关规则
能力调节 安全管理技能习得 受控的能力扩展 Learner v2:pattern_analyzer.py检测工作流,skill_generator.py创建带约束的技能
价值对齐验证 验证输出符合治理意图 运行时合规检查 证据门控 + 自豪感检查:6项强制标准、模糊用语检测、失败模式扫描

子系统1:规范性先验工程

我的智能体系统中的质量循环定义了七种命名失败模式:捷径螺旋、信心幻觉、够好高原、隧道视野、幽灵验证、延迟债务和空洞报告。7 每种失败模式都有定义、检测信号和强制响应。这些不是建议,而是结构性约束:如果智能体检测到自身出现任何失败模式,必须从评估步骤重新开始。

理论对应:规范性先验确立了智能体运行的行为边界。训练时对齐教导模型一般性原则(”有帮助、无害、诚实”)。运行时的规范性先验编码了具体的操作约束(”绝不跳过引用验证”,”完成报告中绝不使用模糊用语”)。

这一区别至关重要,因为训练时原则是概率性的(模型更可能遵循),而运行时先验可以是确定性的(如果违反约束,钩子会阻止操作)。这与证据门控中探讨的区别一致:从”智能体大概做对了”转向”智能体证明了它做对了”。

子系统2:宪法注意力

七层上下文架构通过选择性加载实现宪法注意力。上下文系统中的650个文件,任何给定任务加载的不超过30个。prompt-dispatcher.sh钩子分析当前任务,注入相关治理规则,同时排除无关规则。

Web开发任务加载安全规则、API设计规则和FastAPI模式,不加载iOS特定规则、游戏开发模式或冥想应用内容指南。宪法注意力意味着智能体看到的是适用于当前任务的治理规则,而非所有存在的规则。

选择性加载防止了一种微妙的失败模式:规则稀释。钩子系统通过在上下文注入前分析任务类型来实现这一路由。当智能体接收200条规则时,每条规则获得的注意力比例远低于接收20条规则时。宪法注意力将治理焦点集中在与当前上下文相关的规则上。

子系统3:能力调节

SkillsBench在11个领域的86项任务中测试了7,308条智能体轨迹,得到了一个惊人的结果:策展技能将平均通过率提高了16.2个百分点,但自生成技能平均无任何收益。1 智能体无法可靠地编写它们善于消费的程序性知识。84项任务中有16项出现了负向增量,即技能反而损害了性能。

SkillsBench的结果验证了我在质量循环覆盖事件后为Learner v2构建的防护栏。现在,生成的技能在激活前需要明确审批,且不能修改或覆盖现有治理文件。模式分析器可以观察工作流并提议技能,但技能生成器将治理文件视为不可变的。

MIT的自蒸馏研究从参数层面补充了视角:在较小的模型规模(3B参数)下,持续学习的尝试实际上会损害性能。2 只有在7B+参数规模下,模型才有足够的容量在不破坏旧能力的前提下习得新技能。基础设施层面的类比:上下文窗口更小或规则集更简单的智能体更容易受到能力-治理冲突的影响。

子系统4:价值对齐验证

证据门控在任何工作被报告为完成之前,要求提供六项标准的具体证据:遵循代码库模式(指出模式名称)、最简可用方案(解释被否决的替代方案)、边界情况已处理(逐一列出)、测试通过(粘贴输出)、无回归(列出检查过的文件)以及解决了实际问题(陈述用户需求)。7

该门控作为运行时验证发挥作用。智能体不能使用模糊用语报告完成(”应该可以”、”我认为”、”似乎”)。每个声明都需要在当前会话中收集的证据。门控能捕获幽灵验证(声称测试通过但未运行)和空洞报告(报告”完成”但无具体内容)。


遗忘问题:当学习摧毁知识

博客技能整合的故事展示了灾难性遗忘在系统层面的表现。十个博客技能共5,400行代码,积累了三个重复区域。3 JSON-LD schema模板同时出现在aio/SKILL.mdseo-blog-playbook/SKILL.md中。引用权威定义在citation-verifierseo-blog-playbook之间存在差异。博客评估指南同时存在于主评估器和独立的分类定义文件中。

当Learner v2系统从观察到的工作流生成新技能时,它会从最先遇到的来源提取定义。结果:生成的技能看起来正确,却携带了错误的权威定义。六层引用体系退化为二元检查。Schema模板在手工编写和自动生成的技能之间产生了分歧。

整合修复是结构性的:为每个概念指定唯一的规范来源,让所有其他引用指向它。引用权威仅存在于citation-verifier/SKILL.md中。JSON-LD模板仅存在于aio/SKILL.md中。该模式防止未来的技能生成继承过时的定义。

MIT的SDFT提供了训练时的类比:在学习新能力时,使用模型自身的先验知识作为教学信号。2 标准SFT用新知识替换旧知识。自蒸馏则通过从模型现有能力生成训练数据,再在混合数据上微调,将新旧知识融合。先验知识之所以存活,是因为它出现在训练信号中。

基础设施层面的等价做法:生成新技能时,在生成提示中包含现有的治理约束。生成的技能继承当前约束,因为这些约束是生成上下文的一部分,而非生成器可以忽视的独立系统。


主动治理 vs. 被动治理

Jin等人的RelianceScope框架根据主动和被动参与的组合,区分了九种AI依赖模式。8 虽然他们的研究对象是与AI聊天机器人交互的学生,但主动/被动的区分可以直接映射到智能体治理架构。

被动治理注入规则后寄希望于智能体遵守。规则存在于CLAUDE.md或系统提示中。智能体在会话开始时读取它们。没有任何机制验证合规性。大多数实践者的设置采用被动治理:一份冗长的指令文件,智能体在会话推进过程中未必持续关注。正如隐形智能体所展示的,在没有主动治理的情况下运行的智能体不会留下是否遵守了指令的任何痕迹。

主动治理在运行时验证合规性。钩子在操作执行前检查输出是否符合约束。门控阻止缺乏证据的完成报告。监控器追踪行为漂移并标记异常。主动治理成本更高(计算、延迟、复杂度),但能捕获被动治理遗漏的失败。

治理类型 机制 能捕获的失败模式 遗漏的失败模式
被动(CLAUDE.md中的规则) 智能体在会话开始时读取规则 早期会话中的明显违规 规则稀释、晚期会话漂移、压缩丢失
主动(钩子 + 门控) 钩子逐操作验证合规性 漂移、压缩丢失、规则违反 现有钩子未覆盖的新情境
混合(规则 + 钩子 + 学习) 规则定边界、钩子做验证、学习做适应 漂移、压缩、新情境(通过适应) 对学习系统的对抗性利用

RelianceScope的发现表明,主动求助行为与主动响应使用正相关,8这暗示了一个治理架构原则:主动查询治理约束(而非被动接收)的智能体会产生更合规的输出。我的证据门控正是基于这一原则运作:智能体不是被动应用规则,而是必须主动证明合规,为每项标准提供证据。


运行时宪法模板

三个文件构成一部最小运行时宪法。请根据您的智能体框架调整结构。

文件1:constitution.md

规范性先验。智能体必须始终做什么、绝不能做什么,以及如何处理歧义。

# Agent Constitution v1

## Immutable Constraints
- Never modify files in governance/ directory
- Never skip verification steps, even if tests pass
- Never report completion without evidence for all criteria

## Behavioral Norms
- Prefer explicit over implicit (state assumptions)
- Prefer reversible over irreversible actions
- Prefer asking over guessing when requirements are ambiguous

## Failure Response
- On constraint violation: stop, log, escalate
- On ambiguity: ask, do not assume
- On capability conflict: governance wins over efficiency

文件2:capabilities.json

当前技能清单,附带来源追踪。

{
  "skills": [
    {
      "name": "blog-publish",
      "version": "2.1.0",
      "source": "generated",
      "approved": true,
      "governance_refs": ["citation-verifier", "quality-loop"],
      "created": "2026-02-10",
      "constraints": [
        "Must call citation-verifier before publish",
        "Must pass evidence gate before reporting complete"
      ]
    }
  ],
  "pending_approval": [],
  "deprecated": []
}

文件3:constraints-registry.json

将每项约束映射到其规范来源,防止导致博客技能事件的重复定义问题。

{
  "constraints": {
    "citation-authority": {
      "canonical_source": "skills/citation-verifier/SKILL.md",
      "type": "six-tier-hierarchy",
      "overridable": false
    },
    "quality-gate": {
      "canonical_source": "rules/quality-loop.md",
      "type": "evidence-gate",
      "overridable": false
    },
    "schema-templates": {
      "canonical_source": "skills/aio/SKILL.md",
      "type": "json-ld-templates",
      "overridable": false
    }
  }
}

三个文件相互配合:constitution.md定义行为边界,capabilities.json追踪智能体的能力并交叉引用治理规则,constraints-registry.json确保每项约束都有唯一的规范来源。生成的技能引用注册表,而非复制约束定义。如需查看该架构在自主开发循环中的实际运行示例,请参阅Ralph的智能体架构。如果您认为沙箱本身就能提供足够的隔离,建议先阅读为什么您的智能体沙箱只是个建议


核心要点

  • 训练阶段的对齐在运行时会退化。 安全微调教授一般性原则;运行时治理强制执行具体的操作约束。Goel等人的研究表明,安全行为在良性和对抗性微调下均会退化。4
  • 自生成技能不可靠。 SkillsBench在7,308条轨迹中发现智能体自编写技能的平均收益为零,84项任务中有16项呈现负面影响。1 生成的技能需要审批门控和治理交叉引用。
  • 灾难性遗忘在系统层面同样运作。 新能力可以覆盖现有约束,即使不修改模型权重。博客技能整合事件展示了基础设施层面的遗忘——生成的技能继承了错误的权威定义。
  • 运行时治理由四大子系统组成。 规范性先验定义边界。宪法注意力将规则路由到上下文。能力调节安全管理学习。价值对齐验证在运行时确认合规。
  • 主动治理优于被动治理。 CLAUDE.md中的规则必要但不充分。逐操作验证合规性的钩子能捕获被动规则遗漏的漂移、压缩丢失和晚期会话退化。

常见问题

什么是AI智能体的运行时宪法?

运行时宪法是一组在智能体执行过程中(而非仅在模型训练期间)强制实施行为约束的治理文件。最小化的宪法包含三个组件:规范性先验(智能体必须做和不能做的事)、能力注册表(智能体的能力及治理交叉引用)以及约束注册表(每项操作约束的唯一规范来源)。运行时宪法通过使治理从概率性变为确定性,弥合了训练阶段对齐与生产行为之间的鸿沟。

为什么AI智能体无法可靠地自行生成技能?

SkillsBench在11个领域的86项任务中测试了7,308条智能体轨迹,发现自生成技能平均无任何收益。策展技能将性能提高了16.2个百分点,但智能体自编写的技能平均改善为零。84项任务中有16项因自生成技能而出现性能下降。智能体能够有效地消费和应用程序性知识,但无法可靠地编写这些知识。生成的技能在激活前需要人工审核、审批门控和明确的治理交叉引用。

什么是AI智能体系统中的灾难性遗忘?

系统层面的灾难性遗忘是指智能体的新能力在不修改模型权重的情况下覆盖了现有约束。在新任务上进行标准微调会导致先前任务性能崩溃;MIT的研究表明,标准SFT在先前任务上的准确率大幅下降,而自蒸馏微调能维持64.5%。在基础设施层面,当生成的技能、缓存的工作流或更新的指令与现有治理规则冲突时,同样的动态会发生。解决方案是结构性的:为每项约束指定规范来源,并将治理文件设为不可被自动修改。

如何为编程智能体实现主动治理?

主动治理使用钩子、门控和监控器在运行时验证合规性,而非依赖智能体从指令中自我执行规则。钩子在工具调用前后执行以检查约束。门控阻止缺乏强制标准证据的完成报告。监控器随时间追踪行为指标并标记漂移。实用的起步方案:实现一个证据门控,要求在接受工作完成前为每项质量标准提供具体证明。该门控以最小的实现开销捕获最常见的失败模式(幽灵验证、空洞报告)。

运行时宪法与基于沙箱的智能体安全有何不同?

沙箱约束智能体*在哪里*运行(文件系统边界、网络访问、资源限制)。运行时宪法约束智能体*如何*在这些边界内运行(行为规范、能力检查、输出门控)。两者缺一不可。沙箱能防止智能体删除生产数据库,但无法防止智能体发布跳过引用验证或覆盖质量约束的代码。运行时宪法填补了这一空白,通过嵌入与智能体决策并行执行的治理规则,逐步验证合规性,而非仅依赖边界隔离。


参考文献


  1. Li, Xiangyi, et al., “SkillsBench: Benchmarking How Well Agent Skills Work Across Diverse Tasks,” arXiv:2602.12670, February 2026. arxiv.org. 86 tasks, 11 domains, 7,308 agent trajectories. Curated skills +16.2pp average; self-generated skills 0pp average. 

  2. Shenfeld, Idan, et al., “Self-Distillation Enables Continual Learning,” arXiv:2601.19897, January 2026. arxiv.org. MIT Improbable AI Lab and ETH Zurich. SDFT outperforms SFT by +7 points at 14B parameters while maintaining 64.5% on prior tasks. 

  3. Author’s decision document: “Blog Skills Pre-Consolidation Architecture (S3.2 Baseline),” February 2026. 10 blog skills, 5,400 lines, three duplication areas identified. 

  4. Goel, Jyotin, Souvik Maji, and Pratik Mazumder, “Learning to Stay Safe: Adaptive Regularization Against Safety Degradation during Fine-Tuning,” arXiv:2602.17546, February 2026. arxiv.org. Adaptive regularization constrains higher-risk weight updates near a safe reference policy. 

  5. Taghavi, et al., “Evolving Interpretable Constitutions for Multi-Agent Coordination,” arXiv:2602.00755, February 2026. arxiv.org. LLM-evolved constitutions outperform human-designed principles for multi-agent coordination. 

  6. Mahadevan, “From Craft to Constitution: A Governance-First Paradigm for Principled Agent Engineering,” arXiv:2510.13857, October 2025. arxiv.org. Introduces “Creed Constitutions” as modular runtime compliance enforcers. 

  7. Author’s quality-loop.md and Jiro craftsmanship system. Seven named failure modes, evidence gate with six mandatory criteria. Documented in The Shokunin Approach

  8. Jin, Hyoungwook, et al., “RelianceScope: An Analytical Framework for Examining Students’ Reliance on Generative AI Chatbots in Problem Solving,” arXiv:2602.16251, February 2026. arxiv.org. Nine reliance patterns based on active vs. passive engagement. Applied here to agent governance architectures. 

  9. Author’s context-is-architecture system. Seven-layer hierarchy across 650 files documented in Context Engineering Is Architecture

  10. Author’s Learner v2 system. Pattern analyzer and skill generator documented in Compounding Engineering

相关文章

虚构防火墙:当你的Agent发布谎言

一个自主Agent在72小时内向8个平台发布了虚构的技术声明。训练阶段的安全机制在发布边界失效了。以下是修复方案。

4 分钟阅读

当你的 Agent 发现漏洞时

一位Anthropic研究员使用Claude Code和一个10行的bash脚本,发现了一个存在23年的Linux内核漏洞。随后又产生了22个Firefox CVE。

1 分钟阅读

你的AI智能体写代码的速度远超你的阅读速度

本周有五个研究团队发表了关于同一问题的研究:AI智能体生成代码的速度远快于开发者理解代码的速度。债务积累在你的脑中。

4 分钟阅读