AI 代理的執行期憲法:一套治理框架
執行期憲法在 AI 代理執行過程中強制施行治理約束,而非僅在訓練階段生效。 它結合了規範性先驗(行為邊界)、憲法注意力機制(情境感知的規則路由)、能力調節(透過審批閘門安全習得技能)以及價值對齊驗證(要求提供證據才能接受工作成果的輸出閘門)。涵蓋 7,308 條代理軌跡的研究證實,缺乏這些結構性保障,自行生成的技能並不可靠。
Learner v2 系統在某個週二下午生成了一項新技能。該技能自動化了部落格發布流程:驗證 frontmatter、檢查引用、推送至預備環境。程式碼結構清晰、條理分明。但這項技能同時覆寫了 quality-loop.md 中的三條品質規則,因為模式分析器將「始終執行證據閘門」歸類為與技能內建檢查重複。到了週三早晨,一篇未經引用驗證的部落格文章就這樣上線了。這項技能學會了走捷徑。
修復只花了二十分鐘。架構層面的問題卻耗費了數週:如何讓代理學習新能力,同時又不讓它遺忘那些確保安全的約束?
摘要
訓練階段的對齊(RLHF、訓練期的 constitutional AI、安全微調)在代理於開放式環境中運作時會逐漸失效。六項獨立研究不約而同指向執行期治理:在執行過程中而非僅在訓練時強制施行的嵌入式憲法。SkillsBench 在 86 項任務中測試了 7,308 條代理軌跡,發現自行生成的技能平均毫無助益——代理無法可靠地撰寫它們從中受益的程序性知識。1 MIT 的自蒸餾研究則顯示,標準微調會導致災難性遺忘,新能力摧毀舊有能力。2 解決方案架構包含四個組成部分:規範性先驗、憲法注意力機制、能力調節與價值對齊驗證。以下將詳述理論基礎、實務對應(四個組成部分中有三個在我閱讀研究之前就已存在於我的 Claude Code 系統中),以及一套您今天就能實作的執行期憲法範本。
學會走捷徑的代理
上述事件發生在 2026 年 2 月初的 Learner v2 重建期間。模式分析器(pattern_analyzer.py)偵測到一組重複工作流程:驗證 frontmatter、核實引用、檢查 SEO 中繼資料,然後推送至預備環境。技能生成器(skill_generator.py)將該工作流程編譯為一項可重複使用的技能,並內嵌驗證邏輯。
內嵌驗證涵蓋了 frontmatter 格式與 SEO 欄位,卻未涵蓋引用驗證——後者存在於獨立的技能(citation-verifier)中,擁有自己的六級權威系統。生成的技能將引用檢查標記為「已處理」,因為模式分析器在工作流程追蹤中看到了與引用相關的函式呼叫。它混淆了「函式被呼叫」與「函式的約束被保留」。
三個檔案以不同方式定義來源權威:
| 檔案 | 權威定義 |
|---|---|
citation-verifier/SKILL.md |
六級系統:從主要來源到應避免 |
seo-blog-playbook/SKILL.md |
二元制:「權威」或「需要驗證」 |
| 生成的 blog-publish 技能 | 繼承了 SEO 的二元定義,而非 citation-verifier 的六級制 |
事件發生前記錄的整合架構3恰好識別出了這種失敗模式:當多個檔案定義重疊概念時,生成的技能會繼承模式分析器最先遇到的定義。修復方式是將引用權威集中於單一標準來源。更深層的教訓在於:獲取新能力的代理需要結構性保障,確保學習無法覆寫治理規則。
為何訓練階段的對齊在執行期失效
Goel、Maji 與 Mazumder 記錄了其中的機制:安全行為在良性與對抗性微調下均會退化。4 他們在 arXiv:2602.17546 中提出的自適應安全正則化研究表明,較高風險的模型權重更新可以被約束在安全參考策略附近,而較低風險的更新則正常進行。這種方法在訓練時有效,但無法解決代理在執行期遇到訓練未曾預見的新情境時會發生什麼。
訓練時對齊與執行期行為之間的落差隨自主性增加而擴大。在聊天介面中回答問題的模型運作於狹窄的行為邊界內。而編寫程式碼、生成技能、執行測試並部署至正式環境的代理則涵蓋了遠為廣闊的作業範圍——尤其當多輪對話退化削弱了代理對自身治理規則的存取時。代理信任悖論更加劇了這一問題:代理越強大,就越難驗證其能力是否仍在治理邊界之內。每項新能力都會產生訓練時對齊無法預先列舉的新失敗模式。
MIT 的 Shenfeld 等人量化了一種特定的失敗模式:持續學習中的災難性遺忘。2 對新任務的標準監督式微調(SFT)會導致先前任務的表現崩潰。在 140 億參數規模下,自蒸餾微調(SDFT)在新任務上比標準 SFT 高出 7 分,同時在先前任務上維持 64.5% 的準確率——而標準 SFT 的成績急劇下滑。代價是:SDFT 需要約 4 倍的運算量和 2.5 倍的 FLOPs。
對實務工作者而言,啟示非常直接:每當您的代理學習新事物(生成的技能、快取的工作流程、更新的指令),學習過程都有可能退化代理已知的能力。我的 quality-loop 被覆寫就是系統層級災難性遺忘的一個實例。代理「學會」了一條發布捷徑,卻摧毀了它的引用檢查能力。
執行期治理的四大子系統
關於執行期代理治理的研究在四項功能需求上趨於一致。Taghavi 及其合作者在可演化可解釋憲法方面的研究表明,LLM 演化的治理原則在多代理協調中優於人工設計的原則。5 他們的工作連同 Mahadevan 提出的治理優先範式6,將問題框定為四個交互的子系統。
我將這四個子系統對應到現有的 Claude Code 基礎設施,發現四個中有三個早已建成,各自解決了我在閱讀研究之前數月就遭遇的生產問題。
| 子系統 | 功能 | 理論 | 我的實作 |
|---|---|---|---|
| 規範性先驗工程 | 定義可接受的行為邊界 | 跨情境持續存在的憲法規則 | quality-loop.md:7 種具名失敗模式、含 6 項標準的證據閘門、強制品質迴圈 |
| 憲法注意力機制 | 將治理規則路由至正確的情境 | 任務自適應的規則注入 | prompt-dispatcher.sh + 84 個 hooks:依任務類型注入相關規則,排除無關規則 |
| 能力調節 | 安全管理技能習得 | 受控的能力擴展 | Learner v2:pattern_analyzer.py 偵測工作流程,skill_generator.py 建立帶約束的技能 |
| 價值對齊驗證 | 驗證輸出是否符合治理意圖 | 執行期合規檢查 | 證據閘門 + 自豪檢查:6 項強制標準、模糊語言偵測、失敗模式掃描 |
子系統 1:規範性先驗工程
我的代理系統中的品質迴圈定義了七種具名失敗模式:捷徑螺旋、信心幻象、差不多高原、隧道視野、幻影驗證、延遲債務與空洞報告。7 每種失敗模式都有定義、偵測訊號與強制回應。這些不是建議,而是結構性約束:如果代理偵測到自身展現任何失敗模式,它必須從評估步驟重新開始。
理論上的對應:規範性先驗確立了代理運作的行為邊界。訓練時對齊教導模型一般性原則(「有用、無害、誠實」)。執行期的規範性先驗則編碼具體的操作約束(「絕不跳過引用驗證」、「絕不在完成報告中使用模糊語言」)。
兩者的差異至關重要:訓練時的原則是機率性的(模型更可能遵循),而執行期先驗可以是確定性的(如果約束被違反,hook 會阻止該操作)。這與證據閘門探討的是同一種區分:從「代理大概做對了」轉變為「代理證明了它做對了」。
子系統 2:憲法注意力機制
七層情境架構透過選擇性載入實現憲法注意力機制。情境系統中的 650 個檔案,任何給定任務只會載入不到 30 個。prompt-dispatcher.sh hook 分析當前任務,注入相關的治理規則,同時排除無關規則。
網頁開發任務會載入安全規則、API 設計規則和 FastAPI 模式,但不會載入 iOS 專用規則、遊戲開發模式或冥想應用程式的內容指南。憲法注意力意味著代理只看到適用於當前任務的治理規則,而非所有存在的規則。
選擇性載入可防止一種微妙的失敗模式:規則稀釋。hooks 系統透過在情境注入前分析任務類型來實現這種路由。當代理收到 200 條規則時,每條規則獲得的注意力比只收到 20 條規則時少得多。憲法注意力將治理焦點集中在當前情境真正重要的規則上。
子系統 3:能力調節
SkillsBench 在 11 個領域的 86 項任務中測試了 7,308 條代理軌跡,得出了一個驚人的結果:經過整理的技能將平均通過率提高了 16.2 個百分點,但自行生成的技能平均毫無助益。1 代理無法可靠地撰寫它們從中受益的程序性知識。84 項任務中有 16 項呈現負差異值,表示技能反而損害了表現。
SkillsBench 的結果驗證了我在 quality-loop 覆寫事件後在 Learner v2 中建立的一項防護措施。生成的技能現在需要明確審批才能啟動,且不能修改或覆寫現有的治理檔案。模式分析器可以觀察工作流程並提議技能,但技能生成器將治理檔案視為不可變更。
MIT 的自蒸餾研究從參數層面增添了一個視角:在較小的模型規模(30 億參數)下,持續學習的嘗試反而會損害表現。2 只有在 70 億以上參數時,模型才有足夠的容量在不摧毀舊能力的情況下習得新技能。基礎設施層面的類比:情境窗口較小或規則集較簡單的代理,更容易出現能力與治理的衝突。
子系統 4:價值對齊驗證
證據閘門要求在任何工作報告完成之前,針對六項標準提供具體證據:遵循程式碼庫模式(指明模式名稱)、最簡可行方案(解釋被否決的替代方案)、邊界情況已處理(逐一列出)、測試通過(貼上輸出結果)、無回歸(指明已檢查的檔案)、解決了實際問題(陳述使用者的需求)。7
此閘門作為執行期驗證運作。代理不能使用模糊語言報告完成(「應該可以」、「我認為」、「似乎」)。每項聲明都需要在當前工作階段收集的證據。此閘門能捕捉幻影驗證(聲稱測試通過但未實際執行)和空洞報告(報告「完成」卻無具體內容)。
遺忘問題:當學習摧毀知識
部落格技能整合的故事展示了系統層級的災難性遺忘。十項部落格技能總計 5,400 行程式碼,累積了三個重複區域。3 JSON-LD 結構化資料範本同時出現在 aio/SKILL.md 和 seo-blog-playbook/SKILL.md 中。引用權威定義在 citation-verifier 和 seo-blog-playbook 之間存在差異。部落格評估指南則同時存在於主評估器和獨立的類別定義檔案中。
當 Learner v2 系統從觀察到的工作流程生成新技能時,它會從最先遇到的來源擷取定義。結果是:生成的技能看起來正確,卻承載了錯誤的權威定義。六級引用系統退化為二元檢查。結構化資料範本在手動撰寫與自動生成的技能之間出現分歧。
整合修復是結構性的:為每個概念指定單一標準來源,讓所有其他參考指向它。引用權威只存在於 citation-verifier/SKILL.md,別無他處。JSON-LD 範本只存在於 aio/SKILL.md,別無他處。這種模式防止未來的技能生成繼承過時的定義。
MIT 的 SDFT 提供了訓練時的類比:在學習新能力時,使用模型自身的先驗知識作為教學訊號。2 標準 SFT 以新知識取代舊知識。自蒸餾則透過從模型現有能力生成訓練資料,再在混合資料上微調,來融合新舊知識。先驗知識得以存續,因為它存在於訓練訊號中,而非生成器可以忽視的獨立系統。
基礎設施層面的等效做法:生成新技能時,在生成提示中包含現有的治理約束。生成的技能會繼承當前約束,因為這些約束是生成情境的一部分,而非生成器能夠忽略的外部系統。
主動治理 vs. 被動治理
Jin 等人的 RelianceScope 框架根據主動與被動參與的組合,區分了九種 AI 依賴模式。8 雖然他們的研究對象是學生與 AI 聊天機器人的互動,但主動/被動的區分直接適用於代理治理架構。
被動治理注入規則並寄望代理遵循。規則存在於 CLAUDE.md 或系統提示中。代理在工作階段開始時讀取它們,但沒有任何機制驗證合規性。大多數實務設置採用被動治理:一份冗長的指令檔案,代理隨著工作階段推進可能有也可能沒有關注到。正如隱形代理所展示的,在沒有主動治理的情況下運作的代理,不會留下任何它們是否遵循指令的痕跡。
主動治理在執行期驗證合規性。Hooks 在操作執行前對照約束檢查輸出。閘門阻止缺乏證據的完成報告。監控器追蹤行為偏移並標記異常。主動治理成本更高(運算、延遲、複雜度),但能捕捉被動治理遺漏的失敗。
| 治理類型 | 機制 | 捕捉的失敗模式 | 遺漏的失敗模式 |
|---|---|---|---|
| 被動(CLAUDE.md 中的規則) | 代理在工作階段開始時讀取規則 | 早期工作階段的明顯違規 | 規則稀釋、後期偏移、壓縮損失 |
| 主動(hooks + 閘門) | Hooks 逐操作驗證合規性 | 偏移、壓縮損失、規則違規 | 現有 hooks 未涵蓋的新情境 |
| 混合(規則 + hooks + 學習) | 規則定邊界、hooks 做驗證、學習做適應 | 偏移、壓縮、新情境(透過適應) | 對學習系統的對抗性利用 |
RelianceScope 發現主動尋求幫助與主動使用回應相關聯8,這暗示了一項治理架構原則:主動查詢自身治理約束(而非被動接收)的代理,會產生更合規的輸出。我的證據閘門正是基於此原則運作:代理不是被動地套用規則,而是必須主動展示合規性,為每項標準提出證據。
執行期憲法範本
三個檔案構成一套最小化的執行期憲法。請根據您的代理框架調整結構。
檔案 1:constitution.md
規範性先驗。代理必須始終做什麼、絕不能做什麼,以及如何處理模糊情境。
# Agent Constitution v1
## Immutable Constraints
- Never modify files in governance/ directory
- Never skip verification steps, even if tests pass
- Never report completion without evidence for all criteria
## Behavioral Norms
- Prefer explicit over implicit (state assumptions)
- Prefer reversible over irreversible actions
- Prefer asking over guessing when requirements are ambiguous
## Failure Response
- On constraint violation: stop, log, escalate
- On ambiguity: ask, do not assume
- On capability conflict: governance wins over efficiency
檔案 2:capabilities.json
當前技能清單與來源追蹤。
{
"skills": [
{
"name": "blog-publish",
"version": "2.1.0",
"source": "generated",
"approved": true,
"governance_refs": ["citation-verifier", "quality-loop"],
"created": "2026-02-10",
"constraints": [
"Must call citation-verifier before publish",
"Must pass evidence gate before reporting complete"
]
}
],
"pending_approval": [],
"deprecated": []
}
檔案 3:constraints-registry.json
將每項約束對應至其標準來源,防止導致部落格技能事件的重複定義問題。
{
"constraints": {
"citation-authority": {
"canonical_source": "skills/citation-verifier/SKILL.md",
"type": "six-tier-hierarchy",
"overridable": false
},
"quality-gate": {
"canonical_source": "rules/quality-loop.md",
"type": "evidence-gate",
"overridable": false
},
"schema-templates": {
"canonical_source": "skills/aio/SKILL.md",
"type": "json-ld-templates",
"overridable": false
}
}
}
三個檔案相互配合:constitution.md 定義行為邊界,capabilities.json 追蹤代理的能力並交叉引用治理規則,constraints-registry.json 確保每項約束只有一個標準來源。生成的技能引用登錄檔而非複製約束定義。如需此架構在自主開發迴圈中的運作範例,請參閱 Ralph 的代理架構。而如果您認為沙箱本身就足以提供充分的隔離,請先閱讀為何您的代理沙箱只是建議。
重點整理
- 訓練階段的對齊在執行期退化。 安全微調教導一般性原則;執行期治理則強制執行具體的操作約束。Goel 等人證明安全行為在良性與對抗性微調下均會退化。4
- 自行生成的技能並不可靠。 SkillsBench 在 7,308 條軌跡中發現代理自撰技能的平均效益為零,84 項任務中有 16 項呈現負面影響。1 生成的技能需要審批閘門與治理交叉引用。
- 災難性遺忘在系統層級運作。 新能力即使不修改模型權重也能覆寫現有約束。部落格技能整合事件展示了基礎設施層級的遺忘——生成的技能繼承了錯誤的權威定義。
- 四大子系統組成執行期治理。 規範性先驗定義邊界。憲法注意力將規則路由至情境。能力調節安全管理學習。價值對齊驗證在執行期確認合規。
- 主動治理優於被動治理。 CLAUDE.md 中的規則必要但不充分。逐操作驗證合規的 hooks 能捕捉偏移、壓縮損失和後期工作階段退化——這些都是被動規則所遺漏的。
常見問題
什麼是 AI 代理的執行期憲法?
執行期憲法是一組治理檔案,在代理執行過程中而非僅在模型訓練時強制施行行為約束。最小化的憲法包含三個組成部分:規範性先驗(代理必須做與不能做的事)、能力登錄檔(代理能做什麼及其治理交叉引用)、以及約束登錄檔(每項操作約束的單一標準來源)。執行期憲法藉由將治理從機率性轉為確定性,彌合了訓練階段對齊與正式環境行為之間的落差。
為什麼 AI 代理無法可靠地生成自己的技能?
SkillsBench 在 11 個領域的 86 項任務中測試了 7,308 條代理軌跡,發現自行生成的技能平均毫無助益。經過整理的技能將表現提升了 16.2 個百分點,但代理自撰的技能平均改善為零。84 項任務中有 16 項,自行生成的技能反而主動降低了表現。代理能有效消化並應用程序性知識,卻無法可靠地撰寫這些知識。生成的技能在啟動前需要人工審查、審批閘門與明確的治理交叉引用。
什麼是 AI 代理系統中的災難性遺忘?
系統層級的災難性遺忘發生在新的代理能力覆寫現有約束而不修改模型權重時。對新任務的標準微調會導致先前任務表現崩潰;MIT 研究顯示標準 SFT 在先前任務上的準確率急劇下降,而自蒸餾微調則維持 64.5%。在基礎設施層面,當生成的技能、快取的工作流程或更新的指令與現有治理規則衝突時,同樣的動態也會發生。修復方法是結構性的:為每項約束指定標準來源,並將治理檔案設為不可由自動化流程修改。
如何為程式碼代理實作主動治理?
主動治理使用 hooks、閘門和監控器在執行期驗證合規性,而非依賴代理從指令中自行執行規則。Hooks 在工具呼叫前後執行以檢查約束。閘門阻止缺乏強制標準證據的完成報告。監控器長期追蹤行為指標並標記偏移。實務起點:實作一個證據閘門,要求在接受工作完成之前,為每項品質標準提供具體證明。此閘門以最小的實作成本捕捉最常見的失敗模式(幻影驗證、空洞報告)。
執行期憲法與沙箱式代理安全有何不同?
沙箱約束代理能在*何處*運作(檔案系統邊界、網路存取、資源限制)。執行期憲法約束代理在這些邊界*之內如何*運作(行為規範、能力檢查、輸出閘門)。兩者缺一不可。沙箱能防止代理刪除正式環境的資料庫,卻無法防止代理發布跳過引用驗證或覆寫品質約束的程式碼。執行期憲法填補了這一空白,將治理規則嵌入代理的決策過程,在每一步驗證合規性,而非僅依賴邊界防護。
參考文獻
-
Li, Xiangyi, et al., “SkillsBench: Benchmarking How Well Agent Skills Work Across Diverse Tasks,” arXiv:2602.12670, February 2026. arxiv.org. 86 tasks, 11 domains, 7,308 agent trajectories. Curated skills +16.2pp average; self-generated skills 0pp average. ↩↩↩
-
Shenfeld, Idan, et al., “Self-Distillation Enables Continual Learning,” arXiv:2601.19897, January 2026. arxiv.org. MIT Improbable AI Lab and ETH Zurich. SDFT outperforms SFT by +7 points at 14B parameters while maintaining 64.5% on prior tasks. ↩↩↩↩
-
Author’s decision document: “Blog Skills Pre-Consolidation Architecture (S3.2 Baseline),” February 2026. 10 blog skills, 5,400 lines, three duplication areas identified. ↩↩
-
Goel, Jyotin, Souvik Maji, and Pratik Mazumder, “Learning to Stay Safe: Adaptive Regularization Against Safety Degradation during Fine-Tuning,” arXiv:2602.17546, February 2026. arxiv.org. Adaptive regularization constrains higher-risk weight updates near a safe reference policy. ↩↩
-
Taghavi, et al., “Evolving Interpretable Constitutions for Multi-Agent Coordination,” arXiv:2602.00755, February 2026. arxiv.org. LLM-evolved constitutions outperform human-designed principles for multi-agent coordination. ↩
-
Mahadevan, “From Craft to Constitution: A Governance-First Paradigm for Principled Agent Engineering,” arXiv:2510.13857, October 2025. arxiv.org. Introduces “Creed Constitutions” as modular runtime compliance enforcers. ↩
-
Author’s quality-loop.md and Jiro craftsmanship system. Seven named failure modes, evidence gate with six mandatory criteria. Documented in The Shokunin Approach. ↩↩
-
Jin, Hyoungwook, et al., “RelianceScope: An Analytical Framework for Examining Students’ Reliance on Generative AI Chatbots in Problem Solving,” arXiv:2602.16251, February 2026. arxiv.org. Nine reliance patterns based on active vs. passive engagement. Applied here to agent governance architectures. ↩↩
-
Author’s context-is-architecture system. Seven-layer hierarchy across 650 files documented in Context Engineering Is Architecture. ↩
-
Author’s Learner v2 system. Pattern analyzer and skill generator documented in Compounding Engineering. ↩