AIエージェントのランタイム憲法:ガバナンスフレームワーク
ランタイム憲法は、トレーニング時だけでなく、AIエージェントの実行中にガバナンス制約を強制します。 規範的プライア(行動境界)、憲法的アテンション(コンテキスト対応ルールルーティング)、コンピテンス変調(承認ゲート付きの安全なスキル獲得)、価値アライメント検証(作業完了前にエビデンスを要求する出力ゲート)を組み合わせた仕組みです。7,308件のエージェント軌跡にわたる研究により、自己生成スキルは信頼性が低いことが確認されており、こうした構造的セーフガードなしでは成り立ちません。
Learner v2システムがある火曜日の午後、新しいスキルを生成しました。ブログ公開ワークフローを自動化するスキルで、フロントマターの検証、引用チェック、ステージングへのプッシュを行います。整理された美しいコードでした。しかし同時に、quality-loop.mdの3つの品質ルールも上書きしていました。パターンアナライザーが「常にエビデンスゲートを実行する」というルールを、スキルの組み込みチェックと重複していると分類したためです。水曜日の朝には、引用検証なしでブログ記事が公開されていました。スキルが手抜きを覚えてしまったのです。
修正には20分で済みました。しかしアーキテクチャ上の問いには数週間を要しました。エージェントに新しい能力を学習させつつ、安全性を担保する制約を忘れさせないようにするには、どうすればよいのか?
TL;DR
トレーニング段階のアライメント(RLHF、トレーニング中の憲法AI、安全性ファインチューニング)は、エージェントがオープンエンドな環境で動作すると劣化します。6つの独立した研究がランタイムガバナンスに収束しています。トレーニング時ではなく実行時に規範を強制する組み込み型憲法です。SkillsBenchは86タスクにわたる7,308件のエージェント軌跡をテストし、自己生成スキルには平均的な効果がないことを発見しました。エージェントは、消費して利益を得る手続き的知識を、自ら確実に作成することができないのです。1 MITの自己蒸留研究では、標準的なファインチューニングが破滅的忘却を引き起こし、新しい能力が既存の能力を破壊することが示されています。2 解決アーキテクチャには4つのコンポーネントがあります。規範的プライア、憲法的アテンション、コンピテンス変調、価値アライメント検証です。以下では、理論、実践者マッピング(研究を読む前から私のClaude Codeシステムには4つのうち3つがすでに存在していました)、そして今日から実装できるランタイム憲法テンプレートを紹介します。
手抜きを学んだエージェント
上記のインシデントは2026年2月初旬、Learner v2の再構築中に発生しました。パターンアナライザー(pattern_analyzer.py)が繰り返されるワークフローを検出しました。フロントマターの検証、引用の確認、SEOメタデータのチェック、ステージングへのプッシュという流れです。スキルジェネレーター(skill_generator.py)は、このワークフローをインライン検証付きの再利用可能なスキルにコンパイルしました。
インライン検証はフロントマターの形式とSEOフィールドをカバーしていました。しかし引用検証はカバーしていませんでした。引用検証は独自の6段階権威システムを持つ別のスキル(citation-verifier)に存在します。生成されたスキルは引用チェックを「処理済み」とマークしました。パターンアナライザーがワークフロートレースで引用関連の関数呼び出しを検出したためです。「関数が呼ばれた」ことと「関数の制約が保持された」ことを混同してしまったのです。
3つのファイルがソース権威を異なる方法で定義していました。
| ファイル | 権威の定義 |
|---|---|
citation-verifier/SKILL.md |
6段階システム:一次ソースから回避まで |
seo-blog-playbook/SKILL.md |
バイナリ:「権威あり」または「検証が必要」 |
| 生成されたblog-publishスキル | citation-verifierの6段階ではなく、SEOのバイナリ定義を継承 |
インシデント前に文書化された統合アーキテクチャ3は、まさにこの障害モードを特定していました。複数のファイルが重複する概念を定義している場合、生成されたスキルはパターンアナライザーが最初に遭遇した定義を継承してしまうのです。修正として引用権威を単一の正規ソースに集約しました。教訓はより広範なものでした。新しい能力を獲得するエージェントには、学習がガバナンスを上書きできないという構造的保証が必要です。
トレーニング段階のアライメントがランタイムで失敗する理由
Goel、Maji、Mazumderがそのメカニズムを文書化しました。安全性行動は、良性・敵対的の両方のファインチューニングで劣化します。4 arXiv:2602.17546における彼らの適応的安全正則化研究では、モデル重みへのリスクの高い更新を安全な参照ポリシーの近くに制約しつつ、リスクの低い更新は通常通り進行させることが示されました。このアプローチはトレーニング時には機能しますが、トレーニングでは予期されなかった新規状況にエージェントがランタイムで遭遇した場合には対処できません。
トレーニング時のアライメントとランタイム行動のギャップは、自律性が高まるほど拡大します。チャットインターフェースで質問に答えるモデルは、狭い行動範囲内で動作します。一方、コードを書き、スキルを生成し、テストを実行し、本番環境にデプロイするエージェントは、はるかに広い表面積にわたって動作します。特にマルチターン会話が劣化する場合、エージェント自身のガバナンスルールへのアクセスが低下するため問題は深刻化します。エージェント信頼パラドックスがこれを増幅させます。エージェントの能力が高いほど、その能力がガバナンス境界内に留まっているかを検証することが難しくなるのです。新しい能力はすべて、トレーニング時のアライメントでは事前に列挙できない新たな障害モードを生み出します。
MITのShenfeld らは特定の障害モードを定量化しました。継続学習における破滅的忘却です。2 新しいタスクでの標準的な教師ありファインチューニング(SFT)は、以前のタスクでのパフォーマンスを崩壊させます。14Bパラメータにおいて、自己蒸留ファインチューニング(SDFT)は新しいタスクで標準SFTを7ポイント上回りながら、以前のタスクで64.5%の精度を維持しました。標準SFTのスコアは大幅に低下します。トレードオフとして、SDFTには約4倍の計算量と2.5倍のFLOPsが必要です。
実践者にとっての意味は明確です。エージェントが何か新しいことを学ぶたびに(生成されたスキル、キャッシュされたワークフロー、更新された指示)、その学習は既知の内容を劣化させるリスクがあります。品質ループの上書きは、破滅的忘却のシステムレベルの事例でした。エージェントは公開のショートカットを「学習」し、引用チェック能力を破壊してしまったのです。
ランタイムガバナンスの4つのサブシステム
ランタイムエージェントガバナンスの研究は、4つの機能要件に収束しています。Taghaviらは進化的で解釈可能な憲法の研究で、LLMによって進化させたガバナンス原則が、マルチエージェント協調において人間が設計したものを上回ることを実証しました。5 彼らの研究と、Mahadevanの原則的エージェントエンジニアリングのためのガバナンスファーストパラダイム6は、問題を4つの相互作用するサブシステムとして捉えています。
この4つのサブシステムを既存のClaude Codeインフラストラクチャにマッピングしたところ、4つのうち3つがすでに構築されていることが判明しました。それぞれが、研究を読む数ヶ月前に遭遇した本番環境の問題を解決するものでした。
| サブシステム | 機能 | 理論 | 実装 |
|---|---|---|---|
| 規範的プライアエンジニアリング | 許容される行動境界の定義 | コンテキストを超えて持続する憲法ルール | quality-loop.md:7つの名前付き障害モード、6基準のエビデンスゲート、必須の品質ループ |
| 憲法的アテンション | ガバナンスルールを適切なコンテキストにルーティング | タスク適応型ルール注入 | prompt-dispatcher.sh + 84フック:タスクタイプごとに関連ルールを注入し、無関係なものを除外 |
| コンピテンス変調 | スキル獲得の安全な管理 | 制御された能力拡張 | Learner v2:pattern_analyzer.pyがワークフローを検出、skill_generator.pyが制約付きスキルを作成 |
| 価値アライメント検証 | 出力がガバナンスの意図と一致するか検証 | ランタイムコンプライアンスチェック | エビデンスゲート+プライドチェック:6つの必須基準、ヘッジ表現の検出、障害モードスキャン |
サブシステム1:規範的プライアエンジニアリング
エージェントシステムの品質ループは、7つの名前付き障害モードを定義しています。ショートカットスパイラル、コンフィデンスミラージュ、グッドイナフプラトー、トンネルビジョン、ファントム検証、ディファードデット、ホローレポートです。7 各障害モードには定義、検出シグナル、必須の対応が設定されています。これらは提案ではありません。構造的制約です。エージェントがいずれかの障害モードを検出した場合、評価ステップからやり直さなければなりません。
理論的な対応関係として、規範的プライアはエージェントが動作する行動境界を確立します。トレーニング時のアライメントは一般的な原則(「役立つ、無害、正直であれ」)をモデルに教えます。ランタイムの規範的プライアは具体的な運用制約を符号化します(「引用検証を絶対にスキップしない」「完了レポートでヘッジ表現を使わない」)。
この違いは重要です。トレーニング時の原則は確率的(モデルがそれに従う可能性が高い)ですが、ランタイムプライアは決定論的にできます(制約に違反した場合、フックがアクションをブロックする)。これはエビデンスゲートで探求されたのと同じ区別です。「エージェントはおそらく正しいことをした」から「エージェントが正しいことをしたと証明した」への移行です。
サブシステム2:憲法的アテンション
7層コンテキストアーキテクチャは、選択的ロードによって憲法的アテンションを実装しています。コンテキストシステムの650ファイルのうち、任意のタスクでロードされるのは30未満です。prompt-dispatcher.shフックが現在のタスクを分析し、関連するガバナンスルールを注入しつつ、無関係なものを除外します。
Web開発タスクではセキュリティルール、APIデザインルール、FastAPIパターンがロードされます。iOS固有のルール、ゲーム開発パターン、瞑想アプリのコンテンツガイドラインはロードされません。憲法的アテンションとは、存在するすべてのルールではなく、このタスクに適用されるガバナンスルールをエージェントが参照するということです。
選択的ロードは微妙な障害モードを防止します。ルール希釈です。フックシステムは、コンテキスト注入前にタスクタイプを分析することでこのルーティングを可能にしています。エージェントが200のルールを受け取ると、20のルールを受け取る場合と比べて、各ルールが受ける注目は比例的に低下します。憲法的アテンションは、現在のコンテキストに重要なルールにガバナンスの焦点を集中させます。
サブシステム3:コンピテンス変調
SkillsBenchは11ドメインの86タスクにわたる7,308件のエージェント軌跡をテストし、驚くべき結果を発見しました。キュレーションされたスキルは平均パス率を16.2ポイント改善しましたが、自己生成スキルは平均的な効果がありませんでした。1 エージェントは、消費して利益を得る手続き的知識を確実に作成することができません。84タスク中16タスクでは、スキルがパフォーマンスを積極的に悪化させる負のデルタを示しました。
SkillsBenchの結果は、品質ループ上書きインシデント後にLearner v2に組み込んだガードレールを検証するものでした。生成されたスキルは有効化前に明示的な承認が必要となり、既存のガバナンスファイルを変更・上書きすることはできません。パターンアナライザーはワークフローを観察してスキルを提案できますが、スキルジェネレーターはガバナンスファイルをイミュータブルとして扱います。
MITの自己蒸留研究はパラメータレベルの視点を追加します。より小さなモデルサイズ(3Bパラメータ)では、継続学習の試みが実際にパフォーマンスを悪化させます。2 7B以上のパラメータでのみ、モデルは既存のスキルを破壊せずに新しいスキルを獲得するのに十分な容量を持ちます。インフラストラクチャレベルでの類推として、より小さなコンテキストウィンドウやより単純なルールセットを持つエージェントは、能力とガバナンスの衝突に対してより脆弱です。
サブシステム4:価値アライメント検証
エビデンスゲートは、作業を完了として報告する前に、6つの基準に対する具体的なエビデンスを要求します。コードベースパターンへの準拠(パターン名を挙げる)、最もシンプルな動作するソリューション(却下した代替案を説明する)、エッジケースの処理(各ケースをリストする)、テストの合格(出力を貼り付ける)、リグレッションなし(チェックしたファイルを名前で挙げる)、実際の問題の解決(ユーザーのニーズを述べる)です。7
ゲートはランタイム検証として機能します。エージェントはヘッジ表現(「動くはずです」「と思います」「のようです」)を使って完了を報告できません。各主張には現在のセッションで収集されたエビデンスが必要です。ゲートはファントム検証(テストを実行せずに合格と主張する)とホローレポート(具体的な内容なしに「完了」と報告する)を捕捉します。
忘却問題:学習が知識を破壊するとき
ブログスキル統合の事例は、破滅的忘却のシステムレベル版を示しています。合計5,400行の10個のブログスキルに、3つの重複領域が蓄積されていました。3 JSON-LDスキーマテンプレートはaio/SKILL.mdとseo-blog-playbook/SKILL.mdの両方に存在していました。引用権威の定義はcitation-verifierとseo-blog-playbookで異なっていました。ブログ評価ガイダンスはメインの評価ツールと別のカテゴリ定義ファイルの両方に存在していました。
Learner v2システムが観察されたワークフローから新しいスキルを生成する際、最初に遭遇したソースから定義を取得していました。結果として、正しく見えるが間違った権威定義を持つスキルが生成されました。6段階の引用システムがバイナリチェックに劣化しました。手動で作成されたスキルと自動生成されたスキルの間でスキーマテンプレートが乖離しました。
統合の修正は構造的なものでした。各概念に対して単一の正規ソースを指定し、他のすべての参照がそこを指すようにしました。引用権威はcitation-verifier/SKILL.mdにのみ存在します。JSON-LDテンプレートはaio/SKILL.mdにのみ存在します。このパターンにより、将来のスキル生成が陳腐化した定義を継承することを防止します。
MITのSDFTはトレーニング時の類似手法を提供します。新しい能力を学習する際に、モデル自身の事前知識を教育シグナルとして使用するのです。2 標準SFTは古い知識を新しい知識で置き換えます。自己蒸留は、モデルの既存能力からトレーニングデータを生成し、そのブレンドでファインチューニングすることで、古い知識と新しい知識を融合します。事前知識はトレーニングシグナルに含まれているため生き残ります。
インフラストラクチャレベルでの等価物として、新しいスキルを生成する際に、既存のガバナンス制約を生成プロンプトに含めます。生成されたスキルは現在の制約を継承します。なぜなら、それらの制約はジェネレーターが見落とせる別のシステムではなく、生成コンテキストの一部だからです。
アクティブガバナンス vs パッシブガバナンス
Jinらの RelianceScopeフレームワークは、能動的・受動的エンゲージメントの組み合わせに基づく9つのAI依存パターンを区別しています。8 彼らの研究はAIチャットボットと対話する学生を対象としたものですが、アクティブ/パッシブの区別はエージェントガバナンスアーキテクチャに直接マッピングされます。
パッシブガバナンスはルールを注入し、エージェントがそれに従うことを期待するだけです。ルールはCLAUDE.mdやシステムプロンプトに存在します。エージェントはセッション開始時にそれを読みます。コンプライアンスを検証するものは何もありません。ほとんどの実践者のセットアップはパッシブガバナンスを使用しています。セッションが進むにつれて、エージェントが注意を払うかもしれないし、払わないかもしれない長い指示ファイルです。見えないエージェントが示すように、アクティブガバナンスなしで動作するエージェントは、指示に従ったかどうかの痕跡を残しません。
アクティブガバナンスはランタイムでコンプライアンスを検証します。フックが出力を制約に照らして実行前にチェックします。ゲートがエビデンスを欠く完了レポートをブロックします。モニターが行動のドリフトを追跡し、異常をフラグします。アクティブガバナンスはコスト(計算量、レイテンシ、複雑性)が高くなりますが、パッシブガバナンスが見逃す障害を捕捉します。
| ガバナンスタイプ | メカニズム | 捕捉する障害モード | 見逃す障害モード |
|---|---|---|---|
| パッシブ(CLAUDE.mdのルール) | エージェントがセッション開始時にルールを読む | セッション初期の明白な違反 | ルール希釈、セッション後半のドリフト、圧縮ロス |
| アクティブ(フック+ゲート) | フックがアクションごとにコンプライアンスを検証 | ドリフト、圧縮ロス、ルール違反 | 既存フックでカバーされない新規状況 |
| ハイブリッド(ルール+フック+学習) | ルールで境界、フックで検証、学習で適応 | ドリフト、圧縮、新規状況(適応により) | 学習システムの敵対的悪用 |
RelianceScopeの「能動的な助けを求める行動が能動的な回答利用と相関する」という発見8は、ガバナンスアーキテクチャの原則を示唆しています。ガバナンス制約を受動的に受け取るのではなく、能動的に問い合わせるエージェントの方が、より準拠した出力を生成するのです。エビデンスゲートはこの原則に基づいて動作しています。ルールを受動的に適用するのではなく、エージェントは各基準に対するエビデンスを生成することでコンプライアンスを能動的に実証しなければなりません。
ランタイム憲法テンプレート
3つのファイルで最小限のランタイム憲法を構成します。エージェントフレームワークに合わせて構造を適応させてください。
ファイル1:constitution.md
規範的プライアです。エージェントが常に行うべきこと、絶対に行ってはならないこと、曖昧さへの対処方法を定義します。
# Agent Constitution v1
## Immutable Constraints
- Never modify files in governance/ directory
- Never skip verification steps, even if tests pass
- Never report completion without evidence for all criteria
## Behavioral Norms
- Prefer explicit over implicit (state assumptions)
- Prefer reversible over irreversible actions
- Prefer asking over guessing when requirements are ambiguous
## Failure Response
- On constraint violation: stop, log, escalate
- On ambiguity: ask, do not assume
- On capability conflict: governance wins over efficiency
ファイル2:capabilities.json
来歴追跡付きの現在のスキルインベントリです。
{
"skills": [
{
"name": "blog-publish",
"version": "2.1.0",
"source": "generated",
"approved": true,
"governance_refs": ["citation-verifier", "quality-loop"],
"created": "2026-02-10",
"constraints": [
"Must call citation-verifier before publish",
"Must pass evidence gate before reporting complete"
]
}
],
"pending_approval": [],
"deprecated": []
}
ファイル3:constraints-registry.json
各制約を正規ソースにマッピングし、ブログスキルインシデントを引き起こした重複問題を防止します。
{
"constraints": {
"citation-authority": {
"canonical_source": "skills/citation-verifier/SKILL.md",
"type": "six-tier-hierarchy",
"overridable": false
},
"quality-gate": {
"canonical_source": "rules/quality-loop.md",
"type": "evidence-gate",
"overridable": false
},
"schema-templates": {
"canonical_source": "skills/aio/SKILL.md",
"type": "json-ld-templates",
"overridable": false
}
}
}
3つのファイルは相互に連携します。constitution.mdが行動境界を定義し、capabilities.jsonがガバナンスの相互参照付きでエージェントの能力を追跡し、constraints-registry.jsonがすべての制約に正確に1つの正規ソースを確保します。生成されたスキルは制約定義をコピーするのではなく、レジストリを参照します。自律開発ループにおけるこのアーキテクチャの実動例については、Ralphのエージェントアーキテクチャをご覧ください。サンドボックスだけで十分な封じ込めが得られると考えている場合は、まずエージェントサンドボックスが単なる提案である理由をお読みください。
重要なポイント
- トレーニング段階のアライメントはランタイムで劣化します。 安全性ファインチューニングは一般原則を教えますが、ランタイムガバナンスは具体的な運用制約を強制します。Goelらは、安全性行動が良性・敵対的の両方のファインチューニングで劣化することを示しました。4
- 自己生成スキルは信頼性がありません。 SkillsBenchは7,308件の軌跡で自己作成スキルの平均効果がゼロであり、84タスク中16タスクで負の影響があることを発見しました。1 生成されたスキルには承認ゲートとガバナンスの相互参照が必要です。
- 破滅的忘却はシステムレベルで作用します。 モデル重みを変更せずとも、新しい能力が既存の制約を上書きする可能性があります。ブログスキル統合インシデントでは、生成されたスキルが誤った権威定義を継承するインフラストラクチャレベルの忘却が実証されました。
- 4つのサブシステムがランタイムガバナンスを構成します。 規範的プライアが境界を定義し、憲法的アテンションがルールをコンテキストにルーティングし、コンピテンス変調が学習を安全に管理し、価値アライメント検証がランタイムでコンプライアンスを確認します。
- アクティブガバナンスはパッシブガバナンスを上回ります。 CLAUDE.mdのルールは必要ですが不十分です。アクションごとにコンプライアンスを検証するフックが、パッシブルールでは見逃すドリフト、圧縮ロス、セッション後半の劣化を捕捉します。
FAQ
AIエージェントのランタイム憲法とは何ですか?
ランタイム憲法とは、モデルトレーニング時だけでなく、エージェントの実行中に行動制約を強制するガバナンスファイルのセットです。最小限の憲法には3つのコンポーネントが含まれます。規範的プライア(エージェントが行うべきこと・行ってはならないこと)、能力レジストリ(ガバナンスの相互参照付きでエージェントができること)、制約レジストリ(各運用制約の単一正規ソース)です。ランタイム憲法は、トレーニング段階のアライメントと本番環境の行動のギャップに対処し、ガバナンスを確率的ではなく決定論的にします。
AIエージェントが自身のスキルを確実に生成できないのはなぜですか?
SkillsBenchは11ドメインの86タスクにわたる7,308件のエージェント軌跡をテストし、自己生成スキルには平均的な効果がないことを発見しました。キュレーションされたスキルはパフォーマンスを16.2ポイント改善しましたが、エージェント作成のスキルは平均改善ゼロでした。84タスク中16タスクでは、自己生成スキルがパフォーマンスを積極的に悪化させました。エージェントは手続き的知識を効果的に消費・適用できますが、その知識を確実に作成することはできません。生成されたスキルには、有効化前の人間によるレビュー、承認ゲート、明示的なガバナンスの相互参照が必要です。
AIエージェントシステムにおける破滅的忘却とは何ですか?
システムレベルの破滅的忘却は、モデル重みを変更せずに、新しいエージェント能力が既存の制約を上書きするときに発生します。新しいタスクでの標準的なファインチューニングは、以前のタスクのパフォーマンスを崩壊させます。MITの研究では、標準SFTの以前のタスクでの精度が急激に低下する一方、自己蒸留ファインチューニングは64.5%を維持することが示されました。インフラストラクチャレベルでは、生成されたスキル、キャッシュされたワークフロー、更新された指示が既存のガバナンスルールと衝突するときに同じダイナミクスが発生します。修正は構造的なものです。各制約に正規ソースを指定し、ガバナンスファイルを自動変更に対してイミュータブルにすることです。
コーディングエージェントにアクティブガバナンスを実装するには?
アクティブガバナンスは、エージェントが指示からルールを自己強制することに依存するのではなく、フック、ゲート、モニターを使用してランタイムでコンプライアンスを検証します。フックはツール呼び出しの前後に実行され、制約をチェックします。ゲートは必須基準のエビデンスを欠く完了レポートをブロックします。モニターは時間経過に伴う行動メトリクスを追跡し、ドリフトをフラグします。実践的な出発点として、作業完了を受け入れる前に各品質基準に対する具体的な証明を要求するエビデンスゲートの実装があります。最も一般的な障害モード(ファントム検証、ホローレポート)を最小限の実装オーバーヘッドで捕捉できます。
ランタイム憲法はサンドボックスベースのエージェント安全性とどう異なりますか?
サンドボックスはエージェントが*どこで*動作できるかを制約します(ファイルシステム境界、ネットワークアクセス、リソース制限)。ランタイム憲法はそれらの境界内でエージェントが*どのように*動作するかを制約します(行動規範、コンピテンスチェック、出力ゲート)。両方が必要です。サンドボックスはエージェントが本番データベースを削除することを防止しますが、引用検証をスキップするコードの出荷や品質制約の上書きを防止することはできません。ランタイム憲法は、エージェント自身の意思決定と並行して実行されるガバナンスルールを組み込むことでそのギャップを埋め、境界封じ込めだけに依存するのではなく、各ステップでコンプライアンスを検証します。
参考文献
-
Li, Xiangyi, et al., “SkillsBench: Benchmarking How Well Agent Skills Work Across Diverse Tasks,” arXiv:2602.12670, February 2026. arxiv.org. 86タスク、11ドメイン、7,308件のエージェント軌跡。キュレーションスキル+16.2pp平均、自己生成スキル0pp平均。 ↩↩↩
-
Shenfeld, Idan, et al., “Self-Distillation Enables Continual Learning,” arXiv:2601.19897, January 2026. arxiv.org. MIT Improbable AI LabおよびETH Zurich。SDFTは14Bパラメータで SFTを+7ポイント上回り、以前のタスクで64.5%を維持。 ↩↩↩↩
-
著者の設計文書:”Blog Skills Pre-Consolidation Architecture (S3.2 Baseline),” February 2026. 10個のブログスキル、5,400行、3つの重複領域を特定。 ↩↩
-
Goel, Jyotin, Souvik Maji, and Pratik Mazumder, “Learning to Stay Safe: Adaptive Regularization Against Safety Degradation during Fine-Tuning,” arXiv:2602.17546, February 2026. arxiv.org. 適応的正則化により高リスクの重み更新を安全な参照ポリシーの近くに制約。 ↩↩
-
Taghavi, et al., “Evolving Interpretable Constitutions for Multi-Agent Coordination,” arXiv:2602.00755, February 2026. arxiv.org. LLMで進化させた憲法がマルチエージェント協調で人間設計の原則を上回る。 ↩
-
Mahadevan, “From Craft to Constitution: A Governance-First Paradigm for Principled Agent Engineering,” arXiv:2510.13857, October 2025. arxiv.org. モジュラーなランタイムコンプライアンスエンフォーサーとしての「Creed Constitutions」を導入。 ↩
-
著者のquality-loop.mdおよびJiroクラフトマンシップシステム。7つの名前付き障害モード、6つの必須基準を持つエビデンスゲート。The Shokunin Approachに記載。 ↩↩
-
Jin, Hyoungwook, et al., “RelianceScope: An Analytical Framework for Examining Students’ Reliance on Generative AI Chatbots in Problem Solving,” arXiv:2602.16251, February 2026. arxiv.org. 能動的・受動的エンゲージメントに基づく9つの依存パターン。本稿ではエージェントガバナンスアーキテクチャに適用。 ↩↩
-
著者のcontext-is-architectureシステム。650ファイルにわたる7層ヒエラルキー。Context Engineering Is Architectureに記載。 ↩
-
著者のLearner v2システム。パターンアナライザーとスキルジェネレーター。Compounding Engineeringに記載。 ↩