AI 에이전트를 위한 런타임 헌법: 거버넌스 프레임워크
런타임 헌법은 AI 에이전트 실행 중에 거버넌스 제약을 강제하며, 학습 단계에서만 적용되는 것이 아닙니다. 이 프레임워크는 규범적 사전 설정(행동 경계), 헌법적 주의(컨텍스트 인식 규칙 라우팅), 역량 조절(승인 게이트를 갖춘 안전한 스킬 습득), 가치 정렬 검증(작업 완료 수락 전 증거를 요구하는 출력 게이트)을 결합합니다. 7,308개의 에이전트 궤적에 대한 연구에 따르면 자체 생성된 스킬은 신뢰할 수 없으며 이러한 구조적 안전장치 없이는 제대로 작동하지 않습니다.
Learner v2 시스템이 어느 화요일 오후에 새로운 스킬을 생성했습니다. 이 스킬은 블로그 게시 워크플로를 자동화했는데, 프론트매터 검증, 인용 확인, 스테이징 배포까지 처리했습니다. 깔끔하고 잘 구조화된 코드였습니다. 그런데 이 스킬은 quality-loop.md의 세 가지 품질 규칙도 함께 무시해버렸습니다. 패턴 분석기가 “항상 증거 게이트를 실행하라”는 규칙을 스킬의 내장 검사와 중복되는 것으로 분류했기 때문입니다. 수요일 아침, 인용 검증 없이 블로그 포스트가 배포되었습니다. 스킬이 편법을 학습한 것입니다.
수정에는 20분이 걸렸습니다. 하지만 아키텍처적 질문에는 몇 주가 걸렸습니다: 에이전트가 새로운 역량을 학습하면서도 안전을 유지하는 제약 조건을 잊어버리지 않게 하려면 어떻게 해야 할까요?
요약
학습 단계 정렬(RLHF, 학습 중 constitutional AI, 안전성 파인튜닝)은 에이전트가 개방형 환경에서 작동할 때 성능이 저하됩니다. 6개의 독립적 연구가 런타임 거버넌스로 수렴합니다: 학습 중이 아닌 실행 중에 규범을 강제하는 내장형 헌법입니다. SkillsBench는 86개 태스크에서 7,308개의 에이전트 궤적을 테스트한 결과, 자체 생성된 스킬이 평균적으로 아무런 이점을 제공하지 못한다는 사실을 발견했습니다 — 에이전트는 소비하면 도움이 되는 절차적 지식을 스스로 안정적으로 작성할 수 없습니다.1 MIT의 자기 증류 연구는 표준 파인튜닝이 새로운 역량이 기존 역량을 파괴하는 치명적 망각을 유발한다는 것을 보여줍니다.2 해결 아키텍처는 네 가지 구성 요소로 이루어져 있습니다: 규범적 사전 설정, 헌법적 주의, 역량 조절, 가치 정렬 검증. 아래에서 이론, 실무자 매핑(네 가지 구성 요소 중 세 가지가 연구를 읽기 전부터 이미 제 Claude Code 시스템에 존재했습니다), 그리고 오늘 바로 구현할 수 있는 런타임 헌법 템플릿을 다룹니다.
편법을 학습한 에이전트
위 사건은 2026년 2월 초 Learner v2 리빌드 과정에서 발생했습니다. 패턴 분석기(pattern_analyzer.py)가 반복되는 워크플로를 감지했습니다: 프론트매터 검증, 인용 확인, SEO 메타데이터 검사, 그리고 스테이징 배포. 스킬 생성기(skill_generator.py)는 이 워크플로를 인라인 검증이 포함된 재사용 가능한 스킬로 컴파일했습니다.
인라인 검증은 프론트매터 형식과 SEO 필드를 다루었습니다. 하지만 인용 검증은 포함하지 않았습니다. 인용 검증은 자체적인 6단계 권위 체계를 가진 별도의 스킬(citation-verifier)에 있었기 때문입니다. 생성된 스킬은 인용 검사를 “처리됨”으로 표시했는데, 패턴 분석기가 워크플로 추적에서 인용 관련 함수 호출을 발견했기 때문입니다. “함수가 호출되었다”와 “함수의 제약 조건이 보존되었다”를 혼동한 것입니다.
세 개의 파일이 소스 권위를 각각 다르게 정의하고 있었습니다:
| 파일 | 권위 정의 |
|---|---|
citation-verifier/SKILL.md |
6단계 체계: 1차 소스부터 회피까지 |
seo-blog-playbook/SKILL.md |
이진 분류: “권위 있음” 또는 “검증 필요” |
| 생성된 blog-publish 스킬 | citation-verifier의 6단계가 아닌 SEO의 이진 정의를 상속 |
사건 발생 전에 문서화된 통합 아키텍처3가 정확히 이 실패 모드를 식별했습니다: 여러 파일이 겹치는 개념을 정의할 때, 생성된 스킬은 패턴 분석기가 먼저 만나는 정의를 상속합니다. 수정 방법은 인용 권위를 단일 정규 소스로 중앙화하는 것이었습니다. 하지만 교훈은 더 넓었습니다: 새로운 역량을 획득하는 에이전트에게는 학습이 거버넌스를 무시할 수 없도록 하는 구조적 보장이 필요합니다.
학습 단계 정렬이 런타임에서 실패하는 이유
Goel, Maji, Mazumder는 그 메커니즘을 문서화했습니다: 안전 행동은 양성 및 적대적 파인튜닝 모두에서 저하됩니다.4 arXiv:2602.17546의 적응적 안전 정규화 연구에서 더 높은 위험의 모델 가중치 업데이트는 안전한 참조 정책 근처로 제한하고 낮은 위험의 업데이트는 정상적으로 진행할 수 있음을 보여주었습니다. 이 접근법은 학습 시점에서 작동합니다. 하지만 에이전트가 런타임에서 학습이 예상하지 못한 새로운 상황을 마주할 때 일어나는 일은 다루지 않습니다.
학습 시점 정렬과 런타임 행동 사이의 격차는 자율성이 높아질수록 커집니다. 채팅 인터페이스에서 질문에 답하는 모델은 좁은 행동 범위 안에서 작동합니다. 코드를 작성하고, 스킬을 생성하고, 테스트를 실행하고, 프로덕션에 배포하는 에이전트는 훨씬 넓은 표면적에서 작동합니다 — 특히 다중 턴 대화가 저하될 때 에이전트의 자체 거버넌스 규칙에 대한 접근이 약해집니다. 에이전트 신뢰 역설이 이를 악화시킵니다: 에이전트가 유능할수록 역량이 거버넌스 경계 내에 있는지 검증하기가 더 어려워집니다. 모든 새로운 역량은 학습 시점 정렬이 사전에 열거할 수 없는 새로운 실패 모드를 만들어냅니다.
MIT의 Shenfeld 등은 특정 실패 모드를 정량화했습니다: 지속적 학습 중 치명적 망각.2 새로운 태스크에 대한 표준 지도 파인튜닝(SFT)은 이전 태스크에 대한 성능 붕괴를 유발합니다. 14B 파라미터에서 자기 증류 파인튜닝(SDFT)은 새로운 태스크에서 표준 SFT보다 7점 높은 성능을 보이면서 이전 태스크에서 64.5% 정확도를 유지했습니다 — 표준 SFT는 성능이 급락합니다. 트레이드오프: SDFT는 약 4배의 연산량과 2.5배의 FLOPs가 필요합니다.
실무자에게 시사하는 바는 명확합니다: 에이전트가 새로운 것을 학습할 때마다(생성된 스킬, 캐시된 워크플로, 업데이트된 지침) 그 학습이 에이전트가 이미 알고 있던 것을 저하시킬 위험이 있습니다. 제 품질 루프 무시 사건은 치명적 망각의 시스템 수준 사례였습니다. 에이전트가 인용 검사 역량을 파괴하는 게시 지름길을 “학습”한 것입니다.
런타임 거버넌스의 네 가지 하위 시스템
런타임 에이전트 거버넌스 연구는 네 가지 기능적 요구사항으로 수렴합니다. 진화하는 해석 가능한 헌법에 관한 Taghavi 등의 연구는 LLM으로 진화된 거버넌스 원칙이 다중 에이전트 조정에서 인간이 설계한 것보다 우수하다는 것을 입증했습니다.5 이 연구와 Mahadevan의 원칙적 에이전트 엔지니어링을 위한 거버넌스 우선 패러다임6은 문제를 네 가지 상호작용하는 하위 시스템으로 프레이밍합니다.
저는 이 네 가지 하위 시스템을 기존 Claude Code 인프라에 매핑했고, 네 가지 중 세 가지가 이미 구축되어 있다는 것을 발견했습니다. 각각은 연구를 읽기 몇 달 전에 마주한 프로덕션 문제를 해결하기 위해 만들어진 것이었습니다.
| 하위 시스템 | 기능 | 이론 | 구현 |
|---|---|---|---|
| 규범적 사전 설정 엔지니어링 | 허용 가능한 행동 경계 정의 | 컨텍스트 전반에 걸쳐 유지되는 헌법적 규칙 | quality-loop.md: 7가지 명명된 실패 모드, 6가지 기준의 증거 게이트, 필수 품질 루프 |
| 헌법적 주의 | 적절한 컨텍스트에 거버넌스 규칙 라우팅 | 태스크 적응형 규칙 주입 | prompt-dispatcher.sh + 84개 훅: 태스크 유형별 관련 규칙 주입, 무관한 규칙 제외 |
| 역량 조절 | 스킬 습득을 안전하게 관리 | 통제된 역량 확장 | Learner v2: pattern_analyzer.py가 워크플로 감지, skill_generator.py가 제약과 함께 스킬 생성 |
| 가치 정렬 검증 | 출력이 거버넌스 의도와 일치하는지 검증 | 런타임 준수 확인 | 증거 게이트 + 자부심 검사: 6가지 필수 기준, 회피 언어 감지, 실패 모드 스캔 |
하위 시스템 1: 규범적 사전 설정 엔지니어링
제 에이전트 시스템의 품질 루프는 7가지 명명된 실패 모드를 정의합니다: 지름길 나선, 확신의 신기루, 적당함의 고원, 터널 비전, 유령 검증, 지연된 부채, 공허한 보고.7 각 실패 모드에는 정의, 감지 신호, 필수 대응이 있습니다. 이것들은 제안이 아닙니다. 구조적 제약입니다: 에이전트가 어떤 실패 모드를 스스로 감지하면, 평가 단계부터 다시 시작해야 합니다.
이론적 대응점은 이렇습니다: 규범적 사전 설정은 에이전트가 작동하는 행동 경계를 설정합니다. 학습 시점 정렬은 모델에 일반적 원칙을 가르칩니다(“도움이 되고, 해롭지 않고, 정직하라”). 런타임의 규범적 사전 설정은 구체적인 운영 제약을 인코딩합니다(“인용 검증을 절대 건너뛰지 마라,” “완료 보고서에 회피 언어를 사용하지 마라”).
그 차이가 중요한 이유는 학습 시점 원칙이 확률적이지만(모델이 따를 가능성이 높음) 런타임 사전 설정은 결정적일 수 있기 때문입니다(제약 위반 시 훅이 동작을 차단함). 이는 증거 게이트에서 탐구한 것과 같은 구분입니다: “에이전트가 아마 올바른 일을 했을 것이다”에서 “에이전트가 올바른 일을 했음을 증명했다”로의 전환.
하위 시스템 2: 헌법적 주의
7계층 컨텍스트 아키텍처는 선택적 로딩을 통해 헌법적 주의를 구현합니다. 컨텍스트 시스템의 650개 파일 중 특정 태스크에 로드되는 것은 30개 미만입니다. prompt-dispatcher.sh 훅이 현재 태스크를 분석하고 관련 거버넌스 규칙을 주입하면서 무관한 것들은 제외합니다.
웹 개발 태스크는 보안 규칙, API 설계 규칙, FastAPI 패턴을 로드합니다. iOS 전용 규칙, 게임 개발 패턴, 명상 앱 콘텐츠 가이드라인은 로드하지 않습니다. 헌법적 주의란 에이전트가 존재하는 모든 규칙이 아닌, 이 태스크에 적용되는 거버넌스 규칙만 보는 것을 의미합니다.
선택적 로딩은 미묘한 실패 모드를 방지합니다: 규칙 희석. 훅 시스템은 컨텍스트 주입 전에 태스크 유형을 분석하여 이 라우팅을 가능하게 합니다. 에이전트가 200개의 규칙을 받으면 각 규칙은 20개를 받을 때보다 비례적으로 적은 주의를 받습니다. 헌법적 주의는 현재 컨텍스트에 중요한 규칙에 거버넌스 초점을 집중시킵니다.
하위 시스템 3: 역량 조절
SkillsBench는 11개 도메인의 86개 태스크에서 7,308개의 에이전트 궤적을 테스트하여 놀라운 결과를 발견했습니다: 큐레이션된 스킬은 평균 합격률을 16.2 퍼센트포인트 향상시켰지만, 자체 생성된 스킬은 평균적으로 아무런 이점이 없었습니다.1 에이전트는 소비하면 도움이 되는 절차적 지식을 스스로 안정적으로 작성할 수 없습니다. 84개 태스크 중 16개에서는 스킬이 오히려 성능을 저하시키는 음의 델타를 보였습니다.
SkillsBench 결과는 품질 루프 무시 사건 이후 Learner v2에 구축한 안전장치를 검증했습니다. 이제 생성된 스킬은 활성화 전에 명시적 승인이 필요하며, 기존 거버넌스 파일을 수정하거나 무시할 수 없습니다. 패턴 분석기는 워크플로를 관찰하고 스킬을 제안할 수 있지만, 스킬 생성기는 거버넌스 파일을 불변으로 취급합니다.
MIT의 자기 증류 연구는 파라미터 수준의 관점을 추가합니다: 더 작은 모델 크기(3B 파라미터)에서는 지속적 학습 시도가 오히려 성능을 해칩니다.2 7B+ 파라미터에서만 모델이 기존 역량을 파괴하지 않고 새로운 스킬을 습득할 수 있는 충분한 용량을 갖습니다. 인프라 수준의 유사점: 더 작은 컨텍스트 윈도우나 더 단순한 규칙 세트를 가진 에이전트는 역량-거버넌스 충돌에 더 취약합니다.
하위 시스템 4: 가치 정렬 검증
증거 게이트는 작업 완료 보고 전에 6가지 기준에 대한 구체적 증거를 요구합니다: 코드베이스 패턴 준수(패턴명 명시), 가장 단순한 작동 솔루션(거부된 대안 설명), 엣지 케이스 처리(각각 나열), 테스트 통과(출력 붙여넣기), 회귀 없음(확인한 파일명 명시), 실제 문제 해결(사용자의 필요 명시).7
게이트는 런타임 검증으로 작동합니다. 에이전트는 회피 언어(“작동할 것이다,” “~라고 생각한다,” “~인 것 같다”)를 사용하여 완료를 보고할 수 없습니다. 각 주장에는 현재 세션에서 수집한 증거가 필요합니다. 게이트는 유령 검증(테스트를 실행하지 않고 통과했다고 주장)과 공허한 보고(구체적 내용 없이 “완료”라고 보고)를 포착합니다.
망각 문제: 학습이 지식을 파괴할 때
블로그 스킬 통합 사례는 시스템 수준의 치명적 망각을 보여줍니다. 총 5,400줄의 10개 블로그 스킬에 세 가지 중복 영역이 축적되어 있었습니다.3 JSON-LD 스키마 템플릿이 aio/SKILL.md와 seo-blog-playbook/SKILL.md 모두에 존재했습니다. 인용 권위 정의가 citation-verifier와 seo-blog-playbook 사이에서 달랐습니다. 블로그 평가 지침이 메인 평가기와 별도의 카테고리 정의 파일 양쪽에 있었습니다.
Learner v2 시스템이 관찰된 워크플로에서 새 스킬을 생성할 때, 먼저 만나는 소스에서 정의를 가져왔습니다. 결과: 올바르게 보이지만 잘못된 권위 정의를 가진 스킬이 생성되었습니다. 6단계 인용 시스템이 이진 검사로 퇴화했습니다. 스키마 템플릿은 수동 작성된 스킬과 자동 생성된 스킬 사이에서 분기했습니다.
통합 수정은 구조적이었습니다: 각 개념에 대해 단일 정규 소스를 지정하고 다른 모든 참조가 이를 가리키게 합니다. 인용 권위는 citation-verifier/SKILL.md에만 존재하고 다른 곳에는 없습니다. JSON-LD 템플릿은 aio/SKILL.md에만 존재하고 다른 곳에는 없습니다. 이 패턴은 향후 스킬 생성이 오래된 정의를 상속하는 것을 방지합니다.
MIT의 SDFT는 학습 시점의 유사점을 제공합니다: 새로운 역량을 학습할 때 모델 자체의 기존 지식을 학습 신호로 사용합니다.2 표준 SFT는 기존 지식을 새 지식으로 대체합니다. 자기 증류는 모델의 기존 역량에서 학습 데이터를 생성한 다음 그 혼합으로 파인튜닝하여 기존 지식과 새 지식을 혼합합니다. 기존 지식이 학습 신호에 포함되어 있기 때문에 살아남습니다.
인프라 수준의 동등물: 새 스킬을 생성할 때 기존 거버넌스 제약을 생성 프롬프트에 포함합니다. 생성된 스킬은 해당 제약이 생성 컨텍스트의 일부이기 때문에 현재 제약을 상속하며, 생성기가 간과할 수 있는 별도의 시스템이 아닙니다.
능동적 거버넌스 vs. 수동적 거버넌스
Jin 등의 RelianceScope 프레임워크는 능동적 및 수동적 참여의 조합에 기반하여 9가지 AI 의존 패턴을 구분합니다.8 이 연구는 AI 챗봇과 상호작용하는 학생들을 대상으로 했지만, 능동/수동 구분은 에이전트 거버넌스 아키텍처에 직접 적용됩니다.
수동적 거버넌스는 규칙을 주입하고 에이전트가 따르기를 바랍니다. 규칙은 CLAUDE.md나 시스템 프롬프트에 존재합니다. 에이전트가 세션 시작 시 읽습니다. 준수 여부를 검증하는 것은 아무것도 없습니다. 대부분의 실무자 설정은 수동적 거버넌스를 사용합니다: 세션이 진행됨에 따라 에이전트가 주의를 기울일 수도, 기울이지 않을 수도 있는 긴 지침 파일. 보이지 않는 에이전트가 보여주듯, 능동적 거버넌스 없이 작동하는 에이전트는 지침을 따랐는지에 대한 흔적을 남기지 않습니다.
능동적 거버넌스는 런타임에서 준수를 검증합니다. 훅이 실행 전에 제약에 대해 출력을 확인합니다. 게이트가 증거가 부족한 완료 보고를 차단합니다. 모니터가 행동 드리프트를 추적하고 이상을 표시합니다. 능동적 거버넌스는 비용이 더 들지만(연산, 지연 시간, 복잡성) 수동적 거버넌스가 놓치는 실패를 포착합니다.
| 거버넌스 유형 | 메커니즘 | 포착하는 실패 모드 | 놓치는 실패 모드 |
|---|---|---|---|
| 수동적 (CLAUDE.md의 규칙) | 에이전트가 세션 시작 시 규칙 읽기 | 초기 세션의 명백한 위반 | 규칙 희석, 후기 세션 드리프트, 압축 손실 |
| 능동적 (훅 + 게이트) | 훅이 동작별 준수 검증 | 드리프트, 압축 손실, 규칙 위반 | 기존 훅이 다루지 않는 새로운 상황 |
| 하이브리드 (규칙 + 훅 + 학습) | 경계를 위한 규칙, 검증을 위한 훅, 적응을 위한 학습 | 드리프트, 압축, 새로운 상황(적응을 통해) | 학습 시스템의 적대적 악용 |
능동적 도움 요청이 능동적 응답 사용과 상관관계가 있다는 RelianceScope의 발견8은 거버넌스 아키텍처 원칙을 시사합니다: 거버넌스 제약을 수동적으로 받기보다 능동적으로 질의하는 에이전트가 더 준수적인 출력을 생성합니다. 제 증거 게이트가 이 원칙에 따라 작동합니다: 규칙을 수동적으로 적용하는 대신, 에이전트가 각 기준에 대한 증거를 제출하여 준수를 능동적으로 입증해야 합니다.
런타임 헌법 템플릿
세 개의 파일이 최소한의 런타임 헌법을 구성합니다. 구조를 에이전트 프레임워크에 맞게 조정하세요.
파일 1: constitution.md
규범적 사전 설정입니다. 에이전트가 항상 해야 하는 것, 절대 해서는 안 되는 것, 그리고 모호성을 처리하는 방법입니다.
# Agent Constitution v1
## Immutable Constraints
- Never modify files in governance/ directory
- Never skip verification steps, even if tests pass
- Never report completion without evidence for all criteria
## Behavioral Norms
- Prefer explicit over implicit (state assumptions)
- Prefer reversible over irreversible actions
- Prefer asking over guessing when requirements are ambiguous
## Failure Response
- On constraint violation: stop, log, escalate
- On ambiguity: ask, do not assume
- On capability conflict: governance wins over efficiency
파일 2: capabilities.json
출처 추적이 포함된 현재 스킬 인벤토리입니다.
{
"skills": [
{
"name": "blog-publish",
"version": "2.1.0",
"source": "generated",
"approved": true,
"governance_refs": ["citation-verifier", "quality-loop"],
"created": "2026-02-10",
"constraints": [
"Must call citation-verifier before publish",
"Must pass evidence gate before reporting complete"
]
}
],
"pending_approval": [],
"deprecated": []
}
파일 3: constraints-registry.json
각 제약을 정규 소스에 매핑하여 블로그 스킬 사건을 유발한 중복 문제를 방지합니다.
{
"constraints": {
"citation-authority": {
"canonical_source": "skills/citation-verifier/SKILL.md",
"type": "six-tier-hierarchy",
"overridable": false
},
"quality-gate": {
"canonical_source": "rules/quality-loop.md",
"type": "evidence-gate",
"overridable": false
},
"schema-templates": {
"canonical_source": "skills/aio/SKILL.md",
"type": "json-ld-templates",
"overridable": false
}
}
}
세 파일은 상호작용합니다: constitution.md는 행동 경계를 정의하고, capabilities.json은 거버넌스 교차 참조와 함께 에이전트가 할 수 있는 것을 추적하며, constraints-registry.json은 모든 제약이 정확히 하나의 정규 소스를 갖도록 보장합니다. 생성된 스킬은 제약 정의를 복사하는 대신 레지스트리를 참조합니다. 자율 개발 루프에서 이 아키텍처의 실제 작동 예시는 Ralph의 에이전트 아키텍처를 참조하세요. 그리고 샌드박스만으로 충분한 격리가 된다고 가정한다면, 에이전트 샌드박스가 제안에 불과한 이유를 먼저 읽어보세요.
핵심 요점
- 학습 단계 정렬은 런타임에서 저하됩니다. 안전성 파인튜닝은 일반적 원칙을 가르치고, 런타임 거버넌스는 구체적 운영 제약을 강제합니다. Goel 등은 안전 행동이 양성 및 적대적 파인튜닝 모두에서 저하됨을 보여주었습니다.4
- 자체 생성된 스킬은 신뢰할 수 없습니다. SkillsBench는 7,308개 궤적에서 에이전트가 작성한 스킬의 평균 이점이 제로이며, 84개 태스크 중 16개에서 부정적 영향을 발견했습니다.1 생성된 스킬에는 승인 게이트와 거버넌스 교차 참조가 필요합니다.
- 치명적 망각은 시스템 수준에서 작동합니다. 새로운 역량이 모델 가중치를 수정하지 않고도 기존 제약을 무시할 수 있습니다. 블로그 스킬 통합 사건은 생성된 스킬이 잘못된 권위 정의를 상속하는 인프라 수준 망각을 보여주었습니다.
- 네 가지 하위 시스템이 런타임 거버넌스를 구성합니다. 규범적 사전 설정이 경계를 정의합니다. 헌법적 주의가 컨텍스트에 규칙을 라우팅합니다. 역량 조절이 학습을 안전하게 관리합니다. 가치 정렬 검증이 런타임에서 준수를 확인합니다.
- 능동적 거버넌스가 수동적 거버넌스보다 우수합니다. CLAUDE.md의 규칙은 필요하지만 충분하지 않습니다. 동작별 준수를 검증하는 훅이 수동적 규칙이 놓치는 드리프트, 압축 손실, 후기 세션 저하를 포착합니다.
FAQ
AI 에이전트를 위한 런타임 헌법이란 무엇인가요?
런타임 헌법은 모델 학습 중이 아닌 에이전트 실행 중에 행동 제약을 강제하는 거버넌스 파일 세트입니다. 최소한의 헌법은 세 가지 구성 요소를 포함합니다: 규범적 사전 설정(에이전트가 해야 할 것과 하지 말아야 할 것), 역량 레지스트리(거버넌스 교차 참조와 함께 에이전트가 할 수 있는 것), 제약 레지스트리(각 운영 제약의 단일 정규 소스). 런타임 헌법은 거버넌스를 확률적이 아닌 결정적으로 만들어 학습 단계 정렬과 프로덕션 행동 사이의 갭을 해결합니다.
AI 에이전트가 자체 스킬을 안정적으로 생성할 수 없는 이유는 무엇인가요?
SkillsBench는 11개 도메인의 86개 태스크에서 7,308개의 에이전트 궤적을 테스트한 결과, 자체 생성된 스킬이 평균적으로 아무런 이점을 제공하지 못한다는 것을 발견했습니다. 큐레이션된 스킬은 성능을 16.2 퍼센트포인트 향상시켰지만, 에이전트가 작성한 스킬은 평균 향상이 제로였습니다. 84개 태스크 중 16개에서는 자체 생성 스킬이 오히려 성능을 저하시켰습니다. 에이전트는 절차적 지식을 효과적으로 소비하고 적용할 수 있지만, 그 지식을 안정적으로 작성할 수는 없습니다. 생성된 스킬은 활성화 전에 인간 검토, 승인 게이트, 명시적 거버넌스 교차 참조가 필요합니다.
AI 에이전트 시스템에서 치명적 망각이란 무엇인가요?
시스템 수준의 치명적 망각은 새로운 에이전트 역량이 모델 가중치를 수정하지 않고 기존 제약을 무시할 때 발생합니다. 새로운 태스크에 대한 표준 파인튜닝은 이전 태스크 성능의 붕괴를 유발합니다. MIT 연구에 따르면 표준 SFT는 이전 태스크 정확도가 급격히 저하되는 반면 자기 증류 파인튜닝은 64.5%를 유지합니다. 인프라 수준에서도 같은 역학이 발생하는데, 생성된 스킬, 캐시된 워크플로, 업데이트된 지침이 기존 거버넌스 규칙과 충돌할 때입니다. 해결책은 구조적입니다: 각 제약에 대해 정규 소스를 지정하고 거버넌스 파일을 자동 수정에 대해 불변으로 만듭니다.
코딩 에이전트에 능동적 거버넌스를 어떻게 구현하나요?
능동적 거버넌스는 에이전트가 지침에서 규칙을 자체적으로 강제하는 것에 의존하는 대신, 훅, 게이트, 모니터를 사용하여 런타임에서 준수를 검증합니다. 훅은 도구 호출 전후에 실행되어 제약을 확인합니다. 게이트는 필수 기준에 대한 증거가 부족한 완료 보고를 차단합니다. 모니터는 시간에 따른 행동 메트릭을 추적하고 드리프트를 표시합니다. 실용적인 출발점: 작업 완료 수락 전에 각 품질 기준에 대한 구체적 증명을 요구하는 증거 게이트를 구현하세요. 게이트는 최소한의 구현 오버헤드로 가장 흔한 실패 모드(유령 검증, 공허한 보고)를 포착합니다.
런타임 헌법은 샌드박스 기반 에이전트 안전과 어떻게 다른가요?
샌드박스는 에이전트가 작동할 수 있는 *위치*를 제한합니다(파일 시스템 경계, 네트워크 접근, 리소스 제한). 런타임 헌법은 그 경계 내에서 에이전트가 작동하는 *방식*을 제한합니다(행동 규범, 역량 검사, 출력 게이트). 둘 다 필요합니다. 샌드박스는 에이전트가 프로덕션 데이터베이스를 삭제하는 것을 방지하지만, 인용 검증을 건너뛰거나 품질 제약을 무시하는 코드를 배포하는 것은 방지할 수 없습니다. 런타임 헌법은 에이전트의 의사결정과 함께 실행되는 거버넌스 규칙을 내장하여 이 갭을 메우고, 경계 격리에만 의존하는 대신 각 단계에서 준수를 검증합니다.
참고문헌
-
Li, Xiangyi, et al., “SkillsBench: Benchmarking How Well Agent Skills Work Across Diverse Tasks,” arXiv:2602.12670, February 2026. arxiv.org. 86 tasks, 11 domains, 7,308 agent trajectories. Curated skills +16.2pp average; self-generated skills 0pp average. ↩↩↩
-
Shenfeld, Idan, et al., “Self-Distillation Enables Continual Learning,” arXiv:2601.19897, January 2026. arxiv.org. MIT Improbable AI Lab and ETH Zurich. SDFT outperforms SFT by +7 points at 14B parameters while maintaining 64.5% on prior tasks. ↩↩↩↩
-
Author’s decision document: “Blog Skills Pre-Consolidation Architecture (S3.2 Baseline),” February 2026. 10 blog skills, 5,400 lines, three duplication areas identified. ↩↩
-
Goel, Jyotin, Souvik Maji, and Pratik Mazumder, “Learning to Stay Safe: Adaptive Regularization Against Safety Degradation during Fine-Tuning,” arXiv:2602.17546, February 2026. arxiv.org. Adaptive regularization constrains higher-risk weight updates near a safe reference policy. ↩↩
-
Taghavi, et al., “Evolving Interpretable Constitutions for Multi-Agent Coordination,” arXiv:2602.00755, February 2026. arxiv.org. LLM-evolved constitutions outperform human-designed principles for multi-agent coordination. ↩
-
Mahadevan, “From Craft to Constitution: A Governance-First Paradigm for Principled Agent Engineering,” arXiv:2510.13857, October 2025. arxiv.org. Introduces “Creed Constitutions” as modular runtime compliance enforcers. ↩
-
Author’s quality-loop.md and Jiro craftsmanship system. Seven named failure modes, evidence gate with six mandatory criteria. Documented in The Shokunin Approach. ↩↩
-
Jin, Hyoungwook, et al., “RelianceScope: An Analytical Framework for Examining Students’ Reliance on Generative AI Chatbots in Problem Solving,” arXiv:2602.16251, February 2026. arxiv.org. Nine reliance patterns based on active vs. passive engagement. Applied here to agent governance architectures. ↩↩
-
Author’s context-is-architecture system. Seven-layer hierarchy across 650 files documented in Context Engineering Is Architecture. ↩
-
Author’s Learner v2 system. Pattern analyzer and skill generator documented in Compounding Engineering. ↩