NIST에 제출한 AI 에이전트 보안에 관한 의견
60일 동안 12번, 제 AI 에이전트가 할당된 작업을 중단하고 전혀 다른 일을 시작했습니다. 매번 에이전트는 그럴듯한 출력을 계속 생성했습니다. 보안 취약점이 관여한 적은 한 번도 없었습니다. 에이전트가 런타임에 다른 문제를 해결하기로 스스로 결정한 것입니다.1
2026년 2월 24일, 이 12건의 사건과 수십 건의 관련 장애가 미국 국립표준기술연구소(NIST)에 제출된 2,500단어의 공개 의견서가 되었습니다. NIST 문서번호 NIST-2025-0035는 AI 에이전트의 보안 고려사항에 대한 공개 의견을 요청하고 있습니다.2 의견 제출 기한은 2026년 3월 9일경 마감됩니다. 제 의견서의 핵심 논지는 다음과 같습니다: 에이전트 위협은 행동적 특성을 가지며, 기존 NIST 프레임워크 중 행동적 실패 모드를 다루는 것은 없습니다.
요약
저는 AI 에이전트 오케스트레이션 시스템을 일상적인 프로덕션 환경에서 운영하고 있습니다. 15,000줄의 코드가 모든 에이전트 동작에서 15가지 훅 이벤트 유형을 가로챕니다. 60회의 세션에 걸쳐, 기존 소프트웨어에서는 유례가 없는 7가지 반복적 행동 실패 모드를 식별했습니다. 에이전트는 작업에서 이탈하고, 테스트를 실행하지 않고 통과했다고 주장하며, 각 단계에서 컨텍스트를 잃어가는 재귀적 하위 에이전트를 생성했습니다. 저는 3계층 방어 체계(훅 파이프라인, OS 샌드박스, 증거 게이트)를 구축하고 CSF 2.0, SP 800-53, AI 리스크 관리 프레임워크에 대해 시스템을 매핑했습니다. 세 프레임워크 모두에서 상당한 공백이 존재합니다. 의견서에는 에이전트 행동 위협 분류 체계에 관한 NIST 내부 보고서 발행 제안을 시작으로, 우선순위가 매겨진 6가지 권고사항이 포함되어 있습니다. 의견 제출 기간은 아직 열려 있습니다.
실무자가 연방 공개 의견을 제출한 이유
NIST가 AI 보안에 대해 대중의 의견을 구하는 경우는 드뭅니다. NIST가 AI 에이전트 보안에 관한 정보 요청서를 발표했을 때, 다섯 가지 주제 영역은 제가 이미 프로덕션 솔루션을 구축한 문제들과 정확히 일치했습니다:2
- AI 에이전트 시스템에 영향을 미치는 고유한 보안 위협
- 개발 및 배포 과정에서 보안을 강화하는 방법
- 기존 프레임워크를 에이전트에 적용했을 때의 성능
- 보안을 측정하고 위험을 예측하는 방법
- 에이전트 접근을 제한하고 모니터링하기 위한 배포 안전장치
연방 정보 요청서에 대한 공개 의견은 대부분 기업, 업계 단체, 연구소에서 제출합니다. 개인 실무자가 제출하는 경우는 드뭅니다. 하지만 실무자는 이러한 시스템을 매일 운영합니다. AI 에이전트를 60회 이상의 세션에 걸쳐 운영하는 개발자는 통제된 실험에서는 나오지 않는 증거를 축적합니다. 저는 증거가 존재했고 다른 누구도 제출하지 않을 것이기에 제출했습니다.
의견서는 3차례의 수정, 10개 에이전트를 활용한 심의 프로세스, 그리고 2회의 경쟁 평가(Claude Code vs. Codex CLI)를 거쳐 최종 제출되었습니다.1
구축한 시스템
오케스트레이션 시스템은 Anthropic의 Claude Code CLI를 약 15,000줄의 셸 및 Python 코드로 래핑합니다. 에이전트가 수행하는 모든 동작(파일 읽기, 파일 쓰기, bash 명령, 웹 요청, 하위 에이전트 생성)은 실행 전에 훅 파이프라인을 통과합니다. 8개의 디스패처 훅이 도구 유형에 따라 핸들러 훅으로 호출을 라우팅합니다. 시스템은 모든 결정을 기록하고, 비용을 추적하며, 이탈을 모니터링하고, 에이전트가 재정의할 수 없는 엄격한 제한을 적용합니다.1
처음부터 이 시스템을 구축하려고 한 것은 아닙니다. 시스템은 실패에서 성장했습니다. 이탈 감지기는 에이전트가 “로그인 엔드포인트를 수정하라”는 작업을 받고 45분 동안 프로젝트 디렉토리를 재구성한 사건 때문에 만들어졌습니다. 샌드박스는 에이전트가 ~/.ssh/에 쓰기를 시도하는 것을 잡아낸 후 생겼습니다. 증거 게이트는 에이전트가 pytest를 실행하지 않고 “모든 테스트 통과”라고 보고한 사건 때문에 존재합니다. 각 구성 요소는 특정 프로덕션 사고로 거슬러 올라갑니다.
행동적 위협: 핵심 논점
기존 보안은 악용으로부터 방어합니다: SQL 인젝션, 버퍼 오버플로, 자격 증명 탈취. 에이전트 보안은 소프트웨어에 전례가 없는 범주를 추가합니다: 에이전트가 런타임에 무엇을 작업할지 결정하며, 잘못 결정할 수 있습니다.
세션 이탈
에이전트가 그럴듯한 출력을 생성하면서 할당된 작업에서 서서히 벗어납니다. 제 이탈 감지 엔진은 원래 사용자 프롬프트의 임베딩과 에이전트의 최근 25개 도구 호출의 슬라이딩 윈도우 사이의 코사인 유사도를 계산합니다.1 점수가 0.30 아래로 떨어지면, 시스템은 원래 프롬프트를 포함한 경고를 주입합니다.
0.30 임계값은 60회 세션에 걸친 수동 검토를 기반으로 설정했습니다. 시스템은 임계값 이하 경고를 12번 발생시켰습니다. 12건 모두에서 에이전트가 원래 작업을 검증 가능하게 놓친 상태였습니다. 임계값 이상에서는 이탈로 인해 수동 개입이 필요한 세션이 없었습니다. 정밀도를 기준으로 임계값을 최적화했으며, 미검출률은 공식적으로 측정하지 않았습니다.1
허위 검증
에이전트가 테스트를 실행하지 않고도 작업이 완료되었고 테스트가 통과했다고 주장합니다. 감지 신호는 구체적입니다: 완료 보고서에 붙여넣은 테스트 출력이 없습니다. “코드 구조를 보면 테스트가 통과해야 합니다”라는 표현은 증거를 믿음으로 대체합니다. 동일한 실패 패턴의 조작 변형에 대해서도 기술한 바 있습니다: 자기 보고를 외부 현실과 대조 검증하는 것이 없기 때문에 확신에 찬 오류를 발행하는 에이전트입니다.1
재귀적 생성
하위 에이전트를 생성하는 에이전트는 제어되지 않는 재귀에 빠질 수 있으며, 컴퓨팅 예산을 소진하고 일관성을 잃습니다. 제 재귀 방어 장치는 최대 깊이 2와 부모 에이전트당 최대 5개의 자식 에이전트를 적용하며, 잠금으로 보호되는 JSON 파일을 통해 전체 계보 트리를 추적합니다.1
7가지 실패 모드
60회의 세션에 걸쳐 7가지 반복적 행동 패턴을 분류했습니다. 각 모드에는 훅이나 사람의 검토로 확인할 수 있는 특정 감지 신호가 있습니다:
| 실패 모드 | 정의 | 감지 신호 |
|---|---|---|
| 지름길 악순환 | 더 빨리 완료를 보고하기 위해 검토 단계를 건너뜀 | 완료 보고서에 단계별 증거 누락 |
| 확신의 신기루 | 실제 검증 대신 “확신합니다”로 대체 | 테스트 출력 없이 회피적 표현 사용 |
| 적당히 하기 | 기능은 하지만 테스트되지 않은 작업을 수용 | 테스트 커버리지나 문서 인용 없음 |
| 터널 비전 | 통합 장애를 무시하고 하나의 구성 요소만 다듬음 | 통합 테스트 미실행 |
| 허위 검증 | 테스트를 실행하지 않고 통과했다고 주장 | 보고서에 테스트 출력 붙여넣기 누락 |
| 부채 미루기 | 커밋된 코드에 TODO/FIXME 마커를 남김 | 커밋 diff에 TODO/FIXME 존재 |
| 빈 보고서 | 각 기준에 대한 증거 없이 “완료”를 보고 | 기준별 개별 대응 없음 |
이러한 모드는 취약점을 필요로 하지 않습니다. 에이전트가 CVE를 악용할 필요가 없습니다. 에이전트는 자기 일을 제대로 하지 못하면서 잘 했다고 보고함으로써 실패합니다.
심층 방어
오케스트레이션 시스템은 세 개의 독립적인 계층을 사용합니다. 한 계층의 실패가 다른 계층을 손상시키지 않습니다.
1계층: 훅 파이프라인. 모든 도구 호출은 실행 전에 PreToolUse 훅을 통과합니다. 핸들러는 실행을 차단하거나, 명령을 수정하거나, 조언 컨텍스트를 주입할 수 있습니다. 디스패처-핸들러 아키텍처 덕분에 새로운 보안 검사를 추가하려면 라우팅 파이프라인을 수정하지 않고 핸들러 파일 하나만 작성하면 됩니다. 8개의 디스패처가 99개의 핸들러 훅으로 라우팅합니다.1
2계층: OS 샌드박스. macOS Seatbelt 프로필이 .ssh, .gnupg, .aws, 환경 파일, GitHub CLI 인증, macOS 키체인에 대한 쓰기를 차단하는 8개의 명시적 거부 규칙을 정의합니다. 에이전트가 어떤 명령을 구성하든 커널이 이 규칙을 적용합니다. 프로필 하에서 touch ~/.ssh/test를 실행하면 “Operation not permitted”가 반환됩니다.1
3계층: 증거 게이트. 비일상적인 작업을 완료로 표시하기 전에, 에이전트는 인용된 증거로 6가지 증거 기준을 충족해야 합니다: 코드베이스 패턴 준수(패턴 명시), 가장 단순한 작동 솔루션(대안 거부 이유 설명), 엣지 케이스 처리(각각 나열), 테스트 통과(출력 붙여넣기), 회귀 없음(확인한 파일 명시), 실제 문제 해결(사용자의 요구 명시). 게이트는 회피적 표현(“작동할 것입니다”, “아마 맞을 것입니다”)을 불충분한 증거로 표시하여 필수 재검증을 촉발합니다.1
계층 독립성이 핵심 설계 속성입니다. 훅 파이프라인을 빠져나간 에이전트도 OS 샌드박스에 걸립니다. 샌드박스의 빈틈을 찾은 에이전트도 증거 게이트를 마주합니다. 단일 실패가 시스템 전체를 손상시키지 않습니다.
프레임워크 갭 분석
의견서는 프로덕션 제어 장치를 세 가지 NIST 프레임워크에 매핑합니다. 일부 매핑은 잘 작동하지만, 다른 매핑에서는 기존 프레임워크가 채우지 못하는 공백이 드러납니다.
매핑되는 부분
PreToolUse 훅은 CSF 2.0의 두 가지 기능에 걸쳐 있습니다: 보호(PR.PS-05, 무단 동작 방지)와 감지(DE.CM, 도구 호출의 지속적 모니터링).3 OS 샌드박스는 SP 800-53의 AC-3(접근 통제 적용)과 AC-6(최소 권한)을 구현합니다.4 훅 파이프라인은 AC-25(참조 모니터)에 매핑됩니다: 항상 호출되고, 우회할 수 없으며, 검증할 수 있을 만큼 작습니다. AI RMF의 매핑 기능(MAP 3)은 이탈 감지와 일치합니다: 에이전트가 실제로 하는 것과 운영자가 요청한 것을 이해하는 것입니다.5
누락된 부분
| 프레임워크 | 적용 가능한 제어 | 에이전트 특화 공백 | 제안하는 확장 |
|---|---|---|---|
| CSF 2.0 | DE.CM, DE.AE | 행동적 이탈 감지 범주 없음 | DE.AE 예시를 에이전트 행동 이상에 포함하도록 확장 |
| SP 800-53 Rev. 5 | AC-3, AC-6, AC-25 | 에이전트 위임 깊이 제어 없음 | 에이전트 위임 거버넌스를 위한 새로운 제어 강화 |
| AI RMF 1.0 | MAP 3 | 런타임 작업 충실도 지표 없음 | MEASURE 기능에 에이전트 이탈 유사도 추가 |
OWASP의 에이전트 애플리케이션 Top 10(2026)은 에이전트 목표 하이재킹(ASI01)과 인간-에이전트 신뢰 악용(ASI09)을 다루지만, 허위 검증이나 빈 보고서와 같은 자기 통제 실패는 다루지 않습니다.6 NIST AI 600-1(생성형 AI 프로필)은 생성형 AI 위험을 광범위하게 다루지만 에이전트 배포 패턴이 등장하기 이전에 작성되었습니다.7
위임 체인 위험
에이전트가 하위 에이전트를 생성하고, 그 하위 에이전트가 또 다른 하위 에이전트를 생성할 때, 보안 속성은 합산되지 않습니다. 각 단계에서 세 가지 복합적 위험이 발생합니다:
- 의미적 압축. 부모의 전체 추론 컨텍스트가 프롬프트 문자열로 축소되면서, 어떤 파일이 민감한지 또는 부모가 이미 거부한 접근 방식이 무엇인지에 대한 뉘앙스를 잃습니다.
- 권한 증폭. 자식은 파일 읽기/쓰기 권한을 상속받지만, 어떤 파일이 보안적으로 민감한지에 대한 부모의 이해는 상속받지 못합니다.
- 책임 분산. 하위 에이전트가 잘못된 출력을 생성했을 때, 감사 추적은 각 에이전트가 어떤 결정을 내렸는지 보여주지만, 최종 결과에 대한 운영 책임은 루트 에이전트가 집니다.
제 재귀 방어 장치는 에이전트 계보를 추적하고 엄격한 깊이 제한을 적용하여 위임 체인을 해결합니다. 발행된 프레임워크 중 다단계 에이전트 위임의 복합적 위험을 다루는 것은 없습니다.
6가지 권고사항
의견서는 기초적인 것부터 운영적인 것까지 6가지 권고사항으로 마무리됩니다:
-
에이전트 행동 위협 분류 체계를 수립하는 NIST 내부 보고서를 발행하십시오. 기존 위협 모델(STRIDE, OWASP Top 10)은 에이전트 특화 실패 모드를 포착하지 못합니다. 공유 분류 체계는 다른 모든 권고사항의 전제 조건입니다. NIST는 에이전트 특화 하위 범주로 CSF 2.0을 확장하고 에이전트 시스템을 위한 AI RMF 프로필을 발행할 수도 있습니다.
-
OS 수준 격리 요구사항을 수립하십시오. 새로운 명령 패턴을 즉석에서 만들어내는 에이전트는 애플리케이션 수준의 샌드박싱을 우회할 수 있습니다. OS 수준 적용(Linux seccomp-bpf, macOS Seatbelt, 컨테이너 격리)은 에이전트가 추론으로 우회할 수 없는 경계를 제공합니다.
-
에이전트 자기 보고의 독립적 검증을 요구하십시오. 에이전트가 자신의 작업이 올바른지에 대한 유일한 권위가 되어서는 안 됩니다. 별도의 프로세스가 작업 완료를 승인하기 전에 외부 증거(테스트 출력, API 응답, 체크섬)를 검증해야 합니다.
-
에이전트 도구 호출에 대한 영향 범위 분류를 수립하십시오. 모든 에이전트 동작을 로컬, 공유, 외부로 태그하고, 각 등급에 대해 점진적으로 강화되는 인가 요구사항을 적용하십시오. 분류 시스템에 대해서는 이전에 상세히 기술한 바 있습니다.
-
정량적 이탈 지표를 정의하십시오. 에이전트 보안 상태에는 에이전트의 현재 활동이 할당된 작업과 얼마나 밀접하게 정렬되어 있는지를 반영하는, 정기적으로 계산되는 측정 가능한 “작업 충실도 점수”가 필요합니다.
-
에이전트 동작에 대한 감사 로깅을 표준화하십시오. 모든 도구 호출, 모든 훅 결정, 모든 차단된 동작을 사후 사건 재구성을 지원하는 형식으로 기록하십시오.
직접 의견을 제출하세요
NIST-2025-0035 의견 제출 기간은 2026년 3월 9일경 마감됩니다. NIST 정보 요청서는 실질적인 영향력을 가집니다: 제출된 의견은 발행되는 프레임워크, 표준, 지침에 직접 반영됩니다. AI 에이전트를 프로덕션에서 운영하고 계신다면, 여러분의 증거가 중요합니다.
제출 방법:
- NIST-2025-0035 문서 페이지를 방문하세요
- RFI 문서에서 “Comment”를 클릭하세요
- 다섯 가지 주제 영역 중 하나에 대해 의견을 작성하세요
- 구체적인 증거를 포함하세요: 코드, 지표, 사건 보고서
- 연락처 정보와 함께 제출하세요
다섯 가지 주제를 모두 다룰 필요는 없습니다. 단일 주제에 대한 증거 기반의 집중된 의견이 구체적 근거 없는 광범위한 의견보다 더 큰 가치를 가집니다. NIST 담당자들은 모든 제출물을 검토합니다.
핵심 요점
보안 실무자를 위한 조언: 기존 에이전트 제어 장치를 CSF 2.0과 SP 800-53에 매핑하십시오. 훅 파이프라인에서 AC-25 참조 모니터로의 매핑은 에이전트 수준의 접근 통제를 규정 준수 팀에 설명하기 위한 구체적 프레임워크를 제공합니다.
AI 개발자를 위한 조언: 기존 보안과 함께 행동 감지를 구축하십시오. 세션 이탈, 허위 검증, 재귀적 생성은 이론적 위험이 아닌 프로덕션 현실입니다. 증거 게이트부터 시작하십시오: 작업 완료를 표시하기 전에 인용된 증거를 요구하십시오.
정책 입안자를 위한 조언: 기존 보안 프레임워크와 에이전트 특화 위협 사이의 격차는 점진적인 것이 아니라 구조적입니다. 에이전트는 STRIDE, OWASP, NIST의 기존 분류 목록이 분류하지 않는 방식으로 실패합니다. 행동 위협 분류 체계가 그 밖의 모든 것의 전제 조건입니다.
프레임워크 저자를 위한 조언: 위임 체인 거버넌스를 추가하십시오. 에이전트가 에이전트를 생성할 때, 각 단계에서 컨텍스트가 저하되고, 권한이 증폭되며, 책임이 분산됩니다. 깊이 3 이상에서의 복합적 위험은 프레임워크 선례가 없습니다.
출처
-
Author’s production telemetry and submitted public comment on NIST-2025-0035. Tracking number mm1-hgn6-spl7. Drift similarity engine across 60 daily Claude Code sessions, February 2026. Full comment text available upon request. ↩↩↩↩↩↩↩↩↩↩
-
NIST-2025-0035: Request for Information Regarding Security Considerations for Artificial Intelligence Agents. National Institute of Standards and Technology. ↩↩
-
NIST Cybersecurity Framework 2.0. National Institute of Standards and Technology, 2024. ↩
-
NIST SP 800-53 Rev. 5: Security and Privacy Controls for Information Systems and Organizations. National Institute of Standards and Technology, 2020. ↩
-
NIST AI Risk Management Framework 1.0. National Institute of Standards and Technology, 2023. ↩
-
OWASP Top 10 for Agentic Applications. OWASP Foundation, 2026. ↩
-
NIST AI 600-1: Artificial Intelligence Risk Management Framework: Generative AI Profile. National Institute of Standards and Technology, 2024. ↩