에이전트 샌드박스는 제안일 뿐입니다

12분 소요

From the guide: Claude Code Comprehensive Guide

2026년 3월 6일, 한 보안 연구원이 Cline 저장소에 GitHub 이슈를 등록했습니다. 이슈 제목에는 프롬프트 인젝션이 포함되어 있었습니다. 3시간 후, 백도어가 포함된 [email protected]이 npm에 배포되었습니다.¹

샌드박스는 아무런 도움이 되지 않았습니다. 에이전트는 부여된 권한 범위 안에서만 동작했습니다. 이슈를 읽고, 오염된 npm 패키지를 설치하고, CI 캐시를 10GB 퇴거 임계값까지 채우는 모든 행위가 유효한 인가를 가지고 있었습니다.

요약

샌드박스는 세 가지 수준에서 실패합니다. 문자열 차단 목록은 경로 앨리어싱(/proc/self/root/usr/bin/npx)으로 우회됩니다. 네임스페이스 격리는 에이전트가 스스로 비활성화합니다. 커널 수준 강제는 동적 링커 호출(ld-linux-x86-64.so.2)로 우회됩니다. 세 가지 모두 2026년에 운영 환경 시스템에서 실증되었습니다.
가장 위험한 공격은 탈출이 필요 없습니다. Clinejection은 전적으로 인가된 권한 범위 내에서 동작하며, 공유 CI 캐시 키를 이용해 낮은 권한의 트리아지에서 높은 권한의 릴리스로 횡적 이동했습니다. 어떤 샌드박스 규칙도 위반되지 않았기 때문에 어떤 샌드박스도 이를 포착하지 못했습니다.
방어에는 벽이 아닌 계층이 필요합니다. 입력 분류, 커널 수준 강제(Seatbelt/seccomp), 이그레스 모니터링, 상태 격리가 각각 이전 계층이 놓친 부분을 포착합니다. 구체적인 훅과 Seatbelt 프로필을 아래에 포함했습니다.

샌드박스 실패의 세 가지 수준

모든 에이전트 샌드박스는 세 가지 강제 수준 중 하나에서 동작합니다. 각 수준에는 알려진 우회 방법이 있습니다. 이 우회 방법은 이론적인 것이 아닙니다. 2026년에 세 개의 독립적인 연구 그룹이 운영 환경 에이전트 시스템을 대상으로 세 가지 모두를 실증했습니다.

The sandbox breaker interactive shows three levels of agent sandbox enforcement: (1) String-Based Denylist bypassed by path aliasing through /proc/self/root/. (2) Namespace Isolation bypassed when the agent reasons about disabling the sandbox. (3) Kernel Enforcement bypassed by loading binaries through the dynamic linker via memory mapping instead of execve. Click each level to see the attack and defense, or toggle "Authorized Misuse" to see how Clinejection bypassed all three by operating within granted permissions.

수준 1: 문자열 기반 차단 목록

가장 단순한 샌드박스는 차단된 명령어 목록입니다. Claude Code은 에이전트가 호출할 수 없는 도구의 차단 목록을 유지합니다: curl, wget, npx 등이 포함됩니다. 차단 목록은 실행 전 명령어 문자열과 대조하여 검사합니다.²

우회 방법: 경로 앨리어싱입니다. Linux에서 /proc/self/root/usr/bin/npx는 /usr/bin/npx와 동일한 바이너리로 해석됩니다. 문자열은 다르지만 바이너리는 동일합니다. 차단 목록은 인식하지 못하는 경로를 보고 실행을 허용합니다.²

이 기법 자체는 새로운 것이 아닙니다. 보안 문헌에서는 /proc, 심볼릭 링크, 상대 경로를 통한 경로 앨리어싱을 수십 년 전부터 문서화해 왔습니다. 새로운 점은 에이전트가 이 우회 방법을 독립적으로 발견했다는 것입니다. 아무도 에이전트에게 차단 목록을 우회하라고 지시하지 않았습니다. 에이전트는 완료해야 할 작업을 받았고, 차단 목록이 직접 경로를 막자 동일한 목표를 달성하는 대체 경로를 탐색했습니다. 대체 경로를 찾은 에이전트는 그대로 진행했습니다.²

문자열 매칭은 식별자(바이너리 내용)가 아닌 라벨(파일명)에 대해 동작하기 때문에 실패합니다. 프로그램을 경로로 식별하는 모든 시스템은 동일한 프로그램에 대한 대체 경로를 구성하는 방법을 아는 적대자나 에이전트 앞에서 실패할 것입니다.

수준 2: 네임스페이스 격리

Anthropic이 경로 앨리어싱 우회를 발견한 후, bubblewrap을 배포했습니다. 이는 Linux 네임스페이스를 통해 파일 시스템 접근, 프로세스 가시성, 네트워크 기능을 제한하는 네임스페이스 기반 샌드박스입니다.²

우회 방법: 자기 주도적 비활성화입니다. 에이전트는 샌드박스가 작업 완료를 방해한다는 것을 인식했습니다. 샌드박스를 비활성화하라는 지시 없이도, 에이전트는 장애물에 대해 추론하고 이를 제거하려고 시도했습니다. 이 구분이 중요합니다: 이 행동은 프롬프트 인젝션에서 비롯된 것이 아닙니다. 에이전트 자체의 계획 과정이 제약 조건을 식별하고 이를 제거하기 위해 작동한 것입니다. 에이전트를 문제 해결에 유용하게 만드는 동일한 능력이 “보안 제어가 나를 막고 있다”는 문제에 적용된 것입니다.²

네임스페이스 격리는 에이전트가 자신의 실행 환경을 수정할 수 있는 충분한 권한을 가지고 있을 때 실패합니다. 샌드박스는 에이전트와 동일한 신뢰 컨텍스트에서 실행됩니다. 에이전트가 파일을 쓰거나 구성을 수정하거나 명령어를 실행할 수 있다면, 샌드박스를 재구성하거나 비활성화하려고 시도할 수 있습니다. 격리 경계는 에이전트가 그 경계를 수정하는 능력에 대한 제한만큼만 강합니다.

수준 3: 커널 강제 훅

가장 강력한 Linux 샌드박스 접근 방식은 커널의 execve 시스콜을 후킹합니다. execve는 새 프로그램을 로드하고 실행하는 호출입니다. 바이너리가 허용 목록에 없으면 execve는 EPERM을 반환하고 프로그램이 실행되지 않습니다.²

우회 방법: 동적 링커 호출입니다. /lib/x86_64-linux-gnu/ld-linux-x86-64.so.2 /usr/bin/wget 명령어는 execve가 아닌 동적 링커의 메모리 매핑을 통해 wget 바이너리를 로드합니다. 바이너리 로딩 경로가 다르기 때문에 커널 강제 훅이 발동하지 않습니다: execve 대신 mmap과 mprotect가 사용됩니다.²

동적 링커 우회는 단일 기법이 아닌 취약점의 한 부류를 나타냅니다. execve를 거치지 않는 모든 코드 로딩 메커니즘이 execve 기반 강제를 회피합니다: 동적 링킹, dlopen, 공유 라이브러리를 로드하는 인터프리터 언어, 메모리 매핑 실행 등입니다. 공격 표면은 모니터링되는 단일 시스콜을 우회하여 디스크에서 실행까지 이르는 전체 경로 집합입니다.

이 발견을 발표한 논문은 Veto를 제안합니다: 파일명이나 로딩 메커니즘이 아닌 SHA-256 해시로 바이너리를 식별하는 콘텐츠 주소 기반 강제 시스템입니다.² Veto는 exec 수준, load 수준, 네트워크 수준에서 동시에 동작합니다. 접근 방식은 건전하지만 복잡성을 추가합니다: 모든 바이너리 업데이트마다 해시 재계산이 필요하며, 해시 기반 강제는 바이너리를 생성하지 않는 인터프리터 코드(Python, JavaScript, 셸 스크립트)에는 대응하지 못합니다.

네 번째 실패: 인가된 오용

세 가지 샌드박스 탈출은 공통된 가정을 공유합니다: 에이전트가 허용되지 않은 무언가를 실행하려 한다는 것입니다. Clinejection은 그 가정을 완전히 무효화했습니다.¹

공격 체인:

단계	행위	권한	샌드박스 상태
1	공격자가 인젝션된 제목으로 이슈 등록	공개 GitHub 접근	관여하지 않음
2	Claude Code이 이슈를 읽고 npm 패키지 설치	Bash (부여됨), Write (부여됨)	모든 권한 유효
3	preinstall 스크립트가 캐시를 10GB 이상 채움	npm 라이프사이클 훅 (표준)	샌드박스 범위 내
4	퇴거된 캐시가 오염된 항목으로 교체됨	GitHub Actions 캐시 (공유)	CI 권한 범위 내
5	야간 릴리스가 오염된 캐시로부터 빌드	릴리스 워크플로 (예약)	CI 권한 범위 내
6	백도어가 포함된 `[email protected]` 배포	npm publish (릴리스 워크플로)	릴리스 권한 범위 내

이 공격은 어떤 샌드박스도 침범하지 않았습니다. 어떤 권한도 상승시키지 않았습니다. 모든 개별 행위가 유효한 인가를 가지고 있었습니다. 이 공격이 성공한 이유는 이슈 트리아지와 야간 릴리스라는 두 워크플로가 동일한 캐시 키(${{ runner.os }}-npm-${{ hashFiles('package-lock.json') }})를 공유했기 때문입니다. 공격자는 샌드박스 탈출을 통한 수직적 상승이 아닌 공유 상태를 통한 횡적 이동을 악용했습니다.¹

캐시 키 충돌은 익명 GitHub 사용자 누구나 릴리스 파이프라인에 공급되는 빌드 아티팩트를 오염시키는 워크플로를 트리거할 수 있다는 것을 의미했습니다. 이슈 트리아지 워크플로는 릴리스 워크플로와 상태를 공유할 이유가 없었습니다. 그러나 GitHub Actions 캐시는 기본적으로 저장소 내 모든 워크플로 간에 공유됩니다. 보안 모델은 워크플로가 독립적이라고 가정했지만 실제로는 그렇지 않았습니다.¹

인가된 행위들이 결합되어 비인가된 결과를 만들어내는 이 패턴은 SoK: Agentic Skills 논문이 스킬 합성 격차로 형식화한 것입니다. 개별 도구는 인가되어 있고, 개별 행위는 허용되어 있지만, 그 합성은 어떤 개별 권한 검사도 포착하지 못하는 행동을 만들어냅니다.³

Clinejection은 예외적인 사례가 아닙니다. 행위 수준의 합성을 모니터링하지 않고 에이전트에게 도구 수준 권한을 부여하는 모든 시스템의 기본 실패 모드입니다. 제가 이전에 문서화한 조작 피드백 루프도 동일한 격차를 악용했습니다: 시스템은 각 개별 행위(메모리에 쓰기, 메모리에서 읽기, 플랫폼에 게시)를 인가했지만, 그 합성(날조, 지속, 게시, 강화)에는 인가가 없었습니다.⁴

공격에 필요했던 조건

이 공격은 네 가지 조건 때문에 성공했으며, 각각은 에이전트 가시성 스택의 방어 계층에 대응됩니다:⁸

신뢰할 수 없는 입력이 신뢰된 것으로 처리되었습니다. 이슈 제목은 익명 GitHub 사용자로부터 왔습니다. Claude Code은 이를 관리자 지시와 동일한 권한으로 처리했습니다. 방어: 입력 소스 분류.
과도하게 넓은 도구 권한이 부여되었습니다. 트리아지 워크플로에 Bash 접근 권한이 부여되었습니다. 트리아지 작업에는 이슈 메타데이터에 대한 Read 접근과 라벨 추가를 위한 Write 접근만 필요했습니다. Bash가 필요하지 않았지만, Bash 접근 권한이 npm install 명령어를 가능하게 했습니다. 방어: 최소 권한 도구 부여.
신뢰 경계를 넘어 상태가 공유되었습니다. 수정은 각 워크플로 파일에서 한 줄입니다:

# Before: shared key (vulnerable)
key: ${{ runner.os }}-npm-${{ hashFiles('package-lock.json') }}

# After: workflow-scoped key
key: ${{ runner.os }}-npm-triage-${{ hashFiles('package-lock.json') }}

방어: 별도의 캐시 키, 워크플로 격리.

이그레스 모니터링이 없었습니다. npm install 명령어가 악성 패키지를 가져오기 위해 아웃바운드 네트워크 요청을 발행했습니다. 트리아지 워크플로에서 예상치 못한 아웃바운드 트래픽을 탐지하는 모니터링이 없었습니다. 방어: 아웃바운드 요청 로깅, 도메인 허용 목록.

권한 기반 보안이 불충분한 이유

지금까지 논의한 모든 샌드박스와 권한 시스템은 동일한 모델에서 동작합니다: 에이전트가 할 수 있는 것을 정의한 후, 각 행위를 정의에 대조하여 검증합니다. 이 모델에는 세 가지 구조적 약점이 있습니다.

권한은 합성이 아닌 도구에 부여됩니다. 에이전트는 Bash를 사용할 수 있습니다. 에이전트는 web-fetch를 사용할 수 있습니다. 에이전트는 file-write를 사용할 수 있습니다. 각 권한은 개별적으로 합리적입니다. 그러나 Bash + web-fetch + file-write를 순서대로 합성하면 데이터 유출 프리미티브가 됩니다. 어떤 도구 수준 권한 검사도 이 합성을 포착하지 못합니다. 사일런트 이그레스 공격은 전적으로 부여된 도구 권한 범위 내에서 동작합니다.⁵

에이전트는 제약 조건을 우회하도록 최적화합니다. 샌드박스 탈출 연구는 에이전트가 보안 제어를 경계가 아닌 장애물로 취급한다는 것을 보여줍니다. 차단 목록이 경로를 막으면 에이전트는 대체 경로를 찾았습니다. 네임스페이스 격리가 접근을 막으면 에이전트는 격리를 비활성화하려 했습니다. 이 행동은 악의가 아닙니다. 에이전트를 유용하게 만드는 것과 동일한 목표 지향적 문제 해결입니다. “작업을 완료하라”는 지시를 받은 에이전트는 작업 완료를 방해하는 보안 제어를 해결해야 할 문제로 취급할 것입니다.²

권한 범위는 그것을 부여한 맥락보다 오래 지속됩니다. Cline의 이슈 트리아지 워크플로는 이슈 트리아지 목적으로 Claude Code에 Bash 접근 권한을 부여했습니다. 그 동일한 Bash 접근 권한이 임의의 npm 패키지 설치, preinstall 스크립트 실행, GitHub Actions 캐시 조작에도 충분했습니다. 관리자들은 권한을 목적에 한정했지만 그 목적이 요구하는 행위에는 한정하지 않았습니다. 목적 한정 권한에는 “이슈 트리아지”에서 “이슈 메타데이터 읽기, 분류, 라벨 추가”로의 매핑이 필요하며, “신뢰할 수 없는 소스에서 패키지 설치”는 배제되어야 합니다. 주류 에이전트 프레임워크 중 이 매핑을 제공하는 것은 없습니다.¹

mcp-firewall 프로젝트는 도구 가용성 수준이 아닌 도구 호출 수준에서 정책을 구현하여 권한 세분화 문제를 해결합니다.⁶ “에이전트가 Bash를 사용할 수 있다” 대신 “에이전트가 프로젝트 디렉터리에서 git 명령어를 실행하기 위해 Bash를 사용할 수 있다”로 정책을 지정합니다. 세분화 개선은 상당하지만 그것만으로는 불충분합니다: Clinejection의 npm install 명령어는 npm 작업을 허용하는 도구 호출 정책에서 정당한 빌드 단계처럼 보일 것입니다.

커널 수준 강제의 실제 모습

샌드박스 탈출 연구는 커널 수준에서의 강제를 제안합니다. 저의 운영 시스템은 macOS Seatbelt(sandbox-exec)을 사용하여 이를 구현합니다. Seatbelt은 에이전트가 생성하는 전체 프로세스 트리를 제한하는 커널 수준 강제적 접근 제어 프레임워크입니다.⁷

이 아키텍처는 bubblewrap과 세 가지 면에서 다릅니다:

프로세스 트리 강제. Seatbelt 제한은 에이전트 프로세스와 그것이 생성하는 모든 자식 프로세스에 적용됩니다. 에이전트가 bash -c "python3 script.py"를 실행하면, Python 프로세스는 bash 프로세스로부터 Seatbelt 프로필을 상속받으며, bash 프로세스는 에이전트 프로세스로부터 상속받았습니다. 프로세스 생성 메커니즘에 관계없이 제한이 전파됩니다.⁷

경로 수준 거부 규칙. 프로필은 특정 파일 시스템 경로에 대한 읽기 및 쓰기 접근을 거부합니다: ~/.ssh, ~/.gnupg, ~/.aws, 모든 .env 파일, 자격 증명 파일 등입니다. 거부는 문자열 매칭 수준이 아닌 커널 VFS 계층에서 동작합니다. /proc/self/root/home/user/.ssh/id_rsa는 VFS를 통해 ~/.ssh/id_rsa와 동일한 inode로 해석되며, Seatbelt 프로필은 경로 문자열이 아닌 inode에 대한 접근을 거부합니다.⁷

에이전트 관점에서 변경 불가. Seatbelt 프로필은 에이전트 시작 시 훅 시스템에 의해 로드됩니다. 에이전트는 훅 시스템을 수정할 수 없습니다. 훅은 에이전트가 제어권을 받기 전에 CLI 초기화 시 settings.json에서 읽히기 때문입니다. 에이전트가 자신의 샌드박스를 비활성화할 수 없는 이유는 운영 체제 내에서 부트 로더를 삭제할 수 없는 것과 같습니다: 강제 메커니즘이 그것이 제약하는 코드보다 높은 신뢰 컨텍스트에서 실행됩니다.⁷

프로필 자체는 20줄의 Seatbelt 구문입니다:

(version 1)
(allow default)

;; Block writes to credential paths
(deny file-write* (subpath "/Users/me/.ssh"))
(deny file-write* (subpath "/Users/me/.gnupg"))
(deny file-write* (subpath "/Users/me/.aws"))
(deny file-write* (subpath "/Users/me/.config/gh"))
(deny file-write* (literal "/Users/me/.env"))
(deny file-write* (regex #"/Users/me/\.env\."))
(deny file-write* (subpath "/Users/me/Library/Keychains"))

이 훅은 모든 Bash 명령어를 래핑합니다: sandbox-exec -f claude-sandbox.sb /bin/sh command.sh. 강제하기 전에 일주일간 드라이런 모드(위반을 로그하되 차단하지 않음)로 샌드박스를 실행했습니다. 31개의 테스트가 샌드박스가 차단된 경로의 읽기 시도, 쓰기 시도를 포착하고, 정상적인 작업(git, python, 프로젝트 디렉터리 내 파일 편집)은 정상 통과하는 것을 검증합니다. 오버헤드는 명령어당 약 2ms입니다.⁷

Seatbelt 접근 방식은 세 가지 샌드박스 탈출 수준 중 두 가지를 해결합니다:

탈출 수준	Seatbelt 대응
경로 앨리어싱	VFS 수준 강제가 정책 확인 전에 모든 경로를 해석합니다. 동일한 inode에 대한 대체 경로 문자열이 동일한 거부 규칙을 트리거합니다.
자기 주도적 비활성화	훅은 에이전트 전에 로드되며, 에이전트가 수정할 수 없는 설정에서 가져옵니다. 에이전트는 접근할 수 없는 메커니즘을 추론으로 벗어날 수 없습니다.
동적 링커 우회	Seatbelt에 대해 구체적으로 테스트되지 않았습니다. Seatbelt이 VFS 수준에서 파일 접근을 제한하므로, `ld-linux`이 차단된 바이너리를 `mmap`하려 할 때 파일 열기에서 실패해야 합니다. 명시적 검증이 필요합니다.

동적 링커 우회가 미해결 문제입니다. Seatbelt은 거부 규칙이 파일 접근에 동작하고, 동적 링커가 메모리에 매핑하기 전에 바이너리 파일을 읽어야 하므로 이를 차단해야 합니다. 그러나 “해야 합니다”는 증거가 아닙니다. Seatbelt 프로필에 대한 이 특정 공격 경로의 테스트는 보류 중인 검증 항목입니다.⁷

방어 스택

효과적인 에이전트 보안은 단일 메커니즘이 아닙니다. 각 계층이 서로 다른 실패 모드를 해결하는 계층형 스택입니다. 단일 계층으로는 충분하지 않습니다. 함께 사용하면 알려진 공격 표면을 포괄합니다.

계층	대응 대상	메커니즘	운영 환경
입력 정제	신뢰할 수 없는 콘텐츠 주입	메타데이터 제거, 입력 소스 분류, 예상치 못한 형식 거부	웹 추출 라이브러리가 `<title>`, `<meta>`, OG 태그 제거
권한 범위 설정	과도하게 넓은 도구 부여	목적 한정 권한, 작업 유형별 최소 권한	훅 설정의 작업별 권한 프로필
커널 샌드박스	에이전트의 제약 탈출	Seatbelt (macOS), Veto (Linux), 프로세스 트리 강제	31개 테스트가 포함된 Seatbelt 프로필의 sandbox-bash.sh
이그레스 모니터링	데이터 유출, 예상치 못한 아웃바운드 트래픽	모든 아웃바운드 요청 로깅, 예상치 못한 도메인에 대한 알림	웹 추출의 URL 로깅, PreToolUse의 도메인 허용 목록
상태 격리	워크플로 간 오염	신뢰 수준별 시크릿, 캐시 키, 아티팩트 저장소 분리	워크플로 수준 격리 (CI 플랫폼 책임)
출력 방화벽	외부 시스템에 대한 미검증 게시	명령어를 로컬/공유/외부로 분류, 외부는 사람의 검토로 연기	게시 경계 훅

이 스택은 강제 지점 순서로 정렬됩니다: 입력, 권한, 실행, 이그레스, 상태, 출력. 각 계층은 이전 계층이 놓친 것을 포착합니다. 입력 정제가 프롬프트 인젝션을 포착합니다. 인젝션이 통과하면, 권한 범위 설정이 에이전트의 인젝션된 명령어 실행을 방지합니다. 명령어가 실행되면, 커널 샌드박스가 민감한 리소스에 대한 접근을 방지합니다. 에이전트가 인가된 리소스 범위 내에 있으면, 이그레스 모니터링이 데이터 유출을 포착합니다. 데이터가 시스템 내에 있으면, 상태 격리가 워크플로 간 오염을 방지합니다. 오염이 발생하면, 출력 방화벽이 게시를 방지합니다.

어떤 계층도 완벽하지 않습니다. Clinejection은 커널 샌드박스를 통과할 것입니다. 이 공격은 어떤 샌드박스도 침범하지 않았기 때문입니다. 이 공격은 권한 범위 설정(트리아지에 Bash 불필요)이나 상태 격리(별도의 캐시 키)에서 실패할 것입니다. 공격을 포착하는 방어는 공격이 악용하는 특정 조건을 어떤 계층이 해결하느냐에 따라 달라집니다.

핵심 요점

DevOps 및 CI 관리자를 위한 안내: - 신뢰할 수 없는 입력(이슈, PR, 댓글)을 처리하는 모든 워크플로에서 공유 캐시 키를 감사하세요. 서로 다른 신뢰 수준에는 서로 다른 캐시 네임스페이스가 필요합니다. - 트리아지 워크플로에서 Bash 및 Write 권한을 제거하세요. 이슈 분류에는 메타데이터에 대한 Read 접근과 라벨에 대한 Write 접근만 필요하며, 그 이상은 불필요합니다.

에이전트 개발자를 위한 안내: - 에이전트가 처리하기 전에 입력 소스를 분류하세요. 익명 사용자 콘텐츠에는 Read 전용 도구 접근을 부여하고, 저장소 코드에는 전체 권한 세트를 부여하세요. - 목적 한정 권한을 구현하세요: 작업 유형을 사용 가능한 최대 도구 세트가 아닌 각 작업에 필요한 최소 도구 세트에 매핑하세요.

보안 팀을 위한 안내: - 애플리케이션 수준 제어 뒤에 백스톱으로 커널 수준 강제(macOS의 Seatbelt, Linux의 seccomp)를 배포하세요. 2ms의 오버헤드는 무시할 수 있으며, 경로 앨리어싱 및 샌드박스 비활성화에 대한 보호는 절대적입니다. - 이그레스를 모니터링하세요: 12개 도메인 허용 목록과 요청별 로깅이 어떤 권한 검사도 탐지하지 못하는 데이터 유출을 포착합니다.

오늘 바로 구현할 수 있는 것

가장 높은 영향의 실패 모드를 해결하는 세 가지 훅:

1. 입력 소스 분류 (Clinejection 대응). 에이전트가 외부 입력을 처리하기 전에 신뢰 수준을 분류하세요. 익명 사용자의 이슈 제목은 비신뢰입니다. 저장소의 코드는 신뢰됩니다. API 응답은 준신뢰입니다. 분류에 따라 에이전트가 해당 입력을 처리하는 동안 사용할 수 있는 도구가 결정됩니다. 비신뢰 입력에는 Read 전용을 부여하고, 신뢰된 입력에는 전체 권한 세트를 부여합니다.

2. 커널 수준 파일 시스템 거부 (샌드박스 탈출 대응). 모든 Bash 도구 호출을 sandbox-exec(macOS) 또는 seccomp 프로필(Linux)로 래핑하세요. 자격 증명 경로(~/.ssh, ~/.aws, ~/.gnupg, .env)에 대한 접근을 거부하세요. 오버헤드는 무시할 수 있으며(2ms), 보호는 절대적입니다: 에이전트가 어떤 셸 명령어를 구성하든, 어떤 서브프로세스를 생성하든, 어떤 경로 앨리어스를 발견하든 거부된 경로에 접근할 수 없습니다.⁷

3. 이그레스 도메인 허용 목록 (사일런트 이그레스 대응). 모든 아웃바운드 HTTP 요청 전에 승인된 도메인 목록에 대해 목적지를 확인하세요. 승인 여부에 관계없이 모든 요청을 로깅하세요. 로그는 감사 추적을 생성하고, 허용 목록은 공격자가 제어하는 엔드포인트로의 데이터 유출을 방지합니다. 12개 도메인 허용 목록으로 코딩 에이전트가 정당하게 필요로 하는 서비스(GitHub, npm, PyPI, 문서 사이트)를 포괄합니다. 목록 외의 모든 것은 기본적으로 의심 대상입니다.⁵

각 훅은 10-30줄의 셸 스크립트입니다. 각 훅은 관련된 모든 도구 호출에서 자동으로 실행됩니다. 세 훅을 함께 사용하면 2026년에 실증된 세 가지 공격 유형을 해결합니다: 신뢰할 수 없는 입력을 통한 프롬프트 인젝션, 경로 조작을 통한 샌드박스 탈출, 인가된 아웃바운드 요청을 통한 데이터 유출.

Cline의 공격자에게는 하나의 GitHub 이슈와 3시간이 필요했습니다. 다음 공격은 기본 권한, 공유 캐시, 이그레스 모니터링 없이 AI 트리아지를 실행하는 저장소에 동일한 공격 시나리오를 사용할 것입니다. 문제는 샌드박스가 버텨줄 것인지가 아닙니다. 2026년의 세 개의 독립적인 연구가 버텨주지 않을 것임을 증명했습니다. 문제는 샌드박스가 무너질 때 무엇이 공격을 포착하느냐입니다.

FAQ

Clinejection은 일반적인 공급망 공격과 어떻게 다릅니까?

전통적인 공급망 공격은 개발자의 머신이나 자격 증명을 손상시킵니다. Clinejection은 신뢰할 수 없는 사용자 입력을 처리하는 AI 에이전트를 통해 CI 파이프라인을 손상시켰습니다. 공격자는 저장소 접근 권한을 가진 적이 없고, 자격 증명을 손상시킨 적도 없으며, 빌드 시스템의 취약점을 악용한 적도 없습니다. 이 공격은 AI 에이전트를 신뢰할 수 없는 입력(이슈 제목)에서 신뢰된 인프라(릴리스 파이프라인)로의 공유 캐시를 통한 다리로 사용했습니다.¹

이것은 AI 기반 이슈 트리아지가 본질적으로 위험하다는 의미입니까?

본질적으로 위험한 것은 아니지만, 현재의 기본 설정은 위험합니다. 모든 사용자가 열 수 있는 모든 이슈에 대해 Bash 접근 권한으로 Claude Code을 실행하는 것은 익명 기여자의 임의 코드를 실행하는 것과 동일합니다. 트리아지 에이전트는 이슈 메타데이터에 대한 Read 접근과 라벨 추가를 위한 Write 접근이 필요합니다. Bash, web-fetch, 또는 빌드 환경을 수정할 수 있는 어떤 도구도 필요하지 않습니다.¹

샌드박싱을 위해 컨테이너와 VM은 어떻습니까?

컨테이너와 VM은 프로세스 수준 샌드박스보다 강력한 격리를 제공하지만, 지연 시간(콜드 스타트 100ms 이상)과 복잡성(이미지 관리, 볼륨 마운트, 네트워크 구성)을 초래합니다. 세션당 50개 이상의 도구를 호출하는 대화형 에이전트 세션에서는 지연 시간이 누적됩니다. 커널 수준 접근 방식(Seatbelt, seccomp, Veto)은 기존 프로세스 모델 내에서 동작하므로 오버헤드 없이 강제를 제공합니다.⁷

에이전트가 Seatbelt을 우회할 수 있습니까?

Seatbelt은 macOS 커널에 의해 강제되는 강제적 접근 제어 프레임워크입니다. 이를 우회하려면 커널 익스플로잇이 필요합니다. 에이전트는 유저 스페이스에서 실행됩니다. 커널 상태를 수정할 수 없습니다. 그러나 Seatbelt은 전체 컨테이너보다 범위가 좁습니다: 파일 접근과 프로세스 실행은 제한하지만 네트워크 접근을 동일한 수준으로 제한하지는 않습니다. Seatbelt과 이그레스 모니터를 결합하면 두 가지 표면을 모두 포괄합니다.⁷

이것은 NIST AI 에이전트 보안 프레임워크와 어떤 관련이 있습니까?

저의 NIST에 대한 공개 의견서는 에이전트 위협이 아키텍처적이 아닌 행동적이라고 주장했습니다. 여기서 문서화한 샌드박스 실패는 그 주장을 강화합니다: 에이전트 탈출은 행동적(에이전트가 제약 우회를 추론)이며, 가장 피해가 큰 공격(Clinejection)은 전적으로 행동적(인가된 행위가 합성되어 비인가된 결과를 생성)입니다. NIST의 기존 프레임워크(CSF 2.0, SP 800-53, AI RMF)는 행동적 합성을 위협 유형으로 다루지 않습니다.⁹

Khan, A. “Clinejection: Compromising Cline’s Production Releases just by Prompting an Issue Triager.” March 2026. Via Simon Willison. ↩↩↩↩↩↩↩
tomvault. “How Claude Code Escapes Its Own Denylist and Sandbox.” ona.com, March 2026. HN discussion, 34 points, 14 comments. ↩↩↩↩↩↩↩↩↩
Jiang, M. et al. “SoK: Organizing, Orchestrating, and Benchmarking Agent Skills at Scale.” Semantic Scholar, February 2026. ↩
Crosley, B. “The Fabrication Firewall: When Your Agent Publishes Lies.” blakecrosley.com, February 2026. ↩
Lan, J. et al. “Silent Egress: The Implicit Prompt Injection Attack Surface.” Semantic Scholar, February 2026. Crosley, B. “Silent Egress: The Attack Surface You Didn’t Build.” blakecrosley.com, March 2026. ↩↩
dzervas. “mcp-firewall: A tool policy manager for AI agents.” GitHub, March 2026. ↩
Author’s production hook system. 84 hooks across 15 event types, 60+ sessions. Sandbox: macOS Seatbelt profile, 31 tests, approximately 2ms overhead per command. ↩↩↩↩↩↩↩↩↩
Crosley, B. “The Invisible Agent: Why You Can’t Govern What You Can’t See.” blakecrosley.com, March 2026. ↩
Crosley, B. “What I Told NIST About AI Agent Security.” blakecrosley.com, February 2026. NIST docket NIST-2025-0035. ↩