← 모든 글

Project Glasswing: 모델이 너무 많은 버그를 찾을 때

From the guide: Claude Code Comprehensive Guide

2주 전, Nicholas Carlini는 Claude Code가 단 10줄짜리 bash 스크립트로 23년 된 Linux 커널 취약점을 찾아낼 수 있음을 보였습니다. 오늘 Anthropic는 그 접근 방식을 확장했을 때 어떤 일이 벌어졌는지 발표했습니다. Claude Mythos라 불리는 새 모델이 모든 주요 운영체제와 웹 브라우저에 걸쳐 높음 및 중대 심각도의 제로데이 취약점 수천 개를 찾아냈고, Anthropic는 이를 공개적으로 배포하지 않기로 결정했다는 것입니다.1

Project Glasswing은 Anthropic가 Claude Mythos의 배포를 제한한 조치로, Mythos는 모든 주요 운영체제와 웹 브라우저 전반에 걸쳐 수천 개의 제로데이 취약점을 발견한 프런티어 모델입니다. Mythos는 27년 된 OpenBSD TCP SACK 결함, FreeBSD NFS 원격 코드 실행 취약점 등 중대한 버그들을 찾아냈습니다. Anthropic는 오직 방어적 보안 목적으로만 12개 파트너 조직에게 접근 권한을 제한했고, 1억 달러 규모의 사용 크레딧을 약정했으며, 자격을 갖춘 연구자들을 위해 claude.com/form/cyber-use-case에서 Cyber Verification Program 신청 양식을 개설했습니다.

Project Glasswing은 Carlini의 [un]prompted 발표 이후 실무자들이 계속 던져온 질문에 대한 Anthropic의 답입니다. 이 역량이 대규모로 배포되면 어떤 일이 벌어지는가? 답은 이렇습니다. 접근을 제한한다는 것입니다.

TL;DR

Claude Mythos Preview는 프런티어 모델로, Anthropic에 따르면 그 사이버보안 역량은 “코드, 추론, 자율성 전반의 일반적 개선의 하류 결과로 출현했다”고 합니다.1 Anthropic는 이 모델을 (2026년 4월 16일 출시된 Opus 4.7을 포함한) 일반적으로 사용 가능한 어떤 Opus 모델보다도 사이버 역량이 뛰어난 모델로 자리매김하며, Apple, Amazon, Microsoft, Google, Linux Foundation 등 12개 파트너 조직에만 방어적 보안 업무용으로 접근을 제한하고 있습니다. 이 모델은 27년 된 OpenBSD TCP SACK 버그, 16년 된 FFmpeg 취약점, FreeBSD NFS RCE(CVE-2026-4747)를 포함해 수천 개의 제로데이를 찾아냈습니다.1 Anthropic는 1억 달러의 사용 크레딧과 오픈소스 보안 조직에 400만 달러를 약정했습니다. Cyber Verification Program 신청 양식은 접근을 희망하는 정식 보안 연구자를 위해 현재 가동 중입니다.1

핵심 요약

  • 보안 엔지니어: Carlini가 [un]prompted에서 시연한 역량 임계값은 실재하며, 확장 가능합니다. Mythos는 “모든 주요 운영체제와 웹 브라우저”에서 취약점을 찾아냈습니다.2 12개 파트너 조직의 방어 보안 팀은 이제 접근 권한을 갖고 있습니다. 나머지 모두는 이 역량이 일반적으로 사용 가능한 모델에 도달할 때를 대비해야 합니다.
  • 스캐폴드 빌더: Mythos는 격리된 컨테이너 안에서 Claude Code를 통해 실행됩니다.1 스캐폴드 패턴(에이전트 CLI + 샌드박스 실행 + 자동 분류)은 이제 Anthropic 자체의 프런티어 보안 연구를 위한 프로덕션 아키텍처 역할을 하고 있습니다. 실무자들이 독자적으로 구축한 오케스트레이션 패턴은 최상위 수준에서도 통합니다.
  • 그 밖의 모두: Anthropic는 공개 대신 제한을 선택했습니다. 이는 실질적 트레이드오프를 수반하는 실질적 거버넌스 결정입니다. 모델은 존재합니다. Anthropic는 그 역량을 입증했습니다. 질문은 더 이상 AI가 제로데이를 찾을 수 있는가가 아니라, 누가 어떤 제약 아래에서 접근 권한을 얻느냐입니다.

업데이트 (2026년 4월 19일)

이 글이 4월 7일에 게시된 이후 두 가지 변화가 있었습니다.

  1. Opus 4.7이 2026년 4월 16일에 출시되어 새로운 일반 출시(GA) 플래그십이 되었습니다. Anthropic는 Opus 4.7이 Mythos Preview보다 의도적으로 덜 사이버 역량을 갖도록 설계되었으며, 실시간 사이버 세이프가드와 함께 출시된다고 밝혔습니다. Mythos Preview는 여전히 분리된 상태로 접근이 제한됩니다.5
  2. Cyber Verification Program 신청 양식이 현재 가동 중이며 claude.com/form/cyber-use-case에서 접근할 수 있습니다. 원래 발표에서 “미래”의 프로그램이라 불렸던 것이 이제는 구체적인 신청 경로가 되었습니다.5
  3. Claude Code는 관련된 두 가지 인프라 릴리스를 출시했습니다. v2.1.111은 Opus 4.7 / xhigh / Auto Mode 지원을 추가했습니다. v2.1.113은 sandbox.network.deniedDomains, 래퍼 명령 거부 규칙(env / sudo / watch / ionice / setsid), 더 엄격해진 find -exec / -delete 처리, 그리고 Bash(rm:*) 아래에서의 macOS /private/{etc,var,tmp,home} 제거 보호를 추가했습니다.6 이들은 정확히 Mythos 스타일의 보안 연구 스캐폴드가 필요로 하는 종류의 강화 기본 요소들입니다.

아래에서 이어지는 핵심 논지 — 공개보다 역량 제한, 최고 수준에서도 유효한 스캐폴드 패턴, GA 도달 시점을 대비해야 하는 나머지 모두 — 는 바뀌지 않았습니다. 오히려 Opus 4.7의 명시적인 사이버 세이프가드 프레이밍이 이를 강화합니다.


발표에서 제품까지

Carlini의 4월 초 [un]prompted 발표는 공개 예고편이었습니다.3 그는 간단한 파일 순회 스크립트로 찾아낸 5개의 Linux 커널 취약점과 22개의 Firefox CVE를 보여주었습니다. 그는 병목이 사람의 검증이라고 말했습니다. “아직 검증하지 못한 크래시가 수백 개 있다”고요.

Mythos는 더 강력한 모델과 전용 인프라로 그 병목을 제거했을 때 벌어지는 일입니다. 규모 차이는 상당합니다.1

지표 Carlini의 발표 Project Glasswing
발견된 취약점 커널 5개 + Firefox CVE 22개 모든 주요 플랫폼에 걸쳐 수천 개
대상 Linux 커널, Firefox 모든 주요 OS, 브라우저, 오픈소스 프로젝트
검증 수동, 연구자 주도 전문 보안 계약 업체, 89% 심각도 확인
접근 Carlini 발표 당시 Opus 4.6, 현재 GA 플래그십은 Opus 4.7 Mythos Preview (12개 파트너로 제한)

전문 검증 수치는 중요합니다. 검토된 198개 보고서 중 89%에서 독립 보안 계약 업체가 심각도 평가를 확인했으며, 98%는 한 심각도 등급 이내로 일치했습니다.1 환각이 만들어낸 결과물이 아닙니다.

제한 결정

Anthropic의 공식 입장은 이렇습니다. “사이버보안 역량을 이유로 Claude Mythos Preview를 일반적으로 사용 가능하게 만들 계획은 없습니다.”4

이 결정은 돋보입니다. 모델 회사들은 통상 역량을 먼저 출시하려 경쟁합니다. Anthropic는 공개 가능한 어떤 시스템보다도 취약점 발견에 명백히 뛰어난 모델을 만들고 나서, 검증된 파트너의 방어적 사용으로만 접근을 제한하기로 선택했습니다. 1억 달러 사용 크레딧 약정은 이것이 마케팅 행사가 아님을 시사합니다.1

제한 모델은 세 단계로 구성됩니다.1 1. Project Glasswing 파트너 (12개 조직): 방어적 보안을 위한 직접 접근 2. 확장 접근 (총 40개 조직): 감독 하 배포 3. Cyber Verification Program (현재 claude.com/form/cyber-use-case에서 가동 중): 검증된 보안 전문가를 위한 신청 경로5

실무자에게 표준 API와 Claude Code는 Mythos의 취약점 발견 역량을 노출하지 않습니다. 현재 일반적으로 사용 가능한 가장 강력한 모델은 Opus 4.7(2026년 4월 16일 출시)이며, Anthropic는 이를 Mythos보다 의도적으로 덜 사이버 역량을 갖도록 하고 실시간 사이버 세이프가드와 함께 출시한다고 설명합니다.5 Mythos가 입증한 역량은 이미 이 4월 16일 릴리스에 영향을 미쳤습니다. Opus 4.7은 Anthropic의 Glasswing 이후 첫 모델이며 전용 사이버 세이프가드를 갖추고 있습니다.

이것이 검증하는 것

Project Glasswing은 실무자 커뮤니티가 독자적으로 구축해온 여러 패턴을 검증합니다.

실행 스캐폴드로서의 Claude Code. Mythos는 격리된 컨테이너에서 Claude Code를 통해 실행됩니다.1 실무자들이 매일의 코딩에 사용하는 바로 그 에이전트 CLI가 프런티어 보안 연구의 실행 계층 역할을 합니다. Claude Code가 제공하는 hooks, skills, 샌드박싱은 편의 기능이 아닙니다. 자율적 보안 스캐닝을 배포 가능할 만큼 안전하게 만드는 인프라입니다.

검증 병목은 오케스트레이션 문제입니다. Carlini의 발표는 사람 검증을 병목으로 지목했습니다. Project Glasswing의 해법은 검증을 위한 전문 보안 계약 업체, 책임 있는 공개를 위한 SHA-3 해시 커밋먼트, 그리고 구조화된 분류 인프라입니다.1 동일한 분류 문제가 When Your Agent Finds a Vulnerability에서도 부상했으며, 해법은 모델 역량이 아니라 인프라입니다.

거버넌스 hooks가 스캐닝 역량보다 더 중요합니다. 모델은 취약점을 찾을 수 있습니다. 어려운 문제는 공개를 통제하고, 접근을 관리하며, 발견 사항이 공격자보다 방어자에게 먼저 도달하도록 보장하는 일입니다. Anthropic의 답은 조직적입니다(모델을 제한하고, 파트너를 검증하며, 자원을 약정). 자체 보안 스캐닝을 구축하는 실무자에게는 출력을 게이트하는 거버넌스 hooks가 그 등가물입니다.

이것이 실무자에게 의미하는 바

여러분은 Mythos 접근 권한을 얻지 못할 것입니다. 현재 가진 것으로 할 수 있는 일은 다음과 같습니다.

Opus 4.6는 이미 역량을 갖추고 있습니다. Carlini의 [un]prompted 결과(커널 버그 5개, Firefox CVE 22개)는 Mythos가 아니라 Opus 4.6를 사용했습니다.3 capture-the-flag 방법론, ASAN 계측 빌드, 파일 순회 스크립트는 모두 일반적으로 사용 가능한 모델로 재현 가능합니다.

지금 분류 계층을 구축하세요. 미래의 Opus 모델이 Mythos의 일부 역량을 물려받으면(Anthropic가 시사한 바대로), 병목은 Carlini가 지목한 것과 같을 것입니다. 즉, 사람의 검증입니다. 자동 중복 제거, 심각도 분류, 공개 워크플로를 미리 갖춘 팀이 먼저 혜택을 볼 것입니다.

Cyber Verification Program에 신청하세요. 신청 양식은 claude.com/form/cyber-use-case에서 가동 중입니다. 정식 보안 연구를 수행한다면, 이것이 상향된 접근으로 가는 경로입니다.

궤적은 분명합니다. AI 지원 취약점 발견은 실재하고, 확장 가능하며, 이제 거버넌스 질문이 핵심 문제입니다. 모델 역량은 해결되었습니다. 발견, 분류, 책임 있는 공개를 오케스트레이션하는 스캐폴드는 아직 아닙니다.


출처

자주 묻는 질문

Claude Code를 통해 Claude Mythos를 사용할 수 있나요?

불가합니다. Mythos Preview는 Project Glasswing 파트너에게만 제한되어 있습니다. Opus 4.7(2026년 4월 16일)이 일반 사용자가 Claude Code를 통해 사용할 수 있는 가장 강력한 모델입니다. Anthropic는 Mythos가 어떤 GA 모델보다도 사이버 역량이 뛰어나다고 밝힙니다.

Mythos의 역량이 Opus에도 도입될까요?

Opus 4.7은 Anthropic의 Glasswing 이후 첫 Opus 릴리스이며, 실시간 사이버 세이프가드와 함께 출시됩니다. 이 패턴은 미래의 Opus 모델이 Mythos의 완전한 역량 범위보다는 추가 세이프가드를 더 갖추게 될 것을 시사합니다. Anthropic의 원래 발표는 “미래 Claude Opus 모델에서 새로운 세이프가드를 통해 더 안전한 배포를 가능하게 하는 것”을 목표로 한다고 밝혔습니다.

이것은 앞서의 취약점 관련 블로그 글과 어떤 관련이 있나요?

Carlini의 [un]prompted 발표(When Your Agent Finds a Vulnerability에서 다루었습니다)는 Opus 4.6를 사용했고 커널 버그 5개 + Firefox CVE 22개를 찾아냈습니다. Mythos는 그 접근 방식을 모든 주요 플랫폼에 걸쳐 수천 개의 취약점으로 확장했습니다. 방법론은 같고, 모델은 더 강력합니다.


  1. Claude Mythos Preview — Project Glasswing. Anthropic, 2026년 4월 7일. 공식 발표. 수천 개의 높음/중대 심각도 제로데이 발견. 전문 검증자가 확인한 심각도 일치율 89%. 사용 크레딧 1억 달러. Nicholas Carlini가 주도, 공동 저자 21명 이상. 

  2. Anthropic’s Project Glasswing. Simon Willison, 2026년 4월 7일. 제한 배포 모델과 Carlini의 이전 작업에 대한 분석 및 맥락. 

  3. Nicholas Carlini, “Black-hat LLMs,” [un]prompted AI security 콘퍼런스, 2026년 4월. 콘퍼런스 의제. 참고: AI Finds Vulns You Can’t, Security Cryptography Whatever 팟캐스트. 

  4. Anthropic says its most powerful AI cyber model is too dangerous to release publicly. VentureBeat, 2026년 4월 7일. 

  5. 게시 이후 업데이트 (2026년 4월 19일). Anthropic의 Introducing Claude Opus 4.7 발표(2026년 4월 16일)는 Opus 4.7을 GA 플래그십으로 자리매김하는 한편, Mythos Preview가 여전히 더 높은 사이버 역량을 보유한다고 언급합니다. 실시간 사이버 세이프가드 상세는 Anthropic Support: Real-time cyber safeguards on Claude를 참고하세요. Cyber Verification Program 신청 양식은 claude.com/form/cyber-use-case에서 가동 중입니다. 

  6. Claude Code CHANGELOG. v2.1.111은 Opus 4.7 출시 지원을 추가했습니다(xhigh effort, 플래그 없이 Max용 Auto Mode). v2.1.113은 sandbox.network.deniedDomains, 래퍼 명령 거부 규칙, find -exec/-delete 권한 강화, 그리고 macOS /private/{etc,var,tmp,home} 제거 보호를 추가했습니다. 

관련 게시물

MCP Servers Are the New Attack Surface

50 MCP vulnerabilities, 30 CVEs in 60 days, 13 critical. Tool-use protocols are the attack surface nobody is auditing — …

8 분 소요

The Ralph Loop: How I Run Autonomous AI Agents Overnight

I built an autonomous agent system with stop hooks, spawn budgets, and filesystem memory. Here are the failures and what…

11 분 소요