← 모든 글

Project Glasswing: 모델이 버그를 너무 잘 찾아낼 때 벌어지는 일

From the guide: Claude Code Comprehensive Guide

2주 전, Nicholas Carlini는 Claude Code로 10줄짜리 bash 스크립트를 사용해 23년 된 Linux 커널 취약점을 찾을 수 있다는 것을 보여주었습니다. 오늘, Anthropic은 이 접근법을 확장했을 때 어떤 일이 벌어졌는지 발표했습니다. 수천 개의 고위험 및 치명적 제로데이 취약점을 발견한 Claude Mythos라는 새로운 모델, 그리고 이를 공개하지 않겠다는 결정입니다.1

Project Glasswing은 Carlini의 [un]prompted 발표 이후 실무자들이 던져온 질문에 대한 Anthropic의 답변입니다. 이 능력이 대규모로 배포되면 어떻게 되는가? 답은 제한입니다.

요약

Claude Mythos Preview는 Opus 4.6을 넘어서는 새로운 프론티어 모델로, 사이버 보안 역량이 “코드, 추론, 자율성의 전반적인 개선에 따른 부수적 결과로 나타났습니다.”1 Anthropic은 방어적 보안 작업에 한해 12개 파트너 조직(Apple, Amazon, Microsoft, Google, Linux Foundation 등)으로 접근을 제한하고 있습니다. 이 모델은 27년 된 OpenBSD TCP SACK 버그, 16년 된 FFmpeg 취약점, FreeBSD NFS RCE(CVE-2026-4747)를 포함한 수천 개의 제로데이를 발견했습니다.1 Anthropic은 1억 달러의 사용 크레딧과 400만 달러를 오픈소스 보안 조직에 투자하기로 약속했습니다. 향후 Cyber Verification Program을 통해 합법적인 보안 전문가에게 접근이 제공될 예정입니다.1

핵심 시사점

  • 보안 엔지니어: Carlini가 [un]prompted에서 시연한 능력 임계점은 실재하며, 확장 가능합니다. Mythos는 “모든 주요 운영체제와 웹 브라우저”에서 취약점을 발견했습니다.2 12개 파트너 조직의 방어 보안팀은 이미 접근 권한을 확보했습니다. 그 외 모든 팀은 이러한 역량이 일반 공개 모델에 도달했을 때를 대비해야 합니다.
  • 하네스 개발자: Mythos는 격리된 컨테이너에서 Claude Code를 통해 실행됩니다.1 에이전트 CLI + 샌드박스 실행 + 자동화된 분류라는 하네스 패턴이 이제 Anthropic 자체의 프론티어 보안 연구를 위한 프로덕션 아키텍처가 되었습니다. 실무자들이 독자적으로 구축해온 하네스 패턴이 최고 수준에서 검증된 셈입니다.
  • 그 외 모든 사람: Anthropic은 공개 대신 제한을 선택했습니다. 이것은 실질적인 트레이드오프가 있는 실질적인 거버넌스 결정입니다. 모델은 존재하고, 역량은 입증되었습니다. AI가 제로데이를 찾을 수 있는지는 더 이상 문제가 아닙니다. 누가 어떤 조건에서 접근하느냐가 문제입니다.

발표에서 제품으로

Carlini의 [un]prompted 발표는 4월 초의 공개 프리뷰였습니다.3 그는 간단한 파일 반복 스크립트로 5개의 Linux 커널 취약점과 22개의 Firefox CVE를 시연했습니다. 병목은 사람의 검증이었습니다 — “아직 검증하지 못한 수백 개의 크래시가 있다”고 말했습니다.

Mythos는 더 강력한 모델과 전용 인프라로 그 병목을 제거했을 때 일어나는 일입니다. 규모의 차이가 상당합니다:1

지표 Carlini의 발표 Project Glasswing
발견된 취약점 커널 5개 + Firefox CVE 22개 모든 주요 플랫폼에서 수천 개
대상 Linux 커널, Firefox 모든 주요 OS, 브라우저, 오픈소스 프로젝트
검증 수동, 연구자 주도 전문 보안 계약자, 89% 심각도 확인
접근 Opus 4.6 (일반 공개) Mythos Preview (12개 파트너로 제한)

전문 검증 수치가 중요합니다. 검토된 198건의 보고서 중 89%가 독립 보안 계약자에 의해 심각도 평가가 확인되었으며, 98%가 한 단계 이내의 심각도 차이였습니다.1 환각이 만들어낸 결과가 아닙니다.

제한 결정

Anthropic의 공식 입장: “사이버 보안 역량으로 인해 Claude Mythos Preview를 일반 공개할 계획이 없습니다.”4

이례적인 결정입니다. 모델 기업들은 보통 역량을 빠르게 출시하려 경쟁합니다. Anthropic은 공개된 어떤 시스템보다 취약점 탐지에 뛰어난 모델을 만들었고, 검증된 파트너의 방어적 용도로 제한하기로 선택했습니다. 1억 달러의 사용 크레딧 약속은 이것이 마케팅 행사가 아님을 보여줍니다.1

제한 모델은 세 단계로 구성됩니다:1 1. Project Glasswing 파트너 (12개 조직): 방어적 보안을 위한 직접 접근 2. 확대 접근 (총 40개 조직): 감독 하의 배포 3. 향후 Cyber Verification Program: 검증된 보안 전문가를 위한 접근 계획

실무자에게 이것은 가장 강력한 취약점 탐지 역량을 표준 API이나 Claude Code를 통해 사용할 수 없다는 것을 의미합니다. Opus 4.6이 일반 공개된 모델 중 가장 강력합니다. 하지만 Mythos가 보여준 역량은 향후 Opus 릴리스에 영향을 미칠 가능성이 높습니다 — Anthropic의 발표에서 “향후 Claude Opus 모델의 새로운 안전장치를 통해 보다 안전한 배포를 가능하게 하는 것”을 목표로 한다고 명시했습니다.1

이번 발표가 검증한 것

Project Glasswing은 실무자 커뮤니티가 독자적으로 구축해온 여러 패턴을 검증합니다:

실행 하네스로서의 Claude Code. Mythos는 격리된 컨테이너에서 Claude Code를 통해 실행됩니다.1 실무자들이 일상적인 코딩에 사용하는 동일한 에이전트 CLI가 Anthropic의 프론티어 보안 연구 실행 레이어입니다. Claude Code가 제공하는 hooks, skills, 샌드박싱은 편의 기능이 아니라 자율적 보안 스캐닝을 안전하게 배포할 수 있게 하는 인프라입니다.

검증 병목은 하네스 문제입니다. Carlini의 발표에서는 사람의 검증이 병목으로 지목되었습니다. Project Glasswing의 해법은 전문 보안 계약자의 검증, 책임 있는 공개를 위한 SHA-3 해시 커밋, 구조화된 분류 인프라입니다.1 이것은 에이전트가 취약점을 발견했을 때에서 우리가 식별한 것과 동일한 분류 문제이며, 해법은 모델 역량이 아닌 인프라입니다.

거버넌스 훅이 스캐닝 역량보다 중요합니다. 모델은 취약점을 찾을 수 있습니다. 어려운 문제는 공개를 통제하고, 접근을 관리하며, 발견 사항이 공격자보다 먼저 방어자에게 전달되도록 보장하는 것입니다. Anthropic의 답은 조직적입니다(모델 제한, 파트너 검증, 자원 투입). 자체 보안 스캐닝을 구축하는 실무자에게는 출력을 통제하는 거버넌스 훅이 그에 해당합니다.

실무자에게 주는 의미

Mythos 접근 권한을 받을 수는 없습니다. 현재 가지고 있는 것으로 할 수 있는 일은 다음과 같습니다:

Opus 4.6은 이미 충분히 강력합니다. Carlini의 [un]prompted 결과 — 커널 버그 5개, Firefox CVE 22개 — 는 Mythos가 아닌 Opus 4.6을 사용한 것입니다.3 캡처 더 플래그 방법론, ASAN 계측 빌드, 파일 반복 스크립트 모두 일반 공개 모델로 재현할 수 있습니다.

지금 분류 레이어를 구축하세요. 향후 Opus 모델이 Mythos의 일부 역량을 물려받으면(Anthropic이 시사한 대로), 병목은 Carlini가 지목한 것과 동일할 것입니다: 사람의 검증입니다. 자동화된 중복 제거, 심각도 분류, 공개 워크플로를 미리 갖춘 팀이 먼저 혜택을 받게 됩니다.

Cyber Verification Program을 주시하세요. Anthropic은 검증된 보안 전문가에게 Mythos 접근을 확대할 계획입니다. 합법적인 보안 연구를 하고 있다면 추적할 가치가 있습니다.

방향은 명확합니다. AI 지원 취약점 발견은 현실이고, 확장 가능하며, 거버넌스 문제가 이제 핵심 과제입니다. 모델 역량은 해결되었습니다. 발견, 분류, 책임 있는 공개를 조율하는 하네스는 아직 해결되지 않았습니다.


출처

자주 묻는 질문

Claude Code를 통해 Claude Mythos를 사용할 수 있나요?

아니요. Mythos Preview는 Project Glasswing 파트너로 제한되어 있습니다. 일반 사용자에게는 Opus 4.6이 Claude Code를 통해 사용할 수 있는 가장 강력한 모델입니다.

Mythos의 역량이 Opus에 적용될 예정인가요?

Anthropic의 발표에 따르면 “향후 Claude Opus 모델의 새로운 안전장치를 통해 보다 안전한 배포를 가능하게 하는 것”을 목표로 한다고 합니다. 일부 역량이 일반 공개 모델에 도달하겠지만, 추가적인 안전 제약이 따를 것으로 보입니다.

이전 취약점 블로그 글과 어떤 관련이 있나요?

Carlini의 [un]prompted 발표(에이전트가 취약점을 발견했을 때에서 다룸)는 Opus 4.6을 사용해 커널 버그 5개와 Firefox CVE 22개를 발견했습니다. Mythos는 이 접근법을 모든 주요 플랫폼에서 수천 개의 취약점으로 확장했습니다. 방법론은 동일하고, 모델이 더 강력해진 것입니다.


  1. Claude Mythos Preview — Project Glasswing. Anthropic, April 7, 2026. Official announcement. Thousands of high/critical-severity zero-days found. 89% severity confirmation rate by professional validators. $100M in usage credits. Led by Nicholas Carlini with 21+ co-authors. 

  2. Anthropic’s Project Glasswing. Simon Willison, April 7, 2026. Analysis and context on the restricted release model and Carlini’s earlier work. 

  3. Nicholas Carlini, “Black-hat LLMs,” [un]prompted AI security conference, April 2026. Conference agenda. See also: AI Finds Vulns You Can’t, Security Cryptography Whatever podcast. 

  4. Anthropic says its most powerful AI cyber model is too dangerous to release publicly. VentureBeat, April 7, 2026. 

관련 게시물

The Ralph Loop: How I Run Autonomous AI Agents Overnight

I built an autonomous agent system with stop hooks, spawn budgets, and filesystem memory. Here are the failures and what…

8 분 소요