← 모든 글

컴퓨터 사용 에이전트는 기본적으로 과도하게 정보를 공유한다

From the guide: Claude Code Comprehensive Guide

“3분기 수치”를 동료에게 전달하라는 요청을 받은 컴퓨터 사용 에이전트는 무엇이 3분기 수치에 해당하는지, 어느 파일에 그것이 담겨 있는지, 그리고 그 옆에 열려 있는 스프레드시트가 같은 이메일에 포함되어야 하는지를 판단해야 합니다. 2026년 6월의 한 벤치마크는 15개의 최첨단 에이전트에게 바로 이런 종류의 판단을 시켰고, 그중 11개가 시험한 시나리오의 절반 이상에서 비공개 정보를 누출했으며 평균 누출률은 67.9%에 달했다는 사실을 발견했습니다.1

컴퓨터 사용 에이전트의 프라이버시 실패는 프롬프트 인젝션이 아닙니다. 어떤 공격자도 무언가를 심어두지 않습니다. 에이전트가 정보를 누출하는 이유는 도움이 되려고 애쓰면서도 어떤 정보가 자신이 행동하는 맥락에 속하는지를 분간하지 못하기 때문입니다. 새로운 논문 Capable but Careless: Do Computer-Use Agents Follow Contextual Integrity?는 이 실패 양상에 이름을 붙이고, 이를 측정하기 위한 벤치마크를 구축하며, 그것이 최첨단 모델 전반에 걸쳐 널리 퍼져 있음을 보여줍니다.1

이 결과가 주목할 만한 이유는 에이전트 보안 논의에서 대체로 건너뛰어 온 위험을 따로 떼어내 짚어내기 때문입니다. 저는 이전에 두 개의 신뢰할 수 없는 입력과 도구를 사용하는 에이전트의 공격자 주도 실패에 관해 쓴 적이 있습니다. 맥락적 과잉 공유는 그 반대 형태입니다. 위험은 내부에 있으며, 적절한 정보 공개에 대한 에이전트 자신의 판단에서 비롯되고, 악의적인 것이 전혀 개입하지 않을 때조차 나타납니다.

요약

  • 컴퓨터 사용 에이전트(CUA)는 이메일, 캘린더, 할 일 목록 같은 개인 앱을 넘나들며 작동합니다. 애플리케이션 간 접근은 유용하지만, 에이전트가 한 맥락의 정보를 그것이 속하지 않는 다른 맥락으로 끌어오게 만듭니다.1
  • Capable but Careless(2026)는 이 위험을 실행 가능하고 결정론적으로 채점되는 시나리오로 바꾸어 15개의 최첨단 에이전트를 평가하는 벤치마크인 AgentCIBench를 도입합니다.1
  • 이 벤치마크는 세 가지 실패 양상을 겨냥합니다. 시각적 인접성, 과제 모호성에 따른 과잉 공유, 그리고 수신자 불일치입니다.1
  • 15개 중 11개의 에이전트가 시나리오의 50% 이상에서 정보를 누출했고 평균 누출률은 67.9%였으며, 이 실패는 에이전트가 과제를 완수하기 위해 처음부터 끝까지 행동했을 때에도 지속되었습니다.1
  • 그 틀은 맥락 무결성, 즉 프라이버시란 비밀 유지가 아니라 정보가 그 맥락에 적절하게 흐르는지에 관한 것이라는 Helen Nissenbaum의 개념입니다.2 이 에이전트들은 능력이 있습니다. 부족한 것은 정보가 어디로 가도 되는지에 대한 감각입니다.

프롬프트 인젝션과는 다른 실패

저 자신의 작업을 포함해 대부분의 에이전트 보안 작업은 공격자에서 출발합니다. 누군가가 웹 페이지나 도구 설명, 혹은 문서에 지시를 숨겨두면 에이전트가 그것을 따르는 것입니다. 그 방어책은 입력을 불신하고 에이전트가 그 입력으로 할 수 있는 일을 제약하는 것입니다.

맥락적 과잉 공유에는 공격자가 없습니다. 사용자가 합리적인 요청을 하고, 에이전트가 그것을 충족하려 애쓰는 과정에서 다른 맥락에 비공개였던 무언가를 공개해 버립니다. 이 논문은 이를 맥락 무결성, 곧 Helen Nissenbaum이 제시한 프라이버시 이론을 통해 설명하는데, 이 이론은 정보의 흐름이 그것이 발생하는 맥락에 결부된 규범을 지닌다고 봅니다.2 당신의 치료사가 당신의 진단명을 아는 것은 적절합니다. 하지만 그 치료사가 그것을 당신의 고용주에게 전달한다면, 기술적으로 어떤 비밀도 깨지지 않았더라도 규범을 위반하는 것입니다. 정보가 넘어서서는 안 될 맥락의 경계를 넘었기 때문입니다.

컴퓨터 사용 에이전트는 이런 여러 맥락을 한꺼번에 넘나들며 작동합니다. 이메일을 작성하는 동안 당신의 캘린더를 볼 수 있고, 한 사람에게 보내는 동안 당신의 전체 연락처 목록을 볼 수 있으며, 한 항목에 관한 질문에 답하는 동안 당신의 할 일 목록 전체를 볼 수 있습니다. 그러한 인접성 하나하나가 어떤 곳에서는 적절한 것을 적절하지 않은 곳으로 끌어올 수 있는 기회가 됩니다. 에이전트는 탈취당한 것이 아닙니다. 지나치게 도움을 주려는 것이며, 다중 맥락 환경에서 지나친 도움은 프라이버시 누출처럼 보입니다.

에이전트가 정보를 누출하는 세 가지 방식

AgentCIBench는 이 위험을 세 가지 실패 양상에 걸친 결정론적 채점 시나리오로 구체화합니다. 이는 이 논문에서 새겨둘 만한 부분인데, 각 양상이 에이전트가 다루는 실제 인터페이스에 대응하기 때문입니다.1

시각적 인접성. 에이전트는 인터페이스에서 과제 대상 옆에 놓여 있는 금지된 항목들을 함께 끌어옵니다. 하나의 송장을 첨부하라는 요청을 받으면 옆에 있는 것까지 집어옵니다. 둘 다 화면에 있었고, 인접성이 관련성으로 읽혔기 때문입니다. 정보 공개를 이끈 것은 과제가 아니라 UI의 배치였습니다.

과제 모호성에 따른 과잉 공유. 충분히 구체화되지 않은 프롬프트가 주어지면, 에이전트는 묻거나 범위를 좁히기보다 빽빽한 개인 정보 상태를 쏟아냅니다. “내가 무슨 일을 하고 있는지 그들에게 알려줘”가 수신자가 결코 봐서는 안 될 항목까지 포함한 할 일 목록 전체가 되어 버립니다. 모호성은 더 적은 공개가 아니라 더 많은 공개 쪽으로 해소됩니다.

수신자 불일치. 에이전트는 적절하지 않은 수신인에게 내용을 보냅니다. 올바른 정보가 잘못된 사람에게 가는 것으로, 하나의 관계에만 속했던 데이터에 전체 회신 본능이 적용된 셈입니다.

이 세 가지 양상은 하나의 근본 원인을 공유합니다. 에이전트가 접근을 곧 허가로 취급한다는 점입니다. 인접한 송장을, 전체 할 일 목록을, 더 넓은 수신자 풀을 볼 수 있기 때문에, 에이전트는 그 접근을 사용하는 것이 적절하다는 듯이 행동합니다. 맥락 무결성은 바로 접근과 적절성이 서로 다른 것이라는 판단이며, 이 벤치마크는 현재의 에이전트들이 그 구별을 안정적으로 해내지 못함을 보여줍니다.

얼마나 심각하며, 왜 지속되는가

표제로 내세운 수치는 사소하지 않습니다. 15개의 최첨단 에이전트 가운데 11개가 시나리오의 절반 이상에서 정보를 누출했고, 평균 누출률은 67.9%에 이르렀습니다.1 분야 대부분에 걸쳐 세 번 중 두 번꼴로 나타나는 실패 양상은 예외적인 경우가 아닙니다. 그것은 기본 동작입니다.

에이전트를 출시하려는 누구에게나 가장 중요한 세부 사항은, 이 실패가 고립된 탐침 상황에서만이 아니라 에이전트가 과제를 완수하기 위해 환경 안에서 처음부터 끝까지 행동했을 때에도 지속되었다는 점입니다.1 인위적인 조건에서만 나타나는 누출이라면 무시하기 쉬울 것입니다. 하지만 에이전트가 실제 작업을 수행하는 동안에도 살아남는 누출은 에이전트가 작동하는 방식의 속성이며, 이 논문은 바로 그 이유로 맥락적 정보 공개 시험을 배포 전 안전 점검으로 자리매김합니다.1

이 실패가 지속되는 이유는 에이전트의 정상적인 목표 가운데 어느 것도 그것에 맞서지 않기 때문입니다. 에이전트는 과제를 완수하면 보상을 받습니다. 지나치게 많이 공개하는 것이 과제 완수를 막는 일은 거의 없으므로, 과잉 공개는 행동을 형성하는 그 루프 안에서 아무런 비용도 치르지 않습니다. 접근 가능한 어떤 정보가 이 맥락에서는 금지되어 있다는 명시적 신호가 없다면, 도움이 되는 경로와 정보를 누출하는 경로는 같은 경로입니다.

무엇을 해야 하는가

해결책은 에이전트의 능력을 떨어뜨리는 것이 아닙니다. 적절성을 에이전트가 추론한다고 가정되는 규범이 아니라 에이전트가 점검하는 제약으로 만드는 것입니다. 이 패턴은 제가 승인 프롬프트에 관해 주장한 바를 되울립니다. 즉, 무엇이 경계를 넘는지를 에이전트가 조용히 결정하도록 신뢰해서는 안 된다는 것입니다.

정보 공개를 접근이 아니라 수신자와 맥락에 따라 통제하세요. 에이전트가 보내거나 첨부하거나 공유하기 전에, 적절한 질문은 “에이전트가 이것을 볼 수 있는가”가 아니라 “이것이 이 흐름에, 이 수신자에게 속하는가”입니다. 접근은 허가의 잘못된 대리 지표이며, 세 가지 실패 양상은 모두 접근을 허가의 대리 지표로 사용한 사례입니다.

모호성을 멈춤으로 다루세요. 허가로 다루지 마세요. 충분히 구체화되지 않은 요청은 가장 위험이 높은 입력입니다. 에이전트가 그것을 공개 쪽으로 해소하기 때문입니다. 요청이 모호할 때 범위를 좁히거나 되묻는 에이전트는, 볼 수 있는 모든 것으로 그 빈틈을 메우는 에이전트보다 정보를 덜 누출합니다.

배포 전에 누출을 시험하세요. 이 논문의 기여 중 하나는 방법론입니다. 맥락 무결성을 측정 가능한 무언가로 바꾸는, 결정론적으로 채점되는 시나리오가 그것입니다. 공격자 주도 실패를 잡아내는 관측 가능성 및 샌드박싱 점검과 나란히 맥락적 정보 공개를 배포 전 점검으로 다루면, 그 점검들이 다루지 못하는 빈틈을 메울 수 있습니다.

더 넓게 보면, 에이전트 안전에는 두 가지 절반이 있습니다. 한쪽 절반은 적대적입니다. 신뢰할 수 없는 입력, 인젝션, 도구 오염, 곧 공격자가 일으키는 실패입니다. 다른 한쪽 절반은 성향적입니다. 아무도 공격하지 않을 때 정당한 접근을 가지고 에이전트가 무엇을 하느냐입니다. 컴퓨터 사용 에이전트는 당신이 소유한 모든 맥락을 넘나들며 행동할 만큼 능력이 있습니다. 그렇게 해야 하는지는 그들이 현재 세 번 중 두 번꼴로 틀리게 답하고 있는 질문입니다.

핵심 요점

컴퓨터 사용 에이전트를 배포하는 사람들을 위해: - 배포 전 점검에 맥락적 정보 공개 시험을 추가하세요. 공격자 중심의 평가는 과잉 공유를 잡아내지 못합니다. - 공유 동작을 에이전트가 데이터에 접근할 수 있는지가 아니라 수신자와 맥락의 적절성에 따라 통제하세요. - 모호한 요청을 가장 위험이 높은 경우로 다루세요. 에이전트가 모호성을 더 많은 공개 쪽으로 해소하기 때문입니다.

에이전트 및 제품 개발자를 위해: - 세 가지 실패 양상(시각적 인접성, 과제 모호성에 따른 과잉 공유, 수신자 불일치)은 구체적인 UI 표면에 대응합니다. 인접성이 관련성으로 읽힐 것이라고 가정하고 각 표면을 설계하세요. - 과제 완수 보상은 과잉 공개에 맞서는 어떤 신호도 주지 않습니다. 적절성이 중요하다면, 그것을 명시적 제약으로 만드세요.

보안 및 프라이버시 검토자를 위해: - 맥락 무결성은 유용한 틀을 제공합니다. 정보 흐름을 비밀이냐 아니냐의 이분법이 아니라 맥락 규범에 비추어 평가하세요. - 최첨단 에이전트 전반에 걸친 67.9%의 평균 누출률은, 정보 공개 통제 없이는 자율적인 다중 맥락 행동에 현재의 기본 설정이 안전하지 않다는 것을 뜻합니다.

FAQ

맥락 무결성이란 무엇인가요?

맥락 무결성은 Helen Nissenbaum이 제시한 프라이버시 이론으로, 정보의 흐름이 그것이 발생하는 맥락에 결부된 규범을 지닌다고 봅니다. 프라이버시는 정보가 그 맥락에 적절한 방식으로 이동할 때 보존되고, 기술적으로는 아무것도 비밀이 아니었더라도 정보가 그것을 다스리는 규범이 허용하지 않는 맥락으로 넘어갈 때 침해됩니다.

이것은 프롬프트 인젝션과 어떻게 다른가요?

프롬프트 인젝션은 적대적입니다. 공격자가 에이전트를 장악하는 지시를 숨겨둡니다. 맥락적 과잉 공유에는 공격자가 없습니다. 사용자가 정당한 요청을 하고, 에이전트가 도우려 애쓰면서 다른 맥락에 속했던 정보를 공개합니다. 둘은 서로 다른 방어책을 요구하며, 공격자 중심의 시험은 과잉 공유를 탐지하지 못합니다.

AgentCIBench란 무엇인가요?

AgentCIBench는 Capable but Careless에서 도입된 벤치마크로, 맥락을 넘나드는 누출을 실행 가능하고 결정론적으로 채점되는 시나리오로 바꿉니다. 세 가지 실패 양상(시각적 인접성, 과제 모호성에 따른 과잉 공유, 수신자 불일치)을 시험하며, 15개의 최첨단 컴퓨터 사용 에이전트를 평가하는 데 사용되었습니다.

몇 개의 에이전트가 실패했나요?

시험한 15개의 최첨단 에이전트 가운데 11개가 시나리오의 50% 이상에서 비공개 정보를 누출했으며, 평균 누출률은 67.9%였습니다. 이 실패는 고립된 탐침 상황에서만이 아니라 에이전트가 과제를 완수하기 위해 처음부터 끝까지 행동했을 때에도 지속되었습니다.

더 나은 프롬프트로 이를 고칠 수 있나요?

프롬프트가 도움이 될 수는 있지만, 이 논문의 틀이 시사하는 지속 가능한 해결책은 구조적입니다. 즉, 정보 공개 동작을 접근이 아니라 수신자와 맥락의 적절성에 따라 통제하고, 배포 전에 누출을 시험하는 것입니다. 과제 완수 목표가 과잉 공개에 맞서는 어떤 신호도 주지 않으므로, 적절성은 가정되는 것이 아니라 제약으로 강제되어야 합니다.


출처


  1. Goel and Gurevych, “Capable but Careless: Do Computer-Use Agents Follow Contextual Integrity?,” arXiv:2606.23189 (2026년 6월 22일). 초록은 AgentCIBench 벤치마크, 세 가지 실패 양상(시각적 인접성, 과제 모호성에 따른 과잉 공유, 수신자 불일치), 15개 최첨단 에이전트의 평가, 15개 중 11개가 67.9%의 평균 누출률로 시나리오의 50% 이상에서 정보를 누출한다는 발견, 처음부터 끝까지의 과제 완수에서 실패가 지속된다는 점, 그리고 맥락적 정보 공개 시험을 배포 전 안전 점검으로 자리매김한다는 점을 보고합니다. 

  2. Helen Nissenbaum, “Privacy as Contextual Integrity,” Washington Law Review 79, no. 1 (2004), 그리고 Privacy in Context: Technology, Policy, and the Integrity of Social Life(Stanford University Press, 2010). 맥락 무결성은 프라이버시를 맥락 상대적인 정보 규범에 결부시키며, 정보의 흐름이 그것이 발생하는 맥락에 적절할 것을 요구합니다. 

관련 게시물

저장소가 자신의 신뢰 여부에 투표해서는 안 됩니다

37일 만에 발생한 두 건의 Claude Code 신뢰 대화상자 우회 CVE는 로드 순서의 실패를 드러냅니다. 하나의 불변 조건이 이를 해결합니다. 경로가 신뢰될 때까지 작업 공간의 어떤 바이트도 해석하지 않는 것입…

8 분 소요

사이버 보안은 작업 증명이다: 한 번에 $12,500이 드는 AI 공격

Claude Mythos가 32단계 기업 네트워크 공격 시뮬레이션을 10번 중 3번 완료했어요. 시도당 토큰 비용은 $12,500. 보안은 이제 지출의 문제가 됐어요.

7 분 소요

Ralph 루프: 자율 AI 에이전트를 밤새 운영하는 방법

중지 훅, 스폰 예산, 파일 시스템 메모리를 활용한 자율 에이전트 시스템을 구축했습니다. 실패 사례와 실제로 코드를 출시하게 된 과정을 공유합니다.

8 분 소요