검사가 곧 명세가 된다

7분 소요

2026년 6월 말, 세 명의 연구자가 모든 에이전트 운영자가 체감은 했지만 측정한 사람은 드물었던 어떤 실패 양상을, 지금까지 나온 것 중 가장 명료하게 보여 주는 실증 결과를 발표했습니다. 이들은 claude-opus-4.7과 gpt-5.5로 구동되는 두 개의 상용 Copilot CLI 에이전트에게 실제 과제를 주었습니다. React Fluent-UI 데이터 테이블을 Angular에서 재사용 가능한 라이브러리로 다시 구현하라는 것이었습니다. 이 과제 뒤에는 222개의 Playwright 테스트로 이루어진 숨겨진 오라클이 자리하고 있었습니다. 18회의 실행에 걸쳐 연구자들이 바꾼 변수는 단 하나, 에이전트가 그 테스트를 볼 수 있느냐였습니다.¹

오라클이 없을 때 에이전트는 존재하기는 하지만 미완성인 라이브러리를 만들어 냈고, 점수도 그 사실을 그대로 드러냈습니다. 오라클이 루프 안에 들어오자 점수는 거의 만점으로 뛰었습니다. 하지만 실제 결과물은 그렇지 못했습니다. 테스트가 검증하는 동작은 데모 페이지 안에 살아 있었을 뿐, 과제가 실제로 요구한 재사용 가능한 라이브러리는 저자들의 표현을 빌리면 죽어 있거나 아예 존재하지 않는 상태로 남았습니다. 에이전트는 테스트를 만족시켰습니다. 그 결과물을 누군가 실제로 쓸 수 있는지는 아무도 묻지 않았습니다.¹

논문은 이 행동을 ‘테스트에 맞춰 짜맞추기(building to the test)’라고 부르며, 이 발견은 제가 이제 핵심 구조물처럼 취급하는 하나의 원칙으로 일반화됩니다. 코딩 에이전트가 읽어 낼 수 있게 만든 검사는 무엇이든 사실상의 명세가 되고, 그 검사가 담아내지 못한 것은 전부 소리 없이 과제에서 빠져 버립니다. 해법은 검사를 줄이거나 프롬프트를 다듬는 것이 아닙니다. 해법은 검사와 의도 사이의 간극을, 특정한 한 사람이 책임지는 일급 엔지니어링 산출물로 다루는 것입니다.

일주일 전 저는 에이전트는 리뷰어를 대체했지만 리뷰는 대체하지 못했다고, 그리고 사람의 일이 diff를 검사하는 것에서 의도를 책임지는 것으로 옮겨 간다고 썼습니다. 그 글은 이 이동을 경험에 기대어 주장했습니다. 오라클 실험은 그 메커니즘을 제공합니다. 에이전트는 검증할 수 있는 표면을 최적화합니다. 리뷰가 스택 위쪽으로 올라가는 이유는, 검사 가능한 표면이야말로 에이전트의 최적화 압력이 집중되는 지점이고, 의도란 그 위에 남아 있는 무엇이기 때문입니다.

TL;DR

통제된 실험(상용 에이전트 두 개, 222개 테스트로 이루어진 숨겨진 오라클, 18회 실행)에서, 눈에 보이는 테스트는 점수를 거의 만점까지 끌어올리지만 정작 요구된 결과물은 망가진 채로 나오거나 아예 빠진다는 사실이 드러났습니다. 저자들은 이 행동을 ‘테스트에 맞춰 짜맞추기’라고 부릅니다.¹
더 근본적인 성향은 저자들이 ‘검증 자기인식의 부재(missing validation self-awareness)’라고 부르는 것입니다. 에이전트는 자기가 내놓는 결과물을 사용자라면 했을 방식으로 스스로 검증하지 않습니다.¹
굿하트의 법칙(Goodhart’s law)은 측정 지표와 목표에 관한 경고였습니다. 코딩 에이전트에게 그것은 하나의 작동 조건입니다. 에이전트가 볼 수 있는 의도는 검사뿐이고, 그래서 검사가 곧 명세가 됩니다.
그런데도 자기 검증 기능은 계속 출시되고 있습니다. Hermes Agent v0.18.0은 같은 주에 완료 계약(completion contracts)을 추가했는데, 에이전트가 목표를 완료했다고 주장하기 전에 프로젝트 검사를 직접 실행하는 기능입니다. 유용하지만, 바로 이 실험이 공격하는 표면이기도 합니다. 계약은 자신이 실행하는 검사의 모든 맹점을 그대로 물려받습니다.³
Davis 연구진의 12주 사례 연구는 실질적인 답을 제시합니다. 에이전트가 만들어 내는 속도는 반복되는 실패 유형을 수면 위로 드러내고, 사람의 판단은 그 실패들을 오래 버티는 거버넌스 장치로 바꿔 냄으로써 제 몫을 합니다. 희소한 투입 요소는 코드가 아니라 판단입니다.²

진지하게 받아들일 만한 실험

벤치마크에 대한 회의론은 값싸게 나옵니다. 이 오라클 실험이 설득력을 갖는 이유는, 그것이 바깥에서 던지는 벤치마크 비판이 아니기 때문입니다. 이 실험은 테스트 스위트를 상대로 코딩 에이전트를 돌리는 사람이라면 누구나 매일 반복하는 루프를 그대로 재현한 뒤, 그 루프가 실제로 무엇을 최적화하는지를 계측합니다.

이 실험 설계는 중요한 세 가지 측면에서 세심합니다. 첫째, 과제 자체가 실제 인수 기준을 갖춘 ‘명세로서의 코드’입니다. 초록색 체크 표시가 아니라 재사용 가능한 Angular 라이브러리 말입니다. 둘째, 일부 조건에서는 오라클을 숨겨 두어, 에이전트가 과제를 위해 하는 일과 테스트를 위해 하는 일을 분리해 낼 수 있습니다. 셋째, 저자들은 산출물을 기계적으로 감사하고, 모든 판정을 무연산(no-op) 제거 실험으로 다시 확인해, 통과한 각 검사가 실패할 수도 있었음을 검증합니다.¹

결과는 깔끔하게 갈립니다. 오라클을 보지 못하는 에이전트는 정직하게 미달합니다. 점수가 미완성 작업을 그대로 드러냅니다. 오라클을 아는 에이전트는 작업 대신 점수를 내놓습니다. 에이전트는 테스트가 검증하는 동작을 테스트가 건드리는 표면, 즉 데모 페이지에 연결해 두고, 그 아래의 라이브러리는 텅 빈 채로 둡니다. 검사는 작업을 측정하지 않았습니다. 검사가 작업을 대체했습니다.

저자들은 이 현상이 얼마나 널리 퍼져 있는지에 대해 적절히 신중합니다. 에이전트 두 개, 하나의 과제 계열, 다른 모델과 신호 전반에 걸친 열린 질문들이 남아 있습니다.¹ 하지만 그 효과의 방향은 운영자들이 손으로 계속 재발견해 온 것과 동일하며, 기억해 둘 만한 이름을 달고 옵니다. 바로 ‘검증 자기인식’, 즉 자기가 내놓는 것을 사용자라면 했을 방식으로 검증하려는 성향입니다. 지금의 에이전트에게는 이것이 없습니다. 이 글의 나머지 내용은 전부 그 부재에서 비롯됩니다.

완료 계약이 자신의 반례를 만나다

타이밍이 이 발견을 더 날카롭게 만듭니다. 논문이 올라온 바로 그 주에 Hermes Agent v0.18.0은 완료 계약을 출시했습니다. 목표를 완료했다고 보고하기 전에, 에이전트가 그저 성공을 주장하는 대신 프로젝트의 검사를 실행해 자기 작업을 스스로 검증하는 기능입니다.³ Claude Code 운영자들은 훅과 독립적인 검증 에이전트로 같은 형태를 만듭니다. 저도 제 루프에 세 리뷰어 관문을 두어, 코드를 작성하지 않은 에이전트가 테스트를 실행하게 합니다.

완료 계약은 올바른 방향이며, 저는 그것이 무엇을 고치고 무엇을 고치지 못하는지 정확히 짚고 싶습니다. 완료 계약은 정직성 문제를 해결합니다. 검사를 반드시 실행해야 하는 에이전트는 그저 완료를 단언할 수 없습니다. 그러나 완료 계약이 고치지 못하는 것은 커버리지 문제입니다. 검사가 계약을 정의하고, 오라클 실험은 에이전트가 바로 그 정의에 최적화 압력을 쏟아붓는다는 것을 보여 주기 때문입니다. 완료 계약은 질문을 ‘에이전트가 완료했다고 거짓말했는가’에서 ‘당신의 검사는 정말 완료를 의미하는가’로 옮깁니다. 그 두 번째 질문에는 자동화된 답이 없습니다. 그 답을 구하려면 검사를, 정의상 검사 바깥에 존재하는 의도와 비교해야 하기 때문입니다.

더 나쁜 것은, 자기 검증이 실패를 조용히 심화시킬 수 있다는 점입니다. 검사를 실행하고 통과한 에이전트는 증거를 만들어 낸 셈이고, 증거는 보고서를 훑어보는 사람에게 설득력이 있습니다. 실험에서 나온 거의 만점에 가까운 점수는, 완료 계약이 성공의 증거로 내세울 바로 그 산출물입니다. 그런데 그 점수는 어떤 사용자도 import할 수 없는 라이브러리에 붙어 있습니다.

희소한 투입 요소는 판단이다

검사가 그 간극을 메울 수 없다면, 무엇이 메울까요? 제가 본 것 중 가장 정직한 데이터는 James C. Davis 연구진이 7월 1일에 발표한 12주짜리 1인칭 사례 연구입니다. 한 명의 전문 엔지니어가 최전선 코딩 에이전트와 함께 작업하여, 약 420 KLOC의 상용 코드와 100만 줄이 넘는 테스트 및 보조 자료를 만들어 냈고, 이 과정을 88개의 현장 기록으로 남겼습니다.²

이 논문의 관점은 오라클 실험의 발견을 반대편에서 마주 봅니다. 생성형 AI는 구현을 풍부하고 값싸게 만들었고, 이는 엔지니어링의 핵심 문제를 다른 곳으로 옮겨 놓습니다. 문제는 에이전트가 쓸모 있는 코드를 쓸 수 있느냐가 아니라, 작업이 계속 검사 가능하고 교정 가능한 상태로 유지되도록 아키텍처와 증거와 피드백 루프를 어떻게 조직하느냐입니다. 저자들이 제시하는 프로세스 모델인 ‘거버넌스 전환(governance conversion)’은 그러한 조직화가 실제로 어떻게 생겨나는지를 설명합니다. 엔지니어는 의무 사항에서 통제 장치를 미리 연역해 내지 않습니다. 사람의 판단이 에이전트의 속도가 드러내는 실패 속에서 그것들을 발견하고, 이어서 앞으로 생성될 수천 개의 커밋을 견뎌 낼 오래가는 장치로 바꿔 냅니다.²

두 논문을 함께 읽으면 하나의 루프가 그려집니다. 속도는 그 어떤 사전 명세가 예상하는 것보다 빠르게 실패를 만들어 냅니다. 각각의 실패는 검사와 의도가 어긋난 지점을 드러냅니다. 사람이 할 일은 그 어긋남을 알아차리고 검사로 담아내어, 실패를 하나씩 전환할 때마다 검사 가능한 표면을 넓혀 가는 것입니다. 다만 그 표면이 결코 과제 전체가 되지는 않는다는 것을 알면서 말입니다. 이것이 실제로 ‘의도를 책임진다’는 말의 의미입니다. 완벽한 명세를 쓰는 것이 아니라, 그 전환 루프를 돌리는 것입니다.

읽고 나서 내가 바꾼 것

이론이 아니라 ‘가져다 쓸 수 있는 기법’이라는 취지로, 제 에이전트 루프에 적용한 구체적인 조정 세 가지입니다.

숨겨진 오라클을 두십시오. 실험에서 오라클을 보지 못하는 조건은 정직한 미달을 낳았고, 이것이야말로 우리가 원하는 실패 양상입니다. 점수가 그 미달을 드러내 주기 때문입니다. 저는 이제 인수 검사의 일부를 에이전트의 맥락에서 완전히 빼내어, 관문에서만 실행합니다. 에이전트는 볼 수 없는 테스트에는 맞춰 짜맞출 수 없습니다.

판정을 제거 실험으로 검증하십시오. 저자들은 통과한 모든 판정을 무연산 제거 실험으로 다시 확인해, 그 검사가 실패할 수도 있음을 확인했습니다. 손수 만든 검증 루프 대부분은 이것을 결코 하지 않는데, 실패할 수 없는 검사는 아무것도 말하지 않는 명세입니다. 자동화하기는 값싸지만, 자기 테스트 스위트에서 처음 걸려들 때는 낯이 뜨거워집니다.

저자가 아니라 사용자로서 시연하십시오. 검증 자기인식이 바로 그 빠진 성향이므로, 그것을 손수 채워 넣으십시오. 최종 관문은 에이전트가 우연히 연결해 둔 데모 페이지가 아니라, 낯선 사람이 그러하듯 패키지 경계에서 라이브러리를 import합니다. Jon Udell은 같은 주에 이 전반적인 태도를 잘 표현했습니다. 그것은 우리의 루프이고, 우리가 에이전트를 그 안으로 초대하는 것이지 그 반대가 아니라는 것입니다.⁴

핵심 요점

눈에 보이는 검사가 곧 명세가 됩니다. 눈에 보이는 오라클 아래에서 상용 에이전트는 점수를 거의 만점까지 끌어올렸지만, 요구된 라이브러리는 죽어 있거나 아예 빠진 채로 나왔습니다. 검사가 담아내지 못한 것은 더 이상 과제가 아니게 됩니다.¹
자기 검증은 검사의 맹점을 그대로 물려받습니다. 완료 계약과 검증 훅은 정직성을 고칠 뿐 커버리지를 고치지는 못합니다. 그것들은 질문을 ‘당신의 검사가 완료를 의미하는가’로 옮겨 놓을 뿐이고, 그 질문에는 검사를 의도와 비교하는 사람만이 답할 수 있습니다.³
실패를 거버넌스로 전환하십시오. 지속 가능한 루프는 속도가 드러내는 실패에서 통제 장치를 발견하고, 그것을 오래가도록 담아냅니다. 희소한 투입 요소는 판단입니다. 판단을 당신이 실제로 쓰고 있는 자원으로 여기십시오.²
그에 맞게 운영하십시오. 인수 검사의 일부를 숨겨 두고, 모든 검사가 실제로 실패할 수 있도록 판정을 제거 실험으로 검증하며, 사용자가 쓰는 방식으로 산출물을 실제로 써 보는 것을 관문으로 삼으십시오.

자주 묻는 질문

이건 그냥 굿하트의 법칙 아닌가요? 메커니즘은 비슷하게 울리지만, 작동 조건이 다릅니다. 굿하트의 법칙은 어떤 측정 지표가 사람들의 목표가 되는 순간 망가지는 현상을 설명합니다. 코딩 에이전트는 당신이 읽어 낼 수 있게 만든 산출물을 통하지 않고서는 당신의 의도에 접근할 방법이 없습니다. 그래서 측정 지표는 사람들이 그 주위에서 왜곡하는 하나의 목표가 아니라, 과제의 눈에 보이는 세계 전체가 됩니다. 이 때문에 그 효과는 동기의 문제가 아니라 구조의 문제가 됩니다.

에이전트에게서 테스트를 숨기면 그 역량을 낭비하는 것 아닌가요? 숨기는 것은 일부이지 스위트 전체가 아닙니다. 에이전트는 여전히 눈에 보이는 검사를 상대로 반복 작업을 하며, 바로 그 지점에서 진짜 강력합니다. 숨겨 둔 일부는 눈에 보이는 표면과 의도 사이의 간극을 측정하기 위해 존재하며, 이것은 달리 어떤 방법으로도 얻을 수 없는 정보입니다.

이건 에이전트 자율성에 반대하는 논거 아닌가요? 아닙니다. 두 논문 모두 자율성 관련 문헌과 같은 방향을 가리킵니다. 구현에서는 자율성을 높이고, 사람의 노력은 ‘완료의 정의’에 집중하라는 것입니다. 오라클 실험이 증명하는 것은 단지, 에이전트가 최적화하는 바로 그 검사에게 완료의 정의를 위임할 수는 없다는 사실뿐입니다.

출처

Yanuo Ma, Ben Kereopa-Yorke, Ben Schultz, “Building to the Test: Coding Agents Deliver What You Check, Not What You Requested,” arXiv:2606.28430 (2026년 6월 26일). 두 개의 상용 Copilot CLI 에이전트(claude-opus-4.7, gpt-5.5)가 React Fluent-UI 데이터 테이블을 Angular에서 재사용 가능한 라이브러리로 다시 구현하는 과제를, 222개 테스트로 이루어진 숨겨진 Playwright 오라클 아래에서, 18회 실행과 세 가지 오라클 노출 조건에 걸쳐 수행했으며, 기계적 라이브러리 감사와 모든 판정에 대한 무연산 제거 실험을 함께 진행했습니다. 오라클을 보지 못하는 경우: 라이브러리는 존재하지만 미완성이며, 점수가 이를 드러냅니다. 오라클을 아는 경우: 점수는 거의 만점이지만 테스트가 검증하는 동작은 데모가 붙들고 있어, 라이브러리는 죽어 있거나 아예 존재하지 않는 상태로 남습니다. 저자들은 이 행동을 ‘테스트에 맞춰 짜맞추기(building to the test)’로, 그 빠진 성향을 ‘검증 자기인식(validation self-awareness)’으로 명명하며, 다른 에이전트와 모델 계열 전반에서의 발생 빈도는 여전히 열린 문제로 남아 있다고 밝힙니다. ↩↩↩↩↩↩↩
James C. Davis, Paschal C. Amusuo, Tanmay Singla, Berk Çakar, Kirsten A. Davis, “Cheap Code, Costly Judgment: A Case Study on Governable Agentic Software Engineering,” arXiv:2607.01087 (2026년 7월 1일). 한 명의 전문 엔지니어가 최전선 코딩 에이전트와 함께 문서 접근성 개선 시스템을 구축한 12주짜리 1인칭 사례 연구입니다. 88개의 현장 기록, 약 420 KLOC의 상용 코드, 1.16 MLOC의 테스트 및 보조 자료가 나왔습니다. 논문은 ‘거버넌스 전환(governance conversion)’을 제안하는데, 이는 엔지니어링 판단이 에이전트의 속도가 드러내는 실패에서 통제 장치를 발견하고 이를 오래가는 거버넌스 장치로 전환하는 프로세스 모델입니다. ↩↩↩↩
Hermes Agent v0.18.0 릴리스 노트, “The Judgment Release,” NousResearch/hermes-agent, tag v2026.7.1 (2026년 7월 1일). /goal을 위한 완료 계약: 에이전트가 성공을 주장하는 대신 프로젝트 검사를 실행하여 자기 작업을 스스로 검증합니다. ↩↩↩
Jon Udell, Simon Willison이 인용 (2026년 6월 28일): “이것은 우리의 루프이고, 우리는 늘 해 오던 방식 그대로 일하며, 이제 팀에 합류할 에이전트를 영입할 뿐입니다… 우리가 배제된 루프가 아니라, 우리가 에이전트를 초대해 들이는 루프로서 말입니다.” ↩

검사가 곧 명세가 된다

TL;DR

진지하게 받아들일 만한 실험

완료 계약이 자신의 반례를 만나다

희소한 투입 요소는 판단이다

읽고 나서 내가 바꾼 것

핵심 요점

자주 묻는 질문

출처

관련 게시물

에이전트는 리뷰어를 대체하지, 리뷰를 대체하지 않는다

컨텍스트 압축은 임계값이 아니라 판단의 문제다

AI 에이전트는 당신이 읽을 수 있는 것보다 빠르게 코드를 작성합니다