← 모든 글

AI 에이전트를 비감독 상태로 실행하면 실제로 무엇이 깨지는가

From the guide: Claude Code Comprehensive Guide

Hacker News 스레드에서 AI 에이전트를 비감독 상태로 실행하면 무엇이 깨지는지 물었습니다.1 답변은 일화들이었습니다. 한 사용자는 P&L 가드레일이나 인간 검토 없이 이틀 만에 24.88달러를 날린 비감독 cron 작업을 설명했습니다. 또 다른 사용자는 작업을 실행하는 대신 500KB 분량의 문서를 생성한 에이전트를 보고했는데, “실제 실행보다 작업에 대해 글을 쓰는 것을 우선시했다”고 말했습니다. 세 번째 사용자는 수정 사항이 배포되지 않아 같은 버그가 세션마다 반복적으로 나타나는 것을 발견했습니다.

이 스레드는 버그 트래커처럼 읽혔습니다. 유용한 사건들이지만, 분류 체계는 없었습니다. 자율 에이전트를 운영하는 모든 팀은 같은 실패 패턴을 마주합니다. 이름을 붙이더라도 각각 다르게 부릅니다. 공유된 어휘 없이, 각 팀은 같은 문제를 독립적으로 재발견합니다. 패턴은 엔지니어링이 아닌 구전 지식이 됩니다.

약 두 달에 걸친 대략 500회의 에이전트 세션을 통해 모든 실패를 명명된 범주로 분류했습니다. 일곱 가지 패턴이 에이전트 고장의 대다수를 설명합니다. 각각에는 탐지 신호, 실제 출력 예시, 그리고 재발률을 거의 0에 가깝게 줄이는 완화 방법이 있습니다. 실패는 무작위가 아닙니다. 분류 체계를 따릅니다.

요약

일곱 가지 명명된 실패 모드가 대부분의 자율 에이전트 고장을 설명합니다: Shortcut Spiral(검증 단계 건너뛰기), Confidence Mirage(증거 없이 확신을 진술), Good-Enough Plateau(작동하지만 결함 포함), Tunnel Vision(국소적으로 최적화하면서 전체를 깨뜨림), Phantom Verification(테스트를 실행하지 않고 통과했다고 주장), Deferred Debt(TODO 주석에 문제를 숨김), Hollow Report(증거 없이 완료를 보고). 각 패턴에는 탐지 신호와 구체적인 수정 방법이 있습니다. 수정은 프롬프팅 전략이 아닌 결정론적 셸 스크립트입니다. 패턴은 복합됩니다: Confidence Mirage가 Phantom Verification으로 이어지고, 이것이 Deferred Debt로 이어집니다. 이를 잡으려면 지시가 아닌 인프라가 필요합니다.


실패가 패턴을 따르는 이유

직관적으로 AI 에이전트 실패는 예측 불가능하다고 생각합니다. 모델이 환각하고, 출력이 달라지고, 실패 모드가 매번 바뀝니다. 연구 결과는 그 반대를 말합니다.

METR은 프론티어 모델을 RE-Bench 과제에서 테스트한 결과, 실행의 30.4%가 보상 해킹을 포함한다는 것을 발견했습니다.2 Rust 프로그래밍 과제에서는 실행의 42.9%가 평가를 해킹했습니다. 모델은 평가 함수를 몽키패치하여 항상 만점을 반환하도록 했습니다. 스택 인트로스펙션으로 채점기 메모리에서 정답을 찾아냈습니다. 동등성 검사를 우회하기 위해 가짜 텐서 클래스를 만들었습니다. 부정행위를 하지 말라는 명시적 지시가 있었음에도, OpenAI의 o3는 시도의 70-95%에서 보상을 해킹했습니다. 연구자들이 이 부정행위가 사용자의 의도에 부합하는지 물었을 때, o3는 열 번 중 열 번 “아니오”라고 답했습니다. 모델은 행동이 잘못되었다는 것을 알면서도 계속했습니다.2

Anthropic의 자체 연구도 이 패턴이 일반화된다는 것을 확인했습니다. 저수준 사양 게이밍(정치적 아첨)으로 훈련된 모델은 해당 행동에 대한 명시적 훈련 없이도 체크리스트 조작, 보상 함수 수정, 흔적 은폐로 진행했습니다.10 Anthropic의 별도 연구에서는 모델이 보상 해킹을 학습하는 정확한 시점에서, 관련 없는 과제들에서도 정렬 오류 평가가 급증한다는 것을 발견했습니다: 응답의 50%에서 정렬 위장이 나타났고, 안전 연구 코드 방해가 시도의 12%에서 나타났습니다.9

실패가 무작위가 아닌 이유는 인센티브 구조가 무작위가 아니기 때문입니다. 에이전트는 작업 완료를 위해 최적화합니다. 작업 완료 신호에는 다음이 포함됩니다: 사용자가 “완료”라고 말함, 테스트가 통과를 보고함, 품질 게이트가 통과시킴. 해당 신호에 도달하는 최단 경로가 실제 검증을 우회한다면, 에이전트는 그 경로를 찾을 것입니다. 반복적으로. 모델을 넘어, 과제를 넘어, 세션을 넘어.

패턴에 이름을 붙이는 것이 이를 포착하기 위한 첫 번째 단계입니다.


7가지 실패 모드

# 실패 모드 한 줄 요약 탐지 신호
1 Shortcut Spiral 더 빨리 보고하기 위해 검토/평가/조감을 건너뜀 구현 직후 몇 초 만에 완료 보고, 증거 인용 없음
2 Confidence Mirage 검증 실행 없이 확신을 진술 “확신합니다”라는 말에 테스트 출력이나 파일 경로가 동반되지 않음
3 Good-Enough Plateau 작동하지만 결함, 누락된 테스트, 불명확한 코드를 포함 일반적인 변수명, 새 테스트 없음, 품질 질문에 머뭇거림
4 Tunnel Vision 하나의 함수를 다듬으면서 인접 import를 깨뜨림 호출자 검색 증거 없이 “다른 곳에 영향 없음”
5 Phantom Verification 테스트를 실행하지 않고 통과했다고 주장 테스트 결과에 미래/조건부 시제 사용: “통과할 것입니다”, “통과해야 합니다”
6 Deferred Debt TODO/FIXME/HACK 주석에 문제를 숨김 diff에 작업 연기 주석 존재
7 Hollow Report 어떤 기준에 대한 증거도 없이 “완료”를 보고 어떤 코드베이스의 어떤 변경이든 설명할 수 있는 보고서

이 표는 빠른 참조용입니다. 아래의 대화형 탐색기는 각 모드를 전체 세부 사항과 함께 확장합니다: 해당 모드가 활성화될 때 무슨 일이 일어나는지, 이를 드러내는 탐지 신호, 실제 에이전트 출력 예시, 그리고 이를 포착하는 특정 훅 또는 게이트.


대규모 탐지

실패 모드에 이름을 붙이는 것은 사후 분석에 유용합니다. 실시간으로 탐지하려면 인프라가 필요합니다.

각 실패 모드는 결정론적 검사에 매핑됩니다. 결정론적 검사가 프롬프팅 전략보다 우월한 이유는, 모델이 지시를 일관되지 않게 따르지만, 출력이 사용자에게 도달하기 전에 실행되는 셸 스크립트는 우회할 수 없기 때문입니다.

Shortcut Spiral 탐지. 완료 이벤트에 대한 훅이 마지막 코드 편집과 완료 보고서 사이의 경과 시간을 확인합니다. 간격이 설정 가능한 임계값 미만이고 보고서에 여섯 가지 품질 기준 모두에 대한 증거가 포함되어 있지 않으면, 훅이 차단합니다. 에이전트는 모델이 무엇을 의도하든 상관없이 훅이 이를 강제하기 때문에 검토-평가-개선-조감 루프를 건너뛸 수 없습니다.

# quality-gate.sh — block reports missing evidence
INPUT=$(cat)
HEDGES=$(echo "$INPUT" | grep -ciE '\bshould (work|pass|be fine)\b|\bprobably\b|\blooks correct\b')
if [ "$HEDGES" -gt 0 ]; then
  echo '{"decision":"block","reason":"Hedging language detected. Cite test output."}'
else
  echo '{"decision":"allow"}'
fi

Confidence Mirage 탐지. grep 훅이 모든 완료 보고서에서 실행되어 회피 표현을 검색합니다: “작동할 것입니다”, “확신합니다”, “올바른 것 같습니다”, “아마 괜찮을 것입니다.” 이러한 표현이 인접한 테스트 출력이나 파일 경로 인용 없이 존재하면 차단이 트리거됩니다. 모델은 확신 주장을 증거로 대체해야 합니다.11

연구가 이 접근 방식을 뒷받침합니다. Xiong 등은 LLM이 실제 정확도와 무관하게 80-100% 범위에서 확신을 표현한다는 것을 발견했으며, GPT-4의 실패 예측은 무작위 추측을 간신히 넘는 수준(AUROC 62.7%)이었습니다.11 언어화된 확신은 정확성과 상관관계가 없습니다. 회피 탐지기는 자기 평가가 잡지 못하는 것을 잡아냅니다.

Phantom Verification 탐지. 독립적인 테스트 러너가 모든 코드 변경 후 실행됩니다. 에이전트는 테스트가 통과했다고 주장할 수 없는데, 훅이 실제 결과를 보고하기 때문입니다. 훅 출력이 실패를 보여주면, 에이전트는 완료 보고서가 수락되기 전에 이를 해결해야 합니다. 자체 보고된 테스트 상태는 절대 신뢰되지 않습니다.

이 발견은 스탠포드 안전하지 않은 코드 연구를 반영합니다: AI 지원을 받은 참가자들은 실제로 안전한 코드를 작성하지 않았음에도 자신이 안전한 코드를 작성했다고 믿을 가능성이 더 높았습니다.4 자기 검증은 검증자가 인간이든 인공지능이든 신뢰할 수 없습니다.

Deferred Debt 탐지. PostToolUse 훅이 모든 파일 쓰기 후 실행되어 diff에서 TODO, FIXME, HACK, XXX를 검색합니다. 새 코드에 작업 연기 주석이 있으면 경고가 트리거됩니다. 에이전트는 문제를 해결하거나 차단 사항으로 에스컬레이션해야 합니다.

# deferred-debt-check.sh — catch deferred work in new code
CONTENT="$1"
DEBT=$(echo "$CONTENT" | grep -ciE '\bTODO\b|\bFIXME\b|\bHACK\b|\bXXX\b')
if [ "$DEBT" -gt 0 ]; then
  echo '{"decision":"block","reason":"Deferred debt detected. Solve it now or escalate."}'
else
  echo '{"decision":"allow"}'
fi

Hollow Report 탐지. Evidence Gate는 모든 완료 보고서에서 여섯 가지 특정 증거 유형을 요구합니다: 코드베이스 패턴 명명, 더 단순한 대안 설명, 엣지 케이스 나열, 테스트 출력 붙여넣기, 인접 파일 확인, 사용자 요구 재진술. 어떤 행이든 누락된 보고서는 차단됩니다. 어떤 코드베이스의 어떤 변경이든 설명할 수 있는 보고서는 정의상 Hollow Report입니다.15


복합 문제

실패 모드는 고립되어 작동하지 않습니다. 연쇄됩니다.

가장 흔한 연쇄는 Confidence Mirage에서 시작됩니다. 에이전트가 코드를 생성하고 “이것이 모든 엣지 케이스를 처리한다고 확신합니다”라고 진술합니다. 확신이 검증을 대체하기 때문에 에이전트는 테스트 실행을 건너뜁니다. 테스트 건너뛰기는 Phantom Verification을 트리거합니다: 완료 보고서가 관찰된 결과를 보고하는 대신 “테스트가 통과할 것입니다”라고 미래 시제로 말합니다. 테스트가 실행되지 않았기 때문에 잠재적 문제가 발견되지 않습니다. 에이전트는 “모듈을 업데이트했고, 변경 사항은 하위 호환되며, 테스트가 통과할 것입니다”라는 보고서로 작업을 완료로 표시합니다. 결과는 Hollow Report입니다: 구조적으로는 완전하지만, 증거적으로는 비어 있습니다.

에이전트가 구현 중 깔끔하게 해결할 수 없는 문제를 만나면, TODO 주석을 작성하고 넘어갔습니다. Deferred Debt가 코드베이스에 남습니다. 다음 에이전트 세션이 같은 미해결 문제를 만나고, 우회하고, 부채가 복합됩니다.

이 연쇄는 몇 초 만에 일어납니다. 탐지 인프라 없이, 인간 리뷰어는 그럴듯한 완료 보고서를 보고 수락합니다. Faros AI 데이터가 하류 비용을 정량화합니다: AI 지원 풀 리퀘스트는 버그가 9% 더 많고 리뷰 시간이 91% 더 깁니다.3 CodeRabbit의 470개 풀 리퀘스트 분석에서 AI 작성 변경 사항은 PR당 1.7배 더 많은 이슈를 생성했습니다: 로직 오류 1.75배, 보안 발견 1.57배, XSS 취약점 2.74배 더 많았습니다.12

이 연쇄는 10% 생산성 벽이 지속되는 이유도 설명합니다. DX는 121,000명의 개발자를 조사한 결과, 91% 채택에도 불구하고 생산성이 대략 10%에서 정체되어 있음을 발견했습니다.7 DORA 2024는 AI 채택 25% 증가가 배포 안정성 7.2% 감소와 상관관계가 있음을 발견했습니다.6 개별 개발자는 코드를 더 빠르게 작성합니다. 조직은 재작업, 사고, 리뷰 병목을 통해 복합 실패를 흡수합니다. GitClear는 증상을 직접 측정했습니다: 코드 이탈률(작성 후 2주 이내에 다시 작성되는 코드)이 AI 이전 기준선 대비 두 배로 증가할 것으로 예상되었고, 리팩토링 관련 변경은 25%에서 10% 미만으로 감소했습니다.5

검증 없는 속도는 품질 없는 양을 만들어냅니다. 품질 없는 양은 재작업을 만들어냅니다. 재작업이 생산성 향상을 소진합니다. 벽은 유지됩니다.


HN 스레드가 맞힌 것 (그리고 틀린 것)

스레드 기여자들은 독립적으로 일곱 가지 실패 모드 중 대부분을 설명했습니다. 24.88달러 cron 작업은 Shortcut Spiral입니다: 에이전트가 검증 게이트 없이 작업 완료를 위해 최적화했습니다. 500KB 문서 출력은 Tunnel Vision입니다: 에이전트가 실제 과제(작업 수행)를 무시하면서 하위 과제(작업 설명)에 집중했습니다. 세션 간 반복되는 버그는 Deferred Debt입니다: 배포되지 않은 수정 사항이 같은 실패가 반복될 때까지 축적됩니다.

스레드가 놓친 것은 구조입니다. 개별 일화는 AI 에이전트가 예측 불가능한 방식으로 실패한다고 시사합니다. 분류 체계는 그 반대를 드러냅니다: 인센티브 구조가 일관되기 때문에 에이전트는 예측 가능한 방식으로 실패합니다. 완료 신호를 위해 최적화하는 에이전트는 아무것도 막지 않으면 검증을 단축할 것입니다. 자기 평가하는 에이전트는 자기 평가가 체계적으로 잘못 보정되어 있기 때문에 확신을 과장할 것입니다.11 13 해결 불가능한 문제를 만나는 에이전트는 “지금 해결”보다 “나중에 해결”이 현재 작업을 더 빨리 종료하기 때문에 이를 연기할 것입니다.

일화들은 수정 방법도 놓칩니다. 모든 스레드 댓글이 다른 해결책을 제안합니다: “프롬프트에 규칙을 추가했습니다”, “출력을 수동으로 확인합니다”, “접근할 수 있는 것을 제한했습니다.” 프롬프팅은 모델이 지시를 일관되지 않게 따르기 때문에 신뢰할 수 없습니다. 수동 리뷰는 AI가 인간이 리뷰하는 것보다 빠르게 코드를 생성하기 때문에 확장되지 않습니다.3 접근 제어는 하나의 실패 모드(파괴적 행동)를 다루면서 나머지 여섯 가지는 탐지하지 못합니다.

수정 방법은 인프라입니다. 모든 완료, 모든 파일 쓰기, 모든 도구 호출에서 실행되는 결정론적 훅. 확신이 아닌 증거를 요구하는 품질 게이트. 에이전트가 무엇을 주장하든 상관없이 테스트 스위트를 실행하는 독립적 검증. 도구는 존재합니다. Claude Code는 17개의 라이프사이클 이벤트를 노출하며, 각각 셸 스크립트로 훅할 수 있습니다.15 문제는 팀이 훅을 구축할 것인지 아니면 10% 벽을 수용할 것인지입니다.

Stack Overflow의 2025년 설문 조사가 구축하지 않을 때의 비용을 정량화했습니다: 개발자의 66%가 “거의 맞지만, 완전히는 아닌” AI 솔루션을 수정하는 데 시간을 씁니다. 45%는 AI 생성 코드를 디버깅하는 것이 처음부터 작성하는 것보다 더 시간이 걸린다고 답했습니다. AI 정확도에 대한 신뢰는 33%로 떨어졌고, 46%는 AI 출력을 적극적으로 불신합니다.8

실패는 미스터리가 아닙니다. 이름이 있고, 탐지 신호가 있고, 수정 방법이 있습니다. 분류 체계가 이를 구전 지식이 아닌 엔지니어링 문제로 만듭니다.


출처


  1. “Ask HN: What breaks when you run AI agents unsupervised?” Hacker News, February 2026, news.ycombinator.com. Contributors described: unsupervised cron job destroying $24.88 in 2 days, agent generating 500KB documentation instead of executing task, same bugs resurfacing across sessions. 

  2. METR, “Recent Frontier Models Are Reward Hacking,” METR Blog, June 5, 2025, metr.org. On RE-Bench tasks, 30.4% of runs (39/128) involved reward hacking. On Rust Codecontests, 42.9% involved hacking evaluation. o3 reward-hacked in 70-95% of attempts with explicit instructions not to cheat. 

  3. Neely Dunlap, “The AI Productivity Paradox Research Report,” Faros AI, July 23, 2025 (updated January 8, 2026), faros.ai. 10,000+ developers across 1,255 teams. AI-assisted PRs: 9% more bugs, 91% longer reviews, 154% larger. 

  4. Neil Perry, Megha Srivastava, Deepak Kumar, and Dan Boneh, “Do Users Write More Insecure Code with AI Assistants?” in CCS ‘23: Proceedings of the 2023 ACM SIGSAC Conference, November 2023, arxiv.org. 47 participants. AI-assisted group wrote insecure code more often in 4 of 5 tasks. Participants with AI access were more likely to believe their code was secure. 

  5. William Harding and Matthew Kloster, “Coding on Copilot: 2023 Data Suggests Downward Pressure on Code Quality,” GitClear, January 2024, gitclear.com. 153 million changed lines analyzed. Code churn projected to double in 2024 vs. 2021 pre-AI baseline. Refactoring fell from 25% to under 10%. 

  6. DORA, Accelerate State of DevOps Report 2024, Google, October 2024, dora.dev. ~3,000 professionals. Per 25% AI adoption increase: -1.5% throughput, -7.2% delivery stability. 39% reported little to no trust in AI-generated code. 

  7. Laura Tacho, “AI-Assisted Engineering: Q4 Impact Report,” DX, November 4, 2025, getdx.com. 121,000+ developers across 450+ companies. AI adoption 91%. Productivity plateaued at ~10%. AI-authored code: 26.9% of production. 

  8. Stack Overflow, 2025 Developer Survey, December 2025, survey.stackoverflow.co. 84% use or plan to use AI tools. Trust in accuracy: 33% (only 3.1% “highly trust”). 66% report “almost right, but not quite” AI output. 45% find AI debugging more time-consuming than writing code. 

  9. Anthropic Alignment Science, “From Shortcuts to Sabotage: Natural Emergent Misalignment from Reward Hacking,” Anthropic Research, November 21, 2025, anthropic.com. At the point models learn to reward hack, misalignment spikes: alignment faking 50%, sabotage of safety code 12%. Inoculation prompting reduced misalignment 75-90%. 

  10. Carson Denison, Monte MacDiarmid, Fazl Barez, David Duvenaud, et al., “Sycophancy to Subterfuge: Investigating Reward Tampering in Large Language Models,” Anthropic, June 17, 2024, arxiv.org. Models trained on sycophancy generalized to reward tampering without explicit training. 45/32,768 trials showed reward tampering. Control models: 0/100,000. 

  11. Miao Xiong, Zhiyuan Hu, Xinyang Lu, et al., “Can LLMs Express Their Uncertainty? An Empirical Evaluation of Confidence Elicitation in LLMs,” ICLR 2024, arxiv.org. LLMs express confidence in 80-100% range regardless of accuracy. GPT-4 failure prediction AUROC: 62.7% (barely above random 50%). 

  12. CodeRabbit, “State of AI vs. Human Code Generation Report,” December 17, 2025, coderabbit.ai. 470 PRs analyzed. AI-authored: 1.7x more issues, 1.75x more logic errors, 2.74x more XSS vulnerabilities. 

  13. Saurav Kadavath, Tom Conerly, Amanda Askell, et al., “Language Models (Mostly) Know What They Know,” Anthropic, arXiv:2207.05221, July 2022, arxiv.org. Models are well-calibrated on familiar tasks but struggle with P(IK) calibration on novel tasks. Self-evaluation has systematic blind spots. 

  14. DORA, Accelerate State of AI-assisted Software Development 2025, Google, September 29, 2025, dora.dev. AI amplifies existing strengths in high-performing orgs and dysfunctions in struggling ones. 

  15. Author’s analysis. Failure taxonomy derived from ~500 agent sessions over two months. Hook system described in “Anatomy of a Claw.” Quality system described in “Jiro Quality Philosophy.” Related: “The 10% Wall,” “The Fabrication Firewall.” 

관련 게시물

Anthropic Measured What Works. My Hooks Enforce It.

Anthropic analyzed 9,830 conversations. Iterative refinement doubles fluency markers. Polished outputs suppress evaluati…

13 분 소요

The 10% Wall: Why AI Productivity Plateaus and What Breaks Through

121,000 developers surveyed, 92.6% using AI tools, productivity stuck at 10%. The wall is infrastructure, not intelligen…

17 분 소요

Your Agent Writes Faster Than You Can Read

Five research groups published about the same problem this week: AI agents produce code faster than developers can under…

16 분 소요