Anthropic이 효과적인 방법을 측정했습니다. 제 Hooks가 이를 강제합니다.
Anthropic은 2026년 1월 한 주 동안 Claude.ai에서 9,830개의 대화를 분석했습니다.1 이 분석에는 개별 메시지를 읽지 않고 대화 패턴을 분류하는 프라이버시 보호 도구인 CLIO가 사용되었습니다. 연구진은 Rick Dakan 교수와 Joseph Feller 교수가 개발한 24개 행동 기반 AI 유창성 프레임워크에서 직접 관찰 가능한 11개 행동을 추적했습니다.2
핵심 발견: 대화의 85.7%가 반복과 개선을 포함합니다. 반복적 대화는 평균 2.67개의 유창성 행동을 보이며, 이는 비반복적 대화의 1.33개에 비해 대략 두 배입니다. 반복적 대화에서 사용자는 모델의 추론에 의문을 제기할 확률이 5.6배, 누락된 맥락을 식별할 확률이 4배 더 높습니다.1
반복은 효과적인 AI 활용과 평범한 AI 활용을 구분하는 변수입니다. Anthropic이 이를 측정했습니다. 문제는 반복이 일관되게 이루어지는지, 아니면 인간이 기억할 때만 이루어지는지입니다.
요약
Anthropic의 AI 유창성 지수에 따르면 반복적 개선은 9,830개 대화 전반에 걸쳐 유창성 지표를 두 배로 높입니다. “결과물 역설”은 왜 반복이 기본적으로 일어나지 않는지를 설명합니다: 모델이 세련된 결과물을 생성하면 사용자는 더 지시적이 되지만 덜 평가적이 됩니다. 팩트체킹은 3.7%p 하락합니다. 누락된 맥락 식별은 5.2%p 하락합니다. 추론에 대한 의문 제기는 3.1%p 하락합니다. 그 인지적 메커니즘은 처리 유창성입니다: 세련된 결과물은 자동적 신뢰(Kahneman의 System 1)를 촉발하고 비판적 평가(System 2)를 억제합니다. 품질 루프는 단일 패스가 건너뛰는 반복을 강제합니다: 필수 검토, 증거 게이트, 통합 점검, 그리고 모든 기준이 증거를 인용할 때까지 반복합니다. Hooks는 Anthropic이 측정한 것을 강제합니다. 인프라가 반복을 요구하기 때문에 모델은 반복을 건너뛸 수 없습니다.
Anthropic이 측정한 것
AI 유창성 지수는 주관적 품질 평가가 아닌 관찰 가능한 행동을 추적합니다. 이 프레임워크는 AI 유창성을 “인간-AI 상호작용의 새로운 양식 내에서 효과적이고, 효율적이며, 윤리적이고, 안전하게 작업하는 능력”으로 정의합니다.2 24개 행동은 위임(Delegation), 서술(Description), 판별(Discernment), 성실(Diligence)의 네 가지 차원에 걸쳐 있습니다. 그중 11개는 대화에서 직접 관찰할 수 있습니다. 나머지 13개는 채팅 인터페이스 밖에서 발생합니다(프로덕션에서 결과물 평가, 동료와 결과 공유, 외부 소스 대비 검증 등).
관찰 가능한 11개 행동에는 반복과 개선, 추론에 대한 의문 제기, 누락된 맥락 식별, 목표 명확화, 형식 지정, 예시 제공, 팩트체킹이 포함됩니다. 연구진은 분석 모델로 Claude Sonnet을 사용하여 각 대화를 이 분류 체계에 따라 분류했습니다.
엔지니어링 인프라에 중요한 세 가지 발견이 있습니다.
발견 1: 반복이 가장 강력한 신호입니다. 대화의 85.7%가 최소한 일정 수준의 반복을 포함합니다. 반복이 있는 대화는 유창성 행동이 대략 두 배로 나타납니다(2.67 대 1.33). 반복하는 사용자는 추론에 의문을 제기할 확률이 5.6배, 결함을 식별할 확률이 4배 더 높습니다.1 반복은 있으면 좋은 것이 아닙니다. 효과적인 AI 활용과 가장 강하게 연관된 행동입니다.
발견 2: 세련된 결과물은 평가를 억제합니다. 대화의 12.3%가 결과물 생성(코드, 문서, 인터랙티브 도구)을 포함했습니다. 모델이 결과물을 생성하면 사용자는 더 지시적이 됩니다: 목표 명확화는 14.7%p 증가하고, 형식 지정은 14.5%p 증가하며, 예시 제공은 13.4%p 증가했습니다. 그러나 평가는 하락했습니다: 누락된 맥락 식별은 5.2%p 하락하고, 팩트체킹은 3.7%p 하락하며, 추론에 대한 의문 제기는 3.1%p 하락했습니다.1 사용자는 더 잘 지시했지만 덜 평가했습니다.
발견 3: 협업을 설정하는 사용자는 소수입니다. 대화의 30%만이 “내 가정이 틀리면 반박해 주세요” 또는 “내가 놓치고 있는 것을 알려 주세요”와 같은 명시적 협업 지침을 포함했습니다.1 기본 모드는 대화가 아닌 위임입니다. 대부분의 사용자는 모델을 협력자가 아닌 실행자로 취급합니다.
결과물 역설
Anthropic은 패턴에 이름을 붙였지만 메커니즘에는 이름을 붙이지 않았습니다. 인지과학에는 이에 대한 정확한 용어가 있습니다: 처리 유창성입니다.
처리 유창성은 정신적 과제와 관련된 용이함 또는 어려움의 주관적 경험입니다. Alter와 Oppenheimer는 의미적으로 프라이밍되거나, 시각적으로 명확하거나, 처리하기 쉬운 자극이 실제 정확성과 관계없이 더 사실이고, 더 신뢰할 수 있고, 더 믿을 만한 것으로 판단된다는 것을 기록했습니다.3 Oppenheimer는 유창성 휴리스틱이 자동으로 작동한다는 것을 보여주었습니다: 사람들은 의식적 인식 없이 처리 용이성을 품질의 대리 지표로 사용합니다.4
Kahneman의 System 1/System 2 프레임워크가 그 이유를 설명합니다. System 1은 정보를 자동으로 처리하며 인지적 용이함을 진실과 연결합니다. System 2는 의도적 분석에 관여하지만 노력과 동기가 필요합니다. 세련된 AI 결과물은 처리 유창성이 높습니다. 코드가 컴파일됩니다. 서식이 깔끔합니다. 설명이 일관됩니다. System 2가 그것이 정확한지 평가할 기회를 갖기 전에 System 1이 “좋다”고 판단합니다.5
Kahneman은 구체적인 실패 모드를 식별했습니다: “실제로는 증거의 질과 양에 기반해야 할 확신을, 좋은 이야기를 만들었다는 이유로 판단에 대해 갖는 것은 실수입니다.”5 “좋은 이야기”를 “깔끔한 코드”로 바꾸면 결과물 역설은 AI 생성 결과물에 적용된 WYSIATI(What You See Is All There Is, 당신이 보는 것이 전부)입니다.
West 등은 모델 측면에서 보완적 발견을 공식화했습니다. ICLR 2024에서 발표된 두 편의 논문에서, 그들은 생성 모델이 평가 능력을 초과하는 생산 능력을 획득한다는 것을 증명했습니다.6 모델은 몇 초 만에 전문가 수준의 코드를 생성하면서 인간 전문가라면 절대 하지 않을 실수를 합니다. 생성과 평가는 다르게 스케일링되는 별개의 능력이기 때문에 모델은 자체 결과물을 신뢰성 있게 평가할 수 없습니다.
이 역설은 복합적으로 작용합니다: 모델은 스스로 제대로 평가할 수 없는 세련된 결과물을 생성하고, 그 세련됨을 마주한 인간은 자신의 평가를 줄입니다. 어느 쪽도 검증하지 않습니다. 양쪽 모두 정확성을 가정합니다. Jeff Gothelf는 이것의 조직적 버전을 포착했습니다: “생산성 향상의 일부는 AI가 생산한 결과물의 품질 외관에서 비롯됩니다. 좋아 보이고, 세련되어 보이고, 완성되어 보입니다.”7
결과물 역설은 사용자 교육 문제가 아닙니다. 교육은 도움이 되지만, Anthropic의 데이터에 따르면 반복하는 사용자(대화의 85.7%)조차 결과물이 있을 때 평가를 줄입니다. 팩트체킹과 누락 맥락 식별의 하락은 초보 사용자뿐만 아니라 전체 모집단에서 발생합니다. 메커니즘은 정보적이 아니라 인지적입니다. 편향에 대해 안다고 해서 그것이 제거되지는 않습니다.
인프라가 제거합니다.
발견을 인프라에 매핑하기
Anthropic의 각 발견은 특정 인프라 구성요소에 매핑됩니다. 아래 표는 측정된 행동에서 강제 메커니즘까지의 연결 고리를 보여줍니다.
| 유창성 행동 | Anthropic의 발견 | 인프라 해결책 | 구현 |
|---|---|---|---|
| 반복과 개선 | 존재 시 유창성 지표 2배 | 필수 품질 루프 | 7단계 루프: 구현, 검토, 평가, 개선, 확대 점검, 반복, 보고. 단계를 건너뛰면 Hook이 완료를 차단합니다. |
| 추론에 대한 의문 제기 | 반복적 대화에서 5.6배 더 높음 | 증거 게이트 | 구체적 증거를 요구하는 6가지 기준. “확신합니다”는 증거가 아닙니다. 회피 표현이 차단을 촉발합니다. |
| 누락된 맥락 식별 | 4배 더 높음; 결과물 시 -5.2%p | 확대 점검 단계 | 완료 전 필수 호출자 검색, 임포트 검증, 통합 테스트. |
| 팩트체킹 | 결과물 시 -3.7%p | 독립적 테스트 실행기 | 모든 코드 변경 후 테스트 스위트 실행. 에이전트가 테스트 결과를 자가 보고할 수 없습니다. |
| 협업 지침 | 대화의 30%만 해당 | 자동 주입 컨텍스트 | 모든 프롬프트에 9개의 Hook이 실행되어 날짜, 브랜치, 컨벤션, 가정에 반박하라는 명시적 지침을 주입합니다. |
Hooks는 Anthropic이 측정한 것을 강제합니다. 인프라가 반복을 요구하기 때문에 모델은 반복을 기억할 필요가 없습니다. Hooks가 매 프롬프트마다 협업 지침을 주입하기 때문에 사용자는 이를 포함하는 것을 기억할 필요가 없습니다. 독립적 테스트 실행기가 코드가 아무리 세련되어 보여도 결과를 보고하기 때문에 팩트체킹은 인간의 처리 유창성에 의존하지 않습니다.
단일 패스가 실패하는 이유
Jiro Quality Philosophy에 기술된 품질 루프는 7단계로 실행됩니다: 구현, 검토, 평가, 개선, 확대 점검, 반복, 보고. 단일 패스 에이전트는 1단계와 7단계만 실행하고 중간의 5단계를 건너뜁니다. Anthropic의 데이터는 건너뛴 각 단계의 비용을 정량화합니다.
검토를 건너뛰면 에이전트가 자신의 결과물을 다시 읽지 않는다는 의미입니다. 검토 단계는 에이전트가 다시 보면 알아차렸을 유형의 오류를 포착합니다: 오타, 불명확한 명명, 경계값 오류. 검토가 없으면 이러한 오류는 존재하지 않는 것처럼 완료 보고서에 도달합니다.
평가를 건너뛰면 증거 게이트가 실행되지 않는다는 의미입니다. 6가지 기준(코드베이스 패턴 준수, 가장 단순한 해결책, 엣지 케이스 처리, 테스트 통과, 회귀 없음, 실제 문제 해결)이 증거를 받지 못합니다. 완료 보고서에는 증명이 아닌 주장이 담깁니다. 반복이 유창성 지표를 두 배로 높인다는 Anthropic의 발견이 여기에 직접 매핑됩니다: 증거 게이트는 증거가 없는 보고서를 차단함으로써 반복을 강제합니다.
개선을 건너뛰면 발견된 이슈가 수정되지 않고 연기된다는 의미입니다. TODO 주석이 해결책을 대체합니다. 지연된 부채가 축적됩니다. GitClear는 하류 효과를 측정했습니다: AI 지원 코드베이스에서 리팩토링 관련 변경이 전체 변경의 25%에서 10% 미만으로 떨어졌고, 코드 중복은 8.3%에서 12.3%로 증가했습니다.8
확대 점검을 건너뛰면 에이전트가 통합을 확인하지 않는다는 의미입니다. 함수는 작동합니다. 호출자는 깨집니다. 터널 비전이 감지되지 않습니다. 결과물이 있을 때 “누락된 맥락 식별”이 5.2%p 하락한다는 Anthropic의 발견은 인간 측에서 같은 실패를 설명합니다: 세련된 결과물이 맥락 결함을 보이지 않게 만듭니다.
반복을 건너뛰면 증거 게이트를 한 번 통과하는 것으로 충분하다고 간주한다는 의미입니다. 첫 번째 통과에서 이슈를 포착합니다. 그 이슈를 수정하면서 새로운 이슈가 발생할 수 있습니다. 두 번째 통과가 없으면 수정의 품질이 검증되지 않습니다. 품질 루프는 같은 통과에서 6가지 기준 모두가 증거를 인용할 때까지 반복합니다. 단일 패스는 그 수준에 절대 도달하지 못합니다.
하네스 데이터에 따르면: 평균 품질 루프는 비사소한 변경당 3.2개의 이슈를 포착합니다. 그중 1.1개는 검토(2단계)에서, 0.8개는 평가(3단계)에서, 1.3개는 확대 점검(5단계)에서 포착됩니다. 단일 패스 에이전트는 3.2개 이슈를 모두 출시했을 것입니다. 검토-평가-확대 점검 시퀀스가 완료 보고서 전에 이를 제거합니다.
회피 표현 문제
Anthropic은 반복적 사용자가 모델의 추론에 의문을 제기할 확률이 5.6배 더 높다는 것을 발견했습니다.1 회피 표현은 역신호입니다: 의문을 받지 않은 상태에서 모델이 확신을 표현하는 것입니다.
회피 표현에는 “작동할 것입니다”, “확신합니다”, “올바른 것 같습니다”, “아마 괜찮을 것입니다”, “~라고 생각합니다”가 포함됩니다. 각 표현은 관찰을 예측으로 대체합니다. “테스트가 통과할 것입니다”는 에이전트가 결과를 예측했다는 의미입니다. “14개 테스트 통과, 0개 실패”는 에이전트가 결과를 관찰했다는 의미입니다. 이 구분은 Phantom Verification과 실제 검증의 차이입니다.
Xiong 등은 LLM이 실제 정확도와 관계없이 80-100% 범위에서 확신을 표현한다는 것을 발견했으며, GPT-4의 실패 예측은 무작위 추측에 거의 근접합니다(AUROC 62.7%).9 Kadavath 등은 Anthropic에서 모델이 익숙한 과제에서는 잘 보정되지만 새로운 과제에서는 어려움을 겪는다는 것을 발견했으며, “대부분”이라는 수식어가 체계적인 사각지대를 감추고 있었습니다.10 언어화된 확신은 정확성과 상관관계가 없습니다. 모델이 “확신합니다”라고 말하는 것은 코드가 작동하는지에 대해 아무런 정보도 제공하지 않습니다.
회피 표현 탐지기가 이 패턴을 포착합니다. grep Hook이 모든 완료 보고서에서 실행되어 설정 가능한 회피 패턴을 검색합니다. 인접한 테스트 출력이나 파일 경로 인용 없이 회피 표현이 존재하면 차단이 촉발됩니다. 모델은 회피 표현을 증거로 대체해야 합니다. 이 Hook은 Anthropic이 반복적 대화에서 발견한 의문 제기 행동을 강제하지만, 85.7%에서 확률적으로 작동하는 것이 아니라 모든 대화에서 결정론적으로 작동합니다.
#!/bin/bash
# hedge-detector.sh — block hedging without evidence
INPUT=$(cat)
HEDGES=$(echo "$INPUT" | grep -ciE '\bshould (work|pass|be fine)\b|\bprobably\b|\blooks correct\b|\bI.m confident\b')
if [ "$HEDGES" -gt 0 ]; then
echo '{"decision":"block","reason":"Hedging language detected. Replace with test output or file paths."}'
else
echo '{"decision":"allow"}'
fi
오늘 바로 구현할 수 있는 것
Anthropic의 데이터는 가장 가치 높은 유창성 행동을 포착하는 세 가지 최소 개입을 제시합니다.
협업 Hook 하나. 모든 프롬프트에 가정에 반박하고, 누락된 맥락을 식별하고, 자신의 추론에 의문을 제기하라는 지침을 주입합니다. Anthropic은 사용자의 30%만이 이를 수동으로 수행한다는 것을 발견했습니다. Hook은 100%의 프롬프트에서 이를 수행합니다. bash 5줄이면 됩니다.
#!/bin/bash
# inject-collaboration.sh — force evaluative behavior
echo "INSTRUCTIONS: Push back if assumptions are wrong."
echo "Identify missing context before proceeding."
echo "Question your own reasoning at each step."
증거 게이트 하나. 증거를 인용하는 대신 회피 표현을 사용하는 완료 보고서를 차단합니다. 이 게이트는 반복이 유창성 지표를 두 배로 높인다는 Anthropic의 발견을 반복을 필수로 만듦으로써 운용화합니다. 모델은 각 품질 기준에 대한 증거 없이 “완료”를 보고할 수 없습니다.
독립적 검증기 하나. 모든 코드 변경 후 테스트 스위트를 실행하고 결과를 대화에 주입합니다. 검증기는 결과물 역설을 직접 해결합니다: 결과물이 아무리 세련되어 보여도 테스트 결과는 실제로 작동하는 것을 보고합니다. 팩트체킹은 Hook이 이를 자동화하기 때문에 인간의 처리 유창성에 의존하지 않습니다.
세 가지 Hook을 합치면 Anthropic이 효과적인 AI 활용과 가장 강하게 연관된 것으로 발견한 세 가지 행동을 강제합니다: 반복, 추론에 대한 의문 제기, 누락된 맥락 식별. 각 Hook은 결정론적입니다. 각각 모든 상호작용에서 실행됩니다. 사용자가 활성화를 기억하는 것에 의존하지 않습니다.
Anthropic이 효과적인 방법을 측정했습니다. Hooks가 이를 선택 사항이 아니게 만듭니다.
출처
-
Kyle Swanson, Daniel Bent, Zack Ludwig, Rick Dakan, and Joseph Feller, “Anthropic Education Report: The AI Fluency Index,” Anthropic Research, February 23, 2026, anthropic.com. 9,830 anonymized conversations on Claude.ai, January 20-26, 2026. Iterative conversations: 2.67 fluency behaviors (vs 1.33 non-iterative). 5.6x more likely to question reasoning. Artifact paradox: -5.2pp missing context identification, -3.7pp fact-checking. ↩↩↩↩↩↩
-
Rick Dakan and Joseph Feller, “The AI Fluency Framework,” developed in collaboration with Anthropic, supported by Ireland’s Higher Education Authority, 2025, aifluencyframework.org. 24 behaviors across 4 dimensions: Delegation, Description, Discernment, Diligence. Definition: “The ability to work effectively, efficiently, ethically, and safely within emerging modalities of Human-AI interaction.” ↩↩
-
Adam L. Alter and Daniel M. Oppenheimer, “Uniting the Tribes of Fluency to Form a Metacognitive Nation,” Personality and Social Psychology Review, 13(3), 219-235, 2009, doi.org. Processing fluency causes stimuli to be judged as more true, reliable, and trustworthy regardless of actual accuracy. ↩
-
Daniel M. Oppenheimer, “The Secret Life of Fluency,” Trends in Cognitive Sciences, 12(6), 237-241, 2008, sciencedirect.com. The fluency heuristic operates automatically: processing ease serves as a proxy for quality without conscious awareness. ↩
-
Daniel Kahneman, Thinking, Fast and Slow (New York: Farrar, Straus and Giroux, 2011). System 1 (automatic) associates cognitive ease with truth. System 2 (deliberate) requires effort. WYSIATI: conclusions drawn from available information without accounting for what is missing. Quote: “It’s a mistake for people to have confidence in a judgment because it made for a good story when in fact confidence should be based on the quality and quantity of evidence.” ↩↩
-
Peter West et al., “The Generative AI Paradox: What It Can Create, It May Not Understand,” ICLR 2024, arxiv.org; Peter West et al., “The Generative AI Paradox on Evaluation: What It Can Solve, It May Not Evaluate,” arXiv:2402.06204, 2024, arxiv.org. Generative capabilities exceed evaluation capabilities. Models produce expert-level output they cannot reliably self-evaluate. ↩
-
Jeff Gothelf, “Confusing Artifact Quality with Certainty,” 2024, jeffgothelf.com. “Part of productivity gains comes from the appearance of quality in AI-produced output. It looks good, it looks polished, it looks done.” ↩
-
William Harding and Matthew Kloster, “Coding on Copilot: 2023 Data Suggests Downward Pressure on Code Quality,” GitClear, January 2024, gitclear.com. 153 million changed lines. Refactoring fell from 25% to under 10%. Code duplication rose from 8.3% to 12.3%. ↩
-
Miao Xiong, Zhiyuan Hu, Xinyang Lu, et al., “Can LLMs Express Their Uncertainty? An Empirical Evaluation of Confidence Elicitation in LLMs,” ICLR 2024, arxiv.org. LLMs express confidence in 80-100% range regardless of accuracy. GPT-4 failure prediction AUROC: 62.7%. ↩
-
Saurav Kadavath, Tom Conerly, Amanda Askell, et al., “Language Models (Mostly) Know What They Know,” Anthropic, arXiv:2207.05221, July 2022, arxiv.org. Well-calibrated on familiar tasks, systematic blind spots on novel tasks. ↩
-
CodeRabbit, “State of AI vs. Human Code Generation Report,” December 17, 2025, coderabbit.ai. 470 PRs analyzed. AI-authored: 1.7x more issues, 1.75x more logic errors. Polished output masks higher defect rates. ↩
-
Laura Tacho, “AI-Assisted Engineering: Q4 Impact Report,” DX, November 4, 2025, getdx.com. 121,000+ developers. Productivity plateaued at ~10% despite 91% adoption. ↩
-
Author’s analysis. Quality loop described in “Jiro Quality Philosophy.” Hook system described in “Anatomy of a Claw.” Failure modes described in “What Actually Breaks When You Run AI Agents Unsupervised.” 10% wall explained in “The 10% Wall.” ↩