Anthropic가 효과적인 방법을 측정했습니다. 제 훅이 이를 강제합니다.
Anthropic는 2026년 1월 한 주 동안 Claude.ai에서 9,830건의 대화를 분석했습니다.1 이 분석에는 개별 메시지를 읽지 않고 대화 패턴을 분류하는 프라이버시 보호 도구인 CLIO가 사용되었습니다. 연구진은 Rick Dakan 교수와 Joseph Feller 교수가 개발한 24가지 행동 기반 AI 유창성 프레임워크에서 관찰 가능한 11가지 행동을 추적했습니다.2
핵심 발견: 대화의 85.7%가 반복과 개선을 포함합니다. 반복적 대화는 평균 2.67개의 유창성 행동을 보였으며, 이는 비반복적 대화의 1.33개에 비해 대략 2배입니다. 반복적 대화의 사용자는 모델의 추론에 의문을 제기할 가능성이 5.6배 높고, 누락된 맥락을 식별할 가능성이 4배 높았습니다.1
반복은 효과적인 AI 사용과 평범한 AI 사용을 구분하는 변수입니다. Anthropic가 이를 측정했습니다. DX의 135,000명 개발자 설문조사에 따르면, 91%의 도입률에도 불구하고 AI는 개발자에게 주당 약 4시간을 절약해 주었으며, 이 수치는 도입률 증가에도 불구하고 최근 분기에 정체되어, 반복 인프라 없는 도입은 한계에 부딪힌다는 것을 시사합니다.12 문제는 반복이 일관되게 이루어지는지, 아니면 사람이 기억할 때만 이루어지는지입니다.
요약
Anthropic의 AI 유창성 지수는 9,830건의 대화에서 반복적 개선이 유창성 지표를 2배로 높인다는 것을 발견했습니다. 아티팩트 역설은 왜 반복이 기본적으로 실패하는지를 설명합니다: 세련된 출력이 평가를 억제합니다(팩트 체크 3.7pp 하락, 누락된 맥락 식별 5.2pp 하락, 추론 의문 제기 3.1pp 하락). 그 메커니즘은 처리 유창성입니다: 시스템 1이 깔끔한 코드를 시스템 2가 실제로 작동하는지 평가하기 전에 올바른 것으로 표시합니다. 품질 루프는 단일 패스가 건너뛰는 반복을 강제합니다: 필수 검토, 증거 게이트, 통합 확인, 그리고 모든 기준이 증거를 인용할 때까지 반복. 훅은 Anthropic가 측정한 것을 강제합니다.
Anthropic가 측정한 것
AI 유창성 지수는 주관적 품질 평가가 아닌 관찰 가능한 행동을 추적합니다. 이 프레임워크는 AI 유창성을 “인간-AI 상호작용의 새로운 양식에서 효과적으로, 효율적으로, 윤리적으로, 안전하게 작업하는 능력”으로 정의합니다.2 24가지 행동은 위임(Delegation), 설명(Description), 분별(Discernment), 성실(Diligence)의 네 가지 차원에 걸쳐 있습니다. 11가지는 대화에서 직접 관찰 가능합니다. 나머지 13가지는 채팅 인터페이스 외부에서 발생합니다(프로덕션에서 출력 평가, 동료와 결과 공유, 외부 소스 대조 검증).
관찰 가능한 11가지 행동에는 반복과 개선, 추론 의문 제기, 누락된 맥락 식별, 목표 명확화, 형식 지정, 예제 제공, 팩트 체크가 포함됩니다. 연구진은 분석 모델로 Claude Sonnet을 사용하여 각 대화를 이 분류 체계에 따라 분류했습니다.
엔지니어링 인프라에 중요한 세 가지 발견이 있습니다.
발견 1: 반복이 가장 강력한 신호입니다. 대화의 85.7%가 최소한 어느 정도의 반복을 포함합니다. 반복이 있는 대화는 대략 2배의 유창성 행동을 보입니다(2.67 대 1.33). 반복하는 사용자는 추론에 의문을 제기할 가능성이 5.6배, 격차를 식별할 가능성이 4배 높습니다.1 반복은 있으면 좋은 것이 아닙니다. 효과적인 AI 사용과 가장 강하게 연관된 행동입니다.
발견 2: 세련된 출력이 평가를 억제합니다. 대화의 12.3%가 아티팩트 생성(코드, 문서, 대화형 도구)을 포함했습니다. 모델이 아티팩트를 생성할 때, 사용자는 더 지시적이 됩니다: 목표 명확화가 14.7 퍼센트포인트 증가하고, 형식 지정이 14.5 포인트, 예제 제공이 13.4 포인트 증가했습니다. 하지만 평가는 하락했습니다: 누락된 맥락 식별이 5.2 포인트, 팩트 체크가 3.7 포인트, 추론 의문 제기가 3.1 포인트 하락했습니다.1 사용자는 더 잘 지시했지만 덜 평가했습니다.
발견 3: 소수의 사용자만 협업을 설정합니다. 대화의 30%만이 “내 가정이 틀리면 반박해 주세요” 또는 “내가 놓치고 있는 것을 알려주세요”와 같은 명시적인 협업 지시를 포함했습니다.1 기본 모드는 대화가 아닌 위임입니다. 대부분의 사용자는 모델을 협력자가 아닌 실행자로 취급합니다.
아티팩트 역설
Anthropic는 이 패턴에 이름을 붙였지만 메커니즘에는 이름을 붙이지 않았습니다. 인지과학에는 이에 대한 정확한 용어가 있습니다: 처리 유창성(processing fluency)입니다.
처리 유창성은 정신적 작업과 관련된 주관적인 용이함 또는 어려움의 경험입니다. Alter와 Oppenheimer는 의미적으로 프라이밍되었거나, 시각적으로 명확하거나, 처리하기 쉬운 자극이 실제 정확도와 관계없이 더 사실적이고, 더 신뢰할 수 있고, 더 믿을 만하다고 판단된다는 것을 기록했습니다.3 Oppenheimer는 유창성 휴리스틱이 자동으로 작동한다는 것을 보여주었습니다: 사람들은 의식적 인식 없이 처리 용이성을 품질의 대리 지표로 사용합니다.4
Kahneman의 시스템 1/시스템 2 프레임워크가 그 이유를 설명합니다. 시스템 1은 정보를 자동으로 처리하며, 인지적 용이함을 진실과 연결합니다. 시스템 2는 의도적 분석에 관여하지만 노력과 동기가 필요합니다. 세련된 AI 출력은 처리 유창성이 높습니다. 코드가 컴파일됩니다. 포맷이 깔끔합니다. 설명이 일관됩니다. 시스템 1이 시스템 2가 정확한지 평가할 기회를 갖기 전에 이를 “좋다”고 표시합니다.5
Kahneman은 구체적인 실패 모드를 식별했습니다: “사람들이 판단에 대해 확신을 갖는 것은 그것이 그럴듯한 이야기를 만들었기 때문인데, 실제로 확신은 증거의 질과 양에 기반해야 합니다.”5 “그럴듯한 이야기”를 “깔끔한 코드”로 바꾸면, 아티팩트 역설은 AI 생성 출력에 적용된 WYSIATI(What You See Is All There Is, 보이는 것이 전부)입니다.
West 등은 모델 측면에서 보완적인 발견을 공식화했습니다. ICLR 2024 논문과 동반 프리프린트에서, 그들은 생성 모델이 평가 능력을 초과하는 생산 능력을 습득한다는 것을 증명했습니다.6 모델은 몇 초 만에 전문가 수준의 코드를 생성하면서도 인간 전문가라면 절대 하지 않을 오류를 만듭니다. 생성과 평가가 다르게 확장되는 별개의 능력이기 때문에, 모델은 자신의 출력을 신뢰성 있게 평가할 수 없습니다.
역설은 복합적으로 작용합니다: 모델은 제대로 평가할 수 없는 세련된 출력을 생성하고, 그 세련됨을 접한 인간은 자신의 평가를 줄입니다. 어느 쪽도 검증하지 않습니다. 둘 다 정확하다고 가정합니다. CodeRabbit의 470개 풀 리퀘스트 분석에 따르면, AI가 작성한 코드는 리뷰에서 세련되게 보임에도 불구하고 1.7배 더 많은 이슈와 1.75배 더 많은 로직 오류를 포함했습니다.11 Jeff Gothelf는 조직적 버전을 포착했습니다: “생산성 향상의 일부는 AI가 생성한 출력의 품질 외관에서 비롯됩니다. 좋아 보이고, 세련되어 보이고, 완성되어 보입니다.”7
아티팩트 역설은 사용자 교육 문제가 아닙니다. 교육은 도움이 되지만, Anthropic의 데이터는 반복하는 사용자(대화의 85.7%)조차 아티팩트가 있을 때 덜 평가한다는 것을 보여줍니다. 팩트 체크와 누락된 맥락 식별의 하락은 초보 사용자뿐만 아니라 전체 모집단에서 발생합니다. 메커니즘은 정보적이 아니라 인지적입니다. 편향을 안다고 해서 그것이 제거되지는 않습니다.
인프라가 이를 제거합니다.
발견 사항을 인프라에 매핑하기
Anthropic의 각 발견은 특정 인프라 구성 요소에 매핑됩니다. 아래 표는 측정된 행동에서 강제 메커니즘까지의 연결 고리를 보여줍니다.
| 유창성 행동 | Anthropic의 발견 | 인프라 해결책 | 구현 |
|---|---|---|---|
| 반복과 개선 | 존재 시 유창성 지표 2배 | 필수 품질 루프 | 7단계 루프: 구현, 검토, 평가, 개선, 전체 조망, 반복, 보고. 훅이 단계가 건너뛰어지면 완료를 차단합니다. |
| 추론 의문 제기 | 반복적 대화에서 5.6배 더 높음 | 증거 게이트 | 구체적 증거를 요구하는 6가지 기준. “확신합니다”는 증거가 아닙니다. 회피적 표현이 차단을 유발합니다. |
| 누락된 맥락 식별 | 4배 더 높음; 아티팩트 시 -5.2pp | 전체 조망 단계 | 완료 전 필수 호출자 검색, 임포트 검증, 통합 테스트. |
| 팩트 체크 | 아티팩트 시 -3.7pp | 독립적 테스트 러너 | 모든 코드 변경 후 테스트 스위트 실행. 에이전트가 테스트 결과를 자체 보고할 수 없습니다. |
| 협업 지시 | 대화의 30%만 | 자동 주입 컨텍스트 | 9개의 훅이 모든 프롬프트에 실행되어, 날짜, 브랜치, 컨벤션, 그리고 가정에 반박하라는 명시적 지시를 주입합니다. |
훅은 Anthropic가 측정한 것을 강제합니다. 인프라가 반복을 요구하기 때문에 모델이 반복해야 한다는 것을 기억할 필요가 없습니다. 훅이 모든 프롬프트에 협업 지시를 주입하기 때문에 사용자가 이를 포함해야 한다는 것을 기억할 필요가 없습니다. 팩트 체크는 사용자의 처리 유창성에 의존하지 않습니다. 코드가 아무리 세련되게 보여도 독립적 테스트 러너가 결과를 보고하기 때문입니다.
단일 패스가 실패하는 이유
Jiro 품질 철학에서 설명한 품질 루프는 7단계로 실행됩니다: 구현, 검토, 평가, 개선, 전체 조망, 반복, 보고. 단일 패스 에이전트는 1단계와 7단계만 실행하고, 그 사이 5단계를 건너뜁니다. Anthropic의 데이터는 건너뛴 각 단계의 비용을 정량화합니다.
검토를 건너뛰면 에이전트가 자신의 출력을 다시 읽지 않습니다. 검토 단계는 에이전트가 다시 보면 발견할 수 있는 오류 유형을 잡아냅니다: 오탈자, 불명확한 네이밍, 하나 차이 오류. 검토 없이는 이러한 오류가 존재하지 않는 것처럼 완료 보고에 도달합니다.
평가를 건너뛰면 증거 게이트가 실행되지 않습니다. 6가지 기준(코드베이스 패턴 준수, 가장 단순한 솔루션, 엣지 케이스 처리, 테스트 통과, 회귀 없음, 실제 문제 해결)이 증거를 받지 못합니다. 완료 보고에는 증거가 아닌 주장이 담깁니다. Anthropic의 반복이 유창성 지표를 2배로 높인다는 발견이 여기에 직접 매핑됩니다: 증거 게이트가 증거가 없는 보고를 차단하여 반복을 강제합니다.
개선을 건너뛰면 발견된 이슈가 수정되지 않고 지연됩니다. TODO 주석이 솔루션을 대체합니다. 지연된 부채가 누적됩니다. GitClear는 하위 효과를 측정했습니다: 리팩토링 관련 변경이 AI 지원 코드베이스에서 전체 변경의 25%에서 10% 미만으로 하락했고, 코드 중복은 8.3%에서 12.3%로 증가했습니다.8
전체 조망을 건너뛰면 에이전트가 통합을 확인하지 않습니다. 함수는 작동합니다. 호출자가 깨집니다. 터널 비전이 감지되지 않습니다. Anthropic의 아티팩트가 있을 때 “누락된 맥락 식별”이 5.2 퍼센트포인트 하락한다는 발견은 인간 측에서 같은 실패를 설명합니다: 세련된 출력이 맥락의 격차를 보이지 않게 만듭니다.
반복을 건너뛰면 증거 게이트를 한 번 통과한 것이 충분한 것으로 취급됩니다. 첫 번째 통과에서 이슈를 잡습니다. 그 이슈를 수정하면 새로운 이슈가 발생할 수 있습니다. 두 번째 통과 없이는 수정의 품질이 검증되지 않습니다. 품질 루프는 같은 통과에서 6가지 기준 모두가 증거를 인용할 때까지 반복합니다. 단일 패스는 그 기준에 도달하지 않습니다.
500회 이상의 세션에서 수집한 품질 루프 데이터(각각 훅 텔레메트리와 구조화된 메타데이터로 기록)에 따르면:13 평균 품질 루프는 비사소한 변경당 3.2개의 이슈를 잡아냅니다. 그중 1.1개는 검토(2단계)에서, 0.8개는 평가(3단계)에서, 1.3개는 전체 조망(5단계)에서 잡힙니다. 단일 패스 에이전트는 3.2개의 이슈를 모두 출하합니다. 검토-평가-전체 조망 시퀀스가 완료 보고 전에 이를 제거합니다.
회피적 표현 문제
Anthropic는 반복적 사용자가 모델의 추론에 의문을 제기할 가능성이 5.6배 높다는 것을 발견했습니다.1 회피적 표현은 반대 신호입니다: 질문을 받지 않으면서 확신을 표현하는 모델입니다.
회피적 표현에는 “작동할 것입니다”, “확신합니다”, “올바르게 보입니다”, “아마 괜찮을 것입니다”, “~라고 생각합니다”가 포함됩니다. 각 표현은 관찰을 예측으로 대체합니다. “테스트가 통과해야 합니다”는 에이전트가 결과를 예측하는 것입니다. “14개 테스트 통과, 0개 실패”는 에이전트가 결과를 관찰한 것입니다. 이 차이가 허상 검증과 실제 검증의 차이입니다.
Xiong 등은 LLM이 실제 정확도와 관계없이 80-100% 범위에서 확신을 표현하며, 모델 전반의 실패 예측 AUROC가 0.5-0.6 범위로 무작위 추측과 거의 차이가 없다는 것을 발견했습니다.9 Anthropic의 Kadavath 등은 모델이 익숙한 작업에서는 잘 보정되지만 새로운 작업에서는 어려움을 겪으며, “대부분”이라는 한정어가 체계적인 사각지대를 감추고 있다는 것을 발견했습니다.10 언어화된 확신은 정확성과 상관관계가 없습니다. 모델이 “확신합니다”라고 말하는 것은 코드가 작동하는지에 대해 아무런 정보를 제공하지 않습니다.
회피 표현 감지기가 이 패턴을 잡아냅니다. grep 훅이 모든 완료 보고에서 실행되어 설정 가능한 회피 패턴을 검색합니다. 인접한 테스트 출력이나 파일 경로 인용 없이 회피적 표현이 존재하면 차단이 유발됩니다. 모델은 회피 표현을 증거로 교체해야 합니다. 이 훅은 Anthropic가 반복적 대화에서 발견한 질문 행동을 강제하지만, 85.7%에서 확률적으로 작동하는 것이 아니라 모든 대화에서 결정론적으로 작동합니다.
#!/bin/bash
# hedge-detector.sh — block hedging without evidence
INPUT=$(cat)
HEDGES=$(echo "$INPUT" | grep -ciE '\bshould (work|pass|be fine)\b|\bprobably\b|\blooks correct\b|\bI.m confident\b')
if [ "$HEDGES" -gt 0 ]; then
echo '{"decision":"block","reason":"Hedging language detected. Replace with test output or file paths."}'
else
echo '{"decision":"allow"}'
fi
오늘 바로 구현할 수 있는 것
Anthropic의 데이터는 가장 높은 가치의 유창성 행동을 포착하는 세 가지 최소 개입을 가리킵니다.
하나의 협업 훅. 모든 프롬프트에 모델이 가정에 반박하고, 누락된 맥락을 식별하고, 자신의 추론에 의문을 제기하라는 지시를 주입합니다. Anthropic는 사용자의 30%만이 이를 수동으로 한다는 것을 발견했습니다. 훅은 프롬프트의 100%에서 이를 수행합니다. bash 5줄입니다.
#!/bin/bash
# inject-collaboration.sh — force evaluative behavior
echo "INSTRUCTIONS: Push back if assumptions are wrong."
echo "Identify missing context before proceeding."
echo "Question your own reasoning at each step."
하나의 증거 게이트. 증거를 인용하는 대신 회피적 표현을 사용하는 완료 보고를 차단합니다. 이 게이트는 Anthropic의 반복이 유창성 지표를 2배로 높인다는 발견을 반복을 필수로 만들어 운용화합니다. 모델은 각 품질 기준에 대한 증거 없이 “완료”를 보고할 수 없습니다.
하나의 독립적 검증기. 모든 코드 변경 후 테스트 스위트를 실행하고 결과를 대화에 주입합니다. 이 검증기는 아티팩트 역설에 직접 대응합니다: 출력이 아무리 세련되게 보여도, 테스트 결과가 실제로 작동하는 것을 보고합니다. 팩트 체크는 훅이 이를 자동화하기 때문에 인간의 처리 유창성에 의존하지 않습니다.
세 가지 훅은 함께 Anthropic가 효과적인 AI 사용과 가장 강하게 연관된 것으로 발견한 세 가지 행동을 강제합니다: 반복, 추론 의문 제기, 누락된 맥락 식별. 각 훅은 결정론적입니다. 각각은 모든 상호작용에서 실행됩니다. 어느 것도 사용자가 활성화하는 것을 기억하는 데 의존하지 않습니다.
Anthropic가 효과적인 방법을 측정했습니다. 훅이 이를 선택 사항이 아니게 만듭니다.
핵심 요점
개별 개발자에게. 모든 프롬프트에 “가정이 틀리면 반박해 주세요”와 “누락된 맥락을 식별해 주세요”를 주입하는 하나의 협업 훅을 추가하세요. Anthropic는 사용자의 30%만이 수동으로 협업 지시를 설정한다는 것을 발견했습니다.1 훅이 모든 상호작용의 100%에서 평가적 행동을 자동화합니다.
팀 리더에게. 신호는 도입이 아니라 반복입니다. Anthropic는 반복적 대화에서 비반복적 대화 대비 2배의 유창성 지표를 측정했습니다.1 첫 번째 패스 출력에 보상을 주기보다 반복을 강제하는 인프라(증거 게이트, 필수 검토 단계)를 구축하세요. DX의 데이터가 이를 확인합니다: 91% 도입에도 불구하고 생산성 향상은 최근 분기에 정체되었습니다.12
플랫폼 엔지니어에게. 독립적 테스트 러너로 아티팩트 역설에 대응하세요. 세련된 AI 출력은 처리 유창성을 통해 자동적 신뢰를 유발하며, 아티팩트가 있을 때 팩트 체크를 3.7 퍼센트포인트 감소시킵니다.1 모든 코드 변경 후 테스트 스위트를 실행하는 독립적 검증기는 코드가 어떻게 보이는지와 관계없이 실제로 작동하는 것을 보고함으로써 처리 유창성을 완전히 우회합니다.
출처
-
Kyle Swanson, Daniel Bent, Zack Ludwig, Rick Dakan, and Joseph Feller, “Anthropic Education Report: The AI Fluency Index,” Anthropic Research, February 23, 2026, anthropic.com. 9,830 anonymized conversations on Claude.ai, January 20-26, 2026. Iterative conversations: 2.67 fluency behaviors (vs 1.33 non-iterative). 5.6x more likely to question reasoning. Artifact paradox: -5.2pp missing context identification, -3.7pp fact-checking. ↩↩↩↩↩↩↩↩↩
-
Rick Dakan and Joseph Feller, “The AI Fluency Framework,” developed in collaboration with Anthropic, supported by Ireland’s Higher Education Authority, 2025, aifluencyframework.org. 24 behaviors across 4 dimensions: Delegation, Description, Discernment, Diligence. Definition: “The ability to work effectively, efficiently, ethically, and safely within emerging modalities of Human-AI interaction.” ↩↩
-
Adam L. Alter and Daniel M. Oppenheimer, “Uniting the Tribes of Fluency to Form a Metacognitive Nation,” Personality and Social Psychology Review, 13(3), 219-235, 2009, doi.org. Processing fluency causes stimuli to be judged as more true, reliable, and trustworthy regardless of actual accuracy. ↩
-
Daniel M. Oppenheimer, “The Secret Life of Fluency,” Trends in Cognitive Sciences, 12(6), 237-241, 2008, sciencedirect.com. The fluency heuristic operates automatically: processing ease serves as a proxy for quality without conscious awareness. ↩
-
Daniel Kahneman, Thinking, Fast and Slow (New York: Farrar, Straus and Giroux, 2011). System 1 (automatic) associates cognitive ease with truth. System 2 (deliberate) requires effort. WYSIATI: conclusions drawn from available information without accounting for what is missing. Quote: “It’s a mistake for people to have confidence in a judgment because it made for a good story when in fact confidence should be based on the quality and quantity of evidence.” ↩↩
-
Peter West et al., “The Generative AI Paradox: What It Can Create, It May Not Understand,” ICLR 2024, arxiv.org; Peter West et al., “The Generative AI Paradox on Evaluation: What It Can Solve, It May Not Evaluate,” arXiv:2402.06204, 2024, arxiv.org. Generative capabilities exceed evaluation capabilities. Models produce expert-level output they cannot reliably self-evaluate. ↩
-
Jeff Gothelf, “Confusing Artifact Quality with Certainty,” 2026, jeffgothelf.com. “Part of productivity gains comes from the appearance of quality in AI-produced output. It looks good, it looks polished, it looks done.” ↩
-
William Harding and Matthew Kloster, “Coding on Copilot: 2023 Data Suggests Downward Pressure on Code Quality,” GitClear, January 2024, gitclear.com. 153 million changed lines. Refactoring fell from 25% to under 10%. Code duplication rose from 8.3% to 12.3%. ↩
-
Miao Xiong, Zhiyuan Hu, Xinyang Lu, et al., “Can LLMs Express Their Uncertainty? An Empirical Evaluation of Confidence Elicitation in LLMs,” ICLR 2024, arxiv.org. LLMs express confidence in 80-100% range regardless of accuracy. Failure prediction AUROC across models ranges 0.5-0.6, barely above random. ↩
-
Saurav Kadavath, Tom Conerly, Amanda Askell, et al., “Language Models (Mostly) Know What They Know,” Anthropic, arXiv:2207.05221, July 2022, arxiv.org. Well-calibrated on familiar tasks, systematic blind spots on novel tasks. ↩
-
CodeRabbit, “State of AI vs. Human Code Generation Report,” December 17, 2025, coderabbit.ai. 470 PRs analyzed. AI-authored: 1.7x more issues, 1.75x more logic errors. Polished output masks higher defect rates. ↩
-
Laura Tacho, “AI-Assisted Engineering: Q4 Impact Report,” DX, November 4, 2025, getdx.com. 135,000+ developers across 435 companies. Average savings of about four hours per week despite 91% adoption. ↩↩
-
Author’s analysis. Quality loop described in “Jiro Quality Philosophy.” Hook system described in “Anatomy of a Claw.” Failure modes described in “What Actually Breaks When You Run AI Agents Unsupervised.” 10% wall explained in “The 10% Wall.” ↩