← 모든 글

AI 코딩 에이전트에는 더 작은 검토 단위가 필요해요

2026년 3월에 발표된 에이전트형 코딩 보조 도구 연구는 작업이 진행될수록 소프트웨어 엔지니어의 인지적 관여도가 낮아지고, 현재 도구가 성찰, 검증, 의미 파악을 제한적으로만 지원한다고 밝혔어요.1

이 발견은 AI 코딩 에이전트의 병목을 정확히 짚어요. 이제 어려운 일은 에이전트가 코드를 만들게 하는 것이 아니에요. 병합 전에 사람이 그 작업을 이해하고, 검증하고, 책임질 만큼 계속 관여하게 만드는 일이 더 어려워요.

2026년 4월의 한 소프트웨어 엔지니어링 논문도 같은 변화를 더 큰 차원에서 설명해요. 생성된 코드는 풍부해지고, 조율, 검증, 구조화된 사람-AI 협업이 엔지니어링의 핵심 업무가 된다는 관점이에요.4

요약

AI 코딩 에이전트에는 더 작은 검토 단위가 필요해요. 대규모 생성 diff는 실제 리뷰어가 감당할 수 있는 주의력 예산을 넘어서기 때문이에요. 팀은 거대한 에이전트 산출물을 의사결정에 맞는 크기의 산출물로 바꿔야 해요. 변경 경로 지도, 위험 구간, 주장 카드, 테스트 증거, 롤백 메모, 해결되지 않은 공백이 그 예예요. 에이전트가 이미 작업을 끝낸 뒤 엔지니어에게 전부 읽으라고 요구하는 인터페이스에서는 사람의 감독이 실패해요. 각 승인이 작고, 구체적이며, 증거로 뒷받침될 때 사람의 감독은 제대로 작동해요.

핵심 요점

엔지니어링 리더를 위해: - 리뷰어의 주의력을 희소한 생산 자원으로 다루세요. - 에이전트의 성공을 작업 완료 여부만이 아니라 검토 가능성으로도 측정하세요.

개발자 도구 제작자를 위해: - 검토 단위는 승인, 거절, 증거 요청, 분할, 반려 같은 결정 중심으로 설계하세요. - 중요한 곳에 인지적 강제 장치를 넣으세요. 생성된 작업을 수동적으로 스크롤하게 하지 말고, 위험한 변경에는 리뷰어의 명시적 판단을 요구하세요.

리뷰어를 위해: - 실제로 확인하지 않은 작업은 승인하지 마세요. - 전체 diff를 읽기 전에 에이전트에게 산출물을 주장, 영향받은 경로, 테스트, 위험, 롤백 메모로 줄여 달라고 요청하세요.

왜 AI 코딩 에이전트는 검토 주의력을 무너뜨릴까요?

소프트웨어 리뷰는 주의력에 의존하고, 에이전트형 작업 흐름은 전통적인 개발보다 주의력을 더 빨리 소모해요.

사람이 작성한 pull request에는 유용한 마찰이 어느 정도 있어요. 작성자는 변경을 만들면서 스스로 그 내용을 형성해요. 리뷰어가 보는 범위도 보통 사람의 타이핑 속도, 시간 압박, 사회적 비용을 반영해요. AI 코딩 에이전트는 훨씬 적은 마찰로 같은 겉모습의 산출물을 만들 수 있어요. 더 많은 파일, 더 많은 상용구 코드, 더 많은 테스트, 더 많은 설명, 더 확신에 찬 문장이 붙어요.

리뷰어는 더 큰 대상을 받지만, 사람이 그 모든 부분을 이해하고 있다는 확신은 더 적어요.

CHI 2026 워크숍 논문인 “I’m Not Reading All of That”은 에이전트형 코딩 보조 도구를 사용하는 엔지니어들을 연구했고, 작업이 진행될수록 인지적 관여도가 낮아진다는 점을 발견했어요. 저자들은 에이전트형 코딩 도구가 자율적인 작업 실행만이 아니라 추론과 의미 파악을 돕는 “사고 도구”로 작동해야 한다고 주장해요.1

이 관점은 팀이 에이전트 산출물을 평가하는 방식을 바꿔야 한다는 뜻이에요. 아무도 책임 있게 검토할 수 없는 완료된 작업은 위험을 낮춘 것이 아니에요. 위험을 diff의 읽히지 않은 부분으로 옮긴 것뿐이에요.

더 작은 검토 단위란 무엇일까요?

더 작은 검토 단위는 리뷰어가 특정 결정을 내리는 데 필요한 최소 산출물이에요.

짧은 요약과는 달라요. 요약은 위험을 숨길 수 있어요. 더 작은 검토 단위는 증거를 보존하면서 결정 범위를 좁혀요.

검토 단위 나쁜 형태 더 나은 형태
Diff 생성된 2,000줄 변경 경로 지도와 위험도순 파일
요약 “인증 정리를 구현함” 주장, 영향받은 호출자, 테스트, 공백
테스트 “모든 테스트 통과” 명령, 결과, 실패 유형, 빠진 커버리지
위험 “낮은 위험” 건드린 데이터, 외부 호출, 롤백 경로
승인 초록 버튼 하나 주장 승인, 증거 요청, 분할, 거절
후속 작업 느슨한 TODO 담당자, 날짜, 상태, 차단 여부

검토 단위는 리뷰를 여러 결정으로 나눌 때 작아져요. 리뷰어가 판단이 필요한 지점을 보기 전에 생성된 diff 전체를 읽어야 해서는 안 돼요. 인터페이스는 무엇이 바뀌었는지, 왜 바뀌었는지, 위험이 어디에 있는지, 어떤 증거가 있는지, 아직 사람의 판단이 필요한 부분이 무엇인지 답해야 해요.

리뷰어는 무엇을 먼저 봐야 할까요?

리뷰어는 영토보다 지도를 먼저 봐야 해요.

첫 화면은 5가지 질문에 답해야 해요.

  1. 어떤 파일이 바뀌었나요?
  2. 어떤 동작이 바뀌었나요?
  3. 에이전트는 어떤 주장을 하나요?
  4. 어떤 주장에 증거가 있나요?
  5. 어떤 주장에 아직 사람의 판단이 필요한가요?

그 첫 검토 단위는 이런 표처럼 보일 수 있어요.

경로 변경 유형 위험 증거 결정
app/routes/webhooks.py 인증 경계 높음 누락된 서명 테스트 추가 직접 검토
tests/test_webhooks.py 회귀 테스트 중간 패치 전 실패, 패치 후 통과 assertion 확인
docs/webhooks.md 공개 문서 낮음 소스 동작 링크됨 문안 검토

이 표가 diff를 대체하지는 않아요. 리뷰어가 어디에 먼저 주의를 써야 하는지 알려줘요.

에이전트 설명에도 같은 원칙이 적용돼요. 유용한 에이전트는 “웹훅 흐름을 바꾸고 테스트를 업데이트했습니다”라고 말하지 않아요. 유용한 에이전트는 이렇게 말해요.

  • 주장: 서명되지 않은 재시도 요청은 이제 본문 파싱 전에 실패해요.
  • 증거: test_unsigned_retry_rejected_before_json_read는 패치 전 실패하고 패치 후 통과해요.
  • 영향받은 경로: 웹훅 재시도 엔드포인트만 해당돼요.
  • 위험: 서명 예외 사례와 잘못된 페이로드예요.
  • 남은 공백: 실제 제공자 페이로드로 스테이징 재현을 하지 않았어요.

이런 형태가 사람에게 결정할 대상을 줘요.

사람의 리뷰는 왜 여전히 다를까요?

사람 리뷰어는 에이전트가 제공하지 못하는 피드백을 제공해요.

2026년 3월에 발표된 실증 연구는 300개 오픈 소스 GitHub 프로젝트에서 나온 278,790건의 코드 리뷰 대화를 분석했고, 사람 리뷰어가 결함 선별을 넘어 이해, 테스트, 지식 이전까지 포함한 피드백을 제공한다는 점을 발견했어요.2 이 연구는 또한 AI 생성 코드를 검토할 때 사람 작성 코드보다 사람 리뷰어가 11.8% 더 많은 라운드를 주고받았고, AI 에이전트 제안의 채택률이 사람 제안보다 낮았다는 점도 밝혔어요.2

도구 설계에서 가장 중요한 발견은 채택되지 않은 AI 에이전트 제안의 절반 이상이 틀렸거나 개발자의 대체 수정으로 처리되었다는 점이에요. 프로젝트가 AI 에이전트 제안을 채택했을 때, 그 제안은 사람 리뷰어의 제안보다 코드 복잡도와 코드 크기를 더 크게 증가시켰어요.2

이 증거는 수동적 신뢰와 반대 방향을 가리켜요. AI 리뷰는 탐지를 확장할 수 있어요. 하지만 사람 리뷰는 여전히 맥락, 안목, 유지보수성 판단, 지식 이전을 담당해요. 더 작은 검토 단위는 생성된 산출물 아래에 이런 사람의 강점을 묻어 버리지 말고 보호해야 해요.

에이전트 Pull Request는 어디에서 실패할까요?

에이전트형 pull request는 생성된 작업이 팀의 검증 능력을 넘어설 때 실패해요.

MSR 2026 논문은 GitHub 전반의 에이전트 작성 pull request 33,000건을 연구했어요. 문서, CI, 빌드 업데이트 작업은 병합 성공률이 가장 높았고, 성능과 버그 수정 작업은 가장 낮았어요. 병합되지 않은 pull request는 더 많은 파일을 건드리고, 더 큰 변경을 만들고, CI에 실패하는 경향이 있었어요. 정성적 거절 패턴에는 약한 리뷰어 관여, 중복 PR, 원치 않는 구현, 에이전트의 목표 불일치가 포함됐어요.3

교훈은 “에이전트는 문서만 작성해야 한다”가 아니에요. 교훈은 검토 단위의 크기와 변경 위험이 서로 영향을 준다는 점이에요. 작은 생성 문서 수정은 확인하기 쉬울 수 있어요. 반면 큰 생성 버그 수정은 리뷰어가 에이전트의 추론을 처음부터 재구성하게 만들 수 있어요.

팀은 병합 전에 검토 단위를 줄여야 해요.

실패 패턴 더 작은 검토 단위로 대응하는 방법
더 큰 변경 세트 동작과 commit 경계 기준으로 분할
더 많은 파일 변경 실행과 데이터 위험 기준으로 파일 순위화
CI 실패 실패한 작업, 원인, 수정 시도 표시
약한 리뷰어 관여 위험한 주장에 명시적 결정 요구
중복되거나 원치 않는 작업 목표, 담당자, 인수 기준 첨부
에이전트 목표 불일치 결과를 원래 사용자 결과와 비교

리뷰어가 모든 파일을 읽은 뒤에야 범위, 위험, 목표 이탈을 발견하게 해서는 안 돼요.

인터페이스는 무엇을 강제해야 할까요?

좋은 리뷰 인터페이스는 알맞은 순간에 마찰을 둬요.

모든 생성 변경을 느리게 만들 필요는 없어요. 사용자, 보안, 데이터, 비용, 아키텍처 위험을 가진 주장만 느리게 만들어야 해요.

위험 신호 인지적 강제 장치
인증 또는 권한 변경 리뷰어가 영향받은 경로와 테스트를 반드시 확인
데이터베이스 마이그레이션 리뷰어가 롤백과 데이터 호환성을 반드시 확인
공개 콘텐츠 리뷰어가 인용과 비공개 경계 검사를 반드시 확인
생성된 테스트만 있음 리뷰어가 해당 테스트가 수정 전 실패했을지 반드시 확인
큰 diff 리뷰어가 분할하거나 검토 부담을 명시적으로 수락
에이전트의 불확실성 리뷰어가 승격, 거절, 증거 요청 중 선택
롤백 경로 없음 승인 차단 유지

인지적 강제는 리뷰어를 성가시게 하자는 뜻이 아니에요. 수동적인 클릭이 거짓 확신을 만들 수 있는 지점에서 실제 결정을 요구하자는 뜻이에요.

인지적 관여에 관한 논문은 AI 보조 프로그래밍에서 더 깊은 사고를 유지하려면 더 풍부한 상호작용 방식과 인지적 강제 장치가 필요하다고 권해요.1 개발자 도구는 이 권고를 문자 그대로 받아들여야 해요. 생각을 더 쉽게 만들고 얕은 승인을 더 어렵게 만드는 방식으로 작업 상태를 드러내야 해요.

더 작은 검토 단위는 검토 패킷과 어떤 관계가 있을까요?

검토 패킷은 오래 남는 산출물이에요. 더 작은 검토 단위는 그 산출물을 사람이 다루기 위한 인터페이스예요.

패킷에는 전체 증거가 들어갈 수 있어요. 변경된 파일, 명령 출력, 테스트, 소스 확인, 릴리스 증거, 결정, 해결되지 않은 공백이 포함돼요. 검토 단위는 지금 사람에게 필요한 부분만 보여줘야 해요.

패킷 계층 검토 단위
전체 추적 기록 중요한 명령 출력
전체 diff 위험도순 파일
모든 발견 사항 결정이 필요한 주장
모든 검사 실패했거나, 빠졌거나, 위험도가 높은 검사
모든 승인 현재 리뷰어 결정
모든 공백 차단 중인 공백 우선

이 분리가 중요해요. 패킷을 PR에 그대로 쏟아붓는다고 주의력 문제가 해결되지는 않아요. 패킷은 시스템에 증거를 제공해요. 검토 단위는 사람이 그 증거를 따라갈 수 있는 경로를 제공해요.

AI 코드 리뷰에는 반대 의견이 필요해요. 하지만 리뷰어가 그 반대 의견을 볼 수 있을 때만 도움이 돼요. 에이전트 보고서 4쪽에 묻힌 소수 의견은 프로젝트를 보호하지 못해요. 결정 카드로 전달된 소수 의견이라면 보호할 수 있어요.

팀은 무엇부터 만들어야 할까요?

검토 객체 예산부터 시작하세요.

에이전트가 작성한 모든 pull request에는 다음을 요구하세요.

  1. 목표 설명 1개.
  2. 변경 경로 지도 1개.
  3. 위험 표 1개.
  4. 증거 표 1개.
  5. 해결되지 않은 공백 목록 1개.
  6. 롤백 메모 1개.
  7. 사람의 결정 기록 1개.

그런 다음 각 객체의 크기에 상한을 두세요. 에이전트가 지도, 표, 공백 목록을 읽을 만한 산출물 안에 담지 못한다면, 그 pull request는 책임 있게 검토하기에 너무 크거나 구조가 너무 나쁜 거예요.

상한이 중요한 이유는 에이전트가 산문으로도 같은 주의력 문제를 다시 만드는 방대한 산출물을 기꺼이 생성하기 때문이에요. 거대한 diff에 대한 답은 거대한 요약이 아니에요. 답은 사람의 결정 안에 들어맞는 검토 객체예요.

짧은 정리

AI 코딩 에이전트는 코드를 더 싸게 만들지만, 검토 비용은 더 비싸게 만들어요. 에이전트형 코딩 보조 도구 연구는 에이전트 보조 작업 중 인지적 관여도가 낮아지고, 현재 도구가 성찰과 검증을 충분히 지원하지 못한다는 점을 보여줘요.1 실증적 코드 리뷰 연구는 사람이 여전히 이해, 테스트 판단, 지식 이전을 더하고, AI 에이전트 제안은 채택률이 낮으며, 채택될 때 복잡도를 높일 수 있다는 점을 보여줘요.2 실패한 에이전트형 PR 연구는 크고, 목표가 어긋나고, 충분히 검토되지 않은 변경이 예측 가능한 방식으로 실패한다는 점을 보여줘요.3

더 작은 검토 단위는 실용적인 대응이에요. 에이전트가 작업을 주장, 위험, 증거, 결정, 공백으로 줄이게 하세요. 그런 다음 사람이 실제로 확인한 것만 승인하게 만드세요.

FAQ

AI 코딩 에이전트의 검토 단위란 무엇인가요?

검토 단위는 사람이 결정을 내리는 데 사용하는 에이전트 산출물의 일부예요. Pull request diff, 주장 카드, 테스트 증거 표, 위험 지도, 롤백 메모는 모두 검토 단위가 될 수 있어요. 좋은 도구는 각 단위를 책임 있게 확인할 수 있을 만큼 작게 유지해요.

왜 더 작은 검토 단위가 요약보다 나은가요?

요약은 위험을 숨길 수 있어요. 더 작은 검토 단위는 증거를 보존하면서 결정 범위를 좁혀요. 리뷰어는 작업이 끝났다고 말하는 매끄러운 문단만 보는 것이 아니라 주장, 영향받은 경로, 증거, 위험, 해결되지 않은 공백을 봐야 해요.

더 작은 검토 단위가 전체 diff를 대체하나요?

아니요. 전체 diff는 계속 사용할 수 있어요. 더 작은 검토 단위는 리뷰어가 어디를 먼저 봐야 하는지, 어떤 주장이 중요한지, 어떤 결정이 아직 열려 있는지 알려줘요.

AI 코딩 에이전트는 사람의 리뷰에 어떤 영향을 주나요?

AI 코딩 에이전트는 사람이 확인할 수 있는 속도보다 더 빠르게 더 큰 산출물을 만들 수 있어요. 에이전트형 코딩 보조 도구 연구는 작업 진행에 따라 인지적 관여도가 낮아진다는 점을 발견했고, 코드 리뷰 연구는 사람 리뷰어가 에이전트에 없는 맥락적 피드백을 여전히 제공한다는 점을 발견했어요.12

에이전트가 작성한 PR에서 무엇이 승인을 막아야 하나요?

PR에 명확한 목표가 없거나, 변경 경로 지도가 없거나, 주요 주장에 대한 증거가 없거나, 위험한 변경에 대한 롤백 경로가 없거나, 해결되지 않은 테스트 실패가 있거나, 검토되지 않은 보안 또는 데이터 경계가 있거나, 리뷰어가 실제로 확인하지 않은 생성 코드가 있다면 승인을 막아야 해요.


참고 문헌


  1. Carlos Rafael Catalan, Lheane Marie Dizon, Patricia Nicole Monderin, and Emily Kuang, “I’m Not Reading All of That: Understanding Software Engineers’ Level of Cognitive Engagement with Agentic Coding Assistants,” arXiv:2603.14225, 2026년 3월 15일 제출, 2026년 3월 18일 수정, CHI 2026 Workshop on Tools for Thought에서 발표 및 공개. 인지적 관여, 의미 파악, 성찰, 검증, 인지적 강제 주장에 대한 출처. 

  2. Suzhen Zhong, Shayan Noei, Ying Zou, and Bram Adams, “Human-AI Synergy in Agentic Code Review,” arXiv:2603.15911, 2026년 3월 16일 제출. 278,790건의 리뷰 대화 연구, 300개 프로젝트 표본, AI 생성 코드에서 11.8% 더 많은 라운드, AI 에이전트 제안의 낮은 채택률, 코드 복잡도 및 크기 발견에 대한 출처. 

  3. Ramtin Ehsani, Sakshi Pathak, Shriya Rawal, Abdullah Al Mujahid, Mia Mohammad Imran, and Preetha Chatterjee, “Where Do AI Coding Agents Fail? An Empirical Study of Failed Agentic Pull Requests in GitHub,” arXiv:2601.15195, 2026년 1월 21일 제출, MSR 2026 채택. 에이전트 작성 PR 33,000건 연구, 병합 성공 패턴, CI 및 변경 크기 관찰, 거절 패턴에 대한 출처. 

  4. Mamdouh Alenezi, “Rethinking Software Engineering for Agentic AI Systems,” arXiv:2604.10599, 2026년 4월 12일 제출. 생성된 코드가 더 풍부해질수록 소프트웨어 엔지니어링이 조율, 검증, 구조화된 사람-AI 협업을 중심으로 재편되어야 한다는 관점에 대한 출처. 

관련 게시물

AI 코드 리뷰에는 합의가 아니라 이견이 필요해요

AI 코드 리뷰에는 이견을 보존하고, 발견 사항을 검증하며, 불확실성을 사람에게 전달하고, 팀이 PR을 병합하기 전에 수정 사항을 다시 검토하는 독립 에이전트가 필요해요.

9 분 소요

Rust의 LLM 정책 초안은 올바른 선을 긋습니다

Rust의 LLM 사용 정책 초안은 학습, 검토, 실험에는 AI를 허용하면서, Rust에서 생성된 댓글, 문서, 사람의 검토를 우회하는 지름길은 금지합니다.

7 분 소요

Ralph 루프: 자율 AI 에이전트를 밤새 운영하는 방법

중지 훅, 스폰 예산, 파일 시스템 메모리를 활용한 자율 에이전트 시스템을 구축했습니다. 실패 사례와 실제로 코드를 출시하게 된 과정을 공유합니다.

8 분 소요