AI 에이전트 검토 패킷이 새로운 최종 답변입니다

8분 소요

OpenAI의 Codex 출시 글은 Codex가 터미널 로그와 테스트 출력 인용을 통해 검증 가능한 증거를 제공하므로, 사용자가 작업 완료까지 거친 단계를 추적할 수 있다고 설명해요.¹ 이 문장은 제품의 변화를 정확히 짚고 있어요. 이제 최종 답변만으로는 충분하지 않아요.

검토 패킷은 에이전트 작업의 새로운 최종 답변이에요. 진지하게 쓰일 에이전트라면 주장, 추적 기록, 승인, 변경 차이, 테스트, 출처 확인, 배포 증거, 해결되지 않은 공백을 구조화된 묶음으로 남기고 끝나야 해요. 유려한 글은 작업을 요약할 수 있어요. 하지만 신뢰를 얻는 것은 패킷이에요.

요약

에이전트 작업은 이제 계획, 도구 호출, 파일 수정, 승인, 테스트, 실제 경로, 번역, 사람의 최종 확인까지 걸쳐 있어요. OpenAI의 Codex 클라우드 문서는 샌드박스로 격리된 클라우드 환경에서 돌아가는 백그라운드 작업을 설명하고, Agents SDK는 모델 생성, 도구 호출, 인계, 보호 장치, 사용자 정의 이벤트 전반의 추적을 제공해요.²³ OpenAI의 human-in-the-loop 문서는 승인 결정을 위해 실행을 일시 중지하는 방식을 다루고, Anthropic의 Claude Code 생명주기 연결 기능은 PreToolUse, PostToolUse, PermissionRequest, Stop 같은 생명주기 이벤트를 노출해요.⁴⁵

이 요소들은 모두 같은 산출물을 가리켜요. 바로 검토 패킷이에요. 패킷은 에이전트의 최종 주장을 사람이 검토하고, 거절하고, 승인하고, 다른 검토자에게 넘길 수 있는 대상으로 바꿔요.

핵심 내용

에이전트를 만드는 사람에게: - 최종 답변은 표지로 보세요. 증거는 검토 패킷이 담아야 해요. - 중요한 주장은 모두 파일, 명령 출력, 추적 이벤트, 출처, 경로 확인, 승인 결정, 또는 해결되지 않은 공백에 연결하세요.

제품 디자이너에게: - 패킷은 대화 기록 내보내기가 아니라 훑어보기 쉬운 객체로 설계하세요. 사용자의 결정 단위로 증거를 묶어야 해요. - 사람의 검토 상태를 패킷 안에 넣으세요. “기계가 확인함”과 “사람이 승인함”은 다른 상태예요.

에이전트를 도입하는 팀에게: - 공개 릴리스, 프로덕션 변경, 번역 작업, 보안에 민감한 변경, 금전적 영향을 주는 작업에는 검토 패킷을 요구하세요. - 패킷이 아직 검증되지 않은 것을 명시하지 않는다면 “완료”를 받아들이지 마세요.

AI 에이전트 검토 패킷이란 무엇인가요?

검토 패킷은 에이전트 작업을 위한 구조화된 증거 묶음이에요.

검토 패킷은 7가지 질문에 답해요.

질문	패킷 필드
사용자가 무엇을 요청했나요?	목표와 범위
에이전트가 무엇을 바꿨나요?	파일, 변경 차이, 산출물, 외부 상태
에이전트가 무엇을 실행했나요?	명령, 도구 호출, 인자, 종료 상태
사람이 무엇을 승인했나요?	승인 결정과 위험 메모
결과를 무엇으로 증명하나요?	테스트, 출처 확인, 렌더링된 경로, 텔레메트리, 스크린샷
아직 판단이 필요한 것은 무엇인가요?	검토 작업, 최종 확인 매트릭스, 해결되지 않은 주장
다음에는 무엇을 해야 하나요?	병합, 게시, 거절, 재시도, 또는 상위 검토로 올리기

패킷은 Markdown, JSON, 데이터베이스 행, pull request 템플릿, 또는 전용 UI 객체로 존재할 수 있어요. 형식보다 구조가 더 중요해요. 이 객체는 증거와 설명을 분리해야 해요.

최종 답변은 “기사를 번역하고 배포했습니다”라고 말해요. 검토 패킷은 어떤 로케일이 바뀌었는지, 어떤 품질 관문을 통과했는지, 어떤 D1 행이 존재하는지, 어떤 커밋이 배포됐는지, 어떤 CDN purge가 실행됐는지, 어떤 실제 경로가 바뀐 기사를 반환했는지, 어떤 원어민 검토가 아직 남아 있는지를 말해요. 두 번째 방식이 사람에게 판단할 표면을 제공해요.

왜 최종 답변은 더 이상 작동하지 않나요?

최종 답변이 작동하지 않게 된 이유는 에이전트가 이제 시간에 걸쳐 행동하기 때문이에요.

챗봇 답변은 답변 화면에서 판단할 수 있어요. 하지만 코딩 또는 게시 에이전트는 하나의 경로를 만들어 내요. 파일을 읽고, 출처를 고르고, 도구를 호출하고, 콘텐츠를 수정하고, 테스트를 실행하고, 번역을 작성하고, 배포하고, 캐시를 제거하고, 프로덕션을 검증해요. 마지막 문단은 그 경로를 설명할 뿐이에요. 그 경로가 실제로 일어났다는 증거는 아니에요.

OpenAI의 Codex 문서는 격리된 클라우드 환경에서 코드를 읽고, 수정하고, 실행할 수 있는 클라우드 작업을 설명하며, 여러 백그라운드 작업을 병렬로 실행하는 경우도 포함해요.² 병렬 백그라운드 작업은 실제로 일어난 일과 최종 답변이 담을 수 있는 것 사이의 간격을 키워요. 에이전트가 더 많은 일을 할수록, 대화 요약은 증거 객체로서 덜 적합해져요.

OpenAI의 safe-Codex 글도 보안 관점에서 같은 운영상의 지점을 말해요. 이 글은 샌드박스 격리, 승인, 네트워크 정책, 신원, 관리형 설정, 에이전트에 맞춘 텔레메트리를 위한 제어를 설명하고, 프롬프트, 승인 결정, 도구 실행 결과, MCP 사용, 네트워크 허용 또는 차단 이벤트 같은 항목의 로그 내보내기도 언급해요.⁶ 이것들은 패킷의 재료예요. 검토 표면 안에 있어야 해요.

최종 답변은 여전히 필요해요. 경영진 요약처럼 읽히면 돼요. 감사 추적은 검토 패킷이 맡아야 해요.

패킷에는 무엇이 들어가야 하나요?

패킷은 내부 이벤트 순서가 아니라 결정 단위로 증거를 묶어야 해요.

섹션	최소 증거
목표	사용자 요청, 인수 기준, 범위에서 제외한 항목
작업 요약	변경된 파일, 생성된 산출물, 건드린 외부 상태
추적	의미 있는 도구 호출, 명령 출력, 실패, 재시도
승인	위험한 작업, 승인 결정, 거절, 보류
검증	테스트, 출처 확인, 렌더링된 경로, 스키마 확인, 스크린샷
릴리스	커밋, 배포 상태, 캐시 제거, 실제 변경 표시
검토	사람의 최종 확인 상태, 원어민 검토 상태, 해결되지 않은 공백

이 구조는 패킷을 읽기 쉽게 유지해요. 원시 추적 기록에는 이벤트가 수백 개 들어 있을 수 있어요. 검토 패킷은 그 모든 것을 기본 흐름에 쏟아 넣으면 안 돼요. 필요한 경우 전체 추적 기록으로 연결하거나 펼칠 수 있어야 하지만, 기본 화면은 결정에 집중해야 해요.

증거 기준은 영역에 따라 달라져요.

작업 유형	패킷이 증명해야 하는 것
코드 변경	변경 차이, 테스트, 영향을 받는 호출부, 롤백 경로
공개 기사	출처, 주장과 출처의 정합성, 메타데이터, 스키마, 실제 경로
번역	로케일 캐시, 품질 관문, D1 행, 실제 경로, 원어민 검토 상태
보안 작업	위협, 완화책, 테스트, 남은 위험, 승인 기록
프로덕션 배포	커밋, 배포 상태, 캐시 최신성, 실제 변경 표시

규칙은 변하지 않아요. 사람이 작업에 서명해야 한다면, 패킷은 그 서명이 책임 있는 결정이 되도록 만드는 증거를 담아야 해요.

추적 기록과 승인은 패킷에 어떻게 연결되나요?

추적 기록과 승인은 패킷의 뼈대가 돼요.

OpenAI의 Agents SDK tracing 문서는 에이전트 실행을 둘러싼 traces와 spans를 정의하며, 여기에는 LLM 생성, 도구 호출, 인계, 보호 장치, 사용자 정의 이벤트가 포함돼요.³ 이 데이터는 패킷에 무엇이 일어났는지를 알려줘요. OpenAI의 human-in-the-loop 문서는 도구 승인을 위해 실행을 멈추고, 대기 중인 승인을 중단 항목으로 반환하고, 실행 상태를 직렬화하고, 승인 결정 뒤 실행을 재개하는 방식을 보여줘요.⁴ 이 데이터는 누가 위험한 작업을 허용했는지를 패킷에 알려줘요.

Anthropic의 Claude Code 생명주기 연결 기능도 비슷한 실행 흐름을 드러내요. 도구 실행 전, 도구 실행 후, 권한 요청 시, 그리고 Claude가 멈출 때 연결 기능을 실행할 수 있어요.⁵ 이런 이벤트가 중요한 이유는 에이전트 시스템이 행동을 검토 가능한 사실로 바꿀 수 있게 해주기 때문이에요. 패킷은 모델이 실행을 기억하는 데 의존하면 안 돼요. 런타임이 관련 이벤트를 발생하는 즉시 기록해야 해요.

이 차이는 중요해요.

약한 완료	패킷 기반 완료
“테스트가 통과했습니다.”	명령, 종료 코드, 출력 요약, 실패한 테스트가 있으면 그 목록
“출처를 확인했습니다.”	출처 URL, 상태, 주장 정합성, 차단된 URL
“배포가 성공했습니다.”	배포 id, 런타임 상태, 캐시 제거, 실제 경로 간단 점검
“번역이 완료됐습니다.”	로케일 목록, 품질 관문 결과, D1 행, 원어민 검토 상태
“제가 명령을 승인했습니다.”	승인 객체, 이유, 위험 등급, 행위자, 타임스탬프

패킷은 모호함을 제거해요. 에이전트는 여전히 간결한 요약을 쓸 수 있지만, 증거는 문장 밖에 있어야 해요.

사람의 검토 상태는 어떻게 다뤄야 하나요?

사람의 검토 상태는 형용사가 아니라 별도의 필드로 표시해야 해요.

기계 관문은 구조, 경로 상태, 스키마 존재, 출처 접근성, 여러 동등성 확인을 증명할 수 있어요. 하지만 기계 관문은 현지화된 기사를 유창한 원어민이 검토했다는 사실을 증명할 수 없어요. 패킷은 두 사실을 모두 분명하게 말해야 해요.

상태	의미
기계 통과	자동화된 관문을 통과함
사람 검토 대기	필수 사람 검토가 아직 이루어지지 않음
사람 승인	검토자, 날짜, 로케일 또는 범위, 결정이 기록됨
거절	검토자가 차단 이슈를 발견함
필요 없음	해당 범위에는 작업 흐름상 사람의 최종 확인이 필요하지 않음

같은 규칙은 번역 밖에서도 적용돼요. 보안 관문은 통과했지만 법무 검토는 아직 대기 중일 수 있어요. 테스트 모음은 통과했지만 제품 검토가 동작을 거절할 수 있어요. 배포는 성공했지만 CDN이 여전히 오래된 콘텐츠를 제공할 수 있어요. 검토 상태는 에이전트의 자신감을 꾸미는 말이 아니라, 아직 남은 결정을 설명해야 해요.

NIST의 AI Risk Management Framework는 신뢰성을 팀이 AI 시스템의 설계, 개발, 사용, 평가에 통합해야 하는 것으로 제시해요.⁷ 검토 패킷은 이 관점을 운영 가능한 형태로 바꿔요. 평가를 최종 답변의 주장으로 남기지 않고, 보이는 산출물로 만들어요.

최소 패킷은 어떤 모습인가요?

작게 시작하세요.

# 검토 패킷: <작업 항목>

## 결정
상태: 검토 준비 | 차단됨 | 승인됨 | 거절됨
소유자: <사람 또는 팀>

## 목표
- 사용자 요청:
- 인수 기준:
- 범위 제외:

## 변경 사항
- 파일:
- 산출물:
- 외부 상태:

## 증거
| 주장 | 증명 | 결과 |
|---|---|---|
| 테스트 실행 | `<command>` 출력 | 통과/실패 |
| 공개 경로 작동 | `<url>` 간단 점검 | 통과/실패 |
| 출처가 주장을 뒷받침함 | 출처 목록 | 통과/실패 |

## 승인
| 작업 | 위험 | 결정 | 메모 |
|---|---|---|---|

## 남은 공백
- <검증되지 않은 작업>

처음에는 패킷이 평범해도 좋아요. 표, 링크, 짧은 상태 필드가 증거를 숨기는 아름다운 산출물보다 더 잘 작동해요. 구조가 작동하기 시작하면 디자인은 패킷을 더 쉽게 훑어볼 수 있게 만들 수 있어요. 심각도, 그룹화, 필터, 접힌 추적 기록, 명시적인 다음 작업이 그 예예요.

중요한 제품 결정은 이거예요. 패킷은 다른 시스템이 읽을 수 있는 산출물이 돼요. pull request가 패킷에 연결될 수 있어요. 릴리스 노트가 패킷을 요약할 수 있어요. 원어민 검토자가 패킷에 서명할 수 있어요. 미래의 에이전트가 패킷을 바탕으로 다시 이어서 작업할 수 있어요.

이것은 에이전트 인터페이스를 어떻게 바꾸나요?

검토 패킷은 감독 표면과 증거 관문을 연결해요.

감독 표면은 에이전트가 작업하는 동안 무엇에 주의가 필요한지 보여줘요. 증거 관문은 마지막에 약한 완료를 막아요. 검토 패킷은 결과를 보존해요. 이 셋이 함께 하나의 순환을 만들어요.

운영자가 목표를 위임해요.
에이전트는 승인과 추적 제어 아래에서 행동해요.
시스템은 이벤트가 발생하는 즉시 증거를 기록해요.
에이전트는 작업을 요약해요.
패킷은 각 주장을 증거에 연결해요.
사람은 작업을 승인하거나, 거절하거나, 다시 돌려보내요.

이 순환은 에이전트의 글쓰기 기준도 바꿔요. 최종 답변은 자신이 증거인 척하면 안 돼요. 증거가 어디에 있는지, 무엇이 통과했는지, 무엇이 아직 열려 있는지를 말해야 해요. 작업이 공개 콘텐츠, 고객 데이터, 돈, 보안, 프로덕션, 번역을 건드린다면, 패킷은 대화보다 오래 남아야 해요.

짧은 정리

검토 패킷은 중요한 에이전트 작업에서 신뢰할 수 있는 완료 산출물로서 최종 답변을 대체해야 해요. OpenAI Codex는 이미 검증 가능한 터미널 로그, 테스트 출력, 승인, 텔레메트리, 클라우드 작업 추적 기록의 방향을 보여줘요.¹²³⁴⁶ Anthropic의 생명주기 연결 방식은 다른 에이전트 스택에서도 같은 런타임 형태가 나타난다는 것을 보여줘요.⁵ NIST는 신뢰의 틀을 제공해요. 평가는 모델 동작에만 머무르는 것이 아니라 AI 시스템의 설계, 개발, 사용, 평가 안에 있어야 해요.⁷

실천은 단순해요. 최종 답변은 짧게 유지하고, 패킷은 실제로 만들면 돼요.

FAQ

AI 에이전트 작업을 위한 검토 패킷이란 무엇인가요?

검토 패킷은 에이전트가 무엇을 요청받았는지, 무엇이 바뀌었는지, 어떤 명령과 도구가 실행됐는지, 어떤 승인이 있었는지, 어떤 확인이 통과했는지, 무엇이 아직 검증되지 않았는지를 기록하는 구조화된 증거 묶음이에요. 사람 검토자에게 글로만 된 완료 주장 대신 판단할 수 있는 객체를 제공해요.

왜 최종 답변만으로는 충분하지 않나요?

최종 답변은 작업을 요약하지만, 그 작업이 실제로 일어났다는 것을 증명하지는 못해요. 에이전트 작업에는 이제 도구 호출, 파일 수정, 테스트, 배포, 번역, 승인, 캐시 상태가 포함돼요. 이런 사실에는 연결된 증거가 필요해요. 최종 답변은 패킷을 가리킬 수 있고, 증명은 패킷이 맡아야 해요.

검토 패킷에는 무엇부터 넣어야 하나요?

목표, 변경된 파일, 명령과 테스트 증거, 출처 확인, 승인 결정, 배포 또는 경로 증거, 해결되지 않은 공백부터 시작하세요. 작업이 공개, 프로덕션, 보안, 돈, 고객에게 영향을 주는 표면을 건드린다면 전체 추적 기록, 스크린샷, 원어민 검토 최종 확인, 위험 메모를 추가하세요.

모든 에이전트 작업에 검토 패킷이 필요한가요?

아니요. 위험이 낮은 탐색 작업은 일반 요약으로 끝낼 수 있어요. 검토 패킷이 중요한 경우는 사람이 나중에 그 결과에 서명하거나, 병합하거나, 게시하거나, 배포하거나, 비용을 쓰거나, 승인하거나, 의존해야 할 때예요. 패킷은 위험에 맞춰 확장되어야 해요.

검토 패킷은 추적 기록과 어떤 관계인가요?

추적 기록은 에이전트 실행 중 일어난 일을 기록해요. 검토 패킷은 결정에 중요한 추적 이벤트를 골라 주장에 연결해요. 추적 기록은 원시 기록이에요. 패킷은 검토 객체예요.

참고 문헌

OpenAI, “Codex 소개,” OpenAI, 2025년 5월 16일. Codex가 클라우드 기반 소프트웨어 엔지니어링 에이전트라는 설명과, Codex가 터미널 로그 및 테스트 출력 인용을 통해 행동에 대한 검증 가능한 증거를 제공한다는 주장에 대한 출처. ↩↩
OpenAI, “Codex cloud,” OpenAI Developers. Codex 클라우드 작업이 샌드박스로 격리된 클라우드 컨테이너에서 코드를 읽고, 수정하고, 실행하며, 백그라운드 및 병렬 작업 실행을 포함한다는 설명의 출처. ↩↩↩
OpenAI, “Tracing,” OpenAI Agents SDK. 에이전트 실행, span, LLM 생성, 도구 호출, 인계, 보호 장치, 사용자 정의 이벤트에 대한 내장 tracing의 출처. ↩↩↩
OpenAI, “Human-in-the-loop,” OpenAI Agents SDK. 승인 중단, 대기 중인 승인, 직렬화된 RunState, 승인 결정 뒤 재개되는 실행에 대한 출처. ↩↩↩
Anthropic, “Hooks reference,” Claude Code Docs. PreToolUse, PostToolUse, PermissionRequest, Stop 같은 Claude Code 생명주기 이벤트의 출처. ↩↩↩
OpenAI, “Running Codex safely at OpenAI,” OpenAI, 2026년 5월 8일. 샌드박스 격리, 승인, 네트워크 정책, 신원, 관리형 설정, OpenTelemetry 로그 내보내기, 규정 준수 로그, 에이전트에 맞춘 텔레메트리를 둘러싼 OpenAI의 Codex 제어 설명에 대한 출처. ↩↩
National Institute of Standards and Technology, “AI Risk Management Framework,” NIST. AI 제품, 서비스, 시스템의 설계, 개발, 사용, 평가에 신뢰성 고려 사항을 통합한다는 설명의 출처. ↩↩