에이전트에는 감독 화면이 필요합니다

9분 소요

OpenAI는 이제 Codex 앱을 여러 에이전트를 관리하고, 작업을 병렬로 실행하며, 소프트웨어 수명 주기 전반에서 조율된 팀을 감독하는 지휘 센터로 설명합니다.¹ 이 제품 방향은 인터페이스의 전환을 확인해 줍니다. 어려운 문제는 이제 “에이전트가 행동할 수 있는가?”에서 “사람이 그 행동을 규모 있게 감독할 수 있는가?”로 옮겨 갔습니다.

에이전트에는 감독 화면이 필요합니다. 사람이 상태를 보고, 위험을 검토하고, 민감한 도구를 승인하고, 추적 기록을 살피고, 실패에서 복구하고, 증거를 바탕으로 결과를 승인할 수 있는 장소가 필요합니다. 더 나은 채팅은 의도 표현을 돕습니다. 감독 화면은 작업을 통제합니다.

요약

채팅은 의도를 전달하는 데 여전히 유용합니다. 하지만 자율 작업의 유일한 화면으로는 부족합니다. 에이전트 실행에는 도구 호출, 권한, 추적 기록, 메모리, 실패한 분기, 완료 주장이 들어 있기 때문입니다. OpenAI의 Codex 클라우드 문서는 샌드박스 환경에서 실행되는 백그라운드 작업, 실시간 진행 상황 모니터링, 터미널 로그 인용, 테스트 출력 증거를 설명합니다.² OpenAI Agents SDK는 도구 호출, 인계, 보호 장치, 사용자 지정 이벤트에 대한 사람 참여 승인과 내장 추적을 제공합니다.³⁴ Anthropic의 Claude Code 수명 주기 연결 지점은 PreToolUse, PostToolUse, PermissionRequest, Stop 같은 실행 지점을 노출합니다.⁵

제품 관점에서 얻을 교훈은 분명합니다. 감독은 마지막에 뜨는 모달 하나가 아닙니다. 작업이 진행되는 동안 에이전트 옆에 놓이는 여러 화면의 묶음입니다.

핵심 내용

에이전트 제품 팀에게: - 채팅을 더 다듬는 기능을 하나 더 넣기 전에 감독 대기열을 만드세요. 이 대기열은 멈춘 실행, 위험한 행동, 오래된 증거, 실패한 검사, 검토 준비가 된 산출물을 보여줘야 합니다. - 승인, 추적 기록, 복구를 핵심 UX로 다루세요. 사용자가 대화 기록에서 도구 상태를 다시 맞춰 보게 만들어서는 안 됩니다.

디자인 엔지니어에게: - 모든 에이전트 행동에 개입 수준을 부여하세요. 조용히 지나갈 행동, 요약할 행동, 중단하고 알려야 할 행동, 차단해야 할 행동을 구분해야 합니다. 읽기 전용 작업이 운영 환경 변경처럼 보여서는 안 됩니다. - 메시지만 설계하지 말고 검토 객체를 설계하세요. 검토 객체에는 도구 페이로드, 위험 사유, diff, 증거, 다음 행동이 들어갑니다.

코딩 에이전트를 도입하는 팀에게: - 운영자가 다음 질문에 답할 수 있는지 측정하세요. 무엇이 실행 중인지, 무엇이 대기 중인지, 무엇이 바뀌었는지, 무엇이 실패했는지, 무엇에 승인이 필요한지, 무엇이 아직 검증되지 않았는지 답할 수 있어야 합니다. - 위임에는 채팅을 쓰세요. 책임에는 감독 화면을 쓰세요.

감독 화면이란 무엇인가요?

감독 화면은 책임 있는 에이전트 작업을 위한 사용자 인터페이스입니다.

모든 토큰을 보여주려는 화면이 아닙니다. 에이전트가 계속 진행해도 되는지를 결정하는 부분을 보여줍니다.

화면	사용자의 질문
실행 대기열	어떤 에이전트에 주의가 필요한가요?
상태 패널	각 실행은 어느 단계에 있나요?
승인 대기열	어떤 도구 호출에 사람의 결정이 필요한가요?
추적 타임라인	어떤 일이 어떤 순서로 일어났나요?
증거 패널	결과를 무엇이 증명하나요?
복구 제어	어떻게 일시 중지, 재개, 재시도, 분기, 롤백할 수 있나요?
검토 패킷	무엇을 승인하거나, 거절하거나, 되돌려 보낼 수 있나요?

채팅과의 차이는 임의 접근입니다. 채팅은 “스크롤을 읽으라”고 말합니다. 감독 화면은 “위험한 부분을 살핀 뒤 결정하라”고 말합니다.

한 사람이 여러 에이전트를 실행할 때 이 차이는 중요해집니다. 에이전트 하나는 한동안 대화형으로 유지할 수 있습니다. 오래 실행되는 에이전트가 5개가 되면 그것은 운영이 됩니다. 인터페이스는 우선순위를 정하고, 요약하고, 주의를 보내야 합니다.

왜 채팅은 작업 화면으로 실패하나요?

채팅은 움직이는 작업에 맞지 않는 형태이기 때문에 실패합니다.

에이전트 작업은 이벤트를 만들어 냅니다. 계획, 검색, 파일 읽기, 파일 쓰기, 셸 명령, 브라우저 동작, API 호출, 테스트 실행, 거절된 경로, 실패한 재시도, 최종 증거가 모두 이벤트입니다. 대화 기록에 이런 이벤트를 담을 수는 있지만, 대화 기록은 위험, 단계, 책임별로 이를 정리할 수 없습니다.

OpenAI의 Codex 앱 발표는 이 전환을 직접 언급합니다. 개발자는 이제 작업을 위임하고, 작업을 병렬로 실행하며, 프로젝트 전반에서 에이전트를 감독합니다. 기존 IDE와 터미널 화면은 이 방식에 맞지 않습니다.¹ 이 표현이 중요한 이유는 감독에는 프롬프트 작성과 다른 레이아웃이 필요하기 때문입니다. 운영자에게 필요한 것은 스크롤이 아니라 보드입니다.

Microsoft의 2019년 인간-AI 상호작용 가이드라인은 여전히 기본 설계 틀을 제공합니다. AI 시스템은 상태를 전달하고, 수정을 지원하며, 상호작용 시간 전반에서 실패를 처리해야 합니다.⁶ 에이전트는 이 오래된 가이드라인을 운영 문제로 바꿉니다. 이제 상태는 “어떤 도구 호출이 보류 중인가?”를 뜻합니다. 수정은 “이 실행을 거절하고 재개한다”를 뜻합니다. 실패는 “실패한 명령, 바뀐 가정, 수정 경로를 보여준다”를 뜻합니다.

감독을 마찰로 보는 것은 실수입니다. 나쁜 감독은 마찰을 더합니다. 좋은 감독은 판단이 필요한 자리에 결정을 놓기 때문에 인지 부담을 줄입니다.

실행 대기열은 무엇을 보여줘야 하나요?

실행 대기열은 활동이 아니라 주의를 보여줘야 합니다.

활동 피드는 사용자에게 일어난 모든 일을 알려줍니다. 감독 대기열은 무엇에 판단이 필요한지 알려줍니다. 대기열은 대부분의 이벤트를 몇 가지 상태로 압축할 수 있습니다.

실행 상태	운영자에게 필요한 것
계획 중	목표, 범위, 예상 도구, 수락 기준
실행 중	현재 도구, 대상, 예상 부작용
대기 중	승인, 자격 증명, 누락된 입력, 외부 차단 요인
검증 중	테스트 명령, 출처 확인, 렌더링된 경로, 검토 기준
복구 중	실패한 검사, 바뀐 가설, 다음 재시도
검토 준비	산출물, diff, 증거, 해결되지 않은 빈틈
차단됨	사유, 담당자, 재시작 옵션

OpenAI의 Codex 클라우드 문서는 각자의 클라우드 환경 안에서 병렬을 포함해 백그라운드로 실행될 수 있는 작업을 설명합니다.² 병렬 백그라운드 작업은 주의 모델을 바꿉니다. 사용자가 각 스레드를 계속 확인하게 해서는 안 됩니다. 시스템이 멈춘 작업, 위험한 작업, 검토 준비가 된 작업을 한곳으로 보내야 합니다.

대기열은 거짓 긴급성을 피해야 합니다. 초안 브랜치의 lint 검사 실패와 운영 배포 불일치는 같은 시각적 무게를 받아서는 안 됩니다. 인터페이스는 되돌릴 수 없는 행동, 공개 릴리스, 보안에 민감한 작업, 에이전트가 책임 있게 계속 진행하기에 충분한 맥락을 갖지 못한 결정에만 중단 알림을 남겨야 합니다.

승인은 어떻게 작동해야 하나요?

승인은 모달 방해의 연속이 아니라 검토 객체 대기열처럼 작동해야 합니다.

OpenAI Agents SDK의 사람 참여 흐름은 사람이 민감한 도구 호출을 승인하거나 거절할 때까지 실행을 일시 중지합니다. 문서는 보류 중인 승인을 interruptions로 설명하며, 결정 이후 직렬화하고 재개하기 위해 RunState를 사용한다고 설명합니다.³ 같은 페이지는 승인이 현재 최상위 에이전트뿐 아니라 중첩된 에이전트 도구와 MCP 도구 전반에 적용된다고도 설명합니다.³

Anthropic의 Claude Code 수명 주기 연결 지점 문서는 같은 설계 형태를 다른 각도에서 보여줍니다. PreToolUse는 도구 호출 전에 실행되어 호출을 차단할 수 있습니다. PermissionRequest는 권한 대화 상자가 나타날 때 발생합니다. PostToolUse와 PostToolUseFailure는 성공하거나 실패한 도구 뒤에 발생하고, Stop은 Claude가 응답을 마치면 발생합니다.⁵

이 기본 요소들은 올바른 화면을 가리킵니다.

승인 필드	UI에 있어야 하는 이유
도구 이름	기능의 종류를 식별합니다
인수	에이전트가 하려는 일을 보여줍니다
대상	파일, 데이터베이스, 호스트, 경로, 계정, 브랜치를 명시합니다
위험 등급	시각적, 절차적 무게를 정합니다
에이전트의 사유	해당 호출이 계획에 포함되는 이유를 설명합니다
예상 부작용	읽기, 쓰기, 네트워크, 배포, 지출, 삭제를 구분합니다
결정	한 번 승인, 항상 승인, 거절, 보류, 다시 작성

올바른 승인 화면은 낮은 위험의 읽기 작업은 조용히 통과시키고, 중간 위험의 결정은 묶어서 처리하며, 높은 위험의 변경은 중단 후 승인을 요구합니다. 사용자가 문단을 읽는 도중에 셸 명령을 승인하게 해서는 안 됩니다. 사용자는 책임을 유지할 수 있을 만큼 충분한 맥락을 갖춘 유형화된 작업을 승인해야 합니다.

추적 화면은 무엇을 증명해야 하나요?

추적 화면은 순서, 원인, 결과를 증명해야 합니다.

OpenAI Agents SDK 추적 문서는 추적이 LLM 생성, 도구 호출, 인계, 보호 장치, 사용자 지정 이벤트 전반에서 실행을 기록한 뒤 개발과 운영 환경에서 디버깅, 시각화, 모니터링을 지원한다고 설명합니다.⁴ 이 설명은 추적이 개발자 계측만이 아니라 제품의 기본 요소임을 보여줍니다.

감독 추적은 5가지 질문에 답해야 합니다.

질문	필요한 추적 세부 정보
에이전트는 무엇을 보았나요?	파일, 출처, 프롬프트, 가져온 맥락
에이전트는 무엇을 했나요?	도구 호출, 인수, 출력, 종료 상태
무엇이 바뀌었나요?	diff, 생성된 산출물, 외부 상태
왜 방향을 바꿨나요?	실패한 검사, 거부된 권한, 새로운 증거
완료를 무엇이 증명하나요?	명령, 출처 링크, 실제 경로, 검토 상태

추적에는 비공개 추론이 필요하지 않습니다. 필요한 것은 운영 증거입니다. 사용자가 릴리스를 평가하기 위해 숨겨진 사고 과정을 볼 필요는 없습니다. 사용자에게 필요한 것은 명령 출력, 경로 상태, 캐시 상태, D1 행, 번역 기준, 출처 확인, 남아 있는 원어민 검토 빈틈입니다.

이 구분은 신뢰와 감각을 모두 보호합니다. 내부를 너무 많이 보여주면 인터페이스는 소음이 됩니다. 너무 적게 보여주면 제품은 보여주기식 연출이 됩니다.

복구는 흐름에 어떻게 들어가야 하나요?

복구는 실패한 이벤트 옆에 있어야 합니다.

에이전트 시스템은 정상적인 작업 중에도 계속 실패합니다. 설치 명령이 시간 초과되거나, 포매터가 관련 없는 파일을 바꾸거나, 브라우저 스모크 테스트가 오래된 캐시를 찾거나, 번역 기준이 로케일을 거절하거나, 출처 링크가 스크립트에 403을 반환할 수 있습니다. 좋은 감독 화면은 이런 순간을 예외가 아니라 예상된 상태로 다룹니다.

복구 제어는 구체적으로 유지되어야 합니다.

제어	책임 있는 사용
일시 중지	상태를 보존하면서 새로운 부작용을 멈춥니다
재개	승인이나 외부 수정 이후 계속 진행합니다
재시도	바뀐 입력으로 실패한 단계를 반복합니다
분기	첫 번째 경로를 덮어쓰지 않고 대안을 탐색합니다
되돌리기	되돌릴 수 있는 로컬 변경을 취소합니다
에스컬레이션	사람이나 다른 에이전트에게 검토를 요청합니다
빈틈을 남기고 종료	해결되지 않은 작업을 명시한 경우에만 완료합니다

OpenAI의 Codex 앱 발표는 사용자가 다른 경로를 탐색하고 에이전트가 계속 작업하는 동안 변경 사항을 로컬로 체크아웃할 수 있도록 에이전트가 격리된 코드 사본에서 작업한다고 설명합니다.¹ 이 격리는 복구에 도움이 됩니다. 하지만 인터페이스는 여전히 어떤 경로가 선택되었는지, 어떤 경로가 실패했는지, 어떤 작업이 아직 병합하기에 안전하지 않은지 보여줘야 합니다.

제품은 사용자가 원시 로그에서 복구를 다시 구성하게 만들어서는 안 됩니다. 실패한 단계는 이미 자신의 명령, 작업 디렉터리, 출력, 대상을 알고 있습니다. 화면은 그 이벤트 위에 책임 있는 다음 행동을 놓아야 합니다.

무엇이 감독 화면을 제 역할을 하게 만드나요?

감독 화면은 책임을 줄이지 않으면서 일을 줄일 때 제 역할을 합니다.

쉬운 버전은 패널을 더 추가합니다. 좋은 버전은 의심을 줄입니다. 사용자는 중요한 질문에 더 빨리 답할 수 있어야 합니다.

어떤 실행에 내가 필요한가요?
어떤 행동이 해를 끼칠 수 있나요?
어떤 결과에 증거가 있나요?
어떤 결과는 글뿐인가요?
어떤 브랜치를 남겨야 하나요?
어떤 빈틈이 아직 해결되지 않았나요?

NIST의 AI Risk Management Framework는 신뢰성을 AI 제품과 시스템의 설계, 개발, 사용, 평가에 포함해야 하는 것으로 설명합니다.⁷ 감독 화면은 바로 그 교차점에 있습니다. 설계가 운영 위험을 떠안게 합니다. 사용이 증거를 만들게 합니다. 평가가 사용자의 승인 전에 보이게 합니다.

MCP도 같은 책임을 넓힙니다. Model Context Protocol은 AI 애플리케이션을 외부 데이터 소스, 도구, 작업 흐름에 연결해 에이전트가 정보에 접근하고 작업을 수행할 수 있게 합니다.⁸ 연결된 도구가 많아질수록 행동 표면은 커집니다. 더 큰 행동 표면에는 더 많은 믿음이 아니라 더 나은 감독이 필요합니다.

설계 기준은 단순해야 합니다. 에이전트 제품은 자율적인 움직임을 극대화해서는 안 됩니다. 책임 있는 진전을 극대화해야 합니다.

어떻게 만들기 시작해야 하나요?

가장 작지만 유용한 감독 화면부터 시작하세요.

실행 목록: 활성 에이전트마다 한 줄씩 표시하고, 단계, 경과 시간, 차단 요인, 다음 결정을 함께 보여줍니다.
승인 대기열: 민감한 도구 호출마다 하나의 객체를 만들고, 인수, 대상, 위험, 승인/거절/보류 제어를 포함합니다.
추적 테이블: 의미 있는 이벤트마다 한 줄씩 표시하고, 읽기, 쓰기, 셸, 브라우저, 출처, 테스트, 배포, 검토별로 필터링할 수 있게 합니다.
증거 패널: 최종 결과에 대해 주장과 증거를 연결하는 표를 만듭니다.
복구 메뉴: 실패한 이벤트에서 일시 중지, 재개, 재시도, 분기, 빈틈을 남기고 종료를 실행할 수 있게 합니다.

첫 버전은 지루해 보여도 괜찮습니다. 위험을 숨기는 우아한 대화 기록보다 표, 필터, 배지, 펼칠 수 있는 행이 낫습니다. 감각의 문제는 정보 구조가 정직해진 뒤에 옵니다. 소음을 줄이고, 경고 색을 아껴 쓰고, 낮은 위험 이벤트를 묶고, 높은 위험 페이로드를 드러내며, 최종 승인을 증거와 연결하세요.

에이전트형 설계는 제어 화면 설계입니다. 에이전트 인터페이스는 운영 계층입니다. HTML은 Markdown이 잃어버리는 공간 정보를 보존할 수 있습니다. 감독 화면은 이 관점들을 결합합니다. 자율 작업을 살펴볼 수 있고, 공간적으로 정리되며, 책임을 물을 수 있는 운영으로 바꿉니다.

짧은 정리

에이전트에 더 필요한 것은 더 나은 대화 기록이 아니라 감독 화면입니다. 진지한 에이전트 인터페이스에는 실행 대기열, 승인 대기열, 추적 타임라인, 증거 패널, 복구 제어가 필요합니다. OpenAI, Anthropic, Microsoft, NIST, MCP 문서는 모두 같은 제품 형태를 가리킵니다. 자율 시스템에는 보이는 상태, 도구 통제, 검토 가능한 추적 기록, 적절한 개입 수준의 사람 결정이 필요합니다.¹³⁴⁵⁶⁷⁸

채팅은 위임 통로로 남아도 됩니다. 감독은 작업 화면이 되어야 합니다.

FAQ

에이전트 감독 화면이란 무엇인가요?

에이전트 감독 화면은 자율적인 에이전트 작업을 모니터링하고 제어하기 위한 UI입니다. 실행 상태, 보류 중인 승인, 도구 추적 기록, 증거, 실패, 복구 제어를 보여줍니다. 채팅은 의도를 모읍니다. 감독 화면은 운영자가 에이전트가 다음에 무엇을 해도 되는지, 결과를 승인할 만한지 결정하도록 돕습니다.

AI 에이전트에 채팅만으로는 왜 부족한가요?

채팅은 순차적이고 뒤에 덧붙이는 방식입니다. 에이전트 작업에는 상태, 위험, 승인, 추적 기록, diff, 테스트 출력, 해결되지 않은 빈틈에 대한 임의 접근이 필요합니다. 대화 기록은 이런 이벤트를 기록할 수는 있지만, 위험에 따라 우선순위를 정하거나 병렬 에이전트 전반에서 사람의 주의를 보낼 수는 없습니다.

팀은 무엇을 먼저 만들어야 하나요?

팀은 먼저 실행 대기열과 승인 대기열을 만들어야 합니다. 이 두 화면은 멈춘 작업과 민감한 행동을 즉시 드러냅니다. 다음으로 추적 테이블을 추가하세요. 증거, 복구, 최종 검토가 모두 이벤트 기록에 의존하기 때문입니다.

감독 화면은 관찰 가능성과 어떻게 다른가요?

관찰 가능성은 만드는 사람이 시스템을 디버깅하도록 돕습니다. 감독은 운영자가 작업이 진행되는 동안 작업을 관리하도록 돕습니다. 둘은 데이터를 공유하지만 서로 다른 사용자를 위해 존재합니다. 운영 환경 추적 기록은 개발자의 디버깅 화면에도, 사람의 승인 화면에도 쓰일 수 있습니다.

모든 에이전트에 사람 승인이 필요한가요?

아니요. 모든 에이전트에는 조정된 감독이 필요합니다. 낮은 위험의 읽기 작업은 조용히 실행될 수 있습니다. 중간 위험의 변경은 검토를 위해 묶을 수 있습니다. 높은 위험의 행동은 승인을 위해 멈춰야 합니다. 공개 릴리스, 파괴적 명령, 고객에게 영향을 주는 행동, 돈의 이동에는 더 강한 기준이 필요합니다.

참고 문헌

OpenAI, “Introducing the Codex app,” OpenAI, 2026년 2월 2일, 2026년 3월 4일 업데이트. Codex 앱을 멀티 에이전트 지휘 센터, 병렬 에이전트 작업 흐름, 격리된 코드 사본, skills, Automations, 검토 대기열, 샌드박스, 권한 요청, 감독 프레임으로 설명하는 출처입니다. ↩↩↩↩
OpenAI, “Codex web,” OpenAI Developers. Codex가 자체 클라우드 환경에서 병렬 작업을 포함해 백그라운드 클라우드 작업으로 코드를 읽고, 편집하고, 실행할 수 있는 코딩 에이전트임을 설명하는 출처입니다. ↩↩
OpenAI, “Human-in-the-loop,” OpenAI Agents SDK. 실행을 일시 중지하고, 보류 중인 승인을 interruptions로 반환하며, RunState를 직렬화하고 재개하고, function tools, shell tools, apply-patch tools, MCP servers, hosted MCP tools, 중첩된 에이전트 도구 전반에서 승인을 지원하는 승인 흐름의 출처입니다. ↩↩↩↩
OpenAI, “Tracing,” OpenAI Agents SDK. LLM 생성, 도구 호출, 인계, 보호 장치, 사용자 지정 이벤트, traces, spans, 개발 또는 운영 모니터링에 대한 내장 추적의 출처입니다. ↩↩↩
Anthropic, “Hooks reference,” Claude Code Docs. PreToolUse, PermissionRequest, PostToolUse, PostToolUseFailure, PostToolBatch, 하위 에이전트 이벤트, Stop을 포함한 Claude Code 수명 주기 연결 지점의 출처입니다. ↩↩↩
Saleema Amershi et al., “Guidelines for Human-AI Interaction,” Microsoft Research, CHI 2019. 일반적으로 적용 가능한 18가지 인간-AI 상호작용 가이드라인과 49명의 실무자 검증 연구의 출처입니다. ↩↩
National Institute of Standards and Technology, “AI Risk Management Framework,” NIST. AI 제품, 서비스, 시스템의 설계, 개발, 사용, 평가에 신뢰성 고려 사항을 포함하는 방법의 출처입니다. ↩↩
Model Context Protocol, “What is the Model Context Protocol?” 로컬 파일, 데이터베이스, 도구, 작업 흐름을 포함한 외부 시스템에 AI 애플리케이션을 연결하는 오픈 소스 표준으로서 MCP를 설명하는 출처입니다. ↩↩