AI 에이전트 모니터링에는 실행 중 개입이 필요합니다

11분 소요

2026년 5월 15일, Parand A. Alamdari, Toryn Q. Klassen, Sheila A. McIlraith는 AI 거버넌스에 오프라인 감사, 온라인 실행 중 모니터링, 그리고 예측된 위반이 실제로 발생하기 전에 개입할 수 있는 모니터가 필요하다고 주장하는 논문을 발표했습니다.¹

마지막 단어가 중요합니다.

실패를 기록하기만 하는 모니터링은 사후 분석에 도움이 됩니다. 하지만 에이전트를 일시 중지하거나, 차단하거나, 격리하거나, 다른 방향으로 돌릴 수 있는 모니터링은 결과가 아직 열려 있는 동안 실행 흐름을 바꿉니다.

AI 에이전트 모니터링에는 실행 중 개입이 필요합니다. 로그, 추적 기록, 대시보드, 승인 기록은 팀에 증거를 제공합니다. 실행 중 개입은 에이전트가 아직 나쁜 행동을 피할 수 있을 때 그 증거를 결정으로 바꿉니다.

요약

AI 에이전트 모니터링은 사후 포렌식처럼 동작할 때 실패합니다. 제대로 된 에이전트 실행 환경은 현재 진행 중인 궤적을 관찰하고, 정책 위반과 결정적 오류를 감지하며, 제한된 개입을 선택해야 합니다. 계속 진행, 경고, 일시 중지, 차단, 격리, 복구, 상위 검토 요청 중 하나를 선택하는 식입니다.

최근 연구도 여러 방향에서 같은 결론을 가리킵니다. 형식 기법 연구는 시간 논리를 실행 중 모니터링과 개입형 모니터에 적용합니다.¹ AgentForesight는 궤적이 끝나기 전 온라인 감사로 실패를 감지하는 문제를 다룹니다.² AgentTrust는 위험한 도구 호출을 실행 전에 가로채고 구조화된 판정을 반환합니다.³ AIR는 사고 대응을 에이전트 루프 안에 넣어 시스템이 감지, 격리, 복구를 수행하고 이후 실행을 위한 보호 규칙을 합성할 수 있게 합니다.⁴

실무적 교훈은 분명합니다. 관찰 가능성에서 멈추지 마세요. 관찰한 내용에 따라 행동할 수 있는 실행 환경의 일부를 만들어야 합니다.

핵심 내용

에이전트 플랫폼 팀: - 모니터링을 단순한 대시보드가 아니라 제어 루프로 다루세요. - 에이전트가 고위험 도구를 사용하기 전에 개입 동작을 정의하세요.

보안 팀: - 사후 검토에서 벗어나 커밋 지점의 온라인 감지로 이동하세요. - 모든 개입을 규칙, 증거, 결정, 결과와 함께 기록하세요.

제품 팀: - 개입 이벤트를 구조화된 검토 객체로 보여주세요. - 실행이 왜 멈췄는지, 어떤 증거가 중지를 유발했는지, 남아 있는 안전한 선택지가 무엇인지 사용자가 볼 수 있게 하세요.

운영자: - 나중에 피해를 설명하기만 하는 추적 기록보다 행동을 바꿀 수 있는 추적 기록을 더 신뢰하세요. - 모니터가 이전 행동을 재구성할 수 있는지만 묻지 말고, 다음 나쁜 단계를 막을 수 있는지 물어보세요.

왜 AI 에이전트 모니터링은 너무 늦게 실패를 알아차릴까요?

대부분의 모니터링은 에이전트가 이미 행동한 뒤에 시작됩니다.

로그는 에이전트가 셸 명령을 실행했다는 사실을 보여줄 수 있습니다. 추적 기록은 에이전트가 웹 페이지를 가져왔는지, MCP 서버를 호출했는지, 파일을 썼는지, 승인을 요청했는지 보여줄 수 있습니다. 대시보드는 네트워크 정책이 특정 도메인을 차단했다는 사실을 보여줄 수 있습니다. 이런 기록은 중요합니다. 하지만 기록만으로 다음 행동이 자동으로 바뀌지는 않습니다.

OpenAI의 Codex 안전성 글은 올바른 증거 기반을 설명합니다. 제한된 실행, 관리형 설정, 네트워크 정책, 승인, 에이전트 기본 원격 측정입니다. Codex는 사용자 프롬프트, 도구 승인 결정, 도구 실행 결과, MCP 서버 사용, 네트워크 프록시 허용 또는 거부 이벤트에 대한 OpenTelemetry 이벤트를 내보낼 수 있습니다.⁵ OpenAI는 Codex 로그를 보안 분류 에이전트와 함께 사용해 검토자가 의심스러운 엔드포인트 알림 주변의 원래 요청, 도구 활동, 승인, 도구 결과, 네트워크 정책 결정을 살펴볼 수 있다고도 설명합니다.⁵

이런 가시성은 중요합니다. 문제는 가시성에 작동 장치가 없을 때 생깁니다.

모니터가 에이전트가 신뢰할 수 없는 콘텐츠를 읽은 뒤 새 외부 도메인으로 데이터를 보내려 한다는 사실을 감지했다면, 시스템은 그 순서를 기록하는 데서 멈추면 안 됩니다. 실행을 일시 중지하거나 요청을 차단해야 합니다. 코딩 에이전트가 실패한 마이그레이션을 3번 재시도한 뒤 더 광범위한 파괴적 명령을 제안한다면, 실행 환경은 최종 검토까지 기다리면 안 됩니다. 그 궤적을 끊어야 합니다.

AI 에이전트 모니터링은 한 번에 2가지 질문에 답해야 합니다.

질문	약한 모니터링	강한 모니터링
무슨 일이 일어났나요?	실행 후 이벤트를 기록합니다.	실행 중 유형이 지정된 이벤트를 기록합니다.
다음에는 무엇이 일어나야 하나요?	판단을 나중 검토에 맡깁니다.	계속 진행, 경고, 일시 중지, 차단, 격리, 복구, 상위 검토 요청 중 하나를 선택합니다.

두 번째 질문이 모니터링을 개입으로 바꿉니다.

새로운 실행 중 연구들은 무엇을 더하나요?

최근 연구 묶음은 이 분야에 더 날카로운 어휘를 제공합니다.

형식 기법 논문은 시간에 따라 확장된 행동 제약에 초점을 맞춥니다. 고립된 이벤트 하나만 보는 것이 아니라 순서, 거리, 연쇄를 고려하는 규칙입니다. 저자들은 LLMs를 포함한 블랙박스 AI 시스템의 오프라인 감사와 온라인 모니터링을 위해 형식 기법과 머신러닝을 결합합니다.¹ 또한 실행 중 예측된 위반을 선제적으로 막거나 완화할 수 있는 예측형 모니터와 개입형 모니터를 소개합니다.¹

AgentForesight는 에이전트 관점에서 실패 양상을 이름 붙입니다. 이 논문은 장기 범위의 다중 에이전트 시스템이 하나의 결정적 오류를 받아들인 뒤 궤적 전체의 실패로 연쇄될 수 있다고 말합니다.² AgentForesight는 궤적이 끝난 뒤 책임 있는 단계를 진단하는 대신, 온라인 감사자가 현재 접두 구간만 검사하고 가장 이른 결정적 오류에서 계속 진행할지 알람을 올릴지 판단하게 합니다.²

AgentTrust는 도구 호출 경계에서 작동합니다. 에이전트 도구 호출을 실행 전에 가로채고 허용, 경고, 차단, 검토라는 구조화된 판정을 반환합니다.³ 파일 작업, 셸 명령, HTTP 요청, 데이터베이스 쿼리는 실제 부작용을 만들기 때문에 이 형태가 중요합니다.³

AIR는 사고 대응 계층을 더합니다. 이 논문은 에이전트 안전성 작업이 종종 사전 실패 예방에 집중하는 반면, 사고가 발생한 뒤 대응하고 격리하고 복구하는 능력은 제한적으로 다룬다고 주장합니다.⁴ AIR는 사고 대응을 에이전트 실행 루프에 통합합니다. 사고를 감지하고, 격리와 복구 행동을 안내하며, 이후 실행을 위한 보호 규칙을 합성합니다.⁴

이 논문들을 함께 보면 무게중심이 이동합니다.

이전 중심	새로운 중심
최종 답변이 맞아 보였나요?	진행 중인 궤적이 제약 안에 머물렀나요?
로그가 실패를 설명했나요?	모니터가 커밋 지점 전에 개입했나요?
벤치마크가 완료된 작업에 점수를 매겼나요?	실행 환경이 결정적 오류를 일찍 잡았나요?
안전 프롬프트가 모델에 경고했나요?	정책 계층이 다음에 허용되는 행동을 바꿨나요?

이 변화는 실제 에이전트 작업에 잘 맞습니다. 부작용은 최종 답변에서가 아니라 실행 중에 발생합니다.

무엇을 실행 중 개입이라고 부를 수 있을까요?

실행 중 개입은 실시간 증거가 정책, 안전성, 품질, 위험 임계값을 넘었기 때문에 시스템이 취하는 제한된 행동입니다.

개입은 공황보다 좁고 로깅보다 강해야 합니다.

개입	사용할 때
계속 진행	이벤트가 정책과 예상 계획 안에 머무를 때
경고	이벤트가 평소와 다르지만 되돌릴 수 있을 때
일시 중지	다음 단계에 사람 또는 정책 검토가 필요할 때
차단	행동이 엄격한 규칙을 위반할 때
격리	축소된 샌드박스나 기능 집합 안에서만 실행을 계속할 수 있을 때
복구	시스템이 알려진 보상 경로를 실행할 때
상위 검토 요청	이벤트에 보안, 제품, 도메인 검토가 필요할 때

좋은 개입은 모델을 꾸짖지 않습니다. 실행 상태를 바꿉니다.

개입은 구조화된 기록을 만들어야 합니다.

필드	필요한 증거
실행	에이전트 실행 ID, 작업, 단계, 소유자
이벤트	도구 호출, 네트워크 요청, 파일 쓰기, 승인 요청, 출력 주장
규칙	작동한 정책 또는 시간 제약
증거	추적 기록 일부, 인수, 대상 리소스, 이전 이벤트, 위험 구간
결정	계속 진행, 경고, 일시 중지, 차단, 격리, 복구, 상위 검토 요청
다음 허용 행동	결정 이후 에이전트가 할 수 있는 일
사람 검토 경로	누가 사고를 검토, 재정의, 종료할 수 있는지
결과	개입이 예방, 지연, 수리, 또는 도움 실패 중 무엇을 했는지

다른 검토자가 이벤트를 살펴보고 실행 환경이 왜 방향을 바꿨는지 이해할 수 있을 때 모니터는 신뢰를 얻습니다.

왜 시간 제약이 중요할까요?

많은 에이전트 실패는 순서에 달려 있습니다.

“테스트 없이 게시하지 말라”는 하나의 명령 속성이 아닙니다. 게시 행동과 이전 증거 사이의 관계입니다. “신뢰할 수 없는 콘텐츠를 읽은 뒤 외부 네트워크 트래픽을 보내지 말라”는 순서에 달려 있습니다. “마이그레이션 실패 뒤 프로덕션에 쓰지 말라”는 이전 실패 상태에 달려 있습니다. “소스 검증이 실패한 뒤 배포를 승인하지 말라”는 승인 이벤트와 검증 이벤트 모두에 달려 있습니다.

Linear Temporal Logic은 연구자에게 시간에 걸친 제약을 표현하는 방법을 제공합니다. 이전, 이후, ~할 때까지, 결국, 절대 같은 관계입니다. 5월 15일 형식 기법 논문은 LTL 기반 감사와 모니터링 기법이 시간에 따라 확장된 행동 제약 위반을 감지하는 데서 LLM 기준 방법보다 더 나은 성능을 보였다고 보고합니다.¹ 저자들은 또한 이 접근에서 작은 모델 라벨러도 최전선 LLM 판정자와 같거나 더 나은 성능을 냈고, 이벤트 거리, 제약 수, 명제 수가 늘어날수록 LLM의 시간 추론 성능이 저하됐다고 보고합니다.¹

프로덕션에서 얻을 교훈은 모든 팀이 내일 당장 완전한 형식 기법 스택을 배포해야 한다는 뜻이 아닙니다.

당장 필요한 교훈은 더 단순합니다. 순서를 이해하는 규칙을 쓰세요.

시간 규칙	실행 중 의미
검토 전까지 신뢰할 수 없는 가져오기 이후 외부 쓰기 금지	신뢰할 수 없는 콘텐츠가 맥락에 들어오면 외부 반출 전에 일시 중지합니다.
테스트와 렌더링 확인이 통과하기 전 배포 금지	증거 이벤트가 빠져 있으면 배포를 차단합니다.
반복된 수정 실패 뒤 파괴적 명령 금지	복구가 상위 위험 행동으로 바뀌면 일시 중지합니다.
범위 변경 뒤 기존 승인 유지 금지	대상, 도구, 위험 구간이 바뀌면 권한을 만료합니다.
필요한 증거가 없을 때 완료 금지	증거가 있을 때까지 최종 답변을 막습니다.

이런 제약은 실행 환경이 다음 단계를 판단할 만큼의 이력을 기억하도록 요구합니다. 상태 없는 프롬프트만으로는 이를 안정적으로 해내기 어렵습니다.

실행 중 모니터링은 어디에 있어야 할까요?

실행 중 모니터링은 커밋 지점에 있어야 합니다.

커밋 지점은 에이전트가 되돌릴 수 있는 분석에서 외부 효과로 넘어가는 모든 순간입니다. 파일 변경, 데이터베이스 쓰기, 네트워크 반출, 배포, 메시지 전송, 권한 변경, 결제, 삭제, 공개 릴리스가 여기에 해당합니다.

OpenAI의 Codex cloud 문서는 하나의 구체적 경계를 제공합니다. Codex는 기본적으로 에이전트 단계에서 인터넷 접근을 차단하지만, 설정 스크립트는 여전히 의존성 설치를 위해 인터넷을 사용할 수 있습니다.⁶ 같은 문서는 에이전트 인터넷 접근을 켜면 신뢰할 수 없는 웹 콘텐츠의 프롬프트 인젝션, 코드나 비밀 정보 반출, 악성코드나 취약한 의존성, 라이선스 제한 콘텐츠 등 위험이 커진다고 경고합니다.⁶ 또한 도메인과 HTTP 메서드 제한을 권장하며, 요청을 GET, HEAD, OPTIONS로 제한하면 추가 보호를 얻을 수 있다고 설명합니다.⁶

이 정책 형태는 네트워크 접근을 넘어 확장되어야 합니다.

커밋 지점	모니터 입력	가능한 개입
셸 명령	명령, cwd, 대상 경로, 이전 실패	허용, 재작성, 일시 중지, 차단
파일 쓰기	경로, diff 크기, 소유권, 생성 여부	계속 진행, 격리, 검토 요구
네트워크 호출	메서드, 도메인, 소스 맥락, 페이로드 종류	허용, 승인 요구, 차단
데이터베이스 변경	테이블, 행 종류, 환경, 롤백 경로	마이그레이션 증거를 위해 일시 중지
공개 게시	경로, 메타데이터, 출처 인용, 번역 상태	렌더링 확인이 통과할 때까지 차단
승인 요청	리소스, 위험, 만료, 이전 거부	범위 축소 또는 상위 검토 요청

모든 토큰을 모니터링하면 주의가 낭비됩니다. 커밋 지점을 모니터링하면 실수가 기록 밖으로 빠져나가는 실행 구간을 보호할 수 있습니다.

에이전트는 개입을 어떻게 경험해야 할까요?

에이전트는 모호한 질책이 아니라 정확한 상태 업데이트를 받아야 합니다.

약한 응답:

조심하세요. 안전하지 않을 수 있습니다.

더 나은 응답:

차단됨: 신뢰할 수 없는 콘텐츠를 읽은 뒤 외부 POST가 발생했습니다. 허용되는 다음 행동: 위험을 요약하거나, 대상 도메인과 페이로드 종류를 포함해 운영자 승인을 요청하거나, 네트워크 반출 없이 계속 진행하세요.

두 번째 응답은 에이전트에게 안전한 계획 공간을 제공합니다. 무엇이 작동했는지, 왜 해당 행동을 실행할 수 없는지, 어떤 대안이 남아 있는지 말해줍니다. AgentTrust의 판정 형태도 이 방향을 가리킵니다. 위험한 명령에 대해 더 안전한 대안과 함께 허용, 경고, 차단, 검토를 반환합니다.³

실행 중 개입은 위험을 보존하지 않으면서도 에이전트의 수행 능력은 보존해야 합니다.

에이전트는 여전히 작업을 복구할 수 있습니다. 승인을 요청할 수 있습니다. 도구를 바꿀 수 있습니다. 작업을 읽기 전용 단계로 나눌 수 있습니다. 증거 묶음을 만들 수 있습니다. 실행 환경은 현재 정책 상태를 위반하는 행동만 제거합니다.

사람에게는 무엇이 보여야 할까요?

사람에게는 정체를 알 수 없는 일시 중지가 아니라 개입 카드가 보여야 합니다.

카드 필드	예시
상태	실행 중 개입으로 일시 중지됨
트리거	신뢰할 수 없는 소스 읽기 이후 외부 쓰기
규칙	검토 전까지 신뢰할 수 없는 가져오기 이후 외부 반출 금지
증거	읽은 URL, 제안된 도메인, 메서드, 페이로드 종류
위험	비밀 정보 또는 소스 코드 반출
에이전트 선택지	읽기 전용으로 계속 진행, 승인 요청, 외부 반출 제거
사람 선택지	1회 승인, 거부, 범위 축소, 상위 검토 요청
감사	실행 ID와 추적 기록 포인터 아래 저장

이 카드는 승인 대기열, 추적 타임라인, 검토 묶음과 같은 제품군에 속해야 합니다. 차이는 타이밍입니다. 승인은 계획된 행동이 진행되어도 되는지 묻습니다. 실행 중 개입은 모니터가 허용되는 다음 단계를 바꾼 실시간 패턴을 봤다고 말합니다.

좋은 인터페이스는 사용자가 왜 멈췄는지 이해하려고 전체 기록을 읽게 만들지 않습니다. 카드는 중요한 추적 기록 일부를 가리켜야 합니다.

팀은 무엇을 먼저 만들어야 할까요?

가치가 높은 커밋 지점에서 단순한 모니터 규칙부터 시작하세요.

커밋 지점을 정의하세요. 실수가 로컬 작업 맥락 밖으로 나가는 도구 호출과 리소스의 이름을 붙이세요.
유형이 지정된 이벤트 스트림을 만드세요. 도구, 인수, 대상, 결과, 관련 이전 이벤트, 실행 상태를 기록하세요.
순서를 이해하는 규칙을 작성하세요. 반복적으로 중요한 순서 관계부터 시작하세요. 배포 전 테스트, 외부 반출 전 검토, 쓰기 전 승인 같은 관계입니다.
좁은 개입을 추가하세요. 광범위한 종료보다 일시 중지, 차단, 격리를 선호하세요.
구조화된 판정을 반환하세요. 무엇이 작동했고 어떤 행동이 계속 허용되는지 에이전트에게 알려주세요.
개입 카드를 보여주세요. 사람에게 규칙, 증거, 위험, 다음 선택지를 제공하세요.
결과를 검토하세요. 진양성은 승격하고, 오탐은 조정하며, 소음이 많은 규칙은 폐기하세요.

첫 번째 버전은 지루해도 됩니다. 도구 경계의 몇 가지 결정적 규칙이 모든 문장을 지켜보는 광범위한 모델 판정자보다 나을 때가 많습니다.

더 깊은 버전은 예측형 모니터링, LTL 제약, 학습된 감사자, 사고 대응 루프를 추가할 수 있습니다. 이벤트 스트림과 개입 의미가 제대로 작동한 뒤에 이런 계층을 만드세요.

마땅히 지켜야 할 기준

모든 일시 중지가 심각해 보이고 모든 경고가 같은 무게를 갖는다면, 실행 중 개입은 보여주기식 절차가 될 수 있습니다.

기준은 좁게 유지해야 합니다.

다음 행동이 실제로 중요할 수 있는 곳에서만 개입하세요.
작동한 규칙의 이름을 밝히세요.
증거를 보여주세요.
안전한 다음 경로를 남겨두세요.
결과를 기록하세요.
피해를 막지 못하고 소음만 만드는 규칙은 제거하세요.

좋은 모니터링은 작업을 보호합니다. 나쁜 모니터링은 공급사의 책임 회피 이야기만 보호합니다.

에이전트 실행 환경은 움직임을 최대화해서는 안 됩니다. 책임 있는 진전을 최대화해야 합니다. 때로는 책임 있는 진전이 에이전트를 방해하지 않고 계속 진행하게 하는 것을 뜻합니다. 때로는 다음 단계를 거부하는 것을 뜻합니다.

품질 기준은 그 차이를 아는 데 있습니다.

빠른 정리

AI 에이전트 모니터링에 실행 중 개입이 필요한 이유는 에이전트 실패가 끝에서만 일어나는 것이 아니라 궤적 안에서 일어나기 때문입니다. 로그와 추적 기록은 무슨 일이 있었는지 설명합니다. 개입형 모니터는 다음에 일어날 일을 바꿀 수 있습니다.

현재 연구 방향은 분명합니다. 형식적 시간 제약, 온라인 감사자, 도구 호출 판정, 사고 대응 루프는 모두 모니터링을 능동적 제어로 밀어가고 있습니다. 팀은 유형이 지정된 이벤트 스트림, 커밋 지점 규칙, 구조화된 판정, 개입 카드, 결과 검토부터 시작해야 합니다. 목표는 더 많은 알림이 아닙니다. 목표는 되돌릴 수 없는 실수를 줄이는 것입니다.

FAQ

AI 에이전트의 실행 중 개입이란 무엇인가요?

실행 중 개입은 실시간 증거가 정책, 위험, 안전성, 품질 임계값을 넘었기 때문에 시스템이 진행 중인 에이전트 실행을 바꾸는 것을 뜻합니다. 개입은 실행을 계속 진행하게 하거나, 경고하거나, 일시 중지하거나, 차단하거나, 격리하거나, 복구하거나, 상위 검토로 올릴 수 있습니다.

실행 중 개입은 관찰 가능성과 어떻게 다른가요?

관찰 가능성은 무슨 일이 일어났는지 기록합니다. 실행 중 개입은 실행이 아직 진행 중일 때 행동합니다. 하나의 추적 기록이 둘 다 지원할 수 있지만, 개입에는 정책 결정과 허용되는 다음 행동이 필요합니다.

모든 에이전트 행동이 모니터를 거쳐야 하나요?

의미 있는 모든 도구 행동은 유형이 지정된 이벤트를 만들어야 합니다. 하지만 중단 규칙이 필요한 곳은 가치가 높은 커밋 지점뿐입니다. 읽기 전용 이벤트는 보통 조용히 기록해도 됩니다. 부작용을 만드는 이벤트는 더 엄격한 모니터링이 필요합니다.

시작하려면 팀에 형식 기법이 필요한가요?

아니요. 팀은 결정적 순서 규칙부터 시작할 수 있습니다. 테스트 전 배포 금지, 신뢰할 수 없는 가져오기 이후 외부 쓰기 금지, 반복된 복구 실패 뒤 파괴적 명령 금지, 필요한 증거 없는 최종 완료 금지 같은 규칙입니다. 형식 기법은 규칙 집합이 커지고 시간 관계를 사람이 직접 점검하기 어려워질 때 유용해집니다.

무엇이 실행 중 개입을 신뢰할 수 있게 만드나요?

신뢰할 수 있는 개입은 규칙의 이름을 밝히고, 증거를 보여주고, 다음 행동을 제한하고, 결과를 기록하며, 권한 있는 사람이 검토할 경로를 제공합니다. 모호한 경고는 해당하지 않습니다.

참고문헌

Parand A. Alamdari, Toryn Q. Klassen, and Sheila A. McIlraith, “Formal Methods Meet LLMs: Auditing, Monitoring, and Intervention for Compliance of Advanced AI Systems,” arXiv:2605.16198v1, 2026년 5월 15일 제출. 오프라인 감사, 온라인 실행 중 모니터링, 예측형 모니터링, 개입형 모니터, Linear Temporal Logic 제약, 작은 모델 라벨러 비교, 시간 추론 성능 저하 주장에 대한 출처입니다. ↩↩↩↩↩↩
Boxuan Zhang, Jianing Zhu, Zeru Shi, Dongfang Liu, and Ruixiang Tang, “AgentForesight: Online Auditing for Early Failure Prediction in Multi-Agent Systems,” arXiv:2605.08715v2, 2026년 5월 13일 개정. 진행 중인 궤적 접두 구간에 대한 온라인 감사, 결정적 오류 알람, AFTraj-2K, 단계 위치 파악 프레이밍, 배포 시점 개입에 대한 출처입니다. ↩↩↩
Chenglin Yang, “AgentTrust: Runtime Safety Evaluation and Interception for AI Agent Tool Use,” arXiv:2605.04785v1, 2026년 5월 6일 제출. 실행 전 도구 호출 가로채기, 구조화된 판정, 셸 난독화 해제, SafeFix 대안, RiskChain 감지, 벤치마크 범위, 판정 정확도, MCP 서버 통합에 대한 출처입니다. ↩↩↩↩
Zibo Xiao, Jun Sun, and Junjie Chen, “AIR: Improving Agent Safety through Incident Response,” arXiv:2602.11749v1, 2026년 2월 12일 제출. LLM 에이전트 실행 루프 내부의 사고 대응, 의미 기반 사고 감지, 격리와 복구 행동, 합성된 보호 규칙, 보고된 감지, 복구, 제거 성공률에 대한 출처입니다. ↩↩↩
OpenAI, “Running Codex safely at OpenAI,” OpenAI, 2026년 5월 8일. Codex의 제한된 실행, 관리형 설정, 네트워크 정책, 승인, OpenTelemetry 이벤트 내보내기, Compliance Platform 로그, Codex 활동에 대한 보안 분류에 관한 출처입니다. ↩↩
OpenAI Developers, “Agent internet access,” 2026년 5월 18일 접속. Codex cloud 인터넷 접근 기본값, 에이전트 단계 네트워크 차단, 프롬프트 인젝션과 반출 위험, 도메인 허용 목록, HTTP 메서드 제한에 관한 출처입니다. ↩↩↩