심층 리서치 에이전트에 필요한 증거 그래프

Q: paper.json은 증거 그래프와 어떤 관련이 있나요?

paper.json은 학술 논문에 안정적인 주장 ID, 범위 제한, 정의, 재현 명령을 제공해요. 증거 그래프는 논문 전체를 느슨하게 인용하는 대신 이 ID들을 정밀한 노드로 사용할 수 있어요.2

11분 소요

2026년 5월 15일, Zhen Zhang과 공동 저자들은 리서치를 무차별 병렬 검색이 아니라 증거 조립으로 다루는 심층 리서치 에이전트 시스템 Argus를 발표했어요.¹

이 차이는 중요해요.

심층 리서치 에이전트는 많은 검색을 실행하고, 많은 페이지를 열고, 긴 답변을 쓸 수 있어요. 하지만 답변이 길다고 해서 에이전트가 빠진 증거를 찾아냈다는 뜻은 아니에요. 병렬 검색은 같은 출처 묶음을 반복해서 찾고, 더 많은 발췌문을 맥락에 밀어 넣으면서도, 정작 어려운 부분은 근거 없이 남길 수 있어요.

심층 리서치 에이전트에는 증거 그래프가 필요해요. 에이전트는 어떤 주장이 근거를 필요로 하는지, 어떤 증거 조각이 이미 있는지, 어떤 조각이 아직 빠져 있는지, 최종 문장의 어떤 부분이 어떤 출처에 의존하는지 알아야 해요.

요약

심층 리서치 에이전트는 실행한 검색 횟수나 채운 맥락의 양으로 진행 상황을 재면 안 돼요. 증거가 얼마나 갖춰졌는지로 진행 상황을 봐야 해요.

Argus는 이 분야에 유용한 구조를 제시해요. Searcher는 하위 질의에 대한 증거 추적 기록을 수집하고, Navigator는 공유 증거 그래프를 유지하며, 어떤 조각이 아직 빠져 있는지 확인하고, 추가 검색 작업을 배정하고, 출처가 추적되는 최종 답변을 만들어 내요.¹ 이 방식은 심층 리서치를 “에이전트를 더 많이 실행하기”에서 “빠진 증명을 조립하기”로 옮겨 가게 해요.

최근 에이전트 연구 전반에서도 같은 패턴이 보여요. paper.json은 논문의 주장과 범위 제한을 주소 지정 가능한 형태로 만들어요.² ACDL은 에이전트 맥락을 형식적인 설명 언어로 표현해요.³ 탐색 연구는 에이전트가 행동하기 전에 검증 가능한 점검 지점이 필요하다고 주장해요.⁴ ARIS는 장기 리서치에서 가장 중요한 실패를 그럴듯하지만 근거가 부족한 성공으로 설명해요.⁵ AgentForesight는 여러 에이전트가 도는 실행에서 결정적인 오류가 연쇄적으로 퍼지기 전에 온라인 감사를 해야 한다고 주장해요.⁶

실무 규칙은 분명해요. 모든 심층 리서치 답변은 에이전트가 무엇을 증명했고, 무엇을 추론했으며, 무엇이 아직 해결되지 않았는지 보여 줄 수 있는 증거 그래프나 검토 자료를 함께 가져야 해요.

핵심 정리

에이전트 개발자에게: - 증거를 주장, 출처, 공백, 의존성으로 이루어진 그래프로 추적하세요. - 넓은 질의를 반복하지 말고, 빠진 증거를 향해 검색 작업을 배정하세요.

제품 팀에게: - 출처 커버리지, 미해결 주장, 중복 검색 낭비를 보여 주세요. - 최종 답변이 각 출처를 왜 인용하는지 검토자가 확인할 수 있게 하세요.

연구자에게: - 증거 수집과 답변 합성을 분리하세요. - 최종 답변 점수만 보지 말고, 증거 커버리지와 추적 가능성을 평가하세요.

운영자에게: - 확신에 찬 긴 보고서라도 중요한 공백이 증거 그래프에서 닫히기 전까지는 미완성으로 보세요. - 답변을 받아들이기 전에 어떤 주장이 아직 1차 근거를 갖추지 못했는지 물어보세요.

병렬 검색은 왜 막히나요?

병렬 검색은 진행되고 있다는 느낌을 줘요.

같은 리서치 질문을 10개의 에이전트에 주면 시스템은 활발하게 움직여요. 에이전트들은 검색하고, 요약하고, 비교하고, 부분적인 결과를 돌려줘요. 기록에 많은 출처가 들어 있기 때문에 최종 합성문은 꼼꼼해 보일 수 있어요.

실패는 중복 안에 숨어 있어요.

병렬 검색 동작	실패 양상
많은 에이전트가 비슷한 용어를 질의함	출처가 서로 보완되지 않고 겹쳐요.
각 에이전트가 처음 보이는 유망한 경로를 따라감	찾기 어려운 누락 증거는 그대로 남아요.
맥락이 발췌문으로 채워짐	합성기가 공백을 두고 추론할 여유를 잃어요.
최종 답변이 요약을 병합함	근거 없는 주장이 병합 과정에서 살아남을 수 있어요.
검토가 최종 문장부터 시작됨	검토자가 증거 커버리지를 거꾸로 추적해야 해요.

Argus는 이 문제를 직접 짚어요. 논문은 심층 리서치 답변이 서로 보완되는 증거 조각을 결합하는 반면, 병렬 실행은 그 조각들을 완성하기보다 중복하는 경우가 많다고 주장해요.¹ 실행을 더 많이 늘리면 빠진 부분을 채우지 못한 채 집계 맥락이 한계에 가까워질 수 있어요.¹

교훈은 “절대 병렬화하지 말라”가 아니에요. 교훈은 “지도에 맞춰 병렬화하라”예요.

Argus는 무엇을 더하나요?

Argus는 심층 리서치를 두 역할로 나눠요.

Searcher는 ReAct 방식의 상호작용을 통해 하위 질의에 대한 증거 추적 기록을 수집해요.¹ Navigator는 공유 증거 그래프를 유지하고, 어떤 조각이 아직 빠져 있는지 검증하고, 그 조각을 모으도록 Searcher를 배정하고, 완성된 그래프를 바탕으로 추론해 출처가 추적되는 최종 답변을 만들어 내요.¹

이 역할 분리는 작업 대상을 바꿔요.

기존 작업 대상	Argus의 작업 대상
검색 기록	증거 추적 기록
출처 더미	공유 증거 그래프
질의 확산	빠진 조각을 향한 배정
최종 문장	출처가 추적되는 답변
넓은 합성	증거 커버리지를 인식한 합성

Navigator는 답변에 아직 무엇이 부족한지 기억하는 층을 에이전트에 제공해요. 이 층이 없으면 병렬 작업자들은 같은 쉬운 주장에 대한 증거를 계속 가져올 수 있어요.

Argus는 성능 향상도 보고해요. 논문은 35B-A3B MoE 기반 모델에서 Argus가 8개 벤치마크 평균 기준으로 Searcher 1개일 때 5.5점, 병렬 Searcher 8개일 때 12.7점을 얻었다고 보고해요.¹ 중요한 점은 점수만이 아니에요. 추가 Searcher를 유용하게 만드는 아키텍처가 더 중요해요.

Searcher가 유용해지는 이유는 Navigator가 그들을 빠진 증거로 향하게 하기 때문이에요.

증거 그래프는 무엇을 추적해야 하나요?

증거 그래프는 답변이 문장으로 굳어지기 전에 답변을 표현해야 해요.

최소한 다음을 추적해야 해요.

노드 유형	목적
주장	답변이 말하려는 문장이나 하위 주장.
출처	주장을 뒷받침하는 1차 또는 2차 출처.
증거	정확한 발췌문, 표, 그림, 명령 출력, 관찰 결과.
공백	근거가 약하거나, 없거나, 오래되었거나, 간접적인 주장.
충돌	서로 맞지 않는 두 출처나 관찰 결과.
범위 제한	과잉 주장을 막는 경계.
정의	이후 주장에 영향을 주는 용어의 의미.
작업 결정	증거 상태 때문에 에이전트가 내린 선택.

노드보다 더 중요한 것은 연결이에요.

연결	의미
`supports`	증거가 주장을 뒷받침해요.
`limits`	범위 제한이 주장을 좁혀요.
`contradicts`	출처가 주장이나 다른 출처와 충돌해요.
`depends_on`	주장이 다른 주장이나 정의를 필요로 해요.
`missing_for`	공백이 주장을 막고 있어요.
`dispatches`	Navigator가 Searcher에게 공백을 채우라고 요청해요.
`used_in`	최종 답변 문장이 출처나 증거 노드에 의존해요.

그래프가 꼭 학술적인 그래프 데이터베이스 형식을 갖출 필요는 없어요. JSON 객체, 추적 표, 검토 자료로도 충분할 수 있어요. 중요한 속성은 확인 가능성이에요. 다른 검토자가 답변이 왜 그렇게 말하는지 볼 수 있어야 해요.

증거 그래프는 검토자에게 왜 도움이 되나요?

검토자는 전체 기록보다 작은 대상을 필요로 해요.

심층 리서치 기록에는 수십 개의 도구 호출, 출처, 요약, 재시도, 메모가 들어갈 수 있어요. 하지만 검토자가 보통 알고 싶은 것은 더 날카로운 질문이에요.

어떤 최종 주장이 직접 근거를 갖고 있나요?
어떤 주장이 2차 해석에 의존하나요?
어떤 출처가 서로 다른 요약 아래 여러 번 등장하나요?
에이전트가 어떤 빠진 질문을 더 이상 추적하지 않았나요?
어떤 인용이 핵심 주장이 아니라 배경만 뒷받침하나요?
어떤 제한이 최종 답변의 범위를 좁혀야 하나요?

증거 그래프는 검토자에게 이런 화면을 제공해요.

검토자 질문	증거 그래프의 답
핵심 주장은 어디서 왔나요?	`supports` 연결이 붙은 주장 노드.
에이전트가 논문을 과장했나요?	주장에 붙은 범위 제한 연결.
작업자들이 노력을 중복했나요?	쉬운 노드 하나를 여러 출처가 뒷받침하는 동안 공백 노드는 열려 있음.
답변을 배포해도 되나요?	고위험 주장 노드가 근거 없이 남아 있지 않음.
다른 에이전트는 다음에 무엇을 해야 하나요?	미해결 공백 노드에서 나오는 배정.

이 구조는 검토 자료와 자연스럽게 어울려요. 최종 답변은 문장만 제공해서는 안 돼요. 그 문장을 만든 증거 상태도 함께 제공해야 해요.

paper.json은 어떻게 맞물리나요?

증거 그래프에는 더 나은 출처 객체가 필요해요.

모든 학술 논문이 구분 없는 PDF 하나로 그래프에 들어오면, 그래프의 노드는 여전히 거칠어요. 주장 노드는 논문에 연결될 수 있지만, 하위 주장, 범위 제한, 정의, 재현 명령에 쉽게 연결되지는 못해요.

paper.json은 입력 계층을 개선해요. 이 제안은 논문에 안정적인 주장 ID, 명시적인 비주장 목록, 그림별 셸 명령, 안정적인 정의 ID를 제공해요.² 리서치 에이전트는 이 ID들을 그래프 노드로 사용할 수 있어요.

논문 요소	증거 그래프 노드
`claims[].id`	주장 노드.
`does_not_claim[]`	범위 제한 노드.
`definitions[].id`	정의 노드.
`reproducibility.commands[]`	증거 생성 노드.
저장소 URL	출처 노드.
스키마 버전	출처 메타데이터.

이 연결은 인용 품질에 중요해요. 답변은 논문 전체를 흐릿하게 인용하는 대신 논문의 C2를 인용할 수 있어요. 그래프는 C2가 does_not_claim[]에서 온 제한을 가진다는 사실도 기록할 수 있어요.

증거 그래프와 에이전트가 읽을 수 있는 논문은 인접한 문제를 해결해요. 논문 파일은 증거를 더 쉽게 가리키게 해요. 그래프는 증거를 더 쉽게 조립하게 해요.

맥락 설명은 어떻게 맞물리나요?

심층 리서치 에이전트는 무엇이 언제 맥락에 들어왔는지도 알아야 해요.

ACDL, 즉 Agentic Context Description Language는 이 문제를 프롬프트 계층에서 다뤄요. 이 논문은 에이전트 시스템에 프롬프트 구성과 맥락 변화를 설명하는 표준 방식이 부족하며, 대신 산문, 다이어그램, 코드 검토에 의존한다고 주장해요.³ ACDL은 역할 메시지 순서, 동적 콘텐츠, 시간 인덱스가 붙은 참조, 조건부 또는 반복 구조를 표현하는 구성 요소를 제공해요.³

증거 그래프는 맥락 상태와 연결되어야 해요.

맥락 사실	증거 위험
출처가 주장보다 먼저 맥락에 들어옴	에이전트가 그것을 인용하거나 바꿔 말할 수 있어요.
범위 제한이 맥락에 들어오지 않음	최종 문장이 과잉 주장으로 흐를 수 있어요.
충돌하는 출처가 늦게 도착함	합성이 그것을 무시할 수 있어요.
Searcher가 한 갈래만 봄	증거 추적 기록이 좁을 수 있어요.
Navigator가 새 질의를 배정함	공백 노드가 표적 검색을 일으켰어요.

맥락의 형태는 증거의 형태에 영향을 줘요. 합성기가 관련 구절을 본 적이 없다면 그 출처는 답변을 뒷받침할 수 없어요. 누군가 제한을 맥락에 넣지 않았다면 그 제한은 답변을 좁힐 수 없어요.

심층 리서치 시스템에는 두 대상이 모두 필요해요. 맥락 설명과 증거 그래프예요.

탐색은 왜 중요한가요?

리서치 에이전트는 너무 일찍 활용으로 넘어갈 수 있어요.

“Look Before You Leap”는 낯선 환경에 놓인 LLM 에이전트의 실패 양상으로 성급한 활용을 지목해요.⁴ 이 논문은 에이전트가 과제 실행 전에 핵심 상태, 객체, 행동 가능성을 발견했는지 검증하는 지표로 Exploration Checkpoint Coverage를 도입해요.⁴

심층 리서치도 같은 구조를 가져요. 에이전트는 그럴듯한 경로 하나를 찾고, 출처 공간을 이해하기 전에 답변을 시작할 수 있어요.

증거 그래프는 탐색 단계를 보존해야 해요.

답변에 필요한 주장 유형을 파악하세요.
가능성이 높은 출처 유형을 그려 보세요.
해설보다 1차 출처를 먼저 찾으세요.
빠진 출처 유형을 공백 노드로 기록하세요.
공백을 대상으로 한 검색을 배정하세요.
중요한 공백이 닫히거나 명시적인 제한 사항이 붙은 뒤에만 합성하세요.

이 탐색 단계는 에이전트가 처음 발견한 좋은 출처를 답변의 중심으로 취급하지 않게 해요.

그래프는 에이전트가 계속 찾아야 할 이유를 줘요. 열린 공백이 계속 보이기 때문이에요.

그래프가 없으면 무엇이 잘못되나요?

오래 실행되는 리서치 에이전트는 겉으로는 망가져 보이지 않으면서 실패할 수 있어요.

ARIS는 핵심 실패를 그럴듯하지만 근거가 부족한 성공으로 설명해요. 오래 실행되는 에이전트가 주장들을 만들어 내지만, 그 근거는 불완전하거나, 잘못 보고되었거나, 에이전트 자신의 초기 프레이밍에서 물려받은 상태로 남아요.⁵ 최종 보고서가 다듬어져 보이기 때문에 이 실패는 가벼운 검토를 통과할 수 있어요.

AgentForesight는 여러 에이전트 시스템에서 관련된 문제를 다뤄요. 이 논문은 장기 궤적에서 하나의 결정적인 오류가 연쇄적으로 퍼질 수 있고, 사후 원인 분석은 개입하기에는 너무 늦게 도착한다고 주장해요.⁶ 온라인 감사자는 현재까지의 앞부분만 보고, 전체 궤적이 끝나기 전에 계속 진행할지 경고할지 결정해야 해요.⁶

증거 그래프는 두 문제 모두에 도움이 돼요.

실패	그래프의 대응
그럴듯하지만 근거가 부족한 성공	근거 없는 주장 노드가 계속 보여요.
출처 근거의 잘못된 보고	`supports` 연결을 발췌문과 대조할 수 있어요.
물려받은 프레이밍	범위 노드와 충돌 노드가 초기 프레임에 도전해요.
결정적 오류의 연쇄 확산	공백이나 충돌 노드가 합성 전에 일시 중지를 유발할 수 있어요.
사후 검토 과부하	검토자는 최종 문장만이 아니라 그래프 상태를 확인해요.

그래프가 진실을 보장하지는 않아요. 다만 팀이 감사할 수 있는 구조를 진실에 제공해요.

심층 리서치 제품은 무엇을 보여 줘야 하나요?

심층 리서치 제품은 증거 상태를 드러내야 해요.

사용자는 각주가 붙은 최종 답변만 봐서는 안 돼요. 인터페이스는 다음을 보여 줘야 해요.

화면 요소	사용자 가치
주장 커버리지	어떤 주장이 직접, 간접, 또는 누락 근거를 갖는지 보여 줘요.
증거 그래프	출처가 답변 섹션과 어떻게 연결되는지 보여 줘요.
공백 목록	어떤 질문이 아직 답을 얻지 못했는지 보여 줘요.
중복 출처 묶음	검색 작업자가 어디서 노력을 반복했는지 보여 줘요.
충돌 목록	어떤 출처들이 서로 맞지 않는지 보여 줘요.
범위 제한	어떤 제한이 답변을 좁히는지 보여 줘요.
출처 추적 기록	어떤 검색이나 읽기가 각 증거 노드를 만들었는지 보여 줘요.
검토자 결정	유지, 수정, 차단, 추가 리서치 중 무엇인지 보여 줘요.

이 인터페이스는 사용자가 실행을 조정할 수 있게 해요. 사용자는 “더 조사해”라고 말하는 대신 특정 공백을 채우라고 요청할 수 있어요. 전체 답변을 버리지 않고 약한 주장 하나를 거절할 수 있어요. 에이전트가 멈출 만큼 충분한 증거를 갖췄는지도 볼 수 있어요.

좋은 심층 리서치 UX는 최종 문장이 증거 누락을 가리기 전에 빠진 증거를 보이게 해야 해요.

팀은 무엇을 먼저 만들어야 하나요?

그래프 엔진을 만들기 전에 간단한 증거 표부터 시작하세요.

필드	최소 형태
주장 ID	`claim_01`, `claim_02`, 또는 가져온 논문 주장 ID.
주장 텍스트	답변이 뒷받침하려는 문장.
출처 URL	정식 URL 또는 논문 ID.
증거 발췌문	출처가 뒷받침하는 짧은 구절이나 결과.
근거 유형	직접, 간접, 배경, 충돌, 누락.
범위 제한	주장을 좁히는 제한 사항.
검색 추적 기록	질의, 도구, 타임스탬프, 에이전트 역할.
상태	뒷받침됨, 약함, 충돌함, 누락됨, 거절됨.

그다음 배정을 추가하세요.

합성 전에 가치가 높은 누락 주장 전체를 나열하세요.
각 누락 주장을 좁은 질의와 함께 Searcher에게 보내세요.
Searcher가 증거 또는 명시적인 실패를 반환하도록 요구하세요.
그래프를 업데이트하세요.
근거가 있거나 제한이 붙은 주장만으로 합성하세요.

첫 버전은 단순해도 돼요. 에이전트가 증거 커버리지를 보여 주도록 강제한다면, Markdown 표 하나가 보이지 않는 기록보다 나을 수 있어요.

가치 있는 기준

심층 리서치 에이전트는 자신의 증거 구조를 보여 줌으로써 신뢰를 얻어야 해요.

검색을 더 많이 하면 도움이 될 수 있어요. 에이전트를 더 많이 쓰면 도움이 될 수 있어요. 더 긴 맥락도 도움이 될 수 있어요. 하지만 그 어떤 입력도 최종 답변이 빠진 조각을 다뤘다는 증거가 되지는 않아요.

가치 있는 심층 리서치 실행은 4가지 질문에 답해야 해요.

에이전트는 어떤 주장을 증명하려 했나요?
각 주장을 어떤 출처가 뒷받침하나요?
어떤 공백이나 충돌이 남아 있나요?
어떤 최종 문장이 어떤 증거에 의존하나요?

이 답들이 보이는 상태로 남아 있으면 사용자는 작업을 검토할 수 있어요. 이 답들이 다듬어진 문장 속으로 사라지면 사용자는 증명의 형태를 보지 못한 채 요약을 믿어야 해요.

심층 리서치에 증거 그래프가 필요한 이유는 리서치가 검색 횟수의 문제가 아니기 때문이에요. 리서치는 빠진 조각의 문제예요.

빠른 요약

심층 리서치 에이전트에 증거 그래프가 필요한 이유는 병렬 검색이 중요한 주장을 근거 없이 남겨 둔 채 쉬운 출처 묶음만 중복할 수 있기 때문이에요. Argus는 강력한 패턴을 제공해요. Searcher는 증거 추적 기록을 수집하고, Navigator는 공유 증거 그래프를 추적하며, 빠진 조각을 향해 작업을 배정하고, 출처가 추적되는 답변을 만들어 내요.¹

같은 교훈은 인접 연구와도 연결돼요. paper.json은 논문 수준의 출처 객체를 개선해요.² ACDL은 맥락이 에이전트 시스템에 어떻게 들어오는지 설명해요.³ 탐색 점검 지점은 정보 수집을 검증 가능하게 만들어요.⁴ ARIS와 AgentForesight는 오류가 연쇄적으로 퍼지기 전에 다듬어진 장기 결과물에 증거와 온라인 검토가 왜 필요한지 보여 줘요.⁵⁶

운영 규칙은 분명해요. 심층 리서치 에이전트에게 답변만 요구하지 마세요. 그 답변을 가능하게 만든 증거 그래프를 요구하세요.

FAQ

심층 리서치 에이전트용 증거 그래프란 무엇인가요?

증거 그래프는 주장, 출처, 발췌문, 공백, 충돌, 범위 제한, 최종 답변 문장을 연결해요. 검토자는 이를 통해 심층 리서치 답변의 각 부분을 어떤 증거가 뒷받침하는지 볼 수 있어요.

병렬 검색만으로는 왜 충분하지 않나요?

병렬 검색은 누락 증거를 찾지 못한 채 출처를 중복하고 맥락만 채울 수 있어요. 심층 리서치 에이전트에는 답변에 아직 무엇이 부족한지 보여 주는 공유 지도가 필요해요.

Argus는 무엇을 기여했나요?

Argus는 심층 리서치를 Searcher와 Navigator 역할로 나눴어요. Searcher는 증거 추적 기록을 수집하고, Navigator는 공유 증거 그래프를 유지하며, 빠진 조각을 찾기 위한 검색을 배정하고, 출처가 추적되는 최종 답변을 만들어 내요.¹

paper.json은 증거 그래프와 어떤 관련이 있나요?

paper.json은 학술 논문에 안정적인 주장 ID, 범위 제한, 정의, 재현 명령을 제공해요. 증거 그래프는 논문 전체를 느슨하게 인용하는 대신 이 ID들을 정밀한 노드로 사용할 수 있어요.²

제품은 사용자에게 무엇을 보여 줘야 하나요?

제품은 사용자가 최종 문장을 신뢰하라고 요구하기 전에 주장 커버리지, 증거 연결, 미해결 공백, 중복 검색 묶음, 출처 충돌, 범위 제한, 검토 결정을 보여 줘야 해요.

참고문헌

Zhen Zhang, Liangcai Su, Zhuo Chen, Xiang Lin, Haotian Xu, Simon Shaolei Du, Kaiyu Yang, Bo An, Lidong Bing, and Xinyu Wang, “Argus: Evidence Assembly for Scalable Deep Research Agents,” arXiv:2605.16217v1, 2026년 5월 15일 제출. Searcher/Navigator 설계, 공유 증거 그래프, 빠진 조각 배정, 출처가 추적되는 최종 답변, 보고된 점수 향상의 출처. ↩↩↩↩↩↩↩↩↩
Arquimedes Canedo, “paper.json: A Coordination Convention for LLM-Agent-Actionable Papers,” arXiv:2605.16194v1, 2026년 5월 15일 제출. 안정적인 주장 ID, 명시적인 비주장 목록, 그림별 재현 명령, 안정적인 정의 ID, 에이전트가 읽을 수 있는 논문 요소의 필요성에 대한 출처. ↩↩↩↩
Noga Peleg Pelc, Gal A. Kaminka, and Yoav Goldberg, “A Language for Describing Agentic LLM Contexts,” arXiv:2605.01920v1, 2026년 5월 3일 제출. ACDL, 맥락 구성, 맥락 변화, 역할 메시지 순서, 동적 콘텐츠, 시간 인덱스가 붙은 참조, 비공식적인 맥락 설명에 대한 비판의 출처. ↩↩↩↩
Ziang Ye, Wentao Shi, Yuxin Liu, Yu Wang, Zhengzhou Cai, Yaorui Shi, Qi Gu, Xunliang Cai, and Fuli Feng, “Look Before You Leap: Autonomous Exploration for LLM Agents,” arXiv:2605.16143v1, 2026년 5월 15일 제출. 성급한 활용, Exploration Checkpoint Coverage, Explore-then-Act 프레이밍의 출처. ↩↩↩↩
Ruofeng Yang, Yongcan Li, and Shuai Li, “ARIS: Autonomous Research via Adversarial Multi-Agent Collaboration,” arXiv:2605.03042v1, 2026년 5월 4일 제출. 오래 실행되는 리서치 에이전트에서 나타나는 그럴듯하지만 근거가 부족한 성공 실패 양상과 중간 리서치 산출물에 대한 적대적 검토 필요성의 출처. ↩↩↩
Yiming Zhang, Pei Zhou, Jiahao Liu, Yifan Chen, Runzhe Yang, Zhenhailong Wang, Jiayi Pan, Chen Qian, Dong Li, and Heng Ji, “AgentForesight: Online Auditing for Early Failure Prediction in Multi-Agent Systems,” arXiv:2605.08715v2, 2026년 5월 13일 개정. 결정적 오류의 연쇄 확산, 온라인 감사, 궤적 앞부분 검토, 조기 경고 프레이밍의 출처. ↩↩↩↩