Los agentes de investigación profunda necesitan grafos de evidencia

Q: ¿Cómo se relaciona paper.json con los grafos de evidencia?

paper.json les da a los artículos académicos IDs de afirmaciones estables, límites de alcance, definiciones y comandos de reproducción. Los grafos de evidencia pueden usar esos IDs como nodos precisos en vez de citar vagamente un artículo completo.2

15 min de lectura

El 15 de mayo de 2026, Zhen Zhang y sus coautores publicaron Argus, un sistema de agentes de investigación profunda que trata la investigación como ensamblaje de evidencia, no como búsqueda paralela por fuerza bruta.¹

La diferencia importa.

Los agentes de investigación profunda pueden ejecutar muchas búsquedas, abrir muchas páginas y escribir respuestas largas. Pero una respuesta larga no demuestra que el agente haya encontrado la evidencia faltante. La búsqueda paralela puede duplicar el mismo grupo de fuentes, meter más extractos en el contexto y aun así dejar sin respaldo la parte difícil.

Los agentes de investigación profunda necesitan grafos de evidencia. El agente debería saber qué afirmaciones necesitan respaldo, qué piezas de evidencia ya existen, cuáles siguen faltando y qué oraciones finales dependen de qué fuentes.

Resumen rápido

Los agentes de investigación profunda no deberían medir el avance por cuántas búsquedas ejecutaron ni por cuánto contexto llenaron. Deberían medirlo por cobertura de evidencia.

Argus le da al campo una forma útil. Su Searcher reúne trazas de evidencia para subconsultas, mientras que su Navigator mantiene un grafo de evidencia compartido, verifica qué piezas siguen faltando, asigna más trabajo de búsqueda y produce una respuesta final trazada a fuentes.¹ Eso aleja la investigación profunda de “ejecutar más agentes” y la acerca a “ensamblar la prueba que falta”.

El mismo patrón aparece en investigaciones recientes sobre agentes. paper.json les da a los artículos afirmaciones direccionables y límites de alcance.² ACDL le da al contexto de los agentes un lenguaje formal de descripción.³ Los trabajos sobre exploración sostienen que los agentes necesitan puntos de verificación comprobables antes de actuar.⁴ ARIS describe la falla central de la investigación de largo horizonte como éxito plausible sin respaldo.⁵ AgentForesight propone auditoría en línea antes de que un error decisivo se propague por una ejecución multiagente.⁶

La regla práctica: toda respuesta de investigación profunda debería llevar un grafo de evidencia o un paquete de revisión que muestre qué probó el agente, qué infirió y qué queda sin resolver.

Puntos clave

Para quienes construyen agentes: - Rastrea la evidencia como un grafo de afirmaciones, fuentes, vacíos y dependencias. - Dirige el trabajo de búsqueda hacia la evidencia faltante en vez de repetir consultas amplias.

Para equipos de producto: - Muestra cobertura de fuentes, afirmaciones sin resolver y desperdicio por búsquedas duplicadas. - Permite que los revisores inspeccionen por qué la respuesta final cita cada fuente.

Para investigadores: - Separa la recopilación de evidencia de la síntesis de la respuesta. - Evalúa cobertura y trazabilidad, no solo la puntuación de la respuesta final.

Para operadores: - Trata un informe largo y seguro como incompleto hasta que el grafo de evidencia cierre sus vacíos importantes. - Pregunta qué afirmaciones todavía carecen de respaldo primario antes de aceptar la respuesta.

¿Por qué se estanca la búsqueda paralela?

La búsqueda paralela se siente como avance.

Dales a 10 agentes la misma pregunta de investigación y el sistema producirá movimiento. Los agentes buscan, resumen, comparan y devuelven hallazgos parciales. La síntesis final puede parecer exhaustiva porque la transcripción contiene muchas fuentes.

La falla se esconde en la redundancia.

Comportamiento de la búsqueda paralela	Modo de falla
Muchos agentes consultan términos similares	Las fuentes se superponen en vez de complementarse.
Cada agente sigue la primera pista prometedora	La evidencia faltante difícil queda intacta.
El contexto se llena de extractos	El sintetizador pierde espacio para razonar sobre los vacíos.
La respuesta final fusiona resúmenes	Las afirmaciones sin respaldo pueden sobrevivir a la fusión.
La revisión empieza en la prosa final	El revisor debe reconstruir la cobertura de evidencia.

Argus nombra ese problema de forma directa. El artículo sostiene que las respuestas de investigación profunda combinan piezas de evidencia complementarias, mientras que las ejecuciones paralelas suelen duplicar esas piezas en vez de completarlas.¹ Más ejecuciones pueden empujar el contexto de agregación hacia su límite sin llenar las partes faltantes.¹

La lección no es “nunca paralelices”. La lección es “paraleliza contra un mapa”.

¿Qué aporta Argus?

Argus divide la investigación profunda en dos roles.

El Searcher recopila trazas de evidencia para una subconsulta mediante interacción estilo ReAct.¹ El Navigator mantiene un grafo de evidencia compartido, verifica qué piezas siguen faltando, asigna Searchers para reunirlas y razona sobre el grafo completo para producir una respuesta final trazada a fuentes.¹

Esa división de roles cambia el objeto de trabajo.

Objeto de trabajo anterior	Objeto de trabajo en Argus
Transcripción de búsqueda	Traza de evidencia
Montón de fuentes	Grafo de evidencia compartido
Abanico de consultas	Asignación según piezas faltantes
Prosa final	Respuesta trazada a fuentes
Síntesis amplia	Síntesis consciente de cobertura

El Navigator le da al agente memoria de lo que todavía le falta a la respuesta. Sin esa capa, los trabajadores paralelos pueden seguir devolviendo evidencia para la misma afirmación fácil.

Argus también reporta mejoras de rendimiento. Con una base MoE 35B-A3B, el artículo informa que Argus mejora 5,5 puntos con un solo Searcher y 12,7 puntos con 8 Searchers paralelos, en promedio sobre 8 bancos de prueba.¹ Lo importante no es solo la puntuación. Lo importante es la arquitectura que vuelve útiles a los Searchers adicionales.

Los Searchers se vuelven útiles porque el Navigator los dirige hacia la evidencia faltante.

¿Qué debería rastrear un grafo de evidencia?

Un grafo de evidencia debería representar la respuesta antes de que la prosa se endurezca alrededor de ella.

Como mínimo, debería rastrear:

Tipo de nodo	Propósito
Afirmación	La oración o subafirmación que la respuesta quiere hacer.
Fuente	La fuente primaria o secundaria que respalda una afirmación.
Evidencia	El extracto exacto, tabla, figura, salida de comando u observación.
Vacío	Una afirmación con respaldo débil, faltante, obsoleto o indirecto.
Conflicto	Dos fuentes u observaciones que discrepan.
Límite de alcance	Una frontera que evita exagerar una afirmación.
Definición	Un término cuyo significado afecta afirmaciones posteriores.
Decisión de tarea	Una elección que hizo el agente por el estado de la evidencia.

Las aristas importan más que los nodos.

Arista	Significado
`supports`	La evidencia respalda una afirmación.
`limits`	El límite de alcance acota una afirmación.
`contradicts`	Una fuente entra en conflicto con una afirmación o fuente.
`depends_on`	Una afirmación necesita otra afirmación o definición.
`missing_for`	Un vacío bloquea una afirmación.
`dispatches`	El Navigator le pide a un Searcher que llene un vacío.
`used_in`	Una oración de la respuesta final depende de una fuente o nodo de evidencia.

El grafo no necesita ceremonia académica de base de datos de grafos. Un objeto JSON, una tabla de trazas o un paquete de revisión pueden servir. La propiedad importante es la inspeccionabilidad: otro revisor puede ver por qué la respuesta dice lo que dice.

¿Por qué los grafos de evidencia ayudan a los revisores?

Los revisores necesitan un objeto más pequeño que toda la transcripción.

Una transcripción de investigación profunda puede incluir decenas de llamadas a herramientas, fuentes, resúmenes, reintentos y notas. El revisor normalmente quiere respuestas a preguntas más precisas:

¿Qué afirmaciones finales tienen respaldo directo?
¿Qué afirmaciones dependen de interpretación secundaria?
¿Qué fuente aparece más de una vez bajo resúmenes distintos?
¿Qué pregunta faltante dejó de perseguir el agente?
¿Qué cita respalda solo contexto, no la afirmación clave?
¿Qué limitación debería acotar la respuesta final?

Un grafo de evidencia les da esa superficie a los revisores.

Pregunta del revisor	Respuesta del grafo de evidencia
¿De dónde salió la afirmación clave?	Nodo de afirmación con aristas `supports`.
¿El agente exageró el artículo?	Arista de límite de alcance vinculada a la afirmación.
¿Los trabajadores duplicaron esfuerzo?	Varias fuentes respaldan el mismo nodo fácil mientras quedan nodos de vacío abiertos.
¿La respuesta puede publicarse?	No quedan nodos de afirmación de alto riesgo sin respaldo.
¿Qué debería hacer otro agente después?	Asignación desde nodos de vacío no resueltos.

Esa forma encaja de manera natural con los paquetes de revisión. Una respuesta final no debería entregar solo prosa. Debería entregar el estado de evidencia que produjo esa prosa.

¿Cómo encaja paper.json?

Los grafos de evidencia necesitan mejores objetos fuente.

Si cada artículo académico entra al grafo como un PDF indiferenciado, el grafo sigue teniendo nodos gruesos. Un nodo de afirmación puede enlazar a un artículo, pero no puede enlazar fácilmente a una subafirmación, un límite de alcance, una definición o un comando de reproducción.

paper.json mejora la capa de entrada. La propuesta les da a los artículos IDs de afirmaciones estables, listas explícitas de lo que no afirman, comandos shell por figura e IDs de definiciones estables.² Un agente de investigación puede usar esos IDs como nodos del grafo.

Superficie del artículo	Nodo del grafo de evidencia
`claims[].id`	Nodo de afirmación.
`does_not_claim[]`	Nodo de límite de alcance.
`definitions[].id`	Nodo de definición.
`reproducibility.commands[]`	Nodo de producción de evidencia.
URL del repositorio	Nodo de fuente.
Versión del esquema	Metadatos de procedencia.

Esa conexión importa para la calidad de las citas. La respuesta puede citar C2 de un artículo en vez de citar vagamente el artículo completo. El grafo también puede registrar que C2 trae una limitación desde does_not_claim[].

Los grafos de evidencia y los artículos legibles por agentes resuelven problemas adyacentes. El archivo del artículo hace que la evidencia sea más fácil de direccionar. El grafo hace que la evidencia sea más fácil de ensamblar.

¿Cómo encaja la descripción del contexto?

Los agentes de investigación profunda también necesitan saber qué entró al contexto y cuándo.

ACDL, el Agentic Context Description Language, aborda ese problema en la capa de instrucciones. El artículo sostiene que los sistemas de agentes carecen de una forma estándar de describir la composición de instrucciones y la dinámica del contexto, y que dependen en cambio de prosa, diagramas o inspección de código.³ ACDL les da a los sistemas construcciones para secuencias de mensajes por rol, contenido dinámico, referencias indexadas en el tiempo y estructura condicional o iterativa.³

Un grafo de evidencia debería conectarse con el estado del contexto.

Hecho de contexto	Riesgo de evidencia
Una fuente entró al contexto antes de una afirmación	El agente puede citarla o parafrasearla.
El límite de alcance no entró al contexto	La prosa final puede exagerar la afirmación.
Una fuente contradictoria llegó tarde	La síntesis puede ignorarla.
El Searcher vio solo una rama	La traza de evidencia puede ser estrecha.
El Navigator asignó una nueva consulta	Un nodo de vacío provocó una búsqueda dirigida.

La forma del contexto afecta la forma de la evidencia. Una fuente no puede respaldar la respuesta si el sintetizador nunca vio el pasaje relevante. Una limitación no puede restringir la respuesta si nadie la puso en el contexto.

Los sistemas de investigación profunda necesitan ambos objetos: una descripción del contexto y un grafo de evidencia.

¿Por qué importa la exploración?

Los agentes de investigación pueden explotar demasiado pronto.

“Look Before You Leap” identifica la explotación prematura como un modo de falla de los agentes LLM en entornos desconocidos.⁴ El artículo presenta Exploration Checkpoint Coverage como una métrica verificable para determinar si los agentes descubren estados, objetos y posibilidades de acción clave antes de ejecutar una tarea.⁴

La investigación profunda tiene la misma forma. Los agentes pueden encontrar una pista plausible y empezar a responder antes de entender el espacio de fuentes.

Un grafo de evidencia debería preservar una fase de exploración:

Identificar las clases de afirmaciones que necesitará la respuesta.
Mapear los tipos probables de fuentes.
Buscar fuentes primarias antes que comentarios.
Registrar las clases de fuentes faltantes como nodos de vacío.
Asignar búsquedas dirigidas para esos vacíos.
Sintetizar solo después de que los vacíos importantes se cierren o reciban salvedades explícitas.

Esa fase de exploración impide que el agente trate la primera buena fuente como el centro de la respuesta.

El grafo le da al agente una razón para seguir buscando: un vacío abierto sigue visible.

¿Qué sale mal sin el grafo?

Los agentes de investigación de larga ejecución pueden fallar sin parecer rotos.

ARIS describe la falla central como éxito plausible sin respaldo: un agente de larga ejecución produce afirmaciones cuyo respaldo de evidencia sigue incompleto, mal reportado o heredado de su propio encuadre.⁵ Esa falla puede pasar una revisión casual porque el informe final se ve pulido.

AgentForesight ataca un problema relacionado en sistemas multiagente. Sostiene que un solo error decisivo puede propagarse por una trayectoria de largo horizonte, mientras que la atribución posterior llega demasiado tarde para intervenir.⁶ Su auditor en línea ve solo el prefijo actual y debe decidir si continúa o dispara una alarma antes de que termine la trayectoria completa.⁶

Los grafos de evidencia ayudan con ambos problemas.

Falla	Respuesta del grafo
Éxito plausible sin respaldo	Los nodos de afirmación sin respaldo siguen visibles.
Respaldo de fuente mal reportado	Las aristas `supports` pueden contrastarse con los extractos.
Encuadre heredado	Los nodos de alcance y conflicto desafían el encuadre inicial.
Error decisivo en cascada	Los nodos de vacío o conflicto pueden activar una pausa antes de la síntesis.
Sobrecarga de revisión posterior	El revisor inspecciona el estado del grafo, no solo la prosa final.

El grafo no garantiza la verdad. Le da a la verdad una estructura que el equipo puede auditar.

¿Qué deberían mostrar los productos de investigación profunda?

Los productos de investigación profunda deberían exponer el estado de la evidencia.

Un usuario no debería ver solo una respuesta final con notas al pie. La interfaz debería mostrar:

Superficie	Valor para el usuario
Cobertura de afirmaciones	Qué afirmaciones tienen respaldo directo, indirecto o faltante.
Grafo de evidencia	Cómo se conectan las fuentes con las secciones de la respuesta.
Lista de vacíos	Qué preguntas siguen sin respuesta.
Grupo de fuentes duplicadas	Dónde los trabajadores de búsqueda repitieron esfuerzo.
Lista de conflictos	Qué fuentes discrepan.
Límites de alcance	Qué salvedades restringen la respuesta.
Traza de fuente	Qué búsqueda o lectura produjo cada nodo de evidencia.
Decisión del revisor	Conservar, revisar, bloquear o seguir investigando.

Esa interfaz les da a los usuarios una forma de dirigir la ejecución. Pueden pedirle al agente que llene un vacío específico en vez de decir “investiga más”. Pueden rechazar una afirmación débil sin descartar toda la respuesta. Pueden ver cuándo el agente tiene suficiente evidencia para detenerse.

Una buena UX de investigación profunda debería hacer visible la evidencia faltante antes de que la prosa final la oculte.

¿Qué deberían construir primero los equipos?

Empieza con una tabla de evidencia simple antes de construir un motor de grafos.

Campo	Forma mínima
ID de afirmación	`claim_01`, `claim_02` o ID de afirmación importado del artículo.
Texto de la afirmación	La oración que la respuesta quiere respaldar.
URL de la fuente	URL canónica o ID del artículo.
Extracto de evidencia	Pasaje o resultado breve respaldado por la fuente.
Tipo de respaldo	Directo, indirecto, contexto, conflicto o faltante.
Límite de alcance	Salvedad que acota la afirmación.
Traza de búsqueda	Consulta, herramienta, marca de tiempo y rol del agente.
Estado	Respaldada, débil, en conflicto, faltante o rechazada.

Luego agrega asignación:

Antes de sintetizar, enumera todas las afirmaciones faltantes de alto valor.
Envía cada afirmación faltante a un Searcher con una consulta estrecha.
Exige que el Searcher devuelva evidencia o una ausencia explícita.
Actualiza el grafo.
Sintetiza solo a partir de afirmaciones respaldadas y matizadas.

Esa primera versión puede seguir siendo sencilla. Una tabla Markdown puede superar a una transcripción invisible si obliga al agente a mostrar cobertura de evidencia.

El estándar digno

Los agentes de investigación profunda deberían ganarse la confianza mostrando su estructura de evidencia.

Más búsquedas pueden ayudar. Más agentes pueden ayudar. Un contexto más largo puede ayudar. Ninguna de esas entradas demuestra que la respuesta final haya cubierto las piezas faltantes.

Una ejecución de investigación profunda digna debería responder 4 preguntas:

¿Qué afirmaciones intentó probar el agente?
¿Qué fuentes respaldan cada afirmación?
¿Qué vacíos o conflictos quedan?
¿Qué oraciones finales dependen de qué evidencia?

Cuando esas respuestas siguen visibles, los usuarios pueden revisar el trabajo. Cuando desaparecen dentro de una prosa pulida, los usuarios deben confiar en un resumen sin ver la forma de la prueba.

La investigación profunda necesita grafos de evidencia porque investigar no es un problema de contar búsquedas. Es un problema de encontrar y ensamblar piezas faltantes.

Resumen breve

Los agentes de investigación profunda necesitan grafos de evidencia porque la búsqueda paralela puede duplicar grupos de fuentes fáciles mientras afirmaciones importantes siguen sin respaldo. Argus ofrece un patrón sólido: un Searcher reúne trazas de evidencia, mientras que un Navigator rastrea un grafo de evidencia compartido, asigna trabajo hacia las piezas faltantes y produce una respuesta trazada a fuentes.¹

La misma lección se conecta con investigaciones adyacentes. paper.json mejora los objetos fuente a nivel de artículo.² ACDL describe cómo entra el contexto a los sistemas de agentes.³ Los puntos de verificación de exploración hacen comprobable la recopilación de información.⁴ ARIS y AgentForesight muestran por qué las salidas pulidas de largo horizonte necesitan evidencia y revisión en línea antes de que los errores se propaguen.⁵⁶

La regla operativa es directa: no le pidas a un agente de investigación profunda solo una respuesta. Pídele el grafo de evidencia que hizo posible esa respuesta.

Preguntas frecuentes

¿Qué es un grafo de evidencia para agentes de investigación profunda?

Un grafo de evidencia conecta afirmaciones, fuentes, extractos, vacíos, conflictos, límites de alcance y oraciones de la respuesta final. Permite que los revisores vean qué evidencia respalda cada parte de una respuesta de investigación profunda.

¿Por qué la búsqueda paralela no basta?

La búsqueda paralela puede duplicar fuentes y llenar el contexto sin encontrar la evidencia faltante. Los agentes de investigación profunda necesitan un mapa compartido de lo que todavía le falta a la respuesta.

¿Qué aportó Argus?

Argus dividió la investigación profunda en los roles Searcher y Navigator. El Searcher reúne trazas de evidencia, mientras que el Navigator mantiene un grafo de evidencia compartido, asigna búsquedas para las piezas faltantes y produce una respuesta final trazada a fuentes.¹

¿Cómo se relaciona paper.json con los grafos de evidencia?

paper.json les da a los artículos académicos IDs de afirmaciones estables, límites de alcance, definiciones y comandos de reproducción. Los grafos de evidencia pueden usar esos IDs como nodos precisos en vez de citar vagamente un artículo completo.²

¿Qué debería mostrarles un producto a los usuarios?

Un producto debería mostrar cobertura de afirmaciones, enlaces de evidencia, vacíos sin resolver, grupos de búsqueda duplicada, conflictos entre fuentes, límites de alcance y decisiones de revisión antes de pedirles a los usuarios que confíen en la prosa final.

Referencias

Zhen Zhang, Liangcai Su, Zhuo Chen, Xiang Lin, Haotian Xu, Simon Shaolei Du, Kaiyu Yang, Bo An, Lidong Bing, and Xinyu Wang, “Argus: Evidence Assembly for Scalable Deep Research Agents,” arXiv:2605.16217v1, enviado el 15 de mayo de 2026. Fuente para el diseño Searcher/Navigator, el grafo de evidencia compartido, la asignación según piezas faltantes, las respuestas finales trazadas a fuentes y las mejoras de puntuación reportadas. ↩↩↩↩↩↩↩↩↩
Arquimedes Canedo, “paper.json: A Coordination Convention for LLM-Agent-Actionable Papers,” arXiv:2605.16194v1, enviado el 15 de mayo de 2026. Fuente para IDs de afirmaciones estables, listas explícitas de lo que no se afirma, comandos de reproducción por figura, IDs de definiciones estables y la necesidad de superficies de artículos legibles por agentes. ↩↩↩↩
Noga Peleg Pelc, Gal A. Kaminka, and Yoav Goldberg, “A Language for Describing Agentic LLM Contexts,” arXiv:2605.01920v1, enviado el 3 de mayo de 2026. Fuente para ACDL, composición del contexto, dinámica del contexto, secuencias de mensajes por rol, contenido dinámico, referencias indexadas en el tiempo y la crítica a las descripciones informales del contexto. ↩↩↩↩
Ziang Ye, Wentao Shi, Yuxin Liu, Yu Wang, Zhengzhou Cai, Yaorui Shi, Qi Gu, Xunliang Cai, and Fuli Feng, “Look Before You Leap: Autonomous Exploration for LLM Agents,” arXiv:2605.16143v1, enviado el 15 de mayo de 2026. Fuente para la explotación prematura, Exploration Checkpoint Coverage y el marco Explore-then-Act. ↩↩↩↩
Ruofeng Yang, Yongcan Li, and Shuai Li, “ARIS: Autonomous Research via Adversarial Multi-Agent Collaboration,” arXiv:2605.03042v1, enviado el 4 de mayo de 2026. Fuente para el modo de falla de éxito plausible sin respaldo en agentes de investigación de larga ejecución y la necesidad de revisión adversarial de artefactos intermedios de investigación. ↩↩↩
Yiming Zhang, Pei Zhou, Jiahao Liu, Yifan Chen, Runzhe Yang, Zhenhailong Wang, Jiayi Pan, Chen Qian, Dong Li, and Heng Ji, “AgentForesight: Online Auditing for Early Failure Prediction in Multi-Agent Systems,” arXiv:2605.08715v2, revisado el 13 de mayo de 2026. Fuente para cascadas de errores decisivos, auditoría en línea, revisión de prefijos de trayectoria y encuadre de alarma temprana. ↩↩↩↩