Les agents de recherche approfondie ont besoin de graphes de preuves
Le 15 mai 2026, Zhen Zhang et ses coauteurs ont publié Argus, un système d’agent de recherche approfondie qui traite la recherche comme un assemblage de preuves plutôt que comme une recherche parallèle menée en force brute.1
Cette distinction compte.
Les agents de recherche approfondie peuvent lancer de nombreuses recherches, ouvrir de nombreuses pages et rédiger de longues réponses. Une longue réponse ne prouve pas que l’agent a trouvé les preuves manquantes. La recherche parallèle peut dupliquer le même groupe de sources, ajouter davantage d’extraits au contexte et laisser malgré tout la partie difficile sans appui.
Les agents de recherche approfondie ont besoin de graphes de preuves. L’agent doit savoir quelles affirmations ont besoin d’un appui, quels éléments de preuve existent déjà, lesquels manquent encore et quelles phrases finales dépendent de quelles sources.
TL;DR
Les agents de recherche approfondie ne devraient pas mesurer leur progression au nombre de recherches lancées ni à la quantité de contexte remplie. Ils devraient la mesurer à la couverture des preuves.
Argus donne au domaine une forme utile. Son Searcher recueille des traces de preuves pour des sous-requêtes, tandis que son Navigator maintient un graphe de preuves partagé, vérifie quels éléments manquent encore, répartit du travail de recherche supplémentaire et produit une réponse finale traçable jusqu’aux sources.1 Cela éloigne la recherche approfondie de la logique « lancer plus d’agents » pour la rapprocher de « assembler la preuve manquante ».
Le même motif apparaît dans les recherches récentes sur les agents. paper.json donne aux articles des affirmations adressables et des limites de portée.2 ACDL fournit un langage formel pour décrire le contexte des agents.3 Les travaux sur l’exploration soutiennent que les agents ont besoin de points de contrôle vérifiables avant d’agir.4 ARIS présente l’échec central de la recherche au long cours comme un succès plausible mais insuffisamment étayé.5 AgentForesight défend l’audit en ligne avant qu’une erreur décisive ne se propage dans une exécution multi-agent.6
La règle pratique est simple : toute réponse de recherche approfondie devrait s’accompagner d’un graphe de preuves ou d’un dossier de revue capable de montrer ce que l’agent a prouvé, ce qu’il a inféré et ce qui reste irrésolu.
Points clés
Pour les concepteurs d’agents : - Suivez les preuves sous forme de graphe reliant affirmations, sources, lacunes et dépendances. - Orientez le travail de recherche vers les preuves manquantes au lieu de répéter des requêtes larges.
Pour les équipes produit : - Montrez la couverture des sources, les affirmations non résolues et le gaspillage dû aux recherches dupliquées. - Permettez aux relecteurs d’inspecter pourquoi la réponse finale cite chaque source.
Pour les chercheurs : - Séparez la collecte de preuves de la synthèse de la réponse. - Évaluez la couverture et la traçabilité, pas seulement le score de la réponse finale.
Pour les opérateurs : - Considérez un long rapport assuré comme inachevé tant que le graphe de preuves n’a pas comblé ses lacunes importantes. - Demandez quelles affirmations manquent encore d’appui primaire avant d’accepter la réponse.
Pourquoi la recherche parallèle s’enlise-t-elle ?
La recherche parallèle donne une impression de progrès.
Confiez la même question de recherche à 10 agents, et le système produit du mouvement. Les agents cherchent, résument, comparent et renvoient des résultats partiels. La synthèse finale peut sembler approfondie parce que la transcription contient de nombreuses sources.
L’échec se cache dans la redondance.
| Comportement de recherche parallèle | Mode d’échec |
|---|---|
| De nombreux agents interrogent des termes proches | Les sources se recouvrent au lieu de se compléter. |
| Chaque agent suit la première piste prometteuse | Les preuves difficiles qui manquent restent intactes. |
| Le contexte se remplit d’extraits | Le synthétiseur manque d’espace pour raisonner sur les lacunes. |
| La réponse finale fusionne des résumés | Des affirmations non étayées peuvent survivre à la fusion. |
| La revue commence par la prose finale | Le relecteur doit reconstituer la couverture des preuves. |
Argus nomme directement ce problème. L’article soutient que les réponses de recherche approfondie combinent des éléments de preuve complémentaires, tandis que les déroulements parallèles dupliquent souvent ces éléments au lieu de les compléter.1 Davantage de déroulements peuvent pousser le contexte d’agrégation vers sa limite sans combler les parties manquantes.1
La leçon n’est pas « ne jamais paralléliser ». La leçon est : « paralléliser à partir d’une carte ».
Qu’apporte Argus ?
Argus divise la recherche approfondie en deux rôles.
Le Searcher collecte des traces de preuves pour une sous-requête au moyen d’une interaction de style ReAct.1 Le Navigator maintient un graphe de preuves partagé, vérifie quels éléments manquent encore, envoie des Searchers recueillir ces éléments et raisonne sur le graphe complété pour produire une réponse finale traçable jusqu’aux sources.1
Cette répartition des rôles change l’objet de travail.
| Ancien objet de travail | Objet de travail dans Argus |
|---|---|
| Transcription de recherche | Trace de preuve |
| Amas de sources | Graphe de preuves partagé |
| Éventail de requêtes | Répartition selon les éléments manquants |
| Prose finale | Réponse traçable jusqu’aux sources |
| Synthèse large | Synthèse attentive à la couverture |
Le Navigator donne à l’agent une mémoire de ce qui manque encore à la réponse. Sans cette couche, les travailleurs parallèles peuvent continuer à rapporter des preuves pour la même affirmation facile.
Argus rapporte aussi des gains de performance. Avec une base MoE 35B-A3B, l’article indique qu’Argus gagne 5,5 points avec un seul Searcher et 12,7 points avec 8 Searchers parallèles, en moyenne sur 8 benchmarks.1 Le détail important n’est pas seulement le score. C’est l’architecture qui rend les Searchers supplémentaires utiles.
Les Searchers deviennent utiles parce que le Navigator les dirige vers les preuves manquantes.
Que doit suivre un graphe de preuves ?
Un graphe de preuves devrait représenter la réponse avant que la prose ne la fige.
Au minimum, il devrait suivre :
| Type de nœud | Rôle |
|---|---|
| Affirmation | La phrase ou sous-affirmation que la réponse veut formuler. |
| Source | La source primaire ou secondaire qui soutient une affirmation. |
| Preuve | L’extrait exact, le tableau, la figure, la sortie de commande ou l’observation. |
| Lacune | Une affirmation avec un appui faible, manquant, obsolète ou indirect. |
| Conflit | Deux sources ou observations qui se contredisent. |
| Limite de portée | Une frontière qui évite la suraffirmation. |
| Définition | Un terme dont le sens affecte les affirmations en aval. |
| Décision de tâche | Un choix effectué par l’agent en fonction de l’état des preuves. |
Les arêtes comptent plus que les nœuds.
| Arête | Signification |
|---|---|
supports |
Une preuve soutient une affirmation. |
limits |
Une limite de portée restreint une affirmation. |
contradicts |
Une source contredit une affirmation ou une autre source. |
depends_on |
Une affirmation nécessite une autre affirmation ou définition. |
missing_for |
Une lacune bloque une affirmation. |
dispatches |
Le Navigator demande à un Searcher de combler une lacune. |
used_in |
Une phrase finale dépend d’une source ou d’un nœud de preuve. |
Le graphe n’a pas besoin du cérémonial universitaire d’une base de données orientée graphe. Un objet JSON, une table de traces ou un dossier de revue peuvent suffire. La propriété essentielle est l’inspectabilité : un autre relecteur peut voir pourquoi la réponse dit ce qu’elle dit.
Pourquoi les graphes de preuves aident-ils les relecteurs ?
Les relecteurs ont besoin d’un objet plus petit que toute la transcription.
Une transcription de recherche approfondie peut inclure des dizaines d’appels d’outils, de sources, de résumés, de nouvelles tentatives et de notes. Le relecteur veut généralement des réponses à des questions plus précises :
- Quelles affirmations finales ont un appui direct ?
- Quelles affirmations dépendent d’une interprétation secondaire ?
- Quelle source apparaît plusieurs fois sous des résumés différents ?
- Quelle question manquante l’agent a-t-il cessé de poursuivre ?
- Quelle citation soutient seulement le contexte, et non l’affirmation clé ?
- Quelle limitation devrait restreindre la réponse finale ?
Un graphe de preuves offre cette surface.
| Question du relecteur | Réponse du graphe de preuves |
|---|---|
| D’où vient l’affirmation clé ? | Nœud d’affirmation avec arêtes supports. |
| L’agent a-t-il exagéré la portée de l’article ? | Arête de limite de portée attachée à l’affirmation. |
| Les travailleurs ont-ils dupliqué leurs efforts ? | Plusieurs sources soutiennent le même nœud facile tandis que des nœuds de lacune restent ouverts. |
| La réponse peut-elle être publiée ? | Aucun nœud d’affirmation à haut risque ne reste sans appui. |
| Que devrait faire ensuite un autre agent ? | Répartition depuis les nœuds de lacune non résolus. |
Cette forme s’accorde naturellement avec les dossiers de revue. Une réponse finale ne devrait pas seulement fournir de la prose. Elle devrait fournir l’état des preuves qui a produit cette prose.
Où se place paper.json ?
Les graphes de preuves ont besoin de meilleurs objets source.
Si chaque article scientifique entre dans le graphe comme un PDF indifférencié, le graphe conserve des nœuds grossiers. Un nœud d’affirmation peut pointer vers un article, mais il ne peut pas facilement pointer vers une sous-affirmation, une limite de portée, une définition ou une commande de reproduction.
paper.json améliore la couche d’entrée. La proposition donne aux articles des identifiants d’affirmations stables, des listes explicites de ce qu’ils ne prétendent pas, des commandes shell par figure et des identifiants de définitions stables.2 Un agent de recherche peut utiliser ces identifiants comme nœuds de graphe.
| Surface de l’article | Nœud du graphe de preuves |
|---|---|
claims[].id |
Nœud d’affirmation. |
does_not_claim[] |
Nœud de limite de portée. |
definitions[].id |
Nœud de définition. |
reproducibility.commands[] |
Nœud de production de preuve. |
| URL du dépôt | Nœud source. |
| Version du schéma | Métadonnées de provenance. |
Ce lien compte pour la qualité des citations. La réponse peut citer C2 dans un article plutôt que de citer vaguement l’article entier. Le graphe peut aussi enregistrer que C2 porte une limitation issue de does_not_claim[].
Les graphes de preuves et les articles lisibles par les agents résolvent des problèmes voisins. Le fichier de l’article rend les preuves plus faciles à adresser. Le graphe rend les preuves plus faciles à assembler.
Où se place la description du contexte ?
Les agents de recherche approfondie doivent aussi savoir ce qui est entré dans le contexte, et à quel moment.
ACDL, l’Agentic Context Description Language, cible ce problème au niveau du prompt. L’article soutient que les systèmes d’agents manquent d’un moyen standard de décrire la composition des prompts et la dynamique du contexte, et s’appuient plutôt sur de la prose, des schémas ou l’inspection du code.3 ACDL fournit des constructions pour les séquences de messages par rôle, le contenu dynamique, les références indexées dans le temps et les structures conditionnelles ou itératives.3
Un graphe de preuves devrait se connecter à l’état du contexte.
| Fait de contexte | Risque pour les preuves |
|---|---|
| Une source est entrée dans le contexte avant une affirmation | L’agent peut la citer ou la paraphraser. |
| Une limite de portée n’est pas entrée dans le contexte | La prose finale peut suraffirmer. |
| Une source contradictoire est arrivée tard | La synthèse peut l’ignorer. |
| Le Searcher n’a vu qu’une seule branche | La trace de preuve peut être étroite. |
| Le Navigator a envoyé une nouvelle requête | Un nœud de lacune a déclenché une recherche ciblée. |
La forme du contexte influence la forme des preuves. Une source ne peut pas soutenir la réponse si le synthétiseur n’a jamais vu le passage pertinent. Une limitation ne peut pas contraindre la réponse si personne ne l’a mise dans le contexte.
Les systèmes de recherche approfondie ont besoin des deux objets : une description du contexte et un graphe de preuves.
Pourquoi l’exploration compte-t-elle ?
Les agents de recherche peuvent exploiter trop tôt.
« Look Before You Leap » identifie l’exploitation prématurée comme un mode d’échec pour les agents LLM dans des environnements inconnus.4 L’article introduit l’Exploration Checkpoint Coverage comme métrique vérifiable pour déterminer si les agents découvrent les états, objets et possibilités clés avant l’exécution de la tâche.4
La recherche approfondie suit la même logique. Les agents peuvent trouver une piste plausible et commencer à répondre avant de comprendre l’espace des sources.
Un graphe de preuves devrait préserver une phase d’exploration :
- Identifier les classes d’affirmations dont la réponse aura besoin.
- Cartographier les types de sources probables.
- Chercher des sources primaires avant les commentaires.
- Enregistrer les classes de sources manquantes comme nœuds de lacune.
- Envoyer des recherches ciblées pour combler les lacunes.
- Ne synthétiser qu’après la fermeture des lacunes importantes ou l’ajout de réserves explicites.
Cette phase d’exploration empêche l’agent de traiter la première bonne source comme le centre de la réponse.
Le graphe donne à l’agent une raison de continuer à chercher : une lacune ouverte reste visible.
Que se passe-t-il sans graphe ?
Les agents de recherche au long cours peuvent échouer sans paraître défaillants.
ARIS présente l’échec central comme un succès plausible non étayé : un agent au long cours produit des affirmations dont l’appui probatoire reste incomplet, mal rapporté ou hérité de son propre cadrage.5 Cet échec peut passer une revue superficielle parce que le rapport final semble soigné.
AgentForesight attaque un problème voisin dans les systèmes multi-agents. Il soutient qu’une seule erreur décisive peut se propager dans une trajectoire longue, tandis que l’attribution a posteriori arrive trop tard pour intervenir.6 Son auditeur en ligne ne voit que le préfixe courant et doit décider s’il faut continuer ou déclencher une alerte avant la fin de la trajectoire complète.6
Les graphes de preuves aident dans les deux cas.
| Échec | Réponse du graphe |
|---|---|
| Succès plausible non étayé | Les nœuds d’affirmation sans appui restent visibles. |
| Appui de source mal rapporté | Les arêtes supports peuvent être vérifiées contre les extraits. |
| Cadrage hérité | Les nœuds de portée et de conflit contestent le cadrage initial. |
| Erreur décisive en cascade | Les nœuds de lacune ou de conflit peuvent déclencher une pause avant la synthèse. |
| Surcharge de revue a posteriori | Le relecteur inspecte l’état du graphe, pas seulement la prose finale. |
Le graphe ne garantit pas la vérité. Il donne à la vérité une structure que l’équipe peut auditer.
Que devraient montrer les produits de recherche approfondie ?
Les produits de recherche approfondie devraient exposer l’état des preuves.
Un utilisateur ne devrait pas seulement voir une réponse finale avec des notes de bas de page. L’interface devrait montrer :
| Surface | Valeur pour l’utilisateur |
|---|---|
| Couverture des affirmations | Quelles affirmations ont un appui direct, indirect ou manquant. |
| Graphe de preuves | Comment les sources se relient aux sections de la réponse. |
| Liste des lacunes | Quelles questions restent sans réponse. |
| Groupe de sources dupliquées | Où les travailleurs de recherche ont répété leurs efforts. |
| Liste des conflits | Quelles sources se contredisent. |
| Limites de portée | Quelles réserves contraignent la réponse. |
| Trace de source | Quelle recherche ou lecture a produit chaque nœud de preuve. |
| Décision de revue | Conserver, réviser, bloquer ou poursuivre la recherche. |
Cette interface donne aux utilisateurs un moyen de piloter l’exécution. Ils peuvent demander à l’agent de combler une lacune précise au lieu de dire « approfondissez la recherche ». Ils peuvent rejeter une affirmation faible sans jeter toute la réponse. Ils peuvent voir quand l’agent dispose de suffisamment de preuves pour s’arrêter.
Une bonne UX de recherche approfondie devrait rendre les preuves manquantes visibles avant que la prose finale ne les dissimule.
Que devraient construire les équipes en premier ?
Commencez par une simple table de preuves avant de construire un moteur de graphe.
| Champ | Forme minimale |
|---|---|
| ID d’affirmation | claim_01, claim_02 ou ID d’affirmation importé depuis un article. |
| Texte de l’affirmation | La phrase que la réponse veut soutenir. |
| URL de source | URL canonique ou ID d’article. |
| Extrait de preuve | Court passage ou résultat appuyé par une source. |
| Type d’appui | Direct, indirect, contexte, conflit ou manquant. |
| Limite de portée | Réserve qui restreint l’affirmation. |
| Trace de recherche | Requête, outil, horodatage et rôle de l’agent. |
| Statut | Étayé, faible, contradictoire, manquant ou refusé. |
Ajoutez ensuite la répartition du travail :
- Avant la synthèse, listez toutes les affirmations manquantes à forte valeur.
- Envoyez chaque affirmation manquante à un Searcher avec une requête étroite.
- Exigez du Searcher qu’il renvoie une preuve ou un échec explicite.
- Mettez à jour le graphe.
- Synthétisez uniquement à partir d’affirmations étayées et assorties de réserves.
Cette première version peut rester simple. Une table Markdown peut valoir mieux qu’une transcription invisible si elle force l’agent à montrer la couverture des preuves.
Le niveau d’exigence digne de confiance
Les agents de recherche approfondie devraient gagner la confiance en montrant la structure de leurs preuves.
Plus de recherches peuvent aider. Plus d’agents peuvent aider. Un contexte plus long peut aider. Aucune de ces entrées ne prouve que la réponse finale a couvert les éléments manquants.
Une exécution de recherche approfondie digne de confiance devrait répondre à 4 questions :
- Quelles affirmations l’agent a-t-il tenté de prouver ?
- Quelles sources soutiennent chaque affirmation ?
- Quelles lacunes ou conflits restent ouverts ?
- Quelles phrases finales dépendent de quelles preuves ?
Quand ces réponses restent visibles, les utilisateurs peuvent revoir le travail. Quand elles disparaissent dans une prose soignée, les utilisateurs doivent faire confiance à un résumé sans voir la forme de la preuve.
La recherche approfondie a besoin de graphes de preuves parce que la recherche n’est pas un problème de nombre de recherches. C’est un problème d’éléments manquants.
Résumé rapide
Les agents de recherche approfondie ont besoin de graphes de preuves parce que la recherche parallèle peut dupliquer des groupes de sources faciles tandis que des affirmations importantes restent sans appui. Argus fournit un modèle solide : un Searcher recueille des traces de preuves, tandis qu’un Navigator suit un graphe de preuves partagé, oriente le travail vers les éléments manquants et produit une réponse traçable jusqu’aux sources.1
La même leçon rejoint des travaux voisins. paper.json améliore les objets source au niveau des articles.2 ACDL décrit comment le contexte entre dans les systèmes d’agents.3 Les points de contrôle d’exploration rendent la collecte d’informations vérifiable.4 ARIS et AgentForesight montrent pourquoi les sorties longues et soignées ont besoin de preuves et d’une revue en ligne avant que les erreurs ne se propagent.56
La règle opérationnelle est directe : ne demandez pas seulement une réponse à un agent de recherche approfondie. Demandez le graphe de preuves qui a rendu cette réponse possible.
FAQ
Qu’est-ce qu’un graphe de preuves pour agents de recherche approfondie ?
Un graphe de preuves relie les affirmations, sources, extraits, lacunes, conflits, limites de portée et phrases de réponse finale. Il permet aux relecteurs de voir quelles preuves soutiennent chaque partie d’une réponse de recherche approfondie.
Pourquoi la recherche parallèle ne suffit-elle pas ?
La recherche parallèle peut dupliquer les sources et remplir le contexte sans trouver les preuves manquantes. Les agents de recherche approfondie ont besoin d’une carte partagée de ce qui manque encore à la réponse.
Quelle a été la contribution d’Argus ?
Argus a divisé la recherche approfondie entre les rôles Searcher et Navigator. Le Searcher recueille des traces de preuves, tandis que le Navigator maintient un graphe de preuves partagé, lance des recherches pour les éléments manquants et produit une réponse finale traçable jusqu’aux sources.1
Quel est le lien entre paper.json et les graphes de preuves ?
paper.json donne aux articles scientifiques des identifiants d’affirmations stables, des limites de portée, des définitions et des commandes de reproduction. Les graphes de preuves peuvent utiliser ces identifiants comme nœuds précis au lieu de citer vaguement tout un article.2
Que devrait montrer un produit aux utilisateurs ?
Un produit devrait montrer la couverture des affirmations, les liens vers les preuves, les lacunes non résolues, les groupes de recherches dupliquées, les conflits entre sources, les limites de portée et les décisions de revue avant de demander aux utilisateurs de faire confiance à la prose finale.
Références
-
Zhen Zhang, Liangcai Su, Zhuo Chen, Xiang Lin, Haotian Xu, Simon Shaolei Du, Kaiyu Yang, Bo An, Lidong Bing, and Xinyu Wang, “Argus: Evidence Assembly for Scalable Deep Research Agents,” arXiv:2605.16217v1, soumis le 15 mai 2026. Source pour la conception Searcher/Navigator, le graphe de preuves partagé, la répartition selon les éléments manquants, les réponses finales traçables jusqu’aux sources et les gains de score rapportés. ↩↩↩↩↩↩↩↩↩
-
Arquimedes Canedo, “paper.json: A Coordination Convention for LLM-Agent-Actionable Papers,” arXiv:2605.16194v1, soumis le 15 mai 2026. Source pour les identifiants d’affirmations stables, les listes explicites de ce qui n’est pas affirmé, les commandes de reproduction par figure, les identifiants de définitions stables et le besoin de surfaces d’articles lisibles par les agents. ↩↩↩↩
-
Noga Peleg Pelc, Gal A. Kaminka, and Yoav Goldberg, “A Language for Describing Agentic LLM Contexts,” arXiv:2605.01920v1, soumis le 3 mai 2026. Source pour ACDL, la composition du contexte, la dynamique du contexte, les séquences de messages par rôle, le contenu dynamique, les références indexées dans le temps et la critique des descriptions informelles du contexte. ↩↩↩↩
-
Ziang Ye, Wentao Shi, Yuxin Liu, Yu Wang, Zhengzhou Cai, Yaorui Shi, Qi Gu, Xunliang Cai, and Fuli Feng, “Look Before You Leap: Autonomous Exploration for LLM Agents,” arXiv:2605.16143v1, soumis le 15 mai 2026. Source pour l’exploitation prématurée, l’Exploration Checkpoint Coverage et le cadrage Explore-then-Act. ↩↩↩↩
-
Ruofeng Yang, Yongcan Li, and Shuai Li, “ARIS: Autonomous Research via Adversarial Multi-Agent Collaboration,” arXiv:2605.03042v1, soumis le 4 mai 2026. Source pour le mode d’échec du succès plausible non étayé chez les agents de recherche au long cours et le besoin d’une revue contradictoire des artefacts de recherche intermédiaires. ↩↩↩
-
Yiming Zhang, Pei Zhou, Jiahao Liu, Yifan Chen, Runzhe Yang, Zhenhailong Wang, Jiayi Pan, Chen Qian, Dong Li, and Heng Ji, “AgentForesight: Online Auditing for Early Failure Prediction in Multi-Agent Systems,” arXiv:2605.08715v2, révisé le 13 mai 2026. Source pour les cascades d’erreurs décisives, l’audit en ligne, la revue des préfixes de trajectoire et le cadrage par alerte précoce. ↩↩↩↩