Les agents IA ont besoin de points de contrôle d’exploration

17 min de lecture

Le 15 mai 2026, Ziang Ye et ses coauteurs ont publié « Look Before You Leap », un article qui donne un nom mesurable à un échec fréquent des agents : l’exploitation prématurée.¹

Un agent observe un environnement partiel, suppose que les zones manquantes ressemblent à ce qu’il connaît déjà, puis agit avant d’avoir mérité son plan. Cet échec peut passer pour de l’assurance. Il peut aussi passer pour de la rapidité. Le vrai défaut se situe plus tôt : l’agent a sauté la phase de découverte.

Les agents IA ont besoin de points de contrôle d’exploration. Avant d’agir dans un environnement inconnu, un agent doit prouver quels états, objets, possibilités d’action, contraintes et cas d’échec il a découverts.

TL;DR

Les agents IA ne devraient pas commencer une exécution importante à partir d’un plan générique. Ils devraient d’abord cartographier suffisamment l’environnement pour éliminer les hypothèses fragiles.

« Look Before You Leap » introduit l’Exploration Checkpoint Coverage, une métrique qui mesure la part d’un ensemble prédéfini de faits importants sur l’environnement qu’un agent découvre pendant l’exploration.¹ L’article propose aussi Explore-then-Act : une phase d’exploration séparée avant l’exécution de la tâche.¹

La règle pratique est simple : donnez aux agents un budget d’exploration, exigez des preuves pour les points de contrôle, puis autorisez l’exécution. Un point de contrôle peut être un objet vérifié, un état atteignable, une possibilité d’action d’un outil, une contrainte d’UI, une frontière dans une base de code, une affirmation sourcée ou une action échouée qui modifie le plan.

Les points de contrôle d’exploration comptent parce qu’un long contexte, des appels d’outils rapides et une prose assurée ne prouvent pas la découverte. L’agent doit montrer la carte.

Points clés

Pour les concepteurs d’agents : - Séparez l’exploration de l’exécution lorsque l’environnement peut surprendre l’agent. - Suivez les états, objets, possibilités d’action, contraintes et hypothèses invalidées qui ont été découverts.

Pour les équipes produit : - Montrez aux réviseurs quels points de contrôle l’agent a couverts avant d’agir. - Bloquez les étapes destructrices ou coûteuses tant que les points de contrôle requis ne sont pas validés.

Pour les équipes d’évaluation : - Mesurez la couverture de découverte, pas seulement la réussite finale de la tâche. - Pénalisez l’exploration répétitive et les modèles du monde génériques qui prétendent savoir sans preuve.

Pour les opérateurs : - Demandez ce que l’agent a vérifié avant d’accepter le plan. - Méfiez-vous d’une réponse rapide lorsque l’environnement était inconnu.

Pourquoi les agents agissent-ils trop tôt ?

La plupart des boucles d’agents récompensent les progrès visibles.

L’agent reçoit un objectif. Il raisonne, appelle un outil, observe la sortie, met à jour le plan, puis appelle un autre outil. ReAct a rendu cette alternance utile en permettant aux modèles de langage de produire des traces de raisonnement et des actions propres à la tâche dans une même boucle.² Beaucoup de systèmes d’agents modernes héritent encore de ce rythme de base : réfléchir, agir, observer, continuer.

Ce rythme comporte un biais caché. Un agent conditionné par un objectif veut résoudre la tâche assignée. Quand l’environnement lui semble assez familier, il peut consacrer son budget d’interaction à l’exécution avant de comprendre les règles locales.

« Look Before You Leap » appelle ce comportement exploitation prématurée. Les auteurs décrivent des agents qui s’engagent sur des a priori issus de l’entraînement avant d’avoir acquis assez d’informations propres à l’environnement.¹ L’article nomme deux modes d’échec récurrents : soit les agents manquent d’un point de départ clair et tombent dans une action erratique ou mal informée, soit ils interprètent mal des sémantiques propres à l’environnement, comme les arguments d’outils et les possibilités d’action de l’UI.¹

Ces échecs correspondent au travail réel des agents :

Environnement	À quoi ressemble l’exploitation prématurée
Base de code	L’agent modifie avant de lire les frontières de responsabilité, les tests ou les sites d’appel.
Application web	L’agent clique dans un parcours avant de vérifier l’état caché, les contrôles désactivés ou les règles de validation.
Tâche de recherche	L’agent rédige une synthèse avant de trouver la source primaire manquante.
Tâche de données	L’agent transforme des lignes avant de vérifier les unités, la sémantique des valeurs nulles ou l’origine des colonnes.
Système local	L’agent tue ou modifie des processus avant d’identifier le travail appartenant à l’utilisateur.

L’exécution peut encore réussir dans les cas faciles. Les environnements familiers pardonnent les hypothèses. Les environnements inconnus les sanctionnent.

Qu’est-ce que l’Exploration Checkpoint Coverage ?

L’Exploration Checkpoint Coverage donne un score à la découverte.

L’article définit un ensemble fini de points de contrôle pour chaque environnement. Chaque point de contrôle représente un fait ou une possibilité d’action propre à l’environnement qu’un explorateur compétent devrait découvrir : lieux atteignables, objets importants, cibles d’interaction valides, états fonctionnels, possibilités d’action pertinentes ou contraintes locales.¹

La métrique pose une question étroite : pendant une trajectoire d’exploration, l’agent a-t-il atteint, observé ou vérifié chaque point de contrôle ? L’article calcule la couverture comme la fraction de points de contrôle couverts par l’agent.¹

Le choix de conception important : l’ECC peut s’appuyer sur des signaux d’environnement plutôt que sur un juge linguistique. Dans l’annexe de l’article, les points de contrôle viennent d’éléments internes à l’environnement, comme l’état de jeu PDDL, les arbres d’objets, les espaces d’action et les graphes de recettes ; la vérification peut utiliser des preuves déterministes issues des observations et des actions.¹

Cette approche donne aux équipes un modèle d’ingénierie utile :

Type de point de contrôle	Exemple de preuve
État	L’agent a observé l’itinéraire, l’écran, le fichier, la table ou l’état du processus.
Objet	L’agent a identifié le bouton, la fonction, la colonne, la source ou la dépendance pertinente.
Possibilité d’action	L’agent a vérifié quelle opération fonctionne et laquelle échoue.
Contrainte	L’agent a trouvé une autorisation, un schéma, une politique, une limite de débit, une responsabilité ou une frontière de test.
Cas d’échec	L’agent a tenté une sonde sans risque et consigné pourquoi cette voie ne peut pas fonctionner.
Effet sur le plan	L’agent a modifié le plan à cause des preuves découvertes.

Un point de contrôle n’a pas besoin d’être sophistiqué. Il doit être inspectable. Le réviseur doit voir ce que l’agent a découvert et pourquoi cette découverte a changé l’exécution.

Qu’a montré l’article ?

« Look Before You Leap » a testé l’exploration dans ALFWorld, ScienceWorld, TextCraft et des variantes perturbées d’ALFWorld.¹

Les premiers résultats révèlent un écart entre résolution de tâche et exploration. Dans des environnements sans tâche avec un budget d’exploration de 100 étapes, Qwen2.5-7B atteint une ECC moyenne de 22,2 %, Qwen3-4B atteint 28,5 %, et LLaMA3.1-8B atteint 30,9 %.¹ L’article indique que le GRPO orienté tâche a fait passer l’ECC moyenne de Qwen3-4B de 28,5 % à 18,8 %, ce qui soutient l’idée qu’une récompense de tâche seule peut réduire le comportement d’exploration.¹

L’article montre aussi qu’une faible exploration peut nuire à l’exécution. Avec Explore-then-Act, une mauvaise exploration peut ajouter un contexte bruité ou incomplet plutôt qu’un guidage utile.¹ Ce point compte pour la conception produit. Une phase d’exploration séparée n’aide que si l’agent explore assez bien pour produire une connaissance ancrée.

Les auteurs entraînent ensuite des agents avec des objectifs sensibles à l’exploration. Ils comparent l’exécution directe à Explore-then-Act sur deux backbones. Pour Qwen3-4B, GRPO Interleaved rapporte un taux moyen de réussite directe de 77,2 % et un taux de réussite Explore-then-Act de 79,5 %, tandis que GRPO Task-Only rapporte 73,9 % et 73,5 %.¹ L’article présente ce gain comme une preuve qu’un entraînement sensible à l’exploration permet à un agent de convertir un budget d’exploration en informations utiles pour la tâche.¹

L’exemple qualitatif le plus fort frappe davantage que le tableau. Dans une chambre ALFWorld, un modèle orienté tâche reçoit une consigne d’exploration sans objectif et s’arrête après une étape avec une ECC de 0. Dans le même environnement, un modèle sensible à l’exploration couvre 87 % des points de contrôle en 49 étapes.¹ Le premier modèle écrit un modèle du monde générique. Le second en mérite un.

Pourquoi un modèle du monde générique échoue-t-il ?

Un modèle du monde générique paraît plausible parce que les modèles de langage connaissent beaucoup de schémas courants.

Le modèle sait que les chambres contiennent des lits, des tiroirs, des tables et des objets. Il sait que les contenants peuvent s’ouvrir. Il sait que les agents peuvent devoir ramasser, déplacer, examiner, chauffer, refroidir, nettoyer ou découper des objets. Rien de cela ne prouve que l’environnement local contient l’objet, expose l’action ou accepte la commande.

L’étude de cas de l’article sépare le savoir affirmé du savoir ancré. Le modèle orienté tâche termine l’exploration immédiatement, puis produit un modèle du monde qui nomme de larges règles domestiques tout en admettant que les objets précis restent inconnus.¹ Le modèle sensible à l’exploration interagit avec la pièce, examine les objets, tente des actions et construit des preuves locales.¹

Cette distinction vaut au-delà des jeux textuels.

Un agent de code peut savoir que « les applications React ont des composants » et manquer malgré tout une frontière de provider propre au projet. Un agent de navigateur peut savoir que « les formulaires ont des boutons de soumission » et manquer malgré tout une règle d’état désactivé. Un agent de recherche peut savoir que « les articles contiennent des affirmations » et citer malgré tout la mauvaise sous-affirmation. Un agent de déploiement peut savoir que « les health checks existent » et manquer malgré tout la couche de cache qui garde du contenu obsolète en ligne.

La connaissance générique aide un agent à démarrer. Les preuves issues des points de contrôle lui disent si ce départ correspond à la réalité.

Comment un agent devrait-il explorer avant d’agir ?

Une phase d’exploration a besoin d’un budget et d’un relevé.

Sans budget, l’exploration peut devenir de l’errance. Sans relevé, elle devient impossible à relire. Sans cibles de points de contrôle, elle peut accumuler des détails anecdotiques tout en manquant l’opération qui compte.

Le dispositif Explore-then-Act de l’article donne le modèle de base. L’agent explore d’abord sans tâche précise pendant un nombre fixe d’étapes, résume ensuite les connaissances découvertes dans un artefact structuré, puis exécute la tâche en aval avec ces connaissances en contexte.¹

Les agents de production peuvent adapter l’idée sans réentraîner de modèle :

Phase	Sortie de l’agent	Barrière
Découvrir	États, objets, possibilités d’action et contraintes candidats.	L’agent a-t-il inspecté la bonne surface ?
Sonder	Actions ou lectures à faible risque qui vérifient les possibilités d’action.	Les preuves confirment-elles l’opération ?
Consigner	Liste de points de contrôle avec observations sources et sondes échouées.	Un réviseur peut-il inspecter la découverte ?
Planifier	Plan d’exécution rattaché aux points de contrôle.	Chaque étape risquée dépend-elle de faits vérifiés ?
Agir	Appels d’outils, modifications, écritures, déploiements ou soumissions.	L’exécution est-elle restée dans les limites vérifiées ?

La barrière doit bloquer strictement le travail à haut risque. Un agent ne devrait pas supprimer des données, lancer une migration, déployer un service, modifier des permissions ou dépenser de l’argent parce qu’un plan générique semble raisonnable.

L’agent doit d’abord prouver que l’environnement qu’il voit correspond à l’environnement qu’il prévoit de modifier.

Qu’est-ce qu’un bon point de contrôle ?

Un bon point de contrôle change l’exécution.

Point de contrôle faible : « Lire le dépôt. » La formule nomme un effort, pas une preuve.

Meilleur point de contrôle : « Identifier la commande de test qui couvre le module modifié, vérifier qu’elle s’exécute localement et consigner le mode d’échec si ce n’est pas le cas. » Ce point de contrôle donne à l’agent et au réviseur un fait précis.

Utilisez cinq tests :

Test	Question
Localité	Le point de contrôle décrit-il l’environnement réel plutôt qu’un schéma général ?
Vérifiabilité	L’agent peut-il montrer une observation, une sortie de commande, une réponse de route ou une ligne source ?
Possibilité d’action	Le point de contrôle révèle-t-il quelle action fonctionne ou échoue ?
Effet sur le plan	Un résultat différent au point de contrôle changerait-il le plan ?
Valeur de relecture	Un humain peut-il utiliser ce point de contrôle pour accepter, refuser ou réorienter l’exécution ?

La conception des points de contrôle doit rester légère. Une liste de 10 faits appuyés par des preuves vaut mieux qu’un long récit de navigation, de lecture et de suppositions.

Quel lien entre points de contrôle d’exploration et mémoire d’agent ?

Les points de contrôle d’exploration se situent près de la mémoire, mais la mémoire seule ne résout pas le problème.

Voyager montre une version utile de connaissance d’agent durable. L’agent Minecraft utilise un programme automatique, une bibliothèque de compétences sous forme de code exécutable et un prompting itératif avec retour de l’environnement et auto-vérification.³ L’article rapporte 3,3 fois plus d’objets uniques, une distance parcourue 2,3 fois plus longue et des jalons d’arbre technologique atteints jusqu’à 15,3 fois plus vite que les systèmes précédents.³

Voyager compte parce qu’il traite l’interaction réussie comme une connaissance réutilisable. L’agent ne se contente pas de discuter du monde. Il stocke des compétences fonctionnelles que les tâches futures peuvent récupérer.³

Les points de contrôle d’exploration devraient alimenter une boucle similaire, mais avec une frontière plus stricte :

Objet de mémoire	Usage
Compétence stable	À réutiliser lorsque la même possibilité d’action continue de fonctionner.
Point de contrôle local	À croire seulement dans l’environnement vérifié.
Sonde échouée	À conserver pour éviter de répéter de mauvaises actions.
Note de portée	À utiliser pour marquer où la découverte cesse de s’appliquer.
Dossier de relecture	À fournir à une personne pour inspecter les preuves avant réutilisation.

Un agent ne devrait pas promouvoir chaque découverte locale en mémoire durable. Certains faits n’appartiennent qu’au dépôt, à la page, au compte, au jeu de données ou à l’état machine du moment. Le relevé des points de contrôle doit préserver la source et la portée pour que la réutilisation reste honnête.

Pourquoi les points de contrôle ont-ils besoin d’une description du contexte ?

Les agents doivent aussi savoir où les preuves des points de contrôle entrent dans le contexte.

ACDL soutient que la construction du contexte des agents manque d’un langage descriptif partagé. Les auteurs notent que les équipes communiquent souvent l’évolution des prompts par de la prose informelle, des diagrammes ad hoc ou l’inspection directe du code ; ACDL spécifie les messages de rôle, le contenu dynamique, les références indexées dans le temps et les structures conditionnelles ou itératives.⁴

Les points de contrôle d’exploration ajoutent une autre exigence de contexte. Un agent peut collecter d’excellentes preuves, puis les perdre ou les enfouir avant l’exécution. La question devient structurelle :

Question de contexte	Échec en cas d’absence
Où les preuves des points de contrôle entrent-elles dans le prompt ?	L’agent agit depuis un savoir générique périmé.
Quels points de contrôle survivent à la compaction ?	L’agent oublie la contrainte locale.
Quelles sondes échouées restent visibles ?	L’agent répète une voie dangereuse.
Quels faits expirent après un appel d’outil ?	L’agent fait confiance à un état qui a changé.
Quelles notes du réviseur remplacent le plan ?	L’agent ignore la correction humaine.

ACDL donne un vocabulaire pour la dimension contextuelle du problème. L’ECC donne un vocabulaire pour la dimension découverte. Les produits d’agents ont besoin des deux.

Comment les points de contrôle s’intègrent-ils aux graphes de preuves ?

Les points de contrôle d’exploration demandent ce que l’agent a découvert avant l’exécution. Les graphes de preuves demandent ce qui soutient la réponse finale.

Argus utilise un Searcher et un Navigator pour la recherche approfondie. Le Searcher rassemble des traces de preuves. Le Navigator maintient un graphe de preuves partagé, vérifie quelles pièces manquent encore, répartit le travail de recherche et produit une réponse traçable jusqu’aux sources.⁵

Un point de contrôle d’exploration peut devenir un nœud dans le graphe de preuves :

Avant l’exécution	Après l’exécution
Objet trouvé	L’affirmation dépend de l’objet.
Possibilité d’action vérifiée	L’action dépend de cette possibilité d’action.
Contrainte trouvée	Le plan exclut la voie interdite.
Lacune persistante	Le réviseur voit la dépendance non résolue.
Sonde échouée consignée	L’agent évite de répéter l’échec.

La forme reste cohérente entre recherche, code, navigation et opérations. L’agent ne devrait pas seulement dire ce qu’il a fait. Il devrait montrer quels faits découverts ont rendu l’action valide.

Les preuves au niveau d’un article scientifique méritent le même traitement. paper.json propose des ID d’affirmations stables, une liste de ce qui n’est pas affirmé, des commandes exactes par figure et des ID de définitions stables afin que les agents puissent citer et exploiter des articles à la granularité de la sous-affirmation.⁶ Un agent qui explore un article avant de le citer devrait d’abord couvrir ces points de contrôle d’affirmation et de portée.

Où les équipes produit doivent-elles placer la barrière ?

Placez la barrière avant l’action irréversible.

Une barrière de points de contrôle d’exploration ne doit pas ralentir chaque lecture sans risque. Elle doit protéger les étapes qui modifient l’état, publient une sortie, dépensent de l’argent, exposent des données ou créent une charge de retour arrière.

Barrières utiles :

Action	Preuves de points de contrôle requises
Modification de code	Fichiers pertinents, frontière de responsabilité, sites d’appel, tests et contraintes de style.
Changement de base de données	Schéma, chemin de sauvegarde, lignes affectées, plan de retour arrière et sortie de dry-run.
Mise en ligne web	Rendu de route, métadonnées, fichiers de découverte, comportement du cache et marqueur en ligne.
Réponse de recherche externe	Sources primaires, affirmations manquantes, conflits et limites de portée.
Transaction dans le navigateur	État actuel de la page, validation du formulaire, contexte du compte et écran de confirmation.
Nettoyage système	Propriétaire du processus, impact visible pour l’utilisateur, chemin de redémarrage et applications protégées.

La barrière devrait produire un petit dossier de points de contrôle :

goal:
environment:
checkpoint_evidence:
  - observed:
    source:
    plan_impact:
  - failed_probe:
    source:
    plan_impact:
required_before_action:
remaining_unknowns:
decision:

Ce dossier devrait accompagner la réponse finale de l’agent, le message de commit, la note de déploiement ou le dossier de relecture. Il n’a pas besoin de cérémonial. Il a besoin d’assez de preuves pour qu’un réviseur décide si l’exécution a mérité sa confiance.

Que devraient mesurer les prochaines évaluations ?

La réussite finale de la tâche ne peut pas porter toute l’évaluation.

Un bon benchmark d’agents devrait rapporter :

Métrique	Ce qu’elle capture
Réussite de la tâche	Le résultat final a-t-il passé le seuil attendu ?
Couverture des points de contrôle	L’agent a-t-il découvert les faits locaux importants ?
Qualité des sondes	L’exploration a-t-elle testé des possibilités d’action utiles ou répété du bruit ?
Révision du plan	La découverte a-t-elle réellement changé le plan ?
Délai avant action dangereuse	L’agent a-t-il attendu que les points de contrôle requis soient validés ?
Conservation des preuves	Les preuves des points de contrôle sont-elles restées visibles pendant l’exécution ?
Charge de relecture	Un humain peut-il inspecter rapidement la preuve ?

AgentForesight va dans une direction compatible. L’article présente l’échec multi-agent comme un problème d’audit en ligne : un auditeur observe une trajectoire en cours et doit déclencher une alerte dès la première erreur décisive, sans voir les étapes futures.⁷ Les barrières de points de contrôle d’exploration peuvent donner à ces auditeurs de meilleurs signaux précoces. Un point de contrôle manquant avant une action risquée prédit souvent l’échec avant que l’artefact final ne casse.

Les évaluations devraient récompenser les agents qui s’arrêtent pour la bonne découverte, pas ceux qui se contentent d’agir plus vite.

Que devraient construire les équipes maintenant ?

Les équipes peuvent ajouter des points de contrôle d’exploration sans attendre un nouveau modèle.

Commencez par trois règles opérationnelles :

Définissez des points de contrôle propres à l’environnement pour les tâches récurrentes à haut risque.
Exigez des preuves de points de contrôle avant toute mutation, publication, achat, suppression ou soumission externe.
Stockez le dossier de points de contrôle à côté de la trace, du commit, de la relecture ou de la note de release.

Rendez ensuite la règle visible dans le produit :

Surface produit	Affichage utile
Volet de tâche de l’agent	Points de contrôle couverts, points manquants et actions bloquées.
Écran de relecture	Extraits de preuves liés à chaque étape risquée prévue.
Résumé de commit	Fichiers inspectés, tests identifiés et frontières de responsabilité.
Résumé de déploiement	Routes vérifiées, cache purgé, marqueurs en ligne confirmés.
Réponse de recherche	Affirmations, sources, lacunes, conflits et notes de portée.

L’utilisateur ne devrait pas avoir à deviner si l’agent a exploré. L’interface devrait montrer la preuve.

FAQ

Qu’est-ce qu’un point de contrôle d’exploration pour un agent IA ?

Un point de contrôle d’exploration est un fait vérifiable qu’un agent découvre avant l’exécution. Il peut s’agir, par exemple, d’un état atteignable, d’une action d’outil disponible, d’une possibilité d’action dans l’UI, d’une frontière de responsabilité dans le code, d’une affirmation sourcée, d’une contrainte de données ou d’une sonde échouée qui change le plan.

En quoi l’Exploration Checkpoint Coverage diffère-t-elle de la réussite de la tâche ?

La réussite de la tâche mesure si le résultat final a passé le seuil attendu. L’Exploration Checkpoint Coverage mesure si l’agent a découvert les faits importants de l’environnement avant d’agir. Les deux peuvent diverger, car une tâche peut réussir dans un environnement facile alors que le même comportement échoue après un léger changement d’environnement.

Quand un produit devrait-il exiger des points de contrôle d’exploration ?

Un produit devrait exiger des points de contrôle avant les actions qui modifient l’état, publient du contenu, dépensent de l’argent, exposent des données, suppriment des ressources ou créent une charge de retour arrière. Les lectures à faible risque peuvent rester légères.

Les points de contrôle d’exploration remplacent-ils la relecture humaine ?

Non. Les points de contrôle d’exploration rendent la relecture plus précise en montrant ce que l’agent a vérifié, ce qu’il n’a pas réussi à vérifier et pourquoi le plan a changé. Les réviseurs humains décident toujours si les preuves suffisent au regard du risque.

Les agents existants peuvent-ils utiliser des points de contrôle d’exploration sans réentraînement ?

Oui. Les agents existants peuvent exécuter une phase de découverte séparée, consigner les preuves et soumettre les actions risquées à une barrière avant l’exécution. L’entraînement peut améliorer la qualité de l’exploration, mais les barrières produit et les dossiers de relecture peuvent imposer ce comportement dès aujourd’hui.

Références

Ziang Ye, Wentao Shi, Yuxin Liu, Yu Wang, Zhengzhou Cai, Yaorui Shi, Qi Gu, Xunliang Cai, and Fuli Feng, “Look Before You Leap: Autonomous Exploration for LLM Agents,” arXiv:2605.16143v1, soumis le 15 mai 2026. Source pour l’exploitation prématurée, l’Exploration Checkpoint Coverage, Explore-then-Act, les expériences sur ALFWorld, ScienceWorld, TextCraft et les résultats ECC/réussite de tâche rapportés. ↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩
Shunyu Yao, Jeffrey Zhao, Dian Yu, Nan Du, Izhak Shafran, Karthik Narasimhan, and Yuan Cao, “ReAct: Synergizing Reasoning and Acting in Language Models,” arXiv:2210.03629v3, révisé le 10 mars 2023. Source pour les boucles raisonnement/action entrelacées, l’interaction avec l’environnement et les améliorations de taux de réussite rapportées sur ALFWorld/WebShop. ↩
Guanzhi Wang, Yuqi Xie, Yunfan Jiang, Ajay Mandlekar, Chaowei Xiao, Yuke Zhu, Linxi Fan, and Anima Anandkumar, “Voyager: An Open-Ended Embodied Agent with Large Language Models,” arXiv:2305.16291v2, révisé le 19 octobre 2023. Source pour le programme automatique, la bibliothèque de compétences exécutables, le prompting itératif, l’auto-vérification et les gains rapportés en exploration/arbre technologique. ↩↩↩
Noga Peleg Pelc, Gal A. Kaminka, and Yoav Goldberg, “A Language for Describing Agentic LLM Contexts,” arXiv:2605.01920v1, soumis le 3 mai 2026. Source pour ACDL, la structure de contexte, le contenu dynamique, les références indexées dans le temps et l’absence de standard partagé pour décrire l’évolution du contexte des agents. ↩
Zhen Zhang, Liangcai Su, Zhuo Chen, Xiang Lin, Haotian Xu, Simon Shaolei Du, Kaiyu Yang, Bo An, Lidong Bing, and Xinyu Wang, “Argus: Evidence Assembly for Scalable Deep Research Agents,” arXiv:2605.16217v1, soumis le 15 mai 2026. Source pour les rôles Searcher/Navigator, les graphes de preuves partagés, la répartition des pièces manquantes et les réponses traçables jusqu’aux sources. ↩
Arquimedes Canedo, “paper.json: A Coordination Convention for LLM-Agent-Actionable Papers,” arXiv:2605.16194v1, soumis le 15 mai 2026. Source pour les ID d’affirmations stables, les listes de ce qui n’est pas affirmé, les commandes par figure, les ID de définitions et la structure d’articles exploitables par des agents. ↩
Boxuan Zhang, Jianing Zhu, Zeru Shi, Dongfang Liu, and Ruixiang Tang, “AgentForesight: Online Auditing for Early Failure Prediction in Multi-Agent Systems,” arXiv:2605.08715v2, révisé le 13 mai 2026. Source pour l’audit en ligne, la détection d’erreurs décisives pendant des trajectoires en cours, AFTraj-2K et les gains rapportés en prédiction précoce d’échec. ↩