Les agents ont besoin de surfaces de supervision

13 min de lecture

OpenAI décrit désormais l’application Codex comme un centre de commande pour gérer plusieurs agents, exécuter du travail en parallèle et superviser des équipes coordonnées sur tout le cycle de vie logiciel.¹ Cette orientation produit confirme le changement d’interface : le problème difficile n’est plus « l’agent peut-il agir ? », mais « l’humain peut-il superviser l’action à grande échelle ? »

Les agents ont besoin de surfaces de supervision : des espaces où une personne peut voir l’état, examiner le risque, approuver des outils sensibles, inspecter les traces, reprendre après un échec et valider le résultat avec des preuves. Un meilleur chat aide à formuler. Les surfaces de supervision gouvernent le travail.

TL;DR

Le chat reste utile pour exprimer l’intention. Comme surface unique de travail autonome, il échoue, car les exécutions d’agents contiennent des appels d’outils, des permissions, des traces, de la mémoire, des branches abandonnées et des affirmations de complétion. La documentation cloud de Codex d’OpenAI décrit des tâches en arrière-plan dans des environnements en bac à sable, le suivi de progression en temps réel, des citations issues des journaux de terminal et des preuves provenant des sorties de test.² Le SDK Agents d’OpenAI expose les approbations avec intervention humaine et le traçage intégré des appels d’outils, transferts, garde-fous et événements personnalisés.³⁴ Les points d’accroche Claude Code d’Anthropic exposent des étapes du cycle de vie comme PreToolUse, PostToolUse, PermissionRequest et Stop.⁵

La leçon produit : la supervision n’est pas une modale finale. C’est un ensemble de surfaces placées à côté de l’agent pendant que le travail se déroule.

Points clés

Pour les équipes produit qui conçoivent des agents : - Construisez une file de supervision avant d’ajouter une nouvelle finition au chat. Cette file doit afficher les exécutions bloquées, les actions risquées, les preuves périmées, les contrôles échoués et les artefacts prêts pour revue. - Traitez les approbations, les traces et la reprise comme une UX centrale. L’utilisateur ne doit pas avoir à reconstituer l’état des outils à partir d’une transcription.

Pour les design engineers : - Donnez une altitude à chaque action d’agent : silencieuse, résumée, interruptive ou bloquée. Une lecture seule ne doit pas ressembler à une modification en production. - Concevez l’objet de revue, pas seulement le message. Un objet de revue contient la charge utile de l’outil, la raison du risque, le diff, les preuves et l’action suivante.

Pour les équipes qui adoptent des agents de code : - Mesurez si un opérateur peut répondre à ces questions : qu’est-ce qui tourne, qu’est-ce qui attend, qu’est-ce qui a changé, qu’est-ce qui a échoué, qu’est-ce qui nécessite une approbation et qu’est-ce qui reste non vérifié ? - Utilisez le chat pour déléguer. Utilisez les surfaces de supervision pour assumer la responsabilité.

Qu’est-ce qu’une surface de supervision ?

Une surface de supervision est une interface utilisateur pour un travail d’agent responsable.

Elle ne cherche pas à montrer chaque token. Elle montre les éléments qui permettent de décider si l’agent doit continuer :

Surface	Question utilisateur
File d’exécutions	Quels agents ont besoin d’attention ?
Panneau d’état	Dans quelle phase se trouve chaque exécution ?
File d’approbations	Quels appels d’outils nécessitent une décision humaine ?
Chronologie des traces	Que s’est-il passé, et dans quel ordre ?
Panneau de preuves	Qu’est-ce qui prouve le résultat ?
Contrôles de reprise	Comment mettre en pause, reprendre, réessayer, créer une bifurcation ou revenir en arrière ?
Dossier de revue	Que puis-je valider, rejeter ou renvoyer ?

La différence avec le chat, c’est l’accès direct. Le chat dit : « lisez le fil ». Une surface de supervision dit : « inspectez la partie risquée, puis décidez ».

C’est décisif lorsqu’une personne pilote plusieurs agents. Un seul agent peut rester conversationnel pendant un temps. Cinq agents longs à exécuter deviennent des opérations. L’interface doit prioriser, résumer et orienter l’attention.

Pourquoi le chat échoue-t-il comme surface d’exploitation ?

Le chat échoue parce qu’il n’a pas la bonne forme pour un travail en mouvement.

Le travail d’agent produit des événements : plans, recherches, lectures de fichiers, écritures de fichiers, commandes shell, actions de navigateur, appels API, exécutions de tests, chemins rejetés, tentatives échouées et preuves finales. Une transcription peut contenir ces événements, mais elle ne peut pas les organiser par risque, phase ou responsabilité.

L’annonce de l’application Codex par OpenAI nomme directement ce basculement. Les développeurs délèguent désormais du travail, exécutent des tâches en parallèle et supervisent des agents entre projets ; les anciens environnements d’IDE et de terminal ne correspondent pas à ce mode.¹ Cette formulation compte, car la supervision exige une disposition différente du prompting. L’opérateur a besoin d’un tableau de bord, pas d’un fil à faire défiler.

Les recommandations 2019 de Microsoft sur l’interaction humain-IA fournissent encore le cadre de conception de base : les systèmes d’IA doivent communiquer leur état, permettre la correction et gérer les échecs au fil de l’interaction.⁶ Les agents rendent ces anciennes recommandations opérationnelles. L’état signifie désormais : « quel appel d’outil est en attente ? » La correction signifie : « rejeter et reprendre cette exécution ». L’échec signifie : « montrer la commande échouée, l’hypothèse modifiée et le chemin de réparation ».

L’erreur consiste à traiter la supervision comme une friction. Une mauvaise supervision ajoute de la friction. Une bonne supervision réduit la charge cognitive, parce qu’elle place la décision au bon endroit.

Que doit montrer la file d’exécutions ?

La file d’exécutions doit montrer l’attention requise, pas l’activité.

Un flux d’activité raconte à l’utilisateur tout ce qui s’est passé. Une file de supervision lui montre ce qui demande un jugement. La file peut condenser la plupart des événements en quelques états :

État d’exécution	Ce dont l’opérateur a besoin
Planification	Objectif, périmètre, outils probables, critères d’acceptation
Action	Outil en cours, cible, effet secondaire attendu
Attente	Approbation, identifiant, entrée manquante, blocage externe
Vérification	Commande de test, contrôle de source, chemin rendu, seuil de revue
Réparation	Contrôle échoué, hypothèse modifiée, prochaine tentative
Prêt pour revue	Artefact, diff, preuves, lacunes non résolues
Bloqué	Raison, responsable, option de redémarrage

La documentation cloud de Codex d’OpenAI décrit des tâches qui peuvent s’exécuter en arrière-plan, y compris en parallèle, dans leurs propres environnements cloud.² Le travail parallèle en arrière-plan change le modèle d’attention. L’utilisateur ne doit pas avoir à interroger chaque fil. Le système doit rassembler au même endroit le travail bloqué, risqué et prêt pour revue.

La file doit éviter les fausses urgences. Un échec de lint sur une branche brouillon et une incohérence de déploiement en production ne méritent pas le même poids visuel. L’interface doit réserver l’interruption aux actions irréversibles, aux publications publiques, aux opérations sensibles pour la sécurité et aux décisions pour lesquelles l’agent n’a pas assez de contexte pour continuer de façon responsable.

Comment les approbations doivent-elles fonctionner ?

Les approbations doivent fonctionner comme une file d’objets de revue, pas comme une suite d’interruptions modales.

Le flux avec intervention humaine du SDK Agents d’OpenAI met l’exécution en pause jusqu’à ce qu’une personne approuve ou rejette les appels d’outils sensibles. La documentation décrit les approbations en attente comme des interruptions, avec RunState pour sérialiser puis reprendre après les décisions.³ La même page précise que l’approbation s’applique aux outils d’agents imbriqués et aux outils MCP, pas seulement à l’agent de plus haut niveau en cours.³

La documentation des points d’accroche Claude Code d’Anthropic expose la même forme de conception sous un autre angle. PreToolUse s’exécute avant un appel d’outil et peut le bloquer. PermissionRequest se déclenche lorsqu’une boîte de dialogue de permission apparaît. PostToolUse et PostToolUseFailure se déclenchent après des outils réussis ou échoués, et Stop se déclenche lorsque Claude a fini de répondre.⁵

Ces primitives indiquent la bonne surface :

Champ d’approbation	Pourquoi il doit être dans l’UI
Nom de l’outil	Identifie la classe de capacité
Arguments	Montre ce que l’agent veut faire
Cible	Nomme le fichier, la base de données, l’hôte, la route, le compte ou la branche
Niveau de risque	Fixe le poids visuel et procédural
Raison de l’agent	Explique pourquoi l’appel appartient au plan
Effet secondaire attendu	Distingue lecture, écriture, réseau, déploiement, dépense ou suppression
Décision	Approuver une fois, toujours approuver, rejeter, différer, réécrire

La bonne surface d’approbation laisse passer discrètement les lectures à faible risque, regroupe les décisions de risque moyen et interrompt pour les changements à fort risque. L’utilisateur ne doit pas approuver une commande shell pendant qu’il lit un paragraphe. Il doit approuver une opération typée avec assez de contexte pour rester responsable.

Que doit prouver une surface de trace ?

Une surface de trace doit prouver la séquence, la cause et la conséquence.

La documentation de traçage du SDK Agents d’OpenAI indique que le traçage enregistre une exécution à travers les générations LLM, appels d’outils, transferts, garde-fous et événements personnalisés, puis facilite le débogage, la visualisation et la surveillance en développement comme en production.⁴ Cette description fait de la trace une primitive produit, pas seulement une instrumentation développeur.

La trace de supervision doit répondre à cinq questions :

Question	Détail de trace requis
Qu’a vu l’agent ?	Fichiers, sources, prompts, contexte récupéré
Qu’a-t-il fait ?	Appels d’outils, arguments, sorties, états de sortie
Qu’est-ce qui a changé ?	Diffs, artefacts générés, état externe
Pourquoi a-t-il changé de trajectoire ?	Contrôles échoués, permissions refusées, nouvelles preuves
Qu’est-ce qui prouve la complétion ?	Commandes, liens sources, routes actives, état de revue

La trace n’a pas besoin du raisonnement privé. Elle a besoin de preuves opérationnelles. Un utilisateur n’a pas besoin d’une chaîne de pensée cachée pour évaluer une publication. Il lui faut la sortie de commande, l’état de la route, l’état du cache, les lignes D1, le seuil de traduction, les contrôles de sources et la lacune restante de revue native.

Cette distinction protège à la fois la confiance et le goût. Montrer trop d’éléments internes transforme l’interface en bruit. En montrer trop peu transforme le produit en théâtre.

Quelle place donner à la reprise ?

La reprise doit se trouver à côté de l’événement échoué.

Les systèmes d’agents échouent constamment dans le travail normal : une commande d’installation expire, un formateur modifie des fichiers sans rapport, un smoke test navigateur détecte un cache périmé, un seuil de traduction rejette une locale, ou un lien source renvoie 403 à un script. Une bonne surface de supervision traite ces moments comme des états attendus.

Les contrôles de reprise doivent rester concrets :

Contrôle	Usage responsable
Pause	Arrêter les nouveaux effets secondaires tout en préservant l’état
Reprendre	Continuer après approbation ou correction externe
Réessayer	Répéter une étape échouée avec une entrée modifiée
Créer une bifurcation	Explorer un plan alternatif sans écraser le premier
Revenir en arrière	Annuler les changements locaux réversibles
Escalader	Demander une revue à un humain ou à un autre agent
Clore avec lacune	Terminer seulement avec un travail non résolu explicite

L’annonce de l’application Codex par OpenAI décrit des agents qui travaillent dans des copies isolées du code, afin que les utilisateurs puissent explorer différentes pistes et récupérer les changements localement pendant qu’un agent continue.¹ Cette isolation aide la reprise, mais l’interface doit encore montrer quel chemin a gagné, quel chemin a échoué et quel travail reste dangereux à fusionner.

Le produit ne doit jamais obliger l’utilisateur à reconstituer la reprise à partir de journaux bruts. L’étape échouée connaît déjà sa commande, son dossier de travail, sa sortie et sa cible. La surface doit placer l’action suivante responsable sur cet événement.

Qu’est-ce qui rend une surface de supervision digne d’intérêt ?

Une surface de supervision devient digne d’intérêt lorsqu’elle réduit le travail sans réduire la responsabilité.

La version facile ajoute des panneaux. La version digne retire le doute. L’utilisateur doit obtenir plus vite les réponses aux questions qui comptent :

Quelle exécution a besoin de moi ?
Quelle action peut causer des dégâts ?
Quel résultat a des preuves ?
Quel résultat n’a que du texte ?
Quelle branche doit survivre ?
Quelle lacune reste non résolue ?

Le AI Risk Management Framework du NIST présente la fiabilité comme un élément que les équipes intègrent à la conception, au développement, à l’usage et à l’évaluation des produits et systèmes d’IA.⁷ Les surfaces de supervision se situent précisément à cette intersection. Elles font porter le risque opérationnel par le design. Elles font produire des preuves par l’usage. Elles rendent l’évaluation visible avant la validation de l’utilisateur.

MCP élargit la même responsabilité. Le Model Context Protocol connecte les applications d’IA à des sources de données, outils et flux de travail externes, afin que les agents puissent accéder à l’information et effectuer des tâches.⁸ Plus les outils connectés se multiplient, plus la surface d’action grandit. Une surface d’action plus grande exige une meilleure supervision, pas davantage de foi.

Le standard de conception doit rester simple : un produit d’agent ne doit pas maximiser le mouvement autonome. Il doit maximiser le progrès responsable.

Par où commencer ?

Commencez par la plus petite surface de supervision utile :

Liste d’exécutions : une ligne par agent actif, avec phase, âge, blocage et prochaine décision.
File d’approbations : un objet par appel d’outil sensible, avec arguments, cible, risque et contrôles approuver/rejeter/différer.
Table de traces : une ligne par événement significatif, filtrable par lecture, écriture, shell, navigateur, source, test, déploiement et revue.
Panneau de preuves : une table affirmation-preuve pour le résultat final.
Menu de reprise : pause, reprise, réessai, bifurcation et clôture avec lacune depuis l’événement échoué.

La première version peut paraître ennuyeuse. Les tables, filtres, badges et lignes dépliables valent mieux qu’une transcription élégante qui cache le risque. La question du goût vient après l’honnêteté de l’architecture d’information : réduire le bruit, réserver la couleur d’alerte, regrouper les événements à faible risque, exposer les charges utiles à fort risque et lier la validation finale à la preuve.

Le design agentique est un design de surfaces de contrôle. L’interface d’agent est la couche d’exploitation. HTML peut préserver l’information spatiale que Markdown perd. Les surfaces de supervision combinent ces cadres : elles transforment le travail autonome en opérations inspectables, spatiales et responsables.

Résumé rapide

Les agents n’ont pas tant besoin d’une meilleure transcription que de surfaces de supervision. Une interface d’agent sérieuse a besoin d’une file d’exécutions, d’une file d’approbations, d’une chronologie de traces, d’un panneau de preuves et de contrôles de reprise. La documentation d’OpenAI, Anthropic, Microsoft, NIST et MCP pointe vers la même forme produit : les systèmes autonomes ont besoin d’un état visible, d’une gouvernance des outils, de traces relisibles et de décisions humaines au bon niveau.¹³⁴⁵⁶⁷⁸

Le chat peut rester la voie de délégation. La supervision doit devenir la surface de travail.

FAQ

Qu’est-ce qu’une surface de supervision d’agent ?

Une surface de supervision d’agent est une UI qui sert à suivre et contrôler le travail autonome d’un agent. Elle montre l’état d’exécution, les approbations en attente, les traces d’outils, les preuves, les échecs et les contrôles de reprise. Le chat recueille l’intention. Une surface de supervision aide l’opérateur à décider ce que l’agent peut faire ensuite et si le résultat mérite validation.

Pourquoi le chat ne suffit-il pas pour les agents d’IA ?

Le chat est séquentiel et seulement cumulatif. Le travail d’agent exige un accès direct à l’état, au risque, aux approbations, aux traces, aux diffs, aux sorties de test et aux lacunes non résolues. Une transcription peut enregistrer ces événements, mais elle ne peut pas les prioriser par risque ni orienter l’attention humaine entre plusieurs agents en parallèle.

Que doivent construire les équipes en premier ?

Les équipes doivent d’abord construire une file d’exécutions et une file d’approbations. Ces deux surfaces révèlent immédiatement le travail bloqué et les actions sensibles. Ajoutez ensuite une table de traces, car les preuves, la reprise et la revue finale dépendent toutes du journal d’événements.

En quoi une surface de supervision diffère-t-elle de l’observabilité ?

L’observabilité aide les équipes qui construisent le système à le déboguer. La supervision aide les opérateurs à gouverner le travail pendant qu’il se déroule. Les deux partagent des données, mais servent des utilisateurs différents. Une trace de production peut alimenter à la fois une vue de débogage développeur et une surface d’approbation humaine.

Chaque agent a-t-il besoin d’une approbation humaine ?

Non. Chaque agent a besoin d’une supervision calibrée. Les lectures à faible risque peuvent s’exécuter silencieusement. Les changements à risque moyen peuvent être regroupés pour revue. Les actions à fort risque doivent se mettre en pause pour approbation. Les publications publiques, les commandes destructrices, les actions qui touchent les clients et les mouvements d’argent méritent des barrières plus fortes.

Références

OpenAI, “Introducing the Codex app,” OpenAI, 2 février 2026, mise à jour le 4 mars 2026. Source pour l’application Codex comme centre de commande multi-agent, les flux de travail d’agents en parallèle, les copies de code isolées, les Skills, Automations, files de revue, environnements en bac à sable, demandes de permission et cadre de supervision. ↩↩↩↩
OpenAI, “Codex web,” OpenAI Developers. Source pour Codex comme agent de code capable de lire, modifier et exécuter du code dans des tâches cloud en arrière-plan, y compris du travail parallèle dans son propre environnement cloud. ↩↩
OpenAI, “Human-in-the-loop,” OpenAI Agents SDK. Source pour les flux d’approbation qui mettent l’exécution en pause, renvoient les approbations en attente sous forme d’interruptions, sérialisent et reprennent RunState, et prennent en charge les approbations entre function tools, shell tools, apply-patch tools, serveurs MCP, outils MCP hébergés et outils d’agents imbriqués. ↩↩↩↩
OpenAI, “Tracing,” OpenAI Agents SDK. Source pour le traçage intégré des générations LLM, appels d’outils, transferts, garde-fous, événements personnalisés, traces, spans et surveillance en développement ou en production. ↩↩↩
Anthropic, “Hooks reference,” Claude Code Docs. Source pour les points d’accroche de cycle de vie Claude Code, notamment PreToolUse, PermissionRequest, PostToolUse, PostToolUseFailure, PostToolBatch, les événements de sous-agents et Stop. ↩↩↩
Saleema Amershi et al., “Guidelines for Human-AI Interaction,” Microsoft Research, CHI 2019. Source pour les 18 recommandations généralement applicables à l’interaction humain-IA et l’étude de validation menée auprès de 49 praticiens. ↩↩
National Institute of Standards and Technology, “AI Risk Management Framework,” NIST. Source pour l’intégration des considérations de fiabilité dans la conception, le développement, l’usage et l’évaluation des produits, services et systèmes d’IA. ↩↩
Model Context Protocol, “What is the Model Context Protocol?” Source pour MCP comme standard open-source connectant les applications d’IA à des systèmes externes, notamment fichiers locaux, bases de données, outils et flux de travail. ↩↩