Agents managés ou harnais d'agents locaux : ce qu'il faut conserver

14 min de lecture

From the guide: Codex CLI Comprehensive Guide

Anthropic et OpenAI transforment l’infrastructure d’exécution des agents en surface produit : les sessions hébergées, sandboxes, le traçage, la mémoire, les transferts, les rubriques et les flux d’événements résident désormais davantage chez le fournisseur du modèle que dans le dossier de scripts privé d’une équipe.¹²

Quels sont les points essentiels à retenir ?

Les agents managés deviennent la couche d’exécution. Les sessions, sandboxes, traces, événements et l’exécution asynchrone relèvent de plus en plus de l’infrastructure managée, dès lors que le fournisseur satisfait au niveau de sécurité de l’équipe.¹²
Les harnais locaux conservent leur utilité. Gardez les éléments qui encodent le goût, les preuves, l’intégrité de la publication, les frontières de confidentialité, la vérification des sources et la mémoire du projet.
L’unité de migration est le travail, pas la commande. Une slash command, une skill Codex, un transfert SDK, un serveur MCP ou un résultat managé peuvent tous porter le même flux de travail si les critères d’acceptation survivent.
Ne publiez pas votre machinerie privée. Les billets publics doivent expliquer le motif et les critères d’acceptation, non les prompts privés, le contenu exact des hooks, les détails de compte ou les règles de notation internes.
La promotion exige des preuves. Commencez en mode explicite, exécutez une vraie tâche, consignez le résultat et ne promouvez qu’à condition que le chemin visible par l’utilisateur s’améliore.

Les plateformes d’agents managés devraient absorber le travail d’exécution banalisé : exécution en sandbox, sessions avec état, flux d’événements, traçage, exécution de fichiers et complétion asynchrone. Les harnais locaux conservent leur importance, mais leur rôle se rétrécit et s’aiguise. Conservez les éléments qui encodent le goût produit, les portes de preuve, l’intégrité de la publication, les frontières de confidentialité, la vérification des sources et la mémoire opérationnelle propre au projet. Déplacez ce qui n’existait que parce que personne d’autre n’avait encore packagé l’exécution.

La mauvaise migration consiste à supprimer son harnais local sous prétexte qu’un fournisseur a livré une infrastructure managée. La seconde mauvaise migration consiste à préserver chaque commande, hook et prompt locaux parce qu’ils ont jadis résolu un vrai problème. La bonne migration pose une seule question par composant : encode-t-il mes standards, ou opère-t-il la machine ?

Pour l’architecture d’ensemble, lisez le guide AI Agent Architecture. Pour le motif de migration locale qui sous-tend ce billet, lisez Claude Code to Codex Migration Guide, AGENTS.md Patterns et Jiro Quality Philosophy.

Côté outillage local de la séparation, Claude Code as Infrastructure explique pourquoi les couches d’exécution privées se développent, et Claude Code vs Codex CLI 2026 compare les surfaces d’activation et de sûreté.

Qu’est-ce qui a changé avec les agents managés ?

Claude Managed Agents offre aux développeurs un harnais d’agent préconstruit, fonctionnant dans une infrastructure managée. Anthropic le présente comme adapté aux tâches longues et au travail asynchrone, avec des concepts clés pour les agents, les environnements, les sessions et les événements.¹ La même documentation décrit un environnement managé où Claude peut lire des fichiers, exécuter des commandes, naviguer, exécuter du code, utiliser des serveurs MCP et conserver l’historique des événements côté serveur.¹

Le billet d’ingénierie d’Anthropic formule l’argument architectural plus clairement que la documentation produit. L’équipe Managed Agents a découplé le journal de session, le harnais et la sandbox afin que chaque pièce puisse échouer ou évoluer indépendamment.³ Cette séparation compte : elle transforme une boucle d’agent fragile en un seul conteneur en un système doté d’un état de session récupérable, d’environnements d’exécution remplaçables et d’une frontière de sécurité plus étroite autour des identifiants.³

OpenAI s’oriente dans la même direction avec l’Agents SDK. Sa mise à jour du 15 avril 2026 a ajouté un harnais natif au modèle, l’exécution native en sandbox, une abstraction de manifeste pour les espaces de travail, ainsi que la prise en charge de primitives courantes telles que MCP, les skills, AGENTS.md, l’exécution shell et l’application de patches.² La documentation du SDK expose également les sessions pour la mémoire multi-exécution, le traçage des générations LLM, les appels d’outils, les transferts, les garde-fous et les événements personnalisés, et les transferts pour passer le travail entre agents spécialistes.⁴⁵⁶

Voilà pour l’actualité. La question stratégique est différente : une fois que les plateformes livrent l’exécution des agents, que doit encore faire votre harnais local ?

Quelle est la séparation entre exécution et jugement ?

La plupart des harnais d’agents locaux mêlent deux rôles qui ne devraient pas toujours cohabiter.

Le premier rôle, c’est l’infrastructure d’exécution. Une exécution démarre des sessions, octroie des outils, prépare un espace de travail, lance des commandes, stocke des événements, gère les interruptions, reprend le travail, diffuse l’état et enregistre les traces. Ce rôle gagne à être standardisé. Il bénéficie aussi d’une ingénierie de sécurité que la plupart des équipes individuelles ne devraient pas reconstruire sans raison forte.

Le second rôle, c’est le jugement. Le jugement définit ce qui constitue du bon travail, quelles affirmations publiques exigent des sources primaires, quand un guide est trop daté pour être publié, quand un hook est trop bruyant pour être appliqué, quand une veille des sources doit donner une note plutôt qu’un billet, et quand un agent doit refuser un résultat techniquement correct mais indigne. Ce rôle reste local, parce qu’il vient du produit, de l’équipe et du lecteur.

Une infrastructure managée peut faire tourner une meilleure boucle. Elle ne peut pas décider de votre goût.

Que faut-il déplacer vers les agents managés ?

Déplacez les composants qui n’encodent pas vos standards produit.

Composant local	Meilleur foyer si la plateforme le prend en charge	Pourquoi
Configuration de sandbox	Environnement managé ou sandbox du SDK	Les fournisseurs savent maintenir l’isolation, l’installation, les règles réseau et les adaptateurs de fournisseurs.
Persistance de session	Journal de session managé ou stockage de session du SDK	Le travail long nécessite un état qui survit aux fenêtres de contexte et aux pannes des workers.
Flux d’événements et webhooks	Événements managés ou file de jobs au niveau application	L’application doit observer l’état sans interroger l’état d’un shell privé.
Traçage	Traçage du fournisseur ou votre processeur de traçage	Le débogage d’agent réclame des spans structurés pour les appels au modèle, les outils, les garde-fous et les transferts.
Glue d’exécution d’outils	Outils managés, MCP ou adaptateurs d’outils du SDK	L’appel d’outil appartient derrière des interfaces stables, pas derrière des conventions de prompt fragiles.
Distribution multi-agents	Orchestration managée ou transferts du SDK	La délégation exige de la visibilité, des filtres d’entrée et des contrats de transfert clairs.

La fonctionnalité Outcomes d’Anthropic montre la suite de cette tendance. Le développeur définit une rubrique, le harnais managé provisionne un évaluateur séparé, et l’agent itère face aux retours de l’évaluateur.⁷ Cela ne supprime pas les standards locaux. Cela leur donne un emplacement d’exécution.

Le même schéma s’applique au traçage d’OpenAI. Le SDK enregistre par défaut l’exécution, les spans d’agents, les générations, les appels d’outils-fonctions, les garde-fous et les transferts, avec des contrôles pour désactiver le traçage et des processeurs pour d’autres destinations.⁵ Un script local peut s’en approcher. Un système de production devrait généralement préférer le traçage standardisé et l’envoyer là où l’équipe débogue déjà son travail.

Que faut-il garder en local ?

Conservez les composants qui définissent vos standards, votre lecteur ou votre contexte opérationnel privé.

Le goût produit. Une plateforme peut exécuter une tâche ; elle ne peut pas savoir si le résultat améliore l’ensemble du produit. Conservez les règles de goût qui rejettent les sorties chargées, génériques ou peu dignes.

Les portes de preuve. Conservez les règles qui exigent des preuves de la session en cours, la vérification du chemin utilisateur, des manques nommés et l’analyse de cause racine. Les traces managées vous disent ce qui s’est passé. Votre standard décide si la preuve suffit.

L’intégrité de la publication. Conservez les règles de citation, de niveaux de sources, les contrôles de frontières privées, les contrôles SEO/AIO et les portes de publication près du site. Un fournisseur de modèle ne devrait pas décider quels détails de flux privé sont publiables sans risque.

La mémoire du projet. Conservez la doctrine concise du projet, les décisions de style, les écueils connus, les frontières de release et les journaux opérationnels là où l’équipe peut les inspecter. Ne déplacez la couche de stockage que si un stockage de session managé améliore réellement la durabilité.

Le renseignement sur les sources. Conservez la couche de routage éditorial. Une veille des sources peut trouver 14 bons éléments et néanmoins produire zéro billet si le bon geste est la veille, la maintenance d’un guide ou une note privée.

La politique de promotion. Conservez les règles de phasage. Une skill peut démarrer en explicite seulement, un hook peut tourner en mode shadow, et un plugin peut rester en pilote-installation tant qu’un travail réel n’a pas prouvé qu’il aide plus qu’il ne distrait.

Cette liste, c’est le vrai harnais. Les fichiers et les commandes n’en sont qu’une implémentation parmi d’autres.

Quelle erreur de migration les équipes doivent-elles éviter ?

La façon la plus simple de rater cette migration consiste à préserver la forme plutôt que le travail.

Les slash commands de Claude Code, les skills Codex, les outils du SDK, les Outcomes managés et les serveurs MCP ne sont pas des syntaxes interchangeables pour la même chose. Ce sont des surfaces d’activation différentes. Une slash command peut devenir une skill. Une skill peut devenir une rubrique de résultat managé. Un hook peut devenir un processeur de traces. Un script local peut devenir inutile dès que la plateforme expose des sessions ou des webhooks.

Le billet d’Anthropic sur les agents au long cours formule la même idée par l’angle inverse : la compaction seule n’a pas produit de travail de qualité production ; le motif efficace y a ajouté des listes de fonctionnalités, des artefacts de progression, un état de transfert propre et des tests de bout en bout.⁸ Ce ne sont pas des conventions d’interface. Ce sont des obligations de preuve.

La migration ne doit pas demander : « Où vais-je placer /scan-intel ? ». Elle doit demander : « Quel travail le flux de veille des sources accomplissait-il ? ».

Pour une veille des sources, le travail n’est pas « lancer une commande ». Le travail est de scruter les sources configurées, de prouver l’accessibilité de la source, de noter les candidats, de refuser des écritures larges à faible signal, de préserver les notes utiles à titre privé et de router les opportunités publiques vers la revue éditoriale. La phrase d’activation exacte peut changer sans perdre le flux.

La même règle vaut pour la doctrine qualité. Ne publiez pas un pack de prompts privés. Convertissez la doctrine en portes de complétion observables : preuves, vérification du chemin utilisateur, revue des frontières privées et droit de refuser un travail qui affaiblirait le produit.

Comment cela s’applique-t-il à une veille des sources ?

Une veille des sources rend la séparation concrète.

Le côté exécution peut migrer. Une plateforme managée peut faire tourner le job planifié, stocker la session, exécuter les outils de navigateur ou de récupération de flux, émettre des événements et préserver les traces. Si une exécution dépasse son délai, la session managée doit savoir ce qui a tourné, quelles sources ont échoué et où la prochaine exécution doit reprendre.

Le côté jugement doit rester local. La veille des sources a toujours besoin d’une carte de sources privée, de seuils de notation, de contrôles de doublons, de limites de volume d’écriture et d’une route éditoriale. Une exécution qui trouve 14 candidats ne doit pas publier automatiquement 14 notes ni un seul article. La bonne action peut être une note privée, une tâche de maintenance de guide, une file de veille ou un refus d’écrire quoi que ce soit de public.

Cette distinction transforme une automatisation bruyante en un flux utile :

Étape de la veille	Couche managée	Couche du harnais local
Récupération des sources	Outils de navigateur, de flux, de recherche ou MCP	Carte des sources et niveaux de confiance
Persistance de l’état d’exécution	Journal de session, événements, traces	Registre de sujets et mémoire des couvertures précédentes
Notation des candidats	Passe optionnelle modèle/outil	Seuils éditoriaux et règles de goût
Écriture des sorties	Outil de fichier ou de note	Porte de volume d’écriture et contrôle des frontières privées
Route de l’action suivante	Événement, webhook ou transfert	Décision de publication, mise à jour de guide, veille ou no-op

La même logique s’applique aux flux de codage, de maintenance de guides, de traduction et de publication. Déplacez la mécanique d’exécution lorsqu’une plateforme la fait mieux. Conservez le standard qui décide si la sortie mérite d’exister.

Quelle checklist les équipes doivent-elles utiliser avant de déplacer un harnais ?

Utilisez cette checklist avant de déplacer tout composant de harnais local vers une plateforme d’agents managés.

Question	Si oui	Si non
Le composant n’opère-t-il que de l’infrastructure d’exécution ?	Déplacez-le vers les sessions, sandboxes, le traçage ou les événements managés.	Conservez-le local ou propre au projet.
Le composant encode-t-il du goût, de la confiance ou des standards éditoriaux ?	Gardez le standard en local ; n’exposez qu’une rubrique sûre ou des critères d’acceptation.	Envisagez de le retirer.
Le composant touche-t-il à des secrets, à un état de compte ou à des prompts privés ?	Gardez les détails privés hors des packages publics et des articles.	Il peut être publiable comme motif générique.
La plateforme peut-elle exprimer la même porte sous forme de rubrique, trace, hook ou processeur ?	Lancez la version native plateforme en pilote.	Conservez la version locale en explicite seulement.
Un travail réel a-t-il prouvé le comportement ?	Promouvez d’explicite seulement à pilote ou imposé.	Maintenez-le en phasage.
Le composant crée-t-il du bruit ?	Simplifiez-le, passez-le en shadow ou retirez-le.	Continuez à le mesurer face aux résultats réels.

La voie de promotion doit rester ennuyeuse :

Inventoriez le composant.
Nommez le travail qu’il accomplit.
Classez-le comme exécution, jugement, mémoire, publication, veille des sources ou sûreté.
Portez la version utile la plus petite.
Faites-la tourner sur une vraie tâche.
Consignez ce qui s’est passé.
Promouvez-le, révisez-le ou retirez-le.

Tout ce qui est plus élaboré masque généralement de l’incertitude.

Comment les équipes devraient-elles découper un vrai harnais aujourd’hui ?

Pour un dispositif sérieux de codage et d’écriture, voici la découpe que je ferais.

Couche fournisseur ou managée :

création de sandbox
exécution de fichiers
sessions persistantes
flux d’événements
webhooks
traces et spans
récupération de workers au long cours
délégation multi-agents de base
exécution de rubriques quand le fournisseur la prend en charge

Couche locale ou propre au projet :

AGENTS.md ou politique de projet équivalente
standards de publication
règles de citation et de niveaux de sources
doctrine de qualité produit
mémoire opérationnelle privée
contrôles SEO/AIO propres au site
routage de la veille des sources
portes finales de publication
politique de frontière de release pour les plugins et les paquets partagés

La ligne de partage n’est pas « managé contre auto-hébergé ». Elle est « exécution banalisée contre jugement produit ».

Où les agents managés appellent-ils encore à la prudence ?

Les plateformes d’agents managés ne suppriment pas les parties difficiles. Elles les déplacent.

Il vous faut toujours un modèle de sécurité pour les outils, les fichiers, l’accès réseau et les identifiants. L’architecture d’Anthropic sépare explicitement les identifiants de la sandbox où s’exécute le code généré, ce qui va dans le bon sens, mais les équipes doivent tout de même configurer correctement les ressources, les coffres et les frontières d’accès.³

Il vous faut toujours de l’observabilité. Une trace peut afficher le graphe d’appels ; elle ne peut pas vous dire si le travail méritait d’être livré. Un évaluateur peut juger une rubrique ; il ne peut pas savoir si la rubrique exprime le bon goût.

Il vous faut toujours des frontières de contenu. Un article public de migration peut décrire le motif, mais il ne doit pas livrer en vrac des prompts privés, l’intérieur exact des hooks, des chemins de fichiers privés, des listes de sources, des détails de compte ou une notation éditoriale propriétaire.

Il vous faut toujours du phasage. Anthropic note que Managed Agents reste en bêta : tous les endpoints exigent l’en-tête bêta managed-agents-2026-04-01, et certaines fonctionnalités requièrent un accès en preview.¹ Une exécution en bêta peut être utile sans devenir le chemin par défaut de chaque flux.

Qu’est-ce que les équipes devraient retenir ?

Pour les responsables d’ingénierie :

Déplacez le travail d’exécution vers des sessions, sandboxes, événements et traces managés dès que la plateforme satisfait à votre niveau de sécurité.
Conservez les standards locaux pour les preuves, la qualité des sources, le goût produit et les frontières de release.
Traitez les rubriques managées comme des emplacements d’exécution pour vos standards, non comme leur substitut.

Pour les bâtisseurs d’agents :

Ne portez pas les commandes une à une. Portez les jobs-to-be-done.
Démarrez en explicite seulement, puis promouvez après qu’une vraie tâche en a prouvé la valeur.
Préférez les traces, les journaux de session et les artefacts publics à l’archéologie de prompts privés.

Pour les rédacteurs publics :

Convertissez le processus privé en critères d’acceptation publics.
Citez la documentation produit officielle pour le comportement actuel.
Refusez le récapitulatif quand le meilleur article est le cadre de décision.

Quel est le résumé express ?

Les plateformes d’agents managés rapetissent le harnais local, sans le rendre superflu. Déplacez le travail d’exécution dans des sessions, sandboxes, traces, événements et orchestrations managés dès que la plateforme gagne cette confiance. Conservez les standards locaux qui définissent la qualité, les preuves, la confidentialité, l’intégrité de la publication et ce qui mérite d’être livré.

FAQ : agents managés et harnais locaux

Les Managed Agents remplacent-ils un harnais d’agent IA local ?

Non. Les plateformes managées remplacent une plus grande part de la couche d’exécution : sessions, sandboxes, flux d’événements, traçage et exécution d’outils. Les harnais locaux conservent leur utilité dès qu’ils encodent les standards produit, les portes de preuve, les règles de publication, les frontières de confidentialité, la veille des sources et la mémoire propre au projet.

Que faut-il garder dans AGENTS.md ou CLAUDE.md ?

Conservez-y les règles de projet durables : ce que le produit valorise, comment la complétion est vérifiée, quels détails privés ne peuvent être publiés, comment la publication est contrôlée, et quels chemins visibles par l’utilisateur doivent fonctionner pour qu’une tâche compte comme terminée. N’entassez pas dans des fichiers d’instructions permanents la sortie d’outils éphémère ou le corps de prompts privés.

Quand une équipe devrait-elle utiliser une plateforme d’agents managés ?

Utilisez l’infrastructure managée lorsque le travail exige une exécution longue, des conteneurs sécurisés, des sessions durables, des flux d’événements, une complétion asynchrone, du traçage ou une orchestration multi-agents managée, et lorsque la sécurité, le coût et les contrôles de données du fournisseur conviennent au cas d’usage.¹²

Que ne faut-il pas faire passer dans un package de harnais public ?

Ne publiez pas de prompts privés, le contenu exact des hooks, des chemins de fichiers sensibles, des identifiants de compte, la gestion de jetons, des listes de sources privées, des règles de notation propriétaires, ni rien qui permette à un inconnu de reconstituer votre système opérationnel interne. Publiez le motif et les critères d’acceptation.

Références

Anthropic, « Claude Managed Agents overview ». Consulté le 7 mai 2026. ↩↩↩↩↩↩
OpenAI, « The next evolution of the Agents SDK », 15 avril 2026. ↩↩↩↩
Anthropic Engineering, « Scaling Managed Agents: Decoupling the brain from the hands », 8 avril 2026. ↩↩↩
OpenAI Agents SDK, « Sessions ». Consulté le 7 mai 2026. ↩
OpenAI Agents SDK, « Tracing ». Consulté le 7 mai 2026. ↩↩
OpenAI Agents SDK, « Handoffs ». Consulté le 7 mai 2026. ↩
Anthropic, « Define outcomes ». Consulté le 7 mai 2026. ↩
Anthropic Engineering, « Effective harnesses for long-running agents », 26 novembre 2025. ↩