← Tous les articles

Agents managés ou harnais d'agents locaux : ce qu'il faut conserver

From the guide: Codex CLI Comprehensive Guide

Anthropic et OpenAI transforment l’infrastructure d’exécution des agents en surface produit : les sessions hébergées, sandboxes, le traçage, la mémoire, les transferts, les rubriques et les flux d’événements résident désormais davantage chez le fournisseur du modèle que dans le dossier de scripts privé d’une équipe.12

Quels sont les points essentiels à retenir ?

  • Les agents managés deviennent la couche d’exécution. Les sessions, sandboxes, traces, événements et l’exécution asynchrone relèvent de plus en plus de l’infrastructure managée, dès lors que le fournisseur satisfait au niveau de sécurité de l’équipe.12
  • Les harnais locaux conservent leur utilité. Gardez les éléments qui encodent le goût, les preuves, l’intégrité de la publication, les frontières de confidentialité, la vérification des sources et la mémoire du projet.
  • L’unité de migration est le travail, pas la commande. Une slash command, une skill Codex, un transfert SDK, un serveur MCP ou un outcome managé peuvent tous porter le même flux de travail si les critères d’acceptation survivent.
  • Ne publiez pas votre machinerie privée. Les billets publics doivent expliquer le motif et les critères d’acceptation, non les prompts privés, le contenu exact des hooks, les détails de compte ou les règles de notation internes.
  • La promotion exige des preuves. Commencez en mode explicite, exécutez une vraie tâche, consignez le résultat et ne promouvez qu’à condition que le chemin visible par l’utilisateur s’améliore.

Les plateformes d’agents managés devraient absorber le travail d’exécution banalisé : exécution en sandbox, sessions avec état, flux d’événements, traçage, exécution de fichiers et complétion asynchrone. Les harnais locaux conservent leur importance, mais leur rôle se rétrécit et s’aiguise. Conservez les éléments qui encodent le goût produit, les portes de preuve, l’intégrité de la publication, les frontières de confidentialité, la vérification des sources et la mémoire opérationnelle propre au projet. Déplacez ce qui n’existait que parce que personne d’autre n’avait encore packagé l’exécution.

La mauvaise migration consiste à supprimer son harnais local sous prétexte qu’un fournisseur a livré une infrastructure managée. La seconde mauvaise migration consiste à préserver chaque commande, hook et prompt locaux parce qu’ils ont jadis résolu un vrai problème. La bonne migration pose une seule question par composant : encode-t-il mes standards, ou opère-t-il la machine ?

Pour l’architecture d’ensemble, lisez le guide AI Agent Architecture. Pour le motif de migration locale qui sous-tend ce billet, lisez Claude Code to Codex Migration Guide, AGENTS.md Patterns et Jiro Quality Philosophy.

Côté outillage local de la séparation, Claude Code as Infrastructure explique pourquoi les couches d’exécution privées se développent, et Claude Code vs Codex CLI 2026 compare les surfaces d’activation et de sûreté.

Qu’est-ce qui a changé avec les agents managés ?

Claude Managed Agents offre aux développeurs un harnais d’agent préconstruit, fonctionnant dans une infrastructure managée. Anthropic le présente comme adapté aux tâches longues et au travail asynchrone, avec des concepts clés pour les agents, les environnements, les sessions et les événements.1 La même documentation décrit un environnement managé où Claude peut lire des fichiers, exécuter des commandes, naviguer, exécuter du code, utiliser des serveurs MCP et conserver l’historique des événements côté serveur.1

Le billet d’ingénierie d’Anthropic formule l’argument architectural plus clairement que la documentation produit. L’équipe Managed Agents a découplé le journal de session, le harnais et la sandbox afin que chaque pièce puisse échouer ou évoluer indépendamment.3 Cette séparation compte : elle transforme une boucle d’agent fragile en un seul conteneur en un système doté d’un état de session récupérable, d’environnements d’exécution remplaçables et d’une frontière de sécurité plus étroite autour des identifiants.3

OpenAI s’oriente dans la même direction avec l’Agents SDK. Sa mise à jour du 15 avril 2026 a ajouté un harnais natif au modèle, l’exécution native en sandbox, une abstraction de manifeste pour les espaces de travail, ainsi que la prise en charge de primitives courantes telles que MCP, les skills, AGENTS.md, l’exécution shell et l’application de patches.2 La documentation du SDK expose également les sessions pour la mémoire multi-exécution, le traçage des générations LLM, les appels d’outils, les transferts, les garde-fous et les événements personnalisés, et les transferts pour passer le travail entre agents spécialistes.456

Voilà pour l’actualité. La question stratégique est différente : une fois que les plateformes livrent l’exécution des agents, que doit encore faire votre harnais local ?

Quelle est la séparation entre exécution et jugement ?

La plupart des harnais d’agents locaux mêlent deux rôles qui ne devraient pas toujours cohabiter.

Le premier rôle, c’est l’infrastructure d’exécution. Une exécution démarre des sessions, octroie des outils, prépare un espace de travail, lance des commandes, stocke des événements, gère les interruptions, reprend le travail, diffuse l’état et enregistre les traces. Ce rôle gagne à être standardisé. Il bénéficie aussi d’une ingénierie de sécurité que la plupart des équipes individuelles ne devraient pas reconstruire sans raison forte.

Le second rôle, c’est le jugement. Le jugement définit ce qui constitue du bon travail, quelles affirmations publiques exigent des sources primaires, quand un guide est trop daté pour être publié, quand un hook est trop bruyant pour être appliqué, quand un scan de sources doit donner une note plutôt qu’un billet, et quand un agent doit refuser un résultat techniquement correct mais indigne. Ce rôle reste local, parce qu’il vient du produit, de l’équipe et du lecteur.

Une infrastructure managée peut faire tourner une meilleure boucle. Elle ne peut pas décider de votre goût.

Que faut-il déplacer vers les agents managés ?

Déplacez les composants qui n’encodent pas vos standards produit.

Composant local Meilleur foyer si la plateforme le prend en charge Pourquoi
Configuration de sandbox Environnement managé ou sandbox du SDK Les fournisseurs savent maintenir l’isolation, l’installation, les règles réseau et les adaptateurs de fournisseurs.
Persistance de session Journal de session managé ou stockage de session du SDK Le travail long nécessite un état qui survit aux fenêtres de contexte et aux pannes des workers.
Flux d’événements et webhooks Événements managés ou file de jobs au niveau application L’application doit observer l’état sans interroger l’état d’un shell privé.
Traçage Traçage du fournisseur ou votre processeur de traçage Le débogage d’agent réclame des spans structurés pour les appels au modèle, les outils, les garde-fous et les transferts.
Glue d’exécution d’outils Outils managés, MCP ou adaptateurs d’outils du SDK L’appel d’outil appartient derrière des interfaces stables, pas derrière des conventions de prompt fragiles.
Distribution multi-agents Orchestration managée ou transferts du SDK La délégation exige de la visibilité, des filtres d’entrée et des contrats de transfert clairs.

La fonctionnalité Outcomes d’Anthropic montre la suite de cette tendance. Le développeur définit une rubrique, le harnais managé provisionne un évaluateur séparé, et l’agent itère face aux retours de l’évaluateur.7 Cela ne supprime pas les standards locaux. Cela leur donne un emplacement d’exécution.

Le même schéma s’applique au traçage d’OpenAI. Le SDK trace par défaut l’exécution, les spans d’agents, les générations, les appels d’outils-fonctions, les garde-fous et les transferts, avec des contrôles pour désactiver le traçage et des processeurs pour d’autres destinations.5 Un script local peut s’en approcher. Un système de production devrait généralement préférer la trace standardisée et l’envoyer là où l’équipe débogue déjà son travail.

Que faut-il garder en local ?

Conservez les composants qui définissent vos standards, votre lecteur ou votre contexte opérationnel privé.

Le goût produit. Une plateforme peut exécuter une tâche ; elle ne peut pas savoir si le résultat améliore l’ensemble du produit. Conservez les règles de goût qui rejettent les sorties chargées, génériques ou peu dignes.

Les portes de preuve. Conservez les règles qui exigent des preuves de la session en cours, la vérification du chemin utilisateur, des manques nommés et l’analyse de cause racine. Les traces managées vous disent ce qui s’est passé. Votre standard décide si la preuve suffit.

L’intégrité de la publication. Conservez les règles de citation, de niveaux de sources, les contrôles de frontières privées, les contrôles SEO/AIO et les portes de publication près du site. Un fournisseur de modèle ne devrait pas décider quels détails de flux privé sont publiables sans risque.

La mémoire du projet. Conservez la doctrine concise du projet, les décisions de style, les écueils connus, les frontières de release et les journaux opérationnels là où l’équipe peut les inspecter. Ne déplacez la couche de stockage que si un stockage de session managé améliore réellement la durabilité.

Le renseignement sur les sources. Conservez la couche de routage éditorial. Un scanner peut trouver 14 bons éléments et néanmoins produire zéro billet si le bon geste est la veille, la maintenance d’un guide ou une note privée.

La politique de promotion. Conservez les règles de phasage. Une skill peut démarrer en explicite seulement, un hook peut tourner en mode shadow, et un plugin peut rester en pilote-installation tant qu’un travail réel n’a pas prouvé qu’il aide plus qu’il ne distrait.

Cette liste, c’est le vrai harnais. Les fichiers et les commandes n’en sont qu’une implémentation parmi d’autres.

Quelle erreur de migration les équipes doivent-elles éviter ?

La façon la plus simple de rater cette migration consiste à préserver la forme plutôt que le travail.

Les slash commands de Claude Code, les skills Codex, les outils du SDK, les outcomes managés et les serveurs MCP ne sont pas des syntaxes interchangeables pour la même chose. Ce sont des surfaces d’activation différentes. Une slash command peut devenir une skill. Une skill peut devenir une rubrique d’outcome managé. Un hook peut devenir un processeur de traces. Un script local peut devenir inutile dès que la plateforme expose des sessions ou des webhooks.

Le billet d’Anthropic sur les agents au long cours formule la même idée par l’angle inverse : la compaction seule n’a pas produit de travail de qualité production ; le motif efficace y a ajouté des listes de fonctionnalités, des artefacts de progression, un état de transfert propre et des tests de bout en bout.8 Ce ne sont pas des conventions d’interface. Ce sont des obligations de preuve.

La migration ne doit pas demander : « Où vais-je placer /scan-intel ? ». Elle doit demander : « Quel travail le flux de renseignement sur les sources accomplissait-il ? ».

Pour un scanner de sources, le travail n’est pas « lancer une commande ». Le travail est de scanner les sources configurées, de prouver l’accessibilité de la source, de noter les candidats, de refuser des écritures larges à faible signal, de préserver les notes utiles à titre privé et de router les opportunités publiques vers la revue éditoriale. La phrase d’activation exacte peut changer sans perdre le flux.

La même règle vaut pour la doctrine qualité. Ne publiez pas un pack de prompts privés. Convertissez la doctrine en portes de complétion observables : preuves, vérification du chemin utilisateur, revue des frontières privées et droit de refuser un travail qui affaiblirait le produit.

Comment cela s’applique-t-il à un scanner de renseignement sur les sources ?

Un scanner de renseignement sur les sources rend la séparation concrète.

Le côté exécution peut migrer. Une plateforme managée peut faire tourner le job planifié, stocker la session, exécuter les outils de navigateur ou de récupération de flux, émettre des événements et préserver les traces. Si un scan dépasse son délai, la session managée doit savoir ce qui a tourné, quelles sources ont échoué et où la prochaine exécution doit reprendre.

Le côté jugement doit rester local. Le scanner a toujours besoin d’une carte de sources privée, de seuils de notation, de contrôles de doublons, de limites de volume d’écriture et d’une route éditoriale. Un scan qui trouve 14 candidats ne doit pas publier automatiquement 14 notes ni un seul article. La bonne action peut être une note privée, une tâche de maintenance de guide, une file de veille ou un refus d’écrire quoi que ce soit de public.

Cette distinction transforme une automatisation bruyante en un flux utile :

Étape du scanner Couche managée Couche du harnais local
Récupération des sources Outils de navigateur, de flux, de recherche ou MCP Carte des sources et niveaux de confiance
Persistance de l’état d’exécution Journal de session, événements, traces Registre de sujets et mémoire des couvertures précédentes
Notation des candidats Passe optionnelle modèle/outil Seuils éditoriaux et règles de goût
Écriture des sorties Outil de fichier ou de note Porte de volume d’écriture et contrôle des frontières privées
Route de l’action suivante Événement, webhook ou transfert Décision de publication, mise à jour de guide, veille ou no-op

La même logique s’applique aux flux de codage, de maintenance de guides, de traduction et de publication. Déplacez la mécanique d’exécution lorsqu’une plateforme la fait mieux. Conservez le standard qui décide si la sortie mérite d’exister.

Quelle checklist les équipes doivent-elles utiliser avant de déplacer un harnais ?

Utilisez cette checklist avant de déplacer tout composant de harnais local vers une plateforme d’agents managés.

Question Si oui Si non
Le composant n’opère-t-il que de l’infrastructure d’exécution ? Déplacez-le vers les sessions, sandboxes, le traçage ou les événements managés. Conservez-le local ou propre au projet.
Le composant encode-t-il du goût, de la confiance ou des standards éditoriaux ? Gardez le standard en local ; n’exposez qu’une rubrique sûre ou des critères d’acceptation. Envisagez de le retirer.
Le composant touche-t-il à des secrets, à un état de compte ou à des prompts privés ? Gardez les détails privés hors des packages publics et des articles. Il peut être publiable comme motif générique.
La plateforme peut-elle exprimer la même porte sous forme de rubrique, trace, hook ou processeur ? Lancez la version native plateforme en pilote. Conservez la version locale en explicite seulement.
Un travail réel a-t-il prouvé le comportement ? Promouvez d’explicite seulement à pilote ou imposé. Maintenez-le en phasage.
Le composant crée-t-il du bruit ? Simplifiez-le, passez-le en shadow ou retirez-le. Continuez à le mesurer face aux résultats réels.

La voie de promotion doit rester ennuyeuse :

  1. Inventoriez le composant.
  2. Nommez le travail qu’il accomplit.
  3. Classez-le comme exécution, jugement, mémoire, publication, renseignement sur les sources ou sûreté.
  4. Portez la version utile la plus petite.
  5. Faites-la tourner sur une vraie tâche.
  6. Consignez ce qui s’est passé.
  7. Promouvez-le, révisez-le ou retirez-le.

Tout ce qui est plus élaboré masque généralement de l’incertitude.

Comment les équipes devraient-elles découper un vrai harnais aujourd’hui ?

Pour un dispositif sérieux de codage et d’écriture, voici la découpe que je ferais.

Couche fournisseur ou managée :

  • création de sandbox
  • exécution de fichiers
  • sessions persistantes
  • flux d’événements
  • webhooks
  • traces et spans
  • récupération de workers au long cours
  • délégation multi-agents de base
  • exécution de rubriques quand le fournisseur la prend en charge

Couche locale ou propre au projet :

  • AGENTS.md ou politique de projet équivalente
  • standards de publication
  • règles de citation et de niveaux de sources
  • doctrine de qualité produit
  • mémoire opérationnelle privée
  • contrôles SEO/AIO propres au site
  • routage du renseignement sur les sources
  • portes finales de publication
  • politique de frontière de release pour les plugins et les paquets partagés

La ligne de partage n’est pas « managé contre auto-hébergé ». Elle est « exécution banalisée contre jugement produit ».

Où les agents managés appellent-ils encore à la prudence ?

Les plateformes d’agents managés ne suppriment pas les parties difficiles. Elles les déplacent.

Il vous faut toujours un modèle de sécurité pour les outils, les fichiers, l’accès réseau et les identifiants. L’architecture d’Anthropic sépare explicitement les identifiants de la sandbox où s’exécute le code généré, ce qui va dans le bon sens, mais les équipes doivent tout de même configurer correctement les ressources, les coffres et les frontières d’accès.3

Il vous faut toujours de l’observabilité. Une trace peut afficher le graphe d’appels ; elle ne peut pas vous dire si le travail méritait d’être livré. Un évaluateur peut juger une rubrique ; il ne peut pas savoir si la rubrique exprime le bon goût.

Il vous faut toujours des frontières de contenu. Un article public de migration peut décrire le motif, mais il ne doit pas livrer en vrac des prompts privés, l’intérieur exact des hooks, des chemins de fichiers privés, des listes de sources, des détails de compte ou une notation éditoriale propriétaire.

Il vous faut toujours du phasage. Anthropic note que Managed Agents reste en bêta : tous les endpoints exigent l’en-tête bêta managed-agents-2026-04-01, et certaines fonctionnalités requièrent un accès en preview.1 Une exécution en bêta peut être utile sans devenir le chemin par défaut de chaque flux.

Qu’est-ce que les équipes devraient retenir ?

Pour les responsables d’ingénierie :

  • Déplacez le travail d’exécution vers des sessions, sandboxes, événements et traces managés dès que la plateforme satisfait à votre niveau de sécurité.
  • Conservez les standards locaux pour les preuves, la qualité des sources, le goût produit et les frontières de release.
  • Traitez les rubriques managées comme des emplacements d’exécution pour vos standards, non comme leur substitut.

Pour les bâtisseurs d’agents :

  • Ne portez pas les commandes une à une. Portez les jobs-to-be-done.
  • Démarrez en explicite seulement, puis promouvez après qu’une vraie tâche en a prouvé la valeur.
  • Préférez les traces, les journaux de session et les artefacts publics à l’archéologie de prompts privés.

Pour les rédacteurs publics :

  • Convertissez le processus privé en critères d’acceptation publics.
  • Citez la documentation produit officielle pour le comportement actuel.
  • Refusez le récapitulatif quand le meilleur article est le cadre de décision.

Quel est le résumé express ?

Les plateformes d’agents managés rapetissent le harnais local, sans le rendre superflu. Déplacez le travail d’exécution dans des sessions, sandboxes, traces, événements et orchestrations managés dès que la plateforme gagne cette confiance. Conservez les standards locaux qui définissent la qualité, les preuves, la confidentialité, l’intégrité de la publication et ce qui mérite d’être livré.

FAQ : agents managés et harnais locaux

Les Managed Agents remplacent-ils un harnais d’agent IA local ?

Non. Les plateformes managées remplacent une plus grande part de la couche d’exécution : sessions, sandboxes, flux d’événements, traçage et exécution d’outils. Les harnais locaux conservent leur utilité dès qu’ils encodent les standards produit, les portes de preuve, les règles de publication, les frontières de confidentialité, le renseignement sur les sources et la mémoire propre au projet.

Que faut-il garder dans AGENTS.md ou CLAUDE.md ?

Conservez-y les règles de projet durables : ce que le produit valorise, comment la complétion est vérifiée, quels détails privés ne peuvent être publiés, comment la publication est contrôlée, et quels chemins visibles par l’utilisateur doivent fonctionner pour qu’une tâche compte comme terminée. N’entassez pas dans des fichiers d’instructions permanents la sortie d’outils éphémère ou le corps de prompts privés.

Quand une équipe devrait-elle utiliser une plateforme d’agents managés ?

Utilisez l’infrastructure managée lorsque le travail exige une exécution longue, des conteneurs sécurisés, des sessions durables, des flux d’événements, une complétion asynchrone, du traçage ou une orchestration multi-agents managée, et lorsque la sécurité, le coût et les contrôles de données du fournisseur conviennent au cas d’usage.12

Que ne faut-il pas faire passer dans un package de harnais public ?

Ne publiez pas de prompts privés, le contenu exact des hooks, des chemins de fichiers sensibles, des identifiants de compte, la gestion de jetons, des listes de sources privées, des règles de notation propriétaires, ni rien qui permette à un inconnu de reconstituer votre système opérationnel interne. Publiez le motif et les critères d’acceptation.

Références


  1. Anthropic, « Claude Managed Agents overview ». Consulté le 7 mai 2026. 

  2. OpenAI, « The next evolution of the Agents SDK », 15 avril 2026. 

  3. Anthropic Engineering, « Scaling Managed Agents: Decoupling the brain from the hands », 8 avril 2026. 

  4. OpenAI Agents SDK, « Sessions ». Consulté le 7 mai 2026. 

  5. OpenAI Agents SDK, « Tracing ». Consulté le 7 mai 2026. 

  6. OpenAI Agents SDK, « Handoffs ». Consulté le 7 mai 2026. 

  7. Anthropic, « Define outcomes ». Consulté le 7 mai 2026. 

  8. Anthropic Engineering, « Effective harnesses for long-running agents », 26 novembre 2025. 

Articles connexes

Claude Code to Codex Migration Guide 2026

Claude Code to Codex migration guide: move AGENTS.md, skills, hooks, profiles, MCP, public-writing gates, and verified C…

29 min de lecture

Anatomie d'une griffe : 84 hooks comme couche d'orchestration

Karpathy a identifié les « Claws » comme une nouvelle couche architecturale. Voici à quoi ressemblent 84 hooks, 43 skill…

16 min de lecture

Code with Claude SF 2026 : ce que Anthropic a réellement livré

Récapitulatif de Code with Claude SF 2026 : doublement des limites de débit Claude Code, accord Colossus 1 avec SpaceX, …

12 min de lecture