Agentes gerenciados vs harnesses locais de agentes: o que manter

13 min read

From the guide: Codex CLI Comprehensive Guide

Anthropic e a OpenAI estão transformando a infraestrutura de ambiente de execução de agentes em superfície de produto: sessões hospedadas, ambientes isolados, rastreamento, memória, transferências, rubricas e fluxos de eventos agora ficam mais próximos do provedor do modelo do que da pasta de scripts privados de uma equipe.¹²

Quais são os principais aprendizados?

Agentes gerenciados estão se tornando a camada de ambiente de execução. Sessões, ambientes isolados, rastros, eventos e execução assíncrona pertencem cada vez mais à infraestrutura gerenciada quando o provedor atende ao padrão de segurança da equipe.¹²
Estruturas locais ainda importam. Mantenha as partes que codificam gosto, evidência, integridade da escrita pública, fronteiras de privacidade, verificação de fontes e memória do projeto.
A unidade de migração é o trabalho, não o comando. Um slash command, uma skill do Codex, uma transferência do SDK, um servidor MCP ou um resultado gerenciado podem todos carregar o mesmo fluxo de trabalho se os critérios de aceitação sobreviverem.
Não publique a maquinaria privada. Posts públicos devem explicar o padrão e os critérios de aceitação, não prompts privados, corpos exatos de ganchos, detalhes de conta ou regras internas de pontuação.
Promoção exige prova. Comece explícito, rode uma tarefa real, registre o resultado e promova apenas quando o caminho visível ao usuário melhorar.

Plataformas de agentes gerenciados devem absorver o trabalho de ambiente de execução que virou commodity: execução em ambiente isolado, sessões com estado, fluxos de eventos, rastreamento, execução de arquivos e conclusão assíncrona. Estruturas locais ainda importam, mas seu trabalho fica menor e mais afiado. Mantenha as partes que codificam gosto de produto, barreiras de evidência, integridade da escrita pública, fronteiras de privacidade, verificação de fontes e memória operacional específica do projeto. Mova as partes que só existem porque ninguém mais tinha empacotado o ambiente de execução ainda.

A migração ruim é apagar sua estrutura local porque um provedor lançou infraestrutura gerenciada. A segunda migração ruim é preservar todo comando, gancho e prompt local porque uma vez resolveu um problema real. A migração certa faz uma pergunta por componente: isto codifica meus padrões ou isto opera a máquina?

Para a arquitetura mais ampla, leia o guia de Arquitetura de Agentes de IA. Para o padrão vivo de migração local por trás deste post, leia Guia de migração do Claude Code para o Codex, Padrões do AGENTS.md e Filosofia de qualidade Jiro.

Para o lado de ferramenta local da divisão, Claude Code como infraestrutura explica por que camadas privadas de ambiente de execução crescem, e Claude Code vs Codex CLI 2026 compara as superfícies de ativação e segurança.

O que mudou com os agentes gerenciados?

O Claude Managed Agents entrega aos desenvolvedores uma estrutura de agente pré-construída rodando em infraestrutura gerenciada. A Anthropic o descreve como adequado para tarefas longas e trabalho assíncrono, com conceitos centrais para agentes, ambientes, sessões e eventos.¹ A mesma documentação descreve um ambiente gerenciado onde o Claude pode ler arquivos, rodar comandos, navegar, executar código, usar servidores MCP e persistir histórico de eventos no servidor.¹

O texto de engenharia da Anthropic deixa o ponto arquitetural mais claro do que a documentação de produto. A equipe de Managed Agents separou o log de sessão, a estrutura e o ambiente isolado para que cada parte possa falhar ou mudar de forma independente.³ Essa separação importa porque transforma um loop de agente frágil de um único container em um sistema com estado de sessão recuperável, ambientes de execução substituíveis e uma fronteira de segurança mais estreita ao redor das credenciais.³

A OpenAI está se movendo na mesma direção via Agents SDK. Sua atualização de 15 de abril de 2026 adicionou uma estrutura nativa do modelo, execução nativa em ambiente isolado, uma abstração de manifesto para workspaces e suporte a primitivos comuns como MCP, skills, AGENTS.md, execução de shell e aplicação de patch.² A documentação do SDK também expõe sessões para memória entre execuções, rastreamento para gerações de LLM, chamadas de ferramentas, transferências, guardrails e eventos customizados, além de transferências para repassar trabalho entre agentes especialistas.⁴⁵⁶

Essa é a notícia. A questão de estratégia é outra: uma vez que as plataformas entregam o ambiente de execução do agente, o que sua estrutura local ainda deve fazer?

Qual é a divisão entre ambiente de execução e julgamento?

A maior parte das estruturas locais de agentes mistura dois trabalhos que nem sempre deveriam viver juntos.

O primeiro trabalho é infraestrutura de ambiente de execução. Um ambiente de execução inicia sessões, concede ferramentas, prepara um workspace, executa comandos, armazena eventos, lida com interrupções, retoma trabalho, transmite status e registra rastros. Esse trabalho se beneficia de padronização. Também se beneficia de engenharia de segurança que a maioria das equipes não deveria reconstruir sozinha sem um motivo forte.

O segundo trabalho é julgamento. Julgamento diz como é um bom trabalho, quais afirmações públicas precisam de fontes primárias, quando um guia está desatualizado demais para publicar, quando um gancho é barulhento demais para ser obrigatório, quando uma varredura de fontes deve virar uma nota em vez de um post e quando um agente deve recusar uma saída tecnicamente correta mas indigna. Esse trabalho fica local porque vem do produto, da equipe e do leitor.

Infraestrutura gerenciada pode rodar um loop melhor. Ela não consegue decidir qual deve ser o seu gosto.

O que deve ir para os agentes gerenciados?

Mova os componentes que não codificam seus padrões de produto.

Componente local	Lar melhor quando a plataforma suporta	Por quê
Configuração de ambiente isolado	Ambiente gerenciado ou ambiente isolado do SDK	Provedores podem manter isolamento, configuração, regras de rede e adaptadores de provedor.
Persistência de sessão	Log de sessão gerenciado ou armazenamento de sessões do SDK	Trabalho longo precisa de estado que sobreviva às janelas de contexto e a falhas de worker.
Fluxos de eventos e webhooks	Eventos gerenciados ou fila de jobs no nível da aplicação	A aplicação deve observar status sem fazer polling do estado privado do shell.
Rastreamento	Rastreamento do provedor ou seu processador de rastreamento	Depurar agentes precisa de spans estruturados para chamadas de modelo, ferramentas, guardrails e transferências.
Cola de execução de ferramentas	Ferramentas gerenciadas, MCP ou adaptadores de ferramenta do SDK	Chamada de ferramenta pertence atrás de interfaces estáveis, não de convenções frágeis de prompt.
Fanout multi-agente	Orquestração gerenciada ou transferências do SDK	Delegação precisa de visibilidade, filtros de entrada e contratos de transferência claros.

O recurso Outcomes da Anthropic mostra para onde essa tendência caminha. O desenvolvedor define uma rubrica, a estrutura gerenciada provisiona um avaliador separado e o agente itera contra o feedback do avaliador.⁷ Isso não remove os padrões locais. Dá a esses padrões um lugar no ambiente de execução.

O mesmo padrão se aplica ao rastreamento da OpenAI. O SDK rastreia a execução, spans de agente, gerações, chamadas de função, guardrails e transferências por padrão, com controles para desabilitar o rastreamento e processadores para outros destinos.⁵ Um script local pode aproximar isso. Um sistema em produção geralmente deve preferir o rastro padronizado e enviá-lo para onde a equipe já depura trabalho.

O que deve permanecer local?

Mantenha os componentes que definem seus padrões, seu leitor ou seu contexto operacional privado.

Gosto de produto. Uma plataforma pode executar uma tarefa; ela não consegue saber se o resultado melhora o produto como um todo. Mantenha as regras de gosto que rejeitam saídas atarefadas, genéricas ou sem dignidade.

Barreiras de evidência. Mantenha regras que exigem evidência da sessão atual, verificação do caminho do usuário, lacunas nomeadas e análise de causa raiz. Rastros gerenciados dizem o que aconteceu. Seu padrão decide se a evidência é suficiente.

Integridade da escrita pública. Mantenha regras de citação, regras de tier de fonte, checagens de fronteiras privadas, checagens SEO/AIO e barreiras de publicação próximos ao site. Um provedor de modelo não deveria decidir quais detalhes privados de fluxo de trabalho são seguros para publicar.

Memória do projeto. Mantenha doutrina concisa do projeto, decisões de estilo, riscos conhecidos, fronteiras de release e logs operacionais onde a equipe possa inspecionar. Mova apenas a camada de armazenamento quando um armazenamento de sessão gerenciado realmente melhorar a durabilidade.

Inteligência de fontes. Mantenha a camada de roteamento editorial. Um varredor pode encontrar 14 itens bons e ainda produzir zero posts se a jogada certa for monitoramento, manutenção de guia ou uma nota privada.

Política de promoção. Mantenha regras de staging. Uma skill pode começar apenas explícita, um gancho pode rodar em modo sombra e um plugin pode ficar em piloto de instalação até que trabalho real prove que ele ajuda mais do que distrai.

Essa lista é a estrutura local de verdade. Os arquivos e comandos são apenas uma implementação dela.

Que erro de migração as equipes devem evitar?

A maneira mais fácil de estragar essa migração é preservar a forma em vez do trabalho.

Slash commands do Claude Code, skills do Codex, ferramentas do SDK, resultados gerenciados e servidores MCP não são sintaxes intercambiáveis para a mesma coisa. São superfícies de ativação diferentes. Um slash command pode virar uma skill. Uma skill pode virar uma rubrica de resultado gerenciado. Um gancho pode virar um processador de rastreamento. Um script local pode se tornar desnecessário assim que a plataforma expor sessões ou webhooks.

O texto da Anthropic sobre agentes de longa duração faz o mesmo ponto pela direção oposta: compaction sozinha não produziu trabalho com qualidade de produção, então o padrão efetivo somou listas de features, artefatos de progresso, estado limpo de transferência e testes ponta a ponta.⁸ Isso não são convenções de UI. São obrigações de prova.

A migração não deveria perguntar “Onde coloco o /scan-intel?”. Deveria perguntar “Que trabalho o fluxo de trabalho de inteligência de fontes desempenhava?”.

Para um varredor de fontes, o trabalho não é “rodar um comando”. O trabalho é varrer fontes configuradas, comprovar a alcançabilidade da fonte, pontuar candidatos, recusar escritas amplas de baixo sinal, preservar notas úteis em privado e rotear oportunidades públicas para revisão editorial. A frase exata de ativação pode mudar sem perder o fluxo de trabalho.

A mesma regra vale para a doutrina de qualidade. Não publique um pacote de prompts privados. Converta a doutrina em barreiras observáveis de conclusão: evidência, verificação do caminho do usuário, revisão de fronteira privada e o direito de recusar trabalho que enfraqueça o produto.

Como isso se aplica a um varredor de inteligência de fontes?

Um varredor de inteligência de fontes torna a divisão concreta.

O lado do ambiente de execução pode se mover. Uma plataforma gerenciada pode rodar o job agendado, armazenar a sessão, executar ferramentas de browser ou de busca de feed, emitir eventos e preservar rastros. Se uma varredura estourar o tempo, a sessão gerenciada deve saber o que rodou, quais fontes falharam e onde a próxima execução deve retomar.

O lado de julgamento deve permanecer local. O varredor ainda precisa de um mapa privado de fontes, limiares de pontuação, checagens de duplicidade, limites de volume de escrita e uma rota editorial. Uma varredura que encontra 14 candidatos não deve publicar automaticamente 14 notas ou um artigo. A ação correta pode ser uma nota privada, uma tarefa de manutenção de guia, uma fila de monitoramento ou uma recusa de escrever qualquer coisa pública.

Essa distinção transforma uma automação barulhenta em um fluxo de trabalho útil:

Etapa do varredor	Camada gerenciada	Camada da estrutura local
Buscar fontes	Browser, feed, busca ou ferramentas MCP	Mapa de fontes e tiers de confiança
Persistir estado da execução	Log de sessão, eventos, rastros	Ledger de tópicos e memória de cobertura prévia
Pontuar candidatos	Passe opcional de modelo/ferramenta	Limiares editoriais e regras de gosto
Escrever saídas	Ferramenta de arquivo ou nota	Barreira de volume de escrita e checagem de fronteira privada
Rotear próxima ação	Evento, webhook ou transferência	Decisão de publicar, atualizar guia, monitorar ou nada fazer

A mesma lógica se aplica a fluxos de trabalho de codificação, manutenção de guias, tradução e escrita pública. Mova a mecânica de execução quando a plataforma fizer melhor. Mantenha o padrão que decide se a saída merece existir.

Que checklist as equipes devem usar antes de mover uma estrutura local?

Use este checklist antes de mover qualquer componente de estrutura local para uma plataforma de agente gerenciado.

Pergunta	Se sim	Se não
O componente apenas opera infraestrutura de ambiente de execução?	Mova-o em direção a sessões, ambientes isolados, rastreamento ou eventos gerenciados.	Mantenha local ou sob a guarda do projeto.
O componente codifica gosto, confiança ou padrões editoriais?	Mantenha o padrão local; exponha apenas uma rubrica segura ou critérios de aceitação.	Considere aposentá-lo.
O componente toca em segredos, estado de conta ou prompts privados?	Mantenha os detalhes privados fora de pacotes e artigos públicos.	Pode ser publicável como padrão genérico.
A plataforma consegue expressar a mesma barreira como rubrica, rastro, gancho ou processador?	Pilote a versão nativa da plataforma.	Mantenha a versão local apenas como explícita.
Trabalho real provou o comportamento?	Promova de apenas explícito para piloto ou obrigatório.	Mantenha em staging.
O componente cria ruído?	Simplifique, coloque em sombra ou remova.	Continue medindo contra resultados reais.

O caminho de promoção deve ser maçante:

Inventarie o componente.
Nomeie o trabalho que ele desempenha.
Classifique como ambiente de execução, julgamento, memória, publicação, inteligência de fontes ou segurança.
Porte a menor versão útil.
Rode-o em uma tarefa real.
Registre o que aconteceu.
Promova, revise ou remova.

Qualquer coisa mais elaborada normalmente esconde incerteza.

Como as equipes deveriam dividir uma estrutura local real hoje?

Para uma configuração séria de codificação e escrita, eu faria esta divisão.

Camada do provedor ou gerenciada:

criação de ambiente isolado
execução de arquivos
sessões persistentes
fluxos de eventos
webhooks
rastros e spans
recuperação de worker de longa duração
delegação multi-agente básica
execução de rubrica quando o provedor suportar

Camada local ou do projeto:

AGENTS.md ou política de projeto equivalente
padrões de escrita pública
regras de citação e de tier de fonte
doutrina de qualidade de produto
memória operacional privada
checagens SEO/AIO específicas do site
roteamento de inteligência de fontes
barreiras finais de publicação
política de fronteira de release para plugins e pacotes compartilhados

A linha divisória não é “gerenciado versus auto-hospedado”. A linha divisória é “ambiente de execução commoditizado versus julgamento de produto”.

Onde os agentes gerenciados ainda exigem cautela?

Plataformas de agentes gerenciados não removem as partes difíceis. Elas as movem.

Você ainda precisa de um modelo de segurança para ferramentas, arquivos, acesso de rede e credenciais. A arquitetura da Anthropic explicitamente separa as credenciais do ambiente isolado onde o código gerado roda, o que é a direção certa, mas as equipes ainda precisam configurar recursos, vaults e fronteiras de acesso corretamente.³

Você ainda precisa de observabilidade. Um rastro pode mostrar o grafo de chamadas; ele não pode dizer se o trabalho merecia ser entregue. Um avaliador pode avaliar uma rubrica; ele não pode saber se a rubrica expressa o gosto certo.

Você ainda precisa de fronteiras de conteúdo. Um artigo público de migração pode descrever o padrão, mas não deve despejar prompts privados, internos exatos de ganchos, caminhos privados de arquivos, listas de fontes, detalhes de conta ou pontuação editorial proprietária.

Você ainda precisa de staging. A Anthropic observa que os Managed Agents continuam em beta, com todos os endpoints exigindo o cabeçalho beta managed-agents-2026-04-01 e algumas funcionalidades exigindo acesso preview.¹ Um ambiente de execução em beta pode ser útil sem se tornar o caminho padrão para todo fluxo de trabalho.

O que as equipes devem levar daqui?

Para líderes de engenharia:

Mova trabalho de ambiente de execução em direção a sessões, ambientes isolados, eventos e rastros gerenciados quando a plataforma atender ao seu padrão de segurança.
Mantenha padrões locais para evidência, qualidade de fonte, gosto de produto e fronteiras de release.
Trate rubricas gerenciadas como vagas de execução para seus padrões, não como substituição deles.

Para construtores de agentes:

Não porte comandos um a um. Porte trabalhos a serem feitos.
Comece apenas explícito, depois promova após uma tarefa real provar valor.
Prefira rastros, logs de sessão e artefatos públicos a arqueologia privada de prompts.

Para escritores públicos:

Transforme processo privado em critérios de aceitação públicos.
Cite documentação oficial do produto para o comportamento atual.
Recuse o recap quando o artigo melhor for o framework de decisão.

Qual é o resumo rápido?

Plataformas de agentes gerenciados tornam a estrutura local menor, não irrelevante. Mova trabalho de ambiente de execução para sessões, ambientes isolados, rastros, eventos e orquestração gerenciados quando a plataforma conquistar essa confiança. Mantenha os padrões locais que definem qualidade, evidência, privacidade, integridade da escrita pública e que trabalho merece ser entregue.

FAQ: agentes gerenciados e estruturas locais

Os Managed Agents substituem uma estrutura local de agente de IA?

Não. Plataformas gerenciadas substituem mais da camada de ambiente de execução: sessões, ambientes isolados, fluxos de eventos, rastreamento e execução de ferramentas. Estruturas locais ainda importam quando codificam padrões de produto, barreiras de evidência, regras de escrita pública, fronteiras de privacidade, inteligência de fontes e memória específica do projeto.

O que deve ficar no AGENTS.md ou CLAUDE.md?

Mantenha lá as regras duráveis do projeto: o que o produto valoriza, como a conclusão é verificada, quais detalhes privados não podem ser publicados, como a escrita pública é checada e quais caminhos visíveis ao usuário precisam funcionar antes de uma tarefa contar como pronta. Não enfie saída transitória de ferramenta ou corpos de prompt privados em arquivos permanentes de instrução.

Quando uma equipe deve usar uma plataforma de agente gerenciado?

Use infraestrutura gerenciada quando o trabalho exige execução de longa duração, containers seguros, sessões duráveis, fluxos de eventos, conclusão assíncrona, rastreamento ou orquestração multi-agente gerenciada, e quando a segurança, o custo e os controles de dados do provedor servem para o caso de uso.¹²

O que não deve ir para um pacote público de estrutura local?

Não publique prompts privados, corpos exatos de ganchos, caminhos sensíveis de arquivos, identificadores de conta, manuseio de tokens, listas privadas de fontes, regras proprietárias de pontuação ou qualquer coisa que permita a um estranho reconstruir seu sistema operacional interno. Publique o padrão e os critérios de aceitação.

Referências

Anthropic, “Claude Managed Agents overview”. Acesso em 7 de maio de 2026. ↩↩↩↩↩↩
OpenAI, “The next evolution of the Agents SDK”, 15 de abril de 2026. ↩↩↩↩
Anthropic Engineering, “Scaling Managed Agents: Decoupling the brain from the hands”, 8 de abril de 2026. ↩↩↩
OpenAI Agents SDK, “Sessions”. Acesso em 7 de maio de 2026. ↩
OpenAI Agents SDK, “Tracing”. Acesso em 7 de maio de 2026. ↩↩
OpenAI Agents SDK, “Handoffs”. Acesso em 7 de maio de 2026. ↩
Anthropic, “Define outcomes”. Acesso em 7 de maio de 2026. ↩
Anthropic Engineering, “Effective harnesses for long-running agents”, 26 de novembro de 2025. ↩