← Todos os Posts

Pacotes de revisão de agentes de IA são a nova resposta final

O post de lançamento do Codex pela OpenAI diz que o Codex fornece evidências verificáveis por meio de citações de logs do terminal e saídas de testes, para que os usuários possam rastrear as etapas executadas durante a conclusão da tarefa.1 Essa frase dá nome à mudança de produto. A resposta final, sozinha, não basta mais.

Pacotes de revisão são a nova resposta final para o trabalho de agentes. Um agente sério deve terminar com um conjunto estruturado de afirmações, rastreamentos, aprovações, diffs, testes, checagens de fontes, comprovações de implantação e lacunas não resolvidas. Uma prosa fluente pode resumir o trabalho. O pacote é o que conquista confiança.

Resumo rápido

O trabalho de agentes agora abrange planejamento, chamadas de ferramentas, edições de arquivos, aprovações, testes, rotas em produção, traduções e validação humana. A documentação do Codex cloud da OpenAI descreve tarefas em segundo plano em ambientes de nuvem isolados, enquanto o Agents SDK expõe rastreamento entre gerações do modelo, chamadas de ferramentas, transferências, barreiras de proteção e eventos personalizados.23 A documentação de human-in-the-loop da OpenAI pausa a execução para decisões de aprovação, e os hooks do Claude Code da Anthropic expõem eventos do ciclo de vida como PreToolUse, PostToolUse, PermissionRequest e Stop.45

Todas essas peças apontam para o mesmo artefato: um pacote de revisão. O pacote transforma a afirmação final de um agente em algo que uma pessoa pode inspecionar, rejeitar, aprovar ou entregar a outro revisor.

Principais pontos

Para quem constrói agentes: - Trate a resposta final como a capa. O pacote de revisão deve carregar as evidências. - Vincule toda afirmação importante a um arquivo, saída de comando, evento de rastreamento, fonte, checagem de rota, decisão de aprovação ou lacuna não resolvida.

Para designers de produto: - Projete o pacote como um objeto fácil de escanear, não como uma exportação de transcrição. Agrupe as evidências por decisão do usuário. - Inclua o estado da revisão humana no pacote. “Verificado pela máquina” e “aprovado por uma pessoa” são status diferentes.

Para equipes que estão adotando agentes: - Exija pacotes de revisão para lançamentos públicos, mudanças em produção, trabalho de tradução, alterações sensíveis à segurança e trabalhos com impacto financeiro. - Não aceite “pronto” se o pacote não disser o que ainda falta verificar.

O que é um pacote de revisão de agente de IA?

Um pacote de revisão é um conjunto estruturado de evidências para o trabalho de agentes.

Ele responde a 7 perguntas:

Pergunta Campo do pacote
O que o usuário pediu? Objetivo e escopo
O que o agente alterou? Arquivos, diffs, artefatos, estado externo
O que o agente executou? Comandos, chamadas de ferramentas, argumentos, estados de saída
O que uma pessoa aprovou? Decisões de aprovação e notas de risco
O que comprova o resultado? Testes, checagens de fontes, rotas renderizadas, telemetria, screenshots
O que ainda precisa de julgamento? Tarefas de revisão, matriz de validação, afirmações não resolvidas
O que deve acontecer em seguida? Fazer merge, publicar, rejeitar, tentar de novo ou escalar

O pacote pode existir como Markdown, JSON, uma linha no banco de dados, um template de pull request ou um objeto dedicado na UI. O formato importa menos que a estrutura. O objeto precisa separar evidência de narração.

Uma resposta final diz: “Traduzi o artigo e implantei em produção.” Um pacote de revisão diz quais locales mudaram, qual controle de qualidade passou, quais linhas do D1 existem, qual commit foi implantado, qual limpeza de CDN foi executada, quais rotas em produção retornaram o artigo alterado e quais revisões por falantes nativos ainda estão pendentes. A segunda versão dá à pessoa uma superfície de decisão.

Por que as respostas finais pararam de funcionar?

As respostas finais pararam de funcionar porque agentes agora agem ao longo do tempo.

Uma resposta de chatbot pode ser julgada na própria superfície da resposta. Um agente de código ou publicação produz um caminho: lê arquivos, seleciona fontes, chama ferramentas, edita conteúdo, roda testes, escreve traduções, implanta, limpa cache e verifica produção. O parágrafo final apenas descreve esse caminho. Ele não prova que o caminho aconteceu.

A documentação do Codex da OpenAI descreve tarefas em nuvem que podem ler, editar e executar código em ambientes de nuvem isolados, incluindo várias tarefas em segundo plano em paralelo.2 O trabalho paralelo em segundo plano aumenta a distância entre o que aconteceu e o que a resposta final consegue conter. Quanto mais o agente faz, menos o resumo da transcrição merece ser o objeto de prova.

O post da OpenAI sobre executar o Codex com segurança chega ao mesmo ponto operacional pelo ângulo da segurança. Ele descreve controles de isolamento, aprovações, políticas de rede, identidade, configuração gerenciada e telemetria nativa de agentes; também menciona exportação de logs para eventos como prompts, decisões de aprovação, resultados de execução de ferramentas, uso de MCP e eventos de permissão ou bloqueio de rede.6 Esses são ingredientes do pacote. Eles pertencem à superfície de revisão.

A resposta final ainda deve existir. Ela deve soar como um resumo executivo. O pacote de revisão deve carregar a trilha de auditoria.

O que entra no pacote?

O pacote deve agrupar evidências por decisão, não pela ordem interna dos eventos.

Seção Evidência mínima
Objetivo Pedido do usuário, critérios de aceitação, exclusões de escopo
Resumo do trabalho Arquivos alterados, artefatos gerados, estado externo afetado
Rastreamento Chamadas de ferramentas relevantes, saídas de comandos, falhas, tentativas
Aprovação Ações arriscadas, decisões de aprovação, negativas, adiamentos
Verificação Testes, checagens de fontes, rotas renderizadas, checagens de schema, screenshots
Lançamento Commit, estado da implantação, limpeza de cache, marcadores alterados em produção
Revisão Estado de validação humana, estado de revisão nativa, lacunas não resolvidas

Essa estrutura mantém o pacote legível. Um rastreamento bruto pode conter centenas de eventos. Um pacote de revisão não deve despejar tudo isso no fluxo principal. O pacote deve apontar ou expandir para o rastreamento completo quando necessário, mantendo a visualização padrão focada em decisões.

O padrão de evidência muda conforme o domínio:

Tipo de trabalho O pacote precisa provar
Mudança de código Diff, testes, chamadores afetados, caminho de rollback
Artigo público Fontes, alinhamento entre afirmações e fontes, metadados, schema, rota em produção
Tradução Cache do locale, controle de qualidade, linha do D1, rota em produção, estado da revisão nativa
Trabalho de segurança Ameaça, mitigação, teste, risco residual, registro de aprovação
Implantação em produção Commit, estado da implantação, frescor do cache, marcador alterado em produção

A regra permanece constante: se uma pessoa precisa assinar o trabalho, o pacote deve conter a evidência que torna essa assinatura responsável.

Como rastreamentos e aprovações alimentam o pacote?

Rastreamentos e aprovações formam a espinha dorsal do pacote.

A documentação de rastreamento do Agents SDK da OpenAI define traces e spans em torno de uma execução de agente, incluindo gerações de LLM, chamadas de ferramentas, transferências, barreiras de proteção e eventos personalizados.3 Esses dados dizem ao pacote o que aconteceu. A documentação de human-in-the-loop da OpenAI mostra como a execução pode pausar para aprovações de ferramentas, retornar aprovações pendentes como interrupções, serializar o estado de execução e retomar depois das decisões.4 Esses dados dizem ao pacote quem permitiu a ação arriscada.

Os hooks do Claude Code da Anthropic expõem uma forma parecida de ciclo de vida: hooks podem rodar antes das ferramentas, depois das ferramentas, em pedidos de permissão e quando o Claude para.5 Esses eventos importam porque permitem que um sistema de agentes converta comportamento em fatos revisáveis. O pacote não deve depender de o modelo se lembrar da execução. O ambiente de execução deve registrar os eventos relevantes enquanto eles acontecem.

A diferença importa:

Conclusão fraca Conclusão com pacote
“Os testes passaram.” Comando, código de saída, resumo da saída, testes com falha, se houver
“As fontes foram verificadas.” URLs das fontes, status, alinhamento das afirmações, URLs bloqueadas
“A implantação deu certo.” ID da implantação, saúde do ambiente de execução, limpeza de cache, smoke test da rota em produção
“As traduções estão completas.” Lista de locales, resultado do controle de qualidade, linhas do D1, status da revisão nativa
“Aprovei o comando.” Objeto de aprovação, motivo, nível de risco, ator, timestamp

O pacote remove ambiguidade. O agente ainda pode escrever um resumo conciso, mas a evidência vive fora da prosa.

Como deve funcionar o estado da revisão humana?

O estado da revisão humana deve aparecer como um campo próprio, não como um adjetivo.

Controles automáticos podem provar estrutura, saúde de rotas, presença de schema, alcance de fontes e várias checagens de paridade. Controles automáticos não podem provar que um falante nativo fluente revisou um artigo localizado. Um pacote deve dizer as duas coisas com clareza:

Status Significado
Máquina passou Os controles automatizados passaram
Humano pendente Uma revisão humana obrigatória ainda não aconteceu
Humano aprovado Revisor, data, locale ou escopo e decisão registrados
Rejeitado O revisor encontrou um problema bloqueante
Não obrigatório O fluxo de trabalho não exige validação humana para esse escopo

A mesma regra vale além da tradução. Um controle de segurança pode passar enquanto a revisão jurídica continua pendente. Uma suíte de testes pode passar enquanto a revisão de produto rejeita o comportamento. Uma implantação pode ter sucesso enquanto a CDN ainda serve conteúdo desatualizado. O estado de revisão deve descrever a decisão restante, não enfeitar a confiança do agente.

O AI Risk Management Framework do NIST enquadra confiabilidade como algo que equipes incorporam ao design, desenvolvimento, uso e avaliação de sistemas de IA.7 Pacotes de revisão tornam esse enquadramento operacional. Eles transformam avaliação em um artefato visível, em vez de uma afirmação na resposta final.

Como é um pacote mínimo?

Comece pequeno:

# Pacote de revisão: <item de trabalho>

## Decisão
Status: pronto para revisão | bloqueado | aprovado | rejeitado
Responsável: <pessoa ou equipe>

## Objetivo
- Pedido do usuário:
- Critérios de aceitação:
- Exclusões de escopo:

## Mudanças
- Arquivos:
- Artefatos:
- Estado externo:

## Evidências
| Afirmação | Prova | Resultado |
|---|---|---|
| Testes executados | saída de `<command>` | passou/falhou |
| Rota pública funciona | smoke test de `<url>` | passou/falhou |
| Fontes sustentam as afirmações | lista de fontes | passou/falhou |

## Aprovações
| Ação | Risco | Decisão | Observações |
|---|---|---|---|

## Lacunas restantes
- <trabalho não verificado>

No início, o pacote deve ser simples. Tabelas, links e campos curtos de status funcionam melhor que um artefato bonito que esconde a prova. Quando a estrutura estiver funcionando, o design pode tornar o pacote mais fácil de escanear: severidade, agrupamento, filtros, rastreamentos recolhidos e próximas ações explícitas.

A decisão de produto importante: o pacote se torna o artefato que outros sistemas conseguem ler. Um pull request pode apontar para ele. Uma nota de lançamento pode resumi-lo. Um revisor nativo pode assiná-lo. Um agente futuro pode retomar o trabalho a partir dele.

Como isso muda as interfaces de agentes?

Pacotes de revisão conectam superfícies de supervisão à barreira de evidências.

A superfície de supervisão mostra o que precisa de atenção enquanto o agente trabalha. A barreira de evidências impede uma conclusão fraca no final. O pacote de revisão preserva o resultado. Juntos, eles criam um ciclo:

  1. O operador delega um objetivo.
  2. O agente age sob controles de aprovação e rastreamento.
  3. O sistema registra evidências conforme os eventos acontecem.
  4. O agente resume o trabalho.
  5. O pacote vincula cada afirmação a uma prova.
  6. A pessoa aprova, rejeita ou devolve o trabalho.

Esse ciclo também muda o padrão de escrita dos agentes. Uma resposta final não deve fingir que é a prova. Ela deve dizer onde a prova está, o que passou e o que continua em aberto. Quando a tarefa toca conteúdo público, dados de clientes, dinheiro, segurança, produção ou tradução, o pacote deve sobreviver ao chat.

Resumo rápido

Pacotes de revisão devem substituir respostas finais como o artefato confiável de conclusão para trabalho sério de agentes. O OpenAI Codex já aponta para logs de terminal verificáveis, saídas de testes, aprovações, telemetria e rastreamentos de tarefas em nuvem.12346 O ciclo de vida dos hooks da Anthropic mostra a mesma forma de ambiente de execução a partir de outra pilha de agentes.5 O NIST fornece o enquadramento de confiança: a avaliação pertence ao design, ao desenvolvimento, ao uso e à avaliação de sistemas de IA, não apenas ao comportamento do modelo.7

O movimento prático é simples: mantenha a resposta final curta e torne o pacote real.

FAQ

O que é um pacote de revisão para trabalho de agentes de IA?

Um pacote de revisão é um conjunto estruturado de evidências que registra o que foi pedido ao agente, o que mudou, quais comandos e ferramentas rodaram, quais aprovações ocorreram, quais checagens passaram e o que continua sem verificação. Ele dá a um revisor humano um objeto de decisão, não apenas uma afirmação de conclusão em prosa.

Por que uma resposta final não basta?

Uma resposta final resume o trabalho, mas não prova que o trabalho aconteceu. Tarefas de agentes agora incluem chamadas de ferramentas, edições de arquivos, testes, implantações, traduções, aprovações e estado de cache. Esses fatos precisam de evidências anexadas. Uma resposta final pode apontar para o pacote; o pacote deve carregar a prova.

O que um pacote de revisão deve incluir primeiro?

Comece com objetivo, arquivos alterados, evidências de comandos e testes, checagens de fontes, decisões de aprovação, prova de implantação ou rota e lacunas não resolvidas. Adicione rastreamentos completos, screenshots, validação de revisão nativa e notas de risco quando o trabalho tocar superfícies públicas, produção, segurança, dinheiro ou impacto em clientes.

Toda tarefa de agente precisa de um pacote de revisão?

Não. Tarefas exploratórias de baixo risco podem terminar com um resumo normal. Pacotes de revisão importam quando uma pessoa precisa assinar, fazer merge, publicar, implantar, gastar, aprovar ou confiar no resultado mais tarde. O pacote deve escalar conforme o risco.

Como pacotes de revisão se relacionam com rastreamentos?

Rastreamentos registram o que aconteceu durante uma execução de agente. Pacotes de revisão selecionam os eventos de rastreamento que importam para uma decisão e os vinculam a afirmações. O rastreamento é o registro bruto. O pacote é o objeto de revisão.


Referências


  1. OpenAI, “Introducing Codex,” OpenAI, 16 de maio de 2025. Fonte sobre o Codex como agente de engenharia de software baseado em nuvem e sobre a afirmação de que o Codex fornece evidências verificáveis de ações por meio de citações de logs de terminal e saídas de testes. 

  2. OpenAI, “Codex cloud,” OpenAI Developers. Fonte sobre tarefas em nuvem do Codex que leem, modificam e executam código em containers de nuvem isolados, incluindo execução de tarefas em segundo plano e em paralelo. 

  3. OpenAI, “Tracing,” OpenAI Agents SDK. Fonte sobre rastreamento integrado de execuções de agentes, spans, gerações de LLM, chamadas de ferramentas, transferências, barreiras de proteção e eventos personalizados. 

  4. OpenAI, “Human-in-the-loop,” OpenAI Agents SDK. Fonte sobre interrupções para aprovação, aprovações pendentes, RunState serializado e execução retomada depois de decisões de aprovação. 

  5. Anthropic, “Hooks reference,” Claude Code Docs. Fonte sobre eventos do ciclo de vida do Claude Code, como PreToolUse, PostToolUse, PermissionRequest e Stop

  6. OpenAI, “Running Codex safely at OpenAI,” OpenAI, 8 de maio de 2026. Fonte sobre os controles do Codex descritos pela OpenAI em torno de isolamento, aprovações, política de rede, identidade, configuração gerenciada, exportação de logs OpenTelemetry, logs de compliance e telemetria nativa de agentes. 

  7. National Institute of Standards and Technology, “AI Risk Management Framework,” NIST. Fonte sobre incorporar considerações de confiabilidade ao design, desenvolvimento, uso e avaliação de produtos, serviços e sistemas de IA. 

Artigos relacionados

Agentes precisam de superfícies de supervisão

Superfícies de supervisão de agentes transformam trabalho autônomo com IA em operações inspecionáveis: aprovações, rastr…

12 min de leitura

Design agêntico é design de superfície de controle

Design agêntico não é uma caixa de chat mais bonita. É a superfície de controle que torna o software autônomo visível, i…

12 min de leitura

O Ralph Loop: Como Executo Agentes de IA Autônomos Durante a Noite

Construí um sistema de agentes autônomos com stop hooks, orçamentos de spawn e memória em sistema de arquivos. Aqui estã…

7 min de leitura