Agentes de IA precisam de pontos de verificação de exploração
Em 15 de maio de 2026, Ziang Ye e coautores publicaram “Look Before You Leap”, um artigo que dá um nome mensurável a uma falha comum de agentes: aproveitamento prematuro.1
Um agente vê um ambiente parcial, presume que as partes ausentes seguem um padrão conhecido e age antes de ter evidência suficiente para sustentar o plano. A falha pode parecer confiança. Também pode parecer velocidade. O defeito real vem antes: o agente pulou a descoberta.
Agentes de IA precisam de pontos de verificação de exploração. Antes de agir em um ambiente desconhecido, um agente deve provar quais estados, objetos, possibilidades de ação, restrições e casos de falha descobriu.
TL;DR
Agentes de IA não deveriam iniciar uma execução importante a partir de um plano genérico. Primeiro, eles precisam mapear o ambiente o bastante para remover suposições frágeis.
“Look Before You Leap” apresenta Exploration Checkpoint Coverage, uma métrica que mede quanto de um conjunto predefinido de fatos importantes sobre o ambiente o agente descobre durante a exploração.1 O artigo também propõe Explore-then-Act: uma fase separada de exploração antes da execução da tarefa.1
A regra prática: dê aos agentes um orçamento de exploração, exija evidências dos pontos de verificação e só então deixe a execução começar. Um ponto de verificação pode ser um objeto verificado, um estado alcançável, uma possibilidade de uso de ferramenta, uma restrição de UI, um limite da base de código, uma afirmação de fonte ou uma ação fracassada que muda o plano.
Pontos de verificação de exploração importam porque contexto longo, chamadas rápidas de ferramentas e prosa confiante não provam descoberta. O agente precisa mostrar o mapa.
Principais pontos
Para quem constrói agentes: - Separe exploração de execução quando o ambiente puder surpreender o agente. - Acompanhe estados, objetos, possibilidades de ação, restrições e suposições refutadas.
Para equipes de produto: - Mostre aos revisores quais pontos de verificação o agente cobriu antes de agir. - Bloqueie etapas destrutivas ou caras até que os pontos de verificação exigidos sejam aprovados.
Para equipes de avaliação: - Meça cobertura de descoberta, não apenas sucesso final da tarefa. - Penalize exploração repetitiva e modelos de mundo genéricos que afirmam saber sem evidência.
Para operadores: - Pergunte o que o agente verificou antes de aceitar o plano. - Trate uma resposta rápida como suspeita quando o ambiente era desconhecido.
Por que agentes agem cedo demais?
A maioria dos ciclos de agentes recompensa progresso visível.
O agente recebe um objetivo. Ele raciocina, chama uma ferramenta, observa a saída, atualiza o plano e chama outra ferramenta. ReAct tornou essa alternância útil ao permitir que modelos de linguagem produzissem rastros de raciocínio e ações específicas da tarefa em um único ciclo.2 Muitos sistemas modernos de agentes ainda herdam o mesmo ritmo básico: pensar, agir, observar, continuar.
Esse ritmo tem um viés escondido. Um agente condicionado por objetivo quer resolver a tarefa designada. Quando o ambiente parece familiar o suficiente, ele pode gastar seu orçamento de interação na execução antes de entender as regras locais.
“Look Before You Leap” chama esse comportamento de aproveitamento prematuro. Os autores descrevem agentes que se comprometem com padrões aprendidos no treinamento antes de adquirir informação específica suficiente sobre o ambiente.1 O artigo nomeia dois modos de falha recorrentes: agentes sem um ponto de partida claro, que caem em ações sem direção ou mal informadas, e agentes que interpretam mal semânticas específicas do ambiente, como argumentos de ferramentas e possibilidades de ação na UI.1
Essas falhas aparecem no trabalho real com agentes:
| Ambiente | Como o aproveitamento prematuro aparece |
|---|---|
| Base de código | O agente edita antes de ler limites de propriedade, testes ou pontos de chamada. |
| Web app | O agente clica por um fluxo antes de verificar estado oculto, controles desativados ou regras de validação. |
| Tarefa de pesquisa | O agente escreve a síntese antes de encontrar a fonte primária que faltava. |
| Tarefa de dados | O agente transforma linhas antes de checar unidades, semântica de nulos ou procedência de colunas. |
| Sistema local | O agente encerra ou altera processos antes de identificar trabalho pertencente ao usuário. |
A execução ainda pode dar certo em casos fáceis. Ambientes familiares perdoam suposições. Ambientes desconhecidos as punem.
O que é Exploration Checkpoint Coverage?
Exploration Checkpoint Coverage dá uma pontuação à descoberta.
O artigo define um conjunto finito de pontos de verificação para cada ambiente. Cada ponto representa um fato ou uma possibilidade de ação específica daquele ambiente que um explorador competente deveria descobrir: locais alcançáveis, objetos importantes, alvos válidos de interação, estados funcionais, possibilidades de ação relevantes ou restrições locais.1
A métrica faz uma pergunta estreita: durante uma trajetória de exploração, o agente alcançou, observou ou verificou cada ponto de verificação? O artigo calcula a cobertura como a fração de pontos cobertos pelo agente.1
A escolha de design importante: ECC pode usar sinais do ambiente em vez de um avaliador linguístico. No apêndice do artigo, os pontos de verificação vêm de estruturas internas do ambiente, como estado de jogo PDDL, árvores de objetos, espaços de ação e grafos de receitas; a verificação pode usar evidência determinística de observações e ações.1
Essa abordagem dá às equipes um padrão de engenharia útil:
| Tipo de ponto de verificação | Exemplo de evidência |
|---|---|
| Estado | O agente observou a rota, tela, arquivo, tabela ou estado do processo. |
| Objeto | O agente identificou o botão, função, coluna, fonte ou dependência relevante. |
| Possibilidade de ação | O agente verificou qual operação funciona e qual falha. |
| Restrição | O agente encontrou uma permissão, esquema, política, limite de taxa, propriedade ou limite de teste. |
| Caso de falha | O agente tentou uma sondagem inofensiva e registrou por que o caminho não funciona. |
| Impacto no plano | O agente mudou o plano por causa da evidência descoberta. |
Um ponto de verificação não precisa ser sofisticado. Precisa ser inspecionável. O revisor deve conseguir ver o que o agente descobriu e por que a descoberta mudou a execução.
O que o artigo mostrou?
“Look Before You Leap” testou exploração em ALFWorld, ScienceWorld, TextCraft e variantes perturbadas de ALFWorld.1
Os resultados iniciais expõem uma lacuna entre resolver tarefas e explorar. Em ambientes sem tarefa, com orçamento de exploração de 100 passos, Qwen2.5-7B alcançou ECC média de 22,2%, Qwen3-4B chegou a 28,5% e LLaMA3.1-8B chegou a 30,9%.1 O artigo relata que GRPO orientado a tarefas reduziu a ECC média do Qwen3-4B de 28,5% para 18,8%, o que sustenta a afirmação de que recompensa de tarefa sozinha pode estreitar o comportamento de exploração.1
O artigo também relata que exploração fraca pode prejudicar a execução. Em Explore-then-Act, uma exploração ruim pode adicionar contexto ruidoso ou incompleto em vez de orientação útil.1 Esse ponto importa para o design de produto. Uma fase separada de exploração só ajuda quando o agente explora bem o bastante para produzir conhecimento fundamentado.
Depois, os autores treinam agentes com objetivos atentos à exploração. Eles comparam execução direta com Explore-then-Act em duas bases. Para Qwen3-4B, GRPO Interleaved relata uma taxa média de sucesso direto de 77,2% e uma taxa de sucesso em Explore-then-Act de 79,5%, enquanto GRPO Task-Only relata 73,9% e 73,5%.1 O artigo apresenta esse ganho como evidência de que treinamento atento à exploração permite ao agente converter um orçamento de exploração em informação útil para a tarefa.1
O exemplo qualitativo mais forte pesa mais do que a tabela. Em um quarto do ALFWorld, um modelo orientado a tarefas recebe uma instrução de exploração sem objetivo e para após um passo, com ECC 0. Um modelo atento à exploração cobre 87% dos pontos de verificação em 49 passos no mesmo ambiente.1 O primeiro modelo escreve um modelo de mundo genérico. O segundo constrói um com evidência.
Por que um modelo de mundo genérico falha?
Um modelo de mundo genérico soa plausível porque modelos de linguagem conhecem muitos padrões comuns.
O modelo sabe que quartos têm camas, gavetas, mesas e objetos. Sabe que recipientes podem abrir. Sabe que agentes talvez precisem pegar, mover, examinar, aquecer, resfriar, limpar ou fatiar objetos. Nada disso prova que o ambiente local contém o objeto, expõe a ação ou aceita o comando.
O estudo de caso do artigo separa conhecimento alegado de conhecimento fundamentado. O modelo orientado a tarefas encerra a exploração imediatamente e então produz um modelo de mundo que nomeia regras domésticas amplas enquanto admite que objetos específicos continuam desconhecidos.1 O modelo atento à exploração interage com o quarto, examina objetos, testa ações e constrói evidência local.1
Essa diferença se aplica fora de jogos de texto.
Um agente de código pode saber que “apps React têm componentes” e ainda assim perder um limite de provedor específico do projeto. Um agente de navegador pode saber que “formulários têm botões de envio” e ainda assim não perceber uma regra de estado desativado. Um agente de pesquisa pode saber que “artigos contêm afirmações” e ainda citar a subafirmação errada. Um agente de implantação pode saber que “verificações de integridade existem” e ainda perder a camada de cache que mantém conteúdo antigo no ar.
Conhecimento genérico ajuda o agente a começar. Evidência de pontos de verificação diz ao agente se o começo corresponde à realidade.
Como um agente deve explorar antes de agir?
Uma fase de exploração precisa de orçamento e registro.
Sem orçamento, a exploração pode virar perambulação. Sem registro, ela não pode ser revisada. Sem alvos de pontos de verificação, a exploração pode coletar trivialidades e ainda perder a operação que importa.
A configuração Explore-then-Act do artigo oferece o padrão básico. Primeiro, o agente explora sem uma tarefa específica por um número fixo de passos; depois, resume o conhecimento descoberto em um artefato estruturado; por fim, executa a tarefa seguinte com esse conhecimento no contexto.1
Agentes em produção podem adaptar a ideia sem retreinar um modelo:
| Fase | Saída do agente | Barreira |
|---|---|---|
| Descobrir | Estados, objetos, possibilidades de ação e restrições candidatos. | O agente inspecionou a superfície certa? |
| Sondar | Ações ou leituras de baixo risco que verificam possibilidades de ação. | A evidência confirmou a operação? |
| Registrar | Lista de pontos de verificação com observações de origem e sondagens fracassadas. | Um revisor consegue inspecionar a descoberta? |
| Planejar | Plano de execução ligado aos pontos de verificação. | Cada etapa arriscada depende de fatos verificados? |
| Agir | Chamadas de ferramentas, edições, escritas, implantações ou envios. | A execução permaneceu dentro dos limites verificados? |
A barreira deve bloquear de verdade trabalho de alto risco. Um agente não deve apagar dados, rodar uma migração, implantar um serviço, alterar permissões ou gastar dinheiro só porque um plano genérico parece razoável.
Primeiro, o agente deve provar que o ambiente que ele vê corresponde ao ambiente que pretende alterar.
O que conta como um bom ponto de verificação?
Um bom ponto de verificação muda a execução.
Ponto fraco: “Leu o repositório.” A frase nomeia esforço, não evidência.
Ponto melhor: “Identificou o comando de teste que cobre o módulo alterado, verificou que ele roda localmente e registrou o modo de falha caso não rode.” Esse ponto dá ao agente e ao revisor um fato específico.
Use 5 testes:
| Teste | Pergunta |
|---|---|
| Localidade | O ponto de verificação descreve o ambiente real em vez de um padrão geral? |
| Verificabilidade | O agente consegue mostrar uma observação, saída de comando, resposta de rota ou linha de fonte? |
| Possibilidade de ação | O ponto revela qual ação funciona ou falha? |
| Impacto no plano | Um resultado diferente para o ponto mudaria o plano? |
| Valor de revisão | Um humano consegue usar o ponto para aceitar, rejeitar ou redirecionar a execução? |
O design dos pontos de verificação deve continuar pequeno. Uma lista com 10 fatos acompanhados de evidência vale mais do que uma narrativa longa de navegação, leitura e palpite.
Como pontos de verificação de exploração se conectam à memória do agente?
Pontos de verificação de exploração ficam perto da memória, mas memória sozinha não resolve o problema.
Voyager mostra uma versão de conhecimento duradouro útil para agentes. O agente de Minecraft usa um currículo automático, uma biblioteca de skills com código executável e uso iterativo de prompts com feedback do ambiente e autoverificação.3 O artigo relata 3,3 vezes mais itens únicos, distância percorrida 2,3 vezes maior e marcos da árvore tecnológica até 15,3 vezes mais rápidos do que sistemas anteriores.3
Voyager importa porque trata interação bem-sucedida como conhecimento reutilizável. O agente não apenas conversa sobre o mundo. Ele armazena skills funcionais que tarefas futuras podem recuperar.3
Pontos de verificação de exploração devem alimentar um ciclo parecido, mas com uma fronteira mais rígida:
| Objeto de memória | Uso |
|---|---|
| Skill estável | Reutilizar quando a mesma possibilidade de ação continua funcionando. |
| Ponto local | Confiar apenas dentro do ambiente verificado. |
| Sondagem fracassada | Evitar a repetição de ações ruins. |
| Nota de escopo | Marcar onde a descoberta deixa de se aplicar. |
| Pacote de revisão | Permitir que uma pessoa inspecione a evidência antes da reutilização. |
Um agente não deve promover toda descoberta local a memória durável. Alguns fatos pertencem apenas ao repositório, página, conta, conjunto de dados ou estado de máquina atual. O registro do ponto de verificação deve preservar a origem e o escopo para que a reutilização continue honesta.
Por que pontos de verificação precisam de uma descrição de contexto?
Agentes também precisam saber onde a evidência dos pontos de verificação entra no contexto.
ACDL argumenta que a construção de contexto de agentes não tem uma linguagem descritiva compartilhada. Os autores observam que equipes muitas vezes comunicam a evolução de prompts por prosa informal, diagramas ad hoc ou inspeção direta de código; ACDL especifica mensagens de papel, conteúdo dinâmico, referências indexadas por tempo e estrutura condicional ou iterativa.4
Pontos de verificação de exploração acrescentam outro requisito de contexto. Um agente pode coletar evidência excelente e depois perdê-la ou enterrá-la antes da execução. A pergunta passa a ser estrutural:
| Pergunta de contexto | Falha quando falta |
|---|---|
| Onde a evidência dos pontos entra no prompt? | O agente age a partir de conhecimento genérico desatualizado. |
| Quais pontos sobrevivem à compactação? | O agente esquece a restrição local. |
| Quais sondagens fracassadas continuam visíveis? | O agente repete um caminho inseguro. |
| Quais fatos expiram após uma chamada de ferramenta? | O agente confia em um estado que mudou. |
| Quais notas de revisores substituem o plano? | O agente ignora correção humana. |
ACDL dá um vocabulário para o lado do contexto. ECC dá um vocabulário para o lado da descoberta. Produtos com agentes precisam dos dois.
Como pontos de verificação se encaixam em grafos de evidência?
Pontos de verificação de exploração perguntam o que o agente descobriu antes da execução. Grafos de evidência perguntam o que sustenta a resposta final.
Argus usa um Searcher e um Navigator para pesquisa profunda. O Searcher reúne rastros de evidência. O Navigator mantém um grafo de evidência compartilhado, verifica quais peças ainda faltam, despacha trabalho de busca e produz uma resposta rastreada até as fontes.5
Um ponto de verificação de exploração pode virar um nó no grafo de evidência:
| Antes da execução | Depois da execução |
|---|---|
| Objeto encontrado | A afirmação depende do objeto. |
| Possibilidade de ação verificada | A ação depende da possibilidade de ação. |
| Restrição encontrada | O plano exclui o caminho proibido. |
| Lacuna restante | O revisor vê a dependência não resolvida. |
| Sondagem fracassada registrada | O agente evita repetir a falha. |
O formato se mantém consistente em pesquisa, código, navegação e operações. O agente não deve apenas dizer o que fez. Deve mostrar quais fatos descobertos tornaram a ação válida.
Evidência em nível de artigo precisa do mesmo tratamento. paper.json propõe IDs estáveis de afirmações, uma lista do que o artigo não afirma, comandos exatos por figura e IDs estáveis de definições para que agentes possam citar e agir sobre artigos na granularidade de subafirmações.6 Um agente que explora um artigo antes de citá-lo deve cobrir primeiro esses pontos de afirmação e escopo.
Onde equipes de produto devem colocar a barreira?
Coloque a barreira antes de ações irreversíveis.
Uma barreira de pontos de verificação de exploração não deve atrasar toda leitura inofensiva. Ela deve proteger etapas que alteram estado, publicam saída, gastam dinheiro, expõem dados ou criam custo de reversão.
Barreiras úteis:
| Ação | Evidência exigida nos pontos de verificação |
|---|---|
| Edição de código | Arquivos relevantes, limite de propriedade, pontos de chamada, testes e restrições de estilo. |
| Alteração de banco de dados | Esquema, caminho de backup, linhas afetadas, plano de reversão e saída de simulação. |
| Publicação web | Renderização de rota, metadados, arquivos de descoberta, comportamento de cache e marcador ao vivo. |
| Resposta de pesquisa externa | Fontes primárias, afirmações ausentes, conflitos e limites de escopo. |
| Transação no navegador | Estado atual da página, validação de formulário, contexto da conta e tela de confirmação. |
| Limpeza de sistema | Dono do processo, impacto visível para o usuário, caminho de reinício e apps protegidos. |
A barreira deve produzir um pequeno pacote de pontos de verificação:
goal:
environment:
checkpoint_evidence:
- observed:
source:
plan_impact:
- failed_probe:
source:
plan_impact:
required_before_action:
remaining_unknowns:
decision:
Esse pacote deve acompanhar a resposta final do agente, mensagem de commit, nota de implantação ou pacote de revisão. O pacote não precisa de cerimônia. Precisa de evidência suficiente para que um revisor decida se a execução mereceu confiança.
O que as avaliações devem medir agora?
Sucesso final da tarefa não consegue sustentar a avaliação inteira.
Um bom benchmark de agentes deve relatar:
| Métrica | O que ela captura |
|---|---|
| Sucesso da tarefa | O resultado final passou? |
| Cobertura de pontos de verificação | O agente descobriu os fatos locais importantes? |
| Qualidade da sondagem | A exploração testou possibilidades de ação úteis ou repetiu ruído? |
| Revisão do plano | A descoberta realmente mudou o plano? |
| Atraso de ação insegura | O agente esperou até que os pontos exigidos fossem aprovados? |
| Retenção de evidência | A evidência dos pontos continuou visível durante a execução? |
| Custo de revisão | Um humano consegue inspecionar a prova rapidamente? |
AgentForesight aponta em uma direção compatível. O artigo enquadra falhas multiagente como um problema de auditoria online: um auditor observa uma trajetória em andamento e precisa disparar um alerta no primeiro erro decisivo, sem ver passos futuros.7 Barreiras de pontos de verificação de exploração podem dar sinais iniciais melhores a esses auditores. A ausência de um ponto de verificação antes de uma ação arriscada muitas vezes prevê a falha antes que o artefato final quebre.
Avaliações devem recompensar agentes que pausam para a descoberta certa, não agentes que apenas agem mais rápido.
O que as equipes devem construir agora?
Equipes podem adicionar pontos de verificação de exploração sem esperar por um novo modelo.
Comece com 3 regras operacionais:
- Defina pontos de verificação específicos do ambiente para tarefas recorrentes de alto risco.
- Exija evidência dos pontos de verificação antes de mutação, publicação, compra, exclusão ou envio externo.
- Armazene o pacote de pontos de verificação ao lado do rastro, commit, revisão ou nota de lançamento.
Depois, torne a regra visível no produto:
| Superfície do produto | Exibição útil |
|---|---|
| Painel de tarefa do agente | Pontos cobertos, pontos ausentes e ações bloqueadas. |
| Tela de revisão | Trechos de evidência ligados a cada etapa arriscada planejada. |
| Resumo de commit | Arquivos inspecionados, testes identificados e limites de propriedade. |
| Resumo de implantação | Rotas verificadas, cache limpo e marcadores ao vivo confirmados. |
| Resposta de pesquisa | Afirmações, fontes, lacunas, conflitos e notas de escopo. |
O usuário não deve precisar inferir se o agente explorou. A interface deve mostrar a prova.
FAQ
O que é um ponto de verificação de exploração para um agente de IA?
Um ponto de verificação de exploração é um fato verificável que um agente descobre antes da execução. Exemplos incluem um estado alcançável, uma ação disponível de ferramenta, uma possibilidade de ação na UI, um limite de propriedade no código, uma afirmação de fonte, uma restrição de dados ou uma sondagem fracassada que muda o plano.
Como Exploration Checkpoint Coverage difere de sucesso da tarefa?
Sucesso da tarefa mede se o resultado final passou. Exploration Checkpoint Coverage mede se o agente descobriu fatos importantes do ambiente antes de agir. As duas coisas podem divergir porque uma tarefa pode passar em um ambiente fácil enquanto o mesmo comportamento falha após uma pequena mudança no ambiente.
Quando um produto deve exigir pontos de verificação de exploração?
Um produto deve exigir pontos de verificação antes de ações que alteram estado, publicam conteúdo, gastam dinheiro, expõem dados, excluem recursos ou criam custo de reversão. Leituras de baixo risco podem continuar leves.
Pontos de verificação de exploração substituem revisão humana?
Não. Pontos de verificação de exploração tornam a revisão mais precisa ao mostrar o que o agente verificou, o que não conseguiu verificar e por que o plano mudou. Revisores humanos ainda decidem se a evidência é suficiente para o risco.
Agentes existentes podem usar pontos de verificação de exploração sem retreinamento?
Sim. Agentes existentes podem executar uma fase separada de descoberta, registrar evidências e bloquear ações arriscadas antes da execução. Treinamento pode melhorar a qualidade da exploração, mas barreiras de produto e pacotes de revisão já podem impor esse comportamento hoje.
Referências
-
Ziang Ye, Wentao Shi, Yuxin Liu, Yu Wang, Zhengzhou Cai, Yaorui Shi, Qi Gu, Xunliang Cai, e Fuli Feng, “Look Before You Leap: Autonomous Exploration for LLM Agents,” arXiv:2605.16143v1, enviado em 15 de maio de 2026. Fonte para aproveitamento prematuro, Exploration Checkpoint Coverage, Explore-then-Act, experimentos em ALFWorld, ScienceWorld, TextCraft e resultados relatados de ECC/sucesso em tarefas. ↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩
-
Shunyu Yao, Jeffrey Zhao, Dian Yu, Nan Du, Izhak Shafran, Karthik Narasimhan, e Yuan Cao, “ReAct: Synergizing Reasoning and Acting in Language Models,” arXiv:2210.03629v3, revisado em 10 de março de 2023. Fonte para ciclos intercalados de raciocínio/ação, interação com ambiente e melhorias relatadas de taxa de sucesso em ALFWorld/WebShop. ↩
-
Guanzhi Wang, Yuqi Xie, Yunfan Jiang, Ajay Mandlekar, Chaowei Xiao, Yuke Zhu, Linxi Fan, e Anima Anandkumar, “Voyager: An Open-Ended Embodied Agent with Large Language Models,” arXiv:2305.16291v2, revisado em 19 de outubro de 2023. Fonte para currículo automático, biblioteca de skills executáveis, uso iterativo de prompts, autoverificação e ganhos relatados de exploração/árvore tecnológica. ↩↩↩
-
Noga Peleg Pelc, Gal A. Kaminka, e Yoav Goldberg, “A Language for Describing Agentic LLM Contexts,” arXiv:2605.01920v1, enviado em 3 de maio de 2026. Fonte para ACDL, estrutura de contexto, conteúdo dinâmico, referências indexadas por tempo e a ausência de um padrão compartilhado para descrever a evolução do contexto de agentes. ↩
-
Zhen Zhang, Liangcai Su, Zhuo Chen, Xiang Lin, Haotian Xu, Simon Shaolei Du, Kaiyu Yang, Bo An, Lidong Bing, e Xinyu Wang, “Argus: Evidence Assembly for Scalable Deep Research Agents,” arXiv:2605.16217v1, enviado em 15 de maio de 2026. Fonte para papéis de Searcher/Navigator, grafos de evidência compartilhados, despacho de peças ausentes e respostas rastreadas até as fontes. ↩
-
Arquimedes Canedo, “paper.json: A Coordination Convention for LLM-Agent-Actionable Papers,” arXiv:2605.16194v1, enviado em 15 de maio de 2026. Fonte para IDs estáveis de afirmações, listas do que não é afirmado, comandos por figura, IDs de definições e estrutura de artigos acionáveis por agentes. ↩
-
Boxuan Zhang, Jianing Zhu, Zeru Shi, Dongfang Liu, e Ruixiang Tang, “AgentForesight: Online Auditing for Early Failure Prediction in Multi-Agent Systems,” arXiv:2605.08715v2, revisado em 13 de maio de 2026. Fonte para auditoria online, detecção de erros decisivos durante trajetórias em andamento, AFTraj-2K e ganhos relatados de previsão antecipada de falhas. ↩