Revisão de código com IA precisa de dissenso, não de consenso

12 min read

adamsreview descreve um pipeline de revisão de código com seis comandos, perspectivas paralelas de revisão, barreiras de validação, passo a passo humano, revisão por pares com Codex e um ciclo de correção que revisa as mudanças novamente antes do commit.¹

Esse desenho aponta para a fronteira real da revisão de código com IA. Uma revisão melhor não vem de mais uma sequência de comentários de bot. Ela vem de revisores independentes que discordam, preservam a discordância, validam a alegação e devolvem o julgamento para um revisor humano antes que o projeto trate o achado como bloqueante.

TL;DR

A revisão de código com IA deve otimizar para dissenso disciplinado, não para consenso. Um sistema útil de revisão atribui perspectivas independentes, deduplica achados, valida cada alegação, separa bugs confirmados de decisões manuais e mantém o revisor humano como revisor responsável. O consenso pode esconder achados raros, mas importantes. Um pacote de revisão deve preservar alegações minoritárias até que as evidências as refutem, e então acompanhar a correção e o resultado da nova revisão.

Principais pontos

Para líderes de engenharia: - Trate a revisão com IA como um pipeline de evidências, não como um sistema de votação. - Mantenha a autoridade de merge com humanos, mesmo quando os agentes encontrarem bugs reais.

Para quem cria agentes: - Atribua perspectivas de revisão independentes com mandatos diferentes: correção, segurança, testes, impacto no usuário, manutenibilidade, comportamento no ambiente de execução e risco de lançamento. - Preserve achados minoritários como alegações estruturadas até que a validação os refute.

Para revisores de código: - Peça evidências, etapas de reprodução, arquivos afetados, resultados do validador, estado da decisão humana e verificação da correção. - Rejeite sistemas de revisão que transformam concordância em confiança sem provar a alegação subjacente.

Por que a revisão de código com IA precisa de dissenso?

A revisão de código falha em silêncio quando todo revisor procura a mesma classe de defeito.

A revisão com um único agente cria um único formato de falha. O modelo varre o diff, produz comentários plausíveis e deixa passar tudo o que fica fora do seu foco. A revisão com vários agentes só melhora esse formato quando os agentes permanecem independentes. Se cinco agentes leem o mesmo prompt, herdam as mesmas prioridades e convergem para o mesmo resumo, o sistema comprou apenas repetição.

O dissenso muda a superfície da revisão. Um revisor de segurança pode contestar um fluxo de requisição que um revisor de correção aceita. Um revisor de testes pode apontar ausência de cobertura de regressão depois que o revisor de produto aprova o comportamento. Um revisor de ambiente de execução pode rejeitar uma implementação que parece limpa no código, mas falha sob as restrições de implantação.

O achado minoritário importa porque bugs graves muitas vezes começam como objeções solitárias. Uma pontuação de consenso pode soterrar essa objeção. Um bom pipeline de revisão mantém a objeção viva tempo suficiente para provar ou refutar a alegação.

O que revisores independentes devem procurar?

Revisores independentes precisam de mandatos separados, não de nomes separados.

Perspectiva	Pergunta principal	Evidência necessária
Correção	O código faz o que a mudança afirma?	Caminhos afetados, cenário de falha, comportamento esperado
Segurança	Um usuário, dependência ou chamador consegue abusar da mudança?	Modelo de ameaça, entrada alcançável, esboço de exploração ou bloqueador
Testes	O bug voltaria sem um teste que falhe?	Lacuna de teste, assertion proposta, fixture ou caminho
Produto	O comportamento serve ao usuário?	Caminho do usuário, transição de estado, risco no texto ou na interação
Manutenibilidade	Mudanças futuras vão quebrar o design?	Acoplamento, lógica duplicada, responsabilidade pouco clara
Ambiente de execução	A mudança sobrevive a uma implantação real?	Prova de configuração, migração, cache, fila ou desempenho
Lançamento	A equipe consegue fazer rollback ou auditar o resultado?	Fronteira de commit, prova de implantação, monitoramento, lacunas não resolvidas

A lista de perspectivas deve mudar conforme o repositório. Um sistema de pagamentos precisa de perspectivas de fraude e conciliação. Um compilador precisa de perspectivas de solidez, diagnósticos e desempenho. Um sistema de publicação precisa de perspectivas de citação, SEO, tradução e cache.

O mecanismo permanece estável: cada perspectiva produz uma alegação, não um veredito.

Por que o consenso falha como sinal de revisão?

O consenso responde à pergunta errada.

Um voto da maioria pergunta se muitos revisores concordam. A revisão de código precisa saber se uma alegação resiste ao contato com o código, os testes, o ambiente de execução e a política do projeto.

Concordância pode significar que o achado é óbvio. Também pode significar que todos os revisores compartilharam o mesmo ponto cego. Discordância pode ser ruído. Também pode significar que um revisor encontrou o bug real.

A métrica melhor é o estado da alegação:

Estado	Significado	Próxima ação
Proposto	Uma perspectiva levantou um possível defeito	Deduplicar e validar
Confirmado	Evidências sustentam o achado	Corrigir ou atribuir responsável
Refutado	A validação refutou o achado	Registrar o motivo e fechar
Manual	O julgamento humano decide o resultado	Encaminhar ao revisor
Apenas relatório	O achado importa, mas não deve bloquear	Manter no pacote
Corrigido	Uma mudança tentou resolver o achado	Revisar a correção
Regrediu	A correção introduziu um novo problema	Reverter ou redesenhar

Essa máquina de estados supera o consenso porque trata a discordância como inventário de evidências. O pipeline consegue fechar achados ruidosos sem apagá-los, e consegue promover achados solitários quando a validação prova o defeito.

O que um pipeline forte de revisão com IA faz?

Um pipeline forte de revisão de código com IA roda em fases.

Detecta de forma independente. As perspectivas de revisão inspecionam o diff sem ver as conclusões umas das outras.
Deduplica alegações. O sistema agrupa achados equivalentes sem achatar evidências distintas.
Valida de forma barata. Checagens rápidas capturam alegações quebradas: existência de arquivo, alcançabilidade da linha alterada, presença de teste, erros de tipo e contexto obviamente desatualizado.
Valida em profundidade. Alegações de alto impacto recebem revisão mais lenta: reprodução, leitura de rastreamento, testes focados, raciocínio de segurança ou crítica por um segundo modelo.
Classifica o estado. O pipeline marca cada achado como confirmado, refutado, manual, apenas relatório ou abaixo do critério.
Guia o humano pela incerteza. Um revisor decide casos de julgamento, promove alegações importantes e rejeita trabalho de baixo valor.
Corrige por grupo. Achados relacionados avançam juntos para que o sistema não aplique patches conflitantes.
Revisa as correções. O pipeline revisa o código alterado novamente e reverte regressões antes do commit.
Escreve o pacote. O artefato final registra achados, evidências, decisões, testes, commits e lacunas não resolvidas.

adamsreview oferece um exemplo concreto desse formato. O README descreve até sete perspectivas paralelas com subagentes, deduplicação, validação barata seguida de validação profunda, revisão holística opcional, um par de revisão com Codex, injeção de achados externos, um passo a passo para achados incertos e um ciclo de correção que revisa novamente e reverte regressões antes de commitar as correções sobreviventes.¹ O README também rotula a alegação de desempenho como anedótica, e isso importa. Trate o projeto como uma evidência útil de design, não como um benchmark.

Como deve ser um achado de revisão com IA?

Um achado útil precisa de estrutura suficiente para que outro revisor, agente ou job de CI consiga inspecioná-lo depois.

id: SEC-003
lens: security
claim: "The new webhook endpoint accepts unsigned retry requests."
severity: high
affected_files:
  - app/routes/webhooks.py
evidence:
  - "Handler reads JSON before signature validation."
  - "Test suite covers valid signatures but not missing signatures."
validator:
  cheap_check: pass
  deep_check: manual
  reason: "Reachable path confirmed; exploit impact needs owner judgment."
human_decision:
  status: promoted
  reviewer: "reviewer of record"
fix_group: webhook-auth
post_fix_review:
  status: pending
remaining_gap: "Need replay test against malformed retry payload."

Os campos exatos podem mudar. A disciplina não deveria. O achado nomeia a alegação, as evidências, o resultado do validador, a decisão humana, o grupo de correção, o estado pós-correção e a lacuna restante. Um comentário dizendo “verificar autenticação do webhook” não sustenta uma decisão responsável de merge. Um achado estruturado sustenta.

Por que o humano deve continuar sendo o revisor responsável?

O modelo de revisão do GitHub dá aos revisores três resultados de alto nível: comentar, aprovar ou solicitar mudanças antes do merge.² A revisão com IA pode informar esses resultados. Ela não deve substituí-los silenciosamente.

A política em rascunho do Rust para LLM traça essa linha com clareza. Em 18 de maio de 2026, a política continua sendo um pull request aberto, não uma política adotada pelo Rust.³ O rascunho permite revisão privada com LLM, mas proíbe tratar uma revisão com LLM como suficiente para fazer merge ou rejeitar uma mudança. Ele também diz que bots de revisão devem permanecer consultivos, que comentários de bot não devem bloquear por conta própria e que revisores humanos devem endossar explicitamente os comentários que querem ver resolvidos.⁴

Esse limite protege a responsabilização. Um bot pode descobrir um bug real. Um bot também pode produzir comentários desatualizados, objeções superficiais de estilo ou falsos positivos confiantes. O revisor responsável assume a decisão de bloquear, fazer merge, solicitar mudanças ou ignorar a alegação.

O papel humano deve aparecer no artefato:

Campo	Por que importa
Decisão do revisor	Separa a alegação da máquina do julgamento humano
Achados promovidos	Registra quais alegações incertas um humano promoveu
Achados rejeitados	Evita ruído repetido de bot em execuções futuras
Limite de política	Mostra se uma alegação bloqueia o merge ou apenas informa a revisão
Lacunas restantes	Mantém trabalho não verificado visível depois do resumo

A revisão com IA ganha confiança quando torna a revisão humana mais afiada. Ela perde confiança quando esconde autoridade dentro de um veredito de bot.

O que o pacote de revisão deve conter?

Um pacote de revisão transforma a execução da revisão em um objeto durável de decisão.

Campos mínimos:

Campo do pacote	Conteúdo
Escopo	PR, branch, commit base, commit head, arquivos revisados
Perspectivas	Mandatos de revisão, identidade do modelo ou ferramenta, notas de independência
Achados	ID, alegação, severidade, arquivo, linha, evidência, caminho afetado
Validação	Resultado da checagem barata, resultado da checagem profunda, motivo do estado
Decisões humanas	Promovido, pulado, aceito, rejeitado, precisa de responsável
Grupos de correção	Achados agrupados, resumo do patch, fronteira de commit
Nova revisão	Resultado pós-correção, regressões encontradas, reversões
Prova de lançamento	Testes, CI, implantação ou checagens de ambiente de execução quando relevante
Lacunas	Alegações não verificadas, acompanhamento manual, revisão nativa de domínio

O pacote não deve parecer uma transcrição. Uma transcrição mostra tudo o que aconteceu. Um pacote de revisão mostra o que um revisor responsável precisa para decidir.

O pacote também preserva memória institucional. Quando o mesmo falso positivo voltar na semana seguinte, a equipe conseguirá ver por que ele falhou. Quando um achado minoritário virar bug em produção, a equipe conseguirá inspecionar como a alegação passou pelo sistema.

O que a pesquisa diz sobre falhas de PRs criados por agentes?

O padrão de falha vai além dos bots de revisão.

Um artigo da MSR 2026 analisou 33.000 pull requests escritos por agentes no GitHub e descobriu que tarefas de documentação, CI e atualização de build tiveram a maior taxa de sucesso de merge, enquanto tarefas de desempenho e correção de bugs tiveram o pior desempenho.⁵ Os autores também descobriram que PRs sem merge tendiam a tocar mais arquivos, fazer mudanças maiores e falhar no CI. A análise qualitativa identificou padrões de rejeição como engajamento fraco dos revisores, PRs duplicados, implementações indesejadas e desalinhamento do agente.⁵

Esses achados sustentam uma regra prática: a revisão de código com IA não deve perguntar apenas se o diff tem bugs. Ela deve perguntar se o fluxo de trabalho do agente entrega aos mantenedores um objeto revisável. PRs grandes, desalinhados e com revisão fraca precisam de pacotes de revisão melhores, fronteiras de commit mais estreitas e pontos de decisão humana mais fortes.

Como as equipes devem começar?

Comece com um sistema pequeno de revisão que produza decisões melhores, não mais comentários.

Escolha duas ou três perspectivas para os caminhos de código mais arriscados.
Exija que todo achado inclua uma alegação, evidências, arquivo afetado e resultado de validação.
Preserve achados minoritários até que o validador os refute.
Encaminhe alegações manuais a um revisor humano em vez de escondê-las sob uma pontuação.
Acompanhe falsos positivos para que o sistema aprenda o que a equipe rejeita.
Revise as correções antes do commit.
Anexe o pacote ao PR.

Não comece com correção automática. Comece com artefatos de revisão confiáveis. Quando o pipeline de achados conquistar confiança, faixas estreitas de correção automática podem vir depois: testes mecânicos, verificações óbvias de valores null, correções de digitação ou correções que um humano promoveu durante o passo a passo.

O objetivo não é fazer a revisão de código parecer autônoma. O objetivo é tornar a revisão humana mais difícil de enganar.

Resumo rápido

A revisão de código com IA precisa de dissenso independente porque a concordância, sozinha, não prova um achado. Um sistema forte separa revisores por mandato, preserva alegações minoritárias, valida evidências, encaminha incertezas a humanos e revisa correções antes do commit. O contrato de revisão do GitHub ainda termina em estados de revisão humanos.² A política em rascunho do Rust mantém a revisão com LLM como consultiva até que um humano endosse a alegação.⁴ adamsreview mostra um formato atual de pipeline com perspectivas, barreiras, passo a passo e nova revisão da correção.¹

O artefato vencedor não é o comentário do bot. O artefato vencedor é o pacote de revisão que permite a um humano decidir com responsabilidade.

FAQ

O que é revisão de código com IA?

Revisão de código com IA usa modelos de linguagem ou agentes para inspecionar mudanças de código, identificar possíveis defeitos, explicar riscos, sugerir correções ou preparar artefatos de revisão para humanos. Um sistema sério deve fornecer evidências e estado para cada achado, em vez de apenas publicar comentários.

A revisão de código com IA deve usar vários agentes?

Vários agentes ajudam quando cada agente tem um mandato independente e o pipeline preserva a discordância. Vários agentes agregam pouco quando todos veem o mesmo prompt, produzem o mesmo resumo e convergem para uma pontuação de consenso.

Por que o dissenso é melhor do que o consenso na revisão de código com IA?

O dissenso mantém achados raros visíveis até que evidências os provem ou refutem. O consenso pode esconder um achado minoritário grave quando a maioria dos revisores perde o mesmo caso de borda. Revisão de código precisa de alegações validadas, não apenas concordância.

Um revisor de IA pode bloquear um pull request?

As equipes devem manter a autoridade de bloqueio com humanos. A política em rascunho do Rust para LLM diz que a revisão com LLM deve permanecer consultiva e que revisores devem endossar explicitamente comentários de LLM antes de bloquear um PR.⁴ Essa regra combina com um princípio mais amplo de responsabilização: um revisor humano é dono da decisão de merge.

O que um pacote de revisão com IA deve incluir?

Um pacote de revisão com IA deve incluir escopo, perspectivas, achados, evidências, resultados de validação, decisões humanas, grupos de correção, resultados da nova revisão, prova de lançamento quando relevante e lacunas não resolvidas. O pacote deve tornar as decisões de revisão auditáveis sem obrigar o leitor a passar por uma transcrição completa.

Quando as equipes devem permitir correção automática?

As equipes só devem permitir correção automática depois que o pipeline de achados conquistar confiança. Comece com correções mecânicas e de baixo risco, ou com achados que um humano promove durante a revisão. Toda correção automática precisa de revisão pós-correção e de um caminho de rollback.

Referências

Adam Miller, adamsreview, README do repositório GitHub. A verificação da sessão atual em 18 de maio de 2026 encontrou no README a descrição de um pipeline de revisão de código em vários estágios, com detecção paralela por subagentes, etapas de validação, estado persistente de JSON, revisão por pares com Codex, passo a passo, injeção de achados externos e um ciclo automatizado de correção que revisa novamente e reverte regressões antes do commit. ↩↩↩
Docs do GitHub, “About pull request reviews,” fonte para o modelo de revisão de pull requests do GitHub, incluindo comentários, aprovações, solicitações de mudança, comentários em linhas, mudanças sugeridas e solicitações de revisão. ↩↩
jyn514, “Add an LLM policy for rust-lang/rust,” pull request #1040 do rust-lang/rust-forge. A verificação da sessão atual pela API do GitHub em 18 de maio de 2026 encontrou state=open, merged=false, merged_at=null, 65 comentários de issue, 284 comentários de revisão e updated_at=2026-05-17T20:33:12Z. ↩
Proposta do branch de jyn514, “LLM Usage Policy,” proposta de src/policies/llm-usage.md para o pull request #1040 do rust-lang/rust-forge. Fonte para as regras em rascunho que permitem revisão privada com LLM, exigem que bots de revisão permaneçam consultivos, exigem endosso humano antes que comentários de LLM bloqueiem um PR e tratam contribuidores como responsáveis pelo próprio trabalho. ↩↩↩
Ramtin Ehsani, Sakshi Pathak, Shriya Rawal, Abdullah Al Mujahid, Mia Mohammad Imran e Preetha Chatterjee, “Where Do AI Coding Agents Fail? An Empirical Study of Failed Agentic Pull Requests in GitHub,” arXiv:2601.15195, submetido em 21 de janeiro de 2026, aceito na MSR 2026. Fonte para o estudo de 33.000 PRs escritos por agentes, padrões de sucesso de merge, observações de CI e tamanho de mudança, e padrões de rejeição. ↩↩