La revisión de código con IA necesita disenso, no consenso

12 min de lectura

adamsreview describe un proceso de revisión de código con seis comandos: lentes de revisión en paralelo, umbrales de validación, recorrido humano, revisión de pares con Codex y un ciclo de corrección que vuelve a revisar los cambios antes del commit.¹

Ese diseño apunta a la verdadera frontera de la revisión de código con IA. Una mejor revisión no nace de otro flujo de comentarios de bots. Nace de revisores independientes que discrepan, preservan esa discrepancia, validan la afirmación y devuelven el juicio a un revisor humano antes de que el proyecto trate el hallazgo como bloqueante.

Resumen rápido

La revisión de código con IA debería optimizarse para el disenso disciplinado, no para el consenso. Un sistema de revisión útil asigna lentes independientes, elimina hallazgos duplicados, valida cada afirmación, separa los errores confirmados de los juicios manuales y mantiene al revisor humano como revisor responsable. El consenso puede ocultar hallazgos raros pero importantes. Un paquete de revisión debería preservar las afirmaciones minoritarias hasta que la evidencia las refute, y después dar seguimiento a la corrección y al resultado de la nueva revisión.

Puntos clave

Para líderes de ingeniería: - Trata la revisión con IA como un proceso basado en evidencia, no como un sistema de votación. - Mantén la autoridad de integración en manos humanas, incluso cuando los agentes encuentren errores reales.

Para quienes construyen agentes: - Asigna lentes de revisión independientes con mandatos distintos: corrección, seguridad, pruebas, impacto en el usuario, mantenibilidad, comportamiento en ejecución y riesgo de lanzamiento. - Preserva los hallazgos minoritarios como afirmaciones estructuradas hasta que la validación los refute.

Para revisores de código: - Pide evidencia, pasos de reproducción, archivos afectados, resultados del validador, estado de decisión humana y verificación de la corrección. - Rechaza sistemas de revisión que convierten el acuerdo en confianza sin probar la afirmación subyacente.

¿Por qué la revisión de código con IA necesita disenso?

La revisión de código falla en silencio cuando todos los revisores buscan la misma clase de defecto.

La revisión con un solo agente crea una sola forma de falla. El modelo analiza el diff, produce comentarios plausibles y pasa por alto todo lo que queda fuera de su atención. La revisión multiagente solo mejora esa forma cuando los agentes se mantienen independientes. Si cinco agentes leen la misma instrucción, heredan las mismas prioridades y terminan en el mismo resumen, el sistema solo compró repetición.

El disenso cambia la superficie de revisión. Un revisor de seguridad puede objetar un flujo de solicitudes que un revisor de corrección acepta. Un revisor de pruebas puede señalar la falta de cobertura de regresión después de que el revisor de producto aprueba el comportamiento. Un revisor de entorno de ejecución puede rechazar una implementación que se ve limpia en el código, pero falla bajo restricciones de despliegue.

El hallazgo minoritario importa porque los errores graves suelen empezar como objeciones solitarias. Una puntuación de consenso puede enterrar esa objeción. Un buen proceso de revisión la mantiene viva el tiempo suficiente para probar o refutar la afirmación.

¿Qué deberían buscar los revisores independientes?

Los revisores independientes necesitan mandatos separados, no nombres separados.

Lente	Pregunta principal	Evidencia requerida
Corrección	¿El código hace lo que el cambio afirma?	Rutas afectadas, escenario fallido, comportamiento esperado
Seguridad	¿Un usuario, una dependencia o un componente invocador puede abusar del cambio?	Modelo de amenaza, entrada alcanzable, bosquejo de explotación o bloqueo
Pruebas	¿El error volvería sin una prueba fallida?	Brecha de pruebas, aserción propuesta, fixture o ruta
Producto	¿El comportamiento sirve al usuario?	Recorrido del usuario, transición de estado, riesgo en copy o interacción
Mantenibilidad	¿Los cambios futuros romperán el diseño?	Acoplamiento, lógica duplicada, propiedad poco clara
Entorno de ejecución	¿El cambio puede sobrevivir a un despliegue real?	Configuración, migración, caché, cola o prueba de rendimiento
Lanzamiento	¿El equipo puede revertir o auditar el resultado?	Límite de commit, prueba de despliegue, monitoreo, brechas sin resolver

La lista de lentes debería cambiar según el repositorio. Un sistema de pagos necesita lentes de fraude y conciliación. Un compilador necesita lentes de solidez, diagnósticos y rendimiento. Un sistema de publicación necesita lentes de citas, SEO, traducción y caché.

El mecanismo se mantiene estable: cada lente produce una afirmación, no un veredicto.

¿Por qué el consenso falla como señal de revisión?

El consenso responde la pregunta equivocada.

Una votación mayoritaria pregunta si muchos revisores están de acuerdo. La revisión de código necesita saber si una afirmación resiste el contacto con el código, las pruebas, el entorno de ejecución y la política del proyecto.

El acuerdo puede significar que el hallazgo es obvio. También puede significar que todos los revisores compartieron el mismo punto ciego. El desacuerdo puede ser ruido. También puede significar que un revisor encontró el error real.

La mejor métrica es el estado de la afirmación:

Estado	Significado	Siguiente acción
Propuesto	Un lente planteó un posible defecto	Eliminar duplicados y validar
Confirmado	La evidencia respalda el hallazgo	Corregir o asignar responsable
Refutado	La validación refutó el hallazgo	Registrar el motivo y cerrar
Manual	El juicio humano decide el resultado	Derivar al revisor
Solo informe	El hallazgo importa, pero no debería bloquear	Mantenerlo en el paquete
Corregido	Un cambio intentó resolver el hallazgo	Volver a revisar la corrección
Regresión	La corrección introdujo un problema nuevo	Revertir o rediseñar

Esa máquina de estados supera al consenso porque trata el desacuerdo como inventario de evidencia. El proceso puede cerrar hallazgos ruidosos sin borrarlos, y puede promover hallazgos solitarios cuando la validación prueba el defecto.

¿Qué hace un proceso sólido de revisión con IA?

Un proceso sólido de revisión de código con IA se ejecuta por fases.

Detecta de forma independiente. Los lentes de revisión inspeccionan el diff sin ver las conclusiones de los demás.
Elimina afirmaciones duplicadas. El sistema agrupa hallazgos equivalentes sin aplanar evidencia distinta.
Valida de forma económica. Las comprobaciones rápidas atrapan afirmaciones rotas: existencia de archivos, alcanzabilidad de líneas modificadas, presencia de pruebas, errores de tipos y contexto evidentemente obsoleto.
Valida a fondo. Las afirmaciones de alto impacto reciben una revisión más lenta: reproducción, lectura de trazas, pruebas enfocadas, razonamiento de seguridad o crítica de un segundo modelo.
Clasifica el estado. El proceso marca cada hallazgo como confirmado, refutado, manual, solo informe o por debajo del umbral.
Guía al humano por la incertidumbre. Un revisor decide los casos de juicio, promueve afirmaciones importantes y rechaza trabajo de bajo valor.
Corrige por grupo. Los hallazgos relacionados avanzan juntos para que el sistema no aplique parches contradictorios.
Vuelve a revisar las correcciones. El proceso revisa otra vez el código modificado y revierte regresiones antes del commit.
Escribe el paquete. El artefacto final registra hallazgos, evidencia, decisiones, pruebas, commits y brechas sin resolver.

adamsreview ofrece un ejemplo concreto de esa forma. Su README describe hasta siete lentes de subagentes paralelos, eliminación de duplicados, validación de menor a mayor profundidad, revisión holística opcional, un par de revisión con Codex, inyección de hallazgos externos, un recorrido para hallazgos inciertos y un ciclo de corrección que vuelve a revisar y revierte regresiones antes de hacer commit de las correcciones sobrevivientes.¹ El README también etiqueta la afirmación de rendimiento como anecdótica, y eso importa. Trata el proyecto como evidencia útil de diseño, no como un benchmark.

¿Cómo debería verse un hallazgo de revisión con IA?

Un hallazgo útil necesita estructura suficiente para que otro revisor, agente o trabajo de CI pueda inspeccionarlo más adelante.

id: SEC-003
lens: security
claim: "The new webhook endpoint accepts unsigned retry requests."
severity: high
affected_files:
  - app/routes/webhooks.py
evidence:
  - "Handler reads JSON before signature validation."
  - "Test suite covers valid signatures but not missing signatures."
validator:
  cheap_check: pass
  deep_check: manual
  reason: "Reachable path confirmed; exploit impact needs owner judgment."
human_decision:
  status: promoted
  reviewer: "reviewer of record"
fix_group: webhook-auth
post_fix_review:
  status: pending
remaining_gap: "Need replay test against malformed retry payload."

Los campos exactos pueden cambiar. La disciplina no debería hacerlo. El hallazgo nombra la afirmación, la evidencia, el resultado del validador, la decisión humana, el grupo de corrección, el estado posterior a la corrección y la brecha restante. Un comentario que dice “check webhook auth” no puede sostener una decisión responsable de integración. Un hallazgo estructurado sí puede.

¿Por qué el humano debe seguir siendo el revisor responsable?

El modelo de revisión de GitHub ofrece a los revisores tres resultados de alto nivel antes de la integración: comentar, aprobar o solicitar cambios.² La revisión con IA puede informar esos resultados. No debería reemplazarlos en silencio.

El borrador de política LLM de Rust traza esa línea con claridad. Al 18 de mayo de 2026, la política sigue siendo un pull request abierto, no una política adoptada por Rust.³ El borrador permite la revisión privada con LLM, pero prohíbe tratar una revisión de LLM como suficiente para integrar o rechazar un cambio. También dice que los bots de revisión deben mantenerse como asesores, que los comentarios de bots no deben bloquear por sí solos y que los revisores humanos deben respaldar explícitamente los comentarios que quieren que se atiendan.⁴

Ese límite protege la responsabilidad. Un bot puede descubrir un error real. También puede producir comentarios obsoletos, objeciones superficiales de estilo o falsos positivos seguros de sí mismos. El revisor responsable es quien se hace cargo de la decisión de bloquear, integrar, solicitar cambios o ignorar la afirmación.

El rol humano debería aparecer en el artefacto:

Campo	Por qué importa
Decisión del revisor	Separa la afirmación de la máquina del juicio humano
Hallazgos promovidos	Registra qué afirmaciones inciertas promovió una persona
Hallazgos rechazados	Evita ruido repetido de bots en ejecuciones posteriores
Límite de política	Muestra si una afirmación bloquea la integración o solo informa la revisión
Brechas restantes	Mantiene visible el trabajo sin verificar después del resumen

La revisión con IA gana confianza cuando vuelve más precisa la revisión humana. La pierde cuando esconde autoridad dentro de un veredicto de bot.

¿Qué debería contener el paquete de revisión?

Un paquete de revisión convierte la ejecución de revisión en un objeto de decisión duradero.

Campos mínimos:

Campo del paquete	Contenido
Alcance	PR, rama, commit base, commit de cabecera, archivos revisados
Lentes	Mandatos de revisión, identidad del modelo o herramienta, notas de independencia
Hallazgos	ID, afirmación, severidad, archivo, línea, evidencia, ruta afectada
Validación	Resultado de comprobación económica, resultado de comprobación profunda, razón del estado
Decisiones humanas	Promovido, omitido, aceptado, rechazado, necesita responsable
Grupos de corrección	Hallazgos agrupados, resumen del parche, límite de commit
Nueva revisión	Resultado posterior a la corrección, regresiones encontradas, reversiones
Prueba de lanzamiento	Pruebas, CI, despliegue o comprobaciones de entorno de ejecución cuando corresponda
Brechas	Afirmaciones sin verificar, seguimiento manual, revisión nativa de dominio

El paquete no debería leerse como una transcripción. Una transcripción muestra todo lo que ocurrió. Un paquete de revisión muestra lo que un revisor responsable necesita para decidir.

El paquete también preserva memoria institucional. Cuando el mismo falso positivo vuelve la semana siguiente, el equipo puede ver por qué falló. Cuando un hallazgo minoritario se convierte en un error de producción, el equipo puede inspeccionar cómo avanzó la afirmación por el sistema.

¿Qué dice la investigación sobre las fallas de PRs agénticos?

El patrón de falla se extiende más allá de los bots de revisión.

Un artículo de MSR 2026 analizó 33.000 pull requests escritos por agentes en GitHub y encontró que las tareas de documentación, CI y actualización de compilaciones lograron el mayor éxito de integración, mientras que las tareas de rendimiento y corrección de errores obtuvieron los peores resultados.⁵ Los autores también encontraron que los PRs no integrados tendían a tocar más archivos, hacer cambios más grandes y fallar CI. Su análisis cualitativo identificó patrones de rechazo como baja participación de revisores, PRs duplicados, implementaciones no deseadas y desalineación del agente.⁵

Esos hallazgos respaldan una regla práctica: la revisión de código con IA no solo debería preguntar si el diff tiene errores. Debería preguntar si el flujo de trabajo del agente les da a los mantenedores un objeto revisable. Los PRs grandes, desalineados y revisados con poca atención necesitan mejores paquetes de revisión, límites de commit más estrechos y puntos de decisión humana más sólidos.

¿Cómo deberían empezar los equipos?

Empieza con un sistema de revisión pequeño que produzca mejores decisiones, no más comentarios.

Elige dos o tres lentes para las rutas de código con más riesgo.
Exige que cada hallazgo incluya una afirmación, evidencia, archivo afectado y resultado de validación.
Preserva los hallazgos minoritarios hasta que el validador los refute.
Deriva las afirmaciones manuales a un revisor humano en lugar de ocultarlas bajo una puntuación.
Da seguimiento a los falsos positivos para que el sistema aprenda qué rechaza el equipo.
Vuelve a revisar las correcciones antes del commit.
Adjunta el paquete al PR.

No empieces con parches automáticos. Empieza con artefactos de revisión confiables. Una vez que el proceso de hallazgos se gane la confianza, pueden venir carriles estrechos de autocorrección: pruebas mecánicas, comprobaciones nulas obvias, correcciones al nivel de una errata o correcciones que un humano promovió durante el recorrido.

El objetivo no es hacer que la revisión de código se sienta autónoma. El objetivo es hacer que la revisión humana sea más difícil de engañar.

Resumen breve

La revisión de código con IA necesita disenso independiente porque el acuerdo por sí solo no puede probar un hallazgo. Un sistema sólido separa a los revisores por mandato, preserva afirmaciones minoritarias, valida evidencia, deriva la incertidumbre a humanos y vuelve a revisar las correcciones antes del commit. El contrato de revisión de GitHub todavía termina en estados de revisión humana.² El borrador de política de Rust mantiene la revisión con LLM como asesoría hasta que un humano respalde la afirmación.⁴ adamsreview muestra una forma actual de proceso con lentes, umbrales, recorrido y nueva revisión de correcciones.¹

El artefacto ganador no es el comentario del bot. El artefacto ganador es el paquete de revisión que permite que un humano decida con responsabilidad.

FAQ

¿Qué es la revisión de código con IA?

La revisión de código con IA usa modelos de lenguaje o agentes para inspeccionar cambios de código, identificar posibles defectos, explicar riesgos, sugerir correcciones o preparar artefactos de revisión para humanos. Un sistema serio debería ofrecer evidencia y estado para cada hallazgo, no solo publicar comentarios.

¿La revisión de código con IA debería usar varios agentes?

Varios agentes ayudan cuando cada uno tiene un mandato independiente y el proceso preserva el desacuerdo. Aportan poco valor cuando todos ven la misma instrucción, producen el mismo resumen y terminan reducidos a una puntuación de consenso.

¿Por qué el disenso es mejor que el consenso en la revisión de código con IA?

El disenso mantiene visibles los hallazgos raros hasta que la evidencia los prueba o los refuta. El consenso puede ocultar un hallazgo minoritario grave cuando la mayoría de los revisores pasa por alto el mismo caso límite. La revisión de código necesita afirmaciones validadas, no solo acuerdo.

¿Un revisor de IA puede bloquear un pull request?

Los equipos deberían mantener la autoridad de bloqueo en manos humanas. El borrador de política LLM de Rust dice que la revisión con LLM debe seguir siendo asesoría y que los revisores deben respaldar explícitamente los comentarios de LLM antes de bloquear un PR.⁴ Esa regla coincide con un principio más amplio de responsabilidad: un revisor humano es dueño de la decisión de integración.

¿Qué debería incluir un paquete de revisión con IA?

Un paquete de revisión con IA debería incluir alcance, lentes, hallazgos, evidencia, resultados de validación, decisiones humanas, grupos de corrección, resultados de nueva revisión, prueba de lanzamiento cuando corresponda y brechas sin resolver. El paquete debería hacer que las decisiones de revisión sean auditables sin obligar al lector a recorrer una transcripción completa.

¿Cuándo deberían los equipos permitir la autocorrección?

Los equipos deberían permitir la autocorrección solo después de que el proceso de hallazgos se gane la confianza. Empieza con correcciones mecánicas y de bajo riesgo, o con hallazgos que un humano promueve durante la revisión. Toda autocorrección necesita revisión posterior y una ruta de reversión.

Referencias

Adam Miller, adamsreview, README del repositorio de GitHub. La verificación de la sesión actual del 18 de mayo de 2026 encontró que el README describe un proceso de revisión de código de varias etapas con detección paralela mediante subagentes, pasadas de validación, estado persistente de JSON, revisión de pares con Codex, recorrido, inyección de hallazgos externos y un ciclo automatizado de corrección que vuelve a revisar y revierte regresiones antes del commit. ↩↩↩
Documentación de GitHub, “Acerca de las revisiones de pull requests,” fuente del modelo de revisión de pull requests de GitHub, incluidos comentarios, aprobaciones, cambios solicitados, comentarios por línea, cambios sugeridos y solicitudes de revisión. ↩↩
jyn514, “Agregar una política de LLM para rust-lang/rust,” pull request #1040 de rust-lang/rust-forge. La verificación de API de GitHub de la sesión actual del 18 de mayo de 2026 encontró state=open, merged=false, merged_at=null, 65 comentarios de issue, 284 comentarios de revisión y updated_at=2026-05-17T20:33:12Z. ↩
Propuesta de la rama de jyn514, “Política de uso de LLM,” src/policies/llm-usage.md propuesto para el pull request #1040 de rust-lang/rust-forge. Fuente de las reglas en borrador que permiten la revisión privada con LLM, exigen que los bots de revisión sigan siendo asesores, requieren respaldo humano antes de que los comentarios de LLM bloqueen un PR y consideran a los colaboradores responsables de su propio trabajo. ↩↩↩
Ramtin Ehsani, Sakshi Pathak, Shriya Rawal, Abdullah Al Mujahid, Mia Mohammad Imran y Preetha Chatterjee, “¿Dónde fallan los agentes de codificación con IA? Un estudio empírico de pull requests agénticos fallidos en GitHub,” arXiv:2601.15195, enviado el 21 de enero de 2026, aceptado en MSR 2026. Fuente del estudio de 33.000 PRs escritos por agentes, patrones de éxito de integración, observaciones sobre CI y tamaño de cambios, y patrones de rechazo. ↩↩