Los agentes de programación con IA necesitan superficies de revisión más pequeñas

12 min de lectura

Un estudio de marzo de 2026 sobre asistentes de programación basados en agentes encontró que la participación cognitiva de los ingenieros de software disminuye a medida que avanzan las tareas, y que las herramientas actuales ofrecen poco apoyo para la reflexión, la verificación y la comprensión contextual.¹

Ese hallazgo pone nombre al cuello de botella de los agentes de programación con IA. Lo difícil ya no es lograr que un agente produzca código. Lo difícil es mantener a una persona lo bastante involucrada como para entender, verificar y hacerse responsable del trabajo antes de fusionarlo.

Un artículo de ingeniería de software de abril de 2026 plantea el mismo giro a escala de la disciplina: el código generado se vuelve abundante, mientras que la orquestación, la verificación y la colaboración estructurada entre humanos e IA pasan a ser el trabajo central de ingeniería.⁴

TL;DR

Los agentes de programación con IA necesitan superficies de revisión más pequeñas porque los grandes diffs generados superan el presupuesto de atención de los revisores reales. Los equipos deberían reemplazar las salidas gigantes de los agentes por artefactos del tamaño de una decisión: mapas de rutas modificadas, categorías de riesgo, tarjetas de afirmaciones, evidencia de pruebas, notas de reversión y brechas pendientes. La supervisión humana falla cuando la interfaz les pide a los ingenieros que lo lean todo después de que el agente ya terminó. La supervisión humana funciona cuando el sistema hace que cada aprobación sea pequeña, específica y respaldada por evidencia.

Puntos clave

Para líderes de ingeniería: - Trata la atención de los revisores como un recurso de producción escaso. - Mide el éxito de los agentes por su facilidad de revisión, no solo por completar tareas.

Para quienes crean herramientas para desarrolladores: - Diseña superficies de revisión alrededor de decisiones: aprobar, rechazar, pedir evidencia, dividir o devolver. - Agrega exigencia cognitiva donde importa: exige un juicio explícito del revisor para cambios riesgosos, no un desplazamiento pasivo por trabajo generado.

Para revisores: - No apruebes trabajo que no inspeccionaste de verdad. - Pídele al agente que reduzca la salida a afirmaciones, rutas afectadas, pruebas, riesgos y notas de reversión antes de leer el diff completo.

¿Por qué los agentes de programación con IA rompen la atención de revisión?

La revisión de software depende de la atención, y los flujos de trabajo con agentes la consumen más rápido que el desarrollo tradicional.

Un pull request escrito por una persona trae cierta fricción útil. La autora o el autor forma el cambio mientras lo escribe. El revisor ve un alcance que normalmente refleja la velocidad de escritura humana, la presión de tiempo y el costo social. Un agente de programación con IA puede producir el mismo artefacto visible con mucha menos fricción: más archivos, más código repetitivo, más pruebas, más explicación y más lenguaje de confianza.

El revisor recibe un objeto más grande, con menos certeza de que una persona entienda cada parte.

El artículo del taller CHI 2026 titulado “I’m Not Reading All of That” estudió a ingenieros que usaban un asistente de programación basado en agentes y encontró que la participación cognitiva disminuía conforme avanzaban las tareas. Sus autores sostienen que las herramientas de programación con agentes deberían funcionar como “herramientas para pensar”, capaces de apoyar el razonamiento y la comprensión contextual, no solo la ejecución autónoma de tareas.¹

Eso debería cambiar la forma en que los equipos evalúan la salida de un agente. Una tarea completada que nadie puede revisar de manera responsable no redujo el riesgo. Solo movió el riesgo a la parte no leída del diff.

¿Qué significa una superficie de revisión más pequeña?

Una superficie de revisión más pequeña es el artefacto mínimo que necesita un revisor para tomar una decisión específica.

No es un resumen más corto. Un resumen puede ocultar el riesgo. Una superficie más pequeña acota la decisión sin perder la evidencia.

Superficie de revisión	Mala forma	Mejor forma
Diff	2.000 líneas generadas	Mapa de rutas modificadas más archivos ordenados por riesgo
Resumen	“Implemented auth cleanup”	Afirmaciones, puntos de llamada afectados, pruebas y brechas
Pruebas	“All tests pass”	Comando, resultado, tipo de falla y cobertura faltante
Riesgo	“Low risk”	Datos afectados, llamadas externas y ruta de reversión
Aprobación	Un botón verde	Aprobar afirmación, pedir evidencia, dividir o rechazar
Seguimiento	TODOs sueltos	Responsable, fecha, estado y condición de bloqueo

La superficie se vuelve más pequeña al dividir la revisión en decisiones. Un revisor no debería tener que leer un diff generado completo antes de ver dónde hace falta criterio. La interfaz debería responder: qué cambió, por qué, dónde está el riesgo, qué evidencia existe y qué todavía necesita juicio humano.

¿Qué deberían ver primero los revisores?

Los revisores deberían ver el mapa antes que el territorio.

La primera pantalla debería responder cinco preguntas:

¿Qué archivos cambiaron?
¿Qué comportamiento cambió?
¿Qué afirmaciones hace el agente?
¿Qué afirmaciones tienen evidencia?
¿Qué afirmaciones todavía necesitan juicio humano?

Esa superficie inicial puede verse como una tabla:

Ruta	Tipo de cambio	Riesgo	Evidencia	Decisión
`app/routes/webhooks.py`	Límite de autenticación	Alto	Se agregó una prueba de firma faltante	Revisar manualmente
`tests/test_webhooks.py`	Prueba de regresión	Medio	Falla antes, pasa después	Inspeccionar afirmación
`docs/webhooks.md`	Documentación pública	Bajo	Comportamiento de origen enlazado	Revisar redacción

La tabla no reemplaza el diff. Le indica al revisor dónde invertir atención primero.

La misma idea aplica a las explicaciones del agente. Un agente útil no dice: “Cambié el flujo de webhook y actualicé las pruebas”. Un agente útil dice:

Afirmación: las solicitudes de reintento sin firma ahora fallan antes de leer el cuerpo.
Evidencia: test_unsigned_retry_rejected_before_json_read falla antes del parche y pasa después.
Ruta afectada: solo el endpoint de reintentos de webhook.
Riesgo: casos límite de firma y payloads malformados.
Brecha restante: no hay reproducción en staging contra un payload real del proveedor.

Esa forma le da a la persona un objeto de decisión.

¿Por qué la revisión humana sigue siendo distinta?

Los revisores humanos aportan retroalimentación que los agentes no aportan.

Un estudio empírico de marzo de 2026 sobre 278.790 conversaciones de revisión de código en 300 proyectos de código abierto en GitHub encontró que los revisores humanos dan retroalimentación que va más allá de detectar defectos, incluida la comprensión, las pruebas y la transferencia de conocimiento.² El estudio también encontró que los revisores humanos intercambiaron un 11,8% más de rondas al revisar código generado por IA que al revisar código escrito por humanos, y que las sugerencias de agentes de IA tuvieron una tasa de adopción menor que las sugerencias humanas.²

El hallazgo más importante para el diseño de herramientas: más de la mitad de las sugerencias no adoptadas de agentes de IA eran incorrectas o fueron abordadas mediante correcciones alternativas de los desarrolladores. Cuando los proyectos sí adoptaron sugerencias de agentes de IA, esas sugerencias produjeron mayores aumentos en la complejidad y el tamaño del código que las sugerencias de revisores humanos.²

Esa evidencia apunta en contra de la confianza pasiva. La revisión con IA puede escalar la detección. La revisión humana todavía aporta contexto, gusto, juicio de mantenibilidad y transferencia de conocimiento. Una superficie de revisión más pequeña debería proteger esas fortalezas humanas, no enterrarlas bajo salida generada.

¿Dónde fallan los pull requests de agentes?

Los pull requests basados en agentes fallan cuando el trabajo generado supera la capacidad del equipo para validarlo.

Un artículo de MSR 2026 estudió 33.000 pull requests escritos por agentes en GitHub. Las tareas de documentación, CI y actualización de compilación lograron el mayor éxito de merge, mientras que las tareas de rendimiento y corrección de bugs tuvieron el peor desempeño. Los pull requests que no llegaron a merge tendían a tocar más archivos, hacer cambios más grandes y fallar en CI. Los patrones cualitativos de rechazo incluyeron bajo involucramiento del revisor, PRs duplicados, implementaciones no deseadas y desalineación del agente.³

La lección no es “los agentes solo deberían escribir documentación”. La lección es que el tamaño de la superficie de revisión y el riesgo del cambio interactúan. Una corrección diminuta de documentación generada puede ser fácil de inspeccionar. Una corrección grande de un bug generada puede obligar al revisor a reconstruir desde cero el razonamiento del agente.

Los equipos deberían reducir la superficie de revisión antes del merge:

Patrón de falla	Respuesta con superficie más pequeña
Conjunto de cambios más grande	Dividir por comportamiento y límite de commit
Más archivos tocados	Ordenar archivos por riesgo de ejecución y datos
Falla de CI	Mostrar tarea fallida, causa e intento de corrección
Bajo involucramiento del revisor	Exigir decisiones explícitas sobre afirmaciones riesgosas
Trabajo duplicado o no deseado	Adjuntar objetivo, responsable y criterios de aceptación
Desalineación del agente	Comparar el resultado con el resultado original esperado por el usuario

El revisor no debería tener que descubrir alcance, riesgo y desviación del objetivo después de leer cada archivo.

¿Qué debería exigir la interfaz?

Las buenas interfaces de revisión aplican fricción en los momentos correctos.

No deberían ralentizar todos los cambios generados. Deberían ralentizar las afirmaciones que implican riesgo para usuarios, seguridad, datos, dinero o arquitectura.

Señal de riesgo	Mecanismo de exigencia cognitiva
Cambio de autenticación o permisos	El revisor debe inspeccionar rutas afectadas y pruebas
Migración de base de datos	El revisor debe confirmar reversión y compatibilidad de datos
Contenido público	El revisor debe confirmar citas y controles de límites privados
Solo pruebas generadas	El revisor debe confirmar que la prueba fallaría antes de la corrección
Diff grande	El revisor debe dividirlo o aceptar explícitamente la carga de revisión
Incertidumbre del agente	El revisor debe elegir promover, rechazar o pedir evidencia
Sin ruta de reversión	La aprobación permanece bloqueada

La exigencia cognitiva no significa molestar al revisor. Significa exigir una decisión real donde un clic pasivo crearía una confianza falsa.

El artículo sobre participación cognitiva recomienda modalidades de interacción más ricas y mecanismos de exigencia cognitiva para sostener un pensamiento más profundo en la programación asistida por IA.¹ Las herramientas de desarrollo deberían tomar esa recomendación literalmente. Deberían exponer el estado del trabajo de formas que faciliten pensar y dificulten la aprobación superficial.

¿Cómo se relacionan las superficies de revisión más pequeñas con los paquetes de revisión?

Los paquetes de revisión son el artefacto duradero. Las superficies de revisión más pequeñas son la interfaz humana para ese artefacto.

El paquete puede contener toda la evidencia: archivos modificados, salida de comandos, pruebas, verificaciones de fuentes, prueba de lanzamiento, decisiones y brechas sin resolver. La superficie de revisión debería mostrar el fragmento que una persona necesita ahora mismo.

Capa del paquete	Superficie de revisión
Traza completa	Salidas de comandos importantes
Diff completo	Archivos ordenados por riesgo
Todos los hallazgos	Afirmaciones que necesitan decisión
Todas las verificaciones	Verificaciones fallidas, faltantes o de alto riesgo
Todas las aprobaciones	Decisión actual del revisor
Todas las brechas	Primero las brechas bloqueantes

Esa separación importa. Volcar un paquete en el PR no resuelve la atención. Un paquete le da evidencia al sistema. Una superficie de revisión le da a la persona una ruta a través de la evidencia.

La revisión de código con IA necesita disenso, pero el disenso solo ayuda cuando el revisor puede verlo. Un hallazgo minoritario enterrado en la página cuatro de un informe del agente no protege el proyecto. Un hallazgo minoritario convertido en tarjeta de decisión quizá sí.

¿Qué deberían construir primero los equipos?

Empieza con un presupuesto de objetos de revisión.

Para cada pull request escrito por un agente, exige:

Una declaración de objetivo.
Un mapa de rutas modificadas.
Una tabla de riesgos.
Una tabla de evidencia.
Una lista de brechas sin resolver.
Una nota de reversión.
Un registro de decisiones humanas.

Luego limita el tamaño de cada objeto. Si el agente no puede ajustar el mapa, la tabla o la lista de brechas a un artefacto legible, el pull request es demasiado grande o está demasiado mal estructurado para una revisión responsable.

El límite importa porque los agentes generan con gusto artefactos exhaustivos que recrean el mismo problema de atención en prosa. La respuesta a un diff gigante no es un resumen gigante. La respuesta es un objeto de revisión que quepa en la decisión humana.

Resumen rápido

Los agentes de programación con IA abaratan la producción de código y encarecen su revisión. La investigación sobre asistentes de programación basados en agentes muestra que la participación cognitiva disminuye durante las tareas asistidas por agentes y que las herramientas actuales no apoyan lo suficiente la reflexión y la verificación.¹ La investigación empírica sobre revisión de código muestra que las personas todavía aportan comprensión, criterio de pruebas y transferencia de conocimiento, mientras que las sugerencias de agentes de IA reciben menor adopción y pueden aumentar la complejidad cuando se adoptan.² La investigación sobre PRs fallidos con agentes muestra que los cambios grandes, desalineados y revisados débilmente fallan de formas predecibles.³

Las superficies de revisión más pequeñas son la respuesta práctica. Haz que el agente reduzca el trabajo a afirmaciones, riesgos, evidencia, decisiones y brechas. Luego haz que la persona apruebe solo lo que realmente inspeccionó.

FAQ

¿Qué es una superficie de revisión para agentes de programación con IA?

Una superficie de revisión es la parte de la salida de un agente que una persona usa para tomar una decisión. Un diff de pull request, una tarjeta de afirmación, una tabla de evidencia de pruebas, un mapa de riesgo o una nota de reversión pueden ser superficies de revisión. Las buenas herramientas mantienen cada superficie lo bastante pequeña para una inspección responsable.

¿Por qué las superficies de revisión más pequeñas son mejores que los resúmenes?

Los resúmenes pueden ocultar riesgos. Las superficies de revisión más pequeñas acotan la decisión sin perder la evidencia. Un revisor debería ver la afirmación, la ruta afectada, la prueba, el riesgo y la brecha sin resolver, no solo un párrafo fluido que dice que la tarea está terminada.

¿Una superficie de revisión más pequeña reemplaza el diff completo?

No. El diff completo sigue disponible. La superficie más pequeña le indica al revisor dónde mirar primero, qué afirmaciones importan y qué decisiones siguen abiertas.

¿Cómo afectan los agentes de programación con IA la revisión humana?

Los agentes de programación con IA pueden producir artefactos más grandes más rápido de lo que las personas pueden inspeccionarlos. La investigación sobre asistentes de programación basados en agentes encontró una disminución de la participación cognitiva a medida que avanza la tarea, y la investigación sobre revisión de código encontró que los revisores humanos todavía aportan retroalimentación contextual que los agentes no tienen.¹²

¿Qué debería bloquear la aprobación de un PR escrito por un agente?

La aprobación debería bloquearse cuando el PR no tiene un objetivo claro, no tiene mapa de rutas modificadas, no presenta evidencia para afirmaciones importantes, no ofrece ruta de reversión para cambios riesgosos, tiene fallas de pruebas sin resolver, toca límites de seguridad o datos sin revisión, o incluye código generado que el revisor no inspeccionó realmente.

Referencias

Carlos Rafael Catalan, Lheane Marie Dizon, Patricia Nicole Monderin y Emily Kuang, “I’m Not Reading All of That: Understanding Software Engineers’ Level of Cognitive Engagement with Agentic Coding Assistants,” arXiv:2603.14225, enviado el 15 de marzo de 2026, revisado el 18 de marzo de 2026, publicado y presentado en el CHI 2026 Workshop on Tools for Thought. Fuente de las afirmaciones sobre participación cognitiva, comprensión contextual, reflexión, verificación y exigencia cognitiva. ↩↩↩↩↩
Suzhen Zhong, Shayan Noei, Ying Zou y Bram Adams, “Human-AI Synergy in Agentic Code Review,” arXiv:2603.15911, enviado el 16 de marzo de 2026. Fuente del estudio de 278.790 conversaciones de revisión, la muestra de 300 proyectos, el 11,8% más de rondas para código generado por IA, la menor adopción de sugerencias de agentes de IA y los hallazgos sobre complejidad y tamaño del código. ↩↩↩↩↩
Ramtin Ehsani, Sakshi Pathak, Shriya Rawal, Abdullah Al Mujahid, Mia Mohammad Imran y Preetha Chatterjee, “Where Do AI Coding Agents Fail? An Empirical Study of Failed Agentic Pull Requests in GitHub,” arXiv:2601.15195, enviado el 21 de enero de 2026, aceptado en MSR 2026. Fuente del estudio de 33.000 PRs escritos por agentes, los patrones de éxito de merge, las observaciones sobre CI y tamaño de cambios, y los patrones de rechazo. ↩↩
Mamdouh Alenezi, “Rethinking Software Engineering for Agentic AI Systems,” arXiv:2604.10599, enviado el 12 de abril de 2026. Fuente del enfoque según el cual la ingeniería de software debería reorganizarse alrededor de la orquestación, la verificación y la colaboración estructurada entre humanos e IA a medida que el código generado se vuelve más abundante. ↩