← Todos los articulos

Los artículos de investigación necesitan archivos de afirmaciones legibles por agentes

El 15 de mayo de 2026, Arquimedes Canedo propuso paper.json: un archivo JSON complementario que permite que un artículo de investigación exponga junto al PDF identificadores estables de afirmaciones, límites explícitos de alcance, comandos de reproducción por figura e identificadores estables de definiciones.1

Ese archivo pequeño señala un problema grande.

Los agentes de investigación ya leen artículos, extraen afirmaciones, citan fuentes, reproducen figuras, generan trabajos derivados y resumen alcances.1 La prosa sigue siendo útil para los lectores humanos. Pero la prosa por sí sola deja demasiado margen para que los agentes citen una subafirmación equivocada, generalicen más allá de la evidencia, inventen comandos de reproducción o reconstruyan una definición de memoria.

Los artículos de investigación necesitan archivos de afirmaciones legibles por agentes. Un artículo debería darles a los agentes una superficie estructurada para saber qué afirma, qué no afirma, cómo funcionan sus términos clave y cómo se conecta la evidencia con las figuras y el código.

Resumen rápido

Los archivos de afirmaciones legibles por agentes convierten un artículo que solo tiene prosa en un artículo con una superficie de evidencia direccionable. El PDF sigue siendo el objeto para humanos. El archivo de afirmaciones les da a los agentes identificadores estables, límites de alcance, definiciones y comandos de reproducción.

La propuesta de paper.json defiende esa idea con un esquema concreto y un repositorio de ejemplo. El borrador describe cinco convenciones: identificadores estables de afirmaciones, una lista explícita de lo que no se afirma, comandos de shell exactos por figura, cumplimiento mínimo viable mediante un único archivo JSON escrito a mano e identificadores estables de definiciones.1 El repositorio complementario incluye paper.json, schema.json, validator.py, resolve.py, el PDF y la fuente en Typst.2

El ecosistema más amplio de investigación con agentes apunta en la misma dirección. Argus trata la investigación profunda como ensamblaje de evidencia, no como búsqueda paralela por fuerza bruta.3 ACDL les da a los contextos de agentes un lenguaje formal de descripción.4 La investigación sobre exploración muestra que los agentes necesitan puntos de control verificables antes de actuar.5 El trabajo sobre arquitecturas diseñadas por agentes eleva la exigencia de reproducibilidad a nivel de artículo cuando los agentes generan afirmaciones científicas.6

La regla práctica: publica la prosa para humanos y el archivo de afirmaciones para agentes.

Ideas clave

Para autores de artículos: - Agrega identificadores estables para afirmaciones, definiciones, teoremas, figuras y trabajo futuro. - Escribe los límites de alcance como campos de primera clase, no como prosa defensiva escondida cerca del final.

Para revisores: - Verifica si las afirmaciones legibles por máquina coinciden con el artículo, no solo si el esquema es válido. - Trata los archivos de afirmaciones desactualizados o exagerados como defectos con riesgo de cita.

Para quienes construyen agentes de investigación: - Obtén el archivo de afirmaciones antes de resumir, citar, reproducir o construir sobre un artículo. - Cita identificadores de afirmación y de definición cuando una tarea dependa del alcance exacto.

Para revistas y repositorios: - Acepta un archivo de baja fricción junto al PDF antes de pedirles a los autores que adopten una plataforma completa. - Valida la estructura automáticamente y deja la revisión semántica a humanos y agentes especializados.

¿Por qué fallan los artículos en prosa frente a los agentes de investigación?

La prosa académica comprime evidencia en una narrativa.

Esa narrativa ayuda a los humanos. Un lector cuidadoso puede seguir matices, comparar secciones, inferir qué resultado respalda cada afirmación y notar dónde termina el alcance del artículo. Los agentes suelen procesar los artículos de otra manera: escanean, fragmentan, recuperan, citan, resumen y componen nuevos artefactos con límites de tiempo y contexto.

Eso produce fallas previsibles.

Superficie solo en prosa Falla del agente
La afirmación aparece dentro de un párrafo El agente cita la subafirmación equivocada o cita todo el artículo.
El límite de alcance aparece en la discusión El agente convierte un resultado acotado en una afirmación general.
El comando de figura vive en un repositorio El agente inventa un comando plausible u omite la reproducción.
La definición aparece una sola vez El agente reconstruye el término de forma imprecisa más adelante.
El trabajo futuro queda en la prosa El agente trata una pregunta abierta como un resultado probado.

Canedo nombra varias de esas fallas de forma directa: las subafirmaciones no tienen identificadores de cita dentro del artículo, la ampliación indebida del alcance pasa a través de resúmenes en prosa y los comandos de figuras suelen quedar fuera del artículo, en repositorios de código.1

La solución no exige reemplazar el artículo. Exige agregar una interfaz que vuelva más fáciles de direccionar las afirmaciones del artículo.

¿Qué debería contener un archivo de afirmaciones?

Un archivo de afirmaciones legible por agentes debería exponer las piezas que los agentes malinterpretan con más frecuencia.

Campo Trabajo del agente
id Nombrar el artículo con un slug estable.
version Decirles a los agentes qué superficie de afirmaciones leyeron.
claims[] Permitir que los agentes citen subafirmaciones mediante identificadores estables.
does_not_claim[] Bloquear excesos de alcance antes de que un resumen los difunda.
definitions[] Preservar los significados escritos por los autores para términos clave.
reproducibility.commands[] Dar comandos exactos para figuras, tablas o comprobaciones.
follow_up_work[] Separar el trabajo futuro de la evidencia ya mostrada.
repository Darles a los agentes el código y la ubicación de archivos canónicos.
schema Permitir que las herramientas validen la estructura antes de usarla.

El ejemplo desarrollado de paper.json incluye una versión de borrador, URL del repositorio, metadatos de autores, resumen, afirmaciones, exclusiones de alcance, comandos de reproducibilidad y validación respaldada por esquema.2 Su esquema exige campos centrales como id, title, version, status, authors, abstract, claims, does_not_claim y reproducibility.2

La estructura no prueba la verdad. La estructura hace que la verdad sea revisable.

Esa distinción importa. El archivo paper.json dice explícitamente que un validador aprobado no puede demostrar corrección semántica, completitud ni calidad de reproducción de figuras.2 Un archivo de afirmaciones desactualizado puede hacer más daño que no tener ninguno, porque los agentes pueden confiar en un campo ordenado por encima de una prosa más ambigua.

Por eso el estándar necesita dos capas:

  1. Validación estructural: ¿el archivo se puede analizar, contiene los campos requeridos y conserva los identificadores declarados?
  2. Revisión semántica: ¿el archivo representa fielmente el artículo?

Los autores pueden automatizar la primera capa. Los revisores deben hacerse cargo de la segunda.

¿Por qué importan los identificadores estables de afirmaciones?

Los agentes citan de forma demasiado amplia cuando la única unidad direccionable es el artículo completo.

Un artículo puede contener una afirmación sobre el método, una afirmación de evaluación, una afirmación de limitación, una afirmación de benchmark y una afirmación de trabajo futuro. Un lector humano puede citar el artículo y explicar qué parte importa. Un agente suele convertir esa cita al artículo completo en una ficha vaga de autoridad.

Los identificadores estables de afirmaciones les dan a los agentes un blanco más pequeño.

Objetivo de cita Resultado
Artículo completo “El artículo muestra X.”
Encabezado de sección “La sección del método dice X.”
Identificador estable de afirmación “La afirmación C2 sostiene X bajo el límite de alcance Y.”

El borrador de Canedo reporta evidencia piloto sobre recuperación con identificadores de afirmación. En la condición más difícil de recuperación conceptual, los agentes que usaron afirmaciones JSON obtuvieron en promedio 1,20 de 2, mientras que los agentes que buscaron en la prosa obtuvieron 0,60 de 2.2 El artículo presenta ese resultado como evidencia piloto, no como una prueba a escala.2

Esa cautela mejora la propuesta. El punto no depende de fingir que el primer piloto resolvió el campo. El punto es pedirles a los autores que creen un mejor objeto de revisión.

Los identificadores de afirmaciones les permiten a los revisores hacer preguntas más precisas:

  • ¿El agente citó C1 o todo el artículo?
  • ¿El resumen conservó el calificador de C2?
  • ¿El sistema posterior se basó en C3 sin verificar el comando?
  • ¿El agente confundió un identificador de definición con una afirmación de resultado?

Esas preguntas son mejores que “¿el resumen sonaba correcto?”.

¿Por qué los límites de alcance necesitan su propio campo?

Los agentes suelen exagerar los artículos porque las limitaciones quedan escondidas en la prosa.

Un artículo puede decir que su benchmark cubre cinco tareas, que su método necesita un entorno específico o que su resultado no se generaliza más allá de una configuración controlada. Un lector humano puede retener ese matiz. Un resumen de agente puede perder el calificador después de una reescritura.

Un campo explícito does_not_claim[] vuelve visibles los límites de alcance antes de la reutilización.

Límite de alcance oculto Forma en el archivo de afirmaciones
“No evaluamos seguridad clínica.” does_not_claim: clinical safety
“Nuestro método asume que existen trazas de herramientas.” does_not_claim: trace-free operation
“El piloto usa cinco ejemplos.” does_not_claim: population-level proof
“El comando valida solo la estructura.” does_not_claim: semantic correctness

La propuesta de paper.json enumera varias exclusiones para su propio trabajo. No afirma que C1, C2 o C3 estén probadas, no afirma que el validador garantice corrección semántica, no afirma que la convención resuelva la lectura por agentes y no afirma compatibilidad con todos los estándares de metadatos académicos.2

Esa lista les da a los agentes algo útil: límites que pueden citar.

Los campos de alcance también ayudan a los evaluadores. Si un resumen de agente dice “paper.json demuestra que los identificadores de afirmaciones mejoran la precisión de las citas de agentes”, el evaluador puede comparar la oración con el campo does_not_claim[] y marcar el exceso. Sin un campo, el evaluador tiene que inferir el alcance desde la prosa.

¿Por qué los comandos de figuras deberían estar junto a las afirmaciones?

La reproducción suele fallar en el límite del comando.

Muchos artículos apuntan a un repositorio. El comando exacto de una figura puede vivir en un script, un objetivo de Make, un notebook, una nota del README o en ningún lugar evidente. Un agente puede buscar en el repositorio y armar un comando que parezca plausible. Los comandos plausibles generan una confianza peligrosa cuando nunca se ejecutaron.

Un archivo de afirmaciones legible por agentes debería listar directamente los comandos de reproducción.

El ejemplo desarrollado de paper.json incluye comandos para generar el validador, validar paper.json contra paper.typ y compilar el artículo en Typst como PDF.2 El borrador de Canedo reporta evidencia piloto de que los comandos de reproducción provistos por JSON mejoraron la recuperación de comandos de figuras frente a secciones de métodos en prosa que apuntan a un repositorio.2

El campo de comandos debería mantenerse modesto:

Requisito Motivo
Comando exacto Evita fragmentos de shell inventados.
Artefacto esperado Permite que los agentes verifiquen la forma de la salida.
Nota de entorno Evita suposiciones sobre dependencias ocultas.
Identificador de figura o tabla Conecta el comando con la evidencia del artículo.
No objetivo conocido Evita que los agentes traten una prueba básica como reproducción completa.

Los agentes no deberían tratar un campo de comando como éxito. El campo de comando les da un objetivo que ejecutar, registrar y reportar.

¿Dónde encajan las definiciones?

Las definiciones pueden causar más daño que las afirmaciones.

Una afirmación equivocada suele fallar en una oración. Una definición equivocada contamina todas las oraciones posteriores que usan el término. Los agentes que reconstruyen definiciones desde la prosa pueden crear un vocabulario que suena interno al artículo mientras se aleja del significado que quiso darle el autor.

Los identificadores estables de definiciones reducen ese riesgo.

La quinta convención de Canedo da identificadores estables a las definiciones, y el borrador sostiene que las definiciones escritas por los autores deberían prevalecer sobre las reconstruidas por agentes para usos posteriores.1 El resolvedor del repositorio admite fragmentos como #C1, #D1, #T1 y #F1, y mapea identificadores a afirmaciones, definiciones, teoremas y elementos de trabajo futuro.2

Ese mecanismo importa para los sistemas posteriores.

Tarea posterior Riesgo de definición
Revisión bibliográfica El agente fusiona términos de dos artículos con significados distintos.
Extracción de benchmarks El agente trata el nombre de una métrica como si todos los artículos la definieran igual.
Generación de código El agente implementa el objeto equivocado porque la definición se desvió.
Experimento de seguimiento El agente optimiza para un término que el autor nunca quiso decir.

Los archivos de afirmaciones deberían volver direccionables los términos. Los agentes deberían citar o resolver definiciones antes de aplicarlas.

¿Cómo deberían usar los agentes de investigación los archivos de afirmaciones?

Los agentes necesitan un protocolo de lectura.

Antes de resumir o citar un artículo, un agente de investigación debería:

  1. Obtener el archivo de afirmaciones del artículo cuando esté disponible.
  2. Validar la estructura del archivo.
  3. Resolver la afirmación, definición, figura, teorema o identificador de trabajo futuro solicitado.
  4. Comparar el elemento resuelto con el PDF cuando la tarea tenga consecuencias reales.
  5. Conservar los límites de alcance en cada resumen.
  6. Ejecutar comandos de reproducción solo dentro de un entorno aislado apropiado.
  7. Reportar salida de comandos, archivos faltantes y comprobaciones fallidas como evidencia.
  8. Recurrir a la prosa solo cuando el archivo de afirmaciones no tenga el elemento necesario.

Ese protocolo debería producir un paquete de revisión:

Campo del paquete Evidencia
Artículo Título, versión, repositorio y URL del PDF.
Archivo de afirmaciones URL, versión, estado del esquema y salida de validación.
Identificadores resueltos Identificadores de afirmación, definición, figura o trabajo futuro utilizados.
Límites de alcance Entradas relevantes de does_not_claim[].
Reproducción Comandos ejecutados, salidas, fallas y entorno.
Verificación humana Cualquier afirmación que el agente no pudo verificar desde el archivo o el PDF.

El objetivo no es generar más papeleo. El objetivo es reducir las citas sin respaldo.

¿Cómo apunta en la misma dirección el ecosistema más amplio de investigación con agentes?

La investigación reciente sobre agentes vuelve una y otra vez al mismo tema: los agentes necesitan superficies de evidencia estructuradas, no más fluidez sin fundamento.

Argus trata la investigación profunda como ensamblaje de evidencia. El sistema usa un Searcher y un Navigator; el Navigator rastrea un grafo compartido de evidencia y dirige el trabajo de búsqueda hacia piezas de evidencia faltantes.3 Ese diseño refuerza la necesidad de que los artículos expongan piezas de evidencia que los agentes puedan ensamblar.

ACDL se enfoca en descripciones de contexto. Los autores sostienen que los sistemas de agentes necesitan un lenguaje preciso y legible para describir cómo evolucionan las instrucciones y el historial de interacción a través de los pasos.4 Los archivos de afirmaciones hacen un trabajo paralelo en la capa del artículo: describen cómo deben entrar al contexto del agente las afirmaciones, definiciones y comandos del artículo.

La investigación sobre exploración agrega otro ángulo. “Look Before You Leap” introduce Exploration Checkpoint Coverage, una métrica verificable para saber si un agente descubre estados, objetos y posibilidades clave antes de actuar.5 Los agentes de investigación necesitan la misma disciplina antes de citar o reutilizar un artículo. Deben descubrir afirmaciones, definiciones, límites y comandos antes de actuar.

AIRA eleva la exigencia. El artículo sobre AIRA-Compose y AIRA-Design reporta una búsqueda multiagente de arquitecturas que propone nuevas arquitecturas de modelos fundacionales y mejoras posteriores frente a líneas base.6 Si los agentes pueden generar afirmaciones de diseño científico, los artículos que describen esas afirmaciones necesitan límites y mecanismos de reproducción legibles por máquina.

ARIS nombra una falla que encaja con toda la categoría: los agentes de investigación de larga duración pueden producir éxitos plausibles sin respaldo cuando el soporte de evidencia queda incompleto, mal reportado o heredado del encuadre del ejecutor.7 Los archivos de afirmaciones les dejan a los agentes de investigación menos espacio para heredar encuadres sin respaldo desde la prosa sola.

El patrón es consistente. Los agentes de investigación serios necesitan objetos explícitos de evidencia.

¿Qué pueden publicar los autores ahora?

Los autores no necesitan la aprobación de una revista para empezar.

La primera versión puede vivir junto al artículo:

{
  "id": "my-paper",
  "title": "My Paper Title",
  "version": "0.1.0",
  "status": "draft",
  "repository": "https://github.com/example/my-paper",
  "claims": [
    {
      "id": "C1",
      "statement": "The method improves retrieval accuracy on benchmark X under condition Y.",
      "evidence": ["figure-2", "table-1"]
    }
  ],
  "does_not_claim": [
    "The method improves retrieval accuracy outside benchmark X."
  ],
  "definitions": [
    {
      "id": "D1",
      "term": "retrieval accuracy",
      "definition": "The percentage of queries whose top-ranked result matches the labeled answer."
    }
  ],
  "reproducibility": {
    "environment": "Python 3.11",
    "commands": ["python scripts/reproduce_figure_2.py"]
  }
}

El primer archivo debería responder cinco preguntas:

  1. ¿Qué afirmaciones exactas pueden citar los agentes?
  2. ¿Qué afirmaciones deberían negarse a inferir los agentes?
  3. ¿Qué definiciones deben permanecer estables?
  4. ¿Qué comandos reproducen la evidencia?
  5. ¿Qué versión de la superficie de afirmaciones leyó el agente?

Ese mínimo les da a los agentes un punto de partida más seguro. También les da a los revisores una diferencia concreta cuando el artículo cambia.

¿Qué deberían revisar los revisores y las plataformas?

Los revisores no deberían aprobar automáticamente un archivo JSON válido.

Deben comparar el archivo con el artículo.

Revisión Falla
Paridad de afirmaciones El archivo de afirmaciones dice más de lo que el artículo demuestra.
Paridad de alcance Una limitación clave aparece en la prosa, pero no en does_not_claim[].
Paridad de definiciones Una definición en JSON entra en conflicto con la redacción del autor.
Paridad de comandos El comando ya no reproduce el artefacto nombrado.
Paridad de versiones El PDF cambió, pero el archivo de afirmaciones quedó desactualizado.
Paridad de identificadores El artículo menciona C1 o D1 que JSON no contiene, o JSON declara identificadores huérfanos.

Las plataformas pueden automatizar parte de ese trabajo.

Pueden revisar la sintaxis de JSON, los campos requeridos, el formato de identificadores, identificadores duplicados, referencias faltantes, accesibilidad de URLs, presencia de comandos y metadatos de versión. También pueden pedirle a un agente que compare el archivo de afirmaciones con la prosa y produzca un paquete de revisión para humanos.

La revisión humana sigue decidiendo el significado. La automatización solo vuelve visible el desvío.

¿Qué debería rechazar el estándar?

Los archivos de afirmaciones legibles por agentes deberían ser lo suficientemente pequeños para adoptarse y lo suficientemente estrictos para importar.

Rechaza tres tentaciones.

Primero, rechaza la dependencia de plataforma. Un archivo junto al PDF vale más que una plataforma nueva que ningún autor adopta. El borrador de Canedo sostiene que el cumplimiento mínimo viable debería exigir un único archivo JSON escrito a mano, no herramientas nuevas ni registro en una plataforma.1

Segundo, rechaza la certeza falsa. Un esquema puede validar la forma. No puede probar la verdad semántica. Los archivos de afirmaciones deberían decir qué prueban, qué no prueban y cómo pueden revisar los evaluadores cualquier desvío.

Tercero, rechaza la estrategia oculta. Los agentes necesitan identificadores de evidencia, no instrucciones privadas de los autores. Un archivo público de afirmaciones debería exponer afirmaciones, definiciones, límites y comandos. No debería exponer notas privadas de revisión por pares, rúbricas de evaluación ocultas, credenciales ni rutas de datos no publicados.

Los buenos estándares reducen la ambigüedad sin exigir confianza en maquinaria secreta.

El estándar valioso

El artículo valioso no solo persuade a un lector humano. Les da a futuros lectores, agentes, revisores y constructores una forma de reutilizar el trabajo sin estirarlo más allá de lo que sostiene.

Un archivo de afirmaciones legible por agentes debería hacer que el artículo sea más confiable al volver más fáciles de inspeccionar sus límites.

El estándar es simple:

  • Dale una dirección a cada afirmación importante.
  • Dale un campo a cada límite de alcance.
  • Dale un identificador estable a cada definición clave.
  • Dale un comando exacto a cada figura reproducida.
  • Dale a cada agente una razón para citar el artículo de manera precisa.

Los agentes de investigación seguirán leyendo artículos. Los autores pueden dejarlos extraer información de la prosa, o pueden darles una superficie construida para la evidencia.

El segundo camino produce mejores citas, resúmenes más seguros y menos afirmaciones plausibles sin un ancla confiable.

Resumen breve

Los artículos de investigación necesitan archivos de afirmaciones legibles por agentes porque los agentes ya resumen, citan, prueban y reutilizan trabajo académico. La prosa por sí sola deja demasiado margen para que los agentes citen artículos completos en vez de subafirmaciones, exageren el alcance, inventen comandos o se desvíen en las definiciones.

paper.json ofrece un punto de partida práctico: identificadores estables de afirmaciones, exclusiones explícitas de alcance, comandos por figura, adopción mínima viable mediante un único archivo JSON e identificadores estables de definiciones.1 Su repositorio de ejemplo agrega validación de esquema, un resolvedor y un archivo de ejemplo concreto.2

La mejor primera versión es pequeña: afirmaciones, no afirmaciones, definiciones, comandos de reproducción, metadatos de versión y un enlace al repositorio. El archivo no debería reemplazar el artículo. Debería hacer que el artículo sea más seguro de leer para los agentes.

Preguntas frecuentes

¿Qué es un archivo de afirmaciones legible por agentes?

Un archivo de afirmaciones legible por agentes es un archivo estructurado junto a un artículo que expone afirmaciones, límites de alcance, definiciones, comandos de reproducción y metadatos relacionados en un formato que los agentes pueden recuperar y citar.

¿paper.json reemplaza el PDF?

No. El PDF sigue siendo el artículo legible por humanos. El archivo de afirmaciones les da a los agentes una superficie de evidencia direccionable para que puedan citar y probar las afirmaciones del artículo con más seguridad.

¿Qué problema intenta resolver paper.json?

paper.json apunta a fallas recurrentes de lectura por agentes: citas de subafirmaciones equivocadas, ampliación excesiva del alcance, comandos de figuras ocultos y definiciones inestables.1

¿Un esquema aprobado demuestra que el archivo de afirmaciones es correcto?

No. Un esquema puede validar campos requeridos, identificadores y estructura. La revisión humana o de agentes especializados todavía debe comprobar si el archivo de afirmaciones representa fielmente el artículo.

¿Qué deberían incluir primero los autores?

Los autores deberían empezar con identificadores estables de afirmaciones, una sección does_not_claim[], definiciones estables, comandos exactos de reproducción, una URL del repositorio y una versión para el archivo de afirmaciones.


Referencias


  1. Arquimedes Canedo, “paper.json: A Coordination Convention for LLM-Agent-Actionable Papers,” arXiv:2605.16194v1, enviado el 15 de mayo de 2026. Fuente de la propuesta complementaria de JSON, identificadores estables de afirmaciones, lista explícita de lo que no se afirma, comandos de shell por figura, afirmación de cumplimiento mínimo viable, identificadores estables de definiciones y advertencia de que las afirmaciones siguen siendo hipótesis abiertas. 

  2. Arquimedes Canedo, “paper-json,” repositorio GitHub, consultado el 18 de mayo de 2026. Fuente de los archivos del repositorio, incluidos paper.json, schema.json, validator.py, resolve.py, paper.pdf, paper.typ, el ejemplo desarrollado, los campos requeridos por el esquema, los límites de validación, los comandos de reproducción y el comportamiento del resolvedor de fragmentos. 

  3. Zhen Zhang, Liangcai Su, Zhuo Chen, Xiang Lin, Haotian Xu, Simon Shaolei Du, Kaiyu Yang, Bo An, Lidong Bing y Xinyu Wang, “Argus: Evidence Assembly for Scalable Deep Research Agents,” arXiv:2605.16217v1, enviado el 15 de mayo de 2026. Fuente de los roles Searcher/Navigator, el grafo compartido de evidencia, el despacho de evidencia faltante y el encuadre de ensamblaje de evidencia para agentes de investigación profunda. 

  4. Noga Peleg Pelc, Gal A. Kaminka y Yoav Goldberg, “A Language for Describing Agentic LLM Contexts,” arXiv:2605.01920v1, enviado el 3 de mayo de 2026. Fuente de ACDL, la necesidad de describir la composición y la dinámica del contexto de agentes, y la crítica de la prosa informal, los diagramas ad hoc y la inspección de código como descripciones de contexto insuficientes. 

  5. Ziang Ye, Wentao Shi, Yuxin Liu, Yu Wang, Zhengzhou Cai, Yaorui Shi, Qi Gu, Xunliang Cai y Fuli Feng, “Look Before You Leap: Autonomous Exploration for LLM Agents,” arXiv:2605.16143v1, enviado el 15 de mayo de 2026. Fuente de la explotación prematura, Exploration Checkpoint Coverage y el paradigma Explore-then-Act. 

  6. Alberto Pepe, Chien-Yu Lin, Despoina Magka, Bilge Acun, Yannan Nellie Wu, Anton Protopopov, Carole-Jean Wu y Yoram Bachrach, “Agentic Discovery of Neural Architectures: AIRA-Compose and AIRA-Design,” arXiv:2605.15871v1, enviado el 15 de mayo de 2026. Fuente del descubrimiento multiagente de arquitecturas neuronales, la exploración de 24 horas, las familias de arquitectura reportadas y las afirmaciones de precisión/escalamiento posteriores. 

  7. Ruofeng Yang, Yongcan Li y Shuai Li, “ARIS: Autonomous Research via Adversarial Multi-Agent Collaboration,” arXiv:2605.03042v1, enviado el 4 de mayo de 2026. Fuente del modo de falla de éxito plausible sin respaldo en agentes de investigación de larga duración y de la necesidad de revisión adversarial de artefactos de investigación intermedios. 

Artículos relacionados

Las habilidades de agentes de IA necesitan auditorías de comportamiento, no tasas de éxito

Las habilidades de agentes de IA pueden cambiar el comportamiento aunque las tasas de éxito no se muevan. Las auditorías…

13 min de lectura

La revisión de código con IA necesita disenso, no consenso

La revisión de código con IA necesita agentes independientes que preserven el disenso, validen hallazgos, deriven la inc…

12 min de lectura

El Bucle Ralph: Cómo ejecuto agentes de IA autónomos durante la noche

Construí un sistema de agentes autónomos con stop hooks, presupuestos de generación y memoria en el sistema de archivos.…

10 min de lectura