La búsqueda de agentes es un problema de entorno de ejecución

12 min de lectura

From the guides: Claude Code & Codex CLI

Un artículo de arXiv del 14 de mayo puso a prueba grep y la recuperación vectorial en Chronos, Claude Code, Codex y Gemini CLI con 116 preguntas de LongMemEval. En el primer experimento del artículo, grep en línea superó a la recuperación vectorial en línea en todos los pares de arnés y modelo, pero el hallazgo más importante fue más extraño: el entorno de ejecución cambió el resultado casi tanto como el recuperador.¹

La calidad de búsqueda de un agente no vive solo dentro de la discusión “grep contra vector”. Vive en todo el entorno de ejecución: instrucción, superficie de herramientas, ergonomía de shell, formato de resultados, presión de contexto, ruta de entrega, comportamiento de reintento y capacidad del modelo para cerrar el ciclo de uso de herramientas.

Resumen rápido

Sen, Kasturi, Lumer, Gulati y Subbiah compararon la búsqueda léxica y la búsqueda vectorial en un arnés personalizado llamado Chronos y en tres arneses CLI nativos de proveedor: Claude Code, Codex y Gemini CLI.¹ El estudio usó un subconjunto LongMemEval-S de 116 preguntas y evaluó tanto resultados de herramientas en línea como resultados entregados mediante archivos.¹ En el Experimento 1, grep en línea superó a la recuperación vectorial en línea en todos los pares de arnés y modelo, incluido Codex CLI con GPT-5.4, que obtuvo 93,1% con grep en línea frente a 75,9% con recuperación vectorial en línea.¹ El artículo no demuestra que grep supere a la búsqueda vectorial en general; los autores limitan explícitamente la conclusión a su escenario de preguntas y respuestas conversacionales con memoria larga, donde las respuestas a menudo dependen de fragmentos literales.¹ La conclusión útil para quienes construyen agentes es más precisa: el método de recuperación, el entorno de ejecución del agente y la ruta de entrega forman un solo sistema. Hay que evaluarlos juntos.

Ideas clave

Para quienes construyen agentes: mantén grep como línea base seria. Los resultados del artículo hacen que “vector por defecto” parezca perezoso para preguntas y respuestas con memoria larga sobre historial de chat, sobre todo cuando importan nombres literales, fechas y datos del usuario.¹
Para usuarios de Codex y Claude Code: no trates un CLI de proveedor como una envoltura neutral alrededor de una primitiva de búsqueda. El artículo reporta cambios grandes a nivel de arnés con los mismos datos conversacionales subyacentes.¹
Para equipos de RAG: reporta la ruta de entrega, no solo el recuperador. Los resultados en línea y los resultados basados en archivos produjeron comportamientos distintos porque la entrega por archivo agrega otra tarea de uso de herramientas.¹
Para trabajos de migración: conserva los comportamientos del entorno de ejecución que hacen confiable la búsqueda. Una migración de Claude Code a Codex debe probar recuperación, forma de la transcripción y ciclos de verificación antes de declarar paridad.
Para sistemas con muchas citas: las citas finales no cuentan toda la historia de la evidencia. Otro artículo sobre Agentic GraphRAG sostiene que la procedencia puede depender de contexto de grafo visitado pero no citado, no solo de nodos citados.⁴

¿Qué evaluó realmente el artículo sobre grep?

El artículo plantea una pregunta práctica: cuando un agente LLM debe responder preguntas sobre un historial conversacional largo, ¿cuánto depende la recuperación del método de búsqueda y cuánto del sistema de agentes que la rodea?¹

Los autores compararon dos familias de recuperación:

Familia de recuperación	Qué favorece	Modo de falla
Grep / búsqueda léxica	nombres, fechas, frases y cadenas distintivas exactas	omite paráfrasis o términos que el agente nunca adivina
Vector / búsqueda semántica	paráfrasis, conceptos relacionados y menciones indirectas	admite distractores cercanos al tema y vecinos ruidosos

Probaron esos recuperadores en dos clases de entorno de ejecución:

Clase de entorno de ejecución	Sistemas en el artículo	Por qué importa
Arnés personalizado	Chronos	El desarrollador controla instrucciones, herramientas, construcción de contexto, formato de resultados y criterios de detención
Arneses CLI nativos de proveedor	Claude Code, Codex CLI, Gemini CLI	El modelo trabaja mediante herramientas de estilo shell, formato de transcripción específico del proveedor, sandboxing y ergonomía de CLI

También variaron cómo llegaban los resultados al modelo. La entrega en línea inserta los aciertos de búsqueda directamente en la conversación. La entrega programática escribe resultados en archivos y luego exige que el modelo los localice, abra e integre.¹ Eso suena como un detalle de implementación. Los datos dicen que forma parte de la tarea.

¿Por qué ganó grep aquí?

La tarea medida favorece la recuperación literal. LongMemEval plantea preguntas sobre conversaciones largas de varias sesiones. Muchas respuestas dependen de nombres, expresiones temporales, datos personales o declaraciones previas exactas. En ese escenario, una herramienta léxica de alta precisión puede superar a un recuperador semántico porque la respuesta suele estar detrás de una cadena distintiva.¹

La Tabla 1 del artículo muestra el patrón con claridad:

Par de arnés y modelo	Grep en línea	Vector en línea
Chronos + Claude Opus 4.6	93,1%	83,6%
Claude Code + Claude Opus 4.6	76,7%	75,0%
Chronos + GPT-5.4	89,7%	81,9%
Codex CLI + GPT-5.4	93,1%	75,9%
Gemini CLI + Gemini 3.1 Pro	81,9%	75,0%

Esa tabla no dice “borra tu base de datos vectorial”. El propio artículo advierte contra esa lectura. Los autores dicen que su conclusión está ligada a las preguntas y respuestas conversacionales con memoria larga y que la recuperación densa o híbrida puede comportarse de otra manera en síntesis científica, documentos visuales o semántica de código.¹

La mejor lectura es esta: la búsqueda exacta merece un lugar de primera clase en cualquier entorno de ejecución serio para agentes. Si tu agente puede buscar en el sistema de archivos, leer registros, inspeccionar transcripciones previas o recuperar un dato literal del usuario, la búsqueda léxica puede ser la herramienta más barata y con mejor señal de la caja.

El entorno de ejecución cambió el resultado

La línea más útil del artículo no es “ganó grep”. Es que cambiar el arnés puede mover el techo de rendimiento en una escala parecida a cambiar el recuperador.¹

Un ejemplo: Claude Opus 4.6 con grep en línea llegó a 93,1% bajo Chronos y a 76,7% bajo Claude Code.¹ Misma familia de modelos, mismo subconjunto de evaluación, distinto entorno de ejecución. Otro ejemplo: Codex CLI con GPT-5.4 llegó a 93,1% con grep en línea, pero cayó a 55,2% cuando los resultados de grep pasaron por la ruta programática de entrega mediante archivos; la recuperación vectorial programática quedó en 67,2%.¹

Eso no es solo un resultado de recuperación. Es un resultado del entorno de ejecución.

El modelo tenía que hacer más que encontrar evidencia. Tenía que entender el contrato de la herramienta, elegir términos de búsqueda, interpretar stdout, decidir cuándo reintentar, leer archivos cuando los resultados no estaban en línea e integrar evidencia en una respuesta. Cada uno de esos pasos pertenece al entorno de ejecución del agente. Si alguno se vuelve frágil, incluso un recuperador fuerte puede producir una respuesta débil.

Por qué la entrega basada en archivos prueba el uso de herramientas

La entrega basada en archivos tiene un atractivo evidente. Puede reducir la presión de contexto al mantener grandes resultados de búsqueda fuera de la transcripción inmediata hasta que el modelo pida leerlos. Eso debería ayudar cuando los volcados vectoriales en línea saturan la ventana.

El artículo muestra el costo de esa decisión. La recuperación vectorial programática superó a grep programático en varias filas, lo que respalda el argumento de la presión de contexto.¹ Pero la fila Codex/GPT-5.4 muestra la otra cara: la entrega por archivo puede convertir una recuperación barata en un flujo de trabajo de varios pasos. El agente debe encontrar el artefacto, abrirlo, extraer fragmentos útiles y reintentar cuando la primera lectura no bastó.¹

Eso significa que la entrega programática cambia ancho de banda de contexto por competencia en el ciclo de herramientas. El intercambio solo conviene cuando el entorno de ejecución cierra el ciclo de manera confiable.

Esto importa en el trabajo real. Un agente local no falla en búsqueda solo porque el índice era incorrecto. Falla porque stdout se fragmentó mal, porque la ruta del archivo de resultados era fácil de pasar por alto, porque un comando devolvió demasiado ruido, porque la instrucción encuadró mal la tarea o porque el modelo se detuvo una lectura demasiado pronto.

Qué significa esto para migrar a Codex

Mi propia migración de Claude Code a Codex se ha centrado en trasladar contratos operativos, no en copiar un árbol de archivos. Este artículo refuerza esa decisión.

Si la calidad de búsqueda depende del entorno de ejecución, entonces la calidad de una migración depende de más que “¿Codex tiene una herramienta de búsqueda?”. Una migración debe conservar los comportamientos que vuelven útil la búsqueda:

el agente sabe cuándo usar búsqueda exacta antes que búsqueda semántica;
la salida de los comandos se mantiene lo bastante pequeña para leerse;
las rutas de evidencia sobreviven hasta la respuesta final;
los artefactos basados en archivos son fáciles de localizar e inspeccionar;
las búsquedas fallidas disparan mejores consultas en lugar de respuestas prematuras;
la escritura pública usa verificación de fuentes, no recuperación plausible.

Esa lista es intencionalmente pública y genérica. No revela hooks privados, instrucciones privadas ni detalles internos de flujos de trabajo locales. El punto es el contrato operativo: haz que el agente demuestre lo que encontró, no que simplemente suene seguro sobre la búsqueda que realizó.

El artículo también explica por qué una migración puede sentirse peor incluso cuando existen todas las funciones obvias. Claude Code y Codex pueden exponer herramientas de shell. Ambos pueden leer archivos. Ambos pueden buscar. Pero si difieren el formato de la transcripción, el manejo de resultados en archivos, el comportamiento de detención o los patrones de reintento, la misma primitiva de búsqueda puede producir trabajos distintos.

Las otras tres señales apuntan en la misma dirección

Otros tres artículos del 14 de mayo provenientes del mismo escaneo apuntan al mismo patrón general: la calidad de los agentes se está desplazando desde llamadas aisladas al modelo hacia la arquitectura del entorno de ejecución.

APWA trata el trabajo altamente paralelo de agentes como un problema de ejecución distribuida. Los autores descomponen flujos de trabajo en subproblemas no interferentes que recursos independientes pueden procesar sin comunicación cruzada, y luego evalúan el escalado en tareas más grandes donde los sistemas previos fallan.² Esa es una afirmación sobre entorno de ejecución, no un truco de instrucción.

MeMo trata la memoria como un componente de modelo separado. Mantiene fijo el LLM ejecutivo, codifica conocimiento nuevo en un modelo de memoria dedicado y reporta resistencia al ruido de recuperación, además de compatibilidad directa con LLMs abiertos y cerrados.³ Esa es una afirmación sobre arquitectura de memoria, no sobre ampliar el contexto.

El artículo de procedencia de Agentic GraphRAG sostiene que las citas finales pueden ser necesarias pero insuficientes. Las respuestas precisas pueden depender de contexto de recorrido no citado, estructura del grafo y entidades visitadas pero no citadas.⁴ Esa es una afirmación de procedencia, no de formato de citas.

Si pones esos trabajos junto al artículo sobre grep, aparece una forma común:

Problema	Encuadre débil	Encuadre más fuerte
Búsqueda	elegir grep o vector	probar recuperación más entorno de ejecución más ruta de entrega
Trabajo paralelo	lanzar más agentes	descomponer en unidades de ejecución no interferentes
Memoria	meter más contexto	diseñar una capa de memoria con comportamiento de actualización y recuperación
Citas	citar fuentes finales	preservar la procedencia a lo largo de la trayectoria de recuperación

El tema común: la envoltura es el producto. El entorno de ejecución decide si la capacidad del modelo se convierte en trabajo útil.

Qué cambiaría en una pila de agentes

Empieza con una línea base aburrida. Dale al agente búsqueda exacta sobre los archivos, registros, transcripciones o notas que importan. Mide eso antes de agregar recuperación semántica.

Luego prueba cuatro combinaciones, no dos:

Recuperador	Ruta de entrega
grep	en línea
grep	basada en archivos
vector	en línea
vector	basada en archivos

Registra la transcripción de herramientas en cada ejecución. La respuesta final no basta. Necesitas saber si el agente buscó los términos correctos, abrió el archivo correcto, notó el fragmento correcto, reintentó después de un fallo y citó la evidencia que realmente respaldaba la respuesta.

Agrega búsqueda vectorial cuando el dominio necesite recuperación de paráfrasis, síntesis conceptual o evidencia no literal. Conserva la búsqueda exacta cuando el dominio contenga nombres, IDs, nombres de archivo, fechas, líneas de registro, salida de comandos, preferencias de usuario o instrucciones previas. Usa enrutamiento híbrido cuando la tarea mezcle ambos.

Para escritura pública, vuelve más estricta la ruta de recuperación. Un artículo citado debe llevar URLs de fuentes, alineación entre afirmación y fuente, y un registro de lo que sigue sin verificarse. Si el sistema usó un grafo, una capa de memoria o una ruta intermedia de recuperación, las citas finales no deberían ser la única traza. El artículo sobre procedencia plantea ese punto para Agentic GraphRAG, pero la lección de producto aplica de forma más amplia: la evidencia debe explicar el camino, no solo el destino.⁴

La mejor pregunta para una evaluación

La pregunta débil para una evaluación es:

¿Qué recuperador es mejor?

La pregunta más fuerte es:

Bajo este entorno de ejecución, con este modelo, este corpus, esta ruta de entrega y esta política de reintentos, ¿qué comportamiento de búsqueda produce respuestas verificadas?

Responder esa pregunta toma más tiempo. También te dice algo que puedes usar.

El trabajo con agentes sigue tentando a la gente hacia afirmaciones por componente: mejor modelo, mejor recuperador, mejor instrucción, mejor memoria, mejor paralelismo. La realidad operativa empuja en la dirección contraria. El componente solo importa después de que el entorno de ejecución lo convierte en una ruta confiable desde la tarea hasta la evidencia y la acción.

Esa es la parte que vale la pena migrar.

FAQ

¿Este artículo demuestra que grep supera a la búsqueda vectorial?

No. Los autores limitan explícitamente el resultado al escenario estudiado de preguntas y respuestas conversacionales con memoria larga. Afirman que la recuperación densa y el enrutamiento híbrido pueden comportarse de otra manera en dominios donde la evidencia rara vez es literal, como la síntesis científica, documentos con mucha carga visual y semántica de código.¹

¿Por qué grep funcionó tan bien en el experimento?

Las preguntas de LongMemEval suelen depender de fragmentos literales de conversaciones pasadas: nombres, fechas, datos personales y declaraciones exactas. Grep premia patrones de alta precisión cuando el agente puede adivinar un término distintivo.¹

¿Por qué importó el arnés?

El entorno de ejecución controla la forma de la instrucción, las descripciones de herramientas, el formato de transcripción, el comportamiento de shell, la construcción de contexto, la entrega de resultados y los criterios de detención. El artículo reporta grandes cambios de precisión entre Chronos, Claude Code, Codex CLI y Gemini CLI, incluso cuando los datos conversacionales subyacentes se mantuvieron iguales.¹

¿Qué deberían hacer los usuarios de Codex con esto?

Mantener la búsqueda exacta como línea base, inspeccionar transcripciones de herramientas y probar entrega en línea frente a entrega basada en archivos antes de asumir que un método de recuperación es mejor. La fila de Codex en el artículo es útil, pero sigue siendo un solo escenario de evaluación, un tipo de corpus y una imagen incompleta del proveedor en cuanto a escalado.¹

¿Cómo se relaciona esto con las citas de RAG?

El artículo de procedencia de Agentic GraphRAG sostiene que las citas finales pueden respaldar una respuesta y aun así omitir contexto de recuperación que influyó en ella. En sistemas de agentes, la calidad de las citas debería incluir procedencia sobre el camino, no solo la lista final de fuentes citadas.⁴

¿Qué debería conservar una migración de Claude Code a Codex?

Conserva el comportamiento operativo: cuándo busca el agente, cómo limita la salida, cómo abre evidencia, cómo reintenta, cómo registra rutas de fuentes y cómo rechaza afirmaciones sin respaldo. No asumas paridad solo porque ambos entornos exponen un shell y un comando de búsqueda.

Referencias

Sahil Sen, Akhil Kasturi, Elias Lumer, Anmol Gulati, Vamse Kumar Subbiah, “Is Grep All You Need? How Agent Harnesses Reshape Agentic Search,” arXiv:2605.15184v1, enviado el 14 de mayo de 2026. Fuente primaria para la configuración de LongMemEval-S, la comparación entre Chronos / Claude Code / Codex CLI / Gemini CLI, la distinción entre entrega en línea y entrega programática, los valores de precisión de la Tabla 1, la discusión del Experimento 2 sobre escalado de contexto y la limitación declarada por el artículo de que la conclusión no demuestra que grep supere a la búsqueda vectorial en general. ↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩
Evan Rose, Tushin Mallick, Matthew D. Laws, Cristina Nita-Rotaru, Alina Oprea, “APWA: A Distributed Architecture for Parallelizable Agentic Workflows,” arXiv:2605.15132v1, enviado el 14 de mayo de 2026. Fuente para la descomposición de APWA de flujos de trabajo paralelizables en subproblemas no interferentes, recursos independientes sin comunicación cruzada y la afirmación de evaluación de que APWA escala en tareas más grandes donde los sistemas previos fallan. ↩
Ryan Wei Heng Quek, Sanghyuk Lee, Alfred Wei Lun Leong, Arun Verma, Alok Prakash, Nancy F. Chen, Bryan Kian Hsiang Low, Daniela Rus, Armando Solar-Lezama, “MeMo: Memory as a Model,” arXiv:2605.15156v1, enviado el 14 de mayo de 2026. Fuente para la arquitectura de modelo de memoria dedicado, el LLM ejecutivo fijo, la resistencia al ruido de recuperación, la prevención del olvido catastrófico en el modelo ejecutivo, la compatibilidad con LLM cerrados y la evaluación en BrowseComp-Plus / NarrativeQA / MuSiQue. ↩
Riccardo Terrenzi, Maximilian von Zastrow, Serkan Ayvaz, “Why Neighborhoods Matter: Traversal Context and Provenance in Agentic GraphRAG,” arXiv:2605.15109v1, enviado el 14 de mayo de 2026. Fuente para la afirmación de que la fidelidad de citas en Agentic GraphRAG debe tratarse como un problema de procedencia a nivel de trayectoria, que involucra recorrido del grafo, estructura, evidencia citada y entidades visitadas pero no citadas. ↩↩↩↩