代理搜尋是執行環境問題
2026年5月14日的一篇 arXiv 論文,在 Chronos、Claude Code、Codex 與 Gemini CLI 上,針對 116 個 LongMemEval 問題測試 grep 與向量檢索。論文第一個實驗中,內嵌 grep 在每一組代理框架與模型配對上都勝過內嵌向量檢索。但更值得注意、也更反直覺的發現是:執行環境對結果的影響,幾乎和檢索器本身一樣大。1
代理搜尋品質不只存在於「grep 對上向量」這個問題裡。它存在於完整的執行環境:提示、工具介面、shell 操作體驗、結果格式、上下文壓力、交付路徑、重試行為,以及模型完成工具迴圈的能力。
TL;DR
Sen、Kasturi、Lumer、Gulati 與 Subbiah 比較了詞彙搜尋與向量搜尋,測試對象包含一個名為 Chronos 的自訂代理框架,以及 3 個供應商原生 CLI 代理框架:Claude Code、Codex 與 Gemini CLI。1研究使用 116 題 LongMemEval-S 子集,並同時測試內嵌工具結果與檔案式工具結果。1在實驗 1 中,內嵌 grep 在每一組代理框架與模型配對上都優於內嵌向量檢索;其中 Codex CLI 搭配 GPT-5.4 時,內嵌 grep 達到 93.1%,內嵌向量檢索則為 75.9%。1這篇論文並未證明 grep 普遍優於向量搜尋;作者明確把結論限縮在長期記憶對話式 QA 設定,因為這類答案經常取決於字面片段。1對代理建構者來說,真正有用的結論更精準:檢索方法、代理執行環境與結果交付方式構成同一套系統。請把它們放在一起做基準測試。
重點摘要
- 給代理建構者:請把 grep 視為嚴肅的基準線。這篇論文的結果讓「預設用向量」在聊天紀錄的長期記憶 QA 中顯得草率,尤其當字面姓名、日期與使用者事實很重要時。1
- 給 Codex 與 Claude Code 使用者:不要把供應商 CLI 當成包在搜尋基本操作外面的中立外殼。論文指出,即使用的是同一批底層對話資料,不同代理框架仍會造成明顯差異。1
- 給 RAG 團隊:請回報交付路徑,而不只是檢索器。內嵌結果與檔案式結果會產生不同表現,因為檔案交付又增加了一項工具使用任務。1
- 給遷移工作:請保留讓搜尋可靠的執行環境行為。從 Claude Code 遷移到 Codex 時,應先測試檢索、逐字稿形態與驗證迴圈,再宣稱已達同等效果。
- 給高度依賴引用的系統:最終引用不是完整的證據故事。另一篇 Agentic GraphRAG 論文主張,來源追溯可能取決於造訪過但未引用的圖脈絡,而不只是已引用節點。4
這篇 grep 論文實際測了什麼?
這篇論文問的是一個務實問題:當 LLM 代理必須根據很長的對話歷史回答問題時,檢索表現有多少取決於搜尋方法,又有多少取決於包在外面的代理系統?1
作者比較了 2 種檢索家族:
| 檢索家族 | 偏好的訊號 | 失敗模式 |
|---|---|---|
| grep/詞彙搜尋 | 精確姓名、日期、片語與具辨識度的字串 | 錯過改寫語句,或代理從未猜到的詞 |
| 向量/語意搜尋 | 改寫語句、相關概念與間接提及 | 納入主題相近的干擾項與雜訊鄰近結果 |
他們也把這些檢索器放進 2 類執行環境中測試:
| 執行環境類型 | 論文中的系統 | 重要性 |
|---|---|---|
| 自訂代理框架 | Chronos | 開發者可控制提示、工具、上下文建構、結果格式與停止條件 |
| 供應商原生 CLI 代理框架 | Claude Code、Codex CLI、Gemini CLI | 模型透過 shell 風格工具、供應商特定逐字稿格式、沙箱與 CLI 操作體驗完成工作 |
他們也改變了結果抵達模型的方式。內嵌交付會把搜尋命中直接插入對話;程式化交付則把結果寫入檔案,再要求模型找到、開啟並整合內容。1這聽起來像實作細節。資料顯示,它其實是任務的一部分。
為什麼 grep 在這裡勝出?
這項量測任務偏好字面還原。LongMemEval 要求模型根據多個長對話階段回答問題。許多答案取決於姓名、時間表述、個人事實或過去的精確陳述。在這種設定下,高精準度的詞彙工具可能勝過語意檢索器,因為答案往往藏在一段具辨識度的字串後面。1
論文的表 1 清楚呈現這個模式:
| 代理框架與模型配對 | 內嵌 grep | 內嵌向量 |
|---|---|---|
| Chronos + Claude Opus 4.6 | 93.1% | 83.6% |
| Claude Code + Claude Opus 4.6 | 76.7% | 75.0% |
| Chronos + GPT-5.4 | 89.7% | 81.9% |
| Codex CLI + GPT-5.4 | 93.1% | 75.9% |
| Gemini CLI + Gemini 3.1 Pro | 81.9% | 75.0% |
這張表不是在說「刪掉您的向量資料庫」。論文本身也提醒讀者不要如此解讀。作者指出,他們的結論限於長期記憶對話式 QA;在科學綜述、視覺文件或程式碼語意等場景中,密集檢索或混合式檢索可能有不同表現。1
更好的解讀是:精確搜尋在任何嚴肅的代理執行環境中,都應該有一席之地。如果代理能搜尋檔案系統、讀取記錄、檢查過去逐字稿,或還原字面使用者事實,詞彙搜尋可能就是工具箱裡成本最低、訊號最強的工具。
執行環境改變了結果
這篇論文最有用的一句,不是「grep 贏了」。而是:更換代理框架造成的上限位移,幅度大致可與更換檢索器相比。1
舉例來說,Claude Opus 4.6 使用內嵌 grep 時,在 Chronos 下達到 93.1%,在 Claude Code 下則為 76.7%。1模型家族相同,基準子集相同,執行環境不同。另一個例子是,Codex CLI 搭配 GPT-5.4 時,內嵌 grep 達到 93.1%;但 grep 結果改走程式化檔案交付路徑後,下降到 55.2%,而程式化向量檢索則為 67.2%。1
這不只是檢索結果。這是執行環境結果。
模型不只要找到證據。它還必須理解工具合約、選擇搜尋詞、解讀 stdout、判斷何時重試、在結果不是內嵌時讀取檔案,並把證據整合成答案。每一步都屬於代理執行環境。只要其中任何一環變脆弱,再強的檢索器也可能產出弱答案。
為什麼檔案式交付是在測工具使用?
檔案式交付有明顯吸引力。它可以把大量搜尋結果留在即時逐字稿之外,直到模型要求讀取才載入,藉此降低上下文壓力。當內嵌向量結果大量塞滿視窗時,這本來應該有幫助。
論文呈現了取捨。程式化向量在多個列中勝過程式化 grep,這支持了上下文壓力的論點。1但 Codex/GPT-5.4 那一列也顯示另一面:檔案交付可能把廉價檢索變成多步驟工作流程。代理必須找到產物、開啟它、擷取有用片段,並在第一次讀取不足時重試。1
也就是說,程式化交付是用上下文頻寬交換工具迴圈能力。只有當執行環境能穩定完成這個迴圈,這筆交易才划算。
這對真實工作很重要。本地代理的搜尋失敗,不只因為索引錯了。它也可能失敗於 stdout 切塊不佳、結果檔案路徑太容易漏看、命令回傳過多雜訊、提示把任務框錯,或模型少讀一次就提前停下。
這對 Codex 遷移意味著什麼?
我自己的 Claude Code 到 Codex 遷移,重點一直放在移轉操作合約,而不是複製檔案樹。這篇論文強化了這個選擇。
如果搜尋品質取決於執行環境,那遷移品質就不只是在問「Codex 有沒有搜尋工具?」遷移必須保留那些讓搜尋有用的行為:
- 代理知道何時應先用精確搜尋,再用語意搜尋;
- 命令輸出維持在可閱讀的大小;
- 證據路徑能保留到最終答案;
- 檔案式產物容易定位與檢查;
- 搜尋失敗會觸發更好的查詢,而不是過早回答;
- 公開寫作使用來源驗證,而非看似合理的檢索結果。
這份清單刻意保持公開且通用。它不揭露私有掛鉤、私有提示或本地工作流程內部細節。重點在操作合約:讓代理證明它找到什麼,而不只是對自己做過的搜尋顯得很有信心。
這篇論文也解釋了為什麼遷移在每個明顯功能都存在時,仍可能感覺變差。Claude Code 與 Codex 也許都暴露 shell 工具。兩者也許都能讀檔、都能搜尋。但只要逐字稿格式、檔案結果處理、停止行為或重試模式不同,同一個搜尋基本操作就可能產出不同工作品質。
另外 3 個訊號也指向同一件事
同一批掃描中,2026年5月14日另外 3 篇論文也指向更大的模式:代理品質正在從孤立的模型呼叫,移到執行環境架構。
APWA 把高度平行的代理工作視為分散式執行問題。作者把工作流程拆成互不干擾的子問題,讓獨立資源在不跨通訊的情況下處理,並在先前系統失敗的大型任務上評估擴展能力。2這是執行環境主張,不是提示技巧。
MeMo 把記憶視為獨立模型元件。它固定執行用的 LLM,把新知識編碼到專用記憶模型中,並回報其對檢索雜訊的抗性,以及與開源和閉源 LLM 的隨插即用相容性。3這是記憶架構主張,不是更長上下文主張。
Agentic GraphRAG 來源追溯論文主張,最終引用可能必要但不足。準確答案可能取決於未引用的遍歷脈絡、圖結構,以及造訪過但未引用的實體。4這是來源追溯主張,不是引用格式主張。
把這些放在 grep 論文旁邊,輪廓就浮現了:
| 問題 | 薄弱框架 | 更強框架 |
|---|---|---|
| 搜尋 | 選 grep 或向量 | 同時測試檢索、執行環境與交付路徑 |
| 平行工作 | 產生更多代理 | 拆成互不干擾的執行單元 |
| 記憶 | 塞入更多上下文 | 設計具備更新與檢索行為的記憶層 |
| 引用 | 引用最終來源 | 保留整段檢索軌跡的來源追溯 |
共同主題是:外層框架就是產品。執行環境決定模型能力是否能變成可用工作。
我會如何調整代理技術棧
從乏味但可靠的基準線開始。讓代理能對重要的檔案、記錄、逐字稿或筆記做精確搜尋。先量測這個,再加入語意檢索。
接著測試 4 種組合,而不是 2 種:
| 檢索器 | 交付路徑 |
|---|---|
| grep | 內嵌 |
| grep | 檔案式 |
| 向量 | 內嵌 |
| 向量 | 檔案式 |
記錄每次執行的工具逐字稿。最終答案不夠。您需要知道代理是否搜尋了正確詞彙、開啟了正確檔案、注意到正確片段、在漏失後重試,並引用真正支持答案的證據。
當領域需要改寫語句還原、概念綜合或非字面證據時,再加入向量搜尋。當領域包含姓名、ID、檔名、日期、記錄行、命令輸出、使用者偏好或過去指示時,保留精確搜尋。任務同時混合兩者時,使用混合式路由。
對公開寫作而言,檢索路徑應更嚴格。引用文章應保留來源 URL、主張與來源對齊關係,以及仍未驗證事項的紀錄。如果系統使用圖、記憶層或中間檢索路徑,最終引用不應是唯一痕跡。來源追溯論文是針對 Agentic GraphRAG 提出這點,但產品層教訓更廣:證據應說明路徑,而不只是目的地。4
更好的基準問題
薄弱的基準問題是:
哪一個檢索器比較好?
更強的問題是:
在這個執行環境、這個模型、這個語料庫、這條交付路徑與這套重試政策下,哪一種搜尋行為能產出經驗證的答案?
這個問題回答起來比較慢。它也更有用。
代理工作總是不斷誘惑人們提出元件式主張:更好的模型、更好的檢索器、更好的提示、更好的記憶、更好的平行能力。實務現實卻不斷把方向推回另一邊。只有當執行環境把元件轉成從任務到證據再到行動的可靠路徑後,元件才真正重要。
這才是值得遷移的部分。
FAQ
這篇論文是否證明 grep 勝過向量搜尋?
沒有。作者明確把結果限縮在所研究的長期記憶對話式 QA 設定。他們也指出,在證據很少是字面形式的領域中,密集檢索與混合式路由可能有不同表現,包括科學綜述、重視視覺的文件與程式碼語意。1
為什麼 grep 在實驗中表現這麼好?
LongMemEval 問題經常取決於過去對話中的字面片段:姓名、日期、個人事實與精確陳述。當代理能猜到具辨識度的詞時,grep 會回報高精準度模式。1
為什麼代理框架這麼重要?
執行環境控制提示形狀、工具描述、逐字稿格式、shell 行為、上下文建構、結果交付與停止條件。論文指出,即使底層對話資料相同,Chronos、Claude Code、Codex CLI 與 Gemini CLI 之間仍出現大幅準確率差異。1
Codex 使用者應該怎麼做?
把精確搜尋保留為基準線,檢查工具逐字稿,並在假設某種檢索方法較好之前,先測試內嵌與檔案式交付。論文中的 Codex 列很有參考價值,但它仍只是一種基準設定、一種語料庫類型,而且對供應商整體擴展表現而言仍是不完整圖像。1
這和 RAG 引用有什麼關係?
Agentic GraphRAG 來源追溯論文主張,最終引用可以支持答案,但仍可能省略曾影響答案的檢索脈絡。對代理系統而言,引用品質應包含整條路徑的來源追溯,而不只是最終引用來源清單。4
從 Claude Code 遷移到 Codex 時應保留什麼?
請保留操作行為:代理何時搜尋、如何限制輸出、如何開啟證據、如何重試、如何記錄來源路徑,以及如何拒絕無根據主張。不要因為兩個環境都暴露 shell 與搜尋命令,就假設兩者已經等效。
參考資料
-
Sahil Sen, Akhil Kasturi, Elias Lumer, Anmol Gulati, Vamse Kumar Subbiah, “Is Grep All You Need? How Agent Harnesses Reshape Agentic Search,” arXiv:2605.15184v1,2026年5月14日提交。LongMemEval-S 設定、Chronos/Claude Code/Codex CLI/Gemini CLI 比較、內嵌與程式化交付差異、表 1 準確率數值、實驗 2 上下文擴展討論,以及論文明確限制「此結論不證明 grep 普遍勝過向量搜尋」的主要來源。 ↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩
-
Evan Rose, Tushin Mallick, Matthew D. Laws, Cristina Nita-Rotaru, Alina Oprea, “APWA: A Distributed Architecture for Parallelizable Agentic Workflows,” arXiv:2605.15132v1,2026年5月14日提交。APWA 將可平行化工作流程拆成互不干擾子問題、使用不跨通訊的獨立資源,以及 APWA 能在先前系統失敗的大型任務上擴展之評估主張的來源。 ↩
-
Ryan Wei Heng Quek, Sanghyuk Lee, Alfred Wei Lun Leong, Arun Verma, Alok Prakash, Nancy F. Chen, Bryan Kian Hsiang Low, Daniela Rus, Armando Solar-Lezama, “MeMo: Memory as a Model,” arXiv:2605.15156v1,2026年5月14日提交。專用記憶模型架構、固定執行 LLM、對檢索雜訊的抗性、避免執行模型災難性遺忘、閉源 LLM 相容性,以及 BrowseComp-Plus/NarrativeQA/MuSiQue 評估的來源。 ↩
-
Riccardo Terrenzi, Maximilian von Zastrow, Serkan Ayvaz, “Why Neighborhoods Matter: Traversal Context and Provenance in Agentic GraphRAG,” arXiv:2605.15109v1,2026年5月14日提交。支持「Agentic GraphRAG 中的引用忠實度應視為軌跡層級來源追溯問題,涵蓋圖遍歷、結構、已引用證據,以及造訪過但未引用實體」這項主張的來源。 ↩↩↩↩