清理層才是真正的 AI 代理市場
三天前,Charlie Labs 在 Show HN 上發布了我今年讀過最乾淨俐落的轉型聲明之一:「我們從建構代理轉向清理代理留下的爛攤子。」1 他們的創辦人花了將近兩年打造一個雲端 TypeScript 編碼代理。他關掉了它,因為大量使用代理產生的 PR、漂移、過期相依性,以及未完成的維護工作,遠遠超過團隊能跟上的速度。新產品 Daemons 是一種設定格式,用於定義在 .agents/daemons/<id>/DAEMON.md 檔案中的循環性維護角色,持續分類錯誤、更新文件、監視合併衝突,並審查過期的 PR。2
這個轉型框架才是真正的訊號。不是「我們做了更好的代理」。「代理製造工作。Daemons 維護工作。」2
這句話點出了業界其他人也正在競逐的市場,也解釋了為什麼我自己的生產設定會長成現在這個樣子。真正耐久的 AI 代理市場不是生成工作的那一層,而是證明工作正確、有界限、可逆轉、值得簽名的那一層。 生成正在被模型 API 內部商品化。證明則是耐久的那一層,因為它才是每個有損益表的客戶實際付錢買的東西。
TL;DR
- Charlie Labs 公開地從編碼代理轉型為清理產品,因為代理製造營運債務的速度比償還的速度更快。
- 這個模式並非孤例:InsightFinder 在 4 月 16 日為「AI 代理出錯之處」募得 1500 萬美元,Palo Alto Networks 在 11 月以 33.5 億美元收購 Chronosphere。證明層正在整合。
- 57% 的組織現在在生產環境執行代理;69% 的代理決策仍需要人工驗證。驗證缺口就是市場。
- 我自己的傷疤鉤(scar-hook)數量在 26 天內從 84 增加到 123。沒有任何一個鉤子用於生成;它們全都用來證明。
- 生成是工作的本體。證明是櫃子的背面,而那才是耐久利潤所在之處。
Charlie Labs 所處的模式
Charlie Labs 不是本季唯一悄悄重新分類自己的公司。在 Daemons 公布的同一週:
- InsightFinder 於 4 月 16 日完成 1500 萬美元的 B 輪募資,定位為「AI 代理出錯之處」:異常偵測加上根本原因診斷,以及針對代理驅動事件的自動化修復。3
- Sonarly(YC W26) 推出生產警報分類、RCA(根本原因分析)和修復 PR,建立在 Sentry、Datadog 和 Grafana 之上,讓代理閱讀事件後的殘骸並加以清理。4
- Cekura(YC F24) 為語音和聊天代理進行自動化測試、監控和模擬:把品質保證變成循環性執行階段,而非發布前的里程碑。5
- Langfuse、Arize Phoenix、Braintrust、Datadog LLM Observability 與 Fiddler 都在競爭成為代理執行階段的追蹤與評估平面。678910
- Lakera Guard 與 Fiddler Guardrails 將執行階段控制產品化:阻擋提示注入、偵測工具濫用、執行政策。1112
- Palo Alto Networks 在 11 月以 33.5 億美元收購 Chronosphere,目的是在代理浪潮之前把可觀測性納入安全堆疊。13
上述公司販售的表面各不相同(警報、評估、追蹤、執行階段防護欄、程式碼層級維護),但它們都活在同一個事實的下游:代理的輸出不能光憑它自己一句話就出貨。必須有某個人,或某個其他軟體,確認工作確實照報告所說的方式發生過。那個某人就是證明層,而證明層是代理堆疊裡今日就有營收的部分。
Charlie 的框架是表達這件事最乾淨的方式:代理製造證明義務的速度比製造完成工作的速度更快。證明義務才是客戶付錢購買的單位。製造這個義務的代理愈來愈免費,因為基礎模型實驗室將其補貼為模型的功能。
驗證缺口,以數字呈現
近期一份市場綜合分析與創辦人軼事互相吻合。三個數字承擔了這個論點的大部分重量:
- 57% 的組織 現在在生產環境執行 AI 代理,前一年為 51%。14
- 72% 的企業 AI 專案 涉及多代理架構,2024 年僅為 23%。14
- 69% 的 AI 驅動決策 在實際執行前仍需要人工驗證。32% 的團隊 將品質列為生產部署的首要障礙。14
前兩個數字描述代理部署的表面範圍。第三個數字描述的是吞吐量上限。每天執行 100 個代理決策的客戶,仍然有 69 個要靠人工驗證,因為其下方的工具尚未閉合迴圈。上述證明層清單上的每個產品,都是切入那 69% 的楔子。
把這個缺口翻譯成採購語言,論點不證自明。一位採購預算為 X 美元的買家,可以把錢花在「AI 代理」的生成端(更多代理、更快),或花在證明端(更少誤報、更多自主決策、更少人類介入)。一旦驗證佇列滿了,邊際生成投入的回報會遞減。邊際證明投入則解開佇列上限。預算就會往那邊移動,這就是為什麼 Sonarly、Cekura、InsightFinder、Charlie Labs 和既有的可觀測性巨頭正在把整個房間的氧氣吸光。
我的生產系統就是相同模式的縮小版
從我第一天在生產環境執行代理開始,我就站在這個市場的證明端。我只是當時還沒有一個名字稱呼它。我交付過最接近生成端產物的東西是一份完成報告。清理端的產物則無處不在。
- 123 個鉤子檔案 在硬碟上,3 月 29 日為 84 個,26 天內成長 47%。每個新鉤子都是針對特定生產失敗加上的守衛。
- 88 個技能 在登錄表中,範疇化的任務包,限制代理被允許做的事情。
- 26 個鉤子比對行,跨 15 種生命週期事件類型,位於
~/.claude/settings.json。 - 幻象驗證從 12% 的會話降到不到 2%,在避諱用語鉤子上線之後。16
- 四種命名的「答案形狀」失敗模式:幻象驗證、扭曲的工具場景、跳過的相依性、摘要漂白。16
- 37 天內兩個信任對話繞過 CVE(CVE-2026-33068、CVE-2026-40068)。兩者都需要使用者端稽核,而不只是廠商修補。17
這些鉤子沒有一個在生成工作。它們全都在證明(或拒絕證明)代理生成的工作。傷疤數量會增長,是因為每個新的代理能力都會浮現一種新的方式,讓答案變成一件「從未真正執行過的工具」的戲服。這條成長曲線是市場論點的小規模證明:生成擴大了證明的攻擊面。證明必須複利成長才跟得上。
那就是 Charlie 團隊在 Charlie Labs 撞上的相同形狀。也是可觀測性廠商競相搶占的相同形狀。證明問題不止於完成報告的驗證,還包括憑證外洩、破壞性操作、任務漂移、輸出品質、資源耗盡、跨專案污染,以及信任引導被破壞。1517 每一項都是清理分類學中的一行,而每一行都支撐著一兩家廠商。
反論:清理一直都是市場
對這個論點最強的反駁是「舊酒裝新瓶」。
清理 一直 都是市場。SRE、QA、CI、程式碼審查、安全掃描、可觀測性、相依性機器人、事件回應:這些全都是證明層的學科,合計起來在代理出現之前,就已經佔據每個工程組織預算可觀的比例。代理並未創造這個類別,代理加速了這個類別的數量。
那個反駁在類別上是對的,但在量級上是錯的。當代理進入迴圈時,有三件事情會改變:
- 數量。 一個編碼代理一週會生出幾十個 PR,而不是單一工程師的兩三個。文件漂移得更快。相依性過期得更快。維護佇列以代理速度複利成長,而代理速度比人類主導的清理佇列複利成長更快。1
- 失敗模式。 上述四種「答案形狀」失敗(幻象驗證、扭曲的工具場景、跳過的相依性、摘要漂白)不是現有 CI/QA/可觀測性堆疊被設計來捕捉的錯誤。現有堆疊捕捉的是「測試套件回傳非零」,捕捉不到「代理跳過測試套件並回報成功」。每一種失敗模式都需要一道新的閘門。16
- 逆轉成本。 一位人類提交的壞 PR,可以用一個 commit 還原。一位代理在 30 個 PR 鏈中提交的壞 PR,而其他代理已經在其上構建,則需要一週的鑑識調查。逆轉成本就是讓證明層從「最好有」變成「不可妥協」的那個東西。
類別是舊的。量級是新的。新的量級資助新的廠商。
另一個反論:整合風險
第二強的反駁是整合風險。如果 Anthropic、OpenAI、GitHub 和 Datadog 把證明層原生吸收進它們的平台,每個獨立的清理新創都會被擠壓。這有真實的先例:Datadog 吸收了 APM 新創,GitHub 吸收了 Dependabot,Anthropic 在 Claude Code 內原生提供鉤子骨架。
整合論點是真實的,但比看起來更小,因為證明層有結構性的理由活在模型之外。
最重要的理由是 Repo 不該為自己的可信度投票 點出的:被評估的產物不應該幫忙做出信任決策。17 一個對自己的輸出評分的模型,就是「內部稽核員」問題。購買合規等級驗證的客戶不會接受模型廠商作為最後關卡的驗證者。這個結構性論點為每個受監管垂直市場至少創造一個獨立證明層廠商的空間,無論平台多麼積極。
第二個理由是異質性。代理堆疊結合了 OpenAI、Anthropic、自有模型、第三方工具、向量資料庫和客製化技能。證明層必須跨越所有這些。原生於平台的清理工具只覆蓋自己的表面;跨平台的證明工具則覆蓋所有人。後者才是企業採購實際需要的。
第三個理由是速度差異。模型實驗室出貨功能。證明層出貨「已預防的事件」。不同的節奏、不同的失敗模式、不同的團隊。整合壓力存在,但獨立證明層廠商的表面範圍夠大,使得其中兩三家無論平台做什麼,都會成為可觀的事業。
哲學編織:Jiro、Steve、MWP
證明層論點不只是市場觀察,它乾淨地對應到我反覆回到的三段哲學。
Jiro 品質哲學 點出閘門:品質宣告需要證據,不是感覺。18 證明層就是公司規模上的閘門。每一個 Sonarly RCA、每一條 Langfuse 追蹤、每一個 Charlie Labs daemon、我每一個傷疤鉤,都是相同形狀:證據先行,判決其次。把判決黏在未經驗證的證據上的工具,在造成公開事件的那一刻就會被拆解。
The Steve Test 是高一階的閘門:Blake 願意在這上面簽名嗎?19 在工程組織規模上,這個問題變成:團隊願意在代理的輸出上簽名嗎?那個簽名需要稽核軌跡,而不是氛圍。證明層就是產出稽核軌跡的東西。沒有它就出貨的公司,等於針對未來的事件簽下空白支票,而那些事件的事後檢討會把證明層缺口列為根本原因。
Minimum Worthy Product 收尾這個框架。20 Minimum 是範疇限制。Worthy 是品質標準。一個 minimum 代理產品是個生成器。一個 minimum worthy 代理產品是生成器,加上讓其輸出可被簽名的證明層。為了更快出貨而砍掉證明層的公司,是把 worthy 從 MWP 中砍掉。市場正在即時地修正它們,這就是為什麼 Charlie Labs 轉型、為什麼 InsightFinder 募資、為什麼 Palo Alto Networks 為可觀測性付了 33.5 億美元、為什麼我的鉤子數量持續複利。
來自 我隨身帶著的工作檯 的櫃子比喻可以直接延伸到這個市場。21 櫃子的背面是好日子裡客戶從不會看見的部分。它也是當有人在沒人盯著的地方偷工減料時,公開失敗的那個部分。證明層就是櫃子的背面。櫃子背面完成了的公司,才會贏。
這對營運者意味著什麼
三個實務上的解讀,依影響力排序。
先選證明層楔子,再選生成層代理。 大多數團隊從代理開始,之後才加上可觀測性。把順序反過來。先選閘門(離開碼、結構描述驗證、檔案讀取稽核、漂移偵測),把它們連成單向相依,然後才加上其輸出流經這些閘門的代理。繞過你閘門的生成是負債,不是生產力。1622
把傷疤鉤數量當作領先指標。 如果你正在執行代理而清理數量沒有成長,那你就什麼都沒抓到。成長率是稽核訊號。我 26 天內的 47% 不是炫耀;那是一個量測,代表協調器正在遭遇新的失敗模式並加以記錄。傷疤數平平加上代理活動高漲,就是危險區。
買或建置跨平台的證明層。 當你評估證明層廠商時,正確的問題不是「這個能跟我們的模型搭配嗎」,而是「這個能跨越我們未來十八個月會採用的每一個模型和工具堆疊嗎」。單一平台的證明工具是錯的形狀。會贏的類別是跨平台的。
我希望創辦人接著建造的東西
證明層市場夠豐富,可以支撐還沒有人填補的特化垂直領域。我願意付錢購買:
- 以可逆性為先的部署工具,在合併之前,根據變更可被多便宜地還原來為每一個代理產生的 PR 評分。高成本的逆轉會被擋下或路由給人類。
- 具分類學意識的漂移偵測器,把每個傷疤鉤類別對應到特定的測試模式,並在某個類別沉默太久時發出警報。沉默的類別才是危險的。
- 可供監管使用的稽核軌跡產品,接收任何代理堆疊,產出 SOC 2 等級的紀錄,涵蓋每一次工具呼叫、每一次簽名、每一次拒絕。受監管的垂直市場會在購買更多代理之前先買這個。
如果你正在打造上述任何一項,你就是在證明層內部建造。市場正在朝你移動,而不是離開。
清理層才是真正的 AI 代理市場,因為生成正在模型 API 內部變成商品,而證明正在變成定價的資產。Charlie Labs 把它說得最乾淨。獲得資金的公司正競相投入。生成擴大攻擊面。證明是櫃子的背面。櫃子背面完成了的公司,才會贏。
FAQ
「在代理之後清理」真的算是新的市場類別嗎?
類別是舊的。清理橫跨 SRE、QA、CI、程式碼審查、可觀測性、安全掃描和事件回應。新的是數量和失敗模式。編碼代理每個席位每週產出幾十個 PR。多代理架構讓這個數字加倍。Reward the Tool Before the Answer 中命名的四種「答案形狀」失敗模式,不是現有 CI 堆疊被設計來捕捉的。類別是舊的;量級才是資助新廠商的東西。
為什麼 Anthropic、OpenAI 或 GitHub 不會吸收證明層?
三個結構性理由。第一,被評估的產物不該幫忙做出信任決策;模型實驗室為自己的輸出評分,就是內部稽核員問題。第二,真實的代理堆疊結合多個模型、多個工具和客製化技能,所以證明層必須跨越所有這些。第三,模型實驗室以一種節奏出貨功能;證明層以另一種節奏出貨「已預防的事件」。整合壓力是真實的,但比看起來更小。
哪些傷疤鉤模式可以推廣到個人協調器之外?
四個核心閘門:在完成報告上偵測避諱用語、在工具呼叫上檢查離開碼、把報告與工具日誌比對的檔案讀取稽核,以及偵測原始任務與摘要之間的敘事漂移。每一個都是單向閘門:缺失的工具證據會擋下答案的評分。同樣的形狀在生產可觀測性堆疊中也可運作;只是在不同的基底上執行。
驗證缺口(69% 的代理決策需要人工審查)如何閉合?
它透過自動化目前由人類肉眼執行的閘門來閉合。離開碼檢查、結構描述驗證器、檔案讀取稽核、漂移偵測和執行階段防護欄,都是廉價、確定性的監督範例,把工作移出人類佇列。69% 是其下證明工具的函數,不是代理的固定屬性。每出貨一道閘門,百分比就會縮小。
參考資料
-
「Show HN: Daemons – we pivoted from building agents to cleaning up after them」,Hacker News 討論串,2026 年 4 月 22 日。 ↩↩
-
Charlie Labs,ai-daemons.com 與 Charlie Daemons 文件。Daemons 定義於
.agents/daemons/<id>/DAEMON.md,使用watch、schedule、routines和deny等鍵。 ↩↩ -
Marina Temkin,「InsightFinder raises $15M to help companies figure out where AI agents go wrong」,TechCrunch,2026 年 4 月 16 日。 ↩
-
Sonarly,Show HN。在 Sentry、Datadog 和 Grafana 上的生產警報分類、RCA 和修復 PR。 ↩
-
Langfuse,Langfuse 文件。LLM 應用程式的追蹤與評估。 ↩
-
Arize,Phoenix 文件。開源的 LLM 追蹤與可觀測性。 ↩
-
Braintrust,Braintrust 代理文件。代理堆疊的評估優先可觀測性。 ↩
-
Datadog,LLM Observability 文件。Datadog 平台內部的 LLM 與代理監控。 ↩
-
Fiddler AI,Fiddler Guardrails 文件。執行階段的 LLM 可觀測性與防護欄。 ↩
-
Lakera,Lakera Guard 文件。針對提示注入、工具濫用和資料外洩的即時控制平面。 ↩
-
Fiddler AI,Fiddler Guardrails。LLM 應用程式的政策執行。 ↩
-
Palo Alto Networks,「Palo Alto Networks to Acquire Chronosphere」,Palo Alto Networks 新聞稿,2025 年 11 月。33.5 億美元交易。 ↩
-
Deepak Gupta,「AI Agent Observability, Evaluation, Governance: The 2026 Market Reality Check」,guptadeepak.com,2026 年。57% 生產部署、72% 多代理(2024 年為 23%)、69% 需要人工驗證。 ↩↩↩
-
作者於 Every Hook Is a Scar 中的分析,2026 年 3 月 29 日。發布時鉤子數量:84 個。2026 年 4 月 24 日:硬碟上有 123 個鉤子檔案、88 個技能項目、跨 15 種生命週期事件類型的 26 個鉤子比對行。 ↩↩
-
作者於 Reward the Tool Before the Answer 中的分析,2026 年 4 月 24 日。四種答案形狀失敗模式;在避諱用語鉤子之後,幻象驗證率從 12% 降至不到 2%。 ↩↩↩↩
-
作者於 The Repo Shouldn’t Get to Vote on Its Own Trust 中的分析,2026 年 4 月 24 日。CVE-2026-33068 和 CVE-2026-40068 信任對話繞過公告。 ↩↩↩
-
作者於 The Jiro Quality Philosophy 中的分析。證據閘門:品質宣告需要證據,不是感覺。 ↩
-
作者於 The Steve Test 中的分析。「我願意在這上面簽名嗎?」作為 Jiro 證據閘門之上的品味閘門。 ↩
-
作者於 Minimum Worthy Product 中的分析。Minimum 作為範疇限制,worthy 作為品質標準。 ↩
-
作者於 The Workbench I Carry 中的分析。Steve Jobs 的五項原則對應到 AI 協調器,包括在每一個縮放層級上的關注。 ↩
-
Anthropic,「Hooks reference」,code.claude.com 文件。生命週期鉤子分類學與分派。 ↩