清理层才是真正的AI智能体市场
三天前,Charlie Labs发布了一则Show HN,其中包含我今年读到过的最干净利落的转型声明之一:“我们从构建智能体转向清理它们留下的烂摊子。”1他们的创始人花了将近两年时间构建一个云端TypeScript编程智能体。他关停了这个项目,因为高强度的智能体使用产生了比团队所能跟进的更多PR、更多偏离、更多陈旧依赖,以及更多半成品的维护工作。新产品Daemons是一种用于定义在.agents/daemons/<id>/DAEMON.md文件中的循环维护角色的配置格式,可持续地分类bug、更新文档、监视合并冲突,并审查陈旧的PR。2
这种转型框架才是真正的信号。不是”我们构建了更好的智能体”。“智能体创造工作。Daemons维护工作。”2
这句话点出了整个行业其他玩家也在争相进入的市场,也解释了为什么我自己的生产环境配置呈现出如今的样子。持久的AI智能体市场不是生成工作的那一层。而是证明工作正确、有边界、可逆且值得签名的那一层。生成正在模型API内部被商品化。证明才是持久的层级,因为它正是每一个有损益表的客户实际买单的对象。
TL;DR
- Charlie Labs公开从编程智能体转向清理产品,因为智能体产生运营债务的速度快于偿还的速度。
- 这种模式并非孤例:InsightFinder于4月16日为”AI智能体出错的地方”融资1500万美元,Palo Alto Networks于11月以33.5亿美元收购Chronosphere。证明层正在整合。
- 57%的组织现在在生产环境中运行智能体;69%的智能体决策仍需人工验证。验证缺口就是市场。
- 我自己的伤痕钩子数量在26天内从84增长到123。这些钩子没有一个负责生成;它们全部负责证明。
- 生成是工作的主体。证明是橱柜的背面,而那才是持久利润所在的位置。
Charlie Labs所处的模式
Charlie Labs不是本季度悄然重新分类自己的唯一一家公司。在Daemons发布的同一周:
- InsightFinder于4月16日完成1500万美元的B轮融资,专门定位为”AI智能体出错的地方”:针对智能体驱动事件的异常检测加根本原因诊断加自动化修复。3
- Sonarly(YC W26)正在交付建立在Sentry、Datadog和Grafana之上的生产告警分类、RCA和修复PR——这些智能体读取事后的残骸并加以清理。4
- Cekura(YC F24)为语音和聊天智能体提供自动化测试、监控和模拟:质量保证作为循环运行时,而非发布前的里程碑。5
- Langfuse、Arize Phoenix、Braintrust、Datadog LLM Observability和Fiddler都在争相成为智能体运行时的追踪与评估平面。678910
- Lakera Guard和Fiddler Guardrails正在将运行时控制产品化:提示注入拦截、工具滥用检测、策略执行。1112
- Palo Alto Networks于11月以33.5亿美元收购Chronosphere,以便在智能体浪潮到来之前将可观测性纳入安全栈。13
上述公司销售不同的表面(告警、评估、追踪、运行时护栏、代码级维护),但它们全部位于一个事实的下游:智能体的输出不能仅凭其一面之词就被交付。必须由某个人,或某个其他软件,确认工作是按报告所声称的方式发生的。那个”某个人”就是证明层,而证明层是当今智能体堆栈中已经具有营收的部分。
Charlie的框架是最清晰的表述:智能体产生证明义务的速度快于产生完成工作的速度。证明义务才是客户付费的单位。生成它的智能体正变得越来越免费,因为基础模型实验室将其作为模型的一项功能进行补贴。
数字中的验证缺口
最近的一份市场综述与创始人的轶事相吻合。这一论点中起决定性作用的有三个数字:
- 57%的组织现在在生产环境中运行AI智能体,高于上一年的51%。14
- 72%的企业AI项目涉及多智能体架构,高于2024年的23%。14
- 69%的AI驱动决策在执行前仍需人工验证。32%的团队将质量列为生产部署的首要障碍。14
前两个数字描述了智能体部署的表面积。第三个数字描述的是吞吐量上限。每天运行100个智能体决策的客户仍在手动进行69次验证,因为底层工具尚未闭合循环。上述证明层列表中的每一个产品都是切入这69%的楔子。
把这一缺口翻译成采购语言,论点便不言自明。一个为”AI智能体”准备了X美元预算的买家,可以将其花在生成上(更多智能体、更快速度),或者花在证明上(更少误报、更多自主决策、更少人工介入)。一旦验证队列已满,边际生成支出的回报就会递减。边际证明支出则解除了队列的上限。预算就向那里转移,这就是为什么Sonarly、Cekura、InsightFinder、Charlie Labs和可观测性领域的现有玩家正在抽干房间里的空气。
我的生产系统是同样的模式,只是规模更小
从我在生产环境中运行智能体的第一天起,我就一直站在这个市场的证明侧。我只是当时还没有为它命名。我交付的最接近生成侧产物的东西是一份完成报告。清理侧的产物则无处不在。
- 磁盘上有123个钩子文件,高于3月29日的84个,26天内增长47%。每个新钩子都是为响应特定生产故障而添加的守卫。
- 注册表中有88个技能,这些是限定智能体可执行操作的范围化任务包。
- 在
~/.claude/settings.json中有26个钩子匹配行,跨越15种生命周期事件类型。 - 在模糊语言钩子上线后,幻影验证从12%的会话降至不到2%。16
- 四种命名的”答案外形”故障模式:幻影验证、畸形工具布景、跳过依赖、摘要洗白。16
- 37天内两次信任对话框绕过CVE(CVE-2026-33068、CVE-2026-40068)。两者都需要用户侧审计,而非仅靠厂商打补丁。17
这些钩子没有一个生成工作。它们全部证明(或拒绝证明)智能体所生成的工作。伤痕数量增长是因为每一项新的智能体能力都暴露出一种新的方式——让一个答案成为一个从未运行过的工具的戏服。增长曲线是市场论点的小规模证明:生成扩大了证明的攻击面。证明必须复合增长才能跟得上。
这正是Charlie的团队在Charlie Labs遇到的同样形态。也是可观测性厂商正在争相捕捉的同样形态。证明问题不止于完成报告验证。它包括凭证泄露、破坏性操作、任务偏移、输出质量、资源耗尽、跨项目污染和信任引导妥协。1517每一项都是清理分类法中独立的一行,而每一行都支撑着一两家厂商。
反方:清理一直是市场
针对这一论点最有力的反对意见是”新瓶装旧酒”。
清理一直是市场。SRE、QA、CI、代码审查、安全扫描、可观测性、依赖项机器人、事件响应:这些都是证明层的学科,在智能体出现之前很久,它们加在一起就已占据了每个工程组织支出的相当一部分。智能体并未创造这一类别。智能体加速了体量。
这一反驳在类别上是正确的,在量级上是错误的。当智能体进入这一循环时,有三件事发生了变化:
- 体量。编程智能体每周生成数十个PR,而不是单个工程师的两到三个。文档偏离更快。依赖项更快变得陈旧。维护队列以智能体的速度复合,这比人类主导的清理队列复合速度更快。1
- 故障模式。上文命名的四种答案外形故障(幻影验证、畸形工具布景、跳过依赖、摘要洗白)不是现有CI/QA/可观测性堆栈所设计的捕获目标。现有堆栈捕获的是”测试套件返回非零”。它捕获不到”智能体跳过测试套件并报告成功”。每一种故障模式都需要新的关卡。16
- 回滚成本。人类提交的糟糕PR用一次提交就能回滚。智能体提交的糟糕PR,如果其他智能体已经在30个PR的链条之上构建,就需要一周的取证。回滚成本正是让证明层从”锦上添花”变为”不可或缺”的原因。
类别是旧的。量级是新的。新的量级资助新的厂商。
另一个反方:整合风险
第二有力的反对意见是整合风险。如果Anthropic、OpenAI、GitHub和Datadog将证明层原生吸收进各自的平台,每一个独立的清理初创公司都会被挤压。确实有先例:Datadog吸收了APM初创公司,GitHub吸收了Dependabot,Anthropic在Claude Code内部原生附带了钩子脚手架。
整合论点是真实的,但比看起来要小,因为证明层有结构性的理由存在于模型之外。
最重要的理由是代码库不应有权决定自身的可信度所点出的那个:被评估的产物不能参与做出信任决策。17为自己的输出打分的模型就是内部审计员问题。购买合规级验证的客户不会接受模型厂商作为最后的验证者。这一结构性论点为每一个受监管的垂直领域至少留出了一个独立证明层厂商的空间,无论平台多么咄咄逼人。
第二个理由是异质性。智能体堆栈结合了OpenAI、Anthropic、自研模型、第三方工具、向量数据库和定制技能。证明层必须横跨所有这些。平台原生的清理工具只覆盖自家的表面;跨平台的证明工具则覆盖所有人的。后者才是企业采购真正需要的。
第三个理由是速度差。模型实验室交付的是功能。证明层交付的是”已预防的事件”。不同的节奏、不同的故障模式、不同的团队。整合压力存在,但独立证明层厂商的表面积已经足够大,无论平台如何,其中两到三家都会成为可观的业务。
哲学编织:Jiro、Steve、MWP
证明层论点不仅仅是市场判断。它干净地映射到我反复回归的三块哲学之上。
Jiro质量哲学定义了关卡:质量主张需要证据,而非感受。18证明层就是公司级规模上的关卡。每一份Sonarly的RCA、每一条Langfuse追踪、每一个Charlie Labs的daemon、每一个我的伤痕钩子都是同样的形态:证据在先,判决在后。把判决直接堆在未经验证的证据之上的工具,在引发公开事件的那一刻就会被解构。
Steve测试是更高一层的关卡:Blake愿意把自己的名字签在这上面吗?19在工程组织的尺度上,问题变成:团队愿意把自己的名字签在智能体的输出上吗?这种签名需要审计轨迹,而不是氛围。证明层正是产生审计轨迹的部分。在没有它的情况下交付的公司是在为未来的事件签下空白支票,而那些事件的事后分析将把证明层缺口列为根本原因。
最低可敬产品收尾整个框架。20最低是范围约束。可敬是质量门槛。最低智能体产品是一个生成器。最低的可敬智能体产品是一个生成器加上让其输出可签名的证明层。为更快交付而砍掉证明层的公司,正在把”可敬”从MWP中砍掉。市场正在实时纠正它们,这就是为什么Charlie Labs转型,为什么InsightFinder融资,为什么Palo Alto Networks为可观测性支付33.5亿美元,以及为什么我的钩子数量在复合增长。
来自我所携带的工作台的橱柜隐喻直接延伸到这个市场之中。21橱柜的背面是客户在好日子里永远看不到的部分。它也是有人在无人监视的地方偷工减料时会公开失败的部分。证明层就是橱柜的背面。橱柜背面做完整的公司胜出。
这对运营者意味着什么改变
三个实用的解读,按影响力排序。
在选定生成层智能体之前,先选定证明层楔子。大多数团队从智能体开始,事后再添加可观测性。把顺序颠倒过来。先选定关卡(退出码、模式校验、文件读取审计、偏移检测),把它们布线为单向依赖,然后才接入输出会流经它们的智能体。绕过你关卡的生成是负债,而非生产力。1622
把伤痕钩子数量当作领先指标。如果你正在运行智能体,但清理数量没有增长,你就什么都没捕捉到。增长率就是审计信号。我26天内47%的增长不是炫耀;它是一个度量,表明编排器正在遭遇新的故障模式并将其记录下来。伤痕数量持平加上高智能体活跃度就是危险区。
跨平台地购买或构建证明层。当你评估证明层厂商时,正确的问题不是”这与我们的模型兼容吗”,而是”这能否兼容我们未来十八个月内将采用的每一个模型和工具堆栈”。单平台的证明工具形态错误。胜出的类别是跨平台。
我希望创始人接下来构建什么
证明层市场足够丰富,可以支撑起尚无人填补的专业垂直领域。我愿意为以下产品付费:
- 一款回滚优先的部署工具,在合并之前根据每个智能体生成的PR的变更回滚成本对其进行评分。高成本回滚的PR会被拦截或路由给人类。
- 一款分类法感知的偏移检测器,把每个伤痕钩子类别映射到具体的测试模式,并在某一类别长时间静默时发出告警。静默的类别就是危险的。
- 一款监管就绪的审计轨迹产品,接收任意智能体堆栈,并产出每次工具调用、每次签名、每次拒绝的SOC 2级别的记录。受监管的垂直领域会先购买它,然后才会购买更多智能体。
如果你正在构建上述任何一种,你就是在证明层之中构建。市场正向你而来,而非远离。
清理层才是真正的AI智能体市场,因为生成正在模型API内部成为商品,而证明正在成为被定价的资产。Charlie Labs把它说得最干净。已获融资的公司正在争相进入。生成扩大了攻击面。证明是橱柜的背面。橱柜背面做完整的公司胜出。
FAQ
“智能体之后的清理”真的是一个新的市场类别吗?
类别是旧的。清理跨越SRE、QA、CI、代码审查、可观测性、安全扫描和事件响应。新的是体量和故障模式。编程智能体每席每周产生数十个PR。多智能体架构使这一数字成倍增长。在答案之前奖励工具中命名的四种答案外形故障模式不是现有CI堆栈所设计的捕获目标。类别是旧的;但量级才是资助新厂商的因素。
为什么Anthropic、OpenAI或GitHub不会吸收证明层?
三个结构性原因。第一,被评估的产物不能参与做出信任决策;模型实验室为自己的输出打分就是内部审计员问题。第二,真实的智能体堆栈结合了多个模型、多个工具和定制技能,因此证明层必须横跨所有这些。第三,模型实验室以一种节奏交付功能;证明层以另一种节奏交付”已预防的事件”。整合压力是真实的,但比看起来要小。
哪些伤痕钩子模式可以推广到个人编排器之外?
四个核心关卡:对完成报告的模糊语言检测、对工具调用的退出码检查、用工具日志比对报告的文件读取审计,以及原始任务与摘要之间的叙述偏移检测。每一个都是单向关卡:缺失的工具证据会拦截答案的得分。同样的形态在生产可观测性堆栈中也成立;只是运行在不同的底层上。
验证缺口(69%的智能体决策需要人工审查)如何收窄?
它通过自动化人类目前用肉眼运行的关卡来收窄。退出码检查、模式校验器、文件读取审计、偏移检测和运行时护栏都是廉价的确定性监督的例子,它们把工作移出人工队列。69%是其下证明工具的函数,而非智能体的固定属性。每一个上线的关卡都会缩小这一百分比。
参考文献
-
“Show HN: Daemons – we pivoted from building agents to cleaning up after them,” Hacker News thread, April 22, 2026. ↩↩
-
Charlie Labs, ai-daemons.com and Charlie Daemons documentation. Daemons defined in
.agents/daemons/<id>/DAEMON.mdwithwatch,schedule,routines, anddenykeys. ↩↩ -
Marina Temkin, “InsightFinder raises $15M to help companies figure out where AI agents go wrong,” TechCrunch, April 16, 2026. ↩
-
Sonarly, Show HN. Production alert triage, RCA, and fix PRs on Sentry, Datadog, and Grafana. ↩
-
Cekura, Show HN. Automated testing, monitoring, and simulation for voice and chat agents. ↩
-
Langfuse, Langfuse documentation. Tracing and evaluation for LLM applications. ↩
-
Arize, Phoenix documentation. Open-source LLM tracing and observability. ↩
-
Braintrust, Braintrust agents documentation. Evaluation-first observability for agent stacks. ↩
-
Datadog, LLM Observability documentation. LLM and agent monitoring inside the Datadog platform. ↩
-
Fiddler AI, Fiddler Guardrails documentation. Runtime LLM observability and guardrails. ↩
-
Lakera, Lakera Guard documentation. Real-time control plane for prompt injection, tool abuse, and data exfiltration. ↩
-
Fiddler AI, Fiddler Guardrails. Policy enforcement for LLM applications. ↩
-
Palo Alto Networks, “Palo Alto Networks to Acquire Chronosphere,” Palo Alto Networks press release, November 2025. $3.35 billion deal. ↩
-
Deepak Gupta, “AI Agent Observability, Evaluation, Governance: The 2026 Market Reality Check,” guptadeepak.com, 2026. 57% production deployment, 72% multi-agent (vs 23% in 2024), 69% require human verification. ↩↩↩
-
Author’s analysis in Every Hook Is a Scar, March 29, 2026. Hook count at publication: 84. On 2026-04-24: 123 hook files on disk, 88 skill entries, 26 hook matcher rows across 15 lifecycle event types. ↩↩
-
Author’s analysis in Reward the Tool Before the Answer, April 24, 2026. Four answer-shaped failure modes; phantom-verification rate dropped from 12% to under 2% after the hedging-language hook. ↩↩↩↩
-
Author’s analysis in The Repo Shouldn’t Get to Vote on Its Own Trust, April 24, 2026. CVE-2026-33068 and CVE-2026-40068 trust-dialog bypass advisories. ↩↩↩
-
Author’s analysis in The Jiro Quality Philosophy. Evidence gate: quality claims require evidence, not feelings. ↩
-
Author’s analysis in The Steve Test. “Would I sign my name to this?” as the taste gate above Jiro’s evidence gate. ↩
-
Author’s analysis in Minimum Worthy Product. Minimum as scope constraint, worthy as quality bar. ↩
-
Author’s analysis in The Workbench I Carry. Steve Jobs’s five principles mapped onto the AI orchestrator, including care at every zoom level. ↩
-
Anthropic, “Hooks reference,” code.claude.com docs. Lifecycle hook taxonomy and dispatch. ↩