클린업 레이어가 진짜 AI 에이전트 시장이다

3일 전 Charlie Labs는 올해 제가 읽은 가장 깔끔한 피벗 선언 중 하나와 함께 Show HN을 공개했습니다. “우리는 에이전트를 만드는 일에서 그 뒷정리를 하는 일로 피벗했습니다.”¹ 그 창업자는 거의 2년 가까이 클라우드 TypeScript 코딩 에이전트를 만드는 데 시간을 보냈습니다. 그는 에이전트를 무겁게 사용한 결과 PR이 더 많아지고, 드리프트가 더 많아지고, 오래된 의존성이 더 많아지고, 미완성 유지보수 작업이 팀이 따라잡을 수 없을 정도로 늘어나는 것을 보고 그 프로젝트를 종료했습니다. 새 제품 Daemons는 .agents/daemons/<id>/DAEMON.md 파일에 정의되는 반복 유지보수 역할을 위한 설정 포맷이며, 버그를 분류하고, 문서를 갱신하고, 머지 충돌을 감시하고, 오래된 PR을 지속적으로 리뷰합니다.²

이 피벗의 프레이밍이야말로 진짜 신호입니다. “더 좋은 에이전트를 만들었다”가 아닙니다. “에이전트는 일을 만들어냅니다. Daemons는 그 일을 유지합니다.”²

이 한 문장은 업계 전체가 함께 달려가고 있는 시장의 이름을 정확히 짚어내며, 제가 운영하는 프로덕션 환경이 왜 지금과 같은 모습인지 설명해 줍니다. 지속 가능한 AI 에이전트 시장은 일을 생성하는 레이어가 아닙니다. 그 일이 정확하고, 경계가 분명하고, 되돌릴 수 있고, 자기 이름으로 서명할 만한지 증명하는 레이어입니다. 생성은 모델 API 안에서 점점 상품화되고 있습니다. 증명은 지속 가능한 레이어인데, 이는 P&L을 책임지는 모든 고객이 실제로 돈을 지불하는 대상이기 때문입니다.

TL;DR

Charlie Labs는 에이전트가 운영 부채를 갚는 속도보다 더 빨리 만들어내기 때문에 코딩 에이전트에서 클린업 제품으로 공개적으로 피벗했습니다.
이 패턴은 단발적이지 않습니다. InsightFinder는 4월 16일 “AI 에이전트가 잘못되는 지점”을 위한 1,500만 달러 투자를 유치했고, Palo Alto Networks는 11월 Chronosphere를 33억 5천만 달러에 인수했습니다. 증명 레이어가 통합되고 있습니다.
현재 조직의 57%가 프로덕션에서 에이전트를 운영하고 있으며, 에이전트 결정의 69%는 여전히 사람의 검증을 필요로 합니다. 검증 격차가 곧 시장입니다.
제 자신의 스카 후크 수는 26일 만에 84개에서 123개로 늘었습니다. 그중 어느 것도 생성하지 않습니다. 모두가 증명합니다.
생성은 작품의 본체입니다. 증명은 캐비닛의 뒷면이며, 지속 가능한 마진은 바로 거기에 살고 있습니다.

Charlie Labs가 들어가 있는 패턴

Charlie Labs는 이번 분기에 조용히 자기 카테고리를 재정의하고 있는 유일한 회사가 아닙니다. Daemons 발표와 같은 주에:

InsightFinder는 4월 16일 시리즈 B로 1,500만 달러를 유치했으며, “AI 에이전트가 잘못되는 지점”을 명시적으로 표적으로 삼았습니다. 이상 탐지, 근본 원인 진단, 그리고 에이전트 주도 사고에 대한 자동화된 복구를 결합한 제품입니다.³
Sonarly (YC W26)는 Sentry, Datadog, Grafana 위에 얹히는 프로덕션 알림 분류, RCA, 수정 PR을 출시하고 있습니다. 사후 사고 잔해를 읽고 정리하는 에이전트입니다.⁴
Cekura (YC F24)는 음성 및 채팅 에이전트를 위한 자동화된 테스트, 모니터링, 시뮬레이션을 만들고 있습니다. 출시 전 마일스톤이 아니라, 지속적인 런타임으로서의 품질 보증입니다.⁵
Langfuse, Arize Phoenix, Braintrust, Datadog LLM Observability, Fiddler는 모두 에이전트 런타임을 위한 트레이싱 및 평가 평면이 되기 위해 경쟁하고 있습니다.⁶⁷⁸⁹¹⁰
Lakera Guard와 Fiddler Guardrails는 런타임 제어를 제품화하고 있습니다. 프롬프트 인젝션 차단, 도구 오용 탐지, 정책 집행입니다.¹¹¹²
Palo Alto Networks는 11월 33억 5천만 달러를 들여 Chronosphere를 인수하여 에이전트 물결에 앞서 보안 스택에 옵저버빌리티를 들여놓았습니다.¹³

위 회사들은 서로 다른 표면(알림, 평가, 트레이싱, 런타임 가드레일, 코드 수준 유지보수)을 판매하지만, 모두가 한 가지 사실의 하류에 살고 있습니다. 에이전트의 출력은 그 자신의 말만으로는 출하될 수 없다는 사실입니다. 누군가가, 또는 다른 어떤 소프트웨어가, 그 보고서가 주장하는 대로 작업이 일어났는지 확인해야 합니다. 그 누군가가 바로 증명 레이어이고, 증명 레이어는 오늘날 매출이 발생하는 에이전트 스택의 한 부분입니다.

Charlie의 프레이밍이 이를 가장 깔끔하게 표현합니다. 에이전트는 완성된 작업보다 더 빠르게 증명 의무를 만들어냅니다. 증명 의무야말로 고객이 돈을 지불하는 단위입니다. 그것을 만들어내는 에이전트는 점점 무료에 가까워지는데, 파운데이션 랩들이 이를 모델의 한 기능으로서 보조하고 있기 때문입니다.

검증 격차, 숫자로 보기

최근의 한 시장 정리는 창업자들의 일화와 일치합니다. 이 논지에서 가장 큰 무게를 지는 세 가지 숫자가 있습니다.

조직의 57%가 현재 프로덕션에서 AI 에이전트를 운영하고 있으며, 이는 전년의 51%에서 늘어난 수치입니다.¹⁴
엔터프라이즈 AI 프로젝트의 72%가 멀티 에이전트 아키텍처를 포함하고 있으며, 이는 2024년 23%에서 늘어난 수치입니다.¹⁴
AI 기반 결정의 69%는 실행되기 전에 여전히 사람의 검증을 필요로 합니다. 팀의 32%는 프로덕션 배포의 가장 큰 장벽으로 품질을 꼽습니다.¹⁴

앞의 두 숫자는 에이전트 배포의 표면적을 묘사합니다. 세 번째 숫자는 처리량의 상한선을 묘사합니다. 하루에 100개의 에이전트 결정을 운영하는 고객은 여전히 그중 69개를 손으로 검증하고 있는데, 그 밑의 도구가 루프를 닫지 못했기 때문입니다. 위에 나열한 증명 레이어 제품들은 모두 그 69%를 향해 박힌 쐐기입니다.

이 격차를 구매 부서의 언어로 옮겨 보면 논지는 스스로 써집니다. “AI 에이전트”에 X 달러의 예산을 가진 구매자는 그 돈을 생성(더 많은 에이전트, 더 빠른 에이전트)에 쓸 수도 있고 증명(더 적은 거짓 양성, 더 많은 자율 결정, 더 적은 휴먼 인 더 루프)에 쓸 수도 있습니다. 검증 큐가 가득 차고 나면 한계 생성 달러는 수확 체감을 가져옵니다. 한계 증명 달러는 그 큐의 상한을 풀어 줍니다. 예산은 그쪽으로 이동하며, 이것이 Sonarly, Cekura, InsightFinder, Charlie Labs, 그리고 옵저버빌리티 기존 강자들이 방 안의 공기를 빨아들이고 있는 이유입니다.

제 프로덕션 시스템도 같은 패턴, 더 작은 규모일 뿐

저는 에이전트를 프로덕션에서 처음 운영한 날부터 이 시장의 증명 쪽에 있었습니다. 단지 이름을 붙이지 못했을 뿐이었습니다. 제가 출하하는 생성 측 산출물에 가장 가까운 것은 단 하나의 완료 리포트입니다. 클린업 측 산출물은 도처에 있습니다.

2026년 4월 24일 기준 제 스카 후크 오케스트레이터의 스냅샷입니다.¹⁵

디스크상의 123개 후크 파일, 3월 29일 84개에서 26일 만에 47% 증가. 새 후크 하나하나는 특정 프로덕션 실패에 대한 응답으로 추가된 가드입니다.
레지스트리의 88개 스킬, 에이전트가 허용되는 작업을 제한하는 범위가 정해진 작업 팩입니다.
~/.claude/settings.json에 있는 15개의 라이프사이클 이벤트 타입에 걸친 26개의 후크 매처 행.
헤징 언어 후크가 출시된 후 팬텀 검증이 세션의 12%에서 2% 미만으로 떨어짐.¹⁶
네 개의 이름 붙은, 답안 모양의 실패 모드: 팬텀 검증, 변형된 도구 무대 장식, 건너뛴 의존성, 요약 세탁.¹⁶
37일 만에 두 번의 트러스트 다이얼로그 우회 CVE (CVE-2026-33068, CVE-2026-40068). 두 건 모두 단순한 벤더 패치가 아니라 사용자 측 감사를 요구했습니다.¹⁷

이 후크들 중 어느 것도 일을 생성하지 않습니다. 모두가 에이전트가 생성한 일을 증명(또는 증명 거부)합니다. 스카의 수가 늘어나는 것은 새로운 에이전트 능력 하나하나가, 답안이 사실상 실행되지 않은 도구의 의상이 될 수 있는 새로운 방법을 드러내기 때문입니다. 이 성장 곡선은 시장 논지의 소규모 증명입니다. 생성은 증명을 위한 공격 표면을 확장합니다. 증명은 그 속도를 따라잡기 위해 복리로 누적되어야 합니다.

이는 Charlie 팀이 Charlie Labs에서 부딪힌 것과 같은 모양입니다. 옵저버빌리티 벤더들이 잡으려고 경쟁하는 모양과 같습니다. 증명 문제는 완료 리포트 검증에서 멈추지 않습니다. 자격 증명 노출, 파괴적 작업, 작업 드리프트, 출력 품질, 자원 고갈, 프로젝트 간 오염, 트러스트 부트스트랩 침해까지 포함합니다.¹⁵¹⁷ 각각이 클린업 분류 체계의 자기 행이며, 각 행은 한두 개의 벤더를 지탱합니다.

반론: 클린업은 항상 시장이었다

이 논지에 대한 가장 강력한 반박은 “낡은 와인을 새 병에 담은 것에 불과하다”입니다.

클린업은 항상 시장이었습니다. SRE, QA, CI, 코드 리뷰, 보안 스캐닝, 옵저버빌리티, 의존성 봇, 사고 대응. 이들은 모두 증명 레이어 분야이며, 에이전트가 등장하기 훨씬 이전부터 모든 엔지니어링 조직 지출의 상당 부분을 함께 차지하고 있었습니다. 에이전트가 카테고리를 만들지는 않습니다. 에이전트는 양을 가속화합니다.

그 반론은 카테고리에 대해서는 옳지만 규모에 대해서는 틀렸습니다. 에이전트가 루프에 들어오면 세 가지가 바뀝니다.

양. 코딩 에이전트는 한 명의 엔지니어가 만드는 두세 개 대신 한 주에 수십 개의 PR을 생성합니다. 문서는 더 빨리 드리프트합니다. 의존성은 더 빨리 낡습니다. 유지보수 큐는 에이전트 속도로 복리로 늘어나며, 이는 사람이 주도하는 클린업 큐가 누적되는 속도보다 빠릅니다.¹
실패 모드. 위에서 명명한 네 가지 답안 모양 실패(팬텀 검증, 변형된 도구 무대 장식, 건너뛴 의존성, 요약 세탁)는 기존 CI/QA/옵저버빌리티 스택이 잡도록 설계된 버그가 아닙니다. 기존 스택은 “테스트 스위트가 0이 아닌 값을 반환했다”를 잡습니다. “에이전트가 테스트 스위트를 건너뛰고 성공을 보고했다”는 잡지 못합니다. 각 실패 모드는 새로운 게이트를 요구합니다.¹⁶
되돌리기 비용. 사람이 제출한 나쁜 PR은 한 번의 커밋으로 되돌려집니다. 다른 에이전트들이 이미 그 위에 빌드한 30개 PR 사슬 안에서 에이전트가 제출한 나쁜 PR은 일주일 분량의 포렌식 작업을 요구합니다. 되돌리기 비용이야말로 증명 레이어를 “있으면 좋은” 것이 아니라 “타협 불가능한” 것으로 만드는 요소입니다.

카테고리는 오래되었습니다. 규모가 새롭습니다. 새로운 규모는 새로운 벤더에 자금을 댑니다.

또 다른 반론: 통합 리스크

두 번째로 강력한 반박은 통합 리스크입니다. 만약 Anthropic, OpenAI, GitHub, Datadog이 증명 레이어를 자기 플랫폼에 네이티브로 흡수해 버린다면, 모든 독립형 클린업 스타트업은 압박을 받습니다. 실제 전례가 있습니다. Datadog은 APM 스타트업들을 흡수했고, GitHub은 Dependabot을 흡수했으며, Anthropic는 Claude Code 안에 후크 스캐폴딩을 네이티브로 출시합니다.

통합 논리는 실재하지만 보이는 것보다 작습니다. 증명 레이어가 모델 외부에 살아야 할 구조적인 이유가 있기 때문입니다.

가장 중요한 이유는 리포지토리는 자기 자신의 신뢰에 투표할 수 없다가 명명한 바와 같습니다. 평가받는 산출물은 신뢰 결정을 내리는 데 도움을 주어서는 안 됩니다.¹⁷ 자기 자신의 출력을 채점하는 모델은 사내 감사인 문제입니다. 컴플라이언스 등급의 검증을 구매하는 고객은 모델 벤더를 최후의 검증자로 받아들이지 않을 것입니다. 그 구조적 논거는 플랫폼이 아무리 공격적으로 나오더라도, 규제된 버티컬당 적어도 하나의 독립적인 증명 레이어 벤더를 위한 공간을 만들어 냅니다.

두 번째 이유는 이질성입니다. 에이전트 스택은 OpenAI, Anthropic, 사내 모델, 서드파티 도구, 벡터 데이터베이스, 그리고 맞춤 스킬을 결합합니다. 증명 레이어는 그 모든 것을 아울러야 합니다. 플랫폼 네이티브 클린업 도구는 자기 표면만을 커버합니다. 크로스 플랫폼 증명 도구는 모든 사람의 표면을 커버합니다. 엔터프라이즈 구매가 실제로 필요로 하는 것은 후자입니다.

세 번째 이유는 속도 차이입니다. 모델 랩들은 기능을 출시합니다. 증명 레이어는 사고 예방을 출시합니다. 다른 케이던스, 다른 실패 모드, 다른 팀입니다. 통합 압력은 존재하지만, 독립적인 증명 레이어 벤더를 위한 표면적은, 플랫폼들이 무엇을 하든 그중 두세 곳이 상당한 사업이 될 만큼 충분히 넓습니다.

철학의 묶음: Jiro, Steve, MWP

증명 레이어 논지는 단순히 시장에 대한 콜이 아닙니다. 제가 계속 돌아오는 철학의 세 조각에 깔끔하게 들어맞습니다.

Jiro 품질 철학은 게이트의 이름을 명명합니다. 품질 주장은 느낌이 아니라 증거를 요구합니다.¹⁸ 증명 레이어는 회사 전체 규모에서의 게이트입니다. Sonarly의 모든 RCA, Langfuse의 모든 트레이스, Charlie Labs의 모든 데몬, 제 모든 스카 후크는 같은 모양입니다. 증거 먼저, 판결은 그다음입니다. 검증되지 않은 증거 위에 판결을 박는 도구는 공개 사고를 일으키는 순간 풀려나갑니다.

Steve 테스트는 한 단계 위 고도의 게이트입니다. Blake가 자기 이름으로 서명할 만한가?¹⁹ 엔지니어링 조직 규모에서 그 질문은 이렇게 바뀝니다. 팀이 그 에이전트의 출력에 자기 이름을 서명할 수 있는가? 그 서명은 분위기가 아니라 감사 추적을 요구합니다. 감사 추적을 만들어내는 것이 바로 증명 레이어입니다. 그것 없이 출하하는 회사는 미래의 사고에 대해 백지 수표에 서명하는 셈이며, 그 사고들에 대한 사후 분석은 증명 레이어 격차를 근본 원인으로 지목하게 될 것입니다.

최소 가치 있는 제품이 프레임을 닫습니다.²⁰ 최소(Minimum)는 범위 제약입니다. 가치 있음(Worthy)은 품질의 기준선입니다. 최소 에이전트 제품은 생성기입니다. 최소 가치 있는 에이전트 제품은 생성기에 그 출력을 서명 가능하게 만드는 증명 레이어가 더해진 것입니다. 더 빨리 출하하기 위해 증명 레이어를 잘라내는 회사들은 MWP에서 가치 있음을 잘라내고 있습니다. 시장은 이를 실시간으로 교정하고 있으며, 그것이 Charlie Labs가 피벗한 이유, InsightFinder가 자금을 유치한 이유, Palo Alto Networks가 옵저버빌리티에 33억 5천만 달러를 지불한 이유, 그리고 제 후크 수가 복리로 누적되는 이유입니다.

제가 들고 다니는 작업대에 나오는 캐비닛 비유는 이 시장으로 곧장 확장됩니다.²¹ 캐비닛의 뒷면은 좋은 날에는 고객이 결코 보지 않는 부분입니다. 그것은 또한 아무도 지켜보지 않는 곳에서 누군가가 모서리를 자를 때 공개적으로 실패하는 부분이기도 합니다. 증명 레이어는 캐비닛의 뒷면입니다. 캐비닛 뒷면이 마감된 회사들이 이깁니다.

운영자에게 의미하는 변화

영향 순서로 정리한 세 가지 실용적 해석입니다.

생성 레이어 에이전트를 고르기 전에 증명 레이어 쐐기를 고르세요. 대부분의 팀은 에이전트로 시작하고 옵저버빌리티를 나중에 더합니다. 순서를 뒤집으세요. 게이트(종료 코드, 스키마 검증, 파일 읽기 감사, 드리프트 탐지)를 먼저 고르고, 단방향 의존성으로 배선한 다음, 그 게이트를 통과해 출력이 흐르는 에이전트만 추가하세요. 게이트를 우회하는 생성은 생산성이 아니라 부채입니다.¹⁶²²

스카 후크 수를 선행 지표로 다루세요. 에이전트를 운영하고 있는데 클린업 수가 늘지 않는다면, 아무것도 잡고 있지 않은 것입니다. 성장률이 곧 감사 신호입니다. 26일 만에 47%라는 제 수치는 자랑이 아니라, 오케스트레이터가 새로운 실패 모드를 마주치고 그것을 기록하고 있다는 측정치입니다. 에이전트 활동은 활발한데 스카 수가 평평하다면, 그것이 위험 지대입니다.

증명 레이어를 크로스 플랫폼으로 사거나 만드세요. 증명 레이어 벤더를 평가할 때 올바른 질문은 “이것이 우리 모델과 작동하는가”가 아니라 “이것이 향후 18개월 안에 우리가 채택할 모든 모델과 도구 스택에 걸쳐 작동하는가”입니다. 단일 플랫폼 증명 도구는 잘못된 모양입니다. 이기는 카테고리는 크로스 플랫폼입니다.

창업자들이 다음에 만들어 줬으면 하는 것

증명 레이어 시장은 아직 아무도 채우지 않은 특화된 버티컬을 지탱할 수 있을 만큼 풍부합니다. 저는 다음에 돈을 지불할 의향이 있습니다.

되돌리기 우선 배포 도구. 머지 이전에, 에이전트가 생성한 모든 PR에 대해 그 변경이 얼마나 저렴하게 되돌려질 수 있는지를 점수화합니다. 비용이 높은 되돌리기는 차단되거나 사람에게 라우팅됩니다.
분류 체계를 인지하는 드리프트 탐지기. 각 스카 후크 카테고리를 특정 테스트 패턴에 매핑하고, 어떤 카테고리가 너무 오래 침묵할 때 경보를 울립니다. 침묵하는 카테고리가 위험한 카테고리입니다.
규제 당국에 즉시 제출 가능한 감사 추적 제품. 어떤 에이전트 스택이라도 받아들여서 모든 도구 호출, 모든 서명, 모든 거부에 대한 SOC 2 등급의 기록을 만들어 줍니다. 규제된 버티컬은 더 많은 에이전트를 사기 전에 이것을 살 것입니다.

위 중 어느 것이라도 만들고 있다면, 당신은 증명 레이어 안에서 만들고 있는 것입니다. 시장은 당신에게서 멀어지는 것이 아니라 당신을 향해 움직이고 있습니다.

클린업 레이어가 진짜 AI 에이전트 시장인 이유는, 생성이 모델 API 안에서 점점 상품이 되어 가고 있고, 증명이 가격이 매겨지는 자산이 되어 가고 있기 때문입니다. Charlie Labs가 가장 깔끔하게 그것을 명명했습니다. 자금을 받은 회사들은 그곳을 향해 달려가고 있습니다. 생성은 공격 표면을 확장합니다. 증명은 캐비닛의 뒷면입니다. 캐비닛 뒷면이 마감된 회사들이 이깁니다.

FAQ

“에이전트 뒤를 정리하는 것”이 정말로 새로운 시장 카테고리인가요?

카테고리는 오래되었습니다. 클린업은 SRE, QA, CI, 코드 리뷰, 옵저버빌리티, 보안 스캐닝, 사고 대응에 걸쳐 있습니다. 새로운 것은 양과 실패 모드입니다. 코딩 에이전트는 좌석당 한 주에 수십 개의 PR을 생성합니다. 멀티 에이전트 아키텍처는 그 수를 곱합니다. 답안보다 도구를 먼저 보상하라에서 명명된 네 가지 답안 모양 실패 모드는 기존 CI 스택이 잡도록 설계된 것이 아닙니다. 카테고리는 오래되었고, 새 벤더에 자금을 대는 것은 규모입니다.

왜 Anthropic, OpenAI, GitHub이 증명 레이어를 흡수하지 않을까요?

세 가지 구조적 이유가 있습니다. 첫째, 평가받는 산출물은 신뢰 결정을 내리는 데 도움을 주어서는 안 됩니다. 모델 랩이 자기 출력을 채점하는 것은 사내 감사인 문제입니다. 둘째, 실제 에이전트 스택은 여러 모델, 여러 도구, 맞춤 스킬을 결합하기 때문에, 증명 레이어는 그 모든 것을 아울러야 합니다. 셋째, 모델 랩은 한 케이던스로 기능을 출시하고, 증명 레이어는 다른 케이던스로 사고 예방을 출시합니다. 통합 압력은 실재하지만 보이는 것보다 작습니다.

어떤 스카 후크 패턴이 개인 오케스트레이터를 넘어 일반화되나요?

네 가지 핵심 게이트가 있습니다. 완료 리포트에 대한 헤징 언어 탐지, 도구 호출에 대한 종료 코드 검사, 리포트와 도구 로그를 대조하는 파일 읽기 감사, 그리고 원래 작업과 요약 사이의 내러티브 드리프트 탐지입니다. 각각은 단방향 게이트입니다. 누락된 도구 증거는 답안의 점수를 차단합니다. 같은 모양은 프로덕션 옵저버빌리티 스택에서도 작동합니다. 단지 다른 기반 위에서 돌아갈 뿐입니다.

검증 격차(에이전트 결정의 69%가 사람의 검토를 필요로 함)는 어떻게 닫히나요?

지금 사람이 눈으로 돌리고 있는 게이트들을 자동화함으로써 닫힙니다. 종료 코드 검사, 스키마 검증기, 파일 읽기 감사, 드리프트 탐지, 런타임 가드레일은 모두 작업을 사람의 큐에서 빼내는 저렴한 결정론적 감독의 예시입니다. 69%는 그 밑의 증명 도구의 함수이며, 에이전트의 고정된 속성이 아닙니다. 출시되는 모든 게이트가 그 비율을 줄입니다.

References

“Show HN: Daemons – we pivoted from building agents to cleaning up after them,” Hacker News thread, April 22, 2026. ↩↩
Charlie Labs, ai-daemons.com and Charlie Daemons documentation. Daemons defined in .agents/daemons/<id>/DAEMON.md with watch, schedule, routines, and deny keys. ↩↩
Marina Temkin, “InsightFinder raises $15M to help companies figure out where AI agents go wrong,” TechCrunch, April 16, 2026. ↩
Sonarly, Show HN. Production alert triage, RCA, and fix PRs on Sentry, Datadog, and Grafana. ↩
Cekura, Show HN. Automated testing, monitoring, and simulation for voice and chat agents. ↩
Langfuse, Langfuse documentation. Tracing and evaluation for LLM applications. ↩
Arize, Phoenix documentation. Open-source LLM tracing and observability. ↩
Braintrust, Braintrust agents documentation. Evaluation-first observability for agent stacks. ↩
Datadog, LLM Observability documentation. LLM and agent monitoring inside the Datadog platform. ↩
Fiddler AI, Fiddler Guardrails documentation. Runtime LLM observability and guardrails. ↩
Lakera, Lakera Guard documentation. Real-time control plane for prompt injection, tool abuse, and data exfiltration. ↩
Fiddler AI, Fiddler Guardrails. Policy enforcement for LLM applications. ↩
Palo Alto Networks, “Palo Alto Networks to Acquire Chronosphere,” Palo Alto Networks press release, November 2025. $3.35 billion deal. ↩
Deepak Gupta, “AI Agent Observability, Evaluation, Governance: The 2026 Market Reality Check,” guptadeepak.com, 2026. 57% production deployment, 72% multi-agent (vs 23% in 2024), 69% require human verification. ↩↩↩
Author’s analysis in Every Hook Is a Scar, March 29, 2026. Hook count at publication: 84. On 2026-04-24: 123 hook files on disk, 88 skill entries, 26 hook matcher rows across 15 lifecycle event types. ↩↩
Author’s analysis in Reward the Tool Before the Answer, April 24, 2026. Four answer-shaped failure modes; phantom-verification rate dropped from 12% to under 2% after the hedging-language hook. ↩↩↩↩
Author’s analysis in The Repo Shouldn’t Get to Vote on Its Own Trust, April 24, 2026. CVE-2026-33068 and CVE-2026-40068 trust-dialog bypass advisories. ↩↩↩
Author’s analysis in The Jiro Quality Philosophy. Evidence gate: quality claims require evidence, not feelings. ↩
Author’s analysis in The Steve Test. “Would I sign my name to this?” as the taste gate above Jiro’s evidence gate. ↩
Author’s analysis in Minimum Worthy Product. Minimum as scope constraint, worthy as quality bar. ↩
Author’s analysis in The Workbench I Carry. Steve Jobs’s five principles mapped onto the AI orchestrator, including care at every zoom level. ↩
Anthropic, “Hooks reference,” code.claude.com docs. Lifecycle hook taxonomy and dispatch. ↩