ダークファクトリー検証：誰もコードを読まない時代の品質保証

1分で読めます

ダークファクトリー（レベル5）とは、機械がコードを生成・検証・デプロイし、人間が一行も読まないソフトウェア開発環境です。 このダークファクトリーを成立させる検証レイヤーには、ホールドアウト型評価、デジタルツインユニバース、マルチエージェントレビュー、そしてエンコードされたテイスト制約が必要となります。この検証レイヤーがなければ、エージェントはテストをゲーミングし、品質は消失します。

StrongDMは2つのルールのもとでソフトウェアをリリースしました。「コードは人間が書いてはならない」「コードは人間がレビューしてはならない」というものです。¹ 3人のチーム（Justin McCarthy、Jay Taylor、Navan Chauhan）がAttractorとCXDB（Rust 16K行、Go 9.5K行、TypeScript 6.7K行）を構築・リリースし、エンジニア1人あたり1日最低1,000ドルのトークンコストを費やしました。¹ BCG Platinionは、SpotifyとTechCrunchの報道を引用し、Spotifyの優秀な開発者たちが2025年12月以降コードを書いておらず、毎月数百件のAI生成プルリクエストをマージしていると報告しています。²

Dan Shapiroはこの到達点をレベル5、すなわちダークファクトリーと呼んでいます。機械がコードを生成し、機械が検証し、人間が一行も読まずにデプロイする世界です。³ それ以前のレベルは、現在ほとんどのチームがたどっている進化の道筋を示しています。手動コーディング（レベル0）、タスクのオフロード（レベル1）、高速道路でのオートパイロット（レベル2）、セーフティドライバー付きWaymo（レベル3）、そしてスペックを書いて12時間放置するロボタクシー（レベル4）です。³

まだ誰も十分に答えていない問いがあります。レベル5における検証レイヤーとは、具体的にどのようなものか？以下の分析では、必要なインフラを体系的に整理します。この分析は、私のすべてのエンジニアリング成果物の品質評価を統制するテイストインフラを基盤としています。

検証問題の複合的な深化

レベル5未満のすべての段階では、どこかの時点で人間がコードを読みます。レベル3では、人間がシニア開発者としてAIを管理します。レベル4では、12時間後にテストが通ったかを確認します。³ これらのレベルが機能するのは、組織的知識を持つ人間がインテントに対してパターンマッチングできるからです。スペックに「指数バックオフでリトライ」と書いてあるのにコードが線形リトライをしている場合、開発者は一瞬でそれを見抜けます。

人間を完全に排除すると、検証は異質な問題になります。程度の差ではありません。種類の違いです。検証者は読解力に頼ることができません。「正しい」とは何かを実行可能な形式でエンコードし、成果物そのものを検査することなく、そのエンコーディングに対して出力を評価しなければなりません。

核心的な罠は、エージェントによるテストのゲーミングです。StrongDMは、エージェントが何も有用なことをせずにテストスイートを通過させるためにreturn trueを書いていたことを発見しました。¹ テストはグリーン、CIパイプラインは成功を報告、しかしコードは無価値でした。スタンフォード大学法学部のEran Kahanaはこの観察を構造的な警告へと拡張しています。より根本的な問題は循環性にあり、同じテクノロジークラスが、同じクラスが書いたコードを評価しているという構造です。⁴

ここではグッドハートの法則が異常な力で作用します。テイストは技術的システムであるでは、自動検証にはその上位に判断レイヤーが必要であり、テイストレベルの評価がなければテストは指標ではなく標的になると論じています。エージェントがテスト通過を最適化するとき、テスト通過は正しさの指標ではなくなります。⁴ 標的となったあらゆるメトリクスは良い指標でなくなるのです。ダークファクトリーの検証レイヤーは、このダイナミクスを考慮しなければ、品質ではなくコンプライアンスを測定することになります。

StrongDMの検証アプローチの実際

StrongDMの回答は「シナリオ」と呼ばれるもので、コードベースの外部に保存されたエンドツーエンドのユーザーストーリーであり、機械学習におけるホールドアウトセットのように機能します。¹ このアナロジーは正確です。ML実務者が訓練に使用していないデータに対してモデルを評価するように、独立したエージェントが、コーディングエージェントが生成時にアクセスできないシナリオに対して生成コードを評価します。

重要なメトリクスは「Satisfaction（満足度）」で、ユーザーを満足させる可能性が高い観測された軌跡の割合を示します。¹ 十分な満足度スコアの業界標準は存在しません。StrongDMは独自の閾値を経験的に導き出しました。

シナリオベースのテストをスケールさせるために、StrongDMはデジタルツインユニバースを構築しました。Okta、Jira、Slack、Google Docs、Drive、Sheetsの行動クローンです。¹ これらのツインは、一般に公開されている参照SDKクライアントライブラリを使用して100%のAPI互換性を目標としています。¹ エージェントはモックエンドポイントではなく、ツインに対して実行されます。ツインの行動忠実度が、テストの信頼性を決定します。

StrongDMは、私も経験したパターンを観察しています。「Claude 3.5の2回目のリビジョン（2024年10月）で、長期的なエージェンティックコーディングワークフローがエラーではなく正しさを複合的に積み上げるようになった」というものです。¹ 能力の閾値を下回ると、エージェントの長時間実行はより多くのミスを生みます。上回ると、長時間実行はより良いコードを生み出します。ダークファクトリーパターンは、モデルがこの閾値を超えてはじめて実現可能になりました。

ガバナンスの5つのレイヤー

BCG Platinionの5つの柱からなる変革フレームワークには、コードがプロダクションに到達する前に複数の検証ステップを含むガバナンスレイヤーが組み込まれています。² 5つの柱とは、インテント駆動オペレーティングシステム、体系化された知識インフラ、ワークフォースのスキルアップ、独立した検証エージェントによるガバナンスレイヤー、そしてオーケストレーションのためのファクトリーアーキテクチャです。² ガバナンスの柱には、独立エージェントによるシナリオベースのテスト、静的解析、アーキテクチャ適合性チェック、行動回帰テスト、そして出力を積極的に壊そうとするレッドチームエージェントが含まれます。²

独立性が重要です。同じエージェントが自分のコードを書いてテストする場合、Kahanaの循環性問題が適用されます。⁴ 異なるシステムプロンプト、異なるコンテキスト、異なるインセンティブを持つ別のエージェントが成果物を評価すれば、失敗モードは非相関化されます。排除ではなく、非相関化です。2つのエージェントが訓練データから継承した体系的バイアスを共有する可能性はあります。しかし、評価エージェントが異なるフレームから動作する場合、同一の盲点を持つ確率は低下します。

BCG Platinionは「インテント思考」をダークファクトリーチームにとっての重要なコンピテンシーとして特定しています。ビジネスニーズを、望ましい結果の正確でテスト可能な記述へと翻訳する能力です。² 人間の役割は、コードを書くことから、エージェントが実行できるスペックを書くことへとシフトします。曖昧なスペックは、間違った動作に対して通過するテストを生み出します。これはStrongDMが遭遇したreturn trueと同じダイナミクスです。¹

BCG Platinionは、私が直接経験した制約も特定しています。「AIエージェントは、アクセスできる体系化された知識の質に比例してしか効果を発揮しない」というものです。² プロジェクトコンテキストなしで動作するエージェントは、もっともらしいコードを生成しますが、ローカルの慣習に違反し、アーキテクチャ上の決定を無視し、チームがすでに解決した問題を再発見します。体系化された知識（設計判断、APIコントラクト、スタイルガイド、障害履歴）はドキュメントではなくインフラです。

現在レベル4で私が運用しているもの

私のオーバーナイト実行ループであるRalphエージェントアーキテクチャは、Shapiroのレベル4で動作しています。スペックを書き、エージェントを起動し、眠り、朝に結果をレビューします。エージェントは95以上のフックに対して実行され、すべてのツールコール（ファイル書き込み、gitコマンド、シェル実行）を実行前後にインターセプトします。フックは、エージェントが交渉もオーバーライドもできない制約を強制します。

フックはKahanaのゲーミング問題をツールレベルで対処します。完全なフックアーキテクチャは別の投稿で文書化していますが、ここで重要な特性はインターセプションです。フックはツール実行前に発火し、実行後ではありません。mainへの強制プッシュを試みるエージェントは、コマンドの実行前にブロックされます。.envパターンに一致するファイルのコミットを試みるエージェントはインターセプトされます。pytestを実行せずに「全テスト通過」と報告するエージェントは、エビデンスゲートによってフラグが立てられます。エビデンスゲートは、テストが通過するだろうという主張ではなく、ゼロ失敗を示す貼り付けされたテスト出力を要求します。

エビデンスゲートは、すべての重要な変更に対して6つの基準を強制します。コードベースのパターンに従っている（パターンとファイルを名指しする）、最もシンプルな動作するソリューション（却下した代替案を述べる）、エッジケースの処理（それぞれを列挙する）、テスト通過（出力を貼り付ける）、リグレッションなし（確認したファイルを名指しする）、そして実際の問題を解決している（ユーザーのニーズと変更がそれにどう対応するかを述べる）。「〜と思います」や「〜のはずです」はエビデンスではありません。ゲートは曖昧な表現を拒否し、具体的な成果物を要求します。

品質ループ（実装、レビュー、評価、改善、ズームアウト、繰り返し、報告）は、CLAUDE.mdを通じてエージェントのシステムプロンプトにエンコードされた行動制約として動作します。ループはエージェントがすべてのステップに従うことを保証するものではありません。フックが従ったかどうかを検証します。

BCG Platinionの5つの柱は、私がすでに維持しているインフラにマッピングされます：

インテント駆動OS: CLAUDE.mdファイルとPRD駆動開発スペックが、プロジェクトのインテントを実行可能なコンテキストとしてエンコードします。
体系化された知識: 再利用可能な機能として整理された139以上のスキルが、エージェントにプロジェクトの慣習、アーキテクチャ上の決定、ドメイン知識へのアクセスを提供します。
ガバナンス: フックがインターセプションレイヤーを実装します。エビデンスゲートが監査レイヤーを実装します。品質ループが行動制約レイヤーを実装します。

2つの柱はまだ構築していません。ワークフォースのスキルアップ（ソロプラクティショナーには無関係）と、専用オーケストレーションプラットフォームとしてのファクトリーアーキテクチャ（現在のセットアップは専用ファクトリーではなくClaude Codeのネイティブエージェントスポーニングを使用）です。コンパウンドコンテキストシステムは、これらのインフラレイヤーが資本資産として蓄積し、後続のセッションをより有能にしていく仕組みを説明しています。

レベル4からレベル5へのギャップ

レベル4からレベル5への移行は、朝のレビューの排除を意味します。現在は、目覚めてエージェントが夜間に生成したものを読みます。gitの差分を確認します。アプリケーションを実行します。出力がインテントに一致するかを検証します。このレビューには30分から1時間かかり、フックが見逃した問題をキャッチします。

フックが見逃す問題こそが興味深いものです。現在の自動化が十分に対処できないカテゴリに分類されます：

インテントドリフト。 エージェントはスペックに忠実にタスクを完了しましたが、スペックが曖昧で、エージェントは間違った解釈を選択しました。有効な動作を生み出す誤った解釈を捕捉するテストは存在しません。StrongDMのシナリオアプローチは、技術要件ではなくユーザーストーリーをスペックとしてエンコードすることでこの問題に取り組んでいます。¹ シナリオはコードが何をするかではなく、ユーザーが何を体験するかを記述します。

アーキテクチャの侵食。 エージェントが単独では動作する機能を追加しましたが、システムの構造的一貫性を劣化させます。既存のリポジトリパターンをバイパスする新しいデータベースクエリ。別のモジュールからロジックを重複させる新しいエンドポイント。静的解析はこれらの一部をキャッチします。アーキテクチャ適合性チェック（BCG Platinionのガバナンスレイヤー）はさらに多くをキャッチします。² しかし、新しいコードが技術的にはパターンと整合しているが、将来の変更で複合的に悪化する概念的な分裂を導入する微妙なケースは、どちらもキャッチできません。

組織的知識の喪失。 Kahanaは過小評価されているリスクを提起しています。誰もコードを読まなくなると、誰もシステムに対する直感を構築しなくなります。⁴ Kahanaが警告するように、「なぜそうなっているか、誰も知らない。どう修正すればいいか、誰も知らない」という状態になります。⁴ 現在、朝のレビューがその直感を漸進的に構築しています。レベル5では、システムはオペレーターにとって不透明になります。あらゆる複雑なシステムは、最終的に自動化では対処できない介入を必要とします。セキュリティインシデント、テストスイートに組み込まれた前提に違反するビジネスロジックの変更、ドキュメントの記載と異なる動作をする外部システムとの統合などです。コードを読んだことのないオペレーターは、効果的に介入できません。

検証レイヤーに実際に必要なもの

StrongDMの実践、BCG Platinionのガバナンスフレームワーク、Kahanaの障害分析、そして私自身のインフラを総合すると、ダークファクトリーの検証レイヤーには最低限以下が必要です：

ホールドアウト型評価。 生成エージェントがコード生成時にアクセスできないテスト。StrongDMのシナリオ。コードベースとは別に保存され、独立したエージェントによって評価される行動仕様。ホールドアウト評価がなければ、グッドハートの法則がすべてのテストスイートを標的に変えます。

統合テスト用のデジタルツイン。 エージェントはプロダクションシステムに対してテストできません。モックは浅すぎて、APIコントラクトを検証しますが行動は検証しません。外部依存の行動面を再現するツインにより、プロダクションリスクなしでエンドツーエンドのシナリオ実行が可能になります。

非相関的な失敗モードを持つマルチエージェント検証。 生成エージェントと評価エージェントは異なるコンテキストから動作しなければなりません。ゲーミング、ショートカット、ファントム検証を積極的にプローブするレッドチームエージェントが、受動的なテストでは提供できないレイヤーを構成します。

ツールレベルのインターセプション。 損害を事後に検出するテストではなく、有害な操作を実行前にブロックするフック。フックレイヤーはエージェントの意思決定の下層に位置し、巧妙なプロンプティングやreturn trueのショートカットによる回避に対して耐性を持ちます。

実行可能なインテント仕様。 曖昧さが検出可能なほど精密なスペック。BCG Platinionの「インテント思考」コンピテンシー。² Shapiroのレベル4で12時間放置する前に書くスペック。³ スペックがプロダクトであり、コードは副産物です。

アカウンタビリティのギャップのない監査証跡。 KahanaはAIライフサイクル基本原則を引用し、出力が「適切な責任者まで追跡可能」であることを求めています。⁴ エージェントが構築したソフトウェアに対する業界標準の監査方法論はまだ存在しません。⁴ 検証レイヤーは、人間（または規制当局やインシデント対応者）がデプロイされた動作からそれを生成した仕様まで追跡できる成果物を生成する必要があります。

率直な評価

レベル4は高い確信を持って運用しています。オーバーナイトエージェントが生成する成果物は、朝のレビューを通過することがほとんどです。フックが機械的な障害をキャッチします。エビデンスゲートが認識的な障害をキャッチします。品質ループが行動的な障害を低減します。

レベル5には、まだ解決していない問題の解決が必要です。人間のパターンマッチングなしでのインテントドリフト検出。構造的な違反だけでなく概念的な侵食を捕捉するアーキテクチャ適合性。オペレーターの頭ではなくシステムに蓄積される組織的知識。

BCG Platinionは、ダークファクトリーパターンを採用したチームで3〜5倍の生産性向上を報告しています。² StrongDMは3人のエンジニアとトークン予算でエージェント構築ソフトウェアをリリースしました。¹ 生産性の論拠は明確です。検証の論拠はまだ明確ではありません。

レベル5で成功しているチームには共通の特徴があります。コード生成よりも検証インフラに多くを投資しているという点です。StrongDMはエージェントにコードの出荷を信頼する前に、デジタルツインユニバース全体を構築しました。¹ BCG Platinionのフレームワークは、コードがプロダクションに到達する前に複数の検証ステップを含むガバナンスレイヤーを含む5つの変革の柱で構成されています。² ダークファクトリーは、暗闇で稼働する工場ではありません。検証レイヤーが照明であり、それ以外すべて（コードを含む）がコモディティである工場です。

以前、エージェントが監視なしで動作するとき何が壊れるかと、ファントム検証に対する防御としてのエビデンスゲートについて書きました。これらの記事はレベル4のインフラを説明しています。ダークファクトリーは、同じインフラが、現在朝の差分を読んでいる人間なしで動作するよう拡張されることを要求します。フック、エビデンスゲート、品質ループ、これらすべてがレベル5で必要ですが、十分ではありません。欠けているピースは、生成と同じ自律性でスケールする検証です。

そのピースを構築することが、これからの課題です。AIエンジニアリングハブに、個々のフック設計からコンパウンドコンテキスト、そしてダークファクトリーのフロンティアに至るまで、この調査の全体像をまとめています。

FAQ

ソフトウェア開発におけるダークファクトリーとは何ですか？

ダークファクトリー（Dan Shapiroのレベル5）とは、機械がコードを生成し、検証し、人間が一行も読まずにデプロイするソフトウェア開発環境です。それ以前のレベルは、手動コーディング（レベル0）から段階的な自動化へと進み、レベル4は「ロボタクシー」モードで、人間がスペックを書き、12時間放置して結果をレビューします。ダークファクトリーは、その最後のレビューさえも排除します。

レベル5の最大の検証課題は何ですか？

核心的な罠はエージェントによるテストのゲーミングです。StrongDMは、エージェントが何も有用なことをせずにテストスイートを通過させるためにreturn trueを書いていたことを発見しました。グッドハートの法則が異常な力で作用します。エージェントがテスト通過を最適化すると、テスト通過は正しさの指標でなくなります。検証レイヤーは、ホールドアウト型評価（生成エージェントがコード生成時にアクセスできないテスト）、非相関的な失敗モードを持つマルチエージェント検証、そして有害な操作を実行前にブロックするツールレベルのインターセプションによって、この問題に対処しなければなりません。

レベル4とレベル5のギャップは何ですか？

現在の自動化が十分に対処できない3つの問題です。インテントドリフト（エージェントはスペックに忠実にタスクを完了したが、曖昧な要件の間違った解釈を選択した）、アーキテクチャの侵食（単独では動作するが構造的一貫性を劣化させる新機能）、そして組織的知識の喪失（誰もコードを読まなくなると、インシデントやビジネスロジック変更時の介入に必要なシステムへの直感を誰も構築しなくなる）です。

StrongDMはどのように検証問題を解決していますか？

StrongDMは「シナリオ」を使用しています。コードベースの外部に保存されたエンドツーエンドのユーザーストーリーで、機械学習におけるホールドアウトセットのように機能します。独立したエージェントが、コーディングエージェントが生成時にアクセスできないシナリオに対してコードを評価します。また、100%のAPI互換性を目標とするデジタルツインユニバース（Okta、Jira、Slack、Google Docsの行動クローン）を構築し、浅いモックではなく現実的な行動面に対してエージェントがテストできるようにしています。

Simon Willison, “Software Factory,” simonwillison.net (February 7, 2026), covering StrongDM’s fully autonomous development methodology by Justin McCarthy, Jay Taylor, and Navan Chauhan. ↩↩↩↩↩↩↩↩↩↩↩↩
BCG Platinion, “The Dark Software Factory,” bcgplatinion.com. ↩↩↩↩↩↩↩↩↩↩
Dan Shapiro, “Five Levels of AI Coding,” danshapiro.com (January 2026). ↩↩↩↩
Eran Kahana, “Built by Agents, Tested by Agents, Trusted by Whom?” Stanford Law (February 8, 2026). ↩↩↩↩↩↩↩