17,000のシグナル

Q: どのようなツールを使っていますか？

スキャナーはカスタムのPythonスクリプト（scan_intel.py、約1,200行）で、12のソースからフェッチし、トリアージエンジンでスコアリングし、3つのレイヤー（URL、論文ID、アドバイザリエイリアス）で重複排除を行い、Obsidian VaultにMarkdownノートを書き込みます。VaultではDataviewを使ってクエリを実行しています。設定はJSONに、ステート（参照済みID）はJSONに90日間の自動削除付きで保存されています。

1分で読めます

私のObsidian Vaultには17,913件のシグナルノートがあります。それぞれが研究論文、ブログ記事、セキュリティアドバイザリ、またはコミュニティでの議論であり、私が追跡している9つのトピック——AIの安全性、LLMエージェント、Claude/Anthropic、SwiftUI/iOS、デザインシステム、クリエイティブコーディング、ML研究、科学、セキュリティ——のいずれかに関連する可能性があるとスキャナーが判定したものです。これは私がテイスト・インフラストラクチャと呼ぶものの運用レイヤーにあたります。美的・編集的な判断をその場しのぎではなくシステムに組み込むべきだという考え方です。

17,913件のシグナルのうち、精読したのはおそらく200件ほど。さらに500件は何らかの判断、ブログ記事、デザイン上の選択に影響を与えました。残りの17,213件は、スキャンしてスコアリングし、ファイリングしただけで行動に移さなかったノイズです。

ノイズは無駄ではありません。ノイズこそが計測器なのです。

スコアリングの課題

すべてのシグナルには0から1の複合スコアが付与されます。4つの次元で重み付けされています：関連性（トピックに合致するか）、実行可能性（何かアクションを取れるか）、深度（内容に実質があるか）、権威性（ソースは信頼できるか）。0.55以上のシグナルはドメインフォルダに書き込まれ、0.40から0.55のシグナルはインボックスへ。0.40未満はスキップされます。

これらの閾値は恣意的に選んだものではなく、調整を重ねて得られたものです。数ヶ月にわたるスキャンの結果を確認し、各バケットに何が入ったかをレビューし、シグナル対ノイズ比が適切と感じられるまで調整を繰り返しました。当初0.55は高すぎて、後に重要だと判明した論文を見逃していました。0.30では低すぎて、インボックスがゴミだらけになりました。現在の閾値では、全トピックを通じて1回のスキャンあたり約15〜30件のドメイン書き込みと10〜20件のインボックスアイテムが生成されます。

スコアリングシステムには、自分で把握しているバイアスがあります：

研究論文は権威性0.75からスタートします。 カテゴリとキーワードが合致するarXiv論文は、内容評価の前に0.75のスコアが付きます。これは意図的な設計です。関連分野の査読付き研究には、ブログ記事やHNの議論にはないベースラインの信頼性があるからです。

セキュリティアドバイザリは権威性0.95からスタートします。 NVDのCVEやGitHubのGHSAは、内容に関係なく高スコアとなります。脆弱性アドバイザリの存在自体がシグナルだからです。内容は事実に対して二次的なものにすぎません。

HNの議論は権威性0.55からスタートします。 コミュニティの議論はセンチメントや発見には価値がありますが、事実の正確性は担保されません。新しい論文に関する高ポイントのHN記事は発見メカニズムであってソースではなく、論文そのものがソースとなります。

これらのベースラインは、ソースの信頼性に対する私の判断を体系化したものです。優先事項が異なる人なら、異なるベースラインを設定するでしょう。客観的な真実ではなく、信頼がどこから来るかについての体系化された見解です。スコアリング手法の全体像はシグナルスコアリングパイプラインに記載しています。

ノイズが教えてくれること

ほとんどのスキャンでは80〜100件のドメイン書き込みと20〜40件のインボックスアイテムが生成されます。大半はノイズです。決して読むことのない論文、使っていないソフトウェアのアドバイザリ、追跡しているが行動には移さないトピックの議論。

ノイズが教えてくれることは3つあります：

分野の輪郭。 ai-safetyスキャンが一貫して機械的解釈可能性とRLHFに関する論文を返すとき、研究コミュニティがどこに注力しているかがわかります。llm-agentsスキャンが1週間でエージェントによるコードレビューに関する論文を5本も返したとき、トレンドが形成されつつあることがわかります。個々の論文はノイズかもしれません。しかし出現頻度の分布こそがシグナルなのです。

驚きのベースライン。 ai-safetyトピックで0.65のスコアは平凡です。0.91なら驚きに値します。その驚きに意味があるのは、0.65がどのようなものかというベースラインがあるからこそです。ノイズがベースラインを確立し、シグナルはベースラインからの逸脱として現れます。

カバレッジの空白。 LiteLLMのサプライチェーン攻撃が発生した際、scan-intelパイプラインはHNのキーワードマッチングで検知しました。当時パイプラインにはセキュリティアドバイザリソース（NVD、OSV、GHSA）がありませんでした。インシデントが抜け落ちて初めて、その空白が見えたのです。翌週、セキュリティアドバイザリソースを3つ追加しました。新しいソースからのノイズが、通常のアドバイザリトラフィックがどのようなものかを教えてくれています。次の空白は、もっと早く見えるようになるでしょう。

パイプラインの拡張

パイプラインは6つのソースから始まり、現在は12になっています：

ソース	タイプ	検知対象
arXiv	API	カテゴリとキーワードによる研究論文
Semantic Scholar	API	引用データを含む学術論文
Hacker News	API	ポイント加重型の関連性によるコミュニティ議論
HuggingFace Daily Papers	API	HFコミュニティがキュレーションしたML論文
Lobsters	RSS	技術コミュニティの議論
Simon Willison	Atom	実践者によるAIツールの解説
Anthropicブログ	スクレイピング	Anthropicの公式アナウンス
Papers With Code	スクレイピング	実装付き論文
Apple ML Research	スクレイピング	Appleの機械学習研究出版物
NVD	API	CVSSスコア付きCVE（2026年3月追加）
OSV	API	監視対象15パッケージのパッケージ固有アドバイザリ
GitHub Advisories	CLI	エイリアス相互参照付きGHSAエントリ

各ソースの追加はノイズを増やしました。しかし同時に、他のソースでは検知できなかったものをキャッチしました。LangChainのパストラバーサル脆弱性はGHSAに出現しましたがHNには出ませんでした。Claudiniのautoresearch論文はHNより12時間早くarXivに出現しました。LiteLLMのクレデンシャルスティーラーはOSVにMAL-2026-2144の識別子で出現しましたが、NVDにはまだ登録されていませんでした。

エイリアスベースの重複排除システムは、ソース間の重複を統合します。NVD、OSV、GHSAに出現した同一のCVEは、3件ではなく1件のシグナルノートになります。最初のライブ実行では、85件のセキュリティシグナルのうち6件がエイリアス重複排除されました。ソースが成熟するにつれて重複排除率は上昇するでしょう。

トリアージの規律

17,000件のシグナルにはトリアージの規律が求められます。私のやり方はシンプルです：出力をスキャンし、高スコアを読み、残りをファイリングする。

典型的なスキャンの実行に3分、レビューに2分かかります。0.80以上のシグナルはすべて読みます（通常1回のスキャンで2〜5件）。0.60〜0.80の範囲は驚きがないか流し見します。0.60未満はキーワードが目に留まらない限り無視します。

スキャンは習慣化しています。朝のスキャン、夕方のスキャン。100件以上のドメイン書き込みが発生する日もあれば（新しいarXivバッチが公開されたとき）、ゼロの日もあります（7日間のルックバックウィンドウが完全に重複排除されたとき）。このばらつきは正常です。習慣は一定です。

最も重要なシグナルは、私が何を作るか、何を書くかを変えるものです。Claudini論文（0.83）はブログ記事になりました。LiteLLMのサプライチェーン攻撃（HNから0.67、その後OSVで0.62として確認）はブログ記事と既存記事への2件の引用更新になりました。LICAデータセット（scan-intelではなく手動で発見）はデザインテイストエンジンの計画になりました。SlopCodeBench論文（0.77）はcompound contextの記事への引用候補になりました。

ほとんどのシグナルは何にもなりません。静かにVaultにファイリングされ、ベースラインを確立し、新しいシグナルが古いシグナルとつながり、どちらのシグナル単独では含まれていなかった洞察を生み出す日を待っています。

記憶としてのVault

Vaultはリーディングリストではありません。読んでいない17,213件のシグナルを読むつもりはありません。Vaultは、私が観察してきた期間にこの分野が生み出したものの、クエリ可能な記憶です——個々のノードよりも接続の構造が重要なナレッジトポロジーの一形態と言えるでしょう。

サプライチェーンセキュリティについてブログ記事を書くとき、過去90日間で「security」と「supply-chain」のタグが付いたすべてのシグナルをVaultで検索できます。検索結果にはLiteLLM攻撃、Trivy侵害、MCPToxベンチマーク、Clinejection攻撃、そしてAIインフラパッケージに影響するCVEが十数件返ってきます。それぞれが潜在的な引用、データポイント、または反論の材料となります。

新しい機能を計画するとき、関連ドメインのシグナルを検索できます。LICAデータセットはscan-intel実行時にデザインシステムのシグナル（スコア0.72）として出現しました。グラフィックデザインのデータセットを探していなかったため、ターゲット検索では見つからなかったでしょう。キーワード（「design systems」「typography」）が合致したためスキャンが浮上させたのです。Vaultがその接続を作り出しました。

読んでいない17,213件のシグナルは無駄な労力ではありません。必要なときにクエリできるインデックス化されたコンテキストです。スキャンのコストは低く、インデックス化は自動的に行われます。価値は、数ヶ月前にファイリングされた答えに問いがつながる瞬間まで潜在しています。これはcompound contextの実践です。今日蓄積された各シグナルが、将来の統合における欠けたピースになり得るのです。

FAQ

どのようなツールを使っていますか？

スキャナーはカスタムのPythonスクリプト（scan_intel.py、約1,200行）で、12のソースからフェッチし、トリアージエンジンでスコアリングし、3つのレイヤー（URL、論文ID、アドバイザリエイリアス）で重複排除を行い、Obsidian VaultにMarkdownノートを書き込みます。VaultではDataviewを使ってクエリを実行しています。設定はJSONに、ステート（参照済みID）はJSONに90日間の自動削除付きで保存されています。

コストはどれくらいですか？

ゼロです。すべてのソースは無料枠のAPIまたは公開RSSフィードです。arXiv、Semantic Scholar、OSV、HN Algolia APIは認証不要です。NVDにはレート制限付きの無料枠があります（30秒あたり5リクエスト）。GitHubアドバイザリは既存のGitHubセッションで認証するgh CLIを使用します。

情報過多をどう避けていますか？

スコアリング閾値とトリアージの規律によって対処しています。1回のスキャンあたり出力のレビューに2分を費やします。0.60未満のシグナルは読まずにファイリングされます。Vaultは成長し続けますが、注意力はそれに比例してスケールしません。Vaultは記憶であり、読書課題ではないのです。

このシステムを自分でも使えますか？

アーキテクチャは汎用的です：APIからフェッチし、重み付き基準でスコアリングし、重複排除し、ナレッジベースに書き込む。ソース、キーワード、閾値は私の関心領域に合わせて調整されています。独自のトピック、キーワード、権威性ベースラインの定義が必要になるでしょう。スコアリングエンジンと重複排除ロジックはドメイン非依存です。Vaultのアーキテクチャとクエリパターンの詳細はObsidianガイドで、キーワード検索とセマンティック検索を組み合わせる方法はハイブリッドリトリーバーの記事で解説しています。