Siedemnaście tysięcy sygnałów

Q: Jakich narzędzi używasz?

Skaner to niestandardowy skrypt Python (scan_intel.py, ~1200 linii), który pobiera dane z 12 źródeł, ocenia za pomocą silnika triażu, deduplikuje w trzech warstwach (URL, ID artykułu, aliasy poradników) i zapisuje notatki w formacie markdown do vaultu Obsidian. Vault wykorzystuje Dataview do zapytań. Konfiguracja jest w JSON. Stan (widziane ID) jest w JSON z 90-dniowym przycinaniem.

Mój vault w Obsidian zawiera 17 913 notatek-sygnałów. Każda z nich to artykuł naukowy, wpis na blogu, poradnik bezpieczeństwa lub dyskusja społecznościowa, którą mój skaner zidentyfikował jako potencjalnie istotną dla jednego z dziewięciu śledzonych przeze mnie tematów: bezpieczeństwo AI, agenty LLM, Claude/Anthropic, SwiftUI/iOS, systemy projektowe, kreatywne kodowanie, badania ML, nauka i cyberbezpieczeństwo. To warstwa operacyjna tego, co nazywam infrastrukturą gustu — koncepcji, zgodnie z którą osąd estetyczny i redakcyjny musi być zakodowany w systemach, a nie stosowany ad hoc.

Z tych 17 913 sygnałów uważnie przeczytałem może 200. Kolejne 500 wpłynęło na jakąś decyzję, wpis na blogu lub wybór projektowy. Pozostałe 17 213 to szum, który przeskanowałem, oceniłem i zarchiwizowałem bez podejmowania działań.

Ten szum nie jest zmarnowany. Ten szum jest instrumentem pomiarowym.

Problem oceny punktowej

Każdy sygnał otrzymuje ocenę złożoną od 0 do 1, ważoną w czterech wymiarach: trafność (czy pasuje do moich tematów), wykonalność (czy mogę coś z tym zrobić), głębia (czy jest w tym substancja) i autorytet (czy źródło jest wiarygodne). Sygnały z oceną powyżej 0,55 trafiają do folderów tematycznych. Sygnały między 0,40 a 0,55 trafiają do skrzynki odbiorczej. Poniżej 0,40 są pomijane.

Progi są skalibrowane, nie wybrane arbitralnie. Wyłoniły się z miesięcy skanowania, przeglądania tego, co trafiało do poszczególnych kategorii, i dostrajania, aż stosunek sygnału do szumu wydał się właściwy. Początkowo 0,55 było za wysokie (pomijałem artykuły, które okazywały się ważne). 0,30 było za niskie (skrzynka zapełniała się śmieciami). Obecne progi generują około 15–30 zapisów tematycznych i 10–20 pozycji w skrzynce na skan we wszystkich tematach.

System oceny ma znane mi tendencyjności:

Artykuły naukowe startują z autorytetem 0,75. Artykuł z arXiv z pasującą kategorią i słowami kluczowymi uzyskuje 0,75 jeszcze przed jakąkolwiek oceną treści. To celowe: recenzowane badania z odpowiednich dziedzin mają bazową wiarygodność, której nie mają wpisy na blogach ani dyskusje na HN.

Poradniki bezpieczeństwa startują z autorytetem 0,95. CVE z NVD lub GHSA z GitHub uzyskuje wysoką ocenę niezależnie od treści, ponieważ sam fakt istnienia poradnika o podatności jest sygnałem. Treść jest drugorzędna wobec samego faktu.

Dyskusje na HN startują z autorytetem 0,55. Dyskusje społecznościowe są wartościowe z punktu widzenia nastrojów i odkrywania nowości, ale niewiarygodne jako źródło faktów. Wysoko oceniana historia na HN o nowym artykule to mechanizm odkrywania, nie źródło. Źródłem jest sam artykuł.

Te wartości bazowe kodyfikują mój osąd dotyczący wiarygodności źródeł. Inna osoba z innymi priorytetami ustawiłaby inne wartości bazowe. Nie są to obiektywne prawdy. To skodyfikowana opinia o tym, skąd bierze się zaufanie. Pełna metodologia oceny jest udokumentowana w moim pipeline’ie oceny sygnałów.

Czego uczy szum

Większość skanów generuje 80–100 zapisów tematycznych i 20–40 pozycji w skrzynce. Większość to szum: artykuły, których nigdy nie przeczytam, poradniki dotyczące oprogramowania, którego nie używam, dyskusje o tematach, które śledzę, ale na które nie reaguję.

Szum uczy trzech rzeczy:

Kształtu dziedziny. Gdy skany ai-safety konsekwentnie zwracają artykuły o mechanistycznej interpretowalności i RLHF, mówi mi to, na czym skupia się społeczność badawcza. Gdy skany llm-agents nagle generują pięć artykułów o agentowym przeglądzie kodu w ciągu jednego tygodnia, oznacza to kształtowanie się trendu. Poszczególne artykuły mogą być szumem. Rozkład częstotliwości jest sygnałem.

Linię bazową dla zaskoczenia. Artykuł z oceną 0,65 w temacie ai-safety nie jest niczym niezwykłym. Artykuł z oceną 0,91 jest zaskakujący. To zaskoczenie ma sens tylko dlatego, że mam linię bazową tego, jak wygląda 0,65. Szum ustanawia linię bazową. Sygnał to odchylenie od niej.

Luki w moim pokryciu. Gdy doszło do ataku na łańcuch dostaw LiteLLM, mój pipeline scan-intel wykrył go przez dopasowanie słów kluczowych na HN. Pipeline nie miał wówczas źródeł poradników bezpieczeństwa (NVD, OSV, GHSA). Luka była niewidoczna, dopóki incydent przez nią nie przeszedł. W następnym tygodniu rozszerzyłem pipeline o trzy źródła poradników bezpieczeństwa. Szum z tych nowych źródeł uczy mnie, jak wygląda normalny ruch poradników. Następna luka będzie widoczna wcześniej.

Rozbudowa

Pipeline zaczynał się od 6 źródeł. Teraz ma 12:

Źródło	Typ	Co wychwytuje
arXiv	API	Artykuły naukowe według kategorii i słów kluczowych
Semantic Scholar	API	Artykuły akademickie z danymi o cytowaniach
Hacker News	API	Dyskusje społecznościowe z wagą punktową trafności
HuggingFace Daily Papers	API	Artykuły ML kuratorowane przez społeczność HF
Lobsters	RSS	Dyskusje techniczne społeczności
Simon Willison	Atom	Komentarze praktyka o narzędziach AI
Blog Anthropic	Scrape	Oficjalne ogłoszenia Anthropic
Papers With Code	Scrape	Artykuły z implementacjami
Apple ML Research	Scrape	Publikacje badawcze Apple dotyczące ML
NVD	API	CVE z oceną CVSS (dodane marzec 2026)
OSV	API	Poradniki dla 15 monitorowanych pakietów
GitHub Advisories	CLI	Wpisy GHSA z odsyłaczami aliasów

Każde źródło dodało szumu. Każde też wychwytywało coś, czego inne nie złapały. Podatność path traversal w LangChain pojawiła się w GHSA, ale nie na HN. Artykuł Claudini autoresearch pojawił się na arXiv 12 godzin przed pojawieniem się na HN. Kradzież danych uwierzytelniających LiteLLM pojawiła się w OSV z identyfikatorem MAL-2026-2144, którego NVD jeszcze nie miał.

System deduplikacji oparty na aliasach scala duplikaty z różnych źródeł. Ten sam CVE pojawiający się w NVD, OSV i GHSA generuje jedną notatkę-sygnał, nie trzy. W pierwszym uruchomieniu 6 z 85 sygnałów bezpieczeństwa zostało zdeduplikowanych przez aliasy. Wskaźnik deduplikacji będzie rósł w miarę dojrzewania źródeł.

Dyscyplina triażu

Siedemnaście tysięcy sygnałów wymaga dyscypliny triażu. Moja jest prosta: przeskanuj wyniki, przeczytaj te z najwyższą oceną, resztę zarchiwizuj.

Typowy skan trwa 3 minuty i 2 minuty na przegląd. Czytam każdy sygnał powyżej 0,80 (zwykle 2–5 na skan). Przeglądam pobieżnie zakres 0,60–0,80 w poszukiwaniu niespodzianek. Ignoruję wszystko poniżej 0,60, chyba że jakieś słowo kluczowe przyciągnie moją uwagę.

Skanowanie jest nawykowe. Poranny skan, wieczorny skan. Niektóre dni generują ponad 100 zapisów tematycznych (gdy wypada nowa partia z arXiv). Inne — zero (gdy 7-dniowe okno retrospekcji zostało w pełni zdeduplikowane). Wariancja jest normalna. Nawyk jest stały.

Sygnały, które mają największe znaczenie, to te, które zmieniają to, co buduję lub piszę. Artykuł Claudini (0,83) stał się wpisem na blogu. Atak na łańcuch dostaw LiteLLM (0,67 z HN, potem potwierdzony przez OSV na 0,62) stał się wpisem na blogu i dwiema aktualizacjami cytowań w istniejących postach. Zbiór danych LICA (znaleziony ręcznie, nie przez scan-intel) stał się planem silnika gustu projektowego. Artykuł SlopCodeBench (0,77) stał się kandydatem do cytowania w poście o złożonym kontekście.

Większość sygnałów nie staje się niczym. Cicho trafiają do vaultu, ustanawiają linię bazową i czekają na dzień, w którym nowy sygnał połączy się ze starym i wygeneruje wgląd, którego żaden z nich osobno nie zawierał.

Vault jako pamięć

Vault to nie lista do przeczytania. Nie zamierzam czytać 17 213 sygnałów, których nie przeczytałem. Vault to przeszukiwalna pamięć tego, co dziedzina wytworzyła w czasie, gdy obserwowałem — forma topologii wiedzy, w której struktura połączeń ma większe znaczenie niż jakikolwiek pojedynczy węzeł.

Gdy piszę wpis na blogu o bezpieczeństwie łańcucha dostaw, mogę przeszukać vault pod kątem każdego sygnału otagowanego „security” i „supply-chain” z ostatnich 90 dni. Wyszukiwanie zwraca atak LiteLLM, kompromitację Trivy, benchmark MCPTox, atak Clinejection i kilkanaście CVE dotyczących pakietów infrastruktury AI. Każdy z nich to potencjalne cytowanie, punkt danych lub kontrargument.

Gdy planuję nową funkcję, mogę wyszukać sygnały związane z daną domeną. Zbiór danych LICA pojawił się w uruchomieniu scan-intel jako sygnał design-systems z oceną 0,72. Nie znalazłbym go przez ukierunkowane wyszukiwanie, ponieważ nie szukałem zbiorów danych o projektowaniu graficznym. Skan surfował go, ponieważ słowa kluczowe („design systems”, „typography”) pasowały. Vault dokonał połączenia.

17 213 nieprzeczytanych sygnałów to nie zmarnowany wysiłek. To zaindeksowany kontekst, który mogę odpytać, gdy zajdzie potrzeba. Skanowanie jest tanie. Indeksowanie jest automatyczne. Wartość jest utajona aż do momentu, gdy pytanie łączy się z odpowiedzią zarchiwizowaną miesiące temu. To złożony kontekst w praktyce: każdy sygnał zdeponowany dziś może stać się brakującym elementem przyszłej syntezy.

FAQ

Jakich narzędzi używasz?

Skaner to niestandardowy skrypt Python (scan_intel.py, ~1200 linii), który pobiera dane z 12 źródeł, ocenia za pomocą silnika triażu, deduplikuje w trzech warstwach (URL, ID artykułu, aliasy poradników) i zapisuje notatki w formacie markdown do vaultu Obsidian. Vault wykorzystuje Dataview do zapytań. Konfiguracja jest w JSON. Stan (widziane ID) jest w JSON z 90-dniowym przycinaniem.

Ile to kosztuje?

Zero. Wszystkie źródła to darmowe API lub publiczne kanały RSS. arXiv, Semantic Scholar, OSV i API HN Algolia nie wymagają uwierzytelniania. NVD ma darmowy plan z limitami (5 zapytań na 30 sekund). Poradniki GitHub korzystają z CLI gh, które uwierzytelnia się przez istniejącą sesję GitHub.

Jak unikasz przeciążenia informacyjnego?

Dzięki progom oceny i dyscyplinie triażu. Poświęcam 2 minuty na skan na przegląd wyników. Sygnały poniżej 0,60 są archiwizowane bez czytania. Vault rośnie, ale moja uwaga nie skaluje się razem z nim. Vault to pamięć, nie zadanie do przeczytania.

Czy mogę używać tego systemu?

Architektura jest przenośna: pobieranie z API, ocena z wagami, deduplikacja, zapis do bazy wiedzy. Konkretne źródła, słowa kluczowe i progi są skalibrowane pod moje zainteresowania. Należałoby zdefiniować własne tematy, słowa kluczowe i bazowe wartości autorytetu. Silnik oceny i logika deduplikacji są niezależne od domeny. Mój przewodnik po Obsidian szczegółowo opisuje architekturę vaultu i wzorce zapytań, a wpis o hybrydowym retrieverze wyjaśnia, jak łączę wyszukiwanie słów kluczowych z wyszukiwaniem semantycznym w tym korpusie.