Siebzehntausend Signale

Q: Welche Tools verwenden Sie?

Der Scanner ist ein benutzerdefiniertes Python-Skript (scan_intel.py, ~1.200 Zeilen), das von 12 Quellen abruft, mit einer Triage-Engine bewertet, über drei Ebenen dedupliziert (URL, Paper-ID, Advisory-Aliase) und Markdown-Notizen in einen Obsidian-Vault schreibt. Der Vault verwendet Dataview für Abfragen. Die Konfiguration liegt in JSON. Der Zustand (gesehene IDs) wird in JSON mit 90-Tage-Bereinigung gespeichert.

Mein Obsidian-Vault enthält 17.913 Signal-Notizen. Jede einzelne ist ein Forschungspapier, ein Blogbeitrag, eine Sicherheitswarnung oder eine Community-Diskussion, die mein Scanner als potenziell relevant für eines von neun Themen identifiziert hat, die ich verfolge: KI-Sicherheit, LLM-Agenten, Claude/Anthropic, SwiftUI/iOS, Design-Systeme, Creative Coding, ML-Forschung, Wissenschaft und Security. Dies ist die operative Ebene dessen, was ich Geschmacksinfrastruktur nenne — die Idee, dass ästhetisches und redaktionelles Urteilsvermögen in Systeme kodiert werden muss, statt ad hoc angewandt zu werden.

Von diesen 17.913 Signalen habe ich vielleicht 200 gründlich gelesen. Weitere 500 haben eine Entscheidung, einen Blogbeitrag oder eine Designwahl beeinflusst. Die verbleibenden 17.213 sind Rauschen, das ich gescannt, bewertet und abgelegt habe, ohne darauf zu reagieren.

Das Rauschen ist nicht verschwendet. Das Rauschen ist das Instrument.

Das Scoring-Problem

Jedes Signal erhält einen zusammengesetzten Score von 0 bis 1, gewichtet über vier Dimensionen: Relevanz (passt es zu meinen Themen), Handlungsfähigkeit (kann ich etwas damit anfangen), Tiefe (gibt es Substanz) und Autorität (ist die Quelle glaubwürdig). Signale mit einem Score über 0,55 werden in Domänen-Ordner geschrieben. Signale zwischen 0,40 und 0,55 landen im Posteingang. Unter 0,40 werden sie übersprungen.

Die Schwellenwerte sind kalibriert, nicht willkürlich gewählt. Sie entstanden aus monatelangem Scannen, der Überprüfung, was in welchem Bereich landete, und Anpassungen, bis das Signal-Rausch-Verhältnis stimmte. 0,55 war anfangs zu hoch (wichtige Papers wurden übersehen). 0,30 war zu niedrig (der Posteingang füllte sich mit Müll). Die aktuellen Schwellenwerte produzieren pro Scan über alle Themen hinweg ungefähr 15–30 Domänen-Einträge und 10–20 Posteingangs-Elemente.

Das Scoring-System hat Verzerrungen, die ich verstehe:

Forschungspapiere starten bei 0,75 Autorität. Ein arXiv-Paper mit passender Kategorie und Schlüsselwörtern erhält 0,75, noch bevor eine inhaltliche Bewertung stattfindet. Das ist beabsichtigt: Peer-reviewte Forschung aus relevanten Fachgebieten hat eine Grundglaubwürdigkeit, die Blogbeiträge und HN-Diskussionen nicht besitzen.

Sicherheitswarnungen starten bei 0,95 Autorität. Eine CVE aus NVD oder eine GHSA von GitHub erzielt einen hohen Score unabhängig vom Inhalt, weil allein die Existenz einer Schwachstellenwarnung das Signal darstellt. Der Inhalt ist zweitrangig gegenüber der Tatsache.

HN-Diskussionen starten bei 0,55 Autorität. Community-Diskussionen sind wertvoll für Stimmungsbilder und Entdeckungen, aber unzuverlässig in Bezug auf Fakten. Eine hochbewertete HN-Story über ein neues Paper ist ein Entdeckungsmechanismus, keine Quelle. Das Paper selbst ist die Quelle.

Diese Ausgangswerte kodieren mein Urteil über Quellenzuverlässigkeit. Eine andere Person mit anderen Prioritäten würde andere Ausgangswerte setzen. Die Werte sind keine objektive Wahrheit. Sie sind eine kodifizierte Meinung darüber, woher Vertrauen kommt. Die vollständige Scoring-Methodik ist in meiner Signal-Scoring-Pipeline dokumentiert.

Was das Rauschen lehrt

Die meisten Scans produzieren 80–100 Domänen-Einträge und 20–40 Posteingangs-Elemente. Der Großteil davon ist Rauschen: Papers, die ich nie lesen werde, Warnungen für Software, die ich nicht verwende, Diskussionen über Themen, die ich verfolge, aber bei denen ich nicht aktiv werde.

Das Rauschen lehrt drei Dinge:

Die Form des Feldes. Wenn KI-Sicherheits-Scans durchgehend Papers zu mechanistischer Interpretierbarkeit und RLHF zurückliefern, zeigt mir das, worauf sich die Forschungsgemeinschaft konzentriert. Wenn LLM-Agenten-Scans plötzlich innerhalb einer Woche fünf Papers zu agentenbasiertem Code-Review produzieren, deutet das auf einen sich formierenden Trend hin. Die einzelnen Papers mögen Rauschen sein. Die Häufigkeitsverteilung ist Signal.

Die Grundlinie für Überraschung. Ein Paper mit Score 0,65 im Thema KI-Sicherheit ist unbemerkenswert. Ein Paper mit Score 0,91 ist überraschend. Die Überraschung ist nur deshalb bedeutsam, weil ich eine Grundlinie dafür habe, wie 0,65 aussieht. Das Rauschen etabliert die Grundlinie. Das Signal ist die Abweichung davon.

Die Lücken in meiner Abdeckung. Als der LiteLLM-Supply-Chain-Angriff passierte, fing meine scan-intel-Pipeline ihn über HN-Keyword-Matching ab. Die Pipeline hatte zu diesem Zeitpunkt keine Sicherheitswarnungsquellen (NVD, OSV, GHSA). Die Lücke war unsichtbar, bis ein Vorfall hindurchfiel. In der darauffolgenden Woche erweiterte ich die Pipeline um drei Sicherheitswarnungsquellen. Das Rauschen dieser neuen Quellen lehrt mich, wie normaler Warnungsverkehr aussieht. Die nächste Lücke wird früher sichtbar sein.

Die Erweiterung

Die Pipeline startete mit 6 Quellen. Jetzt sind es 12:

Quelle	Typ	Was sie erfasst
arXiv	API	Forschungspapiere nach Kategorie und Schlüsselwort
Semantic Scholar	API	Akademische Papers mit Zitationsdaten
Hacker News	API	Community-Diskussion mit punktgewichteter Relevanz
HuggingFace Daily Papers	API	ML-Papers, kuratiert von der HF-Community
Lobsters	RSS	Technische Community-Diskussion
Simon Willison	Atom	KI-Tooling-Kommentar eines Praktikers
Anthropic-Blog	Scrape	Offizielle Anthropic-Ankündigungen
Papers With Code	Scrape	Papers mit Implementierungen
Apple ML Research	Scrape	Apples ML-Forschungspublikationen
NVD	API	CVEs mit CVSS-Scoring (hinzugefügt März 2026)
OSV	API	Paketspezifische Warnungen für 15 überwachte Pakete
GitHub Advisories	CLI	GHSA-Einträge mit Alias-Querverweisen

Jede Quelle brachte Rauschen mit sich. Zugleich fing jede Quelle etwas ab, das die anderen übersehen hatten. Die LangChain-Path-Traversal-Schwachstelle tauchte in GHSA auf, aber nicht auf HN. Das Claudini-Autoresearch-Paper erschien auf arXiv 12 Stunden bevor es auf HN auftauchte. Der LiteLLM-Credential-Stealer erschien in OSV mit der Kennung MAL-2026-2144, die NVD noch nicht führte.

Das aliasbasierte Deduplizierungssystem fasst quellenübergreifende Duplikate zusammen. Dieselbe CVE, die in NVD, OSV und GHSA erscheint, erzeugt eine Signal-Notiz, nicht drei. Im ersten Live-Durchlauf wurden 6 von 85 Sicherheitssignalen per Alias dedupliziert. Die Deduplizierungsrate wird steigen, je ausgereifter die Quellen werden.

Die Triage-Disziplin

Siebzehntausend Signale erfordern eine Triage-Disziplin. Meine ist simpel: die Ausgabe überfliegen, die hohen Scores lesen, den Rest ablegen.

Ein typischer Scan läuft 3 Minuten und braucht 2 Minuten zur Durchsicht. Jedes Signal über 0,80 lese ich (in der Regel 2–5 pro Scan). Den Bereich 0,60–0,80 überfliege ich nach Überraschungen. Alles unter 0,60 ignoriere ich, es sei denn, ein Schlüsselwort fällt mir ins Auge.

Das Scannen ist ritualisiert. Morgen-Scan, Abend-Scan. Manche Tage produzieren über 100 Domänen-Einträge (wenn ein neuer arXiv-Batch erscheint). Manche Tage produzieren null (wenn das 7-Tage-Rückblickfenster vollständig dedupliziert wurde). Die Varianz ist normal. Die Gewohnheit ist konstant.

Die Signale, die am meisten zählen, sind jene, die verändern, was ich baue oder schreibe. Das Claudini-Paper (0,83) wurde zu einem Blogbeitrag. Der LiteLLM-Supply-Chain-Angriff (0,67 von HN, dann bestätigt via OSV bei 0,62) wurde zu einem Blogbeitrag und zwei Zitationsaktualisierungen bestehender Beiträge. Der LICA-Datensatz (manuell gefunden, nicht durch scan-intel) wurde zu einem Plan für eine Design-Taste-Engine. Das SlopCodeBench-Paper (0,77) wurde zum Zitationskandidaten für den Compound-Context-Beitrag.

Die meisten Signale werden zu nichts. Sie legen sich still im Vault ab, etablieren die Grundlinie und warten auf den Tag, an dem ein neues Signal sich mit einem alten verbindet und eine Erkenntnis hervorbringt, die keines der beiden Signale allein enthielt.

Der Vault als Gedächtnis

Der Vault ist keine Leseliste. Ich habe nicht vor, die 17.213 Signale zu lesen, die ich nicht gelesen habe. Der Vault ist ein abfragbares Gedächtnis dessen, was das Feld in der Zeit produziert hat, in der ich zugeschaut habe — eine Form von Wissenstopologie, bei der die Struktur der Verbindungen mehr zählt als jeder einzelne Knoten.

Wenn ich einen Blogbeitrag über Supply-Chain-Sicherheit schreibe, kann ich den Vault nach jedem Signal durchsuchen, das in den letzten 90 Tagen mit „Security” und „Supply-Chain” getaggt wurde. Die Suche liefert den LiteLLM-Angriff, den Trivy-Kompromiss, den MCPTox-Benchmark, den Clinejection-Angriff und ein Dutzend CVEs zurück, die KI-Infrastrukturpakete betreffen. Jedes davon ist ein potenzielles Zitat, ein Datenpunkt oder ein Gegenargument.

Wenn ich ein neues Feature plane, kann ich nach Signalen suchen, die mit der Domäne zusammenhängen. Der LICA-Datensatz tauchte in einem scan-intel-Durchlauf als Signal mit Score 0,72 im Bereich Design-Systeme auf. Durch gezielte Suche hätte ich ihn nicht gefunden, weil ich nicht nach Grafikdesign-Datensätzen gesucht habe. Der Scan brachte ihn ans Licht, weil die Schlüsselwörter („Design-Systeme”, „Typografie”) übereinstimmten. Der Vault stellte die Verbindung her.

Die 17.213 ungelesenen Signale sind keine verschwendete Mühe. Sie sind indizierter Kontext, den ich bei Bedarf abfragen kann. Das Scannen ist günstig. Die Indizierung erfolgt automatisch. Der Wert bleibt latent bis zu dem Moment, in dem eine Frage sich mit einer Antwort verbindet, die vor Monaten abgelegt wurde. Das ist Compound Context in der Praxis: Jedes heute hinterlegte Signal kann das fehlende Stück einer zukünftigen Synthese werden.

FAQ

Welche Tools verwenden Sie?

Der Scanner ist ein benutzerdefiniertes Python-Skript (scan_intel.py, ~1.200 Zeilen), das von 12 Quellen abruft, mit einer Triage-Engine bewertet, über drei Ebenen dedupliziert (URL, Paper-ID, Advisory-Aliase) und Markdown-Notizen in einen Obsidian-Vault schreibt. Der Vault verwendet Dataview für Abfragen. Die Konfiguration liegt in JSON. Der Zustand (gesehene IDs) wird in JSON mit 90-Tage-Bereinigung gespeichert.

Was kostet das?

Nichts. Alle Quellen sind kostenlose APIs oder öffentliche RSS-Feeds. arXiv, Semantic Scholar, OSV und die HN-Algolia-API erfordern keine Authentifizierung. NVD bietet einen kostenlosen Tarif mit Ratenbegrenzung (5 Anfragen pro 30 Sekunden). GitHub Advisories nutzen die gh-CLI, die sich über Ihre bestehende GitHub-Sitzung authentifiziert.

Wie vermeiden Sie Informationsüberflutung?

Durch die Scoring-Schwellenwerte und die Triage-Disziplin. Pro Scan verbringe ich 2 Minuten mit der Durchsicht der Ausgabe. Signale unter 0,60 werden abgelegt, ohne gelesen zu werden. Der Vault wächst, aber meine Aufmerksamkeit skaliert nicht mit ihm. Der Vault ist ein Gedächtnis, keine Leseaufgabe.

Kann ich dieses System nutzen?

Die Architektur ist portabel: von APIs abrufen, mit gewichteten Kriterien bewerten, deduplizieren, in eine Wissensbasis schreiben. Die spezifischen Quellen, Schlüsselwörter und Schwellenwerte sind auf meine Interessen kalibriert. Sie müssten Ihre eigenen Themen, Schlüsselwörter und Autoritäts-Ausgangswerte definieren. Die Scoring-Engine und die Deduplizierungslogik sind domänenunabhängig. Mein Obsidian-Leitfaden behandelt die Vault-Architektur und Abfragemuster im Detail, und mein Beitrag zum Hybrid Retriever erklärt, wie ich Schlüsselwort- und semantische Suche über diesen Korpus kombiniere.