KI-Malwareanalyse braucht Beweispakete

9 Min. Lesezeit

Zane St. John kaufte einen günstigen Android-Projektor, bemerkte verdächtigen DNS-Verkehr und nutzte Claude Code als Reverse-Engineering-Assistenten, um die vorinstallierten Apps des Geräts zu untersuchen.¹

Interessant ist nicht, dass ein KI-Agent bei der Malwareanalyse geholfen hat. Diese Behauptung wird schnell banal werden. Interessant ist die Form des Artefakts: beobachtetes Netzwerkverhalten, Paketnamen, dekompilierte Codepfade, Befehlsausgaben, Notizen und Indikatoren, die ein Mensch prüfen kann. Malwareanalyse mit Agenten wird erst vertrauenswürdig, wenn das Ergebnis weniger wie eine Antwort und mehr wie eine Fallakte aussieht.

KI-Malwareanalyse braucht Beweispakete. Agenten können Entpacken, Dekompilierung, Suche, Zusammenfassung und Hypothesenbildung beschleunigen. Analysten brauchen dennoch Hashes, Tool-Versionen, Befehle, extrahierte Indikatoren, Quellpfade, Unsicherheitsmarkierungen und Zuordnungen von Behauptungen zu Belegen, bevor sie einer Schlussfolgerung vertrauen.

Kurzfassung

Microsoft Research beschreibt Project Ire als autonomen Agenten zur Malwareklassifizierung, der Software per Reverse Engineering untersucht und eine Beweiskette erstellt, bevor ein Validator entscheidet, ob die Grundlage für ein Malwareurteil ausreicht.² Zanes Untersuchung des Android-Projektors zeigt dasselbe Muster in kleinerem Maßstab: Ein Agent kann einem einzelnen Analysten helfen, sich durch APKs, Protokolle, Strings und verdächtige Codepfade zu arbeiten.¹

Die sichere Produktlehre daraus ist eng gefasst. Behandeln Sie einen KI-Malwareanalysten als Werkbank, nicht als Autorität. Die Werkbank kann Belege extrahieren, ordnen und verbinden. Sie sollte keine Live-Infrastruktur kontaktieren, keine Clients für Exploits schreiben, unbekannte Payloads nicht auf einem normalen Arbeitsplatz ausführen und menschliches Urteil über Auswirkungen nicht ersetzen. Das nützliche Ergebnis ist ein Beweispaket, das ein Prüfer reproduzieren kann.

Wichtigste Erkenntnisse

Für Sicherheitsteams: - Fordern Sie von Agenten Beweispakete, keine Urteile. - Halten Sie Sample-Identität, Befehlsprotokolle, Tool-Versionen, extrahierte Indikatoren und Beleggrundlagen zusammen. - Verlangen Sie menschliche Freigabe vor jeder dynamischen Ausführung, jedem Netzwerkkontakt und jeder Analyse mit Zugangsdaten.

Für Agentenentwickler: - Legen Sie Malwareanalyse-Arbeitsabläufe standardmäßig auf schreibgeschützte statische Analyse aus. - Trennen Sie Extraktion, Hypothesenbildung, Verifikation und Berichterstattung in klare Schritte. - Bewahren Sie Rohartefakte und Quellstellen auf, damit ein Mensch die Kette prüfen kann.

Für Produktteams: - Verkaufen Sie „autonome Malwareanalyse” nicht als Magie. - Zeigen Sie, was der Agent geprüft, was er abgeleitet, was er nicht verifiziert und was weiterhin ein Mensch entscheiden muss. - Bauen Sie zuerst Prüfpakete, bevor Sie dramatische Dashboards bauen.

Was der Android-Projektor-Fall zeigt

St. Johns Untersuchung begann mit beobachtetem Verhalten: DNS-Anfragen des Projektors vor der normalen Nutzung.¹ Das ist wichtig, weil der Verdacht vom Gerät ausging, nicht vom Modell. Der Agent kam erst hinzu, nachdem der Analyst bereits eine prüfenswerte Frage hatte.

Der Arbeitsablauf führte dann über gewöhnliche Reverse-Engineering-Ansatzpunkte:

Ansatzpunkt	Warum er wichtig ist
DNS-Beobachtungen	Zeigten, dass das Gerät kommunizierte, bevor der Benutzer es dazu aufforderte.
Android-Paketnamen	Halfen einzugrenzen, welche vorinstallierten Apps eine Prüfung verdienten.
APK-Dekompilierung	Verwandelte gebündelten Code in durchsuchbare, quellcodeähnliche Ausgabe.
Strings und Endpunkte	Legten Konfiguration, Netzwerkziele und Updateverhalten offen.
Notizen und Zusammenfassungen	Verhinderten, dass aus der Untersuchung nur ein Haufen Rohdateien wurde.

Der Artikel nennt gängige Android-Reverse-Engineering-Tools wie adb und jadx.¹ Diese Tools machen eine Schlussfolgerung nicht wahr. Sie machen das Artefakt prüfbar. jadx beschreibt sich selbst als Kommandozeilen- und GUI-Dekompilierer, der Android-Dex- und APK-Dateien in Java-Quellcode umwandelt und Android-Ressourcen dekodieren kann.³ Apktool beschreibt sich als Tool für Reverse Engineering von Android-APK-Dateien, einschließlich Manifest, Ressourcen, smali und Rebuild-Arbeitsabläufen.⁴

Der Vorteil des Agenten liegt dazwischen. Er kann unbekannte Pakete durchsuchen, Code zusammenfassen, wahrscheinliche Prüfbereiche vorschlagen und eine Aufgabenliste pflegen. Der Analyst muss jede Behauptung weiterhin am ursprünglichen Artefakt verifizieren.

KI macht aus Reverse Engineering Fallmanagement

Klassische Malwareanalyse erzeugt bereits eine Fallakte. Sie kann Hashes, Sample-Herkunft, Strings, Domains, IP-Adressen, Mutexes, Registry-Schlüssel, Dateipfade, Screenshots, Disassembly-Notizen, Sandbox-Ausgaben und ein abschließendes Urteil enthalten.

Agenten verändern Geschwindigkeit und Umfang dieser Arbeit. Sie können mehr Dateien lesen, mehr Notizen schreiben und mehr Hypothesen erzeugen, als ein einzelner Analyst manuell tippen würde. Ohne strengere Ausgabevorgabe schafft diese Geschwindigkeit ein Vertrauensproblem. Eine selbstsichere Zusammenfassung kann eine falsche Ableitung, einen übersehenen Zweig oder einen halluzinierten API-Namen verdecken.

Microsofts Project Ire zeigt in eine bessere Richtung. Laut Microsoft analysiert und klassifiziert das System Software autonom und baut für seine Befunde eine Beweiskette auf.² Das Design umfasst Tools für Reverse Engineering sowie einen Validator, der prüft, ob die Belege das Urteil tragen.² Diese Validator-Idee ist wichtiger als der Markenname. Malwareanalyse braucht einen separaten Richter für die Belege, nicht nur einen flüssigen Erzähler der Schlussfolgerung.

Nutzen Sie dieselbe Trennung in kleineren Arbeitsabläufen:

Schritt	Rolle des Agenten	Menschliche oder regelbasierte Prüfschwelle
Beschaffen	Sample-Quelle und Hash erfassen.	Autorisierung und Eindämmung bestätigen.
Extrahieren	Statische Artefakte entpacken.	Toolchain und Sample-Umgang freigeben.
Prüfen	Code, Manifeste, Strings und Ressourcen durchsuchen.	Quellstellen kontrollieren.
Hypothesen bilden	Verdächtiges Verhalten und Risiko vorschlagen.	Stützende Belege verlangen.
Verifizieren	Jede Behauptung einem Artefakt zuordnen.	Nicht belegte Behauptungen verwerfen.
Berichten	Indikatoren und Auswirkungsnotizen schreiben.	Maßnahme und Offenlegung entscheiden.

Der Agent kann viel leisten. Die Prüfschwelle entscheidet, was geglaubt werden darf.

Android bietet nützliche statische Ansatzpunkte

Android-Malwareanalyse hat einen praktischen Vorteil: APKs legen mehrere statische Ansatzpunkte offen, bevor jemand die App ausführt.

Die Android-Sicherheitsdokumentation nennt Risikokategorien wie Klartextkommunikation, dynamisches Laden von Code, unsichere Broadcast Receiver, fest codierte Secrets und Fehler im Umgang mit Berechtigungen.⁵ MITRE ATT&CK for Mobile enthält Techniken wie Broadcast Receivers und Herunterladen neuen Codes während der Ausführung und gibt Analysten damit ein Vokabular, um beobachtetes Verhalten Angreifertechniken zuzuordnen.⁶

Deshalb ist ein statikzentriertes Beweispaket wertvoll:

Android-Artefakt	Zu erfassender Beleg
APK-Hash	SHA-256, Quelle, Erfassungsdatum und Dateiname.
Manifest	Paketname, Berechtigungen, Services, Receiver, Provider, exportierte Komponenten und SDK-Ziele.
Dekompilierter Code	Dateipfad, Klasse, Methode und Zeile oder Symbol rund um die Behauptung.
Ressourcen	URLs, Domains, API-Pfade, Konfigurationswerte, Zertifikate und Assets.
Native Bibliotheken	Bibliotheksnamen, Architektur, exportierte Symbole und Entpacknotizen.
Netzwerkbeobachtungen	Beobachtete Domains oder IPs, Zeitstempel, Tool und ob der Kontakt passiv oder aktiv erfolgte.
Verhaltenszuordnung	ATT&CK-Mobile-Technik nur, wenn Belege sie stützen.
Unsicherheit	Was der Agent nicht geprüft oder nicht beweisen konnte.

Die Tabelle vermeidet einen wichtigen Fehler: Sie bittet das Modell nicht zuerst um die Entscheidung „Malware oder nicht”. Sie verlangt vom System, die Belege aufzubewahren, die ein späteres Urteil überprüfbar machen.

Das Beweispaket

Ein nützliches Paket für KI-Malwareanalyse sollte einer vorhersehbaren Form folgen:

Abschnitt	Pflichtinhalt
Umfang	Wer die Analyse autorisiert hat, welches Sample oder Gerät untersucht wurde und welche Aktionen verboten waren.
Sample-Identität	Hashes, Dateinamen, Größen, Zeitstempel, Quellpfad und Chain-of-Custody-Notizen.
Toolchain	Tool-Namen, Versionen, Befehlszeilen und Umgebungsgrenzen.
Statische Befunde	Manifest-Fakten, Paketnamen, verdächtige Strings, Endpunkte, Ressourcen und Codepositionen.
Dynamische Befunde	Nur wenn autorisiert: Umgebung, Netzwerkisolation, Protokolle, Screenshots und beobachtetes Verhalten.
Indikatoren	Domains, IP-Adressen, Paketnamen, Dateipfade, Zertifikatsdaten und andere beobachtbare Artefakte.
Behauptungszuordnung	Jede Schlussfolgerung zusammen mit dem exakten Artefakt, das sie stützt.
Nicht verifizierte Arbeit	Nicht entpackte Samples, nicht verfolgte Codepfade, nicht reproduziertes Netzwerkverhalten und Annahmen.
Empfohlene Maßnahme	Blockieren, überwachen, entfernen, eskalieren, offenlegen oder Analyse fortsetzen, jeweils mit Vertrauensniveau.

Die Behauptungszuordnung ist das Herz des Pakets:

Behauptung	Beleg	Vertrauensniveau
App nutzt dynamisches Laden von Code	Dekompilierter Codepfad plus Verweis auf Android-Risikokategorie.	Mittel, bis dynamisches Verhalten reproduziert wurde.
App kontaktiert verdächtige Domain	Passive DNS-Beobachtung plus String- oder Konfigurationsverweis.	Hoch, wenn beide Quellen übereinstimmen.
App bleibt über Receiver dauerhaft aktiv	Manifest-Receiver plus Codepfad, der Boot- oder System-Broadcast verarbeitet.	Mittel, sofern nicht im Labor beobachtet.
App ist bösartig	Mehrere belegte Verhaltensweisen, Kontext und menschliche Prüfung.	Niemals allein aus der Modellzusammenfassung.

Die letzte Zeile schützt den Analysten. Malwareurteile haben Folgen. Ein falsch positiver Befund kann einem Anbieter schaden oder eine Incident Response verwirren. Ein falsch negativer Befund kann einen Benutzer gefährdet lassen. Das Modell darf keine Abkürzung an den Belegen vorbei bekommen.

Was der Agent verweigern sollte

Malwarearbeit braucht Verweigerungsgrenzen, selbst wenn das Ziel defensiv ist.

Ein Agent sollte verweigern oder ausdrückliche menschliche Autorisierung verlangen, bevor er:

Live-Command-and-Control-Infrastruktur kontaktiert;
einen Client für eine vermutete Backdoor oder einen Updater schreibt;
Second-Stage-Payloads aus angreiferkontrollierter Infrastruktur herunterlädt;
ein unbekanntes Sample außerhalb eines isolierten Labors ausführt;
echte Benutzerzugangsdaten, persönliche Konten oder Produktionsnetzwerke während der Analyse verwendet;
Live-Indikatoren veröffentlicht, die vor Responsible Disclosure ein Opfer identifizieren könnten;
aus einer defensiven Untersuchung Exploitation-Anweisungen macht.

OpenAIs Local-Shell-Dokumentation warnt, dass es gefährlich sein kann, Agenten beliebige Shell-Befehle ausführen zu lassen, und empfiehlt Sandboxen oder strikte Allow- und Deny-Listen, bevor Befehle an eine Shell weitergeleitet werden.⁷ Der Best-Practices-Leitfaden von Anthropic zu Claude Code betont Verifikationskriterien und Kontextmanagement für Agentenarbeit.⁸ Malwareanalyse braucht beides: Befehlsgrenzen vor Handlungen und Beleggrenzen vor Vertrauen.

Die Verweigerungsgrenze sollte direkt in der Aufgabe stehen:

Analysieren Sie dieses APK statisch.
Führen Sie es nicht aus.
Kontaktieren Sie keine entfernte Infrastruktur.
Schreiben Sie keinen Exploit- oder Client-Code.
Geben Sie nur Belege mit Dateipfaden, Befehlen und Vertrauensmarkierungen zurück.
Markieren Sie jede nicht belegte Behauptung als nicht verifiziert.

Eine solche Anweisung macht den Arbeitsablauf nicht von allein sicher. Sie gibt Hooks, Sandboxen und Prüfern etwas Konkretes, das sie durchsetzen können.

Das Urteil bleibt beim Menschen

Ein KI-Agent kann während einer Malwareanalyse Stunden sparen. Er kann aus einem Haufen APKs eine kurze Liste verdächtiger Pakete machen. Er kann Klassen zusammenfassen, Intent-Filter entpacken, Konfigurations-Strings identifizieren und einen Berichtsentwurf erstellen. Diese Gewinne zählen.

Das Urteil sollte nicht beim Agenten liegen.

Der Analyst verantwortet:

die Autorisierung, das Sample zu analysieren;
die Entscheidung, irgendetwas dynamisch auszuführen;
die Interpretation von Absicht und Auswirkung;
die Kommunikation mit betroffenen Anbietern, Benutzern oder Plattformen;
Entscheidungen zu Abhilfe und Offenlegung;
die endgültige Formulierung im Bericht.

Diese Trennung hält den Agenten nützlich. Das Modell erledigt die ermüdende Verbindungsarbeit. Der Mensch behält die ethische, rechtliche und kontextuelle Verantwortung.

So bauen Sie den Arbeitsablauf

Beginnen Sie mit einer kleinen Schleife für statische Analyse:

Hashen Sie das Sample und erfassen Sie seine Herkunft.
Extrahieren Sie Manifest, Ressourcen, Strings und dekompilierten Code in ein schreibgeschütztes Arbeitsverzeichnis.
Bitten Sie den Agenten, eine Befundliste mit Quellstellen zu erstellen.
Lassen Sie in einem zweiten Durchgang jeden Befund kritisch prüfen und nicht belegte Behauptungen markieren.
Erstellen Sie das Beweispaket.
Entscheiden Sie, ob das Paket eine dynamische Laboranalyse rechtfertigt.

Der Agentenprompt sollte strukturierte Ausgabe verlangen:

Für jeden Befund angeben:
- Behauptung
- Artefaktpfad
- Befehl, der das Artefakt erzeugt hat
- Quellausschnitt oder Symbol
- Vertrauensniveau
- was die Behauptung widerlegen würde
- ob dynamische Analyse erforderlich ist

Diese Ausgabe klingt weniger aufregend als „der Projektor enthält Malware”. Sie ist sehr viel nützlicher.

Die Belegschwelle gilt hier direkt. Eine Behauptung ohne Beleg sollte nicht in die endgültige Antwort gelangen. Prüfpakete sind die neue endgültige Antwort gilt ebenfalls: Die Lieferung ist nicht die Prosazusammenfassung, sondern das Paket, mit dem eine andere Person die Arbeit verifizieren kann.

FAQ

Können KI-Agenten Malwareanalyse durchführen?

Ja, innerhalb klarer Grenzen. Agenten können bei statischer Analyse, Zusammenfassung, Navigation durch Dekompilierung, Indikatorenextraktion und Berichtsentwurf helfen. Ohne reproduzierbare Belege und menschliche Prüfung sollten sie nicht zur letzten Autorität für Malwareurteile werden.

Ist es sicher, Claude Code oder Codex bei Malware zu verwenden?

Nur innerhalb eines kontrollierten defensiven Arbeitsablaufs. Führen Sie unbekannte Samples nicht auf einem normalen Arbeitsplatz aus, kontaktieren Sie keine Live-Infrastruktur und geben Sie dem Agenten keine Zugangsdaten oder uneingeschränkten Shell- bzw. Netzwerkzugriff. Statische Analyse in einem isolierten Arbeitsverzeichnis ist der sicherere Ausgangspunkt.

Was sollte ein Beweispaket für Malwareanalyse enthalten?

Mindestens: Hashes, Sample-Quelle, Tool-Versionen, Befehle, Manifest-Fakten, extrahierte Indikatoren, Codepositionen, eine Zuordnung von Behauptungen zu Belegen, Vertrauensmarkierungen und eine Liste nicht verifizierter Arbeit.

Zählt ein KI-Urteil als Beleg?

Nein. Die Aussage des Modells ist eine Interpretation. Belege stammen aus Artefakten: Hashes, Protokollen, Befehlen, Codepfaden, Manifesten, beobachtetem Netzwerkverhalten und reproduzierbaren Analyseschritten.

Sollten Agenten Befunde MITRE ATT&CK zuordnen?

Ja, wenn die Belege die Zuordnung tragen. Ein Techniklabel ohne Artefaktbezug wird zur Dekoration. Verwenden Sie ATT&CK Mobile als Vokabular, nicht als Ersatz für Beweise.⁶

Schluss

KI entfernt den Analysten nicht aus der Malwareanalyse. Sie verändert, was der Analyst verlangen sollte.

Das schwache Ergebnis ist ein selbstsicheres Urteil. Das starke Ergebnis ist ein reproduzierbares Paket: Sample-Identität, Befehle, Artefakte, Indikatoren, Beleggrundlage, Unsicherheit und nächste Maßnahme.

Agenten können Reverse Engineering schneller machen. Beweispakete machen es vertrauenswürdig.

Referenzen

Zane St. John, “Reverse Engineering Android Malware with Claude Code,” veröffentlicht am 5. Februar 2026. Quelle für den Android-Projektor-Fall, den Ausgangspunkt mit verdächtigem DNS, die Nutzung von adb und jadx, die von Claude Code unterstützte APK-Prüfung und die Form des defensiven Reverse-Engineering-Arbeitsablaufs. ↩↩↩↩
Microsoft Research, “Project Ire: Autonomously Identifying Malware at Scale,” veröffentlicht im August 2025. Quelle für Project Ires autonome Reverse-Engineering-Rahmung, das Beweisketten-Design, Tool-Nutzung und Validator-Stufe. ↩↩↩
jadx project, “jadx README,” GitHub-Repository-Dokumentation, abgerufen am 18. Mai 2026. Quelle für jadxs Zweck als Dex-zu-Java-Dekompilierer mit Kommandozeilen- und GUI-Nutzung sowie Unterstützung für Android-APK/Ressourcen. ↩
Apktool, “Apktool,” offizielle Dokumentation, abgerufen am 18. Mai 2026. Quelle für Apktools beschriebene Rolle als Tool für Reverse Engineering von Android-APK-Dateien und seinen Arbeitsablauf zur Dekodierung von Manifest, Ressourcen und smali. ↩
Android Developers, “Mitigate Security Risks in Your App,” abgerufen am 18. Mai 2026. Quelle für Android-Risikokategorien einschließlich Klartextkommunikation, dynamischem Laden von Code, fest codierten Secrets und unsicheren Broadcast Receivers. ↩
MITRE ATT&CK, “Mobile Matrix,” abgerufen am 18. Mai 2026. Quelle für das ATT&CK-Mobile-Technikvokabular einschließlich Broadcast Receivers und Herunterladen neuen Codes während der Ausführung. ↩↩
OpenAI, “Local shell,” OpenAI-API-Dokumentation, abgerufen am 18. Mai 2026. Quelle für die Risikorahmung zu Local Shell sowie Sandbox- oder Allow/Deny-Listen-Empfehlungen, bevor Agenten Shell-Befehle ausführen. ↩
Anthropic, “Best Practices for Claude Code,” Claude Code-Dokumentation, abgerufen am 18. Mai 2026. Quelle für Kontextfenster-, Verifikationskriterien- und CLI-Tool-Arbeitsablaufhinweise, die in die Rahmung der Agentenanalyse eingeflossen sind. ↩