Der Einsatz von Data Mining in der Schadsoftware-Analyse am Beispiel von Prozessereignissen

Master-Studiengang Information Security

Dipl.-Ing. Wilhelm Ehn, BSc

Betreuerin: FH-Prof. Dipl.-Ing. Mag. Marlies Temper, Bakk.

Ausgangslage

Viren und andere Schadprogramme haben fatale wirtschaftliche und gesellschaftliche Auswirkungen. Schätzungen über Schäden aufgrund von IKT-Sicherheitsvorfällen belaufen sich auf 520 Milliarden Euro jährlich. Allerdings wird die Erkennung und Analyse von Malware aufgrund von ausgefeilten Verschleierungsmethoden zunehmend schwieriger. Deswegen werden stetig neue Verfahren benötigt, um sowohl Angriffe auf Systeme zu detektieren als auch bösartige von harmlosen Programmen zu unterscheiden.

Eine mögliche Herangehensweise dafür ist die Analyse der laufenden Softwareprozesse am jeweiligen System. Startet eine Benutzerin oder ein Benutzer eine Anwendung, so werden dabei im Hintergrund bei jeder Ausführung eines Prozesses unzählige Systemereignisse (z.B. Datei wird geschrieben, Netzwerkverkehr wird initiiert) ausgeführt. Ein neuer Ansatz in der Erkennung und Analyse von Malware liegt darin, diese Prozessereignisse anhand deren Zustandsänderungswahrscheinlichkeiten zu betrachten.

Ziel

Das Ziel dieser Diplomarbeit ist es herauszufinden, inwieweit sich das Gruppieren von Prozessen auf Basis von unterschiedlichen Clusterverfahren (z.B. k-Means, DBSCAN) dazu eignet, bei der Analyse und Erkennung von Malware behilflich zu sein. Dabei ist besonders die Fragestellung von Interesse, ob es realisierbar ist, Prozesse anhand deren Übergangswahrscheinlichkeiten so zu clustern, dass daraus Erkenntnisse für die Schadsoftwareanalyse entstehen. Ist es z.B. möglich, Prozesse so zu gruppieren, dass diese in unterschiedliche Softwarekategorien (z.B. Office-Programme, Browser, Mediaplayer, Trojaner) eingeordnet werden? 

Ergebnis           

Im Rahmen dieser Diplomarbeit werden verschiedene Clusterverfahren dazu verwendet, ähnliche Softwareprozesse in gleiche Gruppen einzuteilen. Dabei wird ein neuer Forschungsansatz verwendet, indem Übergangswahrscheinlichkeiten von Prozessereignissen für die Berechnungen herangezogen werden. Zur besseren Veranschaulichung werden die Ergebnisse auf einer „Prozesslandkarte“ visualisiert und mit verschiedenen Qualitätskennzahlen evaluiert. Dabei zeigen die erzielten Resultate, dass die Clusterverfahren unterschiedliche Stärken und Schwächen aufweisen und durchaus dazu geeignet sind Zusammenhänge von Softwareprozessen darzustellen. Die Untersuchungen führen darüber hinaus zu neuen Sichtweisen im Bereich der Mustererkennung.