Feature Selection zur Malware-Erkennung

Bachelor Studiengang IT Security

Melanie Hosinner, BSc

Betreuer: Dipl.-Ing. Dr. Martin Pirker, Bakk. 

Ausgangslage 

Computersysteme und deren UserInnen sind durch das Internet großen Gefahren ausgesetzt. Ob durch gezielte Angriffe oder im Netz kursierende Malware, jedes System, welches mit dem Internet verbunden ist, ist automatisch Ziel von Angriffen. Die Gefahr ist aber nicht bloß auf das Internet beschränkt, eine Verbreitung von Schadsoftware kann natürlich auch auf anderen Wegen erfolgen.

Durch spezialisierte Toolkits ist heutzutage die Erstellung von Malware immer einfacher, und außerdem werden die Tarnmethoden immer ausgefeilter, was die Erkennung von Schadprogrammen zusätzlich erschwert. Durch die schnelle Verbreitung und die immer ausgeklügelter werdende Malware werden neue Wege der Detektion und Abwehr dringend benötigt.

Intelligente Überwachungssysteme, antrainiert über Machine Learning, sollten eine schnelle(re) Erkennung von sicherheitsrelevanten Anomalien in der Ausführung von Programmen möglich machen. 

Ziel

In dieser Arbeit sollen gesammelte Computer-Events untersucht werden und dabei sicherheitsrelevante Anomalien durch Machine Learning erkannt werden. Dazu wurden Daten aus der Praxis von einem Firmenpartner zur Verfügung gestellt. Die Daten beinhalten verschiedenste Informationen über laufende Programme, sogenannte Features. Um ein Machine Learning Modell erfolgreich zu trainieren, ist die richtige Wahl der Features entscheidend. In dieser Arbeit sollen die Daten und ihre Features untersucht, und passende Algorithmen zu ihrer Verarbeitung gefunden werden.

Ergebnis

Bei den Experimenten mit den Daten wurden Modelle eines Isolation Forest konstruiert und eine spezielle Methode zum Kodieren der Rohdaten entwickelt. Dieser Ansatz erlaubt die Untersuchung von großen Datenmengen mit einer hoher Anzahl an Features, wodurch eine Selektion von Features hinfällig wird.

Die prototypische Implementierung zeigt, dass ein Isolation Forest sehr treffsicher Anomalien in Datensets erkennen kann. Es konnte festgestellt werden, für welche Kategorien der Daten der Isolation Forest besonders effektiv ist. Schließlich werden Empfehlungen vorgestellt, wie ein solcher zukünftig als praktische Sicherheitslösung eingesetzt werden kann.