Identification of Binary Packers – Analyzing the accuracy of statistical classification

Bachelor Studiengang IT Security

Christoph Wiedner, BSc

Betreuer: FH-Prof. Dipl.-Ing. Dr. Sebastian Schrittwieser, Bakk.

Ausgangslage

Heutzutage ist das Internet ein fester Bestandteil unseres Alltags und kaum noch wegzudenken. Doch das Internet bringt nicht nur Vorteile mit sich, sondern auch eine Vielzahl an Bedrohungen. Diese Bedrohungen warten regelrecht nur darauf, dass ein/e unwissende/r BenutzerIn schädliche Dateien, wie Viren oder Trojaner, herunterlädt und diese ausführt. Ist man erst einmal infiziert, werden die privaten Daten in den meisten Fällen gestohlen oder gelöscht. Glücklicherweise gibt es jede Menge gute Antiviren-Systeme, die den/die BenutzerIn vor genau solchen Bedrohungen beschützen sollen. Jedoch setzen die EntwicklerInnen von schädlichen Dateien verstärkt auf bestimmte Programme, auch Packer genannt, mit denen sie ihre Viren wie ganz normale Dateien aussehen lassen und somit für Antiviren-Systeme unerkannt bleiben. Um dagegen vorzugehen, müssen neue Systeme entwickelt werden, mit denen erkannt werden kann, welches Programm zur Veränderung verwendet wurde. Mit diesem Wissen können Dateien entsprechend weiter analysiert und in Folge dessen korrekt als schädlich oder nicht schädlich eingestuft werden.

Das System, das in dieser Arbeit behandelt wird, extrahiert bestimmte Eigenschaften aus der zu testenden Datei und klassifiziert diese mithilfe von statistischen Algorithmen.

Ziel

Das Ziel dieser Arbeit ist, ein bestehendes Erkennungssystem auf seine Genauigkeit und Tauglichkeit in einer realen Umgebung zu überprüfen. Hierfür wird das System unter möglichst realen Bedingungen mit entsprechenden Daten überprüft.

Zusätzlich wird versucht, die Erkennungsrate durch Anpassungen am System, sowie durch die Erweiterung von zusätzlichen Eigenschaften zu verbessern.

Ergebnis

Im Verlauf der Arbeit stellte sich heraus, dass das getestete System ca. 81% der getesteten Dateien erfolgreich erkennen konnte, was es durchaus für eine Nutzung in einem realen Szenario qualifiziert. Durch weitere Analysen konnten sowohl eine Verbesserung des Systems, als auch eine Erweiterung der verwendeten Eigenschaften durchgeführt werden. In Folge dieser Anpassungen war es möglich, die Erkennungsrate um ungefähr 5%, auf insgesamt 86%, zu erhöhen.