Exploratory PDF File Analysis and Malware Recognition

Master Studiengang Information Security

Dipl.-Ing. Aron Molnar, BSc (Jg. 2014/2016)

Betreuer: Dipl.-Ing. Dr. Sebastian Schrittwieser, Bakk.

Ausgangslage

Aufgrund seiner Interoperabilität und Kompatibilität ist das „Portable Document Format“ PDF eines der am weitesten verbreiteten Dateitypen in Unternehmen und Organisationen. Die zahlreichen Funktionalitäten können jedoch nicht nur für die Erstellung nützlicher und einfach zu handhabender Dokumente verwendet werden, sondern auch von Autorinnen und Autoren von Schadprogrammen zur Infiltrierung von Computersystemen. Darum erfreut sich das Dateiformat hoher Beliebtheit bei Kriminellen im virtuellen Raum. Doch nicht nur in Form von Angriffen kann das Dateiformat Risiken für Organisationen bergen. Das Dateiformat ist in einer Weise aufgebaut, dass sich Inhalte in Dateien befinden, die beim einfachen Betrachten der Dokumente nicht ersichtlich sind. So könnten sensible Informationen ohne das Wissen der veröffentlichenden Person in die falschen Hände gelangen.

Ziel

Im Rahmen dieser Arbeit werden PDF-Dateien aus vier Kategorien gesammelt und analysiert: Dokumente aus dem Internet, dem Tor-Netzwerk, infizierte und nicht infizierte Dateien. Ziel der Arbeit ist es, Unterschiede zwischen den Dateien verschiedener Herkunft zu finden und zu analysieren. Dies erfolgt im Hinblick auf eingebettete Metadaten wie etwa Titel des Dokuments oder Name der Autorin / des Autors, auf verwendete Datei-Funktionalitäten wie etwa JavaScript oder Kommentare und auf die physikalische Struktur der Dateien. Die daraus gewonnenen Erkenntnisse und Daten werden für eine Klassifizierung der Dateien herangezogen, um durch Datenanalyse zwischen infizierten und nicht infizierten Dateien unterscheiden zu können.

Ergebnis

Die Auswertung von Metadaten und Funktionalitäten von PDF-Dokumenten zeigte signifikante Unterschiede, besonders zwischen infizierten und nicht infizierten Dateien. So findet man, wie erwartet, in nicht infizierten Dateien häufiger Metadaten als in infizierten Dokumenten. Auch sind etwa in infizierten Dateien vier Mal häufiger JavaScript-Objekte zu finden, während es sich beim Anteil an Sprung-Referenzen („GoTo“) umgekehrt verhält. Eine Analyse von Adobes „Adobe Experience Manager document security“ für den Schutz digitaler Rechte (DRM) zeigte Design-Mängel im System. Eine Analyse von Standard-Funktionalitäten des Dateityps offenbarte Fehler in der Implementation von Adobe Reader und Acrobat. Die gesammelten Daten wurden für die Klassifizierung von infizierten und nicht infizierten Dateien verwendet. Ein Machbarkeitsbeweis wurde erbracht mit einer Genauigkeit von fast 94 Prozent mit Verwendung von 149 Datenpunkten und dem SVM-Algorithmus.