Lose your Face or Train to keep it

Bachelor Studiengang IT Security

Robert Hanus, BSc

Betreuer: Dipl.-Ing. Peter Kieseberg

Ausgangslage

Täglich werden Webseiten im Internet zum Angriffsziel unterschiedlichster Attacken, da sie die erste öffentlich aufrufbare Anlaufstelle von vielen Unternehmen und Privatpersonen darstellen.

Im Gegensatz zu Attacken, die versuchen Daten zu stehlen oder einen Service lahm zu legen, gibt es jedoch auch Attacken, welche darauf abzielen digitalen Vandalismus auf der Webseite zu vollführen. Solch eine Attacke nennt sich “Defacement” und hat häufig einen gravierenden Rufschaden zur Folge.

Bei einem Defacement wird lediglich das visuelle Erscheinungsbild einer Webseite verändert. Dabei werden meist sehr plakativ Nachrichten angezeigt, welche vermitteln, dass der Webseitenbetreiber angegriffen wurde und offene Sicherheitslücken aufweist.

Aufgrund der Tatsache, dass sich meist keine Schadsoftware in der ausgetauschten Seite befindet, werden diese Angriffe oft nicht von Virenscannern erkannt und bleiben daher tagelang von den Betreibern unentdeckt, während sie von unzähligen Besuchern der Seite jedoch bereits gesehen wurden. Dies wiederum schafft Misstrauen bei den Besuchern und resultiert in einem massiven Reputationsschaden, der einer Firma oft viele Kunden und Geschäftsmöglichkeiten raubt.

Ziel

Ziel der Arbeit ist es, einen Weg zu finden Defacements frühzeitig zu erkennen, um sofort darauf reagieren zu können. Da sie jedoch aufgrund der dynamischen Eigenschaft der visuellen Webprogrammierung immer anders aussehen können, gestaltet sich eine Erkennung basierend auf Signaturen allein als schwierig.

Aus diesem Grund wird die Erkennung mittels maschinellem Lernen umgesetzt, wobei eine Klassifizierung zwischen den beiden Kategorien “Defaced” und “Nicht Defaced” stattfindet. Dabei werden einzelne Eigenschaften einer Seite extrahiert, die ausschlaggebend dafür sind, ob sie defaced wurde, oder nicht.

Ein Modell, welches diese Attribute als Input bekommt, wird erst mit bereits klassifizierten Seiten trainiert, um zu lernen die validen Webseiten von den attackierten zu unterscheiden. Nach dem Trainingsprozess kann das Modell eigenständig neue Webseiten, die jedoch noch nicht kategorisiert wurden, mit einer gewissen Erfolgsquote klassifizieren. Das Modell kann daher zur kontinuierlichen Sicherheitsüberwachung von Webseiten eingesetzt werden, um im Falle eines Angriffs den Betreiber so schnell wie möglich darüber zu informieren. 

Ergebnis

Durch eine sehr detaillierte grafische und quantitative Auswertung der unterschiedlichen Eigenschaften von kompromittierten Webseiten, konnte herausgefunden werden, welche Attribute sich am besten eignen um die Webseiten zu klassifizieren. Dadurch kamen auch statistisch aussagekräftige Fakten zu Tage, wie etwa, dass nur ca. 5 Prozent der Defacements Schadsoftware enthalten, oder dass bei einer, auf Signaturen basierten Erkennung, fast die Hälfte der Angriffe nicht erkannt werden würde.

Neben Forschung und Auswertung über Defacements und ihre Eigenschaften, ist das Resultat ein funktionierendes Modell, welches mit einer guten Wahrscheinlichkeit Seiten durch den Aufruf einer URL klassifizieren kann.