Ein Vergleich gängiger Algorithmen zur k-Anonymisierung

Master Studiengang Information Security

Dipl.-Ing. Melanie Demelmaier, BSc

Betreuer: Dipl.-Ing. Peter Kieseberg

Ausgangslage

Die weltweit gespeicherte Datenmenge steigt rasant an. In Zusammenhang mit der Verarbeitung dieser Flut an Daten spielt auch der Datenschutz eine zentrale Rolle. Privatsphäre ist ein Grundrecht, das vom Gesetz geschützt wird und auf das jedes Individuum Anspruch hat.        

Das Vorhandensein dieser Richtlinien macht Datenschutz zu einer Notwendigkeit und gleichzeitig zu einer Motivation für sämtliche Unternehmen, die personenbezogene Daten verarbeiten und einen Gesetzesverstoß vermeiden wollen.  Trotz dieser Gegebenheiten führen das schlechte Verständnis der Grundlagen auf diesem Gebiet, oder auch das Fehlen der Verwendung von angemessenen Technologien, zu Vorfällen, bei denen personenbezogene Daten unrechtmäßig an die Öffentlichkeit gelangen.

Um das Risiko solcher Vorfälle so gering wie möglich zu halten, müssen sensible Daten vor einer Veröffentlichung korrekt geschützt werden. Eine potentielle Art des Schutzes sensibler Daten bietet die k-Anonymisierung. In der Literatur existieren bereits sehr viele verschiedene Ansätze zu Algorithmen, die es sich zum Ziel machen, eine optimale k-Anonymisierung mit dem geringstmöglichen Informationsverlust anzubieten. Um die Qualität zu messen, werden in verschiedensten Publikationen Metriken vorgestellt und zur Bewertung der Algorithmen herangezogen.                      

Dies führt dazu, dass immer wieder die Frage aufkommt, welcher Algorithmus zur k-Anonymisierung die besten Ergebnisse liefert. Bisher gibt es jedoch noch keine Arbeiten, die alle bereits existierenden Algorithmen einheitlich miteinander vergleichen.

Ziel

Ziel dieser Arbeit ist es, sämtliche Algorithmen zur k-Anonymisierung basierend auf verschiedenen Metriken gegenüberzustellen und miteinander vergleichbar zu machen.         

Die Arbeit stützt sich dabei auf das Sichten von Literatur und anschließende Vergleiche der einzelnen Ergebnisse der Algorithmen.

Ergebnis

Das Ergebnis dieses Dokuments ist eine nach Metriken geordnete Gegenüberstellung sämtlicher Algorithmen.      

Es kann jedoch keine einheitliche Aussage darüber gemacht werden, welcher Algorithmus ein optimales Ergebnis liefert, da sich die Ergebnisse, je nach Metrik, stark unterscheiden können.    

Bei der Auswahl eines Algorithmus ist es deshalb wichtiger, eine zum Einsatzbereich passende Metrik auszuwählen und seine Entscheidungen basierend auf dieser zu treffen.