Aufbau und Methodik eines automatisierten Datenerfassungsprogrammes - Am Beispiel des sozialen Netzwerkes Twitter

Bachelor Studiengang IT Security

Harald Schmal, BSc
19.09.2014

Ausgangslage

Soziale Netzwerke sind ein fixer Bestandteil im Alltag geworden. Egal ob das Teilen von Fotos und Videos, die Kommunikation durch Kurznachrichten, die Organisation von Terminen und das Kennenlernen von neuen Menschen bzw. die Aufrechterhaltung von bestehenden Kontakten, die Möglichkeiten dieser Netzwerke sind enorm. Diese neue Art der Kommunikation und Interaktion generiert im Hintergrund ein immenses Datenvolumen. Diese Daten können und werden bereits für weitere Bereiche wie Forschung, Marketing und Werbung erfolgreich eingesetzt. Diese wissenschaftliche Arbeit beschäftigt sich speziell mit dem sozialen Netzwerk Twitter, da es eine hohe Nutzerzahl besitzt und deswegen ideal für das Sammeln von Informationen ist. Um Nachrichten auf Twitter automatisiert abfragen zu können, bedarf es eines sogenannten Crawler-Programmes, welches Thema dieser Arbeit ist. Der Einsatz solcher Programme wird jedoch von Twitter anhand der Zugriffslimitierung auf ihre Programmierschnittstelle erschwert.

Ziel

Ziel dieser Arbeit ist es den Aufbau und die Funktionsweise eines selbstentwickelten Crawlers zu beschreiben. Der Crawler ruft von zuvor festgelegten BenutzerInnen kontinuierlich deren Tweets ab und speichert diese in eine Datenbank für spätere Verarbeitung. Dabei soll dieses Programm ungeachtet der Zugriffslimitierung der Twitter-API, einen kontinuierlichen Abfrageprozess von Tweets gewährleisten.

Ergebnis

Der Aufbau des Crawlers ermöglicht einen kontinuierlichen Datenabfrageprozess an die Twitter-API und den Einsatz von beliebig vielen Clients, welche die Anzahl der erlaubten Anfragen an Twitter erhöhen und somit trotz Zugriffslimitierung einen zufriedenstellenden Durchsatz gewährleisten.
In den letzten Testdurchläufen konnten durchschnittlich über 400.000 Tweets in einer Stunde gesammelt werden. Diese gesammelten Daten bzw. dieser Datendurchsatz sollte genügend Input für weitere Analysezwecke liefern.

FH-Betreuer: FH-Prof. Mag. Dr. Simon Tjoa