BlueCrawler & BlueSaver - Informationsgewinnung aus Open Source Quellen

Bachelor Studiengang IT Security

Christoph Malin, BSc
18.09.2015

Ausgangslage

Seit den Enthüllungen von Edward Snowden sind die Fähigkeiten der Geheimdienste NSA und des GCHQ in aller Munde. Während sich über die Verfassungskonformität mancher Geheimdienstprogramme streiten lässt, gibt es Aufklärungstechniken, die gegen kein Gesetz verstoßen und trotzdem viele sehr wertvolle Daten liefern können. Eine davon ist Open Source Intelligence (OSINT). Dabei geht es darum, aus frei verfügbaren, offenen Quellen und deren Analyse Informationen zu gewinnen. In einer Zeit, in der viele Menschen und Unternehmen von sich aus eine Menge Daten im Internet veröffentlichen, ist es für Geheimdienste und auch Kriminelle ein Leichtes, diese Informationen aus dem Internet abzusaugen und als Vorbereitung für verschiedene Dinge, wie etwa gezielte Cyber-Angriffe, zu nutzen.

Vielen ist nicht bewusst, welch umfassende Informationen sich von einem Unternehmen oder einer Person mit der Hilfe von OSINT gewinnen lassen. Angefangen von den Namen des Personals in einem Unternehmen bis zur internen Systemlandschaft lässt sich vieles mit OSINT erschließen.

Ziel

Das Ziel dieser Arbeit ist das Designen und Entwickeln zweier Tools zum vollständigen Herunterladen einer Webseite und das anschließende Extrahieren von Metadaten aus den heruntergeladenen Daten. Es soll gezeigt werden, dass mit einem AJAX-basierten Crawler mehr nützliche Informationen gesammelt werden können als mit vielen herkömmlichen Tools. Die fertigen Tools sollen evaluiert werden und einem herkömmlichen Werkzeug wie Wget gegenübergestellt werden. Zusätzlich zu den beiden Programmen soll eine Analyse von frei verfügbaren OSINT Quellen & Tools durchgeführt werden.

Ergebnis

Es wurden zwei eigene Programme, BlueCrawler und BlueSaver, entwickelt. Mit diesen beiden Tools ist es möglich, eine Webseite komplett herunterzuladen und aus den heruntergeladenen Daten Metainformationen zu extrahieren. BlueCrawler konnte bei der Webseite der FH St. Pölten 261 Dokumente (PDF, DOC, PPT) herunterladen, die mit Wget nicht gefunden wurden. Aus der Mehrheit der heruntergeladenen Dateien konnten mittels BlueSaver Metadaten und Textdaten extrahiert werden. Die gewonnenen Informationen wurden anschließend in einer SQLite Datenbank abgespeichert.

Ausblick

Um in Zukunft höhere Geschwindigkeit und bessere Skalierbarkeit zu erreichen, muss ein verteilter Crawling-Ansatz gefunden werden.

BlueSaver, der für das Extrahieren von wertvollen Informationen aus den heruntergeladenen Daten zuständig ist, soll in Zukunft auch automatisierte Texterkennung innerhalb von Bildern unterstützten.

FH-Betreuer: FH-Prof. Dr. Simon Tjoa