Methode zur Erkennung sozialer Events auf Internetplattformen

Im Artikel „Cross-Platform Social Event Detection“ der in Kürze im IEEE Multimedia erscheint, stellt Matthias Zeppelzauer von der FH St. Pölten gemeinsam mit seinen KollegInnen von der Universität Wien und Klagenfurt sowie der Technischen Universität Wien dar, wie man soziale Ereignisse über mehrere Internetplattformen erkennen kann.

Ein wesentlicher Anteil der Medien die auf Plattformen wie Flickr oder YouTube hinaufgeladen und geteilt werden, steht im Kontext sozialer Ereignisse (z.B. Konferenzen, Demonstrationen und Sportereignisse). Zusätzlich zu den Medien wie Bilder und Videos werden üblicherweise reichhaltige Zusatzinformationen (Metadaten) von den BenutzerInnen verfügbar gemacht, wie etwa Ort und Datum der Bild- oder Videoaufnahme und textuelle Beschreibungen des Ereignisses, sowie sein Titel. Diese Metadaten ermöglichen das Suchen und Wiederfinden von Medieninhalten, die in Zusammenhang mit einem bestimmten Ereignis stehen. In den letzten Jahren wurden verstärkt Methoden entwickelt, die versuchen, mithilfe von Metadaten automatisiert Medieninhalte zu Ereignissen zuzuordnen. Eine der Herausforderungen dabei ist die Unvollständigkeit und Mehrdeutigkeit der Metadaten, die BenutzerInnen zur Verfügung stellen.

Evaluation von Metadaten

Medien und ihre Metadaten sind in der Praxis über verschiedene Plattformen wie etwa Flickr und YouTube verteilt und somit nicht direkt vergleichbar. Matthias Zeppelzauer und seine KollegInnen haben eine neuartige Methode entwickelt, die Metadaten unterschiedlicher Internetplattformen abgleichen kann und somit erlaubt Medien von unterschiedlichen Quellen zusammenzuführen. Um die Metadaten optimal zu nutzen, wurden diese auf ihre Datenqualität und Vollständigkeit hin evaluiert, sowohl auf einzelnen Plattformen wie auch Plattform-übergreifend.

Die Forscher untersuchten dabei sowohl, welche Probleme benutzergenerierte Metadaten in den Analyseprozess einbringen, als auch das Potential von Metadaten zur Verknüpfung von Inhalten die auf unterschiedlichen Plattformen angeboten werden. Sowohl auf Flickr wie auf YouTube analysieren sie die Metadaten hinsichtlich ihrer Treffsicherheit bzw. Genauigkeit. Dabei stießen sie auf interessante Ergebnisse.

Ergebnisse und Erkenntnisse

Überraschend war, dass zur Verfügung stehende Metadaten teilweise überraschend ausdrucksstark und akkurat sind. Nur ein kleiner Teil der zeitlichen wie örtlichen Angaben erwiesen sich als ungenau. Textinformationen hingegen enthielten oft irreführende Informationen, die nicht mit den sozialen Ereignissen in Zusammenhang stehen und müssen daher bei der automatisierten Verarbeitung mit besonderer Sorgfalt behandelt werden. Im Vergleich zu Datums-, Zeit- und Ortsangaben, erlauben Textinhalte wie Beschreibungen und Kommentare viele unterschiedliche Interpretationsmöglichkeiten und weisen oft Mehrdeutigkeiten auf. Experimente mit mehreren hunderttausend Mediandateien von Flickr und YouTube haben gezeigt, dass Ort- und Zeitinformation am wichtigsten für die Zuordnung von Mediendaten zu sozialen Ereignissen sind. So konnte auf Daten von Flickr durch ein rein zeitliches Clustering ein F1-Wert von 91% für die Zuordnung von Fotos zu Events erreicht werden.

Sind die Orts- und Zeitangaben hingegen unvollständig und fehlerbehaftet, wie vor allem bei YouTube Videos beobachtet wurde, stellen Textinformationen eine unverzichtbare Informationsquelle dar. Ein rein zeitliches bzw. raumzeitliches Clustering der Daten auf YouTube kommt lediglich auf einen F1 Wert von 25%. Durch die zusätzliche Berücksichtigung von textuellen Informationen konnte der F1 Wert signifikant auf 65% gesteigert werden. In Plattformübergreifende Experimenten, welche sowohl Flickr Bilder als auch Youtube Videos berücksichtigen, konnten mit einem F1 Wert von 90% die Medien korrekt zugeordnet werden.

Die großen Qualitätsunterschiede zwischen den Metadaten unterschiedlicher Internetplattformen stellen eine große Herausforderung für die Datenanalyse dar, vor allem was den Umgang mit mehrdeutigen und unvollständigen Daten angeht. Eine große Herausforderung für die Zukunft liegt in der effizienten Verknüpfung von heterogenen Daten aus unterschiedlichen Plattformen, um die Indizierung der vorhandenen Inhalte zu verbessern.

IEEE Multimedia: Zaharieva, Maia; Del Fabro, Manfred; Zeppelzauer, Matthias: Cross-Platform Social Event Detection.

Matthias Zeppelzauer, Senior Researcher am Institut für Creative\Media/Technologies an der FH St. Pölten.

Jetzt teilen: