Mustererkennung & Computer Vision: FH auf Platz 2

Mustererkennung und Computer Vision – FH St. Pölten auf internationalem Platz 2

Im Rahmen des „ChaLearn Looking at People“ Wettbewerbs wurde zum ersten Mal der „Cultural Event Recognition“ Benchmark ausgeschrieben. Matthias Zeppelzauer von der FH St. Pölten hat gemeinsam mit ForscherInnen der Technischen Universität Barcelona teilgenommen und den zweiten Platz gemacht.

Im Fokus des „ChaLearn Looking at People“ Wettbewerbs, stehen die Menschen und ihre Aktivitäten. Der Wettbewerb gliedert sich in drei unterschiedliche Themen aus dem Bereich des maschinellen Sehens (engl. Computer Vision). Einerseits, die Erkennung von menschlichen Posen (Human Pose Recovery) sowie die Erkennung von Aktivitäten und Interaktionen von Menschen in Videodatenströmen. Auf der anderen Seite beschäftigt sich die Ereigniserkennung (Cultural Event Recognition) mit der automatischen Zuordnung von Fotos zu bestimmten Ereignissen basierend auf ihrem Bildinhalt. Die Fachhochschule St. Pölten hat heuer zusammen mit der technischen Universität Barcelona an dem erstmals ausgeschriebenen Cultural Event Recognition Bewerb teilgenommen. Insgesamt sind 42 Teams aus aller Welt angetreten.

Der Task Cultural Event Recognition

Beim Task Cultural Event Recognition wurden über 11.000 Fotos von 50 verschiedenen kulturellen Ereignissen (z.B. St. Patricks Day, Oktoberfest, Carnival in Rio) zur Verfügung gestellt. Die Fotos wurden von Webseiten wie Bing und Google gesammelt und spiegeln eine sehr hohe Vielfalt in ihrem Inhalt wider (Portraits, Gruppenfotos, Menschenmassen, Gebäude, Fahrzeuge etc.). Die zentrale Frage, hinter dem Wettbewerb war, ob ein automatisches Bildklassifikationssystem durch Analyse des visuellen Inhalts der Bilder die Fotos automatisch zu dem richtigen kulturellen Ereignis zuordnen kann.

Um Bilder automatisch einem Ereignis zuordnen zu können, müssen visuelle Modelle der Ereignisse generiert werden. Dazu haben die Forscher von der FH St. Pölten und der technischen Universität Barcelona hierarchische neuronale Netze (Convolutional Networks) verwendet, welche derzeit im Bereich des Deep Learning sehr erfolgreich eingesetzt werden. In der vorgestellten Methode werden die neuronalen Netze primär dazu verwendet den Bildinhalt zu abstrahieren und numerisch kompakt in der Form von sogenannten „Neuronale Codes“ darzustellen. Aus den neuronalen Codes werden dann mit Hilfe von maschinellen Lernverfahren Modelle für die einzelnen kulturellen Ereignisse gebaut. Zusätzlich zu diesen rein visuellen Modellen der Ereignisse haben die Forscher auch Metadaten, wie beispielsweise die Aufnahmezeit der Fotos (sofern vorhanden) verwendet, um die automatische Erkennung zu verbessern. Dazu wurden vollautomatisch aus den Metadaten der vorhandenen Fotos zeitliche Modelle generiert, welche den Zeitpunkt und die Dauer der Ereignisse vorhersagen. Die visuellen und zeitlichen Modelle wurden miteinander kombiniert, um die Erkennungsrate zu erhöhen.

Erkennungsrate von 76,7 Prozent

Das vorgestellte System erreichte unter allen TeilnehmerInnen den zweiten Platz mit einer Erkennungsrate von 76,7%. Die besten Teams wurde eingeladen ihre Arbeit zu einem Workshop der diesjährigen CVPR Konferenz (Conference on Computer Vision Pattern Recognition) in Boston einzureichen. Die CVPR repräsentiert die hochklassigste Konferenz im Bereich Mustererkennung und Computer Vision.

Ein Vorabdruck der Arbeit, die auf dem CVPR Workshop präsentiert wird kann online frei heruntergeladen werden. Sämtliche Ressourcen, wie auch der Sourcecode der vorgestellten Methode werden online frei zur Weiterentwicklung angeboten.

Alle Ergebnisse des Cultural Event Recognition Wettbewerbs im Überblick sind hier zu finden.

Jetzt teilen: