Titelaufnahme

Titel
Detection and evaluation methods for local image and video features / eingereicht von Julian Stöttinger
VerfasserStöttinger, Julian
Begutachter / BegutachterinSablatnig, Robert ; Sebe, Nicu
Erschienen2010
UmfangVI, 149 S. : Ill., graph. Darst.
HochschulschriftWien, Techn. Univ., Diss., 2010
Anmerkung
Zsfassung in dt. Sprache
SpracheEnglisch
DokumenttypDissertation
Schlagwörter (DE)lokale Features / Bildsuche / Videosuche / Evaluation
Schlagwörter (EN)local features / image / video / evaluation / detection
Schlagwörter (GND)Bild / Video / Suche / Sachmerkmal / Evaluation
URNurn:nbn:at:at-ubtuw:1-42737 Persistent Identifier (URN)
Zugriffsbeschränkung
 Das Werk ist frei verfügbar
Dateien
Detection and evaluation methods for local image and video features [9.38 mb]
Links
Nachweis
Klassifikation
Zusammenfassung (Deutsch)

Lokale Features, also räumlich begrenzte Beschreibungen von visuellem Inhalt, sind in der Computer Vision das Werkzeug der Wahl zum Erkennen von Bildern und Videos.

Diese Doktorarbeit beschäftigt sich mit dem Auffinden der besten Positionen und der richtigen Skalierung von lokalen Features. Der wissenschaftlicher Beitrag der Arbeit besteht zum einen im Entdecken von neuen Wegen, die Lage von Features zu bestimmen, zum anderen im Erkunden von neuen Evaluierungsmethoden derselbigen. Dies beinhaltet sowohl rein räumliche Features (``2D'' oder Bildfeatures) als auch räumlich-zeitliche Features (``3D'' oder Videofeatures).

Die Arbeit zeigt, dass das Auffinden von robusten und wiedererkennbaren Features auf die Erkennungsrate von aktuellen Klassifikationssystemen einen großen Einfluss hat. Deswegen ist es entscheidend, die richtigen Features für bestimmte Aufgaben zu nutzen. Im Bereich der Bildfeatures beschäftigt sich die Arbeit mit der Frage, ob es möglich ist, die Anzahl der Features zu reduzieren und gleichzeitig die Erkennungsrate zu erhalten.

Da die Featureextrakion den ersten Schritt eines Klassifizierungssystems darstellt, reduziert ein Minimum der Features jeden nachfolgenden Berechnungsschritt und verkürzt so die Berechnungszeit entscheidend. In Bereichen, wo Rechenzeit sehr knapp bemessen ist, könnte dies neue Anwendungen ermöglichen, zum Beispiel in mobilen -- und Echtzeit Systemen.

Forschungsschwerpunkt ist das Nutzen von Farbinvarianzen und --salienzen beim Auffinden von skalierungsunabhängigen Bildfeatures. Diese neuartigen Bildfeatures erweisen sich als äußerst stabil gegen Veränderung durch Beleuchtung und Schatten und erlauben so eine robustere Beschreibung des Bildinhaltes. Mit dieser Methode können Bilder in großen Datenbanken mit weniger Features leichter gefunden werden. In einem internationalen Wettbewerb von aktuellen Bildfeatures erreichten die vorgestellten farbbasierten Bildfeatures die beste Erkennungsrate in vier von 20 Klassen, während gleichwertige Methoden ein Vielfaches der Anzahl der Features benutzten.

Weiters untersucht die Arbeit den Gradient Vector Flow zum Finden von Bildfeatures. Da diese Methode Bildstrukturen im größeren Umfang als bestehende Methoden untersucht, erlaubt sie eine äußerst stabile, skalierungsunabhängige Featureextraktion von hoher Dichte.

In den letzten Jahren wurde das Auffinden von stabilen Videofeatures ein begehrtes Forschungsgebiet der Computer Vision. Die erfolgreichsten Bildfeatures wurden um die zeitliche Dimension erweitert, und Klassifizierungssysteme erlauben an Hand dieser Features das Erkennen von Handlungen in Videos. Im Unterschied zu Bildfeatures wurden Videofeatures noch nicht in einer stringenten und systematischen Art und Weise auf ihre Robustheit untersucht. Diese Arbeit schließt diese Lücke und stellt eine neuartige Datenbank zur Verfügung.

Diese Datenbank von 1710 Videos erlaubt Forschern neue Videofeatures unter acht verschiedenen, wohl definierten, iterativen Veränderungen der Videos zu testen.

Evaluierung erfolgt auf einem effizienten 3D Repeatablity Test für Videofeatures pro Veränderung der Videos. Um die Robustheit von lokalen Beschreibungen in Videos zu messen, wurde ein neuartiges Verfahren entwickelt, das die Evaluierung der Videobeschreibung abhängig von den Veränderungen in den Videos erlaubt.

Zusammenfassung (Englisch)

In computer vision, local image descriptors computed in areas around salient interest points are the state-of-the-art in visual matching. This doctoral thesis aims at finding more stable and more informative interest points in the domain of images and videos.

The research interest is the development of relevant evaluation methods for visual matching approaches.

The contribution of this work lies on one hand in the introduction of new features to the computer vision community.

On the other hand, there is a strong demand for valid evaluation methods and approaches gaining new insights for general recognition tasks. This work presents research in the detection of local features both in the spatial (``2D'' or image) domain as well for spatio-temporal (``3D'' or video) features.

For state-of-the-art classification the extraction of discriminative interest points has an impact on the final classification performance. It is crucial to find which interest points are of use in a specific task.

One question is for example whether it is possible to reduce the number of interest points extracted while still obtaining state of the art image retrieval or object recognition results. This would gain a significant reduction in processing time and would possibly allow for new applications e.g. in the domain of mobile computing.

Therefore, the work investigates different corner detection approaches and evaluates their repeatability under varying alterations.

The proposed sparse color interest point detector gives a more stable number of features and thus a better comparable image representation. By taking the saliency of color information and color invariances into account, improved retrieval of color images, being more stable to lighting and shadowing effects than using illumination correlated color information, is obtained.

In an international benchmark the approach outperforms all other participants in 4 out of 20 classes using a fractional amount of features compared to other approaches.

The Gradient Vector Flow (GVF) has been used with one manually adjusted set of parameters to locate centers of local symmetry at a certain scale. This work extends this approach and proposes a GVF based scale space pyramid and a scale decision criterion to provide general purpose interest points. This multi-scale orientation invariant interest point detector has the aim of providing stable and densely distributed locations. Due to the iterative gradient smoothing during the computation of the GVF, it takes more surrounding image information into account than other detectors. In the last decade, a great interest in evaluation of local visual features in the domain of images is observed. Most of the state-of-the-art features have been extended to the temporal domain to allow for video retrieval and categorization using similar techniques as used for images. However, there is no comprehensive evaluation of these. This thesis provides the first comparative evaluation based on isolated and well defined alterations of video data. The aim is to provide researchers with guidance when selecting the best approaches for new applications and data-sets.

A dedicated publicly available data-set of 1710 videos is set up, with which researchers are able to test their features' robustness against well defined challenges.

For the evaluation of the detectors, a repeatability measure treating the videos as 3D volumes is developed.

To evaluate the robustness of spatio-temporal descriptors, a principled classification pipeline is introduced where the increasingly altered videos build a set of queries. This allows for an in-depth analysis of local detectors and descriptors and their combinations.