Titelaufnahme

Titel
Making sense of images: parameter-free perceptual grouping / Michael Zillich
VerfasserZillich, Michael
Begutachter / BegutachterinVincze, Markus ; Hlavac, Vaclav
Erschienen2007
UmfangX, 149 S. : Ill., graph. Darst.
HochschulschriftWien, Techn. Univ., Diss., 2007
SpracheEnglisch
Bibl. ReferenzOeBB
DokumenttypDissertation
Schlagwörter (DE)maschinelles Sehen / Bildverarbeitung / perzeptuelles Gruppieren / Markov Random Field
Schlagwörter (EN)machine vision / computer vision / perceptual grouping / anytime algorithm / Markov Random Field
Schlagwörter (GND)Maschinelles Sehen / Objekterkennung / Rezeptive Gruppierung / Markov-Feld
URNurn:nbn:at:at-ubtuw:1-15072 Persistent Identifier (URN)
Zugriffsbeschränkung
 Das Werk ist frei verfügbar
Dateien
Making sense of images: parameter-free perceptual grouping [42.72 mb]
Links
Nachweis
Klassifikation
Zusammenfassung (Deutsch)

Perceptual grouping is a well studied area in visual psychophysics and offers a principled, general way to study vision in sighted animals and humans as well as machines. Computational approaches in the past however have often been hampered by complexity issues and brittleness in the presence of clutter and noise.

Especially the reliance on tuning parameters renders many approaches impractical for real world applications.

This work aims to address complexity and robustness issues by proposing an incremental processing scheme for the perceptual grouping of edges, where the only parameter is runtime. This allows interrupting processing at any time, returning the most significant perceptual groups that could be found up to that point and leads to graceful degradation with increasing amounts of noise or clutter.

We furthermore propose a probabilistic measure of visual significance based on the principle of non-accidentalness. This significance measure is used to guide grouping of convex contours as well as a relative depth ordering of contours.

Varying the significance measure of edges, for example based on regions of interest, allows to focus attention on specific parts of the scene, which will subsequently be allocated a larger share of the available processing time.

Experiments were carried out on a wide range of real world images with varying scene content and complexity. For detection of convex contours we could show that identifying candidate edges and junctions for grouping can be performed in runtime linear to the number of edges. More significant contours typically popped out faster with less significant ones appearing as runtime progresses. We demonstrated how two attentional mechanisms, based on regions of interest and colour, lead to faster detection of objects of interest. Relative depth ordering of contours based on energy minimisation in a Markov Random Field was presented as an initial form of finding a globally consistent scene interpretation and was shown to work for scenes of limited complexity.

Zusammenfassung (Englisch)

Perzeptuelles Gruppieren ist ein gut untersuchtes Gebiet der Psychophysik und bietet eine solide, formale Grundlage für das Studium von biologischem und maschinellem Sehen. Maschinelle Ansätze in der Vergangenheit hatten üblicherweise mit Problemen in der Laufzeit-Komplexität und mit der Empfindlichkeit der Methoden gegenüber Störungen (fehlende Daten oder ein Übermaß an irrelevanten Daten) zu kämpfen. Insbesondere die Abhängigkeit von einer Vielzahl adjustierbarer Parameter bedeutet nur allzuoft, daß solche Methoden für den praktischen Einsatz ungeignet sind.

Diese Arbeit versucht Problemen von Komplexität und Robustheit beim perzeptuellen Gruppieren von Kanten mit einer inkrementellen Methode zu begegnen, wobei der einzige Parameter die Laufzeit ist. Dies erlaubt die Berechnung jederzeit zu unterbrechen und die bis dahin signifikantesten perzeptuellen Gruppen zu finden und führt zu einer wohldefinierten graduellen Verschlechterung mit zunehmender Szenenkomlexität oder Störungen, anstatt ab einem gewissen Punkt schlagartig zu versagen. Weiters wird ein probabilistisches Maß für visuelle Signifikanz basierend auf dem Helmholtz Prinzip von Nicht-Zufälligkeit vorgeschlagen. Dieses Signifikanzmaß wird verwendet zum Gruppieren von konvexen, geschlossenen Konturen und zum relativen Tiefen-Sortieren von Konturen. Variieren des Signifikanzmaßes von Kanten, zum Beispiel basierend auf Aufmerksamkeits-Regionen, erlaubt es die Aufmerksamkeit, und damit Rechner-Ressouren des Systems auf bestimmte Teile der Szene zu lenken, Experimente wurden durchgeführt auf einer Vielzahl von Bildern unterschiedlichster Szenen mit verschiedener Komplexität. Für die Detektion von konvexen Konturen konnte gezeigt werden, daß die Identifikation von Kanten-Relationen in linearer Laufzeit (bezüglich der Anzahl der Kanten) gelingt. Signifikantere Konturen werden typischerweise schneller gefunden, während weniger signifikante Konturen erst mit zunehmender Laufzeit erscheinen. Es konnte gezeigt werden, daß Aufmerksamkeit, basierend auf Bild-Regionen und Farbe, zu einer schnelleren Detektion von "interessanten" Objekten führt. Relatives Tiefen-Sortieren von Konturen, basierend auf einer Energie-Minimierung in einem Markov Random Field, wurde vorgestellt als ein Versuch um eine global konsistente Interpretation der Szene zu finden und erwies sich als erfolgreich zumindest für einfache Szenen.