Titelaufnahme

Titel
Geometrically motivated dense large displacement matching in continuous label spaces / by Michael Hornáček
VerfasserHornáček, Michael
Begutachter / BegutachterinGelautz, Margrit
Erschienen2014
UmfangXVIII, 171 S. : zahlr. Ill., graph. Darst.
HochschulschriftWien, Techn. Univ., Diss., 2014
Anmerkung
Zsfassung in dt. Sprache
SpracheEnglisch
Bibl. ReferenzOeBB
DokumenttypDissertation
Schlagwörter (EN)correspondence search / depth super resolution / scene flow / optical flow / PatchMatch / belief propagation
Schlagwörter (GND)Maschinelles Sehen / Matching / Abstand / Vergrößerung
URNurn:nbn:at:at-ubtuw:1-75742 Persistent Identifier (URN)
Zugriffsbeschränkung
 Das Werk ist frei verfügbar
Dateien
Geometrically motivated dense large displacement matching in continuous label spaces [7.53 mb]
Links
Nachweis
Klassifikation
Zusammenfassung (Deutsch)

Das Problem der Korrespondenzsuche (oder des Matchings) stellt einen sehr aktiven Forschungsschwerpunkt in mehreren Teilgebieten des Bereichs Computer Vision dar. Bislang hat man sich in der Literatur hauptsächlich auf die Annahme der Brightness Constancy oder der lokalen Oberflächenplanarität gestützt. Werden die Abstände größer, wird die Korrespondenzsuche jedoch zu einer größeren Herausforderung, da man sich nicht mehr auf diese zwei Annahmen verlassen kann, und auch aufgrund der kombinatorischen Explosion des Raumes der möglichen Bewegungen, oder Labels. In dieser Dissertation beschäftigen wir uns mit drei Bereichen, wo Matching entlang größerer Abstände benötigt wird: (i) Depth Super Resolution (SR), (ii) RGB-D Scene Flow, und (iii) Optical Flow. In diesen Bereichen wird das Matching (i) innerhalb einer einzigen Tiefenkarte, (ii) zwischen zwei RGB-D Bildern, und (iii) zwischen zwei Farbbildern durchgeführt. Für Optical Flow und RGB-D Scene Flow lockern wir die Annahme der Brightness Constancy, indem wir unsere Aufmerksamkeit in den vorhandenen Farbbildern auf die Gradienten des Bildes richten. Nachdem wir für alle drei Bereiche erkennen, dass eine 2D-Bewegung in der Bildebene letztendlich eine Funktion einer 3D-Bewegung in der Szene ist, überparametrisieren wir die erlaubten 2D-Bewegungen mittels 3D-Starrkörperbewegungen von Patches von 3D-Punkten: eine geometrisch motivierte Art der Korrespondenzsuche. Für Depth SR und RGB-D Scene Flow, wenden wir diese 3D-Starrkörperbewegungen direkt auf Patches der 3D-Punkte an, die in den vorhandenen Tiefenkarten kodiert sind, wodurch wir die Annahme der lokalen Oberflächenplanarität überwinden; für Optical Flow stellen wir 3D-Punkte für alle Pixel eines Patches wieder her, indem wir die jeweiligen Pixel-Sehstrahlen mit einer 3D-Ebene schneiden und unterziehen die daraus entstandenen 3D-Punkte einer 3D-Starrkörperbewegung. Im ersten Fall suchen wir-einzeln für jedes Pixel-eine 3D-Starrkörperbewegung mit 6 Freiheitsgraden (Engl. degrees of freedom, oder DoF), die die Bewegung des mit dem jeweiligen Pixel verbundenen Patches von Punkten beschreibt; im zweiten Fall schreiben wir auf ähnliche Weise zusätzlich zu der Starrkörperbewegung mit 6 DoF jedem Pixel eine 3D-Ebene mit 3 DoF zu. In beiden Fällen hätte man bei größeren Abständen sogar durch eine grobe Diskretisierung dieser hochdimensionalen, kontinuierlichen Labelräume eine Anzahl von Labels, die zu groß ist, um sie vollständig berücksichtigen zu können. Dieses Problem gelingt es uns zu bewältigen, indem wir uns stattdessen des PatchMatch Korrespondenzsuchalgorithmus bedienen, um spärliche Korrespondenzen entsprechend unseren 6 DoF- und 9 DoF-Bewegungsmodellen zu propagieren und zu verfeinern.

Zusammenfassung (Englisch)

The problem of correspondence search (or matching) remains a central focus of research in a variety of domains of computer vision. To date, the overwhelming tendency in the literature has been to rely on either the assumption of brightness constancy, or on the assumption of patchwise local surface planarity. However, among aspects of matching that render the task challenging as displacements become large, there figure the tendency for these two assumptions to ultimately break down, together with the combinatorial explosion of the resulting space of possible motions, or labels. In this thesis, we tackle three domains that call for performing matching at large displacements: (i) depth super resolution (SR), (ii) RGB-D scene flow, and (iii) optical flow, whereby we carry out correspondence search (i) within a single depth map, (ii) across a pair of RGB-D frames, and (iii) across a pair of color images, respectively. For optical flow and RGB-D scene flow, we relax reliance on brightness constancy by focusing attention in the available color images on image gradients. Recognizing for all three that 2D motion in the image plane is ultimately a function of 3D motion in the underlying scene, we overparameterize the 2D motions that patches of pixels are allowed to undergo in the image plane in terms of 3D rigid body motions applied to patches of 3D points: a geometrically motivated form of correspondence search. For depth SR and RGB-D scene flow, we apply these 3D rigid body motions directly to patches of 3D points encoded in the available depth maps, thereby overcoming the assumption of local surface planarity; for optical flow, we recover 3D points for all pixels of a patch of pixels by intersecting respective pixel viewing rays with a 3D plane, and have the resulting 3D points undergo a 3D rigid body motion. In the former case, we accordingly seek-individually for each pixel-a 6 degree of freedom (DoF) 3D rigid body motion describing the motion of the patch of points associated with the pixel; in the latter, we similarly assign to each pixel a 3 DoF 3D plane in addition to a 6 DoF rigid body motion, for a total of 9 DoF. In both cases, even a coarse discretization of these high-dimensional, continuous label spaces would lead to spaces of a daunting number of labels to consider exhaustively as displacements become large, a problem we succeed in overcoming by instead calling on variants of the simple yet effective PatchMatch correspondence search algorithm to grow and refine sparse correspondence seeds in a manner tailored to our 6 DoF and 9 DoF motion models.