Visual attention in computer graphics

Bernhard, Matthias Michael

doi:10.34726/hss.2014.27898

Record link:

https://doi.org/10.34726/hss.2014.27898
http://hdl.handle.net/20.500.12708/6183

Title:

Citation:

Bernhard, M. M. (2014). Visual attention in computer graphics [Dissertation, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2014.27898

reposiTUm DOI:

10.34726/hss.2014.27898

CatalogPlus:

AC12132499

Publication Type:

Thesis - Dissertation

Language:

English

Authors:

Bernhard, Matthias Michael

Advisor:

Wimmer, Michael

Organisational Unit:

E186 - Institut für Computergraphik und Algorithmen

Date (published):

2014

Number of Pages:

145

Keywords:

visual attention; eye tracking; perception; stereo 3D

Abstract:

Während eines Augenblicks können wir nur einen kleinen Ausschnitt der visuellen Information in unserer Umgebung verarbeiten. Weil das menschliche Auge nur in einem Winkel von etwa 2° mit hoher Genauigkeit sehen kann, muss die visuelle Aufmerksamkeit unseren Blick zu den wichtigsten Details und Objekten die sich in unserem Blickfeld befinden lenken. Somit bestimmt dieser Mechanismus was wir sehen, bzw. was wir nicht sehen, und nimmt eine ganz wesentliche Rolle in der visuellen Wahrnehmung ein. Diese Arbeit beschäftigt sich mit visueller Aufmerksamkeit in virtuellen Umgebungen die mit Methoden der Echtzeit-Computergrafik erzeugt werden. An dieser Schnittstelle zwischen Computergrafik und Psychologie wurde Forschung in zwei Richtungen betrieben: zum einen wurde untersucht wie man drei-dimensionale virtuelle Umgebungen als methodisches Werzeug dazu benützen kann die visuelle Aufmerksamkeit besser beobachten und studieren zu können. Zum anderen wurde versucht 3D Graphik mithilfe von aufmerksamkeitsgesteuerten Methoden verbessern kann. Augenbewegungen sind die offensichtlichste externe Manifestation unserer Aufmerksamkeit. Daher ist Eye Tracking die Technik der Wahl wenn wir das Verhalten der visuellen Aufmerksamkeit beobachten wollen. Wird ein Eye Tracker zusammen mit einem Display verwendet, dann bekommen wir die jeweilige Blickrichtung in Form einer 2D Bildschirmkoordinate als Ausgabe. Obwohl Eye Tracking als Methode zur Beobachtung des Blickverhaltens mittlerweile viele Fortgeschritte gemacht hat, hat sich die Forschung auf diesem Gebiet meist auf die Verarbeitung der Blickdaten im 2D Bildschirmkoordinatensystem beschränkt. Wenn man jedoch die Aufmerksamkeit mit dynamischen und drei-dimensionalen virtuellen Umgebungen untersuchen möchte, kann dieser Ansatz zu beschränkt bzw. aufwendig sein. In solchen Anwendungen ändert sich stets die Sicht und die Position der Objekte in der Szene, manchmal sogar schlagartig. Es muss also angenommen werden dass sich jeder Pixel auf dem Display ändern kann. Anstatt zu analysieren auf welche Pixel sich der Blick richtet, ist es daher sinnvoller zu bestimmen auf was, d.h. auf welche Objekte, ein Benützer seine Aufmerksamkeit richtet. Zu bestimmen auf welche Objekte ein Benutzer in einer Grafikanwendung seine Aufmerksamkeit richtet ist eine Kernidee dieser Arbeit. Dies wird mit automatisierten Verfahren aus 2D Blickpunktdaten und der Geometrieinformation ermittelt. Mit diesem Ansatz können Blickpunktdaten im Objektraum ausgewertet werden und somit kann die visuelle Aufmerksamkeit mit den Eigenschaften der Objekte, d.h. ihrer Semantik, in Verbindung gebracht werden. Das Ziel ist damit die Wichtigkeit der Objekte, bzw. deren Eigenschaften, empirisch zu ermitteln und diese Information für eine Vorhersage der Aufmerksamkeit (ohne Eye Tracking) zu machen. Ausserdem, da sich die Aufmerksamkeit mehr auf Objekte als auf Positionen richtet, ist für Algorithmen die versuchen die Grafik perzeptuell zu optimieren der in dieser Arbeit favorisierte objektorientierte Ansatz besser geeignet als pixelbasierte Methoden. Um die visuelle Aufmerksamkeit mit Objekten und deren Eigenschaften zu korrelieren, stellten sich in dieser Arbeit folgende zwei Herausforderungen: erstens, die direkte Bestimmung der Objekte auf die ein Benutzer seine Aufmerksamkeit richtet - eine Technik die wir Gaze-To-Object Mapping nennen -, und zweitens, die Inferenz eines statistischen Models für die visuelle Aufmerksamkeit, eine Datenstruktur die wir Importance Map nennen, aus den Blickpunktdatensequenzen mehrer Benutzer. Während die Bewältigung dieser Herausforderungen ein fundamentaler Schritt zur Weiterentwicklung von Methoden zur Blickpunktanalyse in 3D-Computergrafikanwendungen ist, sollen die Ergebnisse dieser Arbeit auch zur perzeptuellen Optimierung in Bildsyntheseverfahren zum Einsatz kommen. Daher war die dritte Herausforderung für diese Arbeit die Erkundung einer Beispielanwendung für ein aufmerksamkeitsgesteuertes Bildsyntheseverfahren. Im dritten Forschungskapitel dieser Arbeit findet sich eine Pilotstudie zu einer Applikation in Stereo 3D Displays. Diese Anwendung steuert die Konfiguration eines 3D Stereodisplays dynamisch, sodass das Objekt auf welches ein Benutzer seine Aufmerksamkeit richtet mit hohem visuellem Komfort wahrgenommen werden kann.

The human visual system can process only a fraction of the details in our environment at a time. Since the human eye can only resolve about 2° of angle in the field-of-view with high accuracy, visual attention guides eye movements to collect details only for the most important features or objects. Thus, attention plays a major role in visual perception. It actually determines what we see and what we do not see. This thesis is concerned with visual attention in virtual environments that are generated with real-time computer-graphics technology. Under this scope, research has been carried out in two directions: On the one hand, it was investigated how three-dimensional virtual environments can be used to better study visual attention. On the other hand, approaches were explored which try improving three-dimensional graphics by taking into account visual attention of a user. Since eye movements can be considered as the most obvious external manifestation of visual attention, eye tracking is the technology of choice to observe a user-s visual attention. In a setup with a display that shows a rendered image of a three-dimensional environment, an eye tracker outputs a 2D spatial screen-space coordinate that corresponds to the direction of a user-s gaze. Although eye-tracking methodology has recently advanced, previous research focused mostly on analyzing the eye movements in screen space. This approach is not so appropriate to analyze a user-s attention in dynamic and three-dimensional applications. In those applications, the viewpoint and scene objects change often, sometimes even rapidly. For every point on a graphics display, we have to assume a variation of the stimuli. Thus, it would be more interesting to know what a user is attending rather to which pixel gaze is directed to. A main idea of this thesis is hence to go beyond screen space and to correlate gaze with 3D scene objects instead of 2D pixels. Analyzing gaze data in object space allows linking visual attention to object properties, i.e., semantics, which may have the strongest influence on gaze behavior. Moreover, since attention is most of the time directed to objects rather than to locations, inferring what a user is attending is a more appropriate approach for algorithms which perceptually optimize graphics. To approach this ambitious goal of linking visual attention to semantics, two challenges have been addressed: First, inferring the object of attention at a certain point in time from the current output of an eye tracker - a technique which we denote as gaze-to-object mapping - and second, deriving a statistical model for visual attention, a data structure we denote as importance map, from sequences of gaze samples recorded from many users. While addressing these challenges is a crucial step towards advancing gaze analysis and research on visual attention which employs modern computer graphics, the results may also be used in applications which attempt to perceptually optimize rendering. This defines the third challenge addressed in this thesis, which is to explore an example application for attention-aware rendering techniques, where gaze-to-object mapping or importance maps can be employed to determine or predict the object of attention at run time. Thus, this thesis concludes with a pilot study on an application that dynamically adjusts the configuration of a stereo 3D display such that the object being attended by the user can be seen most comfortably.

Additional information:

Abweichender Titel laut Übersetzung der Verfasserin/des Verfassers
Zsfassung in dt. Sprache

License:

In Copyright

Appears in Collections:

Thesis