Bajones, M. (2013). Natural multimodal human robot interaction performed on a low cost robot head [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://resolver.obvsg.at/urn:nbn:at:at-ubtuw:1-62815
robot; face detection; face recognition; object classification; face tracking; speech recognition
en
Abstract:
Im Rahmen dieser Diplomarbeit wurde untersucht, welche Möglichkeiten für eine multimodale Mensch-Roboter-Interaktion mit aktueller Technologie bestehen. Dazu wurde ein bestehender Low-Cost Roboterkopf, genannt Eva, genutzt und ein Softwaresystem entwickelt welches State of the Art Algorithmen der Bereiche Spracherkennung, Personendetektion, Personenidentifikation und Objektklassifizierung integriert. Besondere Aufmerksamkeit galt der möglichst natürlichen Kommunikation zwischen Eva und den Anwendern. Dafür wurde auf die Möglichkeit eingegangen Spracherkennungssoftware der aktuellen Generation für die Kommunikation zu nutzen. Mehrere Systeme wurden dafür implementiert und deren Fähigkeiten evaluiert bevor sie im Gesamtsystem zum Einsatz kamen. Zum Auffinden und Identifizieren der Anwender wurden gängige Verfahren gegenüber gestellt. Dazu zählen Viola-Jones in zwei unterschiedlichen Varianten zur Gesichtsdetektion sowie Eigenfaces, Fisherfaces und Local Binary Pattern Histogramme zur Personenidentifizierung. Diese Methoden, sowie die Nachverfolgung von Gesichtern mit Hilfe eines Kalman Filter und eines Lucas-Kanade Trackers dienen der multimodalen Kommunikation mit den Anwendern. Außerdem wird ein System zur Klassifizierung von Objekten unter Verwendung von random decision forests erläutert, welcher in weiteren Folgen genutzt werden könnte um mit diesen Gegenständen sinnvoll zu interagieren.<br />
de
Within the scope of this diploma thesis we investigated the possibilities of mulitmodal human robot interaction with current technologies. For this, a pre-built low-cost robot head, called Eva, has been used and a software system was developed which includes state of the art algorithms from the fields of speech recognition, face detection, face recognition and object classification. Special attention was given to provide natural communication between users and the robot by using current speech recognition technology. Multiple systems were evaluated after integrating them in our implementation, before using one of them in our complete set-up. For the ability to find and identify individual people known algorithms were implemented and compared to each other. These include two variations of the Viola-Jones algorithm for face detection as well as Eigenfaces, Fisherfaces and Local Binary Pattern histograms for face recognition. These, in combination with face tracking by coupling the Viola-Jones algorithm with either a Kalman filter or a Lucas-Kanade optical flow estimation, provide one more part of the multimodal interaction between Eva and the user. Object classification provides the robot with the ability to perform further analysis in the field of interaction with objects. One method for this, using random decision forests, is explained as well.