Titelaufnahme

Titel
Interaktive Analyse audiovisueller Medien / von Alexander Fried
VerfasserFried, Alexander
Begutachter / BegutachterinEidenberger, Horst
Erschienen2012
UmfangX, 80 S. : Ill., graph. Darst.
HochschulschriftWien, Techn. Univ., Dipl.-Arb., 2012
Anmerkung
Zsfassung in engl. Sprache
SpracheDeutsch
DokumenttypDiplomarbeit
Schlagwörter (DE)Medienverstehen / Bildverstehen / Audioanalyse / Spracherkennung / Körperteilerkennung / Gesichtsähnlichkeit
Schlagwörter (EN)media understanding / image understanding / audio analysis / speech recognition / body part detection / face similarity
URNurn:nbn:at:at-ubtuw:1-48421 Persistent Identifier (URN)
Zugriffsbeschränkung
 Das Werk ist frei verfügbar
Dateien
Interaktive Analyse audiovisueller Medien [1.41 mb]
Links
Nachweis
Klassifikation
Zusammenfassung (Deutsch)

Medienverstehen ist der Versuch, Computern menschenartiges Erkennen von Medien unterschiedlicher Art zu ermöglichen. Diese Arbeit beschäftigt sich mit drei Themenbereichen aus diesem Gebiet: der Ähnlichkeitsberechnung von Gesichtern, der Objekterkennung (im Speziellen der Körperteilerkennung) und der Spracherkennung. Diese drei Themengebiete wurden in Applikationen praktisch umgesetzt. Die Absicht dieser Demoanwendungen besteht darin, die Praxisbezogenheit des Medienverstehens zu verdeutlichen. Die für die Umsetzung erforderlichen Methoden werden im theoretischen Teil dieser Diplomarbeit beschrieben.

In diesem Abschnitt wird argumentiert, warum diese Methoden für die Implementierung geeignet sind, wobei Bezug auf verwandte Arbeiten genommen wird.

Die erste Demoanwendung verdeutlicht Ähnlichkeitsmessung zwischen Gesichtern. Als Methode der Ähnlichkeitsberechnung wird Template Matching verwendet. In der zweiten Anwendung werden die mit der Webcam aufgenommenen Körperteile erkannt. Hier wird eine lokale Featureextraktionsmethode verwendet. Für die Klassifizierung wird u. a.

eine probabilistische Methode herangezogen. Die dritte Applikation ermöglicht sprachliche Interaktion mit dem Computer. Der Benutzer erhält die Aufforderung, den Laut eines vorgegebenen Tieres nachzumachen, das System soll überprüfen, ob es sich um das richtige Tier handelt. Genauso gut kann jedoch auch eine Frage gestellt werden, auf die der Benutzer mit dem Tiernamen antworten muss. In der Implementierung werden spektrale Features verwendet, die anhand eines geeigneten Klassifikators analysiert werden. Alle drei Applikationen beweisen, dass Medienverstehen erfolgreich implementiert werden kann.

Zusammenfassung (Englisch)

Media understanding is the domain of creating human-like perception of media objects in computers. This thesis addresses three main topics within this area: similarity detection of human faces, object recognition (body part detection in images, in particular) and fast speech recognition. In order to illustrate the practical purpose and the benefit of media understanding for the target group (undergraduate students in computer science) exemplary applications are implemented and discussed. The first part of this thesis elaborates on the theory behind the methods applied. Based on existing systems the most suitable features and classifiers for a given problem statement are investigated. The second section of the thesis deals with the practical implementation. In the first application the measurement of the similarity of prominent faces is investigated. Template matching is used as a method for calculating similarity. In the second application different body parts, recorded with a webcam, are detected and classified. The software uses a local feature extraction method for this task. For the accurate classification, a probabilistic method is applied (among others). The third application facilitates verbal interaction with the computer. The user is required to simulate the sound of a given species. Then, the system confirms whether the user's interpretation matches the one of the animal. In the same way the sound can be presented to users, asking them to reply with the correct animal name.

Here, the software uses spectral audio features, which are recognized by dynamic time warping. All three applications together prove that media understanding can be implemented successfully today.