Titelaufnahme

Titel
Spracherkennung im Browser / von Stefan Müller
Weitere Titel
Speech recognition in the browser
VerfasserMüller, Stefan
Begutachter / BegutachterinZagler, Wolfgang ; Mayer, Peter
ErschienenWien, 2015
UmfangIX, 97 Seiten
HochschulschriftTechnische Universität Wien, Diplomarbeit, 2015
Anmerkung
Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers
SpracheDeutsch
DokumenttypDiplomarbeit
Schlagwörter (DE)Spracherkennung / Browser
Schlagwörter (EN)Browser
URNurn:nbn:at:at-ubtuw:1-2516 Persistent Identifier (URN)
Zugriffsbeschränkung
 Das Werk ist frei verfügbar
Dateien
Spracherkennung im Browser [1.48 mb]
Links
Nachweis
Klassifikation
Zusammenfassung (Deutsch)

Im Bereich der sprachgesteuerten Benutzerschnittstellen gab es in den letzten Jahren sehr große Fortschritte. Während sich sprachbasierte Anwendungen auf mobilen Endgeräten (z. B. Siri, Google Now etc.) und am Desktop bereits etabliert haben, sind Sprachsteuerung und -eingabe bei browserbasierten Benutzerschnittstellen aber noch sehr unüblich. Im Rahmen der vorliegenden Arbeit werden die Grundlagen der automatischen Spracherkennung vorgestellt und Möglichkeiten für die Steuerung von browserbasierten Benutzerschnittstellen per Spracheingabe untersucht. Die Arbeit gibt einen Überblick über die neuen Möglichkeiten zur Audioaufnahme, -wiedergabe und -verarbeitung, welche im Umfeld von HTML 5 entstanden sind, und stellt konkrete technische Lösungsansätze für die Umsetzung einer automatischen Spracherkennung im Web-Kontext vor. Der praktische Teil der Arbeit beschäftigt sich mit dem Entwurf, der Implementierung und der Evaluierung eines Prototyps für ein Sprachsteuerungsmodul. Es wird ein System vorgestellt, das moderne Webtechnologien - allen voran die Web Speech API - verwendet, um eine Sprachsteuerung zu realisieren. Das entwickelte System nutzt ein flexibles XML-Dateiformat zur Definition von Befehlen. Des Weiteren implementiert es eine phonetische Nachverarbeitung der vom Google Spracherkennungsservice gelieferten Ergebnisse, um die Gesamterkennungsleistung zu steigern. Im Zuge einer Evaluierung wurde die Erkennungsleistung des Systems unter verschiedenen Bedingungen erhoben.

Zusammenfassung (Englisch)

During the last few years there has been substantial progress in the area of voicecontrolled user interfaces. While users have become used to voice-based applications on mobile devices (e.g. Siri or Google Now) or on the desktop, it is currently still very uncommon to see voice-controlled web applications. In this master thesis fundamentals of automatic speech recognition are presented and options for the implementation of voice-controlled web interfaces are discussed. The thesis gives an overview of the new options for audio recording, playback and processing, which have been developed in the context of HTML 5, and investigates selected technical solutions for the implementation of automatic speech recognition in web applications. The practical part of the thesis deals with the design, implementation and evaluation of a prototype for a voice control module. A system is presented that uses modern web technologies, most notably the Web Speech API, in order to implement voice control for web applications. The developed system uses a flexible XML file format to define commands. Additionally it implements a phonetic post-processing of the results provided by Google-s automatic speech recognition service in order to improve the overall recognition performance. As part of the work, the recognition performance of the system has been evaluated under different conditions.