Spracherkennung im Browser

Müller, Stefan

doi:10.34726/hss.2015.24850

DC Field

Value

Language

dc.contributor.advisor

Zagler, Wolfgang

dc.contributor.author

Müller, Stefan

dc.date.accessioned

2020-06-28T01:15:22Z

dc.date.issued

2015

dc.date.submitted

2016-05

dc.identifier.citation

<div class="csl-bib-body"> <div class="csl-entry">Müller, S. (2015). <i>Spracherkennung im Browser</i> [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2015.24850</div> </div>

dc.identifier.uri

https://doi.org/10.34726/hss.2015.24850

dc.identifier.uri

http://hdl.handle.net/20.500.12708/2292

dc.description

Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers

dc.description.abstract

Im Bereich der sprachgesteuerten Benutzerschnittstellen gab es in den letzten Jahren sehr große Fortschritte. Während sich sprachbasierte Anwendungen auf mobilen Endgeräten (z. B. Siri, Google Now etc.) und am Desktop bereits etabliert haben, sind Sprachsteuerung und -eingabe bei browserbasierten Benutzerschnittstellen aber noch sehr unüblich. Im Rahmen der vorliegenden Arbeit werden die Grundlagen der automatischen Spracherkennung vorgestellt und Möglichkeiten für die Steuerung von browserbasierten Benutzerschnittstellen per Spracheingabe untersucht. Die Arbeit gibt einen Überblick über die neuen Möglichkeiten zur Audioaufnahme, -wiedergabe und -verarbeitung, welche im Umfeld von HTML 5 entstanden sind, und stellt konkrete technische Lösungsansätze für die Umsetzung einer automatischen Spracherkennung im Web-Kontext vor. Der praktische Teil der Arbeit beschäftigt sich mit dem Entwurf, der Implementierung und der Evaluierung eines Prototyps für ein Sprachsteuerungsmodul. Es wird ein System vorgestellt, das moderne Webtechnologien - allen voran die Web Speech API - verwendet, um eine Sprachsteuerung zu realisieren. Das entwickelte System nutzt ein flexibles XML-Dateiformat zur Definition von Befehlen. Des Weiteren implementiert es eine phonetische Nachverarbeitung der vom Google Spracherkennungsservice gelieferten Ergebnisse, um die Gesamterkennungsleistung zu steigern. Im Zuge einer Evaluierung wurde die Erkennungsleistung des Systems unter verschiedenen Bedingungen erhoben.

dc.description.abstract

During the last few years there has been substantial progress in the area of voicecontrolled user interfaces. While users have become used to voice-based applications on mobile devices (e.g. Siri or Google Now) or on the desktop, it is currently still very uncommon to see voice-controlled web applications. In this master thesis fundamentals of automatic speech recognition are presented and options for the implementation of voice-controlled web interfaces are discussed. The thesis gives an overview of the new options for audio recording, playback and processing, which have been developed in the context of HTML 5, and investigates selected technical solutions for the implementation of automatic speech recognition in web applications. The practical part of the thesis deals with the design, implementation and evaluation of a prototype for a voice control module. A system is presented that uses modern web technologies, most notably the Web Speech API, in order to implement voice control for web applications. The developed system uses a flexible XML file format to define commands. Additionally it implements a phonetic post-processing of the results provided by Google-s automatic speech recognition service in order to improve the overall recognition performance. As part of the work, the recognition performance of the system has been evaluated under different conditions.

dc.language

Deutsch

dc.language.iso

dc.rights.uri

http://rightsstatements.org/vocab/InC/1.0/

dc.subject

Spracherkennung

dc.subject

Browser

dc.subject

Browser

dc.title

Spracherkennung im Browser

dc.title.alternative

Speech recognition in the browser

dc.type

Thesis

dc.type

Hochschulschrift

dc.rights.license

In Copyright

dc.rights.license

Urheberrechtsschutz

dc.identifier.doi

10.34726/hss.2015.24850

dc.contributor.affiliation

TU Wien, Österreich

dc.rights.holder

Stefan Müller

dc.publisher.place

Wien

tuw.version

vor

tuw.thesisinformation

Technische Universität Wien

dc.contributor.assistant

Mayer, Peter

tuw.publication.orgunit

E187 - Institut für Gestaltungs- und Wirkungsforschung

dc.type.qualificationlevel

Diploma

dc.identifier.libraryid

AC13110927

dc.description.numberOfPages

dc.identifier.urn

urn:nbn:at:at-ubtuw:1-2516

dc.thesistype

Diplomarbeit

dc.thesistype

Diploma Thesis

dc.rights.identifier

In Copyright

dc.rights.identifier

Urheberrechtsschutz

tuw.advisor.staffStatus

staff

tuw.assistant.staffStatus

staff

tuw.assistant.orcid

0000-0003-3520-3214

item.fulltext

with Fulltext

item.cerifentitytype

Publications

item.mimetype

application/pdf

item.openairecristype

http://purl.org/coar/resource_type/c_bdcc

item.languageiso639-1

item.openaccessfulltext

Open Access

item.openairetype

master thesis

item.grantfulltext

open

crisitem.author.dept

TU Wien

Appears in Collections:

Thesis

Fulltext (Version of Record (published version))

Adobe PDF

(1.52 MB)

In Copyright

Show simple item record

Page view(s)

279

checked on Nov 20, 2023

Download(s)

272

checked on Nov 20, 2023

Google Scholar^TM

Check

Page view(s)

Download(s)

Google ScholarTM

Google Scholar^TM