Bibliographic Metadata

Title
Improving verifyability and repeatability for data-driven workflows / von Gerhard Hager
Additional Titles
Verbesserung der Wiederholbarkeit und Nachvollziehbarkeit datengetriebener Prozesse
AuthorHager, Gerhard
CensorRauber, Andreas
PublishedWien, 2016
Descriptionix, 87 Seiten : Illustrationen
Institutional NoteTechnische Universität Wien, Diplomarbeit, 2016
Annotation
Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers
Zusammenfassung in deutscher Sprache
LanguageEnglish
Document typeThesis (Diplom)
Keywords (DE)Workflow Management Systeme / Machine Learning / Verifikation / Verifizierbarkeit / Wiederholbarkeit / Dynamic Data Citation / Data Citation / Data Provenance / Datenherkunft / Cloud-basiert
Keywords (EN)Workflow Management Systems / Machine Learning / Verification / Verifiability / Repeatability / Dynamic Data Citation / Data Provenance / Cloud-based
URNurn:nbn:at:at-ubtuw:1-3174 Persistent Identifier (URN)
Restriction-Information
 The work is publicly available
Files
Improving verifyability and repeatability for data-driven workflows [2.53 mb]
Links
Reference
Classification
Abstract (German)

Das Verwenden von Workflow Systeme für Machine Learning ermöglicht es Daten skalierbar und effizient zu verarbeiten, um daraus Modelle herzustellen, die für datengetriebene Entscheidungen und Vorhersagen verwendet werden können. Diese Masterarbeit untersucht Konzepte für die Verbesserung der Verifikation und Wiederholbarkeit von Workflows. Die behandelten Themen sind Data Provenance und Dynamic Data Citation. Es wird untersucht wie Provenance Information während der Ausführung eines Workflow gesammelt und dargestellt werden kann. Des Weiteren wird analysiert wie das Zitieren von dynamischen Daten mit Hilfe von Workflows umgesetzt werden kann. Um die Durchführbarkeit der ausgearbeiteten Konzepte zu zeigen, wurden eine praktische Implementierung in einer cloud-basierten Machine Learning Umgebung durchgeführt. Die fertige Implementierung wurde möglichst generisch konstruiert damit man die Vorgehensweise auch auf andere Workflow Management Systeme anwenden kann. Zusätzlich wurden Empfehlungen für Machine Learning Applikationen erstellt, um die behandelten Themen besser unterstützen zu können. Der Einsatz der ausgearbeiteten Konzepte und Empfehlungen dieser Masterarbeit verbessern die Verifizierbarkeit und Wiederholbarkeit von Workflows.

Abstract (English)

Using Workflow Systems for Machine Learning provides a scalable and efficient way to process data to create models which can be used for data-driven decisions and predictions. This thesis examines concepts for improving the verification and repeatability of such workflows. The covered topics include Data Provenance and Dynamic Data Citation. It investigates how provenance information can be collected during workflow execution and properly represented with a model. Furthermore it is analyzed how the citation of dynamic data can be realized in form of a workflow. To show the feasibility of the elaborated concepts some practical implementations are created in a high-performance, cloud-based machine learning environment. The final implementation is generically designed so the construction approach can be used for other workflow management systems. In addition recommendations for machine learning applications for supporting the discussed topics are proposed. The created concepts and recommendations can be used for improving the verifiability and repeatability of workflows.

Stats
The PDF-Document has been downloaded 52 times.