Titelaufnahme

Titel
Improving verifyability and repeatability for data-driven workflows / von Gerhard Hager
Weitere Titel
Verbesserung der Wiederholbarkeit und Nachvollziehbarkeit datengetriebener Prozesse
VerfasserHager, Gerhard
Begutachter / BegutachterinRauber, Andreas
ErschienenWien 2016
Umfangix, 87 Seiten : Illustrationen
HochschulschriftTechnische Universität Wien, Univ., Diplomarbeit, 2016
Anmerkung
Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers
Zusammenfassung in deutscher Sprache
SpracheEnglisch
DokumenttypDiplomarbeit
Schlagwörter (DE)Workflow Management Systeme / Machine Learning / Verifikation / Verifizierbarkeit / Wiederholbarkeit / Dynamic Data Citation / Data Citation / Data Provenance / Datenherkunft / Cloud-basiert
Schlagwörter (EN)Workflow Management Systems / Machine Learning / Verification / Verifiability / Repeatability / Dynamic Data Citation / Data Provenance / Cloud-based
URNurn:nbn:at:at-ubtuw:1-3174 Persistent Identifier (URN)
Zugriffsbeschränkung
 Das Werk ist frei verfügbar
Dateien
Improving verifyability and repeatability for data-driven workflows [2.53 mb]
Links
Nachweis
Klassifikation
Zusammenfassung (Deutsch)

Das Verwenden von Workflow Systeme für Machine Learning ermöglicht es Daten skalierbar und effizient zu verarbeiten, um daraus Modelle herzustellen, die für datengetriebene Entscheidungen und Vorhersagen verwendet werden können. Diese Masterarbeit untersucht Konzepte für die Verbesserung der Verifikation und Wiederholbarkeit von Workflows. Die behandelten Themen sind Data Provenance und Dynamic Data Citation. Es wird untersucht wie Provenance Information während der Ausführung eines Workflow gesammelt und dargestellt werden kann. Des Weiteren wird analysiert wie das Zitieren von dynamischen Daten mit Hilfe von Workflows umgesetzt werden kann. Um die Durchführbarkeit der ausgearbeiteten Konzepte zu zeigen, wurden eine praktische Implementierung in einer cloud-basierten Machine Learning Umgebung durchgeführt. Die fertige Implementierung wurde möglichst generisch konstruiert damit man die Vorgehensweise auch auf andere Workflow Management Systeme anwenden kann. Zusätzlich wurden Empfehlungen für Machine Learning Applikationen erstellt, um die behandelten Themen besser unterstützen zu können. Der Einsatz der ausgearbeiteten Konzepte und Empfehlungen dieser Masterarbeit verbessern die Verifizierbarkeit und Wiederholbarkeit von Workflows.

Zusammenfassung (Englisch)

Using Workflow Systems for Machine Learning provides a scalable and efficient way to process data to create models which can be used for data-driven decisions and predictions. This thesis examines concepts for improving the verification and repeatability of such workflows. The covered topics include Data Provenance and Dynamic Data Citation. It investigates how provenance information can be collected during workflow execution and properly represented with a model. Furthermore it is analyzed how the citation of dynamic data can be realized in form of a workflow. To show the feasibility of the elaborated concepts some practical implementations are created in a high-performance, cloud-based machine learning environment. The final implementation is generically designed so the construction approach can be used for other workflow management systems. In addition recommendations for machine learning applications for supporting the discussed topics are proposed. The created concepts and recommendations can be used for improving the verifiability and repeatability of workflows.