Titelaufnahme

Titel
Performance analysis of big data tools based on benchmarks for store sales forecasting / von Kateryna Zaslavska
VerfasserZaslavska, Kateryna
Begutachter / BegutachterinBrandic, Ivona
Erschienen2014
UmfangXV, 88 S. : Ill., graph. Darst.
HochschulschriftWien, Techn. Univ., Dipl.-Arb., 2014
Anmerkung
Zsfassung in dt. Sprache
SpracheEnglisch
DokumenttypDiplomarbeit
Schlagwörter (EN)Big Data / Weka / KNIME / R / Apache Mahout / Data Mining / Forecasting / Benchmarking
URNurn:nbn:at:at-ubtuw:1-67841 Persistent Identifier (URN)
Zugriffsbeschränkung
 Das Werk ist frei verfügbar
Dateien
Performance analysis of big data tools based on benchmarks for store sales forecasting [10.62 mb]
Links
Nachweis
Klassifikation
Zusammenfassung (Deutsch)

In den letzten Jahren sind Volumen und Vielfalt der sogenannten Big Data signifikant angestiegen. Mit der großen und wachsenden Menge an massiv unstrukturierten Daten wird die Bedeutung ihrer Verarbeitung, Speicherung, Aggregation und Analyse sowie der Ableitung von wertvollen Informationen größer. Mit der steigenden Anzahl an unterschiedlichen Arten und Quellen von Big Data wächst auch die Anzahl an Unternehmen und Open-Source-Anwendungen, Techniken und Modellen zur Ressourcennutzung für die Analyse von Big Data stetig an. Die meisten davon bieten grundlegende Techniken des Data-Minings an. Dennoch besteht ein signifikanter Unterschied in ihren Möglichkeiten der Skalierung, der Visualisierungsfähigkeit, der Leistung, der Erweiterbarkeit und der Verarbeitung von verschiedenen Datenspeichern. Obwohl zahlreiche Unterlagen verfügbar sind, in denen die Stärken und Schwächen beschrieben werden, beantworten diese nicht die Frage der Mitglieder dieses Geschäftszweigs, ob eine bestimmte Anwendung auf tatsächliche Probleme angemessen ist und sie zu einer effektiven Entscheidungsfindung führt. Das Hauptziel dieser Arbeit ist es, solche Applikationen und Werkzeuge für die Analyse von Big Data, z.B. Weka, KNIME, Apache Mahout und R, zu untersuchen und miteinander zu vergleichen. Dafür verwenden wir mehrere Zeitreihen realer Datensätze und vergleichen ihre Anwendbarkeit im Kontext. Zu diesem Zweck entwickeln und nutzen wir geeignete Szenarien, die verschiedene Techniken des Data Mining anwenden und Datenanalyse, Datenumwandlung, Bewertung der Genauigkeit des Models und Visualisierung beinhalten. Basierend auf den gewonnenen Ergebnissen werden Applikationen für die Analyse von Big Data bewertet und verglichen, indem zahlreiche quantitative und qualitative Messungen verwendet werden.

Zusammenfassung (Englisch)

In the past few years the volume and variety of Big Data significantly increased. With the large growing amount of massive unstructured data the importance of its processing, storing, aggregation, analysis, and derivation of valuable information becomes stronger. With the increasing amount of Big Data types and sources the number of enterprise and open source applications, techniques and resource usage models for big data analysis constantly rises. Most of them provides basic data mining techniques, however, there is still a significant difference in their possibility to scale, visualization capabilities, performance, extensibility, and processing of various data storages. Although, the large number of materials describing strengths and weaknesses is available, they do not supply business members with the understanding whether a certain application will fit their real problems in a way that provides effective decision-making. The main goal of this thesis is to investigate and compare such applications and tools for big data analysis as Weka, KNIME, Apache Mahout, and R using several time series real data sets and compare their applicability in the context. For these purposes, we develop and apply suitable scenarios that involve the usage of various data mining techniques and contain data analysis, data transformations, model accuracy assessment, and visualization. Based on achieved results big data analysis applications are evaluated and compared using multiple quantitative and qualitative measurements.