Dynamic optimization of data object placement in the cloud

Matt, Johannes

doi:10.34726/hss.2017.40864

Record link:

https://doi.org/10.34726/hss.2017.40864
http://hdl.handle.net/20.500.12708/3762

Title:

Dynamic optimization of data object placement in the cloud

Citation:

Matt, J. (2017). Dynamic optimization of data object placement in the cloud [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2017.40864

reposiTUm DOI:

10.34726/hss.2017.40864

CatalogPlus:

AC13717631

Publication Type:

Thesis - Diplomarbeit

Language:

English

Authors:

Matt, Johannes

Advisor:

Schulte, Stefan

Co-advisor:

Waibel, Philipp

Organisational Unit:

E184 - Institut für Informationssysteme

Date (published):

2017

Number of Pages:

Keywords:

Redundante Datenspeicherung; Cloud-Speicher; Kostenoptimierung

Redundant Data Storage; Cloud Storages; Cost Optimization

Abstract:

In den letzten Jahren sind Cloud-basierte Speicherlösungen zu einer weit verbreiteten Alternative zu lokalen Speichersystemen geworden. Benutzer von Cloud-basierten Speichersystemen können von einigen Vorteilen profitieren. Einige dieser Vorteile sind die bessere Verfügbarkeit, erweiterte Langlebigkeit und die geringeren IT-Administrationskosten. Allerdings gibt es auch einige Nachteile, die bei der Verwendung von Cloud-basierten Speichern berücksichtigt werden müssen, beispielsweise das Vendor-Lock-In Problem und die mögliche Nichtverfügbarkeit der Daten. Um diese Probleme zu vermeiden, entwerfen wir in dieser Arbeit ein Systemmodell, das mehrere Cloud-Speicher für das Speichern der Daten verwendet. Durch die Verwendung dieses Modells ergibt sich die Möglichkeit, Daten redundant zu speichern und die günstigste Speicherlösung zu finden. In dieser Arbeit formulieren wir ein globales Optimierungsproblem, welches historische Zugangsinformationen über die Daten in Betracht zieht und dabei vorgegebene Dienstgüteanforderungen erfüllt, um eine kosteneffiziente Speicherlösung zu finden. Außerdem stellen wir einen hochskalierbaren heuristischen Ansatz vor, mit dem große Datenmengen verarbeitet werden können. Die Heuristik ermöglicht es, eine Speicherlösung zu finden, die im Hinblick auf die Kosteneffizienz nahe an die optimale Lösung der globalen Optimierung herankommt. Weiters beschreiben wir einen Ansatz, welcher Latenzen in Betracht zieht. Dieser Ansatz berücksichtigt die Latenzen der verschiedenen Cloud-Speicher bei der Optimierung der Speicherlösung. Dabei wird das Ziel verfolgt, zusätzlich zu einer Kostenreduktion auch möglichst geringe Latenzen zu erreichen, was schlussendlich zu einer besseren Benutzererfahrung führt. Wir evaluieren alle drei Optimierungsansätze gründlich und zeigen damit die Vorteile der entwickelten Ansätze auf. Für die Evaluierungen vergleichen wir unsere Optimierungsansätze mit einem gängigen Standardansatz. Wir erklären die korrekte Funktionsweise der Optimierungsansätze in einer detaillierten Analyse der Resultate. Dabei zeigen wir, dass wir mehr als 35% der gesamten Speicherkosten im Vergleich zu dem gängigen Standardansatz einsparen können.

The use of cloud-based storages to store data has become a popular alternative to traditional local storage systems. Users of cloud-based storages can benefit from a lot of advantages, such as higher data availability, extended durability and lower IT administration cost. However, there also exist drawbacks in using cloud-based storage systems. Among the biggest drawbacks are the problem of vendor lock-in and possible unavailability of the data. To overcome these problems, in this thesis we formulate a system model that makes use of multiple cloud storages to store data. The usage of this system model allows the redundant storage of data and aims at finding the cheapest possible storage solution. In this thesis we formulate a global optimization problem that takes into account historical data access information and ensures predefined Quality of Service requirements to find a cost-efficient storage solution. Furthermore, we present a highly scalable heuristic approach that can be used with big amounts of data. The heuristic approach aims at scalability while still providing a cost-efficient storage solution that comes close to the optimal solution provided by the global optimization. As an extension to the heuristic approach we also describe a latency consideration approach. This approach incorporates latencies between the middleware and the used cloud storages into the optimization in order to find a storage solution that offers the lowest possible latencies. Therefore, customers can access their data faster which leads to a better end-user experience. We extensively evaluate all three optimization approaches and thereby show the benefits of our designed approaches. The evaluations are presented by comparing our optimization approaches to a baseline that follows a state-of-the-art approach. We prove the correct functionality of the approaches by a detailed analysis of the results and show that we save more than 35% of total cost in comparison with the baseline.

License:

In Copyright

Appears in Collections:

Thesis