Titelaufnahme

Titel
Dependable event processing over high frequency data streams / von Andrea Floh
VerfasserFloh, Andrea
Begutachter / BegutachterinDustdar, Schahram ; Hummer, Waldemar
Erschienen2014
UmfangXII, 126 S. : Ill., graph. Darst.
HochschulschriftWien, Techn. Univ., Dipl.-Arb., 2014
Anmerkung
Zsfassung in dt. Sprache. - Literaturverz. S. 113 - 124
SpracheEnglisch
DokumenttypDiplomarbeit
Schlagwörter (DE)Ereignis-Verarbeitung / Cloud-Computing / Lastspitzen-Behandlung / Datenströme / Überlastung / Abfragentaxonomie / Lastabwurf / Verzögerte Verarbeitung / Weiterleitung
Schlagwörter (EN)event processing / cloud computing / burst handling / data streams / overload / query taxonomy / load shedding / deferred execution / forwarding
URNurn:nbn:at:at-ubtuw:1-74111 Persistent Identifier (URN)
Zugriffsbeschränkung
 Das Werk ist frei verfügbar
Dateien
Dependable event processing over high frequency data streams [1.84 mb]
Links
Nachweis
Klassifikation
Zusammenfassung (Deutsch)

Ereignis-basierte Systeme (event processing systems) haben in letzter Zeit an Bedeutung gewonnen und sind immer häufiger im Einsatz. Im Gegensatz zu traditionellen Systemen, welche persistierte Daten verarbeitet haben, die oftmals in eine Datenbank eingefügt und erst danach verarbeitet wurden, müssen Ereignis-basierte Systeme mit laufend ankommenden Daten umgehen können und diese meist auch umgehend verarbeiten können. Die Verarbeitung umfasst dabei komplexe Berechnungen, welche durchaus gewisse Ressourcen benötigen. Die Ankunftsrate der Ereignisse ist allerdings selten gleichbleibend. Vielmehr müssen die Systeme mit starken Schwankungen umgehen und sollten Spitzenfrequenzen verkraften, welche die Durchschnittsfrequenz um ein Vielfaches übersteigen. Speziell zu solchen Spitzenzeiten, wenn die Anzahl der ankommenden Ereignisse und deren Größe ein sehr hohes Datenvolumen ergeben, sollen diese Systeme trotzdem verlässlich arbeiten. Verschiedene Ansätze für den Umgang mit solch hohen Datenvolumina wurden in der bisherigen Forschung vorgestellt, allerdings oft nur im Kontext von speziellen Anwendungsgebieten. Die Anwendbarkeit und Effizienz der Strategien ist aber je nach Einsatzzweck unterschiedlich. Generelle Richtlinien, welche Strategien in welchen Situationen verwendet werden sollen, sind derzeit nicht verfügbar. Diese Arbeit behandelt Vorgehensweisen für den Umgang mit hoher Last auf einem einzelnen Verarbeitungsknoten. Aktuell sind hierfür vor allem drei Strategien populär: Lastabwurf (load shedding) verzögerte Verarbeitung (deferred execution) und Weiterleitung (forwarding). Im Rahmen der Arbeit werden diese Strategien vorgestellt und analysiert. Im Speziellen wird dabei untersucht, für welche Verarbeitungsszenarien diese Praktiken verwendet werden können. Hierfür wird auch eine Klassifizierung der Abfragen, die zur Verarbeitung verwendet werden, erstellt. Die Klassifizierung erfolgt dabei nach zwei Dimensionen: dem Operationstyp und dem Umfang der Abfrage. Basierend auf den Eigenschaften der verschiedenen Abfragetypen wird die Einsetzbarkeit der Praktiken theoretisch analysiert und danach mit einer praktischen Evaluierung belegt. Die Strategien werden hierzu generisch implementiert und in das Framework WS-Aggregation integriert. Dieses Framework für die verteilte, ereignis-basierte Aggregation von Web-Service Daten wurde am Arbeitsbereich für Verteilte Systeme der Technischen Universität Wien entwickelt. Die Ergebnisse der Evaluierung werden im Speziellen auch genutzt um die verschiedenen Faktoren der Anwendbarkeit der Strategien zu gewichten und um festzustellen, in welchen Bereichen noch weitere Forschungsarbeit benötigt wird.

Zusammenfassung (Englisch)

The number of event processing system is increasing more and more. In contrast to traditional systems, those event processing systems do not handle persistent data, which is mostly stored in databases, but instead they have to deal with events, which are received continuously over various communication channels and should be processed more or less immediately. Complex calculations in terms of queries have to be performed for these events. The frequency of the arriving events is not necessarily steady. In fact, the system has do deal with ups and downs, which can influence the data volume heavily. Especially in times of high frequency the processing systems have to deal with a huge number of events and should be able to manage these phases. Different approaches of dealing with high volume data streams have been studied, but their applicability and efficiency may vary depending on the application scenario. General approaches or guidelines on how to treat such overload are not available. This thesis covers strategies to handle phases of high data volume on event streams for a single event processing node. Currently, there are three established strategies for coping with loads that are too high, which have been used to treat overload situations caused by high data volume: load shedding, deferred execution and forwarding. These strategies are discussed and their applicability for different types of queries is evaluated. For this reason, a taxonomy of queries in event processing systems is elaborated. The taxonomy covers different dimensions like the type of processing operation and the scope of the query. Based on the features of the strategies and the different query types, the applicability of the strategies is analyzed in theory and an evaluation is performed to support the analysis. The strategies are implemented in a generic way and are integrated into the WS-Aggregation framework for the evaluation. This framework for distributed and event-based aggregation of web services data has been developed by the Distributed Systems Group at the Vienna University of Technology. Furthermore, the results of the evaluation are used to determine the strength of the influence of the different applicability criteria and to formulate problem statements for further research.