Titelaufnahme

Titel
Ein schlankes Workflow-Tool für Bioinformatik / von Alexander Albl
VerfasserAlbl, Alexander
Begutachter / BegutachterinDustdar, Schahram
Erschienen2010
Umfangxii, 82 S. : Ill.
HochschulschriftWien, Techn. Univ., Dipl.-Arb., 2010
Anmerkung
Zsfassung in engl. Sprache
SpracheDeutsch
DokumenttypDiplomarbeit
Schlagwörter (DE)workflow
URNurn:nbn:at:at-ubtuw:1-38645 Persistent Identifier (URN)
Zugriffsbeschränkung
 Das Werk ist frei verfügbar
Dateien
Ein schlankes Workflow-Tool für Bioinformatik [2.42 mb]
Links
Nachweis
Klassifikation
Zusammenfassung (Deutsch)

Arbeitsabläufe im Umfeld der Bioinformatik-Forschung unterliegen diversen Problemen, die in ihrer speziellen Kombination in keinem anderen Umfeld auftreten. Große Datenmengen an sequenzierten Genomen in unterschiedlichen Formaten müssen oftmals bearbeitet werden, und darüber hinaus im Sinne der wissenschaftlichen Nachvollziehbarkeit über einen langen Zeitraum gespeichert werden. Spezielle Fragestellungen der Forscher des Chairs of Bioinformatics der Universität für Bodenkultur Wien erfordern die stichprobenartige Analyse von Genen oder Genomen von Mäusen zur Identifizierung von Kontaminierungen mit verschiedenen Bakterien, etwa Escherichia coli.

Dabei werden unter oftmaliger Veränderung bzw. Neueinführung von Parametern die Daten in grundsätzlich gleichen Arbeitsabläufen untersucht und mit Referenzdatensätzen verglichen. Aktuell erfolgt diese Arbeit mit hohem Personalaufwand, da es keine Möglichkeit gibt, die Tätigkeit durch genormte Arbeitsabläufe mit Unterstützung von Parametern und Resultatsvergleichen zu vereinfachen.

Bestehende Systeme aus dem Geschäftsprozessmanagement genauso wie bestehende Applikationen für die Bearbeitung von wissenschaftlichen Workflows bauen konsequent auf die Nutzung einer graphischen Benutzeroberfläche auf, ein leichtgewichtigerer Ansatz zur koordinierten Ausführung und Speicherung der Arbeitsabläufe ist zum aktuellen Zeitpunkt nicht bekannt. Darüber hinaus besteht die Notwendigkeit, bestehende Skripte und andere Applikationen weiterhin zu verwenden.

In dieser Arbeit wird auf diese Problematik eingegangen, indem ein neu entwickeltes Framework vorgestellt wird, dass die Forscher des Vienna Science Chair of Bioinformatics der Universität für Bodenkultur Wien dabei unterstützt, ihre vorhandenen sowie zukünftige Arbeitsabläufe in einer standardisierten Form zu beschreiben, diese in einer vorgegebenen Umgebung ablaufen zu lassen, und die Ergebnisse zu historisieren. Als Beschreibungssprache kommt dabei eine selbst entwickelte XML-Syntax zum Einsatz, die mithilfe eines beliebigen Editors auf einfache Art und Weise erstellt werden kann. Die Historisierung der Daten erfolgt über den Zugriff auf ein zentrales Subversion-Repository, sodass Änderungen an Arbeitsabläufen in einer standardisierten Form nachvollziehbar sind.

Zur Evaluierung der erstellten Applikation wird ein Workflow aus der wissenschaftlichen Praxis herangezogen, dessen Aufgaben beispielhaft für einen Großteil der erwarteten Problemstellungen sind. Dieser Arbeitsablauf sieht vor, mehrere Datensets von unterschiedlichen Datenbanken herunterzuladen (sofern diese Daten lokal noch nicht verfügbar sind), diese weiters durch mehrere Transformationsschritte aufzubereiten und anschließend auf Kontaminierungen mit E.

coli-Bakterien zu untersuchen. Die Transformationen beinhalten die Bearbeitung mit einem extern verfügbaren Skript zur Erstellung von Indizes, darüber hinaus werden die Daten zur parallelen Bearbeitung in mehrere Teile aufgesplittet. Die Ergebnisse werden abschließend mit einem Ausblick auf zukünftige Versionen bewertet.