Titelaufnahme

Titel
A Workflow for Single Cell RNA Sequencing Analysis with the Goal of a Robust and Comprehensible Clustering by Cell Populations / von Stephan Reichl
Weitere Titel
Ein Workflow für die Einzelzell-RNA-Sequenzierungsanalyse mit dem Ziel eines robusten und nachvollziehbaren Clusterings nach Zellpopulationen
Verfasser / Verfasserin Reichl, Stephan
GutachterGrill, Karl
ErschienenWien, 2018
Umfang113 Seiten
HochschulschriftTechnische Universität Wien, Diplomarbeit, 2018
Anmerkung
Arbeit an der Bibliothek noch nicht eingelangt - Daten nicht geprueft
SpracheEnglisch
DokumenttypDiplomarbeit
Schlagwörter (DE)Single Cell RNA Analyse
Schlagwörter (EN)Single Cell RNA Analysis
URNurn:nbn:at:at-ubtuw:1-119413 Persistent Identifier (URN)
Zugriffsbeschränkung
 Das Werk ist frei verfügbar
Dateien
A Workflow for Single Cell RNA Sequencing Analysis with the Goal of a Robust and Comprehensible Clustering by Cell Populations [15.18 mb]
Links
Nachweis
Klassifikation
Zusammenfassung (Deutsch)

Die Sequenzierungsmethoden der zweiten Generation (engl. next generation sequencing), deren Ziel es ist Teile der DNA zu entschlüsseln, durchliefen in den letzten Jahren rapide Entwicklungen. Eine der neuesten Entwicklungen ermöglicht es Wissenschaftlern, die Genexpression von einzelnen Zellen zu quantifizieren, und zwar Einzelzell-RNA (= Transkriptom) Sequenzierung (engl. single cell RNA sequencing). Eine neue Technologie ermöglicht es Forschern eine neue Ära der Einzelzell-RNA Sequenzierung und damit die Erforschung von biologischen Mechanismen auf zellulärer Ebene einzuläuten. Durch die Anwendung dieser neuartigen Technologie wird eine noch nie da gewesene Art von Daten generiert. Daraus resultieren neue Herausforderungen auf dem Gebiet der Bioinformatik, zum Beispiel eine sehr hohe Dimensionalität in großen Datensätzen, Anfälligkeit für Störfaktoren, Einschränkungen bei Visualisierungen, hohe Rauschanteile und unzulängliche Ergebnisse in der Clusteranalyse. Die Literatur empfiehlt, diese Herausforderungen mit Verfahren wie Qualitätskontrolle, Normalisierung, Störfaktoranalyse, Dimensionsreduktion und Clusteranalyse zu bewältigen. Diese Arbeit konzentriert sich auf die Entwicklung, Verifizierung und Validierung eines solchen Workflows, der alle neu entstandenen Herausforderungen adressiert. Der Workflow basiert auf den theoretischen Überlegungen unserer vorherigen Arbeit in diesem Bereich. Hauptziel ist eine robuste und nachvollziehbare Clusterfindung anhand von Zellpopulationen durch den Einsatz von hauptsächlich automatisierten Methoden. Der Workflow wird mit Hilfe von simulierten Datensätzen verifiziert, die gezielt generiert wurden, um Einzelzell-RNA-Sequenzierungsdaten zu entsprechen. Am Ende validieren wir den Workflow durch die Analyse eines realen öffentlich verfügbaren Datensatzes aus der Literatur und durch den Vergleich der Ergebnisse und biologischen Interpretation mit bereits vorhandenen Erkenntnissen.

Zusammenfassung (Englisch)

Next generation sequencing, transcribing parts of the DNA, underwent drastic developments in the last years. One of the newest developments enables researchers to extract gene expression data from single cells, namely single cell RNA (transcriptome) sequencing. A new technology introduces researchers to a new era of single cell sequencing and thereby understanding mechanisms in biology on a single cell level. With this new technology a new kind of data is generated. Therefore, new challenges emerged in the field of computational biology, for example very high dimensionality within large data sets, susceptibility to confounding factors, limitations in visualizing the data, high levels of noise and lacking confidence in clustering results. The literature recommends to address these challenges with procedures such as quality control, normalization, confounding factor analysis, dimensionality reduction and clustering. The major challenge is to determine the right methods and developing a best practice workflow for the rigorous analysis of such data. This work focuses on the development, verification and validation of such a workflow. The workflow is based on theoretical considerations of our previous work in this field. The main goal is to achieve a robust clustering by cell populations through the application of mostly automated and comprehensible methods. The workflow is verified with the help of simulated datasets, which were specifically designed to resemble single cell RNA sequencing datasets. In the end we validate the workflow through the analysis of a real publicly available dataset from the literature and by comparing the results and biological interpretation with discoveries made by the community.

Statistik
Das PDF-Dokument wurde 11 mal heruntergeladen.