Titelaufnahme

Titel
Mathematical methods in single cell RNA sequencing analysis with an emphasis on the validation of clustering results / von Stephan Reichl
Weitere Titel
Mathematische Methoden in der Einzelzell-RNA-Sequenzierungsanalyse mit Schwergewicht auf der Validierung von Ergebnissen der Clusteranalyse
Verfasser / Verfasserin Reichl, Stephan
Begutachter / BegutachterinGrill, Karl
ErschienenWien, 2018
Umfangii, 126 Seiten : Illustrationen
HochschulschriftTechnische Universität Wien, Diplomarbeit, 2018
Anmerkung
Zusammenfassung in deutscher Sprache
Anmerkung
Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers
SpracheEnglisch
DokumenttypDiplomarbeit
Schlagwörter (EN)Single cell RNA sequencing / statistics / cluster analysis
URNurn:nbn:at:at-ubtuw:1-111763 Persistent Identifier (URN)
Zugriffsbeschränkung
 Das Werk ist frei verfügbar
Dateien
Mathematical methods in single cell RNA sequencing analysis with an emphasis on the validation of clustering results [4.9 mb]
Links
Nachweis
Klassifikation
Zusammenfassung (Deutsch)

Die Sequenzierungsmethoden der zweiten Generation (engl. next generation sequencing) durchliefen in den letzten Jahren rapide Entwicklungen. Eine der neuesten Entwicklungen ermöglicht es Wissenschaftlern Genexpressionsdaten von einzelnen Zellen zu ermitteln. Eine dieser Technologien schaffte es die Einzelzell-RNA (Transkriptom) -Sequenzierung (engl. single cell RNA sequencing) an die Spitze dieses Forschungsgebietes zu katapultieren, da sie einen hohen Durchsatz und präzise Sequenzierungsinformationen für einen Bruchteil der Kosten zur Verfügung stellt. Diese Technologie wird als “micro-droplet sequencing” bezeichnet und basiert auf dem Prinzip die Zellen vor dem Sequenzierungsprozess durch das Einschließen in Tröpfchen mit Hilfe von Mikrofluidik zu isolieren. Diese neue Technologie ermöglicht es Forschern eine neue Ära der Einzelzell-Sequenzierung einzuläuten und damit die Erforschung von biologischen Mechanismen auf zellulärer Ebene voran zu treiben. Verschiedene Anwendungen sind die Entdeckung neuer Zelltypen, die Identifikation von Angriffspunkten in der Medikamentenentwicklung und die Beobachtung biologischer Reaktionen auf zellulärer Ebene, um nur einige wenige zu nennen. Durch die Anwendung dieser neuartigen Technologie wird eine noch nie dagewesene Art von Daten generiert. Aufgrund der höheren Empfindlichkeit solcher Sequenzierungsverfahren treten, wegen äußerer Einflüsse, viele Störungen (Rauschen) oder möglicherweise verzerrte Messungen auf. Gleichzeitig hat die Datenmenge signifikant zugenommen, was zu hochdimensionalen Problemstellungen in großen Datensätzen führt. Obwohl den Daten mehr Dimensionen hinzugefügt werden, sind die meisten davon nur sehr dünnbesetzt und erschweren daher die Analyse. Mehr denn je sind komplexe Algorithmen und mathematische Methoden erforderlich, um diese sehr dünnbesetzten, hochdimensionalen und verrauschten Datensätze professionell verarbeiten zu können. Diese Arbeit konzentriert sich auf die mathematischen Methoden, die für die Analyse von Einzelzell-RNA-Sequenzierungs-Daten (engl. scRNAseq data) verwendet werden. Dafür konstruieren wir einen mathematischen Rahmen, der es ermöglicht den Prozess der scRNAseq-Analyse auf eine rigorose Weise zu beschreiben. Das Ziel ist es verschiedene Methoden für jede der identifizierten Vorgehensweisen im Prozess der scRNAseq-Analyse zu finden, zu beschreiben und zu vergleichen. Diese Vorgehensweisen inkludieren unter anderem Qualitätskontrolle, Normalisierung, Identifikation und Entfernung von Störfaktoren sowie Dimensionsreduktion und Clustering mit geeigneten Visualisierungen. Für jeden dieser Schritte sind mathematische Methoden erforderlich und wir versuchen die besten Ansätze zur Überwindung dieser neuen Herausforderungen zu finden und zu diskutieren. Darüber hinaus konzentrieren wir uns auf die Validierung von Clustering-Ergebnissen innerhalb der scRNAseq-Analyse und entwickeln zwei Ansätze, um diese Problemstellung zu bewältigen. Alle beschriebenen und entwickelten Methoden werden auf einen simulierten Datensatz, basierend auf einem realen scRNAseq-Datensatz, angewendet und zum besseren Verständnis und zur Validierung präsentiert.

Zusammenfassung (Englisch)

Next generation sequencing underwent drastic developments in the last years. One of the newest developments enables researchers to extract gene expression data from single cells. One of these techniques managed to catapult single cell RNA (transcriptome) sequencing to the top of the field, because it provides high throughput and high accuracy sequencing information for a fraction of the costs. This technology is called micro-droplet sequencing and is based on the principle of separating the cells before the sequencing process by encapsulating them into droplets with the help of microfluidics. This new technology introduces researchers to a new era of single cell sequencing and thereby understanding of the mechanisms in biology on a single cell level. Different applications are the discovery of new cell types, identification of targets for drug development or the observation of biological reactions on a cellular level to name just a few. With this new technology a new kind of data is generated. Due to the higher sensitivity of such sequencing processes we have to deal with a lot of noise or potentially distorted measurements due to environmental factors. At the same time the amount of data increased significantly, which results in high dimensional problems on large datasets.

Statistik
Das PDF-Dokument wurde 26 mal heruntergeladen.