A Workflow for single cell RNA sequencing analysis with the goal of a robust and comprehensible clustering by cell populations

Reichl, Stephan

doi:10.34726/hss.2018.59723

DC Field

Value

Language

dc.contributor.advisor

Grill, Karl

dc.contributor.author

Reichl, Stephan

dc.date.accessioned

2020-06-29T18:31:15Z

dc.date.issued

2018

dc.date.submitted

2018-12

dc.identifier.citation

<div class="csl-bib-body"> <div class="csl-entry">Reichl, S. (2018). <i>A Workflow for single cell RNA sequencing analysis with the goal of a robust and comprehensible clustering by cell populations</i> [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2018.59723</div> </div>

dc.identifier.uri

https://doi.org/10.34726/hss.2018.59723

dc.identifier.uri

http://hdl.handle.net/20.500.12708/7933

dc.description

Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers

dc.description.abstract

Die Sequenzierungsmethoden der zweiten Generation (engl. next generation sequencing), deren Ziel es ist Teile der DNA zu entschlüsseln, durchliefen in den letzten Jahren rapide Entwicklungen. Eine der neuesten Entwicklungen ermöglicht es Wissenschaftlern, die Genexpression von einzelnen Zellen zu quantifizieren, und zwar Einzelzell-RNA (= Transkriptom) Sequenzierung (engl. single cell RNA sequencing). Eine neue Technologie ermöglicht es Forschern eine neue Ära der Einzelzell-RNA Sequenzierung und damit die Erforschung von biologischen Mechanismen auf zellulärer Ebene einzuläuten. Durch die Anwendung dieser neuartigen Technologie wird eine noch nie da gewesene Art von Daten generiert. Daraus resultieren neue Herausforderungen auf dem Gebiet der Bioinformatik, zum Beispiel eine sehr hohe Dimensionalität in großen Datensätzen, Anfälligkeit für Störfaktoren, Einschränkungen bei Visualisierungen, hohe Rauschanteile und unzulängliche Ergebnisse in der Clusteranalyse. Die Literatur empfiehlt, diese Herausforderungen mit Verfahren wie Qualitätskontrolle, Normalisierung, Störfaktoranalyse, Dimensionsreduktion und Clusteranalyse zu bewältigen. Diese Arbeit konzentriert sich auf die Entwicklung, Verifizierung und Validierung eines solchen Workflows, der alle neu entstandenen Herausforderungen adressiert. Der Workflow basiert auf den theoretischen Überlegungen unserer vorherigen Arbeit in diesem Bereich. Hauptziel ist eine robuste und nachvollziehbare Clusterfindung anhand von Zellpopulationen durch den Einsatz von hauptsächlich automatisierten Methoden. Der Workflow wird mit Hilfe von simulierten Datensätzen verifiziert, die gezielt generiert wurden, um Einzelzell-RNA-Sequenzierungsdaten zu entsprechen. Am Ende validieren wir den Workflow durch die Analyse eines realen öffentlich verfügbaren Datensatzes aus der Literatur und durch den Vergleich der Ergebnisse und biologischen Interpretation mit bereits vorhandenen Erkenntnissen.

dc.description.abstract

Next generation sequencing, transcribing parts of the DNA, underwent drastic developments in the last years. One of the newest developments enables researchers to extract gene expression data from single cells, namely single cell RNA (transcriptome) sequencing. A new technology introduces researchers to a new era of single cell sequencing and thereby understanding mechanisms in biology on a single cell level. With this new technology a new kind of data is generated. Therefore, new challenges emerged in the field of computational biology, for example very high dimensionality within large data sets, susceptibility to confounding factors, limitations in visualizing the data, high levels of noise and lacking confidence in clustering results. The literature recommends to address these challenges with procedures such as quality control, normalization, confounding factor analysis, dimensionality reduction and clustering. The major challenge is to determine the right methods and developing a best practice workflow for the rigorous analysis of such data. This work focuses on the development, verification and validation of such a workflow. The workflow is based on theoretical considerations of our previous work in this field. The main goal is to achieve a robust clustering by cell populations through the application of mostly automated and comprehensible methods. The workflow is verified with the help of simulated datasets, which were specifically designed to resemble single cell RNA sequencing datasets. In the end we validate the workflow through the analysis of a real publicly available dataset from the literature and by comparing the results and biological interpretation with discoveries made by the community.

dc.language

English

dc.language.iso

dc.rights.uri

http://rightsstatements.org/vocab/InC/1.0/

dc.subject

Single Cell RNA Analyse

dc.subject

Single Cell RNA Analysis

dc.title

A Workflow for single cell RNA sequencing analysis with the goal of a robust and comprehensible clustering by cell populations

dc.title.alternative

Ein Workflow für die Einzelzell-RNA-Sequenzierungsanalyse mit dem Ziel eines robusten und nachvollziehbaren Clusterings nach Zellpopulationen

dc.type

Thesis

dc.type

Hochschulschrift

dc.rights.license

In Copyright

dc.rights.license

Urheberrechtsschutz

dc.identifier.doi

10.34726/hss.2018.59723

dc.contributor.affiliation

TU Wien, Österreich

dc.rights.holder

Stephan Reichl

dc.publisher.place

Wien

tuw.version

vor

tuw.thesisinformation

Technische Universität Wien

tuw.publication.orgunit

E105 - Institut für Stochastik und Wirtschaftsmathematik

dc.type.qualificationlevel

Diploma

dc.identifier.libraryid

AC15224439

dc.description.numberOfPages

105

dc.identifier.urn

urn:nbn:at:at-ubtuw:1-119413

dc.thesistype

Diplomarbeit

dc.thesistype

Diploma Thesis

dc.rights.identifier

In Copyright

dc.rights.identifier

Urheberrechtsschutz

tuw.advisor.staffStatus

staff

item.fulltext

with Fulltext

item.cerifentitytype

Publications

item.mimetype

application/pdf

item.openairecristype

http://purl.org/coar/resource_type/c_bdcc

item.languageiso639-1

item.openaccessfulltext

Open Access

item.openairetype

master thesis

item.grantfulltext

open

crisitem.author.dept

E101 - Institut für Analysis und Scientific Computing

crisitem.author.parentorg

E100 - Fakultät für Mathematik und Geoinformation

Appears in Collections:

Thesis

Fulltext (Version of Record (published version))

Adobe PDF

(15.55 MB)

In Copyright

Show simple item record

Google Scholar^TM

Check

Google ScholarTM

Google Scholar^TM