<div class="csl-bib-body">
<div class="csl-entry">Reichl, S. (2018). <i>A Workflow for single cell RNA sequencing analysis with the goal of a robust and comprehensible clustering by cell populations</i> [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2018.59723</div>
</div>
-
dc.identifier.uri
https://doi.org/10.34726/hss.2018.59723
-
dc.identifier.uri
http://hdl.handle.net/20.500.12708/7933
-
dc.description
Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers
-
dc.description.abstract
Die Sequenzierungsmethoden der zweiten Generation (engl. next generation sequencing), deren Ziel es ist Teile der DNA zu entschlüsseln, durchliefen in den letzten Jahren rapide Entwicklungen. Eine der neuesten Entwicklungen ermöglicht es Wissenschaftlern, die Genexpression von einzelnen Zellen zu quantifizieren, und zwar Einzelzell-RNA (= Transkriptom) Sequenzierung (engl. single cell RNA sequencing). Eine neue Technologie ermöglicht es Forschern eine neue Ära der Einzelzell-RNA Sequenzierung und damit die Erforschung von biologischen Mechanismen auf zellulärer Ebene einzuläuten. Durch die Anwendung dieser neuartigen Technologie wird eine noch nie da gewesene Art von Daten generiert. Daraus resultieren neue Herausforderungen auf dem Gebiet der Bioinformatik, zum Beispiel eine sehr hohe Dimensionalität in großen Datensätzen, Anfälligkeit für Störfaktoren, Einschränkungen bei Visualisierungen, hohe Rauschanteile und unzulängliche Ergebnisse in der Clusteranalyse. Die Literatur empfiehlt, diese Herausforderungen mit Verfahren wie Qualitätskontrolle, Normalisierung, Störfaktoranalyse, Dimensionsreduktion und Clusteranalyse zu bewältigen. Diese Arbeit konzentriert sich auf die Entwicklung, Verifizierung und Validierung eines solchen Workflows, der alle neu entstandenen Herausforderungen adressiert. Der Workflow basiert auf den theoretischen Überlegungen unserer vorherigen Arbeit in diesem Bereich. Hauptziel ist eine robuste und nachvollziehbare Clusterfindung anhand von Zellpopulationen durch den Einsatz von hauptsächlich automatisierten Methoden. Der Workflow wird mit Hilfe von simulierten Datensätzen verifiziert, die gezielt generiert wurden, um Einzelzell-RNA-Sequenzierungsdaten zu entsprechen. Am Ende validieren wir den Workflow durch die Analyse eines realen öffentlich verfügbaren Datensatzes aus der Literatur und durch den Vergleich der Ergebnisse und biologischen Interpretation mit bereits vorhandenen Erkenntnissen.
de
dc.description.abstract
Next generation sequencing, transcribing parts of the DNA, underwent drastic developments in the last years. One of the newest developments enables researchers to extract gene expression data from single cells, namely single cell RNA (transcriptome) sequencing. A new technology introduces researchers to a new era of single cell sequencing and thereby understanding mechanisms in biology on a single cell level. With this new technology a new kind of data is generated. Therefore, new challenges emerged in the field of computational biology, for example very high dimensionality within large data sets, susceptibility to confounding factors, limitations in visualizing the data, high levels of noise and lacking confidence in clustering results. The literature recommends to address these challenges with procedures such as quality control, normalization, confounding factor analysis, dimensionality reduction and clustering. The major challenge is to determine the right methods and developing a best practice workflow for the rigorous analysis of such data. This work focuses on the development, verification and validation of such a workflow. The workflow is based on theoretical considerations of our previous work in this field. The main goal is to achieve a robust clustering by cell populations through the application of mostly automated and comprehensible methods. The workflow is verified with the help of simulated datasets, which were specifically designed to resemble single cell RNA sequencing datasets. In the end we validate the workflow through the analysis of a real publicly available dataset from the literature and by comparing the results and biological interpretation with discoveries made by the community.
en
dc.language
English
-
dc.language.iso
en
-
dc.rights.uri
http://rightsstatements.org/vocab/InC/1.0/
-
dc.subject
Single Cell RNA Analyse
de
dc.subject
Single Cell RNA Analysis
en
dc.title
A Workflow for single cell RNA sequencing analysis with the goal of a robust and comprehensible clustering by cell populations
en
dc.title.alternative
Ein Workflow für die Einzelzell-RNA-Sequenzierungsanalyse mit dem Ziel eines robusten und nachvollziehbaren Clusterings nach Zellpopulationen
de
dc.type
Thesis
en
dc.type
Hochschulschrift
de
dc.rights.license
In Copyright
en
dc.rights.license
Urheberrechtsschutz
de
dc.identifier.doi
10.34726/hss.2018.59723
-
dc.contributor.affiliation
TU Wien, Österreich
-
dc.rights.holder
Stephan Reichl
-
dc.publisher.place
Wien
-
tuw.version
vor
-
tuw.thesisinformation
Technische Universität Wien
-
tuw.publication.orgunit
E105 - Institut für Stochastik und Wirtschaftsmathematik
-
dc.type.qualificationlevel
Diploma
-
dc.identifier.libraryid
AC15224439
-
dc.description.numberOfPages
105
-
dc.identifier.urn
urn:nbn:at:at-ubtuw:1-119413
-
dc.thesistype
Diplomarbeit
de
dc.thesistype
Diploma Thesis
en
dc.rights.identifier
In Copyright
en
dc.rights.identifier
Urheberrechtsschutz
de
tuw.advisor.staffStatus
staff
-
item.fulltext
with Fulltext
-
item.cerifentitytype
Publications
-
item.mimetype
application/pdf
-
item.openairecristype
http://purl.org/coar/resource_type/c_bdcc
-
item.languageiso639-1
en
-
item.openaccessfulltext
Open Access
-
item.openairetype
master thesis
-
item.grantfulltext
open
-
crisitem.author.dept
E101 - Institut für Analysis und Scientific Computing