Titelaufnahme

Titel
Bayesian variable selection in genome-wide association studies / von Stephan Weinwurm
VerfasserWeinwurm, Stephan
Begutachter / BegutachterinFreund, Rudolf
Erschienen2013
UmfangX, 84 S. : Ill., graph. Darst.
HochschulschriftWien, Techn. Univ., Dipl.-Arb., 2013
Anmerkung
Zsfassung in dt. Sprache
SpracheEnglisch
DokumenttypDiplomarbeit
Schlagwörter (DE)Bioinformatik/ Mustererkennung / Bayessche Variablenselektion / Genomweite Assoziationsstudien / Single Nucleotide Polymorphisms / Stochastic Search Variable Selection / Hybrid Correlation-based Search / Bayesian Penalized Regression / p‰n
Schlagwörter (EN)Bioinformatics / Pattern Recognition / Bayesian Variable Selection / Genome-wide Association Studies / Single Nucleotide Polymorphisms / Stochastic Search Variable Selection / Hybrid Correlation-based Search / Bayesian Penalized Regression / p‰n
URNurn:nbn:at:at-ubtuw:1-51511 Persistent Identifier (URN)
Zugriffsbeschränkung
 Das Werk ist frei verfügbar
Dateien
Bayesian variable selection in genome-wide association studies [1.43 mb]
Links
Nachweis
Klassifikation
Zusammenfassung (Deutsch)

Die vorliegende Arbeit beschäftigt sich mit einer häufigen Problemstellung in genomweiten Assoziationsstudien. Das Ziel dieser Studien ist es sogenannte Single Nucleotide Polymorphismen (SNP), Stellen in Genomen von Organismen die sich zwischen Individuen unterscheiden, zu entdecken, welche ein bestimmtes Merkmal bzw. Charakteristik beeinflussen und prägen. Diese Merkmale werden auch Phänotyp genannt. Die untersuchten Merkmale variieren je nach Interesse und Forschungsfeld und reichen von gewissen Charakterzügen über das Auftreten bestimmter Krankheiten bis hin zu evolutionären Aspekten.

Für diese Aufgabenstellung werden oftmals Methoden wie Hybrid Correlation-based Search, Stochastic Search Variable Selection oder Penalized-Regression Methoden wie Lasso oder Ridge Regression verwendet. Diese Methoden können aufgrund ihrer Generalität nicht nur für Genomanalysen verwendet werden, sondern auch für viele andere Large-Scale Regressionsprobleme.

Heutige genomweite Assoziationsstudien beinhalten hunderttausend bis hin zu Millionen von Single-Nucleotide Polymorphismen im Gegensatz zu einer wesentlich geringeren Anzahl an sequenzierten Genomen. Die erwähnten Methoden sind in der Lage mit dieser Bedingungen umzugehen, wobei die Anzahl an Variablen (SNPs) die Anzahl der Beobachtungen (Phenotypen) bei weitem übersteigen, auch bekannt als p‰n Probleme. Die Arbeit behandelt Verbesserungen und Modifikationen der oben erwähnten Methoden um die Variablenselektion sowie die Vorhersage ungesehener Phänotypen zu verbessern. Des weiteren werden die Methoden, sowie die vorgeschlagenen Verbesserungen, anhand von hoch korrelierten Datensätzen, wie sie oft in genomweiten Assoziationsstudien auftreten, verglichen und evaluiert.

Zusammenfassung (Englisch)

The work confronts a common challenge arising from genome-wide association studies. The ultimate goal of genome-wide association studies is to identify the true subset of single nucleotide polymorphisms(SNPs), specific locations within an organism's genome, strongly influencing a certain characteristic, such as a trait or disease. This problem has often been tackled by using methods such as hybrid correlation-based search, a modification of a method called stochastic search variable selection, as well as penalized regression methods namely lasso and ridge regression. Due to their generality, these methods are not limited to genome analysis; in fact, they are applicable to a variety of large scale regression problems.

Typical state of the art genome-wide association studies comprise hundreds of thousands or even millions of SNPs in contrast with a much lower number of genomes. The above mentioned approaches are capable of dealing with situations where the number of variables (SNPs) exceeds the number of observations (phenotypes); also known as p‰n problems. The work at hand discusses modifications of the methods mentioned above to improve performance in terms of variable selection and prediction.

Furthermore, all methods, as well as their modifications, are evaluated and compared in settings of highly correlated datasets, as is common in genome-wide association studies.