Classification in high-dimensional feature spaces

Schroeder, Fabian

Record link:

https://resolver.obvsg.at/urn:nbn:at:at-ubtuw:1-55586
http://hdl.handle.net/20.500.12708/13657

Title:

Classification in high-dimensional feature spaces

Citation:

Schroeder, F. (2012). Classification in high-dimensional feature spaces [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://resolver.obvsg.at/urn:nbn:at:at-ubtuw:1-55586

CatalogPlus:

AC07814305

Publication Type:

Thesis - Diplomarbeit

Language:

English

Authors:

Schroeder, Fabian

Advisor:

Filzmoser, Peter

Organisational Unit:

E105 - Institut für Statistik und Wahrscheinlichkeitstherorie

Date (published):

2012

Number of Pages:

Keywords:

Klassifikation; hochdimensional; Diskriminanzanalyse; Support Vector Machine; Logistische Regression

classification; high-dimensional feature space; discriminant analysis; support vector machine; logistic regression

Abstract:

Die charakteristische Eigenschaft vieler Daten aus modernen Wissenschaften wie z.B. der Genetik ist die Vielzahl an Variablen. Dies stellt eine große Herausforderung für statistische Verfahren der Klassifikation dar und wurde in den letzten Jahren intensiv untersucht.<br />In dieser Arbeit soll studiert werden, wie die klassischen Methoden der Klassifikation, die Diskriminanzanalyse, die Support Vector Machines und die Logistische Regression, für die Anwendung auf hochdimensionale Räume modifiziert werden können. In mehreren Simulationsexperimenten sollen sowohl die Güte der Prognose als auch der Modellselektion miteinander verglichen werden. Dabei wurden verschiedene Parameter wie Stichprobengröße oder das Verhältnis von Signal und Noise und verschiedene Strukturen der Abhängigkeit variiert. Die Resultate sollen die Wahl der richtigen Methode für eine konkrete Fragestellung und einen konkreten Datensatz unterstützen.<br />

The characteristic property of many data sets in modern scientific fields, such as genomics, is the high-dimensionality of its feature space. It poses a significant challenge for statistical methods for classification and has thus been the object of intensive research in the past decade. This work studies the different approaches, with which standard classification methods, such as Discriminant Analysis, Support Vector Machines and Logistic Regression, have been modified to account for high-dimensionality, and compares their performance in different simulation experiments. Both the prediction as well as the model selection performance are examined under different parameters, including sample size, signal-to-noise ratios, and different structures of dependence. The results are supposed to guide the applied researcher in one of the most tricky questions: Choosing the most suitable method for a given research question and data set.

Additional information:

Zsfassung in dt. Sprache

License:

In Copyright

Appears in Collections:

Thesis