Bibliographic Metadata

Title
Classification in high-dimensional feature spaces / Fabian Schroeder
AuthorSchroeder, Fabian
CensorFilzmoser, Peter
Published2012
Description49 Bl. : graph. Darst.
Institutional NoteWien, Techn. Univ., Dipl.-Arb., 2012
Annotation
Zsfassung in dt. Sprache
LanguageEnglish
Document typeThesis (Diplom)
Keywords (DE)Klassifikation / hochdimensional / Diskriminanzanalyse / Support Vector Machine / Logistische Regression
Keywords (EN)classification / high-dimensional feature space / discriminant analysis / support vector machine / logistic regression
URNurn:nbn:at:at-ubtuw:1-55586 Persistent Identifier (URN)
Restriction-Information
 The work is publicly available
Files
Classification in high-dimensional feature spaces [1.26 mb]
Links
Reference
Classification
Abstract (German)

Die charakteristische Eigenschaft vieler Daten aus modernen Wissenschaften wie z.B. der Genetik ist die Vielzahl an Variablen. Dies stellt eine große Herausforderung für statistische Verfahren der Klassifikation dar und wurde in den letzten Jahren intensiv untersucht.

In dieser Arbeit soll studiert werden, wie die klassischen Methoden der Klassifikation, die Diskriminanzanalyse, die Support Vector Machines und die Logistische Regression, für die Anwendung auf hochdimensionale Räume modifiziert werden können. In mehreren Simulationsexperimenten sollen sowohl die Güte der Prognose als auch der Modellselektion miteinander verglichen werden. Dabei wurden verschiedene Parameter wie Stichprobengröße oder das Verhältnis von Signal und Noise und verschiedene Strukturen der Abhängigkeit variiert. Die Resultate sollen die Wahl der richtigen Methode für eine konkrete Fragestellung und einen konkreten Datensatz unterstützen.

Abstract (English)

The characteristic property of many data sets in modern scientific fields, such as genomics, is the high-dimensionality of its feature space. It poses a significant challenge for statistical methods for classification and has thus been the object of intensive research in the past decade. This work studies the different approaches, with which standard classification methods, such as Discriminant Analysis, Support Vector Machines and Logistic Regression, have been modified to account for high-dimensionality, and compares their performance in different simulation experiments. Both the prediction as well as the model selection performance are examined under different parameters, including sample size, signal-to-noise ratios, and different structures of dependence. The results are supposed to guide the applied researcher in one of the most tricky questions: Choosing the most suitable method for a given research question and data set.

Stats
The PDF-Document has been downloaded 38 times.