Titelaufnahme

Titel
Heuristiken zur Variablenselektion bei hochdimensionalen Daten / Leonhard Seyfang
VerfasserSeyfang, Leonhard
Begutachter / BegutachterinFilzmoser, Peter
Erschienen2008
Umfang79 Bl. : zahlr. graph. Darst.
HochschulschriftWien, Techn. Univ., Mag.-Arb., 2008
Anmerkung
Zsfassung in engl. Sprache
SpracheDeutsch
DokumenttypMasterarbeit
Schlagwörter (DE)Variablenselektion / Variablenauswahl / Multivariante Daten / R / Informationskriterium
URNurn:nbn:at:at-ubtuw:1-19644 Persistent Identifier (URN)
Zugriffsbeschränkung
 Das Werk ist frei verfügbar
Dateien
Heuristiken zur Variablenselektion bei hochdimensionalen Daten [0.95 mb]
Links
Nachweis
Klassifikation
Zusammenfassung (Deutsch)

In dieser Arbeit werden einige Heuristiken zur Variablenselektion bei großen multivariaten Datensätzen verglichen.

Dabei werden sowohl einfache, schnelle als auch aufwändigere und kombinierte Methoden betrachtet.

Für alle behandelten Methoden und einige Hilfsfunktionen ist der R-Code angegeben.

Die verschiedenen Heuristiken führen zu sehr unterschiedlichen Modellen im Hinblick auf die beteiligten Variablen.

Bezüglich des optimierten Gütekriteriums und des simulierten Prognosefehlers unterscheiden sich die Resultate aber nur wenig.

Einige Methoden wurden bezüglich ihrer Robustheit auf Veränderung der Trainingsdaten untersucht.

Dabei wurde festgestellt, dass die resultierenden Modelle stärker von dem verwendeten Teil-Datensatz als von der verwendeten Methode abhängen.

Weiters wird die Erzeugung künstlicher Datensätze diskutiert und eine Funktion zu diesem Zweck vorgestellt.

Hilfsmethoden, u. a. zur Reduktion von großen Datensätzen, für die Kreuzvalidierung und für die Referenzmethode Stepwise sind ebenfalls angegeben.

Zusammenfassung (Englisch)

This work compares several subset selection techniques for large datasets.

Simple, fast, as well as more complex and combined heuristics are considered.

For all described methods and some subroutines the R-code is listed.

The different methods lead to very varying models regarding the involved variables.

However, in terms of the optimised information criterion and the simulated prediction error the models are quite similar.

The robustness in relation to the used data portion was evaluated for several algorithms.

It was found, that the results tend to depend on the used data portion rather than on the used selection technique.

Furthermore the generation of artificial datasets is discussed and a method for this purpose is introduced.

Subroutines, among other tools for downsizing datasets, for cross-validation and the standard method 'stepwise', are given.