Robust clustering and dimension reduction : methods, algorithms and implementation

Fritz, Heinrich

Record link:

https://resolver.obvsg.at/urn:nbn:at:at-ubtuw:1-45577
http://hdl.handle.net/20.500.12708/9277

Title:

Robust clustering and dimension reduction : methods, algorithms and implementation

Citation:

Fritz, H. (2011). Robust clustering and dimension reduction : methods, algorithms and implementation [Dissertation, Technische Universität Wien]. reposiTUm. https://resolver.obvsg.at/urn:nbn:at:at-ubtuw:1-45577

CatalogPlus:

AC07811371

Publication Type:

Thesis - Dissertation

Language:

English

Authors:

Fritz, Heinrich

Advisor:

Filzmoser, Peter

Co-advisor:

Leisch, Friedrich

Organisational Unit:

E105 - Institut für Statistik und Wahrscheinlichkeitstherorie

Date (published):

2011

Number of Pages:

125

Keywords:

Algorithmus; Multivariat; Median; Optimierung; Robustheit; Projection-Pursuit; Variablenselektion; Modellbasiertes Clustering; Trimming; Trimmed k-means

Algorithm; Multivariate; Median; Optimization; Robustness; Projection-Pursuit

Abstract:

Betrachtet man den Prozess der Informationsextrahierung aus Echtdaten im Kontext der klassischen Statistik, so stößt man schnell an deren Grenzen, da die Annahmen klassischer Methoden oft mit den realen Gegebenheiten im Widerspruch stehen. Unregelmäßigkeiten innerhalb eines beobachteten Prozesses, sowie Probleme während der Datenerfassung und deren Weiterverarbeitung, resultieren oft in unerwarteten Ergebnissen und darin, dass Echtdaten selten einfachen Voraussetzungen, wie beispielsweise Normalität genügen. An diesem Punkt setzen robuste Methoden an, die in der Lage sind Verunreinigungen der Daten zu erkennen und zu beseitigen, um auch auf Basis von stark kontaminierter Daten gültige Schätzungen zu liefern. Der Nachteil dieser angestrebten Robustheit gegenüber Ausreißern ist jedoch die geringere statistische Effizienz entsprechender Schätzverfahren. Dieser Verlust wird reduziert, indem Methoden herangezogen werden, deren Robustheit individuell an die jeweilige Verunreinigung anpassbar ist, womit ein Kompromiss zwischen Robustheit und statistischer Effizienz gefunden wird. Untersucht man einen bestimmten Datensatz, so gibt die Schätzung grundlegender mathematischer Strukturen in den Daten einen ersten Eindruck über die Information die hinter den ermittelten Zahlen steht. Die robusten Methoden der Clusteranalyse und Dimensionsreduzierung, die in dieser Arbeit entwickelt und diskutiert werden, bilden ein flexibles und weitreichendes Gerüst für diesen Zweck. Diese Methoden ermöglichen es viele verschiedenartige Strukturen zu verstehen und parametrisch abzubilden, wobei der Einfluss von Ausreißern reduziert wird. Im Einzelnen wird eine Variante eines bereits existierenden Ansatzes für robuste Hauptkomponentenanalyse entwickelt, die jedoch sogenannte "sparse", also dünn besetzte Ladungsmatrizen liefert. Dieser Ansatz kombiniert Elemente von Projection Pursuit basierten Algorithmen, sowie der LASSO Regression. Die vorgestellte Methode ist die erste, die robuste Eigenschaften mit dünn besetzten Ladungsmatrizen im Zusammenhang mit Hauptkomponenten kombiniert. Weiters wird eine ,,Maximum-Likelihood" Methode für getrimmtes Clustering entwickelt, wobei mehrere algorithmische Verbesserungen von existierenden Methoden implementiert werden. Die resultierende Methode verfügt über Eigenschaften mehrerer existierender Ansätze und erweitert diese zu einer einzelnen generellen Lösung. Die theoretische Diskussion der angesprochenen Methoden in dieser Arbeit wird von einer Reihe algorithmischer Details und einer Implementierung für die Programmierumgebung R begleitet. Die Kernimplementierung der Algorithmen wurde jedoch unabhängig von R gestaltet, und kann deshalb auch in anderen Umgebungen wie beispielsweise Matlab genutzt werden.

Considering information extraction with respect to real data samples, classical statistical estimation generally suffers from the difference between the assumptions such methods are based on, and the circumstances observed in reality. Due to unexpected behaviour and irregularities of the monitored process itself, or problems during data acquisition, basic prerequisites as e.g. normality are not likely to be observed in real scenarios. In general, robust methods address this issue and help to identify and assess such irregularities, and thus allow proper estimation even on heavily contaminated data. The downside of robustness is loss of statistical efficiency, which is reduced by developing adjustable methods, which can be individually tuned. Thus, depending on the actual occurrence of irregularities a compromise between robustness and statistical efficiency is achieved. For the primary assessment of observed data, an estimation of the basic structure gives a first idea of what information stands behind those numbers. The robust methods for clustering and dimension reduction discussed and developed in this thesis provide a flexible and expansive framework for this purpose. They allow to parameterise the structure of a wide range of possible data configurations, whereas its robustness properties reduce the influence of abnormalities. In particular, a sparse variant of an already existing approach for robust principal component analysis is developed, which combines elements of projection-pursuit and LASSO regression. So far no method is available which combines robustness and sparseness properties for principal component analysis, thus its publication is expected to be received positively by the statistical community. %In this context various algorithms for the estimation of the multivariate L$_1$Median are assessed. % ->too much for one page Further, a maximum likelihood method for trimmed clustering is developed, whereas various methodical and algorithmic improvements of existing solutions are implemented. The resulting method combines the characteristics of already existing methods and expands these approaches to one general solution. The theoretical presentation and development of the methods in this work is accompanied by a discussion of algorithmic aspects and an implementation in the programming environment R. The core implementation, however, is not restricted to R and can be exported to other environments, which makes the methods easily available for a wide range of users beyond the R community.

Additional information:

Zsfassung in dt. Sprache

License:

In Copyright

Appears in Collections:

Thesis