Taha, A. A. (2015). Addressing metric challenges : bias and selection - efficient computation - hubness explanation and estimation [Dissertation, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2015.34644
E188 - Institut für Softwaretechnik und Interaktive Systeme
-
Date (published):
2015
-
Number of Pages:
173
-
Keywords:
Metric bias; Metric selection; Formal analysis of metrics; Similarity measures; Evaluation of medical segmentation; Hausdorff distance linear time computation; Hubness analysis; Hubness indication-estimation; Hubness reduction
en
Abstract:
Featurespace (Merkmalsraum) ist ein wichtiges Konstrukt in Information Retrieval (IR) und Machine Learning (ML), in dem die zugrunde liegenden Objekte als Featurevektoren (Merkmalvektoren) dargestellt werden. Diee bilden die Basis-Infrastruktur für Daten-modelle, welche den Kern von IR und ML darstellen. Diese Modelle beruhen auf den Beziehungen zwischen den Featurevektoren, die von Metriken gemessen werden. Metriken, wie Distanzen und Ähnlichkeiten, werden definiert, um Beziehungen zwischen einzelnen Vektoren (z.B. Distanz zwischen zwei Punkten) oder zwischen Gruppen von Vektoren (z.B. Ähnlichkeit zwischen zwei Punktwolken oder zwei Images) widerzuspiegeln. Es gibt jedoch drei Hauptprobleme in dieser Hinsicht: Das Erste ist, dass hunderte von Metriken existieren. Jede von diesen misst nur bestimmte Merkmale und Aspekte dieser Beziehungen, was bedeutet, dass verschiedene Metriken verschiedene Sichtweisen der Realität repräsentieren. Das kann auch so gesehen werden, dass verschiedene Metriken unterschiedliche Empfindlichkeiten bzw. Neigungen oder Verzerrungen zu bestimmten Eigenschaften, Aspekten oder Situationen haben. Diesen Bias zu verstehen erfordert ein formales Messverfahren dieser Empfindlichkeiten und Neigungen. Ein solches Verfahren, das eine formale Auswahlmethodik für Metriken möglich macht, um die für einen bestimmten Zweck am besten geeignete Metrik zu selektieren ist der erste Beitrag dieser Dissertation. Das zweite Problem ist die Effizienz der Berechnung rechenintensiver Metriken, z.B. solche, die laut ihrer Definition die Abstände zwischen allen möglichen Paaren von Punkten berücksichtigen. Die Berechnung kann extrem ineffizient sein, insbesondere wenn Objekte verglichen werden, die aus einer enormen Anzahl von Punkten bestehen. Ein Beispiel ist die Berechnung der Hausdorff-Distanz zwischen Magnetresonanztomographiebildern (MRI). Solche Bilder können aus bis zu 100 Mio Punkten (z.B. ganz Körper MRI Images) bestehen. Das dritte Problem stellen Eigenheiten hochdimensionale Featurespaces dar, welche als Fluch der Dimensionalität (curse of dimensionality) bekannt sind, z.B. Sparsity (Spärlichkeit), Distanz Konzentration und Hubness. Diese Schwierigkeiten können auch als Sonderfälle der Metrik Sensitivität (asymptotische Neigung) betrachtet werden, welche entstehen, wenn die Dimensionalität ausreichend hoch ist. Einige der State-of-the-Art Methoden versuchen diese Schwierigkeiten durch die Verwendung von Merkmalsauswahl (feature selection) zu bewältigen, die die Dimensionalität des Merkmalraums durch die Beschränkung des Modells auf einer Teilmenge dieser Merkmale verringern, was mit Informationverlust verbunden ist. Bezüglich der der Sensitivität und Verzerrung von Metriken, präsentieren wir in einem ersten Schritt 20 Metriken für Evakuierung von 3D Medical Image Segmentierung, stellen für sie binär und fuzzy Definitionen bereit, und präsentieren eine umfassende Diskussion und Analyse ihrer Eigenschaften und Sensitivitäten. Basierend auf dieser Analyse stellen wir Richtlinien für die Auswahl von Metriken entsprechend der Eigenschaften der Seg-mentierungen und des Segmentierungsziels vor. In einem zweiten Schritt schlagen wir eine neue formale Methode vor, die automatisch auf die Sensitivität und Verzerrung der Metriken, basierend auf den Eigenschaften der zugrunde liegenden Objekte mit Berücksichtigung Benutzereinstellungen, rückschließt. Basierend auf dieser Methode präsentieren wir ein formales Verfahren zur Auswahl von Metriken für beliebige Evaluierungsprozess. Für die Effizienz der Berechnung rechenintensiver Metriken stellen wir einen neuen Algorithmus zur Berechnung der exakten Hausdorff-Distanz zwischen beliebigen Punktwolken in einer Berechnungszeit vor, die linear mit der Größe der Punktwolken zunimmt. Dieser Algorithmus ist allgemein ohne Einschränkung über die zugrunde liegenden Objekten, die verglichen werden. Im Hinblick auf hochdimensionale Datenräume präsentieren wir eine neue Erklärung für die Ursache von Hubness (curse of dimensionality), die auf Sparsity und Distanzkonzentration basiert. Auf der Grundlage dieser Erklärung leiten wir einen neuen Schätzer für Hubness ab, der auf Statistiken der Distanz zum Schwerpunkt beruht und in linearer Zeit berechnet werden kann. Wir stellen auch ein Verfahren zur Verringerung des Hubness anhand dieser Erklärung vor.
de
In machine learning, data mining, and information retrieval, a feature space is an important construct, in which the underlying objects are represented as feature vectors, providing the base infrastructure required to build data models, which are the core of information retrieval and machine learning. These models are based on the relations between feature vectors, which are measured by metrics. Metrics, such as distances and similarities, are defined to reflect the relations between the individual feature vectors (e.g. distance between two vectors) or between groups of these vectors (e.g. similarity between classifications or images). However, there are three main problems in this regard: The first is that metrics measure particular aspects of these relations, which means that different metrics represent different views of reality. This means that different metrics have different sensitivities and biases to particular properties, aspects, and contexts, which imposes the demand for bias and sensitivity measurement that enables defining a formal way for selecting the most suitable metrics depending on the nature of the underlying objects and the subjective user goals. Regarding the metric bias and sensitivity, we provide in a first step a comprehensive discussion and analysis of 20 metrics for evaluating 3D medical image segmentation. Based on this analysis, we provide guidelines for metric selection based on the properties of the individual metrics, the properties of the segmentations, and the segmentation goal. In a second step, we propose a novel formal method that automatically measures the bias of metrics, based on the properties of the underlying objects and constraints determined by the user preferences. Based on this method, we provide a formal method for selecting evaluation metrics. The second problem is efficiency of calculating computationally intensive metrics, like the Hausdorff-distance, especially when comparing two point sets with huge size. One example of such a case is calculating the Hausdorff-distance between medical volumes (3D images). Such volumes could have up to 100 Mio 3D pixels, e.g. whole body medical volumes. Metrics that are defined to calculate distances between all pairs of points become extremely inefficient when they are applied to such volumes. Concerning the calculation efficiency of computationally intensive metrics, we propose a novel algorithm for calculating the exact Hausdorff-distance in linear time. This algorithm is general and does not put any assumption on the underlying objects being compared. The third problem is related to the curse of dimensionality, caused by the difficulties in relation to high dimensional feature spaces, including sparsity, distance concentration, and hubness. These difficulties can also be seen as a special case of metric bias (asymptotic bias) arising when dimensionality is sufficiently increased. Some of the state-of-the-art methods deal with these difficulties by using feature selection, which aims to reduce the dimensionality of the feature space by restricting the model to a subset of the features. Regarding high dimensional spaces, we propose a novel explanation of the cause of hubness (a common aspect of the curse of dimensionality) that is based on sparsity and distance concentration. Based on this explanation, we derive a novel estimator of hubness in linear time using statistics of the distance distribution. We also provide a method for hubness reduction, based on this explanation.
en
Additional information:
Zusammenfassung in deutscher Sprache Abweichender Titel laut Übersetzung der Verfasserin/des Verfassers