Bibliographic Metadata

Title
New developments in statistical disclosure control and imputation in official statistics / Matthias Templ
AuthorTempl, Matthias In der Gemeinsamen Normdatei der DNB nachschlagen
CensorFilzmoser, Peter ; Grossmann, Wilfried
Published2009
DescriptionXVI, 178 Bl. : Ill., graph. Darst., Kt.
Institutional NoteWien, Techn. Univ., Diss., 2009
Annotation
Zsfassung in dt. Sprache
Bibliographic Source
The thesis splits up to 8 papers which are published or submitted to several journals.
LanguageEnglish
Document typeDissertation (PhD)
Keywords (DE)Statistische Geheimhaltung / Imputation / Kompositionsdaten
Keywords (EN)Statistical Disclosure control / Imputation / Compositional Data
Keywords (GND)Statistikgeheimnis / Imputationstechnik / Personenbezogene Daten
URNurn:nbn:at:at-ubtuw:1-24186 Persistent Identifier (URN)
Restriction-Information
 The work is publicly available
Files
New developments in statistical disclosure control and imputation in official statistics [2.45 mb]
Links
Reference
Classification
Abstract (German)

Inhaltlich werden neuere Entwicklungen in zwei Forschungsgebieten - der Statistischen Geheimhaltung und der Imputation - vorgestellt.

Die statistische Geheimhaltung erlangte in den letzten beiden Jahrzehnten große Bedeutung.

Die Gesetzeslage, im besonderen das Datenschutzgesetz und das Bundesstatistikgesetz, verlangt, daß bei Weitergabe von Daten an die Offentlichkeit oder an Forscher keine Rueckschluesse auf statistische Einheiten (z.B. Personen oder Unternehmen) moeglich sein duerfen.

Ziel ist es, den Datenschutz einzuhalten und dennoch den Forschern brauchbare Daten zur Verfuegung stellen zu konnen. Dies kann durch eine minimale Aenderung der Daten erreicht werden, ohne die multivariate Struktur der Daten zu veraendern. Die Standardmethoden fuer diese Datenmanipulation und die Methoden zur Evaluierung der Qualitaet der manipulierten Daten werden durch Ausreißer stark beeinflußt. Im Zuge dieser Arbeit wurden neue Methoden entwickelt, die es auch bei ausreißerbehafteten Daten ermoeglichen hochqualitative sensible Daten fuer Forscher zugaenglich zu machen, und die das Re-Identifizierungsrisiko dieser Daten sinnvoll schaetzen.

Eine statistische Geheimhaltung zielt auch immer auf das Sperren von gewissen Datenwerten ab, d.h. einzelne Datenwerte werden zu fehlenden Werten konvertiert.

Solche fehlenden Werte werden in der Regel mit deren Schaetzung (Imputation) ersetzt. Um eine geeignete Methode auswaehlen zu koennen, bedarf es einer gruendlichen explorativen Analyse der Daten. Zahlreiche neue graphische Methoden wuerden dazu entwickelt.

In den letzten beiden Kapiteln werden spezielle modellbasierte (robuste) Imputationsmethoden fuer Kompositionsdaten vorgestellt.

Die entwickelten Methoden wurden zusaetzlich in freie open-source Software implementiert

Abstract (English)

In this thesis two research topics are investigated - statistical disclosure control (SDC) and imputation. Especially the problem of privacy of statistical data has gained tremendous significance over the last two decades. Official laws, particularly the data protection laws and the Federal Statistics Law prohibit any re-identification of statistical units (e.g. persons or businesses) after the transfer of data to public or research institutions.

Its aim is to keep up the required statistical privacy while making viable data available to the researchers. This can be achieved with the help of minimal modifications of the data without changing the multivariate data structure.

However, many SDC-methods for microdata developed so far can be influenced by outliers to a great extent resulting in a high loss of information of the perturbed data. This means that the perturbed data which is made available by researchers turns out to be useless. The thesis describes both the robustification of some methods and some separate methods as well.

But also obviously incorrect entries in the data sets are changed to missing. These missing values must then be estimated (Data Imputation).

New ways of exploring missing values are outlined. Such visualisations of missing values allows to select a propoer imputation method. In the last part of the thesis the imputation of compositional data using robust methods is descibed. All developed methods are implemented in free and open-source software.