Data Citation for evolving data : enhancing the reproducibility of CSV research data sets

Pröll, Stefan

doi:10.34726/hss.2016.30506

Record link:

https://doi.org/10.34726/hss.2016.30506
http://hdl.handle.net/20.500.12708/10340

Title:

Data Citation for evolving data : enhancing the reproducibility of CSV research data sets

Citation:

Pröll, S. (2016). Data Citation for evolving data : enhancing the reproducibility of CSV research data sets [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2016.30506

reposiTUm DOI:

10.34726/hss.2016.30506

CatalogPlus:

AC13772056

Publication Type:

Thesis - Diplomarbeit

Language:

English

Authors:

Pröll, Stefan

Advisor:

Rauber, Andreas

Organisational Unit:

E188 - Institut für Softwaretechnik und Interaktive Systeme

Date (published):

2016

Number of Pages:

121

Keywords:

Datenmanagement; Zitieren von Daten; Versionierung; Reproduzierbarkeit; relationale Datenbanken; SQL

Data Management; Data Citation; Versioning; Reproducibility; Relational Databases; SQL

Abstract:

Die moderne Forschung ist in nunmehr allen Disziplinen datengetrieben, denn die Er- gebnisse der wissenschaftlichen Arbeit, die traditionell in Journalen publiziert und auf wissenschaftlichen Konferenzen präsentiert werden, basieren auf Forschungsdaten. Wissen- schaftler verwenden Daten als Input für ihre Workflows und Experimente und verarbeiten den erzeugten Datenoutput in Prozesspipelines weiter, um ein wissenschaftliches Ergebnis zu erzielen oder nachzuweisen. Unerlässlich für die wissenschaftliche Integrität ist dabei die Reproduzierbarkeit von Forschungsergebnissen. Fachkollegen müssen die Möglichkeit haben, postulierte Forschungsergebnisse auf deren Stichhaltigkeit und Richtigkeit zu überprüfen. Dazu benötigen Sie Zugriff auf die ursprünglich angewandten Methoden, aber insbesondere auch auf die verarbeiten Forschungsdaten, die dem Experiment zugrunde liegen. Die Forschungsarbeit ist ein iterativer Prozess, bei dem Arbeitsabläufe, Methoden und Daten kontinuierlich verbessert werden. Durch die fortwährende Revision von Algorithmen, Tools und Programmen verändern sich die produzierten Daten. Zusätzlich verbessern Wissenschaftler ihre Forschungsdatensets, indem sie Fehler korrigieren, fehlerhafte Daten entfernen oder neue Daten hinzufügen. Aus diesem Grund sind Forschungsdaten nicht statisch, sondern einer kontinuierlichen Evolution unterworfen. Um in diesem Kontext reproduzierbare Forschungsergebnisse zu ermöglichen, muss die Verfügbarkeit von Daten und daraus abgeleiteten Subsets garantiert werden. Das Gebiet der Data Citation behandelt die Frage, wie Datensets zitierbar gemacht werden können und der Zugriff auf die Daten langfristig gewahrt werden kann. Aus nachvollziehbaren Gründen ist es weder praktisch noch umsetzbar, jedwede Version eines sich kontinuierlich verändernden Datensets individuell abzuspeichern und aufzubewahren. Daher sind neue Methoden notwendig, die über das einfache Archivieren von Daten hinausgehen und den Zugriff auf die Versionshistorie eines Datensets ermöglichen. Die Arbeitsgruppe zum Thema Data Citation (WGDC) der Research Data Aliance (RDA) hat einen vierzehn Punkte umfassenden Leitfaden entwickelt, wie dynamische Daten langfristig zitierbar und zugreifbar gehalten werden können. In dieser Arbeit haben wir den ersten Forschungsprototypen entwickelt, der diesen Leitfaden für CSV Daten implementiert. Mit Hilfe dieser Software können Wissenschaftler reproduzierbare Subsets aus sich dynamisch entwickelnden Datensets erzeugen und auf alle Versionen eines Datensets zugreifen.

Modern research is data driven and the results published in scientific journals and presented at conferences are based upon data. Researchers use data as input and output for their scientific workflows and process and transform the data in order to obtain a specific result. Reproducibility is a core requirement for trustworthy science and it ensures that the results can be verified by peers. In order to allow peers to reproduce the research results, scientists require access to the data sets and the methods used in a scientific experiment. As research is an iterative process, scientific workflows and data are continuously improved. Whenever algorithms advance, tools get adapted or instruments get more precise, the produced datasets change. Also researchers improve their datasets by correcting and purging errors and by including new records into existing datasets. For this reasons research data is not static, but constantly evolving. In order to enable reproducibility, access to data sets and derived subsets must be guaranteed. The field of data citation deals with the question how data sets can be made citable and accessible for the long term. As it is impractical or even impossible to store each and every subset from evolving data sources, a new method is required which allows to access previously created data sets and subsets. The (Research Data Alliance) RDA Working Group on Data Citation developed a set of guidelines how evolving research data and subsets thereof can be made citable. In this work we present the first research prototype implementation for CSV data, which allows scientists to create citable, precise subsets of evolving CSV data.

License:

In Copyright

Appears in Collections:

Thesis