Mirdamadi Tehrani, A. (2018). Table extraction for information retrieval [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2018.38191
Jedes Jahr werden in Information Retrieval wissenschaftliche Arbeiten in verschiedenenFeldern veröffentlicht, die wertvolle Informationen wie Tabellen enthalten, wobei fast alle Arbeiten im PDF-Format gespeichert sind. Die unschätzbaren Daten in diesenDokumenten und Veröffentlichungen sind in wissenschaftlichen Berichten von entscheidenderBedeutung, werden jedoch häufig von Suchmaschinen ignoriert. Die Extraktion tabellarischer Daten mithilfe moderner Tools und die Indexierung durch Suchmaschinen ermöglicht Forschern eine einfache Nutzung der extrahierten Informationen in verschiedenen Forschungsprojekten und Studien. In dieser Arbeit evaluieren wir die bekannten Tabellenextraktionswerkzeuge und bewerten ihre Anwendung im Bereich Information Retrieval (IR). Wir haben ein Framewor kentwickelt, das die Ergebnisse der verschiedenen Table-Extraction-Tools aufnimmt und mit Methoden im IR-Evaluationsbereich vergleicht. Aus diesem Grund haben wir die Tabellenextraktionswerkzeuge ausgewählt, getestet und mit einer manuell erstellten Grundwahrheit bewertet. Um ein Ranking-System zu erstellen, berechnen wir einen Score für jedes der ausgewählten Tools, außerdem haben wir die generierte Klassifizierung mithilfe von IR-Experimenten ausgewertet. Daher haben wir ein Framework mit drei Schritten entwickelt und ein Testverfahren für die Analyse von bis zu 5870 PDF-Dateien vorbereitet. In dieser Arbeit beschränken wir die Verarbeitung von Tabellenextraktionswerkzeugen auf PDFGenie, PDF2Table und PDF2HTML. Der erste Teil des Frameworks ist der Vorbeitungsschritt, in dem wir einen Service bereitstellen, der das Ergebnis der Tabellenextraktionstools verarbeitet, die normalerweise im XML- oder HTML-Format vorliegen. Dieser Dienst wandelt die bereitgestellten Tabellen in ein Standard-JSON-Format um und speichert sie in der Datenbank. Der zweite Teil des Frameworks ist der Validierungsschritt, in dem wir die Leistung der Tabellenextraktionstools überprüfen. Das Framework bietet die Funktionalität zum Berechnen eines Wertes zwischen null und eins. Der berechnete Scorewert basiert auf dem Vergleich der extrahierten Tabellen mit den Extraktionstools und der bereits erstellten Grundwahrheit. Der Score ermöglicht das Erstellen einer Rangliste von Tabellenextraktionstools, die die Effektivität und Leistung der Tabellenextraktionstools anzeigen. Der dritte Teil des Rahmens befasst sich mit der Bewertung, indem wir das Ergebnis des Validierungsteils untersuchen und die Genauigkeit der erzielten Ergebnisse überprüfen. Hierfür stellen wir eine Reihe von Diensten zur Verfügung, die die von den Tabellenextraktionstools extrahierten JSON-Tabellen aus der Testsammlung in die Suchmaschine Solr indiziert. Der Evaluierungsprozess ähnelt dem Cranfield-Ansatz: Wir definieren eine Reihe von Fragen und bewerten die Antworten der Suchmaschine.
de
Every year scientific papers and journals publish in different domains (fields) and contain valuable information embedded in tables, which are digitally stored in PDF format. The invaluable data in these documents and publications are crucial in scientific reviews, yet are frequently ignored by search engines. Extracting tabular data by using modern tools and indexing by search engines allows researchers easy usage of the extracted information in various research projects and studies. In this thesis, we evaluate the known table extraction tools and assess their application to the Information Retrieval (IR) field. We have developed a framework that takes the results of the various table extraction tools and compares them with methods in the IR evaluation area. For this reason, we selected the table extraction tools, tested and ranked them with a manually created ground-truth. To create a ranking system, we compute a score for each of the selected tools, furthermore we evaluated the generated classification by using IR experiments. Hence, we have developed a framework with three steps and prepared a test procedure to analyze as many as 5870 PDF files. In this thesis, we limit the processing of table extraction tools to PDFGenie, PDF2Table and PDF2HTML. The first part of the framework is the preprocessing step where we provide a service that processes the outcome of the table extraction tools, which are usually in XML or HTML format. This service transforms the provided tables by the tools that are in XML or HTML format into a standard JSON format and stores them in the database. The second part of the framework is the validation step where we validate the performance of the table extraction tools. The framework provides the functionality to calculate a score, which is a value between zero and one. The calculated score value is based on the comparison of the extracted tables by the extraction tools and the already created ground-truth. The score allows creating a ranked list of table extraction tools that show the effectiveness and performance of the table extraction tools. The third part of the framework deals with evaluation as we examine the outcome of the validation part of the framework and verify the accuracy of the obtained result. For this, we provide a set of services that indexes the JSON tables extracted by the table extraction tools from the test collection into the search engine Solr. The evaluation process is similar to the Cranfield approach [2]: we define a set of questions and evaluate the answers provided by the search engine.