Klassifizierung von Web-Dokumenten

Wachter, Bernhard

DC Field

Value

Language

dc.contributor.advisor

Rauber, Andreas

dc.contributor.author

Wachter, Bernhard

dc.date.accessioned

2020-06-30T07:09:20Z

dc.date.issued

2008

dc.date.submitted

2008-07

dc.identifier.citation

<div class="csl-bib-body"> <div class="csl-entry">Wachter, B. (2008). <i>Klassifizierung von Web-Dokumenten</i> [Master Thesis, Technische Universität Wien]. reposiTUm. https://resolver.obvsg.at/urn:nbn:at:at-ubtuw:1-24790</div> </div>

dc.identifier.uri

https://resolver.obvsg.at/urn:nbn:at:at-ubtuw:1-24790

dc.identifier.uri

http://hdl.handle.net/20.500.12708/11131

dc.description

Abweichender Titel laut Übersetzung der Verfasserin/des Verfassers

dc.description

Zsfassung in engl. Sprache

dc.description.abstract

Bei der Web-Archivierung werden Web-Dokumente gesammelt und dauerhaft abgelegt. Die entstehen Archive wachsen rasant und enthalten auch sensitive Daten. Um Missbrauch vorzubeugen müssen sensitive Daten identifiziert und gegen unbefugte Zugriffe gesichert werden. Dadurch werden Anwendungsfälle denkbar in welchen auf Basis von sensitiven Daten Auswertungen vorgenommen werden ohne dabei die Daten selbst preis zugeben. Bei der Genre-Analyse werden Web-Dokumente aufgrund ihrer Form sowie des Stils einer Seite unabhängig vom eigentlichen Thema klassifiziert. Zielsetzung dieser Arbeit ist es, diese Methode dahingehend zu erweitern, dass es einem Archivierungssystem von Web-Dokumenten möglich ist, private und öffentliche Elemente von Web-Dokumenten unterscheiden zu können.<br />Bisherige Ansätze in diesem Bereich agieren ausschließlich auf Dokumentenebene. Web-Dokumente enthalten jedoch häufig mehrere unterschiedliche Genres. Diese Arbeit entwickelt einen Ansatz zur Erkennung von zusammengehörenden Textsegmenten, welcher Absätze und gegebenenfalls damit verbundene Genre- Übergänge erkennt. Darauf aufbauend wird ein Ansatz für die Klassifizierung von privaten und öffentlichen Elementen von Web-Dokumenten auf Dokumenten- und Absatzebene vorgestellt.<br />

dc.description.abstract

Web archiving is the process of collecting and preserving web documents. The massive archives are rapidly growing and contain sensitive data. To prevent abuse it is important to identify sensitive data and restrict access to it. This also allows use cases where sensitive data are used for analysis without revealing them. The purpose of the genre-analysis is to classify a web-document based on its form and its style, independently of the underlying topic. The aim of this paper is to extend this method for usage within a web archive. This extension will allow distinguishing private from public elements within a web-document. Traditional approaches only allow operating on document-level. But especially web-documents often contain multiple genres within a single document. Therefore an approach is developed which allows the recognition of text segments and genre transitions.<br />Based on this paragraph splitter a classifier for differing private from public elements of a web document is developed. This system may operate on document-level as well as on paragraph-level.

dc.language

Deutsch

dc.language.iso

dc.rights.uri

http://rightsstatements.org/vocab/InC/1.0/

dc.subject

Klassifizierung

dc.subject

Web

dc.subject

Privatsphäre

dc.subject

Archiv

dc.subject

classification

dc.subject

web

dc.subject

privacy

dc.subject

archive

dc.title

Klassifizierung von Web-Dokumenten

dc.title.alternative

Classification of web-documents

dc.type

Thesis

dc.type

Hochschulschrift

dc.rights.license

In Copyright

dc.rights.license

Urheberrechtsschutz

dc.contributor.affiliation

TU Wien, Österreich

dc.rights.holder

Bernhard Wachter

tuw.version

vor

tuw.thesisinformation

Technische Universität Wien

tuw.publication.orgunit

E188 - Institut für Softwaretechnik und Interaktive Systeme

dc.type.qualificationlevel

Diploma

dc.identifier.libraryid

AC05038226

dc.description.numberOfPages

dc.identifier.urn

urn:nbn:at:at-ubtuw:1-24790

dc.thesistype

Masterarbeit

dc.thesistype

Master Thesis

dc.rights.identifier

In Copyright

dc.rights.identifier

Urheberrechtsschutz

item.fulltext

with Fulltext

item.cerifentitytype

Publications

item.mimetype

application/pdf

item.openairecristype

http://purl.org/coar/resource_type/c_bdcc

item.languageiso639-1

item.openaccessfulltext

Open Access

item.openairetype

master thesis

item.grantfulltext

open

crisitem.author.dept

TU Wien

Appears in Collections:

Thesis

Fulltext (Version of Record (published version))

Adobe PDF

(3.73 MB)

In Copyright

Show simple item record

Page view(s)

200

checked on Nov 29, 2023

Download(s)

116

checked on Nov 29, 2023

Google Scholar^TM

Check

Page view(s)

Download(s)

Google ScholarTM

Google Scholar^TM