Titelaufnahme

Titel
Automatisiertes Verständnis von formularbasierten Webseiten durch statistische Klassifikation der Seiten und Elemente / Andreas Mager
VerfasserMager, Andreas
Begutachter / BegutachterinPichler, Reinhard
Erschienen2008
Umfang117 Bl. : graph. Darst.
HochschulschriftWien, Techn. Univ., Dipl.-Arb., 2008
SpracheDeutsch
DokumenttypDiplomarbeit
Schlagwörter (DE)Informationsextraktion / Semantisches Web / Webformulare / Textklassifikation
URNurn:nbn:at:at-ubtuw:1-26549 Persistent Identifier (URN)
Zugriffsbeschränkung
 Das Werk ist frei verfügbar
Dateien
Automatisiertes Verständnis von formularbasierten Webseiten durch statistische Klassifikation der Seiten und Elemente [1.06 mb]
Links
Nachweis
Klassifikation
Zusammenfassung (Deutsch)

Betrachtet man die Repräsentation des Wissens, spiegelt das World Wide Web, so wie es heute existiert, sehr deutlich gesellschaftliche Eigenschaften der Personen wieder, die es erschaffen haben und es warten. Es ist nicht möglich eine bestimmte Frage an "die Menschheit" zu stellen. Genausowenig ist es möglich eine bestimmte Frage an "das Internet" zu stellen. Es ist notwendig zu wissen, welche Menschen oder welche Gruppe von Menschen beziehungsweise welche Gruppe von Webseiten man fragen muss, um eine gewünschte Antwort zu erhalten.

Dazu kommen noch die Sprache und die Form, in der die Fragen gestellt werden müssen, um vom Gegenüber verstanden zu werden. In dieser Arbeit wird ein Weg beschrieben um diese unstrukturierten Datenbanken auf ein strukturiertes Domänenmodell abzubilden. Die Arbeitsschritte sind das Klassifizieren der Webseiten, Aufteilen in Formulare, Klassifizieren der Formulare, Aufteilen in Elemente und schließlich das Klassifizieren der Elemente.

Getestet wurden mehrere etablierte Textklassifikationsalgorithmen. Unter anderen der Bayes-Algorithmus, er wird auch in der Software "Spamassassin" zur Spamerkennung verwendet.

Mit verschiedenen Vorfiltern wurde untersucht ob es möglich ist das Ergebnis der im Hinblick auf das Klassifizieren von reinen Texten ohne Strukturinformation entwickelten Klassifikationsalgorithmen durch das Hinzufügen (oder Weglassen) von Strukturinformationen in einer für diese Algorithmen nutzbaren Form zu verbessern.

Um die Algorithmen und Vorfilter vergleichen zu können wurden die Qualitätsmerkmale Precision, Recall, Spezifität, Fallout und F-Maß ermittelt. Der nächste Schritt ist die Integration dieses Annotierungssystems als Modul in das Projekt MetaMorph, welches gerade am Institut für Informationssysteme, Arbeitsgruppe für Datenbanken und Artificial Intelligence, gemeinsam mit dem Spin-Off Lixto Software GmbH. entwickelt wird. Diese Arbeit stellt eine Basis für eine Reihe weiterer Projekte dar. Bis das Internet, viel mehr das World Wide Web, zu einem Semantic-Web geworden ist, wird noch sehr viel Arbeit notwendig sein.

Annotierungssysteme, wie das in dieser Arbeit beschriebene, sind eine Möglichkeit um Eigenschaften eines Semantic-Web schon jetzt zu erhalten.