Titelaufnahme

Titel
Machine learning algorithms for visual pattern detection on web pages / von Iraklis Georg Kordomatis
VerfasserKordomatis, Iraklis Georg
Begutachter / BegutachterinPichler, Reinhard ; Herzog, Christoph
Erschienen2013
UmfangX, 147 Bl. : Ill., graph. Darst.
HochschulschriftWien, Techn. Univ., Dipl.-Arb., 2013
Anmerkung
Zsfassung in dt. Sprache
SpracheEnglisch
DokumenttypDiplomarbeit
Schlagwörter (DE)maschinelles Lernen / Webobjekteidentifizierung / Meta-Suche / visuel wahrnehmbare Eigenschaften / Verstehen von Webpage
Schlagwörter (EN)Machine Learning / Web Object Identification / Meta-Search / Visually Perceivable Features / Web Page Understanding /
URNurn:nbn:at:at-ubtuw:1-66654 Persistent Identifier (URN)
Zugriffsbeschränkung
 Das Werk ist frei verfügbar
Dateien
Machine learning algorithms for visual pattern detection on web pages [3.65 mb]
Links
Nachweis
Klassifikation
Zusammenfassung (Deutsch)

Diese Masterarbeit bearbeitet die Forschungsfrage, wie Webobjekte auf bisher unbekannten Webseiten robust identifiziert werden können. Das TAMCROW-Team stellt einen neuen Ansatz vor, um visuelle Charakteristika von Webobjekten und deren umliegenden Objekten zu verarbeiten. Dieser Ansatz ist unabhängig von Text-Labels und dadurch auch sprachunabhängig. Ein weiterer Vorteil ist, dass er mit einer geringeren Anzahl an Beispielen auskommt. Desweiteren sind visuelle Merkmale essentiel für die menschliche Wahrnehmung. Webusability hängt von dieser Wahrnehmung ab. Da der Erfolg eines Webauftritts von einer hohen Benutzerfreundlichkeit abhängt, sind Webdesigner bemüht, ihre Webseiten für die menschliche Wahrnehmung zu optimieren.

Für den Prozess der Objektidentifizierung werden supervised Machine-Learning-Techniken eingesetzt. Dabei ist das Wissen auf Eigenschaften beschränkt, welche die visuellen Attribute eines Webobjektes beschreiben. Eine zusätzliche Frage ist, ob es möglich ist, dass Webobjekte anhand von ihrer visuellen Erscheinung klassifiziert werden können. Im Rahmen dieser Masterarbeit wurden folgende Machine-Learning-Techniken im Detail für den oben beschriebenen Einsatz untersucht: Logistische Regression, K-Nearest-Neighbor, Klassifizierungsbäume (c.4.5 von Quinlan) und Support-Vector-Machines.

Für die letztgenannte Technik wurden folgende Kernelfunktionen verwendet: linear, polynomisch, radial und sigmoid. Darüber hinaus, werden unterschiedliche Techniken für die Datenaufbereitung und die erforderlichen Parameteroptimierungen für einige der oben beschriebenen Techniken erläutert.

Andere wissenschaftliche Ansätze lösen ähnliche Probleme mit einem regelbasierten Ansatz (siehe [24,37,94]) oder wie in dieser Masterarbeit mit Machine-Learning-Techniken (siehe [56, 74, 75]). Grundsätzlich ist es nicht möglich die Resultate der anderen Arbeiten direkt zu vergleichen, da die Webpage-Korpora und die Ziele nicht genau übereinstimmen.

Die Resultate dieser Arbeit finden sich im Kaptel \ref

Zusammenfassung (Englisch)

In this thesis the question how to robustly identify web objects across different sites is tackled. TAMCROW introduces a novel approach exploiting visually perceivable characteristics of a web object and its surrounding objects. This approach is entirely independent of textual labels, and hence has the noteworthy advantage of being language-agnostic. Another main advantage of the visual detection approach is sample parsimony. Fewer examples are required for the learning process to learn how to find certain web objects on previously unknown pages. Moreover, visual cues are crucial for the human perception and as a consequence also for the usability of a web page.

Therefore, web designers create web pages coherent with the human perception in order to yield a high usability.

Supervised machine learning techniques are applied for the object identification process. The knowledge is limited to features representing the visual appearance of the different web objects. An additional question is whether it is possible to predict the role of a web object by its visual appearance which is formally a classification problem. Within the scope of this master thesis, the following machine learning techniques are investigated in detail: logistic regression, knearest-neighbor, classification trees (in particular, c4.5 of Quinlan) and support vector machines. For support vector machines the following kernels are applied: linear, polynomial, radial and sigmoid.

Furthermore, different techniques for data preprocessing/preparation and parameter optimization for some of the classification techniques mentioned above are discussed.

Other scientific papers solve similar problems with either a rule-based approach (see [24,37,94]) or like this master thesis, with machine learning techniques (see [56, 74, 75]). In general, it is not possible to compare the results of these scientific papers directly since the web page corpora and aims are differnt.

Possible reasons for the favorable classification results are the following ones: Firstly, the TAMCROW project uses a vast number of visual features especially compared with other approaches. Therefore, the different classification algorithms seem to learn more easily how to distinguish between the different web objects. Secondly, the methodology of the distance computation (introduced in chapter\ref