Bibliographic Metadata

Title
Exploiting user behavior and markup structures to improve search result rankings / von Constantin-Claudiu Gavrilete
AuthorGavrilete, Constantin-Claudiu
CensorDustdar, Schahram
Published2013
DescriptionXIII, 81 S. : graph. Darst.
Institutional NoteWien, Techn. Univ., Dipl.-Arb., 2013
Annotation
Zsfassung in dt. Sprache
LanguageEnglish
Document typeThesis (Diplom)
URNurn:nbn:at:at-ubtuw:1-70396 Persistent Identifier (URN)
Restriction-Information
 The work is publicly available
Files
Exploiting user behavior and markup structures to improve search result rankings [3.73 mb]
Links
Reference
Classification
Abstract (German)

Populäre Web Suchmaschinen, wie Google, basieren auf traditionelle Rankingmethoden der Suchresultate, wie z.B. das Vektorraum Modell oder probabilistische Modelle in Kombination mit dem berühmten PageRank Algorithmus. In den letzten Jahren wurde die persönliche Relevanz von einem Dokument auch für Rangbestimmung hinzugezogen, da dieser Faktor die Qualität der Ergebnisse signifikant verbessert. Diese Diplomarbeit baut auf den Konzepten, der im Zusammenhang mit Resultatpersonalisierung stehender wissenschaftlicher Arbeiten auf und erweitert diese um das Design und Implementierung einer Keyword-basierenden persönlichen Suchmaschine. Im Vergleich zu anderen Arbeiten wird die persönliche Relevanz durch die Interaktion des Benutzer mit den Keywords eines Dokuments bestimmt, wie z.B. durch Klicken oder Bewegungen der Maus über das Keyword. Ein Rankingalgorithmus wird vorgestellt, der neben den traditionellen Keyword- und Dokumenthäufigkeiten im Vektorraum Modell auch die Interaktionen mit Keywords berücksichtigt, um die Dokumentwichtigkeit zu berechnen. Diese Konzepte wurden als HTML5 Browsererweiterung für Google Chrome implementiert. Diese Erweiterung zeichnet die Interaktionen des Benutzers mit dem sichtbaren Inhalt eines Dokuments auf, ohne dabei seinem normalen Surfverhalten in die Quere zu kommen. Das Abfragen nach bereits gesehenem Inhalt liefert jene gespeicherten Dokumente in einer nach persönlicher Relevanz geordneten Reihenfolge zurück. Eine Evaluierung wurde durchgeführt, die Aussage über die Signifikanz der gemessenen Faktoren für die persönliche Relevanz treffen soll. Es wird gezeigt, dass die Interaktionen des Benutzers in einem Dokument mit dessen Relevanz korreliert. Weiters wurde ein Performance-Benchmark zwischen den HTML5 Speicherstrukturen WebSQL und IndexedDB für insert, update und search Operationen durchgeführt. Im Test übertrifft IndexedDB seinen Kontrahenten in fast allen Konfigurationen.

Abstract (English)

Popular web search engines, such as Google, rely on traditional search result ranking methods such as the vector space model or probabilistic models in combination with the famous PageRank algorithm. In the last couple of years personal document relevance got considered when ranking search results, as it improves the result quality significantly. This thesis extends related work in the area of result personalization, by providing the concept and implementation of a keyword based personal search engine. Compared to other work, the personal relevance is measured by the user's activity with keywords of one document, such as clicking or hovering. A ranking algorithm is introduced, which considers keyword and document frequencies in the vector space model, combined with the interaction of those keywords to compute the document score. The concepts are implemented as an HTML5 browser extension for Google Chrome, which actively measures the user's interaction with the visited content, without interfering with the normal surfing behavior. Querying for visited content retrieves stored documents and orders them according to their personal relevance. An evaluation is conducted to test whether the behavioral ranking factors are significant enough for personal relevance. It is shown, that the interaction of the user with the document's content correlates with its relevance. Furthermore, a benchmark of WebSQL and IndexedDB as HTML5 data storage structures for insert, update and search operations reveals that the latter technology outperforms the former in almost every configuration.