Titelaufnahme

Titel
Answerer ranking framework for community-driven question and answer platforms / von Karl Stary
VerfasserStary, Karl
Begutachter / BegutachterinDustdar, Schahram ; Satzger, Benjamin
Erschienen2012
UmfangXIII, 97 S. : Ill., graph. Darst.
HochschulschriftWien, Techn. Univ., Dipl.-Arb., 2012
Anmerkung
Zsfassung in dt. Sprache
SpracheEnglisch
DokumenttypDiplomarbeit
Schlagwörter (DE)Frage und Antwort Plattformen / Wissensschätzung / Antwortenden Reihung
Schlagwörter (EN)Q&A platforms / expertise estimation / answerer ranking
URNurn:nbn:at:at-ubtuw:1-54569 Persistent Identifier (URN)
Zugriffsbeschränkung
 Das Werk ist frei verfügbar
Dateien
Answerer ranking framework for community-driven question and answer platforms [3.51 mb]
Links
Nachweis
Klassifikation
Zusammenfassung (Deutsch)

Internetbasierte Frage und Antwort Gemeinschaften haben sich innerhalb der letzten zehn Jahre zu sehr populären Plattformen entwickelt. Heute gibt es riesige Gemeinschaften, in denen täglich mehrere Zehntausende Fragen gestellt werden. Das Ziel dieser Arbeit ist es, solche Gemeinschaften zu verbessern, indem neue Fragen automatisch zu passenden Mitgliedern weitergeleitet werden. Weites soll es nicht notwendig sein, dass Benutzer ihre Fragen kategorisieren müssen. Um diese Ziele zu erreichen wird ein System vorgestellt, welches verschiedene Komponenten enthält, mittels welcher dieWahrscheinlichkeit geschätzt wird, dass ein spezieller Benutzer solch einer Gemeinschaft fähig ist, eine spezielle Frage zu beantworten. Die drei Kern-Komponenten sind Fachkenntnis/Wissen, Autorität, und Verfügbarkeit.

Sie werden verwendet, um die Richtigkeit, die Vertrauenswürdigkeit und die Antwortzeit von potentiellen zukünftigen Antworten eines speziellen Benutzers zu schätzen. Diese Komponenten sind essentiell um zu ermitteln, wie wahrscheinlich ein spezieller Benutzer eine spezielle Frage zufriedenstellend beantworten könnte. Konkrete Realisierungen der Wissens-Komponente basieren auf dem Vektor-Raum Modell (VRM) und auf dem Frage-Wahrscheinlichkeits-Sprachen-Modell (Query Likelihood Language Model). VRM verwendet Term Frequenz - Inverse Dokumenten Frequenz (TF-IDF), wobei IDF auf der Benutzersammlung basiert. Nach bestem Wissen ist das ein neuartiger Ansatz, da in der Literatur IDF immer mittels Fragensammlung ermittelt wird. Die Realisierungen der Autoritätskomponente sind zum Beispiel InDegree, PageRank, und ZScore.

Benutzer-Aktivität ist mittels neuartigem Aktivitätsfilter berücksichtigt, welcher, nach bestemWissen und Gewissen, noch bei keinen ähnlichen Arbeiten verwendet wurde. Dieser entfernt alle inaktiven Benutzer vor der eigentlichen Berechnung der Rangliste von potentiellen Antwortenden. Benutzer-Profile, welche die Grundlage für alle Komponenten bilden, werden von bisherigen, am besten beantworteten Fragen eines speziellen Benutzers erstellt. Die Implementierung des Systems ist für die Verwendung von modernen Multi-Kern Prozessoren ausgelegt. Basierend auf einem vom Yahoo! Research Allicance Webscope Programm bereitgestellten Datensatz werden verschiedene Varianten der Reihungsberechnung untersucht und die passendste ermittelt.

Zusammenfassung (Englisch)

Web-based Question and Answer communities have become very popular within the last decade. Today, there are huge communities, where tens of thousands of questions are posted every single day. This work aims at improving such communities via automatically forwarding new questions to appropriate answerers. In addition, askers should not be required to categorize their questions. To achieve these goals a framework is presented which contains several components in order to estimate how suitable users are for answering a specific question. The three core components are Expertise/Knowledge, Authority and Availability, which are used to predict the accuracy, trustworthiness and response time of a user's potential answer regarding a particular new question. These components are crucial in the process of determining if a certain user is likely to give a satisfying answer to a specific question. The framework implements different approaches of these components, which can be combined for the user ranking calculation.

Concrete realizations of the Expertise component are based on the Vector Space Model (VSM) and on the Query Likelihood Language Model. VSM is improved via Term Frequency, Inverse Document Frequency (TF-IDF), where IDF is based on the user collection. To the best of our knowledge, this is a novel interpretation, because throughout the literature, IDF is based on the question collection. Realizations of the Authority component are, for example, InDegree, PageRank, and ZScore. User activity is realized via a novel Activity Filter, which, in all conscience, has not been used by related works. It removes inactive users prior to the actual ranking determination of potential answerers.

User profiles, which are the foundation for all these components, are built from previously best answered questions. The implementation of the Ranking Engine, which produces the ranking of potential answers in relation to their likelihood of answering specific new questions, is optimized for modern multi-core processors by leveraging concurrent programming. Based on a dataset, provided by the Yahoo! Research Alliance Webscope program, different ranking variants are evaluated and the most accurate one is determined.