Analyse der Netzwerkstrukturen sowie Erweiterung eines Wörterbuchs zur automatisierten Identifikation von Hass-Tweets

Walla, Klaus

doi:10.34726/hss.2016.40762

Record link:

https://doi.org/10.34726/hss.2016.40762
http://hdl.handle.net/20.500.12708/1813

Title:

Analyse der Netzwerkstrukturen sowie Erweiterung eines Wörterbuchs zur automatisierten Identifikation von Hass-Tweets

Citation:

Walla, K. (2016). Analyse der Netzwerkstrukturen sowie Erweiterung eines Wörterbuchs zur automatisierten Identifikation von Hass-Tweets [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2016.40762

reposiTUm DOI:

10.34726/hss.2016.40762

CatalogPlus:

AC15057852

Publication Type:

Thesis - Diplomarbeit

Language:

German

Authors:

Walla, Klaus

Advisor:

Rauber, Andreas

Organisational Unit:

E188 - Institut für Softwaretechnik und Interaktive Systeme

Date (published):

2016

Number of Pages:

160

Keywords:

Hassrede; Twitter; überwachtes maschinelles Lernen; Verarbeitung natürlicher Sprache; soziale Netzwerkanalyse; LIWC Wörterbuch

Hate Speech; Twitter; supervised machine learning; NLP; social network analysis; LIWC dictionary

Abstract:

In den letzten Jahren rückte Hassrede speziell durch deren einfache und anonyme Verbreitung über soziale Netzwerke immer mehr in das Blickfeld der Gesellschaft und stellt mittlerweile ein nicht zu verachtendes Problem dar. Speziell in einem sozialen Medium, wie Twitter, können die großen Mengen an Tweets nur unzureichend auf herabwürdigende Inhalte untersucht werden, um entsprechend darauf zu reagieren. Deshalb soll in dieser Arbeit ein Ansatz beruhend auf Supervised Machine Learning vorgestellt werden, der Hasspostings automatisch als solche identifiziert. Damit dies bewerkstelligt werden kann, wurden Features eingesetzt, die sich bereits in vorangegangen Arbeiten für die Erkennung von offensiven Äußerungen bewährten und Eigenheiten der verwendeten Sprache und des Tweet-Inhalts berücksichtigen. Zusätzlich wurde spezielles Augenmerk auf Features gelegt, die durch die Analyse der Netzwerkstruktur und durch den Einsatz eines für die Hassidentifikation angepasstes Wörterbuch gewonnen werden können. Letztendlich wird mit den resultierenden Features ein Modell eines Klassifikators trainiert, welcher den Tweet als neutral oder hasserfüllt einstuft. Zum Einsatz kamen dabei ein Support Vector Machine-, ein Naive Bayes- und ein Random Decision Forest- Klassifikator. Zur Evaluierung der Performance des Machine Learning Algorithmus wurden verschiedene Experimente durchgeführt, die Aufschluss darüber geben sollen wie sich Features und dessen Kombinationen auf die Exaktheit der Klassifikationen auswirkt, wie gut die Ergebnisse der jeweiligen Klassifikatoren ausfallen und wie die Parameter dieser angepasst werden müssen, um die Resultate weiter zu optimieren. Auf Grundlage der kalkulierten Messwerte soll als Endergebnis dieser Arbeit jene Kombination aus Feature-Set und Klassifikator mit dessen Parametereinstellungen präsentiert werden, von der man sich die beste Identifikation von Hasspostings verspricht.

In recent years, hate speech moved specially due to their simple and anonymous distribution through social networks more and more into the focus of the society and is now constituting a non-negligible problem. Especially in a social medium like Twitter, the large amounts of posts can only be inadequately investigated for derogatory content or offensive language in order to react accordingly. Therefore an approach, based on supervised machine learning, is presented in this work, which identifies hate postings automatically. For this to be accomplished, features already proven in previous works for the recognition of offensive remarks, which consider characteristics of the used language and the Tweet content, were included. In addition, special attention was paid to features that can be gained by analyzing the network structure and the use of a dictionary customized for the hate identification. Finally, the model of a classifier is trained with the resulting features, which classifies a Tweet as neutral or hateful. In detail a Support Vector Machine-, Naive Bayes and Random Forest- classifier came to use. To evaluate the performance of the machine learning algorithmus different experiments were carried out, which should give information about how features and its combinations affect the accuracy of the classifications, as well the respective classifiers perform and how the parameters of these have to be adjusted to optimize the results further. Based on the calculated values the combination of feature set and classifier with its optimal parameter settings, from which one expects the best identification of hate postings, is presented as the final result of this work.

License:

In Copyright

Appears in Collections:

Thesis