Reinforcement learning in agent based modelling

Thannen, Sebastian von der

doi:10.34726/hss.2018.56660

Record link:

https://doi.org/10.34726/hss.2018.56660
http://hdl.handle.net/20.500.12708/7911

Title:

Reinforcement learning in agent based modelling

Citation:

Thannen, S. von der. (2018). Reinforcement learning in agent based modelling [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2018.56660

reposiTUm DOI:

10.34726/hss.2018.56660

CatalogPlus:

AC15216337

Publication Type:

Thesis - Diplomarbeit

Language:

English

Authors:

Thannen, Sebastian von der

Advisor:

Breitenecker, Felix

Co-advisor:

Popper, Nikolas

Organisational Unit:

E101 - Institut für Analysis und Scientific Computing

Date (published):

2018

Number of Pages:

Keywords:

Reinforcement learning; neural networks; Agent-based modelling

Abstract:

In den letzten Jahren konnte die Forschung im Bereich des maschinellen Lernens in Verbindung mit künstlichen neuronalen Netzen enorme Fortschritte erzielen. Insbesondere im Bereich des bestärkenden Lernens wurden viele Durchbrüche erzielt (z. B. das Spielen von Atari-Spielen und AlphaGo von Google Deep Mind). Die meisten dieser behandelten Probleme umfassen einen einzigen Agenten, der sich in einer Umgebung befindet, mit welcher er interagieren kann. Ziel des Agenten ist es dabei, mit Hilfe einer Belohnungsfunktion herauszufinden, welche Aktionen ihn zur maximalen Belohnung führen. Mit den selben Techniken versucht diese Arbeit einen generellen Rahmen zu schaffen, um bestärkendes Lernen in der agentenbasierten Modellierung einzusetzen. Anschließend wird dieses Konzept an einem agentenbasierten Räuber-Beute Modell angewendet und evaluiert. Da einige Modelle es erlauben, die Agenten in Gruppen einzuteilen, wie es zum Beispiel für das Räuber-Beute Modell der Fall ist, muss für jede dieser Gruppen eine eigene Belohnungsfunktion definiert werden. Dadurch kann jede Gruppe ihr optimales Verhalten erlernen. Diese daraus resultierende Verhaltensfunktion, die durch ein neuronales Netz approximiert wird, führt den Agenten zu einer optimalen Verhaltensweise, um die erwartete zukünftige Gesamtbelohnung, basierend auf seinem aktuellen Zustand, zu maximieren. Im Vergleich zu herkömmlichen agentenbasierten Modellen kann dieser Ansatz den Modellierungsprozess vereinfachen und gleichzeitig die Verzerrung des Modells verringern, da die vom Modellierer festgelegten Verhaltensregeln durch eine Belohnungsfunktion ersetzt werden. Diese Arbeit versucht verschiedene Ansätze aufzuzeigen, um sowohl eine sinnvolle Belohnungsfunktion, als auch gute Parameterwerte zu finden. Damit soll eine globale Konvergenz bei der Modellierung komplexer Interaktionen zwischen Agenten in einer Umgebung gewährleistet werden.

In recent years, huge progress has been made in machine learning using neural networks as function approximators. Especially in reinforcement learning, extensive research is ongoing and a lot of breakthroughs were achieved (e.g. playing atari games and AlphaGo by Google Deep Mind). Most of these problems involve a single agent thrown into an environment where it has to figure out how to perform optimally based on given rewards for each action. Using these techniques, the thesis aims to develop a general framework for agent based modelling using reinforcement learning and evaluate the results on a predator-prey model using usual approaches such as the Lotka-Volterra equations or rule based models. As some models require a classification of agents in groups, as it is for the predator-prey model, each group of agents demand their own reward function in order to find its optimal policy. This policy function, which will be approximated by a neural network, gives the agent advice for the best action to take with focus on maximising the agents expected total future rewards based on their current state. Compared to usual agent based models, this approach can simplify the modelling process while decreasing the bias of the model since hard coded behavioural rules are replaced by a reward function. This thesis tries to explore different approaches to find both, a meaningful reward function and good parameters to assure global convergence when modelling complex interactions between agents in an environment.

Additional information:

Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers

License:

In Copyright

Appears in Collections:

Thesis