Design of a Machine Learning Algorithm for Adsorption Energy Prediction on Transition Metal Oxide Surfaces

Polyakov, Alexander

doi:10.34726/hss.2024.111362

Record link:

https://doi.org/10.34726/hss.2024.111362
http://hdl.handle.net/20.500.12708/195084

Title:

Design of a Machine Learning Algorithm for Adsorption Energy Prediction on Transition Metal Oxide Surfaces

Citation:

Polyakov, A. (2024). Design of a Machine Learning Algorithm for Adsorption Energy Prediction on Transition Metal Oxide Surfaces [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2024.111362

reposiTUm DOI:

10.34726/hss.2024.111362

CatalogPlus:

AC17100810

Publication Type:

Thesis - Diplomarbeit

Language:

English

Authors:

Polyakov, Alexander

Advisor:

Comas Vives, Aleix

Organisational Unit:

E165 - Institut für Materialchemie

Date (published):

2024

Number of Pages:

Keywords:

Adsorption; Oxide; Maschinelles Lernen

Adsorption; Oxides; Machine Learning

Abstract:

In dieser Arbeit wird das Potenzial von Methoden des Maschinellen Lernens (ML) zur Prognose von Adsorptionsenergien in Übergangsmetall-Oxiden ausgelotet. Diese Methoden stellen eine vielversprechende und effiziente Alternative zu den herkömmlichen, rechenintensiven Dichtefunktionaltheorie (DFT)-Simulationen für die Entdeckung neuer Katalysatoren dar. Auf der Basis von einfach zu berechnenden Eigenschaften reiner Substrate und Adsorbate, soll ein ML-Model präzise Prognosen für komplexere Eigenschaften wie die Adsorptionsenergie zu erzeugen. Letztere spielt eine entscheidende Rolle für die Bestimmung der katalytischen Aktivität. Die Studie entwickelt einen sorgfältig zusammengestellten Datensatz mit 102 Datenpunkten, der aus einer gezielten Auswahl der Open Catalyst 2022-Datenbank stammt. Dieser konzentriert sich auf Substrate wie Ti- O, Al-O und Zr-O, kombiniert mit einem zufällig gewählten Adsorbaten (H2O, CO, OH, O, H, C, N). Um die Aussagekraft des Datensatzes zu erhöhen, werden zusätzliche DFT- Berechnungen durchgeführt, die wichtige Daten über elektronische Eigenschaften liefern. Mit diesen ergänzten Informationen erfolgt die Identifikation der bei der Adsorption beteiligten Atome und die Extraktion ihrer unikalen geometrischen und elektronischen Eigenschaften. Diese Eigenschaften, auch als 'Deskriptoren' bezeichnet, dienen als Grundlage für das Training fortschrittlicher ML-Algorithmen, die dem 'deskriptorbasierten' Ansatz folgen. Die Anwendung von Kernel Ridge Regression (KRR), XGBoost und CatBoost Modellen in dieser Forschungsarbeit demonstriert deren Fähigkeit, die komplexen, nichtlinearen Zusammenhänge zwischen Materialeigenschaften und Adsorptionsenergien zu erfassen. Die Ergebnisse deuten darauf hin, dass durch Verbesserungen in der Qualität und Quantität der Daten die Präzision dieser Modelle weiter gesteigert werden könnte. Solche Fortschritte können diese ML-Modelle zu wertvollen Instrumenten für das Screening von Materialien und die Gestaltung von Katalysatoren machen und damit einen wesentlichen Beitrag zum Bereich der Katalyse leisten.

This thesis delves into the capabilities of machine learning (ML) methods for predicting adsorption energies in transition metal oxides (TMOs), highlighting their role as a viable and efficient alternative to the traditional, computationally demanding Density Functional Theory (DFT) simulations in the discovery of novel catalysts. On the basis of 'easy-to- calculate' properties of clean substrates and adsorbates, ML models aim to produce accurate predictions for 'hard-to-calculate' properties, such as adsorption energy, a critical factor in determining catalytic activity. In pursuit of this objective, the study constructs a dataset comprising 102 data points. This dataset, a carefully selected subset of the Open Catalyst 2022 database, focuses on substrates including Ti-O, Al-O, and Zr-O, each paired with an adsorbate (H2O, CO, OH, O, H, C, N) placed in random configuration. Relaxed structures are augmented with additional single-point DFT calculations, enriching them with electronic structure data. This enriched dataset enabled the identification of atoms actively involved in adsorption phenomena and allowed the extraction of their unique geometrical and electronic characteristics. These characteristics, or 'descriptors', were then utilized for training advanced ML algorithms following the 'descriptor-based' approach. Employing Kernel Ridge Regression (KRR), XGBoost, and CatBoost models, the study showcases the capability of these models to capture complex, non-linear relationships between material properties and adsorption energies. However, it is noted that while the models exhibit significant promise, they have yet to achieve further accuracy. The findings indicate that enhancements in data quality and quantity could further refine the accuracy of these models. Such improvements hold the potential to transform these ML models into valuable tools for material screening and catalyst design, offering substantial contributions to the field of catalysis.

Additional information:

Arbeit an der Bibliothek noch nicht eingelangt - Daten nicht geprüft
Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers

License:

In Copyright

Appears in Collections:

Thesis