Exploring computer vision strategies of food recognition for dietary assessment

Fermitsch, Andreas

doi:10.34726/hss.2017.39996

Record link:

https://doi.org/10.34726/hss.2017.39996
http://hdl.handle.net/20.500.12708/2980

Title:

Exploring computer vision strategies of food recognition for dietary assessment

Citation:

Fermitsch, A. (2017). Exploring computer vision strategies of food recognition for dietary assessment [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2017.39996

reposiTUm DOI:

10.34726/hss.2017.39996

CatalogPlus:

AC14520242

Publication Type:

Thesis - Diplomarbeit

Language:

English

Authors:

Fermitsch, Andreas

Advisor:

Kampel, Martin

Co-advisor:

Planinc, Rainer

Organisational Unit:

E183 - Institut für Rechnergestützte Automation

Date (published):

2017

Number of Pages:

140

Keywords:

Essenserkennung; Objekterkennung; Bildklassifikation; Maschinelles Lernen; Computer Vision

Food Recognition; Object Recognition Methods; Image Classification; Machine Learning; Computer Vision

Abstract:

Zunehmende Gesundheitsprobleme wie Diabetes oder Herz-Kreislauferkrankungen können unter anderem auf unsere Ernährung zurückgeführt werden. Diverse Applikationen benötigen eine Monitierung ernährungsbezogener Metadaten, wie etwa die Nahrungszusammensetzung der täglichen Kalorienaufnahme. Existierende Methoden für Ernährungsauswertungen, wie 24-Stunden Erinnerungsprotokolle oder Verzehrsprotokolle, sind oft ungenau, zeitaufwändig, teuer und schwerfällig. Auswertungen die auf Photographien von Malzeiten basieren, bieten eine Alternative zu den traditionellen Methoden. Sie eröffnen die Möglichkeit, diese zu unterstützen und zu verbessern. Um State-of-the-art Methoden zur Erkennung von Essen zu identifizieren, wird eine Recherche gängiger Computer Vision-Methoden durchgeführt. Die Bag-of-Features-Codierung wird als Bemessungsgrundlage, und die Fisher Vector-Codierung als Erweiterung implementiert. Diverse Farb- und Textur-Bildbeschreibungen werden verglichen und analysiert. Um die Codierung weiter zu verbessern werden zwei räumliche Sampling-Methoden für die Bildbeschreibungen verwendet. Um mehrere Bildbeschreibungen zu kombinieren, werden zwei unterschiedliche Strategien miteinander verglichen. Eine dritte Implementierung verwendet Convolutional Neural Networks für die Extraktion von Bild-Merkmalen und die Kategorien-Klassifizierung. Zwei Netzwerk-Architekturen, AlexNet und GoogLeNet werden verwendet. Alle drei Techniken werden auf drei unterschiedlich großen Bild-Datensätzen von Malzeiten angewandt. Die Fisher Vector-Codierung übertrifft die Bag-of-Features-Codierung, und die Convolutional Neural Networks die Fisher Vector-Codierung. Die besten Klassifizierungsresultate liegen bei etwa 80% bei 100, und bei etwa 71% bei 256 Essens-Kategorien. Bei allen drei Datensätzen, liegt die Top-5 Erkennungsrate in einem Bereich von 90-96%.

Diet is a contributing factor for growing health concerns, such as diabetes. For various applications the need arises to monitor meta data, such as the caloric dietary intake composition of daily life. Existing methods of dietary assessment, such as 24-hour Dietary Recalls or Dietary Records, are often inaccurate, time-consuming, costly and cumbersome. Assessment on basis of photographs of food, promises to be an alternative to, or a support of traditional methods. Research of computer-vision techniques for food recognition is conducted and the state-of-the-art methods identified. The Bag-of-Features technique is implemented as a baseline method, the Fisher Vector-encoding as an improvement of the technique. Several colour and texture descriptors are compared and analysed. To further improve the method, two spatial sampling techniques are used for each descriptor. For the combination of various single descriptors, two fusion strategies are compared. The third implementation uses Convolutional Neural Networks as feature extractor and classifier. Two network architectures, AlexNet and GoogLeNet are used. The three techniques are applied on three food image-datasets of different sizes. Fisher Vector-encoding outperforms Bag-of-Features-encoding, and Convolutional Neural Networks outperform the Fisher Vector-encoding. The top results achieved in the image classification task are around 80% recognition rate in a 100 food-category problem, and around 71% for 256 food categories. Top-5 recognition rates are in a range of 90-96% for all three datasets.

License:

In Copyright

Appears in Collections:

Thesis