Improving multi word term detection in the patent domain with deep learning

Fink, Tobias

doi:10.34726/hss.2018.40265

DC Field

Value

Language

dc.contributor.advisor

Hanbury, Allan

dc.contributor.author

Fink, Tobias

dc.date.accessioned

2020-06-29T16:01:35Z

dc.date.issued

2018

dc.date.submitted

2018-11

dc.identifier.citation

<div class="csl-bib-body"> <div class="csl-entry">Fink, T. (2018). <i>Improving multi word term detection in the patent domain with deep learning</i> [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2018.40265</div> </div>

dc.identifier.uri

https://doi.org/10.34726/hss.2018.40265

dc.identifier.uri

http://hdl.handle.net/20.500.12708/7292

dc.description.abstract

Im Bereich der Patentsuche spielen technische Begriffe eine wichtige Rolle, wenn es darum geht herauszufinden, welche Patentdokumente einem bestimmten Patentdokument am ähnlichsten sind. Im Englischen bestehen technische Begriffe zumeist aus mehreren Wörtern und formen weiters Substanivgruppen (noun phrases). Letzteres wird von Methoden, die solche Mehrwortbegriffe (multi word terms) erkennen sollen, genutzt. Da aber Patenttexte sich oftmals durch eine Schreibstil kennzeichnen, der von anderen englischen Texten abweicht und Sätze sehr lang werden können, sind übliche Methoden zur Erkennung von linguistischen Informationen weniger effektiv. Weiters werden manche Mehrwortbegriffe eher selten in Patenten verwendet, was Methoden, die die Erkennung von Substantivgruppen sowie Information über die Vorkommenshäufigkeit der Begriffe benötigen, nicht unproblematisch macht. In dieser Arbeit präsentieren wir eine Methode zur Erkennung von Mehrwortbegriffen jeglicher Vorkommenshäufigkeit, die nicht die vorherige Erkennung von Substantivgruppen benötigt. Mithilfe von überwachtem maschinellem Lernen und einem künstlichen neuronalen Netz, das durch Methoden der Eigennamenerkennung (named entity recognition) und Schlüsselphrasenerkennung inspiriert wurde, trainieren wir Modelle auf Sätzen von 22 Patenten, deren Mehrwortbegriffe beschriftet wurden, bestehend aus Wort-Tokens und Buchstaben-Tokens. Durch Verwendung von 'word embeddings', die mit dem CLEF-IP Patentdatensatz erstellt wurden, erreicht unser bestes Modell eine höhere Leistung als unser bestes, auf linguistischen Informationen basierendes Richtlinienmodell, im Bezug auf Genauigkeit (von 0.70 auf 0.85), Trefferquote (von 0.74 auf 0.84) und F-Maß (von 0.72 auf 0.84).

dc.description.abstract

In patent document information retrieval, the technical terms that are used in a particular patent document are an important factor in determining what the most relevant related documents are. In English, technical terms often consist of multiple words. Further, the fact that they are mostly noun phrases (NP) is utilized by methods detecting such multi word terms (MWT). However, due to the special nature of the patent domain, such as a special writing style and high maximum sentence length, common methods for extracting linguistic information are less effective. Further, some MWTs can occur very infrequently in patents, which makes the use of methods relying on NP extraction and frequency based information problematic. In this thesis we present a method for detecting even rare MWTs in patent texts that does not require the prior detection of NPs. Using supervised machine learning and an artificial neural network inspired by named entity extraction and keyphrase detection methods, we train models on sentences with annotated MWTs from 22 patents consisting of word tokens and character tokens. With the help of word embeddings trained on the CLEF-IP patent dataset, our best model outperforms our best linguistic baseline with regards to precision (from 0.70 to 0.85), recall (from 0.74 to 0.84) and F1 score (from 0.72 to 0.84).

dc.language

English

dc.language.iso

dc.rights.uri

http://rightsstatements.org/vocab/InC/1.0/

dc.subject

Natural language processing

dc.subject

patent text mining

dc.title

Improving multi word term detection in the patent domain with deep learning

dc.type

Thesis

dc.type

Hochschulschrift

dc.rights.license

In Copyright

dc.rights.license

Urheberrechtsschutz

dc.identifier.doi

10.34726/hss.2018.40265

dc.contributor.affiliation

TU Wien, Österreich

dc.rights.holder

Tobias Fink

dc.publisher.place

Wien

tuw.version

vor

tuw.thesisinformation

Technische Universität Wien

dc.contributor.assistant

Andersson, Linda

tuw.publication.orgunit

E188 - Institut für Softwaretechnik und Interaktive Systeme

dc.type.qualificationlevel

Diploma

dc.identifier.libraryid

AC15197601

dc.description.numberOfPages

dc.identifier.urn

urn:nbn:at:at-ubtuw:1-117484

dc.thesistype

Diplomarbeit

dc.thesistype

Diploma Thesis

dc.rights.identifier

In Copyright

dc.rights.identifier

Urheberrechtsschutz

tuw.advisor.staffStatus

staff

tuw.assistant.staffStatus

staff

tuw.advisor.orcid

0000-0002-7149-5843

item.fulltext

with Fulltext

item.cerifentitytype

Publications

item.mimetype

application/pdf

item.openairecristype

http://purl.org/coar/resource_type/c_bdcc

item.languageiso639-1

item.openaccessfulltext

Open Access

item.openairetype

master thesis

item.grantfulltext

open

crisitem.author.dept

E194-04 - Forschungsbereich E-Commerce

crisitem.author.parentorg

E194 - Institut für Information Systems Engineering

Appears in Collections:

Thesis

Fulltext (Version of Record (published version))

Adobe PDF

(1.47 MB)

In Copyright

Show simple item record

Page view(s)

261

checked on Nov 23, 2023

Download(s)

115

checked on Nov 23, 2023

Google Scholar^TM

Check

Page view(s)

Download(s)

Google ScholarTM

Google Scholar^TM