<div class="csl-bib-body">
<div class="csl-entry">Fink, T. (2018). <i>Improving multi word term detection in the patent domain with deep learning</i> [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2018.40265</div>
</div>
-
dc.identifier.uri
https://doi.org/10.34726/hss.2018.40265
-
dc.identifier.uri
http://hdl.handle.net/20.500.12708/7292
-
dc.description.abstract
Im Bereich der Patentsuche spielen technische Begriffe eine wichtige Rolle, wenn es darum geht herauszufinden, welche Patentdokumente einem bestimmten Patentdokument am ähnlichsten sind. Im Englischen bestehen technische Begriffe zumeist aus mehreren Wörtern und formen weiters Substanivgruppen (noun phrases). Letzteres wird von Methoden, die solche Mehrwortbegriffe (multi word terms) erkennen sollen, genutzt. Da aber Patenttexte sich oftmals durch eine Schreibstil kennzeichnen, der von anderen englischen Texten abweicht und Sätze sehr lang werden können, sind übliche Methoden zur Erkennung von linguistischen Informationen weniger effektiv. Weiters werden manche Mehrwortbegriffe eher selten in Patenten verwendet, was Methoden, die die Erkennung von Substantivgruppen sowie Information über die Vorkommenshäufigkeit der Begriffe benötigen, nicht unproblematisch macht. In dieser Arbeit präsentieren wir eine Methode zur Erkennung von Mehrwortbegriffen jeglicher Vorkommenshäufigkeit, die nicht die vorherige Erkennung von Substantivgruppen benötigt. Mithilfe von überwachtem maschinellem Lernen und einem künstlichen neuronalen Netz, das durch Methoden der Eigennamenerkennung (named entity recognition) und Schlüsselphrasenerkennung inspiriert wurde, trainieren wir Modelle auf Sätzen von 22 Patenten, deren Mehrwortbegriffe beschriftet wurden, bestehend aus Wort-Tokens und Buchstaben-Tokens. Durch Verwendung von 'word embeddings', die mit dem CLEF-IP Patentdatensatz erstellt wurden, erreicht unser bestes Modell eine höhere Leistung als unser bestes, auf linguistischen Informationen basierendes Richtlinienmodell, im Bezug auf Genauigkeit (von 0.70 auf 0.85), Trefferquote (von 0.74 auf 0.84) und F-Maß (von 0.72 auf 0.84).
de
dc.description.abstract
In patent document information retrieval, the technical terms that are used in a particular patent document are an important factor in determining what the most relevant related documents are. In English, technical terms often consist of multiple words. Further, the fact that they are mostly noun phrases (NP) is utilized by methods detecting such multi word terms (MWT). However, due to the special nature of the patent domain, such as a special writing style and high maximum sentence length, common methods for extracting linguistic information are less effective. Further, some MWTs can occur very infrequently in patents, which makes the use of methods relying on NP extraction and frequency based information problematic. In this thesis we present a method for detecting even rare MWTs in patent texts that does not require the prior detection of NPs. Using supervised machine learning and an artificial neural network inspired by named entity extraction and keyphrase detection methods, we train models on sentences with annotated MWTs from 22 patents consisting of word tokens and character tokens. With the help of word embeddings trained on the CLEF-IP patent dataset, our best model outperforms our best linguistic baseline with regards to precision (from 0.70 to 0.85), recall (from 0.74 to 0.84) and F1 score (from 0.72 to 0.84).
en
dc.language
English
-
dc.language.iso
en
-
dc.rights.uri
http://rightsstatements.org/vocab/InC/1.0/
-
dc.subject
Natural language processing
en
dc.subject
patent text mining
en
dc.title
Improving multi word term detection in the patent domain with deep learning
en
dc.type
Thesis
en
dc.type
Hochschulschrift
de
dc.rights.license
In Copyright
en
dc.rights.license
Urheberrechtsschutz
de
dc.identifier.doi
10.34726/hss.2018.40265
-
dc.contributor.affiliation
TU Wien, Österreich
-
dc.rights.holder
Tobias Fink
-
dc.publisher.place
Wien
-
tuw.version
vor
-
tuw.thesisinformation
Technische Universität Wien
-
dc.contributor.assistant
Andersson, Linda
-
tuw.publication.orgunit
E188 - Institut für Softwaretechnik und Interaktive Systeme
-
dc.type.qualificationlevel
Diploma
-
dc.identifier.libraryid
AC15197601
-
dc.description.numberOfPages
69
-
dc.identifier.urn
urn:nbn:at:at-ubtuw:1-117484
-
dc.thesistype
Diplomarbeit
de
dc.thesistype
Diploma Thesis
en
dc.rights.identifier
In Copyright
en
dc.rights.identifier
Urheberrechtsschutz
de
tuw.advisor.staffStatus
staff
-
tuw.assistant.staffStatus
staff
-
tuw.advisor.orcid
0000-0002-7149-5843
-
item.fulltext
with Fulltext
-
item.cerifentitytype
Publications
-
item.mimetype
application/pdf
-
item.openairecristype
http://purl.org/coar/resource_type/c_bdcc
-
item.languageiso639-1
en
-
item.openaccessfulltext
Open Access
-
item.openairetype
master thesis
-
item.grantfulltext
open
-
crisitem.author.dept
E194-04 - Forschungsbereich E-Commerce
-
crisitem.author.parentorg
E194 - Institut für Information Systems Engineering