Boolean query characteristics in patent searching

Honeder, Roland

doi:10.34726/hss.2018.2483

Record link:

https://doi.org/10.34726/hss.2018.2483
http://hdl.handle.net/20.500.12708/1944

Title:

Boolean query characteristics in patent searching

Citation:

Honeder, R. (2018). Boolean query characteristics in patent searching [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2018.2483

reposiTUm DOI:

10.34726/hss.2018.2483

CatalogPlus:

AC15260760

Publication Type:

Thesis - Diplomarbeit

Language:

English

Authors:

Honeder, Roland

Advisor:

Hanbury, Allan

Organisational Unit:

E188 - Institut für Softwaretechnik und Interaktive Systeme

Date (published):

2018

Number of Pages:

100

Keywords:

Information Retrieval; Query Analysis; Information Extraction

Abstract:

Eine steigende Zahl an Patentanträgen - im Verein mit mittlerweile über einer halben Million noch nicht untersuchter Patentanträge (Frühjahr 2016) im United States Patent & Trademark Office (USPTO) - bedingt die Durchführung effizienter Patentsuche, deren Ziel die Feststellung der Patentierbarkeit eines Patentantrages ist. Wesentliches Werkzeug hierfür sind Suchmaschinen, die die Verarbeitung Boolescher Suchanfragen durch den Patentsucher unterstützen. Diese Arbeit untersucht Merkmale von mehr als 15 Millionen Boolescher Suchanfragen, die im Laufe der Patentsuche generiert und an das Examiner Assisted Search Tool (EAST) übermittelt wurden. Transkriptionen der Anfragen stehen in SRNT Dokumenten zum Download zur Verfügung. Der Sucherfolg spiegelt sich in der Verfügbarkeit eines 892 Dokumentes wieder. Ist für ein SRNT Dokument ein adäquates 892 Dokument vorhanden, bedeutet dies, dass im Rahmen der Suche relevante Patentliteratur entdeckt wurde. Darauf basierend ließ sich das Datenmaterial hinsichtlich ihres Sucherfolges in zwei Erfolgsgruppen (SRN T 892 , SRN T no892 ) teilen. Query Expansion (QE) ist eine Maßnahme zur Verbesserung des Suchresultates durch das Hinzufügen relevanter Begriffe. Die verschiedenen Strategien werden im Rahmen dieser Arbeit erläutert. In der Patentsuche wird QE manuell und auf zwei Arten angewandt. Einerseits durch das Einfügen alternative Suchbegriffe in eine Suchanfrage; andererseits durch die Verwendung des Truncation Operators, der Rücksichtnahme auf Wortvariationen (z.B. Endungen) erlaubt. QE wird in Suchen beider Erfolgsgruppen häufig angewandt. Die Erwartung, sie sei verstärkt in der Gruppe erfolgreicher Suchen vorzufinden, wurde indes nur zum Teil erfüllt. Listen alternativer Suchbegriffe treten in beiden Gruppen mit ähnlicher Häufigkeit, der Truncation Operator vermehrt in der Gruppe erfolgreicher Suchen auf. Weitere Untersuchungen - etwa über die Verwendung Boolescher Operatoren, der durchschnittlichen Querylänge, der Verschachtelungstiefe Boolescher Anfragen - zeigten ähnliche Resultate für beide Erfolgsgruppen. Ausgeprägtere Unterschiede ließen sich in der durchschnittlichen Dokumentlänge (= Anzahl Suchanfragen pro Suche), in der Verwendung der Suchfelder (die eine Suche z.B. nach Autorennamen ermöglicht) sowie der Verwendung von Referenzierung (= die Adressierung vorangegangener Suchanfragen) feststellen

As of early 2016, 550,000 patent applications submitted to the USPTO are unexamined. The considerable number of unexamined applications is likely to reduce the amount of time that patent examiners can spend on the examination of an application. Fast-paced technological progress, on the other hand, implies that patent examiners need to invest more time in patent examination. In light of these facts and with sometimes millions at stake the importance of conducting patent searches efficiently is obvious. This thesis analyzes various characteristics of more than 15,000,000 Boolean search queries submitted by professional patent examiners to the EAST patent search engine at the USPTO. Search queries generated during the examination of a patent application are available from the USPTO as SRNT ("search related notes") documents. In order to assemble a rather large dataset of search query logs, more than one million patent applications had to be retrieved and processed. The set of obtained SRNT documents was split into two groups. For one group (SRN T 892 ) relevant patents had been cited by the patent examiner. For the other group (SRN T no892) ), no relevant patent documents had been found during the search. Query Expansion (QE) is a popular and well-studied technique for improving search results by adding relevant terms to an user query. Professional patent searchers apply QE manually. Either by providing lists of related terms within a Boolean query, or by using the truncation operator as instruction for the patent search engine to consider variations of a word. Contrary to my expectation it is shown that there is no difference between "successful" and "unsuccessful" searches in terms of quantity by which lists of alternate terms are provided. However, it is also shown that the use of the truncation operator is more popular in "successful" searches. Most of the examined search features, such as the average query length, the use of parentheses, the use of Boolean operators, yield relatively similar results for both document sets. Noteworthy differences have been found in the average document length (= number of queries per search), in the use of patent database specific search fields (e.g. to search in the "claims" section of a patent) and in the use of references (to address former queries).

License:

In Copyright

Appears in Collections:

Thesis