Bibliographic Metadata

Title
Boolean query characteristics inpatent searching / von Roland Honeder
Additional Titles
Query Complexity in Patent Search
AuthorHoneder, Roland
Thesis advisorHanbury, Allan
PublishedWien, 2019
Description84 Seiten
Institutional NoteTechnische Universität Wien, Diplomarbeit, 2019
Annotation
Arbeit an der Bibliothek noch nicht eingelangt - Daten nicht geprueft
LanguageEnglish
Document typeThesis (Diplom)
Keywords (DE)Information Retrieval / Query Analysis / Information Extraction
Keywords (EN)Information Retrieval / Query Analysis / Information Extraction
URNurn:nbn:at:at-ubtuw:1-120419 Persistent Identifier (URN)
Restriction-Information
 The work is publicly available
Files
Boolean query characteristics inpatent searching [1.84 mb]
Links
Reference
Classification
Abstract (German)

Eine steigende Zahl an Patentanträgen - im Verein mit mittlerweile über einer halben Million noch nicht untersuchter Patentanträge (Frühjahr 2016) im United States Patent & Trademark Office (USPTO) - bedingt die Durchführung effizienter Patentsuche, deren Ziel die Feststellung der Patentierbarkeit eines Patentantrages ist. Wesentliches Werkzeug hierfür sind Suchmaschinen, die die Verarbeitung Boolescher Suchanfragen durch den Patentsucher unterstützen. Diese Arbeit untersucht Merkmale von mehr als 15 Millionen Boolescher Suchanfragen, die im Laufe der Patentsuche generiert und an das Examiner Assisted Search Tool (EAST) übermittelt wurden. Transkriptionen der Anfragen stehen in SRNT Dokumenten zum Download zur Verfügung. Der Sucherfolg spiegelt sich in der Verfügbarkeit eines 892 Dokumentes wieder. Ist für ein SRNT Dokument ein adäquates 892 Dokument vorhanden, bedeutet dies, dass im Rahmen der Suche relevante Patentliteratur entdeckt wurde. Darauf basierend ließ sich das Datenmaterial hinsichtlich ihres Sucherfolges in zwei Erfolgsgruppen (SRN T 892 , SRN T no892 ) teilen. Query Expansion (QE) ist eine Maßnahme zur Verbesserung des Suchresultates durch das Hinzufügen relevanter Begriffe. Die verschiedenen Strategien werden im Rahmen dieser Arbeit erläutert. In der Patentsuche wird QE manuell und auf zwei Arten angewandt. Einerseits durch das Einfügen alternative Suchbegriffe in eine Suchanfrage; andererseits durch die Verwendung des Truncation Operators, der Rücksichtnahme auf Wortvariationen (z.B. Endungen) erlaubt. QE wird in Suchen beider Erfolgsgruppen häufig angewandt. Die Erwartung, sie sei verstärkt in der Gruppe erfolgreicher Suchen vorzufinden, wurde indes nur zum Teil erfüllt. Listen alternativer Suchbegriffe treten in beiden Gruppen mit ähnlicher Häufigkeit, der Truncation Operator vermehrt in der Gruppe erfolgreicher Suchen auf. Weitere Untersuchungen - etwa über die Verwendung Boolescher Operatoren, der durchschnittlichen Querylänge, der Verschachtelungstiefe Boolescher Anfragen - zeigten ähnliche Resultate für beide Erfolgsgruppen. Ausgeprägtere Unterschiede ließen sich in der durchschnittlichen Dokumentlänge (= Anzahl Suchanfragen pro Suche), in der Verwendung der Suchfelder (die eine Suche z.B. nach Autorennamen ermöglicht) sowie der Verwendung von Referenzierung (= die Adressierung vorangegangener Suchanfragen) feststellen

Abstract (English)

As of early 2016, 550,000 patent applications submitted to the USPTO are unexamined. The considerable number of unexamined applications is likely to reduce the amount of time that patent examiners can spend on the examination of an application. Fast-paced technological progress, on the other hand, implies that patent examiners need to invest more time in patent examination. In light of these facts and with sometimes millions at stake the importance of conducting patent searches efficiently is obvious. This thesis analyzes various characteristics of more than 15,000,000 Boolean search queries submitted by professional patent examiners to the EAST patent search engine at the USPTO. Search queries generated during the examination of a patent application are available from the USPTO as SRNT ("search related notes") documents. In order to assemble a rather large dataset of search query logs, more than one million patent applications had to be retrieved and processed. The set of obtained SRNT documents was split into two groups. For one group (SRN T 892 ) relevant patents had been cited by the patent examiner. For the other group (SRN T no892) ), no relevant patent documents had been found during the search. Query Expansion (QE) is a popular and well-studied technique for improving search results by adding relevant terms to an user query. Professional patent searchers apply QE manually. Either by providing lists of related terms within a Boolean query, or by using the truncation operator as instruction for the patent search engine to consider variations of a word. Contrary to my expectation it is shown that there is no difference between "successful" and "unsuccessful" searches in terms of quantity by which lists of alternate terms are provided. However, it is also shown that the use of the truncation operator is more popular in "successful" searches. Most of the examined search features, such as the average query length, the use of parentheses, the use of Boolean operators, yield relatively similar results for both document sets. Noteworthy differences have been found in the average document length (= number of queries per search), in the use of patent database specific search fields (e.g. to search in the "claims" section of a patent) and in the use of references (to address former queries).

Stats
The PDF-Document has been downloaded 3 times.