Titelaufnahme

Titel
Feature selection for patent classification based on entropy / von Thomes Kern
VerfasserKern, Thomas
Begutachter / BegutachterinHanbury, Allan
Erschienen2011
Umfangxix, 195 S. : zahlr. graph. Darst.
HochschulschriftWien, Techn. Univ., Dipl.-Arb., 2011
Anmerkung
Zsfassung in dt. Sprache
SpracheEnglisch
DokumenttypDiplomarbeit
Schlagwörter (DE)Feature Selection / Patente / Klassifizierung / Künstliche Intelligenz / Support Vector Maschinen / Entropie
URNurn:nbn:at:at-ubtuw:1-43710 Persistent Identifier (URN)
Zugriffsbeschränkung
 Das Werk ist frei verfügbar
Dateien
Feature selection for patent classification based on entropy [7.97 mb]
Links
Nachweis
Klassifikation
Zusammenfassung (Deutsch)

In dieser Studie wird ein Framework für die Auto-Klassifizierung von Patenten entwickelt. Besonderes Augenmerk wird auf einen Vergleich von einigen linearen Klassifizierungsalgorithmen wie etwa SVM und einem L2-regulierten linearen Klassifizierungsalgorithmus gelegt. Weiters wird eine Feature-Selektion vorgenommen um die benötigten Resourcen während des Trainings zu minimieren, ohne dabei die Precision bzw. den Recall zu verschlechtern.

Im Jahr 2010 hat Montemurro und Zanette eine Methode vorgestellt, mit der man wichtige Wörter in einem Text erkennen kann. Auf dieser Methode aufbauend wurde eine Metrik und ein Algorithmus zur Feature-Selektion erstellt. Dieser Algorithmus kann die Anzahl der Features auf 4% reduzieren, ohne dabei die Klassifikationsperformance zu verringern.

Zusammenfassung (Englisch)

In this thesis I develop three feature selection algorithms for automatic classification of patents based on the International Patent Classification (IPC) categories. All three of them help reduce the number of features, the length of the training and the resources needed for the training, while improving the classification performance. The number of features is reduced to 4%. Furthermore I deliver a comparison between several linear classifiers including a Support Vector Machine (SVM) and an L2-regularized linear classifier.

In 2010 Montemurro and Zanette proposed a method to identify important words in a text. On this method a feature selection metric was built to distinguish between valuable and negative features. Furthermore three new filter selection algorithms based on the new metric are proposed.