Ein Beitrag zur Anwendung von Support-Vektor-Maschinen zur robusten nichtlinearen Klassifikation komplexer biologischer Daten

Die vorliegende Arbeit untersucht die Eigenschaften der Support-Vektor-Maschine (SVM) für die Anwendung der Klassifikation komplexer Biosignale. Dabei wird eine Methode zur Erzeugung robuster Klassifikatoren für diese Art von Daten mit Hilfe der SVM vorgestellt. Biologische Daten weisen mehrere Faktoren auf, die eine automatische Klassifikation erschweren. Sie sind von Natur aus stark ungleich verteilt und zeigen starke inter- und intraindividuelle Ausprägungen. Weiterhin weichen die als Belehrungsgrundlage verwendeten Expertenbewertungen bedingt durch die Komplexität der Probleme zu einem bestimmten Grad voneinander ab. Als Basis für die Entwicklung und Erprobung der Methoden werden Schlaf-EEG-Daten verwendet. Die SVM ist eine anerkannte und oft empfohlene Klassifikationsmethode für verschiedene Aufgabenstellungen. So werden im Laufe der Untersuchungen die Vor- und Nachteile dieser Methode beleuchtet. Es finden an allen Schritten der Modellbildung Untersuchungen zu möglichen Optimierungen statt. So kann diese Arbeit zeigen, dass der SVM-Klassifikator stark von den Eigenschaften der ausgewählten Belehrungsdaten abhängig ist. Sowohl die Komplexität als auch die resultierende Klassifikationsgüte werden hierdurch stark beeinflusst. Es wird anhand künstlicher Probleme anschaulich gezeigt, wie die SVM parameterabhängig auf ungleichverteilte und untypische Daten reagiert. Als Konsequenz dessen wird eine zusätzliche Bearbeitung der Belehrungsdaten zur Modelloptimierung eingeführt. Durch den hierbei entwickelten Algorithmus, dem DiLa-Filter, stellt diese Arbeit eine neuartige und universelle Methode zur Datenfilterung vor und belegt dessen Funktion an realen Daten. Weiterhin wird ein neuer multikriterieller genetischer Algorithmus zur Parameteroptimierung, der SIGA, beschrieben. Dieser kann durch den Einsatz einer neuen genetischen Operation, der Immigration, zur verbesserten Konvergenz der genetischen Algorithmen beitragen. Liegen statistische Abhängigkeiten zwischen zeitlich aufeinanderfolgenden Klassifikationen vor, so können diese zum einen in einer kontextbasierten Vorhersage angewendet und zum anderen für die Kombination mehrerer SVM-Modelle (Bagging) genutzt werden. Somit wird eine Methode zur Erzeugung robuster Klassifikatoren mit Hilfe der SVM vorgestellt. Die Einbindung der SVM auf eine ressourcenarme Plattform zeigt die Restriktionen für den Einsatz der SVM für mobile Anwendungen. Die erzielten Resultate werden direkt mit Ergebnissen der Klassifikation durch neuronale Netze verglichen. Dabei schneiden die Netze in fast allen Gütekriterien besser ab. Die These, die SVM sei ein Ersatz für die neuronalen Netze, kann widerlegt werden. Aus den in dieser Arbeit erlangten Erkenntnissen werden weitere Forschungsfragen für zukünftige Arbeiten formuliert.

This thesis analyzes the characteristics of the Support Vector Machine (SVM) for the classification of complex biosignals. An approach for the generation of robust classifiers for such kind of data using the SVM is presented. Biological data exhibit several factors that complicate automatic classification processes. They are distributed in a highly imbalanced way and show many inter- and intra-individual variations. Furthermore, the expert scorings as base of supervised learning can differ to a certain extent, caused by the complexity of the problems. In the validation step we focus on sleep EEG data to verify the developed method. The SVM is a recognized and recommended method for a variety of application tasks. In analyzing the SVM, the advantages and disadvantages of this method are highlighted. Moreover, this work will address optimizations in all stages of the modeling. This thesis demonstrates, that the SVM classifier strongly depends on the characteristics of chosen training data, influencing both, the complexity and the resulting classification quality. Based on artificial problems it illustrates, how the SVM deals with imbalanced and untypical data depending on the SVM-parameter. As a consequence, training data are modified to optimize the model. With the developed algorithm, the DiLa filter, this thesis presents a novel and universal method for data filtering and proves its performance, using real data. Furthermore a new multi-criteria genetic algorithm for parameter optimization, the SIGA, is integrated. Introducing a new genetic operation, the immigration, this algorithm improves the convergence of genetic algorithms. When statistical dependencies between consecutive classifications are available, these in turn can be applied for context-based prediction on the one hand and can be used for the combination of several SVM-classifiers (Bagging) on the other hand. As a result, an approach for the generation of robust classifiers using the SVM is presented. The implementation of SVM software in an embedded resource-limited platform shows the restrictions for the use of SVM for mobile applications. The achieved results are directly com-pared with the results of the neural networks. Thereby the neural networks obtain better results in almost any quality criteria. The hypothesis that the SVM replaces neural networks can thus be disproven. From the findings of this thesis future research questions are identified.

Zitieren

Zitierform:
Zitierform konnte nicht geladen werden.

Rechte

Nutzung und Vervielfältigung:
Alle Rechte vorbehalten