Comparative study of clustering algorithms on textual databases

Spiegler, Sebastian Reiner

Zielstellung: Die Diplomarbeit zeigt, dass eine Menge von Lebensläufen in eine numerische Repräsentation umgewandelt werden kann, um ihre Besitzer in a priori unbekannte Gruppen zu unterteilen. Mitglieder einer Gruppe sollen ähnliche Fähigkeiten besitzen und sich von Fähigkeiten anderer Gruppen unterscheiden. Mit der Unterteilung sollen Anwendungen aus dem Bereich des Wissensmanagements unterstützt werden. Hintergrund: Die große Sammlung von Lebensläufen brasilianischer Wissenschaftler, die auf der Lattes Platform3 hinterlegt ist, bietet einen hervorragenden Ausgangspunkt für das Auffinden von Informationen über Qualifikationen, Fähigkeiten und Wissen von Personen, welche im Folgenden als Kompetenzen bezeichnet werden. Ergebnisse dieser Kompetenzanalyse können ihre Anwendung im Personalwesen, Projektmanagement und bei der Planung von betrieblichen Weiterbildungen finden. Abgrenzung: Die Arbeit baute auf dem Knowledge Discovery in Textual Database (KDT) [22] Prozess auf, um jeden einzelnen Schritt von der Datenselektion, der Extraktion und Gewichtung von Indextermen bis hin zum Clustering und der Interpretation hinsichtlich Wissensmanagement zu untersuchen. Für die Unterteilung der Eingangsdaten in kompetenzbasierte Gruppen wurden zwei Clustering-Algorithmen implementiert, der k- means Algorithmus sowie Kohonen Self-Organizing Maps (Kohonen-SOM). Methoden: Während einer quantitativen Evaluierung erfolgte die Untersuchung beider Algorithmen mittels des Reuters-21578 Datensatzes, Distribution 1.0 4 auf ihre jeweils beste Konfiguration, welche daraufhin während der praktischen Evaluierung auf einem Datensatz, bestehend aus 46 Lebensläufen von Angestellten des Stela Instituts, angewandt wurde. Ergebnisse: Zur Veranschaulichung der von k-means errechneten kompetenzbasierten Gruppen diente eine graphenähnliche Darstellung. Ergebnisse von Kohonen-SOM wurden hingegen durch eine Topologie für die Besitzer der Lebensläufe und durch eine Topologie der wichtigsten Kompetenzen dargestellt. Schlussfolgerung: Beide Clustering Algorithmen zeigten gegensätzliche Stärken. Aus diesem Grund fiel es schwer, eine allgemeingültige Entscheidung für die Anwendung eines Algorithmus zu treffen. Es wurde eine Entscheidungsregel vorgestellt. Stichworte: Clustering Algorithmen, kompetenzbasierte Gruppen, Wissensmanagement 3http://lattes.cnpq.br 4abrufbar unter http://www.daviddlewis.com/resources/testcollections/reuters21578

Purpose: The diploma thesis shows that a set of curricula vitae transformed into a numerical representation can be used to discriminate their owners into a priori unknown groups based on their competencies in order to support knowledge management.
Background: The large collection of Brazilian researchers' curricula vitae held on the Lattes Platform provides a formidable base for the discovery of information about people's skills, abilities and knowledge which is referred to as competencies. Results from the analysis of competencies can be applied in human resources, project management and the planning of on-the-job training in terms of how to enforce collaboration, how to build or modify teams and how to direct resources.
Scope: The study built on Knowledge Discovery in Textual Database (KDT) [22] in order to analyze each step from data selection, term extraction and weighting to clustering and the interpretation toward knowledge management. For the division of an input dataset into a priori unknown competency-based groups two clustering algorithms were implemented, namely the k-means algorithm and Kohonen Self-Organizing Maps (Kohonen-SOM).
Methods: During a quantitative evaluation, both algorithms were examined on the Reuters-21578 dataset, Distribution 1.0 for their best configuration which was then applied to a set of curricula from 46 employees at the Stela Institute during the practical evaluation. Results: Competency-based groups generated by the k-means algorithm have been illustrated by a graph-like representation which is referred to as competency graph whereas results from Kohonen-SOM have been presented as a topology of curricula owners and a topology of the most important competencies.
Conclusions: Both clustering algorithms showed opposed strengths. Therefore a universally valid decision which algorithm outplays the other one remained difficult. A decision rule for certain situations was presented.
Keywords: Clustering algorithms, competency-based groups, knowledge management

Ilmenau, Techn. Univ., Diplomarbeit, 2007

Zitieren

Zitierform:

Spiegler, Sebastian Reiner: Comparative study of clustering algorithms on textual databases. 2007.

Zugriffsstatistik

Gesamt:
Volltextzugriffe:
Metadatenansicht:
12 Monate:
Volltextzugriffe:
Metadatenansicht:

Grafik öffnen

Export