Hot-Deck-Verfahren zur Imputation fehlender Daten : Auswirkungen des Donor-Limits

Joenssen, Dieter William Hermann GND

Imputation is a method for compensating missing data. Contrary to elimination procedures, which systematically remove data prior to further analysis, and parameter estimation procedures, which directly estimate statistics of interest from the incomplete data matrix, imputation methods replace missing values with estimates. This results in a completed data set, upon which normal statistical procedures may again be used. Hot deck methods are special imputation procedures, which rely on duplicating existing values. In this form of imputation, objects with available data (donors) are matched to those objects missing data (recipients). After matching, values existent in the selected donor are copied to the recipient. While the basic hot deck algorithm allows one donor to be matched to multiple recipients, different variants limit the number of times any one donor may be chosen for duplication. This is called a donor limit, and results in a number of desirable properties. Amongst others, a donor limit reduces the risk that any one donor is used too often or even exclusively for all recipients. This dissertation investigates if the theoretical advantages that a donor limit promises hold empirically, and if these advantages outweigh possible disadvantages. To this end, fundamentals in missing data theory discussed and developed. Following this, the history of the hot deck methodology is portrayed, and a general definition of hot deck imputation is derived from literature. Subsequently, existing hot deck variants are systemized and described using the four basic characteristics that they all share. Finally, the dissertation closes with empirical studies in the advantages of the donor limit. Results from these comprehensive simulation studies suggest that the donor limit is essential in improving imputation quality in many situations. In addition to this, borderline cases and tendencies, under which a donor limit will result in reductions in imputation quality, could be identified.

Imputationsverfahren stellen eine von mehreren Möglichkeiten dar, dem Problem fehlender Daten bei empirischen Untersuchungen zu begegnen. Im Gegensatz zu den Eliminierungsverfahren, die Objekte und/oder Merkmale mit fehlenden Werten aus der weiteren Analyse ausschließen, und den Parameterschätzverfahren, die auf der Basis von Verteilungsannahmen die gewünschten Parameter aus einer unvollständigen Datenmatrix direkt schätzen, werden bei den Imputationsverfahren die fehlenden durch geeignete Werte ersetzt. Dadurch resultiert letztendlich eine vollständige Datenmatrix, bei der herkömmliche statistische Verfahren zur Datenauswertung herangezogen werden können. Hot-Deck-Verfahren sind spezielle Imputationsverfahren, die auf der Duplizierung vorhandener Werte basieren. Das Objekt, das dabei die vorhandenen Daten zur Imputation liefert, wird als Spender bezeichnet, und das Objekt, bei dem die Werte fehlen, wird als Empfänger bezeichnet. Da beim grundlegenden Algorithmus die Möglichkeit besteht, dass ein Spender mehreren Empfängern zugeordnet wird, beschränken einige Hot-Deck-Varianten, wie häufig ein Spender zur Imputation ausgewählt werden kann. Dieses sogenannte Donor-Limit führt theoretisch zu einer Reihe an wünschenswerten Algorithmuseigenschaften. Unter anderem wird das Risiko, dass ein Spender zu häufig verwendet oder gar allen Empfängern zugeordnet wird, beschränkt. Die vorliegende Dissertation untersucht, ob die theoretischen Vorteile des Donor-Limits empirisch haltbar sind, und im Spannungsfeld mit den möglichen Nachteilen überwiegen. Hierzu werden zunächst Grundlagen der Missing-Data-Theorie dargestellt und erarbeitet. Danach erfolgt eine Darstellung der historischen Entwicklung der Hot-Deck-Verfahren, auf deren Basis eine allgemeingültige Definition aufgestellt wird. Im Anschluss werden existente Hot-Deck-Varianten anhand der vier identifizierten Eigenschaften systematisiert und dargestellt. Abgeschlossen wird die Dissertation mit empirischen Untersuchungen zu der Vorteilhaftigkeit des Donor-Limits. Diese umfassenden Simulationsstudien weisen darauf hin, dass ein Donor-Limit zur Verbesserung der Impuationsqualität in vielen Situationen zwingend erforderlich ist. Ferner können Grenzfälle und Tendenzen identifiziert werden, unter denen ein Donor-Limit zu schlechteren Imputationsergebnissen führt.

Zitieren

Zitierform:

Joenssen, Dieter William Hermann: Hot-Deck-Verfahren zur Imputation fehlender Daten. Auswirkungen des Donor-Limits. 2015.

Zugriffsstatistik

Gesamt:
Volltextzugriffe:
Metadatenansicht:
12 Monate:
Volltextzugriffe:
Metadatenansicht:

Grafik öffnen

Export