Auswirkungen fehlender Daten in der multiplen Regression : eine Simulationsstudie

Ströhl, Florian; Rockel, Tobias

Fehlende Werte stellen in zahlreichen praktischen Anwendungen vie-mehr den Regelfall als eine Ausnahme dar, erweisen sich aber bei vielen statistischen Verfahren als störend. Die vorliegende Studie untersucht die Auswirkungen von fehlenden Werten auf die Ergebnisse der multiplen linearen Regression. Dazu werden zunächst spezielle Formen von fehlenden Daten und ausgewählte Verfahren zum Umgang mit diesen vorgestellt. Im Rahmen einer Simulationsstudie werden anschließend die Auswirkungen von verschiedenen Ausfallquoten und -mechanismen anhand von sechs empirischen Datensätzen untersucht. Neben einer Analyse verschiedener Einflussgrößen erfolgt ein Vergleich der vorgestellten Verfahren zur Behandlung der fehlenden Werte. Es zeigt sich, dass keines der untersuchten Verfahren allen anderen Verfahren in jeder Hinsicht überlegen ist und die Wahl des „besten“ Verfahrens von der Struktur des Datensatzes und der späteren Verwendung der Regressionsfunktion abhängt. Darüber hinaus konnte festgestellt werden, dass eine Erhöhung der Ausfallquote im Allgemeinen zu einer Verschlechterung der Ergebnisse führt. Die Einflüsse der Objekt- und Merkmalsanzahl hängen von dem jeweiligen Verfahren und den weiteren Eigenschaften des Datensatzes ab und sollten stets zusammen betrachtet werden.

Cite

Citation style:
Could not load citation form.

Rights

Use and reproduction:
All rights reserved

Export