Auswirkungen fehlender Daten in der multiplen Regression : eine Simulationsstudie

Fehlende Werte stellen in zahlreichen praktischen Anwendungen vie-mehr den Regelfall als eine Ausnahme dar, erweisen sich aber bei vielen statistischen Verfahren als störend. Die vorliegende Studie untersucht die Auswirkungen von fehlenden Werten auf die Ergebnisse der multiplen linearen Regression. Dazu werden zunächst spezielle Formen von fehlenden Daten und ausgewählte Verfahren zum Umgang mit diesen vorgestellt. Im Rahmen einer Simulationsstudie werden anschließend die Auswirkungen von verschiedenen Ausfallquoten und -mechanismen anhand von sechs empirischen Datensätzen untersucht. Neben einer Analyse verschiedener Einflussgrößen erfolgt ein Vergleich der vorgestellten Verfahren zur Behandlung der fehlenden Werte. Es zeigt sich, dass keines der untersuchten Verfahren allen anderen Verfahren in jeder Hinsicht überlegen ist und die Wahl des „besten“ Verfahrens von der Struktur des Datensatzes und der späteren Verwendung der Regressionsfunktion abhängt. Darüber hinaus konnte festgestellt werden, dass eine Erhöhung der Ausfallquote im Allgemeinen zu einer Verschlechterung der Ergebnisse führt. Die Einflüsse der Objekt- und Merkmalsanzahl hängen von dem jeweiligen Verfahren und den weiteren Eigenschaften des Datensatzes ab und sollten stets zusammen betrachtet werden.

Zitieren

Zitierform:
Zitierform konnte nicht geladen werden.

Rechte

Nutzung und Vervielfältigung:
Alle Rechte vorbehalten