Faire Vergleiche in der Schulleistungsforschung : methodologische Grundlagen und Anwendung auf Vergleichsarbeiten

Moderne Educational-Accountability-Systeme zeichnen sich insbesondere durch eine zunehmende Evidenzbasierung aus. Dabei wird häufig die Leistung der Schüler als zentrales Output-Kriterium zur Evaluation der Leistungsfähigkeit eines Bildungssystems genutzt. Dies trifft – wenn auch erst seit jüngerer Zeit – ebenso auf die Bundesrepublik Deutschland zu. Im Jahr 2006 beschloss die Kultusministerkonferenz die sog. Gesamtstrategie zum Bildungsmonitoring. Diese umfasst Maßnahmen zur systematischen und wissenschaftlich fundierten Evaluation von Ergebnissen des Bildungssystems, die auf verschiedenen Ebenen des Bildungssystems ansetzen. Einen wichtigen Bestandteil der Gesamtstrategie bilden die landesweiten Vergleichsarbeiten, die den Leistungsstand von Schülern mittels standardisierter und standardbezogener Tests erheben. Ein gemeinsames Ziel dieser Vergleichsarbeiten ist es, durch den Vergleich der Testleistung verschiedener Klassen Aussagen über Unterrichtseffekte zu ermöglichen. Diese sollen Ansatzpunkt für Unterrichts- und Schulentwicklungsmaßnahmen sein. Um zu fairen Vergleichen zu gelangen, müssen die unterschiedlichen Ausgangsvoraussetzungen der Schüler – wie sozioökonomischer Status oder Muttersprache – berücksichtigt werden. Deshalb werden statistische Adjustierungsverfahren verwendet, die Unterschiede bezüglich dieser außerschulischen Einflussgrößen des Lernens (sog. Kovariaten) zu berücksichtigen suchen. Derzeit gibt es im Rahmen von Vergleichsarbeiten verschiedene Adjustierungs-verfahren, welche sich hinsichtlich der methodischen Vorgehensweise sowie der Art und Anzahl der dabei berücksichtigten Kovariaten unterscheiden. Es finden sich starke regionale und institutionelle Unterschiede hinsichtlich der Methodik, d. h. in der Art und Weise wie Kovariaten berücksichtigt werden. Die Palette reicht von wenig theoretisch fundierten Ad-hoc-Verfahren bis hin zu elaborierten, modellbasierten Adjustierungsverfahren. Die Wahl der Methode hat jedoch Einfluss auf die Ergebnisse, so dass sich insbesondere die Frage stellt: Welche Verfahrensweise ist die richtige? In der vorliegenden Arbeit sollen die derzeit angewendeten Adjustierungsverfahren systematisiert und hinsichtlich verschiedener Kriterien evaluiert werden. Zudem werden diese Verfahren mittels eines Vergleichs mit anderen Educational-Accountability-Systemen in den internationalen Kontext eingeordnet. Zur Beurteilung der Fairness sollen die Adjustierungsverfahren aus kausaltheoretischer betrachtet werden. Die Interpretierbarkeit der Effektschätzungen einzelner Klassen – d. h. der potenziell fairen Vergleiche – als kausale Effekte des Unterrichts wird diskutiert. Anschließend werden die aus der Theorie ableitbaren Implikationen bezüglich der Kovariaten- und der Modellauswahl dargestellt. Als Anwendungsbeispiel werden Schulleistungsdaten aus dem Thüringer Projekt Kompetenztest.de verwendet. Die Sensitivität der klassenspezifischen Effektschätzungen gegenüber der Modellspezifikation und der Auswahl der Kovariaten wird analysiert, wobei insbesondere die Relevanz der Kovariate Vorwissen betrachtet wird. Leider liegen nur selten längsschnittliche Daten für deutsche Vergleichsarbeiten vor. In der Literatur finden sich jedoch zahlreiche Hinweise, dass der Vortest bzw. das Vorwissen eine der wichtigsten Größen ist, die bei fairen Vergleichen zu berücksichtigen ist. Anhand eines Modellvergleichs im Rahmen einer empirischen Reanalyse von Thüringer Kompetenztestdaten wird u. a. aufgezeigt, welchen Einfluss die Hinzunahme des Vorwissens der Schüler als zusätzliche Kovariate auf die Effektschätzungen hat. Ziel ist es, die Bedeutsamkeit des Vortests sowie weiterer Modifikationen des Adjustierungsmodells zu quantifizieren. Die zentralen Befunde dieser Arbeit sind: Faire, kausal interpretierbare Vergleiche sind theoretisch möglich, im Kontext von Schulleistungsuntersuchungen wie den landes-weiten Vergleichsarbeiten jedoch nicht realisierbar. Realistisch sind fairere Vergleiche, die als deskriptive Maße im Kontext von Low-Stakes Assessment Systemen informativen Nutzen haben. Es gibt nicht das richtige Adjustierungsverfahren. Bei der Modellselektion und der Wahl der Kovariaten sind neben der Fairness auch Praktikabilitätsaspekte zu berücksichtigen. Zudem sollten dabei nicht allein die Varianzaufklärung und entsprechende inferenzstatistische Tests, sondern stets auch die Sensitivität bzw. Stabilität der Effektschätzungen auf Ebene einzelner Klassen als Kriterium herangezogen werden. Entscheidend ist die richtige Auswahl der Kovariaten. Wenn möglich, sollte das fachspezifische Vorwissen in die Berechnung fairerer Vergleiche einbezogen werden. Dies unterstreicht die Bedeutung flächendeckender längsschnittlicher Designs für die weitere Praxis fairerer Vergleiche.

Cite

Citation style:
Could not load citation form.