Begrenzungen / Voraussetzungen (quasi-)experimentalgesteuerter Evaluationen
21. Jahrestagung der DeGEval in Dresden
Jutta Wolff, 14. September 2018
DAS EVALUIEREN WIR MAL EBEN
Bild: Jutta Wolff
ÜBERBLICK
01
02
03
04
Auslöser: Evaluation Fortbildungsprogramm
(Quasi)-Experiment und zentrale Schwierigkeiten
Checkliste… ein erster Versuch
Diskussion
1 AUSLÖSER: EVALUATION FORTBILDUNGSPROGRAMM
FORTBILDUNGSPROGAMM SCHULE / LEHRKRÄFTE • großes Programm („Individualisierter Unterricht“), teuer, hohe Reichweite • langfristig angelegt; standardisierte Durchführung der Werkstätten
5
FORTBILDUNGSPROGAMM SCHULE / LEHRKRÄFTE Wirken die Didaktischen Werkstätten? Lassen sich Zuwächse der Kenntnisse und der unterrichtlichen Umsetzung feststellen – und kausal auf die Intervention zurückführen?
6
Vergleichsgruppe
2 (QUASI-)EXPERIMENT: ZENTRALE SCHWIERIGKEITEN
WIRKSAMKEITSNACHWEIS PER EXPERIMENT Zur Erinnerung: Grundprinzip Vergleich; verschiedenste Designvarianten
8
Zuordnung zu Gruppen per Zufall
Vortest
Programm Nachtest
Versuchsgruppe
Vergleichsgruppe
RANDOMISIERUNG …oftmals nicht möglich: Intervention „vorenthalten“ vs. „zwangsbeglücken“???
Suche nach möglichst äquivalenter Vergleichsgruppe • Wartegruppe • Matching
ABER: • Welche Merkmale beeinflussen die abhängige Variable? Welche sollen bei
Gruppenvergleich kontrolliert, bei Matching berücksichtigt werden? THEORIE FEHLT i.d.R.
9
• Voraussetzung experimentelles Design: Programmstabilität • Programmstabilität ist im pädagogischen Kontext fast unmöglich
( „hard-to-do-science“ (Berliner 2002) • lokaler Kontext bestimmt Ausführung (power of context)
• Vielzahl von Interaktionen führen zu verschiedenen Verläufen (ubiquity of interactions)
unvermeidbar Voraussetzung für Wirkung
Störfaktor für Wirksamkeitsnachweise
Externe Validität Generalisierbarkeit
Interne Validität Nachweis Kausalität
PROGRAMM: Was wirkt?
10
Berliner, D. C. (2002). Educational Research: The Hardest science of All. Educational Researcher, 31 (8), S. 18–20. Kelle, U. (2006). Qualitative Evaluationsforschung und das Kausalitätsparadigma. In U. Flick (Hrsg.), Qualitative Evaluationsforschung. Konzepte Methoden Umsetzungen (Rowohlts Enzyklopädie, Orig.-Ausg, S. 117–134). Reinbek bei Hamburg: Rowohlt-Taschenbuch-Verlag.
Programmvariabilität
MESSUNG Generell: Wie lassen sich Wirkungen messen? • Empirische Erfassung der zu messende Variable möglich? Theorie notwendig… • Welches Messinstrument?
Vorhandenes Instrument: ressourcenschonend; bildet AV evtl. nicht ab Neukonstruktion: Abbildung der AV; aufwendig; Vorkenntnisse
• Ist das theoretisch gewünschte Messinstrument praktikabel (z.B. Akzeptanz…)?
Experimentelles Design: • Mehrere Messzeitpunkte (z.B. sechs bei Prä-Post-Follow-up mit
Vergleichsgruppen hoher Aufwand, falls Daten nicht ohnehin anfallen
11
Frey, S. & Frenz, H.-G. (1982). Experiment und Quasi-Experiment im Feld. In J.-L. Patry (Hrsg.), Feldforschung. Methoden und Probleme sozialwissenschaftlicher Forschung unter natürlichen Bedingungen (S. 229–258). Bern: H. Huber.
3 CHECKLISTE… EIN ERSTER VERSUCH
IDEE: CHECKLISTE … … im Dienste der Qualitätsentwicklung von Evaluationen „Wenn Checklisten sorgfältig entwickelt und auf Gültigkeit geprüft sowie tatsächlich angewendet werden, sind sie wertvolle Evaluationswerkzeuge“. (D. Stufflebeam)
Evaluations-Checklisten … • helfen, alle wichtigen Kriterien zu bedenken • sind nützlich bei der Planung, Überwachung und Umsetzung einer Evaluation • bestehen aus Checkpunkt, Definition und Begründung • werden von Experten erstellt und evaluiert (Rückmeldungen) sowie überarbeitet
13
Stufflebeam, D. L. (2000): Richtlinien zur Entwicklung von Evaluations-Checklisten: Die CHECKLISTE ZUR ENTWICKLUNG VON CHECK-LISTEN (CEC). Verfügbar unter: http://www.univation.org/download/01checkliste_entwicklungcl.pdf [Zugriff 30.08.2018]
CHECKLISTE zur Entscheidungsfindung bei quasi-experimentellem Design
Das Programm…
beinhaltet beschriebene Kernelemente, deren Wirkungsweise expliziert ist (Wirkmodell).
ist schriftlich fixiert und „ausgereift“ so dass es von verschiedenen Personen ähnlich durchgeführt wird (Programmstabilität).
ist möglichst „immun“ gegen (wechselnde) äußere Rahmenbedingungen.
ist so umfangreich, dass nennenswerte Wirkungen erwartbar sind (Umfang).
ist so teuer, dass eine Wirkungsanalyse bedeutsam ist (Ressourcen).
betrifft viele Menschen und ist langfristig vorgesehen (Reichweite).
…
14
CHECKLISTE zur Entscheidungsfindung bei (quasi)-experimentellem Design
Die Evaluation…
kann rechtzeitig beginnen (Erhebung Ausgangslage).
ist so langfristig angelegt, dass Wirkungen in dem Zeitraum eingetreten sein können.
verfügt über ausreichende Ressourcen (Zeit, Geld; TEUER!).
kann auf ein zuverlässiges Messinstrument zur Wirkungsmessung zugreifen (oder Ressourcen zur Eigenentwicklung).
wird durch datenschutzrechtliche Bestimmungen hinsichtlich des zu erwartenden Erkenntnisgewinns nicht übermäßig eingeschränkt.
…
15
4 DISKUSSION
DISKUSSION
• Erscheint eine solche Checkliste grundsätzlich sinnvoll?
• Wenn ja: Wie könnte es weiter gehen? Gemeinsam statt allein…
17
Wolff, J. (2016). Das evaluieren wir (mal eben). Was Auftraggebende über Wirksamkeitsnachweise wissen sollten. Die Deutsche Schule, 108 (2), 136-148.
E-Mail: [email protected]
VIELEN DANK!