PD Dr. Arnold Hinz Sind Lehr- und Unterrichtsevaluationen mittels Ratingskalen valide und effektiv?

PD Dr. Arnold Hinz

Sind Lehr- und Unterrichtsevaluationen mittels Ratingskalen valide und effektiv?

1. Validität und SET (student evaluation of teaching quality/effectiveness)

2. Mögliche Biasfaktoren: a) Strenge der Benotung b) Expressivität des Dozenten c) physische Attraktivität des Dozenten

3. Effekte der SET

Herbert W. Marsh, University of Oxford

He has been recognized as the most productive educational psychologist in the world, as one of the top 10 international researchers in Higher Education and in Social Psychology, and the 11th most productive researcher in the world across all disciplines of psychology.

„unsubstantiated“ „dubious“ „for each large, representative, well-designed study, there is another study, comment, or electronic bulletin-board message that relies on an atypical anecdote or an appeal to popular myth for its impact“ (Marsh & Roche, 2000, p. 202)

Validität

Validität Konstruktvalidität

Übereinstimmungsvalidität:

Selbstbeurteilung – SET r = .29;

Experten – SET: mäßige bis mittelhohe Korrelation (Cashin, 1995, Feldman, 1989)

Forschungsproduktivität – SET: schwache Korrelation

RateMyProfessors.com – SET: r = .68 (Coladarci & Kornfield, 2007)

Übereinstimmungsvalidität:

SET - Lernerfolg sehr skeptisch: Clayson, 2009

Stark-Wroblewski et al., 2007: r = .15, p = .06

Arthur et al., 2003 (N = 652):

➱ Das Mögen einer Lehrveranstaltung ist größtenteils etwas anderes als das Lernen durch eine Lehrveranstaltung

Biasvariablen 1. Teilnehmerzahl

2. Vorinteresse (Pflicht-/Wahlveranstaltung)

3. Niveau des Kurses und der Teilnehmer

4. Fach

5. Veranstaltungszeit

6. Rezenzeffekt

7. Umfang der Hausaufgaben

8. Rassische Herkunft des Dozenten

9. Geschlecht des Dozenten

10. Alter des Dozenten

11. Reputation des Dozenten

Biasvariablen

12. Persönlichkeit des Dozenten (Extraversion; Warmherzigkeit)

13. Stimme des Dozenten

14. Politische Meinung des Dozenten

15. Ähnlichkeit zwischen Dozenten und Studierenden

16. Erwartete Benotung

17. Expressivität des Dozenten

18. Physische Attraktivität des Dozenten

Biasvariable: Erwartete Benotung

Mason, Edwards & Roach (2002) N = 797, Arkansas Tech University

Hypothesen zur Beziehung zwischen erwarteter Benotung und SET

1. Validitätshypothese: SET Hohe Lehrqualität → leichtes Lernen → gute Studierendennoten (Centra, 2003; Marsh, 1987; Marsh & Roche, 2000)

2. Grading Leniency Hypothese/Reziprozitätshypothese („Wie du mir, so ich dir“-Hypothese/Prinzip der Gegenseitigkeit) erwartete milde Benotung ↔ milde SET-Bewertung, erwartete strenge Benotung ↔ strenge SET-Bewertung (Greenwald & Gilmore, 1997; Isley & Singh, 2005)

3. Attributionshypothese: gute Benotung wird mit eigener Intelligenz und Anstrengung attribuiert, schlechte Benotung mit einem schlechten Unterricht oder Dozenten (self-serving bias)

4. Prior Characteristics Hypothese: Studierendennoten und SET sind abhängig vom Vorinteresse, der Motivation, von Seminarbedingungen etc.

Biasvariable: Erwartete Benotung

r = .62, p < .001 (Felton et al., 2006)

Naftulin, Ware & Donnelly (1973)

Biasvariable: Expressivität

Dr. Myron Fox: Die mathematische Spieltheorie in der Ausbildung von Ärzten

Ware & Williams (1975)

Anderes Experiment: Williams & Ceci (1997)

Ambady & Rosenthal, (1993)

Problem: geringe Stichprobengröße (2 x 13 Lehrer) und α-Fehler-Kumulierung (162 Korrelationsberechnungen mit SET)

Biasvariable: Physische Attraktivität- erfahren mehr Aufmerksamkeit- erhalten eher Hilfe- größere Freundschaftsnetzwerke- mehr Verabred./sex. Erfahrungen- seltener verurteilt/geringere Strafe- höheres Gehalt/seltener entlassen- mehr Wählerstimmen- besser überzeugen- als intelligenter angesehen- als sozial kompetenter angesehen- gelten als motivierter

Methodische Voraussetzung für Studien:

Einschätzung der Attraktivität und der Lehrqualität durch verschiedene Personen, da sonst Kausalrichtung unklar → Ausschluss der Studien von Bonds-Raacke & Raacke (2007), Felton et al. (2004, 2008), Feeley (2002), Gurung & Vespia (2007), Hultman & Oghazi (2008), Kindred et al. (2005), Riniolo et al. (2006)

Studien mit unterschiedlichen Ratern für Attraktivität und SET:

Sample,

Ort

Dozenten

(♂,♀)

Rater

(♂,♀)

Beurteiler-

überein-

stimmungα

Korrelation

SET– Attr.

Männl. Doz

(weibl.

Doz.).

Max.

Effekt auf

SET-Note

Hamermesh & Parker, 2003

Austin, Texas

94 (54, 40)

6 (3, 3)

.91 R2 =.36(R2 = .16)

1.0

Süssmuth, 2006 LMU 50 48 (33, 15)

0.5

Bokek-Cohen & Davidowitz, 2008

Ariel, West-bank

49(31, 18)

Eine Kohorte Studier-

ender

r = .77(r = .37)

Klein & Rosar, 2006

Uni Köln 206 (174, 32)

25-36 .95 0.6

Rosar & Klein, 2009

Deutsch-land

MeinProf.de

2745 (2466, 279)

24 (12, 12)

.95 r = .14 0.6

Wolbring, 2010 LMU 110 (69, 41)

20 (11, 9)

.95 r = -.20 (r = .03)

0.8

Hamermesh & Parker, 2003

5 =excellent

4 = very good

3 = satisfactory

2 = unsatisfactory

1 = very unsatisfactory

Bokek-Cohen & Davidowitz, 2008

Klein & Rosar, 2006

Ist physische Attraktivität ein Bias-Faktor?1. Diskriminierungseffekte:

Haloeffekt Attractiveness Glamour Effekt „Beauty-is-Beastly-Effekt“

2. Phys. Attrakt. → bessere Behandlung → höheres Selbstwertgefühl → bessere Forschung/Lehre → SET (lebensgeschichtlicher Produktivitätseffekt)

3. Phys. Attrakt. → mehr Aufmerksamkeit/Mitarbeit/ Teilnahme (Attractiveness Attention Boost)→ mehr Zufriedenheit/Sicherheit des Lehrenden → bessere Lehre → größerer Lernerfolg → SET (interaktionistischer Produktivitätseffekt)

Wolbring & Hellmann (im Druck)

Experiment: Vorlage der Fotographie eines (un)attraktiven Dozenten(in) + 11min. Audiovortrag

Korrelation Attraktivität – Lernerfolg: r = .178 (p = .03)

Effekte der SET

- Sensibilisierungshypothese- Feedbackhypothese- hochschuldidaktisches Diskursmodell

Durchschnittliche Effektstärke bei allen drei Modellen: d = 0

(Rindermann, 2001; Marsh & Hocevar, 1991)

Beratungs- und Trainingsansatz

- ausführliche, längere, wiederholte Beratungen- neben SET-Messung auch Videofeedback- Vergleich von Selbst- und Fremdwahrnehmung- Veränderung ungünstiger Attributionsstile- Training (z.B. Sprechtraining, Rollenspieltraining)(Aleamoni, 1999; Dresel, Rindermann & Tinsner, 2007; Penny & Coe, 2004)

Nebenwirkungen der SET bei Studierenden

- Enttäuschung darüber, dass sich nichts ändert- Verstärkung der Anspruchs- und Konsumhaltung

Nebenwirkungen der SET bei Dozenten

- Reduktion der intrinsischen Lehrmotivation- Einschränkung des Bedürfnisses nach Autonomie und Selbstbestimmung- Benachteiligungsgefühle und Gefühle der Demütigung bei vermuteten Biaseinflüssen oder Gesundheitsbelastungen- Frustration und Entmutigung- Verstärkung von Angst, Ärger, Spannung, Selbstzweifel, Scham und Depression

Nichols & Berliner (2007).

Wallach (2009): Qualitätssicherung wird zur neuen Religion und zum Götzen,

dem Menschen geopfert werden

How to Improve Your Teaching Evaluation Scores Without Improving Your Teaching! (Trout, 1997)

- „try to look neat, and wear nice clothes“ (Hultman & Oghazi, 2008, p. 2592)

- Studierende niemals konfrontieren: sei warmherzig und liebenswürdig/„teaching teddy bear“ - enthusiastisch sprechen- Senkung der Ansprüche- sehr schlechten Studierenden sehr gute Noten geben- keine kontroversen Positionen vortragen- teach good news- Studierende großzügig loben- Plätzchen/Kuchen mitbringen/Feier organisieren

Fazit

SETs sind weder valide noch nützlich, sondern verzerrt, schädlich und moralisch bedenklich.Einsatz von Beratungs- und Trainingsprogrammen ist erfolgversprechend.Angesichts fehlender positiver Effekte und der erheblichen Nebenwirkungen sollte der flächendeckende Einsatz der SET unterbleiben und gestoppt werden.

Documents

PD Dr. Arnold Hinz Sind Lehr- und Unterrichtsevaluationen mittels Ratingskalen valide und effektiv?