23
Prof. Dr. Günter Daniel Rey Professur Psychologie digitaler Lernmedien Institut für Medienforschung Philosophische Fakultät Einführung in die Statistik Testgütekriterien

Einführung in die Statistik - tu-chemnitz.de Testgütekriterien.pdf · Prof. Dr. Günter Daniel Rey Professur Psychologie digitaler Lernmedien Institut für Medienforschung Philosophische

  • Upload
    vobao

  • View
    219

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Einführung in die Statistik - tu-chemnitz.de Testgütekriterien.pdf · Prof. Dr. Günter Daniel Rey Professur Psychologie digitaler Lernmedien Institut für Medienforschung Philosophische

Prof. Dr. Günter Daniel Rey

Professur Psychologie digitaler LernmedienInstitut für Medienforschung Philosophische Fakultät

Einführung in die Statistik

Testgütekriterien

Page 2: Einführung in die Statistik - tu-chemnitz.de Testgütekriterien.pdf · Prof. Dr. Günter Daniel Rey Professur Psychologie digitaler Lernmedien Institut für Medienforschung Philosophische

211. TestgütekriterienProf. Dr. Günter Daniel Rey

• Einleitung• Objektivität• Reliabilität• Validität• Nebengütekriterien

Überblick

Page 3: Einführung in die Statistik - tu-chemnitz.de Testgütekriterien.pdf · Prof. Dr. Günter Daniel Rey Professur Psychologie digitaler Lernmedien Institut für Medienforschung Philosophische

311. TestgütekriterienProf. Dr. Günter Daniel Rey

• Testgütekriterien als „Beurteilungskriterien“ für eine Messung bzw. einen spezifischen Test• Zur Bewertung bzw. zum Vergleich spezieller standardisierter

Tests einsetzbar• Ebenso zur Bewertung bzw. zum Vergleich verschiedener

Datenerhebungsmethoden nutzbar• Gütekriterien hängen miteinander zusammen• In der Regel gilt: Objektivität > Reliabilität > Validität• Viele Testgütekriterien basieren auf Korrelationen

Einleitung (z. B. Rey, 2017)

Page 4: Einführung in die Statistik - tu-chemnitz.de Testgütekriterien.pdf · Prof. Dr. Günter Daniel Rey Professur Psychologie digitaler Lernmedien Institut für Medienforschung Philosophische

411. TestgütekriterienProf. Dr. Günter Daniel Rey

• Objektivität: Beobachterunabhängigkeit• Durchführungsobjektivität: Ergebnisse unabhängig vom Testleiter• Auswertungsobjektivität: Ergebnisse unabhängig vom Testauswerter• Interpretationsobjektivität: Ergebnisinterpretation unabhängig von

der Person, die diese vornimmt

Objektivität (z.B. Rey, 2017)

Page 5: Einführung in die Statistik - tu-chemnitz.de Testgütekriterien.pdf · Prof. Dr. Günter Daniel Rey Professur Psychologie digitaler Lernmedien Institut für Medienforschung Philosophische

511. TestgütekriterienProf. Dr. Günter Daniel Rey

Objektivität

Page 6: Einführung in die Statistik - tu-chemnitz.de Testgütekriterien.pdf · Prof. Dr. Günter Daniel Rey Professur Psychologie digitaler Lernmedien Institut für Medienforschung Philosophische

611. TestgütekriterienProf. Dr. Günter Daniel Rey

Rey.participoll.com

Welche Art der Objektivität wurde in dem Video dargestellt? A: Durchführungsobjektivität B: Auswertungsobjektivität C: Interpretationsobjektivität

Objektivität

0

vote at Rey.participoll.com

A B C

Page 7: Einführung in die Statistik - tu-chemnitz.de Testgütekriterien.pdf · Prof. Dr. Günter Daniel Rey Professur Psychologie digitaler Lernmedien Institut für Medienforschung Philosophische

711. TestgütekriterienProf. Dr. Günter Daniel Rey

• Beispiel zur Bestimmung der Auswertungsobjektivität• Offene Lerntransferfragen werden von zwei Auswertern bewertet:

• Korrelation zwischen den beiden Auswertern: r = .97• Problem: Korrelationen erfassen keine Unterschiede der

Bewertungsstrenge• Lösung: Verwendung varianzanalytischer Pläne

Auswertungsobjektivität

VPN Auswerter 1 Auswerter 2

1 3 72 2 53 5 94 1 25 4 8

0

1

2

3

4

5

6

7

8

9

10

0 1 2 3 4 5 6

Au

swer

ter

2Auswerter 1

1

2

3

4

5

Page 8: Einführung in die Statistik - tu-chemnitz.de Testgütekriterien.pdf · Prof. Dr. Günter Daniel Rey Professur Psychologie digitaler Lernmedien Institut für Medienforschung Philosophische

811. TestgütekriterienProf. Dr. Günter Daniel Rey

• Reliabilität: Zuverlässigkeit bzw. Genauigkeit einer Messung• Paralleltestreliabilität: Korrelation zwischen den Ergebnissen zweier

ähnlicher Testformen, die zeitnah an derselben Stichprobe erhoben wurden

• Retestreliabilität: Korrelation zwischen zwei Ergebnissen des gleichen Tests, die zu zwei unterschiedlichen Zeitpunkten an derselben Stichprobe erhoben wurden

• Interne Konsistenz: Vergleich der einzelnen Aufgaben bzw. Items eines Tests (Prüfung auf Homogenität)

• Testhalbierungsreliabilität: Korrelation zwischen zwei Hälften des gleichen Tests

Reliabilität (z.B. Rey, 2017)

Page 9: Einführung in die Statistik - tu-chemnitz.de Testgütekriterien.pdf · Prof. Dr. Günter Daniel Rey Professur Psychologie digitaler Lernmedien Institut für Medienforschung Philosophische

911. TestgütekriterienProf. Dr. Günter Daniel Rey

• Koeffizient Cronbachs α sehr häufig als Maß zur internen Konsistenz eines Messinstrumentes verwendet

• Formel:

• Beispiel: Bei einem Test zur kognitiven Belastung mit fünf Items und einer durchschnittlichen Korrelation von r = .3 ergibt sich:

• Gängige Konvention: Bei α > .7 gilt ein Messinstrument als reliabel

Cronbachs Alpha

rN

rN

)1(1

N = Anzahl an Items bzw. Subskalenr = Durchschnittliche Korrelation

zwischen den Items bzw. Subskalen

68.02.2

5.1

3.0)15(1

3.05

Page 10: Einführung in die Statistik - tu-chemnitz.de Testgütekriterien.pdf · Prof. Dr. Günter Daniel Rey Professur Psychologie digitaler Lernmedien Institut für Medienforschung Philosophische

1011. TestgütekriterienProf. Dr. Günter Daniel Rey

Rey.participoll.com

Wie hoch ist Cronbachs α für eine durchschnittliche Korrelation der Items von r = .2 bei einer Itemanzahlvon einmal N = 5 und einmal N = 20? A: Für N = 5 ist α = .56, für N = 20 ist α = .83 B: Für N = 5 ist α = .17, für N = 20 ist α = .19 C: Für N = 5 ist α = .83, für N = 20 ist α = .56 D: Für N = 5 ist α = .19, für N = 20 ist α = .17

Berechnung: Für N = 5:

Für N = 20:

Cronbachs Alpha

0

vote at Rey.participoll.com

A B C D

56.08.1

1

2.0)15(1

2.05

83.08.4

4

2.0)120(1

2.020

Page 11: Einführung in die Statistik - tu-chemnitz.de Testgütekriterien.pdf · Prof. Dr. Günter Daniel Rey Professur Psychologie digitaler Lernmedien Institut für Medienforschung Philosophische

1111. TestgütekriterienProf. Dr. Günter Daniel Rey

• Kritik am Koeffizienten Cronbachs α• Höhe des Kennwertes stark abhängig von der Itemanzahl des

Messinstrumentes• Kein Beleg für die Unidimensionalität (Eindimensionalität) eines

Messinstrumentes• Beispiel: Zusammenhang zwischen Itemanzahl und Cronbachs α bei

einer durchschnittlichen Korrelation von r = .1 zwischen den Items:

• Anstelle des Koeffizienten Cronbachs α sollte daher andere Maße der internen Konsistenz verwendet werden (McNeish, 2017)

Cronbachs Alpha (z. B. Rey, 2017; McNeish, 2017)

Itemanzahl 5 10 15 20 25 30 35 40 45 50Cronbachs α .36 .53 .63 .69 .74 .77 .80 .82 .83 .85

Page 12: Einführung in die Statistik - tu-chemnitz.de Testgütekriterien.pdf · Prof. Dr. Günter Daniel Rey Professur Psychologie digitaler Lernmedien Institut für Medienforschung Philosophische

1211. TestgütekriterienProf. Dr. Günter Daniel Rey

• Trennschärfe: Korrelation zwischen einem Item und dem Gesamtwert des Tests

• Formel:

• Trennschärfe gibt an, wie stark die Differenzierung des jeweiligen Items mit der Differenzierung des Gesamtwertes übereinstimmt

• Gängige Konvention: Bei 0.4 ≤ rit ≤ .7 gilt die Trennschärfe als gut• Trennschärfe ohne vs. mit „part-whole-correction“

Trennschärfe (Kelava & Moosbrugger, 2011)

),( vvi xxit rr xvi = Itemwert i der Person vxv = Gesamtwert der Person v (ggf. abzüglich des jeweiligen Items)

Page 13: Einführung in die Statistik - tu-chemnitz.de Testgütekriterien.pdf · Prof. Dr. Günter Daniel Rey Professur Psychologie digitaler Lernmedien Institut für Medienforschung Philosophische

1311. TestgütekriterienProf. Dr. Günter Daniel Rey

• Vor allem bei wenigen Items kann es ohne „part-whole-correction“ zur Überschätzung der Trennschärfe kommen

• Beispiel: Berechnung der Trennschärfe ohne vs. mit „part-whole-correction“

• Trennschärfe ohne „part-whole-correction“: r = .44

• Trennschärfe mit „part-whole-correction“: r = .36

Trennschärfe

VPN IQEinzelitem IQGesamt IQGesamt - Item

Sheldon 0.3 9.5 9.2Leonard 0.9 6.5 5.6Howard 0.4 4.5 4.1Rajesh 0.6 8.5 7.9Penny 0.1 1.5 1.4

Page 14: Einführung in die Statistik - tu-chemnitz.de Testgütekriterien.pdf · Prof. Dr. Günter Daniel Rey Professur Psychologie digitaler Lernmedien Institut für Medienforschung Philosophische

1411. TestgütekriterienProf. Dr. Günter Daniel Rey

• Validität: Gültigkeit der Messung • Misst der Test das, was er messen soll?• Nur bei einem validen Test sind die Messergebnisse

interpretierbar• Inhaltliche (oder logische) Validität: Aufgaben des Tests sind

inhaltlich identisch mit den Merkmalen, die durch den Test erfasst werden sollen• Begründung dieser Validitätsform argumentativ und nicht

empirisch-numerisch

Validität (z.B. Rey, 2017)

Page 15: Einführung in die Statistik - tu-chemnitz.de Testgütekriterien.pdf · Prof. Dr. Günter Daniel Rey Professur Psychologie digitaler Lernmedien Institut für Medienforschung Philosophische

1511. TestgütekriterienProf. Dr. Günter Daniel Rey

• Konstruktvalidität: Test erfasst alle Facetten des theoretischen Konstrukts, die erfasst werden sollen• Konvergente Validität: (Möglichst hohe) Korrelation zwischen

verschiedenen Tests, die dasselbe Konstrukt messen• Diskriminante (bzw. divergente) Validität: (Möglichst niedrige)

Korrelation zwischen verschiedenen Tests, die verschiedene Konstrukte messen

• Kriterienbezogene Validität: Testergebnis stimmt mit anderen, praktisch relevanten Kriterien (Außenkriterien) überein, die das Merkmal ebenfalls erfassen• Konkurrente Validität: Übereinstimmungsvalidität• Prognostische (prädiktive) Validität: Vorhersagevalidität

Validität (z.B. Rey, 2017)

Page 16: Einführung in die Statistik - tu-chemnitz.de Testgütekriterien.pdf · Prof. Dr. Günter Daniel Rey Professur Psychologie digitaler Lernmedien Institut für Medienforschung Philosophische

1611. TestgütekriterienProf. Dr. Günter Daniel Rey

• Wichtig: Validität der Testgütekriterien ≠ Validität experimenteller Versuchspläne

• Validität experimenteller Versuchspläne• Interne Validität: Veränderungen der abhängigen Variablen lassen

sich eindeutig auf Variationen der unabhängigen Variablen zurückführen: UV AV

• Externe Validität: Generalisierbarkeit der Ergebnisse auf andere Kontexte (experimentelle Variablenoperationalisierungen, Situationen und Personengruppen)

Exkurs: Interne und externe Validität (z.B. Rey, 2017)

Page 17: Einführung in die Statistik - tu-chemnitz.de Testgütekriterien.pdf · Prof. Dr. Günter Daniel Rey Professur Psychologie digitaler Lernmedien Institut für Medienforschung Philosophische

1711. TestgütekriterienProf. Dr. Günter Daniel Rey

Rey.participoll.com

Die Angestellten eines Unternehmens verhalten sich bei einem Brand vorbildlich, die in einem Lernpro-gramm zum Brandschutz gut abgeschnitten haben.Um welche Form der Validität handelt es sich? A: Inhaltliche Validität B: Konvergente Validität C: Diskriminante Validität D: Konkurrente Validität E: Prognostische Validität F: Interne oder externe Validität

Validität

0

vote at Rey.participoll.com

A B C D E F

Page 18: Einführung in die Statistik - tu-chemnitz.de Testgütekriterien.pdf · Prof. Dr. Günter Daniel Rey Professur Psychologie digitaler Lernmedien Institut für Medienforschung Philosophische

1811. TestgütekriterienProf. Dr. Günter Daniel Rey

• Skalierung: Adäquate Verrechnungsvorschrift• Normierung: Geeignete, aktuelle Referenzstichprobe• Testfairness: Keine systematische Diskriminierung• Ökonomie: Dauer und Kosten der Erhebung gering• Nützlichkeit: Praktische Relevanz des Merkmals; Beantwortung der

Fragestellung möglich• Zumutbarkeit: Nutzen überwiegt zeitliche, psychische und körperliche

Belastung der Testpersonen

Nebengütekriterien (z. B. Rey, 2017)

Page 19: Einführung in die Statistik - tu-chemnitz.de Testgütekriterien.pdf · Prof. Dr. Günter Daniel Rey Professur Psychologie digitaler Lernmedien Institut für Medienforschung Philosophische

1911. TestgütekriterienProf. Dr. Günter Daniel Rey

• Vergleichbarkeit: Existenz von Paralleltestformen oder inhaltsähnlicher Tests

• Unverfälschbarkeit: Beispielsweise durch soziale Erwünschtheit gefährdet

• Transparenz: Verständlichkeit der Instruktion; Übungsitems im Vorfeld; angemessenes Feedback im Anschluss des Tests

• Akzeptanz: Erhebung bzw. Test von Laien akzeptiert• Äußere Gestaltung: Sprachlich und optisch ansprechend; Anpassung

an die Zielgruppe

Nebengütekriterien (z. B. Rey, 2017)

Page 20: Einführung in die Statistik - tu-chemnitz.de Testgütekriterien.pdf · Prof. Dr. Günter Daniel Rey Professur Psychologie digitaler Lernmedien Institut für Medienforschung Philosophische

2011. TestgütekriterienProf. Dr. Günter Daniel Rey

Umfrage

Page 21: Einführung in die Statistik - tu-chemnitz.de Testgütekriterien.pdf · Prof. Dr. Günter Daniel Rey Professur Psychologie digitaler Lernmedien Institut für Medienforschung Philosophische

2111. TestgütekriterienProf. Dr. Günter Daniel Rey

• Objektivität: „Beobachterunabhängigkeit“ mit Durchführungs-, Auswertungs- und Interpretationsobjektivität

• Reliabilität: Zuverlässigkeit bzw. Genauigkeit der Messung mit Unterteilung in interne Konsistenz, Testhalbierungs-, Paralleltest- und Retestreliabilität

• Cronbachs α zwar häufig verwendete Angabe zur internen Konsistenz eines Messinstrumentes, aber aus methodischen Gründen fraglich

• Validität: Gültigkeit der Messung mit den Validitätsformen inhaltliche Validität, Konstruktvalidität und kriterienbezogene Validität

• Zahlreiche weitere Nebengütekriterien

Zusammenfassung

Page 22: Einführung in die Statistik - tu-chemnitz.de Testgütekriterien.pdf · Prof. Dr. Günter Daniel Rey Professur Psychologie digitaler Lernmedien Institut für Medienforschung Philosophische

2211. TestgütekriterienProf. Dr. Günter Daniel Rey

• Rey, G. D. (2017). Methoden der Entwicklungspsychologie. Datenerhebung und Datenauswertung (2., überarbeitete Auflage). Norderstedt: BoD.• Testgütekriterien (S. 61-77)

• Moosbrugger, H., & Kelava, A. (Hrsg.). (2011). Testtheorie und Fragebogenkonstruktion (2. Aufl.). Heidelberg: Springer.• Qualitätsanforderungen an einen psychologischen Test

(Testgütekriterien) (S. 7-26)

Prüfungsliteratur

Page 23: Einführung in die Statistik - tu-chemnitz.de Testgütekriterien.pdf · Prof. Dr. Günter Daniel Rey Professur Psychologie digitaler Lernmedien Institut für Medienforschung Philosophische

2311. TestgütekriterienProf. Dr. Günter Daniel Rey

• Bühner, M. (2010). Einführung in die Test- und Fragebogenkonstruktion (3. Aufl.). München: Pearson.• Haupt- und Nebengütekriterien (S. 58-81)

• Schmidt-Atzert, L., & Amelang, M. (2012). Psychologische Diagnostik(5. Aufl.). Berlin: Springer.• Gütekriterien diagnostischer Verfahren (S. 129-174)

• Sedlmeier, P., & Renkewitz, F. (2018). Forschungsmethoden und Statistik: Ein Lehrbuch für Psychologen und Sozialwissenschaftler (3. Aufl.). München: Pearson.• Gütekriterien beim Messen und Testen (S. 79-90)

• McNeish, D. (2017). Thanks Coefficient Alpha, we’ll take it from here. Psychological Methods.

Weiterführende Literatur