30
Vorlesung Grundlagen Psychologischer Diagnostik und Testtheorie Universität Leipzig WS 2018/19 Datum: 19.12.2018 Dozent: Sascha Krause

Vorlesung - home.uni-leipzig.dehome.uni-leipzig.de/.../Diagnostik_Testtheorie/Diagnostik_8_Reliabilitat_Validitat.pdf · →Ein Test weist Kriteriumsvalidität auf, wenn vom Verhalten

  • Upload
    dodung

  • View
    213

  • Download
    0

Embed Size (px)

Citation preview

Vorlesung

Grundlagen

Psychologischer Diagnostik und Testtheorie

Universität Leipzig

WS 2018/19

Datum: 19.12.2018

Dozent: Sascha Krause

2

Gliederung der Vorlesung

1. Einführung

2. Psychologische Tests

– Verschiedene Arten psychologischer Tests

– Items

– Statistische Itemanalysen

– Faktorenanalyse

– Normierung

3. Testgütekriterien

– Objektivität

– Reliabilität

– Validität

4. Entscheidungstheoretische Modelle

– Entscheidungsstrategien

– Güte diagnostischer Entscheidungen

– Nutzen diagnostischer Entscheidungen

5. Diagnostische Urteilsbildung

• Jede Messung ist fehlerbehaftet

• Ergebnis einer testpsychologischen Untersuchung kann nie mit einem festen Standardwert ausgedrückt werden

• Es muss immer ein Bereich angegeben werden, in dem der wahre Wert mit einer bestimmten Wahrscheinlichkeit liegt

bzw. der wahre Wert mit einer bestimmten Wahrscheinlichkeit überdeckt wird

Konfidenzintervall berechnen, um Schwankungsbreite eines einzelnen Testergebnisses darzustellen

• Es hat sich eingebürgert 95% Vertrauensintervalle anzugeben (Konvention)

Zusammenfassung Konfidenzintervall

(Wiederholung)

• Verbreitete Definition des Normbereichs: ± 1 Standardabweichung

um den Mittelwert

4

3.2.5 Sprachliche Interpretation von Testwerten

2,3% 15,9% 84,1%

6

3.2.5 Sprachliche Interpretation von Testwerten

Beispiele für sprachliche Interpretation von Testwerten unter

Berücksichtigung des Messfehlers

‒ IQ = 100, KI = [95;105]

‒ IQ = 112, KI = [108;116]

‒ IQ = 120, KI = [117; 123]

‒ IQ = 88, KI = [84;92]

‒ IQ = 83, KI = [78; 88]

• Ein Bewerber für eine Stelle, die einen überdurchschnittlichen IQ erfordert, erlangt bei einem Intelligenztest (rtt = .84) einen IQ-Wert von 110 Punkten.

• Schließen Sie den Bewerber für das weitere Bewerbungsverfahren aus, wenn Sie eine zu 95% sichere Entscheidung fällen müssten?

• Konfidenzintervall:

(zα/2 = 1,96 für α = 0,05)

• KI = [98; 122] -> Entscheidung?

• Aufgrund des Messfehlers der Verfahrens kann überdurchschnittliche Ausprägung nicht ausgeschlossen werden -> Kandidat bleibt dabei!

Beispiel

2/zXKI j)(Re1 XlsX

• Beispiel für alternative Interpretationsanleitung: Wechsler

Intelligenztest

8

3.2.5 Sprachliche Interpretation von Testwerten

• Vorschlag aus dem Schmidt-Atzert & Amelang (2012):

Normbereich ± 0.5 Standardabweichung um den Mittelwert

3.2.5 Sprachliche Interpretation von Testwerten

10

3.2.6 Der Standardmessfehler der Differenz

Frage, ob sich zwei Testwerte signifikant unterscheiden, z.B.

‒ Vergleich von Werten in Subdimensionen eines Tests (1 Person):

Unterscheiden sich verbale und numerische Intelligenz einer Person?

‒ Veränderungen zwischen zwei Testungen (1 Person): Hat sich die

Schüchternheit durch eine psychologische Intervention statistisch

signifikant verringert?

‒ Vergleiche zweier Personen: Erreichte Person A einen statistisch

signifikanten höheren Wert in dem dargebotenen Intelligenztest als

Person B?

Kritische Differenzen dienen zur Bestimmung der Bedeutsamkeit von intra- und interindividuellen Unterschieden

11

3.2.6 Der Standardmessfehler der Differenz

Zentrale Frage ist, wie groß eine beobachtete Differenz sein muss, damit

sie nicht mehr alleine mit Messfehlern erklärt werden kann.

12

3.2.6 Der Standardmessfehler der Differenz

13

3.2.6 Der Standardmessfehler der Differenz

Zentrale Frage ist, wie groß eine beobachtete Differenz sein muss, damit

sie nicht mehr alleine mit Messfehlern erklärt werden kann.

• Bei gleichen Streuungen der Testwerte (z.B. T-Wert mit sX = 10) führt die

Summation der beiden Standardmessfehler zu folgender Formel:

)(2212/ ttttXkrit rrszD

Dkrit = kritische Differenz zweier Testwerte

Zα/2 = Wert der Sicherheitswahrscheinlichkeit bzw. Irrtumswahrschein-

lichkeit für den Bereich, in dem eine Differenz nicht signifikant

von Null abweicht (da sie nur auf Messfehler beruht)

sX = Standardabweichung der Testwerte

rtt1, rtt2

= Reliabilitäten der Skalen 1 bzw. 2

14

3.2.6 Der Standardmessfehler der Differenz

Beispiel

‒ Herr K. erreicht im Subtest zur numerischen Intelligenz einen

Wert von IQ = 97 (rtt=.93) und im Subtest zur verbalen Intelligenz

einen Wert von IQ = 110 (rtt=.91). Hat Herr K. im Subtest zur

verbalen Intelligenz signifikant besser abgeschnitten als im

Subtest zur numerischen Intelligenz?

)(2212/ ttttXkrit rrszD

15

3.2.6 Der Standardmessfehler der Differenz

Beispiel

‒ Herr K. erreicht im Subtest zur numerischen Intelligenz einen

Wert von IQ = 97 (rtt=.81) und im Subtest zur verbalen Intelligenz

einen Wert von IQ = 110 (rtt=.83). Hat Herr K. im Subtest zur

verbalen Intelligenz signifikant besser abgeschnitten als im

Subtest zur numerischen Intelligenz?

)(2212/ ttttXkrit rrszD

16

3.2.6 Der Standardmessfehler der Differenz

Handelt es sich um einen Vergleich zweiter Testwerte einer Skala bzw.

eines Subtests (oder sind die Reliabilitäten zweier Skalen gleich) kann die

kritische Differenz vereinfacht so berechnet werden:

rtt = Reliabilität der Skala (bzw. des Subtests)

• Beispiel:

Unterscheidet sich die numerische Intelligenz von Herr K. (IQ = 97) im

durchgeführten Subtest (rtt=.93) signifikant von der numerischen

Intelligenz von Frau S. (IQ = 117), die den selben Subtest durchführte?

ttXkrit rszD 122/

17

Gliederung der Vorlesung

1. Einführung

2. Psychologische Tests

– Verschiedene Arten psychologischer Tests

– Items

– Statistische Itemanalysen

– Faktorenanalyse

– Normierung

3. Testgütekriterien

– Objektivität

– Reliabilität

– Validität

4. Entscheidungstheoretische Modelle

– Entscheidungsstrategien

– Güte diagnostischer Entscheidungen

– Nutzen diagnostischer Entscheidungen

5. Diagnostische Urteilsbildung

18

3.3 Validität

Unter Validität wird das Maß an Genauigkeit verstanden, mit dem

der Test dasjenige Merkmal misst, das er messen soll oder zu

erfassen vorgibt.

Wichtigstes Kriterium für die Bewertung der Güte eines Tests

Arten von Validität:

- Inhaltsvalidität

- Kriteriumsvalidität

- Konstruktvalidität

19

3.3.1 Inhaltsvalidität

Definition (Schmidt-Atzert & Amelang, 2012, S. 145):

„Unter Inhaltsvalidität versteht man, wie repräsentativ die Items eines Tests

für das zu messende Merkmal sind.“

Inhaltsvalidität ist hoch, wenn die Aufgaben völlig identisch mit den

Anforderungen sind, die in bestimmten Bereichen gestellt werden (z.B.

Prüfung der Fahrtauglichkeit, Arbeitsproben, Diagnostik-Klausur)

Vor allem kriteriumsorientierte Tests (z.B. Schulleistungstests, Klausuren)

werden inhaltsvalidiert

Kriteriumsorientierte Tests: Testverfahren, die nicht die Position einer

Person in Relation zu einer Vergleichsnorm, sondern das Erreichen oder

Verfehlen eines konkreten Kriteriums ermitteln wollen

20

3.3.1 Inhaltsvalidität

Bestimmung der Inhaltsvalidität: Beurteilung der Repräsentativität der

Items durch Experten (ggf. Möglichkeit der Bestimmung der

Beurteilerübereinstimmung)

Mögliches Vorgehen:

Präzise Beschreibung des untersuchten Inhaltsbereichs

(Zielkonstrukts)

Bestimmung des Teils des Inhaltsbereichs, der durch jedes einzelne

Item gemessen wird

Vergleich der Struktur des Tests mit der des Inhaltsbereichs

21

3.3.1 Inhaltsvalidität

22

Übungsaufgabe Inhaltsvalidität

Geben Sie ihr Expertenurteil zur inhaltlichen Validität des

Schulleistungstests

23

3.3.1 Inhaltsvalidität

Mögliche Gründe für geringe Inhaltsvalidität:

- zu enge Operationalisierung

- falsche Gewichtung der Inhalte

- unangemessene Schwierigkeit der Items bzw. unsachgerechte

Setzung der Kriterien

Definition (Moosbrugger & Kelava, 2012, S. 18):

→ Ein Test weist Kriteriumsvalidität auf, wenn vom Verhalten der Testperson

innerhalb der Testsituation erfolgreich auf ein »Kriterium«, nämlich auf ein

Verhalten außerhalb der Testsituation, geschlossen werden kann.

→ Die Enge dieser Beziehung ist das Ausmaß an Kriteriumsvalidität

(Korrelationsschluss).

Ein Kriterium sollte etwas Konkretes (und auch Relevantes) sein

direkt messbar (z.B. Abiturnote, Vorgesetztenbeurteilungen)

direkt beobachtbar (z.B. Straftaten, Alkoholkonsum)

Validitätskoeffizient rtc: Korrelation des Tests (t) mit einem Kriterium (c)

konkurrente, prädiktive und inkrementelle Validität 24

3.3.2 Kriteriumsvalidität

Konkurrente Validität (Übereinstimmungsvalidität):

→ Test- und Kriteriumswerte werden nahezu gleichzeitig erhoben

→ „Henne-Ei-Problem“

Prädiktive Validität (Vorhersagevalidität):

→ Testwerte werden zeitlich vor Kriteriumswerten erhoben

→ kann bei bestimmten Merkmalen stärkere Evidenz für Validität

liefern (z.B. Intelligenztests -> Vorhersage von späteren

Berufserfolg)

Inkrementelle Validität

Bestimmung des Zuwachses an Validität durch weiteres Verfahren

Ziel: umfassende Erklärung des Kriteriums (z.B. Berufserfolg)

Rechtfertigung des Einsatzes unökonomischer Tests bei Nachweis

inkrementeller Validität gegenüber dem ökonomischen Test

3.3.2 Kriteriumsvalidität

26

Paaraufgabe

Bitte erklären Sie sich gegenseitig die Begriffe

konkurrente, prädiktive und inkrementelle Validität.

27

3.3.2 Kriteriumsvalidität

Höhe der kriteriumsbezogenen Validität hängt von folgenden

Faktoren ab:

1. Inhaltliche Passung des Kriteriums („Validität des Kriteriums“):

vom Grad dessen, was Test und Kriterium an konzeptueller

Gemeinsamkeit enthalten

2. Reliabilität des Tests und des Kriteriums

3. Variabilität der Test- und Kriteriumswerte in der untersuchten

Stichprobe

28

3.3.2 Kriteriumsvalidität

1. Inhaltliche Passung des Kriteriums

Kriterien dürfen nicht beliebig sein

Testautoren müssen begründen, warum sie ein bestimmtes Kriterium gewählt haben (sofern das Kriterium nicht selbsterklärend ist).

Persönlichkeitsmerkmale können nicht als Kriterium fungieren, da es sich um Konstrukte handelt (siehe Konstruktvalidität).

29

3.3.2 Kriteriumsvalidität

1. Inhaltliche Passung des Kriteriums

30

3.3.2 Kriteriumsvalidität

1. Inhaltliche Passung des Kriteriums – Denkaufgabe

-> was wäre ein gutes externes Kriterium für

a) Selbstwert

b) Partnerschaftszufriedenheit