61
Nutzen für die psychologische Diagnostik aus der Interpretation geschätzter raschskalierter Personenparametervarianzen J. M. Müller Universität Tübingen

Nutzen für die psychologische Diagnostik aus der Interpretation geschätzter raschskalierter Personenparametervarianzen J. M. Müller Universität Tübingen

Embed Size (px)

Citation preview

Page 1: Nutzen für die psychologische Diagnostik aus der Interpretation geschätzter raschskalierter Personenparametervarianzen J. M. Müller Universität Tübingen

Nutzen für die psychologische Diagnostik aus der Interpretation

geschätzter raschskalierter Personenparametervarianzen

J. M. Müller

Universität Tübingen

Page 2: Nutzen für die psychologische Diagnostik aus der Interpretation geschätzter raschskalierter Personenparametervarianzen J. M. Müller Universität Tübingen

DPPD, 2003 Halle J. M. Müller2

Gliederung

1. Theorie: Variabilität in psychologischen Eigenschaften

2. Daten: Test-Meta-Analyse-Projekt

3. Methode: Aspekte der Schätzung von Raschvarianzen

4. Anwendung: Anwendungsgebiete

Page 3: Nutzen für die psychologische Diagnostik aus der Interpretation geschätzter raschskalierter Personenparametervarianzen J. M. Müller Universität Tübingen

DPPD, 2003 Halle J. M. Müller3

1. Personen Variabilität in psychologischen Eigenschaften

Die psychometrisch basierte Persönlichkeitspsychologie ging bislang davon aus, dass Personen in verschiedenen Dimensionen vergleichbare Variabilität aufweisen.

Dichte

Psychologische Dimension I

Psychologische Dimension II

Die klassische Testtheorie kann Variabilitätsunterschiede in verschiedenen Dimensionen nicht darstellen. Innerhalb des Raschmodels lässt sich hingegen ein Ansatz ableiten.

Page 4: Nutzen für die psychologische Diagnostik aus der Interpretation geschätzter raschskalierter Personenparametervarianzen J. M. Müller Universität Tübingen

DPPD, 2003 Halle J. M. Müller4

AB

Schachspieler

1:2

Das Schach-Beispiel(aus Müller, 2002)

C1:2

Page 5: Nutzen für die psychologische Diagnostik aus der Interpretation geschätzter raschskalierter Personenparametervarianzen J. M. Müller Universität Tübingen

DPPD, 2003 Halle J. M. Müller5

Das Schach-Beispiel

1: 2

1: 2

1: 2

1: 2

1: 2

1: 2

1: 2

1:2

AB

C

Page 6: Nutzen für die psychologische Diagnostik aus der Interpretation geschätzter raschskalierter Personenparametervarianzen J. M. Müller Universität Tübingen

DPPD, 2003 Halle J. M. Müller6

Transfer zum Rasch Model(Fienberg & Larntz, 1976, Brogden, 1977; Andrich, 1978; Engelhard, 1984;

Mellenbergh & Vijn, 1981; Jansen, 1984 ) Spieler B wird zur Aufgabe b für Spieler A. Die Differenz zwischen zwei Personen wird nun definiert über die Differenz der Wahrscheinlichkeit eine Aufgabe b zu lösen.

Person Bp(B,b)=.50

p(A,b)=.66

Aufgabe b

Person A

iA

iAAiAi

xxp

exp1

exp

Page 7: Nutzen für die psychologische Diagnostik aus der Interpretation geschätzter raschskalierter Personenparametervarianzen J. M. Müller Universität Tübingen

DPPD, 2003 Halle J. M. Müller7

Interpretation einer Rasch Skalen Einheit

Personparameters

Lösungswahrscheinlichkeit

Item b with = 0

B A

Differenz der Lösungs-wahrscheinlichkeiten

Page 8: Nutzen für die psychologische Diagnostik aus der Interpretation geschätzter raschskalierter Personenparametervarianzen J. M. Müller Universität Tübingen

DPPD, 2003 Halle J. M. Müller8

True Rasch Variances als Maß für die Variabilität

Personparameters B A C

Konstante Differenz der Lsg-Wahrscheinlichk. Item b mit σ = 0

Item a mit σ = 1

Item c mit σ = 2

Page 9: Nutzen für die psychologische Diagnostik aus der Interpretation geschätzter raschskalierter Personenparametervarianzen J. M. Müller Universität Tübingen

DPPD, 2003 Halle J. M. Müller9

True Rasch Variances als Maß für die Variabilität

Page 10: Nutzen für die psychologische Diagnostik aus der Interpretation geschätzter raschskalierter Personenparametervarianzen J. M. Müller Universität Tübingen

DPPD, 2003 Halle J. M. Müller10

2. DATEN: Das TEST-META-ANALYSE-PROJEKT

Anzahl psychologischer Dimensionen > 92

Anzahl abgeschlossener IRT-Analysen

> 880

Anzahl der Personumfänge 150 < n < 3700

Item-Response-SoftwareBilogMG, Parscale, Winmira, Bigsteps

SAS-Macros zum Auslesen der Programm-Codes und des Outputs für BilogMG, PARSCALE; Winmira und bigsteps

Page 11: Nutzen für die psychologische Diagnostik aus der Interpretation geschätzter raschskalierter Personenparametervarianzen J. M. Müller Universität Tübingen

DPPD, 2003 Halle J. M. Müller11

Mein Dank an…

Die Testauthoren und Verlage für die Daten:

Paul Barrett EPQ-R English

Willibald Ruch EPQ-R German

Piotr Brzozowski EPQ-R Polish

Anton Aluja EPQ-R Spanish

Peter Borkenau NEO-FFI

Jochen Fahrenberg FPI-R

Peter Becker TIPI

Stephan Bulheller EPP

SWETS, SCHUHFRIED, HOGREFE

…und weitere….

und Studenten für die

Analysen:

Tina Fechter

Magnus Pagendarm

Mildred Girndt

Susana Ruiz

Daniel Kostatinov

Foundation ‚Strukturfond der Universität Tübingen‘ Kap. 1415

Page 12: Nutzen für die psychologische Diagnostik aus der Interpretation geschätzter raschskalierter Personenparametervarianzen J. M. Müller Universität Tübingen

DPPD, 2003 Halle J. M. Müller12

3. METHODE: Aspekte der Schätzung raschskalierter Personenparametervarianzen

1. SOFTWARE (Winmira, Parscale, BilogMG, Bigsteps)

2. MESSFEHLER

3. IRT-MODEL (1PL, 2PL, Partial Credit, Graded, ...)

4. MODEL-FIT/ROBUSTHEIT

5. SCHÄTZALGORITHMEN (WLE, MLE, EAP, etc.)

6. LINK-FUNKTIONEN (Logit, Normal-Ogive)

7. BODEN-UND-DECKEN-EFFEKTE

Page 13: Nutzen für die psychologische Diagnostik aus der Interpretation geschätzter raschskalierter Personenparametervarianzen J. M. Müller Universität Tübingen

DPPD, 2003 Halle J. M. Müller13

Interaktionen zwischen den Einflussgrößen

MESSFEHLER

IRT-MODEL

MODEL-FIT

ROBUSTHEIT

SCHÄTZALGORITHMEN

LINK-FUNKTIONEN

SOFTWARE

BODEN-UND-DECKEN-EFFEKTE

TRV

Page 14: Nutzen für die psychologische Diagnostik aus der Interpretation geschätzter raschskalierter Personenparametervarianzen J. M. Müller Universität Tübingen

DPPD, 2003 Halle J. M. Müller14

3. METHODE: Aspekte der Schätzung raschskalierter Personenparametervarianzen

1. SOFTWARE (Winmira, Parscale, BilogMG, Bigsteps)

2. MESSFEHLER

3. IRT-MODEL (1PL, 2PL, Partial Credit, Graded, ...)

4. MODEL-FIT/ROBUSTHEIT

5. SCHÄTZALGORITHMEN (WLE, MLE, EAP, etc.)

6. LINK-FUNKTIONEN (Logit, Normal-Ogive)

7. BODEN-UND-DECKEN-EFFEKTE

Page 15: Nutzen für die psychologische Diagnostik aus der Interpretation geschätzter raschskalierter Personenparametervarianzen J. M. Müller Universität Tübingen

DPPD, 2003 Halle J. M. Müller15

1. A Fortran Program (Fischer & Scheiblechner, 1970);

2. LOGISTIC (Wood, Wingersky & Lord, 1976);

3. BMD (Dixon & Brown, 1977);

4. ECTA (Goodman & Fay, 1974);

5. BICAL (Wright & Mead, 1977);

6. DICOT (Masters, 1984);

7. MULTIRA (Carstensen & Rost, 1998);

8. ICL (Hanson, 2002);

9. XCALIBRE (Luecht, Gierl & Ackermann, 1996)

10. LATENT GOLD (Vermunt & Maqidson, 2000);

11. SAS-Macro (Christensen & Bjorner, 2003)

Einfluss der IRT-Software auf die Schätzung der Personenparametervarianz

12. WINSTEPS (Linacre & Wright, 1999);

13. BIGSTEPS (Linacre & Wright, 2003);

14. WINMIRA (Davier, 1998);

15. BILOG-MG (Zimowski, Muraki, Mislevy & Bock, 2003);

16. PARSCALE (Muraki & Bock, 2003);

17. QUEST (Adams & Khoo, 2003);

18. ConQuest (Wu, Adams & Wilson, 1997)

19. TESTFACT (Wood, 2003)

20. MULTILOG (Thissen, 2003)

Liste von IRT-Software:

Page 16: Nutzen für die psychologische Diagnostik aus der Interpretation geschätzter raschskalierter Personenparametervarianzen J. M. Müller Universität Tübingen

DPPD, 2003 Halle J. M. Müller16

Einfluss der IRT-Software-Optionen auf die Schätzung der Personenparametervarianz

am Beispiel der Parscale- und BilogMG-Optionen

PARSCALE>CALIB GRADED/PARTIAL, LOGISTIC/NORMAL, SCALE=n, NQPT=n, DIST =n, CYCLES =(list), CRIT = (list), DIAGNOSIS =n, QRANGE =(list), ITEMFIT = n, FREE=(list), RIDGE=(list), NEWTON = n, POSTERIOR, FLOAT, QPREAD, ESTORDER, SPRIOR, TPRIOR, GPRIOR, PRIORREAD, ACCEL/NOACCEL, NOCALIB, SKIPC, CSLOPE, THRESHOLD, NRATER;>SCORE NQPT = n, DIST = n, QRANGE = (list), SMEAN = n, SSD = n, NAME = n, PFQ = n, SCORING = STANDARD / CALIBRATION, EAP/MLE/WML, PRINT, QPREAD, NOSCORE, SAMPLE, RESCALE, NOADJ, FIT, NRATER;

Auszug aus Parscale 4.0 HelpBILOGMG

>CALIB NQPT=a, CYCLES=b, NEWTON=c, PRINT=d, CRIT=e, IDIST=f, PLOT=g, DIAGNOSIS=h, REFERENCE=i, SELECT=(list), RIDGE=(list), ACCEL=n, NSD=o, COMMON, EMPIRICAL, NORMAL, FIXED, TPRIOR, SPRIOR, GPRIOR, NOTPRIOR, NOSPRIOR, NOGPRIOR, READPRIOR, NOFLOAT, FLOAT, NOADJUST, GROUP-PLOT, RASCH, NFULL, CHI=(list);

Auszug aus BILOGMG 3.0 Help

Page 17: Nutzen für die psychologische Diagnostik aus der Interpretation geschätzter raschskalierter Personenparametervarianzen J. M. Müller Universität Tübingen

DPPD, 2003 Halle J. M. Müller17

Bigsteps

BilogMG

Parscale

Winmira

geschätze TRS_est

Wahre TRS

Einfluss der verwendeten Software: SimulationsstudieTRS 0.25 bis 4.00 (.25); N=1000; Items=20

ca. 1 RaschUnit

Page 18: Nutzen für die psychologische Diagnostik aus der Interpretation geschätzter raschskalierter Personenparametervarianzen J. M. Müller Universität Tübingen

DPPD, 2003 Halle J. M. Müller18

3. METHODE: Aspekte der Schätzung raschskalierter Personenparametervarianzen

1. SOFTWARE (Winmira, Parscale, BilogMG, Bigsteps)

2. MESSFEHLER

3. IRT-MODEL (1PL, 2PL, Partial Credit, Graded, ...)

4. MODEL-FIT/ROBUSTHEIT

5. SCHÄTZALGORITHMEN (WLE, MLE, EAP, etc.)

6. LINK-FUNKTIONEN (Logit, Normal-Ogive)

7. BODEN-UND-DECKEN-EFFEKTE

Page 19: Nutzen für die psychologische Diagnostik aus der Interpretation geschätzter raschskalierter Personenparametervarianzen J. M. Müller Universität Tübingen

DPPD, 2003 Halle J. M. Müller19

Einfluss des Messfehlers auf die Rasch Varianz (Lord, 1983)

Die empirische Varianz ist dann

(2) )()()ˆ( VarVarVar

Wir korrigieren die ORV zur TRV

(4) )ˆ()ˆ()( RELVarVar ERVTRVORV

Wir kennen das Verhältnis...

(3))ˆ(

)()ˆ(

Var

VarREL

ERVTRVORV

Wir fassen eine Schätzung auf als

iii ˆ(1)

ORV = Observed Rasch Variance TRV = True Rasch Variance ERV = Error Rasch Variance

Page 20: Nutzen für die psychologische Diagnostik aus der Interpretation geschätzter raschskalierter Personenparametervarianzen J. M. Müller Universität Tübingen

DPPD, 2003 Halle J. M. Müller20

Die Wahl des Reliabilitätsschätzer ist nicht unerheblichZusammenhang zweier Reliabilitätsschätzungen

Spearman Korrelation r = 0.75 s.(N=466)

Cronbachs Alpha

Reliabilitäten der IRT-Software

0.0 0.25 .5 0.75 1.0

0.0

0.2

5

.

5

0.75

1

.0

Page 21: Nutzen für die psychologische Diagnostik aus der Interpretation geschätzter raschskalierter Personenparametervarianzen J. M. Müller Universität Tübingen

DPPD, 2003 Halle J. M. Müller21

Explizite Unterscheidung der Theoretische Reliabilität vs. Empirische Reliabilität in Bigsteps

(ebenfalls in BilogMG) (Thissen & Wainer, 1982; Embretson, 1999; Linacre, 2003)

SUMMARY OF 1500 MEASURED VPNS+------------------------------------------------+| RAW MODEL || SCORE COUNT MEASURE ERROR ||------------------------------------------------|| MEAN 34.4 58.8 .42 .29 || S.D. 6.9 3.7 .55 .02 || MAX. 53.0 61.0 2.15 .62 || MIN. 4.0 13.0 -1.74 .28 ||------------------------------------------------|| REAL RMSE .30 ADJ.SD .46 VPN RELIABILITY .70 ||MODEL RMSE .29 ADJ.SD .46 VPN RELIABILITY .71 |+------------------------------------------------+

Bigsteps Output

ORS

TRS

Page 22: Nutzen für die psychologische Diagnostik aus der Interpretation geschätzter raschskalierter Personenparametervarianzen J. M. Müller Universität Tübingen

DPPD, 2003 Halle J. M. Müller22

Die Reliabilität beeinflusst die ORV, aber nicht die TRV

Beispiel des SPM (N=1500) (Anmerkung: r reli, cronbach = 0.976)

TRV

0.5 1.0 1.5 2.0Rasch Varianzen Personen

ORV

10 20 30 40 50 60

Anzahl an Items

Zufällig Itemreduktion

Erwartet

Reliabilität

RawS

OPP

Page 23: Nutzen für die psychologische Diagnostik aus der Interpretation geschätzter raschskalierter Personenparametervarianzen J. M. Müller Universität Tübingen

DPPD, 2003 Halle J. M. Müller23

Während die Reliabilität die ORV beeinflusst, beeinflusst dagegen die TRV die Reliabilität

Simulationsstudie TRS 0.25 bis 4.00 (.25); N=1000; Items=20

0 1 4 9 16

TRV

0.25 0.5 0.75 1.0

Reliabilität Winmira

Page 24: Nutzen für die psychologische Diagnostik aus der Interpretation geschätzter raschskalierter Personenparametervarianzen J. M. Müller Universität Tübingen

DPPD, 2003 Halle J. M. Müller24

Konsequenz: Variationsreiche Eigenschaften sind ,unter sonst gleichen Bedingungen‘ reliabler

am Beispiel der EPQ-R(S) Skalen; (Itemanzahl zwischen 15 und 25)

0 1 2 0 1 2

TRV

0

0.2

5

.5

0.7

5

1.0

0

0.2

5

.5

0.7

5

1.0

Cronbach Reliabilität, N=40, rspear=.71, sign. Software Reliabilität N=40, rspear=. 44, sign.

Page 25: Nutzen für die psychologische Diagnostik aus der Interpretation geschätzter raschskalierter Personenparametervarianzen J. M. Müller Universität Tübingen

DPPD, 2003 Halle J. M. Müller25

Ohne Eingrenzung auf Skalen mit ca. 20 Itemsam Beispiel aller EPQ-R(S) Skalen: Deutsch, Spanisch, Englisch, Polnisch

Software Reliabilität N=87, r=.32, sign.Cronbach Reliabilität, N=87, r=.60, sign.

0 1 2 3 0 1 2 3

TRV

0

0.2

5

.5

0.7

5

1.0

0

0.2

5

.5

0.7

5

1.0

Page 26: Nutzen für die psychologische Diagnostik aus der Interpretation geschätzter raschskalierter Personenparametervarianzen J. M. Müller Universität Tübingen

DPPD, 2003 Halle J. M. Müller26

Erklärung: Relativer Anteil des Model-vorhergesagten Standardfehlers SE an der wahren Raschvarianz TRV

Personparameter

SE1,2

TRV 1

TRV 2

Page 27: Nutzen für die psychologische Diagnostik aus der Interpretation geschätzter raschskalierter Personenparametervarianzen J. M. Müller Universität Tübingen

DPPD, 2003 Halle J. M. Müller27

3. METHODE: Aspekte der Schätzung raschskalierter Personenparametervarianzen

1. SOFTWARE (Winmira, Parscale, BilogMG, Bigsteps)

2. MESSFEHLER

3. IRT-MODEL (1PL, 2PL, Partial Credit, Graded, ...)

4. MODEL-FIT/ROBUSTHEIT

5. SCHÄTZALGORITHMEN (WLE, MLE, EAP, etc.)

6. LINK-FUNKTIONEN (Logit, Normal-Ogive)

7. BODEN-UND-DECKEN-EFFEKTE

Page 28: Nutzen für die psychologische Diagnostik aus der Interpretation geschätzter raschskalierter Personenparametervarianzen J. M. Müller Universität Tübingen

DPPD, 2003 Halle J. M. Müller28

Erklärung: Variierender Trennschärfen auf das TRV

Lösungs-wahrscheinlichkeit

β = 1

B

A

Konstante Differenz

C

β = 0.5

)(exp1

exp

iAi

iAiAiAi

xxp

Page 29: Nutzen für die psychologische Diagnostik aus der Interpretation geschätzter raschskalierter Personenparametervarianzen J. M. Müller Universität Tübingen

DPPD, 2003 Halle J. M. Müller29

3. METHODE: Aspekte der Schätzung raschskalierter Personenparametervarianzen

1. SOFTWARE (Winmira, Parscale, Bilog, Bigsteps)

2. MESSFEHLER

3. IRT-MODEL (1PL, 2PL, Partial Credit, Graded, ...)

4. MODEL-FIT/ROBUSTHEIT

5. SCHÄTZALGORITHMEN (WLE, MLE, EAP, etc.)

6. LINK-FUNKTIONEN (Logit, Normal-Ogive)

7. BODEN-UND-DECKEN-EFFEKTE

Page 30: Nutzen für die psychologische Diagnostik aus der Interpretation geschätzter raschskalierter Personenparametervarianzen J. M. Müller Universität Tübingen

DPPD, 2003 Halle J. M. Müller30

Wie robust sind TRV-Schätzungen gegenüber Modellverletzungen?

Mögliche Modelverletzungen:

1. Falsche Modellwahl (z.B. 1PL statt 2PL)

2. Differential-Item-Functioning (Items sind für Subgruppen verschieden schwer)

3. Antworttendenzen in Subgruppen (testbar über Mixed-Rasch-Modelle; Rost & Carstensen)

4. Verletzung der Annahme lokal stochastischer Unabhängigkeit (Prüfung über T-Rasch, Ponocny; Residualanalysen, H. Müller, 2003, MethEval, Wien)

5. Inhomogene Personen (Person-Fit)

6. Inhomogene Items (Item-Fit)

Page 31: Nutzen für die psychologische Diagnostik aus der Interpretation geschätzter raschskalierter Personenparametervarianzen J. M. Müller Universität Tübingen

DPPD, 2003 Halle J. M. Müller31

Wie robust sind TRV-Schätzungen gegenüber Modellverletzungen?

Am Beispiel vier verschiedensprachiger EPQ-R(S) Skalen

Neurotizismus Psychotizismus LügenExtraversion

Deutsch

Spanisch

Polnisch

Englisch

Page 32: Nutzen für die psychologische Diagnostik aus der Interpretation geschätzter raschskalierter Personenparametervarianzen J. M. Müller Universität Tübingen

DPPD, 2003 Halle J. M. Müller32

Einfluss von Model-Verletzungenam Q-Index am Beispiel der EPQ-R

Neurotizismus Psychotizismus LügenExtraversion

Deutsch

Spanisch

Polnisch

Englisch 5 6

1 13

4 3

8 510 10

8 11

6 59 12

1 03 2 3 23 3

5 66 8 6 13

3 024

23

21

3225

23

2223

1212 1212

3214 21

32

Items

Q-Index

100

102

48

90

negativ positiv

Page 33: Nutzen für die psychologische Diagnostik aus der Interpretation geschätzter raschskalierter Personenparametervarianzen J. M. Müller Universität Tübingen

DPPD, 2003 Halle J. M. Müller33

Einfluss von Model-VerletzungenItemselektion nach Q-Index

am Beispiel des EPQ-R Deutsch Extraversion

Cronbachs Alpha

Software Reliabilität

ORV

TRV Software Korrektur

Mittelwert

TRV Cronbach-Korrektur

Itemanzahl

Page 34: Nutzen für die psychologische Diagnostik aus der Interpretation geschätzter raschskalierter Personenparametervarianzen J. M. Müller Universität Tübingen

DPPD, 2003 Halle J. M. Müller34

Voraussetzungen zur Interpretation von TRVam Beispiel des EPQ-R Deutsch

Itemuntergrenze von 10Neurotizismus

PsychotizismusLügen

Extraversion

Page 35: Nutzen für die psychologische Diagnostik aus der Interpretation geschätzter raschskalierter Personenparametervarianzen J. M. Müller Universität Tübingen

DPPD, 2003 Halle J. M. Müller35

Voraussetzungen zur Interpretation von TRVItemuntergrenze von 10

Spanisch

Deutsch Englisch

Polnisch

Ex Ne

PsLü

Ex Ne

PsLü

Ex Ne

PsLü

Ex Ne

PsLü

Page 36: Nutzen für die psychologische Diagnostik aus der Interpretation geschätzter raschskalierter Personenparametervarianzen J. M. Müller Universität Tübingen

DPPD, 2003 Halle J. M. Müller36

3. METHODE: Aspekte der Schätzung raschskalierter Personenparametervarianzen

1. SOFTWARE (Winmira, Parscale, Bilog, Bigsteps)

2. MESSFEHLER

3. IRT-MODEL (1PL, 2PL, Partial Credit, Graded, ...)

4. MODEL-FIT/ROBUSTHEIT

5. SCHÄTZALGORITHMEN (WLE, MLE, EAP, etc.)

6. LINK-FUNKTIONEN (Logit, Normal-Ogive)

7. BODEN-UND-DECKEN-EFFEKTE

Page 37: Nutzen für die psychologische Diagnostik aus der Interpretation geschätzter raschskalierter Personenparametervarianzen J. M. Müller Universität Tübingen

DPPD, 2003 Halle J. M. Müller37

Schätzalgorithmen:MLE, WLE, BME, EAP, MAP, EM, MLF, CMLF, OSB, h-

estimators, biweight and jackknifed estimators/robustification

Direct Estimation (Mislevy 1984; Cohen & Jiang, 2002; v. Davier, 2003) in ConQuest

Simulationsstudien:

Samejima, 1993; Hoijtink & Boomsma, 1993, 1995, 1996; Kim & Nicewander, 1993; Warm, 1989; Rigdon & Tsatakawa, 1983)

Einfluss der Schätzalgorithmen

Page 38: Nutzen für die psychologische Diagnostik aus der Interpretation geschätzter raschskalierter Personenparametervarianzen J. M. Müller Universität Tübingen

DPPD, 2003 Halle J. M. Müller38

Einfluss der SchätzalgorithmenMLE vs. WML

Mean Std Dev N Pr > |t|0.01 0.32 131 0.696

Page 39: Nutzen für die psychologische Diagnostik aus der Interpretation geschätzter raschskalierter Personenparametervarianzen J. M. Müller Universität Tübingen

DPPD, 2003 Halle J. M. Müller39

3. METHODE: Aspekte der Schätzung raschskalierter Personenparametervarianzen

1. SOFTWARE (Winmira, Parscale, Bilog, Bigsteps)

2. MESSFEHLER

3. IRT-MODEL (1PL, 2PL, Partial Credit, Graded, ...)

4. MODEL-FIT/ROBUSTHEIT

5. SCHÄTZALGORITHMEN (WLE, MLE, EAP, etc.)

6. LINK-FUNKTIONEN (Logit, Normal-Ogive)

7. BODEN-UND-DECKEN-EFFEKTE

Page 40: Nutzen für die psychologische Diagnostik aus der Interpretation geschätzter raschskalierter Personenparametervarianzen J. M. Müller Universität Tübingen

DPPD, 2003 Halle J. M. Müller40

BODEN-UND-DECKEN Effekte auf die

STANDARDABWEICHUNG

Page 41: Nutzen für die psychologische Diagnostik aus der Interpretation geschätzter raschskalierter Personenparametervarianzen J. M. Müller Universität Tübingen

DPPD, 2003 Halle J. M. Müller41

BODEN-UND-DECKEN Effekte auf die

SCHIEFE

Page 42: Nutzen für die psychologische Diagnostik aus der Interpretation geschätzter raschskalierter Personenparametervarianzen J. M. Müller Universität Tübingen

DPPD, 2003 Halle J. M. Müller42

BODEN-UND-DECKEN Effekte auf die

KURTOSIS

Page 43: Nutzen für die psychologische Diagnostik aus der Interpretation geschätzter raschskalierter Personenparametervarianzen J. M. Müller Universität Tübingen

DPPD, 2003 Halle J. M. Müller43

Die Notwendigkeit eines Standards...

1. Der Messfehler = 0 (TRV).

2. Die Link-Funktion ist der Logit.

3. Mindestens 10 Items.

4. Der Schätzalgorithmus über direct Estimation.

5. Die theoretische Verteilung ist normalverteilt?

Page 44: Nutzen für die psychologische Diagnostik aus der Interpretation geschätzter raschskalierter Personenparametervarianzen J. M. Müller Universität Tübingen

DPPD, 2003 Halle J. M. Müller44

4. Nutzen für die psychologische Diagnostik

1. Testkonstruktion

2. Testbeschreibung

3. Testanwendung

4. Neue Forschungsfelder

Page 45: Nutzen für die psychologische Diagnostik aus der Interpretation geschätzter raschskalierter Personenparametervarianzen J. M. Müller Universität Tübingen

DPPD, 2003 Halle J. M. Müller45

Nutzen für die psychologische Diagnostik Testkonstruktion

a) Hohe Variabilität als Voraussetzung

reliabler Messung

b) Inhaltsvalidität

c) Konstruktvalidität

Page 46: Nutzen für die psychologische Diagnostik aus der Interpretation geschätzter raschskalierter Personenparametervarianzen J. M. Müller Universität Tübingen

DPPD, 2003 Halle J. M. Müller46

Inhaltsvalidität…

… als Konzept einer repräsentativen Itemstichprobe aus dem Universum eines theoretisch unendlichen Itempools

(Fitzpatrick, 1983; Klauer, 1984).

Hypothese: Wir erwarten entsprechen vergleichbare TRV bei verschiedenen Operationalisierung eines Konstruktes

Page 47: Nutzen für die psychologische Diagnostik aus der Interpretation geschätzter raschskalierter Personenparametervarianzen J. M. Müller Universität Tübingen

DPPD, 2003 Halle J. M. Müller47

Variationsunterschiede am Beispiel des EPQ-R Deutsch

(mit Winmira; vergleichbar mit Bigsteps)

Deutsch

Ex Ne PsLü 0 1.0 2.0

Fehlerquellen: Konstrukt, Methode and Itemauswahl (Vijver & Hambleton, 1996)

Page 48: Nutzen für die psychologische Diagnostik aus der Interpretation geschätzter raschskalierter Personenparametervarianzen J. M. Müller Universität Tübingen

DPPD, 2003 Halle J. M. Müller48

Vergleich von Variationsunterschieden zur Überprüfung der Inhaltsvalidität

am Beispiel des EPQ-R(S)

Deutsch

Ex Ne PsLü 0 1.0 2.0

Spanisch

0 1.0 2.0Ex Ne PsLü

Polnisch

0 1.0 2.0

Ex Ne PsLü

Englisch

0 1.0 2.0

Ex Ne PsLü

?

Page 49: Nutzen für die psychologische Diagnostik aus der Interpretation geschätzter raschskalierter Personenparametervarianzen J. M. Müller Universität Tübingen

DPPD, 2003 Halle J. M. Müller49

EPQ-R(S)Inhaltsvalidität über Vergleiche der TRV

ohne inhomogene Items (Q-Index)(mit Winmira)

Deutsch Spanisch

PolnischEnglisch

Ex Ne PsLü Ex Ne PsLü

Ex Ne PsLü Ex Ne PsLü

0 1 2 3 0 1 2 3

0 1 2 3 0 1 2 3

Page 50: Nutzen für die psychologische Diagnostik aus der Interpretation geschätzter raschskalierter Personenparametervarianzen J. M. Müller Universität Tübingen

DPPD, 2003 Halle J. M. Müller50

KonstruktvaliditätÜberprüfung theoretischer Zusammenhänge

zwischen Konstrukten

Problemstellung:

Werden zwei Tests auf theoretische Zusammenhänge überprüft, so

werden hohe korrelative Zusammenhänge erwartet.

Es besteht jedoch die Gefahr, dass Item-Überschneidungen

(Westmeyer) stattdessen die Inhaltsvalidität prüfen.

Da beide Instrumente Verschiedenes messen (sollen), kann dies

über unterschiedliche Rasch Varianzen belegt werden (als

notwendige, aber nicht hinreichende Voraussetzung von

Unterschiedlichkeit).

Page 51: Nutzen für die psychologische Diagnostik aus der Interpretation geschätzter raschskalierter Personenparametervarianzen J. M. Müller Universität Tübingen

DPPD, 2003 Halle J. M. Müller51

Testbeschreibung Illustration von Variationsunterschiede am Beispiel des SPM (N=1500) und RIS (N=147)

0 10 20 30 40 50 60

Anzahl an Items

0 1 2 3

TRV

SPM Reliabilität

RIS

SPM

RIS Reliabilität

Page 52: Nutzen für die psychologische Diagnostik aus der Interpretation geschätzter raschskalierter Personenparametervarianzen J. M. Müller Universität Tübingen

DPPD, 2003 Halle J. M. Müller52

TestanwendungVerändertes diagnostisches Schlussfolgern

Rasch Einheiten

Dichte

SPM

DSPM

Testwert SPM

RIS

DRIS

Testwert RIS

Page 53: Nutzen für die psychologische Diagnostik aus der Interpretation geschätzter raschskalierter Personenparametervarianzen J. M. Müller Universität Tübingen

DPPD, 2003 Halle J. M. Müller53

TestanwendungDiagnostik von Interventionseffekten: Ein neues Effektmaß

in Ergänzung zu Cohen‘s Maße der Effektstärke

BA mm

d

BAdR

Effektmaß dvon Cohen

Effektmaß dR

Standardisierung notwendig

Keine Standardisierung

notwendig

Rasch Einheiten

Dichte

SPMZeitpunkt 2

dRVSPMZeitpunkt 1

Rasch Einheiten

Dichte

RISZeitpunkt 1

dRA RISZeitpunkt 2

Page 54: Nutzen für die psychologische Diagnostik aus der Interpretation geschätzter raschskalierter Personenparametervarianzen J. M. Müller Universität Tübingen

DPPD, 2003 Halle J. M. Müller54

Neue Forschungsfelder Veränderung der Variabilität über die Lebensspanne

Dichte

Testwert eines Kindes

True Rasch Scores

PP-Verteilung von 5 jährigen

Kinder

6 Jahre 7 Jahre 8 Jahre

Wachstum

Page 55: Nutzen für die psychologische Diagnostik aus der Interpretation geschätzter raschskalierter Personenparametervarianzen J. M. Müller Universität Tübingen

DPPD, 2003 Halle J. M. Müller55

Neue ForschungsfelderPersönlichkeitstests als Vektorraum Welche Tests umfassen mehr Variabilität?

D I

D II

D IIIII, III

I, II

I, III

Page 56: Nutzen für die psychologische Diagnostik aus der Interpretation geschätzter raschskalierter Personenparametervarianzen J. M. Müller Universität Tübingen

DPPD, 2003 Halle J. M. Müller56

Zusammenfassung

1. Interpretation der wahren Raschskalierten

Personenparametervarianzen

2. Methodische Aspekte der Schätzung

3. Nutzen in der Diagnostik

4. Ausblick

Page 57: Nutzen für die psychologische Diagnostik aus der Interpretation geschätzter raschskalierter Personenparametervarianzen J. M. Müller Universität Tübingen

DPPD, 2003 Halle J. M. Müller57

Thank you for your attention.More Information you can find under:

www.psychological-tests.de

Send me your data!

Page 58: Nutzen für die psychologische Diagnostik aus der Interpretation geschätzter raschskalierter Personenparametervarianzen J. M. Müller Universität Tübingen

DPPD, 2003 Halle J. M. Müller58

A link to a previews presentation on the European Congress of Personality in Jena, 2002

Page 59: Nutzen für die psychologische Diagnostik aus der Interpretation geschätzter raschskalierter Personenparametervarianzen J. M. Müller Universität Tübingen

DPPD, 2003 Halle J. M. Müller59

Bekannte Ansätze zur Überprüfung der Inhaltsvalidität:

Psychometrische Ansätze

1. ... by correlations2. ... by structural equivalence3. ... by simple descriptives like

• Variances in rasch-units

Page 60: Nutzen für die psychologische Diagnostik aus der Interpretation geschätzter raschskalierter Personenparametervarianzen J. M. Müller Universität Tübingen

DPPD, 2003 Halle J. M. Müller60

Differences between the approaches

Testing of relationsships

is a strategy that leads to

weak statistical testing (H1-hypothesis)

Testing of equivalence (deviation )

is a strategy that leads to

strong statistical testing (H0-hypothesis)

Page 61: Nutzen für die psychologische Diagnostik aus der Interpretation geschätzter raschskalierter Personenparametervarianzen J. M. Müller Universität Tübingen

DPPD, 2003 Halle J. M. Müller61

Influences of BOTTOM-AND-CEILING effects on the TRV

Bottom-effectLook for Skewness!

Bottom-and-ceiling effectLook for Kurtosis!

You find a skewness of magnitude 1

You see that this is caused by an cutting-point at 0.5

A cutting-point at 0.5 leads to an decreased variability of 70%