Item-response Theorie (Probablistiche Testtheorie) · PDF fileEmpirischer Gehalt: Die Rasch-Homogenität der Items impliziert, dass die Itemparameter in jeder Subpopulation (bis auf

Item-response Theorie (Probablistiche Testtheorie)

Grundidee der item-response Theorie ist, dass die Antworten auf die Testitems

lediglich Indikatoren für eine zu messende latente Variable (Traits, Klassen)

sind. Je nach Ausprägung auf dieser latenten Variablen sind die verschiedenen

möglichen Antworten und Antwortmuster unterschiedlich wahrscheinlich.

Bei latent-trait Modellen lassen sich die Wahrscheinlichkeiten der verschiedenen

Antworten auf ein Item als Funktionen darstellen (Itemcharakteristische (IC)

Funktion bei dichotomen Items, Kategoriencharakteristiken bei mehrfach

abgestuften Items).

Dichotomes Rasch Modell:

Rasch-Homogenität: ijuj

uj

ui

ui

pXp

pXp

pXp

pXp κ+==

===

)|0(

)|1(ln

)|0(

)|1(ln

Repräsentationstheorem (Existenzsatz):

Die Variablen X1, ... ,Xm sind genau dann Rasch-homogen, wenn es eine reelle

Zufallsvariable θ gibt, so dass für alle i=1, … ,m gilt :

( ) ( )iuiui

ui

ui

uii pXp

pXp

pXp

pXp

pXp τκθ logit)|1(logit:)|1(1

)|1(ln

)|0(

)|1(ln ===

=−==

===−

Für die IC-Funktionen der Items X1, ... ,Xm gilt dann:

( )1

)|1(

11

exp−

=

=−

ui

i

pXp

κθ ⇔

( )

( )( )i

i

i

ui pXpκθ

κθ

κθ−+

−=+

−

==exp1

exp

1exp

11

)|1(

Die logit-transformierten wahren Werte der verschiedenen Items unterscheiden

sich demnach nur um eine Konstante. Daher sind genau wie bei dem Modell

essentiell τ-äquivalenter Items spezifische objektive Vergleiche von Personen

und Items möglich (d.h. die Differenzen der zweier Personenparameter hängen

nicht von der Itemstichprobe ab und die Unterschiede von Itemparametern

hängen nicht von der Personenstichprobe ab). Die Personenparameter und die

Itemparameter haben Differenzskalenniveau.

Skalierung:

In der Praxis sind jedoch weder die Personen- noch die Itemparameter bekannt.

Sie werden mit maximum-likelihood Verfahren geschätzt, d.h. es werden

diejenigen Werte für die Item- und Personenparameter bestimmt, bei denen die

empirischen Itemantworten die höchste Wahrscheinlichkeit haben. Zur

Schätzung der Itemparameter müssen weder die Personenparameter noch deren

Verteilung(-sform) bekannt sein.

Je größer der Summenscore einer Person ist, desto höher ist der geschätzte

Personenparameter. Der Summenscore ist eine erschöpfende Statistik, d.h. der

(geschätzte) Personenparameter hängt ausschließlich vom Summenscore ab.

Empirischer Gehalt:

Die Rasch-Homogenität der Items impliziert, dass die Itemparameter in jeder

Subpopulation (bis auf Translationen) gleich sind. Dies lässt sich für zwei

Stichproben anhand eines Scatterplots beurteilen. Bei Gültigkeit des

Raschmodells müssen die Itemparameter (in etwa) auf der ersten

Winkelhalbierenden liegen. (Bei Modellgeltung sind diskordante Itempaare das

Resultat von Schätzfehlern, vgl. Mokken-Modell). Der Mittelwert der

Itemparameter muss dabei in beiden Stichproben auf 0 normiert werden (→

zulässige Transformation). Inferenzstatistisch lässt sich die Gültigkeit des

Raschmodells mit dem Likelihood-Quotienten Test überprüfen (erfordert

bedingte stochastische Unabhängigkeit der Items). Weitere testbare

Konsequenzen aus dem dichotomen Rasch-Modelle findet man bei Steyer und

Eid (1993).

Messgenauigkeit:

Der Itemparameter entspricht im dichotomen Raschmodell dem Wendepunkt der

Itemcharakteristik. Hier hat die IC ihren steilsten Anstieg (d.h. an dieser Stelle

bewirken Unterschiede in der latenten Variablen die größten Unterschiede in der

Antwortwahrscheinlichkeit). Je näher also der Personenparameter an den

Itemparametern des Tests liegt, desto stärker ist der Zusammenhang zwischen

Unterschieden in Antwortverhalten und der Ausprägung auf der latenten

Variablen. Die latente Variable kann daher umso genauer geschätzt werden, je

mehr sich Item- und Personenparameter entsprechen. Bei mittleren

Itemschwierigkeiten ist der Fehler bei der Schätzung der Personenparameter

also am kleinsten. Da der Schätzfehler von der Ausprägung auf der latenten

Variablen abhängt, ist er nicht für alle Personen gleich. Beim adaptiven Testen

wird versucht jeder Person möglichst nur solche Items zu präsentieren, die ihrer

Merkmalsausprägung entsprechen, indem man während die Schätzung der

Personenparameter aufgrund der bereits beantworten Items laufend aktualisiert.

Dies führt zu kurzen Test mit hoher Messgenauigkeit.

Parameterschätzungen im Rasch-Modell:

Für die Parameterschätzung im Rasch-Modell greift man auf die Maximum-

Likelihood Methode zurück. Man wählt also die Werte der Parameter, bei denen

sich für die erhaltenen Daten die höchste (bedingte) Wahrscheinlichkeit ergibt.

Unter der Annahme der stochastischen Unabhängigkeit der Itemantworten gilt:

( ) ( )( )( )

( )( )

( )

( )

( )

( )

1 1

1 1

1 1

! 1

1 1

1 1 1 1

1 1

exp

1 exp

exp

1 exp

exp

1 exp

exp

1 exp

exp

N kvi v i

v i v i

N k

vi v iv i

N k

v iv i

N k

vi v iv i

N k

v iv i

N k N k

vi v vi iv i v iN k

v iv i

XL Daten Modell

X

X

X X

θ κθ κ

θ κ

θ κ

θ κ

θ κ

θ κ

θ κ

θ

= =

= =

= =

= =

= =

= = = =

= =

−=

+ −

−=

+ −

� �−� �� =

+ −

� �−� �� =

+ −

=

∏∏

∏∏

∏∏

��

∏∏

��

∏∏

( )1 1 1 1

1 1

1 exp

N k k N

v vi i viv i i v

N k

v iv i

X Xκ

θ κ

= = = =

= =

� �� −� ��

+ −

� � � �

∏∏

Man erkennt, dass die Likelihood nicht davon abhängt, welche Items von

welcher Person gelöst wurden. Skalensummenwert und Anzahl richtiger

Antworten pro Item enthalten also alle Information, die für die Schätzung der

Modellparameter benötigt werden, d.h. sie sind suffiziente Statistiken.

Da der Logarithmus eine streng monotone Funktion ist darf man vor der

Bestimmung des Maximums logarithmieren

( )( )1 1 1 1 1 1

log log 1 expN k k N N k

v vi i vi v iv i i v v i

L X Xθ κ θ κ= = = = = =

� � � �= − − + −� � � ��

� � � � ��

Leider lässt sich auf analytischem Weg nicht das Maximum dieser Funktion

bestimmen, so dass man auf iterative Verfahren zurückgreifen muss. Dabei

macht man sich zunutze, dass für die ML-Schätzung der Skalensummenwert

jeder Person gleich der Summe der (geschätzten) Lösungswahrscheinlichkeiten

ist

( )( )1 1

exp

1 exp

k kv i

vii i v i

Xθ κ

θ κ= =

−=

+ −� �

und dass die Summe der richtigen Antworten bei jedem Item ebenfalls gleich

der Summe der Lösungswahrscheinlichkeiten ist

( )( )1 1

exp

1 exp

N Nv i

viv v v i

Xθ κ

θ κ= =

−=

+ −� � .

ML-Schätzungen der Personen- und Itemparameter sind zwar konsistent, aber

bei kleinen Personen- und Itemstichproben relativ ungenau. Besser ist die

Schätzung der Itemparameter über die bedingte ML-Methode (dabei wird die

Likelihood der Personenparameter unabhängig von den Itemparametern

ermittelt) und der Personenparameter über die gewichtete ML-Methode (sie

beruht darauf dass zumindest Schätzungen der Itemparameter bekankt sind).

Problem: die kann Likelihood-Funktion mehrere Maxima haben.

Genauigkeit der Parameterschätzungen:

Der Varianz der Parameterschätzungen entspricht dem Kehrwert der

Informationsfunktion (dies ist die zweite partielle Ableitung logarithmierten

Likelihood-Funktion nach den gesuchten Parametern).

( ) ( ) ( ) ( )2

ˆ2

11

1 1 1kk

iiii

IXI

θσ ε θθ σ θθ

==

≈ = =� ��

��bzw.

( ) ( ) ( ) ( )2

ˆ2

11

1 1 1NN

iivv

IXI

κσ ε κκ σ κκ

==

≈ = =� ��

��

Die Schätzung ist also umso genauer je größer die bedingten Varianzen sind.

Documents

Item-response Theorie (Probablistiche Testtheorie) · PDF fileEmpirischer Gehalt: Die Rasch-Homogenität der Items impliziert, dass die Itemparameter in jeder Subpopulation (bis auf