Click here to load reader
Upload
phungkhanh
View
214
Download
0
Embed Size (px)
Citation preview
Item-response Theorie (Probablistiche Testtheorie)
Grundidee der item-response Theorie ist, dass die Antworten auf die Testitems
lediglich Indikatoren für eine zu messende latente Variable (Traits, Klassen)
sind. Je nach Ausprägung auf dieser latenten Variablen sind die verschiedenen
möglichen Antworten und Antwortmuster unterschiedlich wahrscheinlich.
Bei latent-trait Modellen lassen sich die Wahrscheinlichkeiten der verschiedenen
Antworten auf ein Item als Funktionen darstellen (Itemcharakteristische (IC)
Funktion bei dichotomen Items, Kategoriencharakteristiken bei mehrfach
abgestuften Items).
Dichotomes Rasch Modell:
Rasch-Homogenität: ijuj
uj
ui
ui
pXp
pXp
pXp
pXp κ+==
===
)|0(
)|1(ln
)|0(
)|1(ln
Repräsentationstheorem (Existenzsatz):
Die Variablen X1, ... ,Xm sind genau dann Rasch-homogen, wenn es eine reelle
Zufallsvariable θ gibt, so dass für alle i=1, … ,m gilt :
( ) ( )iuiui
ui
ui
uii pXp
pXp
pXp
pXp
pXp τκθ logit)|1(logit:)|1(1
)|1(ln
)|0(
)|1(ln ===
=−==
===−
Für die IC-Funktionen der Items X1, ... ,Xm gilt dann:
( )1
)|1(
11
exp−
=
=−
ui
i
pXp
κθ ⇔
( )
( )( )i
i
i
ui pXpκθ
κθ
κθ−+
−=+
−
==exp1
exp
1exp
11
)|1(
Die logit-transformierten wahren Werte der verschiedenen Items unterscheiden
sich demnach nur um eine Konstante. Daher sind genau wie bei dem Modell
essentiell τ-äquivalenter Items spezifische objektive Vergleiche von Personen
und Items möglich (d.h. die Differenzen der zweier Personenparameter hängen
nicht von der Itemstichprobe ab und die Unterschiede von Itemparametern
hängen nicht von der Personenstichprobe ab). Die Personenparameter und die
Itemparameter haben Differenzskalenniveau.
Skalierung:
In der Praxis sind jedoch weder die Personen- noch die Itemparameter bekannt.
Sie werden mit maximum-likelihood Verfahren geschätzt, d.h. es werden
diejenigen Werte für die Item- und Personenparameter bestimmt, bei denen die
empirischen Itemantworten die höchste Wahrscheinlichkeit haben. Zur
Schätzung der Itemparameter müssen weder die Personenparameter noch deren
Verteilung(-sform) bekannt sein.
Je größer der Summenscore einer Person ist, desto höher ist der geschätzte
Personenparameter. Der Summenscore ist eine erschöpfende Statistik, d.h. der
(geschätzte) Personenparameter hängt ausschließlich vom Summenscore ab.
Empirischer Gehalt:
Die Rasch-Homogenität der Items impliziert, dass die Itemparameter in jeder
Subpopulation (bis auf Translationen) gleich sind. Dies lässt sich für zwei
Stichproben anhand eines Scatterplots beurteilen. Bei Gültigkeit des
Raschmodells müssen die Itemparameter (in etwa) auf der ersten
Winkelhalbierenden liegen. (Bei Modellgeltung sind diskordante Itempaare das
Resultat von Schätzfehlern, vgl. Mokken-Modell). Der Mittelwert der
Itemparameter muss dabei in beiden Stichproben auf 0 normiert werden (→
zulässige Transformation). Inferenzstatistisch lässt sich die Gültigkeit des
Raschmodells mit dem Likelihood-Quotienten Test überprüfen (erfordert
bedingte stochastische Unabhängigkeit der Items). Weitere testbare
Konsequenzen aus dem dichotomen Rasch-Modelle findet man bei Steyer und
Eid (1993).
Messgenauigkeit:
Der Itemparameter entspricht im dichotomen Raschmodell dem Wendepunkt der
Itemcharakteristik. Hier hat die IC ihren steilsten Anstieg (d.h. an dieser Stelle
bewirken Unterschiede in der latenten Variablen die größten Unterschiede in der
Antwortwahrscheinlichkeit). Je näher also der Personenparameter an den
Itemparametern des Tests liegt, desto stärker ist der Zusammenhang zwischen
Unterschieden in Antwortverhalten und der Ausprägung auf der latenten
Variablen. Die latente Variable kann daher umso genauer geschätzt werden, je
mehr sich Item- und Personenparameter entsprechen. Bei mittleren
Itemschwierigkeiten ist der Fehler bei der Schätzung der Personenparameter
also am kleinsten. Da der Schätzfehler von der Ausprägung auf der latenten
Variablen abhängt, ist er nicht für alle Personen gleich. Beim adaptiven Testen
wird versucht jeder Person möglichst nur solche Items zu präsentieren, die ihrer
Merkmalsausprägung entsprechen, indem man während die Schätzung der
Personenparameter aufgrund der bereits beantworten Items laufend aktualisiert.
Dies führt zu kurzen Test mit hoher Messgenauigkeit.
Parameterschätzungen im Rasch-Modell:
Für die Parameterschätzung im Rasch-Modell greift man auf die Maximum-
Likelihood Methode zurück. Man wählt also die Werte der Parameter, bei denen
sich für die erhaltenen Daten die höchste (bedingte) Wahrscheinlichkeit ergibt.
Unter der Annahme der stochastischen Unabhängigkeit der Itemantworten gilt:
( ) ( )( )( )
( )( )
( )
( )
( )
( )
1 1
1 1
1 1
! 1
1 1
1 1 1 1
1 1
exp
1 exp
exp
1 exp
exp
1 exp
exp
1 exp
exp
N kvi v i
v i v i
N k
vi v iv i
N k
v iv i
N k
vi v iv i
N k
v iv i
N k N k
vi v vi iv i v iN k
v iv i
XL Daten Modell
X
X
X X
θ κθ κ
θ κ
θ κ
θ κ
θ κ
θ κ
θ κ
θ
= =
= =
= =
= =
= =
= = = =
= =
−=
+ −
−=
+ −
� �−� �� �=
+ −
� �−� �� �=
+ −
=
∏∏
∏∏
∏∏
��
∏∏
�� ��
∏∏
( )1 1 1 1
1 1
1 exp
N k k N
v vi i viv i i v
N k
v iv i
X Xκ
θ κ
= = = =
= =
� �� � � �−� �� � � �� � � �� �
+ −
� � � �
∏∏
Man erkennt, dass die Likelihood nicht davon abhängt, welche Items von
welcher Person gelöst wurden. Skalensummenwert und Anzahl richtiger
Antworten pro Item enthalten also alle Information, die für die Schätzung der
Modellparameter benötigt werden, d.h. sie sind suffiziente Statistiken.
Da der Logarithmus eine streng monotone Funktion ist darf man vor der
Bestimmung des Maximums logarithmieren
( )( )1 1 1 1 1 1
log log 1 expN k k N N k
v vi i vi v iv i i v v i
L X Xθ κ θ κ= = = = = =
� � � �= − − + −� � � �� � � �
� � � � ��
Leider lässt sich auf analytischem Weg nicht das Maximum dieser Funktion
bestimmen, so dass man auf iterative Verfahren zurückgreifen muss. Dabei
macht man sich zunutze, dass für die ML-Schätzung der Skalensummenwert
jeder Person gleich der Summe der (geschätzten) Lösungswahrscheinlichkeiten
ist
( )( )1 1
exp
1 exp
k kv i
vii i v i
Xθ κ
θ κ= =
−=
+ −� �
und dass die Summe der richtigen Antworten bei jedem Item ebenfalls gleich
der Summe der Lösungswahrscheinlichkeiten ist
( )( )1 1
exp
1 exp
N Nv i
viv v v i
Xθ κ
θ κ= =
−=
+ −� � .
ML-Schätzungen der Personen- und Itemparameter sind zwar konsistent, aber
bei kleinen Personen- und Itemstichproben relativ ungenau. Besser ist die
Schätzung der Itemparameter über die bedingte ML-Methode (dabei wird die
Likelihood der Personenparameter unabhängig von den Itemparametern
ermittelt) und der Personenparameter über die gewichtete ML-Methode (sie
beruht darauf dass zumindest Schätzungen der Itemparameter bekankt sind).
Problem: die kann Likelihood-Funktion mehrere Maxima haben.
Genauigkeit der Parameterschätzungen:
Der Varianz der Parameterschätzungen entspricht dem Kehrwert der
Informationsfunktion (dies ist die zweite partielle Ableitung logarithmierten
Likelihood-Funktion nach den gesuchten Parametern).
( ) ( ) ( ) ( )2
ˆ2
11
1 1 1kk
iiii
IXI
θσ ε θθ σ θθ
==
≈ = =� �� �� �
��bzw.
( ) ( ) ( ) ( )2
ˆ2
11
1 1 1NN
iivv
IXI
κσ ε κκ σ κκ
==
≈ = =� �� �� �
��
Die Schätzung ist also umso genauer je größer die bedingten Varianzen sind.