Benutzbarkeit von Testkennwerte Jörg M. Müller – Universität Tübingen

Preview:

Citation preview

Benutzbarkeit von Testkennwerte

Jörg M. Müller – Universität Tübingen

http://www.joergmmueller.de/default.htm

1. Motivation: Praxis der Testauswahl

2. Konzepte und Maße der Messgenauigkeit

3. Skalierung von Maßen der Messgenauigkeit

4. 16 Kriterien der Benutzbarkeit

5. Ausblick

Gliederung

Testbeschreibung über Kennwerte ist notwendig!

Kennwerte werden selten berücksichtigt.

Welche Gründe liegen hinter der Testauswahl:- Werden alle wichtigen Testeigenschaften anhand von

Kennwerten repräsentiert?

- Welche Gründe spielen neben den psychometrischen

Eigenschaften eine Rolle?

- Werden die Informationen angemessen kommuniziert?

1. Motivation: Praxis der Testauswahl

2. Konzeptuelle Varianten zur Messgenauigkeit

Reliabilität Informations-funktion

Messfehler

Überein-stimmung

Informations-theorie

Kovarianz-struktur

M e s s g e n a u i g k e i t

2. Zusammenhangsmaße als Indikator der Messgenauigkeit

Konzept

Index/TT

Schätzer

Randbedingung

Inhalt

VarianzquotientReliabilität

Korrelation t1,t2

Metrische Begriffe

Formel

M e s s g e n a u i g k e i t

dcA2

baA1

B2B1

adbc

adbdY

1

1

Übereinstimmungs-quotient

Kategoriale Begriffe

KTT

N

i yx

ii

ssN

yyxxr

122

1. Fragestellung: Sind die Ausprägungen verschiedener Maße der Messgenauigkeit vergleichbar?

3. Skalierung von Kennwerten

Pearson-Korrelation

Yules Y, Phi, Kappa

Fisher-Z Transformation für Intervallskalierung

?

Keine Transformation für Intervallskalierung?

3. Simulationsstudie anhand von SAS-Markos

Y/ Kappa/ Phi

Korrelation Y/ Kappa/ Phi Q

Y/ Kappa/ Phi

Korrelation

SMCY/Kappa/Phi

Q

Korrelation

Phi

SMC

Phi

Kappa

SMC

KappaZusammenhangsmaßZus

amm

enha

ngsm

Zusammenhangsmaß

dcA2

baA1

B2B1

Dichotomisiert Bivariat Normalverteilt-Gleiche Randsummen

Bivariat Rechtsteil-Ungleiche Randsummen

Sind die Ausprägungen verschiedener Maße

der Messgenauigkeit vergleichbar?

3. Skalierung von Kennwerten

Pearson-Korrelation

Yules Y, Phi, Kappa

Fisher-Z Transformation für Intervallskalierung

?

Keine Transformation für Intervallskalierung?

‚In essence, this is a scaling problem‘ (Conger & Ward, 1984, S.307).

1. Numerische Ausprägung, Skalierung, Wertebereich

2. ‚Operational-Meaning‘ (Goodmann & Kruskal, 1954) Interpretationskonzept ‚Proportional-reduction-in-error‘ (Costner, 1965) mit unterschiedlichen Fehlerkonzepten (Übereinstimmung vs. Distanzen).

3. Abhängigkeit von Randbedingungen (Messwertverteilung)

4. Etc.

3. Unterschiede zwischen Kennwerten

Interpretierbarkeit

Skalierung

Grundlagen

4. Kriterien der Benutzbarkeit

1. Eindeutigkeit2. Hohe Anwendungsbreite3. Relevante Abhängigkeit4. Unabhängigkeit von irrelevanten Einflüssen5. Kriterien der Parameterschätzung6. Positive und ganze Zahlen7. Linearität zur Unit-in-Change 8. Intervallskalenniveau9. Signifikante Einheiten10. Relevanz11. Unmittelbarer Bezug12. Angabe der notwendigen Höhe13. Maßeinheit14. Erlernbarkeit15. Vertrautheit16. Eindeutige operationale Aussage

(Fehlerspezifisch)

5. Ausblick I: Alternative Skalierung: DifferenziertheitKonzept: Anzahl unterscheidbarer Messergebnisse

Gesamter Messwertrange R

Messwertverteilung

x1 x2

KritischeDifferenz k

KritischeDifferenz k

KritischeDifferenz k

KritischeDifferenz k

KritischeDifferenz k

ttx rsxx 1296,105.012Formel

R = Range der Testscores

k = kritische Differenz

21

1*2

2

ttrk

RD

5. Ausblick II: Weiterführende Fragen

1. Konzeptuell- Messgenauigkeit und Messsicherheit?- Anzahl Messergebnisse und die Unterscheidungssicherheit

2. Theoretisch - Usability von Kennwerten und die Mentale Repräsentation

von Zahlen bzw. kognitiver Modelle der Zahleninterpretation

3. Empirisch- Welcher Bedarf nach Kennwerten besteht in der Praxis?

Diskussion

Vielen Dank für Ihre Aufmerksamkeit

1. Eindeutigkeit/Vergleichbarkeit

Erläuterung: ‚Eindeutigkeit‘ verweist auf die Notwendigkeit einer algorithmischen Definition.

Beispiel: Phi-Koeffizient

Ursache: Randbedingungen

• Null-Felder, Kontinuitätskorrektur, zeitlicher Abstand der Messwiederholung, etc.

2. Hohe Anwendungsbreite

Erläuterung: ‚Hohe Anwendungsbreite‘ verweist auf

die Voraussetzungen (Skalenniveau, Verteilung, etc.)

eines Kennwertes. Dies kann dazu führen, dass ein

Kennwert nicht für alle auf dem Markt befindlichen

Tests ermittelt werden kann. Hierdurch wird wiederum

die Vergleichbarkeit von Tests eingeschränkt.

3. Relevante Abhängigkeit

Erläuterung: ‚Relevante Abhängigkeit‘ verweist auf

Testaspekte, die in einem sinnvollen Zusammenhang

mit dem intendierten Testaspekt stehen.

Beispiel: Zusammenhang der Messgenauigkeit mit der

Testlänge.

4. Unabhängigkeit von irrelevanten Einflüssen

Erläuterung: ‚Irrelevante Einflüsse‘ verweist auf

Faktoren, die nicht in einem sinnvollen

Zusammenhang zum intendierten Testaspekt stehen.

Beispiel: Die Beeinflussung der Reliabilität durch die

wahre Varianz.

5. Kriterien der Parameterschätzung

Erläuterung: ‚Kriterien der Parameterschätzung‘

beziehen sich auf die von Fisher aufgestellten Kriterien

der Konsistenz, Suffizienz, Effizienz und

Erwartungstreue.

6. Positive und ganze Zahlen

Erläuterung: ‚Positive und ganze Zahlen‘ beziehen sich auf den

Wertebereich des Kennwertes. Es wird dabei unterstellt, dass

Dezimalbrüche leichter als ganze Zahlen fehlinterpretiert

werden. In gleichem Sinne sind positiv Werte negativen

vorzuziehen. Vor dieser Maßgabe ist der Wertebereich der

Korrelation nicht optimal gestaltet (vgl. hierzu die

Differenziertheit).

7. Linearität zur Unit-in-Change

Erläuterung: ‚Linearität zur Unit-in-Change‘

- Im Falle der Messgenauigkeit betrifft dies die Beziehung der Reliabilität zum Messfehler.

- Im Falle der Übereinstimmung betrifft dies die Beziehung von Yules Y zur Veränderung der Zellhäufigkeit a bzw. d.

Korrelation/Reliabilität

Standardmessfehler

Yules Y

Freq (Zelle a)

8. Intervallskalenniveau

Erläuterung: ‚Intervallskalenniveau‘ verweist darauf, dass Differenzen zwischen Koeffizienten über den gesamten Wertebereich vergleichbar sind.

Beispiel: Die Korrelation muss Fisher-Z transformiert werden.

9. Signifikante Einheiten

Erläuterung: ‚Signifikante Einheit‘ verweist darauf, dass Unterschiede zwischen zwei Tests nicht aufgrund von Zufallsschwankungen erklärt werden können.

Schlussfolgerung: Aus dieser Überlegung lässt sich umgekehrt eine Mindestumfang einer Normierungsstichprobe fordern. Hierdurch würde sichergestellt, dass Kennwerte ab eines praktisch bedeutsamen Unterschiedes auch statistisch signifikant verschieden sind.

10. Relevanz

Erläuterung: ‚Relevanz‘ verweist darauf, dass mit der

Zunahme an Testaspekten eine Auswahl zwischen den

Testkennwerten getroffen werden muss. Nicht alle

Testaspekte sind gleich relevant bzw. bedeutsam aus

der Sicht der Praxis.

11. Unmittelbarer Bezug

Erläuterung: ‚Unmittelbare Bezug‘ verweist darauf, dass ein Indikator eines Messaspekte nicht mittelbar bzgl. des Inhaltes verknüpft ist.

Beispiel: Die Reliabilität steht nur mittelbar in Beziehung zum Messfehler.

12. Angabe der notwendigen Höhe

Erläuterung: ‚Angabe der notwendigen Höhe‘ verweist darauf, dass ein Praktiker die zur Beantwortung einer diagnostischen Fragestellung notwendigen Testeigenschaft benennen kann.

Beispiel: ein Testanwender sollte im Falle eines Screenings eine geringen Messgenauigkeit (D=2) einfordern.

Hintergrund: In der Regel kann kein Aspekt maximiert werden (z.B. Messgenauigkeit), ohne einen anderen relevanten Aspekt (z.B. Aufwand der Testung) negativ zu beeinflussen. Entsprechend wiederspricht dieser Aspekt einem ‚je höher-desto besser‘.

13. Maßeinheit

Erläuterung: ‚Maßeinheit‘ verweist darauf, dass die Höhe eines Kennwertes nur dann interpretiert werden kann, wenn die Maßeinheit bekannt ist.

Beispiel: kein sinnvolle Maßeinheit Varianz der Messwerte im Falle der Reliabilität (vgl. hierzu die Differenziertheit mit ihrer ‚kritischen Differenz‘ als sinnvolle Maßeinheit).

14. Erlernbarkeit

Erläuterung: ‚Erlernbarkeit‘ verweist auf Voraussetzung beim Testanwender, damit dieser den Kennwert angemessen interpretieren kann.

Beispiel: Bezüglich der Messgenauigkeit scheinen Kennwerte aus der KTT denen der IRT aus Sicht des Anwenders überlegen zu sein.

15. Vertrautheit

Erläuterung: ‚Vertrautheit‘ verweist auf die Abwägung der Vorteile neuer Maße gegenüber der Bekanntheit etablierter Maße.

Hintergrund: Der Aufwand zur Ergänzung (vgl. Relevanz) bzw. Ersetzung bekannter Maße muss in einem vertretbaren Verhältnis stehen.

16. Eindeutige operationale Aussage (Fehlerspezifisch) - Entscheidungsfehler

Erläuterung: Der Aspekte der ‚eindeutigen operationale Aussage‘ (operational meaning; Goodmann & Kruskal, 1954) verweist im Kontext der Messgenauigkeit darauf, dass in der Diagnostik unterschiedliche Arten von Fehlern bedeutsam sein können (vgl. Nayman-Pearson-Kriterium).

Sensitivität (die Sicherheit der Diagnose einer vorhandenen Störung bzw. im metrischen Kontext der Überschätzung einer Fähigkeit) und die

Spezifität (die Sicherheit der ‚Gesund-Diagnose‘ bei tatsächlich fehlender Störung bzw. im metrische Kontext der Unterschätzung einer Fähigkeit).

2. Kennwert: Personenunterscheidungsvermögen (PUV)

2

)1(*

nntU

Formel

tU

sUPUV

n

ji jiji

jijiji kxxwenns

kxxwennsssU

, ,

,, ,0

,1

Eine Gleichverteilung zeigt eine 80 %

Unterscheidungs-wahrscheinlichkeit

Eine Normalverteilung zeigt eine 60 %

Unterscheidungs- wahrscheinlichkeit

Vollständiger Paarvergleich

PUV: Praktisches Beispiel

Subskala ‚Resignation‘ des Stressverarbeitungsfragebogens für Kinder und Jugendliche (SVF-KJ; Hampel, Petermann & Dickow, 1999; N=1123)

Subskala ‚Unsicherheit‘ der Symptomcheckliste SCL-90-R (Derogatis, 1977; Franke, 1995; N=875)

r = 0.81

PUV = 41.6 % PUV = 30,6 %

r = 0.81

Recommended