31
Lernskript 22.02.2007 Diagnostik-Skript von Sebastian Ullrich ([email protected]) Literatur Amelang, M. & Schmidt-Atzert, L. (2006). Psycholo- gische Diagnostik und Intervention (4. Auflage), Kap. 1-7. Berlin: Springer. Fisseni, H.-J. (2004). Lehrbuch der Psychologischen Diagnostik (3. Auflage), Kap. 4, 6. Göttingen: Hogrefe. Inhaltsverzeichnis 1 Testkonstruktion ............................................... 2 1.1 Grundlagen der Diagnostik .....................................2 1.2 Items und deren Einteilung .....................................2 1.3 Konstruktionsprinzipien ..........................................2 1.4 Itemanalyse...............................................................3 2 Klassische Testtheorie ...................................... 6 2.1 Axiome .....................................................................6 2.2 Implikationen ...........................................................6 2.3 Vertrauensbereiche für T .........................................6 2.4 Kritische Differenz ..................................................7 2.5 Kritik .........................................................................7 3 Item-Response-Theorie ..................................... 8 3.1 IC-Funktion ..............................................................8 3.2 Guttman-Modell .......................................................8 3.3 Rasch-Modell ...........................................................8 3.4 Birnbaum-Modell...................................................10 4 Objektivität ...................................................... 10 4.1 Durchführungsobjektivität ....................................10 4.2 Auswertungsobjektivität ........................................10 4.3 Interpretationsobjektivität .....................................10 4.4 Urteilerübereinstimmung.......................................10 5 Reliabilität ........................................................ 11 5.1 Paralleltestreliabilität .............................................11 5.2 Retestreliabilität .....................................................11 5.3 Halbierungsreliabilität ...........................................12 5.4 Konsistenzanalysen................................................12 5.5 Fazit ........................................................................13 6 Validität ........................................................... 13 6.1 Inhaltliche Validität ...............................................13 6.2 Augenscheinvalidität .............................................13 6.3 Kriteriumsbezogene Validität ...............................13 6.4 Konstruktvalidität ..................................................16 6.5 Fazit ........................................................................17 6.6 Höhe der Testkennwerte (1975)............................17 7 Nebengütekriterien...........................................17 7.1 Normierung oder Eichung .................................... 17 7.2 Fairness .................................................................. 18 7.3 Ökonomie .............................................................. 19 7.4 Nützlichkeit ........................................................... 19 7.5 Zumutbarkeit ......................................................... 19 7.6 Unverfälschbarkeit ................................................ 19 8 Diagnostischer Prozess .................................. 20 8.1 Erhebungsstrategien .............................................. 20 8.2 Entscheidungsstrategien ....................................... 21 8.3 Urteilsbildung ........................................................ 23 8.4 Urteilsfehler ........................................................... 23 8.5 Gutachtenerstellung .............................................. 23 9 Testverfahren .................................................. 24 9.1 Leistungstests ........................................................ 24 9.2 Persönlichkeitsfragebogen .................................... 26 9.3 Nichtsprachliche und objektive Persönlichkeitstests ............................................... 28 9.4 Projektive Verfahren ............................................. 29 9.5 Verhaltensbeobachtung......................................... 29 9.6 Diagnostisches Interview ...................................... 29 9.7 Gruppendiagnostik ................................................ 30

Diagnostik-Skript 7 Nebengütekriteriena9806297/Files/... · 2009. 12. 3. · Kapitel 1 - Testkonstruktion Seite 3 von 31 1.3.1.1 Vorgehen 1. Definition des zu erfassenden Konstrukts

  • Upload
    others

  • View
    8

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Diagnostik-Skript 7 Nebengütekriteriena9806297/Files/... · 2009. 12. 3. · Kapitel 1 - Testkonstruktion Seite 3 von 31 1.3.1.1 Vorgehen 1. Definition des zu erfassenden Konstrukts

Lernskript 22.02.2007

Diagnostik-Skript

von Sebastian Ullrich ([email protected])

Literatur

Amelang, M. & Schmidt-Atzert, L. (2006). Psycholo-gische Diagnostik und Intervention (4. Auflage), Kap. 1-7. Berlin: Springer. Fisseni, H.-J. (2004). Lehrbuch der Psychologischen Diagnostik (3. Auflage), Kap. 4, 6. Göttingen: Hogrefe.

Inhaltsverzeichnis

1 Testkonstruktion ...............................................2 1.1 Grundlagen der Diagnostik .....................................2 1.2 Items und deren Einteilung .....................................2 1.3 Konstruktionsprinzipien ..........................................2 1.4 Itemanalyse...............................................................3

2 Klassische Testtheorie......................................6 2.1 Axiome .....................................................................6 2.2 Implikationen ...........................................................6 2.3 Vertrauensbereiche für T.........................................6 2.4 Kritische Differenz ..................................................7 2.5 Kritik.........................................................................7

3 Item-Response-Theorie .....................................8 3.1 IC-Funktion ..............................................................8 3.2 Guttman-Modell.......................................................8 3.3 Rasch-Modell ...........................................................8 3.4 Birnbaum-Modell...................................................10

4 Objektivität...................................................... 10 4.1 Durchführungsobjektivität ....................................10 4.2 Auswertungsobjektivität........................................10 4.3 Interpretationsobjektivität .....................................10 4.4 Urteilerübereinstimmung.......................................10

5 Reliabilität ........................................................11 5.1 Paralleltestreliabilität .............................................11 5.2 Retestreliabilität .....................................................11 5.3 Halbierungsreliabilität ...........................................12 5.4 Konsistenzanalysen................................................12 5.5 Fazit ........................................................................13

6 Validität........................................................... 13 6.1 Inhaltliche Validität ...............................................13 6.2 Augenscheinvalidität .............................................13 6.3 Kriteriumsbezogene Validität ...............................13 6.4 Konstruktvalidität ..................................................16 6.5 Fazit ........................................................................17 6.6 Höhe der Testkennwerte (1975)............................17

7 Nebengütekriterien...........................................17 7.1 Normierung oder Eichung .................................... 17 7.2 Fairness .................................................................. 18 7.3 Ökonomie .............................................................. 19 7.4 Nützlichkeit ........................................................... 19 7.5 Zumutbarkeit ......................................................... 19 7.6 Unverfälschbarkeit ................................................ 19

8 Diagnostischer Prozess ..................................20 8.1 Erhebungsstrategien .............................................. 20 8.2 Entscheidungsstrategien ....................................... 21 8.3 Urteilsbildung........................................................ 23 8.4 Urteilsfehler ........................................................... 23 8.5 Gutachtenerstellung .............................................. 23

9 Testverfahren ..................................................24 9.1 Leistungstests ........................................................ 24 9.2 Persönlichkeitsfragebogen.................................... 26 9.3 Nichtsprachliche und objektive

Persönlichkeitstests ............................................... 28 9.4 Projektive Verfahren ............................................. 29 9.5 Verhaltensbeobachtung......................................... 29 9.6 Diagnostisches Interview...................................... 29 9.7 Gruppendiagnostik ................................................ 30

Page 2: Diagnostik-Skript 7 Nebengütekriteriena9806297/Files/... · 2009. 12. 3. · Kapitel 1 - Testkonstruktion Seite 3 von 31 1.3.1.1 Vorgehen 1. Definition des zu erfassenden Konstrukts

Kapitel 1 - Testkonstruktion Seite 2 von 31

1 Testkonstruktion Ein Test ist ein wissenschaftliches Routineverfahren zur Untersuchung eines oder mehrere empirisch ab-grenzbarer Persönlichkeitsmerkmale mit dem Ziel einer möglichst quantitativen Aussage über den relativen Grad der individuellen Merkmalsausprägung.

1.1 Grundlagen der Diagnostik „Psychodiagnostik ist eine Methodenlehre im Dienste der angewandten Psychologie. Soweit Menschen die Merkmalsträger sind, besteht ihre Aufgabe darin, inter-individuelle Unterschiede im Verhalten und Erleben sowie intraindividuelle Merkmale und Veränderungen einschließlich ihrer jeweils relevanten Bedingungen so zu erfassen, dass präzise Vorhersagen künftigen Ver-haltens und Erlebens sowie deren evtl. Veränderungen in definierten Situationen möglich werden“. (Amelang)

1.1.1 Diagnose

Feststellung, ob eine bestimmte Eigenschaft oder ein bestimmtes Merkmal vorliegt. Dient der Erfassung von Ursachen, Indikation, Evaluation.

1.1.2 Prognose

Vorhersage zukünftiger Zustände z.B. Rückfallgefahr bei Straftätern, Berufserfolg. Eigenschaftstheoretisch. Verhalten als Indikator („sign“) für eine Eigenschaft oder Merkmal „Trait“ als relativ breite und zeitlich stabile Dispositionen zu be-stimmten Verhaltensweisen, die konsistent in verschie-denen Situationen auftreten = Mittelwert der „States”, den aktuellen, temporären Zuständen, die aus Wech-selwirkung von Trait und Situation hervorgehen. Verhaltenstheoretisch. „The best predictor of future performance is past performance.“ Verhalten wird als Stichprobe („sample“) des vorherzusagenden Kriteri-umsverhaltens angesehen.

1.1.3 Weitere Aufgaben

Selektion. Ermittlung von Personen, die für eine Tä-tigkeit oder Intervention oder von Tätigkeiten und In-terventionen, die für eine Person geeignet sind Indikation. Ermittlung geeigneter Modifikationsmaß-nahmen, um einen problematischen Zustand in er-wünschter Richtung zu verändern Evaluation. Prüfung der Effektivität eingesetzter Mo-difikationsmaßnahmen

Bedürfnisbefriedigung. Streben nach Selbsterkennt-nis, Bedürfnis nach Unsicherheitsreduktion, Wunsch nach Rechtfertigung und Verwaltung Mangelzuständen (Selektion)

1.2 Items und deren Einteilung Items sind die Grundbausteine eines Tests. Es handelt sich dabei um Reize (auditiv, visuell, taktil usw.), auf die die Versuchsperson reagieren soll. Mögliche Arten der zu registrierenden Reaktion sind Kreuze in einem Fragebogen, Lösungszeiten, mimische oder andere Körperäußerungen, verbale Äußerungen (schriftlich oder mündlich), Zeichnungen usw.

1.2.1 Einteilung nach Art der Antwort

Gebunden. Auswahl- und Ordnungsaufgaben, die eher reaktives als kreatives Verhalten, aber gut auswertbar sind. Frei. Ergänzungsaufgaben und Kurzaufsätze, die zur Erfassung einer großen Verhaltensbreite dienen, aber schwer auszuwerten sind.

1.2.2 Einteilung nach Inhaltsumfang

Einfach. Benötigen wenig Vorwissen, meistens Stel-lungnahmen Komplex. Benötigen viel Vorwissen und komplexe Lösungsstrategien, die nicht direkt ersichtlich sind.

1.2.3 Einteilung nach Darstellungsform

Verbal. Wortgefasste Items, d.h. abhängig von Sprachkompetenz, die wiederum schicht- und bil-dungsabhängig ist. Nonverbal. Bildhafte Darstellungen zur Kompensation von Sprachkompetenzdefiziten. Problem bleibt aber bestehen, da Lösungen weiterhin verbal gegeben wer-den müssen.

1.3 Konstruktionsprinzipien Alle Strategien sind zielführend und werden meist sequentiell kombiniert, d.h. erst rationale Itemgenerie-rung mit anschließender Überprüfung mittels externa-len und internalen Methode.

1.3.1 Rational bzw. deduktiv

Inhalt und Format der Items werden von einer vorlie-genden Theorie/Konstrukt abgeleitet.

Page 3: Diagnostik-Skript 7 Nebengütekriteriena9806297/Files/... · 2009. 12. 3. · Kapitel 1 - Testkonstruktion Seite 3 von 31 1.3.1.1 Vorgehen 1. Definition des zu erfassenden Konstrukts

Kapitel 1 - Testkonstruktion Seite 3 von 31

1.3.1.1 Vorgehen

1. Definition des zu erfassenden Konstrukts 2. Generierung eines Itempools 3. Auswahl durch Experten-Rating 4. Empirische Überprüfung

1.3.1.2 Fazit

Pro: Hohe inhaltliche Stringenz, hohe Inhaltsvalidität und Homogenität, ökonomisch und leichter kommuni-zierbar Contra: Aufwendig, Validierung erforderlich Beispiel: HAWIE, Manifest Anxiety Scale

1.3.2 Internal bzw. induktiv

Blind analytische Gruppierung von Itemskalen mittels Korrelations- und Faktoranalysen. Gewonnene Fakto-ren werden erst hinterher interpretiert. Meistens zur Erfassung mehrdimensionaler Konstrukte verwendet.

1.3.2.1 Vorgehen

1. Generierung eines großen Itempools mit prinzipiell relevanten Items 2. Auswertung mittels Faktorenanalyse 3. Elimination von Items mit zu geringer oder Mehr-fachladungen (möglichst Einfachstruktur) 4. Bildung von Subskalen und inhaltliche Deutung 5. Itemselektion anhand der Itemanalyse

1.3.2.2 Fazit

Pro: Alternative bei fehlender Theorie, empirisch an-gepasste Skalenbildung Contra: Stichprobenabhängige Analysen, „garbage in, garbage out“-Problem, Keine klare Messintention Beispiel: NEO-FFI (Big Five)

1.3.3 External bzw. kriteriumsbezogen

Items sollen zwei Gruppen trennen, die anhand eines relevanten Kriteriums bestimmt werden. Items dienen der Gruppenzugehörigkeitserfassung.

1.3.3.1 Vorgehen

1. Gruppenbestimmung nach Kriterium 2. Generierung eines „breiten“ Itempools 3. Itembearbeitung durch die Gruppen 4. Auswahl der „trennenden“ Items

1.3.3.2 Fazit

Pro: Hohe Kriteriumsvalidität, verfälschungssicher durch geringe Augenscheinvalidität

Contra: Gefahr der Stichprobenabhängigkeit, deshalb ständige Kreuzvalidierung erforderlich; geringe interne Konsistenz durch hohe Heterogenität, deshalb längere Tests notwendig; Interpretation unzulässig, da nur das Kriterium zählt Beispiel: Staffeltest von Binet (Altersstufen), Minne-sota Multiphasic Personality Inventory

1.3.4 Prototypenansatz

Basis sind kognitive Eigenschaftskategorien. Diese werden hinsichtlich ihrer Prototypizität überprüft, wo-durch eine hohe Validität resultiert. Diese Methode ist daher besonders geeignet für die Erfassung von Tem-perament und Persönlichkeit, aber auch zur Erstellung validerer Skalen für soziale Intelligenz, Kreativität und Risikoneigung.

1.3.4.1 Vorgehen (Act Frequency Approach)

1. Benennung der Personen mit der zu erfassenden Eigenschaft x 2. Benennung typischer Verhaltensweisen als Indikato-ren für die Eigenschaft x 3. Einschätzung der Prototypizität der Verhaltenswei-sen für Eigenschaft x durch Dritte 4. Endversion: Probanden beantworten für sich das Auftreten der Verhaltensweisen

1.3.5 Persönlichkeits-Capability

Erfassung der Leichtigkeit mit der im situativen Kon-text das geforderte Verhalten gezeigt wird (Was kann eine Person, wenn sie nur will?). Hohe Korrelation von Persönlichkeitsfähigkeiten mit herkömmlichen Traitmaßen (Extraversion etc.).

1.3.6 Fragen nach maximaler Performanz

Ansteigende Antwortalternativen hinsichtlich eines Merkmals. Ähnlich einer Guttman-Skala.

1.4 Itemanalyse Ermittlung von Itemkennwerten im Sinne der Klassi-schen Testtheorie, d.h. stark stichprobenabhängig.

1.4.1 Schwierigkeitsindex

Der Schwierigkeitsindex

!

p gibt an, wie groß der relati-ve Anteil von Probanden ist, die ein Item „richtig“ (im Sinne höhere Merkmalsausprägung) beantworten. Je größer

!

p , desto leichter ist das Item; je kleiner, desto schwerer.

Page 4: Diagnostik-Skript 7 Nebengütekriteriena9806297/Files/... · 2009. 12. 3. · Kapitel 1 - Testkonstruktion Seite 3 von 31 1.3.1.1 Vorgehen 1. Definition des zu erfassenden Konstrukts

Kapitel 1 - Testkonstruktion Seite 4 von 31

1.4.1.1 Berechnung

!

p =NR

N ,bei Zeitbegrenzung

!

p =NR

NB

!

NR

= Zahl der Probanden mit richtiger Lösung

!

NB

= Zahl der Probanden, die das Item bearbeiteten

1.4.1.2 Zufallskorrektur

!

p =NR "

NF

m"1

N(B )

!

NF

= Zahl der Falschlöser

!

m = Anzahl der Antwortalternativen

!

p wird um den Anteil zufälliger Antworten korrigiert, deshalb besonders wichtig bei wenig Antwortalternati-ven. Wirkt sich je drastischer aus, je höher Zufallsein-fluss und Fehlerrate sind.

!

p kann negative Werte annehmen, die nicht interpre-tierbar sind, aber darauf hindeuten, dass es eine sehr schwere, aber leicht erscheinende Aufgabe ist.

1.4.1.3 Abgestufte Skalen

!

p ="x

2

"x2max

!

"x2 = Quadratsumme der erreichten Punkte

!

"x2max = Quadratsumme der erreichbaren Punkte

Intervall-Skalen-Niveau vorausgesetzt. Streuung berücksichtigt, da große Streuung = große Diskriminationsfähigkeit.

1.4.1.4 Fazit

!

p = .5 bedeutet größtmögliche Streuung von

!

s = .5 da

bei dichotomen Items gilt:

!

s = p " (1# p)

!

p = .5 ermöglicht hohe Trennschärfe und begünstigt die Homogenität, da die Streuung in die Kovarianz eingeht. Es gilt:

!

cov(x,y) = rxy " sx " sy

Wenn nur Items mit

!

p = .5 verwendet werden, könnte die Stichprobe in nur zwei Klassen zerfallen. Deshalb breite Streuung der Schwierigkeitsindizes bevorzugt (.1-.9), damit randständige Differenzierung möglich ist. Items mit

!

p = 1 trennen gar nicht, können aber als Eis-brecher oder zur Verschleierung genutzt werden.

1.4.1.5 Speed- vs. Niveautests

Für Speed- und Niveautests werden unterschiedliche Anforderungen an die Itemschwierigkeiten gestellt. Speedtests. Diese Tests sind dadurch definiert, dass bei unbegrenzter Zeitvorgabe alle Items von allen Proban-den gelöst werden, d.h.

!

p = 1. Der Anteil Schnellig-

keitskomponente an der Rohwertevarianz kann mit Hilfe des Speedindex

!

" ermittelt werden.

!

" = 1#rAtBp $ rApBt

rAtBt $ rApBp

!

A,B= Parallelformen eines Tests

!

p, t = Power- oder Time-limit-Bedingung Niveautests. Diese Tests sind dadurch definiert, dass auch bei unbegrenzter Zeitvorgabe von keinem Pro-banden alle Items gelöst werden, d.h. die Schwierigkeit der Items steigt stetig an. Die Niveaukomponente eines Tests kann durch den Niveauindex

!

w bestimmt wer-den. Für Niveautests gilt

!

u = n , weshalb

!

w = 1; für Speedtest gilt

!

u = m , weshalb

!

w = 0 .

!

w =u "m

n "m

!

n = Anzahl der Aufgaben

!

u = Mittelwert der Anzahl bearbeiteter Aufgaben

!

m = Mittelwert der Anzahl korrekter Lösungen

1.4.2 Trennschärfe

Klassisch. Korrelation des Itemscores mit dem Sum-menscore der Skala / des Tests = Differenzierungsfä-higkeit der Skala in „Löser“ und „Nichtlöser“. Probabilistisch. Steigung der Kurve (β) = Differenzie-rungsfähigkeit von Personen mit verschiedener Fähig-keit.

1.4.2.1 Berechnung

Die Berechnung für bei dichotomen Items und dicho-tomen Kriterium erfolgt über die 4-Felder-Korrelation; bei abgestuften Items über die Produkt-Moment-Korrelation, wobei Intervall-Skalen-Niveau vorausge-setzt wird. Im allgemeinen Fall von dichotomen Items erfolgt die Berechnung mittels Punkt-Biserialer-Korrelationskoeffizient:

p

p

s

xxr Rit

!"

!=

1

itr = Trennschärfe

!

xR

= Mittelwert des Skalenscore für „Löser“

!

x = Mittelwert des Skalenscores

!

s = Streuung des Skalenscores

!

p = Itemschwierigkeit (Abhängigkeit!)

1.4.2.2 Unterscheidung

Konvergent. Korrelation des Itemscores mit dem Summenscore seiner eigenen Skala. Diskriminant. Korrelation des Itemscores mit dem Summenscore einer anderen Skalen.

Page 5: Diagnostik-Skript 7 Nebengütekriteriena9806297/Files/... · 2009. 12. 3. · Kapitel 1 - Testkonstruktion Seite 3 von 31 1.3.1.1 Vorgehen 1. Definition des zu erfassenden Konstrukts

Kapitel 1 - Testkonstruktion Seite 5 von 31

Zielsetzung. Konvergente Trennschärfe soll größer sein als diskriminante Trennschärfen. Überprüfbar und erreichbar mit Faktorenanalysen.

1.4.2.3 part-whole-Korrektur

Korrektur des Summenscores um alle Anteile des betreffenden Items zu eliminieren, da Itemscore sonst Teil des Summenscores (algebraische Abhängigkeit), was zu einer Überschätzung der Korrelation führt. Auswirkung je größer, je weniger Items vorhanden sind und je kleiner, je homogener die Skala, da dann alle Items das Gleiche messen.

1.4.2.4 Fazit

Höhe der Trennschärfe abhängig von Kovarianzen bzw. Interkorrelationen der Items, die wiederum von der Streuung der Items, die wiederum von der Itemschwierigkeit, deshalb

!

p = .5 erwünscht. Hohe Trennschärfe theoretisch auch bei extremen p möglich, wenn Testwerteverteilung ebenfalls extrem schief ist (Sonderfall).

1.4.3 Stabilität & Selektion

Der Stabilitätsindex SI sowie der Selektionskennwert

elS nach Lienert werden besonders von der Trenn-

schärfe bestimmt.

1.4.3.1 Stabilitätsindex

iitsrSI !=

Maximale Stabilität dichotomer Items bei maximaler Trennschärfe von 1=

itr und maximaler Aufgabestreu-

ung von 5.=is , d.h. mittlere Schwierigkeit von

!

p = .5. Items ohne hohe Trennschärfe oder mit extremer Schwierigkeit leisten keinen Beitrag zur Stabilität, da Zugewinn an Differenzierungsfähigkeit nur minimal.

1.4.3.2 Selektionskennwert nach Lienert

!

Sel =rit

2 p " (1# p)=rit

2si

Forderung Items mit niedriger Trennschärfe

!

rit

trotz optimaler Schwierigkeit

!

p auszuscheiden und Items mit hoher Trennschärfe zu behalten, selbst bei extremer Schwierigkeit. Dient deshalb als Orientierungshilfe für homogene Niveautests, da keine Gefahr besteht zu viele Items mit extremer Schwierigkeit zu verlieren.

Im Einzelfall kann es jedoch auch auf die spezifische Intention der Testkonstruktion ankommen.

1.4.3.3 Selektion bei heterogenen Test

Prüfung der Lösungshäufigkeit (LH) in den vier Quar-tilen des Testscores. Die Verbindung der Häufigkeits-schwerpunkte sollte möglichst eine ansteigende Gerade bilden. Dies gilt im Beispiel für Item i, aber nicht für Item k (siehe Tabelle 1,vgl. Fisseni S. 45).

1.4.4 Homogenität

Ausmaß von formaler und inhaltlicher Einheitlichkeit. Je homogener der Test, desto weniger Merkmalsaspek-te werden erfasst. Im Sinne der Interkorrelation. Eine Skala ist homo-gen, wenn Items hoch miteinander korrelieren, da diese dann ähnliche Merkmalsfacetten erfassen. Im Sinne der Faktorenanalyse. Homogene Items laden gemeinsam auf demselben Faktor, d.h. Einfach-struktur = homogen. Im Sinne einer Guttman-Skala. Eine Skala ist homo-gen, wenn Probanden, die ein späteres Item lösen, auch alle vorherigen lösten. Nur wenige Skalen im Einstel-lungsbereich in dieser Form vorhanden. Homogenitäts-bestimmung über die Schätzformel von Loevinger möglich (vgl. Amelang S. 131/132). Im Sinne des Rasch-Modells. Homogene Items haben gleiche Verlaufskurven und sind nur auf der Fähig-keitsdimension verschoben. Tabelle 1 Beispielitems. Item i homogen, Item k nicht.

Quartil im Testscore LH Item i LH Item k

1. 0-6 Punkte 5 11

2. 7-14 Punkte 18 12

3. 15-21 Punkte 29 48

4. 22-30 Punkte 48 29

Page 6: Diagnostik-Skript 7 Nebengütekriteriena9806297/Files/... · 2009. 12. 3. · Kapitel 1 - Testkonstruktion Seite 3 von 31 1.3.1.1 Vorgehen 1. Definition des zu erfassenden Konstrukts

Kapitel 2 - Klassische Testtheorie Seite 6 von 31

2 Klassische Testtheorie Kein beobachteter Testwert gibt absolut verlässliche Auskunft über die tatsächliche Ausprägung des erfass-ten Merkmals, da innere und äußere Bedingungen einer Testung nicht so perfekt standardisiert sind, dass keine Störquellen wirksam werden. Die mögliche Differenz zwischen beobachtetem und wahrem Testwert wird auf Messfehler zurückgeführt. Der Testwert ergibt sich dabei aus der Summe der richtig gelösten Items.

2.1 Axiome Axiom 1:

!

X =T + E Ein beobachteter Wert

!

X setzt sich aus dem wahrem Wert

!

T und dem Fehlerwert

!

E zusammen, wobei der wahre Wert immer konstant bleibt. Axiom 2:

!

" E[ ] = E = #E = 0

Erwartungswert, Mittelwert und Summe der Fehler-werte sind für eine Person bei unendlich häufiger Mes-sung und für einmalige Messungen bei unendlich vie-len Personen gleich null. Axiom 3:

!

rT ,E = r

Ta,Eb = rEa,Eb = 0

Fehlerwert und wahrer Wert eines Tests sind unkorre-liert. Gleiches gilt für Fehlerwert und wahrer Wert und die Fehlerwerte zwei verschiedener Tests a und b.

2.2 Implikationen Die Folgerungen aus den Axiomen der KTT sind die Grundlage zur Berechnung der Reliabilität (Kapitel 5). Varianz:

!

sX

2= s

T

2+ s

E

2 Die Varianz der beobachteten Werte entspricht der Summe der Varianz der wahren Werte und der Fehler-varianz. Es gilt:

!

sX

2= s

T

2+ s

E

2+ 2 cov

T ,E

!

sX

2= s

T

2+ s

E

2+ 2(r

T ,E " sT " sE )

!

sX

2= s

T

2+ s

E

2+ 2(0 " s

T" sE)

!

sX

2= s

T

2+ s

E

2

Kovarianz:

!

covXa,Xb = cov

Ta,Tb = sT

2

Die Kovarianz der beobachteten Werte zweier Mes-sungen a und b entspricht der Kovarianz der wahren Werte. Da die wahren Werte desselben Tests aus 2maliger Testung identisch sind, ist auch die Kovarianz identisch mit der Varianz der wahren Werte. Es gilt:

!

covXa,Xb = cov

Ta,Tb+ covTa,Eb+ cov

Tb,Ea+ covEa,Eb

!

covXa,Xb = cov

Ta,Tb+ 0+ 0+ 0

!

covXa,Xb = cov

Ta,Tb

2.3 Vertrauensbereiche für T Da der beobachtete Wert meist nicht fehlerfrei gemes-sen wird und deshalb nicht dem wahren Wert ent-spricht, stellt sich die Frage, in welchem Bereich der wahre Wert tatsächlich liegt.

2.3.1 Standardmessfehler

!

sE

= sX" 1# r

tt

Der Standardmessfehler

!

sE

ist derjenige Anteil der Streuung eines Tests, der zu Lasten seiner Zuverlässig-keit geht.

2.3.1.1 Konfidenzintervall

!

VB = X ± z"2

# sE

!

z"2

= z-Wert des α-Fehlers (

!

z"2

= ±1.96 für α = 5%).

Mit dem Standardmessfehler ist eine Schätzung des Konfidenzintervalls oder auch Vertrauensbereichs

!

VB , in dem sich der wahre Wert befindet, um den beobach-teten Wert

!

X möglich.

2.3.2 Standardschätzfehler

!

sES

= sX" 1# r

tt" r

tt

Der Standardschätzfehler

!

sES

ist die Streuung der tat-

sächlichen Werte um die aufgrund der Regressionglei-chung vorhergesagten Werte.

2.3.2.1 Regressionsgleichung

!

T '= Mx

+ rtt" (X

i#M

x)

!

T ' = Schätzung des wahren Werts

!

Mx = Gruppenmittelwert der beobachteten Werte

!

Xi = Testwert des Probanden

Darstellung der Beziehung zwischen wahren und beo-bachteten Wert mittels Regressionsgleichung (Berück-sichtigung der Regression zur Mitte). Liegen mehrere Gruppenmittelwerte

!

Mx vor, so können sich mehrere

(auch abweichende) Schätzungen von

!

T ' ergeben. Dies ist ein Ausdruck der Stichprobenabhängigkeit der Wer-te, auch der wahren Werte, in der KTT.

2.3.2.2 Mutungsintervall

!

MI =T '±z"2

# sES

Mit dem Standardschätzfehler ist eine Schätzung des Mutungsintervalls

!

MI , in dem sich der wahre Wert befindet, um den geschätzten wahren Wert

!

T ' möglich.

Page 7: Diagnostik-Skript 7 Nebengütekriteriena9806297/Files/... · 2009. 12. 3. · Kapitel 1 - Testkonstruktion Seite 3 von 31 1.3.1.1 Vorgehen 1. Definition des zu erfassenden Konstrukts

Kapitel 2 - Klassische Testtheorie Seite 7 von 31

2.3.2.3 Unterschied zum Standardmessfehler

Beim Standardmessfehler wird der Testwert selbst als Schätzer für den wahren Wert angenommen; beim Standardschätzfehler nimmt man den mittels Regressi-on berechneten Wert aus Test- und Gruppenmittelwert zur Grundlage.

2.4 Kritische Differenz Dient zur Beantwortung der Frage: Wie weit müssen zwei Testwerte auseinander liegen, damit die Differenz auf einem gewählten Signifikanzniveau als bedeutend gilt?

2.4.1 Stichprobenfehler des Mittelwertes

N

ss

X

EM=

N

ss

X

EM

2

2=

Der Stichprobenfehler des Mittelwertes beschreibt den Bereich, in dem bei zufälliger Ziehung von Stichpro-ben aus der Grundgesamtheit deren Mittelwerte variie-ren, nämlich

EMsM ± .

Über diesen Stichprobenfehler lässt sich die kritische Differenz berechnen (vgl. Amelang S.53).

2.4.2 Berechnung

!

Dkrit(X1"X 2) = z#2

$ sX $ 2" (rtt1 + rtt2)

!

D = Kritische Differenz zwischen

!

X1 und

!

X2

!

rtt1

= Reliabilität des Test, zu dem

!

X1 gehört

!

rtt2

= Reliabilität des Test, zu dem

!

X2 gehört

2.5 Kritik Axiome. Die Axiome sind in sich geschlossen und logisch widerspruchsfrei, aber nicht empirisch über-prüfbar. Wahrer Wert. Die intraindividuelle Invarianz der wahren Werte ist nur vertretbar für kurze Zeiträume. Testwert. Der Testwert ist die Summe aller Items, dabei wird das Zustandekommen der Messung ebenso wie die Frage nach der Messbarkeit (Quantifizierbar-keit) des Antwortverhaltens nicht thematisiert. Es wird generell mindestens Intervall-Skalen-Niveau vorausge-setzt. Messfehler. Nullkorrelationen des Messfehlers prob-lematisch, da z.B. bei größeren Rohwerten größere Fehlerwerte oder bei niedrigen Rohwerten positive und bei großen Rohwerten negative Fehlerwerte anzuneh-men wären. Außerdem sind Situationen denkbar, in

denen die Messfehler zweier Items oder Tests kovariie-ren z.B. bei hoher Testangst oder Ermüdungseffekten. Kennwerte. Alle Kennwerte sind untrennbar mit der Referenzstichprobe verbunden, aus der sie gewonnen wurden. Die Anwendung auf Einzelfälle ist deshalb problematisch und zudem kann die Reliabilität künst-lich erhöht (bzgl. des Merkmals heterogene Stichprobe) oder gesenkt wird (bzgl. des Merkmals homogene Stichprobe). Weiterhin ist die Überprüfung der voraus-gesetzten Eindimensionalität aller Items im Rahmen der KTT nicht möglich (behelfsweise über Faktoren-analyse). Den Testwerten können daher auch mehrere oder gar keine „traits“ zugrunde liegen. Folgerungen. Verdünnungsparadox als Folgerung aus den Axiomen problematisch, da die kriteriumsbezoge-ne Validität mit steigender Reliabilität sinkt. Pragmatischer Vorteil. Trotz der gravierenden Kri-tikpunkte haben sich die auf Basis der KTT entwickel-ten Verfahren mehr oder weniger gut bewährt. Deshalb werden die meisten Tests auf Basis der KTT entwi-ckelt.

Page 8: Diagnostik-Skript 7 Nebengütekriteriena9806297/Files/... · 2009. 12. 3. · Kapitel 1 - Testkonstruktion Seite 3 von 31 1.3.1.1 Vorgehen 1. Definition des zu erfassenden Konstrukts

Kapitel 3 - Item-Response-Theorie Seite 8 von 31

3 Item-Response-Theorie Grundlage ist die Unterscheidung zwischen manifesten und den latenten Variablen („latent traits“), sprich zwi-schen dem beobachteten Verhalten und den dahinter liegenden Fähigkeiten oder Dispositionen.

3.1 IC-Funktion Latent-Trait-Modelle gehen davon aus, dass die Aus-prägungen verschiedener Probanden auf der Merk-malsdimension durch den Personenparameter ! (von

„ability“ oder auch ! ) und die merkmalsbezogenen Anforderungen der Items an die Personen durch den Itemparameter ! (von „difficulty“ oder auch ! ) cha-rakterisiert werden können. Die itemcharakteristische Funktion (IC-Funktion) stellt nun eine Beziehung zwischen Item- und Personenpa-rameter her. Die IC-Funktion liefert damit empirisch überprüfbare Annahmen über das manifeste Antwort-verhalten auf die Testitems in Abhängigkeit von der Ausprägung des latenten Merkmals. Beispiele sind in Abbildung 1 und Abbildung 2 dargestellt.

3.2 Guttman-Modell Das Guttman-Modell ist ein deterministisches Modell, das davon ausgeht, dass das Antwortverhalten voll-ständig durch die Item- und Personenparameter be-stimmt ist. Einfachster Fall: man annimmt, dass ein Item ab einer bestimmten Fähigkeit gelöst wird. Diese Annahme trifft das Skalogramm-Modell von Guttman (Abbildung 1). Wenn man die Items nach ihrer Schwierigkeit aufreiht, besagt das Modell, dass jede Person, die ein bestimmtes Item löst oder darauf positiv reagiert, auch alle vorhergehenden Items löst oder auf diese positiv reagiert.

Abbildung 1 IC-Funktion im deterministi-schem Guttman-Modell

Abbildung 2 IC-Funktion im probabilisti-schen Rasch-Modell

Diese Annahme und das Ordinal-Skalen-Niveau der Items stellen große Anwendungsprobleme für die psy-chodiagnostische Praxis dar. Es gibt deshalb nur weni-ge Skalen im Einstellungsbereich die diesen Prinzipien folgen z.B. die Skala sozialer Distanz.

3.3 Rasch-Modell Das Rasch-Modell ist ein einparametriges, probabilisti-sches Modell, bei dem eine stochastische Beziehung zwischen dem Antwortverhalten des Probanden und den Item- und Personenparameter

!

" und

!

" angenom-men wird. Außerdem lassen sich beide Parameter auf einer gemeinsamen Skala abbilden. Gesucht wird eine Wahrscheinlichkeitsfunktion

!

p = f (" #$) für die gilt, dass für

!

" = # die Lösungs-wahrscheinlichkeit

!

p = .5 beträgt (maximaler Informa-tionsgewinn) und dass diese bei positiver Differenz ansteigt, d.h.

!

" > # ,

!

p > .5, sowie umgekehrt bei einer negativen Differenz sinkt, d.h.

!

" < # ,

!

p < .5.

3.3.1 Logistische Funktion

!

p(x = 1) =e" #$

1+ e" #$

=NR

N

!

lnp

1" p= # "$

!

p = Lösungswahrscheinlichkeit, Schwierigkeitsindex ! = Personenparameter (Fähigkeit)

! = Itemparameter (Schwierigkeit) Die Lösungswahrscheinlichkeit entspricht dem Schwierigkeitsindex der KTT. Mit Hilfe der Inversen der logistischen Funktion, der Logit-Funktion ln, und dem Schwierigkeitsindex lassen sich somit Item- und Personenparameter berechen.

3.3.2 Schritte einer Rasch-Skalierung

1. Erstellung einer Matrix von Schwierigkeitsindizes für die verschiedenen Items und Teilgruppen (siehe 3.3.5 Kritik). 2. Transformation dieser Schwierigkeitsmatrix in eine Logit-Matrix in der dann die Differenzen von ! und

! stehen. 3. Iterative Schätzung der Personen- und Itemparame-ter aus der Logit-Matrix mit Hilfe der Maximum-Likelihood-Methode. Die Summe der Itemscores kön-nen nicht als Messwert für die Personen verwendet werden, da diese nicht in linearer Beziehung zu den Fähigkeitsschätzungen stehen. 4. Reproduktion der Ausgangsmatrix und Vergleich beider Matrizen mittels

!

"2-Test (Modelltest, außer-

dem sollte eine Residuenanalyse durchgeführt werden)

Page 9: Diagnostik-Skript 7 Nebengütekriteriena9806297/Files/... · 2009. 12. 3. · Kapitel 1 - Testkonstruktion Seite 3 von 31 1.3.1.1 Vorgehen 1. Definition des zu erfassenden Konstrukts

Kapitel 3 - Item-Response-Theorie Seite 9 von 31

5. Standardisierung der ermittelten Personen- und Itemparameter (

!

"# = 0).

3.3.3 Charakteristik einer Rasch-Skala

Modellkonforme Tests bestehen aus einer endlichen Menge dichotomer Items, die alle dieselbe Eigenschaft („trait“) ansprechen und deren Item-Charakteristik-Kurven (ICC) monoton steigend sind.

3.3.3.1 Homogenität

Es werden nur solche Items zugelassen, deren ICC gleichartig verlaufen und sich nicht schneiden. Zulässig sind nur Translationen, d.h. Verschiebungen auf der Fähigkeitsdimension. Items die diesen Anforderungen entsprechen sind homogen.

3.3.3.2 Lokale stochastische Unabhängigkeit

Die Wahrscheinlichkeit, ein Item zu lösen, darf nicht von der Wahrscheinlichkeit abhängen ein anderes Item zu lösen (Würfelbeispiel). Vielmehr soll gelten, dass die Lösung von Item i und die von Item j allein von der Fähigkeit des Probanden und der Schwierigkeit des Items abhängen. Damit ist gewährleistet, dass die Items eine „erschöp-fende Statistik“ liefern über die Fähigkeit eines Pro-banden, d.h. nur noch die Anzahl gelöster Items ist relevant und nicht das jeweilige Antwortmuster.

3.3.3.3 Spezifische Objektivität

Innerhalb der Population, für die Modellkonformität festgestellt ist, fallen für einen Probanden die Item- und Personenparameter immer gleich aus, gleichgültig welche Teilmengen von Items er bearbeitet. Das bedeutet, egal welche Items zur Messung ausge-wählt werden, sie führen immer zu derselben Fähig-keitsaussage (Merkmalsausprägung) derselben Proban-den. Ebenso ist es gleichgültig welche Probanden zum Schwierigkeitsvergleich von zwei Aufgaben ausge-wählt, die Rangfolge unter ihnen kehrt sich nicht um (Idealfall). Dies bedeutet Stichprobenunabhängigkeit.

3.3.3.4 Separierbarkeit

In der KTT sind Aussagen über Personen immer auf Items und ihre Lösungswahrscheinlichkeit in einer Stichprobe bezogen, d.h. Item- und Personenparameter treten immer zusammen auf und werden nicht getrennt konzipiert. Im Rasch-Modell sind diese beiden Parameter trennba-re Größen. Die Items eines Tests führen immer zur selben Rangfolge der Personen. Die Trennung der Pa-

rameter ist möglich, in dem in verschiedenen Perso-nengruppen die gleichen Item- und Personenparameter ermittelt werden. Man trifft also die Vorannahme, dass innerhalb desselben Itemvektors der Itemparameter gleich und innerhalb derselben Probandengruppe der Personenparameter gleich ist. Items und Personen für die diese Bedingungen nicht zutreffen sind „modellunverträglich“ und werden eli-miniert.

3.3.4 Testinformation

!

ITest

= "IItems

!

I Item = p " (1# p) Die Testinformation ist die Summe der Iteminformati-onen. Wenn Itemschwierigkeit und Personenfähigkeit identisch sind, beträgt

!

p = .5 und der Informationsge-winn

!

IItem

= .25 (Maximum).

Die in Abbildung 3 dargestellte Testinformationsfunk-tion zeigt, dass über Personen im mittleren Fähigkeits-bereich mehr Informationen vorliegen als über Perso-nen in den Randbereichen. Wie Abbildung 4 zeigt, ist demzufolge auch der Standardschätzfehler für die Per-sonen in den Randbereichen größer. Der Standard-schätzfehler ist somit ebenfalls eine Funktion von Item- und Personenparameter. Dies ist ein Vorteil gegenüber der KTT, da dort der Standardschätzfehler eine Eigenschaft des Tests und daher für jeden Testwert derselbe ist. Das führt dazu, dass viele Items bei klassischen Tests keine Informati-onen über eine einzelne Person liefern. Außerdem ist mit der PTT adaptives Testen möglich, was zur Maxi-mierung des Informationsgewinns dient.

Abbildung 3 Test- und Iteminformations-funktion (rot und blau)

Abbildung 4 Beziehung zwischen Testin-formation und Standard-schätzfehler

Page 10: Diagnostik-Skript 7 Nebengütekriteriena9806297/Files/... · 2009. 12. 3. · Kapitel 1 - Testkonstruktion Seite 3 von 31 1.3.1.1 Vorgehen 1. Definition des zu erfassenden Konstrukts

Kapitel 4 - Objektivität Seite 10 von 31

3.3.5 Kritik

Vorteile. Messtheoretische Überlegenheit (siehe 3.3.3), empirische Kontrolle der Modelleigenschaften mög-lich, Gewinnung „erschöpfender“ Parameter, Daten auf Intervall-Skalen-Niveau Teilgruppen. Da für die Bildung von Teilgruppen aus der Gesamtstichprobe ein bestimmtes Trennkriterium benutzt wird, gilt die Modellkonformität auch nur für dieses eine Kriterium. Parameter. Empirisch lassen sich Item- und Personen-parameter nicht trennen. Außerdem ist die Angemes-senheit einer Interpretation über das Ordinal-Skalen-Niveau hinaus fraglich. Items. Homogenität im Sinne des Rasch-Modells schließt die Homogenität im Sinne der Faktorenanalyse nicht ein. Klassische Gütekriterien weiterhin von Be-deutung. Konformität. Eigenschaften stehen und fallen mit der Modellkonformität. Die Eliminierung „unverträgli-cher“ Items und Personen kann zu einer starken Ein-schränkung des erfassten Merkmals und der modell-konformen Personengruppe führen (Selektionseffekte). Daraus folgt auch das Problem der Generalisierbarkeit. Adäquatheit. Der diagnostische Nutzen eines Testver-fahrens ist durch dessen bessere psychometrische Qua-lität noch nicht garantiert.

3.4 Birnbaum-Modell Es ist eine Erweiterung des Rasch-Modells um einen weiteren Parameter, den Diskriminationsparameter. Dieser gibt die Steigung der IC-Funktion an (Trenn-schärfe des Items) und beeinflusst dadurch die Test- und Iteminformationsfunktionen sowie den Standard-schätzfehler, der mit steigender Trennschärfe in den Randbereichen immer größer wird (Abbildung 5).

Abbildung 5 Abhängigkeit der Iteminfor-mationsfunktionen von der Trennschärfe des Items dar-gestellt mit 3 Beispielitems

4 Objektivität Standardisiertheit der Testsituation oder auch Ausmaß der Unabhängigkeit der Testergebnisse vom Versuchs-leiter. Vorraussetzung für Reliabilität und Validität.

4.1 Durchführungsobjektivität Erreichbar durch maximale Standardisierung der Test-situation und Minimalisierung der sozialen Interaktion, da sonst Gefahr des Pygmalion-Effekts. Quantitative Bestimmung schwierig.

4.2 Auswertungsobjektivität Gleiche Antworten sollen gleichen Scores zugewiesen werden. Problematisch bei freien/projektiven Items, aber erreichbar durch Antwortschablonen, feste Ant-wortschlüssel und Doppelauswertung.

4.3 Interpretationsobjektivität Gleiche Testscores sollen gleichen Merkmalsausprä-gungen entsprechen. Erreichbar durch Einsatz von Normen und expliziten Regeln (Bsp.: PISA-Studie). Trotzdem problematisch z.B. beim Rohrschach-Test, Strafmaß korreliert mit Attraktivität, Kontrasteffekt bei mündlichen Prüfungen.

4.4 Urteilerübereinstimmung Maß zur Ermittlung von Auswertungs- und Interpreta-tionsobjektivität, aber auch der Inhaltsvalidität. Die reine prozentuale Übereinstimmung ist nicht aussage-kräftig, da abhängig von den Randhäufigkeiten.

4.4.1 Ü-Koeffizient von Fricke

Basis sind die beobachteten Urteilsstreuungen zwi-schen den Urteilern.

!

Ü = 1"4 # k$xi " $xi

2( )n # k

2

k = Anzahl der Beurteiler n = Anzahl der Items

ix = Summe der Übereinstimmungen für Item i

Zähler = Quadratsumme innerhalb der Urteiler Nenner = Maximal mögliche Quadratsumme

4.4.2 Cohens Kappa (κ)

Dient der Relativierung der beobachteten an der nach Zufall erwartbaren Übereinstimmung, ist aber nur

Page 11: Diagnostik-Skript 7 Nebengütekriteriena9806297/Files/... · 2009. 12. 3. · Kapitel 1 - Testkonstruktion Seite 3 von 31 1.3.1.1 Vorgehen 1. Definition des zu erfassenden Konstrukts

Kapitel 5 - Reliabilität Seite 11 von 31

sinnvoll bei vielen Urteilen, da sonst das Vertrauensin-tervall sehr groß ist. κ kann negative Werte annehmen, wenn die Urteiler total gegensätzlich antworten, was vor allem bei klei-nen Stichproben der Fall sein kann.

4.4.2.1 Berechnung von κ

1. Berechnung der beobachten Übereinstimmung = Anteil der Übereinstimmungen an der Gesamtzahl aller Urteile 2. Berechnung der erwartbaren Übereinstimmung = Quotient aus dem Produkt der Randhäufigkeiten und der Gesamtzahl aller Urteile 3. Addition der zwei beobachteten und der zwei er-wartbaren Übereinstimmungen 4. Vergleich beider Werte über folgende Formel:

erwartbar

erwartbarbeobachtet

Ü

ÜÜ

!

!=

%100"

Zähler = um wie viel besser als der Zufall die Urtei-ler sind. Nenner = um wie viel besser als der Zufall die Urtei-ler sein könnten.

4.4.3 Weitere skalenabhängige Maße

Normalskala: Cohens Kappa Ordinalskala: Rangkorrelationskoeffizient Intervallskala: Intraklassenkorrelation

5 Reliabilität Die Reliabilität

!

rtc

gilt als Messgenauigkeit des In-

struments unter Absehnung des Inhalts oder als Be-stimmung des Messfehlers, mit dem die Testwerte behaftet sind, unabhängig davon, ob die Werte valide sind. Mathematisch ist die Reliabilität der Varianzanteil der wahren Werte an der beobachteten Varianz, welche durch zufällige Abweichungen entsteht, welche von einem systematischen Bias abzugrenzen sind.

!

rtt

=sT

2

sX

2= 1"

sE

2

sX

2=cov

X ,T

sX# sT

nach KTT 2.1

5.1 Paralleltestreliabilität Korrelation zwischen Test A und seinem Paralleltest B bei denselben Probanden.

5.1.1 Definition von „parallel“

Zwei Tests sind parallel, wenn sie die gleichen wahren Werte und Fehlervarianzen haben, d.h. Mittelwerte und Standardabweichungen sind identisch und es besteht eine hohe Korrelation zwischen den beobachteten Wer-ten. Erstellung von Parallelformen sehr schwierig.

5.1.2 Fazit

Pro: „Königsweg“, da unabhängig von Erinnerungs-einflüssen und Merkmalsinkonstanz. Contra: Lösungsprinzipien könnten übertragen werden und somit doch Erinnerungs- und Lerneffekte auftre-ten. Außerdem philosophisches Problem, da man ver-sucht „Gleiches“ mit „Ungleichem“ zu messen. Sonderfall: Praktische Gleichheit von Parallel- und Retestreliabilität bei Speedtests, da Items sehr ähnlich sind.

5.2 Retestreliabilität Korrelation der Rohwerte eines Tests zu zwei aufein-ander folgenden Messzeitpunkten bei demselben Pro-banden = Stabilität. Angemessen bei Speedtests und Persönlichkeitsfragebögen.

5.2.1 Fazit

Kann zu scheinbar perfekter Korrelation führen, wenn sich die zwar Rohwerte ändern, aber ihr Verhältnis zueinander gleich bleibt. Reliabilität sinkt bei echten Merkmalsänderungen und kann aufgrund von Erinne-rungseffekten überschätzt werden.

Page 12: Diagnostik-Skript 7 Nebengütekriteriena9806297/Files/... · 2009. 12. 3. · Kapitel 1 - Testkonstruktion Seite 3 von 31 1.3.1.1 Vorgehen 1. Definition des zu erfassenden Konstrukts

Kapitel 5 - Reliabilität Seite 12 von 31

5.3 Halbierungsreliabilität Korrelation zwischen zwei Hälften desselben Tests bei denselben Probanden. Vorausgesetzt wird, dass alle Items das Gleiche messen und voneinander unabhängig sind. Trennung. Die Trennung ist möglich mittels odd-even-Methode, Teilung in der Mitte, Zufall, Schwie-rigkeit und Trennschärfe. Allerdings könnte durch eine „unglückliche“ Trennung ein homogener Test weniger reliabel wirken. Hochrechnung. Da nur der halbe Test verwendet wird, muss die Reliabilität auf die doppelte Länge hochge-rechnet werden. Testverlängerung führt immer zu hö-herer Reliabilität, da wahre Werte perfekt und Fehler-werte laut KTT zu null korrelieren. So führt die Ver-doppelung der Testlänge zu 4

!

sT

2 aber nur zu 2

!

sE

2 .

Stärkster Zuwachs bei geringer Ausgangsrelibilität.

5.3.1 Spearman-Brown-Formel

!

rttc

=k " r

tt

1+ (k #1) " rtt

!

k =rttc" (r

tt#1)

rtt" (r

ttc#1)

!

rttc

= korrigierte Reliabilität („nachher“)

!

rtt

= Korrelation der beiden Testhälften („vorher“)

!

k = Verlängerungsfaktor (

!

Itemanzahl "nach" Korrektur

Itemanzahl "vor" Korrektur)

5.3.2 Fazit

Pro: Störfaktoren (Motivations-, Aufmerksamkeits- und Merkmalsschwankungen) oszillieren über Items der Testskala hinweg, können daher ignoriert werden. Contra: Krasse Überschätzung bei Speedtests, da z.B. von 80 gelösten Items jeweils 40 in den beiden Test-hälften stecken. Abhilfe durch Halbierung der Bearbei-tungszeit anstelle des Tests.

5.4 Konsistenzanalysen Verallgemeinerung der Halbierungsreliabilität, da Test-skala nicht nur in zwei Hälften, sondern in so viele Teile zerlegt wird wie Items vorhanden sind. Daher ebenfalls Hochrechnung auf Testlänge notwendig.

5.4.1 Kuder-Richardson Formeln

K-R-Formula 8: Bestimmung der Reliabilität basiert auf Schwierigkeits- und Trennschärfekoeffizienten. K-R-Formeln gelten daher nur für dichotome Items! K-R-Formula 20: Verallgemeinerung der K-R 8 für den Fall, dass keine Interkorrelationen berechnet wur-den, d.h. Berechnung ohne Trennschärfe.

!

rtt =n

n "1#sx2 " $pq

sx2

%

& ' '

(

) * *

!

n = Itemanzahl

!

p = Itemschwierigkeit

!

q =

!

1" p

!

"pq = Summe der Itemvarianzen

!

si

2

!

sx

2 = Varianz des Skalensummenwerts

5.4.2 Cronbachs α

!

" =n

n #1$ 1#

%si2

%si2

+ %sij

&

'

( (

)

*

+ +

!

n = Itemanzahl / Anzahl der Testteile

!

"si

2 = Summe der Itemvarianzen

!

"sij = Summe der Itemkovarianzen

!

"si2

+ "sij = Varianz des Skalensummenwerts

!

sx

2

Sollte die Summe der Itemvarianzen der Varianz des Skalensummenwerts entsprechen, ist die Summe der Itemkovarianzen = 0, was bedeutet, dass jedes Item etwas anderes misst. Wünschenswert ist daher ein möglichst großer Unterschied zwischen Zähler und Nenner, da dieser auf die Itemkovarianzen zurückzu-führen ist und auf hohe Homogenität hindeutet.

5.4.3 Varianzanalytische Bestimmung

!

rtt

= 1"sintraPB

2" s

Items

2

sinterPB

2= 1"

sE

2

sX

2

!

sintraPB

2 = Varianz innerhalb der Probanden

!

sinterPB

2 = Varianz zwischen den Probanden

!

sItems

2 = Varianz aufgrund der Items

Annahme dass bei vollständiger Konsistenz jeder Pro-band jedes Item gleich beantworten müsste; Varianz innerhalb jedes Probanden (

!

sintraPB

2 ) wird als Fehler-

varianz aufgefasst. Unterschiede zwischen den Probanden (

!

sinterPB

2) setz-ten sich aus Fehler und Unterschieden des wahren Werts zusammen. Allerdings erzeugen die Items ebenfalls eine gewisse Varianz (

!

sItems

2 ), die keine Fehlerkomponente, sondern ein Teil der wahren Varianz darstellt und deshalb von der Fehlervarianz (

!

sintraPB

2 ) abgezogen werden muss.

Berechnung aber nur zulässig wenn Itembeantwortung auf Intervall-Skalen-Niveau erfolgt.

Page 13: Diagnostik-Skript 7 Nebengütekriteriena9806297/Files/... · 2009. 12. 3. · Kapitel 1 - Testkonstruktion Seite 3 von 31 1.3.1.1 Vorgehen 1. Definition des zu erfassenden Konstrukts

Kapitel 6 - Validität Seite 13 von 31

5.5 Fazit Reliabilität ist eine notwenige Voraussetzung der Vali-dität und legt deren obere Grenze fest:

!

rtc" r

tt

5.5.1 Reliabilitätskoeffizientenvergleich

Höhe des Reliabilitätskoeffizienten ist immer auch abhängig von der verwendeten Methode. Konsistenzkoeffizient entspricht den anderen Koeffi-zienten, wenn die dort enthaltene Fehlervarianz

!

sE

2 = 0. Deshalb meist höher als Retest- oder Parallel-testkoeffizienten. Vorteilhaft bei fluktuierenden Merk-malen. Retestverfahren nur sinnvoll, wenn Erinnerungseinflüs-se ausgeschaltet sind und Merkmalskonstanz gegeben ist. Deshalb ist das Paralleltestverfahren diesem vorzu-ziehen.

5.5.2 Mangelnde Reliablität

Ursachen: Instrumentelle Inkonstanz durch mangelnde Objektivität; Bedingungsinkonstanz durch Lern-, Erin-nerungs- oder Wiederholungseffekte; Merkmalsinkon-stanz (trait vs. state) Folgen: Erhöhung der Gefahr des β-Fehlers und da-durch Verringerung der Teststärke (1-β). Mangelnde Reliabilität wirkt dadurch wie eine Halbierung des Stichprobenumfangs. Die Gefahr des β-Fehlers kann reduziert werden durch die Erhöhung der Reliabilität, des Stichprobenumfangs, der Heterogenität oder des α-Fehlers. Verbesserungen: Standardisierung und Automatisie-rung des Messvorgangs, Beobachtertraining, Verbesse-rung der Messinstrumente, Messwiederholung oder Testverlängerung

6 Validität Die Validität

!

rtc

gilt als Maß der Genauigkeit, mit der

ein Test dasjenige Merkmal erfasst, das er messen soll oder zu erfassen vorgibt. Deshalb das wichtigste Güte-kriterium!

6.1 Inhaltliche Validität Unter inhaltlicher Validität versteht man, inwieweit ein Test oder ein Testitem das zu messende Merkmal re-präsentativ erfasst. Basis. Wenn die Testaufgaben Stichproben aus dem zu erfassenden Zielmerkmal sind, kann vom Testverhalten auf dasjenige außerhalb der Testsituation geschlossen werden = Repräsentationsschluss. Bestimmung. Zielmerkmal wird meist durch Experten festgelegt. Es ist deshalb die Berechnung der Urteil-übereinstimmung erforderlich (vgl. 4.4). Beispiele: Fahr- und Flugsimulationen, Farbsehen, Arbeitsproben

6.2 Augenscheinvalidität Augenscheinvalidität („face-validity“) gibt an, inwie-weit der Validitätsanspruch eines Tests einem Laien, vom bloßen Augenschein her, gerechtfertigt erscheint = offensichtliche Gültigkeit eines Verfahrens. Beispiel: Wenn man einen Bewerber Schreibmaschine schreiben lässt, um die Eignung für den Schreibdienst zu prüfen, ist der Zusammenhang zwischen Test und Bewährungssituation logisch und sachlich einsichtig. Fazit. Eigentlich irrelevantes Kriterium, erhöht aber die Akzeptanz und Motivation der Probanden. Könnte auch als „faith-validity“ bezeichnet werden.

6.3 Kriteriumsbezogene Validität Ein Test weist Kriteriumsvalidität auf, wenn vom Ver-halten der Testperson innerhalb der Testsituation er-folgreich auf ein „Kriterium“, ein Verhalten außerhalb der Testsituation, geschlossen werden kann. Basis. Wenn das Zielmerkmal oder Kriterium selbst nicht erfasst werden kann, müssen passende Operatio-nalisierungen gefunden werden um auf das (Au-ßen)Kriterium zu schließen = Korrelationsschluss. Folgen. Siehe 6.3.4 Bestimmung. Über die Korrelation mit geeigneten Außenkriterien oder über Mittelwertsvergleiche für definierte Gruppen (Einteilung nach Kriterium oder unterschiedlichen Treatments).

Page 14: Diagnostik-Skript 7 Nebengütekriteriena9806297/Files/... · 2009. 12. 3. · Kapitel 1 - Testkonstruktion Seite 3 von 31 1.3.1.1 Vorgehen 1. Definition des zu erfassenden Konstrukts

Kapitel 6 - Validität Seite 14 von 31

Formel. Der Korrelationskoeffizient

!

rxy ist das arith-

metische Mittel der Produkte der standardisierten Vari-ablenpaare oder auch die standardisierte Kovarianz

!

rxy ="xy

sx # sy #n=covx,y

sx # sy

6.3.1 Kriterienauswahl

Die Validitätsbestimmung wird von der Testintention beeinflusst; es stehen daher verschiede Kriterien zur Verfügung.

6.3.1.1 Außenkriterium

Ausschlaggebendes Kriterium mit semantischer und theoretischer Äquivalenz. Unterscheidung von „eigent-lichen“ (ultimaten) und „aktuellen“ Kriterien. Unterscheidung. „Eigentliche“ Kriterien sehr komplex und meist nicht erfassbar (Bsp.: Berufserfolg) und werden daher über leichter verfügbare „aktuelle“ Krite-rien geschätzt (Bsp.: aktueller Berufserfolg über die momentane Position oder Gehaltszahlungen). Aller-dings können „aktuelle“ Kriterien auch nur teilweise erfasst werden; daher bedeutet eine hohe empirische Korrelation nicht zwingend eine bedeutsame Korrelati-on der Konstrukte. Es gibt 3 verschiedene Beziehungen zwischen „aktuel-len“ und „eigentlichen“ Kriterien: Kriteriumskontamination: Eigenständigkeit des „ak-tuellen“ gegenüber dem „eigentlichen“ Kriterium Kriteriumsrelevanz: Kommunalität oder Überlappung zwischen den beiden Kriterien Kriteriumsdifferenz: Aspekte des „eigentlichen“ Kriteriums, die das „aktuelle“ nicht erfasst

6.3.1.2 Quasikriterium

Kriterium mit semantischer und theoretischer Äquiva-lenz, das aber selbst der Validierung an einem echten Kriterium bedarf, z.B. Validierung eines IQ-Tests mit einem anderen IQ-Test. Nützlich ist dieser Ansatz für Kreativitätstests, da dieses Merkmal vielfältig gemes-sen werden kann.

6.3.1.3 Target-Variable

Kriterium, das aufgrund bestehender Sachzwänge vor-hergesagt werden muss, z.B. Suizidrisiko psychiatri-scher Patienten , Unfallneigung oder Alkoholismusrisi-ko von Angestellten. Ziel ist eine Maximierung der Trefferquote. Die Korrelation sollte deshalb als Effek-tivität bezeichnet werden, da deren Höhe nur etwas über die Angemessenheit des Testeinsatzes aussagt.

6.3.2 Konkurrente Validität

Korrelation der Testergebnisse mit einem zeitlich so-fort verfügbaren (konkurrenten) Kriterium bzw. Ergeb-nissen eines anderen Testverfahrens zur gleichen Merkmalserfassung. Problem : Kann oder sollte nicht extrem hoch sein, da der neue Test ja besser sein sollte als der alte. Beispiele: Rechentest und Matheklausur, neuer und alter Intelligenztest

6.3.3 Prognostische/prädiktive Validität

Korrelation der Testergebnisse mit einem zeitlich spä-ter gemessenen Kriterium z.B. Abiturnote und Studien-erfolg. Problem der Kriterienkontamination gegeben z.B. die Verurteilung nach negativem Ergebnis im Lügendetektortest.

6.3.3.1 Größe kleiner Effekte

Prognostische Validität meist geringer als konkurrente, aber meist brauchbarer und deshalb sind auch niedrige Korrelationen bedeutend. Das „binomial effect size display“ verdeutlicht den Effekt eines Treatments auf eine dichotome Erfolgsva-riable, z.B. tot vs. lebend. Es gilt: Treatmentgruppe (TG) =

!

0.5+ (0.5 " r) Kontrollgruppe (KG) =

!

0.5" (0.5 # r) Effekt des Treatments =

!

TG " KG Der Effekt bei

!

r = .1 beträgt bereits 10%. Die Vorent-haltung einer Behandlung ist bereits ab

!

r = .02 un-ethisch.

6.3.3.2 Varianzeinschränkung

Varianzeinschränkungen durch Anwendung von cut-off-Werten, z.B. Aufnahmebeschränkungen oder ande-re Selektionsmaßnahmen, verringern die prognostische Validität. Im Idealfall sollten alle Testteilnehmer „durchkommen“ um die tatsächliche Validität bei voll-ständiger Streuung zu ermitteln. Hochrechnung unter der Annahme gleicher Standardschätzfehler und glei-cher Steigung der Regressionsgeraden möglich (vgl. Amelang S.156). Bei Auswertungen führt dagegen eine Extremgruppen-selektion zur Erhöhung der statistischen Power und der Korrelation (Validität).

6.3.3.3 Multiple Regression

Verwendung multipler Prädiktoren (z.B. Testbatterien) erhöht die prädiktive Validität = inkrementelle Validi-tät.

Page 15: Diagnostik-Skript 7 Nebengütekriteriena9806297/Files/... · 2009. 12. 3. · Kapitel 1 - Testkonstruktion Seite 3 von 31 1.3.1.1 Vorgehen 1. Definition des zu erfassenden Konstrukts

Kapitel 6 - Validität Seite 15 von 31

!

Yi= "0 + "1 # X1,i + "2 # X2,i +$

i

Probleme. Kollinearität, d.h. hohe Korrelation zwi-schen den Prädiktoren. Diese sollte möglichst gering ausfallen, denn je unabhängiger die Prädiktoren, desto höher ist die Varianzaufklärung

!

R2. Außerdem muss

immer eine Kreuzvalidierung erfolgen, da die Prädikto-ren auch einfach nur Zufälligkeiten innerhalb der Stichproben abbilden könnten. Achtung! Eine Hinzunahme weiterer Prädiktoren muss nicht zwingend zur Erhöhung der Trefferquote führen (Bsp.: TAT = .57, MMPI = .88, TAT+MMPI = .80, d.h. Verbesserung bei Hinzunahme des MMPI, aber Verschlechterung bei Hinzunahme des TAT)

6.3.3.4 Kreuzvalidität

Bestätigung der Validierungsbefunde in einer ver-gleichbaren empirischen Studie bei unabhängiger Stichprobe, anderen Testleitern und anderen Beurtei-lern. Sollte vor allem immer bei multipler Regression durchgeführt werden, da die Validität von Prädiktoren immer stichprobenabhängig ist bzw. sein kann.

6.3.3.5 Suppressorvariablen

Typischerweise wird die Vorhersagevalidität durch die Hinzunahme weiterer Prädiktoren verbessert, vor allem wenn diese hoch mit dem Kriterium und möglichst wenig mit den anderen Prädiktoren korrelieren. Suppression. Eine Validitätssteigerung kann aber auch durch Prädiktoren erreicht werden, die eine Nullkorre-lation mit dem Kriterium aber eine hohe Korrelation mit den anderen Prädiktoren aufweisen, wodurch die kriteriumsirrelevanten Varianzanteile in diesen Prädik-toren gebunden oder unterdrückt werden; der Suppres-sor erhält somit ein negatives β-Gewicht. Berechnung. Erfolgt über Part- und Partialkorrelation = Elimination des Einflusses einer Drittvariablen aus einer bzw. zwei anderer Variablen. Im Idealfall von

0=csr vereinfachen sich beide Korrelationen zu fol-

gender Formel.

2)(

1 ps

cp

spc

r

rr

!

="

c = Kriterium p = Prädiktor s = Suppressor

Effektivität. Um praktischen Nutzen, d.h. eine bedeu-tende Validitätssteigerung, zu erzielen, bedarf es einer hohen Korrelation

!

rps mit den Prädiktoren, welche oft

leichter zu erreichen ist als die entsprechende Validität. Allerdings lohnt sich eine gezielte Suppressorsuche nicht, da die Suppressorvarianz 4mal so viel Prädiktor-

varianz wie ein zweiter Prädiktor an Kriteriumsvarianz aufklären muss um den gleichen Effekt der Validi-tätssteigerung zu erzielen. Ein zusätzlicher Prädiktor ist deshalb effektiver als ein Suppressor. Beispiele: Testangst und die Leistung in IQ-Tests, Sprachkompetenz und die Leistung bei Pilotenaus-wahlverfahren

6.3.3.6 Moderatorvariablen

Eine Moderatorvariable ist eine Drittvariable, die die Stärke einer Wirkbeziehung zwischen zwei Variablen beeinflusst, ohne selbst mit dem Prädiktor oder dem Kriterium zu korrelieren (Idealfall). Ermittlung I. Moderatorvariablen können durch eine Fraktionierung der Stichprobe anhand einer belangvol-len dichotomen (z.B. Geschlecht) oder mehrklassig diskreten Teilungsvariable (z.B. ethnische Herkunft) ermittelt werden. Gibt es einen signifikanten Unter-schied zwischen den Validitätskoeffizienten der einzel-nen Untergruppen, dann übt die Teilungsvariable einen Moderatoreffekt aus. Ermittlung II. Bei intervallskalierten Variablen muss ein regressionsanalytisches Modell verwendet werden. Ziel ist die Steigung der einfachen linearen Regression eines Kriteriums auf einen Prädiktor mit Hilfe einer weiteren Variablen, dem Moderator, vorherzusagen (Grundgedanke des Saunder Modells). Beispiele: Soziale Unterstützung als Moderatorvariable für den Zusammenhang zwischen Arbeitslosigkeit und psychischer Befindlichkeit oder Qualität der Lehre als Moderatorvariable für den Zusammenhang zwischen Abiturnote und Studienerfolg.

6.3.3.7 Einflussfaktoren auf Prognosen

Kontext. Wenn die Verhaltensvariabilität aufgrund von kontextuellen Rahmenbedingungen (z.B. situati-vem Druck) stark eingeschränkt ist, sinkt die Validität gegen 0. Ansonsten steigt mit zunehmendem Kriteriu-mumfang (aggregierte Verhaltensszenarien) die Validi-tät an. Selbstaufmerksamkeit. Durch Induktion erhöhter Selbstaufmerksamkeit während der Testsituation (z.B. mittels Spiegel) kann die Validität von Selbstbeschrei-bungen gesteigert werden. Deshalb sollte man bei Fra-gebögen vielleicht doch Zeit zum Nachdenken geben und keine spontanen Antworten fordern. Aggregation. Aggregation über Beobachtungszeit-punkte („occasions“ = Gelegenheiten) führt zur Steige-rung der Reliabilität. Aggregation über Verhaltenswei-sen („modes“ = Modi) und Situationen steigern die

Page 16: Diagnostik-Skript 7 Nebengütekriteriena9806297/Files/... · 2009. 12. 3. · Kapitel 1 - Testkonstruktion Seite 3 von 31 1.3.1.1 Vorgehen 1. Definition des zu erfassenden Konstrukts

Kapitel 6 - Validität Seite 16 von 31

Heterogenität und inhaltliche Breite und können da-durch zur Erhöhung der Validität beitragen. States. Bei Verfahren zur Erfassung von „states“ wie z.B. der Aufmerksamkeit sind hohe Reliabilitätsanfor-derungen dysfunktional. Validität ist in diesem Fall auch ohne Stabilität gegeben.

6.3.4 Grenzen der Kriteriumsvalidität

Korrelationen sind anfällig für Extremwerte/Ausreißer, da diese zu Scheinkorrelationen führen können. Korre-lationen beziehen sich nur auf lineare Zusammenhänge und sind „blind“ gegenüber allen nicht-linearen Zu-sammenhängen. Außerdem sind niedrige Korrelationen (Effektstärken) nur mit großen Stichproben nachweis-bar. Die kriteriumsbezogene Validität ist zudem ab-hängig von der Reliabilität des Tests und der des Krite-riums. Ebenfalls müssen Grund- und Selektionsquoten beachtet werden.

6.3.4.1 Obergrenze der Validität

...ist der Reliabilitätsindex.

!

rtc" r

tt

6.3.4.2 Einfache Minderungskorrektur

Die Korrelation

!

rt,Tc zwischen beobachteten Test- und

wahren Kriteriumswerten dient zur Beantwortung der Frage: Warum die Validität

!

rtc

ihre Obergrenze nicht

erreicht? Es wird der Validitätsverlust aufgrund der geminderten Kriteriumsreliabilität geschätzt = Hochrechnung von

!

rtc

bei vollständig reliablen Kriterium.

!

rt,Tc =

covt,Tc

st" sTc

=rtc

rcc

!

t = beobachteter Testwert

!

Tc = wahrer Kriteriumswert

!

rtc

= beobachtete Validität des Tests

!

rcc

= Reliabilität der beobachteten Kriteriumswerte Je mehr

!

rcc

ansteigt, desto mehr nähert sich die hoch-

gerechnete der beobachteten Validität an. Je mehr

!

rcc

abfällt, desto drastischer steigt

!

rt,Tc an.

6.3.4.3 Doppelte Minderungskorrektur

Zusätzlich kann die mangelhafte Reliabilität des Tests

!

rtt

die Validität

!

rtc

verringern. Zur Berücksichtigung

dieses Mangels dient die Korrelation

!

rT ,Tc zwischen

wahren Test- und wahren Kriteriumswerten = Hoch-rechnung von

!

rtc

bei vollständig fehlerfreier Messung.

Lienert spricht dabei von der Zulänglichkeit.

!

rT ,Tc =

rtc

rcc" rtt

Diese Formel verdeutlicht die partielle Inkompatibilität von hoher Reliabilität und hoher Validität (Verdün-nungsparadox), denn wenn

!

rcc

und

!

rtt

ansteigen, sinkt

!

rT ,Tc und wenn

!

rcc

und

!

rtt

absinken, steigt

!

rT ,Tc an.

6.4 Konstruktvalidität Stellt eine Synthese aus inhaltlicher und kriteriumsbe-zogener Validität dar. Einbettung des erfassten Kon-strukts in das nomologische Netzwerk ähnlicher (kon-vergente Validität) und „artfremder“ Konstrukte (dis-kriminante Validität) = Validierungsprozess (Beispiel in Abbildung 6). Aus dem Konstrukt werden Hypothesen abgeleitet oder anders es werden Erwartungen darüber gebildet, wo sich das Merkmal auswirken sollte, diese werden mit-tels des zu validierenden Tests empirisch überprüft. Ziel ist ein möglichst breites Spektrum von Verhal-tensbereichen abzudecken und verschiedene Analyse-methoden anzuwenden (z.B. Mittelwertsprüfungen, Cluster- und Faktorenanalysen). Konkrete Kennwerte existieren aber nicht.

6.4.1 Faktorielle Validität

Wichtig, wenn ein Konstrukt in verschiedene Faktoren zerfällt wie bei der Persönlichkeit. Es sollte dann mög-lichst eine Einfachstruktur der Ladungsmuster vorlie-gen (z.B. Neo-FFI), welche den theoretisch abgeleite-ten Erwartungen entspricht. Es sollten somit Tests entwickelt werden können, die nur einen speziellen Aspekt des Konstrukts erfassen.

6.4.2 Multi-Trait-Multi-Method-Analyse

Ziel. Die Multi-Trait-Multi-Method-Analyse (MTMM) dient zur Trennung von Konstrukt und Erfassungsme-thode, da jedes Konstrukt teilweise abhängig von sei-ner Operationalisierung ist, sprich Methodenvarianz enthält.

Abbildung 6 Konvergente Validität von vier Verfahren zur Schüch-ternheitsmessung

Page 17: Diagnostik-Skript 7 Nebengütekriteriena9806297/Files/... · 2009. 12. 3. · Kapitel 1 - Testkonstruktion Seite 3 von 31 1.3.1.1 Vorgehen 1. Definition des zu erfassenden Konstrukts

Kapitel 7 - Nebengütekriterien Seite 17 von 31

Vorgehen. Es werden verschiedene Konstruk-te/Merkmale („traits“) ausgewählt und mit verschiede-nen Methoden („methods“) erfasst. Anschließend wer-den alle Kombinationen miteinander korreliert = MTMM-Matrix. Auswertung. Hohe Konstruktvalidität bei hohen mo-notrait-heteromethod (konvergente Validität), niedrigen heterotrait-monomethod (diskriminante Validität) und noch niedrigeren heterotrait-heteromethod Korrelatio-nen. Negativbeispiel sind Assessment-Center.

6.5 Fazit Validität ist das wichtigste Kriterium; alle anderen dienen nur der Validitätsmaximierung. Eine Steigerung der Heterogenität zu Lasten der Relia-bilität und Minderung der Verfälschbarkeit tragen e-benfalls zur Validitätserhöhung bei. Eine Lösung der partiellen Unvereinbarkeit der Güte-kriterien sind Testbatterien. Sie werden in Form homo-gener Einzelskalen der Reliabilität und in Gestalt des Gesamttestwertes der Validität gerecht.

6.6 Höhe der Testkennwerte (1975) Tabelle 2 Beurteilung der Höhe von Testkennwerten

Kennwert Niedrig Mittel Hoch

Schwierigkeit

!

p > .80 .80-.20 < .20

Trennschärfe itr < .30 .30-.50 > .50

Objektivität

!

" < .60 .70-.90 > .90

Reliabilität

!

rtt

< .80 .80-.90 > .90

Validität

!

rtc

< .40 .40-.60 > .60

Eichstichprobe

!

N < 150 150-300 > 300

7 Nebengütekriterien Auswahl einiger Anforderungen die neben der Objek-tivität, Reliablität und Validität an ein Testverfahren gestellt werden.

7.1 Normierung oder Eichung Erstellung eines quantitativen Bezugssystems zum Vergleich individueller Testwerte mit den Testwerten einer möglichst repräsentativen Referenzpopulation. Basis sind die Rohwerte und deren Verteilung. An-schließend wählt man ein Bezugssystem und transfor-miert die Rohwerte auf eine Norm-Skala.

7.1.1 Grundlagen und Probleme

Bezugssystem. Es gibt soziale Bezugsnormen (z.B. Gleichaltrige bei Ravens Standard Progressive Matri-ces oder dem Mehrfachwahl-Wortschatz-Test), indivi-duelle Bezugsnormen (frühere Ergebnisse derselben Person) und sachliche Bezugsnormen (Kriterium). Repräsentativität. Besonders wichtig bei sozialem Bezugssystem, da es zu einer systematischen Über-schätzung einer Merkmalsausprägung führen kann, wenn diese in der Normstichprobe geringer als in der Grundgesamtheit ist. Repräsentativität unterliegt dem kulturellen Wandel! Eichstichprobe. Auswahl einer Gebietsstichprobe, Quotenstichprobe (Ermittlung der Populationsverhält-nisse der testrelevanten sozioökonomischen Gruppen) oder einer sekundären Quotenstichproben (nachträgli-che Auswahl der einzubeziehenden Personen). Je diffe-renzierter die Normskala sein soll, desto größer muss die Eichstichprobe sein. Außerdem muss der Test hinreichend reliabel sein. Aktualität. Die gewonnen Normen sollten regelmäßig aktualisiert z.B. für IQ-Tests aufgrund des Flynn-Effekts. Verteilung. Normalverteilung der Merkmalsausprä-gung ist Voraussetzung für die Normierung. Transformation. Rohwerte weisen für unterschiedli-che Gruppen oft unterschiedliche Zentralwerte (Mit-telwert, Streuung) auf, die durch Transformation der einzelnen Gruppenwerte verschwinden würden. Durch Zusammenfassung der Gruppen können diese Unter-schiede erhalten bleiben, da für diese eine Stichprobe die Zentralwerte ermittelt und mit ihrer Hilfe die Roh-werte in Standardwerte transformiert werden.

Page 18: Diagnostik-Skript 7 Nebengütekriteriena9806297/Files/... · 2009. 12. 3. · Kapitel 1 - Testkonstruktion Seite 3 von 31 1.3.1.1 Vorgehen 1. Definition des zu erfassenden Konstrukts

Kapitel 7 - Nebengütekriterien Seite 18 von 31

7.1.2 Äquivalentnormen

Äquivalentnormen beruhen auf einer Transformation, bei der einem Rohwert ein Zeitäquivalent zugeordnet wird, das angibt, welcher Altersstufe eine Testleistung angemessen ist. Es wird das Lebensalter mit dem „Leistungsalter“ verglichen; z.B. der IQ als Quotient von Intelligenz- und Lebensalter. Äquivalentnormen lassen sich nur ermitteln bis zu einem Alter von 13-15 Jahren, da ab diesem Zeitpunkt der Entwicklungsverlauf nicht mehr proportional zu-nimmt, sondern negativ beschleunigt ist.

7.1.3 Abweichungsnormen

Abweichungs- oder Variabilitätsnormen beruhen auf einer Transformation, bei der zu einem Rohwert ein Standardwert ermittelt wird, der angibt, wie weit der Testwert vom mittleren Standardwert der Eichstichpro-be entfernt ist. Am gebräuchlichsten ist die z-Transformation, da die resultierenden Skalen dimensionslos und auch bei un-terschiedlichen Streuungen vergleichbar sind. Eine Übersicht gängiger Norm-Skalen bietet Abbildung 7.

7.1.4 Prozentränge

Prozentränge oder Perzentile beruhen auf einer Trans-formation, die angibt, wie groß in einer Messwertreihe der Anteil von Probanden ist, die gleich hohe oder niedrigere Werte erreichen. Es handelt sich um eine reine Häufigkeitsangabe. Der Vorteil besteht darin, dass diese Angabe anschau-lich, test- und verteilungsunabhängig ist. Allerdings liegt der größte Nachteil darin, dass gleiche Abstände zwischen den Prozenträngen nicht gleichen Abständen der Test- oder Normwerte entsprechen, was im unteren Teil von Abbildung 7 zu sehen ist.

7.2 Fairness Ein Test erfüllt das Gütekriterium Fairness, wenn die resultierenden Testwerte zu keiner systematischen Diskriminierung bestimmter Probanden aufgrund z.B. ethnischer, soziokultureller oder geschlechtsspezifi-scher Gruppenzugehörigkeit führen = Testbias. Beispiele: „Unfaire“ Tests sind computerbasierte Tests, „Advanced Progressive Matrices“ als sprachfrei-er (?) IQ-Test oder „Original Australian Test of Intelli-gence“.

Abbildung 7 Vergleich typischer Norm-Skalen

7.2.1 Quotenmodell

Ein Auswahlverfahren ist dann fair, wenn die Gruppe der ausgewählten Bewerber proportional der gesamten Bewerberpopulation entspricht. Das bedeutet, dass sich die Teilgruppen in ihren Mittelwerten und weiteren Verteilungsparametern (unrealistischerweise) nicht unterscheiden sollen = Verwendung desselben cut-off-Wertes für alle Teilgruppen. Lösung. Normierung dient zum Umgang mit Grup-penunterschieden wie z.B. bei der Studienplatzvergabe durch die ZVS. Es sollte aber nicht interessieren ob es Mittelwertsunterschiede gibt, sondern ob bestimmte Verfahren aufgrund dieser Mittelwertsunterschiede zu gruppenspezifischen Fehleinschätzungen führen! Nachteil. Hochqualifizierte Bewerber können zuguns-ten von weniger qualifizierten Angehörigen von Min-derheiten abgelehnt werden. Zudem unvorhersagbare Langzeiteffekte denkbar, denn je mehr Plätze für Min-derheiten „reserviert“ werden, desto stärker wird der Konkurrenzdruck in der Mehrheit und umso größer wird der Leistungsunterschied zwischen Mehr- und Minderheit. Gilt besonders dann, wenn die Minderhei-ten-Quote des Auswahlverfahrens höher ist als die tatsächliche Quote in der Gesellschaft.

7.2.2 Regressionsmodell (Cleary)

Ein Selektionsverfahren ist dann fair, wenn bei seiner Anwendung für keine der miteinander verglichenen Gruppen eine systematische Über- oder Unterschät-zung der Kriteriumswerte entsteht. D.h. die zur Vor-hersage des Kriteriums verwendeten gruppenspezifi-schen Regressionsgeraden sollen hinsichtlich ihrer Steigung und ihres Schnittpunktes mit der Ordinate identisch sein.

Page 19: Diagnostik-Skript 7 Nebengütekriteriena9806297/Files/... · 2009. 12. 3. · Kapitel 1 - Testkonstruktion Seite 3 von 31 1.3.1.1 Vorgehen 1. Definition des zu erfassenden Konstrukts

Kapitel 7 - Nebengütekriterien Seite 19 von 31

Selektion. Die Selektion erfolgt allein aufgrund des vorhergesagten Kriteriumswerts, nicht aufgrund ande-rer Gruppierungsmerkmale. Demzufolge wird jeder im Kriterium voraussichtlich bessere Bewerber bei der Auswahl einem voraussichtlich weniger leistungsfähi-gen Bewerber vorgezogen und somit die voraussichtli-che Erfolgsrate im Kriterium maximiert. Steigung. Wenn Test- und Kriteriumswert als z-Standardwerte ausgedrückt werden, entspricht die Stei-gung der Regressionsgerade der Validität. Es reicht aber nicht aus, wenn das Testverfahren in der Mehrheit eine höhere Validität als in der Minderheit aufweist. Test auf Signifikanz der Unterschiedlichkeit der Stei-gungen erforderlich. Ordinate. Wenn die Steigungen identisch die Schnitt-punkte mit der Ordinaten aber verschieden sind, kommt es zu einer Unter- oder Überschätzung der Kri-teriumswerte einer Gruppe. D.h. eine Gruppe erzielt zwar höhere Testwerte, wird aber den gleichen Kriteri-umswerten zugeordnet. In diesem Fall erfasst der Test eher gruppenspezifische Merkmale statt Kriteriumsva-rianz (z.B. Abiturnoten im Ländervergleich, da eine 2 in Bayern besser verdient ist als in Hamburg).

7.2.3 Constant Ratio-Modell (Thorndike)

Ein Selektionsverfahren ist dann fair, wenn das Ver-hältnis zwischen der Zahl der durch Testung ausge-wählten Bewerber und der Zahl der im Kriterium po-tentiell (d.h. vor der Auswahl) Erfolgreichen in den miteinander verglichenen Gruppen gleich oder konstant ist. Folgerung. Das bedeutet eine Forderung nach identi-schen Proportionen, was regressionsanalytisch einer Parallelverschiebung der Regressionsgeraden ent-spricht und im Sinne der Signalentdeckungstheorie (SDT) dem Verhältnis von (TP+FP)/(TP+FN). Nähere Informationen zur SDT bietet Tabelle 4 unter dem Punkt 8.2.4. Unterschied. Anders als beim Regressionsmodell von Cleary wird die Kriteriumsleistung gegenüber dem erreichbaren Maximum reduziert. Das bedeutet, wer in der besser qualifizierten Gruppe den kritischen Trenn-wert knapp verfehlt und deshalb abgelehnt wird, hätte nach der für ihn geltenden Regressionsgeraden einen höhere Kriteriumsleistung gehabt, als jemand aus der weniger qualifizierten Gruppe, der denselben Trenn-wert knapp überwunden hat und deshalb akzeptiert oder „eingestellt“ wird.

7.2.4 Fazit

Es gibt keinen einheitlichen Maßstab zur Beurteilung von Fairness. Fairness gibt es nur im Hinblick auf Handlungs- oder Entscheidungsaspekte, die genau definiert werden müssen und kann deswegen immer nur im Hinblick auf ein bestimmtes Kriterium geprüft werden. Es gibt aber beliebig viele Kriterien für die Fairness verlangt werden kann. Nichtsdestotrotz gebührt aufgrund der Maximierung des Erfolges im Kriterium unter methodischen Erwä-gungen Clearys Regressionsmodell der Vorzug. Allgemein ist es jedoch sinnvoller die Validität eines Testverfahren durch die Hinzunahme weiterer Prädik-toren zu verbessern, denn je höher die Validität, um so geringer ist das Risiko eines Testbias gegenüber einer relevanten Minderheit von Merkmalsträgern.

7.3 Ökonomie Ein Test sollte gemessen am diagnostischen Informati-onsgewinn relativ wenige Ressourcen (vor allem Zeit und Geld) verbrauchen. Kurze Durchführung und Mög-lichkeit der Gruppentestung, geringer Materialbedarf und eine schnelle, bequeme Auswertung sind daher erwünscht.

7.4 Nützlichkeit Ein Test sollte besser sein als andere Verfahren und die aufgrund des Tests getroffenen Entscheidungen sollten nützlicher sein als ohne Anwendung des Tests. Zudem sollte das erfasste Merkmal natürlich praktische Rele-vanz besitzen.

7.5 Zumutbarkeit Schonung des Probanden in zeitlicher, psychischer (z.B. motivational oder emotional) und körperlicher Hinsicht relativ zum resultierenden diagnostischen Nutzen des Tests. Zu beachten sind z.B. Zeitdauer, Pausengestaltung, Privatheit der Items, Aufgaben-schwierigkeit. Kritisch ist unter diesem Aspekt trotz des hohen Informationsgewinns der Wilde-Intelligenz-Test mit einer Testdauer von 3-4h.

7.6 Unverfälschbarkeit Leistungstests sollten vor allem die Vortäuschung von Leistungsdefiziten erkennen können (z.B. d2), da eine Verfälschung nach oben (z.B. durch Training) nur be-dingt möglich ist.

Page 20: Diagnostik-Skript 7 Nebengütekriteriena9806297/Files/... · 2009. 12. 3. · Kapitel 1 - Testkonstruktion Seite 3 von 31 1.3.1.1 Vorgehen 1. Definition des zu erfassenden Konstrukts

Kapitel 8 - Diagnostischer Prozess Seite 20 von 31

Noch stärker betroffen sind Persönlichkeitstests. Zur Testung deren Validität können „fake good“- und „fake bad“-Szenarien verwendet werden. Relativ verfälschungssicher sind nonreaktive Messver-fahren wie z.B. die Analyse von Abnutzungsspuren des Bodenbelags in Museen zur Ermittlung der am meisten betrachteten Bilder, die Mülleimeranalyse zur Erfas-sung illegal eingeführter Zigaretten, die Lost-Letter-Technique von Milgram zur Erfassung von Einstellun-gen gegenüber bestimmten Gruppen (Anzahl eintref-fender Briefe wird ausgewertet) oder „gefakte“ Lügen-detektormessungen zur Einstellungserfassung (heute unethisch).

8 Diagnostischer Prozess Als diagnostischer Prozess wird die Abfolge von Maß-nahmen zur Gewinnung relevanter Informationen be-zeichnet.

8.1 Erhebungsstrategien Die Wahl des Vorgehens zur Erfassung relevanter Da-ten hängt stets von der Testintention ab.

8.1.1 Gruppen- vs. Einzeltestung

Gruppentests. Sie bieten die Möglichkeit der ökono-mischen Gewinnung von Vergleichsdaten (lokale Ak-tualisierung der Testnormen), können aber auch be-stimmte Gruppen benachteiligen wie z.B. Personen ohne ausreichende Lesefertigkeiten, da alle Antworten schriftlich gegeben werden müssen. Außerdem ist die Möglichkeit des Abschreibens gegeben (Abhilfe bieten Pseudoparallelformen) und eine potentielle Beeinflus-sung der Versuchspersonen durch die Anwesenheit der Anderen nicht zu ignorieren (z.B. Einschränkung oder Steigerung der Motivation, Mut Fragen zu stellen). Einzeltests. Bei Einzeltests sind genauere Verhaltens-beobachtungen und eine verbale oder auch interaktive Testdurchführung möglich.

8.1.2 Gestaltung der Testsituation

Eigenschaftstheoretisch. Die Selektion von Bedingun-gen, unter denen eine bestimmte Person ihr bestmögli-ches Ergebnis erzielen kann, erfordert die Schaffung einer optimalen Testsituation. Dazu zählen die Reduk-tion von Test- oder Prüfungsangst, eine Aufwärmphase zur Schaffung von Vertrautheit, nachträgliche Proban-denbefragungen zur Erfassung von Situationseffekten, hohe „Echtheit“ des Psychologen. Verhaltenstheoretisch. Die Selektion von Personen für bestimmte Tätigkeiten verlangt die Berücksichti-gung der Anforderungen in der Bewährungssituation. Die diagnostische Situation ist eine Stichprobe der Bewährungssituation und sollte für diese repräsentativ sein, d.h. kriteriumsbezogene Bedingungen sind rele-vant anstatt individueller Bedürfnisse.

8.1.3 Arten der Datenerfassung

Unimodal. Anwendung allenfalls bei der institutionel-len Diagnostik großer Bewerbgruppen, zur Reduktion der Anzahl weiter zu testender Personen durch Einsatz eines Filtertests.

Page 21: Diagnostik-Skript 7 Nebengütekriteriena9806297/Files/... · 2009. 12. 3. · Kapitel 1 - Testkonstruktion Seite 3 von 31 1.3.1.1 Vorgehen 1. Definition des zu erfassenden Konstrukts

Kapitel 8 - Diagnostischer Prozess Seite 21 von 31

Multimodal. Anwendung oft in der individuellen Dia-gnostik zur Bildung eines Gesamturteils auf Basis der Testergebnisse aus verschiedenen Methoden oder zu verschieden Messzeitpunkten (Aggregation). In der psychologischen Praxis gilt es, Befunde durch mindes-tens 2 möglichst verschiedene Methoden abzusichern.

8.1.4 Arten der Datenerhebung

Einstufig. Durchführung der diagnostischen Untersu-chung in einer einzigen Sitzung z.B. aufgrund techni-scher oder ökonomischer Gründe. Mehrstufig. Durchführung der diagnostischen Unter-suchung in mehreren Sitzungen ermöglicht z.B. eine bessere Erfassung der optimalen Leistungsbedingungen und eine Groborientierung für die Anwendung weiterer Testverfahren. Wiederholte Kontakte verstärken zudem die Vertrauensbasis und erlauben Informationen über Konstanz und situationale Variabilität von Verhaltens-weisen des Klienten zu sammeln.

8.2 Entscheidungsstrategien Entscheidungen setzen Alternativen voraus und können prinzipiell auf zwei verschiedene Arten durchgeführt werden wie Tabelle 3 zeigt.

8.2.1 „Oder-“ vs. „Und-Konzept“

„Oder-Konzept“. Zur Annahme genügen entspre-chend hohe Punktwerte in einem der Prädiktoren. Die-se kompensatorische Auswahlstrategie liegt nahe, wenn die durch das Kriterium geforderte Leistung auf verschiedene Weisen erbracht werden kann. „Und-Konzept“. Zur Annahme sind in jedem Teilbe-reich bestimmte Mindestanforderungen unabdingbar erforderlich. Diese konjunktive Auswahlstrategie er-laubt keinen Ausgleich mangelnder Fähigkeiten durch überdurchschnittliche Leistungen in anderen Berei-chen.

8.2.2 Einstufige Vorgehensweisen

„Nichtsequentielle Batterie“. Die gesamte Testbatte-rie wird allen Probanden vorgegeben. Probanden mit den höchsten Testscore erzielen werden ausgewählt. „Single screen“. Aufgrund eines Tests allein werden alle Entscheidungen getroffen.

8.2.3 Mehrstufige Vorgehensweisen

Pre-reject-Strategie. Nach einem ersten Test werden alle Probanden, die einen bestimmten Score nicht er-reichten, von weiteren Tests ausgeschlossen.

Tabelle 3 Arten diagnostischer Entscheidungen

Nutzen für Institution ↔ Individuum

Annahmequote festgelegt ↔ variabel

Behandlung einmalig ↔ mehrmalig

Ablehnung ja

(Selektion)

↔ nein

(Platzierung)

Informationen univariant ↔ multivariant

Entscheidungen terminal ↔ investigatorisch Pre-accept-Strategie. Nach einem ersten Test werden alle Probanden, die einen bestimmten Score erreichten, bereits (terminal) akzeptiert. Vollständige sequentielle Strategie. Kombination der vorherigen Vorgehensweisen. Nach einem ersten Test erfolgt eine Aufteilung aller Probanden in 3 Gruppen, eine wird (terminal) akzepiert, eine definitiv abgewie-sen und die dritte Folgeuntersuchungen zugewiesen.

8.2.4 Entscheidungsfehler

Die Zentrale Aufgabe von Zuordnungsstrategien be-steht darin, Fehler der Klassenzuordnung zu vermei-den. Die Güte des Zuordnungsverfahrens hängt stark von der Grundrate ab. Eine Übersicht korrekter und falscher Zuordnungen liefert Tabelle 4.

8.2.4.1 Gütekriterien

Sensitivität: Wahrscheinlichkeit, mit der ein vorlie-gender positiver Zustand als solcher erkannt wird oder auch Anteil der richtig zugeordneten positiven Merk-malsträger in dieser Gruppe = TP/(TP+FN). Spezifität: Wahrscheinlichkeit, mit der ein vorliegen-der negativer Zustand als solcher erkannt wird oder auch Anteil der richtig zugeordneten negativen Merk-malsträger in dieser Gruppe = TN/(TN+FP). Positiver Prädiktionswert: Wahrscheinlichkeit, mit der eine positive Diagnose zutreffend ist oder auch Anteil der richtig zugeordneten positiven Merkmalsträ-ger an allen positiv diagnostizierten Personen = TP/(TP+FP). Negativer Prädiktionswert: Wahrscheinlichkeit, mit der eine negative Diagnose zutreffend ist oder auch Anteil der richtig zugeordneten negativen Merkmals-träger an allen negativ diagnostizierten Personen = TN/(TN+FN).

8.2.4.2 Zuordnungsmethoden

Likelihood-Quotient. Die Zuordnung erfolgt zu derje-nigen Klasse, der die Person nach Maßgabe der Aus-

Page 22: Diagnostik-Skript 7 Nebengütekriteriena9806297/Files/... · 2009. 12. 3. · Kapitel 1 - Testkonstruktion Seite 3 von 31 1.3.1.1 Vorgehen 1. Definition des zu erfassenden Konstrukts

Kapitel 8 - Diagnostischer Prozess Seite 22 von 31

prägung im Prädiktor mit der größten Wahrscheinlich-keit angehört (vgl. Amelang S.407). Regressionstechniken. Die Zuordnung zu den Klassen erfolgt durch Differenzbildung mit kritischen Kriteri-umswerten. Diskriminanzanalyse. Die Zuordnung zu den Klassen erfolgt auf Basis der Diskriminationsfunktion, die durch Einsetzen der individuellen Testwerte einen Wert ausgibt, der mit einem kritischen Trennwert ver-glichen wird und der die Klassen voneinander trennt. Ähnlichkeits- und Distanzmaße. Die Zuordnung erfolgt danach, zu welchem der Gruppenvergleichs-profile eine größere Ähnlichkeit oder geringere Distanz des individuellen Testwerteprofils besteht. Ermittelung z.B. mit der Euklidischen Distanz oder Cattellschen Formel (vgl. Amelang S.408).

8.2.4.3 Entscheidungsregeln

Entscheidungsregeln dienen dazu Fehler bei Zuord-nungsverfahren gering zu halten. Neyman-Pearson-Kriterium. Es erlaubt die Ver-schiebung des Entscheidungskriteriums, d.h. die Ände-rung des α-Fehlerniveaus, wodurch allerdings das Risi-ko eines β-Fehlers in einem unbekannten Ausmaß an-wächst. Minimax-Kriterium. Der maximale Zuordnungsfehler (betrachtet in allen Klassen) wird möglichst klein gehalten. Der Betrag des größten Fehlers ist damit am geringsten. Minimum-Loss-Kriterium. Der Zuordnungsfehler über alle Klassen hinweg wird minimiert. Dies kann bedeuten, dass eine Konstellation gewählt wird, bei der ein Zuordnungsfehler in einer Klasse im Vergleich zu allen anderen relativ hoch ist.

8.2.5 Festlegung von Trennwerten

Der positive Prädiktionswert lässt sich durch die Ver-schiebung des Trennwertes in Richtung auf das zu identifizierende Merkmal verändern. Dies betrifft aber nur den Anteil der FP-Entscheidungen. ROC-Kurve. Da die Festlegung eines Trennwertes auch abhängig von der Basisrate ist, ist die ROC-Kurve (Receiver-Operating Characteristic) von besonderer Bedeutung, damit ihr eine simultane und basisratenun-abhängige Bestimmung der Spezifität und Sensitivität für verschiedene Trennwerte möglich ist. Die ROC-Kurve zeigt, dass die mit einer Zunahme der Spezifität (d.h. Rückgang des α-Fehlers, FP) eine Abnahme der Sensitivität (d.h. Zunahme des β-Fehlers, FN) verbun-den ist und umgekehrt.

Tabelle 4 Mögliche Klassenzuordnungen

Prädiktor + Prädiktor -

Kri

teri

um +

TP (true positive)

Korrekte Zustimmungen

Risiko: 1-β

Statistische Teststärke

FN (false negative)

Falsche Auslassungen

Risiko: β

H0 angenommen, H1 gilt

Kri

teri

um - FP(false positive)

Falsche Alarme

Risiko: α

H1 angenommen, H0 gilt

TN (true negative)

Korrekte Zurückweisungen

Risiko: 1-α

Folgerung. Die Wahl eines Trennwertes ist immer von der gewünschten Selektion abhängig. Zudem beinhal-ten kritische Trennwerte immer Werturteile, was wie-der zur Fairness-Problematik führt.

8.2.6 Nutzenfunktionen

1. Zur Erstellung von Nutzenfunktionen benötigt man eine Strategiematrix, in der die Regeln festgehalten sind, nach denen Entscheidungen getroffen werden sollen. 2. Zusätzlich bedarf es einer Verknüpfung zwischen den vorgenommenen Behandlungen und deren Ergeb-nis = Erfolg im Kriterium. Diese Beziehung wird in einer Validitätsmatrix festgehalten. 3. Anschließend erhält jede Kriteriumsklasse einen Nutzenvektor und jede Informationsklasse einen Kos-tenvektor. 4. Wenn man die Differenz des erwartbaren Nutzens einer Person und der erwarteten Kosten zur Informati-onseinholung über einen Probanden mit der Zahl der untersuchten Probanden multipliziert, ergibt sich der erwartbare Netto-Nutzen einer Strategie. Folgerung. Für den Nutzen spielen die Validität des Tests, die Variabilität des Nutzens und die Selektions-quote eine Rolle. Wenn z.B. die Selektionsquote ex-trem hoch oder niedrig ist, kann auch der Einsatz eines hochvaliden Tests keinen Nutzen bringen (vgl. Ame-lang S.412). Probleme. Problematisch ist die Voraussetzung eines linearen Zusammenhangs zwischen Prädiktor und Nut-zen. So könnte bei besonders qualifizierten Probanden aufgrund einer Unterforderung durch den Test auch ein U-förmiger Zusammenhang denkbar sein. Die Be-stimmung von Geldäquivalente ist ebenfalls problema-tisch, vor allem für den Verlust der bei richtiger oder fälschlicher Abweisung entsteht. Man müsste aus be-triebswirtschaftlicher Sicht von Opportunitätskosten sprechen im Sinnes eines durch fälschliche Abweisung

Page 23: Diagnostik-Skript 7 Nebengütekriteriena9806297/Files/... · 2009. 12. 3. · Kapitel 1 - Testkonstruktion Seite 3 von 31 1.3.1.1 Vorgehen 1. Definition des zu erfassenden Konstrukts

Kapitel 8 - Diagnostischer Prozess Seite 23 von 31

entgangenen Gewinns. In ähnlicher Weise sollten indi-viduelle Verluste als gesellschaftliche Kosten verstan-den werden.

8.3 Urteilsbildung Unterscheidung zwischen statistischen Verfahren, die sich durch eine hohe Prognosegenauigkeit auszeichnen, aber auch möglicherweise relevante Randbedingungen ignorieren und klinischen Verfahren, die durch hohe Subjektivität gekennzeichnet sind. Zudem vernachläs-sigen Menschen Basisraten und die Tendenz zur Mitte. Ein statistisches Urteilsmodell kann allerdings nur mit Informationen erstellt werden, die für alle Probanden vorliegen. Als Kompromiss wird die Explikation von Entscheidungsregeln gefordert, damit klinische Urteile prinzipiell überprüf- und korrigierbar werden.

8.4 Urteilsfehler Halo-Effekt: Charakterisierung eines Merkmals strahlt ab auf andere Merkmale (z.B. Studie von Asch). Halo = Vorhof der Sonne. Ankereffekte: Anlehnung des Urteils an die Größe des angegeben Ankers. Z.B. Studie zur Schätzung des An-teils Afrikanischer Staaten in der UNO (65% vs. 10%) oder Einfluss „der letzten Worte“ auf Richterurteile (Vergewaltigungsszenario) Kontexteinflüsse: Kontrasteffekte, Skaleneffekte durch Antwortkategorien Overconfidence: Ohne Kalibrierung glaubt man be-reits eine 100%ige Sicherheit erreicht zu haben, ob-wohl die tatsächliche Wahrscheinlichkeit noch weit darunter liegt. Tendenz zur Mitte: Tendenz, Extremurteile zu ver-meiden und deshalb mittlere Werte anzugeben. Kann durch Antwortskalen mit gerader Anzahl an Alternati-ven unterdrückt werden. Milde- und Härtefehler: Eine zu beurteilende Person wird systematisch entweder zu positiv oder zu negativ eingestuft z.B. bei der Notengebung in verschiedenen Bundesländern (PISA und ZVS). Primacy/Recency-Effekt: Dominanz des ersten Ein-drucks bei der Personenwahrnehmung und Reihenfol-geneffekte bei der Beantwortung von Listen (z.B. Be-liebtheit als Funktion der Listenposition). Better-than-average-Effekt: Tendenz zur überdurch-schnittlichen Selbsteinschätzung für positive oder sozi-al erwünschte Merkmale oder Eigenschaften.

8.5 Gutachtenerstellung Definition. Ein Gutachten ist für Dritte eine zusam-menfassende Darstellung der psychodiagnostischen Vorgehensweise, der Befunde und Schlussfolgerungen in Bezug auf eine hinsichtlich einer konkreten Frage-stellung zu begutachtende Person, Institution oder Situ-ation, basierend auf einem der Fragestellung angemes-sen komplexen diagnostischen Prozess für einen Gu-tachtenempfänger. Im Mittelpunkt der Betrachtung steht nur ein bestimmter Ausschnitt aus dem Verhalten einer Person. Verbindliche Kriterien sind die Sorgfaltspflicht, Transparenz, Einsichtnahme, Verbot von Gefällig-keitsgutachten und Stellungnahme von Kollegen.

8.5.1 Entscheidungsprozess

Fragestellung eindeutig formulieren. Annahmen über das Verhalten treffen. Erstellung eines möglichst ver-haltensorientierten Anforderungsprofils. Psychologi-sche Fragestellungen ableiten = strategische Planung, d.h. Variablen definieren anhand derer man das rele-vante Verhalten erklären oder vorhersagen kann. Be-achtung der Verhaltensgleichung (Umgebungsvariab-len, körperliche, kognitive, emotionale, motivational, soziale Variablen). Untersuchungsplan erstellen = taktische Planung, d.h. Auswahl von Testverfahren und sonstigen Informationsquellen. Durchführung der Un-tersuchung. Darstellung der Ergebnisse. Befund = In-tegration der Ergebnisse in die Beantwortung der psy-chologischen und damit der globalen Fragestellung. Vorschläge oder Empfehlungen zum weiteren Vorge-hen anbieten.

8.5.2 Anforderungen

Ein Gutachten ist umfassend, schriftlich und nachvoll-ziehbar. Die Aufgabe, der Verlauf, die Ergebnisse, deren Bewertung und die zugrund gelegten Beurtei-lungsmaßstäbe müssen dargelegt werden. Die verwen-deten Verfahren sollten charakterisiert und hinsichtlich der Gütekriterien abgewägt werden. Auch alle Hilfsmit-tel müssen angegeben werden. Außerdem muss der Gutachter die erforderlichen Kenntnisse und Erfahrun-gen aufweisen. Übergeordnete Kriterien sind die Art und Qualität der zugrunde liegenden theoretischen Aussagen und deren logische Verknüpfung, die Angemessenheit der Operationalisierungen, die Gütekriterien der Testver-fahren und deren Geltungsbereich.

Page 24: Diagnostik-Skript 7 Nebengütekriteriena9806297/Files/... · 2009. 12. 3. · Kapitel 1 - Testkonstruktion Seite 3 von 31 1.3.1.1 Vorgehen 1. Definition des zu erfassenden Konstrukts

Kapitel 9 - Testverfahren Seite 24 von 31

9 Testverfahren Es wird ein grober, subjektiver Überblick über die verschiedenen Testverfahren und ihre typischen Vertre-ter gegeben.

9.1 Leistungstests Leistungstest erfassen allgemeine Vorraussetzungen für das Erbringen von kognitiven Leistungen.

9.1.1 Aufmerksamkeits- und Konzentrati-

onstests

Aufmerksamkeit bezeichnet das selektive Beachten relevanter Reize oder Informationen. Aufmerksam-keitstest erfassen daher die Reaktionszeiten und Fehler der Probanden auf kritische Reize. Die Form der er-fassten Aufmerksamkeit ist bedingungsabhängig z.B. tonische vs. phasische Alterness aus der Testbatterie zur Aufmerksamkeitsprüfung TAP. Konzentration ist damit die Fähigkeit unter Bedin-gungen schnell und genau zu arbeiten, die das Erbrin-gen einer kognitiven Leistung erschweren und damit umfasst alle Stufen der Verarbeitung von Informatio-nen, d.h. von der selektiven Wahrnehmung über die Speicherung bis zur Handlungsplanung. Anforderungen an Konzentrationstests: einfache, leicht wahrnehmbare Reize, einfach zu erinnernde Regeln, absichtsvolle Teilhandlungen, eine Leistungs-abbildung in Geschwindigkeit und Fehleranzahl. Viele Tests enthalten zudem Distraktoren. Man unterscheidet nach Art der verwendeten Aufgaben Buchstaben-Durchstreich- und Konzentrations-Rechen-Tests. Ein Konzentrationsfaktor. Dieser wird am Besten vom Zahlen-Symbol-Test des BIS und vom Zahlen-Verbindungstest ZVT erfasst. Kennwerte sind Schnelligkeit und Genauigkeit der Reaktionen, welche vom Arbeitstempo des Probanden abhängen. Dabei können Verwechslungsfehler wegen dem Distraktor oder Unverständnis der Instruktion und Auslassungsfehler aufgrund von falscher Reizbeurtei-lung, einer zu späten Reaktion, des Nichtbemerkens oder absichtlichen Nichtbearbeitens auftreten.

9.1.1.1 d2-Aufmerksamkeits-Belastungstest

Merkmal. Kontinuierliche, selektive Aufmerksam-keitsleistung, die schnell und genau erbracht werden muss. Tempo und Qualität werden erfasst.

Aufbau. 658 visuelle Reize = d und p mit keinem, einem oder zwei Strichen. Zielreize sind d’s mit 2 Stri-chen. Testdauer rund 5min. Auswertung. Gesamtzahl, Fehleranteil, fehlerkorrigie-ter Tempowert. Simulation anhand von Doppelfehlern (p mit 2 Strichen) erkennbar. Fazit. Hohe Konsistenz, Stabilität und Korrelation mit anderen Konzentrationstests (Konstruktvalidität) aber nicht mit Intelligenz. Schnell und ökonomisch.

9.1.1.2 Konzentrations-Leistungstest KLT

Merkmal. Konzentrationsleistung aufgrund interner Koordinationsprozesse. Für 4.-6. und 6.-13 Klasse. Aufbau. 180 Rechenaufgaben. Es werden 2 Aufgaben vorgeben, deren Ergebnis im Kopf berechnet und mit-einander verglichen werden müssen. Die Lösung ist entweder die Summe oder Differenz der beiden Teiler-gebnisse. Dauer etwa 18min. Auswertung. Gesamtmenge, Fehlerprozent, und Schwankungsbreite zum Abgleich mit Normtabellen. Fazit. Sehr reliabel und valide, aber mit deutlicher Abhängigkeit von der Rechenfertigkeit und Merkfä-higkeit (hohe Korrelation mit Mathenote).

9.1.1.3 Ähnliche Tests

Frankfurter Aufmerksamkeitsinventar FAIR. Ähn-lich dem d2 nur mit 4 verschiedenen geometrischen Figuren und vollständigem Markierungsprinzip (Za-ckenlinie). Testdauer 6min. Frankfurter Adaptiver Konzentrationstest FAKT. Vorgabe der Items erfolgt je nach Probandenfähigkeit immer schneller. Dauer von 6-30min, wenn man den Leistungsverlauf beurteilen möchte. Stroop-Test. Farb-Wort-Interferenztest.

9.1.2 Intelligenztests

Intelligenztests sind nicht immer mit explizit nach ei-nem bestimmten Intelligenzmodell konstruiert wie z.B. 7-Faktoren-Modell von Thurstone, fluide vs. kristalli-sierter Intelligenz. Außerdem variieren die Tests in der abgedeckten „Breite“, weshalb sich einige eher zur gründlichen Messung, andere zum Screening eignen.

9.1.2.1 Wechsler Intelligenztest HAWIE/HAWIK

Merkmal. Maß für allgemeine Intelligenz und Anga-ben zu weiteren Fähigkeiten. Liefert IQ-Wert und ver-gleichbare Untertestergebnisse. Aufbau. 6 Subtests im Verbalteil (Allgemeines Wis-sen, Gemeinsamkeiten finden, Rechnerisches Denken, Wortschatztest, Allgemeines Verständnis, Zahlen

Page 25: Diagnostik-Skript 7 Nebengütekriteriena9806297/Files/... · 2009. 12. 3. · Kapitel 1 - Testkonstruktion Seite 3 von 31 1.3.1.1 Vorgehen 1. Definition des zu erfassenden Konstrukts

Kapitel 9 - Testverfahren Seite 25 von 31

nachsprechen) und 7 im Handlungsteil (Bilder ergän-zen, Zahlen-Symboltest, Bilderordnen, Mosaiktest, Figurenlegen, Symbolsuche, Labyrinthtest). Testdauer 50-70min. Auswertung. Computerbasierte Auswertung mit Aus-gabe von IQ-Werten. Zusätzliche Subskalen wie sprachliches Verständnis, Wahrnehmungsorganisation und Unablenkbarkeit. Fazit. Objektivität nicht perfekt. Gesamtwert sehr reli-abel, Subtests hingegen weniger. Faktorielle Struktur deckt sich nicht immer mit den angegeben Subskalen. Dennoch nützliches Verfahren, das viele Informationen über Stärken und Schwächen des Probanden (Kindes) liefert. Alternativen. Adaptives Intelligenz Diagnostikum AID. Ähnlich den Wechsler-Test, Rasch-skaliert und zur Erfassung von Teilleistungsstörungen und –schwächen gedacht. Kaufmann-Assessment-Battery for Children K-ABC. Trennung zwischen kognitiven Fä-higkeiten und erworbenen Fertigkeiten. Vorgehenswei-se bei der Informationsaufnahme als Kern der Intelli-genz. Erfassung von einzelheitlichem (Lösen durch serielles Denken z.B. Zahlen nachsprechen) und ganz-heitlichem Denken (Reizintegration verlangt z.B. Er-kennen von Gestalten anhand unvollständiger Informa-tionen).

9.1.2.2 Intelligenz-Struktur-Test IST

Merkmal. Basiert auf 5 Faktoren des Thurstone-Modells = verbale, numerische und figurale Intelligenz, Merkfähigkeit und schlussfolgerndes Denken (Reaso-ning). Erfassung von fluider und kristallisierter Intelli-genz durch Wissensfragen. Aufbau. Jeweils 3 Subtests für einen Faktor z.B. ver-bal = Sätze ergänzen, Analogien, Gemeinsamkeiten numerisch = Rechenaufgaben, Zahlenreihen, Rechen-zeichen und figural = Figurenauswahl, Würfelaufga-ben, Matrizen. Liegt in 2 Pseudoparallelformen vor. Testdauer 2-3h. Güte. Hohe interne Konsistenzen der Gesamtwerte, aber von Profilinterpretationen wird abgeraten. Drei-faktorenstruktur wurde bestätigt. Hohe Korrelationen von Reasoning mit CFT, Mathenoten, Ausbildungser-folg und fremdeingeschätzer allgemeiner Intelligenz. Aber Normstichprobe nicht optimal. Fazit. Sorgfältig konstruierter Test zur reliablen Erfas-sung der 5 Primärfaktoren und der Sekundärfaktoren fluide und kristallisierte Intelligenz. Aufgrund der kon-sequenten Aggregation inhaltsunabhängig.

9.1.2.3 Andere „breite“ Intelligenztests

Wilde-Intelligenz-Test WIT. Repräsentiert ebenfalls 5 Primärfaktoren (verbal comprehension, number, space, reasoning, memory), wurde aber zur berufsbezogenen Diagnostik entwickelt. Testdauer etwa 2,5h. Berliner Intelligenzstruktur-Test BIS. Basiert auf einem Rautenmodell aus Operationen (figural, verbal, numerisch) und Inhalten (Bearbeitungsgeschwindig-keit, Merkfähigkeit, Einfallsreichtum, Verarbeitungs-kapazität). Der Test besteht aus 45 Untertests, die in die 12 Zellen eingeordnet werden können. Daraus sind allgemeine Intelligenz und 7 Teilfähigkeiten vorerst für Jugendliche und jüngere Erwachsene ermittelbar.

9.1.2.4 Culture-Fair-Test CFT

Merkmal. Grundintelligenztest mit den Zusatztest Wortschatz- und Zahlenfolgetest zur sprachfreien Mes-sung der fluiden Intelligenz nach Cattell bzw. zur zu-sätzlichen Messung der kristallisierten Intelligenz. Aufbau. 4 Subtests (Figurenreihen fortsetzen, Klassifi-kationen, Matrizen, topologisches Schlussfolgern) Testdauer 1h. Güte. Hohe interne Konsistenz und Stabilität. Hohe Korrelation zur Mathenote und Ravens Progressive Matrices, was für Sprachfreiheit spricht. Fazit. Erfassung grundlegender intellektueller Leis-tungsfähigkeit relativ unabhängig von kultur- und schichtspezifischen Einflüssen zur Untersuchung von sprachretardierten und Ausländerkindern. Im Einzelfall Hilfe zur Einschätzung des intellektuellen Potenzial von Probanden mit niedrigen Testwerten in bildungs-abhängigen Intelligenztests. Stärke liegt darin eine Fähigkeit mit 4 unterschiedlichen Aufgabentypen zu messen (Aggregation). Alternativen. Alternativ können die Matritzen-Ergänzungstests Ravens Progressive Matrices RPM (Powertest mit Bezug auf Spearmans g-Modell) oder Bochumer Matritzentest BOMAT (Erfassung allgemei-ner Intelligenz im oberen Bereich) eingesetzt werden.

9.1.3 Spezielle Fähigkeitstests

Fähigkeitstests dienen zur Erfassung schmaler Facetten der kristallisierten Intelligenz. Bespiele sind der Büro-arbeitstest von Lienert, der Test zur Praktischen Intel-ligenz PIA und der Lern- und Gedächtnistest LGT zur reliablen Erfassung der Lern- und mittelfristigen Ge-dächtnisleistungen.

Page 26: Diagnostik-Skript 7 Nebengütekriteriena9806297/Files/... · 2009. 12. 3. · Kapitel 1 - Testkonstruktion Seite 3 von 31 1.3.1.1 Vorgehen 1. Definition des zu erfassenden Konstrukts

Kapitel 9 - Testverfahren Seite 26 von 31

9.1.4 Entwicklungstests

Entwicklungstest sind Verfahren, die den Leistungs-stand eines Kindes in Relation zu seinem Lebensalter erfassen wollen. Entwicklungsretardierungen von Kin-dern und Erwachsenen sollen damit erkannt werden. Die vorgestellten Intelligenztests für Kinder enthalten auch entwicklungsspezifische Komponenten und kön-nen ebenso zur Entwicklungsdiagnostik eingesetzt werden. Griffiths Entwicklungsskalen GES. 5 Skalen zu den eigenständigen Entwicklungsbereichen Motorik, sozia-ler Kontakt, Hören und Sprechen, Auge-Hand-Koordination und kognitive Entwicklung. Ermittlung eines Entwicklungsquotienten (Entwicklungsalter durch Lebensalter). Eher mittelmäßige Gütemaße und keine Normwerte. Wiener Entwicklungstest WET. Erfassung des Ent-wicklungsstandes von Vorschulkindern in den 6 Berei-chen Motorik, visuelle Wahrnehmung, Lernen und Gedächtnis, kognitive Entwicklung, Sprache, sozial-emotionale Entwicklung). Faktorielle Struktur deckt sich jedoch nicht mit den Funktionsbereichen. Fazit: Rasch-skaliertes Breitbandverfahren, das Hinweise auf Entwicklungsrückstände liefern kann.

9.1.5 Schultests

Schultests sollen im Gegensatz zu Entwicklungstests speziellere Fähigkeiten und Fertigkeiten erfassen. Schuleingangstests sind nicht wirklich valide, sodass die sicherste Diagnosemethode immer noch die Einschulung aller Kinder ist, mit der Möglichkeit sich am Kriterium zu bewähren. Übertrittstests sollen helfen das Misserfolgsrisiko für den Übertritt auf weiterführende Schulen abzuschätzen. Prognostische Validität ist aber zu gering, weshalb auf Basis bisheriger Schulleistungen entschieden werden sollte. Schulleistungstests sind sehr valide normorientierte Indikatoren der Schulleistung und erlauben Vergleiche der Individualleistung mit überregionalen Normen (Objektivierung der Noten). Außerdem sollen Hinwei-se auf spezifische Lern- oder Leistungsschwächen wie Legasthenie und Dyskalkulie gegeben werden.

9.2 Persönlichkeitsfragebogen Persönlichkeitsfragebögen dienen der Erfassung von emotionalem, motivationalem und sozialem Verhalten. Selbstbeobachtung der Probanden, die Erinnerung an das eigene Verhalten und komplexe Urteilsprozesse

sind notwendig. Sie erfassen damit die von einer Per-son bevorzugte Wahrnehmung und Darstellung ihrer selbst.

9.2.1 Validitätsproblem

Neben allgemeine Probleme wie das unterschiedliche Verständnis von Häufigkeitsbegriffen (oft, häufig, sel-ten, nie etc.), die Relativierung der eigenen Merk-malsausprägung an der wahrgenommenen oder vermu-teten Merkmalsausprägung der Mitmenschen, sind geringe Validität von meist unter .30 das Hauptprob-lem von Fragebögen. Das beste Kriterium zur Validierung sind gemittelte Fremdeinschätzungen, die zwar nur einen Teil der Persönlichkeit erfassen können und abhängig von der Dauer der Bekanntschaft und der Beobachtbarkeit des Merkmals sind, dafür aber verfälschungssicherer sind. Urteilerüberstimmungen sind allerdings kein Beweis für die Richtigkeit des Urteils und stellen somit nur eine Approximation der angestrebten Information dar.

9.2.2 Antwortstile.

Eine unsystematische Beantwortung durch wahlloses Ankreuzen und eine Ja-Sage-Tendenz (Akquieszenz) mindern die Aussagekraft eines Tests. Der Akquies-zenz kann durch Invertierung der Items vorgebeugt werden, was aber auch leicht zur Bedeutungsänderung führen kann.

9.2.3 Verfälschung.

Wenn Probanden einen Fragebogen komplett sozial erwünscht antworten, ändert sich die Konstruktvalidi-tät, da die Skalen nicht mehr mit dem eigentlichen Kriterium korrelieren. Soziale Erwünschtheit ist durch die zwei Komponenten impression managment und self-deception gekennzeichnet. Verhindern lässt sich die Tendenz zur sozialen Er-wünschtheit durch das forced choice Antwortformat, bei dem die Probanden ihren Grad der Zustimmung zu verschiedenen sozial erwünschten Antwortalternativen angeben. Kontrolle der sozialen Erwünschtheit durch bestimmte Skalen wie z.B. der Marlowe-Crowne-Skala, die je-doch bei sehr moralischen Menschen zu Fehleinschät-zungen führt. Außerdem kann eine „fake good“-Bedingung der Kontrolle dienen. Achtung! Soziale Erwünschtheit korreliert positiv mit Berufserfolg und kann diesbezügliche Persönlich-keitsmerkmale erfassen.

Page 27: Diagnostik-Skript 7 Nebengütekriteriena9806297/Files/... · 2009. 12. 3. · Kapitel 1 - Testkonstruktion Seite 3 von 31 1.3.1.1 Vorgehen 1. Definition des zu erfassenden Konstrukts

Kapitel 9 - Testverfahren Seite 27 von 31

9.2.4 Persönlichkeitssysteme

Es handelt sich größtenteils um induktiv-faktoren-analytisch erstellte Skalen, die ein sehr weites Spekt-rum von Erlebnis- und Verhaltensweisen im Bereich des Unauffällig-Normalen abdecken.

9.2.4.1 MMPI

Ansatz. Soll der Erfassung psychopathologischer Symptome dienen, die Items wurde jedoch ausschließ-lich zur Trennung von psychologischer Patienten und „Normalpersonen“ ausgewählt. Problem des „Item-Overlap“, da einige Items mehrfach verrechnet werden. Daher sind individuelle Testprofilinterpretationen nicht zulässig. Aufbau. 588 Fragen in 13 Basis- und 4 Validitätsska-len, die bei hohen Werten zur Vorsicht raten. Viele Items mit geringer Augenscheinvalidität. Testdauer 1h. Güte. Basisskalen sind einzeln interpretierbar und 4-Faktorenstruktur bestätigt (psychotische Gedankenin-halte, neurotische Verhaltensweisen, Introversion, Ge-schlechtsrollenidentifikation), aber Problem des „Item-Overlap“. Repräsentative Normstichprobe. Fazit. Man erhält eine extrem große Informationsaus-beute, aber das Verfahren basiert auf veralteten dia-gnostischen Kriterien.

9.2.4.2 Freiburger Persönlichkeitsinventar FPI

Ansatz. Keine theoriegeleitete Testkonstruktion, son-dern eher orientiert an theoretischen Grundlagen im Hinblick auf deren Implikation für das soziale Zusam-menleben und das subjektive Wohlempfinden oder Zurechtkommen mit Anforderungen. Aufbau. 138 Fragen in 10 Basis- und 2 Zusatzskalen (Lebenszufriedenheit, soziale Orientierung, Leistungs-orientierung, Gehemmtheit, Erregbarkeit, Aggressivi-tät, Beanspruchung, Körperliche Beschwerden, Ge-sundheitssorgen, Offenheit, zusätzlich Extraversion und Emotionalität). Testdauer 10-30min. Güte. Repräsentative Normstichprobe und befriedi-gende Reliabilität und Stabilität. Hohe Übereinstim-mungen zwischen Fremd- und Selbsteinschätzungen. Geringer Einfluss sozialer Erwünschtheit. Allerdings sind die allermeisten Items positiv gepolt (Akquies-zenz) und die Unabhängigkeit der Konstrukte ist frag-lich. Fazit. Der FPI ist ein Verfahren, dessen Konstrukte teils erwiesenermaßen von erheblicher Bedeutung für die Beschreibung interindividueller Unterschiede sind.

9.2.4.3 16-Persönlichkeitsfaktoren-Test 16-PF

Ansatz. Basiert auf den 16 grundlegenden Dimensio-nen von Cattell. Aufbau. Es gibt 16 inhaltliche Skalen von denen 14 zu 5 Globalfaktoren (Selbstkontrolle, Extraversion, Unab-hängigkeit, Ängstlichkeit, Unnachgiebigkeit) zusam-mengefasst werden können. Die Skalen zum schluss-folgerndem Denken und Wachsamkeit gehen nicht in die Globalfaktoren ein. Außerdem sind Skalen zur Erfassung der sozialen Erwünschtheit (10 Items), Ak-quieszenz (100 Items) und Infrequenz enthalten (51 Items bei denen der Distraktor eine Wahlhäufigkeit von weniger als 5% aufwies). Testdauer 45min. Güte. Gute Normierung, hohe Retestreliabilität .83, bestätigte faktorielle Validität und konvergente Validi-tät mit einigen Skalen des Neo-FFI, aber nur zufrieden stellende Konsistenzen von .74. Fazit. Der 16-PF bietet einen differenzierten Zugang zu verschieden Merkmalsbereichen und eine reliable Erfassung von varianzstarken Faktoren höherer Gene-ralisierungsgrades („Big Five“).

9.2.4.4 Neo-Fünf-Faktoren-Inventar Neo-FFI

Ansatz. „Big Five“-Modell. Aufbau. 60 Items verteilt auf 5 Skalen (Neurotizismus, Extraversion, Offenheit für Erfahrung, Verträglichkeit, Gewissenhaftigkeit). Testdauer 10min. Güte. Interne Konsistenz von .70 und hohe Retestreli-abilität von .80. Faktorenstruktur bestätigt. Fazit. Der Neo-FFI dient zur ökonomischen, reliablen und relativ validen Erfassung fünf varianzstarker Per-sönlichkeitsfaktoren.

9.2.4.5 Neo-Persönlichkeitsinventar Neo-PI

Das Neo-PI ist ebenfalls an das „Big Five“-Modell angelehnt, unterteilt diese aber noch in jeweils 6 Teil-skalen (240 Items), wodurch die internen Konsistenzen der Globalskalen auf .87-.92 steigen. Es erlaubt damit eine wesentliche zuverlässigere Messung der fünf Per-sönlichkeitsfaktoren, ist zudem besser normiert und ermöglicht die Validierung der Teilfacetten. Außerdem liegt eine Fremdbeurteilungsversion vor. Einziger Nachteil gegenüber dem Neo-FFI ist die Testdauer von 30-40min.

9.2.4.6 Bochumer Inventar zur berufsbezogenen

Persönlichkeitsbeschreibung BIP

Wurde zusammen mit Psychologen im Personalbereich entwickelt und soll der Einschätzung einer Person in Hinblick auf bestimme berufliche Anforderungen die-

Page 28: Diagnostik-Skript 7 Nebengütekriteriena9806297/Files/... · 2009. 12. 3. · Kapitel 1 - Testkonstruktion Seite 3 von 31 1.3.1.1 Vorgehen 1. Definition des zu erfassenden Konstrukts

Kapitel 9 - Testverfahren Seite 28 von 31

nen. Es enthält 14 Skalen die sich auf die 4 Bereiche berufliche Orientierung, Arbeitsverhalten, Persönliche Kompetenzen und psychische Konstitution beziehen. Es gibt noch 4 Zusatzindizes Kontrollerleben, Wettbe-werbsorientierung, Mobilität und Freizeitorientierung. Fremdeinschätzungsbogen ebenfalls vorhanden, da zum Einsatz in Assessment-Centern oder Trainings gedacht. Das Verfahren besitzt gute Gütekriterien und die 4-Fatorenstruktur wurde bestätigt, dennoch fällt die inkrementelle Validität sehr gering aus .15. Das Ver-fahren ist damit nur eine gute Grundlage für Explorati-on, Beratungs- und Rückmeldungsgespräche.

9.2.5 Erfassung aktueller Zustände

Von „state“-Tests werden eine gewünschte Änderungs-sensitivität, niedrige Retestreliabilität, aber hohe Kon-sistenz und ein geringe Korrelation mit „trait“-Tests gefordert. State-Trait-Angst-Inventar STAI enthält 2 Skalen mit je 20 Fragen in einer „state“- und „trait“-Variante, die nacheinander bearbeitet werden. Das Verfahren hat eine hohe Konsistenz von .90 und es zeigen sich deut-liche Unterschiede in den Stabilitäten für die zwei Bedingungen. Eine klare Trennung ist damit möglich. Allerdings ist eine valide Prognose fraglich. Eigenschaftswörterliste EWL mit 161 Adjektiven zur Untersuchung von Auswirkungen systematischer Be-einflussungen auf die aktuelle Befindlichkeit von Gruppen. Das Verfahren ist aufgrund stark variierender Konsistenzkoeffizienten nur ein Forschungsinstrument.

9.2.6 Erfassung von Interessen

Explorix ein Verfahren zur Berufswahl und Laufbahn-planung von Holland basierend auf 6 Interessens- bzw. Persönlichkeitstypen (realistic, investigative, artistic, social, enterprising, conventional). Die Gütekriterien sind gut und es gibt hohe Korrelationen mit den „Big Five“, aber auch große Geschlechtsunterschiede. Insge-samt ist das Verfahren theoretisch gut fundiert, sehr zuverlässig und benutzerfreundlich. Es fehlt jedoch der Nachweis, dass eine Beratung unter Zuhilfenahme von Explorix zu einer größeren späteren Berufszufrieden-heit führt.

9.2.7 Erfassung von Motivation

Erfassung von Leistungsmotivation auch schon in Per-sönlichkeitssystemen enthalten z.B. die Skalen Leis-tungsmotivation, Gestaltungsmotivation, Führungsmo-

tivation und Belastbarkeit des BIP oder die Skala zur Leistungsorientierung des FPI. Leistungsmotivationsinventar LMI. Ziel ist ein Ver-fahren zur „breiten“ Messung der berufsbezogenen Leistungsmotivation bereit zu stellen. Angenommen wird ein Zwiebelmodell wobei einige Merkmale eine Kernfacette (z.B. Beharrlichkeit und Erfolgshoffnung) bilden, andere Randfacetten darstellen (z.B. Selbstän-digkeit und Statusorientierung) und noch andere in der Peripherie liegen (z.B. Selbstvertrauen und Kontroll-überzeugungen). Das Verfahren zeigt hohe interne Konsistenz und Stabilität, aber die Befunde zur Krite-riumsvalidität sind unübersichtlich. Insgesamt ist das LMI ein objektives und hinreichend reliables Verfah-ren zur Messung der Leistungsmotivation, dessen 17 Dimensionen eine Chance für gute Einzelprädiktoren darstellt, aber durch eine Vielzahl korrelierter Skalen eine Profilauswertung behindert.

9.2.8 Erfassung von Handlungskontrolle

Mit Handlungskontrolle sind all jene Vorgänge ge-meint, die zur Umsetzung einer bereits gefassten Ab-sicht beitragen = Volition. Es stehen sich Handlungsorientierung (Tendenz zur Vermeidung inadäquater Kognitionen bei der Hand-lungsausführung) und Lageorientierung gegenüber (Tendenz sich selbst durch interferierende Bewusst-seinsinhalte zu „blockieren“). Fragebogen zur Erfassung von Handlungskontrolle nach Erfolg und Misserfolg HAKEMP besteht aus den drei Teilskalen Handlungskontrolle nach Misser-folg zur Prognose von generalisierten Leistungsdefizi-ten, Handlungskontrolle bei Planung und Entscheidung zur Bestimmung des Ausmaß, in dem Stärke und tat-sächliche Ausführung einer Handlung übereinstimmen und Handlungsorientierung bei Tätigkeitsausführung zur Erfassung der Fähigkeit sich in eine selbstinitiierte und angenehme Tätigkeit zu vertiefen. Jede Skala um-fasst 12 Situationsbeschreibungen. Reliabilität ist be-friedigend, 3-Faktorenstruktur bestätigt und experimen-telle Validitätsbelege sprechen für die Eigenständigkeit der erfassten Konstrukte und eine hohe Nützlichkeit.

9.3 Nichtsprachliche und objektive

Persönlichkeitstests Nichtsprachliche Verfahren arbeiten mit Zeichnun-gen in den verschieden Situationen dargestellt und Probanden aufgefordert werden anzugeben, inwieweit sie sich mit einer Person auf dem Bild identifizieren

Page 29: Diagnostik-Skript 7 Nebengütekriteriena9806297/Files/... · 2009. 12. 3. · Kapitel 1 - Testkonstruktion Seite 3 von 31 1.3.1.1 Vorgehen 1. Definition des zu erfassenden Konstrukts

Kapitel 9 - Testverfahren Seite 29 von 31

wie z.B. beim Nonverbal Personality Questionnaire NPQ, der recht gut mit den „Big Five“ korreliert. Objektive Verfahren sollen ihre Messintention ver-bergen, gilt aber nur bei Items mit häufig Leistungscha-rakter. Es würden sich aber auch biographische Infor-mationen oder physiologische Indikatoren anbieten. Objektiver Leistungsmotivationstest OLMT. Dieser Verfahren besteht aus der einfachen Aufgabe eine Straße durch Tastendruck in 10s möglichst weit abzu-fahren. Schnelligkeit und Ausdauer sind dabei gefor-dert, da es 30 Durchgänge = 3000 Tastendrücke gibt. Außerdem gibt es 3 Bedingungen Aufgabenbezogene Anstrengung, Motivation durch Ziele und Motivation durch Konkurrenz. Neben den Hauptkennwerten wer-den Fehlerquote und Streuung ermittelt sowie der Leis-tungsverlauf grafisch dargestellt. Eine große Streuung steht dabei für Durchführungsprobleme und hohe Feh-lerquoten für große Anstrengung. Das Verfahren weist hohe interne Konsistenzen und positive Korrelationen zu kognitiven Leistungstests und Abiturnoten auf. Al-lerdings nur schwache Korrelation mit anderen Leistungsmotivationsfragebögen. Der OLMT gilt des-halb als interessanter und entwicklungsfähiger Versuch der verfälschungssicheren Motivationsmessung.

9.4 Projektive Verfahren Projektion nach Freud ist die Verlegung einer Eigen-schaft, die das Ich bedroht und an der eigenen Person nicht wahrgenommen wird, auf eine Person in der Au-ßenwelt. Die Validitätsobergrenze liegt aufgrund der geringen Objektivität und Reliabilität bei .25. Rohrschach-Test. Darbietung von Tintenklecksen mit Auswertung des Erfassungsmodus (Ganz- oder Detail-deutung), der Determinanten (Form, Farbe etc.), des Inhalts und des Originalitätsgrades. Auswertungsobjek-tivität deshalb problematisch und zufrieden stellende Stabilität nur mit Korsakoff-Patienten. Konstruktvali-dierung ist ebenfalls schwer zu leisten. Thematischer Apperzeptionstest TAT. Der Test soll dem Diagnostiker ermöglichen, einige vorherrschende Triebe, Gefühle, Gesinnungen, Komplexe und Konflik-te des Probanden zu erkennen, und zwar vor allem solche verdrängter oder hintergründiger Art. Es werden Bildtafeln verwendet, zu denen Geschichten entwickelt werden sollen. Anschließend erfolgt eine Satz-für-Satz-Auswertung. Die Gütekriterien sind daher schwer bere-chenbar und der Stellenwert der angesprochen Themen sowie deren Deutung unklar. Dient daher eher zur Be-arbeitung biographischer Grundsituationen.

9.5 Verhaltensbeobachtung Arten der Beobachtung. Aktive und passive Teilnah-me sowie Nichtteilnahme, welche die beste Variante ist. Arten der Datenregistrierung. Zeichensystem: durch Selektion der zu beobachtenden Verhaltensweisen. Kategoriensysteme: durch Zuordnung ähnlicher Ver-haltensweise in bestimmte Klassen. Ratingverfahren: durch Schätzung von Ausprägungsgrad oder Häufigkeit von Verhaltensweisen im Nachhinein, wobei Urteils-fehler zu erwarten sind. Gütekriterien. Objektivität ist problematisch, bei Zei-chensystemen ist die Beobachterübereinstimmung jedoch am größten. Urteilsfehler wie Halo-Effekt, logi-sche Fehler, Milde- und Härtefehler, Tendenz zur Mitte oder zu Extremurteilen. Validität besteht meist nur inhaltlich. Fazit. Verhaltensbeobachtung ist dort angebracht wo keine formellen Testverfahren zur Verfügung stehen. Die Objektivität ist umso größer, je konkreter die zu registrierenden Verhaltensweisen sind und je geringer die Anzahl der vom Beobachter zu leistenden Urteilsprozesse ist.

9.6 Diagnostisches Interview Diagnostisches Interview ist der Überbegriff für Me-thoden zur Informationserfassung mittels Gespräch. Unterteilung je nach Zielsetzung in Anamnese, Explo-ration, Einstellungs- oder Auswahlgespräch. Es besteht meist ein standardisierter oder zumindest strukturierter Aufbau und die gegebenen Antworten werden nach festen Regeln ausgewertet und Punktwer-ten zugeordnet. Die Standardisierung dient zur Mini-mierung von Verzerrungen seitens des Interviewers, da die Antworten je nach Formulierung der Fragen unter-schiedlich ausfallen.

9.6.1 Klinische Interviews

Klinische Diagnosen basieren meist auf Merkmal, die nicht oder nur sehr schwer beobachtbar sind und müs-sen daher erfragt werden. Verfahren die das ganze Spektrum psychischer Störun-gen abdecken sind das Strukturierte Klinische Inter-view für DSM-IV SKID und das Diagnostische Inter-view bei psychischen Störungen DIPS, welches in einer Kurzform und einer Version für Kinder vorliegt. Neben der Erkennung von Störungen dienen diese Interviews auch der Therapieevaluation und der Abklärung der Ätiologie einer Störung.

Page 30: Diagnostik-Skript 7 Nebengütekriteriena9806297/Files/... · 2009. 12. 3. · Kapitel 1 - Testkonstruktion Seite 3 von 31 1.3.1.1 Vorgehen 1. Definition des zu erfassenden Konstrukts

Kapitel 9 - Testverfahren Seite 30 von 31

Der Grad der Urteilerübereinstimmung hängt von den Diagnosen und der Klarheit der diagnostischen Krite-rien ab. In Abhängigkeit von der Diagnose variiert auch die Retestreliabilität und externe Validitätskrite-rien sind kaum vorhanden.

9.6.2 Interviews zur Eignungsdiagnostik

Bei diesen Verfahren zur Personalauswahl ist das „multimodale Einstellungsinterview“ als Konstrukti-onsprinzip sehr beliebt. Es besteht aus den 8 Stufen Gesprächsbeginn, Selbstvorstellung des Bewerbers, Berufsinteressen und Berufswahl, freies Gespräch, biographiebezogene Fragen, realistische Tätigkeitsin-formation, situative Fragen und Gesprächsabschluss. Metaanalysen zeigen, dass die Validität nicht mit der Validierung an subjektiven Kriterien erklärt werden kann, strukturierte und verhaltensbeschreibende Inter-views valider sind als unstrukturierte und situative Interviews, die Validität abnimmt je mehr Interviewer beteiligt sind = Moderatorvariablen der Validität. Zudem korrelieren konventionelle Interviews höher mit Intelligenz als verhaltensbezogene Interviews, welche eher mit sozialen Fertigkeiten korrelieren und so eine Steigerung der inkrementellen Validität beim Kriterium Berufserfolg bewirken (Intelligenz .51, + Interview .63).

9.6.3 Konstruktion

Ein Abschnitt sollte mit offenen Fragen beginnen. Fragen sollten kurz, verständlich, konkret sein, den Kontext als Gedächtnisstütze nutzen sowie Fachbegrif-fe, Fremdwörter, suggestive Formulierungen vermei-den und keine Bewertungen enthalten. Grobaufbau des Leitfadens dient zur Festlegung von Themenblöcken und der Feinaufbau des Leitfadens zur Ausformulie-rung und Selektion „günstiger“ Fragen. Der Leitfaden sorgt für Vollständigkeit, dient der Ent-lastung des Interviewers, schafft freie Kapazitäten für die Verhaltensbeobachtung und erleichtert die Auswer-tung.

9.6.4 Techniken der Gesprächsführung

Zum Reden motivieren. Der Interviewpartner sollte über den Zweck der Fragen informiert und damit sein Eigeninteresse angeregt werden. Überleitungen und offene Fragen vermeiden, dass sich der Proband ausge-fragt fühlt. Wichtige Maßnahme ist das aktive Zuhören durch nonverbale Signale, Paraphrasieren und Zusam-menfassen. Die Verbalisierung von Gefühlen und Vor-

gabe von Antwortalternativen kann ebenfalls hilfreich sein. Erkennung und Umgang mit Widerstand. Indirekter Widerstand kann anhand von verspätetem Erscheinen, nonverbalen Anzeichen und verbalem Vermeidungs-verhalten erkannt werden. Durch das Zeigen von Ver-ständnis, Umformulierung der Frage, Thematisierung von Gefühlen und der Begründung der Fragen oder unter Umständen auch direkter Konfrontation kann der Widerstand überwunden werden. Peinliche Fragen stellen. Man sollte die Frage be-gründen, aber nicht um das Thema herumreden. um die Peinlichkeit nicht noch zusätzlich zu erhöhen. Kontrolle über die Gesprächsführung. Durch Erläu-terung der Ziele und klar formulierte Fragen können Missverständnissen vorgebeugt werden. Interventi-onsmöglichkeiten beim Abschweifen sind das Zurück-kommen auf die Ausgangsfrage durch Überleitungen und Paraphrasieren sowie der positiven und negativen Verstärkung mittels nonverbaler Signale.

9.7 Gruppendiagnostik Gruppendiagnostik basiert auf den drei Ansätzen der kognizierten interpersonellen Merkmale einer oder mehrer Personen (Vorstellung über die Beziehung zu anderen), der intrapersonellen Eigenschaften einer Person (persongebundene Interaktionsmerkmale) und der interaktionellen Merkmale mehrerer Personen in einer sozialen Situationen.

9.7.1 Paardiagnostik

Partnerschaftsfragebogen PFB. Mit diesem Verfah-ren kann die partnerschaftliche Zufriedenheit erfasst werden. Die Qualität der Partnerschaft wird als kogni-tive repräsentation bei einem der Partner zum Verhal-ten des anderen angesehen. Der Fragenbogen wurde aus einer Mischung von rationalem (Literatur), induk-tivem (Faktorisierung) und externalem Ansatz kon-struiert (Voher-Nachher-Vergleiche), der zu den 3 Skalen Streitverhalten, Zärtlichkeit und Gemeinsam-keit/Kommunikation geführt hat. Die Gütekriterien sind überzeugend.

9.7.2 Familiendiagnostik

Fragenbogen zur Familiendiagnostik erfassen drei wichtige Perspektiven (individuell, dyadisch, gesamt-familiär) von Wahrnehmung und Einstellung = breites Beziehungsgeflecht. Sie liefern damit wertvolle Infor-mationen für beratende und therapeutische Funktionen.

Page 31: Diagnostik-Skript 7 Nebengütekriteriena9806297/Files/... · 2009. 12. 3. · Kapitel 1 - Testkonstruktion Seite 3 von 31 1.3.1.1 Vorgehen 1. Definition des zu erfassenden Konstrukts

Kapitel 9 - Testverfahren Seite 31 von 31

9.7.3 Teamdiagnostik

Teamklima-Inventar TKI. Das Verfahren dient mit 44 Items zur Erfassung der Arbeitsatmosphäre auf-grund der 4 Faktoren Vision und Aufgabenorientierung (Qualität) und partizipative Sicherheit und Unterstüt-zung für Innovationen (Quantität). Es gibt 13 inhaltli-che und 2 Skalen zur sozialen Erwünschtheit, die gute interne Konsistenzen und hohe Skaleninterkorrelatio-nen aufweisen. Die 4-Faktorenstruktur und die Validi-tät auf Teamebene wurden bestätigt. Durch Mittelung der individuellen Teammitglieder-Scores kann somit das herrschende Arbeitsklima gut und ökonomisch erfasst werden.