Vorlesung
Grundlagen
Psychologischer Diagnostik und Testtheorie
Universität Leipzig
WS 2018/19
Datum: 30.01.2019
Dozent: Sascha Krause
Interessenten StiL-Seminar
Kennenlernen der TAP (Testbatterie zur Aufmerksamkeitsprüfung)
-> beliebtes Verfahren in der angewendeten Psychologie
In 2- oder 3er Gruppen zusammenfinden
einmalig 90-minütige Veranstaltung ab April (auch in
Semesterferien)
Kontakt: [email protected]
Zugangscode zum Iversity-Kurs: un.iversity.org/i/g/wbfcok
2
Gliederung der Vorlesung
1. Einführung
2. Psychologische Tests
– Verschiedene Arten psychologischer Tests
– Items
– Statistische Itemanalysen
– Faktorenanalyse
– Normierung
3. Testgütekriterien
– Objektivität
– Reliabilität
– Validität
4. Entscheidungstheoretische Modelle
– Entscheidungsstrategien
– Güte diagnostischer Entscheidungen
– Nutzen diagnostischer Entscheidungen
5. Diagnostische Urteilsbildung
4.3 Entscheidungstheoretische Nutzenerwägungen
(Wiederholung)
• (Brogden, 1949; Cronbach & Gleser, 1965)
• Ziel: Nutzen einer diagnostischen Prozedur für eine Selektionsaufgabe
in Geldeinheiten ausdrücken
Prüfung, ob eine Prozedur überhaupt profitabel ist
• Möglichkeit des Vergleichs mehrerer Verfahren hinsichtlich ihres
relativen Nutzens
• Zentrale AV ist der ökonomische Nutzen, der sich durch die
Verwendung eines diagnostischen Auswahlverfahrens ergibt
Zuwachs an Nutzen im Vergleich zur bisherigen Auswahlprozedur
bzw. im Vergleich zu einer Zufallsselektion
• Schmidt, Hunter, McKenzie & Muldrow (1979)
– Mögliche Produktivitätssteigerung durch den Einsatz eines allgemeinen
Intelligenztests (Programmer Aptitude Test) zur Auswahl von Programmierern für
den öffentlichen Dienst in den USA
– Für Messfehler und Varianzeinschränkung korrigierte Validitätsschätzung: r = .76
– Schätzung der Leistungsstreuung SDy = $10413 (N = 105)
(zwischen PR 50 und 85: $10871, zwischen PR 15 und 50: $9955)
– Durchschnittliche Verweildauer T = 9,69 Jahre
– Kosten des Verfahrens C = $10
– Ergebnisse in Abhängigkeit von der Selektionsrate und der Validität des
bisherigen Auswahlverfahrens
4.3 Entscheidungstheoretische Nutzenerwägungen
(Brogden-Cronbach-Gleser-Modell)NCSDZrTNU yxxys s
4.3 Entscheidungstheoretische Nutzenerwägungen
• Schmidt, Hunter,
McKenzie & Muldrow
(1979)
• Kritik an der Studie von Schmidt et al. (1979)
– Sehr hohe Validitätsschätzung für Intelligenztest (.76)
1: Akademiker
2: (Computer-)Techniker
3: Angestellte, Facharbeiter
4: Angelernte Arbeitskräfte
5: Ungelernte Arbeitskräfte
4.3 Entscheidungstheoretische Nutzenerwägungen
• Kritik an der Studie von Schmidt et al. (1979)
– Sehr hohe Validitätsschätzung für Intelligenztest
– Probleme bei der Schätzung von SDy
– Keine Berücksichtigung zentraler ökonomischer Variablen wie
Steuern, Zinsen und Inflation
Aber: Aufzeigen des großen potentiellen wirtschaftlichen
Nutzens von valider psychologischer Diagnostik bei der
Personalauswahl.
Dies hatte einen starken Impact auf die Praxis!
4.3 Entscheidungstheoretische Nutzenerwägungen
Klausurfrage
Was untersuchten Schmidt et al. (1979) in ihrer einflussreichen
Studie, zu welchen Kernaussagen kommen sie?
Welche Kritik gibt es an der Studie von Schmidt et al. (1979)?
Berücksichtigung zentraler ökonomischer Variablen (Boudreau, 1983)
-> Berücksichtigung von Steuern auf Gewinne
-> Berücksichtigung von Zinsen und Inflation (zukünftige Gewinne/Kosten
sind ökonomisch als geringer zu bewerten als aktuelle Gewinne/Kosten)
4.3 Entscheidungstheoretische Nutzenerwägungen
Ci
TAXSDZrNUtyxxys s
)1(
1)1(
Testungder Kosten
Jahr
ZinsrateeadjustiertInflation diefür
Steuern
C
t
i
TAX
Entscheidungstheoretisches Nutzenmodell unter Berücksichtigung ökonomischer
Variablen und jahresweiser Berechnung (Boudreau, 1983):
4.3 Entscheidungstheoretische Nutzenerwägungen
1)1(
1)1()(
tvafi
TAXCNCC
Jahr
ZinsrateeadjustiertInflation diefür
Steuern
Testungder Kosten variable
Getestetender Anzahl
Testungder Kosten feste
t
i
TAX
C
N
C
v
a
f
Entscheidungstheoretisches Nutzenmodell unter Berücksichtigung ökonomischer
Variablen und jahresweiser Berechnung (Boudreau, 1983):
4.3 Entscheidungstheoretische Nutzenerwägungen
Beispiel für die Anwendung dieses Modells (Holling, 1998)
• Ziel: Berechnung des Nutzens eines Assessment Centers für die Auswahl
von Außendienstmitarbeitern einer deutschen Versicherungsgesellschaft
• Typisches Assessment Center (AC)
– Selbstvorstellung, Gruppendiskussion, Vortrag, Interview,
Übungsaufgaben
– AC stand am Ende eines mehrstufigen Auswahlprozesses
– 50% der zum AC eingeladenen Bewerber wurden akzeptiert.
• Über drei Jahre hinweg wurden Mitarbeiter eingestellt (N1 = 89, N2 = 126,
N3 = 100), von denen aber ein Teil das Unternehmen wieder verließ
=> Frage nach 5 Jahren: Lohnte sich die vergleichsweise aufwendige
Diagnostik mittels des Assessment Centers?
4.3 Entscheidungstheoretische Nutzenerwägungen
Beispiel für die Anwendung dieses Modells (Holling, 1998)
• Berechnung des Nutzens getrennt für jede der fünf Jahre und anschließende
Summierung
• Schätzungen der zentralen Variablen:
– Inkrementelle Validität des AC zur restlichen Auswahldiagnostik: rxy = .11
– Selektionsquote von 0,50: durchschnittlicher Testwert ( ) der
akzeptierten Bewerber: = .80
– Standardabweichung der Arbeitsleistung in DM: Berechnung über Anzahl
und Umfang der verkauften Versicherungspolicen (SDy = 21.079,40 DM)
– 40% Steuern
– für Inflation adjustierte Zinsrate: 10,7%
4.3 Entscheidungstheoretische Nutzenerwägungen
sxZ
Beispiel für die Anwendung dieses Modells (Holling, 1998; korrigierte Zahlen)
t Ns rxyതZxs SDy (in DM) 1-TAX 1/(1+i)t Gewinn (in DM)
1 89 0,11 0,8 21.079,40 0,6 0,90 89.151
2 215 0,11 0,8 21.079,40 0,6 0,82 196.221
3 217 0,11 0,8 21.079,40 0,6 0,74 178.724
4 190 0,11 0,8 21.079,40 0,6 0,67 141.684
5 163 0,11 0,8 21.079,40 0,6 0,60 108.851
gesamt 714.631
4.3 Entscheidungstheoretische Nutzenerwägungen
Beispiel für die Anwendung dieses Modells (Holling, 1998; korrigierte Zahlen)
t Cf
(in DM)
Na Cv
(in DM)
1-TAX 1/(1+i)t-1 Kosten (in
DM)
Nutzen (in
DM)
1 100.000 178 300 0,6 1,00 92.040
2 0 252 300 0,6 0,90 40.824
3 0 200 300 0,6 0,82 29.520
gesamt 162.384 552.247
4.3 Entscheidungstheoretische Nutzenerwägungen
Beispiel für die Anwendung dieses Modells (Holling, 1998)
• Ergebnis der Studie: Der zusätzliche Einsatz des Assessment Centers bei der
Auswahl von Außendienstmitarbeitern führte zu einem Gewinn von über
500.000 DM für das Unternehmen
• Möglichkeit von zusätzlichen Rentabilitätsanalysen
– z.B.: Wenn das Assessment Center mehr als 1450 DM pro Testung kosten
würde, wäre die Kosten des Verfahrens höher als der zu erwartende
Nutzen
• Berechnung des Nutzens einzelner Bausteine des Assessment Centers
• Ergebnisse nicht generalisierbar auf andere Arbeitsgebiete
4.3 Entscheidungstheoretische Nutzenerwägungen
Bewertung entscheidungstheoretischer
Nutzenerwägungen
• Ökonomische Argumentation in Geldeinheiten möglich
– Gemeinsame „Sprache“ mit Betriebswirtschaftlern
– Verdeutlichung des Nutzens psychologischer Diagnostik
• Vergleich unterschiedlicher Auswahlprozeduren möglich
– Teurer und valider Test vs. billiger und weniger valider Test
– Ist ein zusätzlicher teurer Test (z.B. AC) sein Geld wert?
• Ungenauigkeit der Nutzenberechnungen
– Häufig nur eher ungenaue Schätzungen der Parameter möglich (insb.
von SDy) -> Nutzenberechnungen sind zum Teil sehr fehlerbehaftet
– Aber: Dies gilt auch für andere Anwendungen ökonomischer
Entscheidungmodelle unter Unsicherheit (Laux, 2005)
• Kritik an dem zugrundeliegenden linearen Modell
– Nicht-lineare Zusammenhänge zwischen Mitarbeiterleistung und
Gewinnen/Verlusten für das Unternehmen
Zusammenfassung:
Entscheidungstheoretische Modelle
1. Validität eines Testverfahren als alleiniges Kriterium für die Güte
einer Selektionsentscheidung
2. Taylor-Russell-Modell (1939): Zusätzliche Berücksichtigung von
Selektions- und Basisquoten
3. Brogden-Cronbach-Gleser-Modell (Brogden, 1949; Cronbach &
Gleser, 1965): Entscheidungsnutzen als zentrales Kriterium
4. Boudreau-Modell (Boudreau, 1983): Berücksichtigung weiterer
ökonomischer Variablen (Steuern, Zinsen) bei der Berechnung des
Entscheidungsnutzens
Entscheidungstheoretische Überlegungen bei der Bestimmung der
Güte und des Nutzens von psychologischer Diagnostik bei der
Personalselektion
4. Entscheidungstheoretische Modelle
• Entscheidungstheoretische Überlegungen in der psychologischen
Diagnostik bei Selektionsentscheidungen, vor allem bei der
Personalauswahl:
4.1 Verschiedene Entscheidungsstrategien
4.2 Bestimmung der Güte von Selektionsentscheidungen
4.3 Evaluation des finanziellen Nutzens von diagnostischen Verfahren
und darauf basierender Vergleich von alternativen diagnostischen
Auswahlprozeduren
20
Entscheidung
Abgelehnt Akzeptiert
Tatsächliche
Eignung
GeeignetFalsch Negativ
(FN)
Valide Positiv
(VP)
UngeeignetValide Negativ
(VN)
Falsch Positiv
(FP)
Erfolgsquote = VP/(VP+FP) -> Anteil der Geeigneten an den Akzeptierten
Abgelehnte werden nicht weiter beachtet (kann durchaus kritisch sein)
Im klinischen Kontext (Stellung einer Diagnose) müssen alle Entscheidungen
berücksichtigt werden, um die Güte eines Verfahrens zu bestimmen
Personalauswahl
Güte diagnostischer Entscheidungen
(klinischer Kontext)
21
Güte diagnostischer Entscheidungen
(klinischer Kontext)
Diagnose einer Störung
nein ja
Tatsächliches
Vorliegen
einer Störung
jaFalsch Negativ
(FN)
Valide Positiv
(VP)
neinValide Negativ
(VN)
Falsch Positiv
(FP)
Stellung einer Diagnose
Bsp. Major Depression
Welcher Cut-Off Wert?
Relative Häufigkeit korrekter Entscheidungen = (VP+VN)/Gesamt
TrefferVerpasser
Falscher
Alarm
Korrekte
Ablehnung
22
Diagnose einer Störung
nein ja
Tatsächliches
Vorliegen
einer Störung
jaFalsch Negativ
(FN)
Valide Positiv
(VP)
neinValide Negativ
(VN)
Falsch Positiv
(FP)
Sensitivität = VP / (FN + VP) [„Trefferquote“]
1 – Sensitivität = FN /(FN + VP) [„Verpasserquote“]
TrefferVerpasser
Güte diagnostischer Entscheidungen
(klinischer Kontext)
Festsetzung des Cut-Off Werts
23
Diagnose einer Störung
nein ja
Tatsächliches
Vorliegen
einer Störung
jaFalsch Negativ
(FN)
Valide Positiv
(VP)
neinValide Negativ
(VN)
Falsch Positiv
(FP)
Spezifität = VN / (VN + FP) [„Quote korrekter Ablehnungen“]
1 – Spezifität = FP / (VN + FP) [„Quote falscher Alarme“]
Korrekte
Ablehnung
Falscher
Alarm
Güte diagnostischer Entscheidungen
(klinischer Kontext)
Festsetzung des Cut-Off Werts
Übungsaufgabe
Was versteht man unter Sensitivität und Spezifität eines
klinisch-diagnostischen Verfahrens?
25
Bestimmung des Cut-Off-Werts
26
Bestimmung des Cut-Off-Werts
Mögliche Bestimmung des
optimalen Schwellenwerts über
Maximierung der Summe aus
Spezifität und Sensitivität
(Youden Index, 1950)
-> je nach Fragestellung
auch anderes Kriterium
möglich
Denkaufgabe
In welchen klinisch relevanten Fragen könnte es eher
Sinn machen eine hohe Sensitivität (damit eine niedrigere
Spezifität) zu haben?
In welchen klinisch relevanten Fragen könnte es eher
Sinn machen eine hohe Spezifität (damit eine niedrigere
Sensitivität) zu haben?
28
Bestimmung des Cut-Off-Werts
Gut zur Bestimmung eines
idealen Cut-Off-Werts
Fläche zwischen ROC-Kurve
und der Diagonalen:
Maß für die Trennfähigkeit
des Tests
Receiver-Operators-Characteristics-Analyse (ROC-Analyse)
29
Beispiel für ROC-Analyse
Beispiel: Löwe et al. (2004),
Journal of Affective Disorders
30
Gliederung der Vorlesung
1. Einführung
2. Psychologische Tests
– Verschiedene Arten psychologischer Tests
– Items
– Statistische Itemanalysen
– Faktorenanalyse
– Normierung
3. Testgütekriterien
– Objektivität
– Reliabilität
– Validität
4. Entscheidungstheoretische Modelle
– Entscheidungsstrategien
– Güte diagnostischer Entscheidungen
– Nutzen diagnostischer Entscheidungen
5. Diagnostische Urteilsbildung
31
5. Diagnostische Urteilsbildung
Lit.: Krohne & Hock (Kap. 5.1), Schmidt-Atzert & Amelang (Kap. 5.2)
• Als diagnostisches Urteil wird die Beantwortung einer Fragestellung
unter Verwendung von bereits vorliegenden diagnostischen
Informationen bezeichnet.
– “Frau K ist die geeignetste Bewerberin für die ausgeschriebene Stelle“
– “Herr X leidet unter einer Depression”
– “Die Arbeitsgruppe Y ist durch starkes Konkurrenzverhalten geprägt”
– „Der Straftäter Herr Z ist in starkem Maße rückfallgefährdet“
– “Therapie A hat bei Frau Z eine höhere Erfolgschance als Therapie B”
32
5. Diagnostische Urteilsbildung
• In der Regel ist der Diagnostiker meist selbst verantwortlich, relevante
Informationen zu erheben
• Erhebung „falscher“ Informationen oder falsche Bewertung/ Gewichtung
„richtiger“ Informationen -> führt zu falschen/ungültigen
Schlussfolgerungen (Fehldiagnosen/ Fehlurteile)
• Untersuchung der Fehleranfälligkeit (bzw. Richtigkeit) diagnostischer
Urteile:
– mehreren Diagnostikern werden gleiche Informationen gegeben
– Kriteriumswerte liegen bereits vor (z.B. bestätigte psychiatrische
Diagnose; Berufserfolg)
• Zwei scheinbar antagonistische Verfahren der Diagnosefindung:
Klinische vs. statistische Urteilsbildung (Experten- vs. Rechenmodell)
33
5. Diagnostische Urteilsbildung
Klinische vs. statistische Vorhersage (Meehl, 1954)
-> Wie gut treffen Diagnosen und Vorhersagen zu, die mittels unterschiedlicher Methoden gewonnen werden?
• Meilenstein in der Kontroverse: inzwischen klassische Monographie von Paul Meehl (1954) “Clinical versus statistical prediction”
• Meehl versuchte den Diagnoseprozess rational zu konstruieren, in dem er die Argumente der klinischen und statistischen Seitegegenüber stellte und auf die Ergebnisse bis dahin vorliegenderempirischer Untersuchungen bezog
34
Klinische vs. statistische Vorhersage (Meehl, 1954)
Klinische Vorhersage (-> damals Standardmodell des Vorgehens)
• „erfahrungsbasierte Diagnostik“:
- Menschliche Beurteilung als Basis der Erhebung und Integration
diagnostischer Information:
- Beurteilung durch Experten in Psychotherapie (Fallkonferenz)
- Orientierung an der Besonderheit des konkreten Falls
• Diagnosen werden durch Vergleich mit ähnlichen Fällen aus der
Vergangenheit getroffen
- Vorhersage ist erfahrungs- und z.T. intuitionsgesteuert, d.h.
Entscheidungsgrundlage unterliegt nicht expliziten Regeln
- Annahme: mehrjährige Ausbildung und Berufserfahrung erhöhen
Validität der Vorhersage
- Nicht auf die Klinische Psychologie beschränkt (auch bei der
Personalauslese etc.)
35
Klinische vs. statistische Vorhersage (Meehl, 1954)
Statistische Vorhersage
• „evidenzbasierte Diagnostik“:
- Stützt sich auf empirisch gesicherte Zusammenhänge zwischen Prädiktor-
und Kriteriumsvariablen:
- Beispiele:
- Schwere/ Häufigkeit von Straftaten -> Rückfallrisiko von Straftätern
- IQ/ Leistungsmotivation -> Vorhersage von Schulerfolg
-Statistische Modelle: gewichtete Kombination von Prädiktoren prädiziert das
interessierende Kriterium (Rückfall, Studienerfolg)
-Regeln der Vorhersage sind explizit formuliert
-Menschliche Beurteilung nur bei Datenerhebung (z.B. Schwere der Straftat),
jedoch nicht bei Datenkombination involviert
-Weitere Besonderheit: individuelle Besonderheiten/ Eigenheiten werden
nicht genutzt
Paaraufgabe
Erklären Sie sich gegenseitig was man unter klinischer
und statistischer Vorhersage versteht?
Worin bestehen die Unterschiede zwischen beiden
Vorhersagemethoden?
37
5. Diagnostische Urteilsbildung
Zentrale Frage: Güte eines Urteils in Abhängigkeit von der Vorhersagemethode (Klinisch vs. Statistisch)
-> Güte eines Urteils bei z.B.:
– Richtigkeit klinischer Diagnosen
– Prognose: Rückfallrisiko von Straftätern, Akademischer Erfolg von Studienbewerbern
38
5. Diagnostische Urteilsbildung
Beispiel für eine empirische Untersuchung zur Güte eines Urteils in
Abhängigkeit von der Vorhersagemethode (klinisch vs. statistisch)
Studie von Sarbin (1942):
Vergleich der Vorhersagegenauigkeit -> akademischer Erfolg von 162
Studienanfängern durch
(1)professionelle Studienberater (klinische Methode)
Daten: diverse Tests, Abschlussnote Schule, biographische
Angaben, Interview
Vorhersage: Studienerfolg (8-Punkte-Skala)
(2)einfache lineare Gleichung (Vorhersagegleichung)
Daten: Eignungstest, Abschlussnote Schule (= 2 Variablen)
Kriterium: Noten im ersten Studienabschnitt
39
5. Diagnostische Urteilsbildung
Studie von Sarbin (1942)
Korrelationen klinischer und statistischer
Vorhersagen mit dem Studienerfolg in der
Untersuchung von Sarbin (1942).
Kritik
• Prognosefähigkeit Studienberater + Validität des Kriteriums?
• Individuelle Differenzen in der Vorhersagegenauigkeit?
40
5. Diagnostische Urteilsbildung
Meehl (1954): Zentrales Problem von Studien wie der von Sarbin (1942)
ist die fehlende Differenzierung zwischen:
• Art der Datenerhebung und Art der Datenkombination
Datenerhebung
psychometrisch
nichtpsychometrisch
Datenkombination
formell/statistisch
informell/klinisch
Diagnose
Prognose
Entscheidung
41
5. Diagnostische Urteilsbildung
Art der Datenerhebung:
zwei Informationsquellen, die für eine Vorhersage genutzt werden
• Psychometrische Daten: werden von Tests und anderen Verfahren geliefert, für die eine standardisierte Vorgabe sowie eine einheitliche Klassifikation und Verrechnung der Reaktionen gewährleistet ist
-> Solche Daten sind von Ermessensentscheidungen der beurteilenden Person frei.
• bei nicht-psychometrischen Daten gibt es keine standardisierte Vorgabe und Auswertung
– Beispiel für nicht-psychometrische Daten: Eindrücke eines Diagnostikers, die er aus den Äußerungen einer Person während eines Interviews gewinnt. Hier fungiert der beurteilende Diagnostiker gewissermaßen selbst als Messinstrument.
42
5. Diagnostische Urteilsbildung
Art der Datenkombination:
ebenfalls zwei Methoden
• formelle oder statistische Kombination (alternative Ausdrücke sind: mechanisch, algorithmisch, explizit)
-> Entscheidend für die Qualifikation der Datenkombination als formell ist die Existenz angebbarer Regeln, wie sie bei statistischen Vorhersagemodellen vorliegen.
• oder informelle oder klinische Kombination (beurteilend, intuitiv, implizit)
43
5. Diagnostische Urteilsbildung
Statistische (formelle) Datenkombination:
Häufigste Modelle:
• Gewichteter additiver Vorhersagewert (vgl. Multiple-Regression Cut-Off):
• Konfigurale Modelle (Ermöglichung nicht-kompensatorischer Verknüpfungen) (vgl. Multiple Cut-Off)
-> Bestimmung der Gewichte bzw. Cut-Offs anhand vorliegender Daten (siehe Krohne & Hock (2015) für detaillierte Beschreibung des Vorgehens)
-> Notwendigkeit einer Kreuzvalidierung
-> Vorhersage bedeutet nicht Verursachung
Klinische Datenkombination:
• Jeder Kliniker kombiniert die vorliegenden Daten nach seinem „internen Modell“
5. Diagnostische Urteilsbildung
Datenerhebung
psychometrisch
nichtpsychometrisch
Datenkombination
formell/statistisch
informell/klinisch
Diagnose
Prognose
Entscheidung
Beispiel: Bestimmung der Fahreignung (Unfallrisiko)
1. psychometrische Daten werden formell kombiniert (Ergebnisse von Konzentrations-,
Vigilanztests werden in Gleichung eingesetzt).
2. nicht-psychometrische Daten werden informell kombiniert (Interviews +
Verhaltensbeobachtung bilden Entscheidungsgrundlage),
3. psychometrische Daten werden informell kombiniert (z.B. Ergebnisse von
Konzentrations-, Vigilanztests werden intuitiv für die Diagnose genutzt),
4. nicht-psychometrische Daten werden formell kombiniert (Daten des Interviews +
Verhaltensbeobachtung werden nach einem fixierten Regelsystem integriert).
Übungsaufgabe
Thema: Zulassung zum Psychologiestudium
Erhobene Daten:
• Ergebnisse eines Leistungsmotivationstests
• Eindruck des Studieninteresses aus Gespräch
• Abiturnote
• berichtete Studienmotivation im Interview
Benennen Sie erhobene psychometrische und nicht-
psychometrische Daten
Geben Sie Beispiele für die 4 basalen Arten der
Datenkombination
5. Diagnostische Urteilsbildung
Datenerhebung
psychometrisch
nichtpsychometrisch
Datenkombination
formell/statistisch
informell/klinisch
Diagnose
Prognose
Entscheidung
in frühen
Untersuchungen
konfundiert
Konfundierung (laut Meehl):- Befürworter statistischer
Vorgehensweise bevorzugen psychometrische (und andere “harte”) Verhaltensdaten gegenüber nicht-psychometrischen (“weichen”) Daten
- Befürworter klinischer Vorhersage) bevorzugen nicht-psychometrischen Daten
formell/statistisch
informell/klinisch
psychometrisch
nichtpsychometrisch
psychometrisch
nichtpsychometrisch
formell/statistisch
informell/klinisch
47
5. Diagnostische Urteilsbildung
• Konfundierung (laut Meehl):
– Befürworter statistischer Vorgehensweise bevorzugen psychometrische (und andere “harte”) Verhaltensdaten gegenüber nicht-psychometrischen (“weichen”) Daten
– Befürworter klinischer Vorhersage) bevorzugen nicht-psychometrischen Daten
• Unterschiede in der Validität klinischer und statistischer Vorhersagen können damit auf die Art der verwendeten Daten, die Methode der Datenkombination oder beides zurückgehen.
• Für eine adäquate Bewertung der Vorgehensweisen ist es notwendig, diese Konfundierung aufzuheben
• Beiden Methoden der Datenkombination sollten also die gleichenDaten zur Verfügung stehen
48
5. Diagnostische Urteilsbildung
Daten
Statistische
Kombination
Klinische
Kombination
Kriterium
rsk
rkk
49
5. Diagnostische Urteilsbildung
Studie von Goldberg (1965):
Vergleich der Vorhersagegenauigkeit in Abhängigkeit von der Art der
Datenkombination (klinisch vs. statistisch)
Kriterium:
„Psychose“ versus „Neurose“ bei 861 männlichen Patienten
Diagnose wurde von Psychiatern vorher festgelegt
Daten:
11 Skalen des Minnesota Multiphasic Personality Inventory (MMPI;
damals beliebtes Testverfahren zur Diagnose klinisch relevanter
Persönlichkeitsmerkmale)
50
5. Diagnostische Urteilsbildung
Studie von Goldberg (1965):
Klinische Datenkombination:
29 klinische Psychologen (13 sehr erfahren (incl. Ph.D.),
16 im Endstadium der klinischen Ausbildung befindlich)
Experten sollten Profile der Probanden auf einer 11-stufigen Skala
(die sich von neurotisch bis psychotisch erstreckte) sortieren
Beurteiler hatten Erfahrung mit MMPI
Statistische Datenkombination:
empirisch gewonnener Goldberg-Index: (L+Pa+Sc) - (Hy+Pt)
Der Index wurde aufgrund von Regressionsanalysen mittels einer
unabhängigen Stichprobe (N = 402) gebildet
51
5. Diagnostische Urteilsbildung
52
5. Diagnostische Urteilsbildung
Kritik an Goldberg-Studie:
Kriterium (d.h. Richtigkeit der Diagnose) wurde von Psychiatern
bestimmt (-> somit ist „Wahrheit“ durch klinische Vorgehensweise
ermittelt wurden?)
Kliniker hatten nur statistisches Datenmaterial (Ergebnisse der 11
MMPI-Skalen)
- erhöhte Wahrscheinlichkeit, dass statistische Seite „gewinnen“
musste?
- Kliniker nutzen i.d.R andere Datenquellen für ihre Diagnose
(Interview, Biografie etc.)
53
5. Diagnostische Urteilsbildung
Metaanalysen:
• Grove et al. (2000): 136 Studien aus unterschiedlichen Bereichen:
63 Studien: Überlegenheit der statistischen Datenkombination
65 Studien: unentschieden
8 Studien: klinische Vorhersage überlegen (z.T. mehr Information
vorhanden, allerdings war das in anderen Studien auch der Fall)
Überlegenheit wird erklärt durch zufällige Stichprobenfluktuation
+ genereller Informationsvorsprung der Kliniker
insgesamt aber nur niedrige Effektstärke für statistische
Überlegengenheit (d = .089)
• Klieger et al. (2013) (akademische und berufliche Leistung)
in 25 Studien erwies sich die statistische Vorhersage der klinischen
in allen betrachtete Leistungsbereichen als moderat bis deutlich
überlegen
54
5. Diagnostische Urteilsbildung
Metaanalysen:
• Ægisdóttir et al. (2006): 69 Studien aus dem klinischen Bereich:
Über alle Studien mit ihren 173 Effektstärken hinweg ermittelten die
Autoren eine Gesamteffektstärke von d = .16 zugunsten der
statistischen Methode.
Es fand sich keine Bedingung, unter der die klinische Vorhersage
überlegen gewesen wäre
Größte Überlegenheit der statistischen Vorhersage bei der
Vorhersage von Gewalttätigkeit (d = 0.17)
Güte der klinischen Urteilsbildung verbessert sich nicht, wenn
Kliniker mehr Informationen nutzen können, das Gegenteil tritt ein
55
5. Diagnostische Urteilsbildung
Mögliche Gründe für Überlegenheit statistischer Datenkombination
bzw. Unterlegenheit klinischer Datenkombination:
1) Fehlerhaftigkeit menschlicher Beurteilung
auch professionelle Diagnostiker unterliegen Verzerrungs- und
Fehlertendenzen
Falsche Gewichtung ODER Nichtberücksichtigung relevanter
diagnostischer Hinweise (gleichzeitig Überbewertung nicht-
relevanter Hinweise)
2) Keine konsistente Umsetzung von Entscheidungsregeln
Inkonsistenzen kommen zustande, da sich bei individuellen Fällen
Besonderheiten aufdrängen, die als (zu) wichtig erachtet werden
3) Keine oder nur beschränkte Möglichkeit aus Rückmeldungen über
Diagnosen zu lernen
bei Selektionsentscheidungen gibt es kein Feedback über
abgelehnte Bewerber (Güte der Entscheidung nicht prüfbar)
56
Klausurfrage
Nennen Sie verschiedene Gründe für die Überlegenheit statistischer
Datenkombination.
57
5. Diagnostische Urteilsbildung
Kritik der “klinischen” Seite:
- Einzelfälle vs. Gruppen
• d.h. Betonung der Einzigartigkeit der diagnostischen Entscheidung
-> Bedingungen des Einzelfalles berücksichtigen
58
59
5. Diagnostische Urteilsbildung
klinische Diagnostik soll Vorhersage in einem Einzelfall liefern, betrifft nicht
statistische Durchschnittswerte, Häufigkeiten oder Trends in Gruppen
Statistiker: statistisch registrierte Häufigkeiten determinieren nicht das
Rückfallrisiko des Delinquenten, ABER solche Häufigkeiten erlauben es,
das Risiko einzelner Personen abzuschätzen, die bestimmten Gruppen
angehören (z.B. Delinquenten mit zerrütteten Familienverhältnissen)
Im Hinblick auf die Verursachung sind statistische Modelle indifferent.
Vorhersage ≠ Verursachung (z.B. bedeuten zerrüttete Familienverhältnisse
keinesfalls, dass diese die Ursache des Rückfalls sind (obwohl dies
natürlich der Fall sein mag).
Statistische Modelle geben keine Auskunft zur Verursachung (ist
theoretische Frage) -> liefern jedoch auf der Basis gegebener Daten
bestmögliche Vorhersagen.
Kausalität ist in diagnostischen Kontexten nicht immer relevant.
60
5. Diagnostische Urteilsbildung
Kritik der “klinischen” Seite:
- Einzelfälle vs. Gruppen
- Berücksichtigung einzigartiger Muster von
Variablenausprägungen
- Verfügbarkeit zusätzlicher nicht-psychometrischer Information,
die in die statistische Vorhersage nicht eingehen
Antworten “statistischen” Seite auf diese Gegenargumente:
- Auch Einzelfälle sollten nach expliziten und mathematisch
optimalen Regeln behandelt werden
- Berücksichtigung spezifischer/seltener Ereignisse ist kein
prinzipielles Problem statistischer Vorhersagemodelle
- Sofern nicht-psychometrische Informationen wirklich brauchbar
sind, können sie auch in das statistische Modell eingebaut werden
61
5. Diagnostische Urteilsbildung
Trotz ihrer offensichtlichen Überlegenheit sollte die statistische Vorhersage
nicht kritiklos als universelle Lösung angesehen werden.
statistisches Urteilsmodell kann nur mit den Informationen konstruiert
werden, die für alle Probanden vorliegen (große Fallzahlen bei
einheitlicher Fragestellung notwendig)
In vielen Fällen gibt es keine Alternative zum menschlichen Urteil, da es
keine statistischen Vorhersagemodelle gibt (einschlägige
Forschungsergebnisse fehlen)
In manchen Fragen statistisches Urteil nicht anwendbar (Beispiel
gebrochenes Bein; Besetzung eines Chemie-Nobelpreisträgers)
62
5. Diagnostische Urteilsbildung
Zusammenfassung:
Vorteile des Aufstellens expliziter Modelle
-Verbesserung der Validität des Urteils
-Minimierung von Verzerrungs- und Fehlertendenzen
-Konsistenz der Entscheidungen
-Transparenz
-Optimierbarkeit
-Entlastung des Diagnostikers
Aber: Nicht immer ist ein statistisches Datenkombinationsmodell
verfügbar oder zentrale individuelle Besonderheiten sind nicht in das
Modell integriert
Fazit: Wenn statistische Vorhersagemodelle existieren, sollten
Diagnostiker diese kennen und nutzen – aber ohne ihnen blind zu
vertrauen.
63
5. Diagnostische Urteilsbildung
Wie sieht aktuell die diagnostische Urteilsbildung in der
klinischen Psychologie aus (DSM-IV, ICD-10)?
64
5. Diagnostische Urteilsbildung
65
5. Diagnostische Urteilsbildung
66
5. Diagnostische Urteilsbildung
67
5. Diagnostische Urteilsbildung
68
69
5. Diagnostische Urteilsbildung
70
Ausblick: Diagnostischer Prozess
• Als diagnostischer Prozess wird die Abfolge von Maßnahmen zur
Gewinnung diagnostisch relevanter Informationen und deren
Integration zur Beantwortung einer Fragestellung bezeichnet
71
Ausblick: Diagnostischer Prozess
72
Ausblick: Diagnostischer Prozess
Ausblick
• Der Ablauf und die Ergebnisse des diagnostischen Prozesses werden häufig in Form von psychologisch-diagnostischen Gutachten dokumentiert
• Die Planung und Durchführung einer diagnostischen Begutachtung sowie die Erstellung eine psychologisch-diagnostischen Gutachtens wird in der Master-Ausbildung Psychologie gelehrt.