Vorlesung -...

Preview:

Citation preview

Vorlesung

Grundlagen

Psychologischer Diagnostik und Testtheorie

Universität Leipzig

WS 2018/19

Datum: 30.01.2019

Dozent: Sascha Krause

Interessenten StiL-Seminar

Kennenlernen der TAP (Testbatterie zur Aufmerksamkeitsprüfung)

-> beliebtes Verfahren in der angewendeten Psychologie

In 2- oder 3er Gruppen zusammenfinden

einmalig 90-minütige Veranstaltung ab April (auch in

Semesterferien)

Kontakt: js90keni@studserv.uni-leipzig.de

Zugangscode zum Iversity-Kurs: un.iversity.org/i/g/wbfcok

2

Gliederung der Vorlesung

1. Einführung

2. Psychologische Tests

– Verschiedene Arten psychologischer Tests

– Items

– Statistische Itemanalysen

– Faktorenanalyse

– Normierung

3. Testgütekriterien

– Objektivität

– Reliabilität

– Validität

4. Entscheidungstheoretische Modelle

– Entscheidungsstrategien

– Güte diagnostischer Entscheidungen

– Nutzen diagnostischer Entscheidungen

5. Diagnostische Urteilsbildung

4.3 Entscheidungstheoretische Nutzenerwägungen

(Wiederholung)

• (Brogden, 1949; Cronbach & Gleser, 1965)

• Ziel: Nutzen einer diagnostischen Prozedur für eine Selektionsaufgabe

in Geldeinheiten ausdrücken

Prüfung, ob eine Prozedur überhaupt profitabel ist

• Möglichkeit des Vergleichs mehrerer Verfahren hinsichtlich ihres

relativen Nutzens

• Zentrale AV ist der ökonomische Nutzen, der sich durch die

Verwendung eines diagnostischen Auswahlverfahrens ergibt

Zuwachs an Nutzen im Vergleich zur bisherigen Auswahlprozedur

bzw. im Vergleich zu einer Zufallsselektion

• Schmidt, Hunter, McKenzie & Muldrow (1979)

– Mögliche Produktivitätssteigerung durch den Einsatz eines allgemeinen

Intelligenztests (Programmer Aptitude Test) zur Auswahl von Programmierern für

den öffentlichen Dienst in den USA

– Für Messfehler und Varianzeinschränkung korrigierte Validitätsschätzung: r = .76

– Schätzung der Leistungsstreuung SDy = $10413 (N = 105)

(zwischen PR 50 und 85: $10871, zwischen PR 15 und 50: $9955)

– Durchschnittliche Verweildauer T = 9,69 Jahre

– Kosten des Verfahrens C = $10

– Ergebnisse in Abhängigkeit von der Selektionsrate und der Validität des

bisherigen Auswahlverfahrens

4.3 Entscheidungstheoretische Nutzenerwägungen

(Brogden-Cronbach-Gleser-Modell)NCSDZrTNU yxxys s

4.3 Entscheidungstheoretische Nutzenerwägungen

• Schmidt, Hunter,

McKenzie & Muldrow

(1979)

• Kritik an der Studie von Schmidt et al. (1979)

– Sehr hohe Validitätsschätzung für Intelligenztest (.76)

1: Akademiker

2: (Computer-)Techniker

3: Angestellte, Facharbeiter

4: Angelernte Arbeitskräfte

5: Ungelernte Arbeitskräfte

4.3 Entscheidungstheoretische Nutzenerwägungen

• Kritik an der Studie von Schmidt et al. (1979)

– Sehr hohe Validitätsschätzung für Intelligenztest

– Probleme bei der Schätzung von SDy

– Keine Berücksichtigung zentraler ökonomischer Variablen wie

Steuern, Zinsen und Inflation

Aber: Aufzeigen des großen potentiellen wirtschaftlichen

Nutzens von valider psychologischer Diagnostik bei der

Personalauswahl.

Dies hatte einen starken Impact auf die Praxis!

4.3 Entscheidungstheoretische Nutzenerwägungen

Klausurfrage

Was untersuchten Schmidt et al. (1979) in ihrer einflussreichen

Studie, zu welchen Kernaussagen kommen sie?

Welche Kritik gibt es an der Studie von Schmidt et al. (1979)?

Berücksichtigung zentraler ökonomischer Variablen (Boudreau, 1983)

-> Berücksichtigung von Steuern auf Gewinne

-> Berücksichtigung von Zinsen und Inflation (zukünftige Gewinne/Kosten

sind ökonomisch als geringer zu bewerten als aktuelle Gewinne/Kosten)

4.3 Entscheidungstheoretische Nutzenerwägungen

Ci

TAXSDZrNUtyxxys s

)1(

1)1(

Testungder Kosten

Jahr

ZinsrateeadjustiertInflation diefür

Steuern

C

t

i

TAX

Entscheidungstheoretisches Nutzenmodell unter Berücksichtigung ökonomischer

Variablen und jahresweiser Berechnung (Boudreau, 1983):

4.3 Entscheidungstheoretische Nutzenerwägungen

1)1(

1)1()(

tvafi

TAXCNCC

Jahr

ZinsrateeadjustiertInflation diefür

Steuern

Testungder Kosten variable

Getestetender Anzahl

Testungder Kosten feste

t

i

TAX

C

N

C

v

a

f

Entscheidungstheoretisches Nutzenmodell unter Berücksichtigung ökonomischer

Variablen und jahresweiser Berechnung (Boudreau, 1983):

4.3 Entscheidungstheoretische Nutzenerwägungen

Beispiel für die Anwendung dieses Modells (Holling, 1998)

• Ziel: Berechnung des Nutzens eines Assessment Centers für die Auswahl

von Außendienstmitarbeitern einer deutschen Versicherungsgesellschaft

• Typisches Assessment Center (AC)

– Selbstvorstellung, Gruppendiskussion, Vortrag, Interview,

Übungsaufgaben

– AC stand am Ende eines mehrstufigen Auswahlprozesses

– 50% der zum AC eingeladenen Bewerber wurden akzeptiert.

• Über drei Jahre hinweg wurden Mitarbeiter eingestellt (N1 = 89, N2 = 126,

N3 = 100), von denen aber ein Teil das Unternehmen wieder verließ

=> Frage nach 5 Jahren: Lohnte sich die vergleichsweise aufwendige

Diagnostik mittels des Assessment Centers?

4.3 Entscheidungstheoretische Nutzenerwägungen

Beispiel für die Anwendung dieses Modells (Holling, 1998)

• Berechnung des Nutzens getrennt für jede der fünf Jahre und anschließende

Summierung

• Schätzungen der zentralen Variablen:

– Inkrementelle Validität des AC zur restlichen Auswahldiagnostik: rxy = .11

– Selektionsquote von 0,50: durchschnittlicher Testwert ( ) der

akzeptierten Bewerber: = .80

– Standardabweichung der Arbeitsleistung in DM: Berechnung über Anzahl

und Umfang der verkauften Versicherungspolicen (SDy = 21.079,40 DM)

– 40% Steuern

– für Inflation adjustierte Zinsrate: 10,7%

4.3 Entscheidungstheoretische Nutzenerwägungen

sxZ

Beispiel für die Anwendung dieses Modells (Holling, 1998; korrigierte Zahlen)

t Ns rxyതZxs SDy (in DM) 1-TAX 1/(1+i)t Gewinn (in DM)

1 89 0,11 0,8 21.079,40 0,6 0,90 89.151

2 215 0,11 0,8 21.079,40 0,6 0,82 196.221

3 217 0,11 0,8 21.079,40 0,6 0,74 178.724

4 190 0,11 0,8 21.079,40 0,6 0,67 141.684

5 163 0,11 0,8 21.079,40 0,6 0,60 108.851

gesamt 714.631

4.3 Entscheidungstheoretische Nutzenerwägungen

Beispiel für die Anwendung dieses Modells (Holling, 1998; korrigierte Zahlen)

t Cf

(in DM)

Na Cv

(in DM)

1-TAX 1/(1+i)t-1 Kosten (in

DM)

Nutzen (in

DM)

1 100.000 178 300 0,6 1,00 92.040

2 0 252 300 0,6 0,90 40.824

3 0 200 300 0,6 0,82 29.520

gesamt 162.384 552.247

4.3 Entscheidungstheoretische Nutzenerwägungen

Beispiel für die Anwendung dieses Modells (Holling, 1998)

• Ergebnis der Studie: Der zusätzliche Einsatz des Assessment Centers bei der

Auswahl von Außendienstmitarbeitern führte zu einem Gewinn von über

500.000 DM für das Unternehmen

• Möglichkeit von zusätzlichen Rentabilitätsanalysen

– z.B.: Wenn das Assessment Center mehr als 1450 DM pro Testung kosten

würde, wäre die Kosten des Verfahrens höher als der zu erwartende

Nutzen

• Berechnung des Nutzens einzelner Bausteine des Assessment Centers

• Ergebnisse nicht generalisierbar auf andere Arbeitsgebiete

4.3 Entscheidungstheoretische Nutzenerwägungen

Bewertung entscheidungstheoretischer

Nutzenerwägungen

• Ökonomische Argumentation in Geldeinheiten möglich

– Gemeinsame „Sprache“ mit Betriebswirtschaftlern

– Verdeutlichung des Nutzens psychologischer Diagnostik

• Vergleich unterschiedlicher Auswahlprozeduren möglich

– Teurer und valider Test vs. billiger und weniger valider Test

– Ist ein zusätzlicher teurer Test (z.B. AC) sein Geld wert?

• Ungenauigkeit der Nutzenberechnungen

– Häufig nur eher ungenaue Schätzungen der Parameter möglich (insb.

von SDy) -> Nutzenberechnungen sind zum Teil sehr fehlerbehaftet

– Aber: Dies gilt auch für andere Anwendungen ökonomischer

Entscheidungmodelle unter Unsicherheit (Laux, 2005)

• Kritik an dem zugrundeliegenden linearen Modell

– Nicht-lineare Zusammenhänge zwischen Mitarbeiterleistung und

Gewinnen/Verlusten für das Unternehmen

Zusammenfassung:

Entscheidungstheoretische Modelle

1. Validität eines Testverfahren als alleiniges Kriterium für die Güte

einer Selektionsentscheidung

2. Taylor-Russell-Modell (1939): Zusätzliche Berücksichtigung von

Selektions- und Basisquoten

3. Brogden-Cronbach-Gleser-Modell (Brogden, 1949; Cronbach &

Gleser, 1965): Entscheidungsnutzen als zentrales Kriterium

4. Boudreau-Modell (Boudreau, 1983): Berücksichtigung weiterer

ökonomischer Variablen (Steuern, Zinsen) bei der Berechnung des

Entscheidungsnutzens

Entscheidungstheoretische Überlegungen bei der Bestimmung der

Güte und des Nutzens von psychologischer Diagnostik bei der

Personalselektion

4. Entscheidungstheoretische Modelle

• Entscheidungstheoretische Überlegungen in der psychologischen

Diagnostik bei Selektionsentscheidungen, vor allem bei der

Personalauswahl:

4.1 Verschiedene Entscheidungsstrategien

4.2 Bestimmung der Güte von Selektionsentscheidungen

4.3 Evaluation des finanziellen Nutzens von diagnostischen Verfahren

und darauf basierender Vergleich von alternativen diagnostischen

Auswahlprozeduren

20

Entscheidung

Abgelehnt Akzeptiert

Tatsächliche

Eignung

GeeignetFalsch Negativ

(FN)

Valide Positiv

(VP)

UngeeignetValide Negativ

(VN)

Falsch Positiv

(FP)

Erfolgsquote = VP/(VP+FP) -> Anteil der Geeigneten an den Akzeptierten

Abgelehnte werden nicht weiter beachtet (kann durchaus kritisch sein)

Im klinischen Kontext (Stellung einer Diagnose) müssen alle Entscheidungen

berücksichtigt werden, um die Güte eines Verfahrens zu bestimmen

Personalauswahl

Güte diagnostischer Entscheidungen

(klinischer Kontext)

21

Güte diagnostischer Entscheidungen

(klinischer Kontext)

Diagnose einer Störung

nein ja

Tatsächliches

Vorliegen

einer Störung

jaFalsch Negativ

(FN)

Valide Positiv

(VP)

neinValide Negativ

(VN)

Falsch Positiv

(FP)

Stellung einer Diagnose

Bsp. Major Depression

Welcher Cut-Off Wert?

Relative Häufigkeit korrekter Entscheidungen = (VP+VN)/Gesamt

TrefferVerpasser

Falscher

Alarm

Korrekte

Ablehnung

22

Diagnose einer Störung

nein ja

Tatsächliches

Vorliegen

einer Störung

jaFalsch Negativ

(FN)

Valide Positiv

(VP)

neinValide Negativ

(VN)

Falsch Positiv

(FP)

Sensitivität = VP / (FN + VP) [„Trefferquote“]

1 – Sensitivität = FN /(FN + VP) [„Verpasserquote“]

TrefferVerpasser

Güte diagnostischer Entscheidungen

(klinischer Kontext)

Festsetzung des Cut-Off Werts

23

Diagnose einer Störung

nein ja

Tatsächliches

Vorliegen

einer Störung

jaFalsch Negativ

(FN)

Valide Positiv

(VP)

neinValide Negativ

(VN)

Falsch Positiv

(FP)

Spezifität = VN / (VN + FP) [„Quote korrekter Ablehnungen“]

1 – Spezifität = FP / (VN + FP) [„Quote falscher Alarme“]

Korrekte

Ablehnung

Falscher

Alarm

Güte diagnostischer Entscheidungen

(klinischer Kontext)

Festsetzung des Cut-Off Werts

Übungsaufgabe

Was versteht man unter Sensitivität und Spezifität eines

klinisch-diagnostischen Verfahrens?

25

Bestimmung des Cut-Off-Werts

26

Bestimmung des Cut-Off-Werts

Mögliche Bestimmung des

optimalen Schwellenwerts über

Maximierung der Summe aus

Spezifität und Sensitivität

(Youden Index, 1950)

-> je nach Fragestellung

auch anderes Kriterium

möglich

Denkaufgabe

In welchen klinisch relevanten Fragen könnte es eher

Sinn machen eine hohe Sensitivität (damit eine niedrigere

Spezifität) zu haben?

In welchen klinisch relevanten Fragen könnte es eher

Sinn machen eine hohe Spezifität (damit eine niedrigere

Sensitivität) zu haben?

28

Bestimmung des Cut-Off-Werts

Gut zur Bestimmung eines

idealen Cut-Off-Werts

Fläche zwischen ROC-Kurve

und der Diagonalen:

Maß für die Trennfähigkeit

des Tests

Receiver-Operators-Characteristics-Analyse (ROC-Analyse)

29

Beispiel für ROC-Analyse

Beispiel: Löwe et al. (2004),

Journal of Affective Disorders

30

Gliederung der Vorlesung

1. Einführung

2. Psychologische Tests

– Verschiedene Arten psychologischer Tests

– Items

– Statistische Itemanalysen

– Faktorenanalyse

– Normierung

3. Testgütekriterien

– Objektivität

– Reliabilität

– Validität

4. Entscheidungstheoretische Modelle

– Entscheidungsstrategien

– Güte diagnostischer Entscheidungen

– Nutzen diagnostischer Entscheidungen

5. Diagnostische Urteilsbildung

31

5. Diagnostische Urteilsbildung

Lit.: Krohne & Hock (Kap. 5.1), Schmidt-Atzert & Amelang (Kap. 5.2)

• Als diagnostisches Urteil wird die Beantwortung einer Fragestellung

unter Verwendung von bereits vorliegenden diagnostischen

Informationen bezeichnet.

– “Frau K ist die geeignetste Bewerberin für die ausgeschriebene Stelle“

– “Herr X leidet unter einer Depression”

– “Die Arbeitsgruppe Y ist durch starkes Konkurrenzverhalten geprägt”

– „Der Straftäter Herr Z ist in starkem Maße rückfallgefährdet“

– “Therapie A hat bei Frau Z eine höhere Erfolgschance als Therapie B”

32

5. Diagnostische Urteilsbildung

• In der Regel ist der Diagnostiker meist selbst verantwortlich, relevante

Informationen zu erheben

• Erhebung „falscher“ Informationen oder falsche Bewertung/ Gewichtung

„richtiger“ Informationen -> führt zu falschen/ungültigen

Schlussfolgerungen (Fehldiagnosen/ Fehlurteile)

• Untersuchung der Fehleranfälligkeit (bzw. Richtigkeit) diagnostischer

Urteile:

– mehreren Diagnostikern werden gleiche Informationen gegeben

– Kriteriumswerte liegen bereits vor (z.B. bestätigte psychiatrische

Diagnose; Berufserfolg)

• Zwei scheinbar antagonistische Verfahren der Diagnosefindung:

Klinische vs. statistische Urteilsbildung (Experten- vs. Rechenmodell)

33

5. Diagnostische Urteilsbildung

Klinische vs. statistische Vorhersage (Meehl, 1954)

-> Wie gut treffen Diagnosen und Vorhersagen zu, die mittels unterschiedlicher Methoden gewonnen werden?

• Meilenstein in der Kontroverse: inzwischen klassische Monographie von Paul Meehl (1954) “Clinical versus statistical prediction”

• Meehl versuchte den Diagnoseprozess rational zu konstruieren, in dem er die Argumente der klinischen und statistischen Seitegegenüber stellte und auf die Ergebnisse bis dahin vorliegenderempirischer Untersuchungen bezog

34

Klinische vs. statistische Vorhersage (Meehl, 1954)

Klinische Vorhersage (-> damals Standardmodell des Vorgehens)

• „erfahrungsbasierte Diagnostik“:

- Menschliche Beurteilung als Basis der Erhebung und Integration

diagnostischer Information:

- Beurteilung durch Experten in Psychotherapie (Fallkonferenz)

- Orientierung an der Besonderheit des konkreten Falls

• Diagnosen werden durch Vergleich mit ähnlichen Fällen aus der

Vergangenheit getroffen

- Vorhersage ist erfahrungs- und z.T. intuitionsgesteuert, d.h.

Entscheidungsgrundlage unterliegt nicht expliziten Regeln

- Annahme: mehrjährige Ausbildung und Berufserfahrung erhöhen

Validität der Vorhersage

- Nicht auf die Klinische Psychologie beschränkt (auch bei der

Personalauslese etc.)

35

Klinische vs. statistische Vorhersage (Meehl, 1954)

Statistische Vorhersage

• „evidenzbasierte Diagnostik“:

- Stützt sich auf empirisch gesicherte Zusammenhänge zwischen Prädiktor-

und Kriteriumsvariablen:

- Beispiele:

- Schwere/ Häufigkeit von Straftaten -> Rückfallrisiko von Straftätern

- IQ/ Leistungsmotivation -> Vorhersage von Schulerfolg

-Statistische Modelle: gewichtete Kombination von Prädiktoren prädiziert das

interessierende Kriterium (Rückfall, Studienerfolg)

-Regeln der Vorhersage sind explizit formuliert

-Menschliche Beurteilung nur bei Datenerhebung (z.B. Schwere der Straftat),

jedoch nicht bei Datenkombination involviert

-Weitere Besonderheit: individuelle Besonderheiten/ Eigenheiten werden

nicht genutzt

Paaraufgabe

Erklären Sie sich gegenseitig was man unter klinischer

und statistischer Vorhersage versteht?

Worin bestehen die Unterschiede zwischen beiden

Vorhersagemethoden?

37

5. Diagnostische Urteilsbildung

Zentrale Frage: Güte eines Urteils in Abhängigkeit von der Vorhersagemethode (Klinisch vs. Statistisch)

-> Güte eines Urteils bei z.B.:

– Richtigkeit klinischer Diagnosen

– Prognose: Rückfallrisiko von Straftätern, Akademischer Erfolg von Studienbewerbern

38

5. Diagnostische Urteilsbildung

Beispiel für eine empirische Untersuchung zur Güte eines Urteils in

Abhängigkeit von der Vorhersagemethode (klinisch vs. statistisch)

Studie von Sarbin (1942):

Vergleich der Vorhersagegenauigkeit -> akademischer Erfolg von 162

Studienanfängern durch

(1)professionelle Studienberater (klinische Methode)

Daten: diverse Tests, Abschlussnote Schule, biographische

Angaben, Interview

Vorhersage: Studienerfolg (8-Punkte-Skala)

(2)einfache lineare Gleichung (Vorhersagegleichung)

Daten: Eignungstest, Abschlussnote Schule (= 2 Variablen)

Kriterium: Noten im ersten Studienabschnitt

39

5. Diagnostische Urteilsbildung

Studie von Sarbin (1942)

Korrelationen klinischer und statistischer

Vorhersagen mit dem Studienerfolg in der

Untersuchung von Sarbin (1942).

Kritik

• Prognosefähigkeit Studienberater + Validität des Kriteriums?

• Individuelle Differenzen in der Vorhersagegenauigkeit?

40

5. Diagnostische Urteilsbildung

Meehl (1954): Zentrales Problem von Studien wie der von Sarbin (1942)

ist die fehlende Differenzierung zwischen:

• Art der Datenerhebung und Art der Datenkombination

Datenerhebung

psychometrisch

nichtpsychometrisch

Datenkombination

formell/statistisch

informell/klinisch

Diagnose

Prognose

Entscheidung

41

5. Diagnostische Urteilsbildung

Art der Datenerhebung:

zwei Informationsquellen, die für eine Vorhersage genutzt werden

• Psychometrische Daten: werden von Tests und anderen Verfahren geliefert, für die eine standardisierte Vorgabe sowie eine einheitliche Klassifikation und Verrechnung der Reaktionen gewährleistet ist

-> Solche Daten sind von Ermessensentscheidungen der beurteilenden Person frei.

• bei nicht-psychometrischen Daten gibt es keine standardisierte Vorgabe und Auswertung

– Beispiel für nicht-psychometrische Daten: Eindrücke eines Diagnostikers, die er aus den Äußerungen einer Person während eines Interviews gewinnt. Hier fungiert der beurteilende Diagnostiker gewissermaßen selbst als Messinstrument.

42

5. Diagnostische Urteilsbildung

Art der Datenkombination:

ebenfalls zwei Methoden

• formelle oder statistische Kombination (alternative Ausdrücke sind: mechanisch, algorithmisch, explizit)

-> Entscheidend für die Qualifikation der Datenkombination als formell ist die Existenz angebbarer Regeln, wie sie bei statistischen Vorhersagemodellen vorliegen.

• oder informelle oder klinische Kombination (beurteilend, intuitiv, implizit)

43

5. Diagnostische Urteilsbildung

Statistische (formelle) Datenkombination:

Häufigste Modelle:

• Gewichteter additiver Vorhersagewert (vgl. Multiple-Regression Cut-Off):

• Konfigurale Modelle (Ermöglichung nicht-kompensatorischer Verknüpfungen) (vgl. Multiple Cut-Off)

-> Bestimmung der Gewichte bzw. Cut-Offs anhand vorliegender Daten (siehe Krohne & Hock (2015) für detaillierte Beschreibung des Vorgehens)

-> Notwendigkeit einer Kreuzvalidierung

-> Vorhersage bedeutet nicht Verursachung

Klinische Datenkombination:

• Jeder Kliniker kombiniert die vorliegenden Daten nach seinem „internen Modell“

5. Diagnostische Urteilsbildung

Datenerhebung

psychometrisch

nichtpsychometrisch

Datenkombination

formell/statistisch

informell/klinisch

Diagnose

Prognose

Entscheidung

Beispiel: Bestimmung der Fahreignung (Unfallrisiko)

1. psychometrische Daten werden formell kombiniert (Ergebnisse von Konzentrations-,

Vigilanztests werden in Gleichung eingesetzt).

2. nicht-psychometrische Daten werden informell kombiniert (Interviews +

Verhaltensbeobachtung bilden Entscheidungsgrundlage),

3. psychometrische Daten werden informell kombiniert (z.B. Ergebnisse von

Konzentrations-, Vigilanztests werden intuitiv für die Diagnose genutzt),

4. nicht-psychometrische Daten werden formell kombiniert (Daten des Interviews +

Verhaltensbeobachtung werden nach einem fixierten Regelsystem integriert).

Übungsaufgabe

Thema: Zulassung zum Psychologiestudium

Erhobene Daten:

• Ergebnisse eines Leistungsmotivationstests

• Eindruck des Studieninteresses aus Gespräch

• Abiturnote

• berichtete Studienmotivation im Interview

Benennen Sie erhobene psychometrische und nicht-

psychometrische Daten

Geben Sie Beispiele für die 4 basalen Arten der

Datenkombination

5. Diagnostische Urteilsbildung

Datenerhebung

psychometrisch

nichtpsychometrisch

Datenkombination

formell/statistisch

informell/klinisch

Diagnose

Prognose

Entscheidung

in frühen

Untersuchungen

konfundiert

Konfundierung (laut Meehl):- Befürworter statistischer

Vorgehensweise bevorzugen psychometrische (und andere “harte”) Verhaltensdaten gegenüber nicht-psychometrischen (“weichen”) Daten

- Befürworter klinischer Vorhersage) bevorzugen nicht-psychometrischen Daten

formell/statistisch

informell/klinisch

psychometrisch

nichtpsychometrisch

psychometrisch

nichtpsychometrisch

formell/statistisch

informell/klinisch

47

5. Diagnostische Urteilsbildung

• Konfundierung (laut Meehl):

– Befürworter statistischer Vorgehensweise bevorzugen psychometrische (und andere “harte”) Verhaltensdaten gegenüber nicht-psychometrischen (“weichen”) Daten

– Befürworter klinischer Vorhersage) bevorzugen nicht-psychometrischen Daten

• Unterschiede in der Validität klinischer und statistischer Vorhersagen können damit auf die Art der verwendeten Daten, die Methode der Datenkombination oder beides zurückgehen.

• Für eine adäquate Bewertung der Vorgehensweisen ist es notwendig, diese Konfundierung aufzuheben

• Beiden Methoden der Datenkombination sollten also die gleichenDaten zur Verfügung stehen

48

5. Diagnostische Urteilsbildung

Daten

Statistische

Kombination

Klinische

Kombination

Kriterium

rsk

rkk

49

5. Diagnostische Urteilsbildung

Studie von Goldberg (1965):

Vergleich der Vorhersagegenauigkeit in Abhängigkeit von der Art der

Datenkombination (klinisch vs. statistisch)

Kriterium:

„Psychose“ versus „Neurose“ bei 861 männlichen Patienten

Diagnose wurde von Psychiatern vorher festgelegt

Daten:

11 Skalen des Minnesota Multiphasic Personality Inventory (MMPI;

damals beliebtes Testverfahren zur Diagnose klinisch relevanter

Persönlichkeitsmerkmale)

50

5. Diagnostische Urteilsbildung

Studie von Goldberg (1965):

Klinische Datenkombination:

29 klinische Psychologen (13 sehr erfahren (incl. Ph.D.),

16 im Endstadium der klinischen Ausbildung befindlich)

Experten sollten Profile der Probanden auf einer 11-stufigen Skala

(die sich von neurotisch bis psychotisch erstreckte) sortieren

Beurteiler hatten Erfahrung mit MMPI

Statistische Datenkombination:

empirisch gewonnener Goldberg-Index: (L+Pa+Sc) - (Hy+Pt)

Der Index wurde aufgrund von Regressionsanalysen mittels einer

unabhängigen Stichprobe (N = 402) gebildet

51

5. Diagnostische Urteilsbildung

52

5. Diagnostische Urteilsbildung

Kritik an Goldberg-Studie:

Kriterium (d.h. Richtigkeit der Diagnose) wurde von Psychiatern

bestimmt (-> somit ist „Wahrheit“ durch klinische Vorgehensweise

ermittelt wurden?)

Kliniker hatten nur statistisches Datenmaterial (Ergebnisse der 11

MMPI-Skalen)

- erhöhte Wahrscheinlichkeit, dass statistische Seite „gewinnen“

musste?

- Kliniker nutzen i.d.R andere Datenquellen für ihre Diagnose

(Interview, Biografie etc.)

53

5. Diagnostische Urteilsbildung

Metaanalysen:

• Grove et al. (2000): 136 Studien aus unterschiedlichen Bereichen:

63 Studien: Überlegenheit der statistischen Datenkombination

65 Studien: unentschieden

8 Studien: klinische Vorhersage überlegen (z.T. mehr Information

vorhanden, allerdings war das in anderen Studien auch der Fall)

Überlegenheit wird erklärt durch zufällige Stichprobenfluktuation

+ genereller Informationsvorsprung der Kliniker

insgesamt aber nur niedrige Effektstärke für statistische

Überlegengenheit (d = .089)

• Klieger et al. (2013) (akademische und berufliche Leistung)

in 25 Studien erwies sich die statistische Vorhersage der klinischen

in allen betrachtete Leistungsbereichen als moderat bis deutlich

überlegen

54

5. Diagnostische Urteilsbildung

Metaanalysen:

• Ægisdóttir et al. (2006): 69 Studien aus dem klinischen Bereich:

Über alle Studien mit ihren 173 Effektstärken hinweg ermittelten die

Autoren eine Gesamteffektstärke von d = .16 zugunsten der

statistischen Methode.

Es fand sich keine Bedingung, unter der die klinische Vorhersage

überlegen gewesen wäre

Größte Überlegenheit der statistischen Vorhersage bei der

Vorhersage von Gewalttätigkeit (d = 0.17)

Güte der klinischen Urteilsbildung verbessert sich nicht, wenn

Kliniker mehr Informationen nutzen können, das Gegenteil tritt ein

55

5. Diagnostische Urteilsbildung

Mögliche Gründe für Überlegenheit statistischer Datenkombination

bzw. Unterlegenheit klinischer Datenkombination:

1) Fehlerhaftigkeit menschlicher Beurteilung

auch professionelle Diagnostiker unterliegen Verzerrungs- und

Fehlertendenzen

Falsche Gewichtung ODER Nichtberücksichtigung relevanter

diagnostischer Hinweise (gleichzeitig Überbewertung nicht-

relevanter Hinweise)

2) Keine konsistente Umsetzung von Entscheidungsregeln

Inkonsistenzen kommen zustande, da sich bei individuellen Fällen

Besonderheiten aufdrängen, die als (zu) wichtig erachtet werden

3) Keine oder nur beschränkte Möglichkeit aus Rückmeldungen über

Diagnosen zu lernen

bei Selektionsentscheidungen gibt es kein Feedback über

abgelehnte Bewerber (Güte der Entscheidung nicht prüfbar)

56

Klausurfrage

Nennen Sie verschiedene Gründe für die Überlegenheit statistischer

Datenkombination.

57

5. Diagnostische Urteilsbildung

Kritik der “klinischen” Seite:

- Einzelfälle vs. Gruppen

• d.h. Betonung der Einzigartigkeit der diagnostischen Entscheidung

-> Bedingungen des Einzelfalles berücksichtigen

58

59

5. Diagnostische Urteilsbildung

klinische Diagnostik soll Vorhersage in einem Einzelfall liefern, betrifft nicht

statistische Durchschnittswerte, Häufigkeiten oder Trends in Gruppen

Statistiker: statistisch registrierte Häufigkeiten determinieren nicht das

Rückfallrisiko des Delinquenten, ABER solche Häufigkeiten erlauben es,

das Risiko einzelner Personen abzuschätzen, die bestimmten Gruppen

angehören (z.B. Delinquenten mit zerrütteten Familienverhältnissen)

Im Hinblick auf die Verursachung sind statistische Modelle indifferent.

Vorhersage ≠ Verursachung (z.B. bedeuten zerrüttete Familienverhältnisse

keinesfalls, dass diese die Ursache des Rückfalls sind (obwohl dies

natürlich der Fall sein mag).

Statistische Modelle geben keine Auskunft zur Verursachung (ist

theoretische Frage) -> liefern jedoch auf der Basis gegebener Daten

bestmögliche Vorhersagen.

Kausalität ist in diagnostischen Kontexten nicht immer relevant.

60

5. Diagnostische Urteilsbildung

Kritik der “klinischen” Seite:

- Einzelfälle vs. Gruppen

- Berücksichtigung einzigartiger Muster von

Variablenausprägungen

- Verfügbarkeit zusätzlicher nicht-psychometrischer Information,

die in die statistische Vorhersage nicht eingehen

Antworten “statistischen” Seite auf diese Gegenargumente:

- Auch Einzelfälle sollten nach expliziten und mathematisch

optimalen Regeln behandelt werden

- Berücksichtigung spezifischer/seltener Ereignisse ist kein

prinzipielles Problem statistischer Vorhersagemodelle

- Sofern nicht-psychometrische Informationen wirklich brauchbar

sind, können sie auch in das statistische Modell eingebaut werden

61

5. Diagnostische Urteilsbildung

Trotz ihrer offensichtlichen Überlegenheit sollte die statistische Vorhersage

nicht kritiklos als universelle Lösung angesehen werden.

statistisches Urteilsmodell kann nur mit den Informationen konstruiert

werden, die für alle Probanden vorliegen (große Fallzahlen bei

einheitlicher Fragestellung notwendig)

In vielen Fällen gibt es keine Alternative zum menschlichen Urteil, da es

keine statistischen Vorhersagemodelle gibt (einschlägige

Forschungsergebnisse fehlen)

In manchen Fragen statistisches Urteil nicht anwendbar (Beispiel

gebrochenes Bein; Besetzung eines Chemie-Nobelpreisträgers)

62

5. Diagnostische Urteilsbildung

Zusammenfassung:

Vorteile des Aufstellens expliziter Modelle

-Verbesserung der Validität des Urteils

-Minimierung von Verzerrungs- und Fehlertendenzen

-Konsistenz der Entscheidungen

-Transparenz

-Optimierbarkeit

-Entlastung des Diagnostikers

Aber: Nicht immer ist ein statistisches Datenkombinationsmodell

verfügbar oder zentrale individuelle Besonderheiten sind nicht in das

Modell integriert

Fazit: Wenn statistische Vorhersagemodelle existieren, sollten

Diagnostiker diese kennen und nutzen – aber ohne ihnen blind zu

vertrauen.

63

5. Diagnostische Urteilsbildung

Wie sieht aktuell die diagnostische Urteilsbildung in der

klinischen Psychologie aus (DSM-IV, ICD-10)?

64

5. Diagnostische Urteilsbildung

65

5. Diagnostische Urteilsbildung

66

5. Diagnostische Urteilsbildung

67

5. Diagnostische Urteilsbildung

68

69

5. Diagnostische Urteilsbildung

70

Ausblick: Diagnostischer Prozess

• Als diagnostischer Prozess wird die Abfolge von Maßnahmen zur

Gewinnung diagnostisch relevanter Informationen und deren

Integration zur Beantwortung einer Fragestellung bezeichnet

71

Ausblick: Diagnostischer Prozess

72

Ausblick: Diagnostischer Prozess

Ausblick

• Der Ablauf und die Ergebnisse des diagnostischen Prozesses werden häufig in Form von psychologisch-diagnostischen Gutachten dokumentiert

• Die Planung und Durchführung einer diagnostischen Begutachtung sowie die Erstellung eine psychologisch-diagnostischen Gutachtens wird in der Master-Ausbildung Psychologie gelehrt.

Recommended