Vorlesung - home.uni-leipzig.dehome.uni-leipzig.de/diffdiag/lehre/Vorlesungen/Diagnostik_Testtheorie/Diagnostik_12... · 2 Gliederung der Vorlesung 1. Einführung 2. Psychologische

Vorlesung

Grundlagen

Psychologischer Diagnostik und Testtheorie

Universität Leipzig

WS 2018/19

Datum: 30.01.2019

Dozent: Sascha Krause

Interessenten StiL-Seminar

Kennenlernen der TAP (Testbatterie zur Aufmerksamkeitsprüfung)

-> beliebtes Verfahren in der angewendeten Psychologie

In 2- oder 3er Gruppen zusammenfinden

einmalig 90-minütige Veranstaltung ab April (auch in

Semesterferien)

Kontakt: [email protected]

Zugangscode zum Iversity-Kurs: un.iversity.org/i/g/wbfcok

2

Gliederung der Vorlesung

1. Einführung

2. Psychologische Tests

– Verschiedene Arten psychologischer Tests

– Items

– Statistische Itemanalysen

– Faktorenanalyse

– Normierung

3. Testgütekriterien

– Objektivität

– Reliabilität

– Validität

4. Entscheidungstheoretische Modelle

– Entscheidungsstrategien

– Güte diagnostischer Entscheidungen

– Nutzen diagnostischer Entscheidungen

5. Diagnostische Urteilsbildung

4.3 Entscheidungstheoretische Nutzenerwägungen

(Wiederholung)

• (Brogden, 1949; Cronbach & Gleser, 1965)

• Ziel: Nutzen einer diagnostischen Prozedur für eine Selektionsaufgabe

in Geldeinheiten ausdrücken

Prüfung, ob eine Prozedur überhaupt profitabel ist

• Möglichkeit des Vergleichs mehrerer Verfahren hinsichtlich ihres

relativen Nutzens

• Zentrale AV ist der ökonomische Nutzen, der sich durch die

Verwendung eines diagnostischen Auswahlverfahrens ergibt

Zuwachs an Nutzen im Vergleich zur bisherigen Auswahlprozedur

bzw. im Vergleich zu einer Zufallsselektion

• Schmidt, Hunter, McKenzie & Muldrow (1979)

– Mögliche Produktivitätssteigerung durch den Einsatz eines allgemeinen

Intelligenztests (Programmer Aptitude Test) zur Auswahl von Programmierern für

den öffentlichen Dienst in den USA

– Für Messfehler und Varianzeinschränkung korrigierte Validitätsschätzung: r = .76

– Schätzung der Leistungsstreuung SDy = $10413 (N = 105)

(zwischen PR 50 und 85: $10871, zwischen PR 15 und 50: $9955)

– Durchschnittliche Verweildauer T = 9,69 Jahre

– Kosten des Verfahrens C = $10

– Ergebnisse in Abhängigkeit von der Selektionsrate und der Validität des

bisherigen Auswahlverfahrens


(Brogden-Cronbach-Gleser-Modell)NCSDZrTNU yxxys s


• Schmidt, Hunter,

McKenzie & Muldrow

(1979)

• Kritik an der Studie von Schmidt et al. (1979)

– Sehr hohe Validitätsschätzung für Intelligenztest (.76)

1: Akademiker

2: (Computer-)Techniker

3: Angestellte, Facharbeiter

4: Angelernte Arbeitskräfte

5: Ungelernte Arbeitskräfte


• Kritik an der Studie von Schmidt et al. (1979)

– Sehr hohe Validitätsschätzung für Intelligenztest

– Probleme bei der Schätzung von SDy

– Keine Berücksichtigung zentraler ökonomischer Variablen wie

Steuern, Zinsen und Inflation

Aber: Aufzeigen des großen potentiellen wirtschaftlichen

Nutzens von valider psychologischer Diagnostik bei der

Personalauswahl.

Dies hatte einen starken Impact auf die Praxis!


Klausurfrage

Was untersuchten Schmidt et al. (1979) in ihrer einflussreichen

Studie, zu welchen Kernaussagen kommen sie?

Welche Kritik gibt es an der Studie von Schmidt et al. (1979)?

Berücksichtigung zentraler ökonomischer Variablen (Boudreau, 1983)

-> Berücksichtigung von Steuern auf Gewinne

-> Berücksichtigung von Zinsen und Inflation (zukünftige Gewinne/Kosten

sind ökonomisch als geringer zu bewerten als aktuelle Gewinne/Kosten)


Ci

TAXSDZrNUtyxxys s

)1(

1)1(

Testungder Kosten

Jahr

ZinsrateeadjustiertInflation diefür

Steuern

C

t

i

TAX

Entscheidungstheoretisches Nutzenmodell unter Berücksichtigung ökonomischer

Variablen und jahresweiser Berechnung (Boudreau, 1983):


1)1(

1)1()(

tvafi

TAXCNCC

Jahr

ZinsrateeadjustiertInflation diefür

Steuern

Testungder Kosten variable

Getestetender Anzahl

Testungder Kosten feste

t

i

TAX

C

N

C

v

a

f

Entscheidungstheoretisches Nutzenmodell unter Berücksichtigung ökonomischer

Variablen und jahresweiser Berechnung (Boudreau, 1983):


Beispiel für die Anwendung dieses Modells (Holling, 1998)

• Ziel: Berechnung des Nutzens eines Assessment Centers für die Auswahl

von Außendienstmitarbeitern einer deutschen Versicherungsgesellschaft

• Typisches Assessment Center (AC)

– Selbstvorstellung, Gruppendiskussion, Vortrag, Interview,

Übungsaufgaben

– AC stand am Ende eines mehrstufigen Auswahlprozesses

– 50% der zum AC eingeladenen Bewerber wurden akzeptiert.

• Über drei Jahre hinweg wurden Mitarbeiter eingestellt (N1 = 89, N2 = 126,

N3 = 100), von denen aber ein Teil das Unternehmen wieder verließ

=> Frage nach 5 Jahren: Lohnte sich die vergleichsweise aufwendige

Diagnostik mittels des Assessment Centers?



• Berechnung des Nutzens getrennt für jede der fünf Jahre und anschließende

Summierung

• Schätzungen der zentralen Variablen:

– Inkrementelle Validität des AC zur restlichen Auswahldiagnostik: rxy = .11

– Selektionsquote von 0,50: durchschnittlicher Testwert ( ) der

akzeptierten Bewerber: = .80

– Standardabweichung der Arbeitsleistung in DM: Berechnung über Anzahl

und Umfang der verkauften Versicherungspolicen (SDy = 21.079,40 DM)

– 40% Steuern

– für Inflation adjustierte Zinsrate: 10,7%


sxZ

Beispiel für die Anwendung dieses Modells (Holling, 1998; korrigierte Zahlen)

t Ns rxyതZxs SDy (in DM) 1-TAX 1/(1+i)t Gewinn (in DM)

1 89 0,11 0,8 21.079,40 0,6 0,90 89.151

2 215 0,11 0,8 21.079,40 0,6 0,82 196.221

3 217 0,11 0,8 21.079,40 0,6 0,74 178.724

4 190 0,11 0,8 21.079,40 0,6 0,67 141.684

5 163 0,11 0,8 21.079,40 0,6 0,60 108.851

gesamt 714.631


Beispiel für die Anwendung dieses Modells (Holling, 1998; korrigierte Zahlen)

t Cf

(in DM)

Na Cv

(in DM)

1-TAX 1/(1+i)t-1 Kosten (in

DM)

Nutzen (in

DM)

1 100.000 178 300 0,6 1,00 92.040

2 0 252 300 0,6 0,90 40.824

3 0 200 300 0,6 0,82 29.520

gesamt 162.384 552.247



• Ergebnis der Studie: Der zusätzliche Einsatz des Assessment Centers bei der

Auswahl von Außendienstmitarbeitern führte zu einem Gewinn von über

500.000 DM für das Unternehmen

• Möglichkeit von zusätzlichen Rentabilitätsanalysen

– z.B.: Wenn das Assessment Center mehr als 1450 DM pro Testung kosten

würde, wäre die Kosten des Verfahrens höher als der zu erwartende

Nutzen

• Berechnung des Nutzens einzelner Bausteine des Assessment Centers

• Ergebnisse nicht generalisierbar auf andere Arbeitsgebiete


Bewertung entscheidungstheoretischer

Nutzenerwägungen

• Ökonomische Argumentation in Geldeinheiten möglich

– Gemeinsame „Sprache“ mit Betriebswirtschaftlern

– Verdeutlichung des Nutzens psychologischer Diagnostik

• Vergleich unterschiedlicher Auswahlprozeduren möglich

– Teurer und valider Test vs. billiger und weniger valider Test

– Ist ein zusätzlicher teurer Test (z.B. AC) sein Geld wert?

• Ungenauigkeit der Nutzenberechnungen

– Häufig nur eher ungenaue Schätzungen der Parameter möglich (insb.

von SDy) -> Nutzenberechnungen sind zum Teil sehr fehlerbehaftet

– Aber: Dies gilt auch für andere Anwendungen ökonomischer

Entscheidungmodelle unter Unsicherheit (Laux, 2005)

• Kritik an dem zugrundeliegenden linearen Modell

– Nicht-lineare Zusammenhänge zwischen Mitarbeiterleistung und

Gewinnen/Verlusten für das Unternehmen

Zusammenfassung:

Entscheidungstheoretische Modelle

1. Validität eines Testverfahren als alleiniges Kriterium für die Güte

einer Selektionsentscheidung

2. Taylor-Russell-Modell (1939): Zusätzliche Berücksichtigung von

Selektions- und Basisquoten

3. Brogden-Cronbach-Gleser-Modell (Brogden, 1949; Cronbach &

Gleser, 1965): Entscheidungsnutzen als zentrales Kriterium

4. Boudreau-Modell (Boudreau, 1983): Berücksichtigung weiterer

ökonomischer Variablen (Steuern, Zinsen) bei der Berechnung des

Entscheidungsnutzens

Entscheidungstheoretische Überlegungen bei der Bestimmung der

Güte und des Nutzens von psychologischer Diagnostik bei der

Personalselektion


• Entscheidungstheoretische Überlegungen in der psychologischen

Diagnostik bei Selektionsentscheidungen, vor allem bei der

Personalauswahl:

4.1 Verschiedene Entscheidungsstrategien

4.2 Bestimmung der Güte von Selektionsentscheidungen

4.3 Evaluation des finanziellen Nutzens von diagnostischen Verfahren

und darauf basierender Vergleich von alternativen diagnostischen

Auswahlprozeduren

20

Entscheidung

Abgelehnt Akzeptiert

Tatsächliche

Eignung

GeeignetFalsch Negativ

(FN)

Valide Positiv

(VP)

UngeeignetValide Negativ

(VN)

Falsch Positiv

(FP)

Erfolgsquote = VP/(VP+FP) -> Anteil der Geeigneten an den Akzeptierten

Abgelehnte werden nicht weiter beachtet (kann durchaus kritisch sein)

Im klinischen Kontext (Stellung einer Diagnose) müssen alle Entscheidungen

berücksichtigt werden, um die Güte eines Verfahrens zu bestimmen

Personalauswahl

Güte diagnostischer Entscheidungen

(klinischer Kontext)

21



Diagnose einer Störung

nein ja

Tatsächliches

Vorliegen

einer Störung

jaFalsch Negativ

(FN)

Valide Positiv

(VP)

neinValide Negativ

(VN)

Falsch Positiv

(FP)

Stellung einer Diagnose

Bsp. Major Depression

Welcher Cut-Off Wert?

Relative Häufigkeit korrekter Entscheidungen = (VP+VN)/Gesamt

TrefferVerpasser

Falscher

Alarm

Korrekte

Ablehnung

22


nein ja

Tatsächliches

Vorliegen

einer Störung

jaFalsch Negativ

(FN)

Valide Positiv

(VP)

neinValide Negativ

(VN)

Falsch Positiv

(FP)

Sensitivität = VP / (FN + VP) [„Trefferquote“]

1 – Sensitivität = FN /(FN + VP) [„Verpasserquote“]

TrefferVerpasser



Festsetzung des Cut-Off Werts

23


nein ja

Tatsächliches

Vorliegen

einer Störung

jaFalsch Negativ

(FN)

Valide Positiv

(VP)

neinValide Negativ

(VN)

Falsch Positiv

(FP)

Spezifität = VN / (VN + FP) [„Quote korrekter Ablehnungen“]

1 – Spezifität = FP / (VN + FP) [„Quote falscher Alarme“]

Korrekte

Ablehnung

Falscher

Alarm



Festsetzung des Cut-Off Werts

Übungsaufgabe

Was versteht man unter Sensitivität und Spezifität eines

klinisch-diagnostischen Verfahrens?

25

Bestimmung des Cut-Off-Werts

26


Mögliche Bestimmung des

optimalen Schwellenwerts über

Maximierung der Summe aus

Spezifität und Sensitivität

(Youden Index, 1950)

-> je nach Fragestellung

auch anderes Kriterium

möglich

Denkaufgabe

In welchen klinisch relevanten Fragen könnte es eher

Sinn machen eine hohe Sensitivität (damit eine niedrigere

Spezifität) zu haben?

In welchen klinisch relevanten Fragen könnte es eher

Sinn machen eine hohe Spezifität (damit eine niedrigere

Sensitivität) zu haben?

28


Gut zur Bestimmung eines

idealen Cut-Off-Werts

Fläche zwischen ROC-Kurve

und der Diagonalen:

Maß für die Trennfähigkeit

des Tests

Receiver-Operators-Characteristics-Analyse (ROC-Analyse)

29

Beispiel für ROC-Analyse

Beispiel: Löwe et al. (2004),

Journal of Affective Disorders

30

Gliederung der Vorlesung

1. Einführung

2. Psychologische Tests

– Verschiedene Arten psychologischer Tests

– Items

– Statistische Itemanalysen

– Faktorenanalyse

– Normierung

3. Testgütekriterien

– Objektivität

– Reliabilität

– Validität


– Entscheidungsstrategien

– Güte diagnostischer Entscheidungen

– Nutzen diagnostischer Entscheidungen


31


Lit.: Krohne & Hock (Kap. 5.1), Schmidt-Atzert & Amelang (Kap. 5.2)

• Als diagnostisches Urteil wird die Beantwortung einer Fragestellung

unter Verwendung von bereits vorliegenden diagnostischen

Informationen bezeichnet.

– “Frau K ist die geeignetste Bewerberin für die ausgeschriebene Stelle“

– “Herr X leidet unter einer Depression”

– “Die Arbeitsgruppe Y ist durch starkes Konkurrenzverhalten geprägt”

– „Der Straftäter Herr Z ist in starkem Maße rückfallgefährdet“

– “Therapie A hat bei Frau Z eine höhere Erfolgschance als Therapie B”

32


• In der Regel ist der Diagnostiker meist selbst verantwortlich, relevante

Informationen zu erheben

• Erhebung „falscher“ Informationen oder falsche Bewertung/ Gewichtung

„richtiger“ Informationen -> führt zu falschen/ungültigen

Schlussfolgerungen (Fehldiagnosen/ Fehlurteile)

• Untersuchung der Fehleranfälligkeit (bzw. Richtigkeit) diagnostischer

Urteile:

– mehreren Diagnostikern werden gleiche Informationen gegeben

– Kriteriumswerte liegen bereits vor (z.B. bestätigte psychiatrische

Diagnose; Berufserfolg)

• Zwei scheinbar antagonistische Verfahren der Diagnosefindung:

Klinische vs. statistische Urteilsbildung (Experten- vs. Rechenmodell)

33


Klinische vs. statistische Vorhersage (Meehl, 1954)

-> Wie gut treffen Diagnosen und Vorhersagen zu, die mittels unterschiedlicher Methoden gewonnen werden?

• Meilenstein in der Kontroverse: inzwischen klassische Monographie von Paul Meehl (1954) “Clinical versus statistical prediction”

• Meehl versuchte den Diagnoseprozess rational zu konstruieren, in dem er die Argumente der klinischen und statistischen Seitegegenüber stellte und auf die Ergebnisse bis dahin vorliegenderempirischer Untersuchungen bezog

34


Klinische Vorhersage (-> damals Standardmodell des Vorgehens)

• „erfahrungsbasierte Diagnostik“:

- Menschliche Beurteilung als Basis der Erhebung und Integration

diagnostischer Information:

- Beurteilung durch Experten in Psychotherapie (Fallkonferenz)

- Orientierung an der Besonderheit des konkreten Falls

• Diagnosen werden durch Vergleich mit ähnlichen Fällen aus der

Vergangenheit getroffen

- Vorhersage ist erfahrungs- und z.T. intuitionsgesteuert, d.h.

Entscheidungsgrundlage unterliegt nicht expliziten Regeln

- Annahme: mehrjährige Ausbildung und Berufserfahrung erhöhen

Validität der Vorhersage

- Nicht auf die Klinische Psychologie beschränkt (auch bei der

Personalauslese etc.)

35


Statistische Vorhersage

• „evidenzbasierte Diagnostik“:

- Stützt sich auf empirisch gesicherte Zusammenhänge zwischen Prädiktor-

und Kriteriumsvariablen:

- Beispiele:

- Schwere/ Häufigkeit von Straftaten -> Rückfallrisiko von Straftätern

- IQ/ Leistungsmotivation -> Vorhersage von Schulerfolg

-Statistische Modelle: gewichtete Kombination von Prädiktoren prädiziert das

interessierende Kriterium (Rückfall, Studienerfolg)

-Regeln der Vorhersage sind explizit formuliert

-Menschliche Beurteilung nur bei Datenerhebung (z.B. Schwere der Straftat),

jedoch nicht bei Datenkombination involviert

-Weitere Besonderheit: individuelle Besonderheiten/ Eigenheiten werden

nicht genutzt

Paaraufgabe

Erklären Sie sich gegenseitig was man unter klinischer

und statistischer Vorhersage versteht?

Worin bestehen die Unterschiede zwischen beiden

Vorhersagemethoden?

37


Zentrale Frage: Güte eines Urteils in Abhängigkeit von der Vorhersagemethode (Klinisch vs. Statistisch)

-> Güte eines Urteils bei z.B.:

– Richtigkeit klinischer Diagnosen

– Prognose: Rückfallrisiko von Straftätern, Akademischer Erfolg von Studienbewerbern

38


Beispiel für eine empirische Untersuchung zur Güte eines Urteils in

Abhängigkeit von der Vorhersagemethode (klinisch vs. statistisch)

Studie von Sarbin (1942):

Vergleich der Vorhersagegenauigkeit -> akademischer Erfolg von 162

Studienanfängern durch

(1)professionelle Studienberater (klinische Methode)

Daten: diverse Tests, Abschlussnote Schule, biographische

Angaben, Interview

Vorhersage: Studienerfolg (8-Punkte-Skala)

(2)einfache lineare Gleichung (Vorhersagegleichung)

Daten: Eignungstest, Abschlussnote Schule (= 2 Variablen)

Kriterium: Noten im ersten Studienabschnitt

39


Studie von Sarbin (1942)

Korrelationen klinischer und statistischer

Vorhersagen mit dem Studienerfolg in der

Untersuchung von Sarbin (1942).

Kritik

• Prognosefähigkeit Studienberater + Validität des Kriteriums?

• Individuelle Differenzen in der Vorhersagegenauigkeit?

40


Meehl (1954): Zentrales Problem von Studien wie der von Sarbin (1942)

ist die fehlende Differenzierung zwischen:

• Art der Datenerhebung und Art der Datenkombination

Datenerhebung

psychometrisch

nichtpsychometrisch

Datenkombination

formell/statistisch

informell/klinisch

Diagnose

Prognose

Entscheidung

41


Art der Datenerhebung:

zwei Informationsquellen, die für eine Vorhersage genutzt werden

• Psychometrische Daten: werden von Tests und anderen Verfahren geliefert, für die eine standardisierte Vorgabe sowie eine einheitliche Klassifikation und Verrechnung der Reaktionen gewährleistet ist

-> Solche Daten sind von Ermessensentscheidungen der beurteilenden Person frei.

• bei nicht-psychometrischen Daten gibt es keine standardisierte Vorgabe und Auswertung

– Beispiel für nicht-psychometrische Daten: Eindrücke eines Diagnostikers, die er aus den Äußerungen einer Person während eines Interviews gewinnt. Hier fungiert der beurteilende Diagnostiker gewissermaßen selbst als Messinstrument.

42


Art der Datenkombination:

ebenfalls zwei Methoden

• formelle oder statistische Kombination (alternative Ausdrücke sind: mechanisch, algorithmisch, explizit)

-> Entscheidend für die Qualifikation der Datenkombination als formell ist die Existenz angebbarer Regeln, wie sie bei statistischen Vorhersagemodellen vorliegen.

• oder informelle oder klinische Kombination (beurteilend, intuitiv, implizit)

43


Statistische (formelle) Datenkombination:

Häufigste Modelle:

• Gewichteter additiver Vorhersagewert (vgl. Multiple-Regression Cut-Off):

• Konfigurale Modelle (Ermöglichung nicht-kompensatorischer Verknüpfungen) (vgl. Multiple Cut-Off)

-> Bestimmung der Gewichte bzw. Cut-Offs anhand vorliegender Daten (siehe Krohne & Hock (2015) für detaillierte Beschreibung des Vorgehens)

-> Notwendigkeit einer Kreuzvalidierung

-> Vorhersage bedeutet nicht Verursachung

Klinische Datenkombination:

• Jeder Kliniker kombiniert die vorliegenden Daten nach seinem „internen Modell“


Datenerhebung

psychometrisch

nichtpsychometrisch

Datenkombination

formell/statistisch

informell/klinisch

Diagnose

Prognose

Entscheidung

Beispiel: Bestimmung der Fahreignung (Unfallrisiko)

1. psychometrische Daten werden formell kombiniert (Ergebnisse von Konzentrations-,

Vigilanztests werden in Gleichung eingesetzt).

2. nicht-psychometrische Daten werden informell kombiniert (Interviews +

Verhaltensbeobachtung bilden Entscheidungsgrundlage),

3. psychometrische Daten werden informell kombiniert (z.B. Ergebnisse von

Konzentrations-, Vigilanztests werden intuitiv für die Diagnose genutzt),

4. nicht-psychometrische Daten werden formell kombiniert (Daten des Interviews +

Verhaltensbeobachtung werden nach einem fixierten Regelsystem integriert).

Übungsaufgabe

Thema: Zulassung zum Psychologiestudium

Erhobene Daten:

• Ergebnisse eines Leistungsmotivationstests

• Eindruck des Studieninteresses aus Gespräch

• Abiturnote

• berichtete Studienmotivation im Interview

Benennen Sie erhobene psychometrische und nicht-

psychometrische Daten

Geben Sie Beispiele für die 4 basalen Arten der

Datenkombination


Datenerhebung

psychometrisch

nichtpsychometrisch

Datenkombination

formell/statistisch

informell/klinisch

Diagnose

Prognose

Entscheidung

in frühen

Untersuchungen

konfundiert

Konfundierung (laut Meehl):- Befürworter statistischer

Vorgehensweise bevorzugen psychometrische (und andere “harte”) Verhaltensdaten gegenüber nicht-psychometrischen (“weichen”) Daten

- Befürworter klinischer Vorhersage) bevorzugen nicht-psychometrischen Daten

formell/statistisch

informell/klinisch

psychometrisch

nichtpsychometrisch

psychometrisch

nichtpsychometrisch

formell/statistisch

informell/klinisch

47


• Konfundierung (laut Meehl):

– Befürworter statistischer Vorgehensweise bevorzugen psychometrische (und andere “harte”) Verhaltensdaten gegenüber nicht-psychometrischen (“weichen”) Daten

– Befürworter klinischer Vorhersage) bevorzugen nicht-psychometrischen Daten

• Unterschiede in der Validität klinischer und statistischer Vorhersagen können damit auf die Art der verwendeten Daten, die Methode der Datenkombination oder beides zurückgehen.

• Für eine adäquate Bewertung der Vorgehensweisen ist es notwendig, diese Konfundierung aufzuheben

• Beiden Methoden der Datenkombination sollten also die gleichenDaten zur Verfügung stehen

48


Daten

Statistische

Kombination

Klinische

Kombination

Kriterium

rsk

rkk

49


Studie von Goldberg (1965):

Vergleich der Vorhersagegenauigkeit in Abhängigkeit von der Art der

Datenkombination (klinisch vs. statistisch)

Kriterium:

„Psychose“ versus „Neurose“ bei 861 männlichen Patienten

Diagnose wurde von Psychiatern vorher festgelegt

Daten:

11 Skalen des Minnesota Multiphasic Personality Inventory (MMPI;

damals beliebtes Testverfahren zur Diagnose klinisch relevanter

Persönlichkeitsmerkmale)

50


Studie von Goldberg (1965):

Klinische Datenkombination:

29 klinische Psychologen (13 sehr erfahren (incl. Ph.D.),

16 im Endstadium der klinischen Ausbildung befindlich)

Experten sollten Profile der Probanden auf einer 11-stufigen Skala

(die sich von neurotisch bis psychotisch erstreckte) sortieren

Beurteiler hatten Erfahrung mit MMPI

Statistische Datenkombination:

empirisch gewonnener Goldberg-Index: (L+Pa+Sc) - (Hy+Pt)

Der Index wurde aufgrund von Regressionsanalysen mittels einer

unabhängigen Stichprobe (N = 402) gebildet

51


52


Kritik an Goldberg-Studie:

Kriterium (d.h. Richtigkeit der Diagnose) wurde von Psychiatern

bestimmt (-> somit ist „Wahrheit“ durch klinische Vorgehensweise

ermittelt wurden?)

Kliniker hatten nur statistisches Datenmaterial (Ergebnisse der 11

MMPI-Skalen)

- erhöhte Wahrscheinlichkeit, dass statistische Seite „gewinnen“

musste?

- Kliniker nutzen i.d.R andere Datenquellen für ihre Diagnose

(Interview, Biografie etc.)

53


Metaanalysen:

• Grove et al. (2000): 136 Studien aus unterschiedlichen Bereichen:

63 Studien: Überlegenheit der statistischen Datenkombination

65 Studien: unentschieden

8 Studien: klinische Vorhersage überlegen (z.T. mehr Information

vorhanden, allerdings war das in anderen Studien auch der Fall)

Überlegenheit wird erklärt durch zufällige Stichprobenfluktuation

+ genereller Informationsvorsprung der Kliniker

insgesamt aber nur niedrige Effektstärke für statistische

Überlegengenheit (d = .089)

• Klieger et al. (2013) (akademische und berufliche Leistung)

in 25 Studien erwies sich die statistische Vorhersage der klinischen

in allen betrachtete Leistungsbereichen als moderat bis deutlich

überlegen

54


Metaanalysen:

• Ægisdóttir et al. (2006): 69 Studien aus dem klinischen Bereich:

Über alle Studien mit ihren 173 Effektstärken hinweg ermittelten die

Autoren eine Gesamteffektstärke von d = .16 zugunsten der

statistischen Methode.

Es fand sich keine Bedingung, unter der die klinische Vorhersage

überlegen gewesen wäre

Größte Überlegenheit der statistischen Vorhersage bei der

Vorhersage von Gewalttätigkeit (d = 0.17)

Güte der klinischen Urteilsbildung verbessert sich nicht, wenn

Kliniker mehr Informationen nutzen können, das Gegenteil tritt ein

55


Mögliche Gründe für Überlegenheit statistischer Datenkombination

bzw. Unterlegenheit klinischer Datenkombination:

1) Fehlerhaftigkeit menschlicher Beurteilung

auch professionelle Diagnostiker unterliegen Verzerrungs- und

Fehlertendenzen

Falsche Gewichtung ODER Nichtberücksichtigung relevanter

diagnostischer Hinweise (gleichzeitig Überbewertung nicht-

relevanter Hinweise)

2) Keine konsistente Umsetzung von Entscheidungsregeln

Inkonsistenzen kommen zustande, da sich bei individuellen Fällen

Besonderheiten aufdrängen, die als (zu) wichtig erachtet werden

3) Keine oder nur beschränkte Möglichkeit aus Rückmeldungen über

Diagnosen zu lernen

bei Selektionsentscheidungen gibt es kein Feedback über

abgelehnte Bewerber (Güte der Entscheidung nicht prüfbar)

56

Klausurfrage

Nennen Sie verschiedene Gründe für die Überlegenheit statistischer

Datenkombination.

57


Kritik der “klinischen” Seite:

- Einzelfälle vs. Gruppen

• d.h. Betonung der Einzigartigkeit der diagnostischen Entscheidung

-> Bedingungen des Einzelfalles berücksichtigen

58

59


klinische Diagnostik soll Vorhersage in einem Einzelfall liefern, betrifft nicht

statistische Durchschnittswerte, Häufigkeiten oder Trends in Gruppen

Statistiker: statistisch registrierte Häufigkeiten determinieren nicht das

Rückfallrisiko des Delinquenten, ABER solche Häufigkeiten erlauben es,

das Risiko einzelner Personen abzuschätzen, die bestimmten Gruppen

angehören (z.B. Delinquenten mit zerrütteten Familienverhältnissen)

Im Hinblick auf die Verursachung sind statistische Modelle indifferent.

Vorhersage ≠ Verursachung (z.B. bedeuten zerrüttete Familienverhältnisse

keinesfalls, dass diese die Ursache des Rückfalls sind (obwohl dies

natürlich der Fall sein mag).

Statistische Modelle geben keine Auskunft zur Verursachung (ist

theoretische Frage) -> liefern jedoch auf der Basis gegebener Daten

bestmögliche Vorhersagen.

Kausalität ist in diagnostischen Kontexten nicht immer relevant.

60


Kritik der “klinischen” Seite:

- Einzelfälle vs. Gruppen

- Berücksichtigung einzigartiger Muster von

Variablenausprägungen

- Verfügbarkeit zusätzlicher nicht-psychometrischer Information,

die in die statistische Vorhersage nicht eingehen

Antworten “statistischen” Seite auf diese Gegenargumente:

- Auch Einzelfälle sollten nach expliziten und mathematisch

optimalen Regeln behandelt werden

- Berücksichtigung spezifischer/seltener Ereignisse ist kein

prinzipielles Problem statistischer Vorhersagemodelle

- Sofern nicht-psychometrische Informationen wirklich brauchbar

sind, können sie auch in das statistische Modell eingebaut werden

61


Trotz ihrer offensichtlichen Überlegenheit sollte die statistische Vorhersage

nicht kritiklos als universelle Lösung angesehen werden.

statistisches Urteilsmodell kann nur mit den Informationen konstruiert

werden, die für alle Probanden vorliegen (große Fallzahlen bei

einheitlicher Fragestellung notwendig)

In vielen Fällen gibt es keine Alternative zum menschlichen Urteil, da es

keine statistischen Vorhersagemodelle gibt (einschlägige

Forschungsergebnisse fehlen)

In manchen Fragen statistisches Urteil nicht anwendbar (Beispiel

gebrochenes Bein; Besetzung eines Chemie-Nobelpreisträgers)

62


Zusammenfassung:

Vorteile des Aufstellens expliziter Modelle

-Verbesserung der Validität des Urteils

-Minimierung von Verzerrungs- und Fehlertendenzen

-Konsistenz der Entscheidungen

-Transparenz

-Optimierbarkeit

-Entlastung des Diagnostikers

Aber: Nicht immer ist ein statistisches Datenkombinationsmodell

verfügbar oder zentrale individuelle Besonderheiten sind nicht in das

Modell integriert

Fazit: Wenn statistische Vorhersagemodelle existieren, sollten

Diagnostiker diese kennen und nutzen – aber ohne ihnen blind zu

vertrauen.

63


Wie sieht aktuell die diagnostische Urteilsbildung in der

klinischen Psychologie aus (DSM-IV, ICD-10)?

64


65


66


67


68

69


70

Ausblick: Diagnostischer Prozess

• Als diagnostischer Prozess wird die Abfolge von Maßnahmen zur

Gewinnung diagnostisch relevanter Informationen und deren

Integration zur Beantwortung einer Fragestellung bezeichnet

71


72


Ausblick

• Der Ablauf und die Ergebnisse des diagnostischen Prozesses werden häufig in Form von psychologisch-diagnostischen Gutachten dokumentiert

• Die Planung und Durchführung einer diagnostischen Begutachtung sowie die Erstellung eine psychologisch-diagnostischen Gutachtens wird in der Master-Ausbildung Psychologie gelehrt.

Documents

Vorlesung - home.uni-leipzig.dehome.uni-leipzig.de/diffdiag/lehre/Vorlesungen/Diagnostik_Testtheorie/Diagnostik_12... · 2 Gliederung der Vorlesung 1. Einführung 2. Psychologische