34
Multivariate Statistische Verfahren Korrespondenzanalyse Universität Mainz Institut für Psychologie WS 2010/2011 Uwe Mortensen

Multivariate Statistische Verfahren Korrespondenzanalyse Universität Mainz Institut für Psychologie WS 2010/2011 Uwe Mortensen

Embed Size (px)

Citation preview

Page 1: Multivariate Statistische Verfahren Korrespondenzanalyse Universität Mainz Institut für Psychologie WS 2010/2011 Uwe Mortensen

Multivariate Statistische VerfahrenKorrespondenzanalyse

Universität Mainz Institut für Psychologie

WS 2010/2011

Uwe Mortensen

Page 2: Multivariate Statistische Verfahren Korrespondenzanalyse Universität Mainz Institut für Psychologie WS 2010/2011 Uwe Mortensen

Einführung I

Es werden Kontingenztabellen betrachtet: die Abhängigkeiten zwischen Zeilen- und Spaltenkategorien werden zunächst durch einen Chi-Quadrat-Wert repräsentiert. Ist er signifikant,geht man davon aus, dass Abhängigkeiten existieren, andernfalls behält man die Nullhypothese (es existieren keine Abhängigkeiten) bei.

Westphal (1931) in „Der Nervenarzt“:

Page 3: Multivariate Statistische Verfahren Korrespondenzanalyse Universität Mainz Institut für Psychologie WS 2010/2011 Uwe Mortensen

Einführung II

Ernst Kretschmer (1888 – 1964):

„Körperbau und Charakter“ (1921)

1. Leptosom (dünn, hager) – schizothym – schizoid – schiziphren2. Pyknisch (rund und mollig) – zyklothym – zykloid – manisch-depressiv3. Athletisch (kräfig, muskulär) – barykinetisch – epileptoid - epileptisch

Widerspricht Westphals Tabelle der Kretschmerschen Theorie?

Ein signifikanter Chi-Quadrat-Wert gibt auf diese Frage keine Antwort;Die Häufigkeiten scheinen nicht auf Kretschmers Theorie zu weisen, und ein signifikanter Chi-Quadrat-Wert sagt nur, dass wahrscheinlich Abhängigkeiten zwischen Körperbau und „Charakter“ bestehen.

Page 4: Multivariate Statistische Verfahren Korrespondenzanalyse Universität Mainz Institut für Psychologie WS 2010/2011 Uwe Mortensen

Einführung III

Intuitive Betrachtung: sollte Kretschmers Theorie mit den Daten kompatibel sein, so müssen Skalen für den Körperbau existieren, auf denen sich die Körperbautypen nach Maßgabe ihrer „Ähnlichkeit“ anordnen lassen, und analog dazu Skalen, nach denen sich die Erkrankungen nach Maßgabe ihrer Ähnlichkeiten anordnen lassen.

Weiter muß zwischen den beiden Skalenklassen eine Beziehung bestehen derart, dass die die Beziehungen zwischen Körperbau und Erkrankung abgebildet werden.

Die Beziehung zwischen den Kategorien Körperbau und Art der Erkrankung wird nicht perfekt sein: Die Existenz von Mischtypen wirkt wie „Rauschen“

Page 5: Multivariate Statistische Verfahren Korrespondenzanalyse Universität Mainz Institut für Psychologie WS 2010/2011 Uwe Mortensen

Aber kann eine Beziehung der Form

f(Erkrankung) = g(Körperbau) + zuf. Fehler

überhaupt angenommen werden, wenn man Häufigkeiten erklären will?(f und g numerische Werte = Skalenwerte)

Einführung IV

1 1 2 2

1

1

Ein zur Faktorenanalyse analoger Ansatz wäre

,

wobei die , , Skalenwerte der i-ten Zeilenkategorie,

die , , Skalenwerte der j-ten Spaltenkategorie sind

und ei

ij i j i j ir jr ij

i ir

j jr

ij

n a b a b a b e

a a

b b

e

n zufälliger Fehler ist.

Page 6: Multivariate Statistische Verfahren Korrespondenzanalyse Universität Mainz Institut für Psychologie WS 2010/2011 Uwe Mortensen

1 1 2 2

Das Problem mit dem Ansatz:

,

(i) ist auf einen bestimmten Bereich von Werten beschränkt

(0 1)

(ii) die Verteilung der ist nicht von der Form

ij i j i j ir jr ij

ij

ij

ij

n a b a b a b e

n

n

Nn

Konstante + zufällige Variable!

Beispiel: Binomialverteilung

!( ) (1 )

!( )!

eine Konstante, eine zufällige Veränderliche!

k n knP X k p p

k n k

Also:1. Beziehungen zwischen Häufigkeiten in einer Kontingenztabelle durch

latente Variablen derart, dass2. Das Chi-Quadrat der Tabelle durch latente Variablen erklärt wird!

Page 7: Multivariate Statistische Verfahren Korrespondenzanalyse Universität Mainz Institut für Psychologie WS 2010/2011 Uwe Mortensen

Distanzen zwischen Zeilen- bzw. Spaltenkategorien

Häufigkeitsverteilungen für die Körperbautypen

Profile für die Körperbautypen: Häufigkeiten, geteilt durch Randsummen

Die absolute Häufigkeit, mit der ein Körperbautyp vorkommt, wirkt verzerrend auf die Wahrnehmung der Unterschiedlichkeit der Verteilungen

Elemente der Profile entsprechen bedingten Wahrscheinlichkeiten. Relativierung in Bezug auf Randsummen wirkt entzerrend auf Darstellung der Unterschiede.

Page 8: Multivariate Statistische Verfahren Korrespondenzanalyse Universität Mainz Institut für Psychologie WS 2010/2011 Uwe Mortensen

Definition von Profilen

1 21

, , , , J

ii i iJ i ij i

j

nn n n n n r

N

1 21

, , , , I

jj j Ij j ij j

i

nn n n n n c

N

1 1

, I J

ijij ij ij

i j

nn p N n

N

ii

nr

N

jj

nc

N

1 2 1 2Zeilenprofile: ( , , , ) ( , , , )i i iJ i i iJ

i i i i i i

p p p n n n

r r r n n n

1 2 1 2Spaltenprofile: ( , , , ) ( , , , )j j Ij j j jI

j j j j j j

p p p n n n

c c c n n n

Zeilen‘‘masse‘‘

Spalten“masse“

Page 9: Multivariate Statistische Verfahren Korrespondenzanalyse Universität Mainz Institut für Psychologie WS 2010/2011 Uwe Mortensen

Distanzen zwischen Zeilenkategorien

1 2

Erster Ansatz:

Betrachte Zeilenprofile ( , , , ) als Vektoren: i i iJ

i i i

p p p

r r r

1/22

1

Endpunkte repräsentieren die Zeilenkategorien, Distanz zwischen

den Kategorien =Euklidische Distanz zwischen den Punkten:

Jij kj

ikj i k

p p

r r

1. Vorteil dieser Definition der Kategoriendistanz: unmittelbar einsichtig.2. Nachteil der Definition: läßt sich nicht gut mit dem Chi-Quadrat in

Verbindung bringen, keine Verteilungsäquivalenz (wird gleich erklärt)

Page 10: Multivariate Statistische Verfahren Korrespondenzanalyse Universität Mainz Institut für Psychologie WS 2010/2011 Uwe Mortensen

Chi-Quadrat-Distanzen (zwischen Zeilenkategorien)

1/22

2

1

1 heißt -Distanz

zwischen den Zeilenkategorien und .

Jij kj

ikj j i k

i k

p p

c r r

R R

Unterschied zur Euklidischen Distanz zwischen den Kategorien:

1 1Gewichtung der Summanden mit bzw. .

j ic r

1/22

2

1

1 heißt -Distanz

zwischen den Spaltenkategorien und .

Iij kj

jli i j l

j l

p p

r c c

C C

Die Chi-Quadrat-Distanzen definieren eine „Chi-Quadrat-Metrik“

Page 11: Multivariate Statistische Verfahren Korrespondenzanalyse Universität Mainz Institut für Psychologie WS 2010/2011 Uwe Mortensen

Verteilungsäquivalenz

Fasst man Zeilenkategorien mit identischen Häufigkeitsverteilungen zusammen, so ändern sich die Chi-Quadrat-Distanzen zwischen den Spaltenkategorien nicht.

Fasst man Spaltenkategorien mit identischen Häufigkeitsverteilungen zusammen, so ändern sich die Chi-Quadrat-Verteilungen zwischen den Zeilenkategorien nicht.

Der Ausdruck „Chi-Quadrat-Distanz“ ist ein wenig irreführend, weil keine direkte Beziehung zum Chi-Quadrat besteht; die folgenden Betrachtungen zeigen aber eine indirekte Beziehung auf.

Page 12: Multivariate Statistische Verfahren Korrespondenzanalyse Universität Mainz Institut für Psychologie WS 2010/2011 Uwe Mortensen

Ansatz I

2

22

1 1

Das einer Tabelle ist durch

( ),

definiert.

I J ijij i jij

i j ij

n n n nn

Nn

repräsentiert Abhängigkeit zwischen i-ter Zeilen- und j-ter Spaltenkategorie!

(Der "zufällige" Anteil wird von subtrahiert etc)

ijijij

ij

ij ij

n nx

n

n n

0 reelle, positive Zahl,

nach oben nicht begrenzt ( für 0)

ijijij

ij

ijij

n nx

n

x n

Page 13: Multivariate Statistische Verfahren Korrespondenzanalyse Universität Mainz Institut für Psychologie WS 2010/2011 Uwe Mortensen

Ansatz II

1/2 '

Eine Singularwertzerlegung der Matrix ( ) ist stets möglich:

die Anzahl der latenten Variablen.

ij

r r r

X x

X Q P

r

1/2111 12 111 12 1

1/221 22 221 22 2 1/2 2

1 21 2

0 0

0 0, ,

rr

rrr r

J J JrI I Ir

p p pq q q

p p pq q qQ P

p p pq q q

1/2

0 0 r

Page 14: Multivariate Statistische Verfahren Korrespondenzanalyse Universität Mainz Institut für Psychologie WS 2010/2011 Uwe Mortensen

Ansatz III

1/2 ' ist eine Hauptachsentransformation, -

die erste Achse hat maximale Varianz, die zweite hat die 2-größte, etcr r rX Q P

Die latenten Variablen sind unabhängig voneinander und erzeugen

deshalb unabhängige Varianzkomponenten, die additiv die Gesamtvarianz

ergeben.

2

2

Eine Kontingenztabelle wird aber durch ein charakterisiert,

- kann man die latenten Variablen so skalieren, dass sie voneinander

unabhängige -Komponenten repräsentieren?

Zeilenskalenwerte:

Spaltenskalenwerte:

kik ik

i

kjk jk

j

f qn

g pn

Ja!

Page 15: Multivariate Statistische Verfahren Korrespondenzanalyse Universität Mainz Institut für Psychologie WS 2010/2011 Uwe Mortensen

Ansatz III

Page 16: Multivariate Statistische Verfahren Korrespondenzanalyse Universität Mainz Institut für Psychologie WS 2010/2011 Uwe Mortensen

Zusammenfassung:

Das Chi-Quadrat kann in voneinander unabhängige, additive Komponenten zerlegt werden

Die Komponenten werden so bestimmt, dass sie voneinander unabhängigen Urteilsdimensionen etc entsprechen.

Dazu werden die Residuen einer Singularwertzerlegung unterzogen:(i) Komponenten für die Zeilenkategorien, (ii) Komponenten für die Spaltenkategorien. Die beiden Klassen von Komponenten beziehen sich auf die gleichen latenten Variablen!

Die SVD-Koordinaten für die Kategorien werden so skaliert, dass die euklidischen Distanzen zwischen den Punkten (Zeilenpunkte einerseits, Spaltenpunkte andererseits) den Chi-Quadrat-Distanzen zwischen den Kategorien entsprechen.

Die Distanzen zwischen Zeilen- und Spaltenpunkten sind nicht erklärt; die Ähnlichkeit wird über das Skalarprodukt ausgedrückt.

Page 17: Multivariate Statistische Verfahren Korrespondenzanalyse Universität Mainz Institut für Psychologie WS 2010/2011 Uwe Mortensen

Multiple Korrespondenzanalyse: Anwendung der KA auf Fragebögen, Tests, etc

Testtheorie und (0, 1)-Items (Aufgaben: gelöst- nicht gelöst, Meinungsitem: zugestimmt – nicht zugestimmt, etc

Problem: Anwendung der Faktorenanalyse bzw PCA auf (0, 1)-Daten führt oft zu Pseudorepäsentationen der unterliegenden latenten Variablen: Der Produkt-Moment-Korrelationskoeffizient wird zum Phi-Koeffizienten mit der Implikation, dass unterschiedliche Schwierigkeiten semantische Faktoren vortäuschen. Die Faktorenanalyse von (0, 1)-Daten ist äußerst problematisch.

Die multiple Korrespondenztheorie liefert einen Ausweg:

Page 18: Multivariate Statistische Verfahren Korrespondenzanalyse Universität Mainz Institut für Psychologie WS 2010/2011 Uwe Mortensen

Multiple Korrespondenzanalyse: Anwendung der KA auf Fragebögen, Tests, etc

Items

Personen

Antwortkategorien

Page 19: Multivariate Statistische Verfahren Korrespondenzanalyse Universität Mainz Institut für Psychologie WS 2010/2011 Uwe Mortensen

Multiple Korrespondenzanalyse: Anwendung der KA auf Fragebögen, Tests, etc

Aus der Indikatormatrix oder –tabelle entsteht eine Kontingenztabelle, die aus Teilkontingenztabellen aufgebaut ist: jedes Item mit jedem, jede Angtwortkategorie mit jeder. Das Resultat ist eine Burt-Matrix (nach Sir Cyril Burt, 1950)

Page 20: Multivariate Statistische Verfahren Korrespondenzanalyse Universität Mainz Institut für Psychologie WS 2010/2011 Uwe Mortensen

Beispiel (Burt, 1950)

Items

Items

Antwortkategorien

Haar

Augen

Kopf

Statur

Page 21: Multivariate Statistische Verfahren Korrespondenzanalyse Universität Mainz Institut für Psychologie WS 2010/2011 Uwe Mortensen

Korrespondenz der Klassifikationen auf OCT-Basis (RMG) und auf histologischer Basis.

leichtere

schwerere

Form

Entzündung(kein Krebs)

(OCT = Optical Coherence Tomography)

0 = keine Erkrankung, CIN 21 Krebs, leichte Form, CIN 22 Krebs, etwas schwerere Form, CIN 23 Krebs, schwerere Form, CIN 10 kein Krebs, Entzündung

Page 22: Multivariate Statistische Verfahren Korrespondenzanalyse Universität Mainz Institut für Psychologie WS 2010/2011 Uwe Mortensen

Identifikation vonEmotionen imGesichtsausdruck

Happiness Nohappiness

AngerDisgust

Fear

Surprise

Page 23: Multivariate Statistische Verfahren Korrespondenzanalyse Universität Mainz Institut für Psychologie WS 2010/2011 Uwe Mortensen

Beispiel I

Page 24: Multivariate Statistische Verfahren Korrespondenzanalyse Universität Mainz Institut für Psychologie WS 2010/2011 Uwe Mortensen

Beispiel II

Marascuilo & McMcSweeny (1977):

500 Männer verschiedenen Glaubens wurden nach ihrer Meinung zurAbtreibung befragt:

Page 25: Multivariate Statistische Verfahren Korrespondenzanalyse Universität Mainz Institut für Psychologie WS 2010/2011 Uwe Mortensen

Beispiel III

Genetische Untersuchungen: Haar- und Augenfarbe schottischer Kinder(Tocher 1908, Maung 1941)

Page 26: Multivariate Statistische Verfahren Korrespondenzanalyse Universität Mainz Institut für Psychologie WS 2010/2011 Uwe Mortensen

Beispiel V Ansichten zur Behandlung von Strafgefangenen in den USA

Page 27: Multivariate Statistische Verfahren Korrespondenzanalyse Universität Mainz Institut für Psychologie WS 2010/2011 Uwe Mortensen

Beispiel VI Trends in Studienfächern (USA)

Page 28: Multivariate Statistische Verfahren Korrespondenzanalyse Universität Mainz Institut für Psychologie WS 2010/2011 Uwe Mortensen

Beispiel VI Trends in Studienfächern – Doktorgrade (USA)

Page 29: Multivariate Statistische Verfahren Korrespondenzanalyse Universität Mainz Institut für Psychologie WS 2010/2011 Uwe Mortensen

Beispiel VI Trends in Studienfächern – Doktorgrade (USA)

Page 30: Multivariate Statistische Verfahren Korrespondenzanalyse Universität Mainz Institut für Psychologie WS 2010/2011 Uwe Mortensen

Beispiel VII Selbstmorde in Deutschland 1974 - 1977

Page 31: Multivariate Statistische Verfahren Korrespondenzanalyse Universität Mainz Institut für Psychologie WS 2010/2011 Uwe Mortensen

Beispiel VII Selbstmorde in Deutschland 1974 - 1977

Page 32: Multivariate Statistische Verfahren Korrespondenzanalyse Universität Mainz Institut für Psychologie WS 2010/2011 Uwe Mortensen

Beispiel VII Selbstmorde in Deutschland 1974 - 1977

Altergruppe und Methode – nach Geschlechtern getrennt

Page 33: Multivariate Statistische Verfahren Korrespondenzanalyse Universität Mainz Institut für Psychologie WS 2010/2011 Uwe Mortensen

Beispiel VII Selbstmorde in Deutschland 1974 - 1977

Page 34: Multivariate Statistische Verfahren Korrespondenzanalyse Universität Mainz Institut für Psychologie WS 2010/2011 Uwe Mortensen

Danke für Ihre Aufmerksamkeit!