Multivariate Statistische Verfahren Korrespondenzanalyse Universität Mainz Institut für...

Preview:

Citation preview

Multivariate Statistische VerfahrenKorrespondenzanalyse

Universität Mainz Institut für Psychologie

WS 2010/2011

Uwe Mortensen

Einführung I

Es werden Kontingenztabellen betrachtet: die Abhängigkeiten zwischen Zeilen- und Spaltenkategorien werden zunächst durch einen Chi-Quadrat-Wert repräsentiert. Ist er signifikant,geht man davon aus, dass Abhängigkeiten existieren, andernfalls behält man die Nullhypothese (es existieren keine Abhängigkeiten) bei.

Westphal (1931) in „Der Nervenarzt“:

Einführung II

Ernst Kretschmer (1888 – 1964):

„Körperbau und Charakter“ (1921)

1. Leptosom (dünn, hager) – schizothym – schizoid – schiziphren2. Pyknisch (rund und mollig) – zyklothym – zykloid – manisch-depressiv3. Athletisch (kräfig, muskulär) – barykinetisch – epileptoid - epileptisch

Widerspricht Westphals Tabelle der Kretschmerschen Theorie?

Ein signifikanter Chi-Quadrat-Wert gibt auf diese Frage keine Antwort;Die Häufigkeiten scheinen nicht auf Kretschmers Theorie zu weisen, und ein signifikanter Chi-Quadrat-Wert sagt nur, dass wahrscheinlich Abhängigkeiten zwischen Körperbau und „Charakter“ bestehen.

Einführung III

Intuitive Betrachtung: sollte Kretschmers Theorie mit den Daten kompatibel sein, so müssen Skalen für den Körperbau existieren, auf denen sich die Körperbautypen nach Maßgabe ihrer „Ähnlichkeit“ anordnen lassen, und analog dazu Skalen, nach denen sich die Erkrankungen nach Maßgabe ihrer Ähnlichkeiten anordnen lassen.

Weiter muß zwischen den beiden Skalenklassen eine Beziehung bestehen derart, dass die die Beziehungen zwischen Körperbau und Erkrankung abgebildet werden.

Die Beziehung zwischen den Kategorien Körperbau und Art der Erkrankung wird nicht perfekt sein: Die Existenz von Mischtypen wirkt wie „Rauschen“

Aber kann eine Beziehung der Form

f(Erkrankung) = g(Körperbau) + zuf. Fehler

überhaupt angenommen werden, wenn man Häufigkeiten erklären will?(f und g numerische Werte = Skalenwerte)

Einführung IV

1 1 2 2

1

1

Ein zur Faktorenanalyse analoger Ansatz wäre

,

wobei die , , Skalenwerte der i-ten Zeilenkategorie,

die , , Skalenwerte der j-ten Spaltenkategorie sind

und ei

ij i j i j ir jr ij

i ir

j jr

ij

n a b a b a b e

a a

b b

e

n zufälliger Fehler ist.

1 1 2 2

Das Problem mit dem Ansatz:

,

(i) ist auf einen bestimmten Bereich von Werten beschränkt

(0 1)

(ii) die Verteilung der ist nicht von der Form

ij i j i j ir jr ij

ij

ij

ij

n a b a b a b e

n

n

Nn

Konstante + zufällige Variable!

Beispiel: Binomialverteilung

!( ) (1 )

!( )!

eine Konstante, eine zufällige Veränderliche!

k n knP X k p p

k n k

Also:1. Beziehungen zwischen Häufigkeiten in einer Kontingenztabelle durch

latente Variablen derart, dass2. Das Chi-Quadrat der Tabelle durch latente Variablen erklärt wird!

Distanzen zwischen Zeilen- bzw. Spaltenkategorien

Häufigkeitsverteilungen für die Körperbautypen

Profile für die Körperbautypen: Häufigkeiten, geteilt durch Randsummen

Die absolute Häufigkeit, mit der ein Körperbautyp vorkommt, wirkt verzerrend auf die Wahrnehmung der Unterschiedlichkeit der Verteilungen

Elemente der Profile entsprechen bedingten Wahrscheinlichkeiten. Relativierung in Bezug auf Randsummen wirkt entzerrend auf Darstellung der Unterschiede.

Definition von Profilen

1 21

, , , , J

ii i iJ i ij i

j

nn n n n n r

N

1 21

, , , , I

jj j Ij j ij j

i

nn n n n n c

N

1 1

, I J

ijij ij ij

i j

nn p N n

N

ii

nr

N

jj

nc

N

1 2 1 2Zeilenprofile: ( , , , ) ( , , , )i i iJ i i iJ

i i i i i i

p p p n n n

r r r n n n

1 2 1 2Spaltenprofile: ( , , , ) ( , , , )j j Ij j j jI

j j j j j j

p p p n n n

c c c n n n

Zeilen‘‘masse‘‘

Spalten“masse“

Distanzen zwischen Zeilenkategorien

1 2

Erster Ansatz:

Betrachte Zeilenprofile ( , , , ) als Vektoren: i i iJ

i i i

p p p

r r r

1/22

1

Endpunkte repräsentieren die Zeilenkategorien, Distanz zwischen

den Kategorien =Euklidische Distanz zwischen den Punkten:

Jij kj

ikj i k

p p

r r

1. Vorteil dieser Definition der Kategoriendistanz: unmittelbar einsichtig.2. Nachteil der Definition: läßt sich nicht gut mit dem Chi-Quadrat in

Verbindung bringen, keine Verteilungsäquivalenz (wird gleich erklärt)

Chi-Quadrat-Distanzen (zwischen Zeilenkategorien)

1/22

2

1

1 heißt -Distanz

zwischen den Zeilenkategorien und .

Jij kj

ikj j i k

i k

p p

c r r

R R

Unterschied zur Euklidischen Distanz zwischen den Kategorien:

1 1Gewichtung der Summanden mit bzw. .

j ic r

1/22

2

1

1 heißt -Distanz

zwischen den Spaltenkategorien und .

Iij kj

jli i j l

j l

p p

r c c

C C

Die Chi-Quadrat-Distanzen definieren eine „Chi-Quadrat-Metrik“

Verteilungsäquivalenz

Fasst man Zeilenkategorien mit identischen Häufigkeitsverteilungen zusammen, so ändern sich die Chi-Quadrat-Distanzen zwischen den Spaltenkategorien nicht.

Fasst man Spaltenkategorien mit identischen Häufigkeitsverteilungen zusammen, so ändern sich die Chi-Quadrat-Verteilungen zwischen den Zeilenkategorien nicht.

Der Ausdruck „Chi-Quadrat-Distanz“ ist ein wenig irreführend, weil keine direkte Beziehung zum Chi-Quadrat besteht; die folgenden Betrachtungen zeigen aber eine indirekte Beziehung auf.

Ansatz I

2

22

1 1

Das einer Tabelle ist durch

( ),

definiert.

I J ijij i jij

i j ij

n n n nn

Nn

repräsentiert Abhängigkeit zwischen i-ter Zeilen- und j-ter Spaltenkategorie!

(Der "zufällige" Anteil wird von subtrahiert etc)

ijijij

ij

ij ij

n nx

n

n n

0 reelle, positive Zahl,

nach oben nicht begrenzt ( für 0)

ijijij

ij

ijij

n nx

n

x n

Ansatz II

1/2 '

Eine Singularwertzerlegung der Matrix ( ) ist stets möglich:

die Anzahl der latenten Variablen.

ij

r r r

X x

X Q P

r

1/2111 12 111 12 1

1/221 22 221 22 2 1/2 2

1 21 2

0 0

0 0, ,

rr

rrr r

J J JrI I Ir

p p pq q q

p p pq q qQ P

p p pq q q

1/2

0 0 r

Ansatz III

1/2 ' ist eine Hauptachsentransformation, -

die erste Achse hat maximale Varianz, die zweite hat die 2-größte, etcr r rX Q P

Die latenten Variablen sind unabhängig voneinander und erzeugen

deshalb unabhängige Varianzkomponenten, die additiv die Gesamtvarianz

ergeben.

2

2

Eine Kontingenztabelle wird aber durch ein charakterisiert,

- kann man die latenten Variablen so skalieren, dass sie voneinander

unabhängige -Komponenten repräsentieren?

Zeilenskalenwerte:

Spaltenskalenwerte:

kik ik

i

kjk jk

j

f qn

g pn

Ja!

Ansatz III

Zusammenfassung:

Das Chi-Quadrat kann in voneinander unabhängige, additive Komponenten zerlegt werden

Die Komponenten werden so bestimmt, dass sie voneinander unabhängigen Urteilsdimensionen etc entsprechen.

Dazu werden die Residuen einer Singularwertzerlegung unterzogen:(i) Komponenten für die Zeilenkategorien, (ii) Komponenten für die Spaltenkategorien. Die beiden Klassen von Komponenten beziehen sich auf die gleichen latenten Variablen!

Die SVD-Koordinaten für die Kategorien werden so skaliert, dass die euklidischen Distanzen zwischen den Punkten (Zeilenpunkte einerseits, Spaltenpunkte andererseits) den Chi-Quadrat-Distanzen zwischen den Kategorien entsprechen.

Die Distanzen zwischen Zeilen- und Spaltenpunkten sind nicht erklärt; die Ähnlichkeit wird über das Skalarprodukt ausgedrückt.

Multiple Korrespondenzanalyse: Anwendung der KA auf Fragebögen, Tests, etc

Testtheorie und (0, 1)-Items (Aufgaben: gelöst- nicht gelöst, Meinungsitem: zugestimmt – nicht zugestimmt, etc

Problem: Anwendung der Faktorenanalyse bzw PCA auf (0, 1)-Daten führt oft zu Pseudorepäsentationen der unterliegenden latenten Variablen: Der Produkt-Moment-Korrelationskoeffizient wird zum Phi-Koeffizienten mit der Implikation, dass unterschiedliche Schwierigkeiten semantische Faktoren vortäuschen. Die Faktorenanalyse von (0, 1)-Daten ist äußerst problematisch.

Die multiple Korrespondenztheorie liefert einen Ausweg:

Multiple Korrespondenzanalyse: Anwendung der KA auf Fragebögen, Tests, etc

Items

Personen

Antwortkategorien

Multiple Korrespondenzanalyse: Anwendung der KA auf Fragebögen, Tests, etc

Aus der Indikatormatrix oder –tabelle entsteht eine Kontingenztabelle, die aus Teilkontingenztabellen aufgebaut ist: jedes Item mit jedem, jede Angtwortkategorie mit jeder. Das Resultat ist eine Burt-Matrix (nach Sir Cyril Burt, 1950)

Beispiel (Burt, 1950)

Items

Items

Antwortkategorien

Haar

Augen

Kopf

Statur

Korrespondenz der Klassifikationen auf OCT-Basis (RMG) und auf histologischer Basis.

leichtere

schwerere

Form

Entzündung(kein Krebs)

(OCT = Optical Coherence Tomography)

0 = keine Erkrankung, CIN 21 Krebs, leichte Form, CIN 22 Krebs, etwas schwerere Form, CIN 23 Krebs, schwerere Form, CIN 10 kein Krebs, Entzündung

Identifikation vonEmotionen imGesichtsausdruck

Happiness Nohappiness

AngerDisgust

Fear

Surprise

Beispiel I

Beispiel II

Marascuilo & McMcSweeny (1977):

500 Männer verschiedenen Glaubens wurden nach ihrer Meinung zurAbtreibung befragt:

Beispiel III

Genetische Untersuchungen: Haar- und Augenfarbe schottischer Kinder(Tocher 1908, Maung 1941)

Beispiel V Ansichten zur Behandlung von Strafgefangenen in den USA

Beispiel VI Trends in Studienfächern (USA)

Beispiel VI Trends in Studienfächern – Doktorgrade (USA)

Beispiel VI Trends in Studienfächern – Doktorgrade (USA)

Beispiel VII Selbstmorde in Deutschland 1974 - 1977

Beispiel VII Selbstmorde in Deutschland 1974 - 1977

Beispiel VII Selbstmorde in Deutschland 1974 - 1977

Altergruppe und Methode – nach Geschlechtern getrennt

Beispiel VII Selbstmorde in Deutschland 1974 - 1977

Danke für Ihre Aufmerksamkeit!

Recommended