78
Multivariate Statistische Verfahren Universität Mainz Institut für Psychologie WS 2011/2012 Uwe Mortensen

Multivariate Statistische Verfahren Universität Mainz Institut für Psychologie WS 2011/2012 Uwe Mortensen

Embed Size (px)

Citation preview

Page 1: Multivariate Statistische Verfahren Universität Mainz Institut für Psychologie WS 2011/2012 Uwe Mortensen

Multivariate Statistische Verfahren

Universität Mainz Institut für Psychologie

WS 2011/2012

Uwe Mortensen

Page 2: Multivariate Statistische Verfahren Universität Mainz Institut für Psychologie WS 2011/2012 Uwe Mortensen

Multivariate Verfahren 2

Wozu multivariate Statistik, und was ist das überhaupt?

Page 3: Multivariate Statistische Verfahren Universität Mainz Institut für Psychologie WS 2011/2012 Uwe Mortensen

Multivariate Verfahren 3

Georg Wilhelm Friedrich Hegel

Das Wahre ist das Ganze.

Das Ganze aber ist nur das durch seine Entwicklung sich vollendende Wesen.

Es ist von dem Absoluten zu sagen, dass es wesentlich Resultat, dass es erst am Ende das ist, was es in Wahrheit ist; und hierin eben besteht seine Natur, Wirkliches, Subjekt oder Sichselbstwerden zu sein.

(Aus der Vorrede zur Phänomenologie des Geistes)

27. August 1770 – 14.November 1831

Page 4: Multivariate Statistische Verfahren Universität Mainz Institut für Psychologie WS 2011/2012 Uwe Mortensen

Multivariate Verfahren 4

„Variablen“

„objektive“ „subjektive“

„physikalische“ Umgebung

Sozio-ökonomische Bedingung

Physiologische Größen

etc

Psychischer Zustand

Fähigkeit

Ansichten, Meinungen

etc

Page 5: Multivariate Statistische Verfahren Universität Mainz Institut für Psychologie WS 2011/2012 Uwe Mortensen

Multivariate Verfahren 5

Verfahren

explorieren „schließen“ Klassifizieren/diskriminieren

„Strukturen“

Page 6: Multivariate Statistische Verfahren Universität Mainz Institut für Psychologie WS 2011/2012 Uwe Mortensen

Multivariate Verfahren 6

0 1 1 2 2 p py b b x b x b x e

Multiple Regression

Faktorenanalyse/Hauptachsentransformation

Diskrimination-Klassifikation

KanonischeKorrelation

Korrespondenzanalyse(Kontingenztabellen)

Page 7: Multivariate Statistische Verfahren Universität Mainz Institut für Psychologie WS 2011/2012 Uwe Mortensen

Multivariate Verfahren 7

2. FaktorenanalyseZiel: Die Beziehungen (Kovarianzen zwischen einer größeren Anzahl gemessener Variablen durch die Wirkung einer kleineren Anzahl „latenter“, voneinander unabhängiger Variablen zu erklären.

3. DiskriminanzanalyseZiel: Suche nach einer Gewichtung beobachtbarer Merkmale („Symptome“) zum Zweck optimaler Kategorisierung.

4. Kanonische KorrelationZiel: Die Kanonische Korrelation ist eine Verallgemeinerung der multiplen Regression; es sollen die latenten Strukturen zweier verschiedener Variablensätze (oder des gleichen Variablensatzes in einer Vorher-Nachher-Messung) miteinander verglichen werden.

Überblick

5. KorrespondenzanalyseZiel: Die Identifikation latenter Strukturen, die die Zusammenhänge in einer Kontingenztabelle erklären („Faktorenanalyse von Häufigkeiten“)

1. Multiple Regression: Gegeben ist eine Menge von etwa p Prädiktorvariablen, anhand derer eine abhängige Variable y „vorhergesagt“ werden soll

Page 8: Multivariate Statistische Verfahren Universität Mainz Institut für Psychologie WS 2011/2012 Uwe Mortensen

Multivariate Verfahren 8

Multiple Regression

0 1 1 2 2 , 1, ,i i i p ip iY b b X b X b X e i m

1

2

2

Studienerfolg (Abschlußnote)

Abiturnote

Ergebnis eines Mathe-Tests

Ergebnis Motivationstest

Ergebnis Ausdauertest

i

i

i

i

ip

Y

X

X

X

X

0 1, , , freie Parameter, die so

zu bestimmen sind, dass Vorhersage

möglichst fehlerfrei.

pb b b

0 1Bestimmung der , , , :

Methode der Kleinsten Quadrate.

pb b b

2

0 1 0 1 11

( , , , )

soll als Funktion der freien Parameter minimiert werden.

m

p i i p ipi

Q b b b Y b b X b X

Page 9: Multivariate Statistische Verfahren Universität Mainz Institut für Psychologie WS 2011/2012 Uwe Mortensen

Multivariate Verfahren 9

Multiple Regression

21 21 1 1 2 1

1 1 1 1

21 22 1 2 2 2

1 1 1 1

21 21 2

1 1 1 1

m m m m

pi i i i i i ipi i i i

m m m m

pi i i i i i ipi i i i

m m m m

pi ip i ip i ip ipi i i i

y x b x b x x b x x

y x b x x b x b x x

y x b x x b x x b x

1 20 1 2 ppb Y b X b X b X

Gleichungen in

Unbekannten

p p

Page 10: Multivariate Statistische Verfahren Universität Mainz Institut für Psychologie WS 2011/2012 Uwe Mortensen

Multivariate Verfahren 10

Multiple Regression

0

1 21 12 1

1 22 21 2

1 221 2

Standardisierung:

z , jiji

i ijy j

py p

py p

pyp p p

X xY yz

s s

r r r

r r r

r r r

jj j

y

sbs

Idealfall: Prädiktoren sind unkorreliert:

0 für alle . Dann folgt

.

ij

j yj

r i j

r

Was bedeutet es, wenn Prädiktoren

korreliert sind?

Gelegentlich: Suppressoreffekte - ein Prädiktor

korreliert zwar nicht mit dem Kriterium, aber mit

anderen Prädiktoren und unterdrückt irrelevante

Aspekte in den Prädiktoren.

Page 11: Multivariate Statistische Verfahren Universität Mainz Institut für Psychologie WS 2011/2012 Uwe Mortensen

Multivariate Verfahren 11

Multiple Regression

1

Welchen Effekt haben korrelierende Prädiktoren auf die Eigenschaften

der Schätzungen ( , , ) ' der Regressionsgewichte, d.h. auf deren

Varianzen und Kovarianzen?

p

Insbesondere hohe Korrelationen bewirken eine große

Varianz der Schätzungen sowie negative Kovarianzen zwischen

den Schätzungen. (Dieser Sachverhalt wird noch explizit gemacht!)

Korrelationen zwischen den Prädiktoren Multikollinearitäten

1 21 12 1

1 22 21 2

1 221 2

py p

py p

pyp p p

r r r

r r r

r r r

1

Nicht alle 0;

existiert stets eine Lösung ( , , ) '?

sind Lösungen eindeutig?

ij

p

r

Page 12: Multivariate Statistische Verfahren Universität Mainz Institut für Psychologie WS 2011/2012 Uwe Mortensen

Multivariate Verfahren 12

Vorbereitende Betrachtungen zur Motivation

Ein simples Beispiel: Körpergewicht als Funktion der Körperlänge:

Das übliche Regressionsmodell:K-Gewicht = a K-Länge + b + e e = „Fehler“ (unabhängig von der K-Länge)

Aber das Gewicht hängt sicher noch von weiteren Faktoren ab:- Stoffwechsel (genetisch, epigenetisch. etc)- Bewegung- Essgewohnheiten (kulturelle, psychische Einflüsse

Alle diese Effekte (plus reine Messfehler, etwa beim Ablesen der Waage) definierenden „Fehler“.

Gibt es eine Möglichkeit, die physische Erscheinung eines Menschen durch eine minimale Menge voneinander unabhängiger Eigenschaften auszudrücken?

Page 13: Multivariate Statistische Verfahren Universität Mainz Institut für Psychologie WS 2011/2012 Uwe Mortensen

Multivariate Verfahren 13

Vorbereitende Betrachtungen zur Motivation

Übergang von korrelierenden Koordinaten (Körperlänge, Körpergewicht) zu nicht korrelierenden Koordinaten (Körpergrösse, Stoffwechsel)

Formal: Koordinatentransformation bzw. Rotation des ursprünglichen Koordinatensystems!

Page 14: Multivariate Statistische Verfahren Universität Mainz Institut für Psychologie WS 2011/2012 Uwe Mortensen

Multivariate Verfahren 14

Vektoren und Matrizen I

Vektoren:

1

21 2

1 2

-dimensionaler Vektor:

, gestürzt oder transponiert: ' ( , , , )

( , , , ) '

n

n

n

n

x

xx x x x x

x

x x x x

1

21 2 1 1 2 2

Skalarprodukt zweier Vektoren:

x'y = ( , , , ) ,n n n

n

y

yx x x x y x y x y x y

y

Page 15: Multivariate Statistische Verfahren Universität Mainz Institut für Psychologie WS 2011/2012 Uwe Mortensen

Multivariate Verfahren 15

1

2

1 2 1 11

Der Korrelationskoeffizient ist ein Skalarprodukt zweier Vektoren:

( ) ( )1 1 1= = ( , , , ) ( )

y

myi i

xy x x xm x y xm ymi x y

ym

z

zx x y yr z z z z z z z

m s s m m

z

Vektoren und Matrizen I

1 21 12 1

1 22 21 2

1 221 2

py p

py p

pyp p p

r r r

r r r

r r r

1

2

11 12 1 1( , , , ) 'p y

p

r r r r

Page 16: Multivariate Statistische Verfahren Universität Mainz Institut für Psychologie WS 2011/2012 Uwe Mortensen

Multivariate Verfahren 16

Vektoren und Matrizen I

1

2

11 12 1 1( , , , ) 'p y

p

r r r r

111 12 1 1

21 22 2 2 2

1 2

, , ,

, , ,

, , ,

p y

p y

p p pp ypp

r r r r

r r r r

r r r r

Matrix Vektor

R ����������������������������

Page 17: Multivariate Statistische Verfahren Universität Mainz Institut für Psychologie WS 2011/2012 Uwe Mortensen

Multivariate Verfahren 17

Vektoren und Matrizen I

Vektoren:

1

221 2 1 1 2 2

Länge eines Vektors:

x'x = ( , , , ) (Pythagoras)

Länge = ' .

n n n

n

x

xx x x x x x x x x x

x

x x x

1 1

2 2

Multiplikation mit einem Skalar (= reelle Zahl):

x =

n n

x x

x x

x x

Page 18: Multivariate Statistische Verfahren Universität Mainz Institut für Psychologie WS 2011/2012 Uwe Mortensen

Multivariate Verfahren 18

Vektoren und Matrizen I

Vektoren:

1

Normierung eines Vektors auf die Länge 1:

Multiplikation mit 1/ .x x

22 22 2 2 2 1 2

1 2 2 2 2

2

2 2 21 22 2

, 1, ,

1 = ( ) 1.

ii

nn

n

xy i n

x

xx xy y y y

x x x

xx x x

x x

Page 19: Multivariate Statistische Verfahren Universität Mainz Institut für Psychologie WS 2011/2012 Uwe Mortensen

Multivariate Verfahren 19

Vektoren und Matrizen I

Standardisierung:

1 2

2 2 2 2 2 2 21 2 1 22

22

, 1, , ; Vektor ( , , , ) '

1( ) ( ) ( )

1 s = .

1d.h. ' 1. ( Maximalwert eines Korrelationskoeffizienten)

ii m

x

n mx

xx

x xz i n z z z z

s

z z z z x x x x x xs

m ms

z zm

Page 20: Multivariate Statistische Verfahren Universität Mainz Institut für Psychologie WS 2011/2012 Uwe Mortensen

Multivariate Verfahren 20

'cos (Folgerung aus dem Kosinussatz)

x y

x y

0

Orthogonale Vektoren:

/ 2 (= 90 ) cos 0 ' 0.

und heißen dann 'orthogonal' (rechtwinklig),

- sie stehen senkrecht aufeinander.

x y

x y

Skalarprodukt und der Winkel zwischen den Vektoren

Vektoren und Matrizen I

Anmerkung: Repräsentiert man Merkmale durch

Vektoren, so geben die Längen und die Winkel zwischen ihnen

Hinweise auf die Korrelationen zwischen ihnen!

Page 21: Multivariate Statistische Verfahren Universität Mainz Institut für Psychologie WS 2011/2012 Uwe Mortensen

Multivariate Verfahren 21

Bestimmung der Parameter IIIa

Wechseln zu Vektoren und Matrizen !

Page 22: Multivariate Statistische Verfahren Universität Mainz Institut für Psychologie WS 2011/2012 Uwe Mortensen

Multivariate Verfahren 22

Faktorenanalyse – Hauptachsentransformation (PCA) als Approximation

0 1 1 2 2 , i i i n in ijY b b X b X b X e r n

1 1 2 2ij j i j i rj ir ijX a F a F a F e

(multiple Regression)

(Faktorenmodell)

1 2, , , hypothetisch, paarweise unabhängig.i i irF F F

Page 23: Multivariate Statistische Verfahren Universität Mainz Institut für Psychologie WS 2011/2012 Uwe Mortensen

Multivariate Verfahren 23

Page 24: Multivariate Statistische Verfahren Universität Mainz Institut für Psychologie WS 2011/2012 Uwe Mortensen

Multivariate Verfahren 24

Beispiel: Evaluation einer Vorlesung

Page 25: Multivariate Statistische Verfahren Universität Mainz Institut für Psychologie WS 2011/2012 Uwe Mortensen

Multivariate Verfahren 25

Zusammenfassung der Daten in einer Matrix

11 12 1

21 22 2

1 2 2

, , ,

, , ,

, , ,

n

n

m m m

x x x

x x xX

x x x

Zeilen: Personen

Fragen: Spalten

11 12 1

21 22 2

1 2 2

, r , , r

, r , , r, mit (Symmetrie)

, r , , r

n

nij ji

n n n

r

rR r r

r

Korrelationen:

Page 26: Multivariate Statistische Verfahren Universität Mainz Institut für Psychologie WS 2011/2012 Uwe Mortensen

Multivariate Verfahren 26

Faktorenanalyse: Hauptkomponenten

Page 27: Multivariate Statistische Verfahren Universität Mainz Institut für Psychologie WS 2011/2012 Uwe Mortensen

Multivariate Verfahren 27

(WS 2003/2004)

Faktorenanalyse: Hauptkomponenten

Start- bzw. Standardlösung Rotation (Interpretation)

Page 28: Multivariate Statistische Verfahren Universität Mainz Institut für Psychologie WS 2011/2012 Uwe Mortensen

Multivariate Verfahren 28

WS 2004/2005

Page 29: Multivariate Statistische Verfahren Universität Mainz Institut für Psychologie WS 2011/2012 Uwe Mortensen

Multivariate Verfahren 29

1 1 2 2ij j i j i rj ir ijX a F a F a F e

Das Faktorenmodell:

Weiteres zum Faktorenmodell: die PCA-Approximation

1 1Die , , sowie die , , , sind unbekannte

(= "freie") Parameter, - wie kann man sie bestimmen, und wie

werden sie interpretiert?

i rj i ir ija a F F e

i – Personj – Test, gemessene Variable

Page 30: Multivariate Statistische Verfahren Universität Mainz Institut für Psychologie WS 2011/2012 Uwe Mortensen

Multivariate Verfahren 30

Approximation: die Hauptachsentransformation(Principal Component Analysis – PCA)

Plausibilitätsbetrachtungen I: zwei Variable – Körperlänge (X1) und Körpergewicht (X2)

2 1

1 2 = Körperlänge, = Körpergewicht

ijX X

X X

1 1 1 1

2 2 2 2

Deutung der Regression: beide Variablen

erfassen gemeinsam eine "latente" Variable :

=

L

X a L b e

X a L b e

2 2 1 2 1

1 2 1 2 1

, , a b b e e

a a a a a

Aber was ist mit dem Fehler ?

= "Größe"L

Page 31: Multivariate Statistische Verfahren Universität Mainz Institut für Psychologie WS 2011/2012 Uwe Mortensen

Multivariate Verfahren 31

Page 32: Multivariate Statistische Verfahren Universität Mainz Institut für Psychologie WS 2011/2012 Uwe Mortensen

Multivariate Verfahren 32

Plausibilitätsbetrachtungen II:

1. Abweichungen des Gewichts von der Vorhersage ist „zufällig“:

• Menge der Nahrungsaufnahme am Vortag• Zeitpunkt der Messung (vor oder nach dem Frühstück)• Sport am Vortag oder kein Sport• etc etc etc

2. Aber es gibt auch systematische Aspekte:

• Stoffwechselintensität• Sozioökonomischer Status, formale Bildung: Fritten versus haute cuisine• etc etc

unabhängig von der Körperlänge variieren

Page 33: Multivariate Statistische Verfahren Universität Mainz Institut für Psychologie WS 2011/2012 Uwe Mortensen

Multivariate Verfahren 33

1 11 1 12 2

2 21 1 22 2

Ansatz:

X a L a L

X a L a L

Plausibilitätsbetrachtungen III:

1 1 1 1

2 2 2 2

= X a L b e

X a L b e

Es war:

1

1 1 12 2

2 2 22 2

d.h. ,L L

b e a L

b e a L

Der „Fehler“ wird durch die zufällige Variation der latenten Variablen L2 erklärt.

(Hinweis: mehr als zwei latente Variable können hier nicht betrachtet werden, obwohl mehr als zwei solche Variable wirksam sein können. )

Page 34: Multivariate Statistische Verfahren Universität Mainz Institut für Psychologie WS 2011/2012 Uwe Mortensen

Multivariate Verfahren 34

1 11 1 12 2

2 21 1 22 2

Ansatz (Modell):

X a L a L

X a L a L

Bestimmung der Parameter I

Vorhersage der gemessenen Variablen anhand der (hypothetischen) latenten Variablen.

11 1 12 2 1

21 1 22 2 2

Ansatz:

b X b X L

b X b X L

Aber die latenten Variablen müssen ja anhand der gemessenen Variablen berechnet werden! Daher:

Frage:

Wie kann man die bestimmen?

Und in welcher Beziehung stehen die

und die zueinander?

jk

jk jk

b

b a

Die Antwort findet man leicht, wenn man den Marizenkalkül heranzieht!

Page 35: Multivariate Statistische Verfahren Universität Mainz Institut für Psychologie WS 2011/2012 Uwe Mortensen

Multivariate Verfahren 35

Bestimmung der Parameter II

1 2 1 2

11 12 11 12

21 22 21 22

1 2 1 21 2 1 2

1 2 1 2

, , und sind Vektoren, die zu Matrizen zusammengefasst

werden können:

, ,

, ,

, , ,, ,

, ,

i i i i

m m m m

X X L L

x x l l

x x l l

X X X L L Lx x l l

x x l l

11 12

21 22

Ebenso können die Koeffizienten zu einer

Matrix zusammengefasst werden:

,.

,

jkb

B

b bB

b b

Page 36: Multivariate Statistische Verfahren Universität Mainz Institut für Psychologie WS 2011/2012 Uwe Mortensen

Multivariate Verfahren 36

Bestimmung der Parameter III

11 1 12 2 1

21 1 22 2 2

Dann kann der Ansatz

in der einfachen Matrixgleichung

angeschrieben werden.

b X b X L

b X b X L

XB L

1 11 1 12 2

2 21 1 22 2

11 12

21 22

Für den Ansatz

ergibt sich analog

,, wobei .

,

X a L a L

X a L a L

a aX LA A

a a

Page 37: Multivariate Statistische Verfahren Universität Mainz Institut für Psychologie WS 2011/2012 Uwe Mortensen

Multivariate Verfahren 37

Bestimmung der Parameter IV

11 1 12 2 1

21 1 22 2 2

Es war

d.h.

.

b X b X L

b X b X L

XB L

1

2

Die Vektoren in werden als orthogonal

,0vorausgesetzt: ' .

0,

ist das Quadrat der Länge von .j j

L

L L

L

Dann folgt aber auch

' ' ' .

Damit weiß man: die Spaltenvektoren

von müssen die Eigenvektoren von '

sein, und die Eigenwerte sind gleich den

Quadraten der Längen von .i

i

L L B X XB

B X X

L

Damit ist das Problem, die latenten Variablen zu bestimmen, im Prinzip gelöst.

Page 38: Multivariate Statistische Verfahren Universität Mainz Institut für Psychologie WS 2011/2012 Uwe Mortensen

Multivariate Verfahren 38

Zusammenfassung der Überlegungen:

Gesucht: Voneinander unabhängige "latente" Variablen, die die

Beziehungen zwischen den beobachteten Variablen "erklären" -

die beobachteten Variablen als Linearkombinationen der latenten Variablen.

Latente Variablen: Matrix , die Spalten von enthalten die Werte

der Personen (allgemein "Fälle") auf diesen Variablen..

L L

muß aus der beobachteten Matrix berechnet werden:

L X

L XB

unbekannt

unabhängig orthogonal ' diagonal

' '( ' ) ' symmetrisch ' Eigenvektoren von ' ,

Eigenwerte von ' und können aus ' berechnet werden!

L L L L D

L XB L L B X X B D X X B X X

D X X B D X X

Page 39: Multivariate Statistische Verfahren Universität Mainz Institut für Psychologie WS 2011/2012 Uwe Mortensen

Multivariate Verfahren 39

1/2

' (oder ' , 1), man kann die Vektoren in normieren:

Vektoren in haben die Länge 1.

iL L D L L L

LD Q Q

1

11 1 12 2 111 12 1

21 22 21/ 2 21 1 22 2 2

2

1 21 1 2 2

10 0

/ / /, , ,1

0 0, , , / / /

, , , / / /1

0 0

n nn

n n n

m m mnm m mn n

n

L L LL L L

L L L L L LLD

L L L L L L

1/ 2 1/ 2 1/ 2

1/ 2

L= QD und ' QD ',

oder, in üblicher Schreibweise:

QD '.

Dies ist die Singularwertzerlegung von (Singular Value Decomposition, SVD).

LD Q X LB X B

X P

X

Page 40: Multivariate Statistische Verfahren Universität Mainz Institut für Psychologie WS 2011/2012 Uwe Mortensen

Multivariate Verfahren 40

Interpretation der SVD

1/ 2QD '.X P

1/2. ( ), 1, , , 1, ,

ist "Ladung" des -ten "Tests" auf der -ten latenten Dimension (Faktor).jk

jk

aA PD j n k n

a j k

'. Zeilen "Faktor-Scores" der i-ten Person auf den latenten Dimensionen.X QA Q

1 1 2 2x = ij i k i j in jnq a q a q a

Merke: es gibt keinen Fehlerterm!!!

Ausprägung der i-ten Personauf den latenten Dimensionen.

Ausprägung des j-ten Tests auf den latenten Dimensionen.

Page 41: Multivariate Statistische Verfahren Universität Mainz Institut für Psychologie WS 2011/2012 Uwe Mortensen

Multivariate Verfahren 41

Bestimmung der Parameter IV

1

, orthonormal (da Eigenvektoren einer symmetrischen Matrix)

' ' , also '.

(Die Eigenvektoren und die zugehörigen Eigenwerte werden

numerisch bestimmt!)

XB L B

XBB X LB A B B

Man berechnet also die Eigenvektoren und Eigenwerte von X‘X und bestimmt damit die latenten Vektoren L. Die Transformationen von X nach L und umgekehrt von L nach X werden durch zueinander inverse Matrizen bewirkt.

Fragen:(1) Welche Eigenschaften hat die Lösung (Eindeutigkeit etc), und(2) Wie ist diese Lösung zu interpretieren?

Page 42: Multivariate Statistische Verfahren Universität Mainz Institut für Psychologie WS 2011/2012 Uwe Mortensen

Multivariate Verfahren 42

Diskussion der Lösung: Rotation und Reduktion

11 12 11 12

21 22 21 22

11 12

1 2 1 2 21 22

1 2 1 2

, ,

, ,

,

, , ,

, ,

i i i i

m m m m

x x l l

x x l l

a aX LA

x x l l a a

x x l l

11 12 11 12

21 22 21 221

11 121

1 2 1 221 22

1 2 1 2

, ,

, ,

,

, ,,

, ,

i i i i

m m m m

x x l l

x x l l

a aXA L

x x l la a

x x l l

Das Modell: Daten in X werden durch latente Variablen L erklärt.

Berechnung der latenten Variablen aus den Daten.

11 121 2 1 2

21 22

,, ,

,i i i i

a ax x l l

a a

1

11 121 2 1 2

21 22

,, ,

,i i i i

a ax x l l

a a

Page 43: Multivariate Statistische Verfahren Universität Mainz Institut für Psychologie WS 2011/2012 Uwe Mortensen

Multivariate Verfahren 43

Konfiguration der Personen im Raum der unkorrelierten latenten Variablen.

Man beachte: maximale Ausdehnung der Konfiguration längs der ersten Achse L1, zweitgrößte Ausdehnung bezüglich L2!

Diskussion der Lösung: Rotation und Reduktion

Konfiguration der Personen im (Zahlen) Raum der korrelierten gemessenen Variablen.

I - Rotation

Rotation

Page 44: Multivariate Statistische Verfahren Universität Mainz Institut für Psychologie WS 2011/2012 Uwe Mortensen

Multivariate Verfahren 44

Diskussion der Lösung: Rotation und Reduktion

II - Reduktion

Ist die Variation der Punkte bezüglich der L2-Achse klein, kann man annehmen, dass diese Variation nur „Fehler“ repräsentiert. Dann muß nur eine latente Variable, L1, ange-nommen werden.

Dies ist die „Reduktion“.

Anmerkung: L1 ist nicht notwendig identisch mit der Regressionsgraden!

Page 45: Multivariate Statistische Verfahren Universität Mainz Institut für Psychologie WS 2011/2012 Uwe Mortensen

Multivariate Verfahren 45

Diskussion der Lösung: formale Bedeutung der Eigenvektoren I

Ellipsen.

2 21 2 1 22 konstant ax bx cx x k 2 2

1 2 konstant ay by k

11 2

2

,,

,

xa cx x k

c b x

'x Mx k

11 2

2

,0,

0,

yay y k

b y

'y Ny k

Page 46: Multivariate Statistische Verfahren Universität Mainz Institut für Psychologie WS 2011/2012 Uwe Mortensen

Multivariate Verfahren 46

Diskussion der Lösung: formale Bedeutung der Eigenvektoren II

Rotation von Ellipsen

'x Mx k 'y Ny k

Nicht achsenparallel: achsenparallel:

Gesucht: Transformationsmatrix T derart, dass x = Ty

' ' ' '

x Ty

x Mx k y T MTy y Ny k

Aber die Vektoren y definieren eine achsenparallele Ellipse, also muß T‘MT = N eine Diagonalmatrix sein!

Dann folgt aber, dass T die Matrix der Eigenvektoren von M ist, und N enthält die zugehörigen Eigenwerte!

Welche Orientierung haben die Eigenvektoren?

Page 47: Multivariate Statistische Verfahren Universität Mainz Institut für Psychologie WS 2011/2012 Uwe Mortensen

Multivariate Verfahren 47

Diskussion der Lösung: formale Bedeutung der Eigenvektoren III

Orientierung der Eigenvektoren von M:

01,0y

11 01 0111 12 010

21 22 21 01 02

, Eigenvektoren von .

,

, 0

Ty x T M

t y xt t yx

t t t y x

01 02,x x

0

02 02 21 21

01 02 11 11

Orientierung von :

tan

x

x y t t

x y t t

Die Eigenvektoren der symmetrischen Matrix M haben die gleiche Orientierung wie die Hauptachsen der durch M definierten Ellipse!Daher die Rede von der ‚Hauptachsentransformation‘.

T

Page 48: Multivariate Statistische Verfahren Universität Mainz Institut für Psychologie WS 2011/2012 Uwe Mortensen

Multivariate Verfahren 48

Transformationsmatrix im Fall einer Ellipse (2-dimensionaler Fall)

11 12

21 22

, cos , sin

, sin , cos

t tT

t t

Kennt man den Winkel, kann man T explizit angeben. Andererseits ist der Winkel im Allgemeinen nicht bekannt.

Page 49: Multivariate Statistische Verfahren Universität Mainz Institut für Psychologie WS 2011/2012 Uwe Mortensen

Multivariate Verfahren 49

Diskussion der Lösung: formale Bedeutung der Eigenvektoren VI

C = X‘X bzw. R = Z‘Z sind symmetrische Matrizen und definieren deshalb stets ein Ellipsoid!

Die Orientierung der Eigenvektoren von C bzw. R entsprechen den Orientierungen der durch C bzw. R definierten Ellipsoide.

Die Matrix der Eigenvektoren von C bzw. R definiert die Transformation (Rotation) des achsenparallelen in ein nicht achsenparalleles Ellipsoid.

Page 50: Multivariate Statistische Verfahren Universität Mainz Institut für Psychologie WS 2011/2012 Uwe Mortensen

Multivariate Verfahren 50

Diskussion der Lösung: inhaltliche Bedeutung der latenten Variablen I

Vorbetrachtung: Die Singularwertzerlegung (SVD) von X.

1

2

Modell:

, 0, 0, , 0

0, , 0, , 0', mit '

0, 0,0, ,

und ' ' ' ', Eigenvektoren von ' .

Die sind die Quadrate der Längen der Spalten von .

n

j

X LP L L

X X PL LP P P P X X

L

1

1/2 1/2 1/2

Normierung der Spalten von :

1 / , 0, , 0

,

0, 0, ,1 / n

L

Q L L Q

Page 51: Multivariate Statistische Verfahren Universität Mainz Institut für Psychologie WS 2011/2012 Uwe Mortensen

Multivariate Verfahren 51

Diskussion der Lösung: inhaltliche Bedeutung der latenten Variablen II

1/2= '.X Q PDie SVD:

Die SVD ist ein Satz der linearen Algebra mit zentraler Bedeutung für die multivariate Statistik. Jede Matrix X kann in dieser Weise zerlegt werden.

Die Spaltenvektoren von Q sind die Eigenvektoren von XX‘, d.h. sie sind orthogonal und auf die Länge 1 normiert.

Die Spaltenvektoren von Q charakterisieren die Personen, die von P charakterisieren die gemessenen Variablen (wie gleich gezeigt wird).

1/2 in ' eingesetzt ergibt L Q X LP

Implikationen für die Analyse psychologischer Daten?

Page 52: Multivariate Statistische Verfahren Universität Mainz Institut für Psychologie WS 2011/2012 Uwe Mortensen

Multivariate Verfahren 52

Diskussion der Lösung: inhaltliche Bedeutung der latenten Variablen IIa

Die Datenmatrix: Rohwerte, Abweichungen vom Mittelwert (Kovarianzen), oder z-Werte (Korrelationen)

1/2= ' gilt für beliebige Matrizen mit reellen Elementen.X Q P X

Sind die Elemente von Rohwerte - also untransformierte Messwerte-

so ist nicht klar, was die Elemente von ' bedeuten!

X

X X

1

Sind die Elemente von Abweichungen vom Mittelwert - also

- so enthält die Matrix C = ' Kovarianzen, also

( )( ).

Problem: die verschiedenen Variablen haben oft verschiede

jij ij

m

j kjk ij iki

X

x X x X X

c X x X x

ne Maßeinheiten!

Page 53: Multivariate Statistische Verfahren Universität Mainz Institut für Psychologie WS 2011/2012 Uwe Mortensen

Multivariate Verfahren 53

Diskussion der Lösung: inhaltliche Bedeutung der latenten Variablen IIb

1/2

Man geht deshalb im Allgemeinen von standardisierten Variablen

aus: (Spaltennormierung). Man hat dann die SVD

= ', mit ( ).

ij jij

j

ij

X Xz

s

Z Q P Z z

1/2

1 1 2 2

Es sei wieder Q , d.h. '.

Dann gilt für :

, d.h. ist ein Skalarprodukt mit

cos .

ij

ij i j i j in jn ij

ij

i j

L Z LP

z

z L p L p L p z

z

L P

Page 54: Multivariate Statistische Verfahren Universität Mainz Institut für Psychologie WS 2011/2012 Uwe Mortensen

Multivariate Verfahren 54

Was ist (i) der maximal mögliche Wert für , (ii) was bedeutet

0?

ij

ij

z

z

Diskussion der Lösung: inhaltliche Bedeutung der latenten Variablen IIc

repräsentiert die Gesamtausstattung der i-ten

Person mit den gemessenen Merkmalen, repräsentiert

ein Gesamtmaß, mit dem die j-te Variable die interessierenden

Merkmale mißt.

i

j

L

P

Maximaler Wert durch cos 1 definiert:

cos 1 max . ( 0, d.h. die beiden

Vektoren haben dieselbe Richtung!)

ijij i j

i j

zz L P

L P

Page 55: Multivariate Statistische Verfahren Universität Mainz Institut für Psychologie WS 2011/2012 Uwe Mortensen

Multivariate Verfahren 55

Diskussion der Lösung: inhaltliche Bedeutung der latenten Variablen IId

0Der Fall = 90 : cos 0 0, d.h.

die beiden Vektoren und sind orthogonal!

ij

i j

z

L P

0 heißt aber , d.h. der Messwert entspricht

genau dem Mittelwert!

jij ijz x X

Dieser Befund hilft, den Biplot zu interpretieren:

stehen ein Item/Variablenvektor und ein Personenvektor

senkrecht aufeinander, so entspricht der Messwert dieser Person bei

dieser Variablen dem Mittelwert; je kleiner der Winkel zwischen den

Vektoren, desto mehr weicht der Messwert vom Mittelwert ab.

Page 56: Multivariate Statistische Verfahren Universität Mainz Institut für Psychologie WS 2011/2012 Uwe Mortensen

Multivariate Verfahren 56

Diskussion der Lösung: inhaltliche Bedeutung der latenten Variablen III

'Es ist ( , ) .

Die Ladung ist die j-te Komponente des k-ten Eigenvektors

von R= ' , skaliert mit .

jk j k j k jk k

jk

k

r Z Q Z Q p

Z Z

reflektiert den Anteil, mit dem die -te latente Variable

in der -ten gemessenen Variablen enthalten ist.

jk k

j

Die Korrelation ( , ) zwischen einer Variablen und

der k-ten Dimension heißt Ladung der Variablen auf dem k-ten

Faktor.

jk j k j

k

r V Q V

Q

Page 57: Multivariate Statistische Verfahren Universität Mainz Institut für Psychologie WS 2011/2012 Uwe Mortensen

Multivariate Verfahren 57

Die Ladungen dienen als Koordinaten der Variablen im Raum der latenten Variablen, - die latenten Variablen werden über Cluster von Variablen interpretiert.

Diskussion der Lösung: inhaltliche Bedeutung der latenten Variablen IV

Beispiel: Evaluation

Page 58: Multivariate Statistische Verfahren Universität Mainz Institut für Psychologie WS 2011/2012 Uwe Mortensen

Multivariate Verfahren 58

Diskussion der Lösung: inhaltliche Bedeutung der latenten Variablen VI

Ladungen, Korrelationen, und die Schätzung der Anzahl latenter Variablen

1/2 1/2 1/21 1 1' ' ' ( )R Z Z P Q Q P AA A P

m m m

1

1cos

n

jk jr krr

r a am

Gibt es n Variablen, werden immer n Eigenvektoren und damit n latenteVariablen berechnet. Die „wahre“ Anzahl latenter Variablen wird im AllgemeinenAber kleiner sein: s < n, und die n – s mit den kleineren Eigenwerten repräsen-tieren nur Fehler oder „Rauschen“. Man hat dann die folgende Abschätzung Für die Korrelationen:

1

1 s

jk jr krr

r a am

Für | | ist s eine Abschätzung für die Anzahl

der latenten Variablen.

jkjkr r

Page 59: Multivariate Statistische Verfahren Universität Mainz Institut für Psychologie WS 2011/2012 Uwe Mortensen

Multivariate Verfahren 59

Diskussion der Lösung: inhaltliche Bedeutung der latenten Variablen VIIZur Bedeutung der Eigenwerte:

1/2

1 2

2 2 2

1 1

Es sei

',

Man betrachte die Varianz der Projektionen der Personen-

koordinaten auf die k-te latente Variable, d.h. die Varianz

der , , , :

1. (

k k mk

m mk k

k ik ik iki i

Z LP L Q

l l l

l q qm m m

2

1

1 wegen der Normiertheit)m

i

2 2 2

1 1 1

Analog dazu im Variablenraum: Quadratsumme der Ladungen auf

der k-ten latenten Variablen:

. ( 1 wegen der Normiertheit)m m m

ik k ik k iki i i

p p

Page 60: Multivariate Statistische Verfahren Universität Mainz Institut für Psychologie WS 2011/2012 Uwe Mortensen

Multivariate Verfahren 60

Diskussion der Lösung: inhaltliche Bedeutung der latenten Variablen VIII

Zur Bedeutung der Eigenwerte:

Ein Eigenwert repräsentiert die Varianz der Projektionen der Personen bzw der Variablen auf die entsprechende Dimension.

2 2

1 1 1 1 1

1

Summe der Eigenwerte:

entspricht der Gesamtvarianz der Projektionen

auf alle Dimensionen (lat. Variablen). Dann ist

der Anteil der Varianz, der durch d

n m n m n

ik k ik kk i k i k

kk n

kk

l q

ie

k-te Dimension erklärt wird.

Page 61: Multivariate Statistische Verfahren Universität Mainz Institut für Psychologie WS 2011/2012 Uwe Mortensen

Multivariate Verfahren 61

Diskussion der Lösung: inhaltliche Bedeutung der latenten Variablen IX

Eigenwerte und Anzahl der latenten Dimensionen:

1

Die Summe , , gibt an, wie groß der Anteil der

durch s latente Dimensionen erklärten Varianz ist.

Damit hat man eine Möglichkeit, die Anzahl der wirksamen

latenten Dimensionen zu schätzen.

s

kr

s n

Scree-Test:

1. Rangordnung der bzw.

2. Plot der bzw. versus Rangplatz

3. Wähle s, wenn bzw. wenn die ersten s groß gegen die

restlichen sind.

k k

k k

k k

Page 62: Multivariate Statistische Verfahren Universität Mainz Institut für Psychologie WS 2011/2012 Uwe Mortensen

Multivariate Verfahren 62

Diskussion der Lösung: inhaltliche Bedeutung der latenten Variablen IX

Scree-Test: Personen im Raum der lat. Variablen

Page 63: Multivariate Statistische Verfahren Universität Mainz Institut für Psychologie WS 2011/2012 Uwe Mortensen

Multivariate Verfahren 63

Diskussion der Lösung: inhaltliche Bedeutung der latenten Variablen X

Latente Variablen – eindeutig bis auf Rotation

1/2

Die Singularwertzerlegung

'

liefert eine mögliche Lösung: die Varianz der Projektionen der Personen

auf die erste Achse (= lat. Variable) ist maximal, die der Projektionen auf

die zweite Achse ist

Z Q P

die zweitgrößte etc.

1/2

Es sei eine Transformations(Rotations-)Matrix, mit ' ,

die Einheitsmatrix.

Betrachte die Transformation , .

Dann ist ' ' ' ' '.

D.h. die Faktorscores und die Faktorl

T TT I I

Q Q QT A A AT

Z QA QTT A QA Q P

QT

adungen sind ebenfalls

Lösungen für das Problem, Daten durch latente Variable zu erklären.

AT

Page 64: Multivariate Statistische Verfahren Universität Mainz Institut für Psychologie WS 2011/2012 Uwe Mortensen

Multivariate Verfahren 64

Diskussion der Lösung: inhaltliche Bedeutung der latenten Variablen X

Kriteriumsrotationen

„Anschaulichkeit“ als Anker für die Interpretation.

„Kompetenz“ und „Stoffmenge“ als Anker für die Interpretation.

Page 65: Multivariate Statistische Verfahren Universität Mainz Institut für Psychologie WS 2011/2012 Uwe Mortensen

Multivariate Verfahren 65

Diskussion der Lösung: inhaltliche Bedeutung der latenten Variablen X(a)

Kreisförmige Punktekonfiguration und Anzahl der Dimensionen

Page 66: Multivariate Statistische Verfahren Universität Mainz Institut für Psychologie WS 2011/2012 Uwe Mortensen

Multivariate Verfahren 66

Diskussion der Lösung: inhaltliche Bedeutung der latenten Variablen X(aa)

Wahre Beziehung zwischen den Punkten(Skalen) und dem Kreis, auf dem die Punkte liegen müssten, wäre die Lösung tatsächlich nur 2-dimensional.

Die Punkte liegen alle innerhalb des Kreises, -- Ausdruck der Tatsache, dass die Skalen durch weitere latente Dimensionen definiert werden.

Page 67: Multivariate Statistische Verfahren Universität Mainz Institut für Psychologie WS 2011/2012 Uwe Mortensen

Multivariate Verfahren 67

WS 2001/2002

Diskussion der Lösung: inhaltliche Bedeutung der latenten Variablen X

Kriterium Varimax

Page 68: Multivariate Statistische Verfahren Universität Mainz Institut für Psychologie WS 2011/2012 Uwe Mortensen

Multivariate Verfahren 68

Zusammenfassung (1):

Es werden n (= viele) Variablen an den gleichen Personen bzw. Objekten gemessen; die Variablen korrelieren paarweise.

Es wird angenommen, dass sie Korrelationen auf der Wirkung von r <= n„latenten Variablen‘‘ beruhen; das Ziel der Analyse ist, Art und Anzahl dieser Variablen zu bestimmen.

Es wird angenommen, dass die latenten Variablen voneinander unabhängig sind, - andernfalls müsste man latente Variablen für die latenten Variablen fordern.

Es wird angenommen, dass beobachtete und latente Variablen durch lineare Gleichungen aufeinander bezogen sind.

Page 69: Multivariate Statistische Verfahren Universität Mainz Institut für Psychologie WS 2011/2012 Uwe Mortensen

Multivariate Verfahren 69

Zusammenfassung (2):

Die latenten Variablen sind unbekannt, also müssen sie aus den beobachteten Daten geschätzt (= ausgerechnet) werden.

1 11 1 12 2

2 21 1 22 2

Ansatz (Modell):

X a L a L

X a L a L

Vorhersage der gemessenen Variablen anhand der (hypothetischen) latenten Variablen.

11 1 12 2 1

21 1 22 2 2

Ansatz:

b X b X L

b X b X L

Frage:

Wie kann man die bestimmen?

Und in welcher Beziehung stehen die

und die zueinander?

jk

jk jk

b

b a

Page 70: Multivariate Statistische Verfahren Universität Mainz Institut für Psychologie WS 2011/2012 Uwe Mortensen

Multivariate Verfahren 70

Zusammenfassung (3):

11 12

21 22

1 2

1 2

,

,

, ,

,

i i

m m

x x

x x

Xx x

x x

Übergang zur Matrixnotation:

11 12

21 22

,,

,

b bB

b b

11 1 12 2 1

21 1 22 2 2

Ansatz:

b X b X L

b X b X L

11 12

21 22

1 2

1 2

,

,

,

,

i i

m m

l l

l l

Ll l

l l

.XB L

1

2

0' ' '

0L L B X XB

Implikation der Annahme, dass dielatenten Variablen unkorreliert sein sollen.

' symmetrisch Eigenvektoren von '

und Eigenwerte von ' .

X X B X X

X X

Page 71: Multivariate Statistische Verfahren Universität Mainz Institut für Psychologie WS 2011/2012 Uwe Mortensen

Multivariate Verfahren 71

Zusammenfassung (4):

Transformation .X L XB L

Transformation .L X X LA

1 'A B B

Denn ist Matrix der Eigenvektoren einer

symmetrischen Matrix (X'X)!

B

Die Lösung ergibt sich aus allgemeinen Resultaten der Vektor- und Matrixrechnung!

1/2 1/2Normierung von : 'L Q L X Q P (Singularwertzerlegung!)

' 'X X P P

' 'XX Q Q

Personen

Tests/Variablen

Q

P

1/2 Ladungen der Variablen

(Korrelation Variable - Lat. Variable)

A P

Page 72: Multivariate Statistische Verfahren Universität Mainz Institut für Psychologie WS 2011/2012 Uwe Mortensen

Multivariate Verfahren 72

Zusammenfassung (5):

Cattell: R-Analyse – Analyse der Variablen, Q-Analyse (Analyse der Personen, d.h. Typen)

' ' bzw. ' ' (ebenfalls bei Spaltennormierung)XX Q Q ZZ Q Q

' ' bzw. ' ' (Spaltennormierung R-Analyse)X X P P Z Z P P

Korrelationen zwischen Tests/Variablen

Keine Korrelationen zwischen Personen!

1/2

1/2

SVD: ' = ', Faktorwerte/Faktorscores,

"Ladungen" für Personen,

entspricht den Cattellschen Q-Faktoren ("Typen").

Z Q P BP Q

B Q

Test/Variablen-Dimensionen sind die gleichen wir die „Personenfaktoren“

Page 73: Multivariate Statistische Verfahren Universität Mainz Institut für Psychologie WS 2011/2012 Uwe Mortensen

Multivariate Verfahren 73

Zusammenfassung (6):

1/2

1/2

Die SVD: ' ist nur eindeutig bis auf eine

Rotation!

sei Rotationsmatrix; , AT T

Z Q P

T Q QT P T

' 1/2 1/2

Dann

= ' ' '.T TZ Q A QTT P Q P

Bestimmung der Anzahl der zu berücksichtigenden latenten Dimensionen:

Nach Maßgabe der Eigenwerte.

Page 74: Multivariate Statistische Verfahren Universität Mainz Institut für Psychologie WS 2011/2012 Uwe Mortensen

Multivariate Verfahren 74

Beispiele:

Erinnerung an Albert Wellek [1904 (Wien) – 1972 (Mainz)]

Das Polaritätsprinzip meint ''die Entfaltung einer Wesenheit nach zwei entgegengesetzten, doch aber sich gegenseitig bedingenden und ergänzenden Richtungen hin'‚ (nach Schischkoff, 1957). Dieses Prinzip soll insbesondere für Goethe und die Denker der Romantik (z.B. Schelling) eine Art fundamentales Axiom für Erklärung des Weltgeschehens gewesen sein.

Studium der Musik, Literaturwissenschaft, Philologie, 1938 Habilitation in Psychologie („Typologie der Musikbegabung im Deutschen Volk“, ab 1946 Ordinarius für Psychologie in Mainz (bis 1969).

Page 75: Multivariate Statistische Verfahren Universität Mainz Institut für Psychologie WS 2011/2012 Uwe Mortensen

Multivariate Verfahren 75

A. Wellek (Fortsetz.)

Hauptwerk: „Die Polarität im Aufbau des Charakters.“

Der Begriff der Polarität sei „… in der positivistischen Ära der empirischen Naturforschung als unwissenschaftlich verpönt…“, aber „das Prinzip der Polarität auch das tragende Prinzip der typologischen, und damit zunächst auch der charakterologischen, Methode'‚…

Zur Polarität der Geschlechter: das weibliche Prinzip steht auf der Seite der Natur und der Vitalität, aber nicht auf der des Geistes, womit es ''Affinität zur Intensität, zur Extraversion, zur Eshaftigkeit … '' habe.

Das ''Bewahrende“‚ ergibt ''sich ja schon aus der empfangenen Rolle des Weibes bei der Zeugung, dann in der Bergung oder Beherbergung und Nährung der Frucht …''.

Page 76: Multivariate Statistische Verfahren Universität Mainz Institut für Psychologie WS 2011/2012 Uwe Mortensen

Multivariate Verfahren 76

Zur Stützung der polaren Schichtentheorie zitiert Wellek Cervantes:

''Die Verwandte der weiblichen Rede ist Konfusion'',

A. Wellek (Fortsetz.)

und dann Nietzsche:

''Bei vielen Frauen ist der Intellekt nur plötzlich und stoßweise da'',

was Wellek zu der Deutung veranlaßt, dass das weibliche Denken demnach ein ''Einfalldenken'' sei (Wellek, 1966, p. 288).

Page 77: Multivariate Statistische Verfahren Universität Mainz Institut für Psychologie WS 2011/2012 Uwe Mortensen

Multivariate Verfahren 77

Stereotype und ihre Erforschung: Das Polaritätsprofil

Begriffe wie ‚Mann‘, ‚Intelligenz‘, ‚Vater‘,‘Mutter‘ etc werden vorgegeben und auf einer Liste von Eigenschaften beurteilt („gerated“).

Anschließend wird eine Q-Analyse gerechnet: es ergeben sich zwei latente Dimensionen:

D1: ‚Frau‘, D2: ‚Mann‘

Demnach sind die Geschlechter nicht durch Polarität, sondern als unabhängige Dimensionen charakterisiert.

Page 78: Multivariate Statistische Verfahren Universität Mainz Institut für Psychologie WS 2011/2012 Uwe Mortensen

Multivariate Verfahren 78

Stereotype und ihre Erforschung: Das Polaritätsprofil

Dimensionen versus Polarität