24
Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2004/2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz Stunde 04.01.05

Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2004/2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz

Embed Size (px)

Citation preview

Page 1: Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2004/2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz

Forschungsstatistik IProf. Dr. G. Meinhardt

WS 2004/2005

Fachbereich Sozialwissenschaften, Psychologisches Institut

Johannes Gutenberg Universität Mainz

Stunde 04.01.05

Page 2: Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2004/2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz

Themen der Woche

• Korrelation bei Binärdaten: Phi-Korrelation• Korrelation von Binärdaten und

intervallskalierten Daten: biseriale und punktbiseriale Korrelation

• Partialkorrelation• Multiple Korrelation und Regression

Page 3: Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2004/2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz

Binärdaten: Dichotome Variablen

Binäre Kodierungen können natürlich sein oder künstlich erzeugt durch Definition einer Schranke auf den beiden metrischen Ausgangsvariablen.

Page 4: Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2004/2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz

Der Phi-Koeffizient

Der Phi- Koeffizient gibt eine Korrelation von dichotomen Variablen an, die der Produkt-Moment Korrelation über die zugrundeliegenden Binärdaten entspricht.

B C A D

rA C B D A B C D

Page 5: Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2004/2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz

Der Phi-Koeffizient

Der Phi- Koeffizient muss an der maximal möglichen Korrelation korrigiert werden, wenn schiefe Randverteilungen vorliegen. pt ist die größte auftretende Randfeldproportion, ps die dazu korrespondierende im Feld der anderen Variable mit gleichem Vorzeichen.

maxcorr

rr

r max , mit s t

t ss t

p qr p p

q p

[Tafelbetrachtung+Rechenbeispiele+Zusammenhang mit CHI-Quadrat]

B C A D

rA C B D A B C D

Page 6: Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2004/2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz

Phi-Koeffizient aus Chi-Quadrat

Erwartete Häufigkeit, wenn beide Merkmale unabhängig sind:

NSP+SP-Z-e(+-)e(--)-Z+e(++)e(+-)++-Item j

Item k

beobachtet

erwartet

ij

Zeilensumme i Spaltensumme je

N

NSP+SP-Z-DC-Z+BA+

+-Item jItem k

Page 7: Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2004/2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz

Phi-Koeffizient aus Chi-Quadrat

Ferner gilt:

2

rN

Die Abweichung von der Unabhängigkeitserwartung drückt ein Chi-Quadrat Maß aus:

2

2

1 1

k lij ij

i j ij

h e

e

Die Phi-Korrelation erhält man aus dem Chi-Quadrat, gerechnet nach der Annahme der Unabhängigkeit der Merkmale

[Tafelbeispiel]

Page 8: Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2004/2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz

Kontingenz von AttributenZwei Merkmale können mehrfach gestuft sein. Die Abweichung von der Unabhängigkeitserwartung drückt wieder ein Chi-Quadrat Maß aus:

beobachtet

erwartet

50013822510712328554019-2111530503516-1814050702013-1512230801210-12

PflanzeTierMenschAlterDeutungsart

50013822510712333.9462.7326.3219-2111531.7458.6524.6116-1814038.6471.429.9613-1512233.6762.2226.1110-12

PflanzeTierMenschAlterDeutungsart

ij

Zeilensumme i Spaltensumme je

N

Page 9: Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2004/2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz

Kontingenz von Attributen

Cramer‘s Index:

Ist besser geeignet als der Kontingenzkoeffizient:

2

1CI

N V

min ,V k l

2

2C

N

[Tafelrechnung des Beispiels]

da dieser stets beschränkt ist durch

max

1VC

V

Page 10: Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2004/2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz

Die punkt-biseriale-Korrelation

Die Korrelation einer metrischen Variable und einer dichotomen wird bestimmt durch den Mittelwertsunterschied, den die Gruppen mit den den Merkmalen X=0 und X=1 in der Variable Y haben.

[Tafelbetrachtung]

Page 11: Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2004/2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz

Die (punkt)-biseriale-Korrelation

Hierin ist p der Anteil der Personen für die X=1 gilt. ist der Ordinatenabschnitt der Standardnormalverteilung für die Stelle der Dichotomisierung. Die biseriale Korrelation gilt bei begründeter Vermutung, dass die dichotome Variable latent normalverteilt ist.

1 0pbis

y

y yr pq

s

[Rechenbeispiel aus Script]

1pbis

y

y y pr

s q

oder

(Gesamtmittelformeln)

Punkt-biserial: biserial:

1 0bis

y

y y p qr

s

1bis

y

y y pr

s

Page 12: Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2004/2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz

Die (punkt)-biseriale-Korrelation

15.57 12.83 .462 .538

3.098 .397.553

bisr

Korrelation wird durch Gültigkeit der Normalverteilung aufgewertet!

-3 -2 -1 1 2 3z

0.1

0.2

0.3

0.4

-3 -2 -1 1 2 3z

0.1

0.2

0.3

f(z)

z0 = -0.0954

p = 0.538q = 0.462

w = 0.397

X = 1X = 0

Page 13: Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2004/2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz

Deutungsmöglichkeiten der bivariaten Korrelation

1. Kausalität: X1 X2

2. Latente Drittvariable:

3. Direkte und indirekte Kausalität:

x1

x2

x1

x2

Page 14: Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2004/2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz

PartialkorrelationDie Korrelation zweier Variablen, die vom Effekt anderer (spezifizierter) Variablen bereinigt wurden.

Prüfung einer Kausalvermutung: rxy komme dadurch zustande, daß z ursächlich auf x und y einwirkt:

z

x y

rzyrzx

rxy

G G

Page 15: Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2004/2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz

PartialkorrelationPrüfung1. Sage x aus z voraus und berechne Residuen ex

2. Sage y aus z voraus und berechne Residuen ey

3. Berechne die Korrelation rexey

x y

rexey

z z

rxy

Ist Partialkorrelation (Korrelation rexey) Null, so

beruht die Korrelation rxy tatsächlich nur auf der Einwirkung von z.

Page 16: Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2004/2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz

PartialkorrelationY aus Z X aus Z

ex und ey korrelieren:

[Tafelbeispiele]

Page 17: Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2004/2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz

Datenbeispiel

90 100 110 120Rechentest

95

100

105

110

115

120Sprachtest

7.5 10 12.5 15 17.5 20 22.5Förderdauer

95

100

105

110

115

120

125

130Rechentest

7.5 10 12.5 15 17.5 20 22.5Förderdauer

95

100

105

110

115

120Sprachtest

X: RechnenY: SpracheZ: Förderdauer

ryz=.73

Korreliert Rechen und Sprache nur, weil die Kinder Frühförderung erhalten haben?

rxz=.72

rxy=.56

Page 18: Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2004/2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz

Datenbeispiel: Korr. der Residuen

X: RechnenY: SpracheZ: Förderdauer

Ja: Ohne die Frühförderung sind Rechen- und Sprachleistung unabhängig!

-1.5 -1 -0.5 0.5ERechnen

-2

-1.5

-1

-0.5

0.5

1

1.5

2ESprache

rxy.z=.07

ˆ

ˆx z xz xz

y z yz yz

e x x x a z b

e y y y a z b

Residuen: Korrelation der Residuen:

.2 2

,

1 1

x y

x y

e e

x y

xy xz yzxy z

xz yz

Cov e er

s e s e

r r rr

r r

[Tafelbetrachtung]

Page 19: Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2004/2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz

Multiple Korrelation & Regression

Variable X, Y, Z: Sage Z aus X und Y vorher !

0ˆ x yz x y

Die ß- Koeffizienten müssen nach dem Kleinstquadratkriterium bestimmt werden!

Page 20: Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2004/2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz

Multiple Korrelation & Regression

Kleinstquadratkriterium:

2ˆ minz z

[Tafelrechnung]

Für den 3 Variablenfall bequem nach Standardisierung über Normalgleichungen zu lösen!

ˆz x x y yz b z b z

führt auf:

21xz xy yz

xxy

r r rb

r

21yz xy xz

yxy

r r rb

r

Page 21: Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2004/2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz

Multiple Korrelation & Regression

Multipler Korrelationskoeffizient

.z xy x xz y yzR b r b r

Ist die Korrelation der vorhergesagten Werte mit den beobachteten Werten Z

Ist immer größer oder gleich die größte Einzelkorrelation

1)

2)

Sein Quadrat gibt wieder den Anteil der Vorhersagevarianzan der Gesamtvarianz an:3)

Z

2.

Erklärte Varianz Fehlervarianz1

Gesamtvarianz Gesamtvarianzz xyR

Page 22: Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2004/2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz

Multiple Korrelation & Regression

Interpretation

Sind die Prädiktoren unabhängig, so sind die ß-Gewichte gleich den Kriteriumskorrelationen und die aufgeklärteVarianz ist die Summe der Quadrate der ß-Gewichte

1)

Sind die Prädiktoren abhängig (interkorreliert), so unterscheiden wir 3 Fälle:2)

1. Der Pädiktor enthält Information, die schon der andere Prädiktor enthält: er ist redundant

2. Der Prädiktor unterdrückt irrelevante Varianzanteile in dem anderenPrädiktor: er ist ein Suppressor

3. Der Prädiktor besitzt Kriteriumsvarianz, die der andere Prädiktor nichtbesitzt und unterdrückt irrelevante Varianz des anderen Prädiktors:er ist valide und nützlich.

[Tafelbeispiele]

Page 23: Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2004/2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz

Multiple Korrelation & Regression

Redundanz

Die Variable y ist redundant zur Vorhersage von z, wenn:

[Tafelbeispiele]

.

2 2

z xyy xzU R r

Gilt

Nützlichkeit der Variable y zur Vorhersage von z:

2y yzU r

so existieren Suppressionseffekte.

2y yz yzb r r

Page 24: Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2004/2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz

Multiple Korrelation & Regression

Suppression

[Tafelbeispiele]

2y yz yzb r r

rxy

ZYX

ryz=0

rxz

Y „bindet“ irrelevante Kriteriumsinformation

Partialkorrelation rxz.y ist erheblich größer als rxz