25
Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2006/2007 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz Stunde 11.01.07

Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2006/2007 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz

Embed Size (px)

Citation preview

Page 1: Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2006/2007 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz

Forschungsstatistik IProf. Dr. G. Meinhardt

WS 2006/2007

Fachbereich Sozialwissenschaften, Psychologisches Institut

Johannes Gutenberg Universität Mainz

Stunde 11.01.07

Page 2: Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2006/2007 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz

Themen der Stunde

• Merkmalszusammenhänge: Überblick und Gegenstand

• Zurückführen der Werte einer Variable auf eine andere: Regression

• Lineare Regression: Y = a X + b

Page 3: Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2006/2007 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz

Merkmalszusammenhänge

• Univariate Statistik: Beschreibung von einzelnen statistischen Größen

• Bivariate Statistik: Beziehung zwischen 2 statistischen Variablen

• Merkmalszusammenhang: Es besteht ein Zusammenhang zwischen 2 Variablen X und Y, wenn die Werte von X mit den Werten von Y „einhergehen“, bzw. in gewissem Grad „korrespondieren“.

Page 4: Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2006/2007 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz

Beispiele

• Gibt es einen Zusammenhang von Drogenkonsum und mentaler Leistungsfähigkeit?

• Kann man aus der Abinote die Note des Examens vorhersagen?

• Haben Raucher häufiger Lungenkrebs als Nichtraucher?

• Hängt der Therapieerfolg ab von einer positiven Einstellung zur Psychotherapie?

[Beispiel: Schuh-und Körpergröße, Test-Retest]

Page 5: Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2006/2007 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz

Beispiel: Zusammenhang bei metrischen Daten

34

36

38

40

42

44

46

48

50

52

140 150 160 170 180 190 200

Körpergröße

Sch

uhgr

öße

Zusammenhänge von X und Y : Vorhersagbarkeit von Y aus X

70

80

90

100

110

120

130

70 80 90 100 110 120 130

Test (IQ)R

etes

t (I

Q)

Page 6: Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2006/2007 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz

Beispiel: Zusammenhang bei Nominaldaten (Häufigkeiten)

Kein Zusammenhang der beiden Variablen Lungenkrebs (LK)und Rauchen (R) !

R+ R-

LK+ 125 125 250

LK- 125 125 250

250 250 500

Page 7: Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2006/2007 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz

Beispiel: Zusammenhang bei Nominaldaten (Häufigkeiten)

Maximaler Zusammenhang der beiden Variablen Lungenkrebs (LK) und Rauchen (R) !

R+ R-

LK+ 250 0 250

LK- 0 250 250

250 250 500

Page 8: Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2006/2007 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz

Themengebiet Regression & Korrelation

• Lineare Regression & Korrelation• Ausgleichspolynome n-ter Ordnung • Nichtlineare Regression:

a) auf lineare Regression zurückführbare Modelleb) echte nichtlineare Modelle

• Mehr als 2 Variablen: Multiple Regression & Korrelation

Page 9: Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2006/2007 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz

Merkmalszusammenhänge

2.5 5 7.5 10 12.5 15 17.5X

5

10

15

20

25

30Y

8 10 12 14 16X

10

20

30

40

50

60Y

8 10 12 14 16X

10

20

30

40

50

60Y

Kein Zusammenhang positiver Zusammenhang negativer Zusammenhang

Für mindestens intervallskalierte Variablen erkennt man eine mögliche Beziehung im Scatterplot

Page 10: Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2006/2007 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz

Näherungskurven

Näherungskurven können linear oder nichtlinear sein. Je mehrParameter sie haben, desto schmiegsamer sind die Kurven

Page 11: Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2006/2007 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz

Zur Modellwahl

• Regressionsmodelle können exploratorisch oder prüfend gewählt werden

• Die Entscheidung über die Güte der Modellpassung wird anhand von Kennziffern der Vorhersageleistung getroffen

• Je mehr Parameter ein Modell hat, desto eher kann es komplizierteren Verläufen der Daten folgen und verschiedene Trends abbilden

• Vorhersageleistungen sind daher relativ zur Anzahl der freien Parameter zu bewerten

Page 12: Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2006/2007 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz

Lineare Näherungskurve

• Lineare Näherung ist oft die zunächst einfachste• Gibt recht gut einen „Trend“ der Beziehung an: mehr geht oft nicht• Unterscheidung zwischen „empirischer“ und „theoretischer“ Näherungskurve

Page 13: Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2006/2007 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz

Lineare Näherungskurve: Modellansatz

Die lineare Näherungskurve („Regressionsgerade“) wird so bestimmt, daß die Summe der quadrierten Abweichungen der Y Werte von derGeraden minimal werden („Kleinstquadratkriterium“)

0 1ˆi iy a a x Modell:

ˆ ˆi i ie y y Fehler:

ˆi i iy y e Datenerklärung:

Kriterium für die Parameterbestimmung

22

1 1

ˆ minN N

i i ii i

e y y

[Tafelrechnung: Bestimmung der Normalgleichungen für die Parameter a0 und a1]

Page 14: Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2006/2007 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz

Die Normalgleichungen

Die Normalgleichungsregel führt für Polynome k-ter Ordnung stets auf dasselbe Gleichungssystem wie die Behandlung des Minimierungsproblems

20 1 2 2ˆ k

i i k ky a a x a x a x Modell:

Regel: Multipliziere jede Seite der Gleichung nacheinander mit 1, x, x2,...,xk

und summiere über die N- Fälle

Für k = 1 (lineare Regression) ergibt das:

0 11 1

20 1

1 1 1

(1)

(2)

N N

i ii i

N N N

i i i ii i i

y a N a x

x y a x a x

Page 15: Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2006/2007 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz

Die Koeffizienten a0 und a1

Die Steigungskonstante a1 ergibt sich als Quotient der sog. Kovarianzund der Varianz der Variable x.

1 1 1

1 22

1 1

1

1

N N N

i i i ii i i

N N

i ii i

x y y xNa

x xN

Auflösen des Normalgleichungssystems nach a1 ergibt:

1

,Cov x ya

Var x

[Tafelbehandlung]

Page 16: Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2006/2007 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz

Die Koeffizienten a0 und a1

Der Schnittpunkt a0 läßt sich direkt aus der Steigungskonstanten und denbeiden Mittelwerten errechnen

0 11 1

1

1 1N N

i ii ia y a x

N Ny a x

Auflösen des Normalgleichungssystems nach a0:

Page 17: Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2006/2007 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz

Varianzzerlegung

Für die lineare Regression gilt die additive Varianzzerlegung

Die Kriteriumsvarianz ist die Summe aus Vorhersagevarianz und Fehlervarianz

Page 18: Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2006/2007 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz

Determinationskoeffizient

Wegen der Varianzzerlegung

Der Determinationskoeffizient gibt den Anteil der erklärten Varianz an der gesamten Kriteriumsvarianz an.

gilt

Man definiert

als Determinationskoeffizient

Page 19: Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2006/2007 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz

Determinationskoeffizient

Der Anteil der erklärten Varianz ist der Anteil der quadrierten Kovarianzan dem Produkt der beiden Varianzen.

Ferner gilt (s. Steigungsdreieck)

ˆi i iy y a x x Und daher

21ˆVar y a Var x

Woraus man

für den Determinationskoeffizienten erhält

22 ,

1Var e Cov x y

rVar y Var x Var y

Page 20: Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2006/2007 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz

Standardschätzfehler

Der Standardschätzfehler beschreibt die Streuung um die Regressionsgerade. Er ist definiert als Anteil an der Streuung des Kriteriums, der zulasten der „Unzuverlässigkeit“ geht.

gilt

21Var e r Var y

Wegen

2 1Var e

rVar y

und daher

21e ys s r

Page 21: Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2006/2007 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz

Regression X aus Y

Ansatz

Koeffizienten

Die Regressionsgerade „X aus Y“ (grau) minimiert den Vorhersagefehler in X- Richtung. Man erhält die Koeffizienten der Geraden durch Vertauschen von X und Y und Lösen den Normalgleichungen. Beide Geraden schneiden sich im Punkt ,X Y

[Tafel]

Page 22: Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2006/2007 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz

Abweichungswerte

Ansatz

Geraden

Bei Abweichungswerten fällt die additive Konstante weg. Beide Geraden schneiden sich im Nullpunkt , 0,0u v

[Tafel]

i

i

u x x

v y y

1

1

ˆ

ˆ 'i i

i i

v a x

u a y

Page 23: Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2006/2007 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz

z - Werte

Die Covarianz von z- standardisierten Variablen ist der sog. Pearson – Produkt – Moment Korrelationskoeffizient

Die Covarianz von z- Werten ist:

1

1

1

1,

1

1

i i

i i

N

x y x x y yi

N

x yi

Ni i

i x y

xy

Cov z z z z z zN

z zN

x x y y

N s s

r

[Tafel]

Geraden:

y

x

y z x

x z y

z z

z z

Page 24: Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2006/2007 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz

z - Werte

Die Geradensteigung bei z- standardisierten Variablen ist der Pearson – Produkt – Moment Korrelationskoeffizient. Beide Regressionsgeraden fallen zusammen, es gibt nur noch eine.

Die Geradensteigung bei z- Werten ist:

1

1

1

1, ,

1 1

1

1

i i

y y

i i

N

x x y yx y x y i

z zx x

N

x yi

Ni i

i x y

xy

z z z zCov z z Cov z z NVar z Var z

z zN

x x y y

N s s

r

-3 -2 -1 1 2 3

zX

-3

-2

-1

1

2

3z Y

Page 25: Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2006/2007 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz

Der Produkt-Moment-Korrelationskoeffizient

1

2 2

1 1

1,

1 1

N

i ii

xy N Nx y

i ii i

x x y yCov x yN

rs s

x x y yN N

Der Produkt-Moment Korrelationskoeffizient gibt Stärke und Richtung des linearen Zusammenhanges zweier Variablen an.

1 1xyr für seinen Wertebereich.Es gilt:

Er ist invariant gegenüber linearen Transformationen