57
1 STATISIK LV Nr.: 0021 WS 2005/06 10. November 2005

1 STATISIK LV Nr.: 0021 WS 2005/06 10. November 2005

Embed Size (px)

Citation preview

Page 1: 1 STATISIK LV Nr.: 0021 WS 2005/06 10. November 2005

1

STATISIK

LV Nr.: 0021

WS 2005/06

10. November 2005

Page 2: 1 STATISIK LV Nr.: 0021 WS 2005/06 10. November 2005

2

Regressionsanalyse

• Beziehung zwischen zwei oder mehr metrisch skalierten Merkmalen.

• Art der Abhängigkeit bestimmen, mathematische Funktion, durch die sich die Abhängigkeit zwischen den Variablen am besten beschreiben lässt.

Page 3: 1 STATISIK LV Nr.: 0021 WS 2005/06 10. November 2005

3

Regressionsanalyse

• Abhängige Variable (Regressand): Y – „zu erklärende Variable“

• Unabhängige Variable/n (Regressor): X – „erklärende Variable/n“

• Regressionsfunktion: Mathematische Funktion, die die Abhängigkeit zwischen den Variablen beschreibt.

• Regression von Y auf X, Y=f(X).

Page 4: 1 STATISIK LV Nr.: 0021 WS 2005/06 10. November 2005

4

Regressionsanalyse

• Art der Beziehung zw. den Variablen?

• Welche Form hat die Regressionsfunktion?

• Antworten darauf aus: – Theorie – Empirische Beobachtung, z.B. Punktwolke

zeichnen, welche Funktion passt sich gut an die Punktwolke an? Durch welche Funktion lässt sich die Grundtendenz des Zusammenhangs darstellen?

Page 5: 1 STATISIK LV Nr.: 0021 WS 2005/06 10. November 2005

5

Regressionsanalyse

• Punktwolke

• Regressionsfunktion

40

50

60

70

80

90

100

110

150 160 170 180 190 200 210

Körpergröße

rpe

rge

wic

ht

Page 6: 1 STATISIK LV Nr.: 0021 WS 2005/06 10. November 2005

6

Regressionsanalyse

• Lineare Regression:– Regressionsfunktion ist linear

• Nichtlineare Regression: – Regressionsfunktion ist nicht linear

0

1

2

3

4

5

6

7

8

9

10

0 2 4 6 8 10 12

0

1

2

3

4

5

6

7

8

9

10

0 2 4 6 8 10 12

Page 7: 1 STATISIK LV Nr.: 0021 WS 2005/06 10. November 2005

7

Regressionsanalyse

• Einfachregression: – Beziehung zwischen 2 Variablen– Regressand: Y– Regressor: X

• Mehrfachregression = multiple Regression: – Beziehung zwischen 3 oder mehr Variablen– Regressand: Y

– Regressoren: X1, X2, …, Xk

Page 8: 1 STATISIK LV Nr.: 0021 WS 2005/06 10. November 2005

8

Regressionsanalyse

• Lineare Einfachregression:– Lineare Regressionsfunktion

(Regressionsgerade) beschreibt die Abhängigkeit zwischen der Variablen Y und X.

– Zwei Merkmale X und Y werden an n Objekten der Grundgesamtheit beobachtet => Realisationen x1, …, xn und y1, …, yn.

Page 9: 1 STATISIK LV Nr.: 0021 WS 2005/06 10. November 2005

9

Regressionsanalyse

• Wahre Funktion:

yi‘ = α + βxi für i = 1, …, n

– α … Absolutglied– β … Steigungsparameter

• Beobachtet wird:

yi = yi‘ + εi für i = 1, …, n

– εi … Störterm, Realisationen einer Zufallsvariable

Wahre Koeffizienten, Parameter der Grundgesamtheit

Page 10: 1 STATISIK LV Nr.: 0021 WS 2005/06 10. November 2005

10

Regressionsanalyse

• Modell der linearen Einfachregression:

yi = α + βxi + εi für i = 1, …, n – α … Absolutglied– β … Steigungsparameter

– εi … Störterm

Page 11: 1 STATISIK LV Nr.: 0021 WS 2005/06 10. November 2005

11

Regressionsanalyse

• Annahmen: (1) E(εi) = 0 für i=1,…,n

(2) Var(εi) = σ² für i=1,…,n (Homoskedastizität)

(3) Cov(εi,εj) = 0 für alle ij (unkorrelierte Fehler)

(4) xi nicht stochastisch

(5) xi xj für mindestens ein ij

Page 12: 1 STATISIK LV Nr.: 0021 WS 2005/06 10. November 2005

12

Regressionsanalyse

• Aus den Annahmen folgt für die abhängige Zufallsvariable Yi: – E(Yi) = E(α + βxi + εi) = α + βxi + E(εi) = yi

‘ für i=1,…,n

– Var(Yi) = Var(εi) = σ² für i=1,…,n= 0

Page 13: 1 STATISIK LV Nr.: 0021 WS 2005/06 10. November 2005

13

Regressionsanalyse

• Regressionsfunktion/-gerade:

ŷi = a + bxi für i = 1, …, n– a … Schätzer für Absolutglied– b … Schätzer für Steigungsparameter

– ŷi … Schätzer für Ausprägung yi von Y

Page 14: 1 STATISIK LV Nr.: 0021 WS 2005/06 10. November 2005

14

Regressionsanalyse

• Abweichung zwischen den beobachteten Werten yi und den geschätzten Werten ŷi: Residuen ei = yi – ŷi = yi – (a + bxi)

40

50

60

70

80

90

100

110

150 160 170 180 190 200 210

Körpergröße

rper

gew

ich

t

ei

yi

ŷi

Page 15: 1 STATISIK LV Nr.: 0021 WS 2005/06 10. November 2005

15

Regressionsanalyse

• Regressionsgerade: – unendlich viele mögliche Geraden durch eine

Punktwolke– Wähle jene, die die vorhandene Tendenz am

besten beschreibt, d.h. wähle jene, die eine möglichst gute Schätzung ŷ für die Ausprägung y des Merkmals Y eines Objekts, das die Ausprägung x des Merkmals X trägt, bestimmt.

Page 16: 1 STATISIK LV Nr.: 0021 WS 2005/06 10. November 2005

16

Regressionsanalyse

Methode der Kleinsten Quadrate

• Kriterium für die Güte der Schätzung: Summe der Abweichungsquadrate (Residual-Quadratsumme)

• Wähle die Schätzer a und b für α und β so, dass S² minimal wird.

n n n2 2 2 2

i i i i ii=1 i=1 i=1

ˆS = (y -a-bx ) (y -y ) e

Page 17: 1 STATISIK LV Nr.: 0021 WS 2005/06 10. November 2005

17

RegressionsanalyseMethode der Kleinsten Quadrate

0

1

2

3

4

5

6

7

8

9

0 1 2 3 4 5 6

X

Y

ŷ=a+bx

(xi,yi)

(xi,ŷi)

yi-ŷi=yi-(a+bxi)=ei

Page 18: 1 STATISIK LV Nr.: 0021 WS 2005/06 10. November 2005

18

Regressionsanalyse

• Minimiere S² (= Summe der vertikalen quadratischen Abweichungen der beobachteten Werte yi von den durch die Regressionsgerade an den Stellen xi bestimmten Werten ŷi).

n2 2

i ia,b

i=1

min S = (y -a-bx )

Page 19: 1 STATISIK LV Nr.: 0021 WS 2005/06 10. November 2005

19

Regressionsanalyse

• Bedingung 1. Ordnung: 1. Ableitung = 0. Schätzer a und b ergeben sich als Lösungen des Normalengleichungssystems:

• Bedingung 2. Ordnung: 2. Ableitung positiv, d.h. Determinante der Hesse-Matrix > 0

2 n

i ii=1

S=-2 (y -a-bx )=0

a

2 n

i i ii=1

S=-2 x (y -a-bx )=0

b

Page 20: 1 STATISIK LV Nr.: 0021 WS 2005/06 10. November 2005

20

Regressionsanalyse

• Kleinste Quadrate Schätzer für β:

• Kleinste Quadrate Schätzer für α:

• Kleinste Quadrate Regressionsfunktion:

n

i ii=1

n2

ii=1

(x -x)(y -y)b=

(x -x)

a=y-bx

y=a+bx

Page 21: 1 STATISIK LV Nr.: 0021 WS 2005/06 10. November 2005

21

Regressionsanalyse

• Eigenschaften der KQ Schätzer: – Summe der Residuen ei ist Null.

– Summe xiei ist Null.

– Das arithmetische Mittel der beobachteten Werte ist gleich dem arithmetischen Mittel der geschätzten Werte

– Die Regressionsgerade läuft durch den Schwerpunkt der Punktwolke (x,y).

Page 22: 1 STATISIK LV Nr.: 0021 WS 2005/06 10. November 2005

22

Regressionsanalyse

Quadratsummenzerlegung:

• Ziel der Regressionsfunktion: Variation der abhängigen Variable soll aus der Variation der unabhängigen Variablen erklärt werden. – Zu erklärende Variation: yi –y

– Erklärte Variation: ŷi –y

– Nicht erklärte Variation: yi – ŷi

– (yi – y) = (ŷi –y) + (yi – ŷi) für i=1,…,n

Page 23: 1 STATISIK LV Nr.: 0021 WS 2005/06 10. November 2005

23

RegressionsanalyseMethode der Kleinsten Quadrate

0

1

2

3

4

5

6

7

8

9

0 1 2 3 4 5 6

X

Y

ŷ=a+bx

(xi,yi)

yi -y

ŷi -y

yi - ŷi

(xi,ŷi)

y

Page 24: 1 STATISIK LV Nr.: 0021 WS 2005/06 10. November 2005

24

Regressionsanalyse

• Maß der Variation: Quadratsumme der Abweichungen

• SST = (yi –y)² – Sum of Squares Total

• SSE = (ŷi –y)² – Sum of Squares Explained

• SSR = (yi – ŷi)²– Sum of Squares Residual

• Es gilt: SST = SSE + SSR

Page 25: 1 STATISIK LV Nr.: 0021 WS 2005/06 10. November 2005

25

Regressionsanalyse

• Einfaches Bestimmtheitsmaß: – Maß für die durch die lineare

Regressionsfunktion geliefert Erklärung der Variation der abhängigen Variablen

• r² = SSE / SST = 1 – SSR / SST– r² = Anteil der durch die Regressionsfunktion

erklärten Variation an der zu erklärenden gesamten Variation.

Page 26: 1 STATISIK LV Nr.: 0021 WS 2005/06 10. November 2005

26

Regressionsanalyse

• Es gilt: 0 ≤ r² ≤ 1

• Extremfälle: – r² = 0 SSE = 0 ŷi =ŷ (=y) für alle i, d.h.

ŷi hängt nicht von i ab b = 0, d.h. Regressionsgerade ist horizontal. Kein Erklärungsbeitrag

– r² = 1 SSE = SST SSR = 0 ei = 0 für alle i ŷi = yi für alle i die Daten liegen auf der Regressionsgeraden. Vollständige Erklärung

Page 27: 1 STATISIK LV Nr.: 0021 WS 2005/06 10. November 2005

27

RegressionsanalyseEinfaches lineares Bestimmtheitsmaß

R2 = 1

0

1

2

3

4

5

6

0 2 4 6 8 10 12

unabhängige Variable

ab

ng

ige

Va

ria

be

le

Einfaches lineares Bestimmtheitsmaß

R2 = 0

0

0,5

1

1,5

2

2,5

3

3,5

4

4,5

5

0 2 4 6 8 10 12

unabhängige Variable

ab

ng

ige

Va

ria

be

le

Einfaches lineares Bestimmtheitsmaß

R2 = 0,82

0

1

2

3

4

5

6

7

8

9

10

0 2 4 6 8 10 12

unabhängige Variable

ab

ng

ige

Va

ria

be

le

Einfaches lineares Bestimmtheitsmaß

R2 = 0,52

0

1

2

3

4

5

6

7

8

9

10

0 2 4 6 8 10 12

unabhängige Variable

ab

ng

ige

Va

ria

be

le

Page 28: 1 STATISIK LV Nr.: 0021 WS 2005/06 10. November 2005

28

Regressionsanalyse

• Linearer Einfachkorrelationskoeffizient: r = + r² und r [0 ; 1]

• Extremfälle: – r = 0, d.h. fehlende Erklärung, fehlende

Korrelation– r = 1, d.h. vollständige Erklärung, vollständige

Korrelation

• r wird das Vorzeichen der Steigung der Regressionsgeraden zugewiesen.

Page 29: 1 STATISIK LV Nr.: 0021 WS 2005/06 10. November 2005

29

Regressionsanalyse

Eigenschaften der KQ Schätzer:

• Da yi Zufallsvariable sind, sind auch a und b Zufallsvariable.

• Erwartungswerte der KQ Schätzer:– E(b) = β– E(a) = α– D.h. a und b sind unverzerrte Schätzer

Page 30: 1 STATISIK LV Nr.: 0021 WS 2005/06 10. November 2005

30

Regressionsanalyse

• Varianzen der KQ Schätzer:

• Beides sind theoretische Größen, da σ² (=Var(εi)) unbekannt ist.

n

1i

2i

2

)x(x

σVar(b)

n

1i

2i

22

)x(x

x

n

1σVar(a)

Page 31: 1 STATISIK LV Nr.: 0021 WS 2005/06 10. November 2005

31

Regressionsanalyse

• Kovarianz der KQ Schätzer:

Die Kovarinaz ist proportional zu σ², sie hängt vom Vorzeichen von x ab.

n

1i

2i

2

)x(x

xσb)Cov(a,

Page 32: 1 STATISIK LV Nr.: 0021 WS 2005/06 10. November 2005

32

Regressionsanalyse

• Frage: Gibt es bessere Schätzer als die KQ Schätzer für α und β?

• Besser im Sinne einer kleineren Varianz, denn je kleiner die Varianz des Schätzers, umso besser ist er.

Page 33: 1 STATISIK LV Nr.: 0021 WS 2005/06 10. November 2005

33

Regressionsanalyse

Gauss-Markov-Theorem:– Einfaches lineares Regressionsmodell, – Es gelten Annahmen 1-5

• Der KQ Schätzer ist der beste lineare erwartungstreue Schätzer, BLUE (Best linear unbiased Estimator)– Best: Var(b*) Var(b) – Linear: b* =ciyi

– Unbiased: E(b*) = β– Analoge Aussage für Schätzer a* von α.

Page 34: 1 STATISIK LV Nr.: 0021 WS 2005/06 10. November 2005

34

Regressionsanalyse

• Schätzung der Fehlervarianz σ²– Wären εi beobachtbar, dann Schätzer für σ² =

1/n εi².

– Aber: εi nicht beobachtbar, daher σ² durch s² schätzen.

n

1i

2i

2 e2n

1s

Page 35: 1 STATISIK LV Nr.: 0021 WS 2005/06 10. November 2005

35

Regressionsanalyse

• Diesen Schätzer von σ² verwendet man, um unverzerrte Schätzer für Var(a) und Var(b) zu konstruieren.

22b n

2i

i 1

ss

(x x)

22 2a n

2i

i 1

1 xs s

n (x x)

Page 36: 1 STATISIK LV Nr.: 0021 WS 2005/06 10. November 2005

36

Regressionsanalyse

Inferenz im linearen Regressionsmodell:– Ann (1-5)

– Ann (6): εi ~ N(0,σ²)

• Testprobleme: – Einseitig: z.B. H0: b = b* gegen H1: b > b*

– Zweiseitig: H0: b = b* gegen H1: b b*

• Teststatistik:

b

*

s

bbT

Page 37: 1 STATISIK LV Nr.: 0021 WS 2005/06 10. November 2005

37

Regressionsanalyse

• Verteilung der Teststatistik: – sb bekannt: T ~ N(0,1)

– sb geschätzt: T ~ tn-2

• Kritische Werte bestimmen

• Entscheidung: Lehne H0 ab, wenn Teststatistik im kritischen Bereich liegt.

• Gleiche Vorgehensweise bei Tests für Schätzer a.

Page 38: 1 STATISIK LV Nr.: 0021 WS 2005/06 10. November 2005

38

Regressionsanalyse

Konfidenzintervall Regressionskoeffizienten

• Interzept: – Es gilt P(a – t sa α a + t sa) = 1 – α

– KI für α: [a – t sa; a + t sa]

• Steigungsparameter: – Es gilt P(b – t sb β b + t sb) = 1 – α

– KI für β: [b – t sb; b + t sb]

• t = t1- α/2; n-2 (Werte der t-Verteilung)

Page 39: 1 STATISIK LV Nr.: 0021 WS 2005/06 10. November 2005

39

Regressionsanalyse

• Lineare Einfachregression:

• 2 metrisch skalierte Variablen Y, X

• Modell: yi = α + βxi + εi

• Regressionsfunktion: ŷi = a + bxi

• Schätzung: min. Residual-Quadratsumme

• KQ-Schätzer a und b: BLUE

• Tests für a und b: t-Tests

Page 40: 1 STATISIK LV Nr.: 0021 WS 2005/06 10. November 2005

40

Regressionsanalyse

• F-Test

• Hypothese: Kein Zusammenhang zwischen den Variablen X und Y in der Grundgesamtheit

• Basiert auf der Quadratsummenzerlegung SST = SSE + SSR

Page 41: 1 STATISIK LV Nr.: 0021 WS 2005/06 10. November 2005

41

Regressionsanalyse

• Mittlere erklärte Quadratsumme: – MSE = SSE / 1

• Mittlere nicht erklärte Quadratsumme: – MSR = SSR / (n – 2)

• Teststatistik: – F = MSE / MSR

– F ~ F1;n-2;1-α

Page 42: 1 STATISIK LV Nr.: 0021 WS 2005/06 10. November 2005

42

Regressionsanalyse

• Beispiel: Körpergröße (X), Gewicht (Y)– Modell: Y = α + Xβ + ε– Parameterschätzer: a = -105,75, b = 0,98– Regressionsfunktion: Ŷ = -105,75 + 0,98X– Interpretation der Koeffizienten:

• a = -105,75: Verschiebung• b = 0,98: Steigung, steigt X um eine Einheit (1cm),

steigt Y um 0,98 Einheiten (kg). Vorsicht: Umkehrung gilt nicht!

– Bestimmtheitsmaß: 0,577 – Korrelationskoeffizient: 0,759

Page 43: 1 STATISIK LV Nr.: 0021 WS 2005/06 10. November 2005

43

Regressionsanalyse

• Beispiel: Körpergröße (X), Gewicht (Y)– Koeffiziententests (t-Tests):

– H0: α = 0 ablehnen (p-Wert < 0,05) => α 0

– H0: β = 0 ablehnen (p-Wert < 0,05) => β 0

– F-Test: H0 ablehnen (Prüfgröße > kritischer Wert) => Zusammenhang zw. den Variablen

Page 44: 1 STATISIK LV Nr.: 0021 WS 2005/06 10. November 2005

44

Regressionsanalyse

• Prognose

• Ziel: bei gegebenen Werten der unabhängigen Variable, zugehörigen Wert der abhängigen Variable prognostizieren. – Schätzung des Erwartungswertes E(yf) an der

Stelle xf.

– Schätzung eines Einzelwertes yf an der Stelle xf.

Page 45: 1 STATISIK LV Nr.: 0021 WS 2005/06 10. November 2005

45

Regressionsanalyse

• Geg. xf (weiterer Wert von X)

• Ges. zugehöriger Wert yf von Y und/oder „mittleres“ Verhalten E(yf) = a + bxf.

• Weitere Annahmen: – yf = α + βxf + εf

– E(εf) = 0

– E(εf²) = σ²

– Cov(εf, εi) = 0

– xf nicht stochastisch

Page 46: 1 STATISIK LV Nr.: 0021 WS 2005/06 10. November 2005

46

Regressionsanalyse

• Parameter α und β bekannt: – Prognose der Einzelwerte: yf = α + βxf

– Prognose des Erwartungswertes: E(yf) = α + βxf

• Parameter unbekannt. – Prognose der Einzelwerte: ŷf = a + bxf ŷf

ist ein unverzerrter Prediktor für yf

– Prognose des Erwartungswertes: E(ŷf ) = a + bxf

ŷf ist ein unverzerrter Prediktor für E(yf)

Page 47: 1 STATISIK LV Nr.: 0021 WS 2005/06 10. November 2005

47

Regressionsanalyse

• Prognose Erwartungswert: E(ŷf ) = a + bxf

• Varianz des durchschnittlichen Prognosewertes sŷf²:

• Ist σ² unbekannt, wird es ersetzen durch s² (s² = 1/(n-2) ei²)

22 f

f f f 2i

(x-x )1ˆ ˆVar(y )=Var(y -E(y ))=σ +

n (x -x)

Page 48: 1 STATISIK LV Nr.: 0021 WS 2005/06 10. November 2005

48

Regressionsanalyse

• Prognose Einzelwert: ŷf = a + bxf

• Prognosefehler: ef = yf – ŷf

• Varianz des individuellen Prognosefehlers sf²:

• Ist σ² unbekannt, wird es ersetzen durch s² (s² = 1/(n-2) ei²)

22 f

f f f 2i

(x-x )1ˆVar(e )=Var(y -y )=σ 1 +

n (x -x)

Page 49: 1 STATISIK LV Nr.: 0021 WS 2005/06 10. November 2005

49

Regressionsanalyse

• Zusätzlich Ann: Störvariable εf ~ N(0,σ²)

• 1-α Konfidenzintervall für E(ŷf):

[ŷf – t sŷf ; ŷf + t sŷf]

t = t1-α/2;n-2

• 1-α Prognoseintervall für ŷf:

[ŷf – t sf ; ŷf + t sf]

t = t1-α/2;n-2

Page 50: 1 STATISIK LV Nr.: 0021 WS 2005/06 10. November 2005

50

Regressionsanalyse

• Residuenanalyse

• Ex-post Überprüfung der Modellannahmen.

• Ann 1: E(εi) = 0

• Ann 2: Var(εi) = σ²

• Ann 3: Cov(εi,εj) = 0

Page 51: 1 STATISIK LV Nr.: 0021 WS 2005/06 10. November 2005

51

Regressionsanalyse

• Grafische Residualanalyse

• Residuen der KQ Schätzer: ei = yi – ŷi

• Streudiagramm: Residuen gegen X (Werte der unabhängige Variable)

• Streudiagramm: Residuen gegen Ŷ (Prognosewerte).

• Es gilt: ei = 0 und arithm. Mittel der ei = 0

Page 52: 1 STATISIK LV Nr.: 0021 WS 2005/06 10. November 2005

52

Regressionsanalyse

• Residuen gegen X:Residuenplot

-4

-3

-2

-1

0

1

2

3

4

5

0 5 10 15 20 25 30 35 40 45

X

Re

sid

ue

n

Page 53: 1 STATISIK LV Nr.: 0021 WS 2005/06 10. November 2005

53

Regressionsanalyse

• Residuen gegen Ŷ:Residuenplot

-4

-3

-2

-1

0

1

2

3

4

5

0 5 10 15 20 25 30 35 40 45

Ŷ

Re

sid

ue

n

Page 54: 1 STATISIK LV Nr.: 0021 WS 2005/06 10. November 2005

54

Regressionsanalyse

• Ann (2) verletzt, Varianzen nicht homogen, Hetroskedastizität

Residuenplot

-5

-4

-3

-2

-1

0

1

2

3

4

5

0 5 10 15 20 25 30 35 40 45

X

Re

sid

ue

n

Page 55: 1 STATISIK LV Nr.: 0021 WS 2005/06 10. November 2005

55

Regressionsanalyse

• Ann. linearen Regressionsfunktion verletzt. Residuenplot

-6

-4

-2

0

2

4

6

8

0 5 10 15 20 25 30 35 40 45

X

Re

sid

ue

n

Page 56: 1 STATISIK LV Nr.: 0021 WS 2005/06 10. November 2005

56

Regressionsanalyse

• Streudiagramm: ei gegen ei-1

• Autokorrelation der Residuen

Residuenplot

-4

-3

-2

-1

0

1

2

3

4

5

-4 -3 -2 -1 0 1 2 3 4 5

Residuen e(i-1)

Re

sid

ue

n e

(i)

Residuenplot

-3

-2

-1

0

1

2

3

4

-4 -3 -2 -1 0 1 2 3 4

Residuen e(i-1)

Re

sid

ue

n e

(i)

Page 57: 1 STATISIK LV Nr.: 0021 WS 2005/06 10. November 2005

57

Regressionsanalyse

• Normalverteilung der εi: QQ-Plot– Empirische- und Theoretische Quantile

-2,0

-1,5

-1,0

-0,5

0,0

0,5

1,0

1,5

2,0

-2 -1,5 -1 -0,5 0 0,5 1 1,5 2empirische Quantile