36
Statistik II 2. Lektion Multipel Lineær Regression

Statistik II 2. Lektion

Embed Size (px)

DESCRIPTION

Statistik II 2. Lektion. Multipel Lineær Regression. Middelværdi og Varians. Antag at X er en kontinuert stokastisk variabel Antag at X har tæthedsfunktion f(x). Middelværdien (eller den forventede værdi) for X er Variansen for X er - PowerPoint PPT Presentation

Citation preview

Statistik II2. Lektion

Multipel Lineær Regression

Middelværdi og Varians

Antag at X er en kontinuert stokastisk variabel Antag at X har tæthedsfunktion f(x).

Middelværdien (eller den forventede værdi) for X er

Variansen for X er

Variansen er altså den forventede kvadrerede afstand fra middelværdien. kaldes standardafvigelsen.

dxxxfXE )(][

dxxfxXEXV )()(])[(][ 222

2

NormalfordelingenNormal fordelingen har tæthedsfunktionen

hvor • m er middelværdien og • s er standardafvigelsen

2

2

2 2exp

2

1)(

x

xf

m m+1.96sm-1.96s

95%2.5%2.5%

Regneregler

Antag X er en stokastisk variabel. Antag a og b er konstanter

Regneregel for middelværdi:

Regneregel for varians:

Eksempel: Håndboldspiller tjener 10,000kr/md + 250kr/mål. Lad X være det (tilfældige) antal mål/md. E[X] = 12 og V[X] = 4 Hvad er middelværdi og varians for indkomst?

bXaEbaXE ][][

][][ 2 XVabaXV

Fre

quency

-4 -2 0 2 4

020

40

60

80

100

Sammen gennemsnit og standardafv. (ca.)

Fre

quency

-6 -4 -2 0 2 4 6 8

020

40

60

80

Middelværdi og Varians for en Stikprøve Middelværdi for en stikprøve:

Varians for en stikprøve:

Interessante fakta:

n

xx

n

ii

1

11

2

2

n

xxs

n

ii

og ][xE 22 ][ sE

Multipel Lineær Regression Y afhængig skala variabel X1,…,Xk k forklarende variable, skala eller binære

Multipel Lineær Regressionsmodel:

xj,i er j’te forklarende variabel for i’te observation. Fejlleddet ei ”opsamler” den uforklarede del af modellen.

Antagelser: e1,…,en er uafhængige og identisk fordelt ei ~ N(0,s2)

Konsekvens:

iikkii xxY ,,11

ikkii xxXYE ,,11]|[

Simpel lineær regression

X

Y

Xi

Yi { b1

1

a

ei

E[Y | X] = a + β1X

iii xy 1

),0( 2 Ni iid

MLR med én skala forklarende variabel (k = 1)

Modellen er

Modellen siger: E(Y | X) = a +b1 X V(Y | X) = s2

Y | X ~ N(a +b1X , s2)

Endnu en tegning…

X

Y

i.i.d. normalfordelte fejlled

Yi|xi~N(a + β1xi,σ2)

x1 x3x2 x4 x5

xY 1

Estimation Model:

yi = a + b1 xi + ei

εi er i.i.d. N(0,σ2) a, β1 og σ2 er modellens parametre – ukendte!

Estimation af a og b1 svarer til at vælge den linje, der passer bedst til de observerede punkter.

Estimerede regressions linje

a er estimat for a og b1 er estimat for β1. ”Y hat” er estimat for E(Y|X) Spørgsmål: Hvordan estimerer vi a og b1?

xbay 1ˆ

er den lodrette afstanden fra den estimerede linje til datapunktet (xi,yi).

)ˆ( iii yye

Residual led

iYiYieˆ

Y

X

iY

iY

Xi

iXYiY givet for værdi eforvendted den ˆ

),( ii YX

XbaY 1ˆ

Den estimerede regressionslinje

datapunkt eobservered Det

Mindste kvadraters metode

Vi vil finde a og b1 så summen af de kvadrerede fejl bliver mindst mulig.

Dvs, vi vil minimere

SSE er Sum of Squared Errors. Skrevet ud:

Bemærk: Funktion af to variable (a og b1).

n

i ieSSE1

2

n

i ii

n

i ii

n

i i xbayyye1

211

2

1

2 )()ˆ(

SSE er en funktion af a og b1.

Vi vil finde a og b1 så SSE er mindst mulig.

Minimering

aSSE

b1

Hypotestest af hældning (β1) Spørgsmål: Har den forklarende variabel xj virkelig en

betydning for y? Test for om hældningen, β1 er forskellig fra nul:

Teststørrelse:

Intuition: Værdier af t langt fra nul er ufordelagtige for H0.

SE(b1) er standardfejlen for estimatet b1.

Hvis H0 er sand er stikprøvefordelingen af t en såkaldt t-fordeling med n-k-1 frihedsgrader, hvor n er antal observationer.

0:0: 10 jj HH vs

)( j

j

bSE

bt

Test af hældning (β1) Vælg et signifikansniveau, typisk α=0.05. Udregn teststørrelsen

Bestem p-værdien (SPSS). Beslutning: Hvis p-værdien < a afvises H0.

0 . 8

0 . 7

0 . 6

0 . 5

0 . 4

0 . 3

0 . 2

0 . 1

0 . 0

tOrange område = p-værdi

t0

t-fordeling med n-2 frihedsgrader

Fortolkning/Eksempler på H0

Er der en lineær sammenhæng mellem X og Y?

H0: b1 = 0 ingen lineær sammenhæng

H1: b1 0 lineær sammenhæng

Følgende er eksempler, hvor H0 ikke kan afvises.

Y

X

Y

X

Y

X

Konstant Y Usystematisk variation Ikke-lineær sammenhæng

SPSS Analyze → General Linear Models → Univariate…

Kategoriske forklarende variableSkala forklarende variable

Eksempel

Y : Forbrug af gas (gas) X : Udetemperatur (temp)

Scatterplot →

SPSS:

Estimerede model:

Både skæring (a) og hældning (b1) er signifikante! Fortolkning?

xy 290.0486,5ˆ

Spørgsmål: Er der sammen-hæng mellem udetempe-raturen og forbruget af gas?

Forklaret og uforklaret afvigelse Lad være gennemsnittet af alle yi’er

yi’s afvigelse fra kan opdeles i to.

.Y

X

Y

Y

Y

X

Forklaret afvigelse

Totale afvigelse

Uforklaret afvigelse

X

y

y

),( yxbxay ˆ

Den Totale Variation

y

Den totale variation i y’erne er givet ved Sum of Squares Total (SST):

n

ii yySST

1

2

ix

iyyyi

Den Uforklarede Variation

bxay ˆ

Den uforklarede variation i y’erne er givet ved Sum of Squares Errors (SSE):

n

iii yySSE

1

ix

iy

iii yye ˆ

Den Forklarede Variation

Den forklarede variation er betegnes Sum of Squares Regression (SSR)

Man kan vise:

Dvs.

Dvs.

n

ii yySSR

1

2

1

2

1

2

1ˆˆ

n

i i

n

i ii

n

i i yyyyyy

SSESSRSST

Total variation = Forklaret variation + Uforklaret variation

Determinations koeffcienten R2 Determinations Koefficienten: Andelen af den totale

variation, der er forklaret.

Pr definition: 0 ≤ R2 ≤ 1.

Jo tættere R2 er på 1, jo mere af variationen i data er forklaret af modellen.

R2 >0.8 er godt! … R2 meget tæt på 1 er dog mistænkeligt.

SST

SSE

SST

SSESST

SST

SSRR

12

variation Total

variation Forklaret

Eksempler på R2

Y

X

R2 = 0 SSE

SST

Y

X

R2 = 0.90SSE

SST

SSR

Y

X

R2 = 0.50 SSE

SST

SSR

H0: b1 = b2 = … = bk = 0

H1: Mindst et bi ≠ 0

Teststørrelse:

Store værdier af F er ufordelagtige for H0.

Er modellen besværet værd?Der er ingen (lineær) sammenhæng mellem Y og de forklarende variable

Der er (lineær) sammenhæng mellem Y og mindst én af de forklarende variable

1,1~1

knFMSE

MSR

knSSE

kSSRF

Mean Squared Error

Mean Squared Regression

Eksempel: R2 og F-test

SSR

SSE

SST

467,0014,75

019,352 SST

SSRR

282,47741,0

019,35F

MSR

p-værdi

MSE

F=MSR/MSE

F-fordelingen

543210

0 .7

0 .6

0 .5

0 .4

0 .3

0 .2

0 .1

0 .0

F

f(F

)

Areal = p-værdi

F-fordeling

F

Eksempel - fortsat Y : Forbrug af gas, skala (gas) XTemp : Udetemperatur, skala (temp)

XIsolering: {Før, Efter}, kategorisk (insulate)

Omkod XIsolering til binær dummy variabel XFør

XFør = 1 hvis XIsolering = Før

XFør = 0 hvis XIsolering = Efter

Model: FørFørTempTemp xxY 0

Når XIsolering = Før

Når XIsolering = Efter

To linjer med forskellig skæringspunkter! Før angiver forskellen i skæringspunkt.

TempTemp

FørTempTemp

x

xY 0

Fortolkning af model

TempTempFør

FørTempTemp

x

xY 1

To regressionslinjer med forskellige skæringer, men samme hældning

X1

Y

Linje for XFør=1

Linje for XFør=0

a

a + bFør

Eksempel og SPSS SPSS: Som før, dog er ’Insulate’ tilføjet ’Fixed factor’

Som ventet er F-testet stadig signifikant. Som ventet er R2 vokset – med nye variable kan

modellen aldrig forklare mindre end før. Bemærk at R2 er meget større!

Estimater

Estimeret model:

Prædikteret gas-forbrug for et hus før det isolering når temperatur er 7o (xTemp = 7 og XFør=1):

Eksempel og SPSS

FørTemp xxy 565,1337,0986,4ˆ

192,41565,17337,0986,4

Vekselvirkning / Interaktion

Vi kan introducere en vekselvirkning mellem kvalitative og kvantitative variable.

Y, XTemp og XFør er som før.

Introducer: XTemp,Før = XTemp∙XFør

Model FørTempFørTempFørFørTempTemp xxxY ,,

),0(~ 2 N

Fortolkning Når XIsolering = Før:

Når XIsolering = Efter:

bTemp,Før beskriver forskellen i hældningen mellem de to regressionslinjer.

TempTemp

TempFørTempFørTempTemp

x

xxxYE

00| ,

TempFørTempTempFør

TempFørTempFørTempTemp

x

xxxYE

,

, 11|

SPSS Hoved-effekt: ”Ensom” variabel Interaktionsled: Produkt af to eller flere variable I SPSS: Under ’Model’ angiv hoved-effekter og

interaktionsled. Indsæt altid hoved-effekter først!

Scatterplot → Estimater

Estimeret model:

FørTempFørTemp xxxy ,115,0130,2278.0724,4ˆ