46
Statistik II Lektion 4 Generelle Lineære Modeller Simpel Lineær Regression Multipel Lineær Regression Flersidet Variansanalyse (ANOVA)

Statistik II Lektion 4 Generelle Lineære Modeller

Embed Size (px)

DESCRIPTION

Statistik II Lektion 4 Generelle Lineære Modeller. Simpel Lineær Regression Multipel Lineær Regression Flersidet Variansanalyse (ANOVA). Logistisk regression. Yafhængig binær variabel X 1 ,…,X k forklarende variable, skala eller binære Model: Sandsynlighed:. Generel Lineær Model. - PowerPoint PPT Presentation

Citation preview

Page 1: Statistik II  Lektion 4 Generelle Lineære Modeller

Statistik II Lektion 4Generelle Lineære Modeller

Simpel Lineær Regression

Multipel Lineær Regression

Flersidet Variansanalyse (ANOVA)

Page 2: Statistik II  Lektion 4 Generelle Lineære Modeller

Logistisk regression

Y afhængig binær variabel X1,…,Xk forklarende variable, skala eller binære

Model:

Sandsynlighed:

k

i iikk xxxXYP

XYPXYLogit

111)|1(1

)|1(ln)|1(

k

i ii

ki ii

x

x

e

eXYP

1

1

1)|1(

Page 3: Statistik II  Lektion 4 Generelle Lineære Modeller

Generel Lineær Model Y afhængig skala variabel X1,…,Xk forklarende variable, skala eller binære

Model: Middelværdien af Y givet X

Mere præcist: i’te observation ud af n er givet ved

xj,i er j’te forklarende variabel for i’te observation.

1,…,n er uafhængige og identisk fordelt i ~ N(0,2)

k

i iikk xxxXYE111)|(

iikkii xxY ,,11

IID

Page 4: Statistik II  Lektion 4 Generelle Lineære Modeller

Simpel lineær regression

X

Y

Xi

Yi { β1

1

0

εi

E[Y|X] = + β1X

iii xy 1

),0( 2 Ni iid

GLM med én skala forklarende variabel (k=1)

Modellen er

Modellen siger: E(Y|X) = + 1X V(Y|X) = σ2

Y|X ~ N( + β1X, σ2)

Page 5: Statistik II  Lektion 4 Generelle Lineære Modeller

Endnu en tegning…

X

Y

i.i.d. normalfordelte fejlled

Yi|xi~N( + β1xi,σ2)

x1 x3x2 x4 x5

xY 1

Page 6: Statistik II  Lektion 4 Generelle Lineære Modeller

Estimation Model:

yi = + 1 xi + i

εi er i.i.d. N(0,σ2) , β1 og σ2 er modellens parametre – ukendte!

Estimation af β0 og β1 svarer til at vælge den linje, der passer bedst til de observerede punkter.

Estimerede regressions linje

a er estimat for og b1 er estimat for β1. ”Y hat” er estimat for E(Y|X) Spørgsmål: Hvordan estimerer vi og β1?

xbay 1ˆ

Page 7: Statistik II  Lektion 4 Generelle Lineære Modeller

er den lodrette afstanden fra den estimerede linie til datapunktet (xi,yi).

)ˆ( iii yye

Residual led

iYiYieˆ

YY

XX

iY

iY

XXii

iXYiY givet for værdi eforvendted den ˆ

),( ii YX

XbaY 1ˆ

Den estimerede regressionslinje

datapunkt eobservered Det

Page 8: Statistik II  Lektion 4 Generelle Lineære Modeller

Mindste kvadraters metode

Vi vil finde a og b1 så summen af de kvadrerede fejl bliver mindst mulig.

Dvs, vi vil minimere

SSE er Sum of Squared Errors. Skrevet ud:

Bemærk: Funktion af to variable (a og b1).

n

i ieSSE1

2

n

i ii

n

i ii

n

i i xbayyye1

211

2

1

2 )()ˆ(

Page 9: Statistik II  Lektion 4 Generelle Lineære Modeller

SSE er en funktion af a og b1.

Vi vil finde a og b1 så SSE er mindst mulig.

Minimering

aSSE

b1

Page 10: Statistik II  Lektion 4 Generelle Lineære Modeller

Test af hældning (β1) Test for om hældningen, β1 er forskellig fra nul:

Teststørrelse:

Numerisk store værdier af t er ufordelagtige for H0.

SE(b1) er standardfejlen for estimatet b1.

Hvis H0 er sand følger t en såkaldt t-fordeling med n-k-1 frihedsgrader, hvor n er antal observationer.

0:0: 1110 vs HH

)( 1

1

bSE

bt

Page 11: Statistik II  Lektion 4 Generelle Lineære Modeller

Test af hældning (β1) Vælg et signifikansniveau, typisk α=0.05. Udregn teststørrelsen

Bestem p-værdien (SPSS). Beslutning: Hvis p-værdien < α afvises H0.

0 . 8

0 . 7

0 . 6

0 . 5

0 . 4

0 . 3

0 . 2

0 . 1

0 . 0

tOrange område = p-værdi

t0

t-fordeling med n-2 frihedsgrader

Page 12: Statistik II  Lektion 4 Generelle Lineære Modeller

Fortolkning/Eksempler på H0

Er der en lineær sammenhæng mellem X og Y?

H0: β1=0 ingen lineær sammenhæng

H1: ≠ lineær sammenhæng

Følgende er eksempler, hvor H0 accepteres.

Y

X

Y

X

Y

X

Konstant Y Usystematisk variation Ikke-lineær sammenhæng

Page 13: Statistik II  Lektion 4 Generelle Lineære Modeller

Eksempel

Y : Forbrug af gas (gas) X : Udetemperatur (temp)

Scatterplot →

SPSS:

Estimerede model:

Både skæring () og hældning (1) er signifikante!

xy 290.0486,5ˆ

Page 14: Statistik II  Lektion 4 Generelle Lineære Modeller

SPSS Analyze → General Linear Models → Univariate…

Kategoriske forklarende variableSkala forklarende variable

Page 15: Statistik II  Lektion 4 Generelle Lineære Modeller

Forklaret og uforklaret afvigelse Lad være gennemsnittet af alle yi’er

yi’s afvigelse fra kan opdeles i to.

.Y

X

Y

Y

Y

X

Forklaret afvigelse

Totale afvigelse

Uforklaret afvigelse

X

y

y

),( yxbxay ˆ

Page 16: Statistik II  Lektion 4 Generelle Lineære Modeller

Total og forklaret variation - illustration

Den totale variationses når vi “kigger langs” x-aksen

Den uforklarede variation ses når vi “kigger langs” regressionslinjen

Y

X X

Y

Page 17: Statistik II  Lektion 4 Generelle Lineære Modeller

Den totale variation

Lad være gennemsnittet af alle yi’er

Den totale variation for data er

”Variationen i data omkring datas middelværdi” SST = Sum of Squares Total

n

i i yySST1

2)(

y

Page 18: Statistik II  Lektion 4 Generelle Lineære Modeller

Opslitning af den totale variation Den totale variation kan opslittes:

er den uforklarede variation.

er den forklarede variation.

SSR = Sum of Squares Regression

2

1

2

1

2

1ˆˆ

n

i i

n

i ii

n

i i yyyyyy

2

n

i ii yySSE

2

n

i i yySSR

Page 19: Statistik II  Lektion 4 Generelle Lineære Modeller

Total og forklaret variation

Opsplitning af variationen

SSRSSESST

yyyyyyn

i i

n

i ii

n

i i

2

1

2

1

2

1ˆˆ

Forklaret Uforklaret Total

Page 20: Statistik II  Lektion 4 Generelle Lineære Modeller

Determinations koeffcienten R2 Determinations Koeffcienten: Andelen af den totale

variation, der er forklaret.

Pr definition: 0 ≤ R2 ≤ 1.

Jo tættere R2 er på 1, jo mere af variationen i data er forklaret af modellen.

R2 >0.8 er godt! … R2 meget tæt på 1 er dog mistænkeligt.

SST

SSE

SST

SSESST

SST

SSRR

12

variation Total

variation Forklaret

Page 21: Statistik II  Lektion 4 Generelle Lineære Modeller

Eksempler på R2

Y

X

R2 = 0 SSE

SST

Y

X

R2 = 0.90SSE

SST

SSR

Y

X

R2 = 0.50 SSE

SST

SSR

Page 22: Statistik II  Lektion 4 Generelle Lineære Modeller

H0: 1 = 2 = … = k = 0

H1: Mindst et i ≠ 0

Teststørrelse:

Store værdier af F er ufordelagtige for H0.

Er modellen besværet værd?Der er ingen (lineær) sammenhæng mellem Y og de forklarende variable

Der er (lineær) sammenhæng mellem Y og mindst én af de forklarende variable

2,1~1

nFMSE

MSR

knSSE

kSSRF

Mean Squared Error

Mean Squared Regression

Page 23: Statistik II  Lektion 4 Generelle Lineære Modeller

F-test detaljer Husk at

Det medfører at og

Hvilket giver

Dvs. jo mere modellen kan forklare, større F, og jo mindre tror vi på H0-hypotesen om ingen sammenhæng.

111 2

2

knR

kR

knSSE

kSSRF

SST

SSE

SST

SSRR 12

2RSSTSSR 21 RSSTSSE

Page 24: Statistik II  Lektion 4 Generelle Lineære Modeller

Eksempel: R2 og F-test

SSR

SSE

SST

467,0014,75

019,352 SST

SSRR

282,47741,0

019,35F

MSR

p-værdi

MSE

F

Page 25: Statistik II  Lektion 4 Generelle Lineære Modeller

F-fordelingen

543210

0 .7

0 .6

0 .5

0 .4

0 .3

0 .2

0 .1

0 .0

F

f(F

)

Areal = p-værdi

F-fordeling

F

Page 26: Statistik II  Lektion 4 Generelle Lineære Modeller

Eksempel - fortsat Y : Forbrug af gas, skala (gas) XTemp : Udetemperatur, skala (temp)

XIsolering: {Før, Efter}, kategorisk (insulate)

Omkod XIsolering til binær variabel XFør

XFør = 1 hvis XIsolering = Før

XFør = 0 hvis XIsolering = Efter

Model: FørFørTempTemp xxY 0

Page 27: Statistik II  Lektion 4 Generelle Lineære Modeller

Fortolkning af model Når XIsolering = Før

Når XIsolering = Efter

To linjer med forskellig skæringspunkter! Før angiver forskellen i skæringspunkt.

TempTempFør

FørTempTemp

x

xY 1

TempTemp

FørTempTemp

x

xY 0

Page 28: Statistik II  Lektion 4 Generelle Lineære Modeller

To regressionslinjer med forskellige skæringer, men samme hældning

X1

Y

Linje for XFør=1

Linje for XFør=0

+ Før

Page 29: Statistik II  Lektion 4 Generelle Lineære Modeller

Eksempel og SPSS SPSS: Som før, dog er ’Insulate’ tilføjet ’Fixed factor’

Som ventet er F-testet stadig signifikant. Som ventet er R2 vokset – med nye variable kan

modellen aldrig forklare mindre end før. Bemærk at R2 er meget større!

Page 30: Statistik II  Lektion 4 Generelle Lineære Modeller

Estimater

Estimeret model:

Prædikteret gas-forbrug for et hus før det isolering når temperatur er 7o (xTemp = 7 og XFør=1):

Eksempel og SPSS

FørTemp xxy 565,1337,0986,4ˆ

192,41565,17337,0986,4

Page 31: Statistik II  Lektion 4 Generelle Lineære Modeller

Vekselvirkning / Interaktion

Vi kan introducere en vekselvirkning mellem kvalitative og kvantitative variable.

Y, XTemp og XFør er som før.

Introducer: XTemp,Før = XTemp∙XFør

Model FørTempFørTempFørFørTempTemp xxxY ,,

),0(~ 2 N

Page 32: Statistik II  Lektion 4 Generelle Lineære Modeller

Fortolkning Når XIsolering = Før:

Når XIsolering = Efter:

Temp,Før beskriver forskellen i hældningen mellem de to regressionslinjer.

TempTemp

TempFørTempFørTempTemp

x

xxxYE

00| ,

TempFørTempTempFør

TempFørTempFørTempTemp

x

xxxYE

,

, 11|

Page 33: Statistik II  Lektion 4 Generelle Lineære Modeller

SPSS Hoved-effekt: ”Ensom” variabel Interaktionsled: Produkt af to eller flere variable I SPSS: Under ’Model’ angiv hoved-effekter og

interaktionsled. Indsæt altid hoved-effekter først!

Page 34: Statistik II  Lektion 4 Generelle Lineære Modeller

Scatterplot → Estimater

Estimeret model:

FørTempFørTemp xxxy ,115,0130,2278.0724,4ˆ

Page 35: Statistik II  Lektion 4 Generelle Lineære Modeller

Variansanalyse (ANOVA)

En Generel Lineær Model, der kun har kategoriske forklarende variable, kaldes en variansanalyse.

På engelsk: Analysis of Variance (ANOVA)

Eksempel: Y: Månedlige forbrug Shopping: Hver 2. uge, Ugentligt, Oftere Køn: Mand, Kvinde

Page 36: Statistik II  Lektion 4 Generelle Lineære Modeller

Dummy-variable

To kategoriske variable: Omkodning til dummy variable.

Referencekategorier: ”Kvinde” og ”Ofte” (SPSS vælger altid sidste kategori som reference)

Køn XMand

Mand 1

Kvinde 0

Stil XH2U XUge

Hver 2. uge 1 0

Ugentlig 0 1

Ofte 0 0

Page 37: Statistik II  Lektion 4 Generelle Lineære Modeller

Model Den generelle lineære model er:

E(Y|x) = + KvindeXKvinde + H2UXH2U + UgeXUge

Fortolkning E(Y|Køn=Mand,Stil) - E(Y|Køn=Kvinde, Stil) =

( + Mand∙1 + H2U XH2A + Uge XUge ) –

( + Mand∙0 + H2A XH2A + Uge XUge) = Kvinde

Dvs. Mand angiver forskellen i gennemsnits-forbruget for mænd i forhold til kvinder (uagtet deres shopping-stil).

Page 38: Statistik II  Lektion 4 Generelle Lineære Modeller

Mere fortolkning

H2U angiver forskellen i gennemsnits-forbrug for folk der handler hver 2. uge i forhold til folk der handler ofte.

Uge angiver forskellen i gennemsnits-forbrug for folk der handler ugentligt i forhold til folk der handler ofte.

Page 39: Statistik II  Lektion 4 Generelle Lineære Modeller

Hypotesetest Hypoteser

H0: H2A = Uge = 0

H1: H2A ≠ 0 og/eller Uge ≠ 0

Teststørrelse:

Store værdier af F er ufordelagtige for H0. Intuition: Jo mere af den totale variation ”Stil” forklarer,

jo større er SSStil og dermed F.

)1,(~1

knqFMSE

MS

knSSE

qSSF StilStil

SSStil : Sum of Squares for ’Stil’

q : Antal parametre forbundet med ’Stil’ (2)

Page 40: Statistik II  Lektion 4 Generelle Lineære Modeller

SPSS Analyze → General Linear Model → Univarite ’amtspend’ som ’dependent’ ’style’ og ’gender’ som ’fixed factor’

Bemærk at ’style’ ikke er signifikant! Bemærk: R2 = 0.118, dvs. kun 11,8% af den totale variation er

forklaret af modellen!

Page 41: Statistik II  Lektion 4 Generelle Lineære Modeller

Estimerede model

Den estimerede model: E(Y|x) = XMand XH2U XUge

Prædiktion: Gennemsnitsforbruget for en mand, der shopper ugentligt er: E(Y|Køn = Mand, Shopping = Ugentligt ) =

374,133 + 61,183 ∙1 27,703 ∙0 4,271∙1 = 431,045

Page 42: Statistik II  Lektion 4 Generelle Lineære Modeller

Vekselvirkning

Introducer vekselvirkning: Køn*Stil Nye dummy variable: XKøn,Stil = Xkøn*XStil.

Bemærk: Dummy-variable XKøn,Stil = 0 hvis reference-kategori er indblandet.

Mand Kvinde (ref.kat.)

Hver 2. uge XMand,H2U ٪

Ugentlig XMand,Uge ٪

Ofte (ref.kat.) ٪ ٪

Page 43: Statistik II  Lektion 4 Generelle Lineære Modeller

Model

Den generelle lineære model er:

E(Y|x) = + Mand XMand + H2U XH2U + Uge XUge +

Mand,H2U XMand,H2U + Mand,Uge XMand,Uge

Page 44: Statistik II  Lektion 4 Generelle Lineære Modeller

SPSS

Bemærk: Hoved-effekter før interaktioner!

Page 45: Statistik II  Lektion 4 Generelle Lineære Modeller

SPSS

R2 er nu 0,138. Bemærk: Interaktionen ’Køn*Stil’ er signifikant,

mens hovedeffekten ’Stil’ ikke er! ”Normalt”: Fjerne led med højest p-værdi, dvs.

mindst signifikante led. Hierarkiske princip: Vi fjerner ikke en hoved-

effekt, hvis den indgår i en interaktion.

Page 46: Statistik II  Lektion 4 Generelle Lineære Modeller

Estimerede model

Estimerede model er: = + XMand

61,751 XH2U 44,006 XUge +

XMand,H2U + 77,196 XMand,Uge

y