Statistik II Lektion 4 Generelle Lineære Modeller

Statistik II Lektion 4Generelle Lineære Modeller

Simpel Lineær Regression

Multipel Lineær Regression

Flersidet Variansanalyse (ANOVA)

Logistisk regression

Y afhængig binær variabel X1,…,Xk forklarende variable, skala eller binære

Model:

Sandsynlighed:

k

i iikk xxxXYP

XYPXYLogit

111)|1(1

)|1(ln)|1(

k

i ii

ki ii

x

x

e

eXYP

1

1

1)|1(

Generel Lineær Model Y afhængig skala variabel X1,…,Xk forklarende variable, skala eller binære

Model: Middelværdien af Y givet X

Mere præcist: i’te observation ud af n er givet ved

xj,i er j’te forklarende variabel for i’te observation.

1,…,n er uafhængige og identisk fordelt i ~ N(0,2)

k

i iikk xxxXYE111)|(

iikkii xxY ,,11

IID

Simpel lineær regression

X

Y

Xi

Yi { β1

1

0

εi

E[Y|X] = + β1X

iii xy 1

),0( 2 Ni iid

GLM med én skala forklarende variabel (k=1)

Modellen er

Modellen siger: E(Y|X) = + 1X V(Y|X) = σ2

Y|X ~ N( + β1X, σ2)

Endnu en tegning…

X

Y

i.i.d. normalfordelte fejlled

Yi|xi~N( + β1xi,σ2)

x1 x3x2 x4 x5

xY 1

Estimation Model:

yi = + 1 xi + i

εi er i.i.d. N(0,σ2) , β1 og σ2 er modellens parametre – ukendte!

Estimation af β0 og β1 svarer til at vælge den linje, der passer bedst til de observerede punkter.

Estimerede regressions linje

a er estimat for og b1 er estimat for β1. ”Y hat” er estimat for E(Y|X) Spørgsmål: Hvordan estimerer vi og β1?

xbay 1ˆ

er den lodrette afstanden fra den estimerede linie til datapunktet (xi,yi).

)ˆ( iii yye

Residual led

iYiYieˆ

YY

XX

iY

iY

XXii

iXYiY givet for værdi eforvendted den ˆ

),( ii YX

XbaY 1ˆ

Den estimerede regressionslinje

datapunkt eobservered Det

Mindste kvadraters metode

Vi vil finde a og b1 så summen af de kvadrerede fejl bliver mindst mulig.

Dvs, vi vil minimere

SSE er Sum of Squared Errors. Skrevet ud:

Bemærk: Funktion af to variable (a og b1).

n

i ieSSE1

2

n

i ii

n

i ii

n

i i xbayyye1

211

2

1

2 )()ˆ(

SSE er en funktion af a og b1.

Vi vil finde a og b1 så SSE er mindst mulig.

Minimering

aSSE

b1

Test af hældning (β1) Test for om hældningen, β1 er forskellig fra nul:

Teststørrelse:

Numerisk store værdier af t er ufordelagtige for H0.

SE(b1) er standardfejlen for estimatet b1.

Hvis H0 er sand følger t en såkaldt t-fordeling med n-k-1 frihedsgrader, hvor n er antal observationer.

0:0: 1110 vs HH

)( 1

1

bSE

bt

Test af hældning (β1) Vælg et signifikansniveau, typisk α=0.05. Udregn teststørrelsen

Bestem p-værdien (SPSS). Beslutning: Hvis p-værdien < α afvises H0.

0 . 8

0 . 7

0 . 6

0 . 5

0 . 4

0 . 3

0 . 2

0 . 1

0 . 0

tOrange område = p-værdi

t0

t-fordeling med n-2 frihedsgrader

Fortolkning/Eksempler på H0

Er der en lineær sammenhæng mellem X og Y?

H0: β1=0 ingen lineær sammenhæng

H1: ≠ lineær sammenhæng

Følgende er eksempler, hvor H0 accepteres.

Y

X

Y

X

Y

X

Konstant Y Usystematisk variation Ikke-lineær sammenhæng

Eksempel

Y : Forbrug af gas (gas) X : Udetemperatur (temp)

Scatterplot →

SPSS:

Estimerede model:

Både skæring () og hældning (1) er signifikante!

xy 290.0486,5ˆ

SPSS Analyze → General Linear Models → Univariate…

Kategoriske forklarende variableSkala forklarende variable

Forklaret og uforklaret afvigelse Lad være gennemsnittet af alle yi’er

yi’s afvigelse fra kan opdeles i to.

.Y

X

Y

Y

Y

X

Forklaret afvigelse

Totale afvigelse

Uforklaret afvigelse

X

y

y

),( yxbxay ˆ

Total og forklaret variation - illustration

Den totale variationses når vi “kigger langs” x-aksen

Den uforklarede variation ses når vi “kigger langs” regressionslinjen

Y

X X

Y

Den totale variation

Lad være gennemsnittet af alle yi’er

Den totale variation for data er

”Variationen i data omkring datas middelværdi” SST = Sum of Squares Total

n

i i yySST1

2)(

y

Opslitning af den totale variation Den totale variation kan opslittes:

er den uforklarede variation.

er den forklarede variation.

SSR = Sum of Squares Regression

2

1

2

1

2

1ˆˆ

n

i i

n

i ii

n

i i yyyyyy

2

1ˆ

n

i ii yySSE

2

1ˆ

n

i i yySSR

Total og forklaret variation

Opsplitning af variationen

SSRSSESST

yyyyyyn

i i

n

i ii

n

i i

2

1

2

1

2

1ˆˆ

Forklaret Uforklaret Total

Determinations koeffcienten R2 Determinations Koeffcienten: Andelen af den totale

variation, der er forklaret.

Pr definition: 0 ≤ R2 ≤ 1.

Jo tættere R2 er på 1, jo mere af variationen i data er forklaret af modellen.

R2 >0.8 er godt! … R2 meget tæt på 1 er dog mistænkeligt.

SST

SSE

SST

SSESST

SST

SSRR

12

variation Total

variation Forklaret

Eksempler på R2

Y

X

R2 = 0 SSE

SST

Y

X

R2 = 0.90SSE

SST

SSR

Y

X

R2 = 0.50 SSE

SST

SSR

H0: 1 = 2 = … = k = 0

H1: Mindst et i ≠ 0

Teststørrelse:

Store værdier af F er ufordelagtige for H0.

Er modellen besværet værd?Der er ingen (lineær) sammenhæng mellem Y og de forklarende variable

Der er (lineær) sammenhæng mellem Y og mindst én af de forklarende variable

2,1~1

nFMSE

MSR

knSSE

kSSRF

Mean Squared Error

Mean Squared Regression

F-test detaljer Husk at

Det medfører at og

Hvilket giver

Dvs. jo mere modellen kan forklare, større F, og jo mindre tror vi på H0-hypotesen om ingen sammenhæng.

111 2

2

knR

kR

knSSE

kSSRF

SST

SSE

SST

SSRR 12

2RSSTSSR 21 RSSTSSE

Eksempel: R2 og F-test

SSR

SSE

SST

467,0014,75

019,352 SST

SSRR

282,47741,0

019,35F

MSR

p-værdi

MSE

F

F-fordelingen

543210

0 .7

0 .6

0 .5

0 .4

0 .3

0 .2

0 .1

0 .0

F

f(F

)

Areal = p-værdi

F-fordeling

F

Eksempel - fortsat Y : Forbrug af gas, skala (gas) XTemp : Udetemperatur, skala (temp)

XIsolering: {Før, Efter}, kategorisk (insulate)

Omkod XIsolering til binær variabel XFør

XFør = 1 hvis XIsolering = Før

XFør = 0 hvis XIsolering = Efter

Model: FørFørTempTemp xxY 0

Fortolkning af model Når XIsolering = Før

Når XIsolering = Efter

To linjer med forskellig skæringspunkter! Før angiver forskellen i skæringspunkt.

TempTempFør

FørTempTemp

x

xY 1

TempTemp

FørTempTemp

x

xY 0

To regressionslinjer med forskellige skæringer, men samme hældning

X1

Y

Linje for XFør=1

Linje for XFør=0

+ Før

Eksempel og SPSS SPSS: Som før, dog er ’Insulate’ tilføjet ’Fixed factor’

Som ventet er F-testet stadig signifikant. Som ventet er R2 vokset – med nye variable kan

modellen aldrig forklare mindre end før. Bemærk at R2 er meget større!

Estimater

Estimeret model:

Prædikteret gas-forbrug for et hus før det isolering når temperatur er 7o (xTemp = 7 og XFør=1):

Eksempel og SPSS

FørTemp xxy 565,1337,0986,4ˆ

192,41565,17337,0986,4

Vekselvirkning / Interaktion

Vi kan introducere en vekselvirkning mellem kvalitative og kvantitative variable.

Y, XTemp og XFør er som før.

Introducer: XTemp,Før = XTemp∙XFør

Model FørTempFørTempFørFørTempTemp xxxY ,,

),0(~ 2 N

Fortolkning Når XIsolering = Før:

Når XIsolering = Efter:

Temp,Før beskriver forskellen i hældningen mellem de to regressionslinjer.

TempTemp

TempFørTempFørTempTemp

x

xxxYE

00| ,

TempFørTempTempFør

TempFørTempFørTempTemp

x

xxxYE

,

, 11|

SPSS Hoved-effekt: ”Ensom” variabel Interaktionsled: Produkt af to eller flere variable I SPSS: Under ’Model’ angiv hoved-effekter og

interaktionsled. Indsæt altid hoved-effekter først!

Scatterplot → Estimater

Estimeret model:

FørTempFørTemp xxxy ,115,0130,2278.0724,4ˆ

Variansanalyse (ANOVA)

En Generel Lineær Model, der kun har kategoriske forklarende variable, kaldes en variansanalyse.

På engelsk: Analysis of Variance (ANOVA)

Eksempel: Y: Månedlige forbrug Shopping: Hver 2. uge, Ugentligt, Oftere Køn: Mand, Kvinde

Dummy-variable

To kategoriske variable: Omkodning til dummy variable.

Referencekategorier: ”Kvinde” og ”Ofte” (SPSS vælger altid sidste kategori som reference)

Køn XMand

Mand 1

Kvinde 0

Stil XH2U XUge

Hver 2. uge 1 0

Ugentlig 0 1

Ofte 0 0

Model Den generelle lineære model er:

E(Y|x) = + KvindeXKvinde + H2UXH2U + UgeXUge

Fortolkning E(Y|Køn=Mand,Stil) - E(Y|Køn=Kvinde, Stil) =

( + Mand∙1 + H2U XH2A + Uge XUge ) –

( + Mand∙0 + H2A XH2A + Uge XUge) = Kvinde

Dvs. Mand angiver forskellen i gennemsnits-forbruget for mænd i forhold til kvinder (uagtet deres shopping-stil).

Mere fortolkning

H2U angiver forskellen i gennemsnits-forbrug for folk der handler hver 2. uge i forhold til folk der handler ofte.

Uge angiver forskellen i gennemsnits-forbrug for folk der handler ugentligt i forhold til folk der handler ofte.

Hypotesetest Hypoteser

H0: H2A = Uge = 0

H1: H2A ≠ 0 og/eller Uge ≠ 0

Teststørrelse:

Store værdier af F er ufordelagtige for H0. Intuition: Jo mere af den totale variation ”Stil” forklarer,

jo større er SSStil og dermed F.

)1,(~1

knqFMSE

MS

knSSE

qSSF StilStil

SSStil : Sum of Squares for ’Stil’

q : Antal parametre forbundet med ’Stil’ (2)

SPSS Analyze → General Linear Model → Univarite ’amtspend’ som ’dependent’ ’style’ og ’gender’ som ’fixed factor’

Bemærk at ’style’ ikke er signifikant! Bemærk: R2 = 0.118, dvs. kun 11,8% af den totale variation er

forklaret af modellen!

Estimerede model

Den estimerede model: E(Y|x) = XMand XH2U XUge

Prædiktion: Gennemsnitsforbruget for en mand, der shopper ugentligt er: E(Y|Køn = Mand, Shopping = Ugentligt ) =

374,133 + 61,183 ∙1 27,703 ∙0 4,271∙1 = 431,045

Vekselvirkning

Introducer vekselvirkning: Køn*Stil Nye dummy variable: XKøn,Stil = Xkøn*XStil.

Bemærk: Dummy-variable XKøn,Stil = 0 hvis reference-kategori er indblandet.

Mand Kvinde (ref.kat.)

Hver 2. uge XMand,H2U ٪

Ugentlig XMand,Uge ٪

Ofte (ref.kat.) ٪ ٪

Model

Den generelle lineære model er:

E(Y|x) = + Mand XMand + H2U XH2U + Uge XUge +

Mand,H2U XMand,H2U + Mand,Uge XMand,Uge

SPSS

Bemærk: Hoved-effekter før interaktioner!

SPSS

R2 er nu 0,138. Bemærk: Interaktionen ’Køn*Stil’ er signifikant,

mens hovedeffekten ’Stil’ ikke er! ”Normalt”: Fjerne led med højest p-værdi, dvs.

mindst signifikante led. Hierarkiske princip: Vi fjerner ikke en hoved-

effekt, hvis den indgår i en interaktion.

Estimerede model

Estimerede model er: = + XMand

61,751 XH2U 44,006 XUge +

XMand,H2U + 77,196 XMand,Uge

y

Documents

Statistik II Lektion 4 Generelle Lineære Modeller