Upload
garrett-tucker
View
29
Download
3
Embed Size (px)
DESCRIPTION
Statistik II Lektion 4 Generelle Lineære Modeller. Simpel Lineær Regression Multipel Lineær Regression Flersidet Variansanalyse (ANOVA). Logistisk regression. Yafhængig binær variabel X 1 ,…,X k forklarende variable, skala eller binære Model: Sandsynlighed:. Generel Lineær Model. - PowerPoint PPT Presentation
Citation preview
Statistik II Lektion 4Generelle Lineære Modeller
Simpel Lineær Regression
Multipel Lineær Regression
Flersidet Variansanalyse (ANOVA)
Logistisk regression
Y afhængig binær variabel X1,…,Xk forklarende variable, skala eller binære
Model:
Sandsynlighed:
k
i iikk xxxXYP
XYPXYLogit
111)|1(1
)|1(ln)|1(
k
i ii
ki ii
x
x
e
eXYP
1
1
1)|1(
Generel Lineær Model Y afhængig skala variabel X1,…,Xk forklarende variable, skala eller binære
Model: Middelværdien af Y givet X
Mere præcist: i’te observation ud af n er givet ved
xj,i er j’te forklarende variabel for i’te observation.
1,…,n er uafhængige og identisk fordelt i ~ N(0,2)
k
i iikk xxxXYE111)|(
iikkii xxY ,,11
IID
Simpel lineær regression
X
Y
Xi
Yi { β1
1
0
εi
E[Y|X] = + β1X
iii xy 1
),0( 2 Ni iid
GLM med én skala forklarende variabel (k=1)
Modellen er
Modellen siger: E(Y|X) = + 1X V(Y|X) = σ2
Y|X ~ N( + β1X, σ2)
Endnu en tegning…
X
Y
i.i.d. normalfordelte fejlled
Yi|xi~N( + β1xi,σ2)
x1 x3x2 x4 x5
xY 1
Estimation Model:
yi = + 1 xi + i
εi er i.i.d. N(0,σ2) , β1 og σ2 er modellens parametre – ukendte!
Estimation af β0 og β1 svarer til at vælge den linje, der passer bedst til de observerede punkter.
Estimerede regressions linje
a er estimat for og b1 er estimat for β1. ”Y hat” er estimat for E(Y|X) Spørgsmål: Hvordan estimerer vi og β1?
xbay 1ˆ
er den lodrette afstanden fra den estimerede linie til datapunktet (xi,yi).
)ˆ( iii yye
Residual led
iYiYieˆ
YY
XX
iY
iY
XXii
iXYiY givet for værdi eforvendted den ˆ
),( ii YX
XbaY 1ˆ
Den estimerede regressionslinje
datapunkt eobservered Det
Mindste kvadraters metode
Vi vil finde a og b1 så summen af de kvadrerede fejl bliver mindst mulig.
Dvs, vi vil minimere
SSE er Sum of Squared Errors. Skrevet ud:
Bemærk: Funktion af to variable (a og b1).
n
i ieSSE1
2
n
i ii
n
i ii
n
i i xbayyye1
211
2
1
2 )()ˆ(
SSE er en funktion af a og b1.
Vi vil finde a og b1 så SSE er mindst mulig.
Minimering
aSSE
b1
Test af hældning (β1) Test for om hældningen, β1 er forskellig fra nul:
Teststørrelse:
Numerisk store værdier af t er ufordelagtige for H0.
SE(b1) er standardfejlen for estimatet b1.
Hvis H0 er sand følger t en såkaldt t-fordeling med n-k-1 frihedsgrader, hvor n er antal observationer.
0:0: 1110 vs HH
)( 1
1
bSE
bt
Test af hældning (β1) Vælg et signifikansniveau, typisk α=0.05. Udregn teststørrelsen
Bestem p-værdien (SPSS). Beslutning: Hvis p-værdien < α afvises H0.
0 . 8
0 . 7
0 . 6
0 . 5
0 . 4
0 . 3
0 . 2
0 . 1
0 . 0
tOrange område = p-værdi
t0
t-fordeling med n-2 frihedsgrader
Fortolkning/Eksempler på H0
Er der en lineær sammenhæng mellem X og Y?
H0: β1=0 ingen lineær sammenhæng
H1: ≠ lineær sammenhæng
Følgende er eksempler, hvor H0 accepteres.
Y
X
Y
X
Y
X
Konstant Y Usystematisk variation Ikke-lineær sammenhæng
Eksempel
Y : Forbrug af gas (gas) X : Udetemperatur (temp)
Scatterplot →
SPSS:
Estimerede model:
Både skæring () og hældning (1) er signifikante!
xy 290.0486,5ˆ
SPSS Analyze → General Linear Models → Univariate…
Kategoriske forklarende variableSkala forklarende variable
Forklaret og uforklaret afvigelse Lad være gennemsnittet af alle yi’er
yi’s afvigelse fra kan opdeles i to.
.Y
X
Y
Y
Y
X
Forklaret afvigelse
Totale afvigelse
Uforklaret afvigelse
X
y
y
),( yxbxay ˆ
Total og forklaret variation - illustration
Den totale variationses når vi “kigger langs” x-aksen
Den uforklarede variation ses når vi “kigger langs” regressionslinjen
Y
X X
Y
Den totale variation
Lad være gennemsnittet af alle yi’er
Den totale variation for data er
”Variationen i data omkring datas middelværdi” SST = Sum of Squares Total
n
i i yySST1
2)(
y
Opslitning af den totale variation Den totale variation kan opslittes:
er den uforklarede variation.
er den forklarede variation.
SSR = Sum of Squares Regression
2
1
2
1
2
1ˆˆ
n
i i
n
i ii
n
i i yyyyyy
2
1ˆ
n
i ii yySSE
2
1ˆ
n
i i yySSR
Total og forklaret variation
Opsplitning af variationen
SSRSSESST
yyyyyyn
i i
n
i ii
n
i i
2
1
2
1
2
1ˆˆ
Forklaret Uforklaret Total
Determinations koeffcienten R2 Determinations Koeffcienten: Andelen af den totale
variation, der er forklaret.
Pr definition: 0 ≤ R2 ≤ 1.
Jo tættere R2 er på 1, jo mere af variationen i data er forklaret af modellen.
R2 >0.8 er godt! … R2 meget tæt på 1 er dog mistænkeligt.
SST
SSE
SST
SSESST
SST
SSRR
12
variation Total
variation Forklaret
Eksempler på R2
Y
X
R2 = 0 SSE
SST
Y
X
R2 = 0.90SSE
SST
SSR
Y
X
R2 = 0.50 SSE
SST
SSR
H0: 1 = 2 = … = k = 0
H1: Mindst et i ≠ 0
Teststørrelse:
Store værdier af F er ufordelagtige for H0.
Er modellen besværet værd?Der er ingen (lineær) sammenhæng mellem Y og de forklarende variable
Der er (lineær) sammenhæng mellem Y og mindst én af de forklarende variable
2,1~1
nFMSE
MSR
knSSE
kSSRF
Mean Squared Error
Mean Squared Regression
F-test detaljer Husk at
Det medfører at og
Hvilket giver
Dvs. jo mere modellen kan forklare, større F, og jo mindre tror vi på H0-hypotesen om ingen sammenhæng.
111 2
2
knR
kR
knSSE
kSSRF
SST
SSE
SST
SSRR 12
2RSSTSSR 21 RSSTSSE
Eksempel: R2 og F-test
SSR
SSE
SST
467,0014,75
019,352 SST
SSRR
282,47741,0
019,35F
MSR
p-værdi
MSE
F
F-fordelingen
543210
0 .7
0 .6
0 .5
0 .4
0 .3
0 .2
0 .1
0 .0
F
f(F
)
Areal = p-værdi
F-fordeling
F
Eksempel - fortsat Y : Forbrug af gas, skala (gas) XTemp : Udetemperatur, skala (temp)
XIsolering: {Før, Efter}, kategorisk (insulate)
Omkod XIsolering til binær variabel XFør
XFør = 1 hvis XIsolering = Før
XFør = 0 hvis XIsolering = Efter
Model: FørFørTempTemp xxY 0
Fortolkning af model Når XIsolering = Før
Når XIsolering = Efter
To linjer med forskellig skæringspunkter! Før angiver forskellen i skæringspunkt.
TempTempFør
FørTempTemp
x
xY 1
TempTemp
FørTempTemp
x
xY 0
To regressionslinjer med forskellige skæringer, men samme hældning
X1
Y
Linje for XFør=1
Linje for XFør=0
+ Før
Eksempel og SPSS SPSS: Som før, dog er ’Insulate’ tilføjet ’Fixed factor’
Som ventet er F-testet stadig signifikant. Som ventet er R2 vokset – med nye variable kan
modellen aldrig forklare mindre end før. Bemærk at R2 er meget større!
Estimater
Estimeret model:
Prædikteret gas-forbrug for et hus før det isolering når temperatur er 7o (xTemp = 7 og XFør=1):
Eksempel og SPSS
FørTemp xxy 565,1337,0986,4ˆ
192,41565,17337,0986,4
Vekselvirkning / Interaktion
Vi kan introducere en vekselvirkning mellem kvalitative og kvantitative variable.
Y, XTemp og XFør er som før.
Introducer: XTemp,Før = XTemp∙XFør
Model FørTempFørTempFørFørTempTemp xxxY ,,
),0(~ 2 N
Fortolkning Når XIsolering = Før:
Når XIsolering = Efter:
Temp,Før beskriver forskellen i hældningen mellem de to regressionslinjer.
TempTemp
TempFørTempFørTempTemp
x
xxxYE
00| ,
TempFørTempTempFør
TempFørTempFørTempTemp
x
xxxYE
,
, 11|
SPSS Hoved-effekt: ”Ensom” variabel Interaktionsled: Produkt af to eller flere variable I SPSS: Under ’Model’ angiv hoved-effekter og
interaktionsled. Indsæt altid hoved-effekter først!
Scatterplot → Estimater
Estimeret model:
FørTempFørTemp xxxy ,115,0130,2278.0724,4ˆ
Variansanalyse (ANOVA)
En Generel Lineær Model, der kun har kategoriske forklarende variable, kaldes en variansanalyse.
På engelsk: Analysis of Variance (ANOVA)
Eksempel: Y: Månedlige forbrug Shopping: Hver 2. uge, Ugentligt, Oftere Køn: Mand, Kvinde
Dummy-variable
To kategoriske variable: Omkodning til dummy variable.
Referencekategorier: ”Kvinde” og ”Ofte” (SPSS vælger altid sidste kategori som reference)
Køn XMand
Mand 1
Kvinde 0
Stil XH2U XUge
Hver 2. uge 1 0
Ugentlig 0 1
Ofte 0 0
Model Den generelle lineære model er:
E(Y|x) = + KvindeXKvinde + H2UXH2U + UgeXUge
Fortolkning E(Y|Køn=Mand,Stil) - E(Y|Køn=Kvinde, Stil) =
( + Mand∙1 + H2U XH2A + Uge XUge ) –
( + Mand∙0 + H2A XH2A + Uge XUge) = Kvinde
Dvs. Mand angiver forskellen i gennemsnits-forbruget for mænd i forhold til kvinder (uagtet deres shopping-stil).
Mere fortolkning
H2U angiver forskellen i gennemsnits-forbrug for folk der handler hver 2. uge i forhold til folk der handler ofte.
Uge angiver forskellen i gennemsnits-forbrug for folk der handler ugentligt i forhold til folk der handler ofte.
Hypotesetest Hypoteser
H0: H2A = Uge = 0
H1: H2A ≠ 0 og/eller Uge ≠ 0
Teststørrelse:
Store værdier af F er ufordelagtige for H0. Intuition: Jo mere af den totale variation ”Stil” forklarer,
jo større er SSStil og dermed F.
)1,(~1
knqFMSE
MS
knSSE
qSSF StilStil
SSStil : Sum of Squares for ’Stil’
q : Antal parametre forbundet med ’Stil’ (2)
SPSS Analyze → General Linear Model → Univarite ’amtspend’ som ’dependent’ ’style’ og ’gender’ som ’fixed factor’
Bemærk at ’style’ ikke er signifikant! Bemærk: R2 = 0.118, dvs. kun 11,8% af den totale variation er
forklaret af modellen!
Estimerede model
Den estimerede model: E(Y|x) = XMand XH2U XUge
Prædiktion: Gennemsnitsforbruget for en mand, der shopper ugentligt er: E(Y|Køn = Mand, Shopping = Ugentligt ) =
374,133 + 61,183 ∙1 27,703 ∙0 4,271∙1 = 431,045
Vekselvirkning
Introducer vekselvirkning: Køn*Stil Nye dummy variable: XKøn,Stil = Xkøn*XStil.
Bemærk: Dummy-variable XKøn,Stil = 0 hvis reference-kategori er indblandet.
Mand Kvinde (ref.kat.)
Hver 2. uge XMand,H2U ٪
Ugentlig XMand,Uge ٪
Ofte (ref.kat.) ٪ ٪
Model
Den generelle lineære model er:
E(Y|x) = + Mand XMand + H2U XH2U + Uge XUge +
Mand,H2U XMand,H2U + Mand,Uge XMand,Uge
SPSS
Bemærk: Hoved-effekter før interaktioner!
SPSS
R2 er nu 0,138. Bemærk: Interaktionen ’Køn*Stil’ er signifikant,
mens hovedeffekten ’Stil’ ikke er! ”Normalt”: Fjerne led med højest p-værdi, dvs.
mindst signifikante led. Hierarkiske princip: Vi fjerner ikke en hoved-
effekt, hvis den indgår i en interaktion.
Estimerede model
Estimerede model er: = + XMand
61,751 XH2U 44,006 XUge +
XMand,H2U + 77,196 XMand,Uge
y