40
Generalisierte additive Modelle Seminar: Statistische Analysen zur Wirkung von Luftschadstoffen Stefanie Sprung 8.11.2004

Generalisierte additive Modelle Seminar: Statistische Analysen zur Wirkung von Luftschadstoffen Stefanie Sprung 8.11.2004

Embed Size (px)

Citation preview

Page 1: Generalisierte additive Modelle Seminar: Statistische Analysen zur Wirkung von Luftschadstoffen Stefanie Sprung 8.11.2004

Generalisierte additive Modelle

Seminar: Statistische Analysen zur Wirkung von Luftschadstoffen

Stefanie Sprung8.11.2004

Page 2: Generalisierte additive Modelle Seminar: Statistische Analysen zur Wirkung von Luftschadstoffen Stefanie Sprung 8.11.2004

2

Überblick

Lineare Modelle Verschiedene Splines Optimierung: Validierung AIC Freiheitsgrade GAM Beispiel

Page 3: Generalisierte additive Modelle Seminar: Statistische Analysen zur Wirkung von Luftschadstoffen Stefanie Sprung 8.11.2004

3

Lineares Modell

X Kovariablen, Y Responsevariablen

Additiver linearer Zusammenhang zwischen Y und X

Mit zufälliger Störgröße ε

),...,()( 0 pXXfxfY

ppXXY ...00

ppXXY ...00

Page 4: Generalisierte additive Modelle Seminar: Statistische Analysen zur Wirkung von Luftschadstoffen Stefanie Sprung 8.11.2004

4

Polynom 3. Grades

Rückführung des Modells auf einfaches lineares Modell mit:

Designmatrix

iiiiiii zzzzfy 33

2210)(

33

221 ,, iiiiii zxzxzx

32

31

211

1

::::

1

nnn zzz

zzz

X

Page 5: Generalisierte additive Modelle Seminar: Statistische Analysen zur Wirkung von Luftschadstoffen Stefanie Sprung 8.11.2004

5

Schätzung

Basierend auf KQ-Schätzung P ist Projektionsmatrix rgP= spP= rgX= Anzahl der Spalten =Anzahl

der freien Parameter

PyyXXXXXyEy ')'(ˆ)(ˆˆ 1

Page 6: Generalisierte additive Modelle Seminar: Statistische Analysen zur Wirkung von Luftschadstoffen Stefanie Sprung 8.11.2004

6

Smoother

Problem: bei manchen Datensätzen gibt es keine einfache Transformation

Lösung: Ersetzen der linearen Beziehung durch: f unspezifische Funktion, die bestimmten

Glattheitsforderungen genügt (etwa f stetig, stetig differenzierbar etc.)

xY 10

)(xfY

Page 7: Generalisierte additive Modelle Seminar: Statistische Analysen zur Wirkung von Luftschadstoffen Stefanie Sprung 8.11.2004

7

Basisfunktionsansätze

Approximiere die unbekannte Funktion durch möglichst flexiblen Funktionenraum

Darstellung der Funktion f als

Linearkombination einer endlichen Menge

von Basisfunktionen

)(...)()()( 1100 xBxBxBxf pp

Page 8: Generalisierte additive Modelle Seminar: Statistische Analysen zur Wirkung von Luftschadstoffen Stefanie Sprung 8.11.2004

8

Polynome vom Grad p

einfacher Basisansatz basiert auf Polynome als Basisfunktionen verwenden wir Problem: Wahl von p?

pp xxxY ...2

210

ppi xxBxxBxxBxB )(,...,)(,)(,1)( 2

210

Page 9: Generalisierte additive Modelle Seminar: Statistische Analysen zur Wirkung von Luftschadstoffen Stefanie Sprung 8.11.2004

9

Polynomial Splines

Intervall [a,b] R und Knoten

a-ξ1< ξ2<....< ξm-b Funktion s:[a,b]->R heißt Spline-Funktion Spline-Funktion

vom Grad l (Ordnung l+1), wenn S ist Polynom (max Grad k) auf [ξ j, ξ j+1] j=0,..,m S besitzt stetige Ableitungen der Ordnung l-1 auf [a,b]

Menge der Polynomsplines ist ein Vektorraum der Ordnung m+(l-1) (Anzahl der Knoten + Grad)

Page 10: Generalisierte additive Modelle Seminar: Statistische Analysen zur Wirkung von Luftschadstoffen Stefanie Sprung 8.11.2004

10

B-Splines

Basisfunktion für Splines

Dann erhalten wir für z [a,b]

0

1)(0 zB j sonst

z jj 1

)()()( 11

11

11 zBz

zBz

zB lj

jlj

ljlj

jlj

jlj

)()(1

1

zBzs lj

m

ljj

Page 11: Generalisierte additive Modelle Seminar: Statistische Analysen zur Wirkung von Luftschadstoffen Stefanie Sprung 8.11.2004

11

B-Splines

zur Berechnung benötigen wir 2l zusätzliche Knoten

Knotenmenge bildet erweiterte Partition äquidistante Knotenwahl: Intervall [xmin,xmax]

und erhalten Knoten Wie viele Knoten sollen spezifiziert werden? Wo sollen die Knoten plaziert werden?

lmmmll ......... 1121

1minmax

m

xxh hjxj )1(min

Page 12: Generalisierte additive Modelle Seminar: Statistische Analysen zur Wirkung von Luftschadstoffen Stefanie Sprung 8.11.2004

12

Bilder B-Spline

Page 13: Generalisierte additive Modelle Seminar: Statistische Analysen zur Wirkung von Luftschadstoffen Stefanie Sprung 8.11.2004

13

P-Splines

definiere eine relativ große Anzahl äquidistanter Knoten (ca. 20-40) um ausreichende Flexibilität des Splineraums zu gewähren

zu starke Abweichungen benachbarter Regressionskoeffizienten βj werden durch Strafterme basierend auf quadrierte Differenzen k-ter Ordnung bestraft

Page 14: Generalisierte additive Modelle Seminar: Statistische Analysen zur Wirkung von Luftschadstoffen Stefanie Sprung 8.11.2004

14

P-Spline

unbekannte Funktion f durch einen Spline vom Grad l approximieren

Bj ist eine B-Spline Basis

)()(0

xBxf j

p

jj

Page 15: Generalisierte additive Modelle Seminar: Statistische Analysen zur Wirkung von Luftschadstoffen Stefanie Sprung 8.11.2004

15

P-Splines

penalisierte Residuenquadratsumme

Differenzenoperator k-ter Ordnung Strafterm-> Verhindert zu starke Anpassung an Daten,

damit überfitten Glättungsparameter

2

1

2

01

)())(()( j

p

kj

kij

p

jj

n

ii xBySP

k)(

1j

p

kj

k

λ

Page 16: Generalisierte additive Modelle Seminar: Statistische Analysen zur Wirkung von Luftschadstoffen Stefanie Sprung 8.11.2004

16

Glättungsspline

x1<x2<…<xn

->min Lösung: natürliche kubische Splines

ist Polynom 3.Grades auf [xi;xi+1] für alle i f´´(xi) ist stetig in allen Beobachtungen f´´(x1)=f´´(xn)=0 d.h. am Rand verschwindet die 2.

Ableitung

dxxfxfyfSP i

n

ii

22

1

))(''())(()(

f

Page 17: Generalisierte additive Modelle Seminar: Statistische Analysen zur Wirkung von Luftschadstoffen Stefanie Sprung 8.11.2004

17

kubische Splines

a<x1<...<xn<b eine Unterteilung des Intervalls [a,b]

zusätzliche Randbedingung: s‘‘(a)=0, s‘‘(b)=0 in den Intervallen [a,xn] und [xn,b] ist s linear

bei Glättungssplines mehr Basisfunktionen notwendig penalisierter KQ-Kriterium wobei ein NKS in B-Spline Basis ist

dxxsxsySP i

n

ii

22

1

))(''())(()(

)()(1

xBxs j

p

jj

Page 18: Generalisierte additive Modelle Seminar: Statistische Analysen zur Wirkung von Luftschadstoffen Stefanie Sprung 8.11.2004

18

lokale Polynome

Nächste Nachbar Schätzer Lokale polynomiale Regression Locally-weighted running-line smoother im statistischen Programmpaket loessloess k nahsten Nachbarn

Page 19: Generalisierte additive Modelle Seminar: Statistische Analysen zur Wirkung von Luftschadstoffen Stefanie Sprung 8.11.2004

19

Nächste Nachbar Schätzer

„Mittelwert“ der Responsebeobachtungen in einer Nachbarschaft

formal: Ave Mittelwertoperator und N(xi) eine Nachbarschaft

von xi

symmetrische Nachbarschaft k nächsten Nachbarn (unsymmetrische

Nachbarschaft)

)(ˆ xf

)()(ˆ)( jxNji yAvexfi

Page 20: Generalisierte additive Modelle Seminar: Statistische Analysen zur Wirkung von Luftschadstoffen Stefanie Sprung 8.11.2004

20

Mittelwertoperatoren

Running mean Schätzer: arithmetisches Mittel der Beobachtung in N(xi) zur Bestimmung von

Running median Schätzer: Median der Beobachtung in N(xi), nichtlinearer Glätter

Running line Schätzer: Beim Running line Schätzer definieren wir KQ-Schätzer basierend auf Beobachtungen

)(ˆ xf

ii xxf 10ˆˆ)(ˆ

Page 21: Generalisierte additive Modelle Seminar: Statistische Analysen zur Wirkung von Luftschadstoffen Stefanie Sprung 8.11.2004

21

Lokale polynomiale Regression

Taylorapproximation

gewichtete Residuenquadratsumme

wobei als Schätzer bedingter Erwartungswert

p

j

jijiii xxxx

xfxxxfxfxf

10 )(...)²(

2

)(''))((')()(

),()(1 1

0 i

n

i

p

j

jiji xxwxxy

xx

Kxxw ii ),(

)(

),()|()(ˆ

xd

dyyxydxXYExf

Page 22: Generalisierte additive Modelle Seminar: Statistische Analysen zur Wirkung von Luftschadstoffen Stefanie Sprung 8.11.2004

22

Berechnung der lokalen Polynome

K nächste Nachbar von x0 wird identifiziert, bezeichnet als N(x0)

wird berechnet, Distanz des weitesten nahsten Nachbarn von x0

Gewichte wi sind zugewiesen zu jedem Punkt in N(x0), sie benutzen das tri-kubsiche Gewichtsfunktion:

||max)( 1)(0 0xxx oxN

Page 23: Generalisierte additive Modelle Seminar: Statistische Analysen zur Wirkung von Luftschadstoffen Stefanie Sprung 8.11.2004

23

Berechnung der lokalen Polynome

definierten Gewichte

mit 0≤u≤1

bestimmen durch gewichtete lineare Regression

))(

||(

x

xxKw i

i

0

)1()(

33uuK

)(ˆ xf

Page 24: Generalisierte additive Modelle Seminar: Statistische Analysen zur Wirkung von Luftschadstoffen Stefanie Sprung 8.11.2004

24

Glättungsparameterwahl

λ steuert den Ausgleich zwischen Bias und Variabilität

λopt minimiert ein Kriterium

mean average squared error

predicted squared-error

²)()(ˆ)(1

1ii

n

in xfxfEMSE

))²(ˆ(1

)(1

*i

n

ii xfyE

nPSE

Page 25: Generalisierte additive Modelle Seminar: Statistische Analysen zur Wirkung von Luftschadstoffen Stefanie Sprung 8.11.2004

25

Kreuz-Validierung

Leaving one out Schätzung aller Daten ohne (yi,xi)

Summe der neuen Gewichte Σ(sij/(1-sii))=1

))²(ˆ(1

)(1

ii

n

ii xfy

nCV

j

n

ijj ii

iji

i yS

Sxf

1 )(1

)()(ˆ

Page 26: Generalisierte additive Modelle Seminar: Statistische Analysen zur Wirkung von Luftschadstoffen Stefanie Sprung 8.11.2004

26

Generalisierte Kreuz-Validierung

Rechentechnisch einfacher

Sii durch Spur ersetzt

)))²((1

1(

))²(ˆ(1

)( 1

Sspn

xfy

nGCV

n

iii

Page 27: Generalisierte additive Modelle Seminar: Statistische Analysen zur Wirkung von Luftschadstoffen Stefanie Sprung 8.11.2004

27

Additive Modelle

Additivität der Einflußgrößen wird beibehalten,

während der lineare Einfluss fallen gelassen wird

f1,...,fp sind unbekannte „glatte“ Funktionen

iipii xxfy ),...( 1

iippiiii xfxfy )(...)( 110

Page 28: Generalisierte additive Modelle Seminar: Statistische Analysen zur Wirkung von Luftschadstoffen Stefanie Sprung 8.11.2004

28

AIC-Statistik

Erste Term bestraft eine mangelnde Anpassung an die

Daten Zweite Term bestraft die hohe Modellkomplexität Menge des AIC hat Form des Akaike-

Informationskriterium Matrix R ist Gesamtsmoothermatrix

)(²ˆ2²ˆ

)²ˆ(

1

Rspy

AICn

i

ii

Ry

Page 29: Generalisierte additive Modelle Seminar: Statistische Analysen zur Wirkung von Luftschadstoffen Stefanie Sprung 8.11.2004

29

Freiheitsgrade

SST =SSM+SSE n-1 = p +n-p-1 Freiheitsgrade σ²=SSE/n-p -> erwartungstreuer Schätzer

df=sp(Sλ) (alternativ: n-sp(2Sλ-SλSλT ) oder

sp(SλSλT)) Freiheitsgrade

Freiheitsgrade der Fehler

)2()2( )()()(Tjjj

Terrj RRRspRRRspdf

Page 30: Generalisierte additive Modelle Seminar: Statistische Analysen zur Wirkung von Luftschadstoffen Stefanie Sprung 8.11.2004

30

Projektionsmatrix

df(model)=tr(S) df(error)=E(RSS)=σ²(n-tr(2S-SST) S ist symmetrisch und idempotent Für polynomiale Regression, Regressions-

Splines df(error)=σ²(n-tr(S))

Page 31: Generalisierte additive Modelle Seminar: Statistische Analysen zur Wirkung von Luftschadstoffen Stefanie Sprung 8.11.2004

31

Generalisierte Lineare Modelle

Bedingte Verteilung gehört Exponentialfamilie an Es gilt:

Erwartungswertr hängt über Responsefunktion ab

),,()(

exp),,,|( iiiiii

iiiii wycwby

xwyd

)(')|( iiii bxyE

i

iii w

bxyVar

)('')|(

)( ii h 'ii x

Page 32: Generalisierte additive Modelle Seminar: Statistische Analysen zur Wirkung von Luftschadstoffen Stefanie Sprung 8.11.2004

32

Generalisierte additive Modelle

Lineare Prädiktor wird durch additiven ersetzt

Unbekannte Funktionen könne durch KQ-Algorithmus und Backfitting Algorithmus geschätzt werden

Residuenquadratsumme wird durch Devianzen ersetzt

)(...)( 110 ippii xfxf

Page 33: Generalisierte additive Modelle Seminar: Statistische Analysen zur Wirkung von Luftschadstoffen Stefanie Sprung 8.11.2004

33

Generalisierte additive Modelle

Loglikelihood in Abhängigkeit vom geschätzten Erwartungswert

Devianz: Je höher Devianz, desto schlechter Anpassung

)ˆ( iil ).ˆ(ˆ ii h

))()ˆ((2:)ˆ,(1

iii

n

ii yllyD

)²/)(1(

)ˆ,(/1)(

nRsp

ynDGCV

)(2 RspDAIC

Page 34: Generalisierte additive Modelle Seminar: Statistische Analysen zur Wirkung von Luftschadstoffen Stefanie Sprung 8.11.2004

34

Generalisiertes lineares Modell

50 100 150 200

02

46

81

01

2

PMME

RE

S5

Page 35: Generalisierte additive Modelle Seminar: Statistische Analysen zur Wirkung von Luftschadstoffen Stefanie Sprung 8.11.2004

35

Polynom 3. Grades

50 100 150 200

02

46

81

01

2

PMME

RE

S5

Page 36: Generalisierte additive Modelle Seminar: Statistische Analysen zur Wirkung von Luftschadstoffen Stefanie Sprung 8.11.2004

36

Kubischer Spline mit 3 Knoten

50 100 150 200

02

46

81

01

2

PMME

RE

S5

Page 37: Generalisierte additive Modelle Seminar: Statistische Analysen zur Wirkung von Luftschadstoffen Stefanie Sprung 8.11.2004

37

Kubischer Spline mit 7 Knoten

50 100 150 200

02

46

81

01

2

PMME

RE

S5

Page 38: Generalisierte additive Modelle Seminar: Statistische Analysen zur Wirkung von Luftschadstoffen Stefanie Sprung 8.11.2004

38

Lokal gewichteter Spline

50 100 150 200

02

46

81

01

2

PMME

RE

S5

Page 39: Generalisierte additive Modelle Seminar: Statistische Analysen zur Wirkung von Luftschadstoffen Stefanie Sprung 8.11.2004

39

Smoothing Spline

50 100 150 200

02

46

810

12

PMME

RE

S5

Page 40: Generalisierte additive Modelle Seminar: Statistische Analysen zur Wirkung von Luftschadstoffen Stefanie Sprung 8.11.2004

40

Quellenangabe

Studie „Assesing Confounding, Effect Modification, and Thresholds in the Association between Ambient Particles and Daily Deaths“ Joel Schwarz

„Generalized Additive Models“ Hastie/Tibsherani „Multivariate Statistical Modelling Based on

Generalized Linear Models“ Fahrmeir/Tutz „Computerintensive Verfahren der Statistik“ Stefan

Lang