152
Statistik 2 JProf. Dr. Hajo Holzmann Institut f¨ ur Stochastik der Universit¨ at Karlsruhe (TH) Wintersemester 2007/08 (Stand: 15. April 2008)

Statistik 2 - math.kit.edu · Statistik 2 JProf. Dr. Hajo Holzmann Institut fur Stochastik der Universit¨ ¨at Karlsruhe (TH) Wintersemester 2007/08 (Stand: 15. April 2008)

  • Upload
    ngophuc

  • View
    214

  • Download
    0

Embed Size (px)

Citation preview

Statistik 2

JProf. Dr. Hajo HolzmannInstitut fur Stochastik der Universitat Karlsruhe (TH)

Wintersemester 2007/08(Stand: 15. April 2008)

ii INHALTSVERZEICHNIS

Inhaltsverzeichnis

1 Multivariate Normalverteilung und quadratische Formen 4

1.1 Zufallsvektoren und zufallige quadratische Formen . . . . . . . . . . . . . . . 4

1.2 Die multivariate Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . . 5

1.3 Bedingte Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

1.4 Aus der Normalverteilung abgeleitete Verteilungen . . . . . . . . . . . . . . . 9

1.5 Verteilung quadratischer Formen . . . . . . . . . . . . . . . . . . . . . . . . . 10

2 Lineare Regression 14

2.1 Lineare Regression und Modellbildung . . . . . . . . . . . . . . . . . . . . . . 14

2.1.1 Regression und das lineare Modell . . . . . . . . . . . . . . . . . . . . 14

2.1.2 Modellierung des Einflusses der Kovariablen . . . . . . . . . . . . . . . 15

2.2 Kleinste Quadrate Schatzung . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

2.2.1 Methode der kleinsten Quadrate . . . . . . . . . . . . . . . . . . . . . 18

2.2.2 Verteilungstheorie bei normalverteilten Fehlern . . . . . . . . . . . . . 22

2.2.3 Asymptotische Verteilungstheorie . . . . . . . . . . . . . . . . . . . . . 25

2.3 Andere Schatzverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

2.3.1 Mittlerer quadratischer Fehler und Ridge-Regression . . . . . . . . . . 29

2.3.2 Median - und Quantilregression . . . . . . . . . . . . . . . . . . . . . . 31

2.4 Modelldiagnostik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

2.4.1 Das Bestimmtheitsmaß R2 . . . . . . . . . . . . . . . . . . . . . . . . . 32

2.4.2 Residuen-Analyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

2.4.3 Weitere diagnostische Plots . . . . . . . . . . . . . . . . . . . . . . . . 34

2.4.4 Transformation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

2.4.5 Ausreißer, Leverage- und Influenz-Punkte . . . . . . . . . . . . . . . . 36

INHALTSVERZEICHNIS iii

2.5 Variablen-Selektion und Shrinkage Schatzung . . . . . . . . . . . . . . . . . . 40

2.5.1 Selektionsmethoden . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

2.5.2 Test-basierte Methoden . . . . . . . . . . . . . . . . . . . . . . . . . . 41

2.5.3 Informationskriterien . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

2.5.4 Shrinkage Schatzer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

2.5.5 Inferenz nach Modellwahl . . . . . . . . . . . . . . . . . . . . . . . . . 51

2.6 Verallgemeinerte kleineste Quadrate und Varianzschatzen . . . . . . . . . . . 55

2.6.1 Verallgemeinerte kleinste Quadrate . . . . . . . . . . . . . . . . . . . . 55

2.6.2 Varianzschatzen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

3 Nichtlineare Regression 57

3.1 Modell und Beispiele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57

3.2 Nichtlineare kleinste Quadrate . . . . . . . . . . . . . . . . . . . . . . . . . . 58

3.3 Konsistenz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

3.4 Asymptotische Normalitat . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

4 Logistische Regression 63

4.1 Modell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

4.2 Maximum Likelihood Schatzung . . . . . . . . . . . . . . . . . . . . . . . . . 63

4.3 Deviance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65

4.4 Residuenanalyse und weitere Diagnostische Plots . . . . . . . . . . . . . . . . 66

4.5 Uberdispersion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69

5 Verallgemeinerte lineare Modelle (GLMs) 73

5.1 Dispersionsexponentialfamilien (DEFs) . . . . . . . . . . . . . . . . . . . . . . 73

5.2 Komponenten eines GLMs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76

5.3 Maximum Likelihood Schatzung und Testen in GLMs . . . . . . . . . . . . . 77

iv INHALTSVERZEICHNIS

5.4 Modelldiagnostik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83

5.5 Poisson-Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86

5.6 Gamma-Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88

5.7 Quasi-Likelihood . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91

6 Kategorielle Daten und kategorielle Regression 94

6.1 Fishers exakter Test auf Homogenitat . . . . . . . . . . . . . . . . . . . . . . 94

6.2 Der χ2-Test auf Homogenitat . . . . . . . . . . . . . . . . . . . . . . . . . . . 95

6.3 Fishers exakter Test auf Unabhangigkeit . . . . . . . . . . . . . . . . . . . . . 97

6.4 χ2-Test auf Unabhangigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99

6.5 McNemars Test fur gepaarte Stichproben . . . . . . . . . . . . . . . . . . . . 100

6.6 Erganzungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102

6.7 Kategorielle Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102

7 Lineare Gemischte Modelle 105

7.1 Longitudinal- und Cluster-Daten . . . . . . . . . . . . . . . . . . . . . . . . . 105

7.2 Das lineare gemischte Modell . . . . . . . . . . . . . . . . . . . . . . . . . . . 106

7.3 Schatzen und Vorhersagen im linearen gemischten Modell . . . . . . . . . . . 107

7.4 Verallgemeinerte lineare gemischte Modelle . . . . . . . . . . . . . . . . . . . 111

8 Nichtparametrische Dichteschatzung 113

8.1 Problemstellung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113

8.2 Kern-Dichte Schatzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115

8.3 Integrierter mittlerer quadratischer Fehler . . . . . . . . . . . . . . . . . . . . 117

8.4 Bandbreitenwahl . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121

8.5 Modifikationen des Kern-Dichte Schatzers . . . . . . . . . . . . . . . . . . . . 126

8.6 Multivariate Kern-Dichte Schatzung . . . . . . . . . . . . . . . . . . . . . . . 128

9 Nichtparametrische Regression 132

9.1 Problemstellung und Modelle . . . . . . . . . . . . . . . . . . . . . . . . . . . 132

9.2 Lineare Glatter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133

9.3 Mittlerer quadratischer Fehler . . . . . . . . . . . . . . . . . . . . . . . . . . . 135

9.4 Minimax-Schatzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140

A Verzeichnis der Satze 145

vi INHALTSVERZEICHNIS

Literatur

1. Multivariate Normalverteilung

• Kotz, Samuel; Balakrishnan, N.; Johnson, Norman L. (2000) Continuous multivariatedistributions. Vol. 1. Models and applications. 2nd edn. Wiley-Interscience, New York.

• Johnson, Norman L.; Kotz, Samuel; Balakrishnan, N. (1995) Continuous univariatedistributions. Vol. 2. 2nd edn. John Wiley & Sons, Inc., New York.

• Ravishankar, N. und Dey, D. K. (2002) A first course in linear model theory, Chapman& Hall, Kapitel 5.

2. Lineare Regressions

• Faraway, J. (2005) Linear Models with R. Chapman & Hall/CRC, Boca Raton, FL.

• Fahrmeier, L., Kneib, T. und Lang, S. (2007) Regression. Modelle, Methoden und An-wendungen. Springer, Berlin, Kapitel 3.

• Weisberg, S. (2005) Applied Linear Regression. 3. Auflage, John Wiley & Sons, Hoboken,NJ.

• Ravishankar, N. und Dey, D. K. (2002) A first course in linear model theory.

• Searle, (1971) Linear Models. John Wiley & Sons, Inc., New York. Kapitel 3.

• Stapleton, J. H. (1995) Linear Statistical Methods. John Wiley & Sons, Inc., New York.

3. Nichtlineare Regression

• Myers, R.H., Montgomery, D.C., Vinig, G.G. (2002) Generalized Linear Models. JohnWiley & Sons. Kapitel 3.

• Seber, G.A.F., Wild, C.J. (2003) Nonlinear Regression. John Wiley & Sons.

4. Logistische Regression/ 5. Verallgemeinerte lineare Modelle

• Dobson, A.J. (2002) An Introduction to Generalized Linear Models (2 edn, 2002).

• Fahrmeier, L., Kneib, T. und Lang, S. (2007) Regression. Modelle, Methoden und An-wendungen. Springer, Berlin, Kapitel 4.

• Faraway, J. (2006) Extending the linear Model with R. Chapman & Hall/CRC, BocaRaton, FL, Kapitel 2,3,6,7.

2 INHALTSVERZEICHNIS

• McCullagh, P. and Nelder, J.A. (1989) Generalized Linear Models, Vol. 37 of Mo- no-graphs on Statistics and Applied Probability (2 edn, 1989).

• Weisberg, S. (2005) Applied Linear Regression. 3. Auflage, John Wiley & Sons, Hoboken,NJ, Kapitel 12.

• McCulloch, C.E., Searle, S.R. (2001) Generalized, Linear, and Mixed Models.

• Myers, R.H., Montgomery, D.C., Vinig, G.G. (2002) Generalized Linear Models. JohnWiley & Sons.

6. Kategorielle Daten und kategorielle Regression

• Fahrmeier, L., Kneib, T. und Lang, S. (2007) Regression. Modelle, Methoden und An-wendungen. Springer, Berlin, Kapitel 5.

• Faraway, J. (2005) Extending the linear Model with R. Chapman & Hall/CRC, BocaRaton, FL, Kapitel 5

• Agresti, A. (2002) Categorical Data Analysis. 2nd edn. John Wiley & Sons

• Agresti, A. (1996) An Introduction to Categorical Data Analysis. John Wiley & Sons.

7. Gemischte Modelle und Longitudinale Daten

• Fahrmeier, L., Kneib, T. und Lang, S. (2007) Regression. Modelle, Methoden und An-wendungen. Springer, Berlin, Kapitel 6.

• Faraway, J. (2005) Extending the linear Model with R. Chapman & Hall/CRC, BocaRaton, FL, Kapitel 9.

• Ravishankar, N. und Dey, D. K. (2002) A first course in linear model theory, Chapman& Hall, Kapitel 10.

8. Nichtparametrische Dichteschatzung

• Wand, M. P.; Jones, M. C. (1995) Kernel smoothing. Chapman and Hall, Ltd., London.

• Silverman, B. W. (1986) Density estimation for statistics and data analysis. Chapman& Hall, London.

9. Nichtparametrische Regression

• Wand, M. P.; Jones, M. C. (1995) Kernel smoothing. Chapman and Hall, Ltd., London,Kapitel 5.

INHALTSVERZEICHNIS 3

• Fan, J.; Gijbels, I. (1996) Local polynomial modelling and its applications. Chapman &Hall, London.

Theoretischer Hintergrund

• Shao, J. (2003) Mathematical statistics. 2nd edn. Springer-Verlag, New York, .

• van der Vaart, A. W. (1998) Asymptotic statistics. Cambridge University Press, Cam-bridge.

• Hogg, R.V., McKean, J.W., Craig, A.T.: Introduction to Mathematical Statistics. 6thedn. Pearson Prentice Hall, 20051.

• Knight, K. (2000) Mathematical Statistics. Chapman & Hall, 20001.

• Pruscha, H. (1989) Angewandte Methoden der Mathematischen Statistik.

• Pruscha, H. (2000) Vorlesungen uber Mathematische Statistik.

4 1 MULTIVARIATE NORMALVERTEILUNG UND QUADRATISCHE FORMEN

1 Multivariate Normalverteilung und quadratische Formen

1.1 Zufallsvektoren und zufallige quadratische Formen

Sei X = (X1, . . . , Xn)T ∈ Rd ein d-variater Zufallsverktor, wobei Xi Zufallsvariable seinen.Der Erwartungswertvektor von X ist definiert durch EX = (EX1, . . . , EXn)T , falls die Er-wartungswerte EXi existieren. Die Kovarianzmatrix von X ist gegeben durch

Cov X =(Cov(Xi, Xj)

)i,j=1,...,n

,

falls die Xi endliche Varianzen haben. Fur einen Vektor a ∈ Rd gilt

Var(aTX) = aT Cov Xa.

Da die Varianz auf der linken Seite stets nicht-negativ ist, folgt, dass die Kovarianzmatrix stetspositiv semidefinit ist. Weiter ist Cov X genau dann degeneriert, falls die Xi (als Abbildungenauf dem zugrundeliegenden W-Raum) linear abhangig sind (fast sicher).

Satz 1.1 (lineare Transformationen)Sei X ∈ Rn ein Zufallsvektor mit endlichem Erwartungswertvektor EX und endlicher Kova-rianzmatrix Cov X. Fur A ∈ Rm×n gilt dann

E(AX) = A EX, Cov(AX) = A Cov XAT .

Der Beweis ist ein einfaches Nachrechnen. Allgemeiner definieren wir fur Zufallsvektoren X ∈Rd und Y ∈ Rq die Kovarianzmatrix

Cov(X,Y) =(Cov(Xi, Yj)

)i=1,...,d j=1,...,q

∈ Rd×q.

Falls X und Y unabhangig sind, so gilt (analog zu zwei Zufallsvariablen) Cov(X,Y) = 0.

Fur einen Zufallsvektor X ∈ Rd und eine symmetrische Matrix A ∈ Rn×n betrachten wir diezufallige quadratische Form XT AX, eine Zufallsvariable.

Satz 1.2 (Erwartungswert quadratischer Formen)Sei X ∈ Rn ein Zufallsvektor mit EX = µ ∈ Rn, Cov X = Σ ∈ Rn×n, und sei A ∈ Rn×n

symmetrisch. Betrachte die quadratische Form Q = XT AX. Dann gilt

EQ = Spur(A · Σ) + µT Aµ

Beweis

Q =n∑

i,j=1

aijZiZj , EZiZj = Σij + µiµj

Somit

EQ =n∑

i,j=1

aij(Σij + µiµj) = µT Aµ +n∑

i,j=1

aijΣij = µT Aµ + Spur(AΣ)

[Beachte: Sowohl A als auch Σ sind symmetrisch.]

1.2 Die multivariate Normalverteilung 5

1.2 Die multivariate Normalverteilung

DefinitionSei µ ∈ Rd und Σ ∈ Rd×d symmetrisch und positiv definit. Die multivariate Normalver-teilung N (µ, Σ) ist gegeben durch die Dichte

f(x; µ, Σ) =1

(2π)d2 |Σ| 12

exp

(−1

2(x − µ)T Σ−1(x − µ)

),

wobei |Σ| = det Σ.

Fur µ = 0 und Σ = Id spricht man von der d-variaten Standardnormalverteilung. Wirprufen kurz, dass f(x; µ, Σ) tatsachlich eine Dichte auf Rd definiert, also zu 1 integriert.Fur f(x; 0, Id) ist dies klar, da es sich um eine d-fache Produktdichte von univariaten Dichtender Standardnormalverteilung handelt. Den allgemeinen Fall fuhren wir hierauf durch Varia-blen Transformation zuruck. Dazu betrachte die Spektralzerlegung von Σ. Es existieren eineorthogonale Matrix Q und λ1 > 0, . . . , λd > 0 (die Eigenwerte von Σ, diese sind > 0, da Σpositiv definit ist), so dass

Σ = Q diag(λ1, . . . , λd)QT .

Man definiert dann die Wurzel aus Σ durch

Σ12 = Q diag(λ

121 , . . . , λ

12d )QT ,

diese ist eindeutig bestimmt und es gilt Σ12 · Σ 1

2 = Σ. Ausserdem gelten

Σ−1 = Q diag(λ−11 , . . . , λ−1

d )QT ,

Σ− 12 = (Σ

12 )−1 = Qdiag(λ

− 12

1 , . . . , λ− 1

2d )QT .

Zur Berechnung von∫

f(x; µ, Σ) dx fuhrt man eine Variablentransformation y = Σ−1/2(x−µ)durch und erhalt die d-variate Standardnormalverteilung.

Satz 1.3 (Lineare Transformation)Sei X ∼ N (µ, Σ), µ ∈ Rd, p ≤ d, A ∈ Rp×d mit vollem Rang und b ∈ Rp. Dann ist Y = AXverteilt nach Y ∼ N (Aµ + b, AΣAT ).

BeweisWir behandeln nur den Fall µ = 0, b = 0, die notigen Translationen konnen leicht behandeltwerden.

Wir betrachten zunachst den Fall Σ = Id. Ist etwa AT = (v1, . . . ,vp), vi ∈ Rd, so setzeV = span v1, . . . ,vp ⊂ Rd. Dann ist V ein p-dimensionaler Untervektorraum von Rd, undwir konnen eine orthonormale Basis e1, . . . , ed−p des orthogonalen Komplements V ⊥ wahlen.Setzte A, derart, dass AT = (v1, . . . ,vp, e1, . . . , ep−d) ∈ Rd×d. Dann hat A vollen Rang. Wirbetrachten nun W = AX. Dann ist W = (YT ,ZT )T fur geeignetes Z ∈ Rd. Zum Beweiskonnen wir also die Verteilung von W und dann die Randverteilung von Y berechnen. EineVariablentransformation liefert fur die Dichte von W

fW(w) =1

(2π)d2 |A|

exp

(−1

2wT (AAT )−1w

).

6 1 MULTIVARIATE NORMALVERTEILUNG UND QUADRATISCHE FORMEN

Nach Konstruktion von A erhalten wir die Blockgestalt (Ir ist die r-dimensionale Einheits-matrix)

AAT =

(AAT 00 Id−p

)=: diag

(AAT , Id−p

).

Ausserdem ist

|A| = |AAT |1/2 = |AAT |1/2.

Setzen wir w = (yT , zT )T , so erhalten wir

fW(y, z) =1

(2π)p/2|AAT |1/2exp

(−1

2yT (AAT )−1y

)1

(2π)(d−p)/2exp

(−1

2zTz

).

Wir konnen nun z herausintegrieren (Standardnormalverteilung) und erhalten fur Y die Dich-te in gewunschter Form.

Den Fall fur allgemeines Σ fuhrt man nun leicht auf obigen Fall zuruck. Dafur setzte X =Σ−1/2X, dann ist X ∼ N(0, Id), und Y = AΣ1/2X ∼ N(0, AΣ1/2Σ1/2AT ) nach dem bereitsbehandelten Fall, wie behauptet.

Momente Ist X ∼ N (µ, Σ), so ist EX = µ, Cov X = Σ. Zum Beweis benutzen wir Satz1.3. Zunachst bemerken wir, dass die Formeln fur die d-variate Standardnormalverteilungrichtig sind (direkt aus der univariaten Normalverteilung). Ist Y ∼ N(0, Id), so ist X =Σ1/2(Y + µ) ∼ N(µ, Σ). Mit Satz 1.1 folgt die Behauptung.

Marginalverteilungen und Unabhangigkeit Sei X ∼ N (µ, Σ), wobei X = (YT ,ZT )T ,Y ∈ Rr, Z ∈ Rd−r, fur 1 ≤ r < d. Sei

µ =

(µ1

µ2

), Σ =

(Σ11 Σ12

ΣT12 Σ22

)

mit µ1 ∈ Rr, µ2 ∈ Rd−r, Σ11 ∈ Rr×r, Σ22 ∈ R(d−r)×(d−r), Σ12 ∈ Rr×(d−r).

Satz 1.4Es sind Y ∼ N (µ1, Σ11), Z ∼ N (µ2, Σ2), und Cov(Y,Z) = Σ12. Weiter gilt

Y und Z unabhangig ⇔ Σ12 = 0.

BeweisFur die Verteilung von Y verwende Satz 1.3 mit A = (Ir, 0) ∈ Rr×d, Y = AX, fur Z

nutzte Z = BX, B = (0, Id−r) ∈ R(d−r)×d. Fur den zweiten Teil beachte zunachst, dassunabhangige Zufallsvektoren Kovarianzmatrix 0 haben. Falls Σ12 =, so ist Σ = diag(Σ1, Σ2)eine Blockmatrix mit inverser Σ−1 = diag(Σ−1

1 , Σ−12 ), und die Dichte f(y, z) von (YT ,ZT )T

berechnet sich leicht zur Produktdichte der beiden multivariaten Normalverteilungen, was dieUnabhangigkeit zeigt.

Satz 1.5Sei X ∼ N (µ, Σ), µ ∈ Rd, p, q ≤ d, B ∈ Rp×d mit vollem Rang, C ∈ Rq×d mit vollem Rang.Dann gilt:

BX und CX sind unabhangig ⇔ BΣCT = 0

1.3 Bedingte Verteilungen 7

Beweis

”⇒“. Klar, da

Cov(BX, CX) = E(B(X − µ)(X − µ)T CT ) = BΣCT = 0

bei Unabhangigkeit.

”⇐“. Betrachte zunachst den Fall Σ = Id. Schreibe

B =(b1, . . . ,bp

)T, C =

(c1, . . . , cq

)T, bi, cj ∈ Rd

Dann: BΣCT = BCT = 0 ⇔ bTi cj = 0. Somit hat

A =(b1, . . . ,bp, c1, . . . , cq)

T

vollen Rang und

AX =

(BXCX

)∼ N (Aµ, AAT ) = N

(Aµ,

(BBT 0

0 CCT

))

da Σ = Id und BCT = 0. Also sind BX und CX unabhangig.

Zum allgemeinen Fall: Betrachte Y = Σ− 12 X mit Y ∼ N (Σ− 1

2 µ, Σ− 12 ΣΣ− 1

2 ) = N (Σ− 12 µ, Id).

WeiterBX = BΣ

12︸ ︷︷ ︸

=:B

Y, CX = CΣ12︸ ︷︷ ︸

=:C

Y

und BCT = BΣ12 (Σ

12 )T CT = BΣCT . Somit BΣCT = 0 ⇔ BCT = 0 und BY = BX und

CY = CX nach obigem Fall unabhangig.

Relevante R Befehle. eigen (berechnet Eigenwerte und Vektoren einer Matrix), qr.solve(berechnet Inverse einer Matrix). Die Library MASS enthalt die Funktion mvrnorm (Erzeu-gung von multivariaten normalverteilten Zufallszahlen). Die Dichte muss per Hand berechnetwerden.

1.3 Bedingte Verteilungen

Wir wiederholen zunachst die bedingten Dichte bei Zufallsvektoren. Es sei X = (YT ,ZT )T ∈Rd mit Dichte f(y, z), Y ∈ Rr, Z ∈ Rd−r, dann hat Y|Z = z die Dichte

f(y|z) =f(y, z)

f(z). (1)

Im Folgenden sei wie oben X ∼ N (µ, Σ), wobei X = (YT ,ZT )T , Y ∈ Rr, Z ∈ Rd−r, fur1 ≤ r < d. Sei

µ =

(µ1

µ2

), Σ =

(Σ11 Σ12

ΣT12 Σ22

)

mit µ1 ∈ Rr, µ2 ∈ Rd−r, Σ11 ∈ Rr×r, Σ22 ∈ R(d−r)×(d−r), Σ12 ∈ Rr×(d−r).

8 1 MULTIVARIATE NORMALVERTEILUNG UND QUADRATISCHE FORMEN

Satz 1.6Es ist Y|Z = z ∼ N (µY|Z=z, Σ1|2), wobei

µY|Z=z = µ1 − Σ12Σ−12 (z − µ2),

Σ1|2 = Σ1 − Σ12Σ−12 Σ21.

Die Matrix Σ1|2 heisst das Schur Komplement, diese ist positiv definit, falls Σ positiv definitist.

BeweisNach (1) ist

f(y|z) =exp(−1

2((x − µ)T Σ−1(x − µ) − (z − µ2)T Σ−1

2 (z − µ2)))

( |Σ||Σ2|)

12 · (2π) 2

.

Wir berechne Σ−1 in Blockform durch Spaltenumformungen 1.

(Σ1 Σ12

Σ21 Σ2

) (I1 00 I2

)

Σ−12 · 2↓(

Σ1 Σ12

Σ−12 Σ21 I2

) (I1 0

0 Σ−12

)

1 − Σ12 · 2↓(

Σ1|2 0

Σ−12 Σ21 I2

) (I1 −Σ12Σ

−12

0 Σ−12

)

Σ−11|2 · 1↓(

I1 0

Σ−12 Σ21 I2

) (Σ−1

1|2 −Σ−11|2Σ12Σ

−12

0 Σ−12

)

2 − Σ−12 Σ21 · 1↓(

I1 00 I2

) (Σ−1

1|2 −Σ−11|2Σ12Σ

−12

−Σ−12 Σ21Σ

−11|2 Σ−1

2 − Σ−12 Σ21Σ

−11|2Σ12Σ

−12

)

Somit ist

(x − µ)T Σ−1(x − µ) − (z − µ2)T Σ−1

2 (z − µ2)

=(y − µ1 − Σ12Σ

−12 (z − µ2)

)TΣ−1

1|2

(y − µ1 − Σ12Σ

−12 (z − µ2)

).

Wegen |Σ−1| = |Σ−12 | · |Σ−1

1|2| folgt der Satz.

1Gaußscher Algorithmus ((Σ|I) wird umgeformt zu (I|Σ−1))

1.4 Aus der Normalverteilung abgeleitete Verteilungen 9

Regression to the meanFur

µ = (µ1, µ2)T , Σ =

(σ2

1 ρσ1σ2

ρσ1σ2 σ22

), −1 < ρ < 1,

sei (X, Y ) ∼ N(µ, Σ) bivariat normalverteilt. Dann gilt nach Satz 1.6 fur die bedingte Ver-teilung

Y |X = x ∼ N(µ2 + ρ

σ2

σ1(x − µ1), (1 − ρ2)σ2

2

).

Insbesondere ist fur

σ21 = σ2

2 = σ2, µ1 = µ2 = µ, (2)

E(Y |X = x) = µ + ρ(x − µ) und somit fur 0 < ρ < 1,

µ < E(Y |X = x) < x falls x > µ, x < E(Y |X = x) < µ falls x < µ.

Selbst wenn also X und Y positiv korreliert sind, nahert sich im bedingten Mittel Y wiederµ an. Analog gilt fur die Anderung Y − X|X unter (2),

Y − X|X = x ∼ N((1 − ρ)(µ − x), (1 − ρ2)σ2

).

Also hat der Regressionskoeffizient von der Anderung Y −X (abhangige Variable) regressiertauf X (Kovariable) negatives Vorzeichen auch bei positivem ρ.

1.4 Aus der Normalverteilung abgeleitete Verteilungen

a. Ist X ∼ N (µ, Id), so hat XTX =∑d

i=1 X2i die nichtzentrale χ2-Verteilung mit d

Freiheitsgraden und Nichtzentralitatsparameter 12µT µ. Schreibweise: χ2(d; 1

2µT µ).In der Tat hangt die Dichte von XT X,

f(u) = e−λ∞∑

k=0

λ2k

k!

u12d+k−1e−

12u

212d+kΓ(1

2d + k), λ =

1

2µT µ,

nur von λ und nicht von ganz µ ab. Fur λ = 0 (bzw. µ = 0) ergibt sich die zentrale χ2-Verteilung mit d Freiheitsgraden, Bezeichnung χ2(d), diese hat die Dichte (Beweis!)

fχ2,d(u) =ud/2−1e−u/2

2d/2Γ(d/2). (3)

Man kann zeigen, dass (3) auch fur nicht ganzes d eine Dichte definiert, daher kann man dieFreiheitsgrade in (0,∞) variieren lassen.

Weitere Notation:χ2

α(n) : Das α-Quantil der zentralen χ2 Verteilung mit n Freiheitsgraden (0 < α < 1).χ2(n)(x) : Wert der Verteilungsfunktion der zentralen χ2 Verteilung mit n Freiheitsgradenbei x (x > 0).

Relevante R Befehle. dchisq (Dichte), pchisq (Verteilungsfunktion), qchisq (Quantile) und

10 1 MULTIVARIATE NORMALVERTEILUNG UND QUADRATISCHE FORMEN

rchisq (Zufallszahlen).

b. Ist U1 ∼ χ2(d1; λ), U2 ∼ χ2(d2), U1, U2 unabhangig, so hat

V =U1/d1

U2/d2∼ F (d1, d2; λ)

die nichtzentrale F-Verteilung mit Freiheitsgraden d1 und d2 und Nichtzentralitatspara-meter λ. Fur λ = 0 erhalt man die zentrale F-Verteilung, diese hat die Dichte (Beweis)

fF,d1,d2(u) =Γ(

d1+d22

)

Γ(d1/2

)Γ(d2/2

)dd1/21 d

d2/22

ud1/2

(d2 + d1u)(d1+d1)/2.

Weitere Notation:Fα(n, m; λ) : Das α-Quantil der F Verteilung mit n und m Freiheitsgraden (0 < α < 1) undNichtzentralitatsparameter λ.F (n, m; λ)(x) : Wert der Verteilungsfunktion der F Verteilung mit n Freiheitsgraden bei x(x > 0) und Nichtzentralitatsparameter λ.

Relevante R Befehle. df (Dichte), pf (Verteilungsfunktion), qf (Quantile) und rf (Zufalls-zahlen).

c. Ist X ∼ N (µ, 1), U ∼ χ2(d), so hat

V =X√U/d

die t-Verteilung mit d Freiheitsgraden und Nichtzentralitatsparameter µ, Bezeichnung t(n; µ).Fur µ = 0 erhalt man die zentrale t-Verteilung, diese hat die Dichte (Beweis)

ft,d(u) =Γ(

d+12

)

Γ(

d2

)√πd

(1 + u2/d

)(d+1)/2.

Weitere Notation:tα(n; µ) : Das α-Quantil der t Verteilung mit n und m Freiheitsgraden (0 < α < 1) undNichtzentralitatsparameter µ.t(n; µ)(x) : Wert der Verteilungsfunktion der t Verteilung mit n Freiheitsgraden und Nicht-zentralitatsparameter µ bei x (x > 0).

Relevante R Befehle. dt (Dichte), pt (Verteilungsfunktion), qt (Quantile) und rt (Zufalls-zahlen).

Ist bei einer dieser Verteilung der Nichtzentralitatsparameter = 0, so lasst man diesen in derNotation einfach weg.

1.5 Verteilung quadratischer Formen

Satz 1.7Sei X ∼ N (µ, Σ), A ∈ Rd×d positiv semidefinit2. Ist AΣ idempotent, d.h. (AΣ)2 = AΣ, sogilt

XT AX ∼ χ2(r(A),1

2µT Aµ)

2setzt Symmetrie voraus!

1.5 Verteilung quadratischer Formen 11

(r(A) ist der Rang von A)

BemerkungEs gilt auch die Ruckrichtung.

Beweisa. Zunachst sei wieder Σ = Id. Wegen A = A2 hat die Spektralzerlegung von A die Form

A = QT diag( 1, . . . , 1︸ ︷︷ ︸r(A) mal

, 0, . . . , 0)Q

mit orthogonaler Matrix Q. Somit

XT AX = XT QT diag(1, . . . , 1, 0, . . . , 0)︸ ︷︷ ︸=:D

QX︸︷︷︸=:Y

= YT DY = Y 21 + . . . + Y 2

r(A)

wobei Y ∼ N (Qµ︸︷︷︸=:v

, Id). Somit gilt:

XT AX ∼ χ2(r(A),1

2(v2

1 + . . . + v2r(A))︸ ︷︷ ︸

=vT Dv=µT Aµ

) = χ2(r(A),1

2µT Aµ)

b. Allgemeiner Fall: Ist X ∼ N (µ, Σ), so gilt Y = Σ− 12 X ∼ N (Σ− 1

2 µ, Id) und XT AX =

YT Σ12 AΣ

12 Y.

Es ist Σ12 AΣ

12 idempotent, denn

Σ12 AΣ

12 Σ

12 AΣ

12 = Σ− 1

2 ΣAΣAΣ12 = Σ− 1

2 ΣAΣ12 = Σ

12 AΣ

12 .

Nach (a) gilt somit

XT AX ∼ χ2(r(Σ12 AΣ

12 ),

1

2(Σ− 1

2 µ)T Σ12 AΣ

12 (Σ− 1

2 µ))

= χ2(r(A),1

2µT µ).

da Σ12 vollen Rang hat.

Beispiel 1.8Es seine X1, . . . , Xn unabhangig und N(µ, σ2) verteilt. Als Schatzer fur Erwartungswert undVarianz betrachtet man

Xn =1

n

n∑

i=1

Xi, S2n =

1

n − 1

n∑

i=1

(Xi − Xn)2.

Offenbar ist Xn ∼ N(µ, σ2/n). Wir zeigen

n − 1

σ2S2

n ∼ χ2(n − 1). (4)

12 1 MULTIVARIATE NORMALVERTEILUNG UND QUADRATISCHE FORMEN

Dazu setze 1n = (1, . . . , 1)T ∈ Rn und Pn = In − 1n1n1

Tn (die Zentrierungsmatrix). Fur

X = (X1, . . . , Xn)T ist in der Tat PnX = (X1−Xn, . . . , Xn−Xn)T . Weiter P 2n = Pn (Beweis),

also nach Satz 1.7

n − 1

σ2S2

n =1

σ2XT PnX ∼ χ2

(r(Pn), µ21T

nPn1n/2).

Da P 2n = Pn und P T

n = Pn, ist r(Pn) = SpurPn = n − 1. Ausserdem ist Pn1n = 0. Dies zeigt(4).

Satz 1.9 (Craig und Sakamoto)Sei X ∼ N (µ, Σ).

a. Ist A ∈ Rd×d positiv semidefinit, B ∈ Rp×d, so gilt

BΣA = 0 ⇒ XT AX und BX sind unabhangig

b. Ist auch B ∈ Rd×d positiv semidefinit, so gilt

BΣA = 0 ⇒ XT AX und XT BX sind unabhangig

Bemerkung Es gilt jeweils auch die Ruckrichtung (dies ist der schwerere, aber wenigerrelevante Teil).

Beweisa. Spektralzerlegung von A

A = Qdiag(λ1, . . . , λr(A), 0, . . . , 0)QT

mit Q orthogonal, λi > 0.Sei Q = (q1, . . . ,qd), Q = (q1, . . . ,qr(A)) ∈ Rd×r(A). Dann

A = QDDQT , D = diag(λ121 , . . . , λ

12

r(A))

Setze L := QD, dann ist A = LLT . Weiter gilt

LT L = D QT Q︸ ︷︷ ︸=Ir(A)

D = D2

ist invertierbar, also

BΣA = BΣLLT = 0 ⇒ BΣL(LT L)(LT L)−1 = BΣL = 0.

Nach Satz 1.5 sind somit die Vektoren BX und LTX unabhangig und somit auch BXund XT LLTX = XT AX (ist Funktion von LTX).

b. Analog. (Zerlege A und B.)

1.5 Verteilung quadratischer Formen 13

Fortsetzung von Beispiel 4. Da Xn = 1TnX/n und 1T

nPn = 0, sind Xn und S2n bei

normalverteilten Xi unabhangig.

Literatur

Discroll, M. F. (1999). An improved result relating quadratic forms and chi square distribu-tions. Amer. Statist. 53, 273-275.

Discroll, M. F. and Grundberg, W. R. (1986). A history of the development of Craig’s theo-rem. Amer. Statist. 40, 65-69.

Discroll, M. F. and Krasnicka, B. (1995). An accessible proof of Craig’s theorem in the generalcase. Amer. Statist. 49, 59-62.

14 2 LINEARE REGRESSION

2 Lineare Regression

2.1 Lineare Regression und Modellbildung

2.1.1 Regression und das lineare Modell

In der Regressionsanalyse geht es darum, den Einfluss einer Reihe von erklarenden Varia-blen x1, . . . , xr, sogenannte Kovariablen, auf eine abhangige Variabe Y , die Zielvariable, zumodellieren bzw. zu schatzen. Dieser Zusammenhang druckt sich in Form einer Funktiony = f(x1, . . . , xr) aus. Nun wird aber nicht angenommen, dass diese Beziehung exakt gilt.Vielmehr ist sie durch zufallige Storgroßen ǫ uberlagert, d.h. es gilt

Y = f(x1, . . . , xr) + ǫ.

In der linearen Regressionsanalyse nimmt man an, dass der Einfluss der Kovariablen, zumin-dest nach geeignter Transformation dieser Variablen, in einer linearen From

Y = b0 + b1x1 + . . . + brxr + ǫ.

Dabei ist ǫ eine Zufallsvariable (bzw. deren Realisierung) mit Erwartungswert Eǫ = 0 undendlicher Varianz Var ǫ = σ2, und somit ist auch die Zilegroße Y eine Zufallsvariable (bzw.deren Realisierung). Ziel ist dann die Schatzung der Parameter b0, . . . , br. Diese fasst manin einem Vektor zusammen. Wir schreiben β = (b0, . . . , br) ∈ Rp, also p = r + 1, und furdie Komponenten von β = (β1, . . . , βp)

T gilt dann βi = bi−1. Weiter schreibt man x =(1, x1, . . . , xr)

T ∈ Rp, so dass Y = xT β + ǫ.

Ziel ist nun in einem ersten Schritt die Schatzung der unbekannten Parameter des Modells,insbesondere von β. Dazu nimmt man an, es werden Daten (Yi, xi,1, . . . , xi,r), i = 1, . . . , n,beobachtet, so dass

Yi = xTi β + ǫi, xi = (1, xi,1, . . . , xi,r)

T .

Fur die Fehler ǫi nimmt man dabei an, dass diese unabhangig oder zumindest unkorreliertsind, also dass Cov(ǫi, ǫj) =, i 6= j. Falls daruber hinaus die Varianzen σ2

i = Var ǫi allegleich sind, also σ2

1 = . . . = σ2n, so sprich man von einer homoskedastsichen Fehlerstruktur,

ansonsten von einer heteroskedastischen Fehlerstruktur.

Die Analyse eines homoskedastischen linearen Regressionsmodells findet nun im Rahmen derTheorie linearer Modelle statt. Dazu schreiben wir das Modell in Vektor- und Matrixform wiefolgt.

Y =

Y1...

Yn

∈ Rn, X =

xT1...

xTn

∈ Rn×p, ǫ =

ε1...

εn

∈ Rn.

Es gilt dann Y = Xβ + ǫ. Fur die Kovariablen nimmt man noch an, dass sie dergestaltsind, dass die sogenannte Designmatrix X vollen Rang p hat. Der Achsenabschnitt wirdmeistens, aber nicht immer in das lineare Regressionsmodell mit aufgenommen. Das lineareRegressionsmodell fallt unter die folgende allgemeinere Definition.

2.1 Lineare Regression und Modellbildung 15

Definition 2.1Das Modell

Y = Xβ + ǫ, (5)

heißt lineares Modell, falls β ∈ Rp ein (konstanter, unbekannter) Parametervektor, X ∈ Rn×p

eine bekannte Matrix (Designmatrix), Y ein beobachter Zufallsvektor (Zielgroßen) und ǫ

ein nichtbeobachteter Zufallsvektor (Storgroßen) mit Eǫ = 0 und Cov ǫ = σ2In sind. Sinddaruber hinaus die Fehler normalverteilt, also ǫ ∼ N (0, σ2In), dann spricht man von einemlinearen Modell mit normalverteilten Fehlern.

Wir werden in den folgenden Abschnitten alle Resultate im allgemeinen linearen Modell (5)formulieren, aber wir denken dabei stets an ein homoskedastisches lineares Regressionsmo-dell. Lineare Modelle treten daruber hinaus insbesondere in dem verwandten Kontext derVarianzanalyse auf.

2.1.2 Modellierung des Einflusses der Kovariablen

a. Einfluss einer metrischen Kovariable

Angenommen, neben der Zielvariable Y wird noch eine metrische Kovariable x beobachtet.Das einfachste Modell ist nun die direkt lineare Regression von Y auf x, die einfache lineareRegression

Y = b0 + b1x + ε,

also xT = (1, x)T und βT = (b0, b1)T . Manchmal liegt ein linearer Zusammenhang auch erst

vor, nachdem x geeignet trasnformiert wurde, etwa zu x = log(x) (falls x > 0) und dannY = b0 + b1x + ε, also xT = (1, x)T .

Man kann aus einer metrischen Kovariable auch mehrere metrische Kovariablen machen durchAnwendung linear unabhangiger Funktionen f1, . . . , fr, also

Y = b0 + b1f1(x) + . . . + brfr(x) + ε,

also x =(1, f1(x), . . . , fr(x)

)T. Beispiele sind die polynomiale Regression, bei der fi(x) = xi

gewahlt wird, alsoY = b0 + b1x + . . . + brx

r + ǫ,

und x =(1, x, . . . , xr

)T, oder auch fur x ∈ [0, 1] die trigonometrische Regression, bei der

f2j−1(x) = sin(2jπx) und f2j(x) = cos(2jπx), j = 1, . . . , q gewahlt wird, also

Y = b0 +

q∑

j=1

(b2j−1 sin(2jπx) + b2j cos(2jπx)),

und x =(1, sin(2πx), cos(2πx)), sin(2qπx), cos(2qπx))

)T, β = (b0, b1, b2, . . . , b2q)

T , also p =2q + 1.

b. Einfluss einer kategoriellen Kovariable

Bei kategoriellen Kovariablen unterscheidet man nominale Kovariablen, bei denen die Katego-rien nicht geordnet sind (etwa Autotypen), und ordinale Kovariable, bei denen die Kategorien

16 2 LINEARE REGRESSION

in einer naturlichen Reihenfolge vorliegen (etwa Schulnoten).

Wir betrachten zunachst die Modellierung einer nominale Kovariablen mit den Kategorieni = 1, . . . , I. Um nicht zu viele Parameter ins Modell aufzunehmen, damit also die Desigma-trix X noch vollen Rang hat, wahlt man eine Referenzkategorie, z.B. i = 1, und fur kunstli-che Kovariablen ein, deren Koeffizient den Unterschied zwischen der betrachteten Kategoriei = 2, . . . , I und der Referenzkategorie beschreibt. Hier sind insbesondere zwei Kodierungenublich.

Kodierung durch Dummy Variablen Wird die Kategorie x beobachtet und ist 1 die Refe-renzkategorie, so setze x = (1, 1x=2, . . . , 1x=I)

T ∈ RI , d.h. falls eine der Kategorien i = 2, . . . , Ivorliegt, kommt eine 1 hinzu, ansonsten gibt es nur den Achsenabschnitt. Im Koeffizienten-vektor β = (β1, . . . , βI)

T beschreibt βi den Unterschied des Einflusses von Kategorie i ≥ 2gegenuber der Referenzkategorie, und β1 + βi den Gesamteinfluss von Kategorie i ≥ 2.

Effektkodierung Wird die Kategorie x beobachtet und ist 1 die Referenzkategorie, so setzex = (1, 1x=2 − 1x=1, . . . , 1x=I − 1x=1)

T ∈ RI .

Die Software R verwendet standardmaßig die Dummy Kodierung.

Handelt es sich bei x um eine ordinale Kovariable, so kann man versuchen, den geordenetenKategorien konkrete Zahlen (etwa den Schulnoten die Zahlen 1 − 6) zuzuordnen, und diesedann wie eine metrische Kovariable zu benutzten. Dies hat den Vorteil, dass in dem Modellwesentlich weniger Parameter (nur ein Parameter β fur Kovariable x statt I − 1 Parameter)verwendet werden mussen. Dabei mussen die zugeordneten Zahlen (insbesondere das Verhalt-nis von deren Abstanden) aber sogfaltig gewahlt werden. Falls dies nicht adaquat moglich ist,sollte die Kovariable lieber wie eine nominale Kovariable und mit der Dummay Kodierungbehandelt werden.

relevante R Befehle kategorielle Kovariablen mussen bei der Funktion lm, die lineare Re-gression mit kleinsten Quadraten anpasst, als Faktor vorliegen. Dazu kann man den Typ mitstr erfahren, und gegebenenfall mit as.factor zu einem Faktor umwandeln.

c. Interaktionen

Interaktionen zwischen einer kategoriellen und einer stetigen Kovariable

Ist x eine kategorielle (nominale) Kovariable mit den Kategorien i = 1, . . . , I und t eine stetigeKovariable, die direkt (linear) in die Zielgroße eingeht, so konnen die Kategorienauspragungenvon x auch den Koeffizienten von t beeinflussen. Dies nennt man Interaktionen, man setztdann bei Referenzkategorie 1 und Dummykodierung von x

x =(1, 1x=2, . . . , 1x=I , t, 1x=2t, . . . , 1x=It

)T.

Im Koeffizientenvektor β = (β1, . . . , βI , βI+1, . . . , β2I)T beschreibt dann βI+1 + β2I die Stei-

gung von t bei Vorliegen von Kategorie i ≥ 2, und βI+1 die Steigung bei Vorliegen derReferenzkategorie 1. Man muss dabei naturlich nicht alle Interaktionen in das Modell aufneh-men.

Falls sowohl stetige als auch kategorielle Kovariable auftreten, spricht man manchmal stattvon der Regressionsanalyse auch von der Kovarianzanalyse.

Interaktionen zwischen zwei kategoriellen Kovariablen

Ist x eine kategorielle (nominale) Kovariable mit den Kategorien i = 1, . . . , I und t eine kate-gorielle Kovariable mit Kategorien j = 1, . . . , J , so kann man Interaktionen fur gemeinsames

2.1 Lineare Regression und Modellbildung 17

Vorliegen von x = i und t = j modellieren. Sind i = 1 und j = 1 die Referenzkategorien, sobildet man in Dummy Kodierung

x =(1, 1x=2, . . . , 1x=I , 1t=2, . . . , 1t=J , 1x=21t=2, . . . , 1x=21t=J , . . . , 1x=I1t=J

)T ∈ RIJ .

Die Terme 1x=i1t=j , i = 2, . . . , I, j = 2, . . . , J , entsprechen dann den Interaktionen, diese sindwieder als Abweichungen gegenuber den Haupteffekten 1x=i und 1t=j zu interpretieren.

Interaktionen zwischen zwei metrischen Kovariablen

Interaktionen zwischen zwei metrischen Kovriablen x und t mussen durch Aufnahme be-stimmter gemeinsamer nichtlinearer Funktionen, etwa xt oder exet, modelliert werden. Manbenutzt haufig gemeinsame Polynome niedrigen Grades.

In welcher Form metrische Kovariablen aufgenommen werden, und welche Interaktionen mitkategoriellen oder anderen metrsichen Kovariablen aufgenommen werden, muss innerhalb derModellwahl und der Modelldiagnostik bestimmt werden. Wie nehmen zunachst an, dass einlinearen Modell der Form (5) in seiner korrekten Form gegeben ist.

18 2 LINEARE REGRESSION

2.2 Kleinste Quadrate Schatzung

2.2.1 Methode der kleinsten Quadrate

Der bekannteste Schatzer von β im linearen Modell (5) ergibt sich aus der Methode derkleinsten Quadrate. Wann wahlt dabei β derart, dass ‖Y−Xβ‖2 =

∑ni=1(Yi−xT

i β)2 minimalwird, also

β = βLS = argminβ∈Rp ‖Y − Xβ‖2

Dabei stehet LS fur least squares = kleinste Quadrate. Wir schreiben fur die Komponentenvon βLS explizit βLS = (β1,LS , . . . , βp,LS). Wir wollen βLS in expliziter Form auf zwei Artenherleiten.

Normalengleichungen. Ableiten von ‖Y − Xβ‖2 und gleich 0 setzten liefert

XT (Y − Xβ) = 0.

Dies nennt man auch die Normalengleichungen, diese sind eine notwendige Bedingung fur einlokales Extremum. Da X vollen Rang p hat, ist XT X ∈ Rp×p invertierbar und man erhalt

βLS = β = (XT X)−1XTY. (6)

Dass βLS das einzige lokale und somit globale Minimum von ‖Y−Xβ‖2 ist, sieht man leichtdaran, dass die Hessische Matrix (Matrix der zweiten Ableitungen) gleich XT X und somitpositiv definit ist.

Geometrische Herleitung: Ein β minimiert die Funktion ‖Y−Xβ‖2 genau dann, wennXβ die orthogonale Projektion von Y auf den von den Spaltenvektoren von X = [v1, . . . ,vp],vi ∈ Rn, erzeugten Unterraum V = spanv1, . . . , vp im Rn ist. In der Tat: Fur jedes andereβ gilt nach Pythagoras:

‖Y − Xβ‖2 = ‖Y − Xβ︸ ︷︷ ︸⊥ v1,...,vp

+X(β − β)‖2 = ‖Y − Xβ‖2 + ‖X(β − β)‖2 ≥ ‖Y − Xβ‖2

Da X vollen Rang hat, sind v1, . . .vp linear unabhangig und somit ist der Koeffizientenvektor

βLS eindeutig bestimmt.Um den Schatzer βLS in der expliziten Form (6) zu erhalten, betrachten wir die MatrixPX = X(XT X)−1XT ∈ Rn×n (die sogenannte hat matrix). Es ist

PX : Rn → V z 7→ PXz

die orthogonale Projektion auf V . Dazu zeigt man durch direkte Rechnung:

a. PX ist orthogonale Projektion: P 2X = PX , P T

X = PX

b. PX lasst V invariantc. PXRn ⊂ V

Somit muss gelten:

Xβ = PXY = X(XT X)−1XTY.

Da X vollen Rang hat, ergibt sich wieder die Form (6).

2.2 Kleinste Quadrate Schatzung 19

BemerkungErwartungswert und Varianz von Y im linearen Modell (5) hangen von den unbekannten Pa-rametern (β, σ2), ab, hohere Momente sogar von der unbekannten Verteilung der Storungenǫ. Daher musste man diese bei Bildung von Erwartungswert und Varianz eigentlich mitschrei-ben, also etwa Eβ,σ2(·) und Covβ,σ2(·). Wir werden diese Parameter aber in der Notation imallgemeinen unterdrucken, und einfach E und Cov schreiben.

Satz 2.2Der kleinste Quadrate Schatzer βLS im linearen Modell (5) ist unverfalscht, also EβLS = β,und es ist

Cov βLS = σ2(XT X)−1.

BeweisMit Satz 1.2 folgt

EβLS = E(XT X)−1XT Y

= E(XT X)−1XT (Xβ + ǫ)

= E(XT X)−1XT Xβ + E(XT X)−1XT ǫ

= β + (XT X)−1XT Eǫ︸︷︷︸=0

,

= β

Cov βLS = Cov((XT X)−1XT ( Xβ︸︷︷︸konst.

+ǫ))

= Cov((XT X)−1XT ǫ)

= (XT X)−1XT σ2InX(XT X)−1

= σ2(XT X)−1

Man nennt σ((XT X)−1

ii

)1/2und fur einen Schatzer σ2 von σ2 (s.u.) auch σ

((XT X)−1

ii

)1/2den

Standardfehler von βi,LS .

Im Folgenden zeigen wir, dass βLS der eindeutig bestimmte, lineare unverfalschte Schatzermit der kleinsten Varianz ist.

Satz 2.3 (Gauß-Markov-Aitken)a. Sei S(Y) = AY, A ∈ Rp×n, ein linearer, unverfalschter Schatzer fur β im linearen

Modell (5) (d.h. ES(Y) = β ∀β ∈ Rp). Dann gilt

Cov(S(Y)) ≥ Cov(βLS)

im Sinne, dass die Differenz(Cov(S(Y)) − Cov(βLS)

)positiv semidefinit ist.

b. Ist A 6= (XT X)−1XT , so existiert z = z(A) ∈ Rp, so dass

zT (Cov(S(Y)) − Cov(βLS))z > 0

Beweisa. Aus der Unverfalschtheit folgt

ES(Y) = AXβ!= β ∀β ∈ Rp,

20 2 LINEARE REGRESSION

also AX = Ip. Damit und mit Satz 2.2 ist

Cov(βLS) = σ2(XT X)−1 = σ2AX(XT X)−1XT AT = σ2APXAT ,

Cov(S(Y)) = Aσ2InAT = σ2AAT .

Damit erhalt manCov(S(Y )) − Cov(βLS) = σ2A(In − PX)AT

Die Matrix (In−PX) ist idempotent und symmetrisch: (In−PX)2 = (In−PX) = (In−PX)T .Somit:

σ2zT A(In − PX)ATz = σ2‖(In − PX)AT z‖2 ≥ 0.

b. Angenommen, (In − PX)ATz‖2 = 0 ∀z ∈ Rp, und somit (In − PX)AT = 0. Sei AT =(a1, . . . ,ap), ai ∈ Rn, dann erhalt man 3: ai ∈ span(v1, . . . ,vp), also AT = XM fur eineMatrix M ∈ Rp×p. Wegen AX = Ip folgt MT XT X = IP , also MT = (XT X)−1 ⇒ A =(XT X)−1XT .

Wegen Satz 2.3 heißt der Schatzer βLS auch der beste lineare unverfalschte Schatzer (bestlinear unbiased estimator, BLUE).

Bemerkung 2.41. Satz 2.3, b., impliziert, dass es fur einen unverfalschten Schatzer S(Y) 6= βLS ein z ∈ Rp

gibt, so dass gilt Var(zT S(Y)) > Var(zT βLS). (Schatzer fur zT β)

2. Satz 2.3, a., folgt(Cov(S(Y )

)jj

≥(Cov βLS

)jj

fur j = 1, . . . , p, und daher

Spur(Cov(S(Y ))) ≥ Spur(Cov(βLS))

Der kleinste Quadrate Schatzer βLS als Maximum-Likelihood-Schatzer. Ange-nommen, im linearen Modell (5) sind die Fehler normalverteilt, also ǫ ∼ N (Xβ, σ2In) undsomit Y ∼ N (Xβ, σ2In). Dann ist die Likelihood-Funktion gegeben durch

Ln(β, σ2) =1

(2πσ2)n2

exp

(− 1

2σ2

n∑

i=1

(Yi − xTi β)2

),

und die log-Likelihood-Funktion durch

Ln(β, σ2) = log Ln(β, σ2) = −n

2log(2πσ2) − ‖Y − Xβ‖2

2σ2

Damit Ln(β, σ2) maximal wird, muss offenbar ‖Y − Xβ‖2 minimal werden. Daher ist βLS

gleich dem Maximum Likelihood Schatzer βML fur β im linearen Modell mit normalverteiltenFehlern.

Schatzen der Fehlervarianz σ2.

Zunachste einige Bezeichnungen:

Y = Xβ =(Y1, . . . , Yn

)Tangepassten Werte (fitted values)

ǫ = Y − Y Residuen

3ai ∈ Kern(In − PX) = Bild(PX); Eigenschaft von Projektionen (hier: PX)

2.2 Kleinste Quadrate Schatzung 21

Idee: Nutze Variation der ǫ = (ε1, . . . , εn)T zum Schatzen von σ2. Schatze σ2 durch

σ2 = σ2LS =

1

n − p

n∑

i=1

ε2i =

1

n − p‖Y − Y‖2 =

1

n − pYT (I − PX)Y,

wobei wir Y = Xβ = PXY und (I − PX) = (I − PX)2 = (I − PX)T genutzt haben.

Satz 2.5Im linearen Modell (5) ist σ2

LS erwartungstreu fur σ2.

BeweisDa EY = Xµ, Cov Y = σ2In, folgt mit Satz 1.2

E(YT (I − PX)Y) = µT XT (I − PX)X︸ ︷︷ ︸=0

µ + Spur(σ2(I − PX)).

Es gilt:

Spur(In − PX) = n − Spur(X(XT X)−1 · XT )

= n − Spur(XT · X(XT X)−1)

= n − Spur Ip

= n − p. (7)

Somit ist

Eσ2LS =

1

n − pE(YT (I − PX)Y) = σ2.

Ubung Der ML-Schatzer σ2ML fur σ2 im linearen Modell mit normalverteilten Fehlern

ist gegeben durch 1n‖Y − XβLS‖2.

Relevante R Befehle lm fuhrt eine kleinste Quadrate Schatzung im linearen Modell durch.Auf ein dadurch erzeugtes Objekt kann man summary (Schatzwerte, Schatzer fur σ2, Stan-dardfehler und mehr), fitted.values (angepasste Werte), residuals (Residuen) anwenden.

22 2 LINEARE REGRESSION

2.2.2 Verteilungstheorie bei normalverteilten Fehlern

In diesem Abschnitt gehen wir auf die Verteilung der Schatzer sowie relevanter Teststatistikenim linearen Modell (5) mit normalverteilten, homoskedastischen Fehlern, also ǫ ∼ N(0, σ2In),ein. Wir beginnen mit dem grundlegenden

Satz 2.6Im linearen Modell Y = Xβ + ǫ, β ∈ Rp, mit normalverteilten, homoskedastischen Fehlernǫ ∼ N(0, σ2In) gilt

βLS ∼ N(β, σ2(XT X)−1

),

n − p

σ2σ2 ∼ χ2(n − p),

und βLS und σ2 sind unabhangig.

BeweisDa Y ∼ N(Xβ, σ2In), folgt aus βLS = (XT X)−1XTY mit Satz 1.3 direkt die Behauptung

fur βLS . Weiter ist

σ2 =1

σ2YT (In − PX)Y.

Da (In − PX)2 = In − PX (die orthogonale Projektion auf das orthogonale Komplementdes Spaltenraumes von X), ist Satz 1.7 anwendbar (die Division durch σ2 standardisiert dieY). Da (In − PX)X = 0, ist der Nichtzentralitatsparameter gleich 0. Weiter ist nach (7)Spur(In − PX) = n − p.Es bleibt die Unabhangigkeit von βLS und σ2 zu zeigen. Diese folgt direkt aus Satz 1.9, da(In − PX)X = 0.

Konfidenzintervall fur cT β. Fur c ∈ Rp gilt nach Satz 2.6 und Satz 1.3

cT βLS ∼ N(cT β, σ2cT (XT X)−1c

)

undcT βLS − cT β

σ(cT (XT X)−1c)12

∼ N (0, 1).

Wegen der Unabhangigkeit von βLS und σ2 (und somit auch von cT βLS und σ2) folgt direktaus der Definition der t Verteilung

cT βLS − cT β

σ (cT (XT X)−1c)12

∼ t(n − p). (8)

Konfidenzintervall fur cT β zum Niveau α > 0:[cT βLS − σ(cT (XT X)−1c)

12 t1−α

2(n − p); cT βLS + σ(cT (XT X)−1c)

12 t1−α

2(n − p)

].

Insbesondere fur Komponente βi (c = ei, i-te Einheitsvektor):

[βLS,i − σ((XT X)−1)

12iit1−α

2(n − p); βLS,i + σ((XT X)−1)

12iit1−α

2(n − p)

].

Aufgabe Konfidenzintervall fur σ2.

relevante R Befehle confint liefert fur ein Objekt aus lm die Konfidenzintervalle dereinzelnen Komponenten des KQ Schatzers.

2.2 Kleinste Quadrate Schatzung 23

Hypothesen Testen mit dem t Test Fur c ∈ Rp und δ ∈ R betrachten wir die Hypothese

Hc,δ : cT β = δ.

Unter Gultigkeit der Hypothese Hc,δ gilt nach (8):

Tc,δ =cT βLS − δ

σ(cT (XT X)−1c)12

∼ t(n − p).

Man verwirft die zweiseitige Hypothese Hc,δ zum Niveau α > 0, falls Tc,δ < tα/2(n − p) oderfalls Tc,δ > t1−α/2(n − p). Der zweiseitige p-Wert ergibt sich als

P =

2 t(n − p) (Tc,δ), Tc,δ < 0,2(1 − t(n − p) (Tc,δ)

), Tc,δ > 0.

(9)

Analog fur einseitige Hypothesen. Wichtigster Spezialfall: c = ei, δ = 0. Dann Hi : βi = 0,und

Ti =(βLS)i

σ((XT X)−1)1/2ii

.

relevante R Befehle summary liefert fur ein Objekt aus lm die zweiseitigen P-Werte fur dieHypothese Hi.

Vorhersageintervalle Ein Konfidenzintervall bezieht sich auf den Erwartungswert cT β

von cT β, wobei β aus dem linearen Modell (5) berechnet wird.

Bei einem Vorhersageinterall (Prediction Interval) hingegen ist eine zusatzliche Kovariablen-auspragung xn+1 erforderlich, bei der die abhangige Variable Yn+1 vorhergesagt werden soll.Das Vorhersageintervall bezieht sich also nicht auf einen Parameter wie das Konfidenzinter-vall, sondern auf die Zufallsvariable Yn+1.

Sei βLS der KQ-Schatzer im linearen Modell (5). Als Vorhersage fur Yn+1 bei xn+1 betrachtenman

Y Pred = xTn+1βLS .

Nach dem linearen Modell wurde die Beobachtung Yn+1 entstehen durch

Yn+1 = xTn+1β + εn+1,

wobei εn+1 und ǫ unabhangig sind. Somit

Y Pred − Yn+1 = xTn+1(βLS − β) + εn+1 ∼ N

(0, σ2 + σ2xT

n+1(XT X)−1xn+1

),

und nach Satz 2.6Y Pred − Yn+1

σ(1 + xTn+1(X

T X)−1xn+1)12

∼ tn−p.

Als zweiseitigen Vorhersagebereich erhalt man

[Y Pred−σ(1+xT

n+1(XT X)−1xn+1)

12 t1−α

2(n−p), Y Pred+σ(1+xT

n+1(XT X)−1xn+1)

12 t1−α

2(n−p)

].

24 2 LINEARE REGRESSION

Vergleich. Das Vorhersageintervall fur Yn+1 ist breiter als das Konfidenzintervall furxT

n+1β, da der zusatzliche Fehler εn+1 in Yn+1 mit berucksichtigt werden muss.

relevante R Befehle predict.lm anwenden auf Objekt aus lm und zusatzliche Kovariable.

Konfidenzbereich fur Aβ Die Matrix A ∈ Rq×p, 1 ≤ q ≤ p, habe vollen Rang. NachSatz 2.6 und Satz 1.3 ist

AβLS ∼ N(Aβ, σ2S

),

wobei S = A(XT X)−1AT ∈ Rq×q vollen Rang hat. Nach Satz 1.7 ist dann

(A(βLS − β))T S−1

σ2A(βLS − β) ∼ χ2(q).

Da nach Satz 2.6 σ2 und βLS (und damit auch eine Funktion von βLS) unabhangig sind,folgt aus der Definition der F Verteilung

(A(βLS − β))T S−1A(βLS − β)

qσ2∼ F (q; n − p). (10)

Somit ergibt sich als (1-α)-Konfidenzbereich fur Aβ:

Aβ :

(A(βLS − β))T S−1A(βLS − β)

qσ2≤ F1−α(q; n − p)

.

Ein wichtiger Spezialfall ensteht, falls A eine Teilmatrix von Ip ist.

relevante R Befehle Die library ellipse enthalt den Befehl ellipse, welcher zweidimen-sionale Konfidenzellipsoide berechnet. Plotten einfach mit plot.

Testen allgemeiner linearer Hypothesen mit dem F-Test Man mochte manchmalallgemeinere lineare Hypothesen, die nicht von der Form cT β = δ sind, testen.

Beispiele linearer Hypothesen.

a. H: β = 0 (alle βi = 0)

b. H: βi1 = . . . = βiq = 0, 1 ≤ i1 < . . . < iq ≤ p

c. H: β = β0, β0 6= 0.

Allgemeine lineare Hypothese: Fur A ∈ Rq×p, q ≤ p mit vollem Rang, m ∈ Rq betrachte

HA,m : Aβ = m.

Es gilt

Aβ − m ∼ N(Aβ − m, σ2S

),

2.2 Kleinste Quadrate Schatzung 25

wobei wiederum S = A(XT X)−1AT ∈ Rq×q vollen Rang hat. Dann ist

(Aβ − m)T S−1

σ2(Aβ − m) ∼ χ2(q, λ)

wobei der Nichtzentralitatsparameter λ = 12(Aβ − m)T S−1

σ2 (Aβ − m), und somit

FS =(Aβ − m)T S−1(Aβ − m)

qσ∼ F (q, n − p, λ)

Unter der Hypothese HA,m gilt λ = 0. Daraus bestimmt man den zweiseitigen p-Wert fur dielineare Hypothese als P = 1 − F (q, n − p)(FS).

Aufgabe Bestimme den kleinsten Quadrate Schatzer unter der linearen NebenbedingungAβ = m.

relevante R Befehle anova fuhrt den F Test durch, dabei muss das Modell unter HA,m

mit geschatzt worden sein und als Argument ubergeben werden. Falls kein zweites Modellubergeben wird, fuhrt anova die F-Tests dafur durch, ob bei kategorielle Kovariablen alleKoeffizienten der Dummy Variablen = 0 sind, und gegebenenfalls auch fur die Interaktionen.

2.2.3 Asymptotische Verteilungstheorie

In diesem Abschnitt zeigen wir, dass der kleinste Quadrate Schatzer im linearen Regressions-modell unter geeigneten Bedingungen bei nicht-normalverteilten Fehlern zumindest asympto-tisch normalverteilt ist. Dazu benotigen wir zunachst ein geeignetes Beobachtungsmodell, indem die Anzahl der Beobachtungen n wachst (n → ∞), die Zahl der Parameter p sowie derParametervektor β und σ2 fest bleiben. Wir nehmen also an, dass fur jedes n Beobachtungen(Yi,n, xi,n), i = 1, . . . , n, aus dem Modell

Yi,n = xTi,nβ + ǫi,n i = 1, . . . , n, (11)

vorliegen, wobei ǫi,n identisch verteilt sind fur alle i, n mit Eǫi,n = 0, Eǫ2i,n = σ2, undǫ1,n, . . . , ǫn,n unabhangig sind fur alle n. Setze

Xn = (xT1,n, . . . ,xT

n,n)T ∈ Rn×p, Yn = (Y1,n, . . . , Yn,n) ∈ Rn, ǫ = (ǫ1,n, . . . , ǫn,n)T ∈ Rn,

wobei wir im Vektor ǫ die Abhangigkeit von n unterdruckt haben.

Annahme. Alle Komponenten der xj,n (fur alle j, n) liegen in einer kompakter Menge K,und es gelte

1

nXT

n Xn → Q ∈ Rp×p (12)

fur eine positiv definite Matrix Q > 0.

Satz 2.7In einer Folge von linearen Modellen (11) unter obigen Annahmen gilt fur die Folge von

Schatzern βLS,n und σ2n unter Annahme (12)

√n(βLS,n − β)

d→ N (0, σ2Q−1) (13)

26 2 LINEARE REGRESSION

sowieσ2

nP→ σ2.

Bemerkung a. Das Symbold→ steht fur Konvergenz in Verteilung, also im Falle einer Nor-

malverteilung als Grenzverteilung fur punktweise Konvergenz der entsprechenden Verteilungs-funktionen.b. Das Symbol

P→ steht fur stochastische Konvergenz, also ZnP→ Z falls P (|Zn−Z| ≥ δ) → 0,

n → ∞, fur alle δ > 0.

Zum Beweis von Satz 2.7 Wir benotigen folgende Resultate uber Verteilungskonvergenzaus der Stochastik.

ZGWS unter Lindeberg Fur jedes n ∈ N seien Zjn, j = 1, . . . , n unabhangige Zufalls-variablen (nicht notwendig identisch verteilt) mit EZjn = 0, VarZnj = σ2

jn < ∞.

Es sei Sn =∑n

j=1 Zjn, ES2n = s2

n = σ21n + . . . + σ2

nn. Gilt ∀δ > 0 die Lindeberg-Bedingung

1

s2n

n∑

j=1

|Zjn|≥δsn

|Zjn|2dP → 0, n → ∞,

so folgtSn

sn

d→ N (0, 1) (n → ∞).

Cramer-Wold-Technik Sei Zn ∈ Rd Zufallsvektor, EZn = 0, Cov Zn = Σ. Dann:

Znd→ N (0, Σ) ⇔ ∀a ∈ Rd gilt aTZn

d→ N (0,aT Σa)

Satz von Slutzky Gilt Znd→ N (0, Σ) und An

P→ A ∈ Rd×p, A konstant, dann

AnZnd→ N (0, AΣAT ).

Beweis von Satz 2.7. Es ist

√n(βLS,n − β) = (

1

nXT

n Xn)−1

︸ ︷︷ ︸→Q−1

1√n

XTn ǫ

Also genugt es nach dem Satz von Slutzky zu zeigen, dass

1√n

XTn ǫ

d→ N (0, σ2Q)

Dazu zeige nach Cramer-Wold fur a ∈ Rp beliebig (a 6= 0)

1√naT XT

n ǫd→ N (0, σ2atQa)

2.2 Kleinste Quadrate Schatzung 27

Zunachst ist

Var(1√naT XT

n ǫ) =σ2

naT XT

n Xna ≥ η > 0 (14)

wegen Annahme (12) asymptotisch von 0 weg beschrankt (fur n ≥ n0). Weiter gilt

aT XTn = (aTxn,1, . . . ,a

Txn,n),1√naT XT

n ǫ =

n∑

i=1

aTxn,i√n

εi,n

Wegen Annahme (1) (kompakte Menge) gilt

supi,n

|aTxn,i| = c < ∞ (15)

Uberprufe nun die Lindeberg-Bedingung des ZGWS mit Zjn = 1√naTxj,nεj,n und s2

n =

σ2

n aT XTn Xna. Es gilt fur δ > 0 (und n ≥ n0) wegen (14)

1

s2n

n∑

j=1

| 1√naT xj,nεj,n|≥δsn

1

n(aTxj,n)2ε2

j,ndP

≤ 1

η2

n∑

j=1

1

n(aTxj,n)2

︸ ︷︷ ︸beschrankt wegen (15)

|εj,n|≥ δηc

√n|εj,n|2dP

︸ ︷︷ ︸→0

→ 0

Die Konvergenz des Integralterms ist unabhangig von j, n, da die ǫj,n identisch verteilt sind.Dies zeigt (13).

Zur Konsistenz von σ2n:

Rechenregeln fur das Symbol OP . Eine Folge Zn von d-dim. Zufallsvektoren (Zn) istOP (1), falls fur alle δ > 0 ein C > 0 existiert, so dass fur alle n,

P (‖Zn‖d ≥ C) ≤ δ,

wobei ‖ · ‖d eine Norm auf Rd ist. Dies ist aquivalent zur Straffheit der Folge (Zn) (vgl.Stochastik). Fur eine positive Zahlenfolge (cn) ist nach Definition Zn = OP (cn), falls Zn/cn =OP (1). Dann gilt: ist Zn = OP (cn), Wn = OP (dn) (Wn Zufallsvektor im Rd, dn Zahlenfolge),dann ist ZT

nWn = OP (cndn) (Ubung).

Zum Beweis: Es ist

σ2n =

ǫT ǫ

n − p− ǫT Xn(XT

n Xn)−1XTn ǫ

n − p

Wegen der oben gezeigten Konvergenz ist 1√nǫT Xn = OP (1). Somit

ǫT Xn(XTn Xn)−1XT

n ǫ =1√n

ǫT Xn(1

nXT

n Xn)−1 1√n

XTn ǫ

= OP (1)O(1)OP (1)

= OP (1)

28 2 LINEARE REGRESSION

Daher ist

σ2 =ǫT ǫ

n − p+ OP (n−1)

=n

n − p

1

n

n∑

i=1

ε2i,n + OP (n−1).

Die Behauptung folgt somit aus dem schwachen Gesetzt der großen Zahlen.

Folgerung. Unter den Annahmen von Satz 2.7 gilt

(XTn Xn)(−1/2) 1

σn

(βLS,n − β

) d→ N(0, Ip). (16)

Bemerkung 2.8Man kann nun auf dem asymptotischen Verteilungsresultat (16) eine Theorie der statistischenInferenz im linearen Regressionsmodell (asymptotische Konfidenzintervalle, Tests, etc.) auf-bauen. So ist etwa die t Statistik auf der linken Seite in (8) asymptotisch N(0, 1) verteilt,und die F-Statistik auf der linken Seite in (10) ist asymptotisch verteilt wie qχ2(q) (ohne dieDevision durch q asymptotisch χ2(q), dann wird diese Statistik auch Wald-Statistik genannt.

Man verwendet aber meistens die exakte Verteilungstheorie unter normalverteilten Fehlern.Dies hat mehrere wesentliche Grunde: a. Die Standard Statistik Software (etwa R) liefertstets Ergebnisse, die auf der exakten Verteilungstheorie fur normalverteilte Fehler basiert, b.diese berucksichtigt auch explizit den statistischen Fehler beim Schatzen von σ2 (also etwa tVerteilung statt Normalverteilung), und ist daher haufig genauer, c. Messfehler sind haufigapproximativ normalverteilt (sie ergeben sich als Uberlagerung vieler kleiner Ursachen) d. dieexakte Theorie ist auch robust gegenuber Abweichungen von der Normalverteilungsannahme.

BemerkungDie Asymptotik (16) gilt auch unter den wesentlich schwacheren Bedingungen:

(XTn Xn)−1 → 0 und max

1≤i≤nxT

i (XTn Xn)−1xi → 0 ( fur n → ∞).

Literatur

Eicker, F. (1963). Asymptotic normality and consistency of the least squares estimators forfamilies of linear regressions. Ann. Math. Statist. 34, 447–456.

2.3 Andere Schatzverfahren 29

2.3 Andere Schatzverfahren

2.3.1 Mittlerer quadratischer Fehler und Ridge-Regression

Der kleinste Quadrate Schatzer βLS ist zwar der beste lineare unverfalschte Schatzer, wirwerden im Folgenden aber zeigen, dass es (bzgl des mittleren quadratischen Fehlers) nochbessere lineare, aber nicht unverfalschte Schatzer gibt.

Fur einen Schatzer β von β definiert man den mittlerer quadratischen Fehler (meansquared error, MSE) durch

MSEβ(β) = Eβ‖β − β‖2 = E

(p∑

i=1

(βi − βi)2

)

Es gilt:

E‖β − β‖2 = E‖β − Eβ + Eβ − β‖2

= E‖β − Eβ‖2 + 2E〈β − Eβ, Eβ − β〉︸ ︷︷ ︸=0

+‖Eβ − β‖2

= E‖β − Eβ‖2 + ‖Eβ − β‖2

da

E〈β − Eβ, Eβ − β〉 =

p∑

i=1

E((βi − Eβi)(Eβi − βi)) = 0.

Also

E‖β − β‖2 = E‖β − Eβ‖2

︸ ︷︷ ︸”Varianz-Term“

+ ‖Eβ − β‖2

︸ ︷︷ ︸”Bias-Term“

.

Fur unverfalschte Schatzer gilt: ‖Eβ − β‖2 = 0.Fur lineare Schatzer β = AY, A ∈ Rp×n gilt:

E‖β − Eβ‖2 = E‖Aǫ‖2 = E(ǫT AT Aǫ) = σ2 Spur(AT A)

= σ2 Spur(AAT ) = Spur(Cov β).

Somit sagt Gauß-Markov-Aitken (s. Bemerkung 2.4): βLS ist linearer, unverfalschter Schatzermit kleinstem MSE .

Ziel Konstruktion von linearen, nicht unverfalschten Schatzern mit kleinerem MSE alsβLS .

Wir betrachten im Folgenden die Spektralzerlegung von XT X (existiert, da XT X positivdefinit, insbesondere symmetrisch), also

XT X = U diag(λ1, . . . , λp)UT

30 2 LINEARE REGRESSION

mit U orthogonal, λi > 0. Damit berechnet man den MSE von βLS als4:

MSE(βLS) = σ2 Spur(XT X)−1 = σ2p∑

i=1

λ−1i .

Ridge-Regression Fur α > 0 setze

βα = (αIp + XT X)−1XTY.

Berechne Bias- und Varianzterm fur βα:

E‖βα − Eβα‖2 = σ2 Spur(X(αIp + XT X)−2XT

)

= σ2 Spur(XT X(αIp + XT X)−2

)

Spektralzerlegung

XT X(αIp + XT X)−2 = U diag( λ1

(α + λ1)2, . . . ,

λp

(α + λp)2

)UT

Somit:

E‖βα − Eβα‖2 = σ2 ·p∑

i=1

λi

(α + λi)2=: Var(α)

Bemerkung Dieser Varianz-Term ist stets kleiner als der Varianz-Term von βLS . Er wirdkleiner fur wachsendes α.

Bias(α) := ‖Eβα − β‖2

= ‖(αIp + XT X)−1XT Xβ − β‖2

= ‖diag( λ1

α + λ1− 1, . . . ,

λp

α + λp− 1)· UT β‖2

=

p∑

i=1

α2

(α + λi)2(UT β)2i

Der Bias-Term wachst mit α.

Satz 2.9Es existiert ein α > 0, so dass MSE(βα) < MSE(βLS).

BeweisEs ist MSE(α) = Bias(α) + Var(α) sowie MSE(βLS) = MSE(0). Es genugt zu zeigen, dassein α0 > 0 existiert, so dass fur 0 < α < α0 gilt

d

dα(MSE(α)) < 0.

4Beachte: Spur(AB) = Spur(BA), sofern die Matrixprodukte definiert sind

2.3 Andere Schatzverfahren 31

Es gilt:

MSE(α)′ = −σ2p∑

i=1

2λi

(α + λi)3+

p∑

i=1

2αλi

(α + λi)3(UT β)2i

Also MSE(α)′ < 0, falls α < σ2

maxi(UT β)2i.

Interpretation: βLS ist zwar bester linearer unverfalschter Schatzer, aber es gibt nochbessere lineare (nicht unverfalschte) Schatzer. Konzept der Unverfalschtheit ist zu restriktiv.

Bemerkung: Der ridge Schatzer βα hat gegenuber dem kleinste Quadrate Schatzer denNachteil, dass man zur Berechnung den Regularisierungsparameter α > 0 wahlen muss. Ins-besondere muss dieser Parameter auch wirklich geeignet gewahlt werden, damit βα bessereMSE Eigenschaften als βLS hat. Daher wird der ridge Schatzer in Praxis relativ selten ver-wendet. Haufigere Verwendung finden andere Schrinkage Schatzer wie das LASSO, s. Kapitel2.5.4.

relevante R Befehle Die library MASS enthalt den Befehl lm.ridge. Dabei muss der Ridge-Parameter lambda manuell gewahlt werden. Man beachte, dass die Matrix X standardisiertwird, und der Ridge nicht auf den Koeffizienten des Intercept angewendet wird.

Literatur:

Hoerl, A.E. und Kennard, R.W.(1970). Ridge regression: Biased estimation for nonorthogonalproblems. Technometrics 12, 1970.

2.3.2 Median - und Quantilregression

NOCH

32 2 LINEARE REGRESSION

2.4 Modelldiagnostik

Ein wesentlicher Teil der Analyse besteht darin zu untersuchen, ob das lineare Regressions-modell fur die vorliegenden Daten angemessen ist. Fragen, die dabei geklart werden sollten,sind etwa: a. Sind die Fehler ǫi wirklich normalverteilt und haben gleiche Varianz? b. liegenAusreißer in den Daten vor? c. Gibt es Cluster (Gruppen) in der Population? d. welche Be-obachtungen beeinflussen die Schatzung besonders stark? e. wieviel Streuung wird aus demModell heraus erklart? f. ist die Regressionsfunktion wirklich linear, sollte weitere Kovariableberucksichtigt werden? In diesem Abschnitt lernen wir Methoden kennen, um diese Fragenzu beantworten.

2.4.1 Das Bestimmtheitsmaß R2

Welcher Anteil der Streuung in den Daten wird durch das Modell erklart?

Zugrunde liegt wieder das lineare Modell (5). Angenommen, die Designmatrix X = (1n, ∗),1n = (1, . . . , 1)T ∈ Rn, enthalt den Achsenabschnitt. Dann gilt:

(In − PX)1n = 0.

Mit Y = 1n

∑ni=1 Yi gilt5:

n∑

i=1

(Yi − Y )2

︸ ︷︷ ︸Gesamtstreuung

= ‖Y − Y 1n‖2

= ‖Y − Y + Y − Y 1n‖2

= ‖Y − Y‖2 + ‖Y − Y 1n‖2 + 2 〈Y − Y, Y − Y 1n〉︸ ︷︷ ︸=0 (s.u.)

wobei Y = XβLS , und

〈 Y − Y︸ ︷︷ ︸=(I−PX)Y

, Y︸︷︷︸=PXY

−Y 1n〉 = YT (I − PX)PX︸ ︷︷ ︸=0

Y − YT (I − PX)1n︸ ︷︷ ︸=0

Y = 0.

Streuungszerlegung Es ist ‖Y − Y 1n‖2 die aus dem Modell erklarte Streuung und‖Y −Y ‖2 die Reststreuung (Summe der quadrierten Residuen) ist, man hat also die Zerlegung

‖Y − Y 1n‖2 = ‖Y − Y 1n‖2 + ‖Y − Y‖2

Bestimmtheitsmaß

R2 =‖Y − Y 1n‖2

‖Y − Y 1n‖2, 0 ≤ R2 ≤ 1.

5Erinnerung: Y = XβLS

2.4 Modelldiagnostik 33

Je großer das Bestimmheitsmaß, desto großer der Anteil der aus dem Modell heraus erklartenStreuung. Es gilt

R2 = 1 − ‖Y − Y‖2

‖Y − Y 1n‖2=

∑ni=1(Yi − Y )2∑ni=1(Yi − Y )2

Bemerkung Ein Problem des R2 ist, dass es mit weiteren Kovaraiblen nur wachsen kann.Daher betrachtet man auch das gewichtete (adjusted) R2. Dabei ist‖Y − Y‖2:

”n-p Freiheitsgrade“,

‖Y − Y 1n‖2:”n-1 Freiheitsgrade“.

Dann definiert man das gewichtete R2 (adjusted R2) durch

R2a = 1 − ‖Y − Y‖2/(n − p)

‖Y − Y 1n‖2/(n − 1)

= 1 − n − 1

n − p

‖Y − Y‖2

‖Y − Y 1n‖2

= 1 − n − 1

n − p(1 − R2)

relevante R Befehle summary angewendet auf ein lm Objekt liefert das R2 und das ange-passte r2

a.

2.4.2 Residuen-Analyse

Das wichtigstes Werkzeug der Diagnostik ist die Residuenanalyse.

a. Residuum εi = Yi − Yi, ǫ = (ǫ1, . . . , ǫn)T . ε ∼ N (0, σ2(I − PX))6. Also

Var εi = σ2(1 − (PX)ii), Cov εiεj = −σ2(PX)ij

b. skalierte Residuen: εi = εi

σ .

c. studentisierte Residuen: ri = εi

σ(1−(PX)ii)12

Diagnostische Plots:

• predicted value gegen (skalierte, studentisierte) Residuen : plotte also (Yi, εi), i =1, . . . , n.

• qq-Plots der Residuen gegen die Normalverteilung7

Hinweis: Plots zu Beispielen mit Abweichungen folgen!

Aufgabe Bei Vorliegen des Achsenabschnitts kann man schreiben:

(PX)ii =1

n+ (xi − x)T (XT X)−1(xi − x)

6Erinnerung: Y = Xβ = PXY7Vergleichswerte sind Quantile der Normalverteilung

34 2 LINEARE REGRESSION

2.4.3 Weitere diagnostische Plots

a. Scatterplot Matrix: Matrix, die Scatterplots aller Variablen gegeneinander enthalt. Diesesollte stets zu Beginn betrachtet werden, um etwa Kolinearitat zwischen Kovariablenoder Cluster oder schiefe Verteilungen der Kovariablen (dann eventuell Transformation)zu erkennen.

b. Added Variable PlotsFrage: Wieviel erklart ein zusatzlicher Pradiktor? Sollte man diesen in das Modell auf-nehmen?

X = [v1 . . . vp−1|v], vi, v ∈ Rn

Y = Xβ + ε = v1β1 + . . . + vp−1βp−1 + vβp

Welcher Teil wird nicht schon durch X1 = [v1 . . . vp−1] erklart?

(I − PX1)Y = (I − PX1)vβ + (I − PX1)ε

→ Plotte (I − PX1)Y (Residuen aus Regression Y auf X1) gegen (I − PX1)v (Residuenaus Regression v auf X1).

In der Tat gilt (Aufgabe):

‖Y − PXY ‖2 +(Y T (I − PX1)v)2

‖(I − PX1)v‖2= ‖Y − PX1Y ‖2

c. Partial residuals plotWieder den Effekt von Pradiktor xi graphisch isolieren!Plotte dazu (xij , εj + βixij), j = 1, . . . , nund zugehorige Regression.

Beachte zur Motivation:

yj −∑

l 6=i

xlj βl = xij βi + εj

Hinweis:

Plots folgen!

2.4.4 Transformation

Manchmal mussen Kovariable und/oder die abhangige Variable transformiert werden, damitein lineares Regressionsmodell vorliegt.

Da wir den Kovariablen keine Verteilung zugrunde legen, kann man dort notwendige Trans-formationen nur aus graphischer Diagnostik (s.o.) erschließen. Dagegen kann man die Trans-formation der abhangigen Variable auch statistisch Schatzen. Im Folgenden betrachten wirdazu die parametrische Familie der Box-Cox-Transformationen.

2.4 Modelldiagnostik 35

Transformation der abhangigen Variable: Box-Cox-Tramsformation

Die Familie der Box-Cox Transformationen stellt eine wichtige Klasse zur Transformation vonpositiven abhangigen Variablen dar. Dabei wird die optimale Transformation mit Hilfe derMaximum Likelihood Methode ermittelt.

Die Box-Cox-Transformationen haben folgende Form: Fur y > 0

fλ(y) =

yλ−1

λ , λ 6= 0log(y), λ = 0

Beachte dabei fλ(y) → f0(y), (λ → 0) (Beweis mit der l’Hopitalschen Regel).

Annahme: Fur ein λ gilt:

fλ(Y) = Xβ + ǫ, ǫ ∼ N (0, σ2In),

fλ(Y) =(fλ(Y1), . . . , fλ(Yn)

)T=: Z (komponentenweise transformiert). Dann gilt fur t ∈ Rn:

P (Y ≤ t) = P (Y1 ≤ t1, . . . , Yn ≤ tn) = P (f−1λ (Z) ≤ t) = P

(Z ≤ fλ(t)

).

Bilden der partiellen Ableitungen ∂1 . . . ∂n liefert die Dichte fY von Y

fY(y; β, σ2, λ) =1

(2π)n2 σn

exp(−(fλ(y) − Xβ)T (fλ(y) − Xβ)

2σ2) ·

n∏

i=1

dfλ(yi)

dyi.

Es ist dfλ(y)dy = yλ−1und somit gilt fur die Log-Likelihood-Funktion:

Ln(β, σ2, λ) = log fY(Y; β, σ2, λ) (17)

= −n

2(log(2π) + log σ2) − (fλ(Y) − Xβ)T (fλ(Y) − Xβ)

2σ2+ (λ − 1)

n∏

i=1

log Yi.

Schatze die Parameter (β, σ2, λ) gemeinsam mit Maximum Likelihood, also durch Maximierenvon (17).

Fur festes λ erhalt man

βλ

ML = βLS = (XT X)−1XT fλ(Y),

σ2,λML =

1

nfλ(Y)T (In − PX)fλ(Y).

Es ergibt sich fur die Log-Likelihood in Abhangigkeit von λ:

Ln(λ) = −n

2log σ2,λ

ML − n

2log(2π) − n

2+ (λ − 1)

n∏

i=1

log(Yi).

Wahle λ so, dass Ln(λ) maximal wird, und dann βλ

ML und σ2,λML als ML Schatzer der anderen

Parameter.

36 2 LINEARE REGRESSION

Nun konnen mit dem Likelihood Quotienten Test Hypothesen der Form Hλ0 : λ = λ0 getestetwerden, da unter Hλ0 ,

2(Ln(λ) − Ln(λ0)

) d→ χ2(1).

Insbesondere kann die Hypothese H1 : λ = 1, also das keine Transformation benotigt wird,getestet werden. Durch Invertieren des LQ Tests erhalt man ein Konfidenzintervall zum (asym-ptotischen) Niveau α > 0 fur λ:

CI = λ : Lmax(λ) − Lmax(λ) <1

2χ2

1(1 − α)

Verwerfe H1, d.h. transformiere, falls 1 /∈ CI.

relevante R Befehle Die library MASS enthalt die Funktion boxcox (wird angewendet aufein Objekt vom Typ lm). Beachte Option plotit.

Literatur

Box, G. E. P. and Cox, D. R. (1964). An analysis of transformations. (With discussion) J.Roy. Statist. Soc. Ser. B 26, 211–252.

2.4.5 Ausreißer, Leverage- und Influenz-Punkte

Im Folgenden wird untersucht, welchen Einfluss auf die Schatzung die spezielle Komponente(Yi,xi) fur ein festes i im linearen Modell (5) hat.

Zunachst etwas Notation und ein Lemma. Sei X ∈ Rn×p und X(i) ∈ R(n−1)×p die Matrix, dieentsteht, wenn in X die i-te Zeile weggelassen wird. Schreibe

X =

xT1...

xTn

, hii = xT

i (XT X)−1xi = (PX)ii.

Lemma 2.10Es gilt

(XT(i)X(i))

−1 = (XT X)−1 +(XT X)−1xix

Ti (XT X)−1

1 − hii(18)

Beweis

A = XT X =n∑

j=1

xjxTj .

Somit

XT(i)X(i) = A − xix

Ti .

Multipliziere (18) von rechts mit A − xixTi und erhalte die Einheitsmatrix I.

2.4 Modelldiagnostik 37

Schatzer ohne die Komponente (Yi,xi). Dafur schreibe

β(i) = (XT(i)X(i))

−1XT(i)Y(i)

σ2(i) =

1

n − p − 1YT

(i)(In−1 − PX(i))Y(i)

Lemma 2.11

a. β(i) = β − (XT X)−1xiεi

1 − hii

b. σ2(i) = σ2 · ( n − p − 1

n − p − r2i

)−1

mit8

ri =εi

σ(1 − hii)12

Beweisa. Nachrechnen mit (18) und

β(i) = (XT(i)X(i))

−1(XTY − xiYi)

b. Nachrechnen mit (18) und

(n − p − 1)σ2(i) = YTY − Y 2

i − ((YT X − YixTi )(XT

(i)X(i))−1(XTY − Yixi)).

relevante R Befehle influence angewendet auf ein lm Objekt berechnet die Schatzer β(i)

sowie σ2(i) fur jedes i.

Ausreißer-Test (Outlier-Test, R-student)Ein Aussreißertest untersucht, ob eine spezielle abhangige Beobachtung Yi nicht dem Modellfolgt, also nicht in der Weise Yi = xT

i β + ǫi entsteht, insbesondere einen anderen Erwartungs-wert als xT

i β hat.

Die Vorhersage von Yi durch xi und die ubrigen Daten ist Yi = xTi β(i).

Falls Yi kein Ausreißer ist, dann ist

E(Yi − Yi) = 0.

Weiter ist (wie bei Vorhersageintervallen)

Var Yi = σ2xTi (XT

(i)X(i))−1xi.

8Erinnerung: εi = Yi − Yi = Yi − (Xβ)i

38 2 LINEARE REGRESSION

Bilde t-Statistik ti (R-student Statistik):

ti =Yi − Yi

σ(i)(1 + xTi (XT

(i)X(i))−1xi)12

.

Diese hat (bei normalverteilten Fehlern) eine tn−p−1-Verteilung.9

Also: Falls |ti| > t1−α2

,n−p−1, dann Ausreißer!Beachte: Falls verschiedene Beobachtungen daraufhin untersucht werden, ob sie ausreißersind, muß man das Niveau α adjustieren an die Anzahl der Tests, etwa α/m, falls man bei mBeobachtungen testet!.

Die Statistik ti kann in einfacherer Weise berechnet werden mit Hilfe des folgenden

Lemma 2.12

xTi (XT

(i)X(i))−1xi =

hii

1 − hii

BeweisDirekt aus Lemma 2.10.

Mit Lemma 2.11, 2.12 und Yi − Yi = (1 + hii

1−hii)εi zeigt man

ti = ri ·(

n − p − 1

n − p − r2i

) 12

,

wobei ri die studentisierten Residuen sind. Die ti werden auch gewichtete studentisierte Re-siduen oder Jackknife Residuen genannt.

relevante R Befehle rstudent berechnet fur ein lm Objekt die Werte R-Student Statistikfur all i.

Leverage-Punkte, Hat-MatrixHigh Leverage Punkte sind ungewohnliche Werte der Kovariable x, die die Modellanpassungunter Umstanden stark beeinflussen. Da Var εi = σ2(1 − hii), gilt, dass je großer hii, destokleiner Var εi. Somit muss das i-te Residuum kleine Varianz haben, die Anpassung ist um Yi

herum eingeschrankt. Daher nennt man Kovariablen xi fur große Werte hii der Hat MatrixLeverage Punkte. “Groß” wird dabei in folgender Weise quantifiziert:

Es gilt

n∑

i=1

hii = Spur(PX) = Spur(X(XT X)−1XT )

= Spur((XT X)(XT X)−1)

= Spur(Ip)

= p

9vergleiche Abschnitt 1.3

2.4 Modelldiagnostik 39

Also ist ein typischer Wert hii von der Große ≈ pn

Richtlinie: Fur hii > 2pn ungewohnlich.

Bemerkung Keine Theorie moglich ohne Details zur Verteilungsannahme der xi!

relevante R Befehle hatvalues liefert die Diagonaleintrage hii eines lm Objektes.

Influenz-PunkteHier wird die Frage gestellt: Welchen zusatzlichen Effekt hat (Yi,xi) (also das Beobachtungs-paar) auf den Schatzer βLS?

Dazu betrachte Cook’s Abstand:

Di =(β(i) − β)T (XT X)(β(i) − β)

pσ2

(∗)=

r2i

p

hii

1 − hii.

(∗): Lemma 2.11 und 2.12

Keine exakte Verteilungstheorie fur Di!

Heuristische Regel: Fur |Di| > 1 ist (Yi,xi) ”influential“ (da 1 ≈ F0,5;p;n−p), hat also großen

zusatzlichen Einfluss auf den Schatzer von β.

relevante R Befehle cooks.distance berechnet diesen Abstand fur jedes i.

Cook, R. D. (1979) Influential observations in linear regression. J. Amer. Statist. Assoc. 74,169–174.

Cook, R. D. (1977) Detection of influential observation in linear regression. Technometrics19, 15–18.

40 2 LINEARE REGRESSION

2.5 Variablen-Selektion und Shrinkage Schatzung

2.5.1 Selektionsmethoden

Wir betrachte wieder das lineare Modell (5), also

Y = b0 + b1x1 + . . . + brxr + ε,

wobei p = r + 1.

Ziel: Wahle die relevanten Kovariablen xi, also diejenigen mit bi 6= 0, die also die abhangigeVariable in der Tat beeinflussen.

Dabei unterscheidet man folgende Modellstrukturen:

a. verschachtelte Modelle (nested Models)Bei verschachtelten Modellen gibt es eine naturliche Ordnung der Kovariablen, etwa beider polynomiale Regression

Y = b0 + b1x + . . . + brxr + ε.

Man schliesst dann alle Potenzen xi unterhalb eines zu wahlenden Grades p ein. Somitreduziert sich die Modellwahl auf die Wahl von p.

b. Allgemeine ModelleWahle eine beliebige Teilmenge xi1 , . . . , xir ⊂ x1, . . . xp aus den Kovariablen aus.Man behalt aber typischer Weise (aber nicht immer) den Achsenabschnitt x0 = 1 imModell, und wahlt nur innerhalb der anderen Kovariablen aus.

Modellwahl Strategien

1. Backward EliminationStarte mit allen Kovariablen und eliminiere nach einem betimmtem Kriterium systema-tisch nacheinander Kovariablen, bis ein Modell erreicht wird, bei dem keine Kovariablemehr das Kriterium erfullt, bei dem diese noch eliminiert wurde.

2. Forward SelectionStarte nur mit dem Achsenabschnitt x1 und nimm sukzessive nach einem bestimm-ten Kriterium Kovariablen hinzu, solange, bis das Kriterium von keiner verbleibendenKovariablen mehr erfullt wird.

3. Stepwise Regressioneine Kombination aus den Verfahren 1. und 2., es sind verschiedene Ausgestaltungenmoglich.

4. All subset selectionWahle unter allen moglichen 2p Teilmodellen (bzw 2p−1, falls der Achsenabschnitt festim Modell integriert ist) dasjenige aus, welches nach einem bestimmten Kriterium op-timal ist.

2.5 Variablen-Selektion und Shrinkage Schatzung 41

2.5.2 Test-basierte Methoden

Entscheide aufgrund sukzessiv durchgefuhrter t-Tests oder F-Tests, ob Kovariablen hinzuge-nommen bzw. verworfen werden.

1. Backward EliminationEliminiere sukzessive diejenige Kovariable mit dem großten p-Wert, solange dieser großerals ein Schwellwert (haufig 0,05) ist.t-Test: hier wird jeweils der t-Test daraufhin ausgefuhrt, ob ein Koeffizient einer Kova-raible des bereits reduzierten Modells gleich null ist. F-Test: hier wird im reduziertenModell eine weitere Kovariable ausgewahlt, und eine F-Test gegen das volle Modell aus-gefuhrt, d.h. es wird getestet, ob der Koeffiziten dieser ausgewahlten Kovariable desreduzierten Modells sowie alle Koeffizienten der bereits eliminierten Kovariablen gleichNull sind.

2. Forward SelectionNimm sukzessive diejenige Kovariable mit dem kleinsten p-Wert hinzu, solange dieserkleiner als 0,05 ist. Hier gibt es keinen Unterschied ziwschen t-Test und F-Test.

2.5.3 Informationskriterien

Informationskriterien (Information Criteria, ICs) sind Zahlen, die die Gute der Anpassungdes Modells relativ zu dessen Komplexitat erfassen. Typischerweise gilt:

a. Je besser die Anpassung, desto kleiner das IC.

b. Je komplexer, desto großer das IC.

Wahle Modell mit moglichst kleinem IC.

1. Backward EliminationEliminiere Kovariable, so dass sich das IC am meisten verringert. Stoppe, falls es sichbei keiner Elimination mehr verringert.

2. Forward SelectionNimm Kovariable hinzu, so dass sich das IC am meisten verringert. Stoppe, falls es sichbei Hinzunahme einer Kovariable nicht mehr verringert.

3. Stepwise RegressionNimm eine der Kovariablen, die aktuell dem Modell nicht angehort, hinzu, oder eli-miniere eine der zugehorigen Kovariablen, so dass sich das IC am meisten verringert.Stoppe, falls es sich nicht mehr verringert.

4. All subset selectionWahle Modell aus allen Modellen mit dem kleinstem IC.

42 2 LINEARE REGRESSION

Akaike’s InformationskriteriumBetrachte das lineare Modell (M) mit Design Matrix X = XM und normalverteilten Fehlern

(M) : Y = XMβ + ǫ, ǫ ∼ N (0, σ2In).

Die Dichte von Y ist gegen durch

f(y|XM , β, σ2) =1

(2π)n2 σn

exp(−‖y − XMβ‖2

2σ2).

Dies fuhrt zur Log-Likelihood:

L(β, σ2) = log f(Y|XM , β, σ2) = −‖Y − Xβ‖2

2σ2− n

2log σ2 − n

2log(2π),

und man berechnet die Maximum Likelihood Schatzer (vgl. Sektion 2.2.1) als βML = βLS =(XT

MXM )−1XTMY und σ2

ML = 1n‖Y−XM β‖2. Somit ist der maximale Wert der Log-Likelihood

FunktionL(β, σ2

ML) = −n

2− n

2log σ2

ML − n

2log(2π). (19)

Man definiert nun Akaike’s Informationskriterium (AIC) wie folgt:

AIC(M) = −2L(β, σ2ML) + 2(dimβ + 1),

dabei beschreibt L(β, σ2ML) die Gute der Anpassung des Modells (M) und (dimβ + 1) (die

Anzahl der Parameter, die +1 kommt vom Parameter σ2) die Komplexitat des Modells.

Man wahlt nun ein Modell (M), also diejenigen Kovariablen mit resultierender Design MatrixXM , die zu kleinem AIC fuhren.Vernachlassigt man die Konstanten, so kann man aquivalent zu AIC auch

AIC(M) = n log σ2ML + 2(dim β + 1)

benutzen.

Motivation des AIC uber den Kullbach-Leibler-AbstandWieso wird gerade der spezielle Strafterm 2(dimβ + 1) benutzt? Insbesondere scheint dieWahl der 2 zunachst willkurlich, diese lasst sich aber uber den Kullback-Leibler (KL) Abstandmotivieren.

Das Modell (M) ist gegeben durch Yi = xTi β + εi, εi ∼ N (0, σ2). Angenommen, der wahre

Zusammenhang ist(W ) Yi = ξ(xi) + εi,

somit ist bedingte Dichte g(yi|xi) ∼ N (ξ(xi), σ2)

Wir nehmen jetzt eine zufalliges Design an, also sind die xi zufallig, unabhangig, mit Dichteh(x). Dann ist der KL-Abstand zwischen g(y|x) und f(y|x, β, σ2) bedingt auf x:

KLx(g(y|x), f(y|x, β, σ2)) =

∫g(y|x) log

g(y|x)

f(y|x, β, σ2)dy,

und

KL =

∫KLx h(x)dx.

2.5 Variablen-Selektion und Shrinkage Schatzung 43

Maximum Likelihood im Modell (M) schatzt nun die Parameter β, σ2 derart, dass der KL-Abstand zum wahrem Modell (W ) minimal wird.

Wir zeigen im Folgenden in einem speziellen Fall: Mit dem AIC wahlt man im Mittel dasje-niege Modell aus, bei dem bei geeigneter (maximum likelihood) Wahl der Parameter der KLAbstand zum wahren Modell (W ) minimal wird. Dazu aquivalent ist:

KL =

∫ ∫g(y|x) log f(y|x, β, σ2)dy h(x)dx.

KL wird erwartungstreu geschatzt durch

1

nLn(β, σ2) =

1

n

n∑

i=1

log f(Yi|xi, β, σ2).

Fur Modellwahl: Wahle Modell, welches im Mittel bei geeigneter (Maximum Likelihood) Wahlder Parameter den kleinsten KL-Abstand zum wahren Modell (W ) hat, d.h. wahle Modell(M), so dass

Rn = Eg,h

∫ ∫g(y|x) log f(y|x, βML, σ2

ML)dy h(x)dx,

βML, σ2ML die ML Schatzer im Modell (M), maximal wird. Dies ist nicht direkt moglich, denn

Rn muss geschatzt werden. Wir approximieren Rn in zwei Schritten: Ersetze Integration in xdurch Summation:

Rn =1

n

n∑

i=1

Eg

∫g(y|xi) log f(y|xi, βML, σ2

ML)dy

=1

n

n∑

i=1

Eg

∫ (− (y − xT

i β)2

2σ2ML

− log σ − 1

2log 2π

)g(y|xi)dy

= − log σ − 1

2log 2π − 1

n

n∑

i=1

Eg

((ξ(xi) − xTi β)2

2σ2ML

+σ2

2σ2ML

)

Wegen (19) ist dann

Eg

( 1

nLn(β, σ2

ML))− Rn = −1

2+

1

2n

n∑

i=1

Eg

(((ξ(xi) − xT

i β)2

σ2+ 1) · σ2

σ2ML

)

Von jetzt an betrachten wir den Spezialfall, dass (M) das wahre Modell enthalt (eventuellsind zu viele Kovariable enthalten). Dann ist ξ(xi) = xT

i β,

σ2

σ2ML

∼ n · 1

χ2n−p

,

und σ2ML und βLS sind unabhangig (s. Satz 2.6). Somit (benutze E 1

χ2n−p

= 1n−p−2 , REFE-

RENZ):

Eg

( 1

nLn(β, σ2

ML))− Rn = −1

2+

1

2

( n + p

n︸ ︷︷ ︸von 1

nE(εT PXε)+1

· n

n − p − 2

)=

p + 1

n − p − 2

44 2 LINEARE REGRESSION

Wir haben somit einen Schatzer von Rn hergeleitet:

1

nLn(β, σ2

ML) − p + 1

n − p − 2,

dieser gibt Anlass zur Definition des korrigierten (corrected) AIC, AICc,

AICc = −2Ln(β, σ2ML) + 2

(p + 1)n

n − p − 2

Fur n groß im Verhaltnis p ist dies nah am klassischen AIC.

relevante R Befehle step mit der Option direction fuhrt Modellwahl mit dem AIC aus.Daruber hinaus drop1, add1.

Literatur:

Akaike, H. (1974), A new look at the statistical model identification. System identificationand time-series analysis. IEEE Trans. Automatic Control 19, 716–723.

Burnham, K. P. and Anderson, D. R. (2002), Model selection and multimodel inference. Apractical information-theoretic approach. 2nd edn, Springer-Verlag: New York.

Hurvich, C. M.; Tsai, C. L. (1989) Regression and time series model selection in small samples.Biometrika 76, 297–307.

Claeskens, G. und Hjort, N. L. (2008) Model selection and model averaging. CambridgeUniversity Press

Bayessches Informationskriterium Eine zum AIC alternative Wahl ist das BayesscheInformationskriterium BIC, bei dem die Komplixitat des Modells mit zunehmender Stichpro-bengroße immer mehr bestraft wird,

BIC(M) = −2Ln(β, σ2ML) + log(n) (dim β + 1) log n.

Ziel ist wieder die Wahl eines Modells mit moglichst kleinem BIC(M).

Motivation Das BIC ergibt sich als asymptotische Version eines maximalen a-posterioriAnsatzes, wobei die a-priori-Verteilung von der Form

M

αMµM (20)

ist. Dabei wird die Summe uber alle mogliche Modelle M gebildet, αM ist die Wahrschein-lichkeit fur die Auswahl des Modells M, und µM ist eine stetige, lokal von 0 weg beschrankteVerteilung auf den Parametern von M.

Eine Maximm a-posteriori Modellwahl wurde wie folgt erfolgen: Wahle (M) so, dass P (M |Y)maximal, also derart, dass

die a-posteriori Wahrscheinlichkeit des Modells, gegeben die Daten, maximal wird. Nach Bayesgilt

P (M |Y) =P (Y|M) · P (M)

P (Y)

prop.≈ P (Y|M) · P (M)

2.5 Variablen-Selektion und Shrinkage Schatzung 45

(da P (Y) nicht von M abhangt).

Es ist P (M) = αM , P (Y|M) ∼ N (XMβM , σ2IM ). Also wahle M , so dass

L(M) = αM

∫1

(2π)n2 σn

exp(−(Y − XMβM )T (Y − XMβM )

2σ2)dµM (βM , σ2). (21)

maximal wird. Es kann nun gezeigt werden, dass fur jede a-priori Verteilung der Form (20)das optimale Modell fur das Kriterium (21) asymptotisch das Modell mit maximalem BICist.

relevante R Befehle step mit der Option direction und k wird gleich log n gesetzt (sonstAIC und nicht BIC).

Literatur:

Schwarz, G. (1978), Estimating the dimension of a model. Ann. Statist. 6, 461–464.

Vergleich von AIC und BICZunachst bemerkt man, dass fur n ≥ 8 der Strafterm im BIC großer ist als der im AIC, daherwahlt das AIC tendenziell ein großeres Modell aus als das BIC, wobei sich dieser Effekt mitzunehmender Stichprobengroße verscharft.

Man kann nun folendes zeigen:

BIC ist konsistent: Falls ein festes Teilmodell zugrunde liegt, wahlt BIC dies in vielen Fallen(etwa genesteten Situationen) asymptotisch mit Wahrscheinlichkeit 1 aus.AIC wahlt in dieser Situation mit positiver Wahrscheinlichkeit auch großere Modelle aus.

Philosophie des AIC: Fur großeres n (Anzahl der Beobachtungen) durfen komplexere Modelleangepasst werden, so dass das wahre zugrundeliegende Modell moglichst gut (in Kulback-Leibler Abstand) approximiert wird.

Fur AIC und BIC gilt: AIC und BIC haben als absolute Zahlen keine Bedeutung, sondernnur relativ zum Vergleich verschiedener Modelle. Werden die Daten transformiert, durfenAIC und BIC der ursprunglichen Modelle und der Modelle fur die transformierten Datennicht miteinander verglichen werden.

Mallow’s Cp Wir betrachten das lineare Regressionsmodell

(M) Y = Xβ + ǫ = X1β1 + X2β2 + ǫ, X1 ∈ Rn×p, X2 ∈ Rn×(q−p)

sowie das Teilmodell(S) Y = X1β + ǫ.

Die Varianz wird im vollen Modell (M) geschatzt durch

σ2 =‖Y − XβLS‖2

n − q

46 2 LINEARE REGRESSION

Das Modellwahlkriterium “Mallows’ Cp” berechnet sich dann als

Cp =‖Y − X1β

S

1,LS‖2

σ2− n + 2p,

wobei βS

1,LS der KQ Schatzer im Teilmodell (S) ist. Komponenten von Cp:

• ‖Y − X1βS

1,LS‖2 (Residuell sum of squares, RSS): Qualitat der Anpassung des restrin-gierten Modells (S); je großer X1, desto kleiner RSS.

• +2q: Komplexitat des restringierten Modells (S).

• σ2, n: zum Standardisieren, damit absolute Große von Cp Interpretation hat.

Man wahlt nun typischer Weise das Teilmodell Y = X1β1 + ǫ des vollen Modells (M) mitmoglichst kleinem Cp.

Motivation des Cp. Das Cp schatzt den Average Mean Square Error of Prediction (AM-SEP), welcher definiert ist durch

AMSEP(S) =1

σ2

i

E(Yi − EYi)2 =

1

σ2E‖X1β

S

1,LS − Xβ‖2.

Zur Berechnung des AMSEP(S) setze MX1 = In − PX1 (idempotent) und

λ =βT

2 XT2 MX1X2β2

σ2.

Dann istβ

S

1,LS = β1 + (XT1 X1)

−1XT1 X2β2 + (XT

1 X1)−1XT

1 ǫ

(der LS Schatzer im Modell (S) hat einen Bias, falls dieses nicht korrekt ist), und

X1βS

1,LS − Xβ = PX1ǫ + PX1X2β2 − X2β2︸ ︷︷ ︸=−MX1

X2β2

.

Es ergibt sich

AMSEP(S) =1

σ2(EǫT PX1ǫ + βT

2 XT2 MX1X2β2) = p + λ. (22)

Naturlich ist der AMSEP(S) unbekannt (da β unbekannt).

Wir zeigen nun: Cp schatzt AMSEP.

Es istPX − PX1 = MX1X2(X

T2 MX1X2)

−1XT2 MX1 =: Q.

(orthogonale Projektion auf orthogonales Komplement der Spaltenvektoren von X1 im vonden Spaltenvektoren von X erzeugten Raum), und somit

(In − PX1)Y = (In − PX)Y + QY.

2.5 Variablen-Selektion und Shrinkage Schatzung 47

Außerdem ist (In − PX) · Q = 0 (da Q innerhalb von Spaltenraum von X). Es ergibt sich

Cp =‖Y − XβLS‖2 + YT QY

σ2− n + 2p

= (n − q) · (1 +YT QY

‖Y − XβLS‖2) − n + 2p

=(YT QY)/(q − p)

σ2︸ ︷︷ ︸∼F (q−p,n−q, 1

2λ)

·(q − p) + 2p − q

Beachte fur diese Rechnung die Satze 1.7 und 1.9 und βT XT QXβ/σ2 = λ. Fur W ∼ F (q −p, n − q, 1

2λ) gilt (Johnson, Kotz, Balakrishnan 1995)

EW =(n − q)(q − p + λ)

(q − p)(n − q − 2)

Somit

ECp =n − q

n − q − 2(q − p + λ) + 2p − q

n→∞→ p + λ

Man konnte nun auch ein korrigiertes (dann erwartungstreues) Mallows’ Cp wie folgt definie-ren:

Ccp =

(n − q − 2)

n − q)

(YT QY)

σ2+ 2p − q.

(dies wird aber ublicher Weise nicht verwendet.)

Bemerkungen

1. Das Cp ist zwar asymptotisch erwartungstreu fur den AMSEP, aber nicht konsistent,da die Varianz von Cp nicht gegen 0 konvergiert.

2. Das Modell mit minimalem AMSEP muss nicht unbedingt das minimale korrekte Modellsein, es kann auch ein zu kleines Modell sein, falls λ < 1, vgl. (22). Daher wird machmaletwas wage empfohlen, das Modell mit moglichst kleinem Cp, das aber nicht zuvielgroßer als p sein sollte, zu wahlen. Dies fuhrt dann zu sogenannten Cp Plots. Angesichtsder Inkonsistenz des Cp erscheint eine solche Anweisung auch etwas willkurlich, daherwahlt man gewohnlich einfach das Modell mit kleinstem Cp.

3. Ein Vorteil des Cp gegenuber AIC und BIC ist, dass die absoluten Zahlenwerte (alsSchatzwerte fur den AMSEP) eine Bedeutung haben. Daher kann man mit dem Cp

auch Modelle fur transformierte und nicht transformierte Daten vergleichen.

relevante R Befehle step hat die Option scale, dies muss man fur das Cp gleich dem imvollen Modell geschatzten σ setzten.

Literatur:

Mallows, C. L. (1973), Some comments on Cp. Technometrics 15, 661–675

48 2 LINEARE REGRESSION

Cross Validation und Press-Statistic Die Press Statistik ist gegeben durch

Press =n∑

i=1

(Yi − Yi)

wobei Yi = xTi β(i). Es gilt nach Lemma 2.11 Yi − Yi = εi

1−hii. Daher kann man schreiben

Press =n∑

i=1

(εi

1 − hii)2

Man wahlt nun das Modell mit minimalem Press.

Literatur

Allen, David M. (1974) The relationship between variable selection and data augmentationand a method for prediction. Technometrics 16, 125–127.

Allen, David M. (1971) Mean Square Error of Prediction as a Criterion for Selecting Variables.Technometrics 13, 469-475

2.5.4 Shrinkage Schatzer

Shrinkage Schatzer verkleinern tendenziell in einer gewissen Weise die sich aus der LS Schatzungergebenden Werte, sind also typischer Weise (nicht immer) im Absolutbetrag kleiner als dieEintrage von βLS Dies hat vor allem zwei Zwecke: a. Verringerung der Varianz der Schatzung,und b. falls Koeffzienten exakt auf 0 verkleinert werden konnen, liefert solch ein ShrinkageSchatzer automatisch eine Modellwahl. Solche Schrinkage Schatzer wollen wir im Folgendenkennenlernen. Wir beginnen jedoch zunachst mit der bereits bekannten

Ridge-Regression Fur den Ridge Parameter α > 0 erhalt man den Ridge Schatzer wiefolgt:

βα = (αI + XT X)−1XTY

Aufgabe:

βα = argminβ(‖Y − Xβ‖2n + α‖β‖2

p)

Wieso fallt βα in die Klasse der Shrinkage Schatzer? Dazu betrachte den Fall eines orthogo-nalen Designs, XT X = Ip. Dann ist β = XTY und

βα =β

1 + α

• Koeffizienten werden im Absolutbetrag kleiner. (dies gilt aber nicht unbedingt bei nicht-orthogonalem Design)

• Aber: Kein Koeffizient wird auf 0 reduziert.

2.5 Variablen-Selektion und Shrinkage Schatzung 49

Im Falle eines orthogonalen Designs gilt folgendes:Es existiert ein t = t(α) > 0, so dass βα Losung des folgenden Optimierungsproblems ist:

minimiere ‖Y − Xβ‖2n , unter Nebenbedingung ‖β‖2

p ≤ t. (23)

Der Beweis ergibt sich direkt aus einem Lagrange Ansatz fur Extrema unter Nebenbedin-gungen.

Das Lasso (Tibshirani 1996)

LASSO steht fur: least absolute shrinkage and selection operator. Der LASSO Schatzer βLast

ist die Losung des folgenden Optimierungsproblems. Fur t > 0 fest (ein Regularisierungspa-rameter)

minimiere ‖Y − Xβ‖2n mit Nebenbedingung

p∑

k=1

|βk| ≤ t. (24)

Bemerkunga. Das Minimierungsproblem (24) ist analog zu dem (23) fur den Ridge Schatzer,

b. Das LASSO kann Koeffizienten auf exakt 0 schatzen. Man hat also Modellwahl undSchatzung in einem Schritt.

c. Fur die explizite Berechnung:Reformuliere als quadratisches Minimierungsproblem mit den 2p Nebenbedingungen

±β1 ± . . . ± βp ≤ t

d. Es gilt: ‖Y − Xβ‖2n = ‖Y − XβLS‖2

n + ‖X(βLS − β)‖2n. Also ist (24) aquivalent zu:

minimiere (β − βLS)T XT X(β − βLS) mit Nebenbedingung

p∑

k=1

|βk| ≤ t.

• Man nimmt stets an, dass die Kovariablen auf Norm 1 standardisiert sind.

Lasso fur p = 2 Hier ist

XT X =

(1 γγ 1

), βLS = (β0

1 , β02)T

Minimiere (β1−β01)2 +(β2−β0

2)2 +2γ(β1−β01)(β2−β0

2). Dabei sind die Hohenlinien Ellipsen.Fur p = 2 gilt stets (hier o.E. βLS > 0):

βLasj = (βLS,j − γ)+ (25)

wobei γ bestimmt durch βLas1 + βLas

2 = t.

a+ =

a, a > 00, sonst

50 2 LINEARE REGRESSION

oder explizit

βLas1 = (

t

2+

β01 − β0

2

2)+, βLas

2 = (t

2− β0

1 − β02

2)+

Argument uber Hauptachsentransformation der Ellipse. Erhalte (β01 , β0

2), suche Projektionvon (β0

1 , β02) auf transformierte Raute bezuglich des euklidischen Abstands. Nach Drehung

liegt die Raute wieder auf den Koordinatenachsen. BILDER!!!

Nun nutze folgenden Satz uber Projektionen auf konvexe Mengen: Ist K konvex, dann ist yProjektion von x0 auf K falls

〈x0 − y, x − y〉 ≤ 0 ∀x ∈ K,

der Winkel also stets flach ist. Somit liegt Projektion auf Streckensegment S. Dort auflosenergibt eine quadratische Funktion, deren Losung liegt entweder beim Minimum oder auf demRand der Strecke. Ein Lagrange-Ansatz fur das uneingeschranktes Maximum auf der Geradenentlang der Strecke S liefert

(1, 1) = λ · (2(β1 − β01) + 2γ(β2 − β0

2), 2(β2 − β02) + 2γ(β1 − β0

1))

Lose auf und bekomme explizite Form.

Fur p ≥ 3 gilt die Form (25) im allgemeinen nicht mehr, nur noch im orthogonalen Design.Gilt XT X = Ip, dann existiert ein γ = γ(t), so dass

βLasj = sign(βLS,j)(|βLS,j | − γ)+

Fur ein nicht orthogonales Design konnen die Koeffizienten das Vorzeichen wechseln.

relevante R Befehle Die library lasso2 enthalt die Funktion l1ce, die den Lasso Schatzerberechnet.

Literatur

Tibshirani, R. (1996) Regression shrinkage and selection via the lasso. J. Roy. Statist. Soc.Ser. B 58, 267–288.

Nonnegative Garrote (Breiman 1995)Sei β = βLS der LS-Schatzer. Wahle nun cj so, dass

k

(Yk −∑

j

cj βj,LSxjk)2

minimal wird unter der Nebenbedingung cj ≥ 0 und∑

j cj ≤ s fur ein s > 0.Dann ist der Garotte Schatzer

βGars,j = cj βj,LS .

Im orthogonalen Design erhalt man

cj =(1 − λ2

β2j,LS

)+,

2.5 Variablen-Selektion und Shrinkage Schatzung 51

wobei λ aus s und∑

j cj = s bestimmt wird. Also im orthogonalen Design ahnlich wie dasLASSO, ansonsten konnen aber erhebliche Abweichungen auftreten.

Literatur

Breiman, L. (1995) Better subset regression using the nonnegative garrote. Technometrics 37,373–384.

2.5.5 Inferenz nach Modellwahl

BeobachtungDer Modellwahlschritt hat Auswirkungen auf die folgende Verteilung des Schatzers im schließ-lich gewahlten Modell.

ResultateWenn aus denselben Daten das Modell gewahlt wird und anschließend die Parameter geschatztwerden, verlieren die bisher hergeleiteten Verteilungsresultate ihre Gultigkeit. Der resultie-rende Schatzer kann bezuglich MSE sehr schlechte Eigenschaften haben und auch nicht nor-malverteilt sein.

Illustration an einem einfachen Beispiel

Wir betrachten ein lineares Regressionsmodell mit zwei Kovariablen und normalverteiltenFehlern mit bekannter Varianz von 1, und ein Teilmodell mit nur einer Kovariable

Yi = xi1β1 + xi2β2 + εi, (M) ,

Yi = xi1β1 + εi (R) ,

wobei εi ∼ N (0, 1)

Annahme: Fpr die Modellmatrix X = (xi,1, xi,2)i=1,...,n ∈ Rn×2 gilt

(XT X

n

)−1=

(σ2

1 σ1σ2

σ1σ2 σ22

)→ Σ > 0

Es gilt:√

n(βM − β) ∼ N (0, Σ), wobei β

M= (βM

1 , βM2 )T der LS-Schatzer im großen Modell

(M) ist. Wahle zwischen (M) und (R). Unter H0 : β2 = 0 ist√

nβ2

σ2∼ N (0, 1). Daher betrachte

ein Modellwahlverfahren basierend auf dem Gauß-Test.

Modellwahlverfahren

Falls Tn = |√

nβ2

σ2|

≤ cn, wahle (R)> cn, wahle (M)

Satz 2.13Falls cn → ∞ so, dass cn√

n→ 0, dann ist das obige Modellwahlverfahren konsistent, d.h. mit

einer gegen 1 konvergierenden Wahrscheinlichkeit wird das richtige Modell gewahlt.

52 2 LINEARE REGRESSION

BeweisAngenommen, (R) ist richtig, also β2 = 0. Dann:

P (wahle (R)) = P (Tn ≤ cn) = Φ(cn) − Φ(−cn) → 1, da cn → ∞

(Φ Verteilungsfunktion der Standardnormalverteilung)

Angenommen, (M) ist richtig, also β2 6= 0.O.E. β2 > 0. Dann:

P (wahle (R)) ≥ P (

√nβ2

σ2> cn) = P (

√n(β2 − β2)

σ2> cn −

√nβ2

σ2) = 1 − Φ(cn −

√nβ2

σ2︸ ︷︷ ︸→−∞

) → 1

da cn√n→ 0 und σ2 von 0 weg beschrankt bleibt.

Der Schatzer von β1 nach Modellwahl, βpost1 , ergibt sich nun als

βpost1 =

βM

1 , Tn > c,

βR1 , Tn ≤ cn

Wegen der Konsistenz der Modellwahlprozedur gilt:

fur festes β2 6= 0 : P (βpost1 6= βM

1 ) → 0

fur β2 = 0 : P (βpost1 6= βR

1 ) → 0

Also ist konsistente Modellwahl scheinbar kein Problem. Aber man kann zeigen: Es gibt eineUmgebung U von 0, so dass fur beliebig (hinreichend) großes n stets ein β1 ∈ U existiert,

so dass der Abstand der Verteilungen L(βpost1 ) und L(βM

1 ) groß ist, welches auch zu großenmittleren quadratischen Fehlern und Konfidenzintervallen mit realer Uberdeckungswarschein-

lichkeit, die gegen 0 konvergiert, fuhrt. Wir illustieren dies, indem wir die Dichte von βpost1

berechnen und fur einige Parameter Werte plotten.

Satz 2.14Die Zufallsvariable

√n(β

post1 − β1) hat die Dichte

fPost(t) =1

σ1(1 − 2)12

φ( t +

√nσ1

σ2β2

σ1(1 − 2)12

)·(Φ(cn −√

nβ2/σ2

σ1

)− Φ

(−cn −√nβ2/σ2

σ1

))

+1

σ1φ(

t

σ1)(1 − Φ(

√nβ2

σ2+

σ1t + cn

(1 − 2)12

+ Φ(√nβ2

σ2+

σ1t − cn

(1 − 2)12

)),

wobei φ die Dichte und Φ die Verteilungsfunktion der N (0, 1) Verteilung ist.

BILDER!!! WEIT WEG VON DER NORMALVERTEILUNG!

2.5 Variablen-Selektion und Shrinkage Schatzung 53

Beweis (von Satz 2.14)Es ist

P(√

n(βpost1 − β1) ≤ t

)= P

(Tn ≤ cn,

√n(βR

1 − β1) ≤ t)

+ P(Tn > cn,

√n(βM

1 − β1) ≤ t)

=: A1(t) + A2(t).

Die Dichte erhalt man dann durch Ableiten nach t.

Betrachte zunachst A2(t):

P(Tn > cn,

√n(βM

1 − β1) ≤ t)

= P(√

n(β2 − β2) ≥ σ2cn −√nβ2,

√n(βM

1 − β1) ≤ t)

+ P(√

n(β2 − β2) ≤ −σ2cn −√nβ2,

√n(βM

1 − β1) ≤ t)

= A21(t) + A22(t)

Sei φ(x, y,Σ) die Dichte von N (0, Σ), φ(y|x,Σ) die bedingte Dichte von y|x bei (x, y) ∼N (0, Σ) und φ(t) die Dichte von N (0, 1). Dann:

A21(t) =

∫ t

−∞

∫ ∞

σ2cn−√

nβ2

φ(x, y,Σ)dy dx =

∫ t

−∞

∫ ∞

σ2cn−√

nβ2

φ(y|x,Σ)1

σ1φ(x/σ1)dy dx.

Ableiten nach t liefert

A′21(t) =

1

σ1φ(t/σ1)

∫ ∞

σ2cn−√

nβ2

φ(y|t, Σ)1

σ1dy

und es ist φ(y|t, Σ) die Dichte von N (σ2σ1

t, (1 − 2)σ22). Also

A′21(t) =

1

σ1φ(tσ1)

(1 − Φ

(σ2cn −√nβ2 − σ2

σ1t

(1 − 2)12 σ2

))

=1

σ1φ(tσ1)Φ

(√nβ2

σ2+

σ1t − cn

(1 − 2)12

). (26)

Analog berechnet man

A′22(t) =

1

σ1φ(tσ1)

(1 − Φ

(√nβ2

σ2+

σ1t + cn

(1 − 2)12

)). (27)

Jetzt berechne A1(t):

A1(t) = P(− σ2cn −√

nβ2 ≤ √n(βM

2 − β2) ≤ σ2cn −√nβ2,

√n(βR

1 − β1) ≤ t)

Man benotigt also die gemeinsame Verteilung von (βR1 , βM

2 ). Dazu verwenden wir die Inver-tierungsformel (

a bb c

)−1

=1

ac − b2

(c −b−b a

)

Fur X = (v1,v2) liefert dies

XT X =

(vT

1 v1 vT1 v2

vT1 v2 vT

2 v2

).

54 2 LINEARE REGRESSION

Somit:

Σ/n =1

vT1 v1vT

2 v2 − (vT1 v2)2

(vT

2 v2 −vT1 v2

−vT1 v2 vT

1 v1

)

und auch1

n

(vT

1 v1 vT1 v2

vT1 v2 vT

2 v2

)=

1

σ21σ

22(1 − 2)

(σ2

2 −σ1σ2−σ1σ2 σ2

1

)

Nun ist βR1 = vT

1 Y/vT1 v1, also

EβR1 = β1 +

vT1 v2

vT1 v1

β2 = β1 −σ1

σ2β2, Var

(√n(βR

1 − β1

)=

n

vT1 v1

=1

σ21(1 − 2)

.

Weiter berechnet sich βM2 explizit aus β

M= (XT X)−1XTY als

βM2 =

−vT1 v2v

T1 Y + vT

1 v1vT2 Y

vT1 v1vT

2 v2 − (vT1 v2)2

und naturlich EβM2 = β2, Var

(√n(βM

2 − β2))

= σ22, und es gilt

Cov(βR1 , βM

2 ) =−vT

1 v2vT1 v1 + vT

1 v1vT2 v1

vT1 v1vT

2 v2 − (vT1 v2)2

= 0.

Da außerdem (βR1 , βM

2 ) gemeinsam normalverteilt sind (als lineare Transformation von nor-malverteilten Zufallsvariablen), sind diese auch unabhanig. Somit:

A1(t) = P(√

n(βR1 − β1) ≤ t

)· P(− σ2cn −√

nβ2 ≤ √n(βM

2 − β2) ≤ σ2cn −√nβ2

),

und

A′1(t) =

1

σ1(1 − 2)12

φ( t +

√nσ1

σ2β2

σ1(1 − 2)12

)·(Φ(σ2cn −√

nβ2

σ1 σ2

)− Φ

(−σ2cn −√nβ2

σ1 σ2

)).

Daraus und aus Gleichungen (26) und (27) erhalt man das Resultat des Satzes.

Literatur

Potscher, B. M. und Leeb, H. (2008) Sparse Estimators and the Oracle Property, or the Re-turn of Hodges’ Estimator. Journal of Econometrics 142, 201-211.

Potscher, B. M. und Leeb, H. (2005) Model Selection and Inference: Facts and Fiction. Eco-nometric Theory 21 2005, 29-59.

Wallace, T. D. und Ashar, V. G. (1972) Sequential methods in model selection. Review ofEconomics and Statistics 54, 172–178.

2.6 Verallgemeinerte kleineste Quadrate und Varianzschatzen 55

2.6 Verallgemeinerte kleineste Quadrate und Varianzschatzen

2.6.1 Verallgemeinerte kleinste Quadrate

Im linearen Modell (5) habe wir vorausgesetzt, dass die Fehler ǫ unkorreliert mit gleicherVarianz σ2 sind. Diese Annahme lassen wir nun fallen und erlauben eine allgemeine Kovari-anzstruktur der Fehler. Wir betrachten also das lineare Modell mit allgemeiner Fehlerstruktur

Y = Xβ + ǫ, Eǫ = 0, Cov ǫ = Σ, (28)

mit einer positiv definiter Kovarianzmatrix Σ > 0 fur die Fehler ǫ. Man uberfuhrt nun daslineare Modell (28) mit allgemeiner Fehlerstruktur in ein Modell mit Σ = In. Dazu setze

Y = Σ− 12 Y, X = Σ− 1

2 X, ǫ = Σ− 12 ǫ. Dann ergibt (28) mit Σ− 1

2 multipliziert:

Y = Xβ + ǫ, (29)

wobei Cov ǫ = Σ− 12 ΣΣ− 1

2 = In. Weiter gilt: Genau dann ist S(Y) = AY ein linearerunverfalschter Schatzer im Modell (28), wenn S(Y) = AΣ1/2Y ein linearer unverfaschterSchatzer im Modell (29) ist. Somit kann man die Resultate im linearen Modell mit unkorre-lierten, homoskedastischen Fehler ubertragen auf das lineare Modell mit allgemeiner Fehler-struktur. Wir fassen die wesentlichen Ergebnisse zusammen.

Satz 2.15Im lineare Modell mit allgemeiner Fehlerstruktur (28) ist der beste lineare, unverfalschteSchatzer fur β (also der mit kleinster Kovarianzmatrix) gegeben durch

βGLS = (XT X)−1XT Y = (XT Σ−1X)−1XT Σ−1Y, (30)

dieser hat die Kovarianzmatrix

Cov βGLS = (XT ΣX)−1,

und ist bestimmt als Losung des verallgemeinerten kleinste Quadrate Problems

βGLS = argminβ(Y − Xβ)T Σ−1(Y − Xβ).

Der Schatzer βGLS heißt der verallgemeinerte Kleinste-Quadrate-Schatzer (generalized leastsquares estimator, GLS). Im Modell (28) heißt der Schatzer βOLS = (XT X)−1XTY dergewohnliche kleinste Quadrate Schatzer (ordinary least squares, OLS). Dieser ist auch hierunverfalscht und unter allgemeinen Bedingungen konsistent (s. Eicker 1963), hat aber diegroßere Kovarianzmatrix Cov βOLS = (XT X)−1XT ΣX(XT X)−1. Wir beachten, dass fur dieBerechnung von βGLS die Matrix Σ bekannt sein muss.

Falls Σ = diag(w1, . . . , wn), wi > 0, eine Diagonalmatrix ist, spricht man von dem gewichtetenKleinste-Quadrate-Schatzer, Notation βWLS (weighted least squares).

Aufgabe βGLS als ML-Schatzer, falls der Fehler ǫ ∼ N(0, Σ) verteilt ist.

relevante R Befehle Der Befehl lm hat die Option weights, mit der eine gewichtete kleinsteQuadrate Schatzung ausgefuhrt werden kann.

56 2 LINEARE REGRESSION

2.6.2 Varianzschatzen

Wir wollen nun sehen, wie man in dem Modell (28) die allgemeine Kovarianzstruktur derFehler schatzen kann. Das Schatzen der Fehlerstruktur ist aus zwei Grunden von Interesse.Zum einen wird es benotigt, um den gewichteten kleinste Quadrate Schatzer (30) und dessenKovarianzmatrix zu berechnen. Weiter kann auch die Varianzstruktur (Stichwort Volatilitat)neben der Erwartungswertstruktur Xβ an sich von Interesse sein.

Zum Schatzen benotigt man Annahmen an die Matrix Σ. Wir betrachten den Fall unkorre-lierter Fehler, also Σ = diag(σ2

1, . . . , σ2n). Zum Schatzen der Varianzen wird hier ein para-

metrisches Modell angenommen. Ein normales lineares Modell ist aber nicht geeignet, da dieVarianzen positiv sein mussen. Beispiele fur parametrische Modelle fur die Varianzen sind

σ2i = σ2|xT

i β|ϑ, ϑ > 0, σ > 0,

dabei ist σ2i proportional zur Potenz des Erwartungswertes |xT

i β|, oder

σ2i = σ2 exp(xT

i ϑ)

wobei ϑ ∈ Rp ein Parametervektor ist.

Ein allgemeines Modell hat die Form:

σ2i = σ2f(xi, β, ϑ)

Damit konnen die Varianzen von dem Parameter β abhangen, die den Erwartungswert be-stimmen, sowie von zusatzlichen Parametern ϑ. Die Funktion f muss positiv sein und wirdals bekannt angenommen, nur die Parameter sind unbekannt.

Wir berschreiben nun eine Moglichkeit zur Schatzung von β und ϑ durch sukzessive (nicht-lineare) kleinste Quadrate.

1. Schatze β durch gewohnliche kleinste Quadrate βLS , bilde die Residuen εi = Yi − xTi βLS .

2. Schatze ϑ, σ2 durch Minimieren von

n∑

i=1

(εi − σ2f(xi, βLS , ϑ))2.

Dies ist ein Beispiel fur eine nichtlineare kleinste Quadrate Schatzung, auf die wir im nachstenKapitel naher eingehen werden. Wir erhalten auf diese Weise konsistente Schatzer ϑ, σ2.3. Nun kann man die Schatzungen noch weiter verbessern und die geschatzten Varianzenσ2

i = σ2f(xi, βGLS , ϑ) benutzten und den gewichteten Kleinste-Quadrate-Schatzer βWLS furβ berechnen.4. Bilde unter Benutzung des gesichteten kleinsten Quadrate Schatzers neue Residuen undschatze ϑ, σ2 neu.Diesen Prozess kann man iterieren. Es gibt hier zur Konvergenzanalyse und alternativen Ver-fahren eine umfangreiche Literatur. Siehe etwa

Literatur

Carroll, R. J. und Ruppert, D. (1988). Transformation and weighting in regression. Chapmanand Hall, New York.

57

3 Nichtlineare Regression

In diesem Abschnitt betrachten wir Regressionsmodelle, in denen die Parameter nichtlinearin den funktionalen Zusammenhang eingehen. Man beachte, dass auch bei nur linearen Pa-rametern nichtlineare Effekte (etwa Polynome, Splines oder trigonometrische Funktionen) inden Kovariablen modelliert werden konnen. Daher sollten nichtlineare Modelle nur dann ver-wendet werden, wenn sich dies aus dem sachwissenschaftlichen Zusammenhang ergibt. Einewichtige Klasse von nichtlinearen Regressionmodellen entstehen aus Wachstumsmodellen inder Biologie.

Bei nichtlinearen Regressionsmodellen ist der (nichtlineare) kleinste Quadrate Schatzer auchbei normalverteilten Fehlern nur noch asymptotisch normalverteilt. Daher muss die Inferenz(Konfidenzintervalle, Tests) auf den asymptotischen Approximation aufgebaut werden.

3.1 Modell und Beispiele

Modell: Beobachtungen (Yi,xi), i = 1, . . . , n, aus dem Modell

Yi = f(xi, β0) + εi, i = 1, . . . , n, (31)

wobei

Yi abhangige Variable

f: bekannte Funktion

β0: unbekannter Parameter ∈ Θ ⊂ Rq

xi: Kovariablen, xi ∈ Rp

εi: unabhangig, identisch verteilter Fehler mit Eεi = 0, Var εi = σ2, (bzw. εi ∼ N (0, σ2)).Diese sind auf einem W-raum Ω definiert.

Beispiele:

1. Lineare Regression

f(xi, β) = xTi β

2. Michaelis-Mentes Modell

f(x, β1, β2) =β1x

β2 + x

allgemeiner:

f(x, β1, β2, β3) =β2 + β1x

β3 + x

58 3 NICHTLINEARE REGRESSION

3. logistisches Wachstumsmodell

f(x, β1, β2, β3) =β1

1 + β2 exp(−β3x)

Meist ist also x = x eine univariate metrische Kovariable. Beachte, dass bei nichtlinearerModellierung keine Tranformation der Kovariablen notig ist, diese kann mit in die Funktionaufgenommen werden.

3.2 Nichtlineare kleinste Quadrate

Mit β0 bezeichnen wir im Folgenden den wahren Wert von β in Modell (31). Ein NLS-Schatzer(nichtlineare kleinste Quadrate, nonlinear least squares) βNLS minimiert

Qn(β) =1

n

n∑

i=1

(Yi − f(xi, β))2

Bemerkunga. Der NLS-Schatzer muss nicht eindeutig sein.

b. 1n kann in der Praxis weggelassen werden.

c. Der NLS-Schatzer ist ML-Schatzer fur normalverteilte Fehler.

Praktische Berechnung von βNLS.

Falls Differenzierbarkeit von f(·, ·) in β vorausgesetzt wird, kann das Newton Verfahren aufdie Gleichung

∂βQn(β) = − 2

n

n∑

i=1

(Yi − f(xi, β)

)∂β f(xi, β) = 0.

Eine einfacheres iteratives Verfahren besteht darin, zunachst zu linearisiren und dann iterativlineare kleinste Quadrate anzuwenden wie folgt: Fur eine Naherung βn an βNLS , linearisiere

Yi ≈ f(xi, βn) +∂f

∂β(xi, βn)T (β − βn) + εi

Schatze β−βn durch lineare kleinste Quadrate mit abhangiger Variable yi,n = Yi − f(xi, βn)

und Kovariable xi,n = ∂f∂β

(xi, βn) also

αn = (XTn Xn)−1XT

n Yn,

wobei Xn zeilenweise aus den xi,n gebildet wird. Dan erhalte eine neue Naherung βn+1 mit

βn+1 = αn + βn.

Man kann fur dieses Verfahren auch einen Satz uber Konvergenz beweisen.

Schatzer fur die Varianz σ2. Fur einen NLS-Schatzer βNLS setzte

σ2 = Qn(βNLS).

3.3 Konsistenz 59

3.3 Konsistenz

Um die Konsistenz des NLS Schatzers zu zeigen, benotigen wir folgende Annahmen.

Annahme (A): Der Wertebereich Θ von β ist kompakt und konvex, und f(xi, ·) iststetig.

Offenbar existiert unter Annahme (A) ein (meßbarer) NLS-Schatzer.

Annahme (B): Es gilt gleichmaßig in α, β ∈ Θ

1

n

n∑

i=1

(f(xi, β)f(xi, α)) → K(α, β).

Weiter habe Q(β, β0) = K(β, β)+K(β0, β0)−2K(β, β0) als Funktion von β ein eindeutigesMinimum (Nullstelle) in β0.

Offenbar gilt unter Annahme (B) gleichmaßig in β

1

n

n∑

i=1

(f(xi, β) − f(xi, β0))2 → Q(β, β0).

und das Grenzkriterium Q(·, β0) ist stetig (wegen gleichmaßiger Konvergenz).

Satz 3.1Unter den Annahmen (A) und (B) sind βNLS und σ2 stark konsistent, d.h.

βNLS → β0 f.s., σ2 → σ2 f.s.

Wir zeigen zunachst folgendes Lemma.

Lemma 3.2Unter Annahmen (A) und (B) gilt fur fast alle ω ∈ Ω

1

n

n∑

k=1

εk(ω)(f(xk, β0) − f(xk, β)

)→ 0 gleichmaßig in β ∈ Θ.

Beweis (von Lemma 3.2)Punktweise fast sichere Konvergenz fur festes β folgt mit Annahme (B) aus dem starkenGesetzt der großen Zahlen (REFERENZ), da

Var(εkf(xk, β0) − f(xk, β)) = (f(xk, β0) − f(xk, β))2.

Zur Gleichmaßigkeit: Fur α, β ∈ Θ gilt

| 1n

n∑

k=1

εk(f(xk, β) − f(xk, β0))|CSU≤ | 1

n

n∑

k=1

εk(f(xk, α) − f(xk, β0))|

+( 1

n

n∑

k=1

ε2k · 1

n

n∑

k=1

(f(xk, β) − f(xk, α))2) 1

2(32)

60 3 NICHTLINEARE REGRESSION

Da1

n

n∑

k=1

(f(xk, α) − f(xk, β))2 → K(α, α) + K(β, β) − 2K(α, β)

gleichmaßig und K(·, ·) stetig auf Θ × Θ (kompakt), gilt:Fur alle δ > 0 existieren endlich viele α1, . . . ,αq ∈ Θ und ein n0, so dass fur alle β ∈ Θ ein1 ≤ i ≤ q existiert mit

1

n

n∑

k=1

(f(xk, αi) − f(xk, β))2 ≤ δ.

Mit (32) und punktweiser fast sicherer Konvergenz an den Stellen αi folgt dann die Behaup-tung.

Beweis (von Satz 3.1)Nach Lemma 3.2 und Annahmen (A) und (B) gilt fur fast alle ω ∈ Ω gleichmaßig in β

Qn(β)(ω) =1

n

n∑

k=1

(f(xk, β0) − f(xk, β))2 +1

n

n∑

k=1

ε2k(ω) +

2

n

n∑

k=1

εk(ω)(f(xk, β0) − f(xk, β))

→ Q(β, β0) + σ2 (33)

Fixiere ω ∈ Ω, so dass (33) gilt. Setzte βNLS

n (ω) = βn, σ2n(ω) = σ2

n und zeige βn → β0,σ2

n → σ. Da Θ kompakt ist, genugt es fur βn → β0 zu zeigen, dass jeder Haufungspunkt von(βn) gleich β0 ist.Sei also β′ ein Haufungspunkt von βn, also etwa βnk

→ β′, k → ∞. Dann ist

|Qnk(βnk

)(ω)−(Q(β′, β0)+σ2)| ≤ |Qnk(βnk

)(ω)−(Q(βnk, β0)+σ2)|+|Q(βnk

, β0)−Q(β′, β0)| → 0,

wobei der erste Term wegen der gleichmaßigen Konvergenz in (33) gegen 0 konvergiert, undder zweite wegen der Stetigkeit von Q(·, β0). Also haben wir

Qnk(βnk

)(ω) → Q(β′, β0) + σ2, k → ∞ (34)

Weiter gilt, da βn NLS Schatzer,

Qnk(βnk

, ω)NLS≤ Qnk

(β0, ω) =1

nk

nk∑

i=1

ε2i (ω)

Fur k → ∞ erhalt man mit (34):

Q(β′, β0) + σ2 ≤ σ2

Da Q(β′, β0) > 0 fur β′ 6= β0 (Annahme (B)) folgt β′ = β0.

Analog zu (34) gilt dann fur fast alle ω:

Qn(βNLS

n (ω))(ω) → Q(β0, β0)︸ ︷︷ ︸=0

+σ2 = σ2

also σ2 → σ2 fast sicher.

3.4 Asymptotische Normalitat 61

relevante R Befehle nls berechnet einen nichtlinearen kleinste Quadrate Schatzer. Dabeimuss ein Startvektor (Option start) fur β angegeben werden. Auf ein Objekt vom Typ nls

kann die summary Funktion angewendet werden. Diese enthalt dann auch den Schatzer furσ2.

Literatur:

Jennrich, R. I. (1969) Asymptotic properties of non-linear least squares estimators. Ann.Math. Statist. 40, 633–643.

3.4 Asymptotische Normalitat

Fur die asymptotische Normalitat des NLS Schatzers benotigen noch folgende Annahme

Annahme (C): Die Ableitungen ddβ

f(xi, β) = gi(β) (Vektor im Rq), ddβ

dT

dβf(xi, β) =

Hi(β) (Matrix aus Rq×q) existieren, und fur alle Kombinationen f(xi, β)·(gi(β))j , (gi(β))j(gi(β))l,f(xi, β) · (Hi(β))jk, (gi(β))j(Hi(β))kl, und (Hi(β))kl(Hi(β))k′l′ existieren die gleichmaßigenLimiten (in (α, β) ∈ Θ × Θ) der Form (fur alle Kombinationen)

1

n

n∑

i=1

f(xi, α)(gi(β))j .

Insbesondere gilt gleichmaßig in β ∈ Θ

An(β) =1

n

n∑

i=1

gi(β)gi(β)T → A(β)(∈ Rq×q).

Lemma 3.3Unter den Annahmen (A), (B) und (C) gilt

1√n

n∑

i=1

εigi(β)d→ N (0, σ2A(β))

Dies Lemma wir mit dem zentralen Grenzwertsatz von Lindeberg und dem Cramer-WoldLemma bewiesen.

Satz 3.4Es gelten Annahmen (A), (B), (C), β0 ∈ intΘ und A(β0) sei invertierbar. Dann

√n(β

NLS

n − β0)d→ N (0, σ2A(β0)

−1). (35)

BeweisNach dem mehrdimensionalen Zwischenwertsatz der Differentialrechnung gilt

0 = ∂βQn(βNLS

n ) = ∂βQn(β0) + WN (βNLS

n − β0), (36)

wobei

Wn =

∫ 1

0

(∂β ∂T

βQn

)(β0 + t(β

NLS

n − β0))dt.

Es ist

∂β Qn(β) =2

n

n∑

i=1

(Yi − f(xi, β))gi(β) also ∂βQn(β0) =2

n

n∑

i=1

εigi(β0).

Weiter

∂β∂TβQn(β) =

2

n

n∑

i=1

((Yi − f(xi, β))Hi(β) − (gi(β)gi(β)T )

).

Somit gilt nach Annahme (C)

∂β∂TβQn(β0)

f.s.→ −2A(β0),

sowie wegen der Konsistenz von βNLS

Wn − ∂β∂TβQn(β0) → 0 f.s.

Somit ergibt sich aus (36) und Lemma 3.3

√n(β

NLS

n − β0) =(− Wn/2

)−1√n∂βQn(β0)/2

d→ N (0, σ2A(β0)−1)

Referenz

Jennrich, R. I. (1969) Asymptotic properties of non-linear least squares estimators. Ann.Math. Statist. 40, 633–643.

Asymptotische Konfidenzintervalle und Hypothesentests

Die asymptotische Normalitat in (35) kann zur Konstruktion von Konfidenzintervallen furdie Koeffizienten von β sowie zu Konstruktion von Tests linearer Hypothesen an β genutzt

werden. Dabei wird die Matrix A(β0) durch 1n

∑ni=1 gi(β

NLS

n )gi(βNLS

n )T geschatzt. Danachgeht man vor wie in Bemerkung 2.8 zur entsprechenden asymptotischen Konstruktion in derlinearen Regression.

relevante R Befehle Die Funktion summary, angewendet auf ein nls Objekt, liefert dieP-Werte, ob die entsprechenden Koeffizinten 0 sind. Die Funktion confint berechnet Konfi-denzintervalle fur die βk. Mit der Funktion anova konnen lineare Hypothesen an β getestetwerden, wobei das Modell unter der linearen Restriktion mit geschatzt werden muss.

Weitere Bemerkungen

Eine Residuenanalyse (residuals und fitted.values auf das nls Objekt anwenden) wirdebenso wie im linearen Regressionsmodell durchgefuhrt. Da das Modell gewohnlich durch denwissenschaftlichen Zusammenhang vorgegeben sein sollte, sind die Themen Modellwahl undVariablenselektion nur von geringem Interesse in der nichtlinearen Regression. Eine Ausnahmeist aber die Schatzung der Varianzfunktion (s. Abschnitt 2.6.2). Dort fuhrt man gewohnlichsukzessive Tests durch.

63

4 Logistische Regression

4.1 Modell

Wir betrachten Regression auf bionomial-verteilte Daten. Dabei liegen also unabhangigebinomial-verteilte abhangige Daten vor, Yi ∼ B(ni, pi), i = 1, . . . , n,

P (Yi = yi) =

(ni

yi

)pyi

i (1 − pi)ni−yi ,

sowie Kovariabeln xi,1, . . . , xi,r, i = 1, . . . , n. Man geht nun davon aus, dass die Kovariablendie Erfolgswahrscheinlichkeit pi beeinflussen, also pi = p(xi). Genauer soll pi von einem li-nearen Pradiktor ηi = bxT

i β abhangen, wobei β ∈ Rp ein unbekannter Parametervektor ist(es ist wie bei der linearen Regression p = r + 1 und bxi = (1, xi,1, . . . , xi,r)

T )). Die direkteWahl pi = ηi = bxT

i β ist aber ungeeignet, da ja so nicht sichergestellt wird, dass 0 < pi < 1.Man wahlt daher eine streng monoton wachsende, stetige Link-Funktion g : (0, 1) → R, sodass ηi = g(pi) bzw. pi = h(ηi) mit h = g−1. Die Funktion h ist also eine streng-monotonwachsende, stetige Verteilungsfunktion.

Beispiele fur Linkfunktionen

a. Logit-Link g(p) = log( p1−p); h(η) = eη

1+eη . Diese Wahl fuhrt zum sogenannten logisti-schen Regressionsmodell, welches wir im Folgenden weiter untersuchen wollen.

b. Probit-Link g(p) = Φ−1(p), wobei Φ die Verteilungsfunktion der Standardnormalver-teilung bezeichnet. Dies ist das Probit Modell.

c. Komplementare Log-log-Regression g(p) = log(− log(1 − p)), dies ist das diskrete Cox-Modell

Wir fassen also nochmal die Definition des logitischen Regressionsmodells zusammen. Es liegenunabhangige Beobachtungen (Yi, bxi), i = 1, . . . , n, vor, wobei die Yi ∼ B(ni, pi) binomialver-teilt sind. Der Parameter ni ist bekannt, dagegen hangt pi von den Kovariablen bxi ∈ Rp abuber die Beziehung

pi = p(bxi) =exp(bxT

i β)

1 − exp(bxTi β)

fur einen unbekannten Parametervektor β ∈ Rp. Fur die Kodierung der Kovariablen, also diekonkrete Wahl des Vektors bxT

i ist Abschhnitt 2.1.2 zu beachten.

4.2 Maximum Likelihood Schatzung

Fur feste Linkfunktion kann der Parameter β durch die Maximum Likelihood Methodegeschatzt werden. Dazu betrachtet man die Log-Likelihood-Funktion:

L(β) =n∑

i=1

(Yi log h(xT

i β) + (ni − Yi) log(1 − h(xTi β))

)+

n∑

i=1

log

(ni

Yi

),

64 4 LOGISTISCHE REGRESSION

wobei der letzte Summand nicht von β abhangt und somit vernachlassigt werden kann. EinMaximum Likelihood Schatzer ist dann gegeben durch

βML = argmaxβ∈Rp L(β)

Wir betrachten im Folgenden speziell das logistische Regressionsmodell. Dann ist

Llogit(β) =

n∑

i=1

(Yi log

( ebxtiβ

1 + ebxTi β

)+ (ni − Yi) log

(1 − ebxT

i β

1 + ebxTi β

))+ const.

=n∑

i=1

Yi(bxTi β) −

n∑

i=1

ni log(1 + ebxTi β) + const.

Als notwendige Bedingung fur ein Maximum ergibt sich die Score-Gleichung

S(β) =∂

∂βLlogit(β) =

n∑

i=1

bxi

(Yi − ni

ebxTi β

1 + ebxTi β

︸ ︷︷ ︸=E(Yi|bxi)

)!= 0.

Es ist offenbar E(S(β)) = 0. Fur die Matrix der zweiten Ableitungen (Hessische Matrix)erhalt man

H(β) =∂

∂βTS(β) = −

n∑

i=1

bxibxTi ni

ebxTi β

(1 + ebxTi β)2︸ ︷︷ ︸

=p(bxi)(1−p(bxi))

.

Somit hat diese folgende Eigenschaften

a. H(β) hangt nicht von Daten Yi ab.

b. H(β) ist negativ definit fur alle β ∈ Rp, falls die Designmatrix

X =

xT1...

xTn

∈ Rn×p

vollen Rang hat. (Nachweis!)

Satz 4.1Der Parameterraum Θ ⊂ Rp der moglichen Werte von β sei konvex. Falls die DesignmatrixX vollen Rang hat, hat Llogit(β) im logistischen Regressionsmodell hochstens ein Maximum,

d.h. βML ist, falls existent, eindeutig bestimmt.

BeweisH(β) negativ definit ∀β ∈ Rp ⇒ Llogit(β) konkav ⇒ auf konvexer Menge hochstens einMaximum.

Beispiel 4.2 (MLE braucht finit nicht zu existieren)Es sei ni = 1, und die Kovariablen bxi seien derart, dass β∗ ∈ Rp existiert mit

bxTi β∗ > 0, falls Yi = 1, bxT

i β∗ < 0, falls Yi = 0.

4.3 Deviance 65

Dann ist

L(β∗) =n∑

i=1yi=1

(bxTi β∗ − log(1 + ebxT

i β∗)) −

n∑

i=1yi=0

log(1 + ebxTi β∗

).

Fur α → ∞ gilt dann L(αβ∗) → 0 (nutze dazu log(1 + ex) ≈ x fur x groß). Andererseits iststets

L(β) =

n∏

i=1

p(bxi)yi(1 − pi(bxi))

1−yi < 1

uns somit L(β) < 0. Daher kann es kein Maximum geben.

Man kann aber zeigen, dass unter geeigneten Bedingungen die Wahrscheinlichkeit dafur, dassder Maximum Likelihood Schatzer βML existiert, gegen 1 konvergiert, und dass dieser asym-ptotisch normalverteilt ist. Wir zeigen dies im Abschnitt 5.3 uber verallgemeinerte lineareModelle.

relevante R Befehle Die Funktion glm mit Option family=binomial passt ein logistischesRegressionsmodell an. Entweder man wahlt die Matrix (Yi, ni−Yi), i = 1, . . . , n als abhangigeVariable in formula, oder man wahlt Yi/ni als abhangige Variable in formula, und ubergibtdie ni an die Option weights. Ein Probit-Modell wird mit der Optionfamily=binomial(link="probit") erzeugt. Auf ein glm Objekt konnen die Funktionensummary, und fitted.values (angepasste Werte), angewendet werden.

4.3 Deviance

Wir wiederholen zunachst das Prinzip des Likelihood Quotienten Tests (LRT, LikelihoodRatio Test). Angenommen, man hat zwei parametrische Modelle:L: großes Modell mit l freien Parametern und maximaler Likelihood LL,S: kleines Teilmodell von L mit s freien Parametern und maximaler Likelihood LS .

Dann ist die Likelihood Quotienten Statistik gegeben durch

T = 2 logLL

LS.

Falls das Teilmodell S bereits den wahren Parameter enthalt, und falls zusatzliche Regula-

ritatsbedingungen erfullt sind, gilt Td→ χ2(l − s). Man verwirft das Teilmodell mit asym-

ptotischen Niveau α > 0, falls T ≥ χ2α(l − s). Die Deviance ist nun definiert als Likelihood

Quotienten Statistik fur das angepasste logistische Regressionsmodell gegen das sogenann-te saturierte Modell, wobei im saturierten Modell jeder Parameter pi als freier Parameterbehandelt wird und durch pi = Yi

nigeschatzt wird. Also explizit

D = 2 ·n∑

i=1

(Yi log

pi

h(xTi β)

+ (ni − Yi) log(1 − pi

1 − h(xTi β)

)).

Mit Yi = nih(xTi β), den angepassten Werten (fitted values) kann man auch schreiben

D = 2 ·n∑

i=1

(Yi log

(Yi

Yi

)+ (ni − Yi) log

(ni − Yi

ni − Yi

)).

66 4 LOGISTISCHE REGRESSION

Falls das logistische Regressionsmodell korrekt ist, gilt fur festes n und fur ni → ∞ Dd→

χ2(n − p).

Bemerkungen

a. Fur ni = 1 (Bernoulli-Daten) kann die Deviance nicht benutzt werden (WIESO).

b. Die Asymptotik Dd→ χ2(n − p) gilt nicht fur ni fest und n → ∞!

Die Deviance kann auch genutzt werden, um zwei ineinander geschachtelte logistische Regres-sionsmodelle miteinander zu vergleichen. Dazu seienL: das große logistische Regressionsmodell mit β ∈ Rl,S: das klein Teilmodell von L mit β ∈ Rs, s < l.

Dann kann die Likelihood Quotienten Statistik von Modell S gegen Modell L durch Differenz-bildung der zugehorigen Deviances DS −DL, auch Partial Deviance Test genannt, berechnen.Falls S korrekt ist, gilt

DS − DLd→ χ2

l−s,

falls ni → ∞ oder auch n → ∞. Beachte dabei, dass die gesattigten Terme wegfallen, weshalbauch Asymptotik mit n → ∞ gilt.

relevante R Befehle Die summary Funktion enthalt die Deviance. Der Partial Deviance Testfur lineare Hypothesen wird mit anova durchgefuhrt. Hierbei wird entweder das reduzierteModell mitubergeben, oder es werden Tests auf Relevanz der HAupteffekte und Interaktionendurchgefuhrt.

4.4 Residuenanalyse und weitere Diagnostische Plots

NOCH UBERARBEITEN!

Residuenanalyse

µi = nipi, pi =exT

i βML,n

1 + exTi βML,n

.

Rohe Residuen (Raw residuals)

ri = Yi − nipi.

Diese sind ungeeignet fur Residuenanalyse, da die Varianz von Yi und somit von ri von µi

abhangt. Somit haben die ri keine approximativ konstante Varianz.

Pearsonsche Residuen

rPi =

Yi − nipi

(nipi(1 − pi))12

.

Diese sind grundsatzlich geeignet fur die Residuenanalyse. Allerdings sind sie haufig finit nichtgut approximativ normalverteilt, sonder schief verteilt. Nur benutzen fur große ni, insbeson-dere nicht benutzbar fur ni = 1.)

Transformierte Residuen Varianz-stabilisierende Residuen:

(arcsin(√

Yi/ni) − arcsin(pi)) · 2√

ni,

4.4 Residuenanalyse und weitere Diagnostische Plots 67

hier ist T die Arcsin-Transformation.

Anscombe:T (Yi

ni) − T (pi)

(pi(1 − pi))16

√ni, T (z) =

∫ z

0(t(1 − t))−

13 dt.

Fur T sind numerische Approximationen verfugbar.

Deviance-Residuum: Die Deviance Residuen sind also Wurzeln aus Beitrag der i-ten Be-obachtung zur Deviance.Mit µi = nipi haben

rDi = sign(Yi/ni − pi)

(2(Yi log(Yi/µi) + (ni − Yi) log

(ni − Yi

ni − µi))) 1

2.

wobei

sign(x) =

1, x > 00, x = 0−1, x < 0

Im Allgemeinen wird die Benutzung der Deviance Residune empfohlen, die ahnliche Eigen-schaften zu den Anscombe Residuen haben (vgl REFERENZ).

1. Einfluß einer Kovariable

a. dichotomDatenbeispiel

”Babyfood“

empirisch:Junge Madchen Junge Madchen

Krank p(0) p(1) Krank a bNicht krank 1-p(0) 1-p(1) Nicht krank c d

Odds:

O(i) =p(i)

1 − p(i)

(lace eines Erfolgs zu dem eines Mißerfolgs)Empirisch:

O(0) =a

a+cc

a+c

=a

c, O(1) =

b

d

Odds Ratio: (???)

Or =O(0)

O(0)

Logistisches Regressionsmodell:

log(p(i)

1 − p(i)) = β0 + β1i, i = 0, 1

Somit: eβ0 = O(0), eβ0+β1 = O(1)eβ1 = Or

Auch fur empirische Odds-Ratios und ML-Schatzer fur die βi.

68 4 LOGISTISCHE REGRESSION

b. nomiale KovariableBeispiel

”Food“ (Babyfood)

J Kategorien, dann

logit(p(j)) = β0 + β1I1(j) + . . . + βJ−1IJ−1(j), j = 1, . . . , J

wobei

Ij(i) =

1, i = j0, sonst

j = 1, . . . , J − 1

Also:logit p(J) = β0, logit p(j) = β0 + βj

(damit Matrix X vollen Rang hat!)

Wieder Zusammenhang zu den empirischen logits!

c. ordinale KovariableBeispiel

”Bliss Daten“

Linearitat der empirischen Logits prufen → ???Logits:

log(p(i)

1 − p(i)) = log(

yi

ni

1 − yi

ni

) = log(yi

ni − yi)

Empirische logits:

log(yi + 1

2

ni − yi + 12

)

d. quantitative KovariableAuch empirische Logits plotten.

2. Einfluß mehrerer Kovariablen

Beispiel 4.3Lineares Modell, eine Kovariable stetig, eine Kovariable dichotom

abhangig: Einkommen; dichotom: Geschlecht; stetig: AlterUntersuche (Modell mit Haupteffekten):

Yi = β0 + β1xi,A + β2xi,S + εi (1)

Bedeutet konkret:Fur Manner (xi,S = 1): Yi = β0 + β2 + β1xi,A

Fur Frauen (xi,S = 0): Yi = β0 + β1xi,A

Also: gleiche Steigung, ungleiche Intercepts

Falls aber der Zusammenhang so ist, dass ungleiche Steigung und ungleiche Intercepts, dannInteraktion.Erweitere Modell (1) zu:

Yi = β0 + β1xi,A + β2xi,S + β3xi,A · xi,S + εi

4.5 Uberdispersion 69

Dann fur Manner (xi,S = 1): Yi = β0 + β2 + xi,A(β1 + β3) + εi

Fur Frauen (xi,S = 0): Yi = β0 + β1xi,A + εi

Analog, falls zweite Kovariable nicht dichotom, sondern polytom (nominal) ist, oder wennbeide Kovariablen nomial (auch dichotom) sind.

Im logistischen Regressionsmodell plottet man nicht Yi, sondern empirische Logits, um Inter-aktionen zu entdecken.Beispiel: Babyfood, troutegg

4.5 Uberdispersion

Im logistischen Regressionsmodell gilt mit log(pi/(1 − pi)

)= xT

i β

EYi = ni · pi, Var Yi = ni pi (1 − pi) = EYi · (1 − EYi

ni)

Somit ist die Varianz VarYi durch den Erwartungswert EYi bereits bestimmt. Man sprichtnun von Uberdispersion (Overdispersion) gegenuber dem logistischen Regressionsmodell, fallsdie Varianz der Yi großer ist als EYi · (1 − EYi

ni).

Formale Grunde fur Uberdispersion

a. Korrelation zwischen den binaren Responses

Yi =

ni∑

j=1

Rij mit Rij =

1 Erfolg0 Mißerfolg

, P (Rij = 1) = pi

Es ist

Var Yi =

ni∑

j=1

Var Rij +∑

j 6=k

Cov(Rij , Rik),

Fur die erste Summe erhalt man ni pi(1 − pi). Sind die binaren Responses Rij korrelliert, soist der zweite Summand ungleich 0. Falls etwa Cov(Rij , Rik) = δ ∀j 6= k, i, dann

Var Yi = ni pi(1 − pi) + pi(1 − pi)δni(ni − 1)

= nipi(1 − pi) · (1 + δ(ni − 1)).

InhaltlichKorrelation entsteht durch Klustereffekte, falls Mitglieder einer Gruppe sich nicht unabhangigverhalten, etwa Mitglieder einer Familie, Firma, oder zeitlicher Verlauf bei einem Patientenin der Medizin.

b. Variabilitat in Erfolgswahrscheinlichkeiten

Hier nimmt man an, dass die Erfolgswahrscheinlichkeiten pi selbst Realisierungen von unbeob-achteten Zufallsvariablen sind. Genauer modelliert man Yi|ϑi ∼ B(ni, ϑi), wobei ϑi (latente,also nicht beobachtete) Zufallsvariable auf (0, 1) sind mit Eϑi = pi und Varϑi = φpi(1−pi) fur

70 4 LOGISTISCHE REGRESSION

ein φ > 0 (spezielle Parametrisierung der Varianz, keine Einschrankung). Fur die bedingtenMomente erhalt man

E(Yi|ϑi) = niϑi, Var(Yi|ϑi) = niϑi(1 − ϑi)

Fur die unbedingten Momente: EY = Eϑ(E(Y |ϑ)) = Eϑ(n · ϑ) = n · p, sowie

Var Y = Eϑ(Var(Y |ϑ)) + Varϑ(E(Y |ϑ))

= Eϑ(n · ϑ(1 − ϑ)) + Varϑ(n · ϑ)

= n · (p − φp(1 − p) − p2) + n2φp(1 − p)

= np(1 − p) · (1 + (n − 1)φ)

Man erhalt also die gleiche Struktur wie bei konstanter Korrelation.Ist in der Tat

Yi =

ni∑

j=1

Rij , Rij |ϑi ∼ B(ϑi) unabhangig

so ist Cov(Rij , Rik) = φ.[Aufgabe! Benutze

Cov(Rj , Rk) = Eϑ(Cov(Rj , Rk|ϑ)) + Covϑ(E(Rj |ϑ), E(Rk|ϑ)) ]

Wie erkennt man Uberdispersion?Wir untersuchen dieses Problem zunachst fur unabhangig, identisch verteilte (u.i.v.) Zufallsva-riablen. Dazu seien Y1, . . . , Yn u.i.v., vermute, dass jedes Yi ∼ B(m, p) (jeweils gleiche SampleSize).Dann vergleiche empirische Varianz

S2 =1

n − 1

j

(Yj − Y )2

mit Varianz geschatzt uber den Erwartungswert in einer Binomialverteilung: S2 = Y (1 − Ym)

(beachte, dass Y schatzt m · p) durch Quotientenbildung T = (n − 1)S2/S2. Dies ergibt diesogenannte Pearsonsche Chi-Quadrat Statistik.

Wir betrachten nun allgemeiner unabhangige 0 ≤ Yi ≤ ni, und wollen die Varianzstrukturvon Yi ∼ B(ni, p) uberprufen. Dazu schatzen wir p durch

p =1∑n

i=1 ni

n∑

i=1

Yi

(beachte∑n

i=1 Yi ∼ B(∑n

i=1 ni, p)) und bilden die Pearsonsche χ2-Statistik

T =

n∑

j=1

(Yj − nj p)2

nj p(1 − p)

4.5 Uberdispersion 71

T ist fur festes n und ni → ∞ asymptotisch verteilt nach χ2n−1. Falls also der p-Wert P =

1 − χ2(n − 1)(T ) ≤ α, dann liegt mit Niveau α > 0 Uberdispersion vor.

Wir betrachten nun wieder das logistische Regressionsmodell, und schatzen β mit Maximum-Likelihood. Mit dem ML-Schatzer βML setze

pi =ex

Ti βML

1 + exTi βML

.

Dann vergleiche (Yi − nipi)2 mit nipi(1 − pi) durch Bildung der Pearsonschen χ2-Statistik

T =n∑

i=1

(Yi − nipi)2

nipi(1 − pi),

wobei wiederum fur festes n und ni → ∞ gilt: Td→ χ2

n−p, wobei p = dimβ.

Weiter kann man zeigen, dass eine Varianzstruktur der Form φpi(1−pi) mit φ > 1 zu großererDeviance fuhrt (fur ni groß genug). Daher ist große Deviance (mehr als die degrees of freedom)ein Indiz fur Uberdispersion.

Bevor man Uberdispersion durch Modifikation des Modells mit aufnimmt, sollten anderemogliche Ursachen fur großes T und große Deviance ausgeschlossen werden:

• fehlende Kovariable / Interaktionen

• ni klein

• Ausreißer

• eventuell nichtlineare Effekte

• falsche Linkfunktion

Diese Ursachen sind durch Modelldiagnostik, insbesondere Residuenanalyse, auszuschließen.

Folgen von Uberdispersion: Die Standardfehler der ML-Schatzer sind deutlich großer,werden also bei Nichtbeachtung der Uberdispersionsstruktur unterschatzt, wodurch die sta-tistische Inferenz, also Konfidenzintervalle nd Tests, ungultig werden.

Modellierung bzw. Schatzung von Uberdispersion

a. Quasilikelihood (s. Kapitel 4).

b. Hinzunahme zufalliger Effekte (s. Kapitel 6).

c. Das Beta-Binomial Modell

Dabei nutzen wir das Entstehen von Uberdispersion durch Variabilitat in den Erfolgswahr-scheinlichkeiten, und wahlen als Verteilung der Erfolgswahrscheinlichkeiten eine Beta Vertei-lung, also ϑi ∼ Beta(ai, bi), wobei

f(ϑi) =1

B(ai, bi)ϑai−1

i (1 − ϑi)bi−1, ai, bi > 0

und

B(a, b) =

∫ 1

0xa−1(1 − x)b−1dx

die Beta-Funktion bezeichnet. Somit

Eϑi =ai

ai + bi=: pi, Var ϑi =

aibi

(ai + bi)2(ai + bi + 1)= pi(1 − pi)

1

ai + bi.

Damit die Dichte von ϑi unimodal und am Rand = 0 ist, muss ai, bi > 1 gelten, welches

Var ϑi ≤pi(1 − pi)

3

impliziert. Parametrisiere nun uber (β, φ), wobei

log(pi/(1 − pi)

)= xT

i β, φ =1

ai + bi + 1, pi =

ai

ai + bi

also

bi =(1 − φ)(1 − pi)

φ, ai =

pi(1 − φ)

φ.

Schatze (β, φ) als argmax der marginalen Likelihood-Funktion

L(β, φ) =

n∏

i=1

∫ 1

0f(Yi|ϑi)f(ϑi)dϑi

=n∏

i=1

∫ 1

0

(ni

Yi

)ϑYi

i (1 − ϑi)ni−Yi

1

B(ai, bi)ϑai−1

i (1 − ϑi)bi−1dϑi

=n∏

i=1

(ni

Yi

)B(Yi + ai, ni − Yi + bi)

B(ai, bi)

Bemerkung: Die Uberdispersionsstrukur in a. und c. unterscheidet sich, da der Faktor inder Varianz in c. von ni abhangt, in a. dagegen nicht. Es ist je nach Situation zu entscheiden,welches Modell zu bevorzugen ist.

relevante R Befehle Die library aod enthalt die Funktion betabin zum Anpassen einesBeta-binomial Modells. Die Syntax ist ahnlich wie bei glm, als abhangige Variable wird dieMatrix (Yi, ni − Yi) ubergeben. Man kann auch den Uberdispersionsparameter φ durch eineFormel bestimmten, also von Kovariablen abhangen lassen. Das obige Modell entsteht durchrandom~1. Auf das entstehende Objekt kann die Funktion summary angewendet werden.

73

5 Verallgemeinerte lineare Modelle (GLMs)

Verallgemeinerte lineare Modelle werden genutzt, falls die abhangige Variable Yi nicht nor-malverteilt ist wie im klassischen linearen Modell mit normalverteilten Fehlern, sondern fallsdiese einer anderen parametrischen Familie aus der Klasse der sogenannten Dispersionsexpo-nentialfamilien folgt. In der Praxis ist dies besonders relevant, falls die abhangige Variableeine Zahlvariable oder aber eine dichotome (kategoriell mit zwei Kategorien) Variable ist.Im ersten Fall kann man ein Poisson Regressionsmodell wahlen, im zweiten ein logistischesRegressionsmodell. Weitere Beispiele sind Regression auf Gamma-verteilte Zufallsvariablensowie auf invers-Gauss verteilte Zufallsvariablen.

5.1 Dispersionsexponentialfamilien (DEFs)

Sei µ ein dominierendes, σ-endliches Maß auf R.

Definition 5.1Eine Familie von Dichten auf R bezuglich µ der Form

f(y; ϑ, ϕ) = exp(y · ϑ − b(ϑ)

ϕ+ c(y, ϕ)

), y ∈ R,

mit bekannten Funktionen b(·) und c(·) (ϑ ∈ Θ ⊂ R, ϕ ∈ Φ ⊂ (0,∞)) heißt Dispersionsexpo-nentialfamilie (DEF).

BemerkungBei der DEF handelt es sich um ein verwandtes, aber nicht identisches Konzept der Expo-nentialfamilien aus Statistik 1.

Beispiel 5.21. Normalverteilung

f(y; µ, σ2) =1√2πσ

exp(− (y − µ)2

2σ2

)= exp

(yµ − 12µ2

σ2− y2

2σ2− 1

2log(2πσ2)

),

also ϑ = µ, ϕ = σ2, b(µ) = 12µ2, c(y, ϕ) = − y2

2ϕ − 12 log(2πϕ) und somit eine DEF

(dominierendes Maß dµ(x) = dx: Lebesgue-Maß auf R).

2. Binomialverteilung (fur festes n)

f(y; p, n) =

(n

y

)py(1 − p)n−y = exp

(y log(

p

1 − p) + n log(1 − p) + log

(n

y

)).

Fur festes n also Dispersionsexponentialfamilie mit ϑ = log( p1−p), ϕ = 1, b(ϑ) =

−n log(1 − p) = n log(1 + eϑ), c(y) = log(ny

)(bezuglich µ: Zahlmaß auf 0, 1, . . . , n).

3. Poisson-VerteilungFur λ > 0

f(y; λ) = e−λ λy

y!= exp(y log λ − λ − log y!)

also mit ϑ = log λ, ϕ = 1, b(ϑ) = eϑ, c(y) = log y! Dispersionsexponentialfamiliebezuglich Zahlmaß auf N0.

74 5 VERALLGEMEINERTE LINEARE MODELLE (GLMS)

4. Gamma-VerteilungFur r, λ > 0: Dichte bezuglich Lebesgue-Maß µ auf (0,∞), also fur y > 0

f(y; r, λ) =1

Γ(r)λryr−1e−λy

= exp(r(− λ

ry + log(

λ

r))

+ r log r − log Γ(r) + (r − 1) log y),

mit ϑ = −λr , ϕ = r−1, b(ϑ) = − log(−ϑ), c(y, ϕ) = −ϕ−1 log ϕ − log Γ(ϕ−1) + (ϕ−1 −

1) log y.

5. Inverse Gauß-VerteilungDichte bezuglich Lebesgue-Maß µ auf (0,∞), also fur y > 0

f(y, µ, σ) =σ√2πy3

exp(− σ2(y − µ)2

2µ2y

)

= exp((− 1

µ2y +

2

µ)σ2

2− σ2

2y+ log σ − 1

2log(2π) − 3

2log y

),

ϑ = − 1µ2 , ϕ = 2

σ2 , b(ϑ) = −2√−ϑ, c ergibt sich, fur y, µ, σ > 0.

Log-Likelihood fur DEFs

l(y; ϑ, ϕ) = log f(y; ϑ, ϕ) =yϑ − b(ϑ)

ϕ− c(y, ϕ)

Annahmen

A

d

∫f(y; ϑ, ϕ)dy =

∫d

dϑf(y; ϑ, ϕ)dy ∀ϑ, ϕ

B

∂2

∂2ϑ

∫f(y; ϑ, ϕ)dy =

∫∂2

∂2ϑf(y; ϑ, ϕ)dy ∀ϑ, ϕ

Lemma 5.3Sei Y ∼ f(y; ϑ, ϕ) verteilt nach DEF. Dann

a. Unter Annahme A:

Eϑ∂l

∂ϑ(Y ; ϑ, ϕ) = 0.

b. Unter den Annahmen A und B:

Eϑ∂2l

∂2ϑ(Y ; ϑ, ϕ) = −Eϑ

[(∂l

∂ϑ)2(Y ; ϑ, ϕ)

].

5.1 Dispersionsexponentialfamilien (DEFs) 75

BeweisZu a. ∂l

∂ϑ = ∂f∂ϑ · 1

f , somit

Eϑ∂l

∂ϑ(Y ; ϑ, ϕ) =

∫∂f

∂ϑ(y; ϑ, ϕ)dy

A=

∂ϑ

∫f(y; ϑ, ϕ)dy

︸ ︷︷ ︸=1 also konstant

= 0

Zu b. Benutze∂2l

∂2ϑ=

∂ϑ(∂f

∂ϑ· 1

f) =

∂2f∂2ϑ

· f − (∂f∂ϑ)2

f2

und Eϑ∂2f∂2ϑ

(Y ; ϑ, ϕ) = 0 nach Annahme B.

Bemerkung. Lemma 5.3 gilt stets fur differenzierbare parametrische Familien, die die An-nahmen A und B erfullen. (Also nicht nur fur DEFs.)

Lemma 5.4Angenommen, fur die DEF f(y, ϑ, ϕ) gelten die Annahmen A und B. Dann ist fur Y ∼f(y, ϑ, ϕ):

a. Eϑ(Y ) = b′(ϑ) =: µ(ϑ),

b. Varϑ Y = ϕ · b′′(ϑ).

Beweisa. Benutze

∂l

∂ϑ(Y ; ϑ, ϕ) =

Y − b′(ϑ)

ϕ

Bilde Eϑ(·) und verwende Lemma 5.3.

b. Es gilt∂2l

∂2ϑ= −b′′(ϑ)

ϕ

Mit Lemma 5.3 folgt dann

b′′(ϑ)

ϕ= −Eϑ

∂2l

∂2ϑ(Y ; ϑ, ϕ) = Eϑ((

∂l

∂ϑ)2) =

EϑY 2 − 2b′(ϑ)EϑY + (b′(ϑ))2

ϕ2.

Somit:ϕb′′(ϑ) = EϑY 2 −

(b′(ϑ)

)2= Varϑ Y.

Beispiel (Fortsetzung von 5.2)a. Normalverteilung b′(ϑ) = ϑ (ϑ = µ); b′′(ϑ) = 1, somit Varϑ Y = ϕ

b. Binomialverteilung

b′(ϑ) = n · eϑ

1 + eϑ= np, b′′(ϑ) = n

(1 + eϑ)2= np(1 − p).

76 5 VERALLGEMEINERTE LINEARE MODELLE (GLMS)

c. Poisson-Verteilungb′(ϑ) = eϑ = λ, b′′(ϑ) = eϑ = λ.

d. Gamma-Verteilung

b′(ϑ) = − 1

ϑ=

r

λ, b′′(ϑ) =

1

ϑ2=

r2

λ2

e. Inverse Gauß-Verteilung

b′(ϑ) =1√−ϑ

= µ, b′′(ϑ) =1

2(−ϑ)−

32 =

µ3

2

Also Var Y = µ3

σ2 .

5.2 Komponenten eines GLMs

a. Zufallskomponente Y , Verteilung aus Dispersionsexponentialfamilie

EϑY = µ(ϑ) = b′(ϑ).

b. Systematische KomponenteLinearer Pradiktor η = xT β, wobei x ∈ Rp Kovariablen, β ∈ Rp unbekannter Parameter

c. Linkfunktion η = g(µ), g : I → R streng monoton wachsend. Die Linkfunktion g wirdals bekannt vorausgesetzt. Setzte weiter u = (g µ)−1, so dass ϑ = u(η).

Im Folgenden sei stets (Yi,xi)i=1,...,n unabhangige Stichprobe aus GLM. Der Kovariablenvek-tor x ist geeignet kodiert nach Abschnitt 2.1.2, und entalt insbesondere den Achsenabschnitt.Wir nehmen stets an, dass die Designmatrix X = (x1, . . . ,xn)T ∈ Rn×p vollen Rang habe.

Definition 5.5 (kanonische Linkfunktion)Gilt g(µ) = ϑ, also g = (b′)−1 = µ−1 bzw. u = id, so heisst g kanonische Linkfunktion. Dannist ϑ = Xβ.

Beispiel 5.6 (Beispiele fur Linkfunktionen)a. Normalverteilung

Die kanonische Linkfunktion ist g(µ) = µ, daruber hinaus gibt es weitere Linkfunktio-nen, etwa die Box-Cox-Transformationen

gλ(µ) =

µλ−1

λ , λ 6= 0,log µ, λ = 0.

b. BinomialverteilungDie kanonische Linkfunktion ist die logistische Linkfunktion g(µ) = log

((µ/n)/(1 −

µ/n)). Weitere Linkfunktionen: Probit-Link, Log-log Link.

c. Poisson-Verteilungkanonische Linkfunktion g(µ) = log µ, daruber hinaus g(µ) = µ, g(µ) = µ

12

5.3 Maximum Likelihood Schatzung und Testen in GLMs 77

d. Gamma-Verteilung kanonische Linkfunktion g(µ) = − 1µ , daruber hinaus g(µ) = log(µ),

g(µ) = µ.

e. Inverse Gauß-Verteilung kanonische Linkfunktion g(µ) = − 1µ2 .

Einschub uber suffiziente Statistiken (vgl. Statistik 1)

Sei Z = (Z1, . . . , Zn) Zufallsvektor mit Dichte f(z, k), z ∈ Rn, k Parameter. Dann heißt eineStatistik suffizient fur k, falls eine Version des bedingten Erwartungswertes E(Z|T (Z) = t)existiert, die unabhangig von k ist.

FaktorisierungslemmaT (Z) ist suffizient fur k genau dann, wenn

f(z, k) = L(T (z), k) · H(z).

Satz 5.7Fur (Yi,xi)i=1,...,n aus GLM mit kanonischer Linkfunktion ist

T (Y) =(T1(Y), . . . , Tp(Y)

)T, Tj(Y) =

n∑

i=1

xijYi,

suffizient fur β (die Kovariablen xi sind dabei fest, nicht zufallig).

BeweisDie gemeinsame Dichte von (Y1, . . . , Yn) ist

f(y1, . . . , yn, β) = exp( n∑

i=1

(yiϑi − b(ϑi)

ϕ+ c(yi, ϕ)

))

= exp(∑n

i=1 yixTi β − b(xT

i β)

ϕ

)· exp

( n∑

i=1

c(yi, ϕ))

= L(T (y), β) · H(y),

wobei im vorletzten Schritt ausgenutzt wurde, dass fur die kanonische Linkfunktion ϑi = xTi β

ist.

5.3 Maximum Likelihood Schatzung und Testen in GLMs

In diesem Abschnitt betrachten wir die Schatzung des Parameter Vektors β durch MaximumLikelihood, sowie das Schatzen des Parameters ϕ und die Konstruktion von Hypothesentests.

Gegeben seien (Yi,xi)i=1,...,n unabhangig aus GLM, also Yi ∼DEF(ϑi, ϕ), Eϑi(Yi) = µ(ϑi) =

b′(ϑi), ηi = xTi β, ηi = g(µ(ϑi)). Wir setzten wieder u = (g µ)−1, so dass ϑi = u(xT

i β). BeiWahl der kanonischen Linkfunktion gilt g = µ−1, also u = id.

Log-Likelihood-Funktion

Ln(β, ϕ) =n∑

i=1

Yiu(xTi β) − b

(u(xT

i β))

ϕ− C,

78 5 VERALLGEMEINERTE LINEARE MODELLE (GLMS)

C ist nicht abhangig von dem Parameter β.

Score-Vektor

sn(β, ϕ) =∂

∂βLn(β, ϕ) =

n∑

i=1

u′(xTi β)

ϕxi

(yi − b′(u(xT

i β)))

(∈ Rp),

Fisher-Information

Fn(β, ϕ) = Cov sn(β, ϕ) =n∑

i=1

(u′(xTi β))2

ϕxix

Ti b′′(u(xT

i β)),

(b′′ Varianzfunktion der DEF)

Hessische Matrix

Hn(β, ϕ) =∂

∂β

∂βTLn(β, ϕ)

=n∑

i=1

u′′(xTi β) · xix

Ti

ϕ

(Yi − b′(u(xT

i β)))−

n∑

i=1

u′(xTi β)xix

Ti

ϕ

(b′′(u(xT

i β))· u′(xT

i β)).

= Rn(β, ϕ) − Fn(β, ϕ)

Maximum Likelihood Schatzer

βML,n = argmaxβ∈Θ Ln(β, ϕ) (Θ ⊂ Rp konvex)

Beachte: βML,n hangt nicht vom Dispersionsparameter ϕ ab (dies ergibt sich direkt aus derForm von Ln(β, ϕ)).

Lemma 5.8Es ist EHn(β, ϕ) = −Fn(β, ϕ). Bei Verwendung der kanonischen Linkfunktion, also fur u =id, gilt sogar Hn(β, ϕ) = −Fn(β, ϕ). (die zweite Ableitung hangt dann nicht von Daten Yi

ab.)

Im Folgenden wollen wir uns mit Existenz, Eindeutigkeit und asymptotischer Verteilung vonβML,n bei Verwendung der kanonischen Linkfunktion beschaftigen. Wir schreiben in Beweisenstets Ln(β) statt Ln(β, ϕ) etc., da der ML-Schatzer fur β nicht von ϕ abhangt (allerdingshangt seine asymptotische Verteilung von ϕ ab).

Sei also stets g = µ−1 bzw. u = id. Dann:

Ln(β, ϕ) =n∑

i=1

YixTi β − b(xT

i β)

ϕ− c,

sn(β, ϕ) =n∑

i=1

Yixi − b′(xTi β)xi

ϕ=

n∑

i=1

xi

ϕ

(Yi − b′(xT

i β)),

Fn(β, ϕ) = −Hn(β, ϕ) =n∑

i=1

b′′(xTi β)

ϕxix

Ti .

5.3 Maximum Likelihood Schatzung und Testen in GLMs 79

Annahme 1Fur positiv definite Grenzmatrizen Σ(β) (β ∈ Θ) gilt gleichmaßig in β:

1

nFn(β, ϕ) → Σ(β)

ϕ.

Satz 5.9In einem GLM mit kanonischer Linkfunktion und konvexem Parameterraum Θ existiert hochs-

tens ein MLE βML,n. Unter Annahme 1 ist βML,n stark konsistent,

βML,n → β0 f.s.

BeweisEs ist Hn(β) = −Fn(β) und Fn(β) ist positiv definit, also Hn(β) negativ definit. Somit istLn(·) konkav auf der konvexen Menge Θ, hat also hochstens ein lokales Maximum, insbeson-dere hochstens ein Maximum.

Wir zeigen jetzt: Fur fast alle ω ∈ Ω (zugrundeliegender Wahrscheinlichkeitsraum) gilt:

∀ε > 0 ∃n1 = n1(ω) : Ln(β)(ω) − L(β0)(ω) < 0 fur ‖β − β0‖ < ε, n ≥ n1. (37)

(37) impliziert, dass in Bε(β0) = β : ‖β − β0‖ < ε ein lokales, also das globale Maximumliegt. Bilde den Schnitt uber rationale ε > 0 und erhalte dann fur f.a. ω ∈ Ω:

∀ε > 0∃n1 = n1(ω, ε) : βML,n ∈ Bε(β0), n ≥ n1,

also die starke Konsistenz.

Zu (37): Betrachte die Taylor-Entwicklung

Ln(β) − Ln(β0) = ε · sn(β0)λ +1

2ε2λT Fn(βξ)λ, λ =

β − β0

ε

Fur ‖β − β0‖ = ε gilt λT λ = 1. Es genugt also zu zeigen: Fur f.a. ω ∃n1 = n1(ω), so dass

sn(β0)(ω) · λn

2

λT Fn(βξ)λ

n∀n ≥ n1. (38)

Nach starkem Gesetz gilt sn(β0)n → 0 f.s., und da ‖λ‖ = 1, gilt auch

sn(β0)

nλ → 0 f.s., gleichmaßig in λ.

Wegen Annahme 1 ist daruber hinausλT Fn(βξ)λ

n fur n ≥ n1 gleichmaßig in λ von 0 wegbeschrankt. Dies zeigt (37) und somit (38).

BemerkungFur Existenz und Eindeutigkeit des ML Schatzers bei Wahl einer nicht kanonischen Link-funktion siehe Wedderburn (1976, Biometrika).

80 5 VERALLGEMEINERTE LINEARE MODELLE (GLMS)

Satz 5.10Unter den Voraussetzungen von Satz 5.9 gilt:

√n(βML,n − β0)

d→ N (0, ϕ · [Σ(β0)]−1) (39)

bzw.[Fn(βML,n, ϕ)]

12 (βML,n − β0)

d→ N (0, I) (40)

BemerkungObwohl der ML-Schatzer βML,n nicht von dem Dispersionsparameter ϕ abhangt, hangt seine

asymptotische Verteilung davon ab, also muss zur Berechnung von Standardfehlern von βML,n

auch der Parameter ϕ geschatzt werden. (s.u.)

Lemma 5.11Unter den Voraussetzungen von Satz 5.9 gilt:

[Fn(β0, ϕ)]−12 sn(β0, ϕ)

d→ N (0, I), (41)

bzw.1√n

sn(β0, ϕ)d→ N

(0,

Σ(β0)

ϕ

). (42)

BeweisOffenbar folgt (41) aus (42) und Annahme 1.Zum Beweis von (42) verwenden wir das Lemma von Cramer-Wold, sowie den Stetigkeits-satz fur momentenerzeugende Funktionen (dieser besagt, dass schwache Konvergenz aus derpunktweisen Konvergenz der momentenerzeugenden Funktionen folgt) und zeigen:∀λ ∈ Rp, λT λ = 1, sowie t ∈ R gilt

Eβ0exp

(tλT

(Fn(β0, ϕ)

)− 12(sn(β0, ϕ)

))→ exp(

t2

2). (43)

(Also: die momentenerzeugende Funktion konvergiert gegen diejenige einer Standardnormal-verteilung.)

Dazu: Fixiere t ∈ R, λ ∈ Rp, λT λ = 1, setze Fn = Fn(β0), sn = sn(β0).

βn = β0 + tλT F− 1

2n (nicht zufallig).

Offenbar ist βn − β0 = O(n− 12 ) nach Annahme 1.

Betrachte die Taylor-Entwicklung

Ln(βn) = L(β0) + (βn − β0) · sn

Hn=−Fn− 1

2(βn − β0)

T Fn(βn)(βn − β0),

wobei βn (eine Zufallsvariable) zwischen βn und β0. Mit βn − β0 = tλT F− 1

2n erhalte

exp(λT Vn(βn)λt2

2)Ln(βn) = exp(tλT F

− 12

n sn)Ln(β0), (44)

5.3 Maximum Likelihood Schatzung und Testen in GLMs 81

wobei Vn(βn) = F− 1

2n Fn(βn)F

− 12

n , und Ln = exp(Ln) bezeichne die Likelihood.Integriere (44) bezuglich des dominierenden Maßes fur die Likelihoodfunktion uber die yi.Dann ergibt sich

Eβn(exp(λT Vn(βn)λ

t2

2)) = Eβ0

(exp(tλT F− 1

2n sn)) (45)

Beachte dabei: Wegen Annahme 1 und da die Zufallsvariable βn zwischen βn und β0 liegt,gilt |Vn(βn) − I| → 0, gleichmaßig fur alle ω ∈ Ω. Daher existiert die linke Seite in (45) undes ist

| exp(λT Vn(βn)λt2

2) − exp(

t2

2)| ≤ ε, n ≥ n1,

gleichmaßig fur alle ω ∈ Ω, also der Index n1 nicht zufallig. Setzte dies in (45) ein und erhalte(44), also die Behauptung.

Beweis (von Satz 5.10)Nach dem Mittelwertsatz fur vektorwertige Funktionen gilt mit

Gn =

∫ 1

0Fn(βML,n + t(β0 − βML,n), ϕ)dt

(die Integration wird komponentenweise ausgefuhrt)

sn(β0) = sn(βML,n)T

︸ ︷︷ ︸=0

−Gn(β0 − βML,n).

Nach Annahme 1 gilt Gn/n → Σ(β0)/n. Somit

√n(βML,n − β0) =

(Gn

n

)−1 sn(β0)√n

.

Die Behauptung folgt nun mit Lemma 44.

Schatzen von ϕFalls in der DEF der Parameter φ mehrere Werte annehmen kann (etwa bei Gamma - oderInverser Gauß-Verteilung), muss dieser auch geschatzt werden. Es gilt

Var Yi = ϕb′′(ϑi), ϑi = u(xTi βML,n)

Somit benutzt man zur Schatzung

ϕ =1

n − p

n∑

i=1

(Yi − b′(ϑi))2

b′′(ϑi)

Man nennt die Statistik

T =n∑

i=1

(Yi − b′(ϑi))2

b′′(ϑi)

auch Pearsonsche χ2-Statistik.

Testen linearer Hypothesen

Angenommen, wir wollen die lineare Hypothese H : Aβ = m mit A ∈ Rq×p (voller Rang),m ∈ Rq testen.

82 5 VERALLGEMEINERTE LINEARE MODELLE (GLMS)

1. Likelihood Quotienten Statistik

lq = 2(Ln(βML,n, ϕ) − Ln(βML,R, ϕ)),

wobei βML,R der ML-Schatzer unter der Hypothese H ist.

2. Wald Statistik

W = (AβML,n − m)T (AF−1(βML,n, ϕ)AT )−1(AβML,n − m)

3. Score Statistik

Sc = sT (βML,R)F−1(βML,R, ϕ)s(βML,R)

Satz 5.12Unter den Annahmen von Satz 5.9 und fur konsistentes ϕ sind die Teststatistiken lq, W undSc unter H asymptotisch χ2

p−q verteilt.

Der Beweis erfolgt mit Hilfe von Satz 5.10 und Lemma 5.11, in Analogie zum Fall fur u.i.v.Daten, vgl. Pruscha (1989).

Numerische Berechnung des ML Schatzers βML,n

Wir betrachten nun wieder den Fall allgemeiner (nicht unbedingt kanonischer) Linkfunktio-nen. Der ML Schatzer βML,n wird berechnet als Nullstelle des Score-Vektors:

sn(βML,n) = 0

Beachte, dass diese Gleichung ebenfalls nicht von ϕ abhangt.

Newton-VerfahrenSei βk eine Naherung an βML,n. Dann setzte

βk+1 = βk − (Hn(βk))−1sn(βk)

(ϕ fallt wieder heraus!), und erhalte βk+1 als neue Naherung.

Im Allgemeinen hangt die Hessische Matrix Hn von den Daten Yi ab, daher benutzt manhaufig den Erwartungswert EHn = −Fn. Dies ergibt die Fisher-Scoring Methode.

Fisher-Scoring-Methode

βk+1 = βk + (Fn(βk))−1sn(βk) (46)

Beachte: Bei kanonischer Linkfunktion sind Newton-Verfahren und Fisher-Scoring Methodeidentisch.

Man kann (46) auch umschreiben in Form eines (iterativen) gewichteten kleinste QuadrateSchatzers. Es ist

F (β, ϕ) =n∑

i=1

(u′(xTi β))2

ϕxix

Ti b′′(u(xT

i β))

5.4 Modelldiagnostik 83

Mit u = (g µ)−1, (g µ)′ = g′ µ · µ′, µ′ = b′′ (da µ = b′) und µ u = g folgt

u′ =1

g′ µ u · b′′ u,

also

Fn(βk, ϕ) =

n∑

i=1

u′(xTi βk)

g′(g(xTi βk))

xixTi = XT WkX, Wk = diag

( u′(xT1 βk)

g′(g(xT1 βk))

, . . . ,u′(xT

nβk)

g′(g(xTnβk))

).

Analog erhalt man

sn(βk, ϕ) =n∑

i=1

u′(xTi βk)

g′(g(xTi βk))

xi ·(Yi − b′(u(xT

i βk)))· g′(g(xT

i βk))︸ ︷︷ ︸

=:Zi

= XT WkZ.

Somit schreibe (46) als

XT WkXβk+1 = XT WkXβk + XT WkZ = XT Wk(Xβk + Z)︸ ︷︷ ︸=:V

undβk+1 = (XT WX)−1XT WkV.

Analogie zu gewichteten kleinsten Quadraten: Response V, Kovariablen X, Gewichte Wk. Dadie Gewichte (und auch die responses) vom Iterationsschritt k abhangen, spricht man vomIWLS-Algorithmus (iterated weighted least squares).

relevante R Befehle Die Funktion glm passt verallgemeinerte lineare Modelle an. Dabeiwird die DEF uber family eingestellt, dort kann auch noch die Linkfunktion geandert werden.Die Standardfehler der Schatzer erhalt man mit dem Befehl summary.

5.4 Modelldiagnostik

Deviance. Die Deviance dient zum Vergleich des angepassten Modells mit dem soge-nannten saturierten Modell, bei dem fur jede Beobachtung Yi ein Parameter geschatzt wird,insgesamt also n Parameter.

Log-Likelihood:

Ln(ϑ1, . . . , ϑn, ϕ) =n∑

i=1

(Yiϑi − b(ϑi)

ϕ− c(Yi, ϕ)

)

Falls jedes ϑi freier Parameter ist, erhalt man im saturierten Modell

Yi = b′(ϑi) = µi und ϑi = µ−1(Yi).

Setze fur das geschatzte GLM ϑi = u(xTi βML). Dann ist die LR-Statistik gegen das saturierte

Modell (ϑ = (ϑ1, . . . , ϑn), ϑ = (ϑ1, . . . , ϑn)):

2(Ln(ϑ, ϕ) − Ln(ϑ, ϕ)

)= 2

n∑

i=1

Yi(ϑi − ϑi) − b(ϑi) + b(ϑi)

ϕ=

Dev(ϑ, ϑ)

ϕ

84 5 VERALLGEMEINERTE LINEARE MODELLE (GLMS)

Die Deviance ist nun definiert durch

Dev = 2n∑

i=1

(Yi(ϑi − ϑi) − b(ϑi) + b(ϑi)

),

die Deviance ist nach Definition unabhangig von ϕ.

Haufig approximiert man die Verteilung von Dev(ϑ, ϑ) durch ϕ ·χ2n−p, wobei p die Dimension

des geschatzten Parameters β bezeichnet. Wie aber bereits aus der logistischen Regresionbekannt, gilt dies nur eingeschrankt, insbesondere nicht fur n → ∞.

Die Deviance kann auch benutzt werden zum Vergleich zweier ineinander geschachtelter Mo-delle. Der resultierende Test heißt auch partial deviance test.

ModelleM1: Kovariable xi,1 ∈ Rq (kleines Modell)M2: Kovariable (xT

i,1, xTi,2)

T ∈ Rp (großes Modell)

Dann gilt

Dev(ϑ, ϑM1ML) − Dev(ϑ, ϑM2

ML)d→ ϕχ2

p−q (n → ∞)

falls das kleinere Teilmodell M1 korrekt ist. Der partia Deviance test ist also einfach der LQTvon M2 gegen M1. Falls ϕ nicht bekannt ist, wird dies geschatzt und die Statistik reskaliert.

relevante R Befehle Der partial deviance test kann mit anova ausgefuhrt werden.

ResiduenanalyseWie bei der linearen Regression ist ein wichtiges Mittel zur Modelluberprufung bei GLMs dieResiduenanalyse. Ziele sind dabei insbesondere das Erkennen a. von Ausreißern b. von nicht-linearen Effekten und fehlenden Kovariablen sowie c. die Konstruktion von Goodness-of-FitStatistiken.Residuen sollen bei Gultigkeit des Modells approximativ normalverteilt sein. Bei GLMs be-deutet dies, dass bei der Verwendung von Residuen mit besonderer Sorgfalt vorgegangenwerden muss.Wir betrachten zur Illustration im Folgenden nochmals das logistische Regressionsmodell (hiermit LogistR bezeichnet. Hier ist Residuenanalyse nur sinnvoll fur große Wiederholungszahlenni.

Setzte

µi = b′(ϑi) = b′(u(xTi βML,n)), bei LogistR µi = nipi, pi =

exTi βML,n

1 + exTi βML,n

.

Rohe Residuen (Raw residuals)

ri = Yi − µi bei LogistR ri = Yi − nipi.

Diese sind ungeeignet fur Residuenanalyse (außer im linearen Regressionsmodell), da dieVarianz von Yi und somit von ri von µi abhangt. Somit haben die ri keine approximativkonstante Varianz.

5.4 Modelldiagnostik 85

Pearsonsche Resduen

rPi =

Yi − µi√b′′(u(xT

i βML,n)), bei LogistR rP

i =Yi − nipi

(nipi(1 − pi))12

.

Diese sind grundsatzlich geeignet fur die Residuenanalyse. Allerdings sind sie haufig finit nichtgut approximativ normalverteilt, sonder schief verteilt. (Etwa fur LogistR: Nur benutzen furgroße ni, insbesondere nicht benutzbar fur ni = 1.)

Transformierte Residuen

rTi =

T (Yi) − EϑiT (Yi)

(VarϑiT (Yi))

12

,

wobei T eine geeignete Transformation bezeichnet.

Falls die asymptotische Schiefe korrigiert werden soll, wird die sogenannte Anscombe Trans-formation verwendet, welches zu Anscombe Residuen fuhrt.Falls die asymptotische Varianz konstant gemacht werden soll (d.h. unabhangig von ϑ), wahleT als varianz-stabilisierende Transformation und erhalte varianz-stabilisierende Residuen.

Die Transformation T muss also in Abhangigkeit der speziellen DEF gewahlt werden.

Fur LogistR

Varianz-stabilisierende Residuen:

(arcsin(√

Yi/ni) − arcsin(pi)) · 2√

ni,

hier ist T die Arcsin-Transformation.

Anscombe:T (Yi

ni) − T (pi)

(pi(1 − pi))16

√ni, T (z) =

∫ z

0(t(1 − t))−

13 dt.

Fur T sind numerische Aprooximationen verfugbar.

Deviance-Residuum:

rDi = sign(ϑi − ϑi) ·

(2(Yi(ϑi − ϑi) − b(ϑi) + b(ϑi)

)Big)

12

wobei

sign(x) =

1, x > 00, x = 0−1, x < 0

Die Deviance Residuen sind also Wurzeln aus Beitrag der i-ten Beobachtung zur Deviance.Fur LogistR: µi = nipi, dann

rDi = sign(Yi/ni − pi)

(2(Yi log(Yi/µi) + (ni − Yi) log

(ni − Yi

ni − µi))) 1

2.

Im Allgemeinen wird die Benutzung der Deviance Residune empfohlen, die ahnliche Eigen-schaften zu den Anscombe Residuen haben (vgl Pierce and Schafer 1986, Journal of theAmerican Statistical Society Vol. 81).

relevante R Befehle Mit dem Befehl residuals konnen die Residuen aus einem von glm er-zeugten Objekt gelesen werden. Moglich sind die Optionen type="deviance" undtype="pearson".

86 5 VERALLGEMEINERTE LINEARE MODELLE (GLMS)

5.5 Poisson-Regression

Falls die Zielvariable Yi eine Zahlvariable ist, also Werte in N0 hat, ist das Standard Regressi-onsmodell die Poisson-Regression. Ein typisches Beispiel ist die Modellierung der Anzahl vonVerischerungsschaden von Versicherungsnehmern mit bestimmten Kovariablen Auspragun-gen.

Modell (Yi,xi)i=1,...,n, Yi ∼ Poi(λi) Dispersionsexponentialfamilie mit b(ϑi) = exp(ϑi) =µi = λi

Fur die Linkfunktion g gilt g(µi) = xTi β, also g(eϑi) = xT

i β. Mit u = (g exp)−1 giltϑi = u(xT

i β) und u = id falls g = log, die kanonische Linkfunktion.

Setze λi = λi(β) = exp(u(xTi β)).

Likelihood: Ln(β) =∏n

i=1 e−λiλ

Yii

Yi!.

Log-Likelihood: Ln(β) =∑n

i=1(−λi + Yi log λi) + const.

Score: sn(β) =∑n

i=1 u′(xTi β) · xi(Yi − λi).

Fisher-Information: Fn(β) =∑n

i=1(u′(xT

i β))2xixTi · λi.

Deviance: Im saturierten Modell schatze λi durch Yi. Setze weiter λi = λi(βML,n), βML,n

Maximum-Likelihood-Schatzer. Dann

Dev = 2n∑

i=1

(Yi log(Yi/λi) − Yi + λi

)

Pearsonsche χ2-Statistik. T =∑n

i=1(Yi−λi)

2

λi. In der Tat gilt im Poisson-Regressionsmodell

Var Yi = λi, also deutet großer Wert von T bzw. von D auf Uberdispersion hin.

Residuen

Pearson Residuen: rPi = (Yi − λi)/

√λi.

Varianzstabilisierende Residuen: rTi = 2

(Y

12

i − λ12i

).

Anscombe Residuen: rTi =

(Y

23

i − λ23i

)(λ

16i · 2

3

).

Deviance-Residuum: rDi = sign(Yi − λi)(Yi log Yi

λi− (Yi − λi))

12 .

relevante R Befehle In glm die Option family = poisson wahlen. Als Linkfunktion kannman neben dem Log-Link (default) wahlen link="identity" oder link="sqrt".

ModellerweiterungDas Poisson Regressionsmodell kann erweitert werden auf den Fall, wenn die Anzahl der Ereig-nisse bei bestimmten Kovariablenauspragungen in unterschiedlichen Zeitraumen beobachtetwird. Sei also Yi die Anzahl der Ereignisse bei Kovariablen xi im Zeitraum ti, es werden also(Yi,xi, ti) beobachtet. Als Beispiel sei Yi die Anzahl der Schaden eines Versicherungsnehmersmit Charakteristiken xi im Zeitraum ti. Das Modell lautet dann

Yi ∼ Poi(ti · exp(u(xT

i β))),

5.5 Poisson-Regression 87

der Parameter λi = EYi, ist also proportional zum Zeitraum ti. Somit hat man

λi = log(ti) + u(xTi β). (47)

Der additive Term log ti heißt dann offset im Modell. Maximum-Likelihood Schatzugn undResiduenanalyse erfolgen ganz analog zum gewohnlichen Poisson Regressionsmodell, manmuss nur λi durch (47) spezifizieren.

relevante R Befehle Man setzt als Option in glm fur offset gleich log(ti).

Modellierung von UberdispersionMan spricht von Uberdispersion gegenuber dem Poisson-GLM, falls

Var Yi > EYi.

Dies kann erkannt werden durch große Deviance oder Pearsonsche χ2-Statistik, falls also Devoder T erheblich großer als n − p sind.

Eine Modellierung kann wie bei der logistischen Regression uber Quasilikelihood oder auchuber latente Variablen erfolgen.

Wir stellen im Folgenden ein latentes Variablenmodell mit Gamma-verteilten λs vor, welcheszum negativ binomial verteilten Regressionsmodell fuhrt.

Sei Zi eine latente (nicht beobachtete) Variable, so dass Yi|Zi ∼ Poi(Zi), EZi = λi. Danngilt:

EYi = EZ(E(Yi|Zi)) = EZ(Zi) = λi,

Var Yi = VarZ(E(Yi|Zi)) + EZi(Var(Yi|Zi))

= VarZ(Zi) + EZ(Zi) = λi + VarZi > λi,

falls VarZi > 0. Durch spezielle Wahl von Zi bekommt man unterschiedliche Uberdispersi-onsstrukturen.

Sei nun speziell Zi Gamma-verteilt mit Dichte

f(z; r, s) =1

Γ(r)srzr−1 exp(−zs) (r, s > 0, z > 0).

Dann EZi = ri

si= λi. Fur die Varianz kann man zwei Parametrisierungen wahlen:

Modell 1: VarZi = ri

s2i

= λ2i · ϕ, also ϕ = 1

ri.

Modell 2: VarZi = λi · ϕ, ϕ = 1si

.

Dies ergibt in der Tat zwei unterschiedliche Modelle, da auf λi(β) = exp(u(xT

i β))

Regressiongemacht wird, aber auf ϕ nicht.Das Modell 1 mit VarZi = λ2

i ϕ (ϕ = 1ri

) fuhrt zu

Var Yi = λi + λ2i ϕ,

die Varianz ist also eine quadratische Funktion des Erwartungswerts.

88 5 VERALLGEMEINERTE LINEARE MODELLE (GLMS)

Das Modell 2 mit VarZi = λiϕ (ϕ = 1si

) fuhrt dagegen zu

Var Yi = λi(1 + ϕ)

dies ist dieselbe Varianzstruktur wie bei Quasipoisson (s. Abschnitt 5.7).

Man verwendet daher in diesem Kontext Modell 1 (statt Modell 2 wird Quasipoisson gewahlt).Zum Schatzen der Parameter berechnet man die marginale, also unbedingte Verteilung vonYi:

P (Y = y) =

∫ ∞

0f(y, Y |Z = z) · fZ(z)dz

=

∫ ∞

0e−z zy

y!

1

Γ(r)srzr−1 exp(−zs)dz

=sr

y!Γ(r)

1

(s + 1)r+y

∫ ∞

0e−wwy+r−1dw

=Γ(y + r)

y!Γ(r)

( s

s + 1

)r( 1

s + 1

)y

wobei Γ(a) =∫∞0 e−tta−1dt die Gamma Funktion bezeichnet. Im Modell 1 erhalte also:

P (Yi = y) =Γ(y + 1

ϕ)

y!Γ( 1ϕ)

( 1

λiϕ + 1

) 1ϕ( λiϕ

1 + λiϕ

)y(48)

wobei λi = λi(β) = exp(u(xTi β)) (bei kanonischem Link u = id). Dies ist das negative

binomiale Regressionsmodell. Zur Parameterschatzung bilde nun mit Hilfe von (48) die Log-Likelihood-Funktion und maximiere uber (β, ϕ).

relevante R Befehle Die library aod enhalt die Funktion negbin, und die library MASS

die Funktion glm.nb, beide passen ein negativ-binomiales Regressionsmodell an. Bei negbinkann man auch auf den Parameter ϕ Regression machen, das obige Modell erhalt man durchrandom~1. Es stehen summary und anova.negbin Methoden zur Verfugung.

5.6 Gamma-Regression

Wir erinnern kurz an die Darstellung der Gamma-Verteilung als DEF. Die Dichte bzgl. desLebesgue Maßes auf (0,∞) fur Parameter r, λ > 0 ist gegeben durch

f(y; r, λ) =1

Γ(r)λryr−1e−λy

= exp(r(− λ

ry + log(

λ

r))

+ r log r − log Γ(r) + (r − 1) log y)

also ϑ = −λr , ϕ = r−1, b(ϑ) = − log(−ϑ). Der Erwartungswert b′(ϑ) = − 1

ϑ = rλ =: µ > 0

ist dabei stets positiv, und die Varianzfunktion lautet b′′(ϑ) = 1ϑ2 = r2

λ2 , also VarY = rλ2 =

µ2 · ϕ. Die kanonische Linkfunktion ist g(µ) = − 1µ (also − 1

xTi β

= µi). Hier ist Positivitat

5.6 Gamma-Regression 89

des Erwartungswertes nur unter Einschrankungen an β gegeben, die kanonische Linkfunktionwird daher selten verwendet.

Haufig benutzt man den log-Link: g(µ) = log µ.

Falls uber den Erwartungswert parametrisiert wird, gilt fur die Log-Likelihood von Y :

l(y; µ, ϕ) =(− y

µ − log µ)

ϕ+ c(y, ϕ)

Somit erhalt man im Gamma GLM:

Log-Likelihood-Funktion: Ln(β, ϕ) =∑n

i=1

(− Yi

µi(xTi β)

− log µi(xTi β)

)+ c(y, ϕ).

Score: sn(β, ϕ) = 1ϕ

∑ni=1

µ′i(x

Ti β)

(µi(xTi β))2

xi

(Yi − µ(xT

i β)).

Fisher-Information: Fn(β, ϕ) = 1ϕ

∑ni=1

(µ′i(x

Ti β))2

µ2i (xT

i β)xix

Ti .

Deviance:

Dev = 2

n∑

i=1

(Yi − µi

µi− log(

Yi

µi)), µi = µ(xT

i βML).

Pearsonsche χ2-Statistik: T =∑n

i=1(Yi−µi)

2

µ2i

.

Schatzen von ϕ: ϕ = Tn−p .

ResiduenPearson Residuen: rP

i = Yi−µi

µi.

Deviance Residuen: rDi = sign(Yi − µi)(

Yi−µi

µi− log(Yi

µi))

12 .

relevante R Befehle Option family=gamma bei glm. Default ist der inverse Link, dahermuss noch family=gamma(link="log") gesetzt werden.

Wann wird Gamma-Regression verwendet?

Gamma Regression wird allgemein bei positiven Zielgroße Yi eingesetzt. Wir betrachten imFolgenden das multiplikative Modell

Yi = exp(xT

i β)(1 + εi), εi > −1. (49)

Dann ist

EYi = exp(xT

i β), also εi =

Yi − EYi

EYi.

Damit Var εi = σ2 konstant ist, muss gelten:

Var Yi/(EYi)2 = σ2 = const.

Also benotigt man fur Yi eine Verteilung mit konstantem Variationskoeffizienten Var Yi/(EYi)2,

bzw.EYi = µi, Var Yi = σ2µ2

i (50)

90 5 VERALLGEMEINERTE LINEARE MODELLE (GLMS)

Eine solche Verteilung ist die Gamma-Verteilung.

Angenommen, Yi habe die Erwartungswert- und Varianzstruktur (50). Setze Zi = log(Yi).

Es gilt approximativ:

Zi ≈ log(µi) +1

µi(Yi − µi) −

1

2µ2i

(Yi − µi)2

In heuristischer Argumentation bilde nun den Erwartungswert:

EZi ≈ log µi −1

2µiσ2µ2

i ≈ log µi −σ2

2

Aus (49) ergibt sich naturlich auch ein lineares Modell auf der log-Skala:

log Yi = xTi β + ε′i, ε′i = log(1 + εi),

wobei

Eε′i = E(log(1 +Yi − EYi

EYi)) = E(log Yi) − log EYi ≈ −σ2

2.

Somit ergibt sich im linearen Modell ein Schatzwert von β0− σ2

2 fur den Achsenabschnitt. Mankann zeigen, dass Var ε′i ≈ σ2, also konnte man lineares Modell auf log-Skala verwenden, unddie Schatzung fur den Koeffizienten des Achsenabschnitts entsprechend korrigieren. Jedochist es haufig besser, auf der ursprunglichen Skala mit Gamma-Regression und log-Link zuarbeiten.

Gamma-Regression mit Gewichten Angenommen, fur die Kovariablenauspragung xi

wird eine Gesamtschadenshohe Yi, die sich aus ni Schaden zusammensetzt, beobachtet. Esliegen als unabhangige Daten (Yi,xi, ni), i = 1, . . . , n, vor. Wir interessieren uns nun fur dieDurchschnittsschadenhohe:

Y ai = Yi/ni.

Angenommen, der Gesamtschaden Yi setzt sich als Summe der ni unabhangigen identischverteilten (fur gleiches xi) Einzelschaden zusammen, also fur Yij : Hohe des j-ten Schadens inGruppe i haben wir Yij , j = 1, . . . , ni sind u.i.v., und Yi =

∑j Yij .

Falls Yij ∼ Gamma(µi, ϕ), also EYij = µi, VarYij = µ2i · ϕ, Yij unabhangig, j = 1, . . . , ni,

dann gilt

Yi ∼ Gamma(niµi, niϕ), Y ai ∼ Gamma(µi, ϕ/ni).

Dies ist im ML-Ansatz zu berucksichtigen. Man muss maximieren

Ln(β) =n∑

i=1

ni

(− Yi

µi(xTi β)

− log µi(xTi β)

).

Schatzer von ϕ:

ϕ =1

n − p

n∑

i=1

ni(Yi − µi)

2

µ2i

5.7 Quasi-Likelihood 91

relevante R Befehle Setzte im glm Aufruf die Option weights gleich den ni.

ResiduenPearsonsche Residuen: rP

i =√

niYi−µi

µi.

Deviance Residuen: rDi =

√ni sign(Yi − µi)

(Yi−µi

µi− log(Yi

µi)) 1

2.

5.7 Quasi-Likelihood

MotivationBei einigen DEFs, insbesondere den fur Anwendungen wichtigen Familien der Binomialvertei-lung sowie der Poissonverteilung, ist keine zusatzliche Modellierung der Dispersionsstrukturuber den Parameter ϕ moglich. Man mochte daher diese Familien gerne erweitern. Es stelltsich aber heraus, dass eine explizite Konstruktion solcher Verteilungen (mit den gleichen dis-kreten Werten wie die entsprechenden Binomial - und Poissonverteilungen) innerhalb derKlasse der DEFs nicht moglich ist (Jorgensen 1987, JRSSB).

Angenommen, Yi sei verteilt nach einer DEF, also

Yi ∼ exp(ϑiy − b(ϑi)

ϕ+ c(y, ϕ)

),

so dassEYi = b′(ϑi) = µi, Var Yi = b′′(ϑi) · ϕ =: V (µi) · ϕ.

wobei V = b′′ (b′)−1, und ϕ den (moglicher Weise konstanten) Dispersionsparameter be-zeichnet. Auf µi wird typischer Weise Regression gemacht, also

µi = µ(β,xi) (bei GLMs: g(µi) = xTi β). (51)

Im obigen Modell hangt also die Varianzstruktur nur vom Erwartungswert und von ϕ ab.Bei einigen Exponentialfamilien, insbesondere Poisson-Verteilung und Binomialverteilung, istϕ = 1 konstant, es ist somit keine zusatzliche Modellierung der Dispersionsstruktur moglich.

ZielOhne explizite Konstruktion einer Wahrscheinlichkeitsverteilung (Likelihood) und nur unterBenutzung der Momentengleichungen

EYi = µi, Var Yi = ϕV (µi) (52)

sollen die Parameter (β, ϕ) mit variablen ϕ geschatzt werden. Dabei wird µi durch Regressionwie in (51) bestimmt.

Definition 5.13Fur eine Zufallsvariable Y mit der Momentenstruktur (3) heißt eine Funktion l(y, µ) mit

∂l

∂µ(y, µ) =

y − µ

V (µ)(53)

eine Quasi-Likelihood Funktion.

92 5 VERALLGEMEINERTE LINEARE MODELLE (GLMS)

Es ist dann also

l(y, µ) =

∫ µ y − t

V (t)dt + A(y)

Lemma 5.14Unter geeigneten Differenzierbarkeitsbedingungen gilt fur Quasi-Likelihood Funktionen (µi

durch Regression wie in (51))

a. E(∂l

∂µ(Yi, µi)) = 0

b. E(∂l

∂βj

(Yi, µi)) = 0

c. E((∂l

∂µ(Yi, µi))

2) = −E(∂2l

∂2µ(Yi, µi)) =

1

V (µi)

d. E(∂l

∂βj

(Yi, µi)∂l

∂βk

(Yi, µi)) = −E(∂2l

∂βj∂βk

(Yi, µi)) =1

V (µi)

∂µi

∂βj

∂µi

∂βk

Die erhalt man durch einfache Rechnungen mit der definierenden Gleichung (53). Somit hatdie Ableitung einer Quasi-Likelihood hat Eigenschaften wie der Score-Vektor in GLMs.

Quasi-ML-SchatzungFur unabhabgige Beobachtungen (Y1, x1), . . . , (Yn, xn) sei nun βQML ein argmax von

n∑

i=1

l(Yi, µ(xTi β)) = Ln(β),

bzw. Nullstelle von

sn(β) =n∑

i=1

Yi − µ(xTi β)

V(µ(xT

i β)) · ∂

∂βµ(xT

i β).

Mit

Fn(β) = Cov sn(β) = ϕn∑

i=1

1

V (µi(xTi β))

∂βj

µi(xTi β)

∂βTµi(x

Ti β)

gilt unter geeigneten Bedingungen:

[Fn(β)]−12 sn(β)

d→ N (0, ϕ),

[Fn(β)]12 (βQML − β)

d→ N (0, ϕ).

Der Dispersionsparameter ϕ wird geschatzt durch

ϕ =1

n − p

n∑

i=1

(Yi − µi(xTi βQML))2

V (µi(xTi βQML))

wobei p die Dimension von β bezeichnet.

Fur das Testen linearer Hypothesen Aβ = m, A ∈ Rq×p, m ∈ Rq, gelten Analoga zu LQT:

qlq = 2(Ln(βQML) − Ln(βR

QML)) · 1

ϕ

L→ χ2p−q

5.7 Quasi-Likelihood 93

wobei βR

QML Quasi-ML-Schatzer unter der lineare Hypothese H ist, sowie Analoga zum Wald-Test:

qW =1

ϕ(AβQML − m)T (A(F (βQML))−1AT )−1(AβQML − m)

L→ χ2p−q

Beispiel 5.15a. Quasi-Binomiale Regression. Die Ausgangssituation ist ahnlich wie bei der logistischenRegression. Es liegen also ganzzahlige Daten Yi mit Werten zwischen 0 und ni vor. Mansetzt dann V (µi) = µi(1 − µi/ni), wobei µi durch Regression wie in (51) (gegebenenfallsmit logistischer Linkfuntion) gegeben ist. Man erhalt dann die gleichen Schatzwerte fur β

wie mit gewohnlicher logistischer Regression, aber durch Einbeziehung von ϕ andern sich dieStandardfehler, d.h. Uberdispersion wird berucksichtigt.

b. Quasi-Poisson Regression. Ahnlich verhalt es sich mit Poisson Regression, hier setzt manV (µi) = µi in obigem Ansatz.

c. Nichtlineare kleinste Quadrate. Auch die nichtlineare kleinste Quadrate Schatzung imnichtlinearen Regressionsmodell (beachte die allgemeine Form von µ(xi, β) in (51)) kann mitQuasi-likelihood behandelt werden, man setzt V (µ) = σ2 = const.

relevante R Befehle Im glm Aufruf setzte family=quasibinomial oder family=quasipoisson.

94 6 KATEGORIELLE DATEN UND KATEGORIELLE REGRESSION

6 Kategorielle Daten und kategorielle Regression

In diesem Abschnitt betrachten wir kategorielle Daten. MEHR TEXT.

6.1 Fishers exakter Test auf Homogenitat

Fishers exakter Test auf Homogenitat dient dazu, die Erfolgswahrscheinlichkeiten zweier un-abhangiger binomialverteilter Zufallsvariablen miteinander zu vergleichen. Hat man etwa zweiPatientengruppen, bei denen eine bestimmte Krankheit mit Medikament A in Gruppe 1 undMedikament B in Gruppe 2 behandelt wird, und jeweils untersucht wird, ob der Patient ge-heilt wurde, so kann man die Erfolgswahrscheinlichkeiten fur Heilung durch Medikament Amit der von Medikament B vergleichen.

Gegeben seien also X ∼ B(n, pX), Y ∼ B(m, pY ), wobei X, Y unabhangig sind. WerdenX = x, Y = y beobachtet, dann fasst man diese Ergebnisse in einer 4-Felder-Tafel (2 ×2Kontingenztafel) zusammen:

X Y

0 n − x m − y∑

= n + m − x − y

1 x y∑

= x + y∑= n

∑= m

∑= n + m

Die Hypothese der Homogenitat lautet

H : pX = pY = p.

Unter H gilt

P (X = x, Y = y|X + Y = x + y) =

(nx

)px(1 − p)n−x

(my

)py(1 − p)m−y

(n+mx+y

)px+y(1 − p)n+m−x−y

=

(nx

)(my

)(n+mx+y

) . (54)

Dies ist die Verteilung der hypergeometrischen Verteilung H(x + y, n, m).

Erinnerung: Angenommen, es werden aus einer Urne mit n roten und m schwarzen Kugelnx + y Kugeln gezogen, und N bezeichne die Zahl der roten gezogenen Kugeln, also 0 ≤ N ≤minn, x + y). Dann ist N ∼ H(x + y, n, m) hypergeometrisch verteilt, also

P (N = k) =

(nk

)(m

x+y−k

)(n+mx+y

) (k = 0, . . . ,minn, x + y).

Bei extremen Beobachtungen von x bzw. y gemaß der Verteilung (54) wird man die HypotheseH verwerfen. Dies geschieht etwa, falls der P-Wert kleiner als das gewunschte Niveau α > 0 ist.

6.2 Der χ2-Test auf Homogenitat 95

Berechnung der P-Werte

Fur die einseitige Alternative K : pX > pY :

PW =

minn,x+y∑

k=x

P (N = k)

Fur die zweiseitige Alternative K : pX 6= pY :Man schatzt zunachst pX = x

n und pY = ym . Ist etwa pX > pY , so bilde

P =

minn,x+y∑

k=x

P (N = k)

und

imax = maxi :i∑

k=0

P (N = k) < P

Dann:

PW = P +

imax∑

k=0

P (N = k).

Fur pX < pY verfahre analog.

Bemerkung: Fishers Test ist ein bedingter Test, bei dem die Verteilung (54) der Teststa-tistik X = x bedingt auf die Beobachtungen X + Y = x + y berechnet wird. Somit hangt derVerwerfungsbereich zu einem Niveau α > 0 von x + y ab.

relevante R Befehle Die Funktion fisher.test fuhrt Fisher’s exakten Test durch. AlsArgument wird die 2 × 2 Kontingenztafel ubergeben. Auf die hypergeometrische Verteilungkann mit dhyper (Dichte bzgl. Zahlmaß), phyper (Verteilungsfunktion), qhyper (Quantile)und rhyper (Zufallszahlen) zugegriffen werden.

6.2 Der χ2-Test auf Homogenitat

Wir erinnern zunachst an die

Multinomialverteilung. Angenommen, als Ergebnis eines Versuchs sei genau eines von Iverschiedenen Ereignissen A1, . . . , AI moglich mit Wahrscheinlichkeiten π1, . . . , πI (

∑πi = 1,

πi > 0, i = 1, . . . , I). Wird dieser Versuch n-mal durchgefuhrt, so ist die Wahrscheinlichkeitfur n1 mal A1, . . ., nI mal AI (

∑ni = n) gegeben durch

P (N1 = n1, . . . , NI = nI) =

(n

n1, . . . , nI

)πn1

1 · . . . · πnI

I ,

wobei Ni die Zufallsvariable bezeichnet, die die Anzahl der Ereignisse Ai zahlt und

(n

n1, . . . , nI

)=

n!

n1! · . . . · nI !

96 6 KATEGORIELLE DATEN UND KATEGORIELLE REGRESSION

den Multinomialkoeffizient ist. Bezeichnung: N = (N1, . . . , NI) ∼ M(n, π), π = (π1, . . . , πI)T .

Es ist (nachrechnen!)

EN = nπ, Cov N = n(diag(π1, . . . , πI) − ππT

).

Die Matrix Cov N ist degeneriert (der Vektor 1I = (1, . . . , 1)T ∈ RI ist Eigenvektor zumEigenwert 0). Dies ist nicht verwunderlich, da sich ja NI = n−N1− . . .−NI−1 deterministischaus den anderen Beobachtungen berechnen lasst.

Um im Folgenden das Auftreten degenerierter Normalverteilungen zu verhindern, betrachtenwir nur die ersten I − 1 Eintrage von N.

Setze π = (π1, . . . , πI−1)T , Σ =

(diag(π1, . . . , πI−1)− ππT

)(dies ist die obere (I −1)× (I −1)

Teilmatrix von Cov N und hat vollen Rang I − 1, Beweis!), und

πi = Ni/n, π = (π1, . . . , πI−1).

Da N gleich der Summe von n unabhangigen, M(1, π)-verteilten Zufallsvektoren ist, gilt nachdem multivariaten ZGWS √

n(π − π)d→ N (0, Σ) (55)

Dies dient als Grundlage fur einen χ2-Test fur die einfache Hypothese

H : π = p fur festes p = (p1, . . . , pI)T , pi > 0,

i

pi = 1.

Als Teststatistik verwendet man

X2n =

I∑

i=1

(Ni − n · pi)2

npi= n ·

I∑

i=1

1

pi(πi − pi)

2,

diese heißt auch Pearsonsche χ2-Statistik.

Satz 6.1Unter H gilt X2

nd→ χ2

I−1 fur n → ∞.

BeweisWir konnen schreiben

X2n = ZT

nAZn, Zn =√

n(π − (p1, . . . , pI−1)

T),

wobei

A = diag(1/p1, . . . 1/pI−1) +1

pI1I−11

TI−1 ∈ R(I−1)×(I−1).

Die Matrix A ist (als Summe einer positiv definiten und einer positiv semidefiniten Matrix)positiv definit. Mit (55) und dem Stetigkeitssatz fur schwache Konvergenz folgt

X2n

d→ ZT AZ, Z ∼ N (0, Σ).

Um die Verteilung von ZT AZ zu berechnen, mochten wir Satz 1.9 anwenden, und mussen dazunoch zeigen: (ΣA)2 = ΣA. Eine direkt Rechnung liefert ΣA = II−1, die (I − 1)-dimensionaleEinheitsmatrix. Somit folgt die Behauptung.

6.3 Fishers exakter Test auf Unabhangigkeit 97

Allgemeine 2d-Kontingenztafeln

Seien nun X1, . . . , XJ unabhangig multinomial verteilt, mit I gleichen moglichen Ausgangen,

Xj ∼ M(n·j , πj), j = 1, . . . , J, πj = (π1j , . . . , πIj)T .

Ist fur Xj der Vektor (n1j , . . . , nIj) beobachtet, so ordnen wir diese in einer I × J Kontin-genztafel an:

Kategorien

Vektoren1 2 · · · j · · · J

1 n11 n12 n1j n1J n1·2 n21 n22 n2j n2J n2·...i ni1 ni2 nij niJ ni·...I nI1 nI2 nIj nIJ nI·∑

n·1 n·2 n·j n·J n··

Wir mochten nun die Hypothese der Homogenitat testen

Hhom : π1 = . . . = πJ =: p.

Unter Hhom bezeichnet also p = (p1, . . . , pI)T den gemeinsamen (unbekannten) Wahrschein-

lichkeitsvektor. Man schatzt πij =nij

n·jsowie unter Hhom pi = ni·

n··. Bilde nun die χ2-Statistik

X2 =J∑

j=1

I∑

i=1

(nij − n·j · pi)2

n·j · pi=

J∑

j=1

I∑

i=1

n·j(πij − pi)

2

pi

Satz 6.2Unter Hhom und fur pi > 0, i = 1, . . . , I gilt fur n·j → ∞, j = 1, . . . , J

X2 d→ χ2(I−1)(J−1).

Fur einen Beweis siehe Shao (2003, p. 439).

Bemerkung Man kann naturlich auch nur die Homogenitat in einzelnen Kategorien testen,indem man die ubrigen Kategorien zu einer neuen Kategorie zusammen fasst.

relevante R Befehle Der χ2 Test kann mit chisq.test durchgefuhrt werden. Dabei konnenentweder zwei Stichproben verglichen werden, oder auch ein Sample mit gegebenen Zellwahr-scheinlichkeiten (statt y ubergebe in p die Zellwahrscheinlichkeiten). Fur die Multinomialver-teilung liefern rmultinom Zufallszahlen und dmultinom die Dichte.

6.3 Fishers exakter Test auf Unabhangigkeit

Angenommen, an n Versuchseinheiten werden zwei Merkmale, ein X-Merkmal mit Auspragun-gen A1, A2 sowie ein Y-Merkmal mit Auspragungen B1, B2 beobachtet. Es soll nun unteruscht

98 6 KATEGORIELLE DATEN UND KATEGORIELLE REGRESSION

werden, ob X-Merkmal und Y-Merkmal unabhangig voneinander sind.

Formal beobachten wir gepaarte Zufallsvariablen (X1, Y1), . . . , (Xn, Yn), die als Vektoren un-abhangig und identisch verteilt sind. Die Xi und Yi haben Werte in 1, 2, wobei Xi dieMerkmalsauspragung des X-Merkmals fur die i-te Versuchseinheit bestimmt, und Yi die Merk-malsauspragung des Y-Merkmals. Setzte nun

Nij =n∑

l=1

1i(Xl)1j(Yl), i, j = 1, 2.

Sind Nij = nij beobachtet, so fasst man diese in einer 2 × 2 Kontingenztafel zusammen.

X

Y1 2

1 n11 n12 n1·2 n21 n22 n2·

n·1 n·2 n··

.

Dem gegenuber steht die Tabelle der zugrundeliegenden Wahrscheinlichkeiten,

X

Y1 2

1 p11 p12 pX

2 n21 n22 1 − pX

pY 1 − pY

, pij = P (X1 = i, Y1 = j).

Die Hypothese, dass die Merkmale X und Y unabhangig voneinander sind, lasst sich nun wiefolgt formalisieren.

H : Xi und Yi unabhangig,

oder aquivalent H : p11 = pXpY .

Wir betrachten nun die bedingte Wahrscheinlichkeit

P (N11 = k |N1· = n1·, N·1 = n·1)

=P (∑n

i=1 11(Xi)11(Yi) = k,∑n

i=1 11(Xi) = n1·,∑n

i=1 11(Yi) = n·1)

P (∑n

i=1 11(Xi) = n1·,∑n

i=1 11(Yi) = n·1)

Unter H gilt wegen der Unabhangigkeit von Xi, Yi und da die Xi unabhangig und identischverteilt sind:

P( n∑

i=1

1A1(Xi)1B1(Yi) = k,n∑

i=1

1A1(Xi) = n1·,n∑

i=1

1B1(Yi) = n·1)

= P( n·1∑

i=1

1A1(Xi) = k,n∑

i=1

1A1(Xi) = n1·)· P (

n∑

i=1

1B1(Yi) = n·1)

6.4 χ2-Test auf Unabhangigkeit 99

Somit gilt unter H:

P (N11 = k|N1· = n1·, N·1 = n·1) =P (∑n·1

i=1 1A1(Xi) = k,∑n

i=1 1A1(Xi) = n1·)

P (∑n

i=1 1A1(Xi) = n1·)

=P (∑n·1

i=1 1A1(Xi) = k)P (∑n

i=n·1+1 1A1(Xi) = n1· − k)

P (∑n

i=1 1A1(Xi) = n1·)

=

(n·1k

)pk

X(1 − pX)n·1−k(n−n·1n1·−k

)pn1·−k

X (1 − pX)n+k−n1·−n·1

(n

n1·

)pn1·

X (1 − pX)n−n1·

=

(n·1k

)(n−n·1n1·−k

)(

nn1·

)

Also ist N11, bedingt auf N1· = n1·, N·1 = n·1, unter H hypergeometrisch H(n1·, n·1, n − n·1)-verteilt, und man verwirft H bei extremen Ereignissen von N11 unter dieser Verteilung. Be-achte, dass sich die gleiche Verteilung wie bei Fishers exaktem Test auf Homogenitat ergibt.Der P-Wert in obigem Test ist dann auch einfach der zweiseitige P-Wert wie bei Fishers ex-aktem Test auf Homogenitat.

Bemerkung: Da die Merkmale X und Y symmetrisch sind, sollte dies auch fur die Test-statistik gelten. Dies ist der Fall, da gilt.

H(n1·, n·1, n − n·1) = H(n·1, n1·, n − n1·).

Somit ist auch in Fishers exaktem Test auf Homogenitat die Anordnung egal, was dort in-haltlich weniger offensichtlich ist.

relevante R Befehle Wie bei Fishers exaktem Test auf Homogenitat kann die Funktion fisher.test

verwendet werden.

6.4 χ2-Test auf Unabhangigkeit

Fur mehr als zwei Merkmalsauspragungen kann man, analog zum χ2 Test auf Homogenitat,einen χ2 Test auf Unabhangigkeit konstruieren. Angenommen, an n Versuchseinheiten wer-den zwei Merkmale, ein X-Merkmal mit Auspragungen 1, . . . , I sowie ein Y-Merkmal mitAuspragungen 1, . . . , J , beobachtet. Es soll wieder unteruscht werden, ob X-Merkmal undY-Merkmal unabhangig voneinander sind.

Beobachte Zk = (Xk, Yk) unabhangig und identisch verteilt, Xk ∈ 1, . . . , I, Yk ∈ 1, . . . , J,

Nij =n∑

k=1

1i(Xk)1j(Yk), i = 1, . . . , I, j = 1, . . . , J.

100 6 KATEGORIELLE DATEN UND KATEGORIELLE REGRESSION

Fur beobachtete Nij = nij bildet man wiederum die Kontingenztafel

X

Y1 2 · · · J

1 n11 n12 n1J n1·2 n21 n22 n2J n2·...

......

......

I nI1 nI2 nIJ nI·n·1 n·2 n·J n··

sowie die zugehorige Tafel der Wahrscheinlichkeiten

X

Y1 2 · · · J

1 p11 p12 p1J p1·2 p21 p22 p2J p2·...

......

......

I pI1 pI2 pIJ pI·p·1 p·2 p·J

, P (X1 = i, Y1 = j) = pij .

Man mochte nun die Hypothese testen

H : Xk und Yk sind unabhangig (k = 1, . . . , n)

oder aquivalent H : pij = pi·p·j , i = 1, . . . , I, j = 1, . . . , J . Setzte

pij =nij

n··, pi· =

ni·n··

, p·j =n·jn··

.

Zum Testen von H betrachtet man die Pearsonsche χ2-Statistik

X2 =I∑

i=1

J∑

j=1

(nij − n·jni·/n)2

n·jni·/n=

I∑

i=1

J∑

j=1

(pij − pi·p·j)2

p·j pi·.

Bemerkung: Dies ist formal dieselbe Statistik wie fur den χ2-Test auf Homogenitat, bei demman somit ebenfalls nicht auf die Anordnung in Zeilen und Spalten achten muss. Man kannzeigen (s. Shao 2003)

Satz 6.3Ist pij > 0, i = 1, . . . , I, j = 1, . . . , J , dann gilt unter der Hypothese H der Unabhangigkeit

X2 d→ χ2(I−1)(J−1) fur n → ∞.

6.5 McNemars Test fur gepaarte Stichproben

Bei gepaarten Stichproben, also der Situation, die bei Fishers exatem Test auf Unabhangigkeitvorliegt, kann man auch daran interessiert sein, ob die Randverteilungen gleich sind. Wird

6.5 McNemars Test fur gepaarte Stichproben 101

etwa ein Merkmal X mit Auspragungen 1, 2 zu aufeinanderfolgenden Zeitpunkten T = 1, 2beobachtet, so kann man dara interessiert sein, ob die Wahrscheinlichkeitsverteilung fur X zubeiden Zeitpunkten gleich ist (obwohl sie natrulich voneinander abhangen).

Formal beobachten wir u.i.v. Zufallsvektoren X1 = (X11, X12), . . . ,Xn = (Xn1, Xn2), wobeiXij ∈ 1, 2, und bilden die Kontingenztafel

Xi1

Xi2

1 2

1 n11 n12 n1·2 n21 n22 n2·

n·1 n·2 n

sowie die Tafel der Wahrscheinlichkeiten

Xi1

Xi2

1 2

1 p11 p12 p1·2 p21 p22 p2·

p·1 p·2

Hypothese: Die Randverteilungen zu beiden Zeitpunkten, also die Verteilungen von Xi1 undXi2, sind gleich, oder aquivalent

H : p·1 = p1·

welches sich zu H : p21 = p12 reduziert. Unter H gilt:

P ((X11, X12) = (1, 2)|(X11, X12) ∈ (1, 2), (2, 1)) =p12

p21 + p12

H=

1

2

Daher gilt fur

Nij =n∑

k=1

1i(Xk1)1j(Xk2), i, j = 1, 2

unter H die bedingte Wahrscheinlichkeitsverteilung

N12|N12 + N21 = n12 + n21 ∼ B(n12 + n21, 1/2).

Man verwirft nun die Hypothese H fur extreme Werte von N12 unter dieser bedingten Wahr-scheinlichkeitsverteilung.

P-Werte

P-Wert gegen einseitige Alternative K : p12 > p21:

PW =

n12+n21∑

k=n12

(n12 + n21

n12

)1/2n12+n21 .

Zweiseitig: Ist n12 ≥ n21, so ist

PW = 2 ·n12+n21∑

k=n12

(n12 + n21

n12

)1/2n12+n21

102 6 KATEGORIELLE DATEN UND KATEGORIELLE REGRESSION

ansonsten vertausche die Rollen.

relevante R Befehle Die Funktion mcnemar.test fuhrt den McNemar test aus, aber berechnetnur P-Werte basierend auf einer asymptotischen Approximation. Daher sollte man den exak-ten P-Wert direkt mit pbinom (der Verteilungsfunktion der Binomialverteilung) berechnen.

6.6 Erganzungen

In den Ubungen: Mosaicplot (mosaicplot), Assoziationsplot (assocplot), die library vcd zurVisualisierung von kategoriellen Daten.

Weitere Theorie: Bei 2 × k Kontingenztafeln: prop.test (aquivalent zum χ2 Test), auchmultiples Testen mit pairwise.prop.test. Die Funktion binom.test zur Durchfuhung einesexakten Tests fur das p der Binomialverteilung, und zur Berechnung der Pearson ClopperGrenzen. Testen auf Binomialverteilung, negative Binomialverteilung und Poisson Verteilungmit dem χ2 Test fur zusammengesetzte Hypothesen, Funktion goodfit der library vcd.

6.7 Kategorielle Regression

Wir wenden uns nun wieder der Regression zu, wobei wir annehmen, dass die abhangigeZielvariable Y kategoriell mit I Kategorien ist. Fur I = 2 fuhrt uns dies zuruck zur logistischenRegression.

Im Folgenden liegen unabhangige Beobachtungen (Yk,xk), k = 1, . . . , n, vor, wobei

Yk ∼ M(nk, πk), Yk =

Yk1...

YkI

, πk =

πk1...

πkI

,

I∑

i=1

πki = 1. (56)

und xk ∈ Rp geeignet kodierte Kovariablen und den Achsenabschnitt enthalt. Man modelliertπki = πi(xk) als Funktion der xi.

Wegen (56) genugt es, πki = πi(xk) zu spezifizieren und zu schatzen fur i = 1, . . . , I−1. Dannheißt Kategorie I Referenzkategorie.

Mehrkategorielle Logit-Modelle

Fur nominale, also nicht geordnete Kategorien, werden haufig mehrkategorielle Logit-Modelleverwendet. Setze ηki = xT

k βi, βi ∈ Rp, sowie

πki =eηki

1 +∑I−1

l=1 eηkl

, i = 1, . . . , I − 1, (57)

und fur die Referenzkategorie:

πkI = 1 − πk1 − . . . − πk,(I−1) =1

1 +∑I−1

l=1 eηlk

.

6.7 Kategorielle Regression 103

Erweiterung. Neben den kategorienspezifischen Parametern βi konnen globale Parame-ter γ (fur alle Kategorien i = 1, . . . , I − 1 gleich) zugelassen werden. Dazu sei wk ein q-dimensionaler Teilvektor von xk, γ ∈ Rq. Setze weiter ηki = xT

k βi + wTk γ sowie πki wie in

(57). Dann

logπki

πkI= ηki,

und exp(ηki) beschreibt das relative Risiko von Kategorie i zu Kategorie I.

Interpretation. Mehrkategorielle Logit Modelle fur I > 2 sind vorsichtig zu interpreteren.Insbesondere bedeutet ein positiv geschatzer Koeffizient βir > 0 nicht unbedingt, dass einAnstieg von der r-ten Komponenten der Kovariablen einen Anstieg von π·,i zur Folge hat,sondern nur einen Anstieg des relativen Risikos im Vergleich zu Referenzkategorie. Falls esetwa βjr > βir gibt, kann ein Anstieg der r-ten Kovariable sogar eine Verringerung von π·,izur Folge haben.

Das (erweiterte) Modell lasst sich in Matrixschreibweise zusammenfassen. Der ParameterVektor ist gegeben durch

β = (βT1 , . . . ,βT

I−1, γT )T ∈ Rp·(I−1)+q,

und der lineare Pradiktor durch

ηk = (ηk1, . . . , ηk,I−1)T = Xkβ, Xk =

xTk wT

k. . .

...xT

k wTk

∈ R(I−1)×(p·(I−1)+q).

Die Schatzung des Parameter Vektors β erfolgt wiederum uber Maximum Likelihood. Die logLikelihood ist

Ln(β) =n∑

k=1

log f(Yk|πk) (58)

f(Yk|πk) =

(nk

Yk1, . . . , YkI

)πYk1

k1 · . . . · πYk(I−1)

k(I−1) · (1 − πk1 − . . . − πk(I−1))YkI

wobei πk wie in (57) vom lineare Pradiktor und damit von β abhangt.

Score Vektor sn(β) = ∂∂β

Ln(β),

Fisher-Information Fn(β) = Cov(sn(β)).

Unter Regularitatsannahmen gelten asymptotische Normalitat des ML Schatzers

(Fn(βML)

) 12 (βML − β) → N (0, I),

sowie die asymptotischen χ2-Approximationen an den Likelihood Quotienten Test und denWald Test.

relevante R Befehle Die library nnet enthalt die Funktion multinom, mit der ein kate-gorielles Regressionsmodell geschatzt werden kann. Die Anpassung erfolgt ahnlich wie beiglm und family=binomial, inbesondere konnen die nk uber Weights ubergeben werden. DieFunktion logLik extrahiert den Wert der maximierten Log-Likelihood. Mit anova konnenLQTs durchgefuhrt werden.

Kommulatives oder Schwellenwert-ModellDas mehrkategorielle Logit Modell kann sehr allgemein verwendet werden, hat jedoch Nach-teile, da es viele Parameter besitzt und diese daruber hinaus schwer, da nur uber das relativeRisiko zur Referenz Kategorie, zu interpretieren sind.

Falls die Zielvariable Yk ordinal ist mit geordneten Kategorien 1, . . . , I, kann man dies beider Modellierung berucksichtigen.

Im Schwellenwert-Modell wird die ordinale Zielvariable als Diskretisierung einer latenten,stetigen Zielvariable modelliert, wobei die Diskretisierung mitgeschatzt wird. Seien also zurBeobachtung Yk

Ukl = xTk β + εkl, l = 1, . . . , nk, β ∈ Rp,

zugrundeliegende latente Variablen, wobei εk ∼ F eine stetige Verteilungsfunktion hat, etwaa. F ∼ N (0, 1) → probit-Modellb. F (x) ≈ ex

1+ex → Logit-Modell

c. F (x) = 1 − e−exExtremwertverteilung → gruppiertes Cox-Modell.

Man modelliert dann

Yk =

nk∑

l=1

1ϑi−1<Ukl<ϑi,

fur feste (unbekannte) ϑ1 < . . . < ϑI−1, ϑ0 = −∞, ϑI = ∞. Es gilt also

πki = F (ϑi + xTk β) − F (ϑi−1 + xT

k β) = F (ηki) − F (ηk,i−1), i = 1, . . . , I,

wobei ηki = ϑi + xTk β einen linearen Pradiktor bezeichnet. Der unbekannte Parametervektor

besteht also aus β = (β1, . . . ,βp, ϑi, . . . , ϑK−1). Das Schatzen von β erfolgt wieder uber MLwie in (58).

relevante R Befehle Die library MASS enthalt die Funktion ployr, mit der ein Schwellen-wert Regressionsmodell fur ordinale Daten angepasst werden kann.

105

7 Lineare Gemischte Modelle

Gemischte Modelle enthalten nicht nur die bisher betrachteten festen Effekte β, die fur jedeBeobachtung gleich sind, sondern daruber hinaus noch zufallige Effekte γi, welche Realisie-rungen von Zufallsvariablen sind und sich somit fur jede Beobachtung unterscheiden konnen.Zufallige Effekte werden (im Regressionskontext) eingesetzt, falls man davon ausgeht, dassnicht alle relevanten Kovariablen bzw. Einflussgroßen auf die Zielvaraiable beobachtet werdenkonnen. Haufig handelt es sich dabei um viele nicht beobachtete Einflussgroßen mit jeweilsnur geringem Einfluss. Daher modelliert man diese dann haufig als einen zufalligen normal-verteilten Effekt.

Gemischte Modelle treten im Regressionskontext insbesondere bei Longitudinal- oder Clus-terdaten auf, auf die wir zunachst eingehen, bevor wir zum allgemeinen linearen gemischtenModell kommen. Abschliessend werden auch noch kurz auf verallgemeinerte lineare gemischteModelle eingehen.

7.1 Longitudinal- und Cluster-Daten

a. Cluster-DatenEin Cluster ist eine Primareinheit, etwa eine Klinik, Familie. Man beobachtet nun eine Anzahlm an Clustern, und fur jedes Cluster i hat man Daten

(Yi1,xi1), . . . , (Yini,xini

), i = 1, . . . , m,

wobei Yij ∈ R die reellwertige Zielvariable bezeichnet, und xij ∈ Rp ein Vektor von geeignetkodoerten Kovariablen (inklusive Achsenabschnitt) ist.

b. Longitudinal-DatenEin analoges Beobachtungsschema tritt fur longitudinale Daten auf. Hier werden i Individuen,i = 1, . . . , m beobachtet. Fur jedes Individuum i hat man Beobachtungen

(Yi1,xi1), . . . , (Yi,ni,xi,ni

)

zu Zeitpunkten ti1 < . . . < tini. Die Zeitpunkte tij sind dabei typischerweise Teil der Kova-

riablen xij .

Man mochte nun wiederum Yij uber einen linearen Pradiktor xTijβ erklaren. Dabei ist aber

davon auszugehen, dass die Zielgroße nicht nur durch die xij , sondern durch weitere, Cluster-bzw. individuenspezifischen Effekte beeinflusst werden. Da man die Individuen/Cluster zufalligaus einer Gesamtpopulation ausgewahlt hat, modelliert man diese zusatzlichen Effekte alszufallige Effekte. Dies fuhrt zu folgendem Modell

106 7 LINEARE GEMISCHTE MODELLE

Modell Die Beobachtungen (Yij ,xij), i = 1, . . . , m, j = 1, . . . , ni, folgen dem Modell

Yij = xTijβ + wT

ijγi + εij ,

wobei wij ein q-dimensionaler Teilvektor von xij ist, εij ein zufalliger, nicht beobachteterFehler, β ∈ Rp die systematischen (festen) Effekte bezeichnet und γi q-dimensionale, zufalligeEffekte sind, die wir als N (0, D)-verteilt annehmen (D ∈ Rq×q), und welche unabhangig furi = 1, . . . , m sind. Weiter nehmen wir an, dass die Fehler εi und die zufalligen Effekte γl

unabhangig sind fur alle 1 ≤ i, l ≤ m.

Fur die Fehler ǫi nehmen wir ebenfalls eine Normalverteilung an, also εi ∼ N (0, Σi), undunabhangig fur i = 1, . . . , m. Falls εi ∼ N (0, σ2Ini

), dann sind die Fehler auch unabhangigund identisch verteilt fur j = 1, . . . , ni. Dies ist zwar fur Cluster - und Longitudinal-Datenhaufig nicht erfullt. Dennoch ist die zeitliche bzw. clusterspezifische Abhangigkeitsstrukturgegenuber der durch die zufalligen Effekte verursachten Abhangigkeitsstruktur (γi verursachtbereits Abhangigkeiten fur j = 1, . . . , ni) vernachlassigbar, so dass man die Fehler einfach alsu.i.v. modelliert. Alternativ ware ein einfaches parametrisches Modell fur abhangige Fehleretwa

Cov(εij , εik) = σ2 exp(−φ|tij − tik|), (59)

man hat also zwei Parameter (σ2, φ), die die Σi beschreiben.

Man fasst lineare Longitudinal - und Clustermodelle in Matrixschreibweise zusammen.Setze

Yi =

Yi1...

Yini

, Xi =

xTi1...

xTini

∈ Rni×p, Wi =

wTi1...

wTini

∈ Rni×q, ǫi =

εi1...

εini

∈ Rni ,

dann istYi = xiβ + wiγi + ǫi.

Man kann auch noch die Modelle fur alle i zusammenfassen. Dazu setzte W = diag(w1, . . . ,wm) ∈R∑

ni×m·q,

Y =

Y1...

Ym

∈ R

∑ni , X =

x1...

xm

∈ R

∑ni×p, γ =

γ1...

γm

∈ Rq·m, ǫ =

ε1...

εm

∈ R

∑ni .

Dann istY = Xβ + Wγ + ǫ,

wobei unter den obigen Verteilungsannahmen gilt γ ∼ N (0, G), ε ∼ N (0, R), γ, ǫ sind un-abhangig, und R = diag(Σ1, . . . ,Σm), G = diag(D, . . . , D).

7.2 Das lineare gemischte Modell

Definition 7.1Das lineare gemischte Modell (LMM) ist gegeben durch

Y = Xβ + Wγ + ǫ (60)

7.3 Schatzen und Vorhersagen im linearen gemischten Modell 107

wobei (γ

ǫ

)∼ N

(0,

(G 00 R

)),

und X ∈ Rn×p, W ∈ Rn×q (beobachtete) Designmatrizen sind, Y ∈ Rn (beobachtete)abhangige Variable, β fixe Effekte, γ zufallige Effekte, ǫ Fehler.

Neben longitudinalen und Cluster Regressionsmodellen treten gemischte Modelle insbesonderebei der Varianzanalyse mit zufalligen und festen Effekten auf.

Man kann das LMM schreiben als

a. Zweistufiges hierarchisches Modell:

Y|γ ∼ N (Xβ + Wγ, R), γ ∼ N (0, G) (61)

b. Marginales Modell

Y = Xβ + ǫ∗, ǫ∗ ∼ N (0, R + WGW T ). (62)

Das zweistufige hierarchische Modell bestimmt das LMM eindeutig. Dagegen bestimmt dasmarginale Modell (62) dieses nicht unbedingt eindeutig, da die zufalligen Effekte sich nichtspezifizieren lassen.

7.3 Schatzen und Vorhersagen im linearen gemischten Modell

Wir betrachten das gemischte lineare Modell (60). Unsere primaren Ziele sind dabei das

a. Schatzen der fixen Effekte β

b. Schatzen der unbekannten Parameter in der Kovarianzstruktur der zufalligen Effekte undFehler, also in G und R

Daruber hinaus betrachtet man nochc. Vorhersagen der zufalligen Effekte γ.

Zunachst betrachten wir a. und c. bei bekannter Kovarianzstruktur, und erweitern dies ineinem zweiten Schritt um die Schatzung b.

Bekannte Kovarianzstruktur

Wir nehmen in diesem Abschnitt an, dass die Kovarianzmatrizen G und R im LMM bekanntsind.

Schatzung der festen Effekte Ausgehend vom marginalen Modell (62) setze V =R + WGW T (diese Matrix ist vollstandig bekannt), dann ist Y ∼ N (Xβ, V ). Man schatze β

nun uber verallgemeinerte kleinste Quadrate (GLS) durch

βGLS = (XT V −1X)−1XT V −1Y (63)

108 7 LINEARE GEMISCHTE MODELLE

Vorhersage der zufalligen Effekte Da γ eine Zufallsvariable und kein Parameter ist,spricht man hier von vorhersagen und nicht von schatzen. Da

Cov(Y, γ) = Cov(Xβ + Wγ + ǫ, γ) = Cov(Wγ, γ) = WG

gilt (Yγ

)∼ N

((Xβ

0

),

(V WG

(WG)T G

)).

Somit erhalt man fur den bedingten Erwartungswert nach Satz 1.6

E(γ|V ) = GW T V −1(Y − Xβ).

Durch Einsetzten von βGLS erhalt man als Vorhersage von γ

γ = GW T V −1(Y − XβGLS) (64)

Aufgabe Erhalte Formel (64) als besten linearen Pradiktor fur γ.

Mixed Model Equations Man kann den Schatzer (63) und den Pradiktor (64) auch aufandere Weise erhalten. Die gemeinsame Dichte im LMM ist nach Darstellung (61) im hierar-chischen Modell

p(Y, γ; β) = p(Y|γ; β) · p(γ),

somit

log p(Y, γ; β) = −1

2(Y − Xβ − Wγ)T R−1(Y − Xβ − Wγ) − 1

2(γT G−1γ) + const., (65)

wobei const. nicht von (β, γ) abhangt.

Man behandelt nun nun (β, γ) gleich und wahlt als Schatzer/Pradiktor das Argmax von (65).Ableiten und Null setzen fuhrt auf die Mixed Model Equations

XT R−1(Xβ + Wγ − Y)!= 0,

W T R−1(Xβ + Wγ − Y) + G−1γ!= 0.

Gemeinsame Verteilung von (βGLS , γ). Diese berechnet sich zu(

βGLS − β

γ − γ

)∼ N

((00

),

(A BBT C

))(66)

wobei A = Cov(βGLS) = (XT V −1X)−1, und mit Cov(βGLS , γ) = 0

B = Cov(βGLS , γ − γ)

= −Cov(βGLS , γ)

= −E((XT V −1X)−1XT V −1(Wγ + ε) · γT )

= −(XT V −1X)−1XT V −1WG,

C = Cov(γ − γ)

= Cov(γ) + Cov(γ) − 2 Cov(γ, γ)

= G + GW T V −1(V − X(XT V −1X)−1XT

)V −1WG

−2 ·(E(GW T V −1(Wγ − Xβ) · γT

))

= G − GW T V −1WG + GW T V −1X(XT V −1X)−1XT V −1WG.

7.3 Schatzen und Vorhersagen im linearen gemischten Modell 109

Beachte, dass die Verteilung von γ in (66) um γ (auch eine Zufallsvariable) und nicht um denErwartungswert 0 berechnet wird.

Schatzung der Kovarianzstruktur

In diesem Abschnitt befassen wir uns mit der Schatzung der unbekannten Parameter in derKovarianzstruktur, also in den Matrizen R und G. Wir erinnern uns, dass im Longitudinal-/ Clusterdaten Modell diese von der Form R = diag(Σ1, . . . ,Σm), G = diag(D, . . . , D), sind.Dabei sind haufig die Σi Diagonalmatrizen oder haben die einfache Gestalt, die durch (59)bestimmt wird. Insgesammt sind R und G also uber wenige Parameter festgelegt. Diese fassenwir im Folgenden in einem Parametervektor ϑ zusammen, d.h. R = R(ϑ), G = G(ϑ) undsomit V (ϑ) = WG(ϑ)W T + R(ϑ). Wir betrachten zur Schatzung zwei Ansatze.

a. Ausgangspunkt ist das marginale Modell (62), also Y ∼ N (Xβ, V (ϑ)). Die Log-Likelihoodin Abhangigkeit von den Parametern (β, ϑ) ist gegeben durch

L(β, ϑ) = −1

2(log |V (ϑ)| + (Y − Xβ)T V (ϑ)−1(Y − Xβ)). (67)

Man mochte nun (β, ϑ) als argmax von (67) wahlen. Zunachst maximiert man (67) fur festesϑ bezuglich β und erhalt als eindeutige Losung

β(ϑ) = (XT V (ϑ)−1X)−1XT V (ϑ)−1Y

Dann setzt man β(ϑ) in (67) ein und erhalt die Profile Log-Likelihood

Lp(ϑ) = L(β(ϑ), ϑ

)= −1

2

(log |V (ϑ)| +

(Y − Xβ(ϑ)

)TV (ϑ)−1

(Y − Xβ(ϑ)

)).

Erhalte ML-Schatzer ϑML als argmax von Lp.

b. Hier schatze ϑ als argmax der marginalen Likelihood

LR(ϑ) = log(∫

p(Y; β, ϑ)dβ),

wobei man sich von diesem Ansatz besser Bias-Eigenschaften verspricht.

Lemma 7.2Es ist

LR(ϑ) = Lp(ϑ) − 1

2log |XT V (ϑ)−1X|

BeweisEs ist

p(Y; β, ϑ) =1

(2π)n2 |V (ϑ)| 12

exp(− 1

2(Y − Xβ)T V (ϑ)−1(Y − Xβ)

)

=1

(2π)n2 |V (ϑ)| 12

exp(− 1

2YT V (ϑ)−1Y

)

· exp(− 1

2

(β − β(ϑ)

)TXT V (ϑ)−1X

(β − β(ϑ)

))(∗)

· exp(− 1

2β(ϑ)T XT V (ϑ)−1Xβ(ϑ)

)

110 7 LINEARE GEMISCHTE MODELLE

Beachte, dass der zweite Faktor (∗) auf der rechten Seite bis auf fehlenden Normierungsfaktor

eine multivariaten Normalverteilung in β mit Erwartung β(ϑ) und Covarianz(XT V (ϑ)−1X

)−1

ist. Daher ergibt sich

∫p(Y; β, ϑ)dβ =

|XT V (ϑ)−1X| 12(2π)

n−p2 |V (ϑ)|− 1

2

exp(− 1

2

(YT V (ϑ)−1Y − β(ϑ)T XT V (ϑ)−1Xβ(ϑ)

)).

Nun beachte noch, dass der Term in exp sich schreiben lasst als −(Y−Xβ(ϑ)

)TV (ϑ)−1

(Y−

Xβ(ϑ))/2.

Man verwendet nun das argmax von LR(ϑ) als Schatzer, dieser heißt auch restringierterML-Schatzer, Bezeichnung ϑREML.

Fur ϑ = ϑML oder ϑ = ϑREML erhalt man Schatzer

R = R(ϑ), G = G(ϑ), V = V (ϑ).

KONSISTENZ!!! REFERENZ!!!

Schatzung und Vorhersage der fixen und zufalligen Effekte und Hypothesentests

Fur Schatzer R und G bilde V = R + WGW T und die Schatzer

β = (XT V −1X)−1XT V Y, γ = GW T V −1(Y − Xβ),

und approximiere die Verteilung

(β − β

γ − γ

)≈ N

((00

),

(A B

BT C

)), (68)

wobei sich die Matrizen A, B und C durch Einsetzten der Schatzer R, G und V in dieAusdrucke in (66) ergeben. REFERENZ FUR ASYMPTOTIK!!! Die Approximation (68)kann genutzt werden, uma. Konfidenzintervalle fur β

b. Vorhersageintervalle fur γ

c. gemeinsame Konfidenz- / Vorhersageintervallezu konstruieren.

Das Testen linearer Hypothesen Uβ = m kann durch den Likelihood Quotienten Test(LQT) oder den Wald-Test

T = (U β − m)T (UT AU)−1(U β − m)

erfogen, wobei man die Verteilung basierend auf (68) durch eine geeignete χ2-Verteilungapproximiert. Fur den LQT muss allerdings der Maximum Likelihood Schatzer (und nichtder restringierte ML Schatzer) ϑML gewahlt werden. Der LQT ist prizipiell auch zum Testenvon Hypothesen an ϑ geeignet. Hierbei muss man jedoch sorgfaltig vorgehen und prufen, ob

7.4 Verallgemeinerte lineare gemischte Modelle 111

die notwendigen Regularitatsbedingungen erfullt sind. So gilt die χ2 Approximation nicht,falls ϑ auf dem Rand liegt. Dies ist bei Hypothesen an ϑ haufig der Fall, etwa in folgendenBeispiel.

Beispiel. Sei

Yij = β1 + β2xij + γ0i + εij , i = 1, . . . , m, j = 1, . . . , n.

wobei εij ∼ N (0, σ2), γ0i ∼ N (0, τ20 ) und diese unabhangig seien. Von besonderem Inter-

esse ware die Hypothese H : τ20 = 0, d.h. die Uberprufung, ob uberhaupt zufallige Effekte

vorliegen. Diese kann jedoch nicht ohne weiteres mit dem LQT (bzw. der gewohnlichen χ2

Approximation) getestet werden.

relevante R Befehle Die library lme4 enthalt die Funktion lmer zum Anpassen von li-nearen (und auch verallgemeinerten linearen) gemischten Modellen. Der zufallige Effekt wirdspezifiziert durch (KOEFFIZIENT|GRUPPIERUNG), wobei der Achsenabschnitt als Koeffizientmit einbezogen wird. Es steht dann auch die anova Funktion zum Testen bereit. Alternativkann die Funktion lme aus der library nlme verwendet werden. Hier werden zufallige Effekteuber die Option random = ~ KOEF|GRUPPE spezifiziert.

7.4 Verallgemeinerte lineare gemischte Modelle

Auch im Kontext von verallgemeinerten linearen Modellen konnen neben festen auch zufalli-ge Effekte berucksichtigt werden. Die Modellbildung ist ganz analog zum LMM, aber dieSchatzung ist technisch wesentlich schwieriger. Wir gehen daher nur auf die Grundzuge ein.

Modell fur Longitudinal- und Cluster-Daten Wir betrachten zunachst Modelle fur lon-gitudinale oder Clusterdaten, bei denen die abhangige Variable eine Dispersionsexponenti-alfamilie (DEF) als Verteilung hat. Es liegen also Beobachtungen (Yij ,xij), i = 1, . . . , m,j = 1, . . . , ni, vor, wobei

a. Fur jedes i sind Yij |γi, j = 1, . . . , ni unabhangig und verteilt nach einer DEF.b. Die zufalligen Effekte γi sind unabhangig und identisch normalverteilt, γi ∼ N (0, D),i = 1, . . . , m.c. Der bedingte Erwartungswert E(Yij |γi) hangt mit dem linearen Pradiktor ηij = xT

ijβ +

wTijγi uber die streng monoton wachsende Linkfunktion g in folgender Weise zusammen:

E(Yij |γi) = g−1(ηij).

Dabei ist wij ein Teilvektor von xij , und β bezeichnet die festen Effekte.

Die wichtigsten Spezialfalle sind gemischte logistische Modelle und gemischte Poisson Mo-delle.

a. Yij |γj Bernoulli-verteilt, g logit-Link, also

logP (Yij = 1|γi)

P (Yij = 0|γi)= xT

ijβ + wTijγi.

112 7 LINEARE GEMISCHTE MODELLE

b. Yij |γi ∼ Poi(λij), g log-Link, also

log λij = xTijβ + wT

ijγi.

Ahnlich wie bei LMMs kann man diese Modelle in folgender Definition zusammenfassen. Mankann dieses Modell wieder zusammenfassen zu folgender allgemeiner Definition.

Definition des verallgemeinerten linearen gemischten Modells (GLMM) Beobachtetwerden abhangige Zufallsvariable Y = (Y1, . . . , Yn)T und Designmatrizen

X =

xT1...

xTn

∈ Rn×p, W =

wT1...

wTn

∈ Rn×q.

Fur feste Effekte β ∈ Rp und γ ∈ Rq (nicht beobachtete) zufallige Effekte bilde linearenPradiktor

η = Xβ + Wγ.

Falls a Yi|γ sind unabhangig und verteilt nach DEF,b.Fur µi = E(Yi|γ) gilt g(µi) = xT

i β + wTi γ = ηi,

c. Die zufalligen Effekte sind normalverteilt, γ ∼ N (0, G),

dann folgen (Y, X, W ) einem verallgemeinerten linearen gemischten Modell (GLMM).

Bemerkung1. Die Annahme der bedingten Unabhangigkeit Yi|γ entspricht im LMM unabhangigen Feh-lern εi, also einer Diagonalmatrix R. Weitergehende Abhangigkeiten sind im GLMM Kontextschwer zu modellieren, und haufig neben den zufalligen Effekten vernachlassigbar.2. Im Gegensatz zum LMM kann die marginale Verteilung von Y bzw. Yi,

f(Yi) =

∫f(Yi|γ) · f(γ)dγ, f(γ) Dichte von N (0, G),

in einem GLMM nur selten explizit berechnet werden.

Momentenstruktur im GLMM

Im GLMM gilt

EYi = E(E(Yi|γ)) = Eµi = E(g−1(xTijβ + wT

ijγ)),

Var Yi = Var(E(Yi|γ)) + E(Var(Yi|γ)) = Var(g−1(xTijβ + wT

ijγ)) + E(ϕ · V (µi)),

wobei V = b′′ (b′)−1 (und b in der DEF definiert ist). Wegen Cov(Yi, Yj |γ) = 0, i 6= j, istweiter

Cov(Yi, Yj) = Cov(E(Yi|γ), E(Yj |γ)) + E(Cov(Yi, Yj |γ)) = Cov(µi, µj).

Schatzen im GLMM

113

Wir nehmen wieder an, die Kovarianzmatrix G der zufalligen Effekte sei uber einen Parameterϑ bestimmt, G = G(ϑ). Dann sind die Ziele im GLMM das Schatzen der Parameter (β, ϑ)sowie die Vorhersage von der zufalligen Effekte γ.

Ansatze

a. Zur Schatzung von (β, ϑ) kann das marginale Modell

L(β, ϑ) =

∫f(Y|β, γ) · f(γ|ϑ)dγ (69)

benutzt werden, wobei f(γ|ϑ) die Dichte von N (0, G(ϑ)) ist, und wegen der bedingten Un-abhangigkeit

f(Y|β, γ) =n∏

i=1

f(Yi|β, γ)

gilt. Man schatze dann (β, ϑ) als argmax von (70).

Man muss aber das Integral in (70) numerisch auswerten, welches bei mehrdimensionalenzufalligen Effekten sehr schwer wird. Dieser Zugang ist daher nur bei wenigen zufalligenEffekten (meistens nur univariates γ) geeignet.

b. Man kann auch (β, ϑ) schatzen und γ Vorhersagen in einem gemeinsamen Schritt durchmaximieren von

L(γ; β, ϑ) = f(Y|γ; β) · f(γ|ϑ).

Logarithmieren liefert

Lpen(β, γ, ϑ) = L(β, γ) − 1

2γT G(ϑ)γ + const, (70)

wobei L(β, γ) die log-Likelihood Funktion der DEF ist, etwa fur Poisson

L(β, γ) =n∑

i=1

(Yi log λi − λi), log λi = ηi = xTi β + wT

i γ.

Man schatzt/vorhersagt dann (β, γ, ϑ) als argmax von (70). Dazu wird haufig so vorgegangen,dass (70) fur festes ϑ in (β, γ) maximiert wird und ϑ durch eine Approximation von (70),etwa Laplace Approximation, vereinfacht geschatzt wird.

relevante R Befehle Bei der Funktion lmer (library lme4) konnen auch verallgemeinertelineare gemischte Modelle geschatzt werden, wobei die DEF uber family wie in glm spezifiziertwird.

8 Nichtparametrische Dichteschatzung

8.1 Problemstellung

Gegeben seien unabhangige, identisch verteilte reellwertige Beobachtungen X1, . . . , Xn mitVerteilungsfunktion F (x) = P (X1 ≤ x). Angenommen, die Xi haben eine Dichte f(x)

114 8 NICHTPARAMETRISCHE DICHTESCHATZUNG

bezuglich des Lebesque-Maßes dx, also

µ(A) = P (X1 ∈ A) =

Af(x)dx, A Borel-meßbar,

und dann

F (x) =

∫ x

−∞f(t)dt.

Sowohl die Verteilungsfunktion F (x) als auch die Dichte f(x) bestimmen eindeutig die Ver-teilung µ der Xi, sie tragen also die gleiche Information. Die Verteilungsfunktion kann manleicht durch die empirische Verteilungsfunktion

Fn(x) =1

n

n∑

k=1

1(−∞,x](Xk)

schatzen. Dennoch ist man oft eher an Schatzungen der Dichte als an Schatzungen der Ver-teilungsfunktion interessiert. Zum einen tragt f(x) erheblich mehr visuelle Information alsdie Verteilungsfunktion, Schatzung von f hat also als Hauptziel die deskriptive Analyse derVerteilung der Xi. Daruber hinaus liegt ein geschatztes f weiteren statistische Verfahren,etwa Anpassungstests, zugrunde.

Die Schatzung von f kann auf verschiedene Arten geschehen.

a. parametrisch. Man nimmt an, dass f(x) ∈ f(x, ϑ)|ϑ ∈ Θ ⊂ Rn aus einer endlich-dimensionalen parametrischen Familie stammt (d.h. Θ ist endlich-dimensional). Zunachstschatzt man den unbekannten Parameter ϑ, etwa mit Hilfe der Maximum-Likelihood Metho-de, und erhalt ϑ. In einem zweiten Schritt bildet man f(·, ϑ) als Schatzung fur f .Als Vorteile dieses Ansatzes sind zu nennen: Man hat ein einfaches, leicht zu interpretierendesModell (d.h. man muss nur endlich viele Parameter interpretieren), und man erhalt eine sehreffiziente Schatzung, falls das parametrische Modell korrekt ist, d.h. falls es tatsachlich denDaten zugrunde liegt.Falls dies jedoch nicht der Fall ist (wovon bei realen Daten stets auszugehen ist), erhalt maneine inkonsistente Schatzung. Man kann haufig zeigen, dass auch falls f(x) 6∈ f(x, ϑ)|ϑ ∈Θ ⊂ Rn der ML Schatzer ϑ gegen einen wohldefinierten Parameter und somit der Funktio-nenschatzer f(·, ϑ) gegen eine Dichte f∗, die beste Approximation in f(x, ϑ) an f bezuglichdes Kulback Leibler Abstandes, konvergiert. Dennoch stellt sich die Frage, ob man mit derApproximation f∗ an f zufrieden ist.

b. nichtparametrisch Alternativ kann man f nichtparametrisch, also ohne endlichdimensio-nale parametrische Restriktionen und nur unter gewissen Glattheitsannahmen (etwa f ∈ C1)schatzen. Man hat dann eine erheblich flexiblere Schatzung, die wesentlich mehr Dichten kon-sistent schatzt. Diese Schatzung ist jedoch weniger effizient, die wahre Dichte f wird nur beigroßen Datenmenge gut geschatzt. Auch die nichtparametrische Schatzung schatzt nicht “al-le” Dichten, schon gar nicht in der Praxis fur endliche Stichproben, korrekt oder approximativkorrekt. Aber sie dient haufig als erster Schritt einer Datenanalyse, und wird zur Auswahl derparametrischen Familie, in der die Dichte in einem zweiten Schritt geschatzt wird, genutzt.

Zwischen nichtparametrischer und parametrischer Schatzung steht noch die sogenannte semi-parametrische Schatzung, auf die wir hier aber nicht weiter eingehen wollen.

8.2 Kern-Dichte Schatzung 115

relevante R Befehle Die Funktion ecdf berechnet die empirische Verteilungsfunktion (einObjekt vom Typ stepfun, welches mit plot.stepfun geplottet werden kann (oder direktmit plot.ecdf).

8.2 Kern-Dichte Schatzung

Wir wiederholen zunachst noch einige Eingenschaften der Faltung auf R.a. Fur f, g ∈ L1 ist diese definiert durch

(f ∗ g)(x) =

R

f(x − y)g(y)dy.

b. Ist µ σ-endliches Maß auf R und f(x − ·) ∈∈ L1(µ) fur x ∈ R, dann

(f ∗ µ)(x) =

R

f(x − t)dµ(t).

Ist insbesondere dµ(x) = g(x)dx absolut stetig bzgl. des Lebeques Maßes, dann ist (f ∗g)(x) =(f ∗ µ)(x).

Sei nun K ∈ L1,∫

K = 1 ein Kern. Fur h > 0 setze

Kh(x) = K(x/h)/h.

Dann gilt fur g ∈ L1 und h → 0 die Konvergenz Kh ∗ g − g → 0 in L1. Unter zusatzlichenAnnahmen gilt die Konvergenz auch punktweise oder in L2.

Wir betrachten nun wieder X1, . . . , Xn u.i.v. mit Dichte f , und es sei µ die Wahrscheinlich-keitsverteilung der Xi, also dµ(x) = f(x)dx. Dann gilt (in L1)

Kh ∗ µ = Kh ∗ f → f (h → 0). (71)

Weiter kann µ geschatzt werden durch das empirische Maß

µn =1

n

n∑

k=1

δXk, δx(A) =

1, x ∈ A0, sonst

Um einen Schatzer von f zu erhalten, ersetze in (71) die Verteilung µ durch die empirischeVerteilung µ. Dies ergibt

fn(x; h) = Kh ∗ µn

=1

nh

n∑

k=1

K(x − Xk

h

)

den Kern-Dichte Schatzer fur f mit Kern K und Bandbreite h > 0. Durch Integrationerhalt man einen geglatteten Schatzer fur die Verteilungsfunktion:

Fn(x; h) =1

n

n∑

k=1

L(x − Xk

h

), L(x) =

∫ x

−∞K(t)dt.

116 8 NICHTPARAMETRISCHE DICHTESCHATZUNG

Eigenschaften des Kern-Dichte Schatzers

Erwartungswert

Efn(x; h) =1

h

∫K(x − t

h

)f(t)dt = (Kh ∗ f)(x).

Varianz

Var fn(x; h) =1

n(

1

h2

∫K2(x − t

h

)f(t)dt − (Kh ∗ f)2(x)) =

1

n(K2

h ∗ f − (Kh ∗ f)2)(x). (72)

Wie ublich kann man den mittleren quadratischer Fehler (MSE) zerlegen in BIAS2 und Va-rianz

MSE(fn(x; h)) = E(fn(x, h) − f(x))2 = E(f − Ef)2(x) + (Ef − f)2(x).

Um die Konsistenz des Kern-Dichte Schatzers sowie eine Konvergenzrate herzuleiten, machenwir die folgenden Annahmen.

Annahmen

A. f ∈ C2(R) mit beschrankter 2. AbleitungB. Der Kern K ist eine beschrankte, symmetrische Wahrscheinlichkeitsdichte mit kompaktemTrager in ⊂ [−M, M ] fur ein M > 0.C. Die Bandbreite h = hn erfullt hn → 0 und nhn → ∞.

Lemma 8.1Unter den Annahmen A, B und C gilt fur den BIAS von fn(x; h)

Efn(x; h) − f(x) = f ′′(x)h2

2

∫z2K(z)dz + O(h2). (73)

BeweisEs ist

Efn(x; h) =

∫f(x − t)K(t/h)/h dt =

∫f(x − hz)K(z)dz.

Wegen Annahme B. genugt es, fur z ∈ [−M, M ] die Taylorentwicklung

f(x − hz) = f(x) − hzf ′(x) +1

2h2z2f ′′(ξ)

= f(x) − hzf ′(x) +1

2h2z2f ′′(x) + h2C(x, z) (74)

zu betrachten. Hier ist ξ = ξx,z ∈ x + [−hM, hM ], C(x, z) = 12z2(f ′′(ξ) − f ′′(x)) = O(1)

gleichmaßig in z ∈ [−M, M ], da nach Annahme A f ′′ stetig in x und ξ ∈ x + [−hM, hM ].Integration von (74) mit K liefert (73).

Lemma 8.2Unter den Annahmen A, B und C gilt fur die Varianz von fn(x; h)

Var fn(x; h) =1

nh

∫K2(z)dz · f(x) + O(

1

nh)

8.3 Integrierter mittlerer quadratischer Fehler 117

BeweisFur z ∈ [−M, M ] ist f(x − hz) − f(x) = −hzf ′(ξ), also

f(x − hz) = f(x) + O(h).

Somit

K2h ∗ f(x) =

1

h

∫f(x − hz)K2(z)dz =

1

hf(x)

∫K2(z)dz + O(h)

Die Behauptung folgt dann mit (2).

Aus Lemma 8.1 und 8.2 erhalt man

Satz 8.3Unter den Annahmen A, B und C gilt fur den mittleren quadratischen Fehler von fn(x; h)

MSE(fn(x, h)) = (f ′′(x))2h4

4

(∫z2K(z)dz

)2+

1

nhf(x)

∫K2(z)dz+O(h4)+O

((nh)−1

)(75)

Der Kern-Dichte Schatzer fn(x; h) ist also konsistent in der Klasse der C2 Dichten. Fur ge-eignete Wahl von h erhalt man auch eine Konvergenzrate.

Korollar 8.4Unter den Annahmen A, B und C gilt fur h ≈ n− 1

5

MSE(fn(x, h)) = O(n− 45 ).

Man kann zeigen, dass dies auch die optimale Konvergenzrate in der Klasse der bei x zweimalstetig differenzierbaren Dichten ist, wobei die zweite Ableitung durch eine feste Konstantebeschrankt sein muss. Die Konvergenzrate ist also langsamer als das n−1 im parametrischenFall.

relevante R Befehle Die Funktion density berechnet den Kern Dichte Schatzer, der direktmit plot geplottet werden kann. Fur Optionen siehe nachster Abschnitt.

8.3 Integrierter mittlerer quadratischer Fehler

Der mittlere integrierte quadratische Fehler (MISE) des Schatzers fn(x; h) ist definiert durch

MISE(f(·, h)) =

R

E(f(x, h) − f(x)

)2dx = E

R

(f(x, h) − f(x)

)2dx.

Der MISE berucksichtig den quadratischen Fehler von fn(x; h) nicht nur an einem Punkt x,sondern auf ganz R. Daher ist der MISE zur Untersuchung der globalen Eigenschaften vonfn(x; h) gut geeignet. Wir benotigen zur Behandlung des MISE noch eine weitere

Annahme D. Es sind f, f ′′ ∈ L2, und |f ′′| wird schliesslich monoton.

118 8 NICHTPARAMETRISCHE DICHTESCHATZUNG

Wenn man die Darstellung (75) naiv integriert, erhalt man also

MISE(f(·, h)) =1

4

∫f ′′(x)2dx h4

(∫z2K(z)dz

)2+

1

nh

∫K2(z)dz + O(h4) + O(

1

nh).

Hierbei muss man jedoch aufpassen, da die Restterme in (75) von der Stelle x abhangen.Unter der Annahme D ist jedoch die Inegration zulassig. Wir geben dafur das Argument furden integrierten quadratischen Bias, und benutzten die Notation des Beweises von Lemma8.1.

Sei ǫ > 0, wir mussen h0 > 0 genugend klein finden, so dass fur h ≤ h0 gilt:∫

R

C(x, z)2 dx < ǫ. (76)

Wegen Annahme D kann man A > 0 wahlen, so dass∫|x|>A C(x, z)2 dx < ǫ/2. Da weiter f ′′

auf einem kompakten Intervall gleichmaßig stetig ist, kann man h0 so klein wahlen, dass

|C(x, z)| <(ǫ/(4A)

)1/2, |ξ − x| < hM, x ∈ [−A, A].

Es ergibt sich (76).

Wenn man die Restterme unberucksichtigt lasst, erhalt man den asymptotischen MISE

AMISE(f(·, h)) =1

4h4 µ2

2(K)

∫f ′′(x)2 dx +

ν0(K)

nh, (77)

wobei

ν0(K) =

∫K2(z)dz, µ2(K) =

∫z2K(z)dz.

Durch Ableiten von AMISE(f(·, h)) nach h und Null setzen erhalt man die AMISE-optimaleBandbreite

hopt =( ν0(K)

nµ22(K)

∫f ′′(x)2dx

) 15, (78)

sowie den minimalen AMISE

minh>0

AMISE(f(·, h)) =5

4n− 4

5

(µ2(K)2 ν4

0(K)

∫f ′′(x)2dx

) 15. (79)

Die Bandbreite hopt hangt von dem unbekannten f durch die zweite Ableitung f ′′ ab, undkann daher nicht direkt benutzt werden. Im nachsten Abschnitt werden wir uns mit derpraktischen Bandbreitenwahl beschaftigen.

Kernwahl

Fur die optimale Bandbreite hopt hangt der minimale AMISE in (79) noch von der Wahldes Kerns sowie von

∫f ′′(x)2dx ab. Um den AMISE moglichst klein zu machen, sollte K so

gewahlt werden, dass

C(K) :=(µ2(K)2 ν4

0(K)) 1

5

minimal wird. Zunachst bemerken wir, dass C(K) nicht von der Skalierung des Kerns Kabhangt. Fur eine Skalenfamilie Kδ(x) = K(x/δ)/δ von Kernen gilt

ν0(Kδ) = R(K)/δ, µ2(Kδ) = δ2µ2(K),

8.3 Integrierter mittlerer quadratischer Fehler 119

und somit C(K) = C(Kδ).

Man kann nun den Kern (bzw. einen Reprasentaten der Skalenfamilie) mit minimalem C(K)explizit angeben. Dies ist der sogenannte Epanechnikov-Kern

K∗(x) =3

4(1 − x2)1|x|<1,

vgl. etwa REFERENZ! Weitere haufig benutzte Kerne sind

K(x) = (1 − |x|)1|x|<1 Dreieckskern,

K(x) =(1 − x2)21|x|<1

25B(3, 3)Biweight Kern,

K(x) = φ(x) Normalverteilungskern,

K(x) =1

21|x|<1 Rechteckskern.

Fur den Normalverteilungskern K(x) = φ(x) ist Annahme B eines kompakten Tragers nichterfullt. Dennoch kann man zeigen, dass Satz 8.3 sowie die asymptotische Formel fur den mini-malen MISE (79) auch fur diesen Kern gelten (REFERENZ!). Die folgende Tabelle vergleichtdie Kernkonstante C(K) mit der des optimalen Epanechnikov Kerns.

Kern C(K∗)/C(K)

Epanechnikov 1Dreieckskern 0,986

Biweight 0,994Normalverteilungskern 0,951

Rechteckskern 0,930

Die Kernwahl hat also sowohl theoretisch als auch praktisch relativ wenig Einfluss auf dieGute der Dichteschatzung. Der Dichte Schatzer ist aber nur so glatt wie der gewahlte Kern.Am haufigsten benutzt man den Normalverteilungskern.

Wir gehen noch kurz auf den Zusammenhang zwischen Histogramm und Kern-Dichte Schatzermit dem Rechteckskern ein. Fur eine Unterteilung a0 < a1 < . . . < ad, fur die alle Daten in(a0, ad) liegen, setzte

ns = #k : Xk ∈ (as−1, as], s = 1, . . . , d.

Das Histogramm ist nun der Dichte Schatzer

fHistn (x) =

d∑

s=1

ns

n· 1

as − as−11(as−1,as](x).

Der Kern-Dichte-Schatzer mit Rechteckskern berechnet sich dagegen zu

fn(x; h) =1

2nh

n∑

k=1

1(−h,h)(x − Xk) =#k : Xk ∈ (x − h, x + h)

n· 1

2h.

120 8 NICHTPARAMETRISCHE DICHTESCHATZUNG

Die Form ist zunachst recht ahnlich zu der eines Histogramms, aber bei dem Kern-DichteSchatzer wird keine feste Zerlegung des Intervalles betrachtet, sondern diese variieren mit x.Man kan zeigen (REFERENZ), dass der Histogramm Schatzer fHist

n (x) nur eine Konvergenz-rate von n−2/3 erreichen kann, wahrend fn(x, h) fur zweimal differenzierbares f die schnellereRate von n−4/5 erreicht.

Wie schwer ist es, f zu schatzen?Der minimale AMISE in (79) hangt auch von der zu schatzenden Dichte f uber

∫f ′′(x)2dx

ab. Man kann nun untersuchen, wie schwer es ist, eine bestimmte Dichte mit dem Kern-DichteSchatzer zu schatzen, indem man diese Große weiter untersucht.Zunachst bemerken wir, dass

∫f ′′(x)2dx von der Skalierung abhangt. Fur fδ(x) = f(x/δ)/δ

ist ∫f ′

δ′(y)2dy =

1

δ5

∫f ′′(x)2dx.

Ein Vergleich ist aber nur fur ein skaleninvariantes Maß sinnvoll. Ein mogliches skaleninvari-antes Maß ist etwa

D(f) =(σ5(f)

∫f ′′(x)2dx

) 14, (80)

wobei

σ2(f) =

∫(x2 −

∫xf(x)dx)2dx.

Dann ist in der Tat D(f) = D(fa). Die Wahl von σ2(f) in (80) ist aber relativ willkurlich.Man kann die Dichte mit minimalem D(f) auch explizit angeben (s. REFERENZ). Diese ist

f∗(x) =35

32(1 − x2)31|x|<1.

Wie schwer es ist, eine Dichte zu schatzen, kann nun in Relation zu f∗ betrachtet werden.

Dichte D(f∗)/D(f)

Beta(4,4) 1Normal 0,908

12N (−1, 4

9) + 12N (1, 4

9) 0,536Gamma(3) 0,327Lognormal 0,053

Die Lognormalverteilung dient daher haufig als Beispiel fur eine besonders schwer zu schatzen-de Dichte.

relevante R Befehle Als Option von density kann kernel gesetzt werden(z.B. kernel="epanechnikov"). Default ist der Gauß Kern. Mit hist erhalt man ein Hi-stogramm.

8.4 Bandbreitenwahl 121

8.4 Bandbreitenwahl

Der Kern-Dichte Schatzer hangt sensitiv von der Wahl der Bandbreite h ab. In der Praxisbetrachtet man den Schatzer fn(x; h) haufig fur verschiedene Bandbreiten. Grob gesprochenkann man sagen: Ist h zu klein, so wird der Schatzer stark oszillieren, ist dagegen h zu großgewahlt, ist der Schatzer zu glatt bzw. flach.

Man versucht auch, geeignete Werte der Bandbreite aus den Daten zu schatzen. Meist istdabei dass Ziel, die MISE optimale Bandbreite oder auch die AMISE optimale Bandbreitehopt in (78) zu schatzen. Manchmal ist dies aber auch nicht unbedingt wunschenswert, etwa beider Konstruktion von Konfidenzntervallen fur f(x) sowie fur bestimmte deskriptive Zwecke.

Wir beginnen mit Verfahren zur Schatzung der MISE/AMISE optimalen Bandbreite.

a. Referenz zur Normalverteilung (normal reference)Hier wahlt man hopt optimal fur ein normalverteiltes f . Ist f Dichte von N (µ, σ2), dann ist(Beweis) ∫

f ′′(x)2dx =3

8π12 σ5

.

Somit ist

hopt,norm =( 8π

12 ν0(K)

3n(µ2(K))2

) 15σ.

Schatze hopt,norm durch

hNR =( 8π

12 ν0(K)

3n(µ2(K))2

) 15σ,

wobei σ ein Schatzer der Standardabweichung ist. Naturlich ist hopt,norm nur fur normalver-teiltes f optimal. Da die Dichte der Normalverteilung sehr glatt ist, wird ansonsten hopt,norm

tendenziell großer sein als hopt fur eine andere Dichte. Man kann daher hopt, normal als erstenRichtwert benutzen, und dann h noch schrittweise verkleinern.

b. Least squares cross-validationBei diesem Verfahren versucht man, direkt eine MISE-optimale Bandbreite zu wahlen. Dazuentwickelt man

MISE f(·, h) = E

∫f(x, h)2dx − 2E

∫f(x, h)f(x)dx +

∫f2(x)dx.

Um also MISE(f(·, h)) bezuglich der Bandbreite h zu minimieren, genugt es also,

MISE f(·; h) −∫

f2(x)dx = E

∫f(x; h)2dx − 2E

∫f(x; h)f(x)dx (81)

zu minimieren. Die rechte Seite von (81) wird erwartungstreu geschatzt durch

LSCV(h) =

∫f(x, h)2dx − 2

n

n∑

i=1

f−i(Xi; h),

wobei

f−i(x; h) =1

n − 1

j 6=i

Kh(x − Xj).

122 8 NICHTPARAMETRISCHE DICHTESCHATZUNG

Hierzu beachte, dass

E

∫fn(x; h)f(x)dx =

∫EKh(x − X1)f(x)dx

=

∫ ∫Kh(x − y)f(x)f(y)dx dy

= EKh(X1 − X2)

Dies ist aber offensichtlich der Erwartungswert von f−i(Xi; h). Man wahlt nun

hLSCV = argminh>0 LSCV(h).

Das Wort Cross-Validierung bezieht sich auf die Verwendung der Schatzer f−i(Xi; h), die ohnedie i-te Beobachtung berechnet werden, und dann an dieser Stelle ausgewertet werden.

Der Bandbreiten Schatzer hLSCV hat eine sehr hohe Variabilitat, und wird daher eher seltenverwendet.

c. Biased cross-validationHier soll die AMISE-optimale Bandbreite geschatzt werden. Man betrachtet (77), und ersetzt∫

f ′′(x)2 dx durch einen Schatzer, der auch die Bandbreite h verwendet. Dazu entwickele

∫f ′′(x, h)2dx =

1

n2

i6=j

∫(Kh)′′(x − Xi)(Kh)′′(x − Xj)dx +

1

n2

i

∫((Kh)′′(x − Xi))

2dx

Nun ist ∫((Kh)′′(x − Xi))

2dx =1

h5

∫(K ′′)2(x)dx

unabhangig von Xi und man verwendet als Schatzer von∫

f ′′(x)2 dx

˜R(f ′′, h) = R(f ′′(·, h)) − 1

nh5R(K ′′)

Als Zielkriterium erhalt man

BCV(h) =R(K)

nh+

h4

4µ2(k)2 ˜R(f ′′, h)

und als Bandbreiten Schatzer

hBCV = argminh>0 BCV(h).

Der Schatzer hBCV hat zwar eine geringere Varianz als hLSCV, uberschatzt aber die optimaleBandbreite haufig (hat also einen positiven Bias).

d. Weitere BandbreitenverfahrenEs gibt eine Vielzahl von weiteren Bandbreitenwahlverfahren, die etwa mit den Stichworten“direct Plug-in” oder “solve-the-equation” verbunden werden. Man kann Bandbreitenwahl-verfahren auch theoretisch untersuchen, und Konvergenzraten gegen die optimale Bandbreitestudieren. Fur weitere Information siehe etwa Wand und Jones (1996).

8.4 Bandbreitenwahl 123

relevante R Befehle Die Bandbreite wird bei density durch bw=.. gesetzt. Dabei sindfolgende Moglichkeiten implementiert: bw="nrd0" und bw="nrd" (Varianten von normal re-ference), bw="ucd" und bw="bcd" (unbiased und biased cross validation), bw="SJ-ste" undbw="SJ-dpi" (solve-the-equation und direct plug in). Die Bandbreiten konnen auch separatberechnet werden uber die Funktionen bw.nrd, bw.nrd0, bw.ucv, bw.bcv, bw.SJ mit denOptionen method="ste" und method="dpi".

Konstruktion von Konfidenzintervallen

Es ist nicht immer wunschenswert, die MISE / AMISE-optimale Bandbreite zu benutzen bzw.zu schatzen. Zur Illustration betrachten wir die Konstruktion von Konfidenzintervallen furf(x).

Satz 8.5Unter den Annahmen A, B und C gilt

(nh)12(fn(x; h) − Efn(x; h)

) d→ N (0, f(x)

∫K2(z)dz)

BeweisSchreibe

fn(x; h) − Efn(x; h) =1

n

n∑

k=1

(Zk,n − EZk,n),

wobei Zk,n = Kh(x − Xk) unabhangig und identisch verteilt sind (1 ≤ k ≤ n) fur jedes n.Somit genugt es, die Lyapunov-Bedingung zu prufen: Fur ein δ > 0 gilt

E|Z1,n − EZ1,n|2+δ

nδ2 (Var Z1,n)1+

δ2

→ 0, n → ∞

Zunachste ist nach Lemma 8.2

Var Z1,n ≈ f(x)

h

∫K2(z)dz.

Fur das unzentrierte Moment gilt

E|Z1,n|2+δ =1

h2+δ

∫|K(

x − y

h)|2+δf(y)dy

=1

h1+δ

∫K(y)2+δf(x − hy)dy

≈ 1

h1+δf(x)

∫K(y)2+δdy,

wobei∫

K(y)2+δdy < ∞, da K beschrankt ist und kompaktem Trager hat. Weiter gilt nachder Minkowski-Ungleichung

(E|Z1,n − EZ1,n|2+δ)1

2+δ ≤ (E|Z1,n|2+δ)1

2+δ + E|Z1,n|

und nach Holder

E|Z1,n| ≤ (E|Z1,n|2+δ)1

2+δ ,

124 8 NICHTPARAMETRISCHE DICHTESCHATZUNG

alsoE|Z1,n − EZ1,n|2+δ ≤ 22+δE|Z1,n|2+δ.

Daher istE|Z1,n − EZ1,n|2+δ

nδ2 (VarZ1,n)1+

δ2

= O(1

h1+δ· h1+ δ

2

nδ2

) = O((hn)−

δ2),

welches mit Annahme C die Lyapounov Bedingung zeigt.

Man kann Satz 8.5 nutzen, um Konfidenzintervalle fur Efn(x; h) zu konstruieren. Ist q1−α/2

das 1 − α/2 Quantil der Standardnormalverteilung, so ergibt sich

[fn(x; h) −

√fn(x; h) ν0(K)q1−α/2√

nh, fn(x; h) +

√fn(x; h) ν0(K)q1−α/2√

nh

](82)

als asymptotisches Konfidenzintervall fur Efn(x; h). Bei der Berechnung der Kernkonstanteν0(K) in (82) ist darauf zu achten, dass man den richtig skalierten Kern Kδ der entsprechendenSkalenfamilie (der zur Bandbreite H gehort) wahlt. Fur den Standardnormalverteilungskern(dieser wird bei density verwendet) ergibt sich z.B. ν0(K) = 1/(2

√π).

Mochte man Konfidenzintervalle fur f(x) konstruieren, so muss man noch den Bias Efn(x; h)−f(x) beachten. Hier hat man drei Moglichkeiten.

a. Man ignoriert den Bias, und konstruiert nur ein Konfidenzintervall fur Kh ∗ f(x).

b. Undersmoothing Man wahlt h → 0 derart, dass (nh)12

(Ef(x; h) − f(x)

)→ 0. Da

|Ef(x; h)− f(x)| ≈ h2, muss man h = o(n− 15 ) wahlen, also mit kleinere Rate als die optimale

Bandbreite hopt. Dies nennt man unterglatten, hier ist es jedoch in der Praxis sehr schwierig,das richtige Maß an Unterglattung zu finden.

c. Explizite Bias-Korrektur Man schatzt f ′′(x) und somit den ersten Term f ′′(x)h2µ2(K)in der Entwicklung des Bias in Lemma 8.1, und subtrahiert, d.h. betrachtet

(nh)12(fn(x; h) − f(x) − 1

2f ′′(x; h)h2µ2(K))

Nach Bias-Korrektur kann in der Theorie hopt verwendet werden. Das Problem ist jedoch, dassdie Schatzung von f ′′ sehr schwierig ist, und eine eigene Bandbreitenwahl erfordert. Somit istdies Verfahren fur die Praxis wenig geeignet.

Anzahl der ModenEine Mode einer Dichte oder allgemeiner einer Funktion ist einfach ein lokales Maximum. Of-fenbar nimmt tendenziell die Anzahl der Moden von fn(·; h) fur wachsendes h ab, der Schatzerwird immer glatter und weniger “hugelig”. In der Tat kann man fn(·; h) mit verschiedenenBandbreiten auch zum Studium der Anzahl der Moden von f verwenden.

Wir gehen etwas allgemeiner vor. Ein Schatzer fur die j-te Ableitung von f ist gegeben durch

f (j)n (x; h) =

1

nhj+1

n∑

k=1

K(j)(x − Xj

h) (83)

8.4 Bandbreitenwahl 125

Setzevj(h, I) := #Moden von f (j)

n (·, h) in I, I ⊂ R, vj(h) := vj(h, R)

Fur den Normalverteilungskern ist der oben beobachtete tendenzielle monoton fallende Zu-sammenhang zwischen Bandbreite h und Anzahl der Moden von fn(·; h) exakt vorhanden.

Satz 8.6Sei K = φ in (83) der Normalverteilungskern. Dann gilt vj(h) < ∞ ∀h > 0, j = 0, 1, 2, . . .,und vj(·) ist monoton fallend und rechtsseitig stetig.

BeweisSei µj+1(h) = #Vorzeichenwechsel von f

(j+1)n (·; h). Es ist φ(j+1)(x) = (−1)j+1Hj+1(x)φ(x),

wobei Hj+1(x) = xj+1 + . . . das (wahrscheinlichkeitstheoretische) (j+1)-te Hermite-Polynomist, also

f (j+1)n (x; h) =

1

nhj+1

n∑

k=1

Hj+1

(x − Xk

h

)φ(x − Xk

h

).

Somit gilt (−x)j+1f(j+1)n (x; h) > 0 fur |x| groß. Daraus folgt, dass

vj(h) =µj+1(h)

2, (84)

und das alle Vorzeichenwechsel von f(j+1)n (x; h) in einem kompakten Intervall liegen. Nun

ist f(j+1)n (z; h) offenbar als Funktion von z ∈ C holomorph in ganz C. Nullstellen (und somit

Vorzeichenwechsel) konnen sich somit nach dem Identitatssatz der Funktionentheorie nirgends

haufen, da sonst f(j+1)n ≡ 0. Also kann f

(j+1)n nur endlich viele Nullstellen und somit auch

Vorzeichenwechsel in einem kompaktem Intervall haben, also µj+1(h) < ∞, und wegen (84)auch vj(h) < ∞.Wegen (84) genugt es, die Monotonie und rechtseitige Stetigkeit fur µj+1(h) zu zeigen. Dazu

betrachte wir die Fourier-Transformation (charakteristische Funktion) von f(j+1)n (·, h), die

sich zu

F(f (j+1)

n (·; h))(t) =

R

f (j+1)n (x; h)eitxdx = φ(ht)(−it)j+1 · ecn(t)

berechnet, wobei

ecn(t) =1

n

n∑

k=1

eitXk

die empirische charakteristische Funktion bezeichnet. Somit ist fur h2 > h1 > 0:

F(f (j+1)

n (·, h2))(t) = ecn(t) · φ(h2t) · (−it)j+1

= ecn(t) · (−it)j+1 · φ(h1t) · φ((h22 − h2

1)12 t)

= F(f (j+1)

n (·, h1))(t) · φ

((h2

2 − h21)

12 t)

Daher istf (j+1)

n (x; h2) = (f (j+1)n (·, h1) ∗ φ

(·; (h2

2 − h21)

12)(x),

126 8 NICHTPARAMETRISCHE DICHTESCHATZUNG

wobei φ(x; σ) die Dichte von N(0, σ2) ist. Da diese total positiv ist, folgt, dass die Faltung

mit φ(·; (h2

2 − h21)

12

)die Anzahl der Vorzeichenwechsel µj+1(h) reduziert. Somit ist µj+1(h)

monoton fallend in h.Es bleibt die rechtsseitige Stetigkeit zu zeigen. Wir betrachten etwa gerades j, und es seien

a1 < b1 < . . . < ar < br, so dass f(j+1)n (ai, h0) < 0, f

(j+1)n (bi, h0) > 0, also dass jeweils ein

Vorzeichenwechsel zwischen diesen Punkten liege. Wegen der Stetigkeit von f(j+1)n (ai, ·) bzw.

f(j+1)n (bi, ·) gilt dies auch fur h ∈ (h0, h0 + ε). Daher gilt

limh↓h0

µj+1(h) ≥ µj+1(h0).

Da µj+1(h) aber monoton fallend ist, muss hier Gleichheit stehen, welches die rechtsseitigeStetigkeit ergibt.

Satz 8.6 zeigt, dass fur den Normalverteilungskern die sogenannte k-kritische Bandbreite

hkrit(k) = infh : fn(·; h) hat k (oder weniger) Moden

wohldefiniert ist. Die Untersuchung des Dichte Schatzers fur verschiedene kritische Bandbrei-ten

fn

(·; hkrit(k)

), k = 1, 2, 3, . . . ,

ist ein gutes deskriptives Tool, um eine Vorstellung von der Anzahl und der Struktur der Mo-den von f zu bekommen. Man kann die kritischen Bandbreiten hkrit(k) auch zur Konstruktioneines formalen Tests auf die Anzahl der Moden nutzen, s. Silverman (1981).

8.5 Modifikationen des Kern-Dichte Schatzers

Manchmal sind Modifikationen des einfachen Kern-Dichte Schatzers notig, um die Schatzungkonsistent zu machen oder zu verbessern. Wir betrachten einige solche Situationen.

a. Randkorrektur

Bisher hatten wir angenommen, dass f um x herum zweimal stetig differenzierbar ist. Nunbetrachten wir den Fall, dass x ein Randpunkt des Tragers von f ist.Wir nehmen dazu speziell an, dass f(x) = 0 fur x < 0, f(x) > 0 fur x ≥ 0 und f ist zweimalstetig rechtseitig differenzierbar in 0. Der symmetrische Kern K habe Trager in [−1, 1]. Dannist fur die Kern-Dichte Schatzung

Efn(x; h) = Kh ∗ f(x) =

R

K(z)f(x − hz)dz =

∫ min(x/h,1)

−1K(z)f(x − hz)dz

Fur x = 0 ist speziell

Kh ∗ f(0) =

∫ 0

−1K(z)f(0 − hz)dz =

1

2f(0) + O(h),

8.5 Modifikationen des Kern-Dichte Schatzers 127

die Schatzung ist also asymptotisch bei 0 verzerrt und unterschatzt f(0).

Man betrachtet nun allgemeiner einen Randpunkt (genauer: Folge von Randpunkten) xn =α · h, wobei 0 ≤ α < 1. Dann

Kh ∗ f(xn) =

∫ α

−1K(z)f(xn − hz)dz

= f(xn) · µ0,α(K) − hf ′(xn)µ1,α(K) +1

2h2f ′′(xn)µ2,α(K) + O(h2),

wobei

µi,α(K) =

∫ α

−1ziK(z)dz.

Da fur α < 1 in der Regel µ0,α(K) < 1, hat der Schatzer bei einer Folge von Randpunkteneinen asymptotischen Bias. Man hat verschiedene Moglichkeiten, diesen zu korrigieren.

1. Renormalisierung. Fur xn = α · h, 0 ≤ α < 1, renormalisiere den Schatzer

fn(xn, h) =1

nµ0,α(K)

n∑

k=1

Kh(x − Xk)

Dann gilt

Efn(xn, h) − f(xn) = −hf ′(xn)µ1,α(K)

µ0,α(K)+ O(h2)

Man erhalt also eine konsistente Schatzung. Da aber µ1,α(K) 6= 0, hat der Bias Ordnung O(h)und nicht O(h2), wie im Fall von inneren Punkten.

2. Randkern. Fur xn = α · h, 0 ≤ α < 1, benutze den von α abhangigen Randkern

Kα(u) = tα(u)K(u)1[−1,α)(u)

bei der Konstruktion von fn(xn; h). Dabei erfulle die Funktion tα(u)

∫ α

−1tα(n)K(n)dn = 1,

∫ α

−1ntα(n)K(n)dn = 0 (85)

In diesem Fall ergibt sich fur den Bias wie gewunscht

Kα,h ∗ f(xn) − f(xn) =1

2h2f ′′(xn)

∫ α

−1u2tα(u)K(u)du + o(h2),

also ein Fehler der Ordnung O(h2). Fur die Wahl der Funktion tα(n) hat man viele Moglich-keiten. Eine besonders einfache ist ein linearer Ansatz tα(n) = aα + nbα. Setzt man dieseForm in (85) ein und integriert aus, erhalt man ein lineares Gleichungssystem in aα, bα

aα =µ2,α

µ2,αµ0,α − µ21,α

, bα = − µ1,α

µ2,αµ0,α − µ21,α

.

b. TransformationAngenommen, gegeben seien X1, . . . , Xn ∼ f , aber die Dichte f sei schwer zu schatzen (etwa

128 8 NICHTPARAMETRISCHE DICHTESCHATZUNG

die Lognormalverteilung). Dann kann man Yi = T (Xi) setzten, wobei T eine streng monotoneTransformation ist (etwa logarithmieren). Dann gilt fur die Dichte g der Yi

f(x) = g(T (x)) · T ′(x). (86)

Dies ergibt sich direkt aus P (X1 ≤ x) = P (T−1(Y1) ≤ x) = P (Y1 ≤ T (x)) und Ableiten.

Man berechnet nun den Kern-Dichte Schatzer der Yi, und wendet dann (86) an, um folgendenSchatzer fur f zu erhalten

fTn (x; h) =

1

n

n∑

k=1

Kh(T (x) − T (Xk)) · T ′(x).

c. lokale und variable Bandbreitenwahl. Man kann auch die Bandbreite im Kern-DichteSchatzer a. lokal, also in Abhangigkeit von x, oder b. variabel, also in Abhangigkeit derBeobachtung Xi, wahlen. Wir wollen hierauf nicht genauer eingehen und verweisen auf Wandand Jones (1996).

8.6 Multivariate Kern-Dichte Schatzung

Dichte Schatzung wird besonders zur deskriptiven Analyse univariater Verteilungen genutzt.Man kann aber auch Dichte von d-variaten Zufallsvektoren mit Hilfe der Kern-Dichte Schatzungschatzen. Hier ist besonders der Fall bivariate Fall (d = 2) interessant, fur d ≥ 3 ist es haufigschwierig, die Schatzergebnisse zu interpretieren.

Gegeben seien Xi =(X11, . . . , Xid

)Ti = 1, . . . , n, unabhangige und identisch verteilte Zu-

fallsvektoren im Rd mit Dichte f , also

P (X1 ∈ A) =

Af(x)dx, A ⊂ Rd messbar.

Fur einen d-variaten Kern K : Rd → R, also K ∈ L1,∫

K(x)dx = 1, sowie eine symmetrischpositiv definite Bandbreitenmatrix H ∈ Rd×d setzt man

KH(x) =1

|H|K(H−1(x)

).

Dann ist der d-variate Kern-Dichte Schatzer mit Kern K und Bandbreitenmatirx H definiertduch

fn(x; H) =1

n

n∑

k=1

KH(x − Xk).

Haufig konstruiert man den Kern K mit Hilfe eines zugrundeliegenden univariaten KernsL : R → R (

∫L = 1). Es gibt mehrere Moglichkeiten:

a. Produktkern: K(x) =∏d

k=1 L(xk), x = (x1, . . . , xd)T .

b. Rotationsinvarianter Kern K(x) = CL,dL((xTx)12 ), wobei CL,d eine Normierungskonstante

8.6 Multivariate Kern-Dichte Schatzung 129

ist.

Der am haufigsten verwendete multivariate Kern ist der Normalverteilungskern, der sowohlein Produktkern als auch ein rotationsinvarianter Kern ist:

K(x) =1

(2π)d2

exp(− 1

2xTx

).

Auch bei der Wahl der Bandbreitenmatrix beschrankt man sich haufig auf eine einfacheDiagonalgestalt H = diag(h1, . . . , hd), fur die sich

fn(x; H) =1

n∏

j hj

n∑

k=1

K(x1 − Xk1

h1, . . . ,

xd − Xkd

hd

)

als Schatzer ergibt, oder sogar H = h · Id, wobei sich der Schatzer zu

fn(x; H) =1

nhd

n∑

k=1

K(x − Xk

h

)

reduziert.

Wir wollen nun den mittleren quadratischen Fehler fur einen multivariaten Kern-DichteSchatzer untersuchen. Zunachst erinnern wir dabei an die

Multivariate Taylorsche Formel: Sei g : Rd → R zweimal stetig partiell differenzierbar, dannist fur z → 0

g(x + z) = g(x) +(grad(g)(x)

)· z +

1

2zT H(g)z + o(zTz),

wobei

grad(g)(x) =( ∂

∂x1g(x), . . . ,

∂xdg(x)

), H(g)(x) =

( ∂

∂xj

∂xkg(x)

)j,k=1,...,d

.

Annahmen:

a. Die Dichte f ist zweimal stetig differenzierbar in x ∈ Rd.

b. Fur die Bandbreitenmatrix gilt H = Hn → 0, n · |H| → ∞, sowie

λmax(Hn)

λmin(Hn)≤ C,

wobei λmax(H) und λmin(H) den großten und kleinsten Eigenwert von H bezeichnen.

c. Der Kern K : Rd → [0,∞) ist nicht-negativ, hat kompakten Trager, es gelten∫

K = 1sowie ∫

zK(z)dz = 0,

∫zzT K(z)dz = µ2(K)Id.

Die zweite obige Bedingung lautet ausgeschrieben∫

z2i K(z)dz = µ2(K), i = 1, . . . , d,

∫zizjK(z)dz = 0, i 6= j.

130 8 NICHTPARAMETRISCHE DICHTESCHATZUNG

Satz 8.7Unter den Annahmen a., b. und c. gilt fur den mittleren quadratischen Fehler des d-variatenKern-Dichte Schatzers

MSE(fn(x; H)) =1

4µ2

2(K)(

Spur(H2H(f)(x)

))2+

1

n|H|ν0(K)f(x)+o((

Spur(H2))2)

+o(1

n|H|).

BeweisWir berechnen Bias und Varianz des Schatzers. Fur den Bias erhalt man mit der TaylorschenFormel

Efn(x; H) =

∫KH(x − y)f(y)dy

=

∫K(z)f(x − hz)dz

=

∫K(z)

(f(x) − grad(f)(x) · Hz +

1

2zT HH(f)(x)Hz + o(zT H2z)

)dz

= f(x) +1

2

∫K(z) Spur

(zzT HH(f)(x)H

)dz + o

(Spur

( ∫K(z)zzT H2dz

))

= f(x) +1

2Spur

(∫K(z)zzT dzHH(f)(x)H

)+ o(SpurH2)

= f(x) +1

2Spur

(µ2(K)IHH(f)(x)H

)+ o(SpurH2)

= f(x) +1

2µ2(K) Spur

(H2H(f)(x)

)+ o(SpurH2),

wobei wir in der zweiten Gleichheit die Substitution z = H−1(x − y) verwendet haben, unddie Linearitat des Spur-Operator ausgenutzt haben. Fur die Varianz ergibt sich

Var fn(x; H) =1

n

(∫K2

H(x − y)f(y)dy − O(1))

=1

n

( 1

|H|

∫K2(z)f(x − Hz)dz + O(1)

)

=ν0(K)f(x)

n|H|(1 + o(1)

).

Aus Satz 8.7 kann man auch eine Rate fur den MSE herleiten. Unter Annahme b. istλmax(Hn) = O

(λmin(Hn)

), daher hat man

MSE(fn(x; H)) = O(λ4min +

1

nλdmin

).

Fur λmin ≈ n− 14+d erhalt man die Rate

MSE(fn(x; H)) = O(n− 44+d ). (87)

Man kann zeigen, dass dies auch die optimale Rate (uber eine Klasse von zweimal differen-zierbaren Dichten) ist. Offenbar wird diese konvergenzrate mit wachsendem d langsamer. Dies

8.6 Multivariate Kern-Dichte Schatzung 131

ist bei parametrischen Schatzproblemen nicht der Fall, dort behalt man eine n−1 Rate (aller-dings werden die Schatzung dennoch schwerer, was sich in großeren Konstanten außert). Manspricht daher auch in (87) von dem Fluch der Dimension (curse of dimensionality).

Fur weitere Informationen zur multivariaten Dichte Schatzung (Bandbreitenwahl, Kernwahl,MISE) verweisen wir auf Wand und Jones (1996).

relevante R Befehle Die library MASS enthalt die Funktion kde2d, die zweidimensionaleDichtenschatzungen durchfuhrt. Es wird der bivariate Normalverteilungskern verwendet, unddie Bandbreite ist eine Diagonalmatrix. Dabei ist darauf zu achten, dass der Kern andersskaliert ist als in density mit bw (namlich wie dort mit der Option width). Daher mussenauch andere komponentenweisen Bandbreiten verwendet werden (etwa width.SJ(DATEN),mit den beiden Moglichkeiten fur method). Die geschatzte Dichte kann geplottet werden mitpersp, oder interaktiv in der library rgl durch persp3d.

132 9 NICHTPARAMETRISCHE REGRESSION

9 Nichtparametrische Regression

9.1 Problemstellung und Modelle

Die nichtparametrische Regression steht zur linearen und nichtlinearen Regression wie dienichtparametrische Dichteschatzung zur parametrischen Dichteschatzung. Wir betrachten also(Yi, xi)i=1,...,n unabhangig, wobei Yi ∈ R die abhangige Variable und xi ∈ R eine univariateKovariable sind.Bei der einfachen linearen Regression modelliert man

Yi = β0 + β1xi + εi,

wobei Eεi = 0. Somit ist EYi = β0+β1xi eine lineare Funktion der Kovariable xi. Allgemeinerkonnen auch endlich viele feste Basisfunktionen betrachtet werden, etwa Polynome p-tenGrades. Dies ergibt

Yi = β0 + β1xi + . . . + βpxp + εi,

und dann ist EYi = β0 + β1xi + . . . + βpxp eine Linearkombination dieser endlich vielen

festen Basisfunktionen, und ist daher bis auf endlich viele Parameter bestimmt. Auch bei dernichtlinearen Regression liegen endlich viele Parameter zugrunde, nur dass diese nichtlinearin die Abhangigkeit des Erwartungswertes EYi eingehen.

Wir mochten nun einen Zusammenhang der Form

Yi = m(xi) + εi, Eεi = 0,

schatzen, wobei m eine glatte, aber ansonsten nicht weiter spezifizierte Funktion ist, die alsonicht nur bis auf endlich viele Parameter bestimmt ist.

Von einem praktischen Gesichtspunkt her ist nichtparametrische Regression vor allem fur uni-variaten Pradiktor xi nutzlich, fur multivariate Pradiktoren ergeben sich ahnliche Problemewie bei multivariater Dichte Schatzung.

Wir betrachten folgende nichtparametrische Regressionsmodelle.

a. Festes Design. Man hat unabhangige Beobachtungen (Yi, xi)i=1,...,n, wobei xi ∈ R festeDesignpunkte sind, und es liegt ein Zusammenhang

Yi = m(xi) + v12 (xi) · εi (88)

zugrunde, wobei ε1, . . . , εn unabhangig und identisch verteilt sind mit Eε1 = 0 und Var ε1 = 1.Fur die Regressionsfunktion m gilt m ∈ C1, und fur die Varianzfunktion v gilt v > 0 undv ∈ C1.

EYi = m(xi), Var Yi = v(xi)

Falls v(xi) = σ2 heißt das Modell homoskedastisch, sonst heteroskedastisch.

b. Zufalliges Design. Hier hat man unabhangige und identisch verteilte Beobachtungen(Yi, Xi)i=1,...,n nach dem Modell

Yi = m(Xi) + v12 (Xi) · εi, (89)

9.2 Lineare Glatter 133

wobei ε1, . . . , εn unabhangig und identisch verteilt sind mit Eε1 = 0 und Var ε1 = 1, und dieX1, . . . , Xn unabhangig und identisch verteilt und unabhangig von den εj sind. Dann ist

E(Y1|X1 = x) = m(x), Var(Y1|X1 = x) = v(x),

m heißt wieder Regressionsfunktion und v Varianzfunktion.

Wir werden uns im Folgenden mit der Schatzung der Regressionsfunktion m im zufalligenDesign beschaftigen.

9.2 Lineare Glatter

Definition 9.1Ein Schatzer mn(x) fur m(x) im nichtparametrischen Regressionsmodell (89) mit zufalligemDesign heißt linearer Glatter (linear smoother), falls

mn(x) =n∑

k=1

Wk(x, X1, . . . , Xn)Yk,

wobei die Gewichte Wk(x, X1, . . . , Xn), k = 1, . . . , n nicht von den Y1, . . . , Yn abhangen.

Die Definition des lineare Glatters ubertragt sich auf das feste Design (88), indem man einfachXi durch xi ersetzt.

Wir betrachten einige Beispiele fur lineare Glatter, die auf Kern-Glattung basieren. Dazu seiK ein symmetrischer Kern (

∫K = 1) und h > 0 eine Bandbreite.

a. Nadaraya-Watson Schatzer. Dieser ist definiert durch

mNWn (x, h) =

1n

∑nk=1 YkKh(x − Xk)

fn(x, h), (90)

und ist somit ein linearer Glatter mit Gewichten

Wk(x) =K(x−Xk

h )∑n

j=1 K(x−Xj

h )

Die Form (90) ist motiviert uber die Formel

E(Y1|X1 = x) =

∫yfY X(y, x)dy

fX(x). (91)

Man erhalt (90), indem man fX und fXY durch Kern-Dichte Schatzer mit Kern K bzw.Produktkern basierend auf K ersetzt und in (91) im Zahler die Integration mit dem geschatzenfXY ausfuhrt.

b. Gasser-Muller Schatzer Man ordnet die Design-Punkte X(1) < X(2) < . . . < X(n)

der Große nach an. Die zu X(i) gehorige Beobachtung in den Yk’s wird mit Y[i] bezeichnet,

134 9 NICHTPARAMETRISCHE REGRESSION

d.h.(X(i), Y[i]

), i = 1, . . . , n, sind gerade die Paare (Xi, Yi). Setzte nun fur

Wk(x, X1, . . . , Xn) =

∫ δk

δk−1

Kh(x − t)dt,

wobei

δk =1

2(X(k) + X(k+1)), k = 1, . . . , n − 1,

und δ0 = −∞ sowie δn = ∞. Der Gasser-Muller Schatzer ist dann gegeben durch

mGM (x; h) =n∑

k=1

Y[k]Wk(x, X1, . . . , Xn).

c. Lokale Polynom-Schatzer Die Idee beim lokalen Polynomschatzer ist, lokal um xein Polynom p-ten Grades an die Regressionsfunktion m anzupassen, wobei die Lokalisierungdurch Kern-Gewichte erfolgt. Fur einen Grad p ≥ 0 setze

β(x; p, h) =(β0(x; p, h), . . . , βp(x; p, h)

)T,

so dass

β(x, p, h) = argminβ∈Rp+1

n∑

k=1

Kh(Xk − x)(Yk − β0 − β1(Xk − x) − . . . − βp(Xk − x)p

)2.

Der Vektor β(x; p, h) berechnet sich nach der Formel fur den gewichteten kleinste QuadrateSchatzer zu

β(x, p, h) = (XTx Wx(h)Xx)−1XT

x Wx(h)Y,

wobei

Xx =

1 X1 − x · · · (X1 − x)p

......

...1 Xn − x · · · (Xn − x)p

,

Wx(h) = diag(Kh(X1 − x), . . . , Kh(Xn − x)).

Beachte, dass Xx vollen Rang hat (als Teilmatrix der Vandermonde Matrix), falls die Xi alleverschieden sind. Man erhalt nun den lokalen Polynom Schatzer von m der Ordnung p (mitKern K und Bandbreite h) als

mn(x; p, h) = β0(x; p, h). (92)

Dies ist ein linearer Glatter, wobei die Gewichte in der erster Zeile von (XTx Wx(h)Xx)−1XT

x Wx(h)stehen. Man erhalt auch noch Schatzungen der j-ten Ableitung von m (j ≤ p durch

mkn(x; p, h) = βk(x; p, h) · k!.

Wir betrachten zwei Spezialfalle in (92). Der lokal-konstante Schatzer (p = 0) ist einfachwieder der Nadaraya-Watson Schatzer. Fur p = 1 erhalt man den lokal-linearen Schatzer.Dieser hat explizit folgende Gestalt. Es ist

XTx Wx(h)Xx =

(s0,n(x, h) s1,n(x, h)s1,n(x, h) s2,n(x, h)

), wobei sj,n(x, h) =

n∑

k=1

(Xk − x)jKh(Xk − x).

9.3 Mittlerer quadratischer Fehler 135

Dann ist

(XTx Wx(h)Xx)−1 =

1

s2,n(x, h)s0,n(x, h) − s21,n(x, h)

(s2,n(x, h) −s1,n(x, h)−s1,n(x, h) s0,n(x, h)

)

und

mn(x, 1, h) =n∑

k=1

s2,n(x, h) − s1,n(x, h)(Xk − x)

s2,n(x, h)s0,n(x, h) − s21,n(x, h)

Kh(Xk − x)Yk.

Der lokal-lineare Schatzer ist der am haufigsten verwendete Schatzer fur m. Er ist nochhinreichend einfach und hat bessere statistische Eigenschaften als etwa der Nadaraya-WatsonSchatzer oder der Gasser-Muller Schatzer, wie wir im Folgenden sehen werden.

Wir erwahnen noch, dass sich alle Schatzer auch auf das feste Design anwenden lassen, indemman einfach Xi durch xi ersetzt.

relevante R Befehle Die Funktion ksmooth berechnet den Nadaraya-Watson Regressi-onsschatzer. Die library KernSmooth enthalt die Funktion locpoly zur Berechnung des loka-len Polynom Schatzers. Die Bandbreite kann mit dpill fur den lokal-linearen Schatzer mitGaußschen Kern geschatzt werden.

9.3 Mittlerer quadratischer Fehler

In diesem Abschnitt wenden wir uns dem mittleren quadratischen Fehler (MSE) der obigenSchatzer, insbesondere des lokal-linearen Schatzers, im zufalligen Design zu. Wir betrachtendabei den bedingten MSE, gegeben die Designpunkte. Dieser ist fur einen Schatzer mn(x) ander Stelle x0 definiert durch

MSE(mn(x)|X1, . . . , Xn

)= E

((mn(x) − m(x)

)2|X1, . . . , Xn

).

Zunachst betrachten wir den MSE an einem inneren Punkt, und machen die

Annahmen

a. Der Kern K ist symmetrisch, ≥ 0 und hat kompakter Trager in [−1, 1].b. Die Dichte f der Xi ist stetig bei x und f(x) > 0.c. Die Varianzfunktion σ2(·) ist stetig in x.d. Die Regressionsfunktion m ist zweimal stetig differenzierbar in x.e. Fur die Bandbreite gilt h → 0, nh → ∞.

Wir fuhren die folgende vereinfachende Bezeichnungsweise fur Kernkonstanten ein:

µj =

∫xjK(x)dx, νj =

∫yjK2(y)dy. (93)

136 9 NICHTPARAMETRISCHE REGRESSION

Satz 9.2Unter den Annahmen a.-e. gilt fur den mittleren quadratischen Fehler des lokal-linearenSchatzers

MSE(m(x; 1, h)|X1, . . . , Xn) =σ2(x)

f(x)

ν0

nh

∫K2(y)dy + op

((nh−1)

)

+h4

(m′′(x)

)2

4µ2

2 + op

((h4)).

Der erste Term entspricht dabei der asymptotischen Varianz, der zweite dem asymptotischenquadrierten Bias. Wir beginnen mit einigen Vorbereitungen. Setzte

Sn(x, h) = XTx Wx(h)Xx =

(s0,n(x, h) s1,n(x, h)s1,n(x, h) s2,n(x, h)

).

Dann ist

E(β(x; 1, h)|X1, . . . , Xn

)=

(Sn(x, h)

)−1XT

x Wx(h)m,

Cov(β(x; 1, h)|X1, . . . , Xn) =(Sn(x, h)

)−1XT

x Wx(h)ΣWx(h)Xx

(Sn(x, h)

)−1, (94)

wobeim =

(m(X1), . . . , m(Xn)

), Σ = diag(σ2(X1), . . . , σ

2(Xn)).

Lemma 9.3Unter den Vorraussetzungen des Satzes gilt

sj,n(x, h) = n · f(x)hjµj

(1 + op(1)

).

BeweisEs ist

Esj,n(x, h) = n

∫(y − x)jKh

((y − x)/h

)f(y)dy

= nhj

∫sjK(s)f(x + hs)ds

= nhjµjf(x)(1 + o(1)),

und

Var sj,n(x, h) ≤ nE((X1 − x)2jK2

h(X1 − x))

= n

∫(y − x)2jK2

h(y − x)f(y)dy

= O(nh2j−1)

Somit

sj,n(x, h) = Esj,n(h) + Op

((Var sj,n(h))

12)

= nhjµjf(x) ·(1 + o(1) + op((nh)−1/2),

und mit Benutzung von Annahme e. die Behauptung.

9.3 Mittlerer quadratischer Fehler 137

Beweis von Satz 9.2 Aus dem Lemma folgt

Sn(x, h) = nf(x) · H(

µ0 µ1

µ1 µ2

)H(1 + pp(1)

), H = diag(1, h).

Dann ist auch (Beweis!)

S−1n (x, h) =

1

nf(x)H−1

(µ0 µ1

µ1 µ2

)−1

H−1(1 + op(1)

). (95)

Wir betrachten zunachst die bedingte Kovarianz in (94). Es ist

XTx Wx(h)ΣWx(h)Xx =

(s∗0,n(x, h) s∗1,n(x, h)

s∗1,n(x, h) s∗2,n(x, h)

)=: S∗

n(x, h)

wobei

s∗j,n(x, h) =n∑

i=1

K2h(Xi − x)σ2(Xi)(Xi − x)j .

Mit einer Rechnung wie in Lemma 9.3 kann man zeigen

s∗j,n(x, h) = nhj−1f(x)σ2(x)νj

(1 + op(1)

),

wobei die Kern Konstanten νj in (93) definiert sind, und somit

S∗n(x, h) =

n

hσ2(x)f(x)H

(ν0 ν1

ν1 ν2

)H(1 + op(1)

).

Hieraus und aus (95) erhalt man

Cov(β(x; 1, h)|X1, . . . , Xn

)=

σ2(x)

f(x)

1

nhH−1

(µ0 µ1

µ1 µ2

)−1(v0 v1

v1 v2

)(µ0 µ1

µ1 µ2

)H−1

(1+op(1)

)

Somit ist (µ0 = 1, µ1 = 0)

Var(m(x; 1, h)|X1, . . . , Xn

)=

σ2(x)

f(x)

ν0

nh

∫K2(y)dy

(1 + op(1)

).

Als nachstes betrachten wir den Bias. Setze β(x) =(m(x), m′(x)

)T. Dann ist

E(β(x; 1, h) − β(x)|X1, . . . , Xn

)= S−1

n (x, h)XTx Wx(h)

(m − Xxβ(x)

).

Die Eintrage von Wx(h) sind nur fur Xi ∈ [x − h, x + h] ungleich Null. Fur solche Xi ist

m(Xi) − m(x) − (Xi − x)m′(x) =1

2(Xi − x)2m′′(ξi) = (Xi − x)2

m′′(x)

2

(1 + op(1)

),

wobei oP (1) unabhangig von dem Index i ist. Daher ist

XTx Wx(h)(m − Xxβ) = nf(x)h2 m′′(x)

2· H(

µ2

µ3

)(1 + op(1)

),

138 9 NICHTPARAMETRISCHE REGRESSION

und somit

E(β(x; 1, h) − β(x)|X1, . . . , Xn

)= h2 m′′(x)

2· H−1

(µ0 µ1

µ1 µ2

)−1(µ2

µ3

)(1 + op(1)

).

Insbesondere

Bias(m(x; 1, h)|X1, . . . , Xn

)= h2 m′′(x)

2µ2

(1 + op(1)

).

Dies beendet den Beweis.

Der Beweis kann ubertragen werden auf den Schatzer mkn(x; p, h) der k-ten Ableitung. Dabei

hangt die Formel fur den Bias aber davon ab, on die Differenz zwischen Grad des lokalenPolynomschatzers und zu schatzender Ableitung ungerade ist (wie oben) oder gerade ist (wieunten fur den Nadaraya-Watson Schatzer. (s. Fan und Gijbels 1996)

Bemerkung. Wir geben noch die Ergebnisse fur asymptotische Varianz und asymptoti-schen Bias fur den Nadaraya-Watson Schatzer und den Gasser-Muller Schatzer im zufalligenDesign an.

a. Fur den Nadaraya-Watson Schatzer

Var(mNW (x, h)|X1, . . . , Xn

)=

σ2(x)

f(x)

ν0

nh

(1 + op(1)

),

Bias(mNW (x, h)|X1, . . . , Xn

)=

(m′′(x) +

2m′(x)f ′(x)

f(x)

)h2 µ2

2

(1 + op(1)

).

b. Fur den Gasser-Muller Schatzer

Var(mGM (x, h)|X1, . . . , Xn

)=

3

2· σ2(x)

f(x)

ν0

nh

(1 + op(1)

),

Bias(mGM (x, h)|X1, . . . , Xn

)=

(m′′(x)µ2

2h2(1 + op(1)

).

Man erkennt also, dass der Nadaraya-Watson Schatzer asymptotisch die gleiche Varianz wieder lokal-lineare Schatzer hat, aber dass sein Bias einen zusatzlichen Term enthalt, der vonder Design Dichte f abhangt.Dagegen hat der Gasser-Muller Schatzer asymptotisch den gleichen Bias wie der lokal-lineareSchatzer, aber seine Varianz ist asymptotisch um den Faktor 3/2 großer.

Bemerkung. Wir gehen noch kurz auf das Verhalten bei festem Design ein. Seien etwa0 < x1 < . . . < xn < 1 mit einer zweimal stetig differenzierbaren Designdichte f , d.h.

xi =

∫ i/n

0f(t) dt.

Die Resultate fur den lokal-linearen Schatzer und den Nadaraya-Watson Schatzer bleibendann gultig, man muss nur die Dichte der Xi durch die Designdichte ersetzten, und die oP

durch o. Bei der Varainz des Gasser-Muller Schatzers verschwindet dagegen der Faktor 3/2,d.h. Bias und Varianz an einem inneren Punkt sind im festen Design asymptotisch gleichdenen des lokal-linearen Schatzers.

9.3 Mittlerer quadratischer Fehler 139

Verhalten am RandNun betrachten wir den MSE an einem Randpunkt. Dazu ersetzten wir die Annahmen b.-d.durch

Annahmen

b.’ Die Dichte f der Xi habe Trager in [0,∞), es sei f(0) > 0, f sei auf [0,∞) stetig undzweimal differenzierbar.c.’ Die Varianzfunktion σ2(·) ist rechtsseitig stetig in 0.d. Die Regressionsfunktion m ist zweimal rechtsseitig stetig differenzierbar in 0.

Wir betrachten nun einen Randpunkt der Form xn = α · h, 0 ≤ α < 1, und fuhren dieKernkonstanten

µl,α =

∫ 1

−αzlK(z)dz, vl,α =

∫ 1

−αzlK2(z)dz (96)

ein. Dann gilt fur den lokal-linearen Schatzer

Satz 9.4Unter den Annahmen a., b.’-d.’,e. gilt fur den mittleren quadratischen Fehler des lokal-linearenSchatzers an dem Randpunkt xn

MSE(m(xn; 1, h)|X1, . . . , Xn) =σ2(0)

nhf(0)

µ22,αv0,α − 2µ1,αµ2,αv1,α + µ2

1,αv2,α

(µ0,αµ2,α − µ21,α)2

+h4(m′′(0)

2

µ22,α − µ1,αµ3,α

µ0,αµ2,α − µ21,α

)2

+op

((nh−1)

)+ op

((h4)).

Wiederum enspricht der erste Term dabei der asymptotischen Varianz und der zweite demasymptotischen quadrierten Bias. Der lokal-lineare Schatzer macht also eine automatischeRandkorrektur, man erhalt die gleichen Raten wie fur einen inneren Punkt, nur mit verander-ten Konstanten.

BeweisDer Beweis von Satz 9.4 verlauft analog zu dem von Satz 9.2, man muss nur die Kernkonstan-ten µj und νj durch die Randkernkonstanten (96) ersetzten. Wir skizzieren die wesentlichenSchritte. Es ist

Esj,n(xn, h) = n

∫(y − xn)j 1

hKh

(y − xn

h

)f(y)dy

= nhj

∫ 1

−αzjK(z)f(hz + xn)dz

= nhjµj,αf(0)(1 + o(1)

),

und auchsj,n(xn, h) = nhjµj,αf(0)

(1 + oP (1)

).

140 9 NICHTPARAMETRISCHE REGRESSION

Ahnlich ists∗j,n(xn, h) = nhj−1f(0)σ2(0)vj,α

(1 + oP (1)

).

Somit erhalt man

Cov(β(xn; 1, h) |X1, . . . , Xn

)=

σ2(0)

nhf(0)

1

(µ0,αµ2,α − µ21,α)2

H−1

(µ2,α −µ1,α

−µ1,α µ0,α

)

·(

v0,α v1,α

v1,α v2,α

)(µ2,α −µ1,α

−µ1,α µ0,α

)H−1

(1 + oP (1)

)

Insbesondere ist

Var(mn(xn; 1, h)|X1, . . . , Xn

)=

σ2(0)

nhf(0)

µ22,αv0,α − 2µ1,αµ2,αv1,α + µ2

1,αv2,α

(µ0,αµ2,α − µ21,α)2

(1 + oP (1)

).

Um den asymptotischen Bias zu berechnen, zeigt man zunachst, dass

XTx Wx(h)(m − Xxβ) = nf(0)h2 m′′(0)

2· H(

µ2,α

µ3,α

) (1 + oP (1)

).

Dann erhalt man

Bias(β(xn; 1, h)|X1, . . . , Xn) = h2 m′′(0)

2· H−1

(µ0,α µ1,α

µ1,α µ2,α

)−1(µ2,α

µ3,α

) (1 + oP (1)

).

Daher

Bias(m(xn; 1, h)|X1, . . . , Xn) = h2 m′′(0)

2

µ22,α − µ1,αµ3,α

µ0,αµ2,α − µ21,α

(1 + oP (1)

).

Bemerkunga. Fur Nadaraya-Watson gelten

Var(mNW

n (x; h)|X1, . . . , Xn

)=

σ2(0)

f(0)

1

nh

v0,α

µ20,α

(1 + oP (1)

),

Bias(mNW

n (x; h)|X1, . . . , Xn

)= O(h).

Der Nadaraya-Watson Schatzer ist also am Rand auch asymptotisch konsistent, hat aber einelangsamere Rate als der lokal-lineare Schatzer. Allerdings ist die Konstante in der Varianzdes Nadaraya-Watson Schatzers tendenziell kleiner als diejenige des lokal-linearen Schatzers,welches fur endliche Stichproben einen merklichen effekt hat.b. Man kann zeigen, dass der Gasser-Muller Schatzer (ahnlich wie eine Kern-Dichte Schatzerohne Randkorrektur) am Rand asymptotisch verzerrt ist.

9.4 Minimax-Schatzung

Um die Qualitat eines Schatzers zu messen, betrachtet man seine Konvergenzeigenschaftengleichmaßig uber bestimmte Funktionenklassen. Um optimale Schatzer uber solche Funktio-nenklassen zu bestimmen, muss man diese maximale Risiko uber eine Klasse von Schatzern

9.4 Minimax-Schatzung 141

minimieren. Wir betrachten eine Klasse von zweimal stetig differenzierbaren Funktionen, undminimieren das zugehorige Risiko uber die Klasse der linearen Glatter. Dies fuhrt auf dassogenannte lineare minimax Risiko.

Wir betrachten die nichtparametrische Regressionsmodell mit zufalligem Design

Yi = m(Xi) + σ(Xi)εi,

wobei die Dichte der Xi, f , sowie die Varianzfunktion σ2 festgehalten werden, und m uberdie Funktionenklasse

C2(x0) =m :

∣∣m(z) − m(x0) + m′(x0)(z − x0)∣∣ ≤ C

|z − x0|22

.

fur einen festen Punkt x0 ∈ R variiert. Wir nehmen weiter an, dass

a. f stetig ist und f(x0) > 0,b. σ(·) in x0 stetig ist.

Somit betrachten wir das lineare Minimax-Risiko in einem inneren Punkt. Dieses ist fur einenlinearen Glatter mn(x) der Form

mn(x) =n∑

k=1

Wk(x, X1, . . . , Xn)Yk

definiert durch

RL

(n, C2(x0)

)= inf

mn linearsup

m∈C2(x0)E((

mn(x0) − m(x0))2|X1, . . . , Xn

).

Satz 9.5Es ist

RL(n, C2) =3

415−

15

(√Cσ2(x0)

nf(x0)

) 45 (

1 + op(1)),

und fur den lokal linearen Schatzer m(x0; 1, h) mit Bandbreite

h =( 15σ2(x0)

f(x0)C2n

) 15

(97)

und dem Epanechnikov-Kern K gilt:

supm∈C2

E((

mn(x0; 1, h) − m(x0))2|X1, . . . , Xn

)= RL(n, C2)

(1 + op(1)

).

Der lokal-lineare Schatzer mit Epanechnikov Kern und optimaler Bandbreite erreicht alsoasymptotisch das lineare Minimax Risiko.

BeweisSatz 97 besagt fur den lokal-linearen Schatzer

E((

mn(x0; 1, h) − m(x0))2|X1, . . . , Xn

)=(m′′(x0)h

2µ22

4+

1

nh

v0σ2(x0)

f(x0)

)(1 + op(1)

).

142 9 NICHTPARAMETRISCHE REGRESSION

Fur den Epanechnikov Kern berechnen sich die Kern-Konstanten zu µ2 = 18 , v0 = 3

5 . Da inC2(x0) die Ableitung m′′(x0) ≤ C, ergibt sich mit der speziellen Wahl von h in (97) ergibtsich

supm∈C2

E((mn(x0, 1, h) − m(x0))2|X1, . . . , Xn) =

3

415−

15 (

√Cσ2(x0)

nf(x0))

45(1 + op(1)

)(98)

Fur Details zu diesem Argument siehe Fan (1995). Es genugt nun offenbar zu zeigen, dass dierechte Seite von (98) eine asymptotische untere Schranke fur das lineare Minimax Risiko ist.Nun betrachten wir einen allgemeinen linearen Glatter. Man zerlegt das Risiko in quadriertenBias und Varianz

E((

mn(x0) − m(x0))2|X1, . . . , Xn

)=

( n∑

j=1

Wj(x0, X1, . . . , Xn)m(Xj) − m(x0))2

+n∑

j=1

W 2j (x0, X1, . . . , Xn)σ2(Xj) (99)

Um das Risiko in (99) von unten uber alle linearen Schatzer zu beschranken, benutzten wir

Lemma 9.6Seien a, c ∈ Rn, ci > 0, b ∈ R. Dann ist

minw∈Rn

((wT a − b)2 +n∑

i=1

ciw2i ) =

b2

1 +∑

j(a2j/cj)

und das Minimum wird angenommen durch

wj =b

1 +∑

i(a2i /ci)

aj

cj

Beweis des Lemmas. Durch wi → wi/√

ci reduziere auf

minw∈Rn

((wT a − b)2 + wT w), ai = ai/√

ci

Weiter sei Q orthogonal so, dass Qa = aT a · e1. Durch w → Qw gehe uber zu

minw∈Rn

((wT aT ae1 − b)2 + wT w

).

Dann offenbar korrekt, da

((aT a)2 + 1)w21 − 2baT aw1 + b2 → min

ergibt

w1 =b(aT a)

1 + (aT a)2.

Wir setzten nun den Beweis des Satzes fort. Wenn wir das Lemma auf (99) anwenden, ergibtsich, dass fur eine Funktion m ∈ C2(x0) und fur alle linearen Glatter mn

E((mn(x0) − m(x0))2|X1, . . . , Xn) ≥ m2(x0)

1 +∑n

j=1 m2(Xj)/σ2(Xj)(100)

9.4 Minimax-Schatzung 143

Da im linearen Minimax-Risiko das supremum uber alle Funktionen m ∈ C2(x0) gebildetwird, erhalt man eine untere Abschatzung, wenn man in (100) spezielle, von n abhangige

Funktionen m einsetzt. Wahle speziell m(y) = m(y)n = 1

2b2n(1 − C(y − x0)

2/bn)+. Dann istmn ∈ C2(x0), und daher nach (100)

RL(n, C2(x0)) ≥ minmn linear

E((

mn(x0) − mn(x0))2|X1, . . . , Xn

)

≥ m2n(x0)

1 +∑n

j=1 m2n(Xj)/σ2(Xj)

(101)

Fur bn = o(1) ergibt sich

Em2

n(X1)

σ2(X1)=

b4n

4

∫[(1 − C(y − x0)/b2

n)+]2

σ2(y)f(y)dy

=b5n

4

∫ 1/√

c

−1/√

c

(1 − Cz2)2

σ2(x0 + bnz)f(x0 + bnz)dz

=b5n

4

f(x0)

σ2(x0)

∫ 1/√

c

−1/√

c(1 − Cz2)2dz

(1 + o(1)

)

=4

15b5n

f(x0)

σ2(x0)

1√c

(1 + o(1)

)

Weiter ist

Varm2

n(X1)

σ2(X1)= O(b8

n)

Somitn∑

j=1

m2(Xj)

σ2(Xj)= n

4

15b5n

f(x0)

σ2(x0)

1√c

(1 + oP (1)

)

und mit (101) und der Wahl von mn erhalte

RL(n, C2) ≥b4n4

1 + 415nb5

nf(x0)σ2(x0)

1√c

(1 + oP (1)

).

Maximiere die linke Seite uber bn und erhalte mit

bn = (15√

cσ2(x0)

nf(x0))

15

die Abschatzung

RL(n, C2) ≥3

415−

15 (

√cσ2(x0)

nf(x0))

45(1 + oP (1)

). (102)

Da fur den lokalen Polynomschatzer in (98) Gleichheit steht und

RL(n, C2(x0)) ≤ maxm∈C2(x0)

E((

mn(x0, 1, h) − m(x0))2|X1, . . . , Xn

),

folgt Gleichheit in (102) und die Behauptung des Satzes.

144 9 NICHTPARAMETRISCHE REGRESSION

Definition 9.7Fur einen linearen Glatter mn definiert man die lineare Effizienz durch

effL(mn) =( RL(n, C2)

supm∈C2(x0) E((mn(x0) − m(x0))2|X1, . . . , Xn

)) 5

4.

Wir geben noch die lineare Effizienz (ohne(1 + oP (1)

)Faktor) der obigen Schatzer an.

Kern lokal-linear Gasser-Muller Nadaraya-Watson

Epanechnikov 1 2/3 0Normal 0,9512 0,6341 0

Wir bemerken, dass sich die Effizienz von 0 bei dem Nadaraya-Watson Schatzer durch denzusatzlichen Term im Bias ergibt, welche die erste Ableitung m′(x0) beinhaltet, die in C2(x0)beliebig groß werden kann.

Abschließende Bemerkungen Themen wie Bandbreitenwahl, Kernwahl und Bandbrei-tenwahl und Konfidenzintervalle konnen ahnlich wie fur Dichteschatzung behandelt werden.Wir verweisen dafur auf die Literatur.

145

A Verzeichnis der Satze

1.1 lineare Transformationen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

1.2 Erwartungswert quadratischer Formen . . . . . . . . . . . . . . . . . . . . . . . . 4

1.3 Lineare Transformation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

1.4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

1.5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

1.6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

1.7 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

1.9 Craig und Sakamoto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

2.2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

2.3 Gauß-Markov-Aitken . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

2.5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

2.6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

2.7 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

2.9 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

2.13 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

2.14 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

2.15 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

3.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

3.4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

4.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

5.7 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

5.9 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79

5.10 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80

5.12 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82

146 A VERZEICHNIS DER SATZE

6.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96

6.2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97

6.3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100

8.3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117

8.5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123

8.6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125

8.7 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130

9.2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136

9.4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139

9.5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141