83
Vorlesung Lineare Modelle (Prof. uchenhoff) Juliane Manitz May 15, 2009 1

Vorlesung Lineare Modelle (Prof. Kuchenho ) · Vorbemerkungen Das ist ein Skript der Vorlesung "Lineare Modelle", das auf dem LATEX-File von Prof. Kuc henho basiert. Es ist fu r mich

Embed Size (px)

Citation preview

Page 1: Vorlesung Lineare Modelle (Prof. Kuchenho ) · Vorbemerkungen Das ist ein Skript der Vorlesung "Lineare Modelle", das auf dem LATEX-File von Prof. Kuc henho basiert. Es ist fu r mich

Vorlesung Lineare Modelle (Prof.Kuchenhoff)

Juliane Manitz

May 15, 2009

1

Page 2: Vorlesung Lineare Modelle (Prof. Kuchenho ) · Vorbemerkungen Das ist ein Skript der Vorlesung "Lineare Modelle", das auf dem LATEX-File von Prof. Kuc henho basiert. Es ist fu r mich

Vorbemerkungen

Das ist ein Skript der Vorlesung ”Lineare Modelle”, das auf dem LATEX-File von Prof. Kuchenhoffbasiert. Es ist fur mich zur besseren Ubersicht entstanden und hat sich durch die Vorbereitung aufdie Vordiploms-Prufungen stark erweitert. Zusaetzlich sollte es mir helfen LATEXdurch Anwendungzu erlernen.

Dabei habe ich auch meine eigenen Gedanken eingebracht, der sich in Form von Kommentaren undBeispielen, die ich aus der Vorlesung mit nach Hause genommen habe, außern. Weiterhin habeich fur die Vordiplomsvorbereitung hilfreiche Beweise und Erklarungen aus dem Buch von Prof.Toutenburg1 erganzt. Zusatzlich erschien es mir sinnvoll, Grafiken einzufugen, um fur einzelneSachverhalte eine bessere Vorstellung erhalten zu konnen.Eigene Kommentare sind durch solche kleinen Dreiecke gekennzeichnet: ..

Derzeit sind Kapitel 1 bis 3 von Herrn Kuchenhoff durchgesehen und korrigiert. Druckt euch auchbitte erstmal nur diese Teile aus, da im Laufe des Sommersemesters 2009 weitere Korrekturenstattfinden werden.

Sollten euch Fehler, weitere hilfreiche Kommentare oder andere Hinweise, Verbesserungsvorschlageetc. einfallen, bin ich euch sehr dankbar. (Bitte an [email protected] oder personlich) Dieanderen Nutzer werden euch auch sehr dankbar sein.

Also viel Erfolg damit. Ich hoffe es hilft euch etwas.

Viele Gruße, Jule

1Toutenburg, Helge: Lineare Modelle. Theorie und Anwendungen. Heidelberg: 2., neu bearbeitete und erweiterteAuflage, Physica-Verlag, 2003.

2

Page 3: Vorlesung Lineare Modelle (Prof. Kuchenho ) · Vorbemerkungen Das ist ein Skript der Vorlesung "Lineare Modelle", das auf dem LATEX-File von Prof. Kuc henho basiert. Es ist fu r mich

Contents

1 Das einfache lineare Regressionsmodell 71.1 KQ-Schatzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

1.1.1 Eigenschaften des KQ-Schatzers . . . . . . . . . . . . . . . . . . . . . . . . 81.1.2 Schatzung von σ2 und Konfidenzintervalle fur β0 und β1 . . . . . . . . . . . 91.1.3 Quadratsummenzerlegung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101.1.4 Prognose . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

1.2 Beispiele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131.2.1 Erlauterung der Quadratsummenzerlegung: . . . . . . . . . . . . . . . . . . 131.2.2 Beipiel: Osteoporose . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131.2.3 Lineares Modell als sinnvolle Annaherung . . . . . . . . . . . . . . . . . . . 13

2 Das multiple lineare Regressionsmodell 152.1 Darstellung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152.2 Modellannahmen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152.3 KQ-Schatzer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

2.3.1 Eigenschaften des KQ-Schatzers . . . . . . . . . . . . . . . . . . . . . . . . 162.4 Hat-Matrix P und Residualmatrix Q . . . . . . . . . . . . . . . . . . . . . . . . . . 16

2.4.1 Eigenschaften von P und Q . . . . . . . . . . . . . . . . . . . . . . . . . . . 162.5 Erwartungstreue Schatzung von σ2 . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

3 Quadratsummenzerlegung und statistische Inferenz im multiplen linearen Regressions-modell 183.1 Quadratsummenzerlegung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

3.1.1 Erwartungswerte der Quadratsummen . . . . . . . . . . . . . . . . . . . . . 183.1.2 Mittlere Quadratsummen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

3.2 Verteilungsdefinitionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193.2.1 Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193.2.2 Chi-Quadrat-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203.2.3 t-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203.2.4 F-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

3.3 Statistische Inferenz im multiplen Regressionsmodell . . . . . . . . . . . . . . . . . 213.3.1 Satz von Cochran . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213.3.2 Verteilung des KQ-Schatzers unter Normalverteilung . . . . . . . . . . . . . 213.3.3 Overall-Tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223.3.4 Wald-Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 233.3.5 Likelihood–Quotienten-Test . . . . . . . . . . . . . . . . . . . . . . . . . . . 233.3.6 Reparametrisierung des Modells unter linearer Restriktion . . . . . . . . . . 25

3.4 Sequentielle und Partielle Quadratsummen . . . . . . . . . . . . . . . . . . . . . . 253.4.1 Partielle Quadratsummen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 263.4.2 Sequentielle Quadratsummen . . . . . . . . . . . . . . . . . . . . . . . . . . 263.4.3 . Beispiel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

3.5 Bereinigung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 273.6 Simultane Konfidenzintervalle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

3.6.1 Bonferroni-Konfidenzintervalle . . . . . . . . . . . . . . . . . . . . . . . . . 273.6.2 Konfidenzintervalle nach Scheffe . . . . . . . . . . . . . . . . . . . . . . . . 283.6.3 Konfidenzellipsoide . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

3.7 Eigenschaften des KQ-Schatzers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 283.7.1 Das Gauss-Markov-Theorem . . . . . . . . . . . . . . . . . . . . . . . . . . 283.7.2 Konsistenz des KQ–Schatzers . . . . . . . . . . . . . . . . . . . . . . . . . . 293.7.3 Asymptotische Normalitat des KQ–Schatzers . . . . . . . . . . . . . . . . . 29

4 Modelle mit diskreten Einflussgroßen 304.1 Einfache Varianzanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

4.1.1 Mittelwertsmodell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 314.1.2 Effektkodierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 314.1.3 Modell mit Referenzkategorie K: . . . . . . . . . . . . . . . . . . . . . . . . 324.1.4 Nullhypothesen zum Test auf “Effekt von C”: . . . . . . . . . . . . . . . . . 32

3

Page 4: Vorlesung Lineare Modelle (Prof. Kuchenho ) · Vorbemerkungen Das ist ein Skript der Vorlesung "Lineare Modelle", das auf dem LATEX-File von Prof. Kuc henho basiert. Es ist fu r mich

4.2 Modell der zweifaktoriellen Varianzanalyse . . . . . . . . . . . . . . . . . . . . . . . 324.2.1 Modell mit einfachen Effekten (Effektdarstellung) . . . . . . . . . . . . . . . 324.2.2 Modell mit Interaktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 334.2.3 Zwei-Faktor-Modell mit Referenz-Kategorie . . . . . . . . . . . . . . . . . . 33

4.3 Erweiterung auf Kombination von diskreten und stetigen Merkmalen (Kovarianz-analyse) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 344.3.1 Erweiterung auf Geraden mit versch. Steigung . . . . . . . . . . . . . . . . 344.3.2 Darstellung mit Referenzkodierung . . . . . . . . . . . . . . . . . . . . . . . 35

5 Behandlung von metrischen Einflussgroßen 365.1 Einfach linear . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 365.2 Transformiert . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 365.3 Als Polynom . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 365.4 Stuckweise konstante Funktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 365.5 Stuckweise linear . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 365.6 Regressionsspline . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 375.7 Trigonometrische Polynome zur Modellierung von periodischen Termen (Saisonfigur) 37

6 Probleme bei der Regression und Diagnose 386.1 Verschiedene Typen von Residuen . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

6.1.1 Standardisierte Residuen: . . . . . . . . . . . . . . . . . . . . . . . . . . . . 386.1.2 Studentisierte Residuen: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 386.1.3 Rekursive Residuen: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 396.1.4 Kreuzvalidierungs - Residuen: . . . . . . . . . . . . . . . . . . . . . . . . . . 39

6.2 Diagnose und Therapie von Problemen bei Regression . . . . . . . . . . . . . . . . 406.2.1 Die Storterme εi sind nicht normalverteilt . . . . . . . . . . . . . . . . . . . 406.2.2 Heterogene Varianzen (Heteroskedastizitat) . . . . . . . . . . . . . . . . . . 406.2.3 Korrelation zwischen den Stortermen . . . . . . . . . . . . . . . . . . . . . . 416.2.4 Ausreißer und Punkte mit starkem Einfluss . . . . . . . . . . . . . . . . . . 426.2.5 Regressionsgleichung ist nicht korrekt . . . . . . . . . . . . . . . . . . . . . 446.2.6 Partial Leverage Plot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 446.2.7 Kollinearitat . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 456.2.8 Fehler in X-Variablen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

7 Modellwahl 487.1 Zielsetzung der Modellierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 487.2 Allgemeines . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 487.3 Maße fur die Modellgute . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 497.4 Variablenselektionsverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 507.5 Beispiel: Tiefbohrprojekt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

8 Das allgemeine lineare Modell 528.1 Der gewichtete KQ-Schatzer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

8.1.1 Herleitung durch Transformation . . . . . . . . . . . . . . . . . . . . . . . . 528.1.2 Bemerkung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

8.2 Verallgemeinerte KQ-Methode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 538.2.1 Eigenschaften des verallgemeinerten KQ-Schatzers . . . . . . . . . . . . . . 54

8.3 Allgemeines Gauss-Markov-Theorem . . . . . . . . . . . . . . . . . . . . . . . . . . 548.4 Beispiele fur Varianzstrukturen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

8.4.1 Weitere Schatzstrategien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 548.4.2 Beispiel: Tiefbohrung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 558.4.3 Beispiel: Wildzeitreihen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

9 Das logistische Regressionsmodell 569.1 Beispiel: Einkommen ∼ Besitz von Auto . . . . . . . . . . . . . . . . . . . . . . . . 56

9.1.1 Ansatz: KQ-Schatzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 569.1.2 Ansatz: lineares Wahrscheinlichkeitsmodell . . . . . . . . . . . . . . . . . . 569.1.3 Ansatz: logistisches Regressionsmodell . . . . . . . . . . . . . . . . . . . . . 56

9.2 Definition des logistischen Regressionsmodells . . . . . . . . . . . . . . . . . . . . . 57

4

Page 5: Vorlesung Lineare Modelle (Prof. Kuchenho ) · Vorbemerkungen Das ist ein Skript der Vorlesung "Lineare Modelle", das auf dem LATEX-File von Prof. Kuc henho basiert. Es ist fu r mich

9.3 Interpretation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 579.4 Bemerkungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57

9.4.1 Herleitung der logistischen Funktion –Wieso wahlt man gerade die logistische Verteilungsfunktion fur G? . . . . . 58

9.5 Logistische Regression als Klassifikationsproblem . . . . . . . . . . . . . . . . . . . 599.6 Beispiele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

9.6.1 logistische Regression einer 4-Felder-Tafel . . . . . . . . . . . . . . . . . . . 599.7 ML-Schatzung im logistischen Regressionsmodell . . . . . . . . . . . . . . . . . . . 59

9.7.1 Eigenschaften des ML-Schatzers . . . . . . . . . . . . . . . . . . . . . . . . 609.7.2 Existenz und Eindeutigkeit des ML-Schatzers im logistischen Modell . . . . 60

9.8 Inferenz im logistischen Regressionsmodell . . . . . . . . . . . . . . . . . . . . . . . 619.8.1 Wald-Test fur die lineare Hypothese . . . . . . . . . . . . . . . . . . . . . . 619.8.2 Likelihood-Quotienten -Test fur die lineare Hypothese . . . . . . . . . . . . 619.8.3 Score-Test fur die lineare Hypothese . . . . . . . . . . . . . . . . . . . . . . 629.8.4 Zusammenfassung: Tests fur die lineare Hypothese . . . . . . . . . . . . . . 62

9.9 Devianz im logistischen Modell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 639.9.1 Das logistische Modell fur gruppierte Daten . . . . . . . . . . . . . . . . . 639.9.2 Anpassungstests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

9.10 Residuen im logistischen Regressionsmodell . . . . . . . . . . . . . . . . . . . . . . 649.11 Maße fur die Modellanpassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

10 Das gemischte lineare Regressionsmodell (”Linear mixed Model”) 6610.1 Das Modell mit einem einfachen zufalligen Effekt . . . . . . . . . . . . . . . . . . . 66

10.1.1 Das marginale Modell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6610.2 Das Modell mit allgemeinen zufalligen Effekten . . . . . . . . . . . . . . . . . . . . 66

10.2.1 Ein hierarchisches Modell fur longitudinale Daten Stufe 1 . . . . . . . . . . 6710.2.2 Ein hierarchisches Modell fur longitudinale Daten Stufe 2 . . . . . . . . . . 6710.2.3 Das lineare gemischte Modell fur longitudinale Daten . . . . . . . . . . . . 67

10.3 Das lineare gemischte Modell (LMM) in allgemeiner Darstellung . . . . . . . . . . 6810.3.1 Marginales und bedingtes (konditionales) Modell . . . . . . . . . . . . . . . 68

10.4 Inferenz im gemischten linearen Modell . . . . . . . . . . . . . . . . . . . . . . . . . 6810.4.1 ML und REML-Schatzer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6910.4.2 Inferenz bezuglich von β im linearen gemischten Modell II . . . . . . . . . . 6910.4.3 Schatzung der zufalligen Effekte . . . . . . . . . . . . . . . . . . . . . . . . 69

10.5 Praktisches Umsetzen von gemischten Modellen mit SAS . . . . . . . . . . . . . . . 6910.6 Beispiele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69

10.6.1 Beispiel: Studie zur Lesefoderung . . . . . . . . . . . . . . . . . . . . . . . . 6910.6.2 Beispiel: Gewichtsentwicklung . . . . . . . . . . . . . . . . . . . . . . . . . 71

11 Messfehler: Modelle und Effekte 7311.1 Modelle fur Messfehler . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73

11.1.1 Klassischer additiver zufalliger Messfehler . . . . . . . . . . . . . . . . . . . 7311.1.2 Additiver Berkson-Fehler . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7411.1.3 Multiplikativer Messfehler . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7411.1.4 Messfehler in der Zielgroße . . . . . . . . . . . . . . . . . . . . . . . . . . . 7411.1.5 Messfehler in den Einflussgroßen/Kovariablen . . . . . . . . . . . . . . . . . 7511.1.6 Differential and non differential measurement error . . . . . . . . . . . . . . 75

11.2 Einfache lineare Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7511.2.1 SAS-Simulation fur ein lineares Messfehler-Modell . . . . . . . . . . . . . . 7611.2.2 Das beobachtete Modell in der linearen Regression . . . . . . . . . . . . . . 7611.2.3 Identifikation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7711.2.4 Naive KQ-Schatzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7811.2.5 Korrektur von Abschwachung . . . . . . . . . . . . . . . . . . . . . . . . . . 7811.2.6 Berkson-Fehler in einfacher linearer Regression . . . . . . . . . . . . . . . . 7811.2.7 Beobachtete Modell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7911.2.8 Binare Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7911.2.9 Einfach Logistisch . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7911.2.10 Linear Approximation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80

5

Page 6: Vorlesung Lineare Modelle (Prof. Kuchenho ) · Vorbemerkungen Das ist ein Skript der Vorlesung "Lineare Modelle", das auf dem LATEX-File von Prof. Kuc henho basiert. Es ist fu r mich

11.3 Methoden . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8011.3.1 Regression Kalibierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8011.3.2 SIMEX: Grundidee . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8111.3.3 Der SIMEX Algorithmus . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8111.3.4 Extrapolation Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81

11.4 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81

12 Bayesianische Inferenz im linearen Modell 8212.1 Ansatz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8212.2 Gammaverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8212.3 Inverse Gammaverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8212.4 Multivariate t-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8212.5 Normal-Gamma-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8312.6 Inferenz bei bekannter Kovarianzmatrix Σ . . . . . . . . . . . . . . . . . . . . . . . 8312.7 Andere Darstellung und Spezialfalle . . . . . . . . . . . . . . . . . . . . . . . . . . 8312.8 Inferenz bei unbekannter Prazision τ . . . . . . . . . . . . . . . . . . . . . . . . . . 8312.9 Inferenz mit “Jeffrey’s prior” . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83

6

Page 7: Vorlesung Lineare Modelle (Prof. Kuchenho ) · Vorbemerkungen Das ist ein Skript der Vorlesung "Lineare Modelle", das auf dem LATEX-File von Prof. Kuc henho basiert. Es ist fu r mich

1 Das einfache lineare Regressionsmodell

Annahmen:

Yi = β0 + β1xi + εi; i = 1, . . . , n (1.1)E(εi) = 0 (1.2)V (εi) = σ2 (1.3)

{εi | i = 1, . . . , n} stoch. unabhangig (1.4)εi ∼ N(0, σ2) (1.5)

Yi: Zielgroße (Zufallsgroße), abhangige Variablexi: feste bekannte Einflussgroße, unabhangige Variableεi: Zufallsfehlerβ0, β1, σ

2: unbekannte Parametern: Anzahl der Beobachtungen

. (1.2) ⇒ E(Y |x) = β0 + β1x und ⇒ E(Yi|xi) = β0 + β1xi. Man betrachtet also die bedingteVerteilung Y |X = x.. (1.5) ist interessant fur kleine Stichproben. Bei großen Stichproben greift der zentrale Grenzw-ertsatz.

1.1 KQ-Schatzung

Wir betrachten Modell (1.1). Dann der KQ-Schatzer (Schatzer nach der Methode der kleinstenQuadrate)

(β0, β1) = arg minβ0, β1

n∑i=1

(Yi − β0 − β1xi)2 (1.6)

. Er berechnet fur welche β0, β1 die Summe minimal ist. D.h. die Abstande der tatsachlichenWerte zu der Regressionsgerade sollen minimal werden. (Dabei kann der Abstand in y-Richtung,x-Richtung oder der geometrische Abstand relevant sein. Hier wird der Abstand in y-Richtungbetrachtet.)

εi := Yi − β0 − β1xi heißen Residuen. (1.7)

Der KQ-Schatzer existiert und ist eindeutig, (falls∑ni=1(xi − x)2 6= 0):

β1 =SxYS2x

=1n

∑ni=1(xi − x)(Yi − Y )1n

∑ni=1(xi − x)2

(1.8)

β0 = Y − β1x. (1.9)

Beweis:

Eine notwendige Bedingung fur die Existenz eines Minimums der quadratischen Funktion (β0, β1) =

arg minβ0, β1

n∑i=1

(Yi−β0−β1xi)2 ist das Vorliegen einer Nullstelle der partiellen Ableitungen 1. Ord-

nung nach β0 und β1.

1. Bestimmung der partiellen Ableitung 1. Ordnung von (1.6):

(I)d

dβ0

n∑i=1

(Yi − β0 − β1xi)2 =n∑i=1

d

dβ0(Yi − β0 − β1xi)

2 = −2n∑i=1

Yi − β0 − β1xi

(II)d

dβ1

n∑i=1

(Yi − β0 − β1xi)2 =n∑i=1

d

dβ1(Yi − β0 − β1xi)

2 = −2n∑i=1

(Yi − β0 − β1xi)xi

7

Page 8: Vorlesung Lineare Modelle (Prof. Kuchenho ) · Vorbemerkungen Das ist ein Skript der Vorlesung "Lineare Modelle", das auf dem LATEX-File von Prof. Kuc henho basiert. Es ist fu r mich

2. Normalengleichung durch Nullsetzen:

(I) ⇒n∑i=1

Yi − β0 − β1xi = 0⇒ nβ0 + β1

n∑i=1

xi =n∑i=1

yi

(II) ⇒n∑i=1

(Yi − β0 − β1xi)xi = 0⇒ β0

n∑i=1

xi + β1

n∑i=1

xi2 =

n∑i=1

xiyi

3. Berechnung von β0 durch Multiplikation von (I) mit 1n :

⇒ β0 + β1x = y ⇒ β0 = y − β1x

4. Einsetzen von β0 in (II) um β1 zu bestimmen:

β1

(n∑i=1

xi2 − nx2

)=

n∑i=1

xiyi − nxy

Wegenn∑i=1

(xi − x)2 = SXX undn∑i=1

(xi − x)(yi − y) = SXY folgt: β1 =SXYSXX

1.1.1 Eigenschaften des KQ-Schatzers

Durch Differenzieren vonn∑i=1

(Yi − β0 − β1xi)2 erhalt man: (β0, β1) sind Losung der Normalgle-

ichungenn∑i=1

εi = 0 (1.10)

n∑i=1

εixi = 0 (1.11)

. Der Mittelwert der Residuen (geschatzte Abweichung) ist also immer Null. Es ist also einTrugschluss nach der Schatzung anzunehmen, wenn der EW Null ist, dass die Regressionsgeradestimme. Sie ist und bleibt eine Schaetzung. Also sind die εi nicht stochastisch unabhangig.. Jede Regressionsgerade lauft wegen yi = β0 + β1xi = y + β1(xi − x) durch den Punkt (x, y).

Gegeben sei Modell (1.1) mit Annahme (1.2).

a. Dann ist (β0, β1) ein erwartungstreuer Schatzer fur (β0, β1):

E(β0, β1) = (β0, β1). (1.12)

b. Fur die Varianzen von (β0, β1) gilt unter den Annahmen (1.3), (1.4):

V (β1) =σ2

n∑i=1

(xi − x)2=

σ2

nS2x

(1.13)

V (β0) = σ2

n∑i=1

x2i

nn∑i=1

(xi − x)2

= σ2

[1n

+x2

nS2x

](1.14)

mit S2x =

1n

n∑i=1

(xi − x)2

. Je großer die Streuung S2x der x-Werte ist, desto genauer ist die Schatzung von β1. . Je

großer der Stichprobenumfang ist, desto genauer ist die Schatzung von β0 und β1.

8

Page 9: Vorlesung Lineare Modelle (Prof. Kuchenho ) · Vorbemerkungen Das ist ein Skript der Vorlesung "Lineare Modelle", das auf dem LATEX-File von Prof. Kuc henho basiert. Es ist fu r mich

c. Unter der NV-Annahme (1.5) ist der KQ-Schatzer (β0, β1) ML-Schatzer.

Beweis:

(a) Es ist zu beachten, dass die xi fest sind und dass die einzige stochastische Komponente desModells εi ist.

E(β1) = E

n∑i=1

(Yi − Y )(xi − x)

n∑i=1

(xi − x)2

=

1n∑i=1

(xi − x)2

n∑i=1

E[(β0 + β1xi + εi − β0 − β1x− ε)(xi − x)]

=1

n∑i=1

(xi − x)2

n∑i=1

(β0 + β1xi + E[εi]− β0 − β1x− E[ε])(xi − x)]

=1

n∑i=1

(xi − x)2

n∑i=1

β1(xi − x)(xi − x) = β1

E(β0) = E[Y − β1x] = E[β0 + β1x+ ε]− β1x = β0

(b) Ubung: Aufgabe 1a

(c) Die Likelihood von Beobachtungen (yi, xi) lautet:

L(yi, xi) =n∏i=1

(√2 · π · σ2

)−1

exp[− [εi(β0, β1)]2

2σ2

]

lnL(yi, xi) = −n/2 · ln(σ2 · 2 · π)− 12σ2

n∑i=1

ε2i

Da die Parameter β0 und β1 nur inn∑i=1

ε2i vorkommen, entspricht die Maximierung von

lnL(yi, xi) der Minimierung vonn∑i=1

ε2i . Damit entspricht die KQ-Methode der ML-Methode.

1.1.2 Schatzung von σ2 und Konfidenzintervalle fur β0 und β1

Gegeben sei das Modell (1.1) bis (1.4).

1. Dann ist

σ2 :=1

n− 2

n∑i=1

ε2i =1

n− 2

n∑i=1

(Yi − (β0 + β1xi))2 (1.15)

ein erwartungstreuer Schatzer fur σ2

. Als ML-Schatzung von σ2 ergibt sich:

σ2 =1n

n∑i=1

ε2i

. Dieser Schatzer ist nicht erwartungstreu und wird er selten verwendet. Statt dessen werden2 FG beachtet, da zwei geschatzte Parameter β0 und β1 genutzt werden. Das ergibt danndie Korrektur (n-2)

9

Page 10: Vorlesung Lineare Modelle (Prof. Kuchenho ) · Vorbemerkungen Das ist ein Skript der Vorlesung "Lineare Modelle", das auf dem LATEX-File von Prof. Kuc henho basiert. Es ist fu r mich

2. Unter der Normalverteilungsannahme (1.5) gilt:

1σ2

n∑i=1

ε2i ∼ χ2n−2 (1.16)

(β0, β1) und σ2 stochastisch unabhangig (1.17)

. Ausn∑i=1

εi = 0 undn∑i=1

εixi = 0 ergeben sich die (n− 2) Freiheitsgrade der χ2-Verteilung

3. Unter (1.5) gilt fur die Schatzer β1 und β0 :

β1 − β1

σβ1

∼ tn−2 mit σβ1:=

√√√√√ σ2

n∑i=1

(xi − x)2(1.18)

β0 − β0

σβ0

∼ tn−2 mit σβ0:=

√√√√√√√σ2

n∑i=1

x2i

nn∑i=1

(xi − x)2

(1.19)

4. Konfidenzintervalle zum Niveau 1−α fur β1 und β0 unter Normalverteilungsannahme (1.5):

[β1 − σβ1t1−α/2(n− 2); β1 + σβ1

t1−α/2(n− 2)] (1.20)

[β0 − σβ0t1−α/2(n− 2); β0 + σβ0

t1−α/2(n− 2)] (1.21)

t1−α/2(n− 2): 1− α/2-Quantil der t(n− 2)-Verteilung.

Beweis:

Teil 1 und 2 spater als Spezialfall im multiplen Regressionsmodell

Teil 3:Def. t-Verteilung: X1 ∼ N(0; 1)

X2 ∼ χ2n

X1, X2 unabh.

X1√X2n

∼ tn

β1 ∼ N(β1,

σ2∑(xi − x)2

), da β1 =

∑ xi − x∑(xi − x)2

yi ∼ NV

(Summe von unabh. NV ZG)

Aus der Def. der t-Vert. und Teil 2 ⇒ Behauptung

Teil 4: Standardkonstruktion von Konfidenzintervallen �

1.1.3 Quadratsummenzerlegung

Gegeben sei das Modell (1.1). Dann gilt:

1.n∑i=1

(Yi − Y )2︸ ︷︷ ︸SST

=n∑i=1

(Yi − Yi)2︸ ︷︷ ︸SSE

+n∑i=1

(Yi − Y )2︸ ︷︷ ︸SSM

(1.22)

mit den angepassten Großen Yi := β0 + β1xi

10

Page 11: Vorlesung Lineare Modelle (Prof. Kuchenho ) · Vorbemerkungen Das ist ein Skript der Vorlesung "Lineare Modelle", das auf dem LATEX-File von Prof. Kuc henho basiert. Es ist fu r mich

SST: Sum of Squares Total Gesamtstreuung von YSSE: Sum of Squares Errors Streuung der ResiduenSSM: Sum of Squares Model Streuung, die das Modell erklart

. SST = Streuung auf der y-Achse um y

. SSE = Reststreuung; Abweichungen VON der Regressionsgerade

. SSM = Abweichungen AUF der Regressionsgerade

2.R2 =

SSMSST

= 1− SSESST

(1.23)

heißt Bestimmtheitsmaß. Es giltR2 = r2xY . (1.24)

rxY := Korrelationskoeffizient nach Bravais-Pearson.

. R2 ∈ [0, 1]

. R2 beschreibt den Anteil der Varianz, die durch das Regressionsmodell erklart werden kann, was(1 – den Anteil der nicht erklarten Variabilitat) entspricht.

Beweis:

1. Mit dem Nulltrick ergibt sich

(yi − y) = (yi − yi) + (yi − y)

2. Man quadriert und summiert beide Seiten:

n∑i=1

(yi − y)2 =n∑i=1

(yi − yi)2 +n∑i=1

(yi − y)2 + 2n∑i=1

(yi − yi)(yi − y)

3. Fur das gemischte Glied erhalt man dann mit den Normalengleichungen (1.10) und (1.11):

n∑i=1

(yi − yi)(yi − y) =n∑i=1

(yi − yi)β1(xi − x) = β1

n∑i=1

εi(xi − x) = β1

(n∑i=1

εixi − xn∑i=1

εi

)= 0

4. Damit ergibt sich:

n∑i=1

(yi − y)2 =n∑i=1

(yi − yi)2 +n∑i=1

(yi − y)2 ⇔ SST = SSE + SSM

Merke: Nulltrick als Technik fur Quadratsummen-Beweise. �Bemerkung: FreiheitsgradeZu den obigen Quadratsummen wird ublicherweise die Zahl der Freiheitsgrade angegeben. Siebezeichnet die Anzahl der frei bestimmbaren Summanden der obigen Quadratsummen (bei geg.xi). Die anderen Summanden ergeben sich aus diesen.

bei SST:∑

(yi − y) = 0⇒ df = n− 1bei SSE: NGL liefern 2 Restriktionen⇒ df = n− 2

(∑εi = 0;

∑εixi = 0)

bei SSM:∑

(yi − y)2 =∑

(β0 + β1xi − y)2 =∑

(β1(xi − x))2

⇒ df = 1 (durch Wahlen von 1 y-Wert liegt β1 fest)

11

Page 12: Vorlesung Lineare Modelle (Prof. Kuchenho ) · Vorbemerkungen Das ist ein Skript der Vorlesung "Lineare Modelle", das auf dem LATEX-File von Prof. Kuc henho basiert. Es ist fu r mich

1.1.4 Prognose

Neben (1.2) - (1.4) betrachten wir eine weitere Beobachtung xn+1 mit zugehorigem unbekanntemYn+1. Der Prognosewert von Yn+1 ist gegeben durch

Yn+1 = β0 + β1xn+1 (1.25)

Fur den Erwartungswert und die Varianz des Prognosefehlers gilt:

E(Yn+1 − Yn+1

)= 0 (1.26)

V(Yn+1 − Yn+1

)= σ2

1 +1n

+(xn+1 − x)2n∑i=1

(xi − x)2

(1.27)

Prognoseintervall fur yn+1 zum Niveau 1− α:

[Yn+1 − σYn+1t1−α/2(n− 2); Yn+1 + σYn+1

t1−α/2(n− 2)] (1.28)

mit σ2Yn+1

= σ2

[1 + 1/n+ (xn+1 − x)2/

(n∑i=1

(xi − x)2)]

(1.29)

Beweis:

• Erwartungswert des Prognosefehlers:

E(Yn+1 − Yn+1) = E(β0 + β1xn+1 − (β0 + β1xn+1 + εn+1))

= E(β0 − β0)︸ ︷︷ ︸=0 ,da E(β0)=0

+E((β1 − β1)xn+1)︸ ︷︷ ︸=0 ,da E(β1)=0

−E(εn+1)︸ ︷︷ ︸=0

• Varianz des Prognosefehlers:

V ar(Yn+1 − Yn+1) = V ar(β0 + β1xn+1 − (β0 + β1xn+1 + εn+1))

= V ar((β0 − β0) + (β1 − β1)xn+1) + V ar(εn+1)

= V ar(y − β1(xn+1 − x+ σ2

= σ2 +1nσ2 + V ar(β1(xn+1 − x)2

• Prognoseintervall: Standardkonstruktion von Konfidenzintervallen.

�Bemerkungen:

1. Alle Aussagen gelten nur unter der zentralen Modellannahme des linearen Zusammenhangsvon E(Y) und x. (. Beispiel des quadratischen Modells)

2. Transformationen sind grundsatzlich moglich. Zu beachten sind dann die geanderte Inter-pretation der Modellparameter und der Modellannahmen. Insbesondere ist

E [g(Y )] 6= g [E(Y )]

. Zum Beispiel ist bei Yi = β0 + β1xi2 + εi ⇒ lnYi = lnβ0 + β1xi + lnεi zu beachten, dass

E(εi) = 0 nicht mehr gilt.

3. Das lineare Modell ist in vielen Beispielen eine sinnvolle Naherung. Die Zusammenhange inder Realitat sind komplexer. (Bsp.: Quadratischer Zusammenhang wird durch ein linearesModell versucht zu erklaren, siehe 1.2.3)

12

Page 13: Vorlesung Lineare Modelle (Prof. Kuchenho ) · Vorbemerkungen Das ist ein Skript der Vorlesung "Lineare Modelle", das auf dem LATEX-File von Prof. Kuc henho basiert. Es ist fu r mich

1.2 Beispiele

Dieser Abschnitt wurde von mir mit Beispielen aus der Vorlesung hinzugefuegt.

1.2.1 Erlauterung der Quadratsummenzerlegung:

Angenommen man kennt nur die y-Werte und man mochtedamit ein Konfidenzintervall fur Normwerte festlegen (z.B.Herzfrequenz). Dann wahlt man den Durchschitt y als Mitteund legt anhand dessen die 1 − α

2 -Grenzen fest. Damit ergibtsich der SST.

Bekommt man zu jedem y-Wert zusatzlich auch einen x-Wert(z.B. Gewicht), so werden die Normwerte nicht nur als KIangegeben, sondern die Punkte auf der Regressionsgerade. Hierergibt sich dann also der SSM.

Der SSE ergibt sich dann durch die Streuung der wahrenPunkte um die Regressionsgerade.

x

x

y

x x

x

x

x

x

x xx

x

x

x

x

x

xx

x

x

x

x

xxx

x

x

x

x y

y

1.2.2 Beipiel: Osteoporose

Um zu untersuchen, ob Osteoporose eine ”moderne“ Krankheitist, wurden Daten aus Reihengrabern analysiert.

Die zentrale Fragestellung ist also der Zusammenhang zwischenAlter und Knochenbalkchendicke des 4. Lendenwirbels. Dabeisollen Außreißer gefunden werden, die ein Zeichen fur Osteo-porose sein konnen.

Im Zentrum der Interpretation stehen die Parameterschatzungvon β1, die Schatzung der durchschnittlichen Abweichung vonder Regressionsgerade und R2.

●●

●●

20 30 40 50 60 70

8000

0012

0000

016

0000

0

alter

mpg

Probleme konnen entstehen durch:

• Messfehler (Das Alter kann nur ungenau gemessen werden)

• Die sehr kleine Stichprobe kann eine starke Verschiebung der Gerade durch nur 2-3 Außreißerbewirken.

• xi ist nicht zufallig

1.2.3 Lineares Modell als sinnvolle Annaherung

Gegeben sei ein quadratisches Modell:

Yi = xi2 + ε mit E(ε) = 0, x1 = 0, x2 = 1, x3 = 2 und y1, y2, y3

Angenommen wird aber ein lineares Modell: KQ-Schatzung

13

Page 14: Vorlesung Lineare Modelle (Prof. Kuchenho ) · Vorbemerkungen Das ist ein Skript der Vorlesung "Lineare Modelle", das auf dem LATEX-File von Prof. Kuc henho basiert. Es ist fu r mich

E(β1) =∑3i=1 (xi − x)(yi − y)∑3

i=1 (xi − x)2

=12

(−1E(y1 − y) + 1E(y3 − y))

=12

(−02 + 4) = 2

E(β0) = E(y − β1x) =53· 2 · 1 = −1

3−1 0 1 2 3

−10

12

34

5

x

y

. Falscher Zusammenhang, aber KQ-Schatzer existiert.

Je nachdem, wie die x-Werte (unter Annahme der Richtigkeit des quadratischen Modells) liegen,bekommt man eine andere Regressionsgerade (bei Annahme eines linearen Zusammenhangs).

• Naherung im Bereich [0, 2] ist akzeptabel (abhangig von der Große des Storterms).

• Prognose außerhalb von [0, 2] ergibt falsche Ergebnisse. Auch das Prognose-Intervall istvollkommen falsch: z.B. x = −1 ergibt eine Prognose von y = −1, obwohl y = 1 richtig ist.

14

Page 15: Vorlesung Lineare Modelle (Prof. Kuchenho ) · Vorbemerkungen Das ist ein Skript der Vorlesung "Lineare Modelle", das auf dem LATEX-File von Prof. Kuc henho basiert. Es ist fu r mich

2 Das multiple lineare Regressionsmodell

2.1 Darstellung

Yi = β0 + β1xi1 + β2xi2 + . . . βpxip︸ ︷︷ ︸x′ipβ

+εi i = 1, . . . n

Y = Xβ + ε x′i = (1xi1 . . . xip) (2.1)

mit

Y =

Y1

...Yn

X =

1 x11, · · · x1p

......

1 xn1 xnp

β =

β0

...βp

ε =

ε1...εn

. Interpretation von β1 in Yi = β0 + β1xi1 + β2xi2 + εi:Y steigt um β1-Einheiten, falls x1 um eine Einheit steigt und x2 festgehalten wird. x1 muss alsovom Einfluss von x2 bereinigt werden.. Es sind jetzt (p+ 1)β-Parameter und σ2 zu schatzen.

2.2 Modellannahmen

E(εi) = 0E(ε) = 0 (2.2)V (εi) = σ2 (2.3)

{εi | i = 1, . . . , n} unabh. (2.4)Aus (2.3), (2.4) folgt: V (ε) = σ2I

Aus εi ∼ N(0, σ2) und (2.4) folgt:ε ∼ N(0, σ2I) (2.5)

X: feste Design-Matrix (Matrix der Einflussgroßen)β: Vektor der RegressionsparameterY : Zufallsvektor der Zielgroßeε: Storgroßen

. Wenn (2.2) erfuellt ist, ist das Modell als richtig anzusehen.

. (2.3) und (2.4) ⇒ εi sind unkorreliert und haben die gleiche Varianz.

2.3 KQ-Schatzer

Wir betrachten Modell (2.1). Dann heißt

β = arg minβ

(Y −Xβ)′(Y −Xβ)︸ ︷︷ ︸∑ni=1(Yi−xiβ)2

(2.6)

KQ-Schatzer.εi = Yi − x′iβ (2.7)

Es gilt fur (X ′X) invertierbar: β existiert, ist eindeutig und

β = (X ′X)−1X ′Y. (2.8)

Der KQ-Schatzer erfullt die Normalgleichungen:

X ′ε = 0 (2.9)

Dabei heißt die Matrix X ′X Produktsummenmatrix. Es gilt:

X ′X =

n

∑xi1 · · ·

∑xip∑

xi1∑x2i1 · · ·

∑xi1xip

......

. . ....∑

xip · · · · · ·∑x2ip

(2.10)

15

Page 16: Vorlesung Lineare Modelle (Prof. Kuchenho ) · Vorbemerkungen Das ist ein Skript der Vorlesung "Lineare Modelle", das auf dem LATEX-File von Prof. Kuc henho basiert. Es ist fu r mich

2.3.1 Eigenschaften des KQ-Schatzers

Sei das Modell (2.1) mit (2.2) gegeben.

1. Der KQ-Schatzer ist erwartungstreu:

E(β) = β (2.11)

2. Fur die Varianz-Kovarianz-Matrix von β gilt unter (2.3) und (2.4):

V (β) = σ2(X ′X)−1 (2.12)

3. Unter (2.5) gilt:β ∼ N

(β, σ2(X ′X)−1

)(2.13)

Beweis:

1.

E(β) = E((X ′X)−1X ′Y ) = (X ′X)−1X ′E(Y ) = (X ′X)−1X ′Xβ = β

2.

V ar(β) = V ar((X ′X)−1X ′Y ) = (X ′X)−1X ′V ar(Y )X(X ′X)−1 = (X ′X)−1σ2

2.4 Hat-Matrix P und Residualmatrix Q

Sei das Modell (2.1) mit einer Designmatrix X mit rg(X) = p+ 1 gegeben. Es gilt:

Y = X(X ′X)−1X ′Y = Xβ (2.14)P := X(X ′X)−1X ′︸ ︷︷ ︸

n×n

(2.15)

ε = Y − Y = (I − P )Y = QY (2.16)Q := I − P (2.17)

. Y = PY : P wird Hat-Matrix genannt, weil sie Y den ”Hut“aufsetzt.. ε = QY , da QY = (I − P )Y = Y − PY = Y − Y = ε. Die Residualmatrix Q bietet also die Abbildung von Y auf ε,die Residuen.. Y kann geometrisch als Projektion auf den Unterrauminterpretiert werden, der von x aufgespannt wird (siehe Grafik).

= I−P y

y

y=Pyx1x2

2.4.1 Eigenschaften von P und Q

P heißt Hat-Matrix (Y = PY ), Q Residualmatrix.

P ′ = P, P 2 = P (2.18)Q′ = Q, Q2 = Q (2.19)PQ = QP = 0 (2.20)

. P ′ = P ⇔ P sind symmetrisch.

. P 2 = P ⇔ zweimaliges Anwenden der Regression fuhrt zum gleichen Ergebnis, d.h. P istidempotent.

16

Page 17: Vorlesung Lineare Modelle (Prof. Kuchenho ) · Vorbemerkungen Das ist ein Skript der Vorlesung "Lineare Modelle", das auf dem LATEX-File von Prof. Kuc henho basiert. Es ist fu r mich

. (2.20) ⇒ P und Q sind orthogonal, d.h. sie sind Projektionsmatrizen ⇔ Anwendung der Re-gression auf die Residuen liefert y = 0.

Fur die Varianz-Kovarianz-Matrizen von Y bzw. ε gilt:

V (Y ) = σ2P (2.21)V (ε) = σ2Q (2.22)da ε = Qε (2.23)

2.5 Erwartungstreue Schatzung von σ2

Gegeben sei das Modell (2.1) mit (2.2) bis (2.4). Dann ist:

σ2 =1

n− (p+ 1)ε′ε =

1n− (p+ 1)

∑ε2i (2.24)

ein erwartungstreuer Schatzer fur σ2.

. (p+1) Freiheitsgrade, da (p+1) Parameter geschatzt wurden.

Bemerkung: Fur Projektionsmatrizen gilt allgemein:

Sp(P ) = rg(P )

17

Page 18: Vorlesung Lineare Modelle (Prof. Kuchenho ) · Vorbemerkungen Das ist ein Skript der Vorlesung "Lineare Modelle", das auf dem LATEX-File von Prof. Kuc henho basiert. Es ist fu r mich

3 Quadratsummenzerlegung und statistische Inferenz immultiplen linearen Regressionsmodell

3.1 Quadratsummenzerlegung

Gegeben sei das Modell (2.1) mit Design-Matrix X und

rg(X) = p+ 1 =: p′. (3.1)

. Da X (p+ 1) Spalten hat: X =

1 x11, · · · x1p

......

1 xn1 xnp

Dann gilt:

(Y − Y )′(Y − Y )︸ ︷︷ ︸SST

= (Y − Y )′(Y − Y )︸ ︷︷ ︸SSE

+ (Y − Y )′(Y − Y )︸ ︷︷ ︸SSM

(3.2)

. SST, SSE und SSM haben die Dimension 1, sind also Skalare.

. Die Quadratsummen haben folgende Freiheitsgrade: SST : n− 1, SSE : n− p′, SSM : p.

Interpretation:

SST : Gesamt-Streuung, (korrigierte) Gesamt-Quadratsumme, “Total”SSE : Fehler-Quadratsumme, “Error”SSM : Modell-Quadratsumme, “Model”

Die Zerlegung (3.2) setzt ein Absolutglied (. β0 als Konstante) in der Regression voraus. Eineweitere Zerlegung setzt nicht notwendig ein Absolutglied in der Regression voraus:

Y ′Y︸︷︷︸SST*

= (Y − Y )′(Y − Y )︸ ︷︷ ︸SSE

+ Y ′Y︸︷︷︸SSM*

(3.3)

SST ∗ : nicht korrigierte Gesamt-QuadratsummeErfasst auch Abweichungen von Y = 0 und nicht nur von Y .

SSE : Fehler-Quadratsumme, wie bei (3.2)SSM∗ : nicht korrigierte Modell-Quadratsumme

3.1.1 Erwartungswerte der Quadratsummen

Wir betrachten das multiple Regressionsmodell (2.1) mit (2.2) bis (2.4) und

Pe = e(e′e)−1e′, Qe = I − Pe mit e = (1, 1, . . . , 1)′. (3.4)

Dann gilt fur die Erwartungswerte der Quadratsummen:

E(SST ∗) = E(Y ′Y ) = σ2n+ β′X ′Xβ (3.5)E(SST ) = E(Y − Y )′(Y − Y ) = σ2(n− 1) + β′(QeX)′(QeX)β (3.6)

E(SSE) = E(ε′ε) = σ2(n− p′) (3.7)E(SSM∗) = E(Y ′Y ) = σ2p′ + β′X ′Xβ (3.8)

E(SSM) = E(Y − Y )′(Y − Y ) = σ2p+ β′(QeX)′(QeX)β (3.9)

. mit Y = PY und (Y − Y ) = QY

. Die Erwartungswerte der Quadratsummen sind Hauptinstrumente fur die Inferenz im Regres-sionsmodell.

18

Page 19: Vorlesung Lineare Modelle (Prof. Kuchenho ) · Vorbemerkungen Das ist ein Skript der Vorlesung "Lineare Modelle", das auf dem LATEX-File von Prof. Kuc henho basiert. Es ist fu r mich

Beweis:Allgemein berechnet man den Erwartungswert von Quadratischen Formen wie folgt:

E(Y ′AY ) = E

n∑i=1

n∑j=1

aijYiYj

=n∑i=1

n∑j=1

aijE(YiYj)

=n∑i=1

n∑j=1

aijE(Yi)E(Yj) +n∑i=1

n∑j=1

aijCov(Yi, Yj)

= E(Y )′AE(Y ) + Sp(AV (Y ))V (Y ) := Varianz-Kovarianzmatrix von Y

Unter Benutzung von Sp(AV (Y )) = sp(A) ·σ2 = rang(A)∗σ2 fur Projektionsmatrizen erhalt manobige Identitaten. �

Bemerkungen:

1. Die stochastischen Eigenschaften der Quadratsummen werden zur Konstruktion von Testsbezuglich β genutzt

2. β = 0 =⇒ E(Y ′Y ) = nσ2, da der hintere Teil wegfallt (3.5).

3. β1, ...βp = 0 =⇒ E(SSM) = pσ2, wegen (3.9).

4. Zum Nachweis von 3. benutzt man, daß Qe der ”Mittelwertsbereinigungs- Operator” ist:

Qex = (I − Pe)x = x− x

Die erste Spalte von QeX ist also der Nullvektor:

QeX =

0 x11 − x·1 · · · x1p − x·p...

.... . .

...0 xn1 − x·1 · · · xnp − x·p

3.1.2 Mittlere Quadratsummen

Wir definieren entsprechend der Zahl der Freiheitsgrade die mittleren Quadratsummen:

MST ∗ :=SST ∗

n(3.10)

MST :=SST

n− 1(3.11)

MSE :=SSE

n− p′(3.12)

MSM∗ :=SSM∗

p′(3.13)

MSM :=SSM

p(3.14)

3.2 Verteilungsdefinitionen

3.2.1 Normalverteilung

Ein n-dimensionaler Zufallsvektor Z heißt multivariat normalverteilt, falls fur seine Dichtefunktiongilt:

fz(z) =1√

det Σ√

(2π)nexp

[−1

2(z − µ)′Σ−1(z − µ)

](3.15)

mit positiv definiter, symmetrischer Matrix Σ.

Bezeichnung: Z ∼ Nn(µ, Σ)

19

Page 20: Vorlesung Lineare Modelle (Prof. Kuchenho ) · Vorbemerkungen Das ist ein Skript der Vorlesung "Lineare Modelle", das auf dem LATEX-File von Prof. Kuc henho basiert. Es ist fu r mich

Eigenschaften: Ist Z ∼ Nn(µ, Σ), so gilt:

1. Momente:

E(Z) = µ

V (Z) = Σ

2. Lineare Transformationen:Ist A : Rn −→ Rm eine lineare Tranformation mit rg(A) = m

=⇒ AZ ∼ Nm(Aµ, AΣA′) (3.16)

. Beweis uber Dichtetransformationssatz

3. Orthogonale Transformation in unabhangige KomponentenEs existiert eine Matrix T ∈ Rn×n mit T ′T = I und TΣT ′ = diag (λ1, . . . , λn), sodass

TZ ∼ Nn(Tµ, diag (λ1, . . . , λn)) gilt. (3.17)

. Σ ist symmetrisch und positiv definit, also auch diagonalisierbar.

. T ist orthogonal.

. Wenn normalverteilte Zufallsvariablen/-vektoren unkorreliert sind, sind sie auch unabhangig!!

3.2.2 Chi-Quadrat-Verteilung

Ist Z ∼ Nn(µ, I) so heißt X = Z ′Z =n∑i=1

Zi2 (nicht-zentral) Chi-Quadrat-verteilt.

Bezeichnung: X ∼ χ2(n, δ)

n: Zahl der Freiheitsgrade

δ := µ′µ =n∑i=1

µi2: Nichtzentralitatsparameter

Im Fall δ = 0 erhalt man die zentrale χ2(n)-Verteilung.

Eigenschaften: Ist X ∼ χ2(n, δ), so gilt:

1. Momente:

E(X) = n+ δ

V (X) = 2n+ 4δ

2. Allgemeiner Bezug zur Normalverteilung

Z ∼ Nn(µ,Σ) =⇒ Z ′Σ−1Z ∼ χ2(n, µ′Σ−1µ) (3.18)

. entspricht im normierten Fall: Xi ∼ N(µ, σ2) ⇒n∑i=1

(Xi−µ)2

σ2 ∼ χ2(n)

. Beweis durch Normierung, Dividieren durch die Varianz und orthogonaler Transformation.

3.2.3 t-Verteilung

Seien Z und W voneinander unabhangige Zufallsgroßen mit

Z ∼ N(δ, 1),W ∼ χ2(n).

Dann heißt X = Z√Wn

(nicht-zentral) t-verteilt.

20

Page 21: Vorlesung Lineare Modelle (Prof. Kuchenho ) · Vorbemerkungen Das ist ein Skript der Vorlesung "Lineare Modelle", das auf dem LATEX-File von Prof. Kuc henho basiert. Es ist fu r mich

Bezeichnung: X ∼ t(n, δ)

n: Zahl der Freiheitsgrade,δ: Nicht-Zentralitatsparameter

Im Fall δ = 0 erhalt man die zentrale χ2(n)-Verteilung.

Erwartungswert: Ist X ∼ t(n, δ), so gilt:

E(X) = δ

√n

2Γ(n−1

2 )Γ(n2 )

fur n > 1. (3.19)

3.2.4 F-Verteilung

Seien W1 und W2 voneinander unabhangige Zufallsgroßen mit

W1 ∼ χ2(n1, δ)W2 ∼ χ2(n2)

Dann heißt X = W1/n1W2/n2

(nicht-zentral) F-verteilt.

Bezeichnung: X ∼ F (n1, n2, δ)

n1: Zahlerfreiheitsgraden2: Nennerfreiheitsgradeδ: Nichtzentralitatsparameter

Erwartungswert: Ist X ∼ F (n1, n2, δ), so gilt:

E(X) =n2

n2 − 2(1 + δ/n1) fur n2 > 2. (3.20)

3.3 Statistische Inferenz im multiplen Regressionsmodell

3.3.1 Satz von Cochran

Sei Z ∼ N(µ,Σ), dimZ = n,A ∈ Rn×n, A′ = A und rg(A) = r, B ∈ Rn×n.Dann gilt:

Σ = I,A2 = A =⇒ Z′AZ ∼ χ2(r, µ′Aµ) (3.21)A,B ∈ Rn×n,Σ = I,AB = 0 =⇒ Z′AZ und Z′BZ sind unabh. (3.22)

B ∈ Rn×n,Σ = I,BA = 0 =⇒ BZ und Z′AZ sind unabh. (3.23)

. (3.21) ⇒ A = Ak, also ist A idempotent.

Allgemeiner Fall (brauchen wir spater):

AΣA = A =⇒ Z ′AZ ∼ χ2(r, µ′Aµ) (3.24)A,B ∈ Rn×n, AΣB = 0 =⇒ Z ′AZ und Z ′BZ sind unabh. (3.25)B ∈ Rn×n, BΣA = 0 =⇒ BZ und Z ′AZ sind unabh. (3.26)

3.3.2 Verteilung des KQ-Schatzers unter Normalverteilung

Sei multiple Regressionsmodell (2.1) mit (2.5) und rg(X) = p′ gegeben. Fur den KQ-Schatzer βgilt:

21

Page 22: Vorlesung Lineare Modelle (Prof. Kuchenho ) · Vorbemerkungen Das ist ein Skript der Vorlesung "Lineare Modelle", das auf dem LATEX-File von Prof. Kuc henho basiert. Es ist fu r mich

β ∼ N(β, σ2(X ′X)−1) (3.27)Σβ := σ2(X ′X)−1 (3.28)

(n− p′) σ2

σ2∼ χ2(n− p′) (3.29)

σ und β sind unabhangig (3.30)σβk :=

√ckkσ, (ckk entspr. Diagonalelement von(X ′X)−1) (3.31)

βk − βkσβk

∼ t(n− p′, 0) (3.32)

. mit σ2 = MSE =

n∑i=1

ε2i

n−p′

. Normalverteilung des KQ-Schatzers ist besonders fur kleine Stichproben interessant. Bei großenStichproben greift der Zentrale Grenzwertsatz.

Beweis:(3.27) Normalverteilung von β folgt aus Eigenschaften der NV(3.29) folgt aus Theorem von Cochran (1.Teil), da ε = QY(3.30) folgt aus Theorem von Cochran (3.Teil): B ∈ Rn×n,Σ = I,BA = 0 =⇒ BZ und Z ′AZ sind unabh.mit

B := (X ′X)−1X ′, A := Q,Z := Y

BA = (X ′X)−1X ′Q = (X ′X)−1X ′(I − P ) =(X ′X)−1X ′ − (X ′X)−1X ′X(X ′X)−1X ′ = 0.

3.3.3 Overall-Tests

. Der Overall-Test wird oft zu Beginn der Regression angewendet.

. Allgemeine Fragestellung: Ist das Modell uberhaupt hilfreich? Ist das Modell geeignet, denSachverhalt zu beschreiben?

Sei Modell (2.1) mit (2.5) und rg(X) = p′ gegeben. Dann gilt fur die mittleren Quadratsummen:

FO =MSM

MSE∼ F (p, n− p′, σ−2β′(QeX)′(QeX)β) (3.33)

F ∗O =MSM∗

MSE∼ F (p′, n− p′, σ−2β′(X ′X)β) (3.34)

Die Verteilungen werden zu der Konstruktion folgender Tests benutzt:

Lehne HO0 : β1 = β2 = · · · = βp = 0 ab, falls

F0 > F1−α(p, n− p′) (3.35)

. entspricht dem Test von H0 : Yi = β0 mit β0 = y gegen H1 : volles Modell mit yi = β0 + β1x1 +

. . .+ βpxpOverall Test mit β0 = 0:

Lehne HO∗0 : β0 = β1 = · · · = βp = 0 ab, falls

F ∗0 > F1−α(p′, n− p′) (3.36)

Dieser Test wird nur in Ausnahmefallen angewendet.

F1−α(p, n− p′):(1− α)-Quantil der zentralen F (p, n− p′)–Verteilung.

22

Page 23: Vorlesung Lineare Modelle (Prof. Kuchenho ) · Vorbemerkungen Das ist ein Skript der Vorlesung "Lineare Modelle", das auf dem LATEX-File von Prof. Kuc henho basiert. Es ist fu r mich

3.3.4 Wald-Test

Als nachstes Ziel sollen Hypothesen, die sich mit Hilfe linearer Transformationen von β darstellenlassen, betrachtet werden:

A ∈ Ra×(p+1) c ∈ Ra

Aβ = c mit rg(A) = a

Beispiele:

1. Haben x1, x2 den gleichen Einfluss?p = 2 β1 = β2 ↔ A =

(0 1 −1

), c = 0

2. Haben x3 und x4 uberhaupt einen Einfluss auf Y ?

p = 4 β3 = β4 = 0↔ A =(

0 0 0 1 00 0 0 0 1

), c = 0

3. Direkter Test: Haben die Parameter bestimmte Werte?

p = 4 β2 = 3 β3 + β4 = 1↔ A =(

0 0 1 0 00 0 0 1 1

)c =

(31

)Allgemeine lineare Hypothese

Sei das Modell (2.1) mit (2.5) und A ∈ Ra×p′, rg(A) = a, c ∈ Ra gegeben.

V (Aβ − c) = σ2A(X ′X)−1A′ (3.37)

SSH := (Aβ − c)′(A(X ′X)−1A′)−1(Aβ − c) (3.38)σ−2SSH ∼ χ2(a, σ−2(Aβ − c)′(A(X ′X)−1A′)−1(Aβ − c)) (3.39)

MSH :=SSH

a(3.40)

MSH

MSE∼ F (a, n− p′, σ−2(Aβ − c)′(A(X ′X)−1A′)−1(Aβ − c)) (3.41)

SSH: Quadratsumme, die die Abweichung von der Hypothese Aβ = c beschreibt.

Test nach Wald: H0 : Aβ = c. Lehne H0 ab, falls:

MSH

MSE> F1−α(a, n− p′) (3.42)

. mit MSH = SSHa = ˆε′ ˆε−ε′ε

a und MSE = ε′εn−p′

. F-Verteilung (keine χ2-Verteilung) wegen der Normierung mit 1σ2

Overall-Test und zweiseitiger t-TestDie Overall-Tests aus (3.35) und (3.36) sind spezielle Wald-Tests.Der mit Hilfe von (3.32) konstruierte zweiseitige Test auf βk = β0

k ist ebenfalls ein Wald-Test.

3.3.5 Likelihood–Quotienten-Test

Grundidee des Likelihood - Quotienten Tests:Vergleiche (Bilde den Quotienten) maximierte Likelihood des Modells unter H0 mit maximierterLikelihood ohne H0.

ML-Schatzung: Die maximierte Likelihood des Modells ist

(2π)−n/2 · σ−n · exp(−n∑i=1

ε2i2σ2

)

Es folgt (siehe Nachweis ML = KQ aus Kapitel 1)

σ2 =∑ε2in

(3.43)

MaxL = C · σn = C · (SSE/n)(n/2) (3.44)

23

Page 24: Vorlesung Lineare Modelle (Prof. Kuchenho ) · Vorbemerkungen Das ist ein Skript der Vorlesung "Lineare Modelle", das auf dem LATEX-File von Prof. Kuc henho basiert. Es ist fu r mich

Wir betrachten also den ML - Schatzer mit und ohne die Restriktion Aβ = c:

ˆε : Residuen unter dem Modell mit H0

ε : Residuen unter dem Modell ohne Einschrankung

Die LQ- Teststatistik lautet dann:

τLQ =

(ˆσσ

)−n=

(ˆε′ ˆεε′ε

)−n/2∼ χ2(a) (3.45)

Wald-Test ist Likelihood–Quotienten-TestSei das Modell (2.1) mit (2.5) und A ∈ Ra×p′

, rg(A) = a, c ∈ Ra gegeben.

H0 : Aβ = c gegen H1 : Aβ 6= c

Dann ist der Wald-Test zu dem Likelihood-Quotiententest aquivalent, d. h. :Die Testgroße des LQ–Tests ist eine streng monotone Funktion der Testgroße des Wald - Tests:

τLQ = g

[MSH

MSE

](3.46)

g streng monoton

. Hier wird mit den Modellabweichungen die Modellanpassung verglichen: SSE mit SSEH0 .

Beweis:Wir behalten das lineare Modell mit der linearen Restriktion Aβ = c.Wir losen das Minimierungsproblem

(Y −Xβ)′(Y −Xβ)→ min unter Aβ = c

mit der Lagrange-Methode:

S(β, λ) = (Y −Xβ)′(Y −Xβ) + 2λ′(Aβ − c)

λ ist der Vektor der Lagrange-Multiplikationen.

∂S

∂β= 0⇔ −2X ′Y + 2X ′X ˆ

β + 2A′λ = 0

∂S

∂λ= 0⇔ A

ˆβ = c

A′λ = X ′Y −X ′X ˆβ | · (X ′X)−1

(X ′X)−1A′λ = β − ˆβ | ·A (∗)

⇒ A(X ′X)−1A′λ = A′β − c (A ˆβ = c)

⇒ λ = (A(X ′X)−1A′)−1(Aβ − c)

(∗)⇒ ˆβ = β − (X ′X)−1A′[A(X ′X)−1A′]−1(Aβ − c)w := (X ′X)−1A′[A(X ′X)−1A′]−1(Aβ − c)

Darstellung von SSH

ˆY = X

ˆβ = Y −Xw

ˆε = Y − ˆY = ε+Xw

⇒ ˆε′ ˆε = ε′ε+ w′X ′Xw (da X ′ε = 0)

= ε′ε+ (Aβ − c)′[A(X ′X)−1A′]−1(Aβ − c)⇒ SSH = ˆε′ ˆε− ε′ε

24

Page 25: Vorlesung Lineare Modelle (Prof. Kuchenho ) · Vorbemerkungen Das ist ein Skript der Vorlesung "Lineare Modelle", das auf dem LATEX-File von Prof. Kuc henho basiert. Es ist fu r mich

Damit haben wir eine andere Moglichkeit, SSH aus den Residuenquadratsummen zu berechnen.Als Spezialfall liefert obige Gleichung die schon besprochene Quadratsummenzerlegung.

Damit ist τLQ eine monotone Funktion der Testgroße des Wald-Tests:

MSH

MSE=

(ˆε′ ˆε− ε′ε)/aε′ε/(n− p′)

=: τW

⇒[τW ·

a

(n− p)′+ 1]−n/2

= τLQ

3.3.6 Reparametrisierung des Modells unter linearer Restriktion

Sei das Modell (2.1) mit (2.5) und A ∈ Ra×p′, rg(A) = a, c ∈ Ra gegeben. (. Y = βX + ε)

Dann gibt es eine Reparametrisierung des Modells (2.1)

V = Zγ + ε (3.47)V = Y −Xd (3.48)Z = XB (3.49)

Das Modell ist das reparametrisierte Modell mit

Zielgroße: V = Y −Xd ∈ RnDesign-Matrix: Z, Z ∈ Rn×(p′−a); rgZ = p′ − aParameter: γ ∈ Rp′−a

Storterm : ε stimmt mit dem aus dem Grundmodell uberein!

Zusammenhang Reparametrisierung und Modell unter linearer RestriktionEs gilt:

ˆβ = Bγ + d (3.50)

SSH = ˆε′ ˆε− ε′ε (3.51)

mitˆβ: KQ-Schatzer unter Restriktion Aβ = cγ: KQ-Schatzer aus Modell (3.47)ˆε: Residuenvektor aus Modell (3.47)=

Residuenvektor aus KQ-Schatzung unter Restriktion.

. Beispiel:Angenommen wird das Modell y = β0 + β1x1 + β2x2 + εMit der Hypothese H0 : β1 = β0 ergibt sich ein neues einfaches lineares Modell y = β0 + β1x1 +β1x2 +ε⇒ y = β0 +β1(x1 +x2)+ε mit nur noch einer Einflussgroße (x1 +x2) und den Parameternβ0 und β1.

3.4 Sequentielle und Partielle Quadratsummen

Gegeben sei das Modell (2.1). Wir betrachten nun Teilmodelle, die durch Nullrestriktionen vonKomponenten des Vektors β entstehen und deren Residuenquadratsummen.

R(βi1, . . . , βik|βj1, . . . , βjl) = SSH = SSE(M1)− SSE(M2) (3.52)

M2: Modell, das die Parameter βi1, . . . , βik, βj1, . . . , βjl enthalt.M1: Modell, das die Parameter βj1, . . . , βjl enthalt.SSH: Hypothesenquadratsumme zur Hypothese

(βi1 = . . . = βik = 0) im Modell M2.

25

Page 26: Vorlesung Lineare Modelle (Prof. Kuchenho ) · Vorbemerkungen Das ist ein Skript der Vorlesung "Lineare Modelle", das auf dem LATEX-File von Prof. Kuc henho basiert. Es ist fu r mich

. Hierbei geht es um den Vergleich von zwei Modellen M1 und M2, wobei M1 Untermodell vonM2 ist.. Die Gesamtabweichung der beiden Modelle bleibt gleich. Es gilt also:

M1 : SST = SSM(M1) + SSE(M1)M2 : SST = SSM(M2) + SSE(M2)

3.4.1 Partielle Quadratsummen

Die zu der Hypothese βi = 0 gehorigen Quadratsummen bzgl. des Gesamtmodells heißen partielleQuadratsummen:

R(βi|β0, . . . βi−1, βi+1, . . . , βp) = SSE(M−i)− SSE (= SSM − SSM(M−i)) (3.53)

M−i: Modell mit H0 : βi = 0.

. Hierbei wird das volle Modell mit dem um ein xi reduziertes Modell verglichen.

. Die partiellen Quadratsummen ist der Zahler der F-Statistik zum Testen von βi = 0.

. entsprechen den Typ III-Quadratsummen in SAS

3.4.2 Sequentielle Quadratsummen

Wir betrachten die Folge von Modellen:

M0 : Y = β0 + ε (3.54)M1 : Y = β0 + β1x1 + ε (3.55)

· · ·Mp : Y = Xβ + ε (3.56)

R(βk|β0, . . . , βk−1) = SSE(Mk−1)− SSE(Mk) (3.57)

heißen sequentielle Quadratsummen und es gilt:

SST =p∑k=1

R(βk|β0, . . . , βk−1) + SSE (3.58)

. Die sequentiellen Quadratsummen messen die Verbesserung von SSM nach Hinzunahme einerweiteren Variable xk zu den bereits vorliegenden x1, . . . , xk−1

. Sie beantworten die Frage nach dem Einfluss der Variable von xk.

. entsprechen den Typ I-Quadratsummen in SAS und SPSS

3.4.3 . Beispiel

yA = β0 + β1x1 + εA

yB = β0 + β1x1 + β2x2 + εB

yC = β0 + β1x1 + β2x2 + β3x3 + εC

εA ≥ εB ≥ εC ⇒ SSEA ≥ SSEB ≥ SSEC ⇔ SSMA ≤ SSMB ≤ SSMC

Die sequentiellen Quadratsummen messen wie groß nun der Unterschied zwischen den Fahler-Quadratsummen ist. Je kleiner der quadratische Fehler, desto großer der Teil, der durch dasModell erklart wird.

26

Page 27: Vorlesung Lineare Modelle (Prof. Kuchenho ) · Vorbemerkungen Das ist ein Skript der Vorlesung "Lineare Modelle", das auf dem LATEX-File von Prof. Kuc henho basiert. Es ist fu r mich

3.5 Bereinigung

Wir betrachten folgende Zerlegung des Modells (2.1):

Y = Xβ + ε (3.59)Y = (X1X2)(β′1β

′2)′ + ε = X1β1 +X2β2 + ε (3.60)

β = (X ′X)−1X ′Y = (β′1, β′2)′ (3.61)

Q2 := I −X2(X ′2X2)−1X ′2 (3.62)Y ∗ := Q2Y (3.63)X∗1 := Q2X1 (3.64)

=⇒ β1 = (X∗1′X∗1 )−1X∗1

′Y ∗ (3.65)

Y ∗, X∗1 : von X2 bereinigte Variablen

. Q2 ist hierbei der Bereinigungsoperator

Beispiele zur Bereinigung Mittelwerts-Bereinigung

X2 = (1 . . . 1)′

X1 = (x1 . . . xn)′

Y ∗ = Y − yX∗1 = X1 − x

(X ′∗X∗)−1X ′∗Y ∗ = S−2x Sxy

Geschlechtseffekt, Trendbereinigung

Beipiel: Analyse von Fehleranzahlen in Tests zu starken Verben

Zielgroße : Anzahl der Fehler bei TestEinflussgroßen: Geschlecht Alter Leseverhalten, Fernsehverhalten, etc.

Regression auf binare Variable Geschlecht entspricht MittelwertsschatzungBereinigung nach Geschlecht: Abziehen des jeweiligen Gruppenmittelwertes

3.6 Simultane Konfidenzintervalle

. Bemerkung:

Die Konfidenzintervalle fur die geschatzten Parameter βi werden aus der t-Verteilung hergeleitet(3.32)

βi ± σβit1−α2 (n− p′)

Vielleicht hat man auch Interesse an Linearkombinationen γj = α′β der βi oder man mochtemehrere βi oder γj betrachten.Dann halten die obrigen Konfidenzintervalle das Sicherheitsniveau α nicht gleichzeitig ein. Deshalbverwendet man silmutane Konfidenzintervalle.

3.6.1 Bonferroni-Konfidenzintervalle

Gegeben sei das Modell (2.1) mit der Normalverteilungsannahme (2.5) Dann sind fur die Parameterβi1, . . . , βik

βil ± σβilt1− α2k

(n− p′), l = 1, . . . , k

simultane Konfidenzintervalle zum Sicherheitsniveau 1− α:

P (es gibt l : |βil − βil| > σβilt1− α2k

(n− p′)) ≤ α

27

Page 28: Vorlesung Lineare Modelle (Prof. Kuchenho ) · Vorbemerkungen Das ist ein Skript der Vorlesung "Lineare Modelle", das auf dem LATEX-File von Prof. Kuc henho basiert. Es ist fu r mich

Bemerkung:

Die Parameter βil konnen durch Linearkombinationen γl = a′β mit den entsprechenden geschatztenStandardabweichungen ersetzt werden.

. Aus (3.66) folgt P (βi ∈ [βi ± σβit1− α2k

(n− p′)]) ≤ αk . Das entspricht der Ungleichung von Bon-

ferroni (3.67). Auf Tests ubertragen heißt das, dass ein multipler Test, der k Mittelwertsvergleichezum Niveau von α

k durchfuhrt.. einfache Adjustierung von α. benutzt man bei wenigen Variablen βi oder γi. sehr konserativ (d.h. bei der Verwendung ist man immer auf der richtigen Seite, aber es ist sehrunflexibel). berucksichtigt nicht, dass βi oder γi korreliert sind.

3.6.2 Konfidenzintervalle nach Scheffe

Sei Modell (2.1) mit NV-Annahme (2.5) gegeben.Dann sind

βj ±√p′F1−α(p′, n− p′) σβj (3.66)

fur die Parameter βj undγ ±

√p′F1−α(p′, n− p′) σγ

fur beliebige Linearkombinationen γ = a′β simultane Konfidenzintervalle.

Bemerkungen:

Die KIs nach Scheffe sind z.B zur Bestimmung von simultanen Konfidenzregionen fur Y geeignet

. Die KIs nach Scheffe sind bei einer Vielzahl von Parametern sinnvoll, da sie fur alle moglichenβi und γi gleichzeitig gelten. Es gibt in Analogie zu den KI’s einen entsprechenden multiplen Test uber die F-Verteilung. berucksichtigt, dass βi oder γi nicht unabhangig sind.. ist ein Bayesianischer Ansatz.

3.6.3 Konfidenzellipsoide

Sei das Modell (2.1) mit NV-Annahme (2.5) gegeben.Dann ist {

β | (β − β)′(X ′X)(β − β) ≤ p′σ2F1−α(p′, n− p′)}

(3.67)

eine Konfidenzregion fur β.Entsprechendes gilt fur lineare Transformationen γ = Aβ:{

γ | (γ − γ)′V (γ)−1

(γ − γ) < dim γ · F1−α(dim(γ), n− p′))}

ist Konfidenzregion zum Sicherheitsniveau 1− α.

.Angenommen Y undX sind die Einheitsmatrizen, dann ergibt sich der Einheitskreis als Konfidenz-ellipsoid. Ist dies nicht der Fall, sonst ergibt sich eine Ellipse.

3.7 Eigenschaften des KQ-Schatzers

3.7.1 Das Gauss-Markov-Theorem

Sei das Modell

Y = Xβ + ε, rg X = p′

E(ε) = 0V (ε) = σ2I .Unabhangigkeit der Storterme

28

Page 29: Vorlesung Lineare Modelle (Prof. Kuchenho ) · Vorbemerkungen Das ist ein Skript der Vorlesung "Lineare Modelle", das auf dem LATEX-File von Prof. Kuc henho basiert. Es ist fu r mich

gegeben.

. Dieses Modell hat keine Normalverteilungsannahme.

Dann ist der KQ-Schatzer β unter den erwartungstreuen linearen Schatzern derjenige mit der kle-insten Varianz: β ist BLUE-Schatzer (best linear unbiased estimator).

Ist β ein weiterer Schatzer von β mit E(β) = β und β = CY , so gilt:

V (β) ≥ V (β)

V (β) ≥ V (β)⇔ V (β) = V (β) +M mit M positiv semidefinit (d.h. ∀a 6= 0 : a′Ma ≥ 0).

. Der Schatzer β, der durch die KQ-Schatzung entsteht, ist also besser als jeder Schatzer β, derdie Vorraussetzungen der Erwartungstreue und Linearitat erfullt.

3.7.2 Konsistenz des KQ–Schatzers

Sei das Modell (2.1) - (2.4) gegeben (die Normalverteilungsannahme ist also nicht notwendig). Wirbetrachten nun das Modell mit steigendem Stichprobenumfang n. Da die Einflussgroßen fest sind,gehen wir von einer gegebenen Folge xn der Einflussgroßen aus. Sei zu jedem n > p′

Xn : Designmatrix, die aus den ersten n Beobachtungen bestehtβ(n) : KQ- Schatzer aus den ersten n Beobachtungen

Vor.: Xn hat vollen Rang fur alle n ≥ p

limn→∞

(X ′nXn)−1 = 0.

. Es wird also vorausgesetzt, dass der Schatzer mit steigenden n immer mehr am wahren Wert liegt.

Dann folgt die schwache Konsistenz des KQ-Schatzers (Konvergenz in Wahrscheinlichkeit):

β(n) P−→ β. (3.68)

Sind die Storgroßen zusatzlich identisch verteilt, so folgt die starke Konsistenz (fast sichere Kon-vergenz)

β(n) f.s.−→ β. (3.69)

3.7.3 Asymptotische Normalitat des KQ–Schatzers

Sei das Modell (2.1) - (2.4) gegeben. Sei zu jedem n > p′

Xn : Designmatrix, die aus den ersten n Beobachtungen besteht.β(n) : KQ- Schatzer aus den ersten n Beobachtungen

Vor.: Xn hat vollen Rang fur alle n ≥ p

limn→∞

maxx′i(X′nXn)−1xi = 0.

. Vorraussetzung ist also, dass das Gewicht von den Einzelwerte in der Schatzung mit steigendenn gegen Null geht.

Dann folgt die asymptotische Normalitat von β

(X ′nXn)1/2(β(n) − β) d−→ N(0, I). (3.70)

.Wenn man also große Stichprobenumfange hat, kann auf die Normalverteilungsannahme verzichtetwerden (ahnlich dem Gesetz der großen Zahlen).

29

Page 30: Vorlesung Lineare Modelle (Prof. Kuchenho ) · Vorbemerkungen Das ist ein Skript der Vorlesung "Lineare Modelle", das auf dem LATEX-File von Prof. Kuc henho basiert. Es ist fu r mich

4 Modelle mit diskreten Einflussgroßen

. Die kodierten Merkmalsauspragungen (z.B. Geschlecht: mannlich 1, weiblich 2) konnen nichtwie reelle Zahlen in die Berechnung der Parameterschatzungen einbezogen werden, da diese nichtunbedingt einer Ordnung unterliegen und die Abstande nicht definiert sind. Deshalb mussen kat-egoriale Regressoren umkodiert werden.

. typische Beispiele fur kategoriale Regressoren sind:

• Geschlecht: weiblich, mannlich

• Familienstand: ledig, verheiratet, geschieden, verwitwet

• Pradikat fur Diplomzeugnisse: sehr gut, gut, befriedigend, ausreichend

• Standort der Borse: New York, Tokio, Frankfurt

• Aktientyp: Standard, New Economy

Wir betrachten ein nominales Merkmal C mit K Auspragungen.

a) Einfache Dummy Codierung

Zk(C) ={

1 fur C = k;0 fur C 6= k; k = 1, . . . , K (4.1)

b) Effekt-Codierung

Zek(C) =

1 fur C = k;0 fur C 6= k,C 6= K k = 1, . . . ,K − 1;−1 fur C = K.

(4.2)

. mit K als Referenzkategorie

4.1 Einfache Varianzanalyse

. Ziel der Varianzanalyse ist die Untersuchung, ob es einen Einfluss hat, dass eine Beobachtungsich in einer bestimmten Gruppe befindet.

Gegeben sei eine nominale Einflussgroße C mit K Auspragungen (Gruppen).Der Zielgroßsenvektor Y wird in die K Gruppen mit jeweils nk Beobachtungen aufgeteilt:

Y = (Y11, . . . Y1n1 , Y21, . . . , YKnK )

. Im Weiteren verwenden wir folgendes Beispiel:

Y =

1 1 0 01 1 0 01 0 1 01 0 1 01 0 0 11 0 0 1

µτ1τ2τ3

+ ε

. Modell mit einem Faktor mit K = 3Auspragungen und je ni = 2 Wiederholungen

.µ Gesamtmittelwert (Over-all-mean)

.τk Abweichung des Mittelwertes der k-tenGruppe vom Gesamtmittelwert (µk = µ+ τk).

. Fur dieses Modell konnen keine Parameter geschatzt werden, da X ′X nicht vollen Rang hat undsomit nicht invertierbar ist. Die Parameter werden aber mit β = (X ′X)−1X ′Y geschatzt.

30

Page 31: Vorlesung Lineare Modelle (Prof. Kuchenho ) · Vorbemerkungen Das ist ein Skript der Vorlesung "Lineare Modelle", das auf dem LATEX-File von Prof. Kuc henho basiert. Es ist fu r mich

4.1.1 Mittelwertsmodell

Ykl = µk + εkl l = 1, . . . , nk; k = 1, . . . , K

Y = (Z1(C) . . . ZK(C))

µ1

...µK

+ ε (4.3)

. Ykl ist die Gruppenangehorigkeit.

. k ist der Laufindex fur die Gruppenzugehorigkeit.

. l ist der Laufindex fur die Wiederholungen der Beobachtungen fur festen Faktor.

Beispiel

Design-Matrix X fur K = 3 Gruppen mit je nk = 2 Beobachtungen pro Gruppe:

X =

1 0 01 0 00 1 00 1 00 0 10 0 1

. Man schatzt fur jede Faktorstufe einen eigenen

Gruppenmittelwert µk.

. Hier wird die erste Spalte weggelassen⇒ lineare Unabhangigkeit der Spalten ⇒(X ′X) ist invertierbar⇒ Eindeutigkeit der KQ-Schatzung.

4.1.2 Effektkodierung

Ykl = µ+ τk + εkl;K∑k=1

τk = 0

Y = (e Ze1(C) . . . ZeK−1(C))

µτ1...

τK−1

+ ε (4.4)

Beispiel

Design-Matrix X fur K = 3 Gruppen mit je nk = 2 Beobachtungen pro Gruppe.

X =

1 1 01 1 01 0 11 0 11 −1 −11 −1 −1

.

. µ ist der ungewichtete Gesamtmittelwert uberdie Gruppen.. τk ist die Abweichung des Gruppenmittelw-ertes vom Gesamtmittelwert.. τK ergibt sich durch die anderen τ ’s:

τK = −K−1∑k=1

τk

. Eindeutigkeit der Schatzung erreicht man, indem man die τ ’s durch∑Kk=1 τk = 0 einschrankt.

Dadurch sind nur noch (n− 1) τ ’s ”frei wahlbar”.

Bemerkung:

• Eine Alternative Effektkodierung entsteht durch die Einschrankung der τ ’s durch∑Kk=1 nkτk =

0.

• nk: Stichprobenumfange der einzelnen Gruppen

• Hier werden die Gruppen entsprechend den Stichprobenumfangen in den Gruppen gewichtet.Es ergibt sich µ als gewichteter Gesamtmittelwert uber die Gruppen.

31

Page 32: Vorlesung Lineare Modelle (Prof. Kuchenho ) · Vorbemerkungen Das ist ein Skript der Vorlesung "Lineare Modelle", das auf dem LATEX-File von Prof. Kuc henho basiert. Es ist fu r mich

4.1.3 Modell mit Referenzkategorie K:

Ykl = µK + τk + εkl τK = 0;

Y = (e Z1(C) . . . ZK−1(C))

µKτ1...

τK−1

+ ε(4.5)

. Als Referenzgruppe K wird im Allgemeinen die letzte Gruppe gewahlt.

Beispiel

Design-Matrix X fur 3 Gruppen mit je 2 Beobachtungen pro Gruppe:

X =

1 1 01 1 01 0 11 0 11 0 01 0 0

.

. τk ist hier der Unterschied des Gruppenmittel-werts der k-ten Gruppe zum Gruppenmittelwertder Referenzgruppe K.. µK entspricht somit dem Gruppenmittelwertder Referenz K.

4.1.4 Nullhypothesen zum Test auf “Effekt von C”:

Mittelwertsmodell: H0 : µ1 = µ2 = . . . = µKEffektkodierung: H0 : τ1 = τ2 = . . . = τK−1 = 0Referenzmodell: H0 : τ1 = τ2 = . . . = τK−1 = 0

. Hat die Gruppenzugehohrigkeit C einen Einfluss?

. H0 : C hat keinen Effekt. Wird H0 abgelehnt, so ist der Effekt von C signifkant.

4.2 Modell der zweifaktoriellen Varianzanalyse

Wir betrachten zwei diskrete Einflussgroßen C und D mit K1 bzw. K2 Auspragungen. Man sprichtdann von einer zweifaktoriellen Varianzanalyse mit einem K1-stufigen und einem K2-stufigen Fak-tor

4.2.1 Modell mit einfachen Effekten (Effektdarstellung)

Y = (e Ze1(C) . . . ZeK1−1(C) Ze1(D) . . . ZeK2−1(D))

µτ1...

τK1−1

γ1

...γK2−1

(4.6)

Test auf Effekt von C:H0 : τ1 = . . . = τK1−1 = 0

Test auf Effekt von D:H0 : γ1 = . . . = γK2−1 = 0

Designmatrix X fur Modell mit einem zweistufigen und einem dreistufigen Faktor und jeweils zwei

32

Page 33: Vorlesung Lineare Modelle (Prof. Kuchenho ) · Vorbemerkungen Das ist ein Skript der Vorlesung "Lineare Modelle", das auf dem LATEX-File von Prof. Kuc henho basiert. Es ist fu r mich

Beobachtungen pro Faktorkombination

X =

1 1 1 01 1 1 01 1 0 11 1 0 11 1 −1 −11 1 −1 −11 −1 1 01 −1 1 01 −1 0 11 −1 0 11 −1 −1 −11 −1 −1 −1

.

4.2.2 Modell mit Interaktion

Interaktionen lassen sich durch Aufnahme aller Produktterme Zek(C)Zel (D) modellieren:

Y = (e, Ze1(C) . . . ZK2−1(D)Ze1(C) · Ze1(D) . . . ZK1−1(C)ZK2−1(D)) ·

µτ1...

γK2−1

(τγ)11...

(τγ)K1−1,K2−1

(4.7)

. Interpretation einer Interaktion: Die Wirkung von C ist abhangig von dem Wert des Faktor B.

. Umsetzung, indem man die Faktoren jeweils miteinander multipliziert und entsprechend eineneue Variablen ins Modell einfugt.

Test auf Interaktion:H0 : (τγ)11 = . . . = (τγ)K1−1,K2−1 = 0

. Beeinflussen sich die Gruppen wirklich gegenseitig?

. Wird H0 abgelehnt, so interagieren die Gruppen.

Beispiel

Design-Matrix X fur 2-Faktor Modell mit einem zweistufigen und einem dreistufigen Faktor: (jew-eils eine Beobachtung pro Merkmalskombination).

Xβ =

1 1 1 0 1 01 1 0 1 0 11 1 −1 −1 −1 −11 −1 1 0 −1 01 −1 0 1 0 −11 −1 −1 −1 1 1

.

µτ1γ1

γ2

(τγ)11(τγ12

. 2. Spalte · 3. Spalte = 5. Spalte. 2. Spalte · 4. Spalte = 6. Spalte

4.2.3 Zwei-Faktor-Modell mit Referenz-Kategorie

Xβ =

1 1 1 01 1 1 01 1 0 11 1 0 11 1 0 01 1 0 01 0 1 01 0 1 01 0 0 11 0 0 11 0 0 11 0 0 0

µτ1γ1

γ2

33

Page 34: Vorlesung Lineare Modelle (Prof. Kuchenho ) · Vorbemerkungen Das ist ein Skript der Vorlesung "Lineare Modelle", das auf dem LATEX-File von Prof. Kuc henho basiert. Es ist fu r mich

µ: Der Mittelwert in Kategorie (2,3).τ1: Unterschied zwischen beiden Gruppen desersten Merkmals.γ1, γ2 Unterschied zwischen zwei verschiedenen

Gruppen zu Referenzgruppe des zweiten Merk-mals.

4.3 Erweiterung auf Kombination von diskreten und stetigen Merkmalen(Kovarianzanalyse)

Beispiel fur Design-Matrix X fur K = 3 Gruppen mit je nk = 2 Beobachtungen pro Gruppe undstetigem Merkmal x:

X =

1 0 0 x1

1 0 0 x2

0 1 0 x3

0 1 0 x4

0 0 1 x5

0 0 1 x6

β =

α1

α2

α3

β4

Interpretation: In den drei Gruppen drei paralleleGeraden mit Achsenabschitt αi und Steigung β4

Gruppe 3

Gruppe 1

Gruppe 2

1

3

2

4

4.3.1 Erweiterung auf Geraden mit versch. Steigung

Modell:

Ykl = αk + βkXkl + εkl (4.8)

Matrixdarstellung (3 Gruppen 2 Beobachtungen pro Gruppe)

X =

1 0 0 x1 0 01 0 0 x2 0 00 1 0 0 x3 00 1 0 0 x4 00 0 1 0 0 x5

0 0 1 0 0 x6

β =

α1

α2

α3

β1

β2

β3

Interaktion bedeutet, dass die Steigungen verschiedensind.

. Vorsicht bei der Interpretation von Modellen mitInteraktionen. Interaktion bedeutet nicht, dass dieVariablen selber in Korrelation stehen, sondern nur,dass ihr Einfluss auf die Y-Variable voneinanderabhangig ist.

Test auf Interaktion: H0 : β1 = β2 = β3

Gruppe 3

Gruppe 1

Gruppe 2

1

3

2

3

2

1

34

Page 35: Vorlesung Lineare Modelle (Prof. Kuchenho ) · Vorbemerkungen Das ist ein Skript der Vorlesung "Lineare Modelle", das auf dem LATEX-File von Prof. Kuc henho basiert. Es ist fu r mich

4.3.2 Darstellung mit Referenzkodierung

Modell:

Ykl = α3 + αk + β3 Xkl + βkXkl + εkl(k = 1, 2)Ykl = α3 + α3Xkl + εkl(k = 3)

Matrixdarstellung (3 Gruppen 2 Beobachtungen pro Gruppe)

X =

1 1 0 x1 x1 01 1 0 x2 x2 01 0 1 x3 0 x3

1 0 1 x4 0 x4

1 0 0 x5 0 01 0 0 x6 0 0

β =

α3

α1

α2

β3

β1

β2

Interaktion bedeutet Steigungen verschieden.Test auf Interaktion: H0 : β1 = β2 = 0

35

Page 36: Vorlesung Lineare Modelle (Prof. Kuchenho ) · Vorbemerkungen Das ist ein Skript der Vorlesung "Lineare Modelle", das auf dem LATEX-File von Prof. Kuc henho basiert. Es ist fu r mich

5 Behandlung von metrischen Einflussgroßen

. Ziel: Flexible metrische Regression: Man mochte so nah wie moglich an die Einfachheit dernicht-parametrischen Regression (y = f(x) + ε , wobei f eine glatte Funktion ist) herankommen.

5.1 Einfach linear

y = β0 + β1x+ ε

5.2 Transformiert

y = β0 + β1T (x) + ε

Beachte: Andere Interpretation von β1 z.B.:

Logarithmisch: T (x) = ln(x)Logarithmisch mit Nullpunkt-Erhaltung: T (x) = ln(1 + x)Exponentiell mit bekanntem c: T (x) = xc

. logarithmische Abhangigkeit von y : y = β0 + β1ln(x) + ε

. Interpretation von β1: Erhohung von ln(x) um 1 bewirkt eine Erhohung von y um β1 (alsomultiplikativer Faktor)

5.3 Als Polynom

y = β0 + β1x+ β2x2 + β3x

3 + . . . βkxk

. X =

1 x1 x1

2 x13

1 x2 x22 x2

3

......

......

1 xn xn2 xn

3

ergibt ein Polynom dritten Grades, das durch Taylor approximierbar ist und endlich viele Null-stellen hat.

Problem: Bestimmung von k

. Vorsicht: Die Interpretation der Schatzwerte fur β andert sich komplett.

5.4 Stuckweise konstante Funktion

y =

β0 fur x ≤ x0

β1 fur x0 < x < x1

...βh fur x > xh−1

Dies entspricht der Kategorisierung der x-Variablen.

. Hierbei zwingt man den Daten stuckweise ein konstantes Modell auf

. Problem: Wie groß sind die Kategorien? Welche Abschnitte konnen zusammengefasst werden?

5.5 Stuckweise linear

y = β0 + β1x+ β2(x− g1)+ + β3(x− g2)+ + . . . βh(x− gk)+

mit bekannten Bruchpunkten gk und t+ = max(t, 0).

36

Page 37: Vorlesung Lineare Modelle (Prof. Kuchenho ) · Vorbemerkungen Das ist ein Skript der Vorlesung "Lineare Modelle", das auf dem LATEX-File von Prof. Kuc henho basiert. Es ist fu r mich

. Hierbei zwingt man den Daten stuckweise ein lineares Modell auf

. Angenommen eine Funktion hat Hochpunkte in g1 und g2 (Knoten):

y =

a0 + b0x furx ≤ g1a1 + b1x furg1 ≤ x ≤ g2a2 + b2x furx ≥ g2

und Stetigkeit, d.h. a0 + b0g1 = a1 + b1g1 und a2 + b2g2 = a1 + b1g2

5.6 Regressionsspline

. Erweiterung: Nicht nur stetige Funktion, sondern stetig diffbare Funktion

y = β0 + β1x+ β2x2 + β3x

3 + β4(x− g1)3+ + β5(x− g2)3+

Polynom 3. Grades 2 x stetig differenzierbar da x3 2 x stetig differenzierbar in 0.

. Splines sind ein sehr flexibles Werkzeug, aber man kann auch noch weitere Großen dazu nehmen.

5.7 Trigonometrische Polynome zur Modellierung von periodischen Termen(Saisonfigur)

Beispiel:

y = β0 + β1 sin(2πT· x) + β2 cos(

2πT· x) + β3 sin(

2πT· 2x) + β4 cos(

2πT· 2x)

T: Periodenlange, x: ZeitAlternative: Saison- Dummy (Indikator) VariablenBeachte:

A1 · cos(x) +A2 · sin(x) = A3 · sin(x+ φ)

Beispiel: Trendmodell fur die Populationsgroße von Fuchsen in Baden-Wurttemberg

Gegeben: Sogenannte Jagdstrecken Y = Anzahl der geschossenen Fuchse als Indikator fur diePopulationsgroße

Modelle:

ln(Y ) = β0 + β1t+ β2 ∗ t2

ln(Y ) = β0 + β1t+ β2 ∗ t2 + β3t3 + β4(t− 70)3+ + β5(t− 85)3+

etc.

Versuchen Sie eine Modellierung von ln (Hase) !!

37

Page 38: Vorlesung Lineare Modelle (Prof. Kuchenho ) · Vorbemerkungen Das ist ein Skript der Vorlesung "Lineare Modelle", das auf dem LATEX-File von Prof. Kuc henho basiert. Es ist fu r mich

6 Probleme bei der Regression und Diagnose

Gegeben sei das multiple Regressionsmodell (2.1) und (2.5):

Y = Xβ + ε mit ε ∼ N(0, σ2I)

Es geht darum herauszufinden, ob das Modell zur Analyse der jeweiligen Daten geeignet ist. Eswerden also die Modellannahmen ueberprueft. Da sich diese auf die Storterme beziehen, wer-den die typischerweise die Residuen betrachtet. Beachte, dass sich die Annahmen nicht auf dieRandverteilung von Y beziehen.

6.1 Verschiedene Typen von Residuen

. Residuen sind die Schatzungen fur die Abweichungen vom Regressionsmodell, wobei Stortermedie Abweichungen von dem wahren Modell sind.. Residuen und Storterme sind nicht gleichzusetzen:

Beachte: Die Residuen ergeben sich aus den (unbekannten) Stortermen ε durch

ε = Qε = (I −X(X ′X)−1X ′)ε = (I − P )ε

Daher gilt:V ar(εi) = qiiσ

2

. Hier gibt es wegen der Idempotenz von Q einen linearen Zusammenhang: V ar(εi) = QIQ′ =Q2σ2 = Qσ2

Beispiel:

X :=

1 1

1 2

1 3

1 4

1 5

⇒ Q :=

2/5 −2/5 −1/5 0 1/5

−2/5 710 −1/5 −1/10 0

−1/5 −1/5 4/5 −1/5 −1/5

0 −1/10 −1/5 710 −2/5

1/5 0 −1/5 −2/5 2/5

. Die Regressionsgerade wird durch Ausreißer und Punkte mit starken Einfluss leicht verschoben.

6.1.1 Standardisierte Residuen:

ri :=εi

σ√

1− hiii = 1, . . . , n (6.1)

. Die Residuen (V ar(εi) = qiiσ2) werden mit σ

√qii standardisiert: ri := εi

σ√

1−hii= εi

σ√qii

.. Wenn man Residuen betrachtet, sollte man grundsatzlich die standardisierten Residuen benutzen(z.B. bei Plots), um die Vergleichbarkeit zu gewahrleisten.

6.1.2 Studentisierte Residuen:

Problem: Bei der Schatzung von σ geht das Residuum mit ein. Dies kann insbesondere beikleinen Stichproben ein Problem sein. Daher definiert man:

r∗i :=εi

σ(i)

√1− hii

=εi

σ(i)√qii

i = 1, . . . , n (6.2)

σ(i) := Schatzung von σ ohne die Beobachtung i.

38

Page 39: Vorlesung Lineare Modelle (Prof. Kuchenho ) · Vorbemerkungen Das ist ein Skript der Vorlesung "Lineare Modelle", das auf dem LATEX-File von Prof. Kuc henho basiert. Es ist fu r mich

. Studentisierte Residuen basieren auf der Schatzung der Regression ohne die vermutliche Ausreißer-Beobachtung. Sehr aufwendig, da das Modell n-mal geschatzt wird.. Vergleich mit den standardisierten Residuen: Wenn r∗i < ri ⇒ xi konnte Ausreißer sein.

6.1.3 Rekursive Residuen:

Bei Zeitreihen verwendet man haufig:

ωi :=yi − x′iβ[i−1]√

1− x′i(X ′[i−1]X[i−1])−1xii = p′ + 1, . . . , n (6.3)

β[i−1]: Schatzung von β aus den ersten i− 1 Beobachtungen

X[i−1]: X-Matrix der ersten i− 1 Beobachtungen

. Rekursive Residuen entsprechen der Vorstellung der sequentiellen Quadratsummen.

6.1.4 Kreuzvalidierungs - Residuen:

. Wie ist die Prognose fur die einzelnen Werte?

e(i) := yi − x′iβ(i) (6.4)

β(i): Schatzung von β ohne Beobachtung i

PRESS: (Predicted Residual Sum of Squares)

PRESS :=n∑i=1

e2(i)

Es gilt:

e(i) = ei/(1− hii)

. Die Regressionsgerade wird unabhangig von der i-ten Beobachtung geschatzt. Diese Beobachtungwird dadurch prognostiziert. εi ist dann die Abweichung zwischen wahren Wert und der Prognose.. 1− hii sind die Diagonalelemente der Q-Matrix. V ar(ε(i)) ist die Abweichung der i-ten Beobachtung und es gilt: V ar(ε(i)) > σ2, da der Prog-nosefehler zum Tragen kommt.. Kreuzvalidierungs-Residuen entsprechen etwa der Vorstellung der partiellen Quadratsummen.

39

Page 40: Vorlesung Lineare Modelle (Prof. Kuchenho ) · Vorbemerkungen Das ist ein Skript der Vorlesung "Lineare Modelle", das auf dem LATEX-File von Prof. Kuc henho basiert. Es ist fu r mich

6.2 Diagnose und Therapie von Problemen bei Regression

6.2.1 Die Storterme εi sind nicht normalverteilt

. Betrachtung von εi ∼ N(0, σ2)

Ursachen:Die Y-Variable stellt eine Zahlgroße, eine Uberleben-szeit, oder einen Anteil dar. Y ist nicht-negativ etc.

Folgen:Der KQ-Schatzer β ist immer noch erwartungstreuerSchatzer mit kleinster Varianz (. also BLUE).Der F-Test ist i. a. robust (. d.h. F-Test ist gultig,auch wenn die Modellannahmen nicht exakt erfulltsind).Problematisch sind insbesondere bei kleinen Stich-probenumfangen die Konfidenzintervalle der Parame-ter.Außerdem sind die Prognoseintervalle nicht mehrgultig, da hierbei die NV-Annahme (. in Form dert-Verteilung) besonders eingeht.

Diagnose:Betrachtung der Schiefe und Kurtosis der Verteilung der Residuen.Betrachtung von Normal-Plots der standardisierten ResiduenQQ-PLots: . Es sollten etwa 5% der Werte außerhalb von [−2, 2] liegen

. 50% sollten links bzw. rechts von Null liegen

. Insgesamt sollte der Plot eine Gerade durch den Nullpunkt zeigen (bei Verwendungder standardisierten Residuen eine Winkelhalbierende)

Therapie:Transformationen der Y-Variablen (. z.B. logarithmische Transformation)Verwendung von generalisierten linearen Modellen.

6.2.2 Heterogene Varianzen (Heteroskedastizitat)

Die Varianz der Storterme εi ist von i abhangig.

. Betrachtung von εiiid.∼ N(0, σ2)

40

Page 41: Vorlesung Lineare Modelle (Prof. Kuchenho ) · Vorbemerkungen Das ist ein Skript der Vorlesung "Lineare Modelle", das auf dem LATEX-File von Prof. Kuc henho basiert. Es ist fu r mich

Ursachen:Multplikative Fehlerstruktur, d. h. σi ist abhangig von der Großevon Yi.Y Zahldaten, Anteile.Gruppierte Daten fuhren zu verschieden Residualvarianzen innerhalbder Gruppen.

Folgen:Schatzer fur β ist erwartungstreu, aber er hat nicht mehr die kleinsteVarianz.Konfidenzintervalle und Tests fur β nicht mehr korrekt

Diagnose:Residualplot der standardisierten εi auf Yi (. hier sollte keinZusammenhang erkennbar sein)Plot von xi gegen Yi (typisch fur einen linearen Zusammenhang isteine ”Trompetenform“)Berechnung der Residualvarianzen in den einzelnen Gruppen (beigruppierten Daten)

Therapie:Transformation der Y-Variable (. z.B. logarithmische Transforma-tion bei Trompetenform des Residualplots)Gewichtete KQ-Schatzung (siehe Kapitel 8).

x

0

x

xx

x

x

xx x

x

x

x

x

xx x

x

xx x

xx

x

x

x x

xx

xx

Y i

i

Modell ist gut angepasst

x

0

x

xx

x

x

xx x

x

x

x

x

x

x

x

x

xx x

xx

x

x

x

x

xx

xx

Y i

i

Hinweis auf Heteroskedastizitat

6.2.3 Korrelation zwischen den Stortermen

Es gilt Cov(εi, εj) 6= 0 fur einige i 6= j.

Ursachen:Zeitreihenstruktur oder raumliche Struktur der Daten fuhren zu positiver Korrelation von aufeinan-der folgenden (bzw. nahen) Beobachtungen (z.B. Tiefbohrprojekt).Residuen bei gruppierten Beobachtungen, bei denen die Gruppenzugehorigkeit nicht zusatzlichmodelliert wird, sind haufig positiv korreliert.

Folgen:Schatzer von β erwartungstreu aber nicht mit geringster Varianz (BLUE).Bias bei der Varianzschatzung fuhrt zu fehlerhaften Konfidenzintervallen und zu Problemen beiden F-Tests.

Diagnose:Analyse der Zeitreihenstruktur der Residuen, z.B. mit Durbin–Watson–Test (siehe unten)Plots der Residuen gegen die Zeit (. Gibt es bezuglich des zeitlichenVerlaufs noch eine weitere Struktur (Autokorrelation))Plots von εi gegen εi−1 (. entspricht der Korrelation zwischen εiund εi−1).

Therapie:Verwendung von ZeitreihenmethodenEinbeziehung von (Zeit-)Trend und Saison (. z.B. durch periodischeFunktionen (z.B. sin) oder zusatzlicher Variable Jahr oder Jahr2)Gewichtete KQ-Methode

x

0

xx

x

x

x

x

x

x

x

x

x

x

x

x

x

x

x

x

xxx

x

x

x

x

x

x

x

x

i−1

i

Durbin-Watson-Test

41

Page 42: Vorlesung Lineare Modelle (Prof. Kuchenho ) · Vorbemerkungen Das ist ein Skript der Vorlesung "Lineare Modelle", das auf dem LATEX-File von Prof. Kuc henho basiert. Es ist fu r mich

. Frage: Gibt es eine zeitliche Struktur in den Daten?

Um zu Testen, ob die Storterme εi und εi−1 korreliert sind benutzt man folgende Testgroße:

d :=∑ni=2 (εi − εi−1)2∑n

i=1 ε2i

≈ 2(1− ρ)

ρ: Korrelation zwischen εi und εi−1.

Beweis:

d :=∑ni=2 (εi − εi−1)2∑n

i=1 ε2i

=

n∑i=1

εi2 +

n∑i=1

ε2i−1 − 2n∑i=1

εiεi−1

n∑i=1

ε2i

=

n∑i=1

εi2

n∑i=1

ε2i

+

n∑i=1

ε2i−1

n∑i=1

ε2i

− 2

n∑i=1

εiεi−1

n∑i=1

εi2≈ 2− 2ρ = 2(1− ρ)

weil:

ρ =1n

n∑i=1

(εi − ε)(εi−1 − ε)√V ar(εi)

√V ar(εi−1)

=

n∑i=1

εiεi−1

n∑i=1

εi2

Lehne H0: ρ = 0 ab, falls d > d1 oder d < d2. (d1, d2 sind von p und n abhangige und festtabellierte Werte).

Kleine Werte von d: positives ρGroße Werte von d: negatives ρd ≈ 2 −→ keine Autokorrelation

. Korrelation zwischen εi und εi−1 entspricht dem Plot von εi gegen εi−1.

. Autokorrelation: Man geht von einer geordneten Folge von Zufallsvariablen aus. Wenn zwischenden Gleidern der Folge eine Beziehung/Korrelation besteht, spricht man von Autokorrelation.

6.2.4 Ausreißer und Punkte mit starkem Einfluss

Einflussreiche Beobachtungen (high leverage points) sind in den X-Werten weit vom Zentrumder Daten entfernt. Sie konnen die Regressionsgerade durch ihre große Hebelwirkung leicht ver-schieben.

Ausreißer haben dem Betrag nach sehr große Storterme.

42

Page 43: Vorlesung Lineare Modelle (Prof. Kuchenho ) · Vorbemerkungen Das ist ein Skript der Vorlesung "Lineare Modelle", das auf dem LATEX-File von Prof. Kuc henho basiert. Es ist fu r mich

Ursachen: Falsche Erhebung, Beobachtung gehort nicht zurGrundgesamtheit, Besonderheiten bei einzelner Untersuchungsein-heit

Folgen:Einflussreiche Beobachtungen wirken stark auf die Schatzung vonβ. Ausreißer konnen zu erheblicher Verzerrung der Schatzung vonβ fuhren. Dies gilt besonders fur Ausreißer, die gleichzeitig highleverage points sind.

Diagnose:Analyse der Diagonalelemente der Hat-Matrix P zum Auffinden vonhigh leverage points, verschiedene Residuenplots zur Ausreißeranal-yse, Influence-Statistiken.

Therapie:Fehlerhafte Daten weglassen, aber nur wenn entweder gute fachlicheGrunde vorliegen (Messfehler, Punkt gehort nicht zur Grundge-samtheit) oder das Weglassen des Punktes verandert die Aussagenicht (Test auf Signifikanz).Robuste RegressionGewichtete Regression (siehe Kapitel 8).

x xxx

xxxxx

x

x

x

x i

Y i

x

Ausreißer

xx

x

x

xx

x

x

x

x

x

x

x i

Y i

x

xx

x

xxx

High Leverage PointWichtige Einflussmaße

(1) Leverage:Das i-te Diagonalelement der Hat-Matrix P

hii := x′i(X′X)−1xi (6.5)

heißt Leverage der Beobachtung xi.

Es gilt: 1n ≤ hii ≤ 1

Normalwert: hii = p′

n

großer Wert: hii > 2p′

n

. Der Leverage misst, wo die Punkte bezuglich des Zentrums der Daten (x-Werte) liegen:Wie stark schwanken meine Elemente auf der Regressionsgerade?

(2) Cook’s Distanz:

Di =(β(i) − β)′(X ′X)(β(i) − β)

σ2p′(6.6)

β(i): Schatzung von β ohne Beobachtung i. Es gilt:

Di =r2ip′· hii

1− hii(6.7)

Di =

(Y(i) − Y

)′ (Y(i) − Y

)p′σ2

(6.8)

. Wegen (β(i) − β)′X = β(i)X − βX = (Y(i) − Y )

. In Cook’s Distanz geht das Residuum r2i und der Leverage ein.

. Normierung durch (X ′X), da die Streuung von β ist: V ar(β) = σ2(X ′X)−1

. Das Maß Di ist der mit σ2 standardisierte Abstand zwischen β und β(i) bzw. y und y(i)

43

Page 44: Vorlesung Lineare Modelle (Prof. Kuchenho ) · Vorbemerkungen Das ist ein Skript der Vorlesung "Lineare Modelle", das auf dem LATEX-File von Prof. Kuc henho basiert. Es ist fu r mich

(3) DFFITS:

DFFITSi :=Y(i)i − Yiσ(i)

√hii

DFFITSi misst den Einfluss der i-Beobachtung auf die Schatzung Yi.Es gilt:

Di =σ2

(i)

p′σ2DFFITS2

i .

(4) DFBETAS:

DFBETASki :=βk − βk(i)σ(i)√ckk

misst den Einfluss der Beobachtung i auf einzelne Parameterschatzungen βk.

(5) Varianzverhaltnis:

COVRATIOi =det(σ2

(i)

(X ′(i)X(i)

)−1)

det (σ2(X ′X)−1)

misst die Veranderung der Varianz von β durch Weglassen der Beobachtung i.

6.2.5 Regressionsgleichung ist nicht korrekt

Die Gleichung y = Xβ + ε ist fehlerhaft.

Ursachen:Variable wurden weggelassen oder uberflussigerweise in dasModell einbezogen.Der Zusammenhang ist nicht linear.Interaktionen werden nicht in das Modell einbezogen

. z.B.: Es wird ein lineares Modell verwendet, obwohl derZusammenhang quadratisch ist (siehe 1.1.4).

Folgen:Systematische Fehler bei der Schatzung der Modellparameterund bei der Prognose, aber Modellschatzung liefert haufigbrauchbare Naherung

x

x

x

x

xx

x

x

x

x

x

x

x i

Y i

x

xx

x

xx

x

Diagnose:Im 2-dimensionalen Fall: Scatterplot mit Regressionsgerade.Im mehrdimensionalen Fall:Residuenplots εi gegen yi.F-Tests auf Einfluss von weiteren Variablen, Interaktionen, Polynomterme hoherer Ordnung etc.

Therapie:Modellerweiterung, Transformationen der Einflussgroßen, Variablenselektionsverfahren.

6.2.6 Partial Leverage Plot

y∗ auf x∗k mity∗ := Q(k)yx∗k := Q(k)xk

Q(k): Q-Matrix der Einflussgroßen ohne Variable k

44

Page 45: Vorlesung Lineare Modelle (Prof. Kuchenho ) · Vorbemerkungen Das ist ein Skript der Vorlesung "Lineare Modelle", das auf dem LATEX-File von Prof. Kuc henho basiert. Es ist fu r mich

=⇒ Darstellung des Zusammenhangs zwischen y und der Einflussgroße xk unter Berucksichtigungder ubrigen Einflussgroßen.

. Idee: Der mehrdimensionale Scatterplot ist wegen der Interaktionen der Variablen nicht besondersaussagekraftig.. z.B.: y = β0 + β1x1 + β2x2 + ε mit x2 ∈ {0, 1}.. Hier ist die Bereinigung um den Einfluss der Gruppenvariable (Abziehen der Gruppenmittelwerte;siehe 3.5.) und damit die Verschiebung der Gearde in den Ursprung sinnvoll.

6.2.7 Kollinearitat

Die Spalten von X sind (annahernd) linear abhangig.

UrsachenHohe Korrelation zwischen den Einflussgroßen, Ungunstiges Versuchs-Design, Codierung von diskretenVariablen

Folgen:Ungenaue Schatzung von β, haufig sogar falsches Vorzeichen und damit ist auch σβ sehr großAber: Konfidenzintervalle korrekt und damit entsprechend groß.

Diagnose:Analyse der Matrix (X ′X) und der Korrelationsmatrix der metrischen EinflussgroßenRegression der abhangigen Variablen x1 = α0 + α1x2: R2 zu groß = gute Anpassung ⇒ starkerZusammenhang.

Therapie:Zusammenfassen bzw. Weglassen von Einflussgroßen (Bei starkem Zusammenhang der Variablen).Verwendung von anderen Schatzmethoden, z.B.: Ridge-Regression

. Extreme Multikollinearitat bedeutet geometrisch, dass die zu xk und xl gehorenden Datenvek-toren auf der gleichen Geraden liegen, also einen Raum der Dimension 1 bilden. Man kann alsoeinen Vektor o.B.d.A. als eine Linearkombination des anderen darstellen.⇒ Regressionskoeffizient β ist nicht mehr identifizierbar (nicht eindeutig).. Korrelation ist ein hinreichendes Kriterium fur Kollinearitat. D.h. starke Korrelation kann einKollinearitatsproblem andeuten, schwache Korrelation lasst aber nicht den Schluss zu, es existierekeine Kollinearitat.

. Beispiel:

y = β0 + β1x1 + β2x2 + ε mit X1: Einkommen nach Steuern, X2: Einkommen vor Steuern.

Hangt X1 von X2 ab? Oder anders herum? Wo kommt der Einfluss her?Angenommen wird eine einfaches System: x1 = 0, 8x2 ⇒ X hat RangdefizitEs folgt:

y = β0 + β1x1 + 1, 25β2x1 + ε

= β0 + (β1 + 1, 25β2)x2 + ε

= β0 + (β1 + 1, 25β)0, 8x2 + ε

Problem: Modell ist nicht eindeutig identifizierbar, wenn die Variablen vollstandig linear abhangigsind.

. Kollinearitat ist keine Verletzung der Vorraussetzungen.

. Wenn man aber die Moglichkeit hat einen kontrollierten Versuch zu machen, dann kummert mansich um ein orthogonales Design (der x-Werte), d.h. xi⊥xj ∀i 6= j ⇒ alle x sind unabhangigvoneinander.

45

Page 46: Vorlesung Lineare Modelle (Prof. Kuchenho ) · Vorbemerkungen Das ist ein Skript der Vorlesung "Lineare Modelle", das auf dem LATEX-File von Prof. Kuc henho basiert. Es ist fu r mich

Kollinearitatsdiagnostik

. Betrachtung von Zusammenhangen von mehr als zwei Variablen wie z.B. x1 ∼ γ0 + γ1x1 + γ2x2

(1) Konditionszahl:

K(X) :=√λmaxλmin

(6.9)

λmin, λmax: minimaler, bzw. maximaler Eigenwert von X’X

. Kollinearitat ⇔ mindestens ein Eigenwert λ von X ′X ist Null (oder nahe bei Null), weil∃ e 6= 0 : (X ′X)e = λe = 0e ⇒ Matrix hat nicht vollen Rang ⇒ Kollinearitat.. Skalierung durch λmax

λmin

(2) Varianz Inflationsfaktor:

. y = β0 + β1x1 + β2x2 + β3x3 + β4x4 + ε

. Moglicherweise gibt es ein Kollinearitatsproblem mit x1: x1 ∼ γ0 + γ1x2 + γ2x3 + γ3x4.Eine Regression ergibt R2

1.

VIFj :=1

1−R2j

(6.10)

R2j : Bestimmheitsmaß der Regression von xj auf die ubrigen x.

. R2j → 1⇒ V IFJ →∞ (R2

j = 0⇒ V IFj = 1, R2j = 0, 99⇒ V IFj = 10)

. Man kann allerdings keine Aussage uber den Grad der Kollinearitat machen.

Es gilt fur die Varianz von βj :

σβj =σ2

(xj − x)′(xj − x)VIFj (6.11)

. V ar(β) = σ2(X ′X)−1 ⇒ V ar(βj) = σ2cjj , wobei cjj das Diagonalelement ist.

Alternative Schatzfunktionen: Shrinkage-Schatzung

Problem:Wenn |βi| zu groß ist (durch große Werte), explodieren die Abweichungen.

Idee: Minimiere

n∑i=1

(yi − y) + λ(β21 + β2

2 + . . .+ β2p) = SSE + Strafterm (6.12)

mit λ als Strafparameter (Shrinkage-Parameter) umn∑i=1

|βi| zu verkleinern.

. λ wird durch Kreuzvalidierung geschatzt (oder willkurlich gewahlt).

6.2.8 Fehler in X-Variablen

Die Einflussgroßen sind fehlerhaft gemessen bzw. erhoben.

UrsachenMessfehler im engeren Sinne (Messgerat) und im weiteren Sinne (z.B. falsche Beantwortung von

46

Page 47: Vorlesung Lineare Modelle (Prof. Kuchenho ) · Vorbemerkungen Das ist ein Skript der Vorlesung "Lineare Modelle", das auf dem LATEX-File von Prof. Kuc henho basiert. Es ist fu r mich

Fragen)

FolgenMeist systematische betragsmaßige Unterschatzung der zu den fehlerhaft gemessenen Großen gehorigenβi. Geringere Power der entsprechenden F-Tests.

DiagnoseMehrfach-Messungen der entsprechenden Großen

TherapieVerwendung von Korrektur-Verfahren −→ Theorie der Fehler-in-den-Variablen-Modelle

47

Page 48: Vorlesung Lineare Modelle (Prof. Kuchenho ) · Vorbemerkungen Das ist ein Skript der Vorlesung "Lineare Modelle", das auf dem LATEX-File von Prof. Kuc henho basiert. Es ist fu r mich

7 Modellwahl

7.1 Zielsetzung der Modellierung

. Ausgangssituation: Es sind viele mogliche Einflussgroßen vorhanden. Nun mochte man durchRegression folgende Ziele erreichen:

(a) gute Beschreibung des Verhaltens der Zielgroße. Exploration und Deskription, Erklaren und Verstehen des Verhaltens der Zielgroße.

(b) Vorhersage zukunftiger Werte der Zielgroße und Schatzung des Mittels der Zielgroße. Prognose

a) b) Modellgenauigkeit wichtig→ viele Variablen → Kausale Beziehung nicht notig ”Variable enthalt Information”

(c) Extrapolation auf Bereiche außerhalb der X-Daten

. besonders kritisch, ohne Kausalitat nicht moglich.

Wenn ein Wert außerhalb des Datenbereichs der x-Werteliegt (Exploration – keine Prognose), braucht man einegute inhaltlich Begrundung, dass der Zusammenhang auchnoch außerhalb des Datenbereichs gilt.

Bsp.: Korpergroße ∼ Alter (10-17) kann nicht auf 30 Jahreubertragen werden. x

y

xx

x

x

x

x

x

x

x

Datenbereich x

(d) Schatzung von Parametern. Gehort eher zu (a)Bias ergibt sich durch Weglassen von Variablen, Erhohung der Varianz von Schatzern durchuberflussige VariablenBeachte: Interpretation der Regressionskoeffizienten ”bei Festhalten der anderen Variablen”.→ Einschrankung durch viele Kovariablen.

(e) Kontrolle eines Prozesses durch Variation des Inputs. Output soll y sein. Wie muss dann x entsprechend verandert werden?→ Kausalitat notig

(f) Entwicklung realistischer Modelle fur einen Prozess. Kausalzusammenhange sollen festgestellt werden.→ Kausalitat notigRealistische Beschreibung → Sparsames klares Modell

7.2 Allgemeines

”Tradeoff” zwischen Modell-Genauigkeit (R2) und Einfachheit.Je mehr Variablen ⇒ R2 steigt entspricht steigender Komplexitat.

Kein Verfahren kann (zunachst bei den Zielen (c,d,e,f)) das Fachwissen ersetzen→ Verfahren eher explorativ.

Bei der Prognose konnen bei großeren Datenmengen Variablenselektionsverfahren sehr effizientsein.

Folgende Punkte sollte man zusatzlich im Auge behalten:

1. Diskrete Variablen und Interaktionseffekte bereiten zusatzliche Probleme: Es gibt ”Regeln”z.B.,

48

Page 49: Vorlesung Lineare Modelle (Prof. Kuchenho ) · Vorbemerkungen Das ist ein Skript der Vorlesung "Lineare Modelle", das auf dem LATEX-File von Prof. Kuc henho basiert. Es ist fu r mich

a) Interaktionen nicht ohne Haupteffekte ins Modellb) Effekte von kategoriellen Variablen nur als Ganzes ins Modell.

Eine andere Moglichkeit ist das Verwenden von Indikator-Variablen → Variablen, die nichtim Modell sind, sind gemeinsame Referenzkategorie

2. Multikollinearitat kann ein erhebliches Problem sein. → Korrelation der Kandidaten - Ein-flussgroßen analysieren.

3. Transformation und quadratische Terme liefern weitere Moglichkeiten

. Ad-hoc-Kriterium:Wahl zwischen zwei Modellen uber die Prufung von H0 : βj = 0. Da eine ”nestet“ -Situationvorliegt, wendet man den F-Test an (Auswahl von k Regressoren):

F =(SSEk − SSEp′)/(p′ − k)

SSEp′/(n− p′)=n− p′

p′ − kεk − εp′

εp′

H0 ablehnen, falls F > F1−α(p′ − k, n− p′), d.h. volles Modell bevorzugen.

7.3 Maße fur die Modellgute

Gegeben sei das lineare Modell Y = Xβ + ε

a) Bestimmtheitsmaß:

R2 =SSMSST

= 1− SSESST

(7.1)

. R2 ungeeignet, da R2 mit der Anzahl der hinzugenommenen Variablen wachst. Deshalbverwendet man lieber das mit der Anzahl der Parameter adjustierte R2

adj.

b) Adjustiertes Bestimmtheitsmaß:

R2adj := 1− MSE

MST= 1− σ2

SST/(n− 1)(7.2)

c) Akaikes Informationskriterium AIC:

AIC = n ln(SSE) + 2p′ − n ln(n) (7.3)

. Das kleinste AIC ”gewinnt“ (smaller is better)

. AIC ∝ normierter SSE + 2 · Anzahl der Parameter

. Anzahl der Parameter als Strafterm

d) Schwarz’sches Bayes-Kriterium SBC (=BIC):

SBC = n ln(SSE) + ln(n)p′ − n ln(n) (7.4)

. Das kleinste BIC ”gewinnt“ (smaller is better)

. BIC hat generell die Tendenz weniger Variablen zuzulassen als AIC, d.h. BIC ist strenger,weil hier der Strafterm ln(n)p′

e) Mallows Cp:

Cp =SSEσ2G

+ 2p′ − n (7.5)

σG: Schatzung aus vollem Modell

. Cp sollte etwa gleich p′ sein. Wenn also das erste MalCp < p′ = p+ 1 (=Anzahl der Einflussgroßen), dann ergibtsich das beste Modell. p

xx

x

x

x

x

x

x

x

C p

49

Page 50: Vorlesung Lineare Modelle (Prof. Kuchenho ) · Vorbemerkungen Das ist ein Skript der Vorlesung "Lineare Modelle", das auf dem LATEX-File von Prof. Kuc henho basiert. Es ist fu r mich

7.4 Variablenselektionsverfahren

Gegeben ist eine Zielgroße Y und mehrere mogliche Einflussgroßen xk, k = 1, . . . ,K. Gesucht istein moglichst gutes Modell

Y = β0 +L∑j=1

βjxkl ,

wobei die xkl , l = 1, . . . , L ausgewahlt werden sollen.

. Variablenselektionsverfahren sind allgemeine Verfahren zur Modellanpassung (auch fur nicht-lineare Regressionen oder nicht-Regressionen).. Hier wird der Trade-Off der Modellgenauigkeit gegen die Modellkomplexitat abgewogen (Trade-Off).

1. Auswahl nach einem KriteriumWahle aus allen moglichen 2k Modellen das Modell mit optimalem Kriterium C aus. C istin der Regel ein Kriterium aus 7.3. (R2, R2

adj , AIC, BIC oder/und Cp).

2. Vorwartsselektion

a) Wahle im Anfangsschritt das Modell Y = β0.

b) Im ersten Schritt wird die Variable in das Modell aufgenommen, die zu dem hochstenR2 fuhrt.

c) In den weiteren Schritten wird jeweils eine Einflussgroße in das Modell zusatzlich aufgenom-men. Es wird jeweils die Variable, die zu dem hochsten R2 des resultierenden Modellsfuhrt, aufgenommen.

d) Stoppregel: Die Prozedur wird beendet, falls ein bestimmtes Zielkriterium erfullt ist,z.B. p-Wert des zu der aufgenommenen Variablen gehorigen F-Tests uberschreitet einenbestimmten Wert p0.

. Die Signifikanz der einzelnen Variablen ist nicht. Durch Hinzunahme einer neuen variable,kann die Erklaerungskraft einer anderen abgemildert werden. gesichert.

3. Ruckwarts-Selektion

a) Wahle im Anfangsschritt das volle Modell Y =∑Kk=0 βkxk

b) In den weiteren Schritten wird jeweils eine Einflussgroße aus dem Modell genommen.Es wird jeweils die Einflussgroße, die zu dem hochsten R2 des resultierenden Modellsfuhrt, ausgeschlossen.

c) Stoppregel: Nach bestimmtem Zielkriterium, z.B. p-Wert der F-Tests, die zu denausgeschlossenen Variablen gehoren, unterschreitet einen bestimmten Wert p0.

. Hier ist die Signifikanz der einzelnen Variablen gesichert, da sie bei jedem Schritt uberpruftwird. Die Signifikanz, die aus Kombination einzelner Variablen entstehen kann, kann hierhingegen nicht berucksichtigt werden.

4. Schrittweise Selektion:Kombination aus Vorwarts- und Ruckwartsselektion. Er wird eine Vorwartsselektion undnach jedem Schritt eine Ruckwartsselektion mit geeignetem Stoppkriterium durchgefuhrt.

. Hier wird nach jedem Vorwartsschritt die Signifikanz untersucht und gegebenenfalls eineVariable wieder entfernt. Also ist bei dieser Methode die Signifikanz gesichert.

50

Page 51: Vorlesung Lineare Modelle (Prof. Kuchenho ) · Vorbemerkungen Das ist ein Skript der Vorlesung "Lineare Modelle", das auf dem LATEX-File von Prof. Kuc henho basiert. Es ist fu r mich

Beispiel:

v1

v1 v2

v1 v2 v3 ⇒ v2 v3

v2 v3 v4

v2 v3 v4 v5 ⇒ v2 v4 v5

7.5 Beispiel: Tiefbohrprojekt

Modellwahl mit Modellgutemaße:

R2 wird mit steigender Komplexitat besser ⇒ nicht besonders gut geeignet.

R2adj steigt bis 13 Einflussgroßen und sinkt dann wieder ⇒ Modell mit 13 Einflussgroßen.

AIC hat Minimum bei 7 ⇒ Modell mit 7 Einflussgroßen.

BIC hat Minimum bei 7, wobei der Unterschied (6→ 7) nicht so stark ist wie beim AIC⇒Modellmit 7 Einflussgroßen.

Cp sollte etwa einen Wert haben, der ahnlich zu der Anzahl der Parameter ⇒ Modell mit 6Einflussgroßen.

51

Page 52: Vorlesung Lineare Modelle (Prof. Kuchenho ) · Vorbemerkungen Das ist ein Skript der Vorlesung "Lineare Modelle", das auf dem LATEX-File von Prof. Kuc henho basiert. Es ist fu r mich

8 Das allgemeine lineare Modell

. Mittels Gewichtung kann man bei bekannten Strukturen der Storterme das gemischte Modellauf das einfache lineare Modell zuruckfuhren. Man setzt keine einheitliche Varianz, aber Unkorre-liertheit der Stoerterme vorraus.

8.1 Der gewichtete KQ-Schatzer

. Hier existiert keine einheitliche Varianz der Storterme, aber auch keine Korrelation.

Das lineare Modell mit heteroskedastischen Storgroßen ist gegeben durch:

Y = Xβ + ε (8.1)ε ∼ N(0, σ2V ) (8.2)V = diag(v1, v2, . . . , vn) (8.3)

V bekannte Matrix zur Beschreibung der Varianzstruktur

Gewichtsmatrix: W = V −1/2 = diag (v−1/21 , v

−1/22 . . . , v

−1/2n )

Der gewichtete KQ-Schatzer hat die Form:

βW := (X ′V −1X)−1X ′V −1Y (8.4)σ2 = (ε′V −1ε)/(n− p′) (8.5)

βW ist ML-Schatzer und minimiert die gewichtete Residuenquadratsumme

(Y −Xβ)′V −1(Y −Xβ). (8.6)

8.1.1 Herleitung durch Transformation

Das Modell (8.1)-(8.3) lasst sich in ein gewohnliches lineares Modell transformieren:

Y ∗ := WY (8.7)X∗ := WX (8.8)ε∗ := Wε (8.9)

Dann gilt:

Y ∗ = X∗β + ε∗ (8.10)ε∗ ∼ N(0, σ2I) (8.11)

βW ist KQ-Schatzer im transformierten Modell

. Idee: Standardisieren/Normieren von ε ∼ N(0, σ2V ):ε∗ = ε√

V, wobei V = TT ′ ⇒

√V = T ⇒

√V−1

= T−1 = W

⇒ Gewichtung der KQ-Methode, sodass ε∗ ∼ N(0, σ2I) gilt.. Ohne Gewichtung ist die Schatzung zwar erwartungstreu, aber nicht optimal, d.h. die KQ-Schatzung hat nicht die kleinste Varianz.

8.1.2 Bemerkung

Beim gewichteten KQ-Schatzer wird angenommen, dass V mit vi bekannt ist. Das ist in der Praxismeist nicht der Fall.

Abhilfe:1. Schritt:

52

Page 53: Vorlesung Lineare Modelle (Prof. Kuchenho ) · Vorbemerkungen Das ist ein Skript der Vorlesung "Lineare Modelle", das auf dem LATEX-File von Prof. Kuc henho basiert. Es ist fu r mich

Schatzung von vi durch Berechung der KQ-Schatzung und Betrachtung der ε2i .Dabei ist ein Parameter fur eine Beobachtung nicht sinnvoll. Besser ist ein Model fur die Varianzenvi.

Beispiel: Gruppierte Daten (3 Gruppen)

Angenommen wird, dass vi in den Gruppen gleich sind. Dann gilt:

σ21 =

∑i∈σ1

ε2i|σ1| − p′

, σ22 =

∑i∈σ2

ε2i|σ2| − p′

⇒ V =

σ21

. . .σ2

1

σ22

. . .σ2

2

σ21

. . .σ2

1

2. Schritt:Gewichtete KQ-Methode mit σ2

1 , σ22 und σ2

3 .Hier gelten die Eigenschaften des Modells dann aber nur approximativ.

8.2 Verallgemeinerte KQ-Methode

. Verwendung bei korrelierten Stortermen.Das lineare Modell mit allgemeiner Varianzstruktur ist gegeben durch:

Y = Xβ + ε (8.12)ε ∼ N(0, σ2V ) (8.13)

V ∈ Rn×n: beliebige bekannte Kovarianzmatrix mit vollem Rang

. V zeigt die Korrelation zwischen den Stortermen an. Die Korrelation zwischen den Stortermenresultiert, dass die Information uber die Storterme geringer ist.

Dann gibt es eine invertierbare Matrix T mit

TT ′ = V, W = T−1 Gewichtsmatrix.

Der verallgemeinerte KQ-Schatzer ist gegeben durch:

βW := (X ′V −1X)−1X ′V −1Y (8.14)σ2 = (ε′V −1ε)/(n− p′) (8.15)

Das Modell (8.12)-(8.13) lasst sich wie oben in ein gewohnliches lineares Modell transformieren:

Y ∗ := WY (8.16)X∗ := WX (8.17)ε∗ := Wε (8.18)

Dann gilt:

Y ∗ = X∗β + ε∗ (8.19)ε∗ ∼ N(0, σ2I) (8.20)

. W transoformiert das Modell Y zu Y ∗.

. V ar(ε∗) = σ2WVW ′ = σ2WTT ′W ′ = σ2I (wegen TT ′ = V , W = T−1).

. Beispiel:

53

Page 54: Vorlesung Lineare Modelle (Prof. Kuchenho ) · Vorbemerkungen Das ist ein Skript der Vorlesung "Lineare Modelle", das auf dem LATEX-File von Prof. Kuc henho basiert. Es ist fu r mich

V =

1 ρ ρ2 . . . ρn−1

ρ 1. . .

......

. . .ρn−1 . . . 1

⇒W =

1− ρ2 0 . . . 0−ρ 1 0 . . .

0 −ρ 1...

......

. . ....

mit |ρ| < 1.

Y ∗ = WY ist nicht eindeutig losbar:

y∗1 =√

1− ρ2y1 y11 =√

1− ρ2x11

y∗2 = y2 − ρy1 y12 = x12 − ρx11

y∗3 = y3 − ρy2...

Mittels Gewichtung kann bei bekannten Strukturen die Storterme auf das einfache lineare Modellzuruckfuhren.

8.2.1 Eigenschaften des verallgemeinerten KQ-Schatzers

Gegeben sei das Modell (8.12) bis (8.13). Dann gilt:

E(βW ) = β (8.21)

V (βW ) = σ2(X ′V −1X)−1 (8.22)

Alle Testverfahren und Quadratsummenzerlegungen lassen sich im ModellY ∗ = X∗β + ε∗ betrachten und damit auf den Fall homogener Varianzen zuruckfuhren.

8.3 Allgemeines Gauss-Markov-Theorem

Sei das Modell

Y = Xβ + ε, rg X = p′

E(ε) = 0V (ε) = σ2V

gegeben.

Dann ist βW unter den erwartungstreuen linearen Schatzern derjenige mit der kleinsten Varianz:βW ist BLUE-Schatzer (best linear unbiased estimator).

8.4 Beispiele fur Varianzstrukturen

• AR(1) (allgemeine Zeitreihenstruktur): εt = ρεt−1 + vt mit vt iid.ρ entspricht der Veranderung von Zeitpunkt (t− 1) zum Zeitpunkt t , wobei vt als weitererEinfluss eingerechnet wird. Die Veranderungen setzen sich dann systematisch fort (von (t−2)zu t: ρ2; von (t− 3) zu t: ρ3 usw.) ⇒ V.

• Longitudinale Daten (Mehrdimensionale Zeitreihen) Blockdiagonale Struktur

• Symmetrische Struktur (gemischte Modelle)

8.4.1 Weitere Schatzstrategien

• REML

• Robuste Varianzschatzung mit ”Working correlation”

54

Page 55: Vorlesung Lineare Modelle (Prof. Kuchenho ) · Vorbemerkungen Das ist ein Skript der Vorlesung "Lineare Modelle", das auf dem LATEX-File von Prof. Kuc henho basiert. Es ist fu r mich

8.4.2 Beispiel: Tiefbohrung

Varianzstruktur: Abhangig vom Abstand

β =

−1.82.253.22−0.023

Alle Schatzungen sind signifikant.

Hinweis auf Autokorrelation wird durch den Durbin-Watson-Test untersucht. Dieser ergibt 0.82,obwohl sie bei 2 liegen sollte. Wegen 0.82 < 2 kann eine positive Autokorrelation festgestelltwerden.

8.4.3 Beispiel: Wildzeitreihen

Varianzstruktur: Unabhangigkeit der Einzelzeitreihen, aber AR(1)- Struktur fur jede einzelneZeitreihe

55

Page 56: Vorlesung Lineare Modelle (Prof. Kuchenho ) · Vorbemerkungen Das ist ein Skript der Vorlesung "Lineare Modelle", das auf dem LATEX-File von Prof. Kuc henho basiert. Es ist fu r mich

9 Das logistische Regressionsmodell

. Ziel: Untersuchung des Einflusses von x auf y mit y als binare Zielgroße.

9.1 Beispiel: Einkommen ∼ Besitz von Auto

Dieses Beispiel wurde anhand der Mitschriften aus der Vorlesung eingefuegt.X . . . Einkommen (stetig)Y . . . Besitz eines Auto (nein=0/ja=1)

● ● ● ● ● ● ●

● ●

● ● ● ●

● ●

● ● ● ●

0 1 2 3 4

0.0

0.2

0.4

0.6

0.8

1.0

Ansatz: KQ−Schätzung

Einkommen in 1000

Aut

o

● ● ● ● ● ● ●

● ●

● ● ● ●

● ●

● ● ● ●

0 1 2 3 4

0.0

0.2

0.4

0.6

0.8

1.0

Ansatz: logistische Regression

Einkommen in 1000

Aut

o

9.1.1 Ansatz: KQ-Schatzung

Sei y = β0 + β1 ∗ Einkommen + ε.Hier wird angenommen, dass E(ε) = 0, so dass: E(y) = β0 + β1 ∗ Einkommen (siehe oben).

Problem:

1. Das Regressionsmodell ergibt auch Werte, die außerhalb des Intervalls (0, 1) liegen, z.B. Beihohem Einkommen kann die Zielvariable auch angeben, ob jemand zwei Autos hat, was indiesem Fall uninteressant ist und nicht beachtet werden soll.

2. Y ist binomialverteilt (Y ∼ Bin(1, E(Y ))). Es ergibt sich also keine konstante Varianz:V ar(Y ) = E(Y )(1− E(Y )), was zum Problem der Heteroskedastizitat (Vgl. 6.2.2.) fuhrt.

9.1.2 Ansatz: lineares Wahrscheinlichkeitsmodell

Sei P (Y = 1) = β0 + β1 · Einkommen.

Probleme ergeben die Wahrscheinlichkeiten, die weit weg von 1 liegen.

9.1.3 Ansatz: logistisches Regressionsmodell

Hier geht die Regressionsgerade nicht uber (0, 1) hinaus (Vgl. Grafik 2).

Sei also P (Y = 1|Einkommen) = G(β0 + β1 ∗ Einkommen), wobei G : [−∞,∞] −→ (0, 1) undmonoton steigend sein sollte, sodass G invertierbar ist.

Man wahlt fur G die Verteilungsfunktion der logistischen Funktion, die die Voraussetzungen erfullt:

G(t) = [1 + exp(−t)]−1

56

Page 57: Vorlesung Lineare Modelle (Prof. Kuchenho ) · Vorbemerkungen Das ist ein Skript der Vorlesung "Lineare Modelle", das auf dem LATEX-File von Prof. Kuc henho basiert. Es ist fu r mich

9.2 Definition des logistischen Regressionsmodells

πi = P (Yi = 1|xi) = G(x′iβ) (9.1)

lnπi

1− πi= x′iβ . = G−1(πi) (9.2)

Yi, i = 1, . . . , n unabhangig (bei gegebenem festen X) (9.3)G(t) = (1 + exp(−t))−1 (9.4)

=exp(t)

1 + exp(t)

Yi: binare Zielgroßexi: Vektor der EinflussgroßenX: Design-Matrix der Einflussgroßen mit vollem Rang

Bezeichnungen

ln πi1−πi : ”Logarithmierte Chance” Log -odds

x′iβ = β0 + β1x1 + . . .+ βpxp : linearer PradiktorFunktion G : Response-Funktion (Inverse Link-Funktion)

. Der lineare Pradikator summiert die Einflussgroßen auf:z.B. P (Y = 1|Einkommen) = G(β0+β1∗Einkommen+β2∗(Zahl der Kinder)+β3∗Umweltbewusstsein).

9.3 Interpretation

Die Wahl von G (Verteilungsfunktion der logistischen Verteilung) als Responsefunktion ermoglichtfolgende Interpretation:

Z.B. im einfachen Modell: y = β0 + β1x+ ε

P (Y = 1|x0) = G(β0 + β1 ∗ x0)P (Y = 1|x0 + 1) = G[β0 + β1 ∗ (x0 + 1)]

P (Y = 1|x0 + 1)/(1− P (Y = 1|x0 + 1))P (Y = 1|x0)/(1− P (Y = 1|x0))

= exp(β1) . Odds Ratio von πi

lnP (Y = 1|x0 + 1)

[1− P (Y = 1|x0 + 1)]− ln

P (Y = 1|x0)1− P (Y = 1|x0)

= β1 . logarithmierter Odds Ratio von πi

Das logistische Regressionsmodell nimmt einen linearen Zusammenhang zwischen den ”Log odds”von Y und den Einflussgroßen X an.

• Wenn xk um einen Einheit steigt, so andert sich die logarithmierte Chance von Y um βk.

• Wenn xk um einen Einheit steigt, so andert sich die Chance von Y um den Faktor exp(βk).

• Das Odds Ratio (Chancenverhaltnis) zwischen Y bei xk und Y bei xk + 1 ist exp(βk).

W’keit 0.01 0.05 0.1 0.3 0.4 0.5 0.6 0.7 0.9 0.95 0.99

Odds 1/99 1/19 1/9 3/7 2/3 1 1.5 7/3 9 19 99

Log odds -4.6 -2.9 -2.2 -0.85 -0.41 0 0.41 0.85 2.2 2.9 4.6

. Je großer β, desto steiler die Kurve.

. Symmetrie, aber nicht Linearitat (die Abstande verandern sich).

9.4 Bemerkungen

Die Varianten des multiplen linearen Regressionsmodells lassen sich direkt auf das logistische Mod-ell ubertragen:

• Behandlung von Guppenvergleichen (ANOVA) mit Hilfe von Indikatorvariablen

• Behandlung von diskreten Einflussgroßen: verschiedene Codierungen, Interaktionen, etc.

57

Page 58: Vorlesung Lineare Modelle (Prof. Kuchenho ) · Vorbemerkungen Das ist ein Skript der Vorlesung "Lineare Modelle", das auf dem LATEX-File von Prof. Kuc henho basiert. Es ist fu r mich

• Behandlung von stetigen Einflussgroßen (Polynome, Splines etc.)

Beachte: Beim logistischen Modell ”fehlt” der Varianz-Parameter σ, da V ar(Y ) = E(Y ) ∗ [1 −E(Y )]. Weiter ist keine Verteilungsannahme notig, da Y immer Bernoulli-verteilt ist.

. Also sind die Methoden ubertragbar.

. Y hat Bernoulli-Verteilung mit fester Varianz V ar(Y ) = E(Y )(1− E(Y )).

. Da der Varianzparameter nicht benotigt wird, muss ein Parameter weniger geschatzt werden(Veranderung der Freiheitsgrade).. ABER: Es ist immer zu hinterfragen, ob das Modell wirklich passt.

9.4.1 Herleitung der logistischen Funktion –Wieso wahlt man gerade die logistische Verteilungsfunktion fur G?

1. Ansatz:

dN(t)dt = αN(t) gilt fur N(t) = c exp(αt)

dF (t)dt = α(r −N(t)) gilt fur F (t) = N(t)

rdF (t)dt = β F (t)(1− F (t)) gilt fur F (t) = F (α+ βt) wegen G′(t) = G(t)(1−G(t))

12

G

t

1

2. Ansatz: Grenzwert-/Schwellenwertkonzept

Y wird durch latente Variable Z gesteuert. Man legt fest: Y = 1⇔ Z = z0 (Z: Nutzen)In der Population gilt dann: z0 ∼ Fα,β (z0 hat also Verteilung F mit den Parameter α, β).

Was gilt jetzt fur P (Yi = 1|zi)? P (Yi = 1|zi) = P (zi ≥ z0) = Fα,β(zi)Sei nun Fα,β ∼ N(α, β2) (Fα,β ist die logistische Verteilung, woraus sich das Logit-Modellergibt.) ⇒ Φ( zi−αβ ) = Φ(α+ βzi)⇒ Probit-Modell.

3. Ansatz: Alternatives Grenzwertkonzept

Es wird ein fester Grenzwert angenommen (z.B. Null). Des Weiteren gilt: Y = 1 ⇔ z > 0und Zi = β0 + β1x1 + . . .+ βpxp + εi sei der Nutzen.Wenn nun εi logistisch verteilt ist, folgt das logistische Modell.

4. Ansatz: Gruppenkonzept

Angenommen werden zwei Gruppen: Y = 1⇒ X ∼ N(µ1, σ2) und Y = 0⇒ X ∼ N(µ0, σ

2)

P (Y = 1|x) =P (Y = 1)P (x|Y = 1)

P (x)=

P (Y = 1) 1σ ϕ(x−µ1

σ )P (Y = 1) 1

σ ϕ(x−µ1σ ) + P (Y = 0) 1

σ ϕ(x−µ0σ )

=c1 exp( 1

2 (x−µ1σ )2)

c1 exp( 12 (x−µ1

σ )2) + c2 exp( 12 (x−µ0

σ )2)=

11 + c2

c1exp( 1

2σ2 ((x− µ1)2 − (x− µ0)2))

=1

1 + exp(α+ βx)

Hier gilt β = 0⇔ µ1 = µ0.

58

Page 59: Vorlesung Lineare Modelle (Prof. Kuchenho ) · Vorbemerkungen Das ist ein Skript der Vorlesung "Lineare Modelle", das auf dem LATEX-File von Prof. Kuc henho basiert. Es ist fu r mich

. Die Varianzen der Gruppen mussen gleich sein, da sich sonst das x nicht weg kurzt. Furungleiche Varianzen erhalt man einen Ausdruck der Form: P (Y = 1|x) = G(α+ βx+ γx2).

9.5 Logistische Regression als Klassifikationsproblem

• Prognose in der Logistischen Regression entspricht Klassifikationsproblem mit 2 Gruppen. Man nutzt die Information der x-Werte, um die y-Werte durch logistische Regression derentsprechenden Gruppe zuzuordnen.

• Analogien zu Verfahren der Diskriminanzanalyse

• Diskriminanzregeln aus logistischer Regression moglich

9.6 Beispiele

• Y: Kreditwurdigkeit, X: Personenmerkmale (Schufa-Projekt)

• Y: Auftreten einer Krankheit innerhalb einer bestimmten Zeit, X: Exposition, Geschlecht,Alter etc.

• Y: Auffinden der korrekten Blute, X: Zeit (Trend), Art (Fledermaus)

• Y: Praferenz fur eine Partei, X: Personlichkeitsmerkmale

• Y: Bestehen eines Tests, X: Lehrmethode, Geschlecht etc.

. Y ist hier immer binar (nein, ja) = (0, 1)

9.6.1 logistische Regression einer 4-Felder-Tafel

Man kann eine 4-Felder-Tafel direkt in eine logistische Regression ubersetzen. Die Bernoulli-verteilung ist in eine Binomialverteilung zusammenfassbar. Die Vorraussetzungen der Unabhangigkeit(durch die Modellannahmen) und der gleichen Wahrscheinlichkeiten π (da xi alle gleich) sind erfullt.

Krank GesundPlacebo 22 15 37

Medikament 10 20 30⇒

y x1

0 1 0... 1

...

0... 0

22mal

1... 0

......

...1 1 0

15mal

9.7 ML-Schatzung im logistischen Regressionsmodell

Sei das Modell (9.1)–(9.4) gegeben.

βML := arg maxL(β) = arg max lnL(β) (9.5)

L(β) =n∏i=1

G(x′iβ)Yi(1−G(x′iβ))1−Yi (9.6)

lnL(β) =n∑i=1

Yi ln(G(x′iβ)) + (1− Yi) ln(1−G(x′iβ)) (9.7)

Beweis:

X und Y = (y1, . . . , yn)′ sind die Beobachtungen mit

P (Yi = 1) = G(x′iβ)P (Yi = 1) = G(x′iβ)(1−G(x′i+1β))⇒ L(β)

59

Page 60: Vorlesung Lineare Modelle (Prof. Kuchenho ) · Vorbemerkungen Das ist ein Skript der Vorlesung "Lineare Modelle", das auf dem LATEX-File von Prof. Kuc henho basiert. Es ist fu r mich

Ableiten nach β und Null setzen liefert unter Benutzung von G′ = G(1−G) die Score-Gleichungenfur βML:

d lnL(β)d β

=n∑i=1

Yi1

G(x′iβ)G(x′iβ) (1−G(x′i+1β))xi + (1− Yi)

11−G(x′iβ)

(−G(x′iβ) (1−G(x′iβ))xi

=n∑i=1

(Yi (1−G(x′i+1β)) + (1− Yi)(−G(x′i+1β)))xi

=n∑i=1

(Yi −G(x′i+1β))xi

⇒ s(βML) :=n∑i=1

(Yi −G(x′iβML))xi = 0.

9.7.1 Eigenschaften des ML-Schatzers

Die allgemeine Theorie der Maximum Likelihood - Schatzung liefert:Fur n→∞ gilt unter Regularitatsbedingungen:

βML → N(β, F−1(β)) asymptotische Normalverteilung (9.8)F (β) = X ′D(β)X (9.9)D(β) = diag{(G(x′iβ)(1−G(x′iβ)))} (9.10)

β′F (β)β → χ2(p′) asymptotisch χ2 verteilt (9.11)

• Die asymptotische Varianzmatrix ergibt sich als Inverse der Fischer-Information (Ableitungder Score-Funktion)

• Die asymptotische Varianzmatrix entspricht auch der Varianzmatrix aus der gewichteten(heteroskedastischen) Regression, das V ar(Y ) = D(β) = diag(G(x′iβ)(1−G(x′iβ)))

• Die numerische Berechnung des ML- Schatzers erfolgt nach der Methode der ”iteriertengewichteten kleinsten Quadrate” (IWLS Iteratively Weighted Least Squares)

. Hier gilt das Gauß-Markow-Theorem nicht, weil nur asymptotische Erwartungstreue vorliegt.

9.7.2 Existenz und Eindeutigkeit des ML-Schatzers im logistischen Modell

Eindeutigkeit: Da die Likelihood-Funktion konkav ist, ist die Losung der Score-Gleichung immereindeutig

Existenz: Der ML- Schatzer existiert ⇔ Die Werte 0 und 1 sind nicht linear trennbar,d.h. es existiert kein α mit Y = 1 fur x′α > 0 und Y = 0 fur x′α < 0Im Fall der Nicht- Existenz geht mindestens eine Komponente gegen ∞.Im einfachen Modell bedeutet die Bedingung, dass Y=1 fur x > c und Y=0 fur x < c.

. Sobald ein Wert außerhalb des Datenschwerpunktes fur dasentsprechende Y liegt, existiert der ML-Schatzer.. Wenn der Schatzer existiert, ist er auch eindeutig.. Wenn die Daten trennbar sind, divergiert der ML-Schatzer,d.h. β → ∞. Das ist bei der Anwendung erkennbar, wenn derML-Schatzer und die Varianz ungewohnlich hohe Werte haben(hohe Zahl von Fisher-Scoring Iterationen). In solchen Fallenist eine Gruppierung sinnvoll.. Fur endliche Stichproben ist der ML-Schatzer nicht er-wartungstreu, nur asymptotisch erwartungstreu.

x

x

x x

x xx x x x

x0

1

60

Page 61: Vorlesung Lineare Modelle (Prof. Kuchenho ) · Vorbemerkungen Das ist ein Skript der Vorlesung "Lineare Modelle", das auf dem LATEX-File von Prof. Kuc henho basiert. Es ist fu r mich

9.8 Inferenz im logistischen Regressionsmodell

Beachte: Alle Aussagen gelten - im Gegensatz zum linearen Regressionsmodell – nur asympto-tisch, d.h. fur hinreichend große Stichprobenumfange!

. P (β ∈ [untere Grenze, obere Grenze]) = 1− αP (exp(β) ∈ [exp(untere Grenze), exp(obere Grenze)]) = 1− α⇒ Tests und KIs lassen sich ubertragen

9.8.1 Wald-Test fur die lineare Hypothese

Sei das logistische Regressionsmodell (9.1)–(9.4) gegeben.

H0 : Aβ = c mit rg(A) =a.

Analog zum linearen Modell wird folgende quadratische Form betrachtet:

W = (Aβ − c)′ (AF−1(β)A′)−1︸ ︷︷ ︸= Varianz

(Aβ − c)

W heißt Wald-Statistik. Aus der asymptotischen Normalitat folgt unmittelbar:

Was.∼ χ2(a)

Mit dieser Statistik lasst sich die allgemeine lineare Hypothese testen.

Wald-Konfidenzintervalle

Wir benutzen die asymptotische Normalitat (. wir haben hier keine t-Verteilunng wie im allge-meinen Modell, da dort die Varianz geschatzt werden muss)und erhalten folgende Konfidenzinter-valle fur β zum Niveau α :

βk ± σβkz1−α/2σβk =

√ckk (k-tes Diagonalelement der Matrix F−1(β))

Fur die Odds-ratios exp(βk) ergibt sich das transformierte Konfidenzintervall zum Niveau α :

exp[βk ± σβkz1−α/2

]Da kein Varianzparameter zu schatzen ist, kommt die t-Verteilung hier nicht vor.

9.8.2 Likelihood-Quotienten -Test fur die lineare Hypothese

Sei das logistische Regressionsmodell (9.1)–(9.4) gegeben.

H0 : Aβ = c mit rg(A) = a.

Wir definieren folgende Teststatistik:

LQ = −2{

lnL( ˆβ)− lnL(β)

}ˆβ : ML-Schatzer unter H0

Aus der allgemeine Theorie von Likelihood-Quotienten-Tests folgt:Es gilt unter H0:

LQas∼ χ2(a)

Beachte: Der LQ-Test ist mit dem Wald-Test fur endliche Stichproben nicht aquivalent. Aquiv-alenz gilt nur asymptotisch.

61

Page 62: Vorlesung Lineare Modelle (Prof. Kuchenho ) · Vorbemerkungen Das ist ein Skript der Vorlesung "Lineare Modelle", das auf dem LATEX-File von Prof. Kuc henho basiert. Es ist fu r mich

. Nullhypothese H0 ablehnen, wenn LQ > χ2(a)

Likelihood-Quotienten Konfidenzintervalle

Mit Hilfe des LQ-Tests lassen sich auch Konfidenzintervalle zum Niveau α konstruieren:

KI := {βk|H0 : βk = βkwird mit LQ-Test zum Niveau α nicht abgelehnt}

. Uberdeckungswahrscheinlichkeit fur große Stichprobenumfange 1−α, sonst approximativ 1−α.

. KIs sind nicht symmetrisch.

9.8.3 Score-Test fur die lineare Hypothese

Sei das logistische Regressionsmodell (9.1)–(9.4) gegeben.

H0 : Aβ = c mit rg(A) =a.

Wir definieren folgende Teststatistik:

SC = s( ˆβ)′F−1( ˆ

β) s( ˆβ)

ˆβ : ML-Schatzer unter H0

Es gilt unter H0:

SCas∼ χ2(a)

. Score-Gleichung (siehe (9.8.)): s(βML) :=∑ni=1(Yi −G(x′iβML))xi = 0

. H0 ablehnen, wenn SC > χ2(a)

. Vorteil: βML muss man nicht ausrechnen (ist u.U. nicht analytisch berechenbar).

9.8.4 Zusammenfassung: Tests fur die lineare Hypothese

Sei das logistische Regressionsmodell (9.1)–(9.4) gegeben. H0 : Aβ = c mit rg(A) =a.

W = (Aβ − c)′(AF−1(β)A′)−1(Aβ − c) (9.12)

LQ = −2{

lnL( ˆβ)− lnL(β)

}(9.13)

SC = s( ˆβ)′F−1( ˆ

β) s( ˆβ) (9.14)

ˆβ : ML-Schatzer unterH0

W: Wald-StatistikLQ: Likelihood-Quotienten-StatistikSC: Score-Statistik

Es gilt unter H0:

Was∼ χ2(a) (9.15)

LQas∼ χ2(a) (9.16)

SCas∼ χ2(a) (9.17)

Außerdem sind alle 3 Tests asymptotisch aquivalent. Sie unterscheiden sich aber fur kleine Stich-proben.

. Kuchenhoffs Empfehlung: Anwendung der LQ-Statistik, wobei sich in der Praxis kaum einUnterschied ergibt.

62

Page 63: Vorlesung Lineare Modelle (Prof. Kuchenho ) · Vorbemerkungen Das ist ein Skript der Vorlesung "Lineare Modelle", das auf dem LATEX-File von Prof. Kuc henho basiert. Es ist fu r mich

9.9 Devianz im logistischen Modell

. Je flacher die Regressionsgerade ist, umso kleiner ist R2, woraus sich schlussfolgern lasst, dassR2 als Maß fur die Modellgute nicht besonders gut geeignet istAnalog zur ANOVA- Tafel betrachtet man im logistischen Modell die Log-Likelihood als Maß furdie Modellgute: Dabei wird definiert:

Modell mit Konstante (SST): P (Yi = 1) = G(β0)Modell (SSE): P (Yi = 1) = G(x′iβ)”volles Modell” P (Yi = 1) = pi

Von diesen Modellen wird jeweils der Wert von -2 log(L) verglichen.

9.9.1 Das logistische Modell fur gruppierte Daten

Wir betrachten das logistische Regressionsmodell mit gruppierten Daten: Jeweils nj ; Daten-punkte werden zu einer Gruppe zusammengefasst. Dabei sind in einer Gruppe die Kovariablenidentisch. Sei πj := G(x′j β).Yj : Anzahl der Erfolge in Gruppe j. Das Modell ist dann:

Yj |xj ∼ B(nj , G(x′jβ)), j = 1 . . . g. (9.18)

D = −2g∑j=1

(lnL(β)− lnL(yj)) (9.19)

heißt Devianz. Es gilt:

D = 2g∑j=1

yj lnyj/nj

G(x′j β)+ (nj − yj) ln

(nj − yj)/nj(1−G(x′j β))

(9.20)

. lnL(β) ist der Likelihoodbeitrag der j-ten Gruppe fur das ideale Modell

. lnL(yj)ist der Likelihoodbeitrag der j-ten Gruppe fur das geschatzte Modell

. Devianz entspricht der LQ-Statistik des idealen Modells zum geschatzten Modell.

9.9.2 Anpassungstests

a) Pearson-Statistik

χ2P =

g∑j=1

nj(yj/nj −G(x′β))2

πj(1− πj)

. ist abgeleitet aus dem generalisierten linearen Modell.

b) Devianz (siehe (9.19)) Verteilungsapproximation (ni/n→ λi)

χ2p, D

(a)∼ χ2(g − p′)

. Hier ist g die Anzahl der Gruppen/Parameter im perfekten Modell und p′ Anzahl dergeschatzten Parameter.

c) Bei kleinen Gruppenumfangen oder im Fall ni = 1: Hossmer-Lemeshow-TestBilde ca. g= 10 Gruppen nach der Große des linearen Pradiktors x′β und bilde Anpas-sungsstatistik wie unter a). Die Testverteilung ist eine χ2(g − 2)-Verteilung.

. (a), (b) basieren auf der Binomialverteilung. Sie sind also nur auf große Stichprobenumfangeanwendbar, da sonst die Approximation noch nicht greift.. zu (c): Die Gruppen erhalt man, indem man sich den linearen Pradiktor anschaut und dement-sprechend eine Aufteilung nach Quantilen oder Ahnlichem wahlt.

63

Page 64: Vorlesung Lineare Modelle (Prof. Kuchenho ) · Vorbemerkungen Das ist ein Skript der Vorlesung "Lineare Modelle", das auf dem LATEX-File von Prof. Kuc henho basiert. Es ist fu r mich

9.10 Residuen im logistischen Regressionsmodell

Wir betrachten wie oben das logistische Regressionsmodell mit gruppierten Daten. Sei πj :=G(x′j β).

a) Devianzresiduen

dj = sign(yj − nj πj)︸ ︷︷ ︸Richtung der Devianz-Res.

√yj ln

yj/njπj

+ (nj − yj) ln(nj − yj)/nj

(1− πj)︸ ︷︷ ︸Devianzresiduen (vgl. (9.19))

(9.21)

. dj = Richtung * ”√Dj“(siehe 9.21)

b) Pearson-Residuen

rj =yj − nj πj√nj πj(1− πj)

(9.22)

c) Standardisierung der Residuen

H := D12X(X ′DX)−1X ′D

12 (9.23)

D = diag(nj πj(1− πj)) (9.24)

d∗j := dj/√

1− hjj (9.25)

r∗j := rj/√

1− hjj (9.26)

d) Likelihood-Residuen

lrj := sign(yj − njG(x′jβ))√

2(lnL(β, γj)− lnL(β)) (9.27)

L(β, γj) : Likelihood des Modells mit dem der zusatzlichen Indikatorvariablen fur die Beobach-tung j mit zugehorigem Parameter γj .

. H ist hier eine Verallgemeinerung der Hat-Matrix P . Dient also zur Standardisierung.

9.11 Maße fur die Modellanpassung

. R2 ist als Maß fur die Modellgute im logistischen Modell nicht besonders gut geeignet. Deshalbverwendet man andere Maße.

Wir betrachten das logistische Regressionsmodell mit πj := G(x′j β).

a) Likelihood-Quotienten-Index

R2LQ = 1− log(L(β))

log(L0)(9.28)

. L0: Modell mit Konstanten

. L(β): volle Modell

. RLQ2 ∈ [0, 1]

b) Vorhersagefehler Sei Yi := 1 , falls πi ≥ p0 und Yi := 0 falls πi < p0 (z. B. p0 =0.5)Nun analysiert man die Vierfeldertafel, die durch die binaren Großen Yi und Yi gegeben ist.

. Nur bei starken Effekt und kleinen Tafel hilfreich (wie z.B. Rauchen ∼ chronische Bron-chitis).

64

Page 65: Vorlesung Lineare Modelle (Prof. Kuchenho ) · Vorbemerkungen Das ist ein Skript der Vorlesung "Lineare Modelle", das auf dem LATEX-File von Prof. Kuc henho basiert. Es ist fu r mich

c) Zusammenhang von Yi und πi Fur beobachtete Paare seiN : Anzahl von Paaren mit unterschiedlichen Response, d.h. yi1 6= yi2 ,Nc: Anzahl konkordanten Paare, d.h. mit sign(yi1 − yi2) = sign(πi1 − πi2)Nd: Anzahl der Paare, die diskordant sind.

Kendalls ττa =

Nc −Ndn(n− 1)/2

(9.29)

. ist auch Korrelationsmaß zwischen ordinalen Daten

Goodman & Kruskals γ-Koeffizient

γ =Nc −NdNc +Nd

(9.30)

Somers DD =

Nc −NdN

(9.31)

. Goodman & Kruskals γ-Koeffizient und Somers D dienen zum Vergleich von Modellen

65

Page 66: Vorlesung Lineare Modelle (Prof. Kuchenho ) · Vorbemerkungen Das ist ein Skript der Vorlesung "Lineare Modelle", das auf dem LATEX-File von Prof. Kuc henho basiert. Es ist fu r mich

10 Das gemischte lineare Regressionsmodell (”Linear mixedModel”)

10.1 Das Modell mit einem einfachen zufalligen Effekt

auch: Varianzkomponenten-Modell, Random-Intercept Modell

Wir betrachten gruppierte Daten mit Gruppenindex i:

Yij = x′ijβ + γi + εij i = 1, . . . , g; j = 1 . . . ni (10.1)

ε ∼ N(0, σ2I) (10.2)γi ∼ N(0, σ2

γ) (10.3)γi und ε unabhangig

i . . . Gruppe, ij . . . Einzeilbeobachtung in der Gruppe iγi: Random Intercept (Zufallige Effekte), zufallige Bereinigung um den Gruppeneffekt. Dasentspricht dem Abstand zwischen Gesamtmittel und Gruppenmittel.

. β ist fur alle Beobachtungen gleich ⇒ jede Gruppe hat gleiche Steigung.

. Random-Intercept: Es variiert der Intercept fuer jede Gruppe

. Varianzkomponenten-Modell:Zerlegung der ”Gesamt“-Varianz in die Varianz zwischen den Klassen (→ γi mit σ2)) und dieVarianz innerhalb einer Klasse (→ εij mit σγ2)

10.1.1 Das marginale Modell

. Zuruckfuhren des Modells mit einfachen zufalligen Effekten auf das allgemeine lineare Regres-sionsmodell:

. 2 Stufen:(1) Gruppen: γi ∼ N(0, σγ2)(2) Einzelbeobachtungen: yij |γi ∼ N(x′ijβ + γi, σ

2)⇒ marginales Modell mit Yij ∼ N(x′ijβ, σ

2 + σγ2)

Das obige Modell kann kann umgeformt werden zu dem marginalen Modell

Yij = x′ijβ + δij = x′ijβ + γi + εij (10.4)δij = εij + γi (10.5)

V ar(δij) = σ2 + σ2γ (10.6)

cov(δi1j1 , δi1j2) = σ2γ (10.7)

cov(δi1j1 , δi2j2) = 0 fur i1 6= i2 (10.8)

Darstellung als allgemeines lineares Modell:

Y = Xβ + δ

δ ∼ N(0, σ2I + diag[σ2γeie

′i])

ei := 1-Vektor der Lange ni

10.2 Das Modell mit allgemeinen zufalligen Effekten

. Random-Intercept UND Random-Slope

Zweistufiges Modell mit individuellem linearem Trend, dessen Steigung individuell geschatzt wird

Yij = β0i + β1itij + εij

β0i = β0 + γ0i

β1i = β1Im(i) + β2 ∗ IB(i) + γ1i

66

Page 67: Vorlesung Lineare Modelle (Prof. Kuchenho ) · Vorbemerkungen Das ist ein Skript der Vorlesung "Lineare Modelle", das auf dem LATEX-File von Prof. Kuc henho basiert. Es ist fu r mich

Einsetzen ergibt:Yij = β0 + β1Im(i) ∗ tij + β2 ∗ IB(i) ∗ tij + γ0i + γ1itij

Annahme : γ0i und zufallige Effekte,Alle γiγiγi sind unabhangig, und γiγiγi ∼ N(000, G), i = 1, . . . , g,β1 und β2: eigentlich interessierende Populationseffekte

. γ0i Random-Intercept

. γ1i Random-Slope

10.2.1 Ein hierarchisches Modell fur longitudinale Daten Stufe 1

Sei YiYiYi = (Yi1, Yi2, . . . , Yini)′ der Vektor der wiederholten Messungen fur das i-te Subjekt zu den

Zeiten tij , j = 1, . . . , ni, fur i = 1, . . . , g.

YiYiYi = Ziβiβiβi + εiεiεi (10.9)

• Zi eine (ni×q)-Matrix bekannter Kovariablen, die modellieren, wie sich die Zielgroße fur dasi-te Subjekt uber die Zeit verhalt

• βiβiβi ein q-dimensionaler Vektor unbekannter subjektspezifischer Regressionskoeffizienten

• εiεiεi ein ni-dimensionaler Vektor mit Residuen fur das i-te Individuum

• Annahme:Alle εiεiεi sind unabhangig und εiεiεi ∼ N(000,Σi), i = 1, . . . , N, Σi unbekannte Kovarianzmatrix.(Meist Zusatzannahme: Σi hangt von i nur uber ni ab.)

10.2.2 Ein hierarchisches Modell fur longitudinale Daten Stufe 2

Ein lineares Modell fur die subjektspezifischen Regressionskoeffizienten βiβiβi:

βiβiβi = Kiβββ + γiγiγi (10.10)

• Ki eine (q × p)-Matrix bekannter Kovariablen

• βββ ein p-dimensionaler Vektor unbekannter Regressionsparameter

• Annahme: Alle γiγiγi sind unabhangig, und γiγiγi ∼ N(000, G), i = 1, . . . , g,

G unbekannte Kovarianzmatrix.

10.2.3 Das lineare gemischte Modell fur longitudinale Daten

Substitution von (10.10) in (10.9) ergibt

YiYiYi = Xiβββ + Ziγiγiγi + εiεiεi (10.11)

mit Xi = ZiKi, das lineare gemischte Modell mit fixed effects (festen Effekten) βββ und ran-dom effects (Zufallseffekten) γiγiγi.

. Yi = ZiKiβ + Ziγi + εi = Zi(Kiβ + γi) + εi

Annahme:

γiγiγi ∼ N(000, G), εiεiεi ∼ N(000,Σi)γ1γ1γ1, . . . , γgγgγg, ε1, . . . , εgε1, . . . , εgε1, . . . , εg unabhangig.

}⇒ YiYiYi ∼ N(Xiβββ, ZiGZ

′i + Σi)

(marginales Modell) (10.12)

67

Page 68: Vorlesung Lineare Modelle (Prof. Kuchenho ) · Vorbemerkungen Das ist ein Skript der Vorlesung "Lineare Modelle", das auf dem LATEX-File von Prof. Kuc henho basiert. Es ist fu r mich

10.3 Das lineare gemischte Modell (LMM) in allgemeiner Darstellung

Y = Xβ + Zγ + ε (10.13)(γε

)∼ N

((00

),

(GGG 000000 RRR

))(10.14)

X und Z : feste bekannte Designmatrizenβ : Vektor der festen Effekteγ : Vektor der zufalligen EffekteR : Kovarianzmatrix der Storterme, also Cov(εi, εj)G : Kovarianzmatrix der zufalligen Effekte, also Cov(γi, γj)

Bemerkungen:

Das obige Modell ist sehr flexibel und enthalt als Spezialfalle das gemischte Modell fur Longitudi-naldaten und das Varianzkomponenten-Modell

Im Modell fur Longitudinaldaten gilt:

R = diag(Σi)

Im Varianzkomponentenmodell gilt:

R = σ2I( Dimension: Anzahl Beobachtungeng∑i=1

ni)

G = σ2γI( Dimension: g )

10.3.1 Marginales und bedingtes (konditionales) Modell

Marginales Modell:

Y = Xβ + δ (10.15)δ = Zγ + ε (10.16)δ ∼ N(0, R+ ZGZ ′) (10.17)

Bedingtes Modell:

Y |γ ∼ N(Xβ + Zγ,RRR) (10.18)γ ∼ N(0,GGG) (10.19)

10.4 Inferenz im gemischten linearen Modell

Die Inferenz erfolgt zunachst mit Hilfe des marginalen Modells: Sei ϑϑϑ ein Vektor aller Parameter,die in G und R vorkommen. ϑϑϑ und β konnen nach der Maximum-Likelihood Methode geschatztwerden: Als Log-Likelihood ergibt sich (von additive Konstanten abgesehen):

l(β,ϑϑϑ) = −12(ln |V (ϑϑϑ)|+ (YYY −Xβ)′V −1(ϑϑϑ)(Y −Xβ)

)(10.20)

wobei V = ZG(ϑϑϑ)Z ′ + R(ϑϑϑ). Ist ϑϑϑ bekannt, so ist der MLE von βββ bedingt auf ϑϑϑ (gewichteterKQ-Schatzer:)

β(ϑϑϑ)β(ϑϑϑ)β(ϑϑϑ) =(X ′V (ϑϑϑ)−1X

)−1

X ′V −1(ϑϑϑ)Y. (10.21)

Einsetzen liefert die Profil-Log-Likelihood:

l(ϑϑϑ) = −12(ln |V (ϑϑϑ)|+ (YYY −Xβ(ϑϑϑ))′V −1(ϑϑϑ)(Y −Xβ(ϑϑϑ))

)(10.22)

68

Page 69: Vorlesung Lineare Modelle (Prof. Kuchenho ) · Vorbemerkungen Das ist ein Skript der Vorlesung "Lineare Modelle", das auf dem LATEX-File von Prof. Kuc henho basiert. Es ist fu r mich

10.4.1 ML und REML-Schatzer

Maximieren von (10.22) bezuglich ϑ liefert ML-Schatzer. Da dieser nicht erwartungstreu ist, ver-wendet man haufig den sogenannten restringierteten ML-Schatzer: Dieser maximiert

LR(ϑ) = l(ϑϑϑ)− 12ln|X ′V (ϑ)−1X| (10.23)

Im einfachen linearen Modell entspricht der REML-Schatzer dem erwartungstreuen Schatzer vonσ2.

10.4.2 Inferenz bezuglich von β im linearen gemischten Modell II

Unter dem marginalen Modell (10.11) und bedingt auf ϑϑϑ folgt β(ϑ)β(ϑ)β(ϑ) einer multivariaten Nor-malverteilung mit Erwartungswert βββ und Kovarianzmatrix

var(βββ) = (X ′V −1X)−1 (10.24)

Da V unbekannt ist, wird es durch den (RE)ML-Schatzer V (ϑ) ersetzt.Zur Konstruktion von Konfidenzintervallen und entsprechenden Tests nimmt man an, dass βasymptotisch normalverteilt ist. Fur spezielle Modelle ist dies bewiesen, aber eine allgemeingultigeasymptotische Normalverteilungsaussage ist nicht nachgewiesen.Da die Varianzmatrix V nur geschatzt wird, werden in der Praxis deshalb haufig approximativet-Tests und entsprechende Konfidenzintervalle benutzt, die die Verteilung von (βj − βj)/ ˆs.e.(βj)durch eine t-Verteilung approximieren und die zugehorigen Freiheitsgrade geeignet schatzen.

10.4.3 Schatzung der zufalligen Effekte

In manchen Fallen ist die Schatzung der Zufalligen Effekte von Interesse. Dazu betrachten wir dasgesamte Modell in folgender Form:(

γY

)∼ N

((0Xβ

),

(GGG ZGZGZGGZ ′GZ ′GZ ′ VVV

))(10.25)

Nun erhalt man den bedingten Erwartungswert von γ bei gegebenem Y nach den allgemeinenRegeln fur die multivariate NV:

E(γ|Y ) = GZ ′GZ ′GZ ′VVV −1(Y −Xβ) (10.26)

Ersetzen durch die Schatzer ergibt:

γ = GZ ′GZ ′GZ ′VVV −1(Y −Xβ) (10.27)

10.5 Praktisches Umsetzen von gemischten Modellen mit SAS

• Proc MIXED

• Random-Statement legt den zufalligen Effekt fest, auch Intercept zugelassen, d.h. die MatrixZ. Type legt Kovarianzstruktur von G. Subject legt Einheiten fest

• Repeated-Statement legt Varianzstruktur R fest Subject-Statement legt Blockdiagonale Struk-tur fest

• Model-Statement legt Modell mit den festen Effekte fest; X-Matrix

• Viele Varianten und Optionen moglich

10.6 Beispiele

10.6.1 Beispiel: Studie zur Lesefoderung

• Zielgroße: Verbesserung der Lesefahigikeit

• Einflussgroßen: spezielle Forderung

69

Page 70: Vorlesung Lineare Modelle (Prof. Kuchenho ) · Vorbemerkungen Das ist ein Skript der Vorlesung "Lineare Modelle", das auf dem LATEX-File von Prof. Kuc henho basiert. Es ist fu r mich

• Storgroße : Ausgangsniveau

• Problem : Versuch wurde klassenweise durchgefuhrt

Voraussetzung der Unabhangigikeit der Storterme nicht erfullt (Cluster Daten), weil von der Ahn-lichkeit der Schuler einer Klasse ausgegangen werden kann.Abhilfe: Einfuhrung eines KlasseneffektsProblem: Zu viele ParameterAbhilfe: Klasseneffekt wird als zufalliger Effekt eingefuhrt.

y11

y12

y13

y14

y15

y21

y22 y23y24

y25

y26

1

2

3

Klasse 1

Klasse2

Klasse3

y ... Zuwachsin derLesefähigkeit

Gesamtmittelwert

. i - Klasse, j - Schuler in Klasse i

. γi Random-Intercept

Das marginale Modell

. Zuruckfuhren des Modells mit einfachen zufalligen Effekten auf das allgemeine lineare Regres-sionsmodell:. 2 Stufen:

(1) Klassen: γi ∼ N(0, σγ2)(2) Schuler in den Klassen: yij |γi ∼ N(x′ijβ + γi, σ

2)⇒ marginales Modell mit Yij ∼ N(x′ijβ, σ

2 + σγ2), d.h. Yij = x′ijβ + γi + εij

. Also ergibt sich, wenn man 3 Schuler in Klasse 1 und 2 Schuler in Klasse 2 annimmt:

V = V ar(Yij) =

σ2 + σ2γ1 σ2

γ1 σ2γ1

σ2γ1 σ2 + σ2

γ1 σ2γ1

σ2γ1 σ2

γ1 σ2 + σ2γ1

0

0σ2 + σ2

γ2 σ2γ2

σ2γ2 σ2 + σ2

γ2

. Cov(Yij , Ynk) = Cov(γi + εij , γn + εnk)

= Cov(γi, γn) ={σ2γ , i = n (also die Schuler in der gleichen Klasse)

0 , i 6= n

d.h. Random-Intercept unabhangig

70

Page 71: Vorlesung Lineare Modelle (Prof. Kuchenho ) · Vorbemerkungen Das ist ein Skript der Vorlesung "Lineare Modelle", das auf dem LATEX-File von Prof. Kuc henho basiert. Es ist fu r mich

10.6.2 Beispiel: Gewichtsentwicklung

Gewichts−

x

x

x

x

x

xx

x

x

Proband 1

x

xx

Proband 2

entwicklung

t

• Zielgroße: Gewichtsentwicklung (in nur unregelmaßigen Abstanden erhoben)

• Einflussgroßen: Geschlecht IM , Art der Intervention IB

Zweistufiges Modell mit individuellem linearem Trend, dessen Steigung von Geschlecht (IndikatorIm) und Art der Intervention (IndikatorIB) abhangt

Yij = β0i + β1itij + εij

β0i = β0 + γ0i

β1i = β1IM (i) + β2 ∗ IB(i) + γ1i

Hier werden die Messungen fur den jeweiligen Probanden gruppiert. (i ”Proband“ , j ”Messung“)

⇒ Fur jeden Probanden wird ein eigenes Intercept und eine eigene Steigung geschatzt.

⇒ Dann erst uberlegt man sich, ob die individuellen Schatzungen in Beziehung zu anderenEinflussgroßen (z.B. Geschlecht) stehen, d.h. man macht eine zweite Regression.

⇒ Yij = normale Regression (Einfluss von Geschlecht usw.) + individuelle Einflussgroßen.

⇒ Ein mogliches Ergebnis konnte sein, dass Probanden mit hohem Startgewicht, auch mehrzunehmen.

Individuelle Regression (Vgl. 10.2.1):

Regression fur die einzelnen Probanden, d.h. innerhalb der einzelnen Gruppen der Daten.

Zi =

1 ti1...

...1 tin

βi = (β0i, β1i)

Untersuchung auf die Zusammenhange im kompletten Modell (Vgl. 10.2.2):

Regression zwischen den Gruppen, wobei die Gruppen hier die Zusammenfassung der Mess-daten fur den jeweiligen Probanden sind.

(β0i

β1i

)=

(1 0 0 00 1 Im(i) Ib(i)

)β0

β1

β2

β3

+(γ0i

γ1i

)βi = κ ∗ β + γi

⇒ G =(

σγ02 σγ0γ1

2

σγ0γ12 σγ1

2)

)IM (i) Indikator fur den Einfluss des GeschlechtsIB(i) Indikator fur den Einfluss der Intervention

71

Page 72: Vorlesung Lineare Modelle (Prof. Kuchenho ) · Vorbemerkungen Das ist ein Skript der Vorlesung "Lineare Modelle", das auf dem LATEX-File von Prof. Kuc henho basiert. Es ist fu r mich

γi ist die individuellen Einflusse, die ich nicht erklaren kann.

Stufe 1 und 2 durch Substitution zu einem Modell zusammenfassen (Vgl. 10.2.3):

Yi = x′iβ + Ziγi + εi

E(Yi) = x′iβ + 0 + 0 = x′iβ

Cov(Yi) = 0 + Zi Cov(γi)︸ ︷︷ ︸G

Z ′i + Σi da γi, εi unabhangig

⇒ YI ∼ N(xiβ, ZiGZ ′iΣi)

72

Page 73: Vorlesung Lineare Modelle (Prof. Kuchenho ) · Vorbemerkungen Das ist ein Skript der Vorlesung "Lineare Modelle", das auf dem LATEX-File von Prof. Kuc henho basiert. Es ist fu r mich

11 Messfehler: Modelle und Effekte

Die Unterlagen sind Teil des Kurses ”Measurement error in epidemiological studies Short courseat KU Leuven vom 17/18.11.2003”

Literatur:

• Carroll R. J. , D. Ruppert, L. Stefanski and C. Crainiceanu: Measurement Error in NonlinearModels: A Modern Perspective, Second Edition Crcpress.

• Carroll, R.J. Measurement error in epidemiologic studies. In: Encyclopedia of Biostatistics,ed. by Armitage, P.and Colton, T., 2491- 2519. Wiley, Chichester.

• Kuha, J., C. Skinner and J. Palmgren. Misclassification error. In: Encyclopedia of Biostatis-tics, ed. by Armitage, P.and Colton, T., 2615- 2621. Wiley, Chichester.

Ursachen von Messfehlern

• Es wird davon ausgegangen, dass Daten nicht genau erhoben werden konnen ⇒ Messfehlerdes Messgerates

• Was ist eigentlich die richtige Variable? (z.B. Blutdruck/Fettverzehr)

• Die Angaben der Patienten muss nicht richtig sein

• Ausreißer-Werte (Bsp.: Fettverzehr – Sonntagsbraten)

• Problematisch wird zusatzlich, dass die x-Werte fur die Prognose ebenfalls ungenau erhobenwerden, woraus resultiert, dass der Fehler fur die Prognose steigt.

Beispiele

• Studie zur chronischen Bronchitis (Bronchitis ∼ Staubbelastung, Rauchen)

• Job-Ausgesetztsein-Matrix (Exposition ∼ Lebenslauf, Arbeitsstelle

• Studie zum Fettverzehr (uber Tagebuchfuhrung)

11.1 Modelle fur Messfehler

• Systematisch vs. Zufall

• Klassisch vs. Berkson

• Additiv vs multiplikativ

• Homoskedastisch vs Heteroskedastisch

• Differentiell vs Nicht-Differentiell

11.1.1 Klassischer additiver zufalliger Messfehler

Xi : Wahrer WertW i : Messung von X, d.h. mit Messfehler

W i = Xi + Ui (Ui, Xi) unabh.E(Ui) = 0V (Ui) = σ2

U

Ui ∼ N(0, σ2U )

. additiver Fehler: Wi = Xi ±Messfehler = Xi + Ui (Xi, Uiunabh.)

Das Modell ist passend fur

• Messfehler des Messinstruments

• Eine Messung wird fur den Mittelwert verwendet

• Messfehler ist bedingt durch den Arzt

73

Page 74: Vorlesung Lineare Modelle (Prof. Kuchenho ) · Vorbemerkungen Das ist ein Skript der Vorlesung "Lineare Modelle", das auf dem LATEX-File von Prof. Kuc henho basiert. Es ist fu r mich

11.1.2 Additiver Berkson-Fehler

Xi = W i + Ui (Ui,W i) unabh.E(Ui) = 0V (Ui) = σ2

U

Ui ∼ N(0, σ2U )

. wahrer Wert = gemessener Wert + Storterm

. Unterschied zum klassischen Modell: Xi,Wi sind unabhangig (gegenuber Xi, Ui unabhangig)

Das Modell ist passend fur

• durchschnittliche Exposition der Region W anstatt der individuellen Exposition X.

• Arbeitsplatzmessung

• Dosis in einem kontrollierten Experiment

Beachte, dass in einem Berkson-Fall:

E(X|W ) = W

V ar(X) = V ar(W ) + V ar(U)

. V ar(wahrer Wert) > V ar(gemessener Wert), wegen V ar(X) = V ar(W ) + V ar(U).

11.1.3 Multiplikativer Messfehler

W i = Xi ∗ Ui (Ui, Xi) unabh.Klassisch

Xi = W i ∗ Ui (Ui,W i) unabh.BerksonE(Ui) = 1

Ui ∼ Lognormal

• Additiv auf einer logarithmischen Skala

• Wird benutzt fur Expositionen durch Chemikalien oder Strahlung

. Prozentfehler, d.h. Messung wird ungenauer, je großer der Wert ist.

11.1.4 Messfehler in der Zielgroße

Einfache lineare Regression

Y = β0 + β1X + ε

Y ∗ = Y + U additiver Messfehler−→ Y ∗ = β0 + β1X + ε+ U

Neuer Ausgleichsfehler: ε+ U

Annahme : U und X unabhangig, U und ε unabhangig−→ Großere Varianz von ε−→ Inferenz weiterhin richtigFehler bei dem Ausgleich- oder Messfehler sind nicht anders zu behandeln.

. Y ∗ = Y + U additiver Messfehler. Es ergibt sicht ein Modell mit einem zusatzlichen Fehler.

74

Page 75: Vorlesung Lineare Modelle (Prof. Kuchenho ) · Vorbemerkungen Das ist ein Skript der Vorlesung "Lineare Modelle", das auf dem LATEX-File von Prof. Kuc henho basiert. Es ist fu r mich

11.1.5 Messfehler in den Einflussgroßen/Kovariablen

Wir betrachten nun genauer die Messfehler in den Kovariablen in Regressionsmodellen.

Haupt-Modell:E(Y ) = f(β,X,Z)

Wir sind am β1 interessiert, d.h. den Zusammenhang zwischen Y und den Kovariablen XZ ist eine weitere Kovariable, gemessen ohne Fehler

Fehler-Modell:

X ←→W

E(Y ) = f∗(W,Z, β∗)

Naive Schatzung:Beobachtete Modell = Hauptmodellaber in vielen Fallen: f∗ 6= f, β∗ 6= β

. Das naive Modell kummert sich nicht um Messfehler, wiez.B. im Modell mit Messfehlern in der Zielgroße.

X ,Z Y

W ,Z

∗Mes

smod

ell

“wahres” Modell

Beoba

chtun

g

11.1.6 Differential and non differential measurement error

Annahme eines differential Messfehler, der die Zielvariable beeinflusst:

[Y |X,W ] = [Y |X]

Fur Y gibt es keine weitere Information in U oder X, wenn X bekannt ist.Dann kann das Fehler- und Haupt-Modell aufgesplittet werden.

[Y,W,X] = [Y |X][W |X][X]

. f(Y |X) . . . Wahrscheinlichkeit eines Herzinfarkt zu bekommen, wenn ein bestimmter (bekannter)Blutdruck vorliegt.

Aus der substanziellen Sicht:

• Messprozess und Y sind unabhangig

• Blutdruck an einem bestimmten Tag ist irrelevant fur das Herinfarktrisiko, wenn ein Langzeit-Mittel bekannt ist.

• Durchschnitts-exposition ist irrelevant, wenn die individuelle Exposition bekannt ist.

• Aber Menschen konnen ihr Ernahrungsverhalten anders betrachten, wenn sie bereits einenHerzentfarkt hatten.

11.2 Einfache lineare Regression

Wir nehmen ein non differential additiven normalen Messfehler an

Y = β0 + β1X + ε (10.1)W = X + U, (U,X, ε) unabh. (10.2)U ∼ N(0, σ2

u) (10.3)ε ∼ N(0, σ2

ε ) (10.4)

75

Page 76: Vorlesung Lineare Modelle (Prof. Kuchenho ) · Vorbemerkungen Das ist ein Skript der Vorlesung "Lineare Modelle", das auf dem LATEX-File von Prof. Kuc henho basiert. Es ist fu r mich

11.2.1 SAS-Simulation fur ein lineares Messfehler-Modell

/* Simulation von X ∼ N(0,1) */data sim ;do i=1 to 100; x=rannor(137);output;end;run;

/* Simulation von Y = 1+2*x + epsilon*/

/* Simulation eines Stellvertreters mit additiven Messfehler */data sim ;set sim; su=2; /* Messfehler std*/y= 1+2*x+0.3*rannor(123); w= x+su*rannor (167) ;run;

/* Plot Zusatze grun fur die wahren und blau fur die Stellvertreter */symbol1 c = green V = dot; symbol2 c = blue V = dot;proc gplot data = sim;symbol i=none; plot y*x y*w /overlay; /* Scatterplot */symbol1 i=r; /* Regressionsgeraden */ symbol2 i=r;plot y*x y*w/ overlay;run;

Results

Effekt eines additiven Messfehlers auf lineare Regession

. Angenommen wird hier ein Messfehler, der nicht in Abhangigkeit mit der Zielgroße steht (ex-tremes Beispiel). Messfehler → ∞ ⇒ β → 0, d.h. Steigung der Regressionsgerade → 0.

11.2.2 Das beobachtete Modell in der linearen Regression

E(Y |W ) = β0 + β1E(X|W )

Angenommen X ∼ N(µx, σ2x), das beobachtete Modell ist:

E(Y |W ) = β∗0 + β∗1W

β∗1 =σ2x

σ2x + σ2

u

β1

β∗0 = β0 +(

1− σ2x

σ2x + σ2

u

)β1µx

Y − β∗0 − β∗1W ∼ N

(0, σ2

ε +β2

1σ2uσ

2x

σ2x + σ2

u

)

76

Page 77: Vorlesung Lineare Modelle (Prof. Kuchenho ) · Vorbemerkungen Das ist ein Skript der Vorlesung "Lineare Modelle", das auf dem LATEX-File von Prof. Kuc henho basiert. Es ist fu r mich

• Das beobachtete Modell ist immer noch eine lineare Regression !

• Abschwachung von β1 durch den Faktor σ2x

σ2x+σ

2u

”Reliability ratio”

• Verlust von Prazision (hoherer Fehler-Term)

. Wenn(

XW

)∼ N

[(µXµX

),

(σX

2 σX2

σX2 σX

2 + σU2

)][Cov(X,W ) = Cov(X,X + U) = Cov(X,X) + Cov(X,U) = σX

2 + 0 , da X,U unabhangig]

⇒ E(X|W ) ist explizit berechenbar:

E(X|W ) =σX

2

σX2 + σU 2W +

(µX −

σX2

σX2 + σU 2µX

)11.2.3 Identifikation

. Ich habe gemischte Daten (W und Y). Kann ich meine Daten schatzen?

(β0, β1, µx, σ2x, σ

2u, σ

2ε ) −→ [Y,W ]−→ µy, µw, σ

2y, σ

2w, σwy

(β0, β1, µx, σ2x, σ

2u, σ

2ε ) und (β∗0 , β

∗1 , µx, σ

2x + σ2

u, 0, σε) ergibt die gleichen Verteilungen von (Y,W)

. Ich habe 5 Parameter (rechts) zur Verfugung, aber 6 Einflussgroßen (links) – Wenn ich also keineInformationen zu den Messfehlern bekomme, kann ich nichts machen.

=⇒ Die Modell-Parameter sind nicht identifizierbar

Wir brauchen zusatzliche Informationen (konnen z.B. aus anderen Studien herangezogen werden),z.B.

• σu ist bekannt oder kann geschatzt werden

• σu/σε ist bekannnt (orthogonale Regression mit exakten Zusammenhang Y = β0 + β1X)

Das Modell mit einer anderen Verteilung von X ist identifizierbar mit hohere Momente.

Beachte, dass das beobachtete Modell von der Verteilung von X abhangt. Es ist keine lineareRegression, wenn X nicht normal ist:

Effekt eines Messfehlers auf die lineare Regression, wenn X gemischt normal ist

77

Page 78: Vorlesung Lineare Modelle (Prof. Kuchenho ) · Vorbemerkungen Das ist ein Skript der Vorlesung "Lineare Modelle", das auf dem LATEX-File von Prof. Kuc henho basiert. Es ist fu r mich

11.2.4 Naive KQ-Schatzung

Steigung:

β1n =SywS2w

n→∞−→ σywσ2w

(∗)=

σyxσ2x + σ2

u

(∗∗)= β1 ∗

σ2x

σ2x + σ2

u

Intercept:

β0n = Y − β1nWn→∞−→ = µy − β1 ∗

σ2x

σ2x + σ2

u

∗ µw = β0 + β1 ∗(

1− σ2x

σ2x + σ2

u

)∗ µx

Residuen-Varianz:

MSE = SY−β0n−β1nWn→∞−→ = σ2

ε +β2

1σ2uσ

2x

σ2x + σ2

u

. (∗)Cov(Y,W ) = Cov(Y,X + U) = Cov(Y,X) + Cov(Y,U) = Cov(Y,X) , da Y,U unabh.

. (∗∗)Cov(Y,X) = Cov(β0 + β1X + ε,X) = β1Cov(X,X) = β1σ2X

. standardmaßige Ubertragung auf die multiple Regression.

11.2.5 Korrektur von Abschwachung

. Um Abschwachung zu korrigieren wird ”hochmultiplizieren“ notwendig. Dies geschieht mittelsdem bekannten σ2

u, wordurch die Varianz ”aufgeblaht“ wird: V (β1) > V (β1n)

β1 = β1nσ2x + σ2

u

σ2x

β1 = β1nS2w

S2w − σ2

u

β0 = β0n − β1

(S2w − σ2

u

S2w

)W

11.2.6 Berkson-Fehler in einfacher linearer Regression

Y = β0 + β1X + ε

X = W + U, U, (W,Y ) indep., E(U) = 0

Effekt von Berkson-Fehler in der linearen Regression

. Die Punktewolke verandert sich, aber die Steigung der Regressionsgerade bleibt gleich.

. Herleitung:

E(Y |W ) = β0 + β1E(X|W ) = β0 + β1E(U +W |W ) = β0 + β1W + β1E(U) = β0 + β1W

Der Unterschied ergibt sich durch die Varianz: V ar(Y |W ) = σ2ε + β1σ

2U

78

Page 79: Vorlesung Lineare Modelle (Prof. Kuchenho ) · Vorbemerkungen Das ist ein Skript der Vorlesung "Lineare Modelle", das auf dem LATEX-File von Prof. Kuc henho basiert. Es ist fu r mich

11.2.7 Beobachtete Modell

E(Y |W ) = β0 + β1W

V (Y |W ) = σ2ε + β2

1 ∗ σ2u

• Regressionmodell mit gleichen β

• Messfehler vernachlassigbar

• Verlust von Prazision

11.2.8 Binare Regression

Logistisch mit additiven non differential Messfehler

P (Y = 1|X) = G(β0 + β1X)G(t) = (1 + exp(−t))−1

W = X + U

Beobachtete Modell:

P (Y = 1|W ) =∫P (Y = 1|X,W )fX|W dx (10.5)

=∫P (Y = 1|X)fX|W dx (10.6)

Wenn wir einen additiven Messfehler brauchen und X und U sind normal, dann ist X|W auchnormal

P (Y = 1|W ) =∫G(β0 + β1X)fX|W dx

11.2.9 Einfach Logistisch

Effekt eines additiven Messfehler in logistischer Regression

79

Page 80: Vorlesung Lineare Modelle (Prof. Kuchenho ) · Vorbemerkungen Das ist ein Skript der Vorlesung "Lineare Modelle", das auf dem LATEX-File von Prof. Kuc henho basiert. Es ist fu r mich

11.2.10 Linear Approximation

Beobachter und G(β∗0 + β∗1X)in logistischer Regression

11.3 Methoden

• Regression Kalibrierung

• Simulation und Extrapolationsverfahren (SIMEX)

11.3.1 Regression Kalibierung

Diese einfache Methode wird weit verbreitet eingesetzt. Sie ist durch verschiedene Autoren angeregtworden: Rosner et al. (1989) Carroll and Stefanski(1990)

1. Finde ein Modell fur E(X|W,Z) durch Bereinigung der Daten oder Reproduktion

2. Ersetze das nicht beobachtete X durch die Schatzung E(X|W,Z) im Haupt-Modell

3. Korrigiere die Varianzschatzung durch Bootstrap-Verfahren oder asymtotische Methoden

• Gute Methode in vielen praktischen Situationen

• Kalibrierte Daten konnen eingebunden werden

• Probleme in hoheren nicht-linearen Modellen

• Berkson Fall: E(X|W ) = W −→einfache Schatzung = Regression Kalibrierung

• Klassisch : Lineare Regression von X auf W

E(X|W ) =σ2x

σ2w

∗W + µX ∗ (1− σ2x

σ2w

)

Korrektur fur die Schwachung in linearen Modellen

• Klassisch mit der Annahme von gemischten Modellen:

E(X|W ) = P (I = 1|W ) ∗ E(X|W, I = 1)+P (I = 2|W ) ∗ E(X|W, I = 2)

80

Page 81: Vorlesung Lineare Modelle (Prof. Kuchenho ) · Vorbemerkungen Das ist ein Skript der Vorlesung "Lineare Modelle", das auf dem LATEX-File von Prof. Kuc henho basiert. Es ist fu r mich

11.3.2 SIMEX: Grundidee

Der Effekt eines Messfehlers auf einfache Schatzung wird durch ein Simulations-Experiment analysiert:

Lineare Regression:Fur die Messfehlervarianz σ2

u, in einer einfachen linearen Regression von Y auf Wwird

p lim βξ∗,m =σ2ξ

σ2ξ + (1 + λm) · σ2

δ

· βξ

geschatzt.Im Allgemienen haben wir eine Funktion βn(σ2

u).Offensichtlich βn(0) = β (kein Messfehler)

11.3.3 Der SIMEX Algorithmus

Wir nehmen den additiven Messfehler an mit bekannter oder geschatzter Varianz σ2u

1. Berechne den einfachen Schatzer βn := β(0)

2. Simulation:Fur ein festen Grid von λ,z. B. λ = 0.5, 1, 1.5, 2Fur b = 1, . . . BSimuliere neue fehlerbehaftete RegressorenW ib = W i +

√λ ∗ Ui,b, Ui,b ∼ N(0, σ2

u)Berechne die (einfache) Schatzung von βb,λ basierendauf [Yi,W i,b]Berechne den durchschnitt uber b β(λ)

3. Extrapolation:Passe die Regression β(λ) = g(λ, γ) anβsimex := g(−1, γ)

11.3.4 Extrapolation Funktionen

Linear : g(λ) = γ0 + γ1λ

Quadratisch : g(λ) = γ0 + γ1λ+ γ2 ∗ λ2

Nicht-Linear : g(λ) = γ1 +γ2

γ3 ∗ λ

• Nicht-lineare Regression ist motiviert durch lineare Regression

• Quadratisch ist fur viele Beispiele gut geeignet

11.4 Zusammenfassung

1. Fur das Messfehler-Modell grundlegend:In vielen Fallen hohe Differenz zwischen Berson-Effekt und Klassischen Messfehler!

2. Additiver klassischer non differential Messfehler fuhrt zu einer Abschwachung

3. Man kann viele Methoden benutzen, z.B. Likelihood

4. Regression Kalibrierung funktioniert in vielen Fallen

81

Page 82: Vorlesung Lineare Modelle (Prof. Kuchenho ) · Vorbemerkungen Das ist ein Skript der Vorlesung "Lineare Modelle", das auf dem LATEX-File von Prof. Kuc henho basiert. Es ist fu r mich

12 Bayesianische Inferenz im linearen Modell

12.1 Ansatz

Parameter des Modells: Zufallsgroßen mit (unbekannten) Verteilungen.Vor der Erhebung: a priori-Verteilung p(θ)Nach der Erhebung: a posteriori-Verteilung p(θ|D)Der Satz von Bayes liefert das Werkzeug zur Berechnung von p(θ|D)

p(θ|D) = P (D|θ)·p(θ)∫p(D|θ)·p(θ)dθ ∝ p(D|θ) · p(θ)

↑ ↑Posteriori ∝ Likelihood Priori

12.2 Gammaverteilung

Eine ZV X ist gammaverteilt, wenn fur seine Dichtefunktion gilt:

f(x) ∝ xa−1exp(−bx)

fur a > 0, b > 0. Schreibweise: X ∼ G(a, b).Es gilt:

E(X) = ab

Var (X) = ab2

Modus(X) = a−1b fur a > 1

Speziell: a = n2 b = 1

2=⇒ X ∼ χ2(n, 0) X ist (zentral) χ2-verteilt mit n Freiheitsgraden.

12.3 Inverse Gammaverteilung

Sei X ∼ G(a, b), dann ist Y = X−1 invers gammaverteilt mit Parametern a und b.Schreibweise: Y ∼ IG (a, b).Es gilt:

E(Y ) = ba−1 fur a > 1

Var (Y ) = b2

(a−1)2(a−2) fur a > 2Modus (Y ) = b

a+1

f(y) ∝ y−a−1 exp(− by

).

12.4 Multivariate t-Verteilung

Ein p-dimensionaler Zufallsvektor X heißt multivariat t-verteilt, falls fur eine Dichtefunktion gilt:

f(x) ∝[1 +

(x− µ)′Σ−1(x− µ)ν

]− ν+p2

.

Schreibweise:X ∼ t(ν, µ,Σ).

Es gilt:E(X) = µ fur ν > 1V (X) = ν

ν−2Σ fur ν > 2.

Jeder Subvektor von X ist wieder multivariat t verteilt mit ν Freiheitsgraden und den entsprechen-den Subvektoren/Submatrix aus µ und Σ.

82

Page 83: Vorlesung Lineare Modelle (Prof. Kuchenho ) · Vorbemerkungen Das ist ein Skript der Vorlesung "Lineare Modelle", das auf dem LATEX-File von Prof. Kuc henho basiert. Es ist fu r mich

12.5 Normal-Gamma-Verteilung

Eine Zufallsgroße θ = (β, τ) mitβ: p′ × 1-dim. Zufallsvektorτ : Skalar besitzt eine Normal-Gamma-VerteilungSchreibweise: NG(β0,Σ0, a, b), wenn

f(θ) = f(β, τ) = f1(β | τ) · f2(τ)

mitβ | τ ∼ N(β0, τ

−1Σ0) und τ ∼ G(a, b).

Es gilt: Ist (β, τ) ∼ NG (β0,Σ0, a, b), so ist die marginale Verteilung von β multivariat t-verteilt:

β ∼ t(

2a, β0,b

aΣ0

).

12.6 Inferenz bei bekannter Kovarianzmatrix Σ

y|β ∼ N(Xβ,Σ) Σ bekanntβ ∼ N(β0,Σ0)

Posteriori-Verteilung von β ist Normalverteilung mit

E(β|Y ) = (X ′Σ−1X + Σ−10 )−1(X ′Σ−1Y + Σ−1

0 β0)V (β|Y ) = (X ′Σ−1X + Σ−1

0 )−1

12.7 Andere Darstellung und Spezialfalle

P = Σ−1, P0 = Σ−1 “Prazision”

β|Y ist NV mit E(β|Y ) = (X ′PX + P0)−1(X ′PX + P0β0)

und Prazision X ′PX + P0

Sonderfalle:Homoskedastischer i.i.d. Fall: Σ = σ2I

β|Y ∼ N[(

1σ2X ′X + P0)−1(

1σ2X ′Y + P0β0), σ2(X ′X + P−1

0 )−1

]“Vollige Unwissenheit” P0 → 0

β|Y ∼ N((X ′X)−1X ′Y, σ2(X ′X)−1)

12.8 Inferenz bei unbekannter Prazision τ

Sei Y |β, τ ∼ N(Xβ, τ−1I) und (β, τ) ∼ NG (β0,Σ0, a, b) mitY : n× 1-dim. Zufallsvektorβ: p′ × 1-dim. Zufallsvektor.Dann ist β, τ |Y ∼ NG(β∗,Σ∗, a∗, b∗) mit

β∗ = (X ′X + Σ−10 )−1(X ′Y + Σ−1

0 β0)Σ∗ = (X ′X + Σ−1

0 )−1

a∗ = a+ n2

b∗ = b+ 12 [Y ′Y −B∗]

B∗ = (X ′Y − Σ−10 β0)′(X ′X + Σ−1

0 )−1(X ′Y + Σ−10 β0).

12.9 Inferenz mit “Jeffrey’s prior”

Sei Y |β, τ ∼ N(Xβ, τ−1I) und f(β, τ) ∝ τ−1 (“Jeffrey’s prior”).Dann ist β, τ |Y ∼ NG(β∗,Σ∗, a∗, b∗) mit

β∗ = (X ′X)−1X ′YΣ∗ = (X ′X)−1

a∗ = n−p′

2b∗ = 1

2

[Y ′Y − Y ′X(X ′X)−1X ′Y

].

83