90
Generalisierte Lineare Modelle Herwig FRIEDL Institut f¨ ur Statistik Technische Universit¨ at Graz September 2013

Generalisierte Lineare Modelle - STAT · Median) der logyi ein multiplikatives Modell fur¨ die Mediane und Erwartungswerte der yi ist. Fur¨ die Erwartungswerte von y i wurde der

  • Upload
    others

  • View
    4

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Generalisierte Lineare Modelle - STAT · Median) der logyi ein multiplikatives Modell fur¨ die Mediane und Erwartungswerte der yi ist. Fur¨ die Erwartungswerte von y i wurde der

Generalisierte Lineare Modelle

Herwig FRIEDL

Institut fur StatistikTechnische Universitat Graz

September 2013

Page 2: Generalisierte Lineare Modelle - STAT · Median) der logyi ein multiplikatives Modell fur¨ die Mediane und Erwartungswerte der yi ist. Fur¨ die Erwartungswerte von y i wurde der

Inhaltsverzeichnis

1 Transformation auf Normalverteilung 1

1.1 Box-Cox Transformationsfamilie . . . . . . . . . . . . . . . . . . . . . . . . 1

1.2 Maximum-Likelihood Schatzung . . . . . . . . . . . . . . . . . . . . . . . . 2

1.3 Beispiel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

2 Die Exponentialfamilie 9

2.1 Maximum Likelihood Schatzung . . . . . . . . . . . . . . . . . . . . . . . . 12

2.2 Mitglieder der Exponentialfamilie . . . . . . . . . . . . . . . . . . . . . . . 12

2.3 Die Quasi-Likelihood Funktion . . . . . . . . . . . . . . . . . . . . . . . . . 15

2.3.1 Quasi-Dichten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

3 Das Generalisierte Lineare Modell 19

3.1 Maximum-Likelihood-Schatzungen . . . . . . . . . . . . . . . . . . . . . . 20

3.2 Asymptotische Eigenschaften des Schatzers . . . . . . . . . . . . . . . . . . 23

3.3 Pearson Statistik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

3.4 Eigenschaften von Score und Quasi-Score . . . . . . . . . . . . . . . . . . . 24

3.5 Deviance und Quasi-Deviance . . . . . . . . . . . . . . . . . . . . . . . . . 25

3.6 Parametertests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

3.7 Beispiel: Konstante Varianz . . . . . . . . . . . . . . . . . . . . . . . . . . 27

3.8 Beispiel: Gamma-Varianz . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

4 Logistische Regression 37

4.1 Toleranzverteilungen – Linkfunktionen . . . . . . . . . . . . . . . . . . . . 38

4.1.1 Beispiel (Venables & Ripley, Seite 218) . . . . . . . . . . . . . . . . 39

4.2 Interpretation der Parameter . . . . . . . . . . . . . . . . . . . . . . . . . . 43

4.2.1 Beispiel (Agresti, Seite 87) . . . . . . . . . . . . . . . . . . . . . . . 44

4.3 Logit-Modelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

4.3.1 Beispiel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

i

Page 3: Generalisierte Lineare Modelle - STAT · Median) der logyi ein multiplikatives Modell fur¨ die Mediane und Erwartungswerte der yi ist. Fur¨ die Erwartungswerte von y i wurde der

ii INHALTSVERZEICHNIS

4.4 Komplexe Logistische Modelle . . . . . . . . . . . . . . . . . . . . . . . . . 49

4.4.1 Beispiel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

5 Loglineare Modelle 51

5.1 Poisson Loglineare Modelle fur Anzahlen . . . . . . . . . . . . . . . . . . . 51

5.1.1 Beispiel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

5.2 Loglineare und Multinomiale Response Modelle . . . . . . . . . . . . . . . 57

5.2.1 Die Multinomialverteilung . . . . . . . . . . . . . . . . . . . . . . . 57

5.2.2 Vergleich von Poisson-Erwartungen . . . . . . . . . . . . . . . . . . 59

5.2.3 Multinomiale Responsemodelle . . . . . . . . . . . . . . . . . . . . 60

5.2.4 Beispiel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

5.3 Zweidimensionale Kontingenztafeln . . . . . . . . . . . . . . . . . . . . . . 64

5.3.1 Unabhangigkeitsmodell . . . . . . . . . . . . . . . . . . . . . . . . . 64

5.3.2 Saturiertes (volles) Modell . . . . . . . . . . . . . . . . . . . . . . . 65

5.3.3 Interpretation der Parameter . . . . . . . . . . . . . . . . . . . . . . 67

5.3.4 Beispiel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69

6 Modelle mit zufalligen Effekten 71

6.1 Zufallige Pradiktoren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

6.2 EM Schatzer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72

6.2.1 Beispiel: Endliche diskrete Mischungen . . . . . . . . . . . . . . . . 74

6.3 Uberdispersionsmodelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

6.3.1 Normalverteilte zufallige Effekte . . . . . . . . . . . . . . . . . . . . 77

6.3.2 Zufallige Effekte aus unbekannter Verteilung . . . . . . . . . . . . . 79

6.3.3 Pradiktionen bei NPML Schatzung . . . . . . . . . . . . . . . . . . 80

6.3.4 Beispiel: Matched Pairs . . . . . . . . . . . . . . . . . . . . . . . . . 81

Page 4: Generalisierte Lineare Modelle - STAT · Median) der logyi ein multiplikatives Modell fur¨ die Mediane und Erwartungswerte der yi ist. Fur¨ die Erwartungswerte von y i wurde der

Kapitel 1

Transformation aufNormalverteilung

Die statistische Analyse von Daten basiert haufig auf der Annahme, dass diese normal-verteilt sind und konstante Varianz widerspiegeln. Falls die Daten diese Annahme nichtunterstutzen, besteht die Moglichkeit der Verwendung einer Transformation, um dadurcheine bessere Approximation zu einer konstanten Varianz zu erzielen. Dann konnten auchklassische Methoden wie die Varianzanalyse oder die Lineare Regression auf solche Datenangewendet werden.

1.1 Box-Cox Transformationsfamilie

Die Verwendbarkeit der Normalverteilung wird erweitert, indem diese in eine großereFamilie von Verteilungsfunktionen eingebettet wird, der Box-Cox Transformationsfamilie(Box und Cox, 1964). Deren allgemeine Form kann fur eine positive Response y > 0reprasentiert werden durch

y(λ) =

yλ − 1

λ, falls λ = 0,

log y, falls λ = 0,(1.1)

wobei λ den Parameter der Transformation bezeichnet. Spezialfalle in dieser Familie sindy(−1) = 1− 1/y und y(1) = y− 1. Daruberhinaus strebt fur λ→ 0, y(λ) → log y, so dassy(λ) eine stetige Funktion in λ ist.

Fur Daten (yi, xi), i = 1, . . . , n, nehmen wir nun an, dass es einen Wert von λ gibt, furden yi(λ) einer Normalverteilung mit identischer Varianz genugt, d.h.

yi(λ)ind∼ N(µi(λ), σ

2(λ)).

Unter dieser Annahme kann man auf die Dichtefunktion der originalen Daten y schließen.

1

Page 5: Generalisierte Lineare Modelle - STAT · Median) der logyi ein multiplikatives Modell fur¨ die Mediane und Erwartungswerte der yi ist. Fur¨ die Erwartungswerte von y i wurde der

2 KAPITEL 1. TRANSFORMATION AUF NORMALVERTEILUNG

Diese ist gerade

f(y, λ, µ(λ), σ(λ)) =1√

2πσ2(λ)exp

(−(y(λ)− µ(λ))2

2σ2(λ)

)∣∣∣∣ ddyy(λ)∣∣∣∣ . (1.2)

Die Verwendung der Transformation (1.1) ergibt

f(y, λ, µ(λ), σ(λ)) =

1√

2πσ2(λ)exp

(−((yλ − 1)/λ− µ(λ)

)22σ2(λ)

)yλ−1, falls λ = 0,

1√2πσ2(λ)

exp

(−(log y − µ(λ))2

2σ2(λ)

)y−1, falls λ = 0.

(1.3)

In Regressions Analysen verwendet man haufig ein simples lineares Modell

yi(λ)ind∼ N(x⊤i β(λ), σ

2(λ)),

wobei β(λ) = (β1(λ), . . . , βp(λ))⊤ den p×1 Vektor der unbekannten Parameter bezeichnet.

Fur λ = 0 definiert man den reparameterisierten Vektor β = (β1, . . . , βp)⊤ bezuglich yλ,

mit Intercept β1 = 1 + λβ1(λ) und Effekten βj = λβj(λ), j = 2, . . . , p, sowie σ = |λ|σ(λ).Damit kann die Dichte (1.3) umgeschrieben werden zu

f(y, λ, β, σ) =1√2πσ2

exp

(−(yλ − x⊤β)2

2σ2

)|λ|yλ−1.

Fur λ = 0 verwende βj = βj(λ), j = 1, . . . , p, und σ = σ(λ) als Parameter bezuglich eineslinearen Modells fur log y. Dann kann man (1.2) schreiben als

f(y, 0, β, σ) =1√2πσ2

exp

(−(log y − x⊤β)2

2σ2

)y−1.

1.2 Maximum-Likelihood Schatzung

Die Log-Likelihood Funktion der n Beobachtungen (yi, xi) basierend auf die untransfor-mierte Dichte (1.2) ist (auf der originalen Datenskala)

l(λ, µ(λ), σ(λ)) =

− n

2log(2πσ2(λ)

)− 1

2σ2(λ)

n∑i=1

(yi(λ)− µi(λ)

)2+

n∑i=1

log

∣∣∣∣ ddyiyi(λ)∣∣∣∣ . (1.4)

Mit der Box-Cox Transformation (1.1) ist die Summe der Logarithmen der Jacobi Terme

n∑i=1

log

∣∣∣∣ ddyiyi(λ)∣∣∣∣ =

{(λ− 1)

∑i log yi, falls λ = 0,

−∑

i log yi, falls λ = 0.

Page 6: Generalisierte Lineare Modelle - STAT · Median) der logyi ein multiplikatives Modell fur¨ die Mediane und Erwartungswerte der yi ist. Fur¨ die Erwartungswerte von y i wurde der

1.2. MAXIMUM-LIKELIHOOD SCHATZUNG 3

Bezuglich der Parameter (β, σ) erhalt man

l(λ, β, σ) ={−n

2log (2πσ2)− 1

2σ2

∑i

(yλi − x⊤i β

)2+ n log |λ|+ (λ− 1)

∑i log yi, falls λ = 0,

−n2log (2πσ2)− 1

2σ2

∑i

(log yi − x⊤i β

)2 −∑i log yi falls λ = 0.(1.5)

Fur einen festen Wert von λ losen die Maximum-Likelihood Schatzer βλ und σλ basierendauf (1.5) die Schatzgleichungen

∂l(λ, β, σ)

∂β=

{1σ2

∑i xi(y

λi − x⊤i β) = 0, falls λ = 0,

1σ2

∑i xi(log yi − x⊤i β) = 0, falls λ = 0,

∂l(λ, β, σ)

∂σ=

{−n

σ+ 1

σ3

∑i(y

λi − x⊤i β)

2 = 0, falls λ = 0,

−nσ+ 1

σ3

∑i(log yi − x⊤i β)

2 = 0, falls λ = 0,

und sind deshalb gleich

βλ =

{(X⊤X)−1X⊤yλ, falls λ = 0,

(X⊤X)−1X⊤ log y, falls λ = 0,

σ2λ =

1

nSSEλ(βλ) =

{1n

∑i(y

λi − x⊤i βλ)

2, falls λ = 0,1n

∑i(log yi − x⊤i βλ)

2, falls λ = 0,

wobei yλ (resp. log y) elementeweise gerechnet sind und SSEλ(βλ) die Fehlerquadratsummevon yλ (resp. log y) an der Stelle βλ fur ein festes λ bezeichnet. Bemerke, dass wegen derobigen Reparameterisierung die Fehlerquadratsumme SSEλ(βλ) in λ = 0 unstetig ist.

Substituiert man beide Schatzer in der Log-Likelihood Funktion (1.5) und lasst darin allekonstanten Terme weg, so erhalt man die Profile (Log-) Likelihood Funktion

pl(λ) = l(λ, βλ, σλ) =

{−n

2log SSEλ(βλ) + n log |λ|+ (λ− 1)

∑i log yi, falls λ = 0,

−n2log SSE0(β0)−

∑i log yi, falls λ = 0.

(1.6)

Fur λ = 1 resultiert z.B. pl(1) = −(n/2) log SSE1(β1) = n log(∑n

i=1(yi − x⊤i β1)2)−1/2

.

Obwohl SSEλ(·) in λ = 0 unstetig ist, ist die Profile Likelihood Funktion pl(λ) stetig.Wegen

pl(λ) = −n2log

n∑i=1

(yλi − x⊤i βλ)2

λ2+ (λ− 1)

n∑i=1

log yi

= −n2log

n∑i=1

((yλi − 1)/λ− x⊤i β(λ))2 + (λ− 1)

n∑i=1

log yi

ist limλ→0 pl(λ) = pl(0).

Page 7: Generalisierte Lineare Modelle - STAT · Median) der logyi ein multiplikatives Modell fur¨ die Mediane und Erwartungswerte der yi ist. Fur¨ die Erwartungswerte von y i wurde der

4 KAPITEL 1. TRANSFORMATION AUF NORMALVERTEILUNG

Wegen {2(pl(λ)− pl(λ0)) ∼ χ21} beinhaltet ein approximatives Konfidenzintervall fur den

Parameter λ all jene Werte von λ0, fur die pl(λ0) innerhalb von 12χ21−α;1 Einheiten vom

Funktionsmaximum entfernt ist (χ20.95;1 = 3.8415, χ2

0.99;1 = 6.6349).

Ein wichtiger Aspekt dieser Variablentransformation ist, dass auf der transformiertenSkala das Modell die Variation bezuglich des Erwartungswertes der (auf Normalverteilung)transformierten Variablen reprasentiert, wahrend auf der Originalskala das Modell dieVariation bezuglich des Medians der originalen Variablen darstellt. Dies sieht man ameinfachsten fur die Log-Transformation (λ = 0). Seien log yi ∼ N(x⊤i β, σ

2), dann gilt

median(log yi) = x⊤i β,

E(log yi) = x⊤i β,

var(log yi) = σ2.

Die originalen Beobachtungen yi unterliegen selbst einer Lognormalverteilung mit

median(yi) = exp(x⊤i β),

E(yi) = exp(x⊤i β + σ2/2),

var(yi) =(exp(σ2)− 1

)exp(2x⊤i β + σ2).

Dies bedeutet, dass das additive Modell fur den Erwartungswert (und daher auch fur denMedian) der log yi ein multiplikatives Modell fur die Mediane und Erwartungswerte der yiist. Fur die Erwartungswerte von yi wurde der Intercept Term um σ2/2 verschoben unddie Varianzen sind nicht mehr konstant.

Fur eine Transformation y(λ) = yλ mit λ = 0, also fur yλi ∼ N(µi, σ2), folgt

median(yi) = µ1/λi ,

E(yi) ≈ µ1/λi

(1 + σ2(1− λ)/(2λ2µ2

i )),

var(yi) ≈ µ2/λi σ2/(λ2µ2

i ).

Wiederum ist die offensichtliche Unstetigkeit zwischen λ = 0 und λ = 0 in der Verwendungvon yλ anstelle von (yλ − 1)/λ begrundet.

1.3 Beispiel

n = 31 Black Cherry Trees; verwendbares Holzvolumen V in feet3 (1 foot = 30.48 cm),Baumhohe H in feet, Durchmesser D in inches (1 inch = 2.54 cm) auf einer Hohe von 4.5feet uber dem Boden. Das Modell sollte das verwendbare Holzvolumen V aus den leichtzu messenden Großen H und D vorhersagen.

> %in%

> attach(trees); plot(H, V); plot(D, V) # Krummung (falsche Skala?)

> mod <- lm(V ~ D + H)

Page 8: Generalisierte Lineare Modelle - STAT · Median) der logyi ein multiplikatives Modell fur¨ die Mediane und Erwartungswerte der yi ist. Fur¨ die Erwartungswerte von y i wurde der

1.3. BEISPIEL 5

8 10 12 14 16 18 20

D

2040

60

V

65 70 75 80 85

H

2040

60

V

0 5 10 15 20 25 30

Index

0.05

0.10

0.15

0.20

leve

rage

s

8 10 12 14 16 18 20

D

-50

5

r

Abbildung 1.1: Oben: Volumen gegen Durchmesser (links) und Volumen gegen Hohe(rechts). Unten: Diagonalelemente der Hatmatrix (links) und Residuen gegen Durchmesser(rechts) unter dem linearen Modell fur V .

Coefficients:

(Intercept) H D

-57.98766 0.3392512 4.708161

Degrees of freedom: 31 total; 28 residual

Residual standard error: 3.881832

> plot(lm.influence(mod)$hat, ylab = "leverages") # 2 Hebelpunkte

> abline(2*mod$rank/length(V), 0); abline(v = c(20, 31))

> plot(residuals(mod), D); abline(0, 0) # Senke in der Mitte

> library(MASS, help=T)

> boxcox(V ~ D + H, lambda = seq(0.0, 0.6, len=18)) # max = -76.08

Das Maximum der Profile Likelihood Funktion tritt in der Nahe von λ = 0.3 auf. Dasapproximative 95% Konfidenzintervall ist sehr klein, etwa (0.12, 0.49), und beinhaltetweder die Null noch die Eins. Es liegt in der Natur einer Volumenmessung, dass sich diesekubisch bezuglich den linearen Großen Hohe und Durchmesser verhalt. Daher erscheint esauch sinnvoll, die Kubikwurzel des Volumens als Response zu verwenden.

> plot(D, V**(1/3)) # Krummung beseitigt

Page 9: Generalisierte Lineare Modelle - STAT · Median) der logyi ein multiplikatives Modell fur¨ die Mediane und Erwartungswerte der yi ist. Fur¨ die Erwartungswerte von y i wurde der

6 KAPITEL 1. TRANSFORMATION AUF NORMALVERTEILUNG

0.0 0.1 0.2 0.3 0.4 0.5 0.6

lambda

-80

-79

-78

-77

-76

log-

Like

lihoo

d 95%

8 10 12 14 16 18 20

D

2.5

3.0

3.5

4.0

V^(

1/3)

20 40 60 80

mu^3

2040

60

V

20 40 60 80

mu^3 * (1 + (3 * s2)/mu^2)

2040

6080

mu^

3

Abbildung 1.2: Oben: Profile Likelihood Schatzung von λ bei der Box-Cox Transformation(links) und Durchmesser gegen die y

1/3i (rechts). Unten: Gefittete Mediane gegen originale

Beobachtungen V (links) und gefittete Mediane gegen gefittete Means (rechts).

> mod1 <- lm(V**(1/3) ~ H + D)

Coefficients:

(Intercept) H D

-0.08538814 0.01447169 0.1515163

Degrees of freedom: 31 total; 28 residual

Residual standard error: 0.08282697

Die gefitteten Mediane von V unter diesem obigen Modell fur µ1/3 = E(y1/3) (mit festemλ = 1/3) sind µ3

1/3, und die gefitteten Erwartungswerte sind etwa µ31/3(1 + 3σ2

1/3/µ21/3).

Diese konnen mit den Beobachtungen y verglichen werden.

> mu <- fitted(mod1)

> s2 <- deviance(mod1)/mod1$df.residual

> plot(mu**3, V) # Median Modell

> plot(mu**3*(1+3*s2/mu**2), mu**3) # Median/Mean

Andere technische Uberlegungen ergeben alternative Modelle. Die unerwunschte Krum-mung in der Abbildung 1.1 kann auch durch logarithmische Transformation aller Variablen

Page 10: Generalisierte Lineare Modelle - STAT · Median) der logyi ein multiplikatives Modell fur¨ die Mediane und Erwartungswerte der yi ist. Fur¨ die Erwartungswerte von y i wurde der

1.3. BEISPIEL 7

2.2 2.4 2.6 2.8 3.0

log(D)

2.5

3.0

3.5

4.0

log(

V)

-0.2 -0.1 0.0 0.1 0.2

lambda

-80

-79

-78

-77

-76

-75

log-

Like

lihoo

d

95%

Abbildung 1.3: Links: log V linear abhangig von logD. Rechts: Profile Likelihood Funktionfur V modelliert durch logH + logD.

entfernt werden. Dies legt eine Regression von auf log(D) und log(H) nahe. Soll man jetztjedoch auf der log(V ) Achse modellieren?

> plot(log(D), log(V)); lm(log(V) ~ log(D) + log(H))

Coefficients:

(Intercept) log(D) log(H)

-6.631617 1.98265 1.117123

Degrees of freedom: 31 total; 28 residual

Residual standard error: 0.08138607

> boxcox(V ~ log(H) + log(D), lambda = seq(-0.25, 0.25, len = 10))

Die Profile Likelihood Schatzung bei der Box-Box Transformation liefert ein Maximumbei −0.07 und ein 95% Konfidenzintervall von (−0.24, 0.11), welches zwar die Null (lo-garithmische Transformation), aber nicht mehr die Kubikwurzeltransformation λ = 1/3oder die Identitat λ = 1 beinhaltet.

Beide Modelle liefern annahernd dieselben Maxima der Profile Likelihood Funktionen.Welches der beiden ist nun das bessere? Wir konnen sie durch einen Likelihood QuotientenTest miteinander vergleichen. Dazu werden die Modelle eingebettet in die Familie

V ∗ ∼ N(β1 + β2H∗ + β3D

∗, σ2)

V ∗ = (V λV − 1)/λV

H∗ = (HλH − 1)/λH

D∗ = (DλD − 1)/λD

Wir vergleichen nun die maximale Likelihood bezuglich λV = 1/3, λH = λD = 1 mitder maximalen Likelihood des Modells λV = λH = λD = 0. Alle ubrigen Parametersind hierbei nuisance Parameter und die Likelihood Funktion wird uber diese in beidenModellen maximiert.

> boxcox(V ~ H + D, lambda = 1/3, plotit=FALSE)

Page 11: Generalisierte Lineare Modelle - STAT · Median) der logyi ein multiplikatives Modell fur¨ die Mediane und Erwartungswerte der yi ist. Fur¨ die Erwartungswerte von y i wurde der

8 KAPITEL 1. TRANSFORMATION AUF NORMALVERTEILUNG

$x: 0.3333333 $y: -76.12156

> boxcox(V ~ log(H) + log(D), lambda = 0, plotit=FALSE)

$x: 0 $y: -75.33877

Die doppelte Differenz der beiden Maxima betragt nur −2 ∗ (−76.122 + 75.339) = 1.566,was nicht signifikant verglichen mit χ2

3 ist. Daher konnen wir auch nicht uberzeugend einesder beiden Modelle wahlen.

Bemerke aber, dass der Koeffizient fur logH nahe bei Eins (1.117) liegt und der zu logDfast Zwei (1.983) ist. Nimmt man an, dass man einen Baum durch einen Zylinder oderKegel beschreiben kann, so ware sein Volumen πd2h/4 (Zylinder) oder πd2h/12 (Kegel).In beiden Fallen hatte man ein Modell der Form

log V = c+ logH + 2 logD

mit c = log(π/4) (Zylinder) oder c = log(π/12) (Kegel). Jedoch beziehen sich die obigenUberlegungen auf Messungen auf der gleichen Skala. Wir konvertieren daher zuerst D voninches auf feet, d.h. wir betrachten D/12. Als Intercept resultiert −1.705.

> lm(log(V) ~ log(D/12) + log(H))

Coefficients:

(Intercept) log(D/12) log(H)

-1.704917 1.98265 1.117123

Degrees of freedom: 31 total; 28 residual

Residual standard error: 0.08138607

Nun fixiert man die beiden Koeffizienten und betrachtet das Modell

log V = β1 + logH + 2 log(D/12)

Hierbei bezeichnet man 1×[logH+2 log(D/12)] als offset (ein Term mit festem ParameterEins) und es muss nur noch β1 geschatzt werden.

> mod3 <- lm(log(V) ~ 1 + offset(2*log(D/12) + log(H)))

> summary(mod3)

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) -1.19935 0.01421 -84.42 <2e-16 ***

Residual standard error: 0.0791 on 30 degrees of freedom

> log(pi/4)

[1] -0.2415645

> log(pi/12)

[1] -1.340177

Das Holzvolumen eines Baums kann daher eher durch ein Kegelvolumen als durch daseines Zylinders beschrieben werden, hat jedoch ein etwas großeres Volumen als ein Kegel.

Page 12: Generalisierte Lineare Modelle - STAT · Median) der logyi ein multiplikatives Modell fur¨ die Mediane und Erwartungswerte der yi ist. Fur¨ die Erwartungswerte von y i wurde der

Kapitel 2

Die Exponentialfamilie

Beim Linearen Modell (LM) wird angenommen, dass die abhangigen Variablen (Respon-ses) yi stochastisch unabhangige, normalverteilte Großen sind mit Erwartungen µi = x⊤i βund konstanter Varianz σ2. In manchen Situationen ist die Annahme einer Normalver-teilung sicherlich sehr kunstlich und nur schwer zu vertreten. Man denke hierbei nur anModelle fur absolute Haufigkeiten oder relative Anteile. Weiters gibt es datengenerieren-de Mechanismen, die fur großere Erwartungswerte auch großere Variabilitat induzieren.Hierzu zahlen beispielsweise Modelle fur konstante Variationskoeffizienten. Da bei einemLM alle Erwartungswerte auf einer Ebene im p-dimensionalen Raum liegen, ist ein solchesLM fur nicht-negative oder speziell fur binare Responses sicherlich unpassend.

Wir wollen nun wegen all dieser Schwachstellen die Klasse der Generalisierten Linea-ren Modelle (GLM) betrachten, die gerade bezuglich der oben angefuhrten Restriktionenflexible Verallgemeinerungen anbieten. So wird beim klassischen GLM statt der Normal-verteilung eine Verteilung aus der einparametrigen Exponentialfamilie angenommen unddadurch die Varianz als Funktion des Erwartungswertes modelliert (V ar(yi) = V (µi)).Daruberhinaus wird der Erwartungswert nicht ausschließlich direkt linear modelliert, son-dern der lineare Pradiktor ηi = x⊤i β entspricht einer bekannten Funktion g(µi), der Link-funktion.

Bevor nun die Exponentialfamilie eingefuhrt wird, soll an die wesentlichsten Eigenschaftenvon Score-Funktionen und Informations-Matrizen bei der Maximum-Likelihood Schatzungerinnert werden. Dazu bezeichne f(y, θ) die Wahrscheinlichkeitsfunktion oder Dichtefunk-tion von y mit unbekannten Parametern θ.

Satz 2.1 Fur die Ableitung der Log-Likelihood Funktion, d.h. fur die Score-Funktion gilt:

E

(∂ log f(y, θ)

∂θ

)= 0, (2.1)

E

(∂ log f(y, θ)

∂θ

)2

= E

(−∂

2 log f(y, θ)

∂θ2

). (2.2)

9

Page 13: Generalisierte Lineare Modelle - STAT · Median) der logyi ein multiplikatives Modell fur¨ die Mediane und Erwartungswerte der yi ist. Fur¨ die Erwartungswerte von y i wurde der

10 KAPITEL 2. DIE EXPONENTIALFAMILIE

Mit

∂ log f(y, θ)

∂θ=

1

f(y, θ)

∂f(y, θ)

∂θund

∫Rf(y, θ)dy = 1

folgt (2.1), denn

E

(∂ log f(y, θ)

∂θ

)= E

(∂f(y, θ)

∂θ

1

f(y, θ)

)=

∫R

∂f(y, θ)

∂θdy =

∂θ

∫Rf(y, θ)dy = 0 .

Weiters ergibt sich (2.2) mittels Kettenregel

E

(−∂

2 log f(y, θ)

∂θ2

)= E

(−∂

2f(y, θ)

∂θ21

f(y, θ)+∂f(y, θ)

∂θ

∂f(y, θ)

∂θ

1

f(y, θ)2

)= −

∫R

∂2f(y, θ)

∂θ2dy +

∫R

∂ log f(y, θ)

∂θ

∂ log f(y, θ)

∂θf(y, θ)dy

= E

(∂ log f(y, θ)

∂θ

)2

.

Diese Likelihood-Eigenschaften gelten naturlich gerade auch fur die Exponentialfamilie,die jetzt definiert wird.

Definition 2.1 Eine Zufallsvariable y sei aus einer Verteilung mit Dichte- oder Wahr-scheinlichkeitsfunktion

f(y, θ) = exp

(yθ − b(θ)

a(ϕ)+ c(y, ϕ)

)fur spezielle bekannte Funktionen a(·), b(·) und c(·) mit a(ϕ) > 0. Kann ϕ als feste Großebetrachtet werden, so bezeichnet man f(y, θ) als einparametrige Exponentialfamiliemit kanonischem Parameter θ.

Mit (2.1) resultiert bei der Exponentialfamilie

E

(∂ log f(y, θ)

∂θ

)=

1

a(ϕ)E(y − b′(θ)

)= 0

also E(y) = b′(θ) , und mit (2.2) folgt

E

(∂2 log f(y, θ)

∂θ2

)+ E

(∂ log f(y, θ)

∂θ

)2

= − 1

a(ϕ)b′′(θ) +

1

a2(ϕ)var(y) = 0 .

Diese zwei Identitaten ergeben unmittelbar die beiden ersten Momente (Kumulanten) derExponentialfamilie

E(y) = b′(θ)

var(y) = a(ϕ)b′′(θ) .

Page 14: Generalisierte Lineare Modelle - STAT · Median) der logyi ein multiplikatives Modell fur¨ die Mediane und Erwartungswerte der yi ist. Fur¨ die Erwartungswerte von y i wurde der

11

Kumulanten hoherer Ordnung bestimmt man einfacher mit der KumulantenerzeugendenFunktion K(t) = logM(t), wobei M(t) die Momentenerzeugende bezeichnet. Die k-teKumulante κk ist nun gegeben durch K(k)(t)|t=0 und steht mit dem k-ten Moment ineiner einfachen Beziehung, denn

κ1(y) = E(y)

κ2(y) = E(y − µ)2

κ3(y) = E(y − µ)3

κ4(y) = E(y − µ)4 − 3var2(y) .

Fur die Exponentialfamilie gilt

1 =

∫Rexp

(yθ − b(θ)

a(ϕ)+ c(y, ϕ)

)dy = exp

(− b(θ)

a(ϕ)

)∫Rexp

(y

a(ϕ)θ + c(y, ϕ)

)dy ,

woraus

exp

(b(θ)

a(ϕ)

)=

∫Rexp

(y

a(ϕ)θ + c(y, ϕ)

)dy

folgt. Die Momentenerzeugende ist daher gegeben durch

M(t) = E(ety) = exp

(− b(θ)

a(ϕ)

)∫Rexp

(y

a(ϕ)

(θ + a(ϕ)t

)+ c(y, ϕ)

)dy

= exp

(− b(θ)

a(ϕ)

)exp

b(θ + a(ϕ)t

)a(ϕ)

= exp

b(θ + a(ϕ)t

)− b(θ)

a(ϕ)

,

und als Kumulantenerzeugende Funktion resultiert

K(t) = logM(t) =b(θ + a(ϕ)t

)− b(θ)

a(ϕ).

Die k-te Kumulante von y, κk(y), ist somit

κk(y) = K(k)(t)|t=0 = a(ϕ)k−1b(k)(θ + a(ϕ)t

)∣∣∣t=0

= a(ϕ)k−1b(k)(θ) . (2.3)

Sei E(y) = b′(θ) = µ und var(y) = a(ϕ)b′′(θ) = a(ϕ)V (µ). Die Varianz von y ist also einProdukt zweier Funktionen:V (µ) hangt ausschließlich vom Erwartungswert µ ab und a(ϕ) ist von µ unabhangig. V (µ)nennt man Varianzfunktion, wahrend ϕ als Dispersionsparameter bezeichnet wird.Die Funktion b(θ) wird Kumulantenfunktion genannt.

Page 15: Generalisierte Lineare Modelle - STAT · Median) der logyi ein multiplikatives Modell fur¨ die Mediane und Erwartungswerte der yi ist. Fur¨ die Erwartungswerte von y i wurde der

12 KAPITEL 2. DIE EXPONENTIALFAMILIE

2.1 Maximum Likelihood Schatzung

Liegt eine n-elementige Zufallsstichprobe y1, . . . , yn aus der Exponentialfamilie vor, so istder Maximum Likelihood Schatzer von µ die Losung der Score-Funktion

n∑i=1

∂ log f(yi, θ)

∂µ=

n∑i=1

∂ log f(yi, θ)

∂θ

∂θ

∂µ=

n∑i=1

yi − b′(θ)

a(ϕ)

∂θ

∂µ.

Mit b′(θ) = µ und wegen∂µ

∂θ=∂b′(θ)

∂θ= b′′(θ) = V (µ)

vereinfacht sich die obige Score-Funktion zu

n∑i=1

∂ log f(yi, θ)

∂µ=

n∑i=1

yi − µ

a(ϕ)V (µ)=

n∑i=1

yi − µ

var(y). (2.4)

Diese recht simple Form resultiert bei der Exponentialfamilie nur bezuglich der Ableitungnach µ. Sie entspricht der Ableitung der Fehlerquadratsumme beim Linearen Modell mitvar(yi) = σ2.

Generell konnten wir annehmen, dass beobachtungsspezifische ai(·) vorliegen, es aber nureinen globalen Dispersionsparameter ϕ gibt. Falls speziell ai(ϕ) = ai · ϕ mit bekanntenGewichten ai, hangt der Maximum Likelihood Schatzer µ nicht mehr von ϕ ab.

2.2 Mitglieder der Exponentialfamilie

Wir werden nun einige wichtige Mitglieder dieser Verteilungsfamilie kennen lernen. Dabeiwird eine Parametrisierung verwendet, die den Erwartungswert immer durch µ bezeichnet.Die Varianzen sind dadurch oft proportional zu Potenzen von µ.

• Die Normalverteilung y ∼ N(µ, σ2):

f(y, µ, σ2) =1√2πσ2

exp

(−(y − µ)2

2σ2

)= exp

(yµ− µ2/2

σ2− y2

2σ2− 1

2log(2πσ2)

), y ∈ R.

Setzen wir nun θ = µ und ϕ = σ2, so fuhrt dies zur Exponentialfamilie mit

a(ϕ) = ϕ , b(θ) = θ2/2 , c(y, ϕ) = − y2

2ϕ− 1

2log(2πϕ) ,

und mittels (2.3) zu

E(y) = b′(θ) = θ = µ

var(y) = a(ϕ)b′′(θ) = ϕ · 1 = σ2

κk(y) = 0 fur k > 2 .

Page 16: Generalisierte Lineare Modelle - STAT · Median) der logyi ein multiplikatives Modell fur¨ die Mediane und Erwartungswerte der yi ist. Fur¨ die Erwartungswerte von y i wurde der

2.2. MITGLIEDER DER EXPONENTIALFAMILIE 13

• Die Poissonverteilung y ∼ P (µ):

f(y, µ) =µy

y!e−µ = exp (y log µ− µ− log y!) , y = 0, 1, 2, . . . .

Mit θ = log µ und festem ϕ = 1 fuhrt dies zur Exponentialfamilie mit

a(ϕ) = ϕ , b(θ) = exp(θ) , c(y, ϕ) = − log y! ,

und mittels (2.3) zu den Kumulanten

E(y) = b′(θ) = exp(θ) = µ

var(y) = a(ϕ)b′′(θ) = exp(θ) = µ

κk(y) = exp(θ) = µ fur k > 2 .

• Die Gammaverteilung y ∼ G(a, λ):

f(y, a, λ) = exp(−λy)λaya−1 1

Γ(a), a, λ, y > 0 .

Damit gilt E(y) = a/λ und V ar(y) = a/λ2. Die Reparametrisierung µ = ν/λ mit ν = aliefert E(y) = µ und V ar(y) = µ2/ν. Die entsprechende Dichtefunktion lautet damit

f(y, µ, ν) = exp

(−νµy

)(ν

µ

yν−1 1

Γ(ν)

= exp

(−νµy + ν log ν − ν log µ+ (ν − 1) log y − log Γ(ν)

)

= exp

y(− 1

µ

)+ log 1

µ

1/ν+ ν log ν + (ν − 1) log y − log Γ(ν)

, µ, ν, y > 0 .

Mit θ = −1/µ und ϕ = 1/ν fuhrt dies zur Exponentialfamilie mit

a(ϕ) = ϕ , b(θ) = − log(−θ) , c(y, ϕ) =1

ϕlog

1

ϕ+

(1

ϕ− 1

)log y − log Γ

(1

ϕ

)und mittels (2.3) zu den Kumulanten

E(y) = b′(θ) = −1

θ= µ

var(y) = a(ϕ)b′′(θ) = ϕ1

θ2=

1

νµ2

κk(y) = (k − 1)! ν(µν

)kfur k > 2 .

Page 17: Generalisierte Lineare Modelle - STAT · Median) der logyi ein multiplikatives Modell fur¨ die Mediane und Erwartungswerte der yi ist. Fur¨ die Erwartungswerte von y i wurde der

14 KAPITEL 2. DIE EXPONENTIALFAMILIE

• Die Invers-Gaussverteilung y ∼ IG(µ, σ2):

f(y, µ, σ2) =1√

2πσ2y3exp

(− 1

2σ2y

(y − µ

µ

)2)

= exp

(−y

2 − 2yµ+ µ2

2σ2yµ2− 1

2log(2πσ2y3

))

= exp

y(− 1

2µ2

)+ 1

µ

σ2− 1

2σ2y− 1

2log(2πσ2y3

) , y > 0.

Mit θ = − 12µ2 , (µ = (−2θ)−1/2) und ϕ = σ2 ergibt dies eine Exponentialfamilie mit

a(ϕ) = ϕ, b(θ) = −(−2θ)1/2, c(y, ϕ) = −1

2

(1

ϕy+ log

(2πϕy3

))und mittels (2.3) zu den Kumulanten

E(y) = b′(θ) = (−2θ)−1/2 = µ,

var(y) = a(ϕ)b′′(θ) = ϕ(−2θ)−3/2 = σ2µ3,

κ3(y) = 3σ4µ5, κ4(y) = 15σ6µ7.

• Die standardisierte Binomialverteilung my ∼ B(m,π):

f(y,m, π) = P (Y = y) = P (mY = my) =

(m

my

)πmy(1− π)m−my

= exp

(log

(m

my

)+my log π +m(1− y) log(1− π)

)= exp

(y log π

1−π− log 1

1−π

1/m+ log

(m

my

)), y = 0,

1

m,2

m, . . . , 1.

Mit θ = log π1−π

, (π = eθ/(1 + eθ)) und ϕ = 1/m ist dies eine Exponentialfamilie mit

a(ϕ) = ϕ, b(θ) = log1

1− π= log(1 + exp(θ)), c(y, ϕ) = log

( 1ϕyϕ

),

und mittels (2.3) zu den Kumulanten

E(y) = b′(θ) =exp(θ)

1 + exp(θ)= π ,

var(y) = a(ϕ)b′′(θ) = ϕexp(θ)

(1 + exp(θ))2=

1

mπ(1− π) ,

κ3(y) =1

m2(1− 2π)π(1− π) , κ4(y) =

1

m3(1− 6π(1− π))π(1− π) .

Das m-fache von y ist eine binomialverteilte Große, y selbst ein relativer Anteil.

Page 18: Generalisierte Lineare Modelle - STAT · Median) der logyi ein multiplikatives Modell fur¨ die Mediane und Erwartungswerte der yi ist. Fur¨ die Erwartungswerte von y i wurde der

2.3. DIE QUASI-LIKELIHOOD FUNKTION 15

2.3 Die Quasi-Likelihood Funktion

Betrachtet man die Score-Funktion (2.4) zur Exponentialfamilie, so erkennt man, dassder Maximum-Likelihood Schatzer µ nur von der zugrundeliegenden Varianzannahmeabhangt. In diesem Abschnitt wird nun untersucht, welche Eigenschaften ein Schatzer furµ aufweist, falls die Score-Funktion auch fur Varianzannahmen verwendet wird, die keinenMitgliedern aus der Exponentialfamilie gehoren. Generell spricht man dann von einerQuasi-Score-Funktion. Ohne Verlust der Allgemeinheit wollen wir dazu annehmen,dass die Dispersion gegeben ist durch a(ϕ) = ϕ.

Definition 2.2 Fur eine Zufallsvariable y mit E(y) = µ und var(y) = ϕV (µ) (mita(ϕ) = ϕ) und bekannter Varianzfunktion V (·) ist die Quasi-Likelihood-Funktionq(y, µ) (eigentlich Log-Quasi-Likelihood-Funktion) definiert uber die Beziehung

∂q(y, µ)

∂µ=

y − µ

ϕV (µ), (2.5)

oder aquivalent dazu durch

q(y, µ) =

∫ µ y − t

ϕV (t)dt+ Funktion in y (und ϕ). (2.6)

Die Ableitung ∂q/∂µ wird als Quasi-Score-Funktion bezeichnet. Verglichen mit (2.1)und (2.2) hat sie folgende Eigenschaften mit der Score-Funktion gemeinsam

E

(∂q(y, µ)

∂µ

)= 0, (2.7)

var

(∂q(y, µ)

∂µ

)=

var(y)

ϕ2V 2(µ)=

1

ϕV (µ)= −E

(∂2q(y, µ)

∂µ2

). (2.8)

Satz 2.2 Wedderburn (1974): Fur eine Beobachtung y mit E(y) = µ und var(y) =ϕV (µ) hat die Log-Likelihood Funktion l(y, µ) = log f(y, µ) die Eigenschaft

∂l(y, µ)

∂µ=

y − µ

ϕV (µ),

dann und nur dann, wenn die Dichte bzw. Wahrscheinlichkeitsfunktion von y in der Form

exp

(yθ − b(θ)

ϕ+ c(y, ϕ)

)geschrieben werden kann, wobei θ eine Funktion von µ und ϕ unabhangig von µ ist.

Page 19: Generalisierte Lineare Modelle - STAT · Median) der logyi ein multiplikatives Modell fur¨ die Mediane und Erwartungswerte der yi ist. Fur¨ die Erwartungswerte von y i wurde der

16 KAPITEL 2. DIE EXPONENTIALFAMILIE

⇒: Integration bezuglich µ liefert

l(y, µ) =

∫∂l(y, µ)

∂µdµ =

∫y − µ

ϕV (µ)dµ

=y

ϕ

∫1

V (µ)dµ︸ ︷︷ ︸

θ

−1

ϕ

∫µ

V (µ)dµ︸ ︷︷ ︸

b(θ)

=yθ − b(θ)

ϕ+ c(y, ϕ).

⇐: Mit (2.3) folgt fur die Kumulanten der einparametrigen Exponentialfamilie (a(ϕ) = ϕ)E(Y ) = µ = b′(θ) und var(Y ) = ϕV (µ) = ϕb′′(θ). Es gilt daher

dθ=db′(θ)

dθ= b′′(θ) = V (µ).

Da aber l(y, µ) = (yθ − b(θ))/ϕ+ c(y, ϕ) und θ eine Funktion von µ ist, folgt

∂l(y, µ)

∂µ=

y

ϕ

dµ− b′(θ)

ϕ

=y − µ

ϕV (µ).

Mit dieser Konstruktionsidee wird fur einige Varianzfunktionen der assoziierte Parameterθ hergeleitet, sowie die Quasi-Likelihood-Funktionen bestimmt.

• V (µ) = 1, ϕ = σ2, y, µ ∈ R, (d.h. y ∼ N(µ, σ2)):

θ =

∫dµ = µ,

q(y, µ) =

∫ µ y − t

σ2dt+ Funktion in y = −(y − µ)2

2σ2.

• V (µ) = µ, 0 < µ, 0 ≤ y, (d.h. y ∼ P (µ)):

θ =

∫1

µdµ = log µ,

q(y, µ) =

∫ µ y − t

tdt = y log µ− µ.

• V (µ) = µ2, 0 < µ, 0 ≤ y, (d.h. y ∼ G(µ, 1)):

θ =

∫1

µ2dµ = − 1

µ,

q(y, µ) =

∫ µ y − t

t2dt =

y

µ− log µ.

Page 20: Generalisierte Lineare Modelle - STAT · Median) der logyi ein multiplikatives Modell fur¨ die Mediane und Erwartungswerte der yi ist. Fur¨ die Erwartungswerte von y i wurde der

2.3. DIE QUASI-LIKELIHOOD FUNKTION 17

• V (µ) = µ3, 0 < µ, 0 ≤ y, (d.h. y ∼ IG(µ, 1)):

θ =

∫1

µ3dµ = − 1

2µ2,

q(y, µ) =

∫ µ y − t

t2dt = − y

2µ2+

1

µ.

• V (µ) = µk, 0 < µ, 0 ≤ y, k ≥ 3:

θ =

∫1

µkdµ = − 1

(k − 1)µk−1,

q(y, µ) =

∫ µ y − t

tkdt =

1

µk

(µ2

k − 2− yµ

k − 1

).

• V (µ) = µ(1− µ), 0 < µ < 1, 0 ≤ y ≤ 1, (d.h. mY ∼ B(m,µ)):

θ =

∫1

µ(1− µ)dµ = log

µ

1− µ,

q(y, µ) =

∫ µ y − t

t(1− t)dt = y log

µ

1− µ+ log(1− µ).

• V (µ) = µ2(1− µ)2, 0 < µ < 1, 0 ≤ y ≤ 1:

θ =

∫1

µ2(1− µ)2dµ = 2 log

µ

1− µ− 1

µ+

1

1− µ,

q(y, µ) =

∫ µ y − t

t2(1− t)2dt = (2y − 1) log

µ

1− µ− y

µ− 1− y

1− µ.

• V (µ) = µ+ µ2/k, 0 < µ, 0 ≤ y, 0 < k, (d.h. y ∼ NegB(k, µ)):

θ =

∫1

µ+ µ2/kdµ = log

µ

k + µ,

q(y, µ) =

∫ µ y − t

t+ t2/kdt = y log

µ

k + µ+ k log

1

k + µ.

Wahrend die ersten vier (Normal-, Poisson-, Gamma- und Inverse Gaußverteilung) unddas sechste Beispiel (standardisierte Binomialverteilung) zu bereits bekannten Mitgliedernder Exponentialfamilie fuhren, stellen das funfte sowie das siebente (speziell fur Model-le fur Prozentsatze) und achte Beispiel (Negativ-Binomialverteilung) neue (nicht in derExponentialfamilie inkludierte) Varianzfunktionen dar. Hangt die Varianzfunktion von ei-nem k ab, so muss diese Große beim Quasi-Likelihood-Ansatz als fest betrachtet werden.Es besteht (noch) keine Moglichkeit, k simultan mit µ zu schatzen.

Page 21: Generalisierte Lineare Modelle - STAT · Median) der logyi ein multiplikatives Modell fur¨ die Mediane und Erwartungswerte der yi ist. Fur¨ die Erwartungswerte von y i wurde der

18 KAPITEL 2. DIE EXPONENTIALFAMILIE

2.3.1 Quasi-Dichten

Naturlich ist durch die Spezifikation einer Erwartungswert/Varianz-Beziehung auch ei-ne Dichtefunktion spezifizierbar. Aus der (Log)-Quasi-Likelihood Funktion folgt mit derNormalisierungsfunktion

ω(µ) =

∫Rexp(q(y, µ))dy

als Quasi-Dichte (siehe dazu Nelder & Lee (1992))

fq(y, µ) =exp(q(y, µ))

ω(µ). (2.9)

ω(µ) ist ungleich 1, wenn die Varianz ϕV (µ) zu keiner Verteilung mit Dichte oder Wahr-scheinlichkeitsfunktion aus der Exponentialfamilie gehort. Andererseits ist ω(µ) = 1, ∀µ,falls zur Varianz eine Exponentialfamilie existiert.

Zur Quasi-Dichte (2.9) korrespondiert nun die Log-Likelihood Funktion

lq(y, µ) = log(fq(y, µ)) = q(y, µ)− log(ω(µ))

und

∂lq(y, µ)

∂µ=∂q(y, µ)

∂µ− ∂ log(ω(µ))

∂µ.

Dieser Score unterscheidet sich vom Quasi-Score genau um

∂ log(ω(µ))

∂µ=

1

ω(µ)

∂ω(µ)

∂µ=

1

ω(µ)

∫∂ exp(q(y, µ))

∂µdy

=1

ω(µ)

∫∂q(y, µ)

∂µexp(q(y, µ))dy =

∫y − µ

ϕV (µ)

exp(q(y, µ))

ω(µ)dy

=

∫y − µ

ϕV (µ)fq(y, µ)dy = Eq

(y − µ

ϕV (µ)

)=µq − µ

ϕV (µ).

Hierbei bezeichnet

µq =

∫yfq(y, µ)dy

den Quasi-Mean von y. Falls µq−µ verglichen mit y−µ sehr klein ist, bedeutet dies, dassder Maximum-Quasi-Likelihood Schatzer sehr nahe dem Maximum-Likelihood Schatzerbezuglich der Quasi-Verteilung ist.

Page 22: Generalisierte Lineare Modelle - STAT · Median) der logyi ein multiplikatives Modell fur¨ die Mediane und Erwartungswerte der yi ist. Fur¨ die Erwartungswerte von y i wurde der

Kapitel 3

Das Generalisierte Lineare Modell

Unter Annahme der Existenz von E(yi) und var(yi) wird in der Klasse der GeneralisiertenLinearen Modelle (GLM) eine Parametrisierung der Form

stochastische Komponente: yiind∼ Exponentialfamilie(θi), E(yi) = µi = µ(θi)

systematische Komponente: ηi = x⊤i β

Linkfunktion: g(µi) = ηi

betrachtet, wobei der Zufallsvektor y = (y1, . . . , yn)⊤ aus unabhangigen Komponenten

yi aufgebaut ist mit E(yi) = µi und var(yi) = ϕiV (µi). Die Dispersionsparameter ϕi

sind gerade die Großen ai(ϕ) von zuvor. Es bezeichnet im weiteren xi = (xi1, . . . , xip)⊤

den Vektor von bekannten erklarenden Variablen, zusammengefasst zu einer Designma-trix X = (x1, . . . , xn)

⊤, β = (β1, . . . , βp)⊤ den Vektor mit den unbekannten Parametern,

η = (η1, . . . , ηn)⊤ den Vektor mit den Linearen Pradiktoren und g(·) eine bekannte Link-

funktion.

Die wesentlichen Unterschiede zum herkommlichen Linearen Modell sind:

• Es besteht keine allgemeine Additivitat bezuglich nicht-beobachtbarer Fehlertermeϵi wie beim Linearen Modell,

• Eine Abhangigkeit der Varianzstruktur auch vom Erwartungswert ist moglich,

• Eine Funktion des Erwartungswertes wird linear modelliert. Dies ist keinesfalls zuverwechseln mit einer einfachen Transformation der Responsevariablen.

Unser Hauptinteresse liegt nun in der Konstruktion eines Schatzers fur den Parametervek-tor β, sowie an einem Maß fur die Gute der Modellanpassung. Beides ist fur Maximum-Likelihood-Schatzer besonders einfach und stellt nur eine Verallgemeinerung der Resultatefur Lineare Modelle dar.

19

Page 23: Generalisierte Lineare Modelle - STAT · Median) der logyi ein multiplikatives Modell fur¨ die Mediane und Erwartungswerte der yi ist. Fur¨ die Erwartungswerte von y i wurde der

20 KAPITEL 3. DAS GENERALISIERTE LINEARE MODELL

3.1 Maximum-Likelihood-Schatzungen

Falls y1, . . . , yn unabhangige Responses sind und die yi aus derselben Exponentialfami-lie stammen mit Parameter (θi, ϕi), wobei der Vektor θ = (θ1, . . . , θn)

⊤ die unbekanntenParameter beschreibt welche geschatzt werden sollen, und ϕ = (ϕ1, . . . , ϕn)

⊤ aus (vor-erst) bekannten (nuisance) Komponenten besteht, so ist die Log-Likelihood Funktion derStichprobe gegeben durch

l(y, θ) =n∑

i=1

(yiθi − b(θi)

ϕi

+ c(yi, ϕi)

).

Unter der recht allgemeinen Annahme µ = µ(β) folgt aus (2.4) die Score-Gleichung

∂l(y, θ(β))

∂βj=

n∑i=1

yi − µi

ϕiV (µi)

∂µi

∂βj= 0, j = 1, . . . , p.

Mit der Definition des linearen Pradiktors gilt beim GLM

∂µ

∂β=∂µ

∂η

∂η

∂β=

∂µ

∂g(µ)x =

x

g′(µ)

und deshalb

∂l(y, θ(β))

∂βj=

n∑i=1

yi − µi

ϕiV (µi)

xijg′(µi)

= 0, j = 1, . . . , p. (3.1)

Den speziellen Link g(µ) = θ nennt man die kanonische Linkfunktion. Hierbei wirdder Parameter θ direkt durch den linearen Pradiktor η modelliert. In diesem Fall ist g(·)die Inverse von b′(·) und wegen µ = b′(θ) folgt

g′(µ) =∂g(µ)

∂µ=∂θ

∂µ=

1

b′′(θ)=

1

V (µ).

Die Score-Gleichung (3.1) vereinfacht sich fur eine kanonische Linkfunktion zu

∂l(y, θ(β))

∂βj=

n∑i=1

yi − µi

ϕi

xij = 0, j = 1, . . . , p. (3.2)

Fur ϕi = ϕ (identische Dispersion) gilt hier bei Modellen mit einem Intercept (xi1 = 1, ∀i)n∑

i=1

yi =n∑

i=1

µi.

Der Maximum-Likelihood-Schatzer β ist also fur den allgemeinen Fall als Losung desGleichungssystems (3.1) oder im kanonischen Fall durch (3.2) definiert. Beide Systeme

Page 24: Generalisierte Lineare Modelle - STAT · Median) der logyi ein multiplikatives Modell fur¨ die Mediane und Erwartungswerte der yi ist. Fur¨ die Erwartungswerte von y i wurde der

3.1. MAXIMUM-LIKELIHOOD-SCHATZUNGEN 21

konnen nur iterativ gelost werden. Einzige Ausnahme bildet das lineare Modell, in dem µlinear in β ist. Fur alle anderen Situationen ist µ = g−1(x⊤β).

Die Newton-Raphson Methode liefert die Iterationsvorschrift

β(t+1) = β(t) +

(−∂

2l(y, θ(β))

∂β∂β⊤

)−1∂l(y, θ(β))

∂β, t = 0, 1, . . . , (3.3)

wobei beide Ableitungen der rechten Seite von (3.3) an der Stelle β(t) betrachtet werden.In Matrixnotation folgt fur den Scorevektor

∂l(y, θ(β))

∂β= X⊤DW (y − µ),

mit D = diag(di) und W = diag(wi), wobei

di = g′(µi),

1/wi = ϕiV (µi)(g′(µi))

2.

Als negative Hessematrix der Log-Likelihood Funktion resultiert somit

−∂2l(y, θ(β))

∂β∂β⊤ = −X⊤(∂DW

∂η⊤(y − µ)−DW

∂µ

∂η⊤

)X

= X⊤(W − ∂DW

∂η⊤(y − µ)

)X,

wegen ∂µ/∂η = D−1. Weiters ist

∂diwi

∂ηi= −

ϕiV′(µi)

∂µi

∂ηig′(µi) + ϕiV (µi)g

′′(µi)∂µi

∂ηi

(ϕiV (µi)g′(µi))2

= −V′(µi)g

′(µi) + V (µi)g′′(µi)

ϕiV 2(µi)g′3(µi)

. (3.4)

Fasst man die Elemente

w∗i = wi −

∂diwi

∂ηi(yi − µi)

zusammen zur Diagonalmatrix W ∗, fur die E(W ∗) = W gilt, so resultiert als Newton-Raphson Vorschrift

β(t+1) = β(t) + (X⊤W ∗X)−1X⊤DW (y − µ), t = 0, 1, . . . . (3.5)

Mit sogenannten Pseudobeobachtungen (adjusted dependent variates)

z = Xβ +W ∗−1DW (y − µ) (3.6)

Page 25: Generalisierte Lineare Modelle - STAT · Median) der logyi ein multiplikatives Modell fur¨ die Mediane und Erwartungswerte der yi ist. Fur¨ die Erwartungswerte von y i wurde der

22 KAPITEL 3. DAS GENERALISIERTE LINEARE MODELL

kann (3.5) umgeschrieben werden in eine Iterative (Re)Weighted Least SquaresNotation (IWLS- oder IRLS-Prozedur)

β(t+1) = (X⊤W ∗X)−1X⊤W ∗z, (3.7)

wobei hier die rechte Seite in β(t) betrachtet wird.

Fur kanonische Links (g′(µ) = 1/V (µ), g′′(µ) = −V ′(µ)/V 2(µ)) verschwinden die Ab-leitungen (3.4), da

∂diwi

∂ηi= −V

′(µi)/V (µi)− V ′(µi)/V (µi)

ϕi/V (µi)= 0

und es gilt W ∗ =W . Die Pseudobeobachtungen (3.6) vereinfachen sich deshalb zu

z = Xβ +D(y − µ) = Xβ + V −1(y − µ), (3.8)

mit V = diag(V (µi)), weshalb als Iterationsvorschrift

β(t+1) = (X⊤WX)−1X⊤Wz (3.9)

folgt.

Zur Erinnerung sei noch darauf hingewiesen, dass

β = (X⊤X)−1X⊤y

beim linearen Modell den Least-Squares Schatzer definiert, welcher nicht iterativ gelostwerden muss (W = I). Weiters werden hier die beobachtbaren Responsevariablen y ver-wendet, wahrend bei GLM’s nicht-beobachtbare Pseudobeobachtungen z diese Rolle uber-nehmen.

Um auch fur nicht-kanonische Linkfunktionen ein recht einfaches Schema zu haben, istes ublich, anstelle der beobachteten negativen Hessematrix in (3.3) deren Erwartungs-wert (Informationsmatrix) zu verwenden. Da E(X⊤W ∗X) = X⊤WX gilt, folgt bei dieserFisher Scoring Technik wie in (3.9) wiederum als Iterationsvorschrift

β(t+1) = (X⊤WX)−1X⊤Wz

mit den Pseudobeobachtungen

z = Xβ +D(y − µ).

Dafur ist E(z) = Xβ und var(z) = Dvar(y)D = W−1. Dies bedeutet, dass die GewichteW gerade die reziproken Varianzen der Pseudobeobachtungen beschreiben.

Page 26: Generalisierte Lineare Modelle - STAT · Median) der logyi ein multiplikatives Modell fur¨ die Mediane und Erwartungswerte der yi ist. Fur¨ die Erwartungswerte von y i wurde der

3.2. ASYMPTOTISCHE EIGENSCHAFTEN DES SCHATZERS 23

3.2 Asymptotische Eigenschaften des Schatzers

Um die asymptotischen Momente des Schatzers β herzuleiten, ist es angebracht, die Score-Funktion um den wahren Parameter β zu entwickeln. Aus

0 =∂ log f(y, µ)

∂β

∣∣∣∣β

≈ ∂ log f(y, µ)

∂β

∣∣∣∣β

+∂2 log f(y, µ)

∂β∂β⊤

∣∣∣∣β

(β − β)

und nachdem die Ableitung durch deren Erwartungswert −X⊤WX ersetzt wurde, folgt

β − β ≈ (X⊤WX)−1X⊤DW (y − µ).

Da var(y) = (DWD)−1 ergibt sich daher

E(β) ≈ β

var(β) ≈ (X⊤WX)−1X⊤DWvar(y)WDX(X⊤WX)−1 = (X⊤WX)−1,

wobei W im wahren unbekannten Parameter β betrachtet ist. Fahrmeir und Kaufmann(1985) zeigten sogar, dass

√n(β − β

)n→∞∼ Np(0, n(X

⊤WX)−1). (3.10)

3.3 Pearson Statistik

Naturlich ist man nicht nur am asymptotischen Ergebnis fur die Varianz-Kovarianzmatrixvon β interessiert, sondern mochte vor allem diese Matrix auch schatzen. Standardmaßigwird dafur der Plug-in Schatzer verwendet, d.h. der unbekannte Parameter β in W wirddurch β geschatzt und man erhalt (ϕi = ai · ϕ)

var(β) = (X⊤W (β, ϕ)X)−1. (3.11)

Nun hangtW aber auch vom moglicherweise unbekannten Dispersionsparameter ϕ ab. Beiden linearen Modellen wurde σ2 durch die biaskorrigierte mittlere Fehlerquadratsumme

σ2 =1

n− p

n∑i=1

(yi − µi)2

geschatzt. In GLM’s mit ϕi = ai ·ϕ und festem Dispersionsparameter ϕ = var(yi)/aiV (µi)ist im Falle eines bekannten Parameters β die Große

1

n

n∑i=1

(yi − µi)2

aiV (µi)

Page 27: Generalisierte Lineare Modelle - STAT · Median) der logyi ein multiplikatives Modell fur¨ die Mediane und Erwartungswerte der yi ist. Fur¨ die Erwartungswerte von y i wurde der

24 KAPITEL 3. DAS GENERALISIERTE LINEARE MODELL

erwartungstreu fur ϕ. Naturlich ist β unbekannt. Deshalb verwendet man auch basierendauf die Momentenmethode als Schatzer die biaskorrigierte Große

ϕ =1

n− p

n∑i=1

(yi − µi)2

aiV (µi)=

1

n− pX2, (3.12)

welche auch als mittlere (generalisierte) Pearson Statistik X2 bezeichnet wird undin (3.11) Verwendung findet. Die einzelnen (nicht quadrierten) Summanden von X2

ri =yi − µi√aiV (µi)

nennt man Pearson Residuen. Diese entsprechen den gewohnlichen (nicht standardi-sierten) Residuen yi − µi beim linearen Modell.

3.4 Eigenschaften von Score und Quasi-Score

Fur li = log f(yi, θi(β)) resultiert mit g(µi) = ηi = x⊤i β

∂li∂βj

=yi − µi

ϕiV (µi)

∂µi

∂βj,

∂2li∂βj∂βk

= −(

1

ϕiV (µi)+ (yi − µi)

ϕiV′(µi)

(ϕiV (µi))2

)∂µi

∂βj

∂µi

∂βk+ (yi − µi)

1

ϕiV (µi)

∂2µi

∂βj∂βk,

∂li∂βj

∂li∂βk

=

(yi − µi

ϕiV (µi)

)2∂µi

∂βj

∂µi

∂βk,

mit 1 ≤ j, k ≤ p und i = 1, . . . , n und es folgen dafur als Erwartungswerte

E

(∂li∂βj

)= 0,

E

(∂2li

∂βj∂βk

)= − 1

ϕiV (µi)

∂µi

∂βj

∂µi

∂βk,

E

(∂li∂βj

∂li∂βk

)=

var(yi)

(ϕiV (µi))2∂µi

∂βj

∂µi

∂βk=

1

ϕiV (µi)

∂µi

∂βj

∂µi

∂βk= −E

(∂2li

∂βj∂βk

).

Unter der Annahme E(Yi) = µi und var(Yi) = ϕiV (µi), wobei wiederum g(µi) = x⊤i β gilt,folgt als Quasi-Score Funktion

∂q(yi, µi(β))

∂βj=∂q(yi, µi(β))

∂µi

∂µi

∂βj=

yi − µi

ϕiV (µi)

xijg′(µi)

. (3.13)

Dies entspricht genau dem i-ten Summanden aus (3.1). Man spricht auch bei Quasi-Likelihood Ansatzen von einer kanonischen Linkfunktion, falls g′(µ) = 1/V (µ) gilt, was

Page 28: Generalisierte Lineare Modelle - STAT · Median) der logyi ein multiplikatives Modell fur¨ die Mediane und Erwartungswerte der yi ist. Fur¨ die Erwartungswerte von y i wurde der

3.5. DEVIANCE UND QUASI-DEVIANCE 25

wiederum zum Score-Gleichungssystem (3.2) fuhrt. Die Quasi-Likelihood Schatzung ent-spricht daher der Maximum-Likelihood Schatzung, vorausgesetzt dass zur angenommenenVarianz auch ein Mitglied aus der einparametrigen Exponentialfamilie existiert.

Sei qi = q(yi, µi(β)) fur i = 1, . . . , n, so gilt fur jede Parameterkomponente

E

(∂qi∂βj

)= E

(∂qi∂µi

)∂µi

∂βj= 0,

E

(∂2qi

∂βj∂βk

)= E

(∂2qi∂µ2

i

∂µi

∂βj

∂µi

∂βk+∂qi∂µi

∂2µi

∂βj∂βk

)= − 1

ϕiV (µi)

∂µi

∂βj

∂µi

∂βk,

E

(∂qi∂βj

∂qi∂βk

)= E

((∂qi∂µi

)2∂µi

∂βj

∂µi

∂βk

)=

1

ϕiV (µi)

∂µi

∂βj

∂µi

∂βk= −E

(∂2qi

∂βj∂βk

).

3.5 Deviance und Quasi-Deviance

Um die Gute der Modellanpassung zu beschreiben, betrachtet man die Log-Likelihood-Quotienten Teststatistik (likelihood ratio test) basierend auf dem aktuellen Modell mitp Parametern und einem vollen (saturiertem) Modell, in dem jeder Erwartungswert µi

gerade der Beobachtung yi entspricht. Das volle Modell kann daher als Modell mit nParametern interpretiert werden. Diese Statistik

1

ϕD(y, µ) = −2

(log f(y, µ)− log f(y, y)

)(3.14)

wird auch skalierte Deviance genannt. Nun gilt fur den Maximum-Likelihood Schatzerµ, welcher log f(y, µ) maximiert, dass dieser auch die Deviance minimiert, da log f(y, y)ein fester Wert unabhangig vom Parameter ist. Wie die folgenden Beispiele zeigen, ist dasMaß der Deviance eine Verallgemeinerung der Fehlerquadratsumme beim linearen Modellunter Annahme normalverteilter Responses.

Beispiel: Seien yiind∼ N(µi, σ

2) und σ2 fest. So ist

log f(y, µ) =n∑

i=1

{−1

2log(2πσ2)− 1

2

(yi − µi)2

σ2

}= −n

2log(2πσ2)− 1

2

n∑i=1

(yi − µi)2

σ2

log f(y, y) = −n2log(2πσ2),

wobei die zweite Große den maximal moglichen Wert unter dem vollen Modell beschreibt.Die minimierte skalierte Deviance ist somit (ϕ = σ2)

1

ϕD(y, µ) =

1

σ2

n∑i=1

(yi − µi)2 =

1

σ2SSE(β),

also eine χ2n−p-verteilte Große mit Erwartungswert n− p.

Page 29: Generalisierte Lineare Modelle - STAT · Median) der logyi ein multiplikatives Modell fur¨ die Mediane und Erwartungswerte der yi ist. Fur¨ die Erwartungswerte von y i wurde der

26 KAPITEL 3. DAS GENERALISIERTE LINEARE MODELL

Beispiel: Seien miyiind∼ B(mi, µi) mit yi = 0, 1/mi, 2/mi, . . . , 1, dann folgt

log f(y, µ) =n∑

i=1

{miyi log

µi

1− µi

−mi log1

1− µi

+ log

(mi

miyi

)}log f(y, y) =

n∑i=1

{miyi log

yi1− yi

−mi log1

1− yi+ log

(mi

miyi

)}und als skalierte Deviance folgt mit ϕ = 1 und ai(ϕ) = 1/mi

1

ϕD(y, µ) = −2

n∑i=1

{miyi

(log

µi

yi+ log

1− yi1− µi

)−mi log

1− yi1− µi

}= 2

n∑i=1

mi

{(1− yi) log

1− yi1− µi

+ yi logyiµi

}Bemerke, dass fur yi = 0 oder yi = 1 unabhangig von µ der dazugehorende Teil in derDeviance-Komponente verschwindet.

Entsprechend kann man auch eine Quasi-Deviance definieren als

D(y, µ) = −2ϕ(q(y, µ)− q(y, y)

)= −2

n∑i=1

∫ µi

yi

y − t

V (t)dt. (3.15)

Diese Große ist positiv außer an der Stelle y = µ. Naturlich erzeugt auch hier derMaximum-Quasi-Likelihood Schatzer die minimale Quasi-Deviance.

Beispiel: Liegen Prozentwerte yi als Responses vor (d.h. man hat keine Informatio-nen uber die entsprechenden Gesamtanzahlen), fur die eine standardisierte Binomial-verteilungs-Variabilitat µ(1−µ) zu groß erscheint, so kann alternativ als VarianzfunktionV (µ) = µ2(1 − µ)2 verwendet werden. Als Quasi-Likelihood Funktion erhalt man fur0 < µ < 1 und 0 ≤ y ≤ 1

q(y, µ) =

∫ µ y − t

t2(1− t)2dt = (2y − 1) log

µ

1− µ− y

µ− 1− y

1− µ.

Die entsprechende Quasi-Deviance ist daher

D(y, µ) = −2n∑

i=1

{(2yi − 1)

(log

1− yi1− µi

− logyiµi

)+ (2µi − 1)

yi − µi

µi(1− µi)

}.

Bemerke, dass jetzt in yi = 0 und yi = 1 die Quasi-Deviance nicht einmal definiert ist, derMaximum-Quasi-Likelihood Schatzer β in diesem Fall jedoch sehr wohl existiert. Dieser istwiederum definiert als iterative Losung des Quasi-Score Gleichungssystems q(y, µ(β)) = 0,das fur die beiden kritischen Beobachtungen unproblematisch ist.

Page 30: Generalisierte Lineare Modelle - STAT · Median) der logyi ein multiplikatives Modell fur¨ die Mediane und Erwartungswerte der yi ist. Fur¨ die Erwartungswerte von y i wurde der

3.6. PARAMETERTESTS 27

3.6 Parametertests

Wie schon bei den linearen Modellen konnen auch jetzt wiederum die Parameter uberdas Konzept der nested models (ineinandergeschachtelte Submodelle) getestet werden.Dies entspricht dem Testen von Hypothesen der Form

H0 : η = βq+1xq+1 + · · ·+ βpxp

H1 : η = β1x1 + · · ·+ βqxq + βq+1xq+1 + · · ·+ βpxp

(q < p) oder aquivalent dazu einem (multiplen) Test der Hypothese

H0 : β1 = · · · = βq = 0

H1 : β1, . . . , βq beliebig.

Das Modell unter H0 ist ein Untermodell von dem unter H1, das man erhalt indem dieersten q < p Parameter Null gesetzt werden. Bezeichnen µ0 und µ1 die geschatzten Erwar-tungsvektoren unter diesen beiden Modellen, so ist die Likelihood-Quotienten Teststatistik

−2(log f(y, µ0)− log f(y, µ1)

)=

1

ϕ

(D(y, µ0)−D(y, µ1)

),

gerade die Deviance-Reduktion, welche daher asymptotisch χ2-verteilt ist mit q Freiheits-graden. Ist ϕ unbekannt, so verwendeten wir wie bei den linearen Modellen die Teststati-stik

SSE(µ0)− SSE(µ1)

σ2q∼ Fq,n−p,

wobei ϕ durch σ2 bezuglich des komplexesten Modells geschatzt wird. Ein analoges Vor-gehen in GLM’s impliziert die Verwendung von Deviancen anstelle der Fehlerquadratsum-men SSE.

3.7 Beispiel: Konstante Varianz

Im Beispiel uber das Holzvolumen von Baumen aus dem Kapitel 1 wurde die Response-variable V einer Box-Cox Transformation unterzogen. Fur beide Modelle wurde dann an-genommen, dass die transformierte Response V 1/3 oder log V aus einer Normalverteilungstammt. Alternativ dazu konnte man auch annehmen, dass V selbst bereits normalverteiltist mit Erwartungswert µ und dass dieser Erwartungswert jedoch einem GeneralisiertenLinearen Modell folgt; d.h. g(µ) = η.

Unter der Annahme einer Normalverteilung (konstante Varianz) fur V betrachten wirzuerst das Modell mit der Linkfunktion g(µ) = µ1/3 = η (bzw. µ = η3), wobei der linearePradiktor durch η = β1 + β2D + β3H spezifiziert ist.

> attach(trees)

Page 31: Generalisierte Lineare Modelle - STAT · Median) der logyi ein multiplikatives Modell fur¨ die Mediane und Erwartungswerte der yi ist. Fur¨ die Erwartungswerte von y i wurde der

28 KAPITEL 3. DAS GENERALISIERTE LINEARE MODELL

> glm(V ~ D + H, family = quasi(link=power(1/3), variance="constant"),

trace=T, epsilon=1e-8, maxit=15)

Deviance = 185.3623 Iterations - 1

Deviance = 184.1578 Iterations - 2

Deviance = 184.1577 Iterations - 3

Deviance = 184.1577 Iterations - 4

Call: glm(formula = V ~ D + H, family = quasi(link = power(1/3),

variance = "constant"), trace = T, epsilon = 1e-08, maxit = 15)

Coefficients:

(Intercept) D H

-0.05132 0.15033 0.01429

Degrees of Freedom: 30 Total (i.e. Null); 28 Residual

Null Deviance: 8106

Residual Deviance: 184.2 AIC: NA

Dieses Ergebnis ist fast identisch den entsprechenden Resultaten aus dem Beispiel in 1.3.

Wir konnen auch einen Log-Link anstelle der Annahme einer Lognormal-Verteilung furV verwenden, also die Linkfunktion g(µ) = log µ = η (bzw. µ = exp(η)), jetzt fur denlinearen Pradiktor η = β1 + β2 logD + β3 logH. Der folgende Aufruf nutzt die kurzerefamily=gaussian Spezifikation, und spezifiziert nur noch dafur den log-Link.

> glm(V ~ log(D) + log(H), family = gaussian(link=log))

Call: glm(formula = V ~ log(D) + log(H), family = gaussian(link = log))

Coefficients:

(Intercept) log(D) log(H)

-6.537 1.997 1.088

Degrees of Freedom: 30 Total (i.e. Null); 28 Residual

Null Deviance: 8106

Residual Deviance: 179.7 AIC: 150.4

Diese Schatzer entsprechen jenen aus dem Modell unter der Lognormal-Verteilung. DieDeviance ist etwas geringer als beim obigen Ansatz.

3.8 Beispiel: Gamma-Varianz

Ein Feldversuch uber Verfahren zur Kontrolle von Insekten produziert n = 140 Insek-tenanzahlen (counts) von zwei unabhangigen Wiederholungen (plots) in jedem der 10Blocke (block) fur jedes der sieben Verfahren (treatment). Dabei konnen die plots als

Page 32: Generalisierte Lineare Modelle - STAT · Median) der logyi ein multiplikatives Modell fur¨ die Mediane und Erwartungswerte der yi ist. Fur¨ die Erwartungswerte von y i wurde der

3.8. BEISPIEL: GAMMA-VARIANZ 29

Replikationen innerhalb der (7 × 10 = 70) Zellen der treatment:block Klassifikation(Interaktion, Wechselwirkung) betrachtet werden.

> insects <- read.table("insects.dat")

> block <- factor(rep(1:10, len=140)); block

> plot <- factor(rep(rep(1:2, each=10), times=7)); plot

> treatment <- factor(rep(1:7, each=20)); treatment

> insects <- data.frame(insects, data.frame(treatment, plot, block))

> colnames(insects) <- c("counts", "treatment", "plot", "block")

> attach(insects)

Welche Verteilung liegt den Daten zugrunde? In einer ersten Prufung betrachten wir injeder der 70 Zellen das Mittel der beiden counts und deren Standardabweichungen. Wirprufen dazu die Residuen r eines linearen Models unter Normalverteilungsannahme fur diecounts. Das Histogramm der Residuen sieht gut aus (symmetrisch), wahrend der QQ-Plotetwas langere Schwanze in der empirischen Verteilung zeigt als es bei der Normalvertei-lung der Fall ist (siehe Abbildung 3.1 oben). Auch im Scatterplot der Residuen gegen dieangepassten Werte sieht man eine leicht zunehmende Dispersion der Residuen. Da gerade2 Beobachtungen je Zelle vorliegen, ist dieser Plot symmetrisch um Null. Einfacher istdies im Scatterplot der empirischen Momente zu erkennen (siehe Abbildung 3.1 zweiteZeile, rechts). Deutlich ist ein linearer Zuwachs der Standardabweichungen fur wachsen-de Mittelwerte zu sehen, wenn man diese Schatzungen treatment-spezifisch durchfuhrtund die resultierenden 7 Punkte darstellt (wie in der Abbildung 3.1 unten). Da die Stan-dardabweichungen proportional den Mittelwerten zu sein scheinen, liegt ein quadratischesModell fur die Varianz der counts nahe. Dies erfullt gerade die Gammaverteilung.

> i.lm <- lm(counts ~ treatment*block)

> r <- residuals(i.lm); f <- fitted(i.lm)

> hist(r); qqnorm(r); qqline(r)

> plot(f, r, xlab="fitted means"); abline(0,0)

> cell.mean <- tapply(counts, list(treatment, block), mean); cell.mean

1 2 3 4 5 6 7 8 9 10

1 25.0 39.0 33.0 9.5 16 20.0 28.0 22.0 20.0 29.0

2 7.5 18.5 14.0 8.5 9 16.0 20.5 23.0 18.0 14.5

3 7.0 21.0 25.5 7.0 11 17.0 31.5 33.0 27.5 22.5

4 13.0 15.0 12.0 6.5 8 12.0 27.0 12.0 28.0 12.0

5 15.0 12.0 14.0 4.5 16 13.0 29.5 22.5 17.5 34.0

6 15.0 9.5 25.0 4.5 14 11.5 18.0 15.5 20.0 19.5

7 40.5 64.5 41.5 15.5 25 35.5 36.5 48.0 47.5 51.5

> cell.sd <- tapply(counts, list(treatment, block), sd); cell.sd

> plot(cell.mean, cell.sd); abline(mean(cell.sd), 0)

> abline(lsfit(as.vector(cell.mean), as.vector(cell.sd)))

> trt.mean <- tapply(counts, treatment, mean)

> trt.sd <- tapply(counts, treatment, sd)

> plot(trt.mean, trt.sd); abline(lsfit(trt.mean, trt.sd))

Page 33: Generalisierte Lineare Modelle - STAT · Median) der logyi ein multiplikatives Modell fur¨ die Mediane und Erwartungswerte der yi ist. Fur¨ die Erwartungswerte von y i wurde der

30 KAPITEL 3. DAS GENERALISIERTE LINEARE MODELL

-15 -10 -5 0 5 10 15

05

1015

2025

r

-2 -1 0 1 2

Quantiles of Standard Normal

-15

-10

-50

510

15

r

10 20 30 40 50 60

fitted means

-15

-10

-50

510

15

r

10 20 30 40 50 60

cell.mean

05

1015

20

cell.

sd

15 20 25 30 35 40

trt.mean

810

1214

trt.s

d

Abbildung 3.1: Oben: Histogramm der Residuen r aus dem linearen Modell fur die counts(links) und deren QQ-Plot (rechts). Mitte: Residuen gegen arithmetische Mittel in denZellen (links) und zellspezifische Standardabweichungen gegen Mittelwerte (rechts). Un-ten: treatment-spezifische Standardabweichungen gegen Mittelwerte.

Page 34: Generalisierte Lineare Modelle - STAT · Median) der logyi ein multiplikatives Modell fur¨ die Mediane und Erwartungswerte der yi ist. Fur¨ die Erwartungswerte von y i wurde der

3.8. BEISPIEL: GAMMA-VARIANZ 31

Die reparametrisierte Form der Gammaverteilung G(µ, ϕ) hat außer dem Erwartungswertµ auch einen Dispersionsparameter ϕ, der durch die mittlere Pearsonstatistik bzgl. einessinnvoll gewahlten Maximalmodells (hier: treatment*block) geschatzt wird. Der kano-nische Link der Gammaverteilung (in den Programm-Paketen als Defaultlink gesetzt) istdie reziproke (inverse) Funktion. Da hier keine Nullcounts vorliegen, hat man mit diesemLink auch keine Probleme bei der Analyse.

Die Stufen der beiden Faktoren im Modell sollen derart kodiert werden, dass die Para-meter der Faktorstufen die Abweichungen von der ersten Stufe (treatment=1, block=1)beschreiben.

> i.glmmax <- glm(counts ~ treatment * block, family = Gamma)

> summary(i.glmmax)

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 0.0400000 0.0118806 3.367 0.00124 **

treatment2 0.0933333 0.0413458 2.257 0.02711 *

treatment3 0.1028571 0.0440627 2.334 0.02245 *

treatment4 0.0369231 0.0257517 1.434 0.15608

treatment5 0.0266667 0.0230918 1.155 0.25209

treatment6 0.0266667 0.0230918 1.155 0.25209

treatment7 -0.0153086 0.0139618 -1.096 0.27663

block2 -0.0143590 0.0141120 -1.017 0.31242

block3 -0.0096970 0.0149050 -0.651 0.51744

block4 0.0652632 0.0334460 1.951 0.05502 .

block5 0.0225000 0.0220398 1.021 0.31083

block6 0.0100000 0.0190183 0.526 0.60068

block7 -0.0042857 0.0159271 -0.269 0.78866

block8 0.0054545 0.0179838 0.303 0.76256

block9 0.0100000 0.0190183 0.526 0.60068

block10 -0.0055172 0.0156859 -0.352 0.72609

treatment2:block2 -0.0649203 0.0450026 -1.443 0.15360

:

treatment7:block10 0.0002434 0.0182508 0.013 0.98940

---

(Dispersion parameter for Gamma family taken to be 0.1764366)

Null deviance: 59.825 on 139 degrees of freedom

Residual deviance: 16.115 on 70 degrees of freedom

AIC: 1033.1

Number of Fisher Scoring iterations: 6

Der Dispersionsparameter wird nun aus diesem Modell geschatzt und fur die weiterenModelle festgehalten.

> r <- residuals(i.glmmax, type = "pearson") # Pearson Residuals

Page 35: Generalisierte Lineare Modelle - STAT · Median) der logyi ein multiplikatives Modell fur¨ die Mediane und Erwartungswerte der yi ist. Fur¨ die Erwartungswerte von y i wurde der

32 KAPITEL 3. DAS GENERALISIERTE LINEARE MODELL

> s.glmmax <- summary(i.glmmax) # generate summary object

> (df.max <- s.glmmax$df[2]) # [1]=#(parameters), [2]=df

70

> (scale <- sum(r^2)/df.max) # mean Pearson statistic

0.1764366

> (dev.max <- s.glmmax$deviance/scale) # scaled Deviance

91.33322

> plot(f, r, vlab = "fitted means"); abline(0, 0)

Eine Vorgabe fur den Wert des Dispersionsparameter kann nicht direkt in glm gemachtwerden, jedoch ist dieses Fixieren durch summary(glm.object, dispersion = scale)

moglich. Dies hat jedoch keinen Einfluss auf die (Residual) Deviance, die immer unskaliertausgegeben wird.

Pruft man die Residuen zu diesem Modell, so scheinen sich diese jetzt gerade anders zuverhalten. Deren Variabilitat scheint jetzt mit den Means abzunehmen (siehe Abbildung3.2 links). Moglicherweise ist doch die Varianz der Gammaverteilung zu groß gewahlt.Wir wollen aber dabei bleiben und eine Analysis of Deviance Tabelle konstruieren, umden Grad der Erklarung der beiden Faktoren zu prufen. Als Teststatistiken fur Modell-vergleiche mussen wir die Differenzen der (durch den selben Dispersionsparameter scale)skalierten Deviancen (Likelihood-Quotienten-Tests) verwenden.

> # main effects model

> i.glmmain <- glm(counts ~ treatment + block, family = Gamma)

> s.glmmain <- summary(i.glmmain)

> (df.main <- s.glmmain$df[2]) # 124

> (dev.main <- s.glmmain$deviance / scale) # 153.5404

> 1 - pchisq(dev.main - dev.max, df.main - df.max) # 0.207146

> # treatment main effect only

> i.glmt <- glm(counts ~ treatment, family=Gamma)

> s.glmt <- summary(i.glmt)

> (df.t <- s.glmt$df[2]) # 133

> (dev.t <- s.glmt$deviance / scale) # 235.8278

> 1 - pchisq(dev.t - dev.main, df.t - df.main) # 5.67324e-14

> # block main effect only

> i.glmb <- glm(counts ~ block, family = Gamma)

> s.glmb <- summary(i.glmb)

> (df.b <- s.glmb$df[2]) # 130

> (dev.b <- s.glmb$deviance / scale) # 248.4377

> 1 - pchisq(dev.b - dev.main, df.b - df.main) # 0

Mit diesen Modellen ist es nun moglich, die gesamte Analysis of Deviance zu rechnen. Diebeiden Haupteffekte block und treatment sind hoch signifikant, wahrend die Interaktion

Page 36: Generalisierte Lineare Modelle - STAT · Median) der logyi ein multiplikatives Modell fur¨ die Mediane und Erwartungswerte der yi ist. Fur¨ die Erwartungswerte von y i wurde der

3.8. BEISPIEL: GAMMA-VARIANZ 33

treatment:block auf dem Niveau p > 0.2 zu vernachlassigen ist. Wir erhalten im Detail:

Modell skalierte Deviance df p1) Haupteffekte und Interaktionen 91.33 702) beide Haupteffekte 153.54 124

(2-1) Test auf Interaktionen 62.21 54 0.2073) nur Behandlungseffekt 235.83 133

(3-2) Test auf Behandlungseffekt 82.29 9 5.67e-0144) nur Blockeffekt 248.44 130

(4-2) Test auf Blockeffekt 94.90 6 0

Tabelle 3.1: Analysis of Deviance Tabelle des Gammamodells mit reziprokem Link.

Viel einfacher ist es, dafur wiederum die Funktion anova( ) zu verwenden. Diese lie-fert aquivalent dazu die passende Zerlegung des maximalen Modells. Durch die Anga-be dispersion=scale wird als Dispersion die Große scale verwendet. Dies entsprichteigentlich der Defaultoption, denn scale ist in diesem Beispiel gerade der geschatzteDispersionsparameter des betrachteten Modells.

> anova(glm(counts ~ treatment * block, family = Gamma), dispersion=scale,

test="Chisq")

Analysis of Deviance Table

Model: Gamma, link: inverse

Response: counts

Terms added sequentially (first to last)

Df Deviance Resid. Df Resid. Dev P(>|Chi|)

NULL 139 59.825

treatment 6 18.217 133 41.609 5.267e-20

block 9 14.519 124 27.090 5.669e-14

treatment:block 54 10.976 70 16.115 0.207

Mochte man den Dispersionsschatzer frei schatzen, dann sollte besser als Option test="F"verwendet werden. Hier liefert dies

> anova(glm(counts ~ treatment * block, family = Gamma), test="F")

Analysis of Deviance Table

Model: Gamma, link: inverse

Response: counts

Terms added sequentially (first to last)

Df Deviance Resid. Df Resid. Dev P(>|Chi|)

NULL 139 59.825

treatment 6 18.217 133 41.609 17.208 4.124e-12 ***

block 9 14.519 124 27.090 9.143 5.234e-09 ***

treatment:block 54 10.976 70 16.115 1.152 0.2868

Page 37: Generalisierte Lineare Modelle - STAT · Median) der logyi ein multiplikatives Modell fur¨ die Mediane und Erwartungswerte der yi ist. Fur¨ die Erwartungswerte von y i wurde der

34 KAPITEL 3. DAS GENERALISIERTE LINEARE MODELL

Wir bleiben beim Modell mit den beiden Haupteffekten (ohne Interaktion) und verwendenden Dispersionsschatzer vom maximalen Modell. Aus dem summary Objekt s.glmmainerhalt man u.a. auch die Parameterschatzer und deren geschatzten Eigenschaften.

> s.glmmain$coefficients

Estimate Std. Error t value Pr(>|t|)

(Intercept) 0.049673203 0.006789474 7.3162084 2.784915e-11

treatment2 0.023936588 0.006967469 3.4354780 8.052590e-04

treatment3 0.007280651 0.005646622 1.2893817 1.996653e-01

treatment4 0.025692224 0.007112368 3.6123303 4.392207e-04

treatment5 0.013774690 0.006147877 2.2405604 2.683468e-02

treatment6 0.022682067 0.006864447 3.3042817 1.245054e-03

treatment7 -0.015040997 0.004184305 -3.5946225 4.671507e-04

block2 -0.015768459 0.007095390 -2.2223526 2.807256e-02

block3 -0.012901944 0.007319928 -1.7625780 8.043550e-02

block4 0.065790437 0.014768088 4.4549055 1.851507e-05

block5 0.012934969 0.009576332 1.3507227 1.792440e-01

block6 -0.000837096 0.008333513 -0.1004493 9.201498e-01

block7 -0.017670453 0.006951687 -2.5418944 1.225720e-02

block8 -0.015128536 0.007144759 -2.1174314 3.622055e-02

block9 -0.015588740 0.007109207 -2.1927536 3.019127e-02

block10 -0.016378610 0.007048774 -2.3236113 2.177421e-02

Die unter diesemModell geschatzten treatmentMittel und ihre (punktweisen) 95% Konfi-denzgrenzen konnen fur jeden block berechnet werden. Wir nehmen block 1 und macheneine Vorhersage fur alle treatment. Verzichtet man jetzt auf den ursprunglichen Disper-sionsparameter und verwendet den zu diesem Modell aktuellen, fuhrt dies zu den Meansmit Konfidenzlimits in der Abbildung 3.2 rechts.

> new.i <- data.frame(treatment = factor(1:7), block = factor(rep(1,7)))

> new.i

treatment block

1 1 1

2 2 1

3 3 1

4 4 1

5 5 1

6 6 1

7 7 1

> i.pred <- predict.glm(i.glmmain, newdata = new.i, type = "response",

se.fit = T); i.pred

> fit <- i.pred$fit

> upper <- fit + qt(0.975, df.main)*i.pred$se.fit

> lower <- fit - qt(0.975, df.main)*i.pred$se.fit

> fit

Page 38: Generalisierte Lineare Modelle - STAT · Median) der logyi ein multiplikatives Modell fur¨ die Mediane und Erwartungswerte der yi ist. Fur¨ die Erwartungswerte von y i wurde der

3.8. BEISPIEL: GAMMA-VARIANZ 35

1 2 3 4 5 6 7

20.13158 13.58515 17.55807 13.26868 15.76096 13.82069 28.87486

> lower

1 2 3 4 5 6 7

14.68531 10.58549 13.18339 10.36520 12.04814 10.74824 18.58768

> upper

1 2 3 4 5 6 7

25.57785 16.58481 21.93276 16.17217 19.47379 16.89314 39.16203

> plot(new.i$treatment, upper, style="box", xlab="Treatment",

ylab="mean count", ylim=c(0.0,40.0), main="Block 1")

> par(new=TRUE); plot(new.i$treatment, fit, style="box", ylim=c(0.0,40.0))

> par(new=TRUE); plot(new.i$treatment, lower, style="box", ylim=c(0.0,40.0))

Wie es scheint sind die Treatment Unterschiede hauptsachlich auf die geringeren Effek-tivitaten der Treatments 1 und 7 zuruckzufuhren. Dabei hat es den Anschein, dass diemit Treatment 7 (einziger negativer Treatmentparameter) behandelten Einheiten die mitAbstand hochste Anzahl von Insekten aufweist. Aus der Tabelle mit den geschatzten Ko-effizienten ist ersichtlich, dass sich fur alle ubrigen Blocke zwar dasselbe Muster ergibt(da keine Wechselwirkungen im Modell), jedoch die Blocke 4 und 5 wegen des verwende-ten reziproken Links (µ = 1/η) im Mittel geringere Anzahlen als Block 1 aufweisen. Alleubrigen Blocke (negative Blockparameter) ziehen sogar etwas mehr Insekten an als derBlock 1 (neutraler Nullparameter: Referenzkategorie).

10 20 30 40 50 60

f

-0.5

0.0

0.5

r

010

2030

40

Block 1

Trtm1 Trtm2 Trtm3 Trtm4 Trtm5 Trtm6 Trtm7

Treatment

010

2030

40

mitt

lere

Anz

ahl

x

x

x

x

x

x

x

Trtm1 Trtm2 Trtm3 Trtm4 Trtm5 Trtm6 Trtm7

010

2030

40

Trtm1 Trtm2 Trtm3 Trtm4 Trtm5 Trtm6 Trtm7

Abbildung 3.2: Pearson Residuen r aus dem (maximalen) Gammamodell gegen die vor-hergesagten Erwartungswerte f (links). Geschatzte Erwartungswerte mit 95% Konfidenz-limits fur das Gammamodell mit Haupteffekten am Beispiel Block 1(rechts).

Page 39: Generalisierte Lineare Modelle - STAT · Median) der logyi ein multiplikatives Modell fur¨ die Mediane und Erwartungswerte der yi ist. Fur¨ die Erwartungswerte von y i wurde der

36 KAPITEL 3. DAS GENERALISIERTE LINEARE MODELL

Page 40: Generalisierte Lineare Modelle - STAT · Median) der logyi ein multiplikatives Modell fur¨ die Mediane und Erwartungswerte der yi ist. Fur¨ die Erwartungswerte von y i wurde der

Kapitel 4

Logistische Regression

Seien dazu miyiind∼ Binomial(mi, µi). Wie bereits gezeigt, gilt dafur

E(yi) = b′(θi) =exp(θi)

1 + exp(θi)= µi

var(yi) = ϕib′′(θi) =

1

mi

exp(θi)

(1 + exp(θi))2=

1

mi

µi(1− µi)

und als kanonische Linkfunktion (g = (b′)−1) resultiert der Logitlink

logit(µ) = logµ

1− µ= log

m−mµ= θ = η , also µ =

exp(η)

1 + exp(η).

Diese Bezeichnung bezieht sich auf die Verteilungsfunktion einer logistisch verteilten Zu-fallsvariablen mit Dichte

f(y|µ, τ) = exp((y − µ)/τ)

τ(1 + exp((y − µ)/τ)

)2 . (4.1)

Bezeichnen X1 und X2 zwei unabhangige Exponential(1)-verteilte Zufallsvariablen, so istdie Dichte von Y = log(X1/X2) gleich

f(y) =exp(y)(

1 + exp(y))2 , sowie F (y) =

exp(y)

1 + exp(y)

und die Verteilungsfunktion F (y) entspricht dem inversen Logitlink.

Prinzipiell kann in dieser Modellklasse wegen µ = g−1(η) und 0 < µ < 1 anstelle desinversen Logitlinks auch eine beliebige andere Verteilungsfunktion verwendet werden. Sospricht man beispielsweise bei der Wahl g−1(η) = Φ(η) vom Probitmodell.

37

Page 41: Generalisierte Lineare Modelle - STAT · Median) der logyi ein multiplikatives Modell fur¨ die Mediane und Erwartungswerte der yi ist. Fur¨ die Erwartungswerte von y i wurde der

38 KAPITEL 4. LOGISTISCHE REGRESSION

Als Log-Likelihood Funktion und fur die (skalierte) Deviance erhalt man

l(y, µ) =n∑

i=1

{miyi log

µi

1− µi

−mi log1

1− µi

+

(mi

miyi

)},

D(y, µ) = 2n∑

i=1

mi

{(1− yi) log

1− yi1− µi

+ yi logyiµi

}.

Ein Spezialfall der logistischen Regression ist die Modellierung binarer Daten yi ∈ {0, 1}(mi = 1 fur alle i). Hier gilt fur den relevanten Teil der Log-Likelihood Funktion

l(yi, µi) =

{log(1− µi) fur yi = 0 ,log µi fur yi = 1

und

D(yi, µi) =

{−2 log(1− µi) fur yi = 0 ,−2 log µi fur yi = 1 .

Das Deviance-Inkrement D(yi, µi) beschreibt also den Anteil einer binaren Beobachtungan der Log-Likelihood Funktion der Stichprobe

l(y, µ) =n∑

i=1

l(yi, µi) = −1

2

n∑i=1

D(yi, µi) .

4.1 Toleranzverteilungen – Linkfunktionen

Historisch gesehen entwickelten sich die Modelle fur binare Responses aus der Notwendig-keit einer experimentellen Untersuchung, dem biologischen Assay oder kurzBioassay. Ty-pischerweise wurde hierbei die Wirkung verschiedener Konzentrationen einer chemischenVerbindung in Tierversuchen erprobt. Die Anzahl der Tiere, welche darauf angesprochenhaben wurde aufgezeichnet und als Realisierung einer binomialen Response betrachtet.

So wird zum Beispiel in einem insektentotenden Versuch ein spezielles Insektizid in mehre-ren bekannten Konzentrationen auf Insektengruppen (batches) von bekannten Umfangenangewendet. Falls einer Insektengruppe eine sehr niedrige Dosis verabreicht wird, wirdwahrscheinlich keines dieser Insekten daran sterben. Wird jedoch einer anderen Insekten-gruppe eine sehr hohe Dosis gegeben, so werden sehr viele (wenn nicht alle) daran sterben.Ob nun ein spezielles Insekt bei einer gegebenen Dosis verstirbt oder nicht, hangt von derToleranz dieses Individuums ab. Insekten mit einer geringen Toleranz werden bei einergewissen Dosis eher sterben als andere mit einer großen Toleranz.

Nun nimmt man an, dass es fur die gesamte Insektenpopulation (aus der auch die Ver-suchstiere stammen) eine Verteilung der Toleranzstufen gibt. Insekten mit einer Toleranzkleiner als di werden bei einer verabreichten Dosis di daran sterben. Sei U die Zufallsvaria-ble, welche mit der Toleranzverteilung assoziiert ist, und sei u die Toleranz eines speziellen

Page 42: Generalisierte Lineare Modelle - STAT · Median) der logyi ein multiplikatives Modell fur¨ die Mediane und Erwartungswerte der yi ist. Fur¨ die Erwartungswerte von y i wurde der

4.1. TOLERANZVERTEILUNGEN – LINKFUNKTIONEN 39

Tieres. Die entsprechende Dichtefunktion sei f(u). Somit ist die Wahrscheinlichkeit einesInsektes, bei einer Dosis di daran zu sterben, gegeben durch

pi = P (U ≤ di) =

∫ di

−∞f(u) du.

Falls nun die Toleranzen normalverteilt sind mit Erwartungswert µ und Varianz σ2 folgtdafur

pi = Φ

(di − µ

σ

).

Bezeichnet β1 = −µ/σ und β2 = 1/σ, so erhalt man

pi = Φ(β1 + β2di) , oder probit(pi) = Φ−1(pi) = β1 + β2di ,

also ein Probitmodell fur die Beziehung zwischen der Sterbewahrscheinlichkeit pi undder dafur verabreichten Dosis des Insektizids di.

Fur U logistisch verteilt mit Dichte (4.1), wobei E(U) = µ und var(U) = π2τ 2/3, soentspricht dies

pi = P (U ≤ di) =

∫ di

−∞

exp((u− µ)/τ)

τ(1 + exp((u− µ)/τ)

)2 du =exp((di − µ)/τ)

1 + exp((di − µ)/τ).

Mit β1 = −µ/τ und β2 = 1/τ wie zuvor folgt

pi =exp(β1 + β2di)

1 + exp(β1 + β2di)oder logit(pi) = β1 + β2di.

Die Annahme einer logistischen Toleranzverteilung fuhrt zu einem logistischen Modellfur pi.

4.1.1 Beispiel (Venables & Ripley, Seite 218)

Untersucht wird die Wirkung eines Giftes auf einen Wurm, der die Knospen von Tabak-pflanzen schadigt. Gruppen zu je 20 Motten beiderlei Geschlechts (sex) wurden dazudrei Tage lang verschieden hohe Dosen eines Giftes ausgesetzt und die Anzahl der daranverstorbenen Tiere wurde gezahlt.

Dosis in µgGeschlecht 1 2 4 8 16 32mannlich 1 4 9 13 18 20weiblich 0 2 6 10 12 16

Da die Dosen Potenzen von 2 sind, verwenden wir als Pradiktorvariable log2(Dosis).

Page 43: Generalisierte Lineare Modelle - STAT · Median) der logyi ein multiplikatives Modell fur¨ die Mediane und Erwartungswerte der yi ist. Fur¨ die Erwartungswerte von y i wurde der

40 KAPITEL 4. LOGISTISCHE REGRESSION

> (ldose <- rep(0:5, 2))

[1] 0 1 2 3 4 5 0 1 2 3 4 5

> (dead <- c(1,4,9,13,18,20,0,2,6,10,12,16))

[1] 1 4 9 13 18 20 0 2 6 10 12 16

> (sex <- factor(rep(c("M", "F"), c(6, 6))))

[1] M M M M M M F F F F F F

Levels: F M

> (SF <- cbind(dead, alive = 20-dead))

dead alive

[1,] 1 19

[2,] 4 16

:

[12,] 16 4

> summary(budworm.lg <- glm(SF ~ sex*ldose, family = binomial))

Coefficients:

Estimate Std. Error z value Pr(>|z|)

(Intercept) -2.9935 0.5527 -5.416 6.09e-08 ***

sexM 0.1750 0.7783 0.225 0.822

ldose 0.9060 0.1671 5.422 5.89e-08 ***

sexM:ldose 0.3529 0.2700 1.307 0.191

---

(Dispersion parameter for binomial family taken to be 1)

Null deviance: 124.8756 on 11 degrees of freedom

Residual deviance: 4.9937 on 8 degrees of freedom

AIC: 43.104

Number of Fisher Scoring iterations: 4

Fur derartige Modelle muss auch die Anzahl der Tiere mi spezifiziert sein. In glm mitfamily = binomial kann dies unterschiedlich gemacht werden. Wir haben dazu die Ma-trix SF (success/failure) verwendet, deren erste (zweite) Spalte die Anzahl der Erfolge(Misserfolge) enthalt.

Das Ergebnis weist auf eine signifikante Steigung hin. Die erste Stufe von sex beziehtsich auf die weiblichen Tiere (alphabetische Reihenfolge der Stufen, "F" vor "M") undwird somit durch den Intercept beschrieben. Der Parameter sexM:ldose reprasentierteinen (nicht signifikant) großeren Anstieg fur mannliche Tiere, wahrend der ParametersexM den (nicht signifikant) Unterschied in den Konstanten beschreibt. Die Daten und dieModellschatzung sind in der Abbildung 4.1 dargestellt.

> plot(c(1,32), c(0,1), type="n", xlab="dose", ylab="prob", log="x")

> text(2^ldose, dead/20, as.character(sex))

> ld <- seq(0, 5, 0.1); n.p <- length(ld)

> lines(2**ld,

predict(budworm.lg, data.frame(ldose=ld, sex=rep("M",n.p)), type="response"))

> lines(2**ld,

predict(budworm.lg, data.frame(ldose=ld, sex=rep("F",n.p)), type="response"))

Page 44: Generalisierte Lineare Modelle - STAT · Median) der logyi ein multiplikatives Modell fur¨ die Mediane und Erwartungswerte der yi ist. Fur¨ die Erwartungswerte von y i wurde der

4.1. TOLERANZVERTEILUNGEN – LINKFUNKTIONEN 41

1 5 10

dose

0.0

0.2

0.4

0.6

0.8

1.0

prob

M

M

M

M

M

M

F

F

F

F

F

F

Abbildung 4.1: Beobachtete und geschatzte Ausfallsraten beim Tabakwurm.

Der Parameter sexM scheint irrelevant zu sein. Dieser beschreibt jedoch gerade den Un-terschied bei der Dosis 1µg (log2Dosis = 0). Ist man am Unterschied bei 8µg interessiert,erhalt man

> summary(budworm.lg8 <- update(budworm.lg, . ~ sex*I(ldose-3)))

Coefficients:

Estimate Std. Error z value Pr(>|z|)

(Intercept) -0.2754 0.2305 -1.195 0.23215

sexM 1.2337 0.3770 3.273 0.00107 **

I(ldose - 3) 0.9060 0.1671 5.422 5.89e-08 ***

sexM:I(ldose - 3) 0.3529 0.2700 1.307 0.19117

Also doch ein signifikanter Geschlechtsunterschied bei einer Dosis von 8µg. Das Modellselbst scheint ausgezeichnet zu passen (Deviance von 5 bei 8 Freiheitsgraden). Die Analysisof Deviance Tabelle bestatigt dies. Auf eine Interaktion kann verzichtet werden. Auch dieHinzunahme eines quadratischen Terms ist nicht notwendig.

> anova(budworm.lg, test = "Chisq")

Df Deviance Resid. Df Resid. Dev P(>|Chi|)

NULL 11 124.876

sex 1 6.077 10 118.799 0.014

ldose 1 112.042 9 6.757 3.499e-26

sex:ldose 1 1.763 8 4.994 0.184

Page 45: Generalisierte Lineare Modelle - STAT · Median) der logyi ein multiplikatives Modell fur¨ die Mediane und Erwartungswerte der yi ist. Fur¨ die Erwartungswerte von y i wurde der

42 KAPITEL 4. LOGISTISCHE REGRESSION

> anova(update(budworm.lg, . ~ . + sex*I(ldose**2)), test = "Chisq")

Df Deviance Resid. Df Resid. Dev P(>|Chi|)

NULL 11 124.876

sex 1 6.077 10 118.799 0.014

ldose 1 112.042 9 6.757 3.499e-26

I(ldose^2) 1 0.907 8 5.851 0.341

sex:ldose 1 1.240 7 4.611 0.266

sex:I(ldose^2) 1 1.439 6 3.172 0.230

Diese Ergebnisse hangen von der Reihenfolge der Parameter ab. Durch test = "Chisq"

wird die Deviancedifferenz der nested models mit jeweiligen Skalenparameter 1 (bekanntbei der Binomialverteilung) verwendet. Es zeigt, dass weder die Interaktion noch einquadratischer Dosiseffekt notwendig sind. Unsere Analyse empfiehlt daher ein Modell mitzwei parallelen Geraden bezuglich der Pradiktor- (logit)-Achse, eine fur jedes Geschlecht.

Oft ist man auch an einer Schatzung der Dosis fur eine vorgegebene Sterbewahrscheinlich-keit interessiert. Dazu reparametrisieren wir zuerst das Modell, sodass wir fur beiderleiGeschlecht einen eigenen Intercept bekommen.

> summary(budworm.lg0 <- glm(SF ~ sex + ldose - 1, family = binomial))

Coefficients:

Estimate Std. Error z value Pr(>|z|)

sexF -3.4732 0.4685 -7.413 1.23e-13 ***

sexM -2.3724 0.3855 -6.154 7.56e-10 ***

ldose 1.0642 0.1311 8.119 4.70e-16 ***

---

(Dispersion parameter for binomial family taken to be 1)

Null deviance: 126.227 on 12 degrees of freedom

Residual deviance: 6.757 on 9 degrees of freedom

AIC: 42.867

Sei nun ξp jene log2-Dosis fur die die Response Wahrscheinlichkeit gerade p ist. Alsobeschreibt 2ξ0.5 die 50% Sterbe-Dosis (50% lethal dose oder LD50). Fur diese Dosis haltbei einer allgemeinen Linkfunktion g(p) = β1 + β2ξp, also

ξp =g(p)− β1

β2.

Nun hangt die Dosis vom Parameter β = (β1, β2) ab, also ξp = ξp(β). Ersetzt man ihn

durch seinen Schatzer, liefert dies den Schatzer ξp = ξp(β) wofur approximativ gilt

ξp = ξp + (β − β)⊤∂ξp(β)

∂β

Da β erwartungstreu ist fur β, folgt approximativ auch E(ξp) = ξp. Weiters resultiert alsVarianz (Delta-Methode)

var(ξp) =∂ξp(β)

∂β⊤ var(β)∂ξp(β)

∂β

Page 46: Generalisierte Lineare Modelle - STAT · Median) der logyi ein multiplikatives Modell fur¨ die Mediane und Erwartungswerte der yi ist. Fur¨ die Erwartungswerte von y i wurde der

4.2. INTERPRETATION DER PARAMETER 43

mit∂ξp∂β1

= − 1

β2,

∂ξp∂β2

= −g(p)− β1β22

= − ξpβ2.

Die Funktion dose.p aus der Bibliothek MASS benutzt die obigen Resultate und liefert furweibliche und fur mannliche Motten

> library(MASS)

> dose.p(budworm.lg0, cf = c(1,3), p = 1:3/4) # female

Dose SE

p = 0.25: 2.231265 0.2499089

p = 0.50: 3.263587 0.2297539

p = 0.75: 4.295910 0.2746874

> dose.p(budworm.lg0, cf = c(2,3), p = 1:3/4) # male

Dose SE

p = 0.25: 1.196939 0.2634488

p = 0.50: 2.229262 0.2259159

p = 0.75: 3.261585 0.2548981

Man benotigt also eine geschatzte Dosis von log2(Dosis) = 3.26, also Dosis = 9.6, um 50%der weiblichen Schadlinge zu vernichten, und Dosis = 4.7 fur 50% der Mannchen.

Alternativ kann auch ein Probitmodell gerechnet werden. Diese Linkfunktion ist im zen-tralen Bereich sehr ahnlich dem Logitlink und unterscheidet sich nur in den Schwanzen.Man erhalt unter diesem Modell sehr ahnliche Resultate z.B. fur weibliche Motten.

> dose.p(update(budworm.lg0, family=binomial(link=probit)), cf=c(1,3), p=1:3/4)

Dose SE

p = 0.25: 2.191218 0.2384103

p = 0.50: 3.257703 0.2240499

p = 0.75: 4.324187 0.2668534

4.2 Interpretation der Parameter

Hangt der Erwartungswert binarer Daten nur von einem erklarenden zweistufigen Faktorx ab, so konnen die Parameter sehr einfach interpretiert werden. Dazu betrachtet mandie folgende Kontingenztafel mit den Zellwahrscheinlichkeiten:

x = 1 x = 0y = 1 π1 π2y = 0 1− π1 1− π2

Im Falle x = 1 bezeichnet π1/(1−π1) die Quote, Chance (odds) fur das Eintreten vony = 1 zu y = 0. Die Log-Transformation dieser Quote bei x = 1

log π1/(1− π1) = logit(1)

Page 47: Generalisierte Lineare Modelle - STAT · Median) der logyi ein multiplikatives Modell fur¨ die Mediane und Erwartungswerte der yi ist. Fur¨ die Erwartungswerte von y i wurde der

44 KAPITEL 4. LOGISTISCHE REGRESSION

nennt man log-odds oder Logit. Den Quotienten der Quote unter x = 1 zur Quote unterx = 0 nennt man odds-ratio

ψ =π1/(1− π1)

π2/(1− π2),

und deren Log-Transformation ergibt das log-odds ratio oder die Logit-Differenz

logψ = logπ1/(1− π1)

π2/(1− π2)= logit(1)− logit(0) .

Bezeichne nun µ(x) = P (y = 1|x) und 1− µ(x) = P (y = 0|x) mit x ∈ {0, 1}. Falls dafurzusatzlich das Modell

logµ(x)

1− µ(x)= β1 + β2x

halt, so bekommt man fur die Zellwahrscheinlichkeiten

x = 1 x = 0

y = 1 µ(1) =exp(β1 + β2)

1 + exp(β1 + β2)µ(0) =

exp(β1)

1 + exp(β1)

y = 0 1− µ(1) =1

1 + exp(β1 + β2)1− µ(0) =

1

1 + exp(β1)

Dies liefert auch als log-odds-ratio

logψ = logµ(1)/(1− µ(1))

µ(0)/(1− µ(0))= log

exp(β1 + β2)

exp(β1)= β2 .

Weiters gilt fur eine allgemeine Große x mit dieser Parametrisierung

P (y = 1|x)P (y = 0|x)

=µ(x)

1− µ(x)= exp(β1 + β2x) = exp(β1) exp(β2)

x ,

d.h., wachst x um eine Einheit, so erhoht sich die Eintrittsquote von y = 1 multiplikativum exp(β2).

4.2.1 Beispiel (Agresti, Seite 87)

An 27 Krebspatienten wird beobachtet, ob es nach einer Injektionsbehandlung zum Ab-klingen des Karzinoms kommt. Die wichtigste erklarende Variable LI, der Labelling In-dex, beschreibt die Zellteilungsaktivitat nach dieser Behandlung (Anteil der Zellen, welche“gepolt” wurden). Dabei ergaben sich n = 14 unterschiedliche LI Werte. Die Response-Variablen miyi beschreiben die Anzahl erfolgreicher Ruckbildungen bei mi Patienten mitjeweiliger Zellaktivitat LIi.

Page 48: Generalisierte Lineare Modelle - STAT · Median) der logyi ein multiplikatives Modell fur¨ die Mediane und Erwartungswerte der yi ist. Fur¨ die Erwartungswerte von y i wurde der

4.2. INTERPRETATION DER PARAMETER 45

LIi mi miyi LIi mi miyi LIi mi miyi8 2 0 18 1 1 28 1 110 2 0 20 3 2 32 1 012 3 0 22 2 1 34 1 114 3 0 24 1 0 38 3 216 3 0 26 1 1

Es wird angenommen, dass sich die Patienten einer LIi Gruppe homogen verhalten, d.h.

miyiind∼ Binomial(mi, µi) , mit log

µi

1− µi

= β1 + β2LIi .

Als MLE erhalt man dafur

> li <- c(seq(8, 28, 2), 32, 34, 38)

> total <-c(2, 2, 3, 3, 3, 1, 3, 2, 1, 1, 1, 1, 1, 3)

> back <-c(0, 0, 0, 0, 0, 1, 2, 1, 0, 1, 1, 0, 1, 2)

> SF <- cbind(back, nonback = total - back)

> summary(carcinoma <- glm(SF ~ li, family=binomial))

Coefficients:

Estimate Std. Error z value Pr(>|z|)

(Intercept) -3.77714 1.37863 -2.740 0.00615 **

li 0.14486 0.05934 2.441 0.01464 *

---

Null deviance: 23.961 on 13 degrees of freedom

Residual deviance: 15.662 on 12 degrees of freedom

> anova(carcinoma, test="Chisq")

Df Deviance Resid. Df Resid. Dev P(>|Chi|)

NULL 13 23.9610

li 1 8.2988 12 15.6622 0.0040

Nimmt LI um eine Einheit zu, so wird die geschatzte Quote fur eine Ruckbildung mitexp(0.145) = 1.156 multipliziert. Die unter dem Modell geschatzte Wahrscheinlichkeit fureine Ruckbildung ist 1/2 falls η = 0, also fur LI = −β1/β2 = 26.05.

Das Mittel aller LI-Werte ist∑

i LIimi/27 = 20.07, wofur sich als linearer Pradiktor

β1+ β220.07 = −0.866 ergibt, was einer Heilungswahrscheinlichkeit von 29.6% entspricht.Beobachtet konnten 9 Erfolge aus 27 Patienten werden, also 33.3%.

Fur die Regressionskurve gilt ∂µ(x)/∂x = β2µ(x)(1−µ(x)). Der starkste Anstieg ist daheran der Stelle µ(x) = 1/2, also in LI = 26.05, und betragt dort β2/4 = 0.036.

Es stellt sich auch die Frage, ob die Ruckbildung vom LI-Wert abhangt. Der entsprechendep-Wert von 1.5% scheint dies klar zu bestatigen.

Fur das Unabhangigkeitsmodell (NULL) resultiert als Deviance 23.96 (df = 13). DieDeviance-Differenz 8.3 bei einem Verlust von einem Freiheitsgrad entspricht einem χ2

1-Quantil mit α = 0.004. Dieses Ergebnis ist noch deutlicher als das Resultat des Wald-Tests. In beiden Fallen wird die positive Assoziation zwischen LI und dem Ruckbildungs-verhalten bestatigt.

Page 49: Generalisierte Lineare Modelle - STAT · Median) der logyi ein multiplikatives Modell fur¨ die Mediane und Erwartungswerte der yi ist. Fur¨ die Erwartungswerte von y i wurde der

46 KAPITEL 4. LOGISTISCHE REGRESSION

4.3 Logit-Modelle

In diesem Spezialfall der logistischen Regression bei binaren Beobachtungen sind nurFaktoren und keine Variablen im linearen Pradiktor beinhaltet.

4.3.1 Beispiel

Untersuchungen von 313 Frauen nach einer Operation des Zervixkarzinoms ergaben 123Rezidive. Von welchen Risikogroßen hangt der Rezidiveintritt ab? Die Anzahl der befal-lenen Lymphknotenstationen (LK) und der Befall der Zervix-Grenzzone (GZ) wurden zumZeitpunkt der Operation festgestellt und stellen potentielle Risikogroßen dar. In einerTabelle sind die Rezidivfalle (yij/mij) als 3× 4 Kontingenztafel angegeben.

befallene LK-Stationen0 1 2 ≥ 3

GZ nicht befallen 21/124 7/21 9/16 13/13GZ befallen 18/ 58 6/12 5/ 7 5/ 5uber GZ befallen 4/ 14 16/19 9/12 10/12

Falls ein lineares Verhalten beider Risikofaktoren gewahrleistet ist, kann LK mit 0,1,2,3und GZ mit 0,1,2 kodiert werden und das logistische Modell fur die n = 12 Zellen

logit(µi) = β1 + β2LKi + β3GZi , i = 1, . . . , n

ergibt die Maximum-Likelihood Schatzer

> rez <- c(21, 7, 9, 13, 18, 6, 5, 5, 4, 16, 9, 10)

> total <- c(124, 21, 16, 13, 58, 12, 7, 5, 14, 19, 12, 12)

> SF <- cbind(rez, nonrez=total-rez)

> LK <- rep(0:3, 3); GZ <- rep(0:2, each=4)

> rez.glm <- glm(SF ~ LK + GZ, family = binomial); summary(rez.glm)

Coefficients:

Estimate Std. Error z value Pr(>|z|)

(Intercept) -1.5508 0.1984 -7.817 5.43e-15 ***

LK 1.0687 0.1537 6.954 3.56e-12 ***

GZ 0.5860 0.1782 3.288 0.00101 **

---

(Dispersion parameter for binomial family taken to be 1)

Null deviance: 103.493 on 11 degrees of freedom

Residual deviance: 13.332 on 9 degrees of freedom

AIC: 51.214

Besser ist die Verwendung zweier Faktoren L und G. Sei dazu mijyij ∼ Binomial(mij, µij),wobei µij die Wahrscheinlichkeit eines Rezidivs bei LK-Status i (i = 1, 2, 3, 4) und GZ-Befall

Page 50: Generalisierte Lineare Modelle - STAT · Median) der logyi ein multiplikatives Modell fur¨ die Mediane und Erwartungswerte der yi ist. Fur¨ die Erwartungswerte von y i wurde der

4.3. LOGIT-MODELLE 47

j (j = 1, 2, 3) beschreibt. Wir unterscheiden folgende Modelle

logit(µij) = (L ∗ G)ij ,logit(µij) = Li + Gj ,

logit(µij) = Li ,

logit(µij) = Gj ,

logit(µij) = 1 .

Das Modell L∗G beinhaltet die ganze Information der Daten und ist daher voll (saturiert),d.h. 12 Parameter bei 12 Beobachtungen.

> L <- factor(LK); G <- factor(GZ); rez.1 <- glm(SF~1, family=binomial)

> rez.L <- glm(SF~L, family=binomial); rez.G <- glm(SF~G, family=binomial)

> rez.LG <- glm(SF~L+G,family=binomial); rez.sat <- glm(SF~L*G,family=binomial)

> anova(rez.1, rez.L, rez.LG, rez.sat, test="Chisq")

Resid. Df Resid. Dev Df Deviance P(>|Chi|)

1 11 103.493

2 8 21.373 3 82.120 1.077e-17

3 6 10.798 2 10.575 0.005

4 0 4.743e-10 6 10.798 0.095

Aus der Analysis of Deviance folgt als minimales Modell L+ G mit den Schatzungen

> coef(rez.LG)

(Intercept) L1 L2 L3 G1 G2

-1.6041 1.2873 1.7785 3.7979 0.7285 1.0735

und somit das Prognosemodell

η = −1.60 + 1.29(L = 1) + 1.78(L = 2) + 3.80(L = 3) + 0.73(G = 1) + 1.07(G = 2) .

Alle Parameter zu hoheren Faktorstufen sind positiv. Dies bedeutet, dass das Risiko einesRezidivs steigt je mehr Lymphknoten befallen sind und je intensiver der Grenzzonenbefallausgepragt ist. Die durch dieses Modell geschatzten Wahrscheinlichkeiten fur ein Rezidivsind

befallene LK-Stationen0 1 2 ≥ 3

GZ nicht befallen 0.1674 0.4214 0.5435 0.8997GZ befallen 0.2941 0.6015 0.7115 0.9489uber GZ befallen 0.3704 0.6806 0.7769 0.9633

> plot(as.numeric(L), rez.LG$y, type="p", xlab="L", ylab="prob",

ylim=c(0,1), main="L+G")

> lines(as.numeric(L)[G==0], fitted(rez.LG)[G==0], type="l")

> lines(as.numeric(L)[G==1], fitted(rez.LG)[G==1], type="l")

> lines(as.numeric(L)[G==2], fitted(rez.LG)[G==2], type="l")

Page 51: Generalisierte Lineare Modelle - STAT · Median) der logyi ein multiplikatives Modell fur¨ die Mediane und Erwartungswerte der yi ist. Fur¨ die Erwartungswerte von y i wurde der

48 KAPITEL 4. LOGISTISCHE REGRESSION

1.0 1.5 2.0 2.5 3.0 3.5 4.0

L

0.0

0.2

0.4

0.6

0.8

1.0

prob

L*G

1.0 1.5 2.0 2.5 3.0 3.5 4.0

L

0.2

0.4

0.6

0.8

1.0

prob

L+G

1.0 1.5 2.0 2.5 3.0 3.5 4.0

L

0.0

0.2

0.4

0.6

0.8

1.0

prob

L

1.0 1.5 2.0 2.5 3.0 3.5 4.0

L

0.0

0.2

0.4

0.6

0.8

1.0

prob

G

1.0 1.5 2.0 2.5 3.0 3.5 4.0

L

0.0

0.2

0.4

0.6

0.8

1.0

prob

1

Abbildung 4.2: Geschatzte Rezidiveintrittswahrscheinlichkeiten beim Logit-Modell.

Page 52: Generalisierte Lineare Modelle - STAT · Median) der logyi ein multiplikatives Modell fur¨ die Mediane und Erwartungswerte der yi ist. Fur¨ die Erwartungswerte von y i wurde der

4.4. KOMPLEXE LOGISTISCHE MODELLE 49

4.4 Komplexe Logistische Modelle

Der Pradiktor beinhaltet jetzt sowohl erklarende Faktoren als auch erklarende Variablen.

4.4.1 Beispiel

Wir betrachten ein Modell, welches sich auf die lineare Variable LK (1 Parameter) undden kategorialen Faktor G (3 Parameter) bezieht. Aus dem vorigen Schatzergebnis istersichtlich, dass im Vergleich zur L-Referenzklasse keine Lymphknoten befallen das Risikobeim Befall einer Station (relativ) um 1.3 Einheiten auf der Pradiktorachse ansteigt. Beieinem Befall von zwei Stationen nimmt das Risiko absolut um 1.8 Einheiten (relativ um0.5) zu, wahrend es fur den Fall von drei oder mehreren befallenen Stationen zu einemAnstieg um 3.8 Einheiten (relativ um 2.0) kommt. Obwohl dies nicht linear zu sein scheint,wollen wir es aus Grunden der Sparsamkeit versuchen.

Sei dazu miyi ∼ Binomial(mi, µi), wobei hier i = 1, 2, 3 die drei Stufen des Faktors G

durchlauft. Folgende funf Modelle sind wiederum relevant:

logit(µi) = Gi + βi LK ,

logit(µi) = Gi + β LK ,

logit(µi) = Gi ,

logit(µi) = β LK ,

logit(µi) = 1 .

Eine Analyse der Deviance ergibt

> rez.LK <- glm(SF ~ LK, family = binomial)

> rez.LKG <- glm(SF ~ LK + G, family = binomial)

> rez.LKGi <- glm(SF ~ LK * G, family = binomial)

> anova(rez.1, rez.LK, rez.LKG, rez.LKGi, test="Chisq")

Resid. Df Resid. Dev Df Deviance P(>|Chi|)

1 11 103.5

2 10 24.4 1 79.1 5.8e-19

3 8 13.0 2 11.4 3.4e-03

4 6 12.0 2 1.1 0.6

Daher wahlen wir wiederum das Modell LK+ G mit

> coef(rez.LKG)

(Intercept) LK G1 G2

-1.5940 1.0859 0.7329 1.1064

und erhalten als Schatzer fur den linearen Pradiktor

ηi = −1.59 + 1.086LK+ 0.73(G = 1) + 1.11(G = 2) .

Page 53: Generalisierte Lineare Modelle - STAT · Median) der logyi ein multiplikatives Modell fur¨ die Mediane und Erwartungswerte der yi ist. Fur¨ die Erwartungswerte von y i wurde der

50 KAPITEL 4. LOGISTISCHE REGRESSION

Die zu diesem Modell assoziierten Rezidiveintrittswahrscheinlichkeiten sind

befallene LK-Stationen0 1 2 ≥ 3

GZ nicht befallen 0.1688 0.3756 0.6405 0.8407GZ befallen 0.2971 0.5560 0.7876 0.9166uber GZ befallen 0.3805 0.6453 0.8434 0.9410

Die Abbildung 4.3 (rechts) zeigt die durch das Modell prognostizierten Wahrscheinlich-keiten fur das Auftreten eines Rezidivs in Abhangigkeit von den Stufen des Grenzzonen-befalls. Der linke Teil der Abbildung zeigt die Prognosen unter dem Modell rez.LKGi, indem auch die Wechselwirkung zwischen der Variablen LK und dem Faktor G inkludiert ist.

1.0 1.5 2.0 2.5 3.0 3.5 4.0

LK

0.0

0.2

0.4

0.6

0.8

1.0

prob

LK*G

1.0 1.5 2.0 2.5 3.0 3.5 4.0

LK

0.0

0.2

0.4

0.6

0.8

1.0

prob

LK+G

Abbildung 4.3: Geschatzte Rezidiveintrittsraten beim komplexen Logistischen Modell -links: maximales Modell, rechts: Modell ohne Interaktion.

Hatte man beim entsprechenden Logitmodell eine Deviance von 10.8 bei 6 Freiheitsgraden,so ist jetzt beim komplexen Modell die Deviance 13.0 bei 8 Freiheitsgraden. Vergleichenwir die Werte der Deviance mit den (1 − α)-Quantilen einer χ2-Verteilung resultierenα = 0.095 sowie α = 0.112, was auf eine leichte Bevorzugung fur das Logitmodell hin-deutet. Dies stellt jedoch keine konfirmatorische Entscheidung dar! Zum Vergleich ergabdas Logistische Regressionsmodell (LK+GZ) eine Deviance von 13.3 bei 9 Freiheitsgraden(α = 0.148).

Page 54: Generalisierte Lineare Modelle - STAT · Median) der logyi ein multiplikatives Modell fur¨ die Mediane und Erwartungswerte der yi ist. Fur¨ die Erwartungswerte von y i wurde der

Kapitel 5

Loglineare Modelle

5.1 Poisson Loglineare Modelle fur Anzahlen

Bei der Binomialverteilung wird die Anzahl der Versuche vor der Durchfuhrung der Ex-perimente fixiert. Danach wird erst beobachtet, in wie vielen Fallen davon ein Ereigniseingetreten ist. Man spricht bei dieser Art Daten von der Modellierung relativer oderabsoluter Haufigkeiten. Wird jedoch die Anzahl der Versuche vor den Experimenten nichtfixiert, so spricht man von Zahlvariablen oder counts yi. Standardmaßig wird dafur diePoissonverteilung angenommen, fur die die Erwartung µi der Varianz entspricht und alskanonischer Link der Loglink verwendet, also

yiind∼ Poisson(µi) , mit log(µi) = ηi .

Die (skalierte) Deviance ist hierbei wegen ϕ = 1 gleich

D(y, µ) = 2n∑

i=1

{yi log

yiµi

− (yi − µi)

}.

Falls im Modell auch eine Konstante enthalten ist, so reduziert sich dies auf

D(y, µ) = 2n∑

i=1

yi logyiµi

.

Der Deviance-Anteil der i-ten Beobachtung verschwindet fur yi = 0 unabhangig von µi.

5.1.1 Beispiel

Die folgenden Daten stammen aus einer Studie uber die Aufbewahrbarkeit von Mikroor-ganismen im tiefgekuhlten Zustand (−70oC). Die Beobachtungen beschreiben die Bakte-rienkonzentrationen (Anzahl auf einer konstanten Flache) am Anfang und nach 1, 2, 6und 12 Monaten.

51

Page 55: Generalisierte Lineare Modelle - STAT · Median) der logyi ein multiplikatives Modell fur¨ die Mediane und Erwartungswerte der yi ist. Fur¨ die Erwartungswerte von y i wurde der

52 KAPITEL 5. LOGLINEARE MODELLE

Zeit T 0 1 2 6 12Anzahl 31 26 19 15 20

Es soll ein passendes Modell gefunden werden, mit dem die Konzentrationsanderung inAbhangigkeit von der Zeit beschrieben werden kann, um Aussagen daruber zu ermogli-chen, wie lange Bakterien durchschnittlich aufbewahrt werden konnen.

0 2 4 6 8 10 12

t

010

2030

40

coun

t

0 2 4 6 8 10 12

t

2.8

3.0

3.2

3.4

log(

coun

t)

Abbildung 5.1: Bakterienanzahlen und deren Logarithmus in Abhangigkeit von der Zeit.

Eigentlich hatte man in den Daten, dargestellt in Abbildung 5.1 links, eine exponentielleAbnahme erwartet, jedoch wird dies nicht von den Beobachtungen unterstutzt, da derletzte Wert sogar großer ist als die beiden Werte zuvor. Naturlich konnte die wahre Kon-zentration sehr wohl einer exponentiellen Kurve folgen, und die Beobachtungen weichendavon nur wegen des Messfehlers ab. Falls dies der Fall ist, musste der Logarithmus derKonzentrationen eine lineare Beziehung zur Zeit aufweisen.

Die einfachste Art zu testen, ob die erkennbare Krummung mehr als zufallig ist, bestehtin der Modellierung mit einem zusatzlichen quadratischen Zeitterm. Dazu nehmen wirvorerst an, dass die Anzahlen yi einer N(µi, σ

2)-Verteilung und einem linearen Modellgenugen.

> summary(mo.lm <- lm(count ~ t + I(t^2)))

Estimate Std. Error t value Pr(>|t|)

(Intercept) 29.80042 1.88294 15.827 0.00397 **

t -4.61601 1.00878 -4.576 0.04459 *

I(t**2) 0.31856 0.08049 3.958 0.05832 .

---

Residual standard error: 2.438 on 2 degrees of freedom

Multiple R-Squared: 0.9252, Adjusted R-squared: 0.8503

F-statistic: 12.36 on 2 and 2 DF, p-value: 0.07483

Der quadratische Term scheint daher im Modell notwendig (p-Wert 0.058). Zuvor solltenoch die getroffene Verteilungsannahme mittels Normalplot der Residuen ri = yi − µi

Page 56: Generalisierte Lineare Modelle - STAT · Median) der logyi ein multiplikatives Modell fur¨ die Mediane und Erwartungswerte der yi ist. Fur¨ die Erwartungswerte von y i wurde der

5.1. POISSON LOGLINEARE MODELLE FUR ANZAHLEN 53

-3 -2 -1 0 1 2

Quantiles of Standard Normal

-3-2

-10

12

resi

dual

s

Abbildung 5.2: Normalplot der Residuen aus dem linearen Modell.

gepruft werden. Der Punktverlauf in der Abbildung 5.2 weicht von einer Geraden ab,sodass die Annahme einer Normalverteilung nicht gerechtfertigt erscheint.

> qqnorm(r <- residuals(mo.lm)); qqline(r)

Daher versuchen wir jetzt ein Poisson-Modell. Fur gewohnlich werden hierbei die Poisson-Erwartungen linear auf einer Log-Skala modelliert. Dies bedeutet, dass fur den Fall einerexponentiellen Abnahme die Erwartungen auf der Log-Skala modelliert werden wahrenddie Verteilung um diese Erwartungen als Poissonvariablen auf der Originalskala modelliertsind. Der rechte Teil der Abbildung 5.1 zeigt noch immer eine beachtliche Krummung,weshalb auch hier wiederum ein quadratischer Zeitterm in das Modell genommen wird.

> summary(mo.P0 <- glm(count ~ t + I(t^2), family=poisson))

Estimate Std. Error z value Pr(>|z|)

(Intercept) 3.423818 0.149027 22.975 <2e-16 ***

t -0.221389 0.095623 -2.315 0.0206 *

I(t^2) 0.015527 0.007731 2.008 0.0446 *

---

(Dispersion parameter for poisson family taken to be 1)

Null deviance: 7.0672 on 4 degrees of freedom

Residual deviance: 0.2793 on 2 degrees of freedom

AIC: 30.849

> r <- residuals(mo.P0, type="pearson"); sum(r^2)

[1] 0.2745424

Die Deviance und die Pearson-Statistik X2 sollten unter dem wahren Modell ihrem Frei-heitsgrad n − p = 2 entsprechen und stellen einen Test auf Gute der Anpassung dar.Kleine Werte zeugen von einer recht guten Anpassung, wahrend große auf eine schlech-te Anpassung hinweisen. Da hier beide Werte sehr klein sind, spricht nichts gegen diePoisson-Annahme.

Page 57: Generalisierte Lineare Modelle - STAT · Median) der logyi ein multiplikatives Modell fur¨ die Mediane und Erwartungswerte der yi ist. Fur¨ die Erwartungswerte von y i wurde der

54 KAPITEL 5. LOGLINEARE MODELLE

15 20 25 30

fitted

-1.0

-0.5

0.0

0.5

1.0

resi

dual

s

0 2 4 6 8 10 12

t

010

2030

40

coun

tAbbildung 5.3: Residuenplot (links) sowie geschatztes Poissonmodell (rechts).

Auch der Residuenplot in der Abbildung 5.3 zeigt dies. Falls die Varianz der Erwartungentspricht, ist ein Schatzer fur die Varianz der Residuen unter dem wahren Modell geradeder geschatzte Erwartungswert. Daher sollten die Pearson-Residuen ri Erwartung 0 undVarianz 1 aufweisen. Da dieser Residuenplot relativ (n = 5) horizontal ist, erscheintdie Poisson-Annahme auch passend. Um die Modellgute zu zeigen, werden beobachteteund modellierte Werte gegen die Zeit aufgetragen. Naturlich muss sich das 3 ParameterPolynom im rechten Teil der Abbildung 5.3 sehr gut an die 5 Beobachtungen anpassen.

> f <- fitted(mo.P0)

> plot(f, r); abline(0,0)

> plot(t, count, ylim=c(0,40)); t.new <- seq(0, 12, 1/2)

> lines(t.new, predict(mo.P0, data.frame(t=t.new), type="response"))

Obwohl Messfehler auch zu einem Zuwachs der Anzahl fuhren konnen, sollte dies aber inder Realitat unmoglich sein. Wir testen daher die Notwendigkeit des quadratischen Termsmittels eines Modellvergleichs.

> mo.P1 <- glm(count ~ t, family=poisson)

> anova(mo.P1, mo.P0, test="Chisq")

Analysis of Deviance Table

Model 1: count ~ t

Model 2: count ~ t + I(t^2)

Resid. Df Resid. Dev Df Deviance P(>|Chi|)

1 3 4.5249

2 2 0.2793 1 4.2456 0.0394

Die Differenz der beiden Deviancen weist zwar auf diese Notwendigkeit hin und dieKrummung ist wohl mehr als zufallig. Wir wissen aber, dass ein quadratisches Modellnicht Sinn macht. Moglicherweise erreicht man ein realistischeres und einfacheres Modelldurch Transformation der Zeitachse.

Page 58: Generalisierte Lineare Modelle - STAT · Median) der logyi ein multiplikatives Modell fur¨ die Mediane und Erwartungswerte der yi ist. Fur¨ die Erwartungswerte von y i wurde der

5.1. POISSON LOGLINEARE MODELLE FUR ANZAHLEN 55

0.0 0.1 0.2 0.3 0.4 0.5

c

1.85

1.90

1.95

2.00

2.05

devi

ance

18 20 22 24 26 28 30

fitted(mo.P3)

-1.0

-0.5

0.0

0.5

1.0

resi

dual

s(m

o.P

3)Abbildung 5.4: Abhangigkeit der Deviance von c (links) und Residuenplot (rechts).

Falls der Zeiteffekt multiplikativ wirkt, sollte eine logarithmierte Zeitachse betrachtet wer-den. Jedoch stellt sich dann das Problem des Nullpunktes, log(0). Die benotigte Transfor-mation ist daher log(t+ c) mit unbekanntem 0 < c. Eine Moglichkeit c zu bestimmen, istdie Deviance in Abhangigkeit von c zu minimieren, was in der Abbildung 5.4 dargestelltist. Der optimale Wert liegt fur das Modell 1+ log(t+ c) um c = 0.105 und log(t+0.105)wird ab jetzt als Pradiktor verwendet.

> c <- d <- 1:100

> for (i in 1:100) {

c[i] <- i/200

d[i] <- deviance(glm(count ~ 1 + log(t+c[i]), family=poisson))

}

> plot(c, d, type="l", ylab="deviance")

> c[d==min(d)]

[1] 0.105

Zunachst ist es ratsam ein Modell zu betrachten, das auch einen quadratischen Termbeinhaltet, um zu testen, ob noch immer eine verbleibende Krummung vorhanden ist.

> tc <- t + 0.105

> mo.P2 <- glm(count ~ 1 + log(tc) + I(log(tc)**2), family=poisson)

> summary(mo.P3 <- glm(count ~ 1 + log(tc), family=poisson))

Coefficients:

Estimate Std. Error z value Pr(>|z|)

(Intercept) 3.15110 0.09565 32.945 <2e-16 ***

log(tc) -0.12751 0.05493 -2.321 0.0203 *

---

(Dispersion parameter for poisson family taken to be 1)

Null deviance: 7.0672 on 4 degrees of freedom

Residual deviance: 1.8335 on 3 degrees of freedom

AIC: 30.403

Page 59: Generalisierte Lineare Modelle - STAT · Median) der logyi ein multiplikatives Modell fur¨ die Mediane und Erwartungswerte der yi ist. Fur¨ die Erwartungswerte von y i wurde der

56 KAPITEL 5. LOGLINEARE MODELLE

> anova(mo.P3, mo.P2, test="Chisq")

Analysis of Deviance Table

Model 1: count ~ 1 + log(tc)

Model 2: count ~ 1 + log(tc) + I(log(tc)^2)

Resid. Df Resid. Dev Df Deviance P(>|Chi|)

1 3 1.83354

2 2 1.79245 1 0.04109 0.83936

> plot(fitted(mo.P3), residuals(mo.P3), ylim=c(-1,1)); abline(0,0)

Der Parameter des quadratischen Terms ist nicht mehr signifikant. Wegen der geringenDeviance-Differenz von 0.041 entfernen wir den quadratischen Term aus dem Modell. Esscheint, dass mit der transformierten Zeitachse ein linearer Trend ausreicht. Der Verlaufder Pearson-Residuen des Modells 1+ log(t+0.105) zeigt in der Abbildung 5.4, dass dieseziemlich horizontal sind mit relativ konstanter Streuung.

Interessant ist auch, den approximativen (zweiseitigen) punktweisen Konfidenzbereich furdie Modellkurve µ0 = exp(η0) einer neuen Beobachtung x0 zu betrachten. Eine Moglichkeitbesteht darin, η0 = xt0β zusammen mit s.e.(η0) dafur zu verwenden. Das transformierte95% Intervall ist damit

KIV (µ0) =(exp

(η0 ± 1.96× s.e.(η0)

)),

was in Abbildung 5.5 dargestellt ist.

Alternativ liefert die Delta Methode var(µ0) ≈ var(η0) × [exp(η0)]′2 und es folgt somit

s.e.(µ0) ≈ s.e.(η0)× µ0, also das symmetrische Intervall basierend auf eine Normalvertei-lungsanname fur µ0

KIV (µ0) =(µ0 ± 1.96× s.e.(µ0)

).

Naturlich konnen beide Ideen unterschiedliche Intervallsgrenzen liefern.

> tc.new <- data.frame(tc = seq(0, 12, 0.005) + 0.105)

> mo.pred <- predict.glm(mo.P3, newdata=tc.new, type="response", se.fit=T)

> attributes(mo.pred) # Delta-Method

$names

[1] "fit" "se.fit" "residual.scale"

> fit <- mo.pred$fit

> upper <- fit + qnorm(0.975) * mo.pred$se.fit

> lower <- fit - qnorm(0.975) * mo.pred$se.fit

> plot(t, count, type="p", ylim=c(0,50), xlab="t", ylab="micro-organisms")

> lines(tc.new[ ,1], upper); lines(tc.new[ ,1], fit); lines(tc.new[ ,1], lower)

> mo.peta <- predict.glm(mo.P3, newdata=tc.new, type="link", se.fit=T)

> fit <- exp(mo.peta$fit)

Page 60: Generalisierte Lineare Modelle - STAT · Median) der logyi ein multiplikatives Modell fur¨ die Mediane und Erwartungswerte der yi ist. Fur¨ die Erwartungswerte von y i wurde der

5.2. LOGLINEARE UND MULTINOMIALE RESPONSE MODELLE 57

0 2 4 6 8 10 12

t

010

2030

4050

mic

ro-o

rgan

ism

s

Abbildung 5.5: 95% Konfidenzbereiche unter dem Poissonmodell.

> upper <- exp(mo.peta$fit + qnorm(0.975) * mo.peta$se.fit)

> lower <- exp(mo.peta$fit - qnorm(0.975) * mo.peta$se.fit)

> plot(t, count, type="p", ylim=c(0,50), xlab="t", ylab="micro-organisms")

> lines(tc.new[ ,1], upper); lines(tc.new[ ,1], fit); lines(tc.new[ ,1], lower)

5.2 Loglineare und Multinomiale Response Modelle

Hier wird der Zusammenhang zwischen einem loglinearen Modell fur Anzahlen und einemmultinomialen (binomialen) Response Modell fur Haufigkeiten behandelt. Diese Beziehungstammt von der Tatsache, dass die Multinomialverteilung aus einer Serie unabhangigerPoissonvariablen generiert werden kann, wenn deren Totalsumme fixiert ist.

5.2.1 Die Multinomialverteilung

Die Objekte einer Population weisen genau eines von k Merkmalen auf, beispielsweisedie Haarfarbe oder eine Todesursache. Aus dieser Population zieht man eine Stichprobeund ist an der Anzahl Yj aller Beobachtungen mit Auspragung j = 1, . . . , k interessiert.Zwei verschiedene Komponenten Yj und Yj′ sind hier abhangige Zufallsvariablen. DieMultinomialverteilung beschreibt die gemeinsame Verteilung des Vektors (Y1, . . . , Yk) und

Page 61: Generalisierte Lineare Modelle - STAT · Median) der logyi ein multiplikatives Modell fur¨ die Mediane und Erwartungswerte der yi ist. Fur¨ die Erwartungswerte von y i wurde der

58 KAPITEL 5. LOGLINEARE MODELLE

es gilt

P (Y1 = y1, . . . , Yk = yk) =y+!∏kj=1 yj!

k∏j=1

πyjj . (5.1)

Hier bezeichnen π1, . . . , πk, mit∑

j πj = 1, die Wahrscheinlichkeiten der Merkmale in derPopulation. Der Stichprobenraum ist die Menge aller ganzzahligen k-Vektoren mit 0 ≤ yj,wobei y+ =

∑j yj.

Eine alternative Herleitung dieser Verteilung erfolgt uber k unabhangige PoissonvariablenY1, . . . , Yk mit Erwartungen µ1, . . . , µk, also

P (Yj = yj) =µyjj

yj!exp(−µj) , j = 1, . . . , k .

Die Summe Y+ =∑

j Yj ist wiederum Poissonverteilt mit Erwartung µ+ =∑

j µj. Alsbedingte Wahrscheinlichkeit der (Y1, . . . , Yk), gegeben deren Summe Y+, resultiert

P (Y1 = y1, . . . , Yk = yk|Y+) =∏k

j=1

µyjj

yj !exp(−µj)

µy++

y+!exp(−µ+)

=y+!∏k

j=1 µyjj

µy++

∏kj=1 yj!

=y+!∏kj=1 yj!

k∏j=1

( µj

µ+

)yj.

Somit entspricht dies der Multinomialverteilung (5.1) mit πj = µj/µ+. Der Erwartungs-wert µj bezeichnet bei der Poissonverteilung die theoretische Durchschnittsanzahl derEreignisse vom Typ j wahrend πj bei der Multinomialverteilung den theoretischen Anteilder Ereignisse dieses Typs beschreibt.

Gegeben sei nun eine Stichprobe y1, . . . , yn von n unabhangigen Multinomialvektorenyi = (yi1, . . . , yik), und sei yi+ =

∑j yij fest fur jedes i. Zu jedem yi korrespondiert

ein Vektor πi = (πi1, . . . , πik). Der fur die Schatzung von πi relevante Beitrag der i-tenBeobachtung an der Log-Likelihood ist laut (5.1)

ℓ(πi|yi) =k∑

j=1

yij log πij , mitk∑

j=1

πij = 1 .

Wegen der Unabhangigkeit der Vektoren yi resultiert als Log-Likelihood der Stichprobe

ℓ(π|y) =n∑

i=1

ℓ(πi|yi) =n∑

i=1

k∑j=1

yij log πij .

Fur die Maximierung von ℓ(π|y) folgt unter den Bedingungen∑

j πij = 1, ∀i = 1, . . . , n,

∂πij

(ℓ(π|y)−

n∑i=1

λi

( k∑j=1

πij − 1))

=yijπij

− λi ,

Page 62: Generalisierte Lineare Modelle - STAT · Median) der logyi ein multiplikatives Modell fur¨ die Mediane und Erwartungswerte der yi ist. Fur¨ die Erwartungswerte von y i wurde der

5.2. LOGLINEARE UND MULTINOMIALE RESPONSE MODELLE 59

also πij = yij/λi. Somit ist 1 =∑

j πij =∑

j yij/λi = yi+/λi, also λi = yi+. Die Score-Funktion ist somit

∂ℓ(π|y)∂πij

=yij − yi+πij

πij.

Verwendet man zusatzlich ein loglineares Modell mit linearem Pradiktor der Form

log πij =∑r

xijrβr ,

so ist wegen ∂πij/∂βr = xijrπij

∂ℓ(π|y)∂βr

=n∑

i=1

k∑j=1

yij − yi+πijπij

∂πij∂βr

=n∑

i=1

k∑j=1

xijr(yij − yi+πij) .

5.2.2 Vergleich von Poisson-Erwartungen

Betrachte unabhangige Yj ∼ Poisson(µj) und teste H0 : log µ1 = · · · = log µk = β1 gegen

H1 : log µj = β1 + β2xj , fur alle j = 1, . . . , k

fur gegebene Konstanten xj und fur ein unbekanntes β2. Der relevante Teil der Poisson-Log-Likelihood Funktion

ℓ(µ|y) =k∑

j=1

(yj log µj − µj

)entspricht hier unter der Alternative

ℓ(β1, β2|y) =k∑

j=1

(yj(β1 + β2xj)− exp(β1 + β2xj)

).

Um zu sehen, wie dies zu einem multinomialen Modell transformiert, verwende

µ+ =k∑

j=1

µj =k∑

j=1

exp(β1 + β2xj) = exp(β1)k∑

j=1

exp(β2xj) ,

also

log µ+ = β1 + log( k∑

j=1

exp(β2xj)), bzw. β1 = log µ+ − log

( n∑j=1

exp(β2xj)).

Bezuglich (µ+, β2) erhalt man

ℓ(µ+, β2|y) =k∑

j=1

{yj

(log µ+ − log

( k∑j′=1

exp(β2xj′))+ β2xj

)}− µ+

= log µ+

k∑j=1

yj −k∑

j=1

yj log( k∑

j′=1

exp(β2xj′))+

k∑j=1

β2xjyj − µ+ ,

Page 63: Generalisierte Lineare Modelle - STAT · Median) der logyi ein multiplikatives Modell fur¨ die Mediane und Erwartungswerte der yi ist. Fur¨ die Erwartungswerte von y i wurde der

60 KAPITEL 5. LOGLINEARE MODELLE

was mittels y+ =∑

j yj geschrieben werden kann als

ℓ(µ+, β2|y) ={y+ log µ+ − µ+

}+{ k∑

j=1

β2xjyj − y+ log( k∑

j=1

exp(β2xj))}

= ℓ(µ+|y+) + ℓ(β2, y|y+) .

Die Log-Likelihood zerfallt unter H1 in zwei Komponenten. Die Komponente ℓ(µ+|y+)entspricht der Log-Likelihood zu Y+ ∼ Poisson(µ+). Um die zweite Komponente zu un-tersuchen, verwenden wir wiederum die Parametrisierung

πj =µj

µ+

=exp(β1 + β2xj)∑j′ exp(β1 + β2xj′)

=exp(β2xj)∑j′ exp(β2xj′)

.

Wegen

log πj = β2xj − log(∑

j′

exp(β2xj′)),

ist der zweite Term in der obigen Log-Likelihood gleich

ℓ(β2, y|y+) =k∑

j=1

yj log πj ,

was einer multinomialen Log-Likelihood entspricht, also der konditionalen Poisson-Log-Likelihood von y gegeben die Gesamtanzahl y+.

Die wichtigste Erkenntnis hierbei ist, dass die marginale Likelihood von Y+ nur von µ+

abhangt wahrend die konditionale Likelihood zu (Y1, . . . , Yk)|(Y+ = y+) von π abhangt,also nur von β2. Vorausgesetzt dass keine Information bezuglich des Wertes von β1 (unddaher auch nicht fur µ+) vorliegt, folgert man, dass die gesamte Information bezuglich β2in der konditionalen Likelihood zu y|y+ enthalten ist.

5.2.3 Multinomiale Responsemodelle

Mit diesen Ergebnissen kann man zeigen, dass bestimmte loglineare Modelle aquivalent zumultinomialen Modellen sind. Dazu ordnet man die Beobachtungen Yij den Zellen einerzweidimensionalen Kontingenztafel zu und betrachtet das Modell

log µij = ϕi + xtijβ , i = 1, . . . , n, j = 1, . . . , k (5.2)

mit µij = E(Yij) und bekannten p-dimensionalen Vektoren xij. Naturlich interessiert unsausschließlich der Parameter β wahrend ϕi Nebenparameter (incidental parameters) sind.In diesem Modell wachst die Dimension des Parameterraumes n+p mit n→ ∞ fur festesp. Daher ist auch fur n → ∞ nicht garantiert, dass der Maximum-Likelihood Schatzer

Page 64: Generalisierte Lineare Modelle - STAT · Median) der logyi ein multiplikatives Modell fur¨ die Mediane und Erwartungswerte der yi ist. Fur¨ die Erwartungswerte von y i wurde der

5.2. LOGLINEARE UND MULTINOMIALE RESPONSE MODELLE 61

effizient oder konsistent ist. Es wird nun gezeigt, dass die konditionale Likelihood nur vonβ und nicht von ϕ abhangt. Wie zuvor ist die Log-Likelihood

ℓ(ϕ, β|y) =n∑

i=1

k∑j=1

(yij(ϕi + xtijβ)− exp(ϕi + xtijβ)

)=

n∑i=1

ϕiyi+ +n∑

i=1

k∑j=1

yijxtijβ −

n∑i=1

k∑j=1

exp(ϕi + xtijβ) .

Wir fixieren die i-te Zeilensumme yi+ und machen die Transformation

µi+ =k∑

j=1

µij = exp(ϕi)k∑

j=1

exp(xtijβ) , also ϕi = log µi+ − log( k∑

j=1

exp(xtijβ)).

Die Log-Likelihood als Funktion in (µ+, β) ist somit

ℓ(µ+, β|y) =n∑

i=1

{yi+ log µi+ − µi+

}+

n∑i=1

{ k∑j=1

yijxtijβ − yi+ log

( k∑j′=1

exp(xtij′β))}

= ℓ(µ+|y+) + ℓ(β, y|y+) .

Der erste Term ist wieder die Poisson-Log-Likelihood zur Zeilensumme Yi+ ∼ Poisson(µi+).Die zweite Große ist die konditionale Log-Likelihood gegeben {Yi+} und hangt nur von βund nicht von ϕ ab. Die ganze Information bezuglich β ist in der zweiten Komponente.Daher ist es klar, dass β und var(β) basierend auf die Maximierung von ℓ(β, y|y+) iden-tisch den entsprechenden Resultaten unter Verwendung der vollen Log-Likelihood ist. Inanderen Worten ist das loglineare Modell (5.2) aquivalent dem multinomialen Modell mit

πij =µij

µi+

=exp(xtijβ)∑l exp(x

tilβ)

=µij

µi+

. (5.3)

5.2.4 Beispiel

Es werden wiederum die Haufigkeiten von Rezidiven analysiert. Hatten wir dafur in 4.3.1unabhangige binomialverteilte Responses mit dem Logitlink verwendet, so werden nunPoissonvariablen mit dem Loglink das Modell bilden. Wir betrachten somit eine Tabellemit n = 24 Zellen:

befallene LK-Stationen0 1 2 ≥ 3

R = 0 R = 1 R = 0 R = 1 R = 0 R = 1 R = 0 R = 1GZ nicht befallen 103 21 14 7 7 9 0 13GZ befallen 40 18 6 6 2 5 0 5uber GZ befallen 10 4 3 16 3 9 2 10

Page 65: Generalisierte Lineare Modelle - STAT · Median) der logyi ein multiplikatives Modell fur¨ die Mediane und Erwartungswerte der yi ist. Fur¨ die Erwartungswerte von y i wurde der

62 KAPITEL 5. LOGLINEARE MODELLE

Um die gleichen Ergebnisse wie beim logistischen Modell mit Pradiktor L+G zu erhalten,muss die Summe der beiden Poisson-Beobachtungen in den von L und G aufgespanntenZellen (in jeder Zelle befindet sich jeweils eine R = 0 und eine R = 1 Beobachtung) fixiertwerden. Das erreicht man durch Aufnahme der Interaktion L*G in den Pradiktor. Daseigentliche Modell fur den Erwartungswert geht als Interaktion mit R in den Pradiktorein, also betrachtet man

log µ = R ∗ (L+ G) + L ∗ G .

> y <- c(rez, total-rez); R <- gl(2, 12, labels=1:0)

> L <- factor(rep(rep(0:3, 3), 2)); G <- factor(rep(rep(0:2, each=4), 2))

> rezidiveMN <- data.frame(y, R, L, G); attach(rezidiveMN)

> summary(MN.glm <- glm(y ~ R*(L+G) + L*G, family=poisson))

Coefficients:

Estimate Std. Error z value Pr(>|z|)

(Intercept) 3.032932 0.203404 14.911 < 2e-16 ***

R0 1.604143 0.219202 7.318 2.51e-13 ***

L1 -0.852487 0.328546 -2.595 0.009467 **

L2 -0.870085 0.352170 -2.471 0.013487 *

L3 -0.573696 0.349225 -1.643 0.100431

G1 -0.196387 0.286157 -0.686 0.492530

G2 -1.387115 0.382373 -3.628 0.000286 ***

R0:L1 -1.287280 0.347971 -3.699 0.000216 ***

R0:L2 -1.778549 0.412032 -4.317 1.59e-05 ***

R0:L3 -3.797851 0.761597 -4.987 6.14e-07 ***

R0:G1 -0.728501 0.312710 -2.330 0.019825 *

R0:G2 -1.073534 0.381676 -2.813 0.004913 **

L1:G1 -0.007513 0.410137 -0.018 0.985385

L2:G1 -0.360864 0.502329 -0.718 0.472522

L3:G1 -0.705828 0.592756 -1.191 0.233749

L1:G2 1.766372 0.441979 3.997 6.43e-05 ***

L2:G2 1.456786 0.503794 2.892 0.003833 **

L3:G2 1.375382 0.546435 2.517 0.011836 *

---

(Dispersion parameter for poisson family taken to be 1)

Null deviance: 434.130 on 23 degrees of freedom

Residual deviance: 10.798 on 6 degrees of freedom

AIC: 134.75

Number of Fisher Scoring iterations: 6

Der Term L∗G fixiert nur die Rander bezuglich L und G, wahrend die erklarenden Faktorendes Logit-Modells in den Wechselwirkungen mit R (hier L+ G) zu finden sind. Das Modellbeinhaltet daher p = 18 Parameter.

Man bemerke, dass die relevanten Parameter zu R0, R0:L1, R0:L2, R0:L3, R0:G1 undR0:G2 gehoren und exakt jenen im Logit-Modell entsprechen. Naturlich haben sich De-viance und Freiheitsgrade auch nicht geandert. Als Prognosewerte erhalt man

Page 66: Generalisierte Lineare Modelle - STAT · Median) der logyi ein multiplikatives Modell fur¨ die Mediane und Erwartungswerte der yi ist. Fur¨ die Erwartungswerte von y i wurde der

5.2. LOGLINEARE UND MULTINOMIALE RESPONSE MODELLE 63

> grid <- list(R=levels(R), L=levels(L), G=levels(G))

> MN.p <- predict(MN.glm, expand.grid(grid), type="response")

> options(digits=4); t(matrix(MN.p, 8))

[,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8]

[1,] 20.758 103.242 8.850 12.150 8.696 7.304 11.696 1.3041

[2,] 17.057 40.943 7.218 4.782 4.981 2.019 4.745 0.2553

[3,] 5.185 8.815 12.932 6.068 9.323 2.677 11.559 0.4405

Durch das Fixieren der Rander ist in jeder Zelle (fur jede L-G Kombination) die Summeder geschatzten Erwartungen

∑r µijr gleich der beobachteten Gesamtanzahl

∑r yijr.

Das Modell logit(µ) = 1 entspricht beispielsweise dem Modell

log µ = R+ L ∗ G .

Man erhalt ein Modell mit p = 13 Parametern. Wiederum fixiert L ∗ G nur die Randerund R = R ∗ 1 steht nur in ’Wechselwirkung’ mit dem Intercept.

> summary(MN.glm1 <- glm(y ~ R + L*G, family=poisson))$deviance

[1] 103.5

> MN.p1 <- predict(MN.glm1, expand.grid(grid), type="response")

> (pred <- t(matrix(MN.p1, 8)))

[,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8]

[1,] 48.728 75.272 8.252 12.748 6.288 9.712 5.109 7.891

[2,] 22.792 35.208 4.716 7.284 2.751 4.249 1.965 3.035

[3,] 5.502 8.498 7.466 11.534 4.716 7.284 4.716 7.284

> pred[1,1]/pred[1,2]

[1] 0.6474

Jetzt ist die Wahrscheinlichkeit eines Rezidivs in jeder Zelle gleich, also die Verhaltnisse48.7/75.3 = 22.8/35.2 = 5.5/8.5 = · · · = 0.647.

Eine sehr einfache Alternative zum loglinearen Poissonmodell mit allen Interaktionenstellt die Funktion multinom in der Bibliothek nnet dar. Hiermit konnen multinomialeDaten direkt modelliert werden.

> library(nnet)

> summary(MN.direkt <- multinom(R ~ L+G, weights=y))

Coefficients:

Values Std. Err.

(Intercept) 1.6041 0.2192

L1 -1.2873 0.3480

L2 -1.7785 0.4120

L3 -3.7979 0.7616

G1 -0.7285 0.3127

G2 -1.0735 0.3817

Residual Deviance: 326.8

AIC: 338.8

Page 67: Generalisierte Lineare Modelle - STAT · Median) der logyi ein multiplikatives Modell fur¨ die Mediane und Erwartungswerte der yi ist. Fur¨ die Erwartungswerte von y i wurde der

64 KAPITEL 5. LOGLINEARE MODELLE

Hierbei vergleicht die Deviance das Modell mit einem Modell, das jedes der 313 einzelnenSubjekte korrekt vorhersagt, und nicht mit dem saturierten Modell zu den 12 Eintragun-gen der 3× 4 Tabelle.

> MN.direkt.sat <- multinom(R ~ L*G, weights=y)

> anova(MN.direkt, MN.direkt.sat) # resulting deviance difference

Model Resid. df Resid. Dev Test Df LR stat. Pr(Chi)

1 L + G -6 326.7615 NA NA NA

2 L * G -12 315.9636 1 vs 2 6 10.79786 0.0948282

# the multinomial deviance can be derived by

> MN.direkt$deviance - MN.direkt.sat$deviance

[1] 10.79786

# this value exactly compares with the Binomial logistic deviance

5.3 Zweidimensionale Kontingenztafeln

5.3.1 Unabhangigkeitsmodell

Wir nehmen nun an, dass eine multinomialverteilte Stichprobe mit Umfang n vorliegt, dieauf N = I × J Zellen einer Kontingenztafel verteilt ist. Die Wahrscheinlichkeiten {πij}dieser Multinomialverteilung stellen die gemeinsame Verteilung der beiden kategorialenResponses dar. Diese sind stochastisch unabhangig, falls

πij = πi+π+j , ∀i = 1, . . . , I , j = 1, . . . , J .

In diesem Fall gilt fur die zu erwartenden Haufigkeiten mij = nπij

mij = nπi+π+j , ∀i = 1, . . . , I , j = 1, . . . , J .

Auf der logarithmischen Skala hat dieses Modell folgendes Aussehen

logmij = log n+ log πi+ + log π+j .

Der Logarithmus des Erwartungswertes fur die Zelle (i, j) ist daher eine additive Funktiondes i-ten Zeileneffekts und des j-ten Spaltenffekts. Bezeichnet X den zeilen- und Y denspaltenbildenden Faktor, so ist dieses Modell aquivalent mit

logmij = µ+ λxi + λyj , (5.4)

Page 68: Generalisierte Lineare Modelle - STAT · Median) der logyi ein multiplikatives Modell fur¨ die Mediane und Erwartungswerte der yi ist. Fur¨ die Erwartungswerte von y i wurde der

5.3. ZWEIDIMENSIONALE KONTINGENZTAFELN 65

wobei mit der Kontrast Parametrisierung folgt

λxi = log πi+ − 1

I

I∑h=1

log πh+

λyj = log π+j −1

J

J∑h=1

log π+h

µ = log n+1

I

I∑h=1

log πh+ +1

J

J∑h=1

log π+h .

Mit dieser gewahlten Parametrisierung gilt

I∑i=1

λxi =I∑

i=1

{log πi+ − 1

I

I∑h=1

log πh+

}= 0 =

J∑j=1

λyj .

Modell (5.4) wird loglineares Unabhangigkeitsmodell genannt. Durch diese beiden Re-striktionen sind nur I − 1 Zeilen- sowie J − 1 Spaltenparameter frei schatzbar.

5.3.2 Saturiertes (volles) Modell

Falls keine Unabhangigkeit angenommen werden kann, definiere

ηij = logmij

und

ηi+ =1

J

J∑j=1

ηij

η+j =1

I

I∑i=1

ηij

η++ = µ =1

IJ

I∑i=1

J∑j=1

ηij .

Der Parameter µ = η++ bezeichnet hier den sogenannten grand mean der logmij. Wirdefinieren den Zeileneffekt λxi , Spalteneffekt λ

yj und Interaktionseffekt (Wechselwirkung)

λxyij als

λxi = ηi+ − η++

λyj = η+j − η++

λxyij = ηij − ηi+ − η+j + η++ = (ηij − η++)︸ ︷︷ ︸ηij−µ

− (ηi+ − η++)︸ ︷︷ ︸λxi

− (η+j − η++)︸ ︷︷ ︸λyj

Page 69: Generalisierte Lineare Modelle - STAT · Median) der logyi ein multiplikatives Modell fur¨ die Mediane und Erwartungswerte der yi ist. Fur¨ die Erwartungswerte von y i wurde der

66 KAPITEL 5. LOGLINEARE MODELLE

so dass damit das obige Modell geschrieben werden kann als

logmij = µ+ λxi + λyj + λxyij . (5.5)

Hierbei bezeichnen {λxi } und {λyj} Abweichungen von µ. Die Wechselwirkung {λxyij } isteinfach der um den Zeilen- wie auch Spalteneffekt bereinigte Zelleneffekt. Wegen

I∑i=1

λxi =J∑

j=1

λyj = 0

hat man I − 1 (bzw. J − 1) unabhangige Zeilenparameter (bzw. Spaltenparameter). Fallsλxi > 0, ist die durchschnittliche (log) erwartete Haufigkeit fur Zellen der i-ten Zeile großerals die durchschnittliche (log) erwartete Haufigkeit uber die ganze Tabelle. Weiters gilt

I∑i=1

λxyij =I∑

i=1

ηij −I∑

i=1

ηi+ − Iη+j + Iη++

= Iη+j −1

J

I∑i=1

J∑j=1

ηij − Iη+j + I1

IJ

I∑i=1

J∑j=1

ηij = 0 =J∑

j=1

λxyij .

Falls die Parameter {λxyij } in den (I − 1)(J − 1) Zellen der ersten (I − 1) Spalten understen (J − 1) Zeilen gegeben sind, so resultieren sofort die restlichen Parameter {λxyij }.Daraus folgt, dass (I − 1)(J − 1) dieser Parameter linear unabhangig sind.

Das Unabhangigkeitsmodell (5.4) ist ein Spezialfall des saturierten Modells (5.5) mitλxyij = 0, ∀(i, j). Die zusatzlichen Parameter λxyij sind jetzt Assoziations-Parameter,welche die Abweichungen von der Unabhangigkeit zwischen X und Y beschreiben. Dietotale Anzahl linear unabhangiger Parameter ist

Unabhangigkeitsmodell: 1 + (I − 1) + (J − 1) = I + J − 1

Abhangigkeitsmodell: 1 + (I − 1) + (J − 1) + (I − 1)(J − 1) = I × J = N .

In R arbeitet man standardmaßig mit einer anderen Kontrastierung, der sogenanntentreatment Kontrastierung. Mochte man mit der obigen Parametrisierung Modelle inter-pretieren, so ist dazu folgender Aufruf notwendig

> options(contrasts=c("contr.sum", "contr.poly"))

Die Default-Einstellung von R ist jedoch

> options(contrasts=c("contr.treatment", "contr.poly"))

Page 70: Generalisierte Lineare Modelle - STAT · Median) der logyi ein multiplikatives Modell fur¨ die Mediane und Erwartungswerte der yi ist. Fur¨ die Erwartungswerte von y i wurde der

5.3. ZWEIDIMENSIONALE KONTINGENZTAFELN 67

5.3.3 Interpretation der Parameter

Ein spezieller Fall liegt vor, wenn binare Variablen modelliert werden. Fur die (I×2)-Tafel

i 1 21 π11 π12...

......

i πi1 πi2...

......

I πI1 πI2

resultieren unter der Annahme der Unabhangigkeit fur alle i = 1, . . . , I die log-odds

logπi1πi2

= logπi1

1− πi1= log

mi1

mi2

= logmi1 − logmi2

= (µ+ λxi + λy1)− (µ+ λxi + λy2) = λy1 − λy2 .

Da wiederum∑2

j=1 λyj = 0 gilt, also λy1+λ

y2 = 0, folgt λy2 = −λy1 und damit fur alle Zeilen

logπi1

1− πi1= λy1 − λy2 = 2λy1 .

Somit ist die Quote (odds) dafur, dass die Spalten-Klassifikation Kategorie 1 ergibt imVergleich zu Kategorie 2

πi11− πi1

= exp(2λy1) .

Hat man sogar nur eine (2× 2)-Tafel wie

i 1 21 m11 m12

2 m21 m22

so ist das odds-ratio der erwarteten Haufigkeiten

ψ =m11/m12

m21/m22

=m11m22

m21m12

und unter dem saturierten Modell resultiert als log-odds-ratio

logψ = logm11 + logm22 − logm12 − logm21

= (µ+ λx1 + λy1 + λxy11) + (µ+ λx2 + λy2 + λxy22)

−(µ+ λx1 + λy2 + λxy12)− (µ+ λx2 + λy1 + λxy21)

= λxy11 + λxy22 − λxy12 − λxy21 .

Page 71: Generalisierte Lineare Modelle - STAT · Median) der logyi ein multiplikatives Modell fur¨ die Mediane und Erwartungswerte der yi ist. Fur¨ die Erwartungswerte von y i wurde der

68 KAPITEL 5. LOGLINEARE MODELLE

Mit∑

i λxyij =

∑j λ

xyij = 0, folgt

λxy11 + λxy21 = 0 → λxy11 = −λxy21λxy11 + λxy12 = 0 → λxy11 = −λxy12λxy12 + λxy22 = 0 → λxy12 = −λxy22λxy21 + λxy22 = 0 → λxy21 = −λxy22

also λxy11 = λxy22 = −λxy12 = −λxy21 und somit

logψ = 4λxy11 .

Daher ist es sinnvoll, hier eine alternative Parametrisierung zu verwenden. Setzt man stattdem + eine 1, so verwendet man die erste Zelle als Vergleichsreferenz, und es folgt

µ = η11

λxi = ηi1 − η11

λyj = η1j − η11

λxyij = (ηij − η11)− (ηi1 − η11)︸ ︷︷ ︸λxi

− (η1j − η11)︸ ︷︷ ︸λyj

= ηij − ηi1 − η1j + η11 .

Es resultiert wieder

logmij = µ+ λxi + λyj + λxyij ,

jedoch ist jetzt

λx1 = η11 − η11 = 0

λy1 = η11 − η11 = 0

λxyi1 = ηi1 − η11 − λxi − λy1 = 0

λxy1j = η1j − η11 − λx1 − λyj = 0,

also allgemein

logm11mij

m1jmi1

= (µ+ λx1 + λy1 + λxy11) + (µ+ λxi + λyj + λxyij )

−(µ+ λx1 + λyj + λxy1j )− (µ+ λxi + λy1 + λxyi1 )

= λxyij .

Die Assoziations-Parameter beschreiben jetzt das log-odds-ratio. Falls λxyij = 0 dann folgt

m11mij

m1jmi1

= exp(λxyij ) = 1 ,

und damit ist das odds-ratio beim Unabhangigkeitsmodell gleich 1.

Page 72: Generalisierte Lineare Modelle - STAT · Median) der logyi ein multiplikatives Modell fur¨ die Mediane und Erwartungswerte der yi ist. Fur¨ die Erwartungswerte von y i wurde der

5.3. ZWEIDIMENSIONALE KONTINGENZTAFELN 69

5.3.4 Beispiel

Untersuche, ob der Lymphknotenbefall und die Rezidivbildung unabhangig sind.

L = 0 L = 1 L = 2 L = 3R = 0 153 23 12 2R = 1 43 29 23 28

Das loglineare Unabhangigkeitsmodell L+ R ergibt unter Annahme der Poissonverteilungeine Deviance von 82.12 bei 3 Freiheitsgraden. Die Pearson-Statistik

X2 =2∑

i=1

4∑j=1

(yij − µij)2

µij

realisiert in 77.63. Dies entspricht genau der χ2-Statistik bei der Kontingenztafel-Analyse.

> y <- c(153, 23, 12, 2, 43, 29, 23, 28)

> L <- factor(c(0, 1, 2, 3, 0, 1, 2, 3))

> R <- factor(c(0, 0, 0, 0, 1, 1, 1, 1))

> summary(LK.mod <- glm(y ~ L + R, family=poisson))

Coefficients:

Estimate Std. Error z value Pr(>|z|)

(Intercept) 4.77894 0.08468 56.437 < 2e-16 ***

L1 -1.32687 0.15599 -8.506 < 2e-16 ***

L2 -1.72277 0.18350 -9.388 < 2e-16 ***

L3 -1.87692 0.19604 -9.574 < 2e-16 ***

R1 -0.43484 0.11573 -3.757 0.000172 ***

---

(Dispersion parameter for poisson family taken to be 1)

Null deviance: 300.17 on 7 degrees of freedom

Residual deviance: 82.12 on 3 degrees of freedom

> sum(residuals(LK.mod, type="pearson")**2)

[1] 77.6328

Naturlich ist diese Hypothese der Unabhangigkeit eindeutig zu verwerfen. Eine alternativeInterpretation des Ergebnisses ware zu sagen, dass das Unabhangigkeitsmodell nicht zupassen scheint.

Dieses Ergebnis kann auch durch die folgende Sequenz von Befehlen erzielt werden

> N <- matrix(y, 2, 4, byrow=TRUE); N

[,1] [,2] [,3] [,4]

[1,] 153 23 12 2

[2,] 43 29 23 28

Page 73: Generalisierte Lineare Modelle - STAT · Median) der logyi ein multiplikatives Modell fur¨ die Mediane und Erwartungswerte der yi ist. Fur¨ die Erwartungswerte von y i wurde der

70 KAPITEL 5. LOGLINEARE MODELLE

> chisq.test(N) # only available for I x J tables

Pearson’s Chi-squared test

data: N

X-squared = 77.6328, df = 3, p-value < 2.2e-16

Dies entspricht dem χ2-Test auf Unabhangigkeit zweier Faktoren, welcher jedoch nur furzweidimensionale Situationen verwendbar ist. Im Gegensatz dazu erlaubt aber das logli-neare Poisson-Modell verschiedenartige Verallgemeinerungen. Dazu zahlen die Konzepteder vollstandigen Unabhangigkeit oder der konditionalen Unabhangigkeit (graphische Mo-delle).

Um zu sehen, welche Auswirkung die Wahl der Parametrisierung hat, betrachten wirnoch zusatzlich das Ergebnis der Schatzung wenn als Referenzstufe von L die vierte Stufegewahlt wurde.

> summary(glm(y ~ C(L, base=4) + R, family=poisson)) #(1, 4)=reference cell

Coefficients:

Estimate Std. Error z value Pr(>|z|)

(Intercept) 2.9020 0.1881 15.425 < 2e-16 ***

C(L, base = 4)1 1.8769 0.1960 9.574 < 2e-16 ***

C(L, base = 4)2 0.5500 0.2293 2.399 0.016428 *

C(L, base = 4)3 0.1542 0.2488 0.620 0.535530

R1 -0.4348 0.1157 -3.757 0.000172 ***

Im Gegensatz dazu liefert die sum Kontrastierung

> options(contrasts=c("contr.sum", "contr.poly"))

> summary(glm(y ~ L + R, family=poisson))

Coefficients:

Estimate Std. Error z value Pr(>|z|)

(Intercept) 3.32988 0.07445 44.726 < 2e-16 ***

L1 1.23164 0.08911 13.822 < 2e-16 ***

L2 -0.09523 0.12249 -0.777 0.436899

L3 -0.49113 0.14027 -3.501 0.000463 ***

R1 0.21742 0.05786 3.757 0.000172 ***

---

(Dispersion parameter for poisson family taken to be 1)

Null deviance: 300.17 on 7 degrees of freedom

Residual deviance: 82.12 on 3 degrees of freedom

> options(contrasts=c("contr.treatment", "contr.poly"))

Page 74: Generalisierte Lineare Modelle - STAT · Median) der logyi ein multiplikatives Modell fur¨ die Mediane und Erwartungswerte der yi ist. Fur¨ die Erwartungswerte von y i wurde der

Kapitel 6

Modelle mit zufalligen Effekten

6.1 Zufallige Pradiktoren

Bis jetzt basierten die betrachteten GLMs auf lineare Pradiktoren der Form

ηi = g(µi) = xtiβ .

Die erklarenden Großen sind hierbei zum Vektor x zusammengefasst und β stellt denunbekannten Parametervektor dar, der geschatzt werden muss. Wir werden jetzt eineKlasse von Modellen diskutieren, die im linearen Pradiktor zusatzlich noch einen zufalligenEffekt verwendet. Dies hat in den folgenden beiden Situationen eine sehr klare Motivation.

Falls beispielsweise einige relevante erklarende Variablen ui = (ui1, . . . , uip′)t gar nicht

beobachtet sind, kann durch Hinzunahme eines zufalligen (skalarwertigen) Effektes zi =utiγ auf die ansonsten resultierende Uberdispersion (Datenvariabilitat ist großer als dieModellvariabilitat) eingegangen werden. Diese Uberlegung fuhrt zu Pradiktoren der Form

ηi = g(µi) = xtiβ + zi .

Andererseits konnten n unabhangige Gruppen von Beobachtungen yi = (yi1, . . . , yini)t

vorliegen, wofur innerhalb jeder Gruppe Abhangigkeit unter den yij besteht. Nimmt maneinen zufalligen Effekt fur samtliche Responses einer Gruppe in deren Pradiktor auf, d.h.

ηij = g(µij) = xtijβ + zi ,

so wird dadurch die Korrelation in den Daten (marginal) berucksichtigt. Da sich alle yij aufdenselben Effekt zi beziehen, gewinnt man automatisch ein Modell fur deren Abhangigkeit.

Die nichtbeobachtbaren zi seien unabhangige und identisch verteilte Zufallsvariablen. ImGegensatz zu fruher verwenden wir jetzt zufallige Pradiktoren, welche den konditionalenErwartungswert µi = E(yi|zi) (bzw. µij = E(yij|zi)) modellieren. Weiters sei die konditio-nale Verteilung der Response, gegeben diese zufalligen Effekte, aus der Exponentialfamilie.Fur die Berechnung des Maximum-Likelihood Schatzers soll jedoch die marginale Dichtemaximiert werden. Da dies nur selten analytisch durchgefuhrt werden kann, wird oft alsAlternative die EM-Schatzung verwendet.

71

Page 75: Generalisierte Lineare Modelle - STAT · Median) der logyi ein multiplikatives Modell fur¨ die Mediane und Erwartungswerte der yi ist. Fur¨ die Erwartungswerte von y i wurde der

72 KAPITEL 6. MODELLE MIT ZUFALLIGEN EFFEKTEN

6.2 EM Schatzer

Fur den von Dempster, Laird & Rubin (1977) entwickelten EM-Algorithmus wird ange-nommen, dass die Daten aus einem beobachtbaren Teil y und einem nicht beobachtbarenTeil z zusammengesetzt sind. Die gemeinsame Dichte einer vollstandigen Beobachtung(y, z) sei f(y, z|θ), wobei alle unbekannten Parameter im System zum Vektor θ ∈ Θ zu-sammengefasst sind (hierbei bezeichnet Θ den Parameterraum). Somit gilt allgemein furdie marginale Dichte f(y|θ) der Response y

ℓ(θ|y) = log f(y|θ) = log

∫f(y, z|θ)dz . (6.1)

Um den Schatzer θ zu bestimmen, wird die marginale Log-Likelihood Funktion ℓ(θ|y)maximiert. Dabei stoßt man aber in der Praxis haufig auf Probleme mit dem Integral (6.1).

Mit der bedingten Dichte von z|y, gegeben durch

f(z|y, θ) = f(y, z|θ)f(y|θ)

,

lasst sich (6.1) schreiben als ℓ(θ|y) = log f(y|θ) = log f(y, z|θ)−log f(z|y, θ). Der Schatzerθ soll ℓ(θ|y) maximieren. Es gilt auch

log f(y, z|θ) = log f(z|y, θ) + ℓ(θ|y) .

Da z nicht beobachtet ist, ersetzen wir diese fehlende Information durch ihren konditio-nalen Erwartungswert, gegeben all das was beobachtet vorliegt. Fur dessen Berechnungverwenden wir einen beliebigen zulassigen Parameterwert θ0 ∈ Θ, d.h. bezuglich f(z|y, θ0).Der konditionale Erwartungswert von ℓ(θ|y), gegeben die beobachteten Daten y, ist aberwiederum ℓ(θ|y), also gilt

E(log f(y, z|θ)

∣∣∣y, θ0) = E(log f(z|y, θ)

∣∣∣y, θ0)+ E(ℓ(θ|y)

∣∣∣y, θ0)∫log f(y, z|θ)f(z|y, θ0)dz =

∫log f(z|y, θ)f(z|y, θ0)dz +

∫ℓ(θ|y)f(z|y, θ0)dz

Q(θ|θ0) = H(θ|θ0) + ℓ(θ|y) . (6.2)

Die Maximierung von ℓ(θ|y) in θ ist daher aquivalent mit der Maximierung der DifferenzQ(θ|θ0)−H(θ|θ0). Bemerke, dass (6.2) fur beliebige Parameterwerte θ ∈ Θ halt, also auchfur θ = θ0 wofur wir

Q(θ0|θ0) = H(θ0|θ0) + ℓ(θ0|y)

erhalten. Somit resultiert als Differenz zu (6.2) fur die marginale Log-Likelihood Funktion

ℓ(θ|y)− ℓ(θ0|y) = Q(θ|θ0)−Q(θ0|θ0)−[H(θ|θ0)−H(θ0|θ0)

]. (6.3)

Page 76: Generalisierte Lineare Modelle - STAT · Median) der logyi ein multiplikatives Modell fur¨ die Mediane und Erwartungswerte der yi ist. Fur¨ die Erwartungswerte von y i wurde der

6.2. EM SCHATZER 73

Allgemein liefert die Jensen Ungleichung fur eine konkave Funktion, wie g(x) = log(x),die Abschatzung E(g(X)) ≤ g(E(X)). Damit folgt fur beliebiges θ ∈ Θ

H(θ|θ0)−H(θ0|θ0) =

∫log

f(z|y, θ)f(z|y, θ0)

f(z|y, θ0)dz

= E(log

f(z|y, θ)f(z|y, θ0)

∣∣∣y, θ0)≤ log E

( f(z|y, θ)f(z|y, θ0)

∣∣∣y, θ0)= log

∫f(z|y, θ)f(z|y, θ0)

f(z|y, θ0)dz

= log

∫f(z|y, θ)dz = log 1 = 0 ,

alsoH(θ|θ0)−H(θ0|θ0) ≤ 0 . (6.4)

Dies hat wiederum zur Folge, dass wir (6.3) schreiben konnen als

ℓ(θ|y)− ℓ(θ0|y) ≥ Q(θ|θ0)−Q(θ0|θ0) .

Sei θ′ jener Wert von θ, der fur ein gegebenes (festes) θ0 die Funktion Q(θ|θ0) maximiert.Somit gilt

Q(θ′|θ0)−Q(θ|θ0) ≥ 0 und daher auch Q(θ′|θ0)−Q(θ0|θ0) ≥ 0 .

Dies zeigt aber, dass durch die Maximierung von Q(θ|θ0) die Log-Likelihood nach diesem(EM-) Schritt zumindest nicht verkleinert wird, denn das letzte Ergebnis impliziert

ℓ(θ′|y)− ℓ(θ0|y) ≥ 0 .

Stationaritat: Weiters resultiert durch Differenzieren von (6.2) die Identitat

∂θQ(θ|θ0) =

∂θH(θ|θ0) +

∂θℓ(θ|y) .

Nun gilt aber wegen (6.4) gerade H(θ|θ0) ≤ H(θ0|θ0) fur alle θ. Unter dieser Extremalbe-dingung folgt, dass

∂θH(θ|θ0)|θ=θ0 = 0

halt was bedeutet, dass die Funktion H(θ|θ0) stationar ist in θ = θ0. Ist somit Q(θ|θ0)stationar in θ = θ0, dann ist dies dort auch ℓ(θ|y).Der EM-Algorithmus ist zweistufig. Im E-Schritt wird der bedingte ErwartungswertQ(θ|θ0) fur gegebenes θ0 berechnet. Danach wird im M-Schritt diese Funktion Q(θ|θ0)bezuglich θ maximiert. Sei das Ergebnis dieser Maximierung θ′, so wird damit wiederum

Page 77: Generalisierte Lineare Modelle - STAT · Median) der logyi ein multiplikatives Modell fur¨ die Mediane und Erwartungswerte der yi ist. Fur¨ die Erwartungswerte von y i wurde der

74 KAPITEL 6. MODELLE MIT ZUFALLIGEN EFFEKTEN

ein E-Schritt mit aktualisierten θ0 = θ′ durchgefuhrt. Diese Iteration wiederholt man biszur Konvergenz im marginalen Likelihood Schatzer θ.

Self-consistency des EM-Algorithmus: Falls der MLE θ ein globales Maximum von ℓ(θ|y)darstellt, so muss dieser auch

Q(θ|θ) ≥ Q(θ|θ)

genugen. Ansonsten wurde es ja einen Parameterwert θ∗ geben mit der Eigenschaft

Q(θ|θ) < Q(θ∗|θ)

was wiederumℓ(θ∗|y) > ℓ(θ|y)

impliziert und somit einen Widerspruch darstellt zur Annahme, dass θ das globale Maxi-mum von ℓ(θ|y) ist.Anstelle des Integrals in (6.1) muss also beim EM-Algorithmus das IntegralQ(θ|θ0) in (6.2)berechnet und maximiert werden. Wie das folgende Beispiel zeigt, ist diese Berechnungin einigen Anwendungen moglich.

6.2.1 Beispiel: Endliche diskrete Mischungen

Sei y1, . . . , yn eine Stichprobe aus einer diskreten Mischung von K Dichtekomponentenmit gruppenspezifischen Parametern θ1, . . . , θK (z.B. Lokation der k-ten Gruppe), einemgemeinsamen Parameter ϕ (z.B. Variabilitat – fur alle Gruppen gleich) und den Antei-len π1, . . . , πK mit

∑k πk = 1. Die marginale Dichte des i-ten Elements yi kann daher

geschrieben werden als

f(yi|θ, ϕ, π) =K∑k=1

πkf(yi|θk, ϕ) .

Somit ist die Likelihood Funktion

L(π, θ, ϕ|y) =n∏

i=1

K∑k=1

πkf(yi|θk, ϕ) =n∏

i=1

K∑k=1

πkfik . (6.5)

Hier sind θ, ϕ und π unbekannt, also sind K +1+ (K − 1) = 2K Parameter zu schatzen.Aus der Log-Likelihood Funktion

ℓ(π, θ, ϕ|y) = logL(π, θ, ϕ|y) =n∑

i=1

log

(K∑k=1

πkfik

)

erhalt man beispielsweise bezuglich ϕ

∂ϕℓ(π, θ, ϕ|y) =

n∑i=1

K∑k=1

πkfik∑Kl=1 πlfil

∂ log fik∂ϕ

=n∑

i=1

K∑k=1

wik∂ log fik∂ϕ

, (6.6)

Page 78: Generalisierte Lineare Modelle - STAT · Median) der logyi ein multiplikatives Modell fur¨ die Mediane und Erwartungswerte der yi ist. Fur¨ die Erwartungswerte von y i wurde der

6.2. EM SCHATZER 75

wobei die Gewichte von allen Parametern abhangen, also w = w(π, θ, ϕ) gilt. Diese Score-Funktion ist eine gewichtete Summe von Score-Funktionen, in der die Summanden ausjeder einzelnen Komponetendichte der Mischung stammen.

Die Gewichte wik konnen auch aus der Sicht eines formalen Bayes-Modells sehr gut inter-pretiert werden. Da per Definition

P (k|yi) =P (k)P (yi|k)∑Kl=1 P (l)P (yi|l)

=πkfik∑Kl=1 πlfil

= wik (6.7)

gilt, haben diese Gewichte folgende Bedeutung: Wahle die Komponente k zufallig mitWahrscheinlichkeit πk. Ziehe nun yi aus dieser Komponente, also aus einer Verteilung mitDichte fik. Gegeben yi ist die a posteriori Wahrscheinlichkeit, dass die Komponente kgewahlt wurde, gleich wik.

Die wik sind auch in den Score-Funktionen bezuglich θ und π wesentlich. So ist

∂θkℓ(π, θ, ϕ|y) =

n∑i=1

πk∂fik/∂θk∑Kl=1 πlfil

=n∑

i=1

wik∂ log fik∂θk

. (6.8)

Fur den Schatzer von π benotigt man die Randbedingung∑

k πk = 1, was unter Verwen-dung eines Lagrange Multiplikators zu

∂πk

(ℓ(π, θ, ϕ|y)− λ

( K∑k=1

πk − 1))

=n∑

i=1

fik∑Kl=1 πlfil

− λ =n∑

i=1

wik1

πk− λ

fuhrt. Setzt man diesen Term Null, so folgt als Losung πk =∑

iwik/λ. Summiert manuber alle k, ergibt sich wegen (6.7) 1 =

∑k πk =

∑i

∑k wik/λ = n/λ also λ = n. Damit

folgt als Score fur die Anteilswerte

1

πk

n∑i=1

wik − n . (6.9)

Die Maximum-Likelihood Schatzer sind definiert als die Nullstellen von (6.6), (6.8) und(6.9).

Fur die Anwendung des EM-Algorithmus wird jede Beobachtung yi wegen ihrer unbe-kannten Gruppenzugehorigkeit als unvollstandig betrachtet. Zu jedem yi definiert maneinen nichtbeobachtbaren Indikatorvektor zi = (zi1, . . . , ziK) mit

zik =

{1 falls yi aus Gruppe k0 sonst.

Die gemeinsame Dichte von (y, z) lautet daher

f(y, z|π, θ, ϕ) =n∏

i=1

K∏k=1

f(yi|θk, ϕ)zikπzikk ,

Page 79: Generalisierte Lineare Modelle - STAT · Median) der logyi ein multiplikatives Modell fur¨ die Mediane und Erwartungswerte der yi ist. Fur¨ die Erwartungswerte von y i wurde der

76 KAPITEL 6. MODELLE MIT ZUFALLIGEN EFFEKTEN

also

log f(y, z|π, θ, ϕ) =n∑

i=1

K∑k=1

zik

(log f(yi|θk, ϕ) + log πk

).

Im E-Schritt berechnet man fur Werte π0, θ0, ϕ0 die Funktion Q(π, θ, ϕ|π0, θ0, ϕ0) also

E(log f(y, z|π, θ, ϕ)

∣∣∣y, π0, θ0, ϕ0

)=E

(n∑

i=1

K∑k=1

zik

(log f(yi|θk, ϕ)+log πk

)∣∣∣yi, π0, θ0, ϕ0

).

Durch das Konditionieren hat man im Argument dieses Erwartungswertes außer den ziknur feste Großen. Somit folgt wegen E(zik|yi, π0, θ0, ϕ0) = P (zik = 1|yi, π0, θ0, ϕ0) = wik,wobei die wik in π0, θ0 und ϕ0 ausgewertet sind,

Q(π, θ, ϕ|π0, θ0, ϕ0) =n∑

i=1

K∑k=1

wik

(log f(yi|θk, ϕ) + log πk

). (6.10)

Dies wird im E-Schritt berechnet, was wiederum im wesentlichen auf der Berechnung derGroßen wik beruht. Die Parameter π, θ und ϕ stellen jene Großen dar, die im folgendenM-Schritt fur feste wik maximiert werden. Dazu mussen aber gerade die Nullstellen dergewichteten Score Funktionen (6.6), (6.8), und (6.9) berechnet werden.

Mischung von Normalverteilungen

Liegt eine Mischung aus K Normalverteilungen mit unterschiedlichen Erwartungen µk

und konstanter Varianz σ2 vor, so ist

log fik = −1

2log(2πσ2

)− (yi − µk)

2

2σ2

und es folgt

∂ log fik∂µk

=yi − µk

σ2,

∂ log fik∂σ2

= −1

2

( 1

σ2− (yi − µk)

2

σ4

).

Fur geeignete µk, σ2 und πk berechnet man im E-Schritt die Werte von wik. Im M-Schritt

wird mit diesen wik die Maximierung durchgefuhrt. Aus (6.8) folgt

n∑i=1

wikyi − µk

σ2= 0 =⇒ µk =

∑ni=1wikyi∑ni=1wik

.

Mit (6.6) ergibt sich

n∑i=1

K∑k=1

wik

(− 1

2σ2+

(yi − µk)2

2σ4

)= 0 =⇒ σ2 =

1

n

n∑i=1

K∑k=1

wik(yi − µk)2 .

Page 80: Generalisierte Lineare Modelle - STAT · Median) der logyi ein multiplikatives Modell fur¨ die Mediane und Erwartungswerte der yi ist. Fur¨ die Erwartungswerte von y i wurde der

6.3. UBERDISPERSIONSMODELLE 77

Schließlich wird noch (6.9) benotigt, d.h.

πk =1

n

n∑i=1

wik .

Mit diesen µk, σ2 und πk berechnet man im E-Schritt aktualisierte wik und geht damit

zum M-Schritt zuruck.

6.3 Uberdispersionsmodelle

Gegeben ein zufalliger Effekt z mit Dichte f(z) sei die bedingte Dichte einer Beobach-tung y gleich f(y|z, θ). Somit folgt als gemeinsame Dichte f(y, z|θ) = f(y|z, θ)f(z|θ). Alsmarginale Dichte ergibt sich

f(y|θ) =∫f(y, z|θ)dz =

∫f(y|z, θ)f(z|θ)dz . (6.11)

Die bedingte Dichte von z|y ist hier gegeben durch f(z|y, θ) = f(y|z, θ)f(z|θ)/f(y|θ). Alszu maximierende Funktion resultiert daher fur die Stichprobe

Q(θ|θ0) =n∑

i=1

∫log f(yi, zi|θ)f(zi|yi, θ0)dzi

=n∑

i=1

∫log f(yi, zi|θ)

f(yi|zi, θ0)f(yi|θ0)

f(zi|θ0)dzi

=n∑

i=1

1

f(yi|θ0)

∫log f(yi, zi|θ)f(yi|zi, θ0)f(zi|θ0)dzi . (6.12)

Dabei sind sowohl f(yi|θ0) (siehe (6.11)) als auch das Integral in (6.12) selbst sehr unan-genehm und nur selten analytisch geschlossen darstellbar. Zwei Ansatze sollen nun disku-tiert werden. Im ersten nehmen wir an, dass z aus einer Normalverteilung stammt unddaraufhin werden beide Integral durch eine K-Punkt Gauss-Quadratur approximiert.Falls diese Annahme nicht getroffen werden kann, wird im zweiten Ansatz f(z) durch dennicht-parametrischen Maximum-Likelihood, NPML Schatzer f(z) ersetzt und diedadurch resultierende Zielfunktion maximiert.

6.3.1 Normalverteilte zufallige Effekte

Fur f(z) = ϕ(z) liefert die Gauss-Quadratur als Approximation

f(y|θ0) =∫f(y|z, θ0)ϕ(z)dz ≈

K∑k=1

f(y|zk, θ0)πk

Page 81: Generalisierte Lineare Modelle - STAT · Median) der logyi ein multiplikatives Modell fur¨ die Mediane und Erwartungswerte der yi ist. Fur¨ die Erwartungswerte von y i wurde der

78 KAPITEL 6. MODELLE MIT ZUFALLIGEN EFFEKTEN

mit bekannten Massen πk auf den festen (bekannten) Massepunkten zk. Wendet mandieses Approximationsverfahren auch auf das zweite Integral an, so resultiert

Q(θ|θ0) ≈n∑

i=1

∑Kk=1 log f(yi, zk|θ)f(yi|zk, θ0)πk∑K

j=1 f(yi|zj, θ0)πj

=n∑

i=1

K∑k=1

wik log f(yi, zk|θ)

=n∑

i=1

K∑k=1

wik

(log f(yi|zk, θ) + log πk

)(6.13)

mit den Gewichten

wik =πkf(yi|zk, θ0)∑Kj=1 f(yi|zj, θ0)πj

, (6.14)

die in θ = θ0 ausgewertet sind und daher fur die folgende Maximierung feste Großendarstellen. Die Approximation (6.13) ist identisch der Funktion Q in (6.10) und die Ge-wichte (6.14) entsprechen den Großen (6.7). Daher ist die Schatzung der Parameter imModell mit zufalligen Effekten aquivalent der Schatzung in diskreten Mischmodellen, wo-bei hier aber die Massen πk bekannte Großen darstellen und bedingte Dichten gemischtwerden. Schreibt man den Linearen Pradiktor dieses Modells als

ηi = xtiβ + σzzi , mit ziiid∼ N(0, 1) , (6.15)

so wird bei der Maximierung von (6.13) bezuglich β gerade die mit (6.14) gewichteteLikelihood einer Stichprobe mit nK Elementen maximiert. Diese erweiterte Stichprobeerhalt man, wenn jeder Beobachtung yi gerade K Lineare Pradiktoren der Form

ηik = xtiβ + σzzk

mit bekannten Massestellen zk und unbekanntem β und σz zugeordnet werden. Dies be-deutet, dass jede Beobachtung K-fach betrachtet wird und deren Lineare Pradiktorenjeweils mit zk erweitert werden. Der Schatzer zu dieser neuen Spalte stellt somit denSchatzer von σz dar.

Fur jede Iteration der EM-Schatzung ist daher eine Programm notwendig, mit dem einegewichtete ML-Schatzung eines Generalisierten Linearen Modells gerechnet werden kann.

Page 82: Generalisierte Lineare Modelle - STAT · Median) der logyi ein multiplikatives Modell fur¨ die Mediane und Erwartungswerte der yi ist. Fur¨ die Erwartungswerte von y i wurde der

6.3. UBERDISPERSIONSMODELLE 79

Als Datensatz verwendet man dazu die erweiterte Struktur

y w β σzy1 w11 x11 . . . x1p z1...

......

......

yn wn1 xn1 . . . xnp z1y1 w12 x11 . . . x1p z2...

......

......

yn wn2 xn1 . . . xnp z2...

......

......

y1 w1K x11 . . . x1p zK...

......

......

yn wnK xn1 . . . xnp zK

6.3.2 Zufallige Effekte aus unbekannter Verteilung

Falls uber f(z) keine Annahmen getroffen werden konnen, so sollte f(z) nichtparametrischgeschatzt werden. Der Schatzer f(z) ist dann eine Wahrscheinlichkeitsfunktion, definiertauf K geschatzte Massepunkte zk mit Massen πk. Entsprechendes Vorgehen wie bei derGauss-Quadratur liefert (6.13) als Zielfunktion mit Gewichten (6.14), wobei jetzt jedochdie zk und πk unbekannt sind. Daher wird hier noch zusatzlich die Schatzung (6.9) fur πkverwendet. Fur den hierbei betrachteten Linearen Pradiktor

ηi = xtiβ + zi, mit ziiid∼ F (z) , (6.16)

folgt

ηik = xtiβ + zk ,

wobei die K Stellen zk unbekannt sind. Mittels eines K-stufigen Faktors kann der Pradik-tor umgeschrieben werden zu

ηik = xtiβ + z1 · 0 + · · ·+ zk−1 · 0 + zk · 1 + zk+1 · 0 + · · ·+ zK · 0

und die unbekannten z1, . . . , zK stellen gerade die Parameter zu diesenK Dummy-Variablen(0,1) dar. Falls x einen Intercept enthalt, kann nicht zwischen diesem und z1 unterschie-den werden. Der dazu notwendige, erweiterte Datensatz hat wiederum nK Elemente. Fur

Page 83: Generalisierte Lineare Modelle - STAT · Median) der logyi ein multiplikatives Modell fur¨ die Mediane und Erwartungswerte der yi ist. Fur¨ die Erwartungswerte von y i wurde der

80 KAPITEL 6. MODELLE MIT ZUFALLIGEN EFFEKTEN

einen M-Schritt wird eine gewichtete ML-Schatzung fur das GLM bezuglich

y w β zy1 w11 x11 . . . x1p 1 0 . . . 0...

......

......

......

yn wn1 xn1 . . . xnp 1 0 . . . 0y1 w12 x11 . . . x1p 0 1 . . . 0...

......

......

......

yn wn2 xn1 . . . xnp 0 1 . . . 0...

......

......

......

y1 w1K x11 . . . x1p 0 0 . . . 1...

......

......

......

yn wnK xn1 . . . xnp 0 0 . . . 1

durchgefuhrt. Im folgenden E-Schritt werden nur die Gewichte wik entsprechend aktuali-siert. Als nichtparametrischen Maximum-Likelihood Schatzer (NPMLE) fur die Verteilungder Zufallseffekte erhalt man bei Konvergenz die K Paare

f(z) = (z1, π1), . . . , (zK , πK) .

Dies ergeben eine Multinomial-Verteilung auf den geschatzten K Massestellen z mitgeschatzten Wahrscheinlichkeitsmassen π.

6.3.3 Pradiktionen bei NPML Schatzung

Als Schatzung fur das konditionale Modell µik = E(yi|zk) erhalt man fur jede Kompo-nente k = 1, . . . , K

g(µik) = ηik = xtiβ + zk , also µik = g−1(ηik) .

Diese stellen parallele Regressionsebenen im (η, x)-Raum dar.

Interessant ist auch eine Schatzung des marginalen Modells, also von E(yi). Die alter-native Bezeichnung population average wird in der Literatur nicht konsistent genutzt. Dadie marginale Verteilung der yi die gemischte Exponentialfamilie ist, folgt

E(yi) =

∫yi

∫f(yi|zi)f(zi) dzi dyi

≈∫yi

K∑k=1

f(yi|zk)πk dyi =K∑k=1

πk

∫yif(yi|zk) dyi =

K∑k=1

πkE(yi|zk)

und es resultiert

E(yi) =K∑k=1

πkµik .

Page 84: Generalisierte Lineare Modelle - STAT · Median) der logyi ein multiplikatives Modell fur¨ die Mediane und Erwartungswerte der yi ist. Fur¨ die Erwartungswerte von y i wurde der

6.3. UBERDISPERSIONSMODELLE 81

Der posterior Mean eines Zufallseffekts zi, gegeben die Beobachtung yi, ist gleich

E(zi|yi) =

∫zif(zi|yi)dzi

=

∫zi

f(yi|zi)f(zi)∫f(yi|zi)f(zi)dzi

dzi

≈K∑k=1

zkf(yi|zk)πk∑Kl=1 f(yi|zl)πl

.

Der empirische Bayes Schatzer dafur ist

E(zi|yi) =K∑k=1

zkwik ,

das posteriori-gewichtete Mittel der geschatzten Massepunkte. Damit ist es jetzt moglich,den linearen Pradiktor sowie E(zi|yi) zu berechnen. Wegen

∑k wik = 1 resultiert dafur

ηi = xtiβ + E(zi|yi) =K∑k=1

wik

(xtiβ + zk

)=

K∑k=1

wikηik

µi =K∑k=1

wikµik .

6.3.4 Beispiel: Matched Pairs

In einer Studie des Landeshygienikers fur die Steiermark wurden alle zwei Wochen uber einvolles Jahr bei zwei benachbarten Grazer Wohnsiedlungen (site=6 bzw. site=7) die Bak-terienkonzentrationen in der Außenluft beobachtet. Die beiden Siedlungen unterscheidensich bezuglich des Vorhandenseins einer Kompostierungsanlage (site=7). Es ist bekannt,dass die Anzahl kolonienbildender luftgetragener Mikroorganismen (cfu: colonies formingunits) vom vorherrschenden Wetter abhangig ist. Zu diesen 26 × 2 Beobachtungen bac

gehoren deshalb auch Temperatur t und Luftfeuchtigkeit h.

Als Messgerat wurde ein sechsstufiger Luftsammler verwendet, dessen Stufen unterschied-lich große Keime filtern. Dabei sind besonders die kleinen Mikroorganismen (stage>3) furden Menschen gefahrlich, da diese bis zur Lunge vordringen konnen. Es ist zu untersuchen,ob es einen relevanten Kompostieranlageneffekt gibt.

Die Erstanalyse dieser Daten ergibt einen extremen cfu Wert, weshalb beide Tripel nichtin die folgenden Betrachtungen aufgenommen werden.

> bac67red <- bacteria[(site > 5 & bac < 20), ]

Page 85: Generalisierte Lineare Modelle - STAT · Median) der logyi ein multiplikatives Modell fur¨ die Mediane und Erwartungswerte der yi ist. Fur¨ die Erwartungswerte von y i wurde der

82 KAPITEL 6. MODELLE MIT ZUFALLIGEN EFFEKTEN

> bac456 <- rbind.data.frame(cbind(bac67red[ ,1:4], 4, bac <- b4),

cbind(bac67red[ ,1:4], 5, bac <- b5),

cbind(bac67red[ ,1:4], 6, bac <- b6))

> names(bac456) <- c("date","site","h","t","stage","bac")

> bac456[ ,5] <- factor(bac456[ ,5]); attach(bac456)

Da es sich hierbei um Anzahlen handelt, wird zuerst ein loglineares Poissonmodell betrach-tet. Wir sind vor allem am Verhalten an den beiden Orten auf den drei Stufen interessiertund wollen auf die Wetterbedingungen (an den beiden Orten ahnlich) standardisieren.

> gt <- glm(bac ~ stage*site + t + t^2, data=bac456, family=poisson)

> gth <- update(gt, . ~ . + h + h^2)

> anova(gt, gth, test="Chi")

Terms Df Dev Test Df Dev Pr(Chi)

1 stage * site + t + t^2 142 258.8

2 stage * site + t + t^2 + h + h^2 140 255.1 +h+I(h^2) 2 3.75 0.154

> summary(gt, cor=F)

Coefficients:

Value Std. Error t value

(Intercept) 0.344616 0.1874847 1.8381

stage5 0.397696 0.1969099 2.0197

stage6 -0.295463 0.2332816 -1.2666

site 0.059636 0.2120410 0.2812

t 0.059657 0.0175228 3.4045

I(t^2) -0.002146 0.0006113 -3.5106

stage5site -0.442148 0.2884261 -1.5330

stage6site 0.418077 0.3086641 1.3545

(Dispersion Parameter for Poisson family taken to be 1 )

Null Deviance: 284.2 on 149 degrees of freedom

Residual Deviance: 258.8 on 142 degrees of freedom

Nur die lineare und quadrierte Temperatur scheinen relevant. Bedenklich ist die Uber-dispersion (Deviance 258.8 bei df=142). Dies konnte im Fehlen von weiteren Pradiktor-variablen begrundet sein, z.B. Wind oder Luftdruck. Ein Modell mit zufalligen Effektensollte dies teilweise kompensieren.

Wir beginnen mit der Annahme normalverteilter Effekte. Durch Erhohen der Anzahl derQuadraturpunkte kann die Deviance von 258.8 (K = 1) auf 235.5 (K = 2) und 227.6(K = 3) reduziert werden. Eine weitere Vergroßerung von K fuhrt jedoch zu keinerVerbesserung.

> rem2 <-od(y=bac, method="GQ", K=2)

iter.: 8 deviance: 235.55

> rem3 <-od(y=bac, method="GQ", K=3)

iter.: 7 deviance: 227.59

> rem4 <-od(y=bac, method="GQ", K=4)

Page 86: Generalisierte Lineare Modelle - STAT · Median) der logyi ein multiplikatives Modell fur¨ die Mediane und Erwartungswerte der yi ist. Fur¨ die Erwartungswerte von y i wurde der

6.3. UBERDISPERSIONSMODELLE 83

iter.: 7 deviance: 227.93

> summary(rem3$model, cor=F)

Coefficients:

Value Std. Error t value

t.i 0.05881 0.0175492 3.3511

I(t.i^2) -0.00211 0.0006208 -3.3981

z[j] 0.61686 0.0609783 10.1161

site.ikeinKstage.i4 0.14927 0.1888571 0.7904

site.imitKstage.i4 0.24514 0.1860528 1.3176

site.ikeinKstage.i5 0.59348 0.1688974 3.5139

site.imitKstage.i5 0.17491 0.1889312 0.9258

site.ikeinKstage.i6 -0.13885 0.2132799 -0.6510

site.imitKstage.i6 0.33578 0.1795881 1.8697

Die geschatzte Standardabweichung der zufalligen Effekte ist σz = 0.62. Standardfehlerund t-Werte stammen nur aus der letzten Iteration und sind nicht interpretierbar.

Alternativ wollen wir auch eine nichtparametrische Schatzung durchfuhren. Bei K = 2 re-sultiert eine (nur etwas geringere) Deviance von 225.6. Die Massepunkte sind (1.45, 0.14)mit Massen (0.13, 0.87), was auf Abweichungen von der Normalverteilungsannahme hin-weist. Diese nichtparametrische Schatzung ergibt eine zweipunktige Effektverteilung mitµz = 0.13 ·1.45+0.87 ·0.15 = 0.32 und σ2

z = 0.13 · (1.45− µz)2+0.87 · (0.15− µz)

2 = 0.19,also σz = 0.44.

> remnp2 <-od(y=bac, method="NPMLE", K=2)

iter.: 57 deviance: 225.56

> remnp3 <-od(y=bac, method="NPMLE", K=3)

iter.: 38 deviance: 225.58

> summary(remnp2$model, cor=F)

Coefficients: (1 not defined because of singularities)

Value Std. Error t value

t.i 0.058465 0.0175709 3.32737

I(t.i^2) -0.002053 0.0006211 -3.30579

zf1 1.452755 0.1887234 7.69780

zf2 0.145988 0.1832268 0.79676

site.ikeinKstage.i4 -0.126373 0.2062250 -0.61279

site.imitKstage.i4 0.019329 0.2031400 0.09515

site.ikeinKstage.i5 0.267332 0.1868670 1.43060

site.imitKstage.i5 -0.092793 0.2049944 -0.45266

site.ikeinKstage.i6 -0.382658 0.2250004 -1.70070

site.imitKstage.i6 NA NA NA

> remnp2$pi

1 2

0.1298 0.8702

Page 87: Generalisierte Lineare Modelle - STAT · Median) der logyi ein multiplikatives Modell fur¨ die Mediane und Erwartungswerte der yi ist. Fur¨ die Erwartungswerte von y i wurde der

84 KAPITEL 6. MODELLE MIT ZUFALLIGEN EFFEKTEN

Die Aufnahme eines zufalligen Effektes ergibt fur beide Zugange betrachtlich geringereWerte der Deviancen. Die Freiheitsgradanzahl von 142 muss bei der Gauß-Quadratur um1 (wegen σz) und beim nichtparametrischen Ansatz um 3 (wegen z1, z2, π1) reduziertwerden.

Beim nichtparametrischen Ansatz sei noch zu erwahnen, dass nur die beiden Parameterzur Temperatur (0.0585, −0.0021) mit den Ergebnissen der Quadratur (0.0588, −0.0021)direkt vergleichbar sind. Bei der Gauss-Quadratur ist kein expliziter Intercept enthalten;daher konnen alle Stufen der Faktorinteraktion geschatzt werden. Im nichtparametrischenModell ist jedoch ein zweistufiger Intercept-Faktor inkludiert, weshalb nicht mehr alleInteraktionsparameter schatzbar sind. Die gewahlte Kontrastierung setzt die letzte Stufevon site:stage auf Null (aliased mit der zweistufigen Modellkonstanten zf) und schatztalle verbleibenden Abweichungen zu dieser Referenzklasse.

> fc <- matrix(fitted(remnp2$model), ncol=2, byrow=T)

> plot(bac456$t, fc[,1], ylim=c(0,10), xlab="temperature",

ylab="fitted conditional means (k=1)")

> plot(bac456$t, fc[,2], ylim=c(0,10), xlab="temperature",

ylab="fitted conditional means (k=2)")

> fm <- fc %*% remnp2$pi

> plot(bac456$t, fm, ylim=c(0,10), xlab="temperature",

ylab="fitted marginal means")

> fp <- fitted(gt)

> plot(bac456$t, fp, ylim=c(0,10), xlab="temperature",

ylab="fitted Poisson means")

Die Verlaufe der geschatzten konditionalen Modelle in der Abbildung 6.1 entsprechengerade den geschatzten Interaktionsparametern, d.h. die oberste Kurve gehort zu keineKompostieranlage:Stufe 5, dann Kompostieranlage:Stufe 4 gefolgt von Kompostieranla-ge:Stufe 6, u.s.w. Die marginalen Modelle darunter (links) stellen das mit π gewichteteMittel der beiden oberen Ergebnisse dar und unterscheiden sich optisch nicht von denErgebnissen aus dem Poisson-Modell ohne Zufallseffekte (rechts).

> w <- matrix(remnp2$w, ncol=2, byrow=T)

> r <- (bac-fm)/sqrt(fm) plot(r, w[ ,1], xlab="Pearson residuals",

> ylab="posterior prob for component 1"); abline(h=0.5)

> plot(bac456$t, r, xlab="temperature", ylab="Pearson residuals")

abline(h=0)

In der Abbildung 6.2 (links) sieht man, dass nur wenige (etwa 15) yi mit großen PearsonResiduen auch großere posteriori Wahrscheinlichkeiten (wi1 > 0.5) fur die erste Kompo-nente haben. Fur die Mehrzahl gilt jedoch wi2 > wi1, also eher eine Zugehorigkeit zurzweiten Komponente. Der rechte Teil dieser Abbildung zeigt, dass die Residuen keineverbleibende Struktur in der Temperatur haben und eher zufallig um Null liegen.

> z <- coef(remnp2$model)[3:4]

> eBz <- w %*% z; mean(eBz)

Page 88: Generalisierte Lineare Modelle - STAT · Median) der logyi ein multiplikatives Modell fur¨ die Mediane und Erwartungswerte der yi ist. Fur¨ die Erwartungswerte von y i wurde der

6.3. UBERDISPERSIONSMODELLE 85

-10 0 10 20 30 40

temperature

02

46

810

fitte

d co

nditi

onal

mea

ns (

k=1)

-10 0 10 20 30 40

temperature

02

46

810

fitte

d co

nditi

onal

mea

ns (

k=2)

0 10 20 30

temperature

02

46

810

fitte

d m

argi

nal m

eans

0 10 20 30

temperature

02

46

810

fitte

d P

oiss

on m

eans

Abbildung 6.1: Oben: Gefittete konditionale Modelle fur k = 1 (links) und k = 2 (rechts)der nichtparametrischen Schatzung. Unten: Gefittete marginale Means (links) gegen diefitted Means beim Poisson-Modell (rechts).

0.3156

> plot(bac, eBz, ylim=c(0,1.5), xlab="bacteria counts in cfu’s",

ylab="posterior random effect means")

> eBmu <- diag(w %*% t(fc))

> plot(bac, eBmu, xlim=c(0,12),ylim=c(0,12),xlab="bacteria counts in cfu’s",

ylab="empirical Bayes estimates of mu") abline(0,1);

> abline(lsfit(bac, eBmu))

In der Abbildung 6.3 oben links ist zu erkennen, daß die empirischen Bayes Schatzer derzi von den yi abhangen. Diese Werte sind dann groß, wenn auch die cfu-Werte hoch sind.Ihr globales Mittel ist 0.3156, und entspricht etwa den Konstanten beim Poisson-Modell(0.3446) oder beim Modell mit Gauss-Quadratur (0.3358 - letzte Stufe der Zweifach-interaktion). Die empirischen Bayes Schatzungen der µ’s sind oben rechts gegen die yiaufgetragen. Prinzipiell ist ein lineares Muster zu sehen, jedoch wird auch klar, weshalb

Page 89: Generalisierte Lineare Modelle - STAT · Median) der logyi ein multiplikatives Modell fur¨ die Mediane und Erwartungswerte der yi ist. Fur¨ die Erwartungswerte von y i wurde der

86 KAPITEL 6. MODELLE MIT ZUFALLIGEN EFFEKTEN

0 2 4 6

Pearson residuals

0.0

0.2

0.4

0.6

0.8

1.0

post

erio

r pr

ob fo

r co

mpo

nent

1

0 10 20 30

temperature

02

46

Pea

rson

res

idua

ls

Abbildung 6.2: Pearson Residuen gegen die geschatzten posteriori Wahrscheinlichkeitenfur die erste Komponente (links) und gegen die Temperatur (rechts).

man diese Schatzer als shrinkage estimates towards the mean bezeichnet. Große Responseswerden unterschatzt wahrend Null-Responses eindeutig uberschatzt sind.

Die Frage nach einen Kompostieranlageneffekt kann nicht so einfach beantwortet wer-den. Dieser Effekt findet sich im Modell in Wechselwirkung mit der Plattenstufe wieder.Bereits die Schatzer dieser Interaktion im Modell zeigen dieses Verhalten deutlich. Sosind diese bei der Siedlung ohne Kompostieranlage am großten fur Stufe 5, gefolgt vonder Stufe 4 und am kleinsten bei der Stufe 6. In der Nahe der Kompostieranlage siehtdiese Ordnung jedoch anders aus: alle drei Effekte sind ziemlich ahnlich und deren Rei-henfolge lautet 6, 4 und 5, respektive 4, 6 und 5 bei der nichtparametrischen Schatzung.Die Interaktionsplots in der Abbildung 6.3 zeigt dieses Verhalten deutlich. Links findetman die Mittel der gefitteten marginal Means und rechts die entsprechenden empirischenBayes Schatzer unter der nichtparametrischen Modellschatzung. Die Verwendung der Ori-ginalbeobachtungen yi anstelle der Bayes Schatzer wurde ein vom rechten Bild nicht zuunterscheidendes Verhalten zeigen.

Page 90: Generalisierte Lineare Modelle - STAT · Median) der logyi ein multiplikatives Modell fur¨ die Mediane und Erwartungswerte der yi ist. Fur¨ die Erwartungswerte von y i wurde der

6.3. UBERDISPERSIONSMODELLE 87

0 2 4 6 8 10 12

bacteria counts in cfu’s

0.0

0.5

1.0

1.5

post

erio

r ra

ndom

effe

ct m

eans

0 2 4 6 8 10 12

bacteria counts in cfu’s

02

46

810

12

empi

rical

Bay

es e

stim

ates

of m

u

1.4

1.6

1.8

2.0

2.2

2.4

mea

n fit

ted

mar

gina

l mod

el

site

keinK mit K

stage

456

1.4

1.6

1.8

2.0

2.2

2.4

2.6

mea

n em

p B

ayes

est

imat

es

site

keinK mit K

stage

456

Abbildung 6.3: Oben: Posteriori Means der Zufallseffekte zi gegen die Responses yi (links)und empirische Bayes Schatzungen der µi’s gegen yi (rechts). Unten: Interaktionsplots furstage:site. Mittel der fitted marginals (links) und empirische Bayes Schatzer (rechts).