Upload
others
View
4
Download
0
Embed Size (px)
Citation preview
Logistische Regression
13.11.2017
Motivation
Regressionsrechnung:
Untersuchung des Zusammenhangs zwischen einer (oder mehreren) Zielvariablen und einer oder mehreren erklärenden Variablen.
Bisher gesehen:
Kontinuierliche Zielvariable→ Einfache lineare Regression→ Multiple lineare Regression
Heute:
Binäre Zielvariable→ Logistische Regression
Tierversuch (Toxikologie)Überleben von Mäusen in Abhängigkeit von der Dosis?
FrühgeburtenWie beeinflussen Gewicht, Alter, … das Überleben von Frühgeborenen?
TechnikBei welchen Bedingungen (Temperatur, Feuchtigkeit,…) fallen Geräte aus?
Customer-Relationship-Management (CRM)Was sind erfolgreiche Massnahmen, damit ein Kunde auf ein neues Produkt wechselt?
→ Gemeinsamkeiten
▪ Binäre Zielgrösse (lebt/tot, Ausfall/kein Ausfall, ja/nein, …)▪ Beliebige erklärende Variablen
Beispiele
Beispiel: Aderverengung
Ader verengt (Y=1)
Ader nicht verengt (Y=0)
binäre Zielvariable
Y: Verengung (ja/nein)
erklärende Variablen
Vol: Atem-VolumenRate: Atem-Frequenz
Idee: Modelliere die Wahrscheinlichkeit einer Aderverengung, gegeben die erklärenden Variablen Vol und Rate:
𝑃 𝑌 = 1 𝑉𝑜𝑙, 𝑅𝑎𝑡𝑒)
Grundidee
Gegeben▪ Binäre Zielvariable 𝑌
▪ Erklärende Variablen 𝑋(1), … , 𝑋(𝑚)
ZielModelliere die Wahrscheinlichkeit, dass für die i-te Beobachtungseinheit die Zielvariable den Wert 1 annimmt, gegeben ihre 𝑚 Eingangsgrössen
𝑃 𝑌𝑖 = 1 𝑥𝑖(1), 𝑥𝑖
(2), … , 𝑥𝑖
(𝑚))
BeispielModelliere die Wahrscheinlichkeit, dass i-te Patientin eine Gefässverengung hat, gegeben ihre Atem-Frequenz und ihr Atem-Volumen.
𝑃 𝑌𝑖 = 1 𝑉𝑜𝑙𝑖 , 𝑅𝑎𝑡𝑒𝑖)
Modellansatz
ZielModelliere die Wahrscheinlichkeit, dass für die i-te Beobachtungseinheit die Zielvariable den Wert 1 annimmt, gegeben ihre 𝑚 Eingangsgrössen
𝑃 𝑌𝑖 = 1 𝑥𝑖(1), 𝑥𝑖
(2), … , 𝑥𝑖
(𝑚))
Ansatz 𝑃 𝑌𝑖 = 1 𝑥𝑖(1), 𝑥𝑖
(2), … , 𝑥𝑖
(𝑚)) = ℎ(𝑥𝑖
(1), 𝑥𝑖
(2), … , 𝑥𝑖
(𝑚))
BemerkungFür eine binäre Variable 𝑌 ∈ {0,1} gilt:
𝐸 𝑌 = 0 ∗ 𝑃 𝑌 = 0 + 1 ∗ 𝑃 𝑌 = 1 = 𝑃(𝑌 = 1)
Das heisst, wir modellieren im Prinzip wie bei der linearen Regression:
𝐸[𝑌𝑖 | 𝑥𝑖1, 𝑥𝑖
2, … , 𝑥𝑖
𝑚] = ℎ(𝑥𝑖
(1), 𝑥𝑖
(2), … , 𝑥𝑖
(𝑚))
Lineare Regression?
Ansatz wie bei der linearen Regression??
𝑌𝑖 = 𝛽0 + 𝛽1𝑥𝑖(1)
+ 𝛽2𝑥𝑖(2)
+⋯+ 𝛽𝑚𝑥𝑖(𝑚)
+ 𝐸𝑖
Wenn man das versucht, dann gilt:
𝑃 𝑌𝑖 = 1 𝑥𝑖) = 𝐸 𝑌𝑖 𝑥𝑖 = 𝛽0 + 𝛽1𝑥𝑖(1)
+ 𝛽2𝑥𝑖(2)
+⋯+ 𝛽𝑚𝑥𝑖(𝑚)
Das heisst, die Funktion ℎ wäre linear.
→ Die geschätzten Wahrscheinlichkeiten können < 0 oder > 1 werden!
→ Idee: Transformation von 𝑌𝑖 direkt?
→ Idee 2: Transformation von 𝐸 𝑌𝑖 𝑥𝑖 = 𝑃 𝑌𝑖 = 1 𝑥𝑖). Am besten so, dass
es keine Einschränkungen mehr gibt.
Logistische Regression
Logit-Funktion 𝑔
Benutze die Logit-Funktion 𝑔: [0,1] → ℝ
𝑔 𝜋 = log𝜋
1−𝜋= log 𝜋 − log(1 − 𝜋)
Bemerkung: Logit-Funktion -> Logistische Regression. Andere Funktionen möglich.
Grundidee
Die Funktion 𝑔 transformiert die Wahrscheinlichkeiten auf die gesamte reelle Achse (ℝ).
→ Keine Beschränkung der möglichen Werte
→ Lineare Funktion als Modell geeignet
Logistisches Regressionsmodell
Auf der transformierten Skala verwendet man den Ansatz von vorher (wie bei der multiplen linearen Regression).
Das Modell der logistischen Regression lautet:
𝑔 𝑃 𝑌𝑖 = 1 𝑥𝑖) =log𝑃 𝑌𝑖=1 𝑥𝑖)
𝑃 𝑌𝑖=0 𝑥𝑖)
= 𝛽0 + 𝛽1𝑥𝑖(1)
+ 𝛽2𝑥𝑖(2)
+⋯+ 𝛽𝑚𝑥𝑖𝑚
= 𝑥𝑖𝑇𝛽 = 𝜂𝑖
mit 𝑥𝑖 = (1, 𝑥𝑖(1)
, 𝑥𝑖(2)
,…, 𝑥𝑖(𝑚)
) und 𝛽 = (𝛽0, 𝛽1,…, 𝛽𝑚).
Terminologie
▪ 𝜂𝑖 = 𝛽0 + 𝛽1𝑥𝑖(1)
+ 𝛽2𝑥𝑖(2)
+⋯+ 𝛽𝑚𝑥𝑖𝑚
= 𝑥𝑖𝑇𝛽 heisst linearer Prädiktor
▪ 𝑔 heisst Link-Funktion. Die Link-Funktion transformiert den Erwartungs-
wert 𝐸 𝑌𝑖 𝑥𝑖 = 𝑃 𝑌𝑖 = 1 𝑥𝑖) auf die geeignete Skala (hier: ℝ)
Inverse Link-Funktion 𝑔−1
Kennt man den linearen Prädiktor 𝜂𝑖 (oder die Parameter 𝛽 = (𝛽0, 𝛽1,…, 𝛽𝑚)),
dann erhält man die Wahrscheinlichkeit 𝑃 𝑌𝑖 = 1 𝑥𝑖) gemäss
𝑃 𝑌𝑖 = 1 𝑥𝑖) = 𝑔−1 𝜂𝑖 =exp{𝜂𝑖}
1+exp{𝜂𝑖}
Entsprechend ist
𝑃 𝑌𝑖 = 0 𝑥𝑖) = 1 − 𝑃 𝑌𝑖 = 1 𝑥𝑖) =1
1+exp{𝜂𝑖}
Terminologie
▪ Die inverse Link-Funktion 𝑔−1 heisst logistische Funktion.
𝑔 und 𝑔−1
12
p h
𝑔(𝜋)
𝑔−1(𝜂)
Beispiel: Aderverengung
Ader verengt (Y=1)
Ader nicht verengt (Y=0)
binäre Zielvariable
Y: Verengung ja/nein
erklärende Variablen
Vol: Atem-VolumenRate: Atem-Frequenz
Logistisches Regressionsmodell:
𝑔(𝑃 𝑌 = 1 𝑉𝑜𝑙, 𝑅𝑎𝑡𝑒)) = 𝛽0 + 𝛽1 ∗ 𝑉𝑜𝑙 + 𝛽2 ∗ 𝑅𝑎𝑡𝑒
Beispiel: Aderverengung
Das angepasste logistische Regressionsmodell lautet:
𝑔(𝑃 𝑌 = 1 𝑉𝑜𝑙, 𝑅𝑎𝑡𝑒)) = መ𝛽0 + መ𝛽1 ∗ 𝑉𝑜𝑙 + መ𝛽2 ∗ 𝑅𝑎𝑡𝑒
= −9.53 + 3.88 ∗ 𝑉𝑜𝑙 + 2.65 ∗ 𝑅𝑎𝑡𝑒
Punkte in der (𝑉𝑜𝑙, 𝑅𝑎𝑡𝑒)-Ebene mit gleichen Wahrscheinlichkeiten besitzen die Eigenschaft, dass
−9.53 + 3.88 ∗ 𝑉𝑜𝑙 + 2.65 ∗ 𝑅𝑎𝑡𝑒 = 𝑘𝑜𝑛𝑠𝑡𝑎𝑛𝑡
Das heisst, 𝑅𝑎𝑡𝑒 hängt linear von 𝑉𝑜𝑙 ab.
Beispiel: AderverengungR
ate
𝑉𝑜𝑙
→ (𝑉𝑜𝑙, 𝑅𝑎𝑡𝑒)-Ebene
▪ Punkte mit gleichen W’keiten liegen auf einer Geraden▪ Geraden zu unterschiedlichen W’keiten sind zueinander parallel
Beispiel: Aderverengung
𝑔(𝑃 𝑌 = 1 𝑉𝑜𝑙, 𝑅𝑎𝑡𝑒)) = −9.53 + 3.88 ∗ 𝑉𝑜𝑙 + 2.65 ∗ 𝑅𝑎𝑡𝑒 = Ƹ𝜂
Ƹ𝜂
Y Vorhergesagte W’keitgemäss Modell:
𝑃 𝑌 = 1 ො𝜂 =exp{ො𝜂}
1 + exp{ො𝜂}
Interpretation der Parameter
Erinnerung: Das Modell der logistischen Regression lautet:
log(odds(Y|x))=log𝑃 𝑌=1 𝑥)
𝑃 𝑌=0 𝑥)= 𝛽0 + 𝛽1𝑥
1 + 𝛽2𝑥2 +⋯+ 𝛽𝑚𝑥
𝑚
Wenn man 𝑥(𝑗) um eine Einheit erhöht (und alles andere fix lässt), dann
▪ Erhöhen sich die log-odds von 𝑌 = 1|𝑥 um 𝛽𝑗
▪ Ändern sich die odds von 𝑌 = 1|𝑥 um den Faktor exp 𝛽𝑗
▪ Das Doppelverhältnis (odds ratio)
𝑜𝑑𝑑𝑠(𝑌|𝑥 𝑗 =𝑐𝑗+1)
𝑜𝑑𝑑𝑠(𝑌|𝑥 𝑗 =𝑐𝑗)= exp 𝛽𝑗 für beliebiges 𝑐𝑗.
▪ Das logarithmierte Doppelverhältnis (log odds ratio)
log𝑜𝑑𝑑𝑠 𝑌 𝑥 𝑗 = 𝑐𝑗 + 1
𝑜𝑑𝑑𝑠 𝑌 𝑥 𝑗 = 𝑐𝑗= 𝛽𝑗 für beliebiges 𝑐𝑗.
Beispiel: Aderverengung
Interpretation der Parameter des angepassten logistischen Regressionsmodells:
𝑔(𝑃 𝑌 = 1 𝑉𝑜𝑙, 𝑅𝑎𝑡𝑒)) = መ𝛽0 + መ𝛽1 ∗ 𝑉𝑜𝑙 + መ𝛽2 ∗ 𝑅𝑎𝑡𝑒
= −9.53 + 3.88 ∗ 𝑉𝑜𝑙 + 2.65 ∗ 𝑅𝑎𝑡𝑒
Für ein Individuum mit 𝑉𝑜𝑙 = 2.3 und 𝑅𝑎𝑡𝑒 = 0.9 ergeben sich gemäss obigem Modell:
▪ Log-odds von −9.53 + 3.88 ∗ 2.3 + 2.65 ∗ 0.9 = 1.779
▪ Odds von exp 1.779 = 5.924
Die geschätzte Wahrscheinlichkeit für eine Aderverengung ist für dieses Individuum:
𝑃 𝑌 = 1 𝑉𝑜𝑙 = 2.3, 𝑅𝑎𝑡𝑒 = 0.9 = 𝑔−1 1.779 =exp{1.779}
1+exp{1.779}= 0.86
Gruppierte Daten
GrundideeMan hat zu den gleichen erklärenden Variablen mehrere Beobachtungen (Replikate) der Zielvariable.
Beispiel: Frühgeburten
Angaben von 247 Säuglingen Einteilung in 10 Gewichtsklassen
Mittleres Gewicht(Klasse 500g-600g)
Anzahl Beob. in Kategorie
Anzahl überlebende Säuglinge
Anzahl nicht überlebende Säuglinge
Notation
𝑚𝑙 Beobachtungen 𝑌𝑖 zu gleichen Bedingungen 𝑥𝑖 = 𝑥𝑙
Definiere ෨𝑌𝑙 =1
𝑚𝑙σ𝑖:𝑥𝑖= 𝑥𝑙
𝑌𝑖 (Anteil Erfolge)
Es gilt dann
→ 𝑌𝑖 mit 𝑥𝑖 = 𝑥𝑙 unabhängige Versuche mit Erfolgsw’keit 𝜋𝑙 = 𝑃 𝑌𝑖 = 1 𝑥𝑙 .
→ 𝑚𝑙෨𝑌𝑙 ~ 𝐵𝑖𝑛(𝑚𝑙 , 𝜋𝑙) binomialverteilt
→ 𝐸 ෨𝑌𝑙 = 𝜋𝑙 , 𝑔 𝜋𝑙 = 𝑥𝑙𝑇𝛽
Wir verwenden das gleiche Modell wie vorher.
Bei gruppierten Daten hat man den Vorteil, dass man mehr Informationen hat. Man könnte für jede Gruppe die W’keit einzeln schätzen, wenn 𝑚𝑙 genug gross.
Gruppierte Daten
Beispiel: Frühgeburten
Die Grösse der Kreise ist proportional zu der Anzahl Beobachtungen 𝑚𝑙
An
teil
Üb
erle
ben
de
(෨ 𝑌𝑙)
Gewicht
Schätzungen und Tests
Maximum Likelihood
FrageWie schätzt man die Parameter 𝛽 = (𝛽0, 𝛽1,…, 𝛽𝑚)?
Verwende Maximum Likelihood Prinzip, d.h., wähle die Parameter 𝛽 so, dass die
Wahrscheinlichkeit des beobachteten Ereignisses maximal ist.
Likelihood-Funktion
𝑙 𝛽 = 𝑃𝛽(𝑌1 = 𝑦1, 𝑌2 = 𝑦2,…, 𝑌𝑛 = 𝑦𝑛) = ς𝑖=1𝑛 𝑃𝛽(𝑌𝑖 = 𝑦𝑖)
𝑃𝛽 𝑌𝑖 = 𝑦𝑖 = 𝜋𝑖𝑦𝑖(1 − 𝜋𝑖)
1−𝑦𝑖, das über 𝜋𝑖 von 𝛽 abhängt: 𝑔 𝜋𝑖 = 𝑥𝑖𝑇𝛽.
Fasst W’keiten des logistischen Modells in einem Ausdruck zusammen. Es gilt:
𝑃𝛽 𝑌𝑖 = 1 = 𝜋𝑖 und 𝑃𝛽 𝑌𝑖 = 0 = 1 − 𝜋𝑖
Logit-Funktion
Maximum Likelihood
Um das Produkt zu vermeiden arbeitet man mit der log-Likelihood:
𝑙𝑙 𝛽 = log 𝑙 𝛽
Man erhält durch Einsetzen von 𝜋𝑖 =exp 𝑥𝑖
𝑇𝛽
1+exp 𝑥𝑖𝑇𝛽
und Umformen
𝑙𝑙 𝛽 = σ𝑖=1𝑛 𝑦𝑖𝑥𝑖
𝑇𝛽 − log 1 + exp 𝑥𝑖𝑇𝛽
Maximieren bezüglich 𝛽 ergibt Parameterschätzer መ𝛽.
Bemerkungen:
▪ Im Gegensatz zur linearen Regression existiert keine geschlossen darstellbare Lösung
▪ Lösung durch iterative numerische Verfahren▪ Approximation durch gewichtetes lineares Regressionsproblem▪ Iterative Lösung vieler gewichteter linearer Regressionen
Verteilung von መ𝛽
Die Approximation mit linearen Regressionsproblemen liefert eine approximative Verteilung der geschätzten Parameter
→ መ𝛽 ist approximativ multivariat normalverteilt mit Erwartungswert 𝛽 und
einer Kovarianzmatrix 𝑽(𝛽)
→ Approximative Tests und Vertrauensintervalle für die Koeffizienten:
Teststatistik (Wald Test)
𝑇𝑗 =𝛽𝑗−𝛽𝑗
𝑽𝑗𝑗
(𝛽)ist approximativ 𝑁(0,1)-verteilt.
Bemerkung
𝑽𝑗𝑗
(𝛽)bezeichnet das j-te Diagonalelement von 𝑽(𝛽) («Standardfehler von መ𝛽𝑗»)
R-Funktion glm()
Modell
Schätzungen & Tests
Güte des Modells
Numerik
Beispiel: Frühgeburten
Modellgleichung Logit Link (default)
Schätzungen der
Koeffizienten መ𝛽
und zugehörige Standardfehler
Teststatistik der Wald Tests und zugehörige
p-Werte (𝐻0: መ𝛽𝑗 = 0)
Residuen-Devianz
Frage: Wie gut ist das geschätzte Modell?
→ Residuen-Devianz (Analog zu Residuen-Quadratsummen in lin. Regression)
Gruppierte Daten ෨𝑌𝑙Vergleiche log-Likelihood des maximalen Modells mit derjenigen des geschätzten Modells:
𝐷 𝑦; ො𝜋 = 2 𝑙𝑙 𝑀 − 𝑙𝑙 መ𝛽 = 2 log𝑙 𝑀
𝑙 𝛽
𝑙𝑙 𝑀 : Grösstmögliches Modell, kann für jede Gruppe 𝜋𝑙 frei wählen: 𝜋𝑙 = 𝑦𝑙
Residuen-Devianz vergleicht geschätztes Modell mit maximalem Modell («Anpassungstest»). Geht nur bei nicht zu kleinen Anzahlen 𝑚𝑙 pro Gruppe.
Ungruppierte Daten Es gilt 𝑙𝑙 𝑀 = 0 (perfekter Fit)Anpassungstest macht keinen Sinn (cf. 8.3.k).
Devianz-Differenz eignet sich zum Vergleich zweier geschachtelter Modelle.
Likelihood-Ratio Test für Modellvergleich 𝐾 ⊂ 𝐺:
Asymptotisch 𝜒𝑑2-verteilt, wenn das kleine Modell stimmt.
Diese Likelihood-Ratio Tests sind den Wald Tests in der Regel vorzuziehen.
R-Befehle
▪ Vergleich geschachtelter Modelle: > anova(fit.1, fit.2, test = "Chisq")
▪ Signifikanztest für Faktoren: > drop1(fit, test = "Chisq")
Devianz-Differenz
Anzahl Freiheitsgrade 𝑑 ist die Differenz der Anzahl Parameter der beiden Modelle: 𝑑 = 𝐺 − |𝐾|
Frage: Hat das geschätzte Modell einen erklärenden Wert?
→ Null-Devianz (Analog zu tot. Quadratsumme σ𝑖(𝑌𝑖 − ത𝑌)2 in lin. Regression)
Kleinstes sinnvolles Modell (Nullmodell) besteht nur aus Intercept, d.h. 𝜋𝑖 ist für
alle Beobachtungen gleich: ො𝜋(0) = σ𝑖=1𝑛 𝑦𝑖 /𝑛 (globaler Anteil «Erfolge»)
𝐷 𝑦; ො𝜋(0) = 2 𝑙𝑙 𝑀 − 𝑙𝑙 መ𝛽(0)
Gesamt-Test für das Modell: Vergleicht Null-Devianz und Residuen-Devianz
𝐻0: alle 𝛽𝑗 = 0 (𝑗 = 1,… ,𝑚)
Unter 𝐻0 ist dies approximativ 𝜒𝑝−12 -verteilt.
Null-Devianz
Beispiel: Frühgeburten
Gesamt-TestNull-Devianz – Residuen-Devianz = 318.42 – 235.89 = 82.53Approximativ 𝜒2-verteilt mit 245 – 243 = 2 Freiheitsgraden
AIC = 𝐷 𝑦; ො𝜋 + 2 ∗ Anzahl geschätzte Parameter (Gütemass)
Residuenanalyse
Es existieren mehrere mögliche Definitionen.
▪ Rohe Residuen (response residuals)
▪ Prädiktor Residuen (working residuals, link residuals)
𝑅𝑙(𝐿)
= 𝑅𝑙𝑑𝜂
𝑑𝜋ො𝜋𝑙 = 𝑅𝑙
1
ෝ𝜋𝑙+
1
1−ෝ𝜋𝑙(nach 𝜂 projiziert)
▪ Pearson Residuen
▪ Devianz-Residuen
Residuen
𝑑𝑖: Beitrag der i-ten Beo-bachtung zur Residuen-Devianz. Entspricht
quadriertem Residuum 𝑅𝑖2
in linearer Regression
Graphische Darstellungen
QQ Plots machen in der Regel keinen Sinn
AusnahmePearson Residuen für gruppierte Daten mit genug grossen 𝑚𝑙
näherungsweise standard-normalverteilt.
Tukey-Anscombe Plots am geeignetsten.
Rohe Residuen gegen ො𝜋𝑙Prädiktor Residuen gegen linearen Prädiktor Ƹ𝜂𝑙
Insbesondere bei nicht gruppierten Daten braucht man einen Glätter (wegen Artefakten).
TA-Plots: Ungruppierte DatenR
oh
e R
esid
uen
geschätztes 𝜋
Prä
dik
tor
Res
idu
en
linearer Prädiktor
Glätter
Artefakt: Wegen binärem Y erhält man links zwei Geraden mit Abstand 1, rechts zwei Kurven.
→ Man kann Abweichungen nur sehen, wenn man Glättung einzeichnet.
TA-Plot: Gruppierte Daten
Geschätztes 𝜋
Ro
he
Res
idu
en
▪ Logistische Regression ist die Standardmethode bei binären Zielgrössen. Gleiche Flexibilität wie gewöhnliche lineare Regression.
▪ Interpretation mittels odds beziehungsweise odds ratio:
▪ log(odds) = linearer Prädiktor
▪ log(odds ratio) = 𝛽𝑗, falls man j-te Eingangsgrösse um eine Einheit
erhöht.
▪ Parameterschätzungen via Maximum Likelihood
▪ Tests via Devianzen und Likelihood Ratio Tests
▪ Residuen nicht eindeutig definiert, mehrere Möglichkeiten. Wegen Artefakten wird zur Interpretation der Residuenplots ein Glätter benötigt.
Merkpunkte