Lehrveranstaltung âEmpirische Forschung und Politik beratungâSommersemester 2011
Logistische Regression- - - - -
24. Juni 2011
ÂŽ
24. Juni 2011
Anja Hall,Bundesinstitut fĂźr Berufsbildung,AB 2.2: âQualifikation, berufliche Integration und Erwerbstätigkeitâ
Anja Hall Abt. 2.2
Literatur
⢠Tiemann, Michael: Notiz zur logistischen Regressionsanalyse:http://michaeltiemann.com/docs/Notiz_logistische_Regression.pdf
⢠Kapitel 5: Logistische Regression. In: Backhaus, Klaus;
ÂŽ
⢠Kapitel 5: Logistische Regression. In: Backhaus, Klaus; Erichson, Bernd; Plinke, Wulff und Weiber, Rolf (2008): Multivariate Analysemethoden. Eine anwendungsorientierte Einfßhrung (S. 243-296). Berlin/ Heidelberg: Springer Verlag.
⢠ILMES - Internet-Lexikon der Methoden der empirischen Sozialforschung
Anja Hall Abt. 2.2
Logistische Regression
⢠Die logistische Regression ist ein Verfahren zur multivariaten Analyse nicht-metrischer abhängiger Variablen.
⢠Im Falle einer abhängigen Variablen mit zwei Ausprägungen handelt es sich um die binäre logistische Regression.
⢠Bei einer kategorialen abhängigen Variablen mit mehr als zwei
ÂŽ
Ausprägungen handelt es sich um eine multinomiale logistische Regression.
⢠Die unabhängigen Variablen kĂśnnen sowohl metrisch (in SPSS als Kovariaten bezeichnet) als auch kategorial skaliert sein und werden bei binärerer Regression Ăźber die Option âkategorialâ festgelegt. Bei der multinomialen logistischen Regression kĂśnnen sie als Kovariaten oder als Faktoren eingegeben werden.
Anja Hall Abt. 2.2
Abgrenzung zur Regressionsanalyse
⢠Während bei der Regressionsanalyse die metrische abhängige Variable Y direkt geschätzt wird, versucht die LR nur, die Wahrscheinlichkeit des Eintretens der Werte der in der Regel nominalen abhängigen Variable zu berechnen. Wßrde man diese Wahrscheinlichkeiten P(Y=1) mit einer linearen Regression schätzen, ergäben sich auch Werte jenseits von [0,1], was zur Verletzung der Prämissen der Regression fßhren wßrde und damit nicht zulässig wäre.
ÂŽ
nicht zulässig wäre.
⢠Die logistische Regression zielt hingegen auf das Ableiten einer Eintrittswahrscheinlichkeit fĂźr ein empirisch beobachtbares Ereignis (bspw. Erwerbstätigkeit) in Abhängigkeit von verschiedenen EinflussgrĂśĂen (bspw. erlernter Beruf) ab. â Y = 1 => âEreignis y tritt einâ.â Y = 0 => âEreignis y tritt nicht einâ.
Anja Hall Abt. 2.2
Problemstellung
⢠Da die Ausprägungen 0 und 1 einer binären, abhängigen Variable jeweils die Unter- bzw. Obergrenze fßr die Wahrscheinlichkeit des Auftretens eines Merkmales darstellen, ergeben sich bei einer linearen Regression Probleme:⢠Keine hinreichende Streuung in der abhängigen Variable.⢠Verletzung der Normalverteilungsannahme der linearen
Einfachregression.⢠Die auĂerhalb von [0;1] liegenden Schätzwerte kĂśnnen nicht
interpretiert werden.
ÂŽ
interpretiert werden.
⢠Bei dichotomen abhängigen variablen muss daher eine Funktion gefunden werden, die sich den minimalen und maximalen Wahrscheinlichkeiten von 0 und 1 asymptotisch annähert, z.B. die logistische Verteilung.
⢠Die logistische Regression stellt demzufolge keinen linearen Regressionsansatz dar. Stattdessen wird sie auch als Linking-Funktionbezeichnet, da ßber sie die Verbindung (Link) zwischen der abhängigen und den unabhängigen Variablen im Regressionsmodell hergestellt wird.
Anja Hall Abt. 2.2
Problemstellung
⢠Im Einzelfall betrachten wir Ereignisse, die eintreten kĂśnnen (1) oder nicht (0). Ăber mehrere Fälle kĂśnnen wir dann die relative Häufigkeit des Eintretens eines Ereignisse messen: die Prozentzahl p, die zwischen 0 und 1 liegt und als Näherung fĂźr die Wahrscheinlichkeit des Ereignisses gilt.
⢠Diese Eintrittswahrscheinlichkeit (Prozentzahl) p wird nun so umgewandelt, dass sie ßber einen Regressionsansatz schätzbar wird. Das geschieht durch eine monotone Transformation des [0,1]-Intervalls in das
ÂŽ
durch eine monotone Transformation des [0,1]-Intervalls in das Ergebnisintervall einer linearen Funktion (- â,+ â) Ăźber die Berechnung des Risikos (odds, Chance) und des Logits (Log-Odds):
⢠Aus p kann man das Risiko oder Odds berechnen:Das Odds nimmt Werte zwischen 0 und â an.
⢠FĂźr statistische Zwecke geht man weiter, indem man das Odds logarithmiert und zum Logit kommt, der zwischen - â und + â liegt und ebenfalls monoton ist:
Anja Hall Abt. 2.2
Modellansatz
⢠Um die Eintrittswahrscheinlichkeit von y = 1 [P(y=1] bestimmen zu kĂśnnen, wird unterstellt, dass eine nicht empirisch beobachtbare latente Variable âZâ existiert, die die binäre Ausprägung der abhängigen Variablen (Y) in Abhängigkeit der Ausprägungen der UV Xj erzeugen kann.
⢠Dieser Zusammenhang lässt sich formal fĂźr einen Beobachtungsfall k folgendermaĂen formulieren:
ÂŽ
k folgendermaĂen formulieren:
Anja Hall Abt. 2.2
Modellansatz
⢠Durch die latente Variable Z wird die Verbindung zwischen der AV und den UVâs hergestellt. Dabei kann die Variable Z als aggregierte Einflussstärke der verschiedenen unabhängigen Variablen interpretiert werden, die den Eintritt des Ereignisses herbeifĂźhren.â Die Variable Z wird durch die unterschiedlichen EinflussgrĂśĂen Xj in
einer Linearkombination erzeugt.
⢠Damit nach MaĂgabe der aggregierten Einflussstärke Z das Ereignis y = 1 bzw. y = 0 erzeugt werden kann, bedarf es einer
ÂŽ
Ereignis y = 1 bzw. y = 0 erzeugt werden kann, bedarf es einer Wahrscheinlichkeitsfunktion. HierfĂźr wird auf die sogenannte logistische Funktion (p) zurĂźckgegriffen:
Anja Hall Abt. 2.2
mit e=2,71828183 (Eulersche Zahl)
Modellansatz
⢠Der logistische Regressionsansatz berechnet nun die Wahrscheinlichkeit fĂźr das Eintreten des Ereignisses y = 1 unter Verwendung der logistischen Funktion. Dabei spielen die Regressionskoeffizienten (Logit-Koeffizienten) die Einflussstärke der jeweils betrachteten UVâs auf die Eintrittswahrscheinlichkeit [P(y = 1)] wider.â Da die logistische Funktion eine Wahrscheinlichkeitsbeziehung
zwischen dem Ereignis y = 1 und den UVâs Xj herstellt, wird sie auch als
ÂŽ
zwischen dem Ereignis y = 1 und den UVâs Xj herstellt, wird sie auch als Linking-Funktion bezeichnet.
⢠Die logistische Regressionsgleichung lautet demnach:
â Wobei die z-Werte auch als Logits bezeichnet werden.
Anja Hall Abt. 2.2
Problemstellung
⢠Die mit Hilfe der logistischen Funktion erzeugte Wahrscheinlich-keitsverteilung fĂźr das Ereignis y = 1 weist einen s-fĂśrmigen Verlauf auf und hat die Eigenschaft, dass sich selbst fĂźr unendlich kleine oder auch groĂe Werte der logits die Wahrscheinlichkeit fĂźr das Ereignis y = 1 immer innerhalb des Intervalls [0,1] bewegt.
â Symmetrisch um Wendepunkt P(y = 1) = 0,5â Nicht-linearer Zusammenhang zwischen Eintrittswahrscheinlichkeit der binären,
abhängigen Variable und den unabhängigen als Modellprämisse.â Zustandekommen der aggregierten Einflussstärke Z im Exponenten der Linking-
Funktion ist jedoch linear.
ÂŽ
Funktion ist jedoch linear.
Anja Hall Abt. 2.2
Die Graphik zeigt, wie Logits (X-Achse) mit den Ausgangswahrscheinlichkeiten P(Y=1) (Y-Achse) zusammenhängen
Vorgehensweise
⢠Bsp. Schätzen einer binären logistischen Regression von Selbstständigkeit vs. Nicht-Selbstständigkeit in Abhängigkeit von Berufserfahrung, Berufsabschluss und Computertätigkeit.
⢠Multinomial logistische Regression : Geringfßgige
ÂŽ
⢠Multinomial logistische Regression : Geringfßgige Beschäftigung, Teilzeitbeschäftigung und Vollzeitbeschäftigung in Abhängigkeit von Kindern im Haushalt, Berufserfahrung und Berufsabschluss.
Anja Hall Abt. 2.2
Vorgehensweise
⢠Anhand der binären logistischen Regression werden die Outputs mit folgender Gliederung erklärt (wie in Backhaus et al 2008):
(1) Modellformulierung(2) Schätzung der logistischen Regressionsfunktion
ÂŽ
(2) Schätzung der logistischen Regressionsfunktion(3) Interpretation der Regressionskoeffizienten(4) Prßfung des Gesamtmodells(5) Prßfung der Merkmalsvariablen
⢠AnschlieĂend werden die Unterschiede einer multinomialen logistischen Regression zu einer binären logistischen Regression dargestellt.
Anja Hall Abt. 2.2
(1) Modellformulierung
⢠Sachlogische BegrĂźndung der Kategorien der abhängigen Variable und der mĂśglichen EinflussgrĂśĂen.
⢠Keine unmittelbaren je-desto-Hypothesen zwischen den unabhängigen Variablen und der abhängigen Variablen (wie bei der linearen Regression) sondern zwischen den Unabhängigen und der Eintrittswahrscheinlichkeit fßr das Ereignis y = 1.
ÂŽ
⢠Wirkungsbeziehungen haben keinen linearen Charakter, da s-fÜrmige Wahrscheinlichkeitsverteilung angenommen wird.
Anja Hall Abt. 2.2
(2) Schätzung der logistischen Regressionsfunktion
⢠Die Modellparameter der logistischen Funktion werden Ăźblicherweise mit Hilfe der Maximum-Likelihood-Methode geschätzt. Dabei ist es das Ziel, die Parameter bj des logistischen Regressionsmodells, die die Einflussgewichte der UVâswiderspiegeln, so zu bestimmen, dass die Wahrscheinlichkeit (Likelihood), die beobachteten Erhebungsdaten zu erhalten, maximiert wird.
⢠Empirisch ergibt sich fßr jede Person entweder die Beobachtung y =
ÂŽ
⢠Empirisch ergibt sich fßr jede Person entweder die Beobachtung y = 1 oder y = 0, so dass fßr die Parameterschätzung entweder die Wahrscheinlichkeit P(y = 1) oder P(y = 0) erhalten werden sollte. Das ist dann der Fall, wenn fßr jeden Beobachtungsfall k folgende Beziehung betrachtet wird:
Anja Hall Abt. 2.2
(2) Schätzung der logistischen Regressionsfunktion
⢠Zusammengefasst kann diese Beziehung in einer Gleichung folgendermaĂen ausgedrĂźckt werden:
⢠Je nach Ausprägung der empirischen Beobachtungen yk wird fßr einen konkreten Fall k in obiger Gleichung entweder Faktor A oder
ÂŽ
einen konkreten Fall k in obiger Gleichung entweder Faktor A oder Faktor B gleich 1.
⢠Die Parameter bj des Modells sind nun so zu schätzen, dass die Wahrscheinlichkeit (Likelihood) maximiert wird, die empirischen Beobachtungswerte(y = 1 bzw. y = 0) fßr mÜglichst alle Fälle zu erhalten.
⢠I.d.R. wird als Zuordnungsvorschrift der Wahrscheinlichkeitswert von 0,5 verwendet (pk > 0,5 => y = 1; pk < 0,5 => y = 0).
Anja Hall Abt. 2.2
(2) Schätzung der logistischen Regressionsfunktion
⢠Um die Wahrscheinlichkeit fßr alle Beobachtungsfälle zu maximieren, wird der Wahrscheinlichkeitssatz fßr unabhängige Ereignisse angewendet, welcher besagt, dass sich fßr unabhängige Ereignisse die Wahrscheinlichkeit des gleichzeitigen Eintretens der Ereignisse durch die Multiplikation der Einzelereignisse ergibt.
⢠Daraus folgt, dass das Produkt der widergegebenen Wahrscheinlichkeiten Ăźber alle Befragten k = 1; âŚ; K maximiert werden sollte damit die Parameterschätzung die wahrscheinlichste
ÂŽ
werden sollte damit die Parameterschätzung die wahrscheinlichste ist.
⢠Diese Maximierung wird ßber die Likelihood-Funktion zum Ausdruck gebracht:
Anja Hall Abt. 2.2
(2) Schätzung der logistischen Regressionsfunktion
⢠Anstelle einer Maximierung der Likelihood-Funktion kann auch die LogLikelihood-Funktion (Logarithmus naturalis (ln) der Likelihood-Funktion) maximiert werden. Die LL-Funktion stellt sich folgendermaĂen dar:
⢠Eine Maximierung erfolgt in SPSS ßber den Newton-Raphson-Algorithmus:1. Es werden Ausgangswerte/Startwerte fßr die Logit-Koeffizienten angenommen
(z.B. geschätzt ßber OLS-Regression)
ÂŽ
2. FĂźr einen beliebigen Beobachtungsfall k wird mit Hilfe der in Schritt 1 gewonnen Logit-Koeffizienten mittels der logistischen Regressionsgleichung der Logitberechnet und mit seiner Hilfe die Wahrscheinlichkeit pk(y = 1) bestimmt.
3. Fßr den gewählten Fall wird der LogLikelihood-Wert nach obiger Gleichung berechnet.
4. Die Schritte 2 und 3 werden fßr alle Beobachtungsfälle durchgefßhrt, um so die Gesamt-LogLikelihood-Funktion zu bestimmen.
5. Die Schritte 2 bis 4 werden mit anderen Werten von bj widerholt.6. Die Gesamt-LogLikelihood-Funktionen der verschiedenen Koeffiziententupel
werden verglichen und die Regressionskoeffizienten so lange verändert, bis keine deutliche Steigerung der Gesamt-LogLikelihood-Funktion mehr mÜglich ist.
Anja Hall Abt. 2.2
(2) Schätzung der logistischen Regressionsfunktion
⢠In unserem Fall versuchen wir zu bestimmen, inwieweit der Status der Selbstständigkeit von Berufserfahrung (metrisch), Berufsbildung (kategorial) und häufiger Arbeit am Computer (Dummy) abhängt.
Selbstständigkeit: frequencies stib.
recode stib (4,5,6=1) (1,2,3,9=0) (7,99=sysmis) intoselbstständig .
value labels selbstständig 1 "selbstständig" 0 "nicht selbstständig".
ÂŽAnja Hall Abt. 2.2
selbstständig".
Berufsbildung:
Computertätigkeit:
frequencies max1202.
missing values max1202 (9).
frequencies f318.
recode f318 (1=1) (2,3=0) into comp.
variable labels comp "Computertätigkeit".
value labels comp 1 "Ja" 0 "Nein".
(2) Schätzung der logistischen Regressionsfunktion
Berufserfahrung:*Erste Berufstätigkeit.
frequencies f1400.
missing values f1400 (9999).
*Unterbrechung der Berufstätigkeit.
frequencies f1407 f1408.
missing values f1408 (99).
*Jahre seit 1. Berufstätigkeit.
ÂŽAnja Hall Abt. 2.2
*Jahre seit 1. Berufstätigkeit.
compute worklife=2006-f1400.
*Berufserfahrung .
compute tenure=worklife-f1408.
if f1408=97 tenure=worklife-0.
if f1407=2 tenure=worklife-0.
frequencies tenure /sta=mean.
recode tenure (low thru 0=0).
(2) Schätzung der logistischen Regressionsfunktion
Regression:
* Ohne Beamte.
LOGISTIC REGRESSION VARIABLES selbstständig
/SELECT=stib NE 3
/METHOD=ENTER tenure max1202 comp
ÂŽAnja Hall Abt. 2.2
/CONTRAST (max1202)=Indicator(1)
/SAVE=PRED PGROUP COOK DFBETA ZRESID
/CLASSPLOT
/CASEWISE OUTLIER(2)
/PRINT=GOODFIT CORR ITER(1) CI(95)
/CRITERIA=PIN(0.05) POUT(0.10) ITERATE(20) CUT(0.5).
(2) Schätzung der logistischen Regressionsfunktion
⢠Zusammenfassung der Fallverarbeitung: zeigt wie viele Fälle in die Analyse mit einbezogen wurden.
ÂŽ
⢠Codierung der abhängigen Variablen zeigt, dass das zu vorhersagende Ereignis (y = 1) die Selbständigkeit ist. Die Referenzkategorie ist ânicht selbstständigâ.
Anja Hall Abt. 2.2
(2) Schätzung der logistischen Regressionsfunktion
⢠Die Codierung der kategorialen Variablen zeigt, dass als Referenzkategorie der niedrigste Wert (ohne Berufsabschluss) gewählt wurde -> indicator (1)(default-Einstellung ist die letzte Kategorie).
⢠Die kategorialen Variablen wurden in Dummy-Variablen umkodiert.
ÂŽAnja Hall Abt. 2.2
(2) Schätzung der logistischen Regressionsfunktion
⢠Block 0: Anfangsblock
⢠Das Iterationsprotokoll zeigt, dass 5 Iterationsschritte nÜtig waren um die Konstante zu finden.
ÂŽAnja Hall Abt. 2.2
(2) Schätzung der logistischen Regressionsfunktion
⢠Variablen in der Gleichung: UrsprĂźnglicher Test fĂźr das Model, in welchem alle Koeffizienten der unabhängigen Variablen gleich 0 gesetzt sind.â Bei Signifikanz muss die Nullhypothese (alle Regressionskoeffizienten
sind gleich Null) verworfen werden.
ÂŽAnja Hall Abt. 2.2
(2) Schätzung der logistischen Regressionsfunktion
ÂŽAnja Hall Abt. 2.2
ln (odds)=ln (2145/15688) = -1,99
odds = 2145/15688 = 0,137
(2) Schätzung der logistischen Regressionsfunktion
⢠Block 1: Methode EinschluĂ⢠Wieder Iterationsprotokoll, diesmal aber mit allen Variablen.
Ebenfalls 5 Iterationsschritte.â Sichtbar sind zudem, wie sich die Koeffizienten während der
Iterationsschritte verändert haben.
âDevianzâ
ÂŽAnja Hall Abt. 2.2
(3) Interpretation der Regressionskoeffizienten
⢠Da in der logistischen Regression kein linear Zusammenhang zwischen den UVâs und den Ăźber die logistische Funktion bestimmten Wahrscheinlichkeiten pk(y = 1) besteht, tritt folgendes Interpretationsproblem auf:
â Die Wirkung der unabhängigen Variablen ist nicht Ăźber die gesamte Breite ihrer Ausprägungen konstant. => Eine ErhĂśhung der UV um eine Einheit fĂźhrt NICHT zu einer konstanten ErhĂśhung der abhängigen Variable. (eine ErhĂśhung von Xj von 1 auf 2 wirkt anders als ein ErhĂśhung von 4 auf 5)
â Die Regressionskoeffizienten kĂśnnen nicht untereinander verglichen werden.
⢠Die Lage der logistischen Funktion wird ßber b0 in der Horizontalen beeinflusst.
ÂŽAnja Hall Abt. 2.2
(3) Interpretation der Regressionskoeffizienten
⢠Positive Regressionskoeffizienten bewirken mit steigenden Werten von Xj ein (nicht-lineares) Ansteigen von P(y = 1), negative Koeffizienten hingegen ein Absinken der Wahrscheinlichkeit P(y = 1). Die Richtung des Einflusses ist also erkennbar.Logit-Koeffizienten: Die ErhÜhung einer unabhängigen Variablen um eine Einheit ändert das logarithmierte Wahrscheinlichkeitsverhältnis um den Faktor βj
.
ÂŽ
.
Anja Hall Abt. 2.2
Z = Logit = ln(Odds).
(3) Interpretation der Regressionskoeffizienten
⢠Die entlogarithmierten -Koeffizienten, die sogenannten Effektkoeffizienten, sind hier wesentlich anschaulicher. Denn es gilt: Die ErhĂśhung einer unabhängigen Variablen um eine Einheit ändert das Wahrscheinlichkeitsverhältnis um den Faktor eĂj
⢠Dieses Wahrscheinlichkeitsverhältnis spiegelt die Chance (Odd) wider, das Ereignis y = 1 im Vergleich zum Ereignis y = 0 zu
.
ÂŽ
wider, das Ereignis y = 1 im Vergleich zum Ereignis y = 0 zu erhalten.
Anja Hall Abt. 2.2
(3) Interpretation der Regressionskoeffizienten
⢠Die Odds entwickeln sich entsprechend der e-Funktion mit dem Exponenten Z ( ). Dies lässt sich einfach durch Umformung verdeutlichen:
ÂŽAnja Hall Abt. 2.2
Die Odds haben einen Wertebereich des Ereignisses y=1 im Intervall [0; + â]
(3) Interpretation der Regressionskoeffizienten
⢠Mit Hilfe der so genannten âodds ratioâ (Effekt Koeffizienten) ist nun eine genaue Aussage Ăźber die HĂśhe der Einflussstärke der unabhängigen Variablen auf die Eintrittswahrscheinlichkeit mĂśglich.
â ErhĂśht sich die UV um eine Einheit (xj + 1), so vergrĂśĂert sich das Chancenverhältnis zu Gunsten des Ereignisses y = 1 (odds
ÂŽ
das Chancenverhältnis zu Gunsten des Ereignisses y = 1 (odds= ez) um den Faktor ebj.
Anja Hall Abt. 2.2
(3) Interpretation der Regressionskoeffizienten
ÂŽ
⢠Beispiel: Steigt die Berufserfahrung (tenuretenure) um ein Jahr an, steigt die Chance selbständig zu sein um 1,028 (also um ca. 3%).
⢠Hingegen verdoppelt sich die Chance selbstständig zu sein (Exp(B) = 2,097), wenn man einen Universitäts-/Fachhochschulabschluss (max1202(3)max1202(3)) hat (gegenßber keinem Berufsabschluss).
⢠Hat man eine Ausbildung (max1202(1)max1202(1)) abgeschlossen, ist das Chancenverhältnis fßr Selbstständigkeit (y = 1) gegenßber Nicht-Selbstständigkeit (y = 0) bei 0,68. Die Chance selbstständig zu sein verringert sich also um den Faktor 0.68 wenn man eine Ausbildung abgeschlossen hat.
⢠Eine häufige Arbeit mit dem Computer (compcomp) fßhrt eher zu einer Selbstständigkeit. Die Chance ist um den Faktor 1,27 erhÜht.
Anja Hall Abt. 2.2
(3) Interpretation der Regressionskoeffizienten
⢠Odds sind keine Wahrscheinlichkeiten, sondern Chancenverhältnisse. Es kann jedoch in Wahrscheinlichkeiten umgerechnet werden, sofern ein Beispielfall herangezogen wird da, der Effekt von X abhängt!
und .
⢠Fßr eine Person mit 10 Jahren Berufserfahrung, Hochschulabschluss und häufiger Computertätigkeit errechnet sich die Wahrscheinlichkeit selbstständig zu sein entsprechend:
ÂŽ
zu sein entsprechend:
⢠z = -2,785 + 0,028*10 - 0,382*0 + 0,346*0 + 0,741*1 + 0,24*1= -1,524
⢠P(y=1) = exp(-1,524)/(1+exp(-1,524)) = 0,18
⢠=> nach 20 Jahren Berufserfahrung steigt die Wahrscheinlichkeit auf 22%.
Anja Hall Abt. 2.2
(4) PrĂźfung des Gesamtmodells
⢠Zwei Fragen stehen bei der PrĂźfung des Gesamtmodells im Vordergrund:â Wie gut kĂśnnen die Parameterschätzungen in ihrer Grundgesamtheit
das definierte Regressionsmodell abbilden?â Liegen extreme Beobachtungsfälle vor, die als AusreiĂer anzusehen
sind und eine Eliminierung oder eine Modellveränderung erfordern?
⢠Um den Gesamtfit eines logistischen Regressionsmodells zu ĂźberprĂźfen, stellt sich die Frage, wie gut die UVâs in ihrer Gesamtheit zur Trennung der
ÂŽ
stellt sich die Frage, wie gut die UVâs in ihrer Gesamtheit zur Trennung der Ausprägungskategorien von Y beitragen.
â GĂźtekriterien auf Basis der LogLikelihood-Funktion
â Pseudo-R-Quadrat-Statistiken
â Beurteilung der Klassifikationsergebnisse
Anja Hall Abt. 2.2
(4) PrĂźfung des Gesamtmodells
⢠GĂźtekriterien auf Basis der LogLikelihood-Funktion (LL-Funktion)â Analyse der Devianz bzw. des -2*LogLikelihood-Wertes
⢠Die Likelihhood (LL) spiegelt die Wahrscheinlichkeit wider, unter den gegebenen Parameterschätzungen die empirisch erhobenen Beobachtungswerte zu erhalten.
⢠Multipliziert man die LL mit -2, so ist die GrĂśĂe approximativ Chi-Quadrat-verteilt mit (K â J â 1) Freiheitsgraden (K = Anzahl Beobachtungen; J = Anzahl Parameter).
⢠Die GrĂśĂe -2LL wird auch als Devianz (Abweichung vom Idealwert)
ÂŽ
⢠Die GrĂśĂe -2LL wird auch als Devianz (Abweichung vom Idealwert) bezeichnet und kann inhaltlich mit der Fehlerquadratsumme des linearen Regressionsmodells verglichen werden.
⢠Mit -2LL wird zur ĂberprĂźfung des Modellfits die Nullhypothese geprĂźft, dass das Modell eine perfekte Anpassung besitzt . Weist die Devianz einen geringen Wert auf, so kann die Nullhypothese nicht abgelehnt werden.-> Test sollte nicht signifikant sein
⢠Problem der Devianz: Neben der Trennfähigkeit der Variablen wird die Devianz auch von der Schiefe der Verteilung der AV beeinflusst. So ist die Devianz bei einer schiefen Verteilung der AV stets geringer als bei einer nahezu gleichen Besetzung der abhängigen Variablen in den Gruppen.
Anja Hall Abt. 2.2
(4) PrĂźfung des Gesamtmodells
â Likelihood-Ratio-Test (Modell Chi-Quadrat-Test)⢠Der Omnibus-Test der Modellkoeffizienten (Spezialfall des Likelihood-Ratio-
Tests) versucht die Probleme der Devianz zu vermeiden, indem er den maximierten LL-Wert nicht mit Null sondern mit demjenigen LL-Wert vergleicht, der sich ergibt wenn alle Regressionskoeffizienten der UV auf Null gesetzt werden. => Ăhnlich F-Test in linearer Regression.
⢠Das Nullmodell wird mit vollständigem Modell verglichen⢠Es wird die Nullhypothese geprßft, das alle Regressionskoeffizienten gleich
Null sind . Ist der Test signifikant, kann man von einem signifikanten Unterschied zwischen dem intercept-only-Modell und dem vollständigen Modell ausgegangen
ÂŽ
zwischen dem intercept-only-Modell und dem vollständigen Modell ausgegangen werden. -> Test sollte also signifikant sein
⢠Chi-Quadrat-Wert ergibt sich durch die -2LL des Nullmodels minus die -2LL des vollständigen Modells (13106,8 - 12427,7 = 679,1).
⢠Df (Freiheitsgrade) = 5 = Zahl der unabhängigen Variablen⢠Da EinschluĂmethode gewählt wurde, ist nur ein Schritt berechnet worden =>
auch schrittweise mĂśglich.
Anja Hall Abt. 2.2
(4) PrĂźfung des Gesamtmodells
⢠Die so genannten Pseudo-R-Quadrat-Statistiken versuchen, den Anteil der erklärten âVariationâ des logistischen Regressionsmodells zu quantifizieren.
â Vergleichbarkeit zwischen Modellenâ Auch hier wird auf das Verhältnis zwischen dem Likelihood des Nullmodels (LL0)
und des vollständigen Modells (LLV ) zurĂźckgegriffenâ Immer zwischen 0 und 1.
⢠McFaddens-R² = 1- (LLv / LL0) â Bei geringem Unterschied ist McF-R² nahe Null, da der Quotient nahe 1 ist. I.d.R.
spricht man ab 0,2 bzw. 0,4 bereits von einer guten Modellanpassung, da das
ÂŽ
spricht man ab 0,2 bzw. 0,4 bereits von einer guten Modellanpassung, da das Erreichen von 1 aufgrund der Konstruktion der Statistik nahezu unmĂśglich ist.
⢠Cox und Snell-R² = 1- (L0 / LV)2/K
â L0 = Likelihood des Nullmodells; LV= Likelihood des vollständigen Modells: K = Stichprobenumfang
â kann den Wert 1 nie erreichen.
⢠Nagelkerke-R² = Cox & Snell-R²/R²max
â R²max = 1 - (L0)2/K
â Kann Werte von 1 annehmen und kann deshalb eindeutig inhaltlich interpretiert werden.
Anja Hall Abt. 2.2
(4) PrĂźfung des Gesamtmodells
⢠Unser Modell:
ÂŽAnja Hall Abt. 2.2
McFaddens-R² = 1- (LLv / LL0) = 1 â (12427,7 / 13106,8) = 0,052
(4) PrĂźfung des Gesamtmodells
⢠Klassifikationstabelle: Spalten sind die vorhergesagten Werte, die Zeilen die tatsächlichen Werte. In einem perfekten Model wären alle Fälle auf der Diagonalen und der Prozentsatz der Richtigen läge bei 100%
â Kein Vergleich der Klassifizierungstabelle zwischen Stichproben, da unterschiedliche Trefferquote (Anzahl der korrekt Klassifizierten) mĂśglich.
â Man weiĂ nicht, wie nahe die Prädiktoren am Trennpunkt waren.
⢠88% der Fälle wurden durch das Modell korrekt zugeordnet, allerdings wäre dies auch blind mÜglich gewesen, wenn man die häufigste Kategorie gewählt
ÂŽ
dies auch blind mÜglich gewesen, wenn man die häufigste Kategorie gewählt hätte.
Anja Hall Abt. 2.2
(4) PrĂźfung des Gesamtmodells
⢠Klassifizierungstabelle unter Einschluss der Variablen. â Hier kein Unterschied zum Nullmodell ersichtlich.
ÂŽAnja Hall Abt. 2.2
(4) PrĂźfung des Gesamtmodells
⢠Was ist eine gute Trefferquote?Die Trefferquote der richtigen Zuordnungen sollte mit derjenigen Trefferquote verglichen werden, die bei einer rein zufälligen Zuordnung der Elemente, erreicht werden wĂźrde. Bei zwei Gruppen gleicher GrĂśĂe wäre eine zufällige Trefferquote von 50% zu erwarten.
â In unserem Fall liegt die maximale Zufallswahrscheinlichkeit â die dem Anteil der grĂśĂten Gruppe an der Gesamtstichprobe entspricht â ebenfalls bei 88%.
ÂŽ
â Die proportionale Zufallswahrscheinlichkeit berechnet sich nach der Formel a² + (1 â a)², wobei a der Anteil einer der zwei Gruppen an der Gesamtzahl der Beobachtungen ist. In unserem Fall ist es 0,88² + 0.12² = 0.79
â Daumenregel: die Trefferquote sollte ca. 25% besser sein als die Zufallswahrscheinlichkeit, wobei die Art der Zufallswahrscheinlichkeit (maximal oder proportional) dem Forscher Ăźberlassen wird. Auf keinen Fall sollte das Modell eine schlechtere Trefferquote als die proportionale Zufallswahrscheinlichkeit aufweisen.
Anja Hall Abt. 2.2
(4) PrĂźfung des Gesamtmodells
⢠Weitere MĂśglichkeiten: â Pressâs Q-Test (kritischer Wert=3,84)â Hosmer-Lemeshow-Test
⢠Prßft die Nullhypothese, dass die Differenz zwischen den vorhergesagten und den beobachteten Werten gleich N ull ist.
⢠Wenn insignifikant kann die Nullhypothese nicht verworfen werden.-> Test sollte also nicht signifikant sein
ÂŽAnja Hall Abt. 2.2
(4) PrĂźfung des Gesamtmodells
⢠Histogramm der vorhergesagten Wahrscheinlichkeiten (auch Klassenplot) ist ein alternativer Weg um korrekte und inkorrekte Klassifikationen aufzudecken. X-Achse stellt die Wahrscheinlichkeit dar, mit welcher ein Fall zugeordnet wurde. Die Y-Achse gibt die Häufigkeit der Fälle an.
ÂŽAnja Hall Abt. 2.2
(4) PrĂźfung des Gesamtmodells
⢠AusreiĂerdiagnostik: â Welche Effekte Ăźben einzelne Beobachtungen auf die GesamtgĂźte des
Modells aus? Auskunft darĂźber geben die Residuenk = yk â pk(y).â Diese Residuenwerte (RES_1) liegen immer zwischen -1 und + 1 bei
einer binären Abhängigen.â I.d.R. geht man davon aus, dass AusreiĂer Klassifikationsfehler
bewirken wenn sie (im Zwei-Gruppen-Fall) betragsmäĂige Werte deutlich grĂśĂer 0,5 annehmen.
ÂŽ
deutlich grĂśĂer 0,5 annehmen.
Anja Hall Abt. 2.2
â Um diese AusreiĂer besser zu erkennen, werden die standardisierten Residuen einer Gewichtung unterzogen => standardisierte Residuen (ZRE_1, auch Pearson Residuum). Visualisierung bspw. Ăźber Boxplot
â Nicht vergleichbar mit Residuen der linearen Regression.
â Auch unter âFallweise Liste der Residuenâ
(4) PrĂźfung des Gesamtmodells
⢠DfBeta misst Ănderung im Logit wenn eine Variable aus der Analyse ausgelassen wird. Sollte nicht grĂśĂer als Eins sein.
⢠Leverage (LEV_1): zwischen 0 (kein Einfluss) und 1 (starker Einfluss).
⢠Cooks Distance. Einfluss wenn Fall ausgeschlossen wird.⢠Was wenn AusreiĂer erkannt werden?
â Seltenes atypisches Antwortverhalten => Ausschluss aus Analyse
ÂŽ
â MĂśglicherweise schlechte Spezifikation des Modells, eventuell wurden wichtige EinflussgrĂśĂen vergessen.
⢠Mulitnomiale logistische Regression: SPSS bietet wenig AnalysemĂśglichkeiten fĂźr AusreiĂer
Anja Hall Abt. 2.2
(4) PrĂźfung des Gesamtmodells
ÂŽAnja Hall Abt. 2.2
(5) PrĂźfung der Merkmalsvariablen
⢠Die im Model verwendeten Variablen sollten eine hohe Trennfähigkeit besitzen, um ein Modell-Overfitting (zu viele erklärende Variablen) zu vermeiden. Zur ĂberprĂźfung der Trennfähigkeit der Variablen kann auf den Likelihood-Quotienten-Test und auf die so genannte Wald-Statistik zurĂźckgegriffen werden.
⢠Der Likelihood-Quotienten-Test vergleicht (ähnlich wie der Likelihood-Ratio-Test) das vollständige Modell mit einem
ÂŽ
Likelihood-Ratio-Test) das vollständige Modell mit einem reduzierten Modell, bei welchem jeweils ein Regressionskoeffizient auf Null gesetzt wird und dann die -2LL auf ihre Signifikanz geprßft wird. Diese erfolgt ebenfalls ßber die Chi-Quadrat-Verteilung, mit der Anzahl der Differenz der Parameter beider Modelle als Freiheitsgrade. Die Nullhypothese , dass der Regressionskoeffizient bj gleich Null ist kann ab einer Wahrscheinlichkeit von p<=0.05 verworfen werden.
Anja Hall Abt. 2.2
(5) PrĂźfung der Merkmalsvariablen
⢠Das Prinzip der Wald-Statistik ist ähnlich dem des t-Tests in der linearen Regression. Auch hier wird die Nullhypothese getestet, dass ein bestimmtes bj gleich Null ist. Die PrĂźfgrĂśĂe W, wird hierfĂźr mit dem entsprechenden Wert der Chi-Quadrat-Verteilung verglichen.
⢠s = Standardfehler von b (j = 0,1,2,âŚ,J).
ÂŽ
⢠sbj = Standardfehler von bj (j = 0,1,2,âŚ,J).⢠Da fĂźr groĂe Logits der Standardfehler groĂ ist, fĂźhrt das zu einer
kleineren Wald-Statistik und daher auch zu Type II Fehlern (Nullhypothese nicht ablehnen, obwohl Effekt). Daher ist es fĂźr Modelle mit grĂśĂeren Logits und Dummy-Variablen empfehlenswerter einen Likelihood-Test mit und ohne die Variablen durchzufĂźhren.
Anja Hall Abt. 2.2
(5) PrĂźfung der Merkmalsvariablen
⢠Anhand der Wald-Statistik ist ersichtlich, dass alle Variablen einen signifikanten Einfluss haben.
⢠Ein insignifikanter Einfluss lässt sich auch an den Konfidenzintervallen fßr Exp(B) erkennen: Schwanken diese um den Wert 1, so ist nicht eindeutig erkennbar, ob sich das Chancenverhältnis bei ZugehÜrigkeit einer Gruppe oder beim Anstieg der UV um eine Einheit verbessert oder verschlechtert.
⢠Signifikanz vs. Effektstärke!
ÂŽAnja Hall Abt. 2.2
(5) PrĂźfung der Merkmalsvariablen
⢠Korrelationsmatrix zeigt Korrelationen zwischen den UVâs⢠Ein direktes MaĂ fĂźr Multikollinearität wie Toleranz oder VIF in der
linearen Regression gibt es bei der logistischen Regression nicht, da es kein entsprechendes R² gibt.
ÂŽAnja Hall Abt. 2.2
Bsp. correlations tenure zpalter
Multinomiale logistische Regression
⢠Vorhersage von Vollzeit, Teilzeit und geringfßgiger Beschäftigung anhand von Berufserfahrung, Berufsabschluss und Kinder im Haushalt.
ÂŽAnja Hall Abt. 2.2
Multinomiale logistische Regression
ÂŽAnja Hall Abt. 2.2
Multinomiale logistische Regression
⢠Eintrag der Variablen:â Dichotome Variablen als Kovariaten oder als Faktoren:
⢠Wenn als Faktor ist der Output einfacherer interpretierbar. So ist immer die Kategorie die Referenzkategorie, deren Koeffizienten auf 0 gesetzt werden.
â Hier dichotome Variable kinderkinder als Faktor.
â Kategoriale Variablen als Faktoren. Als default-Einstellung gilt
ÂŽ
â Kategoriale Variablen als Faktoren. Als default-Einstellung gilt der hĂśchste Wert als Referenzkategorie.
â Metrische Variablen werden als Kovariaten eingegeben.
Anja Hall Abt. 2.2
Multinomiale logistische Regression
⢠SPSS schätzt immer nur die Logits zu einer Referenzgruppe, diese ist per default immer die hÜchste.
⢠Modell angeben: â âHaupteffekteâ: Nur ausgewählte Variablen gehen in das Modell
einâ âGesättigtes Modellâ: Auch Kreuzeffekte zwischen den
ÂŽ
â âGesättigtes Modellâ: Auch Kreuzeffekte zwischen den ausgewählten Variablen werden in das Modell mit einbezogen.
â Oder âbenutzerdefiniertâ: Bsp. Nur bestimmte Kreuzeffekte.
Anja Hall Abt. 2.2
Multinomiale logistische Regression
⢠Information zur Modellanpassung:â âNur konstanter Termâ ist das Nullmodell. Der Likelihood Koeffizienten-Test der
die Differenz zwischen den beiden -2LL testet ist signifikant.
â Warum 10 Freiheitsgrade? Da die abhängige Variable 3 Ausprägungen aufweist gibt es 3 WahrscheinlichkeitsĂźbergänge zwischen jeweils 2 Gruppen. Deshalb mĂźssen statt eines Logits (binäre log. Reg.) drei Logits berechnet werden. Allerdings ist aufgrund folgender Gleichung nur die Schätzung der b-Werte von 2 Logits notwendig:
ÂŽ
Logits notwendig:
Anja Hall Abt. 2.2
Konstante zählt nicht zu den Freiheitsgraden, da der LR-Wert beim Abzug von zwei LL-Werten vom Effekt von b0 befreit ist.
Multinomiale logistische Regression
ÂŽAnja Hall Abt. 2.2
Multinomiale logistische Regression
⢠Gßte der Anpassung: Es ist notwendig, dass bei einem Chi-Quadrat Anpassungstest die Zahl der Kovariatenmuster deutlich geringer ist als die Zahl der Beobachtungen. Sonst fßhrt der Test zu falschen Aussagen. Wie der Hosmer-Lemeshow-Test sollte dieser Test insignifikant sein. Das ist hier nicht der Fall. Es ist also kein gutes Modell.
â âPearsonâ beruht auf dem traditionellen Chi-Quadrat.â âAbweichungâ (Devianz) auf der Likelihood-Ratio-Chi-Quadrat.
ÂŽ
â âAbweichungâ (Devianz) auf der Likelihood-Ratio-Chi-Quadrat.
Anja Hall Abt. 2.2
Multinomiale logistische Regression
⢠Da alles signifikant ist, kann man bei allen Variablen davon ausgehen, dass sie einen von Null verschiedenen Einfluss auf die abhängige Variable haben.
ÂŽAnja Hall Abt. 2.2
Multinomiale logistische Regression
⢠Als Referenzgruppe dient Kategorie 3 (Vollzeiterwerbstätige)
ÂŽAnja Hall Abt. 2.2
Multinomiale logistische Regression
⢠Wenn Regressionskoeffizient negativ bedeutet das, dass man mit dieser Variablenausprägung eher der Referenzkategorie zuzuordnen ist. Wenn positiv, dann eher in die Gruppe, in der man das Ergebnis abliest.
⢠Wirkungsrichtung und âstärke der Variablen offenbaren sich vor allem in den odds ratios bzw. den Effekt-Koeffizienten (Exp(B)). Ein Wert von 0,467 bei Kindern in der âGeringfĂźgig-Gruppeâ bedeutet, dass sich
ÂŽ
von 0,467 bei Kindern in der âGeringfĂźgig-Gruppeâ bedeutet, dass sich das Verhältnis geringfĂźgige Beschäftigung: vollwertige Beschäftigung um den Faktor 0,467 verringert, wenn man keine Kinder (Kinder=0) im Haushalt hat. Es stellt sich somit fĂźr Personen mit Kindern im Haushalt folgendermaĂen dar 0,467:1 (Geringf.:Vollw.). Man ist also eher vollwertig Beschäftigt als geringfĂźgig, wenn man keine Kinder hat.
Anja Hall Abt. 2.2
Multinomiale logistische Regression
⢠Die âChanceâ geringfĂźgig beschäftigt zu sein vs. Vollerwerbstätig zu sein, ist fĂźr Personen ohne Berufsabschluss 25mal hĂśher als fĂźr Personen mit Hochschulabschluss.
⢠Um den Wahrscheinlichkeitsßbergang von geringfßgiger Beschäftigung auf Teilzeitbeschäftigung feststellen zu kÜnnen, kÜnnen die b-Schätzer der beiden Gruppen zur Referenzgruppe Vollzeiterwerbstätige voneinander abgezogen werden:
b (gering vs. teil) = b (gering vs. voll) â b (teil vs. voll)
ÂŽ
bj (gering vs. teil) = bj(gering vs. voll) â bj(teil vs. voll)0,414 = -,761 - (-1.175)
⢠Eine andere MÜglichkeit besteht darin, die Referenzkategorie anders zu wählen, indem die Gruppenbezeichnungen umcodiert werden. Dies hat den Vorteil, dass auch zugleich die Signifikanzen mit ausgegeben werden.
Anja Hall Abt. 2.2
Multinomiale logistische Regression
⢠Korrekt klassifizierte Fälle stehen auf der Hauptdiagonalen, die verbleibenden Fälle markieren die Fehlklassifikationen.
⢠Unter zufälliger Beobachtung unter Beachtung der Gruppenstärke erhalten wir eine maximale Zufallswahrscheinlichkeit von 14014/16716 =83,84%. Das Modell trennt also nicht besser als die maximale Zufallswahrscheinlichkeit.
⢠Die proportionale Zufallswahrscheinlichkeit (PZW) berechnet sich im Mehrgruppenfall wie folgt:
ÂŽ
Mit ng = Anzahl der Elemente in Gruppe g (g = 1,âŚG)ag = Anteilswert der Gruppe g (g = 1, âŚ, G) an der Gesamtstichprobe nG = Anzahl der Gruppen
In diesem Fall:
(989/16716)^2 + (1713/16716)^2 + (14014/16716)^2 = 0.72
Anja Hall Abt. 2.2