Download pdf - Logistische Regression - - - - - 24. Juni 2011 - bibb.de · PDF fileLogistische Regression • Die logistische Regression ist ein Verfahren zur multivariaten Analyse nicht-metrischer

Lehrveranstaltung „Empirische Forschung und Politik beratung“Sommersemester 2011

Logistische Regression- - - - -

24. Juni 2011

®

24. Juni 2011

Anja Hall,Bundesinstitut für Berufsbildung,AB 2.2: „Qualifikation, berufliche Integration und Erwerbstätigkeit“

Anja Hall Abt. 2.2

Literatur

• Tiemann, Michael: Notiz zur logistischen Regressionsanalyse:http://michaeltiemann.com/docs/Notiz_logistische_Regression.pdf

• Kapitel 5: Logistische Regression. In: Backhaus, Klaus;

®

• Kapitel 5: Logistische Regression. In: Backhaus, Klaus; Erichson, Bernd; Plinke, Wulff und Weiber, Rolf (2008): Multivariate Analysemethoden. Eine anwendungsorientierte Einführung (S. 243-296). Berlin/ Heidelberg: Springer Verlag.

• ILMES - Internet-Lexikon der Methoden der empirischen Sozialforschung

Anja Hall Abt. 2.2

Logistische Regression

• Die logistische Regression ist ein Verfahren zur multivariaten Analyse nicht-metrischer abhängiger Variablen.

• Im Falle einer abhängigen Variablen mit zwei Ausprägungen handelt es sich um die binäre logistische Regression.

• Bei einer kategorialen abhängigen Variablen mit mehr als zwei

®

Ausprägungen handelt es sich um eine multinomiale logistische Regression.

• Die unabhängigen Variablen können sowohl metrisch (in SPSS als Kovariaten bezeichnet) als auch kategorial skaliert sein und werden bei binärerer Regression über die Option „kategorial“ festgelegt. Bei der multinomialen logistischen Regression können sie als Kovariaten oder als Faktoren eingegeben werden.

Anja Hall Abt. 2.2

Abgrenzung zur Regressionsanalyse

• Während bei der Regressionsanalyse die metrische abhängige Variable Y direkt geschätzt wird, versucht die LR nur, die Wahrscheinlichkeit des Eintretens der Werte der in der Regel nominalen abhängigen Variable zu berechnen. Würde man diese Wahrscheinlichkeiten P(Y=1) mit einer linearen Regression schätzen, ergäben sich auch Werte jenseits von [0,1], was zur Verletzung der Prämissen der Regression führen würde und damit nicht zulässig wäre.

®

nicht zulässig wäre.

• Die logistische Regression zielt hingegen auf das Ableiten einer Eintrittswahrscheinlichkeit für ein empirisch beobachtbares Ereignis (bspw. Erwerbstätigkeit) in Abhängigkeit von verschiedenen Einflussgrößen (bspw. erlernter Beruf) ab. – Y = 1 => „Ereignis y tritt ein“.– Y = 0 => „Ereignis y tritt nicht ein“.

Anja Hall Abt. 2.2

Problemstellung

• Da die Ausprägungen 0 und 1 einer binären, abhängigen Variable jeweils die Unter- bzw. Obergrenze für die Wahrscheinlichkeit des Auftretens eines Merkmales darstellen, ergeben sich bei einer linearen Regression Probleme:• Keine hinreichende Streuung in der abhängigen Variable.• Verletzung der Normalverteilungsannahme der linearen

Einfachregression.• Die außerhalb von [0;1] liegenden Schätzwerte können nicht

interpretiert werden.

®

interpretiert werden.

• Bei dichotomen abhängigen variablen muss daher eine Funktion gefunden werden, die sich den minimalen und maximalen Wahrscheinlichkeiten von 0 und 1 asymptotisch annähert, z.B. die logistische Verteilung.

• Die logistische Regression stellt demzufolge keinen linearen Regressionsansatz dar. Stattdessen wird sie auch als Linking-Funktionbezeichnet, da über sie die Verbindung (Link) zwischen der abhängigen und den unabhängigen Variablen im Regressionsmodell hergestellt wird.

Anja Hall Abt. 2.2

Problemstellung

• Im Einzelfall betrachten wir Ereignisse, die eintreten können (1) oder nicht (0). Über mehrere Fälle können wir dann die relative Häufigkeit des Eintretens eines Ereignisse messen: die Prozentzahl p, die zwischen 0 und 1 liegt und als Näherung für die Wahrscheinlichkeit des Ereignisses gilt.

• Diese Eintrittswahrscheinlichkeit (Prozentzahl) p wird nun so umgewandelt, dass sie über einen Regressionsansatz schätzbar wird. Das geschieht durch eine monotone Transformation des [0,1]-Intervalls in das

®

durch eine monotone Transformation des [0,1]-Intervalls in das Ergebnisintervall einer linearen Funktion (- ∞,+ ∞) über die Berechnung des Risikos (odds, Chance) und des Logits (Log-Odds):

• Aus p kann man das Risiko oder Odds berechnen:Das Odds nimmt Werte zwischen 0 und ∞ an.

• Für statistische Zwecke geht man weiter, indem man das Odds logarithmiert und zum Logit kommt, der zwischen - ∞ und + ∞ liegt und ebenfalls monoton ist:

Anja Hall Abt. 2.2

Modellansatz

• Um die Eintrittswahrscheinlichkeit von y = 1 [P(y=1] bestimmen zu können, wird unterstellt, dass eine nicht empirisch beobachtbare latente Variable „Z“ existiert, die die binäre Ausprägung der abhängigen Variablen (Y) in Abhängigkeit der Ausprägungen der UV Xj erzeugen kann.

• Dieser Zusammenhang lässt sich formal für einen Beobachtungsfall k folgendermaßen formulieren:

®

k folgendermaßen formulieren:

Anja Hall Abt. 2.2

Modellansatz

• Durch die latente Variable Z wird die Verbindung zwischen der AV und den UV‘s hergestellt. Dabei kann die Variable Z als aggregierte Einflussstärke der verschiedenen unabhängigen Variablen interpretiert werden, die den Eintritt des Ereignisses herbeiführen.– Die Variable Z wird durch die unterschiedlichen Einflussgrößen Xj in

einer Linearkombination erzeugt.

• Damit nach Maßgabe der aggregierten Einflussstärke Z das Ereignis y = 1 bzw. y = 0 erzeugt werden kann, bedarf es einer

®

Ereignis y = 1 bzw. y = 0 erzeugt werden kann, bedarf es einer Wahrscheinlichkeitsfunktion. Hierfür wird auf die sogenannte logistische Funktion (p) zurückgegriffen:

Anja Hall Abt. 2.2

mit e=2,71828183 (Eulersche Zahl)

Modellansatz

• Der logistische Regressionsansatz berechnet nun die Wahrscheinlichkeit für das Eintreten des Ereignisses y = 1 unter Verwendung der logistischen Funktion. Dabei spielen die Regressionskoeffizienten (Logit-Koeffizienten) die Einflussstärke der jeweils betrachteten UV‘s auf die Eintrittswahrscheinlichkeit [P(y = 1)] wider.– Da die logistische Funktion eine Wahrscheinlichkeitsbeziehung

zwischen dem Ereignis y = 1 und den UV‘s Xj herstellt, wird sie auch als

®

zwischen dem Ereignis y = 1 und den UV‘s Xj herstellt, wird sie auch als Linking-Funktion bezeichnet.

• Die logistische Regressionsgleichung lautet demnach:

– Wobei die z-Werte auch als Logits bezeichnet werden.

Anja Hall Abt. 2.2

Problemstellung

• Die mit Hilfe der logistischen Funktion erzeugte Wahrscheinlich-keitsverteilung für das Ereignis y = 1 weist einen s-förmigen Verlauf auf und hat die Eigenschaft, dass sich selbst für unendlich kleine oder auch große Werte der logits die Wahrscheinlichkeit für das Ereignis y = 1 immer innerhalb des Intervalls [0,1] bewegt.

– Symmetrisch um Wendepunkt P(y = 1) = 0,5– Nicht-linearer Zusammenhang zwischen Eintrittswahrscheinlichkeit der binären,

abhängigen Variable und den unabhängigen als Modellprämisse.– Zustandekommen der aggregierten Einflussstärke Z im Exponenten der Linking-

Funktion ist jedoch linear.

®

Funktion ist jedoch linear.

Anja Hall Abt. 2.2

Die Graphik zeigt, wie Logits (X-Achse) mit den Ausgangswahrscheinlichkeiten P(Y=1) (Y-Achse) zusammenhängen

Vorgehensweise

• Bsp. Schätzen einer binären logistischen Regression von Selbstständigkeit vs. Nicht-Selbstständigkeit in Abhängigkeit von Berufserfahrung, Berufsabschluss und Computertätigkeit.

• Multinomial logistische Regression : Geringfügige

®

• Multinomial logistische Regression : Geringfügige Beschäftigung, Teilzeitbeschäftigung und Vollzeitbeschäftigung in Abhängigkeit von Kindern im Haushalt, Berufserfahrung und Berufsabschluss.

Anja Hall Abt. 2.2

Vorgehensweise

• Anhand der binären logistischen Regression werden die Outputs mit folgender Gliederung erklärt (wie in Backhaus et al 2008):

(1) Modellformulierung(2) Schätzung der logistischen Regressionsfunktion

®

(2) Schätzung der logistischen Regressionsfunktion(3) Interpretation der Regressionskoeffizienten(4) Prüfung des Gesamtmodells(5) Prüfung der Merkmalsvariablen

• Anschließend werden die Unterschiede einer multinomialen logistischen Regression zu einer binären logistischen Regression dargestellt.

Anja Hall Abt. 2.2

(1) Modellformulierung

• Sachlogische Begründung der Kategorien der abhängigen Variable und der möglichen Einflussgrößen.

• Keine unmittelbaren je-desto-Hypothesen zwischen den unabhängigen Variablen und der abhängigen Variablen (wie bei der linearen Regression) sondern zwischen den Unabhängigen und der Eintrittswahrscheinlichkeit für das Ereignis y = 1.

®

• Wirkungsbeziehungen haben keinen linearen Charakter, da s-förmige Wahrscheinlichkeitsverteilung angenommen wird.

Anja Hall Abt. 2.2

(2) Schätzung der logistischen Regressionsfunktion

• Die Modellparameter der logistischen Funktion werden üblicherweise mit Hilfe der Maximum-Likelihood-Methode geschätzt. Dabei ist es das Ziel, die Parameter bj des logistischen Regressionsmodells, die die Einflussgewichte der UV‘swiderspiegeln, so zu bestimmen, dass die Wahrscheinlichkeit (Likelihood), die beobachteten Erhebungsdaten zu erhalten, maximiert wird.

• Empirisch ergibt sich für jede Person entweder die Beobachtung y =

®

• Empirisch ergibt sich für jede Person entweder die Beobachtung y = 1 oder y = 0, so dass für die Parameterschätzung entweder die Wahrscheinlichkeit P(y = 1) oder P(y = 0) erhalten werden sollte. Das ist dann der Fall, wenn für jeden Beobachtungsfall k folgende Beziehung betrachtet wird:

Anja Hall Abt. 2.2


• Zusammengefasst kann diese Beziehung in einer Gleichung folgendermaßen ausgedrückt werden:

• Je nach Ausprägung der empirischen Beobachtungen yk wird für einen konkreten Fall k in obiger Gleichung entweder Faktor A oder

®

einen konkreten Fall k in obiger Gleichung entweder Faktor A oder Faktor B gleich 1.

• Die Parameter bj des Modells sind nun so zu schätzen, dass die Wahrscheinlichkeit (Likelihood) maximiert wird, die empirischen Beobachtungswerte(y = 1 bzw. y = 0) für möglichst alle Fälle zu erhalten.

• I.d.R. wird als Zuordnungsvorschrift der Wahrscheinlichkeitswert von 0,5 verwendet (pk > 0,5 => y = 1; pk < 0,5 => y = 0).

Anja Hall Abt. 2.2


• Um die Wahrscheinlichkeit für alle Beobachtungsfälle zu maximieren, wird der Wahrscheinlichkeitssatz für unabhängige Ereignisse angewendet, welcher besagt, dass sich für unabhängige Ereignisse die Wahrscheinlichkeit des gleichzeitigen Eintretens der Ereignisse durch die Multiplikation der Einzelereignisse ergibt.

• Daraus folgt, dass das Produkt der widergegebenen Wahrscheinlichkeiten über alle Befragten k = 1; …; K maximiert werden sollte damit die Parameterschätzung die wahrscheinlichste

®

werden sollte damit die Parameterschätzung die wahrscheinlichste ist.

• Diese Maximierung wird über die Likelihood-Funktion zum Ausdruck gebracht:

Anja Hall Abt. 2.2


• Anstelle einer Maximierung der Likelihood-Funktion kann auch die LogLikelihood-Funktion (Logarithmus naturalis (ln) der Likelihood-Funktion) maximiert werden. Die LL-Funktion stellt sich folgendermaßen dar:

• Eine Maximierung erfolgt in SPSS über den Newton-Raphson-Algorithmus:1. Es werden Ausgangswerte/Startwerte für die Logit-Koeffizienten angenommen

(z.B. geschätzt über OLS-Regression)

®

2. Für einen beliebigen Beobachtungsfall k wird mit Hilfe der in Schritt 1 gewonnen Logit-Koeffizienten mittels der logistischen Regressionsgleichung der Logitberechnet und mit seiner Hilfe die Wahrscheinlichkeit pk(y = 1) bestimmt.

3. Für den gewählten Fall wird der LogLikelihood-Wert nach obiger Gleichung berechnet.

4. Die Schritte 2 und 3 werden für alle Beobachtungsfälle durchgeführt, um so die Gesamt-LogLikelihood-Funktion zu bestimmen.

5. Die Schritte 2 bis 4 werden mit anderen Werten von bj widerholt.6. Die Gesamt-LogLikelihood-Funktionen der verschiedenen Koeffiziententupel

werden verglichen und die Regressionskoeffizienten so lange verändert, bis keine deutliche Steigerung der Gesamt-LogLikelihood-Funktion mehr möglich ist.

Anja Hall Abt. 2.2


• In unserem Fall versuchen wir zu bestimmen, inwieweit der Status der Selbstständigkeit von Berufserfahrung (metrisch), Berufsbildung (kategorial) und häufiger Arbeit am Computer (Dummy) abhängt.

Selbstständigkeit: frequencies stib.

recode stib (4,5,6=1) (1,2,3,9=0) (7,99=sysmis) intoselbstständig .

value labels selbstständig 1 "selbstständig" 0 "nicht selbstständig".

®Anja Hall Abt. 2.2

selbstständig".

Berufsbildung:

Computertätigkeit:

frequencies max1202.

missing values max1202 (9).

frequencies f318.

recode f318 (1=1) (2,3=0) into comp.

variable labels comp "Computertätigkeit".

value labels comp 1 "Ja" 0 "Nein".


Berufserfahrung:*Erste Berufstätigkeit.

frequencies f1400.

missing values f1400 (9999).

*Unterbrechung der Berufstätigkeit.

frequencies f1407 f1408.

missing values f1408 (99).

*Jahre seit 1. Berufstätigkeit.


*Jahre seit 1. Berufstätigkeit.

compute worklife=2006-f1400.

*Berufserfahrung .

compute tenure=worklife-f1408.

if f1408=97 tenure=worklife-0.

if f1407=2 tenure=worklife-0.

frequencies tenure /sta=mean.

recode tenure (low thru 0=0).


Regression:

* Ohne Beamte.

LOGISTIC REGRESSION VARIABLES selbstständig

/SELECT=stib NE 3

/METHOD=ENTER tenure max1202 comp


/CONTRAST (max1202)=Indicator(1)

/SAVE=PRED PGROUP COOK DFBETA ZRESID

/CLASSPLOT

/CASEWISE OUTLIER(2)

/PRINT=GOODFIT CORR ITER(1) CI(95)

/CRITERIA=PIN(0.05) POUT(0.10) ITERATE(20) CUT(0.5).


• Zusammenfassung der Fallverarbeitung: zeigt wie viele Fälle in die Analyse mit einbezogen wurden.

®

• Codierung der abhängigen Variablen zeigt, dass das zu vorhersagende Ereignis (y = 1) die Selbständigkeit ist. Die Referenzkategorie ist „nicht selbstständig“.

Anja Hall Abt. 2.2


• Die Codierung der kategorialen Variablen zeigt, dass als Referenzkategorie der niedrigste Wert (ohne Berufsabschluss) gewählt wurde -> indicator (1)(default-Einstellung ist die letzte Kategorie).

• Die kategorialen Variablen wurden in Dummy-Variablen umkodiert.



• Block 0: Anfangsblock

• Das Iterationsprotokoll zeigt, dass 5 Iterationsschritte nötig waren um die Konstante zu finden.



• Variablen in der Gleichung: Ursprünglicher Test für das Model, in welchem alle Koeffizienten der unabhängigen Variablen gleich 0 gesetzt sind.– Bei Signifikanz muss die Nullhypothese (alle Regressionskoeffizienten

sind gleich Null) verworfen werden.




ln (odds)=ln (2145/15688) = -1,99

odds = 2145/15688 = 0,137


• Block 1: Methode Einschluß• Wieder Iterationsprotokoll, diesmal aber mit allen Variablen.

Ebenfalls 5 Iterationsschritte.– Sichtbar sind zudem, wie sich die Koeffizienten während der

Iterationsschritte verändert haben.

„Devianz“


(3) Interpretation der Regressionskoeffizienten

• Da in der logistischen Regression kein linear Zusammenhang zwischen den UV‘s und den über die logistische Funktion bestimmten Wahrscheinlichkeiten pk(y = 1) besteht, tritt folgendes Interpretationsproblem auf:

– Die Wirkung der unabhängigen Variablen ist nicht über die gesamte Breite ihrer Ausprägungen konstant. => Eine Erhöhung der UV um eine Einheit führt NICHT zu einer konstanten Erhöhung der abhängigen Variable. (eine Erhöhung von Xj von 1 auf 2 wirkt anders als ein Erhöhung von 4 auf 5)

– Die Regressionskoeffizienten können nicht untereinander verglichen werden.

• Die Lage der logistischen Funktion wird über b0 in der Horizontalen beeinflusst.



• Positive Regressionskoeffizienten bewirken mit steigenden Werten von Xj ein (nicht-lineares) Ansteigen von P(y = 1), negative Koeffizienten hingegen ein Absinken der Wahrscheinlichkeit P(y = 1). Die Richtung des Einflusses ist also erkennbar.Logit-Koeffizienten: Die Erhöhung einer unabhängigen Variablen um eine Einheit ändert das logarithmierte Wahrscheinlichkeitsverhältnis um den Faktor βj

.

®

.

Anja Hall Abt. 2.2

Z = Logit = ln(Odds).


• Die entlogarithmierten -Koeffizienten, die sogenannten Effektkoeffizienten, sind hier wesentlich anschaulicher. Denn es gilt: Die Erhöhung einer unabhängigen Variablen um eine Einheit ändert das Wahrscheinlichkeitsverhältnis um den Faktor eßj

• Dieses Wahrscheinlichkeitsverhältnis spiegelt die Chance (Odd) wider, das Ereignis y = 1 im Vergleich zum Ereignis y = 0 zu

.

®

wider, das Ereignis y = 1 im Vergleich zum Ereignis y = 0 zu erhalten.

Anja Hall Abt. 2.2


• Die Odds entwickeln sich entsprechend der e-Funktion mit dem Exponenten Z ( ). Dies lässt sich einfach durch Umformung verdeutlichen:


Die Odds haben einen Wertebereich des Ereignisses y=1 im Intervall [0; + ∞]


• Mit Hilfe der so genannten „odds ratio“ (Effekt Koeffizienten) ist nun eine genaue Aussage über die Höhe der Einflussstärke der unabhängigen Variablen auf die Eintrittswahrscheinlichkeit möglich.

– Erhöht sich die UV um eine Einheit (xj + 1), so vergrößert sich das Chancenverhältnis zu Gunsten des Ereignisses y = 1 (odds

®

das Chancenverhältnis zu Gunsten des Ereignisses y = 1 (odds= ez) um den Faktor ebj.

Anja Hall Abt. 2.2


®

• Beispiel: Steigt die Berufserfahrung (tenuretenure) um ein Jahr an, steigt die Chance selbständig zu sein um 1,028 (also um ca. 3%).

• Hingegen verdoppelt sich die Chance selbstständig zu sein (Exp(B) = 2,097), wenn man einen Universitäts-/Fachhochschulabschluss (max1202(3)max1202(3)) hat (gegenüber keinem Berufsabschluss).

• Hat man eine Ausbildung (max1202(1)max1202(1)) abgeschlossen, ist das Chancenverhältnis für Selbstständigkeit (y = 1) gegenüber Nicht-Selbstständigkeit (y = 0) bei 0,68. Die Chance selbstständig zu sein verringert sich also um den Faktor 0.68 wenn man eine Ausbildung abgeschlossen hat.

• Eine häufige Arbeit mit dem Computer (compcomp) führt eher zu einer Selbstständigkeit. Die Chance ist um den Faktor 1,27 erhöht.

Anja Hall Abt. 2.2


• Odds sind keine Wahrscheinlichkeiten, sondern Chancenverhältnisse. Es kann jedoch in Wahrscheinlichkeiten umgerechnet werden, sofern ein Beispielfall herangezogen wird da, der Effekt von X abhängt!

und .

• Für eine Person mit 10 Jahren Berufserfahrung, Hochschulabschluss und häufiger Computertätigkeit errechnet sich die Wahrscheinlichkeit selbstständig zu sein entsprechend:

®

zu sein entsprechend:

• z = -2,785 + 0,028*10 - 0,382*0 + 0,346*0 + 0,741*1 + 0,24*1= -1,524

• P(y=1) = exp(-1,524)/(1+exp(-1,524)) = 0,18

• => nach 20 Jahren Berufserfahrung steigt die Wahrscheinlichkeit auf 22%.

Anja Hall Abt. 2.2

(4) Prüfung des Gesamtmodells

• Zwei Fragen stehen bei der Prüfung des Gesamtmodells im Vordergrund:– Wie gut können die Parameterschätzungen in ihrer Grundgesamtheit

das definierte Regressionsmodell abbilden?– Liegen extreme Beobachtungsfälle vor, die als Ausreißer anzusehen

sind und eine Eliminierung oder eine Modellveränderung erfordern?

• Um den Gesamtfit eines logistischen Regressionsmodells zu überprüfen, stellt sich die Frage, wie gut die UV‘s in ihrer Gesamtheit zur Trennung der

®

stellt sich die Frage, wie gut die UV‘s in ihrer Gesamtheit zur Trennung der Ausprägungskategorien von Y beitragen.

– Gütekriterien auf Basis der LogLikelihood-Funktion

– Pseudo-R-Quadrat-Statistiken

– Beurteilung der Klassifikationsergebnisse

Anja Hall Abt. 2.2


• Gütekriterien auf Basis der LogLikelihood-Funktion (LL-Funktion)– Analyse der Devianz bzw. des -2*LogLikelihood-Wertes

• Die Likelihhood (LL) spiegelt die Wahrscheinlichkeit wider, unter den gegebenen Parameterschätzungen die empirisch erhobenen Beobachtungswerte zu erhalten.

• Multipliziert man die LL mit -2, so ist die Größe approximativ Chi-Quadrat-verteilt mit (K – J – 1) Freiheitsgraden (K = Anzahl Beobachtungen; J = Anzahl Parameter).

• Die Größe -2LL wird auch als Devianz (Abweichung vom Idealwert)

®

• Die Größe -2LL wird auch als Devianz (Abweichung vom Idealwert) bezeichnet und kann inhaltlich mit der Fehlerquadratsumme des linearen Regressionsmodells verglichen werden.

• Mit -2LL wird zur Überprüfung des Modellfits die Nullhypothese geprüft, dass das Modell eine perfekte Anpassung besitzt . Weist die Devianz einen geringen Wert auf, so kann die Nullhypothese nicht abgelehnt werden.-> Test sollte nicht signifikant sein

• Problem der Devianz: Neben der Trennfähigkeit der Variablen wird die Devianz auch von der Schiefe der Verteilung der AV beeinflusst. So ist die Devianz bei einer schiefen Verteilung der AV stets geringer als bei einer nahezu gleichen Besetzung der abhängigen Variablen in den Gruppen.

Anja Hall Abt. 2.2


– Likelihood-Ratio-Test (Modell Chi-Quadrat-Test)• Der Omnibus-Test der Modellkoeffizienten (Spezialfall des Likelihood-Ratio-

Tests) versucht die Probleme der Devianz zu vermeiden, indem er den maximierten LL-Wert nicht mit Null sondern mit demjenigen LL-Wert vergleicht, der sich ergibt wenn alle Regressionskoeffizienten der UV auf Null gesetzt werden. => Ähnlich F-Test in linearer Regression.

• Das Nullmodell wird mit vollständigem Modell verglichen• Es wird die Nullhypothese geprüft, das alle Regressionskoeffizienten gleich

Null sind . Ist der Test signifikant, kann man von einem signifikanten Unterschied zwischen dem intercept-only-Modell und dem vollständigen Modell ausgegangen

®

zwischen dem intercept-only-Modell und dem vollständigen Modell ausgegangen werden. -> Test sollte also signifikant sein

• Chi-Quadrat-Wert ergibt sich durch die -2LL des Nullmodels minus die -2LL des vollständigen Modells (13106,8 - 12427,7 = 679,1).

• Df (Freiheitsgrade) = 5 = Zahl der unabhängigen Variablen• Da Einschlußmethode gewählt wurde, ist nur ein Schritt berechnet worden =>

auch schrittweise möglich.

Anja Hall Abt. 2.2


• Die so genannten Pseudo-R-Quadrat-Statistiken versuchen, den Anteil der erklärten „Variation“ des logistischen Regressionsmodells zu quantifizieren.

– Vergleichbarkeit zwischen Modellen– Auch hier wird auf das Verhältnis zwischen dem Likelihood des Nullmodels (LL0)

und des vollständigen Modells (LLV ) zurückgegriffen– Immer zwischen 0 und 1.

• McFaddens-R² = 1- (LLv / LL0) – Bei geringem Unterschied ist McF-R² nahe Null, da der Quotient nahe 1 ist. I.d.R.

spricht man ab 0,2 bzw. 0,4 bereits von einer guten Modellanpassung, da das

®

spricht man ab 0,2 bzw. 0,4 bereits von einer guten Modellanpassung, da das Erreichen von 1 aufgrund der Konstruktion der Statistik nahezu unmöglich ist.

• Cox und Snell-R² = 1- (L0 / LV)2/K

– L0 = Likelihood des Nullmodells; LV= Likelihood des vollständigen Modells: K = Stichprobenumfang

– kann den Wert 1 nie erreichen.

• Nagelkerke-R² = Cox & Snell-R²/R²max

– R²max = 1 - (L0)2/K

– Kann Werte von 1 annehmen und kann deshalb eindeutig inhaltlich interpretiert werden.

Anja Hall Abt. 2.2


• Unser Modell:


McFaddens-R² = 1- (LLv / LL0) = 1 – (12427,7 / 13106,8) = 0,052


• Klassifikationstabelle: Spalten sind die vorhergesagten Werte, die Zeilen die tatsächlichen Werte. In einem perfekten Model wären alle Fälle auf der Diagonalen und der Prozentsatz der Richtigen läge bei 100%

– Kein Vergleich der Klassifizierungstabelle zwischen Stichproben, da unterschiedliche Trefferquote (Anzahl der korrekt Klassifizierten) möglich.

– Man weiß nicht, wie nahe die Prädiktoren am Trennpunkt waren.

• 88% der Fälle wurden durch das Modell korrekt zugeordnet, allerdings wäre dies auch blind möglich gewesen, wenn man die häufigste Kategorie gewählt

®

dies auch blind möglich gewesen, wenn man die häufigste Kategorie gewählt hätte.

Anja Hall Abt. 2.2


• Klassifizierungstabelle unter Einschluss der Variablen. – Hier kein Unterschied zum Nullmodell ersichtlich.



• Was ist eine gute Trefferquote?Die Trefferquote der richtigen Zuordnungen sollte mit derjenigen Trefferquote verglichen werden, die bei einer rein zufälligen Zuordnung der Elemente, erreicht werden würde. Bei zwei Gruppen gleicher Größe wäre eine zufällige Trefferquote von 50% zu erwarten.

– In unserem Fall liegt die maximale Zufallswahrscheinlichkeit – die dem Anteil der größten Gruppe an der Gesamtstichprobe entspricht – ebenfalls bei 88%.

®

– Die proportionale Zufallswahrscheinlichkeit berechnet sich nach der Formel a² + (1 – a)², wobei a der Anteil einer der zwei Gruppen an der Gesamtzahl der Beobachtungen ist. In unserem Fall ist es 0,88² + 0.12² = 0.79

– Daumenregel: die Trefferquote sollte ca. 25% besser sein als die Zufallswahrscheinlichkeit, wobei die Art der Zufallswahrscheinlichkeit (maximal oder proportional) dem Forscher überlassen wird. Auf keinen Fall sollte das Modell eine schlechtere Trefferquote als die proportionale Zufallswahrscheinlichkeit aufweisen.

Anja Hall Abt. 2.2


• Weitere Möglichkeiten: – Press‘s Q-Test (kritischer Wert=3,84)– Hosmer-Lemeshow-Test

• Prüft die Nullhypothese, dass die Differenz zwischen den vorhergesagten und den beobachteten Werten gleich N ull ist.

• Wenn insignifikant kann die Nullhypothese nicht verworfen werden.-> Test sollte also nicht signifikant sein



• Histogramm der vorhergesagten Wahrscheinlichkeiten (auch Klassenplot) ist ein alternativer Weg um korrekte und inkorrekte Klassifikationen aufzudecken. X-Achse stellt die Wahrscheinlichkeit dar, mit welcher ein Fall zugeordnet wurde. Die Y-Achse gibt die Häufigkeit der Fälle an.



• Ausreißerdiagnostik: – Welche Effekte üben einzelne Beobachtungen auf die Gesamtgüte des

Modells aus? Auskunft darüber geben die Residuenk = yk – pk(y).– Diese Residuenwerte (RES_1) liegen immer zwischen -1 und + 1 bei

einer binären Abhängigen.– I.d.R. geht man davon aus, dass Ausreißer Klassifikationsfehler

bewirken wenn sie (im Zwei-Gruppen-Fall) betragsmäßige Werte deutlich größer 0,5 annehmen.

®

deutlich größer 0,5 annehmen.

Anja Hall Abt. 2.2

– Um diese Ausreißer besser zu erkennen, werden die standardisierten Residuen einer Gewichtung unterzogen => standardisierte Residuen (ZRE_1, auch Pearson Residuum). Visualisierung bspw. über Boxplot

– Nicht vergleichbar mit Residuen der linearen Regression.

– Auch unter „Fallweise Liste der Residuen“


• DfBeta misst Änderung im Logit wenn eine Variable aus der Analyse ausgelassen wird. Sollte nicht größer als Eins sein.

• Leverage (LEV_1): zwischen 0 (kein Einfluss) und 1 (starker Einfluss).

• Cooks Distance. Einfluss wenn Fall ausgeschlossen wird.• Was wenn Ausreißer erkannt werden?

– Seltenes atypisches Antwortverhalten => Ausschluss aus Analyse

®

– Möglicherweise schlechte Spezifikation des Modells, eventuell wurden wichtige Einflussgrößen vergessen.

• Mulitnomiale logistische Regression: SPSS bietet wenig Analysemöglichkeiten für Ausreißer

Anja Hall Abt. 2.2



(5) Prüfung der Merkmalsvariablen

• Die im Model verwendeten Variablen sollten eine hohe Trennfähigkeit besitzen, um ein Modell-Overfitting (zu viele erklärende Variablen) zu vermeiden. Zur Überprüfung der Trennfähigkeit der Variablen kann auf den Likelihood-Quotienten-Test und auf die so genannte Wald-Statistik zurückgegriffen werden.

• Der Likelihood-Quotienten-Test vergleicht (ähnlich wie der Likelihood-Ratio-Test) das vollständige Modell mit einem

®

Likelihood-Ratio-Test) das vollständige Modell mit einem reduzierten Modell, bei welchem jeweils ein Regressionskoeffizient auf Null gesetzt wird und dann die -2LL auf ihre Signifikanz geprüft wird. Diese erfolgt ebenfalls über die Chi-Quadrat-Verteilung, mit der Anzahl der Differenz der Parameter beider Modelle als Freiheitsgrade. Die Nullhypothese , dass der Regressionskoeffizient bj gleich Null ist kann ab einer Wahrscheinlichkeit von p<=0.05 verworfen werden.

Anja Hall Abt. 2.2


• Das Prinzip der Wald-Statistik ist ähnlich dem des t-Tests in der linearen Regression. Auch hier wird die Nullhypothese getestet, dass ein bestimmtes bj gleich Null ist. Die Prüfgröße W, wird hierfür mit dem entsprechenden Wert der Chi-Quadrat-Verteilung verglichen.

• s = Standardfehler von b (j = 0,1,2,…,J).

®

• sbj = Standardfehler von bj (j = 0,1,2,…,J).• Da für große Logits der Standardfehler groß ist, führt das zu einer

kleineren Wald-Statistik und daher auch zu Type II Fehlern (Nullhypothese nicht ablehnen, obwohl Effekt). Daher ist es für Modelle mit größeren Logits und Dummy-Variablen empfehlenswerter einen Likelihood-Test mit und ohne die Variablen durchzuführen.

Anja Hall Abt. 2.2


• Anhand der Wald-Statistik ist ersichtlich, dass alle Variablen einen signifikanten Einfluss haben.

• Ein insignifikanter Einfluss lässt sich auch an den Konfidenzintervallen für Exp(B) erkennen: Schwanken diese um den Wert 1, so ist nicht eindeutig erkennbar, ob sich das Chancenverhältnis bei Zugehörigkeit einer Gruppe oder beim Anstieg der UV um eine Einheit verbessert oder verschlechtert.

• Signifikanz vs. Effektstärke!



• Korrelationsmatrix zeigt Korrelationen zwischen den UV‘s• Ein direktes Maß für Multikollinearität wie Toleranz oder VIF in der

linearen Regression gibt es bei der logistischen Regression nicht, da es kein entsprechendes R² gibt.


Bsp. correlations tenure zpalter

Multinomiale logistische Regression

• Vorhersage von Vollzeit, Teilzeit und geringfügiger Beschäftigung anhand von Berufserfahrung, Berufsabschluss und Kinder im Haushalt.





• Eintrag der Variablen:– Dichotome Variablen als Kovariaten oder als Faktoren:

• Wenn als Faktor ist der Output einfacherer interpretierbar. So ist immer die Kategorie die Referenzkategorie, deren Koeffizienten auf 0 gesetzt werden.

– Hier dichotome Variable kinderkinder als Faktor.

– Kategoriale Variablen als Faktoren. Als default-Einstellung gilt

®

– Kategoriale Variablen als Faktoren. Als default-Einstellung gilt der höchste Wert als Referenzkategorie.

– Metrische Variablen werden als Kovariaten eingegeben.

Anja Hall Abt. 2.2


• SPSS schätzt immer nur die Logits zu einer Referenzgruppe, diese ist per default immer die höchste.

• Modell angeben: – „Haupteffekte“: Nur ausgewählte Variablen gehen in das Modell

ein– „Gesättigtes Modell“: Auch Kreuzeffekte zwischen den

®

– „Gesättigtes Modell“: Auch Kreuzeffekte zwischen den ausgewählten Variablen werden in das Modell mit einbezogen.

– Oder „benutzerdefiniert“: Bsp. Nur bestimmte Kreuzeffekte.

Anja Hall Abt. 2.2


• Information zur Modellanpassung:– „Nur konstanter Term“ ist das Nullmodell. Der Likelihood Koeffizienten-Test der

die Differenz zwischen den beiden -2LL testet ist signifikant.

– Warum 10 Freiheitsgrade? Da die abhängige Variable 3 Ausprägungen aufweist gibt es 3 Wahrscheinlichkeitsübergänge zwischen jeweils 2 Gruppen. Deshalb müssen statt eines Logits (binäre log. Reg.) drei Logits berechnet werden. Allerdings ist aufgrund folgender Gleichung nur die Schätzung der b-Werte von 2 Logits notwendig:

®

Logits notwendig:

Anja Hall Abt. 2.2

Konstante zählt nicht zu den Freiheitsgraden, da der LR-Wert beim Abzug von zwei LL-Werten vom Effekt von b0 befreit ist.




• Güte der Anpassung: Es ist notwendig, dass bei einem Chi-Quadrat Anpassungstest die Zahl der Kovariatenmuster deutlich geringer ist als die Zahl der Beobachtungen. Sonst führt der Test zu falschen Aussagen. Wie der Hosmer-Lemeshow-Test sollte dieser Test insignifikant sein. Das ist hier nicht der Fall. Es ist also kein gutes Modell.

– „Pearson“ beruht auf dem traditionellen Chi-Quadrat.– „Abweichung“ (Devianz) auf der Likelihood-Ratio-Chi-Quadrat.

®

– „Abweichung“ (Devianz) auf der Likelihood-Ratio-Chi-Quadrat.

Anja Hall Abt. 2.2


• Da alles signifikant ist, kann man bei allen Variablen davon ausgehen, dass sie einen von Null verschiedenen Einfluss auf die abhängige Variable haben.



• Als Referenzgruppe dient Kategorie 3 (Vollzeiterwerbstätige)



• Wenn Regressionskoeffizient negativ bedeutet das, dass man mit dieser Variablenausprägung eher der Referenzkategorie zuzuordnen ist. Wenn positiv, dann eher in die Gruppe, in der man das Ergebnis abliest.

• Wirkungsrichtung und –stärke der Variablen offenbaren sich vor allem in den odds ratios bzw. den Effekt-Koeffizienten (Exp(B)). Ein Wert von 0,467 bei Kindern in der „Geringfügig-Gruppe“ bedeutet, dass sich

®

von 0,467 bei Kindern in der „Geringfügig-Gruppe“ bedeutet, dass sich das Verhältnis geringfügige Beschäftigung: vollwertige Beschäftigung um den Faktor 0,467 verringert, wenn man keine Kinder (Kinder=0) im Haushalt hat. Es stellt sich somit für Personen mit Kindern im Haushalt folgendermaßen dar 0,467:1 (Geringf.:Vollw.). Man ist also eher vollwertig Beschäftigt als geringfügig, wenn man keine Kinder hat.

Anja Hall Abt. 2.2


• Die „Chance“ geringfügig beschäftigt zu sein vs. Vollerwerbstätig zu sein, ist für Personen ohne Berufsabschluss 25mal höher als für Personen mit Hochschulabschluss.

• Um den Wahrscheinlichkeitsübergang von geringfügiger Beschäftigung auf Teilzeitbeschäftigung feststellen zu können, können die b-Schätzer der beiden Gruppen zur Referenzgruppe Vollzeiterwerbstätige voneinander abgezogen werden:

b (gering vs. teil) = b (gering vs. voll) – b (teil vs. voll)

®

bj (gering vs. teil) = bj(gering vs. voll) – bj(teil vs. voll)0,414 = -,761 - (-1.175)

• Eine andere Möglichkeit besteht darin, die Referenzkategorie anders zu wählen, indem die Gruppenbezeichnungen umcodiert werden. Dies hat den Vorteil, dass auch zugleich die Signifikanzen mit ausgegeben werden.

Anja Hall Abt. 2.2


• Korrekt klassifizierte Fälle stehen auf der Hauptdiagonalen, die verbleibenden Fälle markieren die Fehlklassifikationen.

• Unter zufälliger Beobachtung unter Beachtung der Gruppenstärke erhalten wir eine maximale Zufallswahrscheinlichkeit von 14014/16716 =83,84%. Das Modell trennt also nicht besser als die maximale Zufallswahrscheinlichkeit.

• Die proportionale Zufallswahrscheinlichkeit (PZW) berechnet sich im Mehrgruppenfall wie folgt:

®

Mit ng = Anzahl der Elemente in Gruppe g (g = 1,…G)ag = Anteilswert der Gruppe g (g = 1, …, G) an der Gesamtstichprobe nG = Anzahl der Gruppen

In diesem Fall:

(989/16716)^2 + (1713/16716)^2 + (14014/16716)^2 = 0.72

Anja Hall Abt. 2.2