23
Dr. Wolfgang Langer - Integrierte Veranstaltung Methoden IV WS 2002/2003 - 1 Die Analyse der Residuen des Regressionsmodells Die Analyse der Residuen eines geschätzten Regressionsmodells verfolgt drei Ziele, bei denen jeweils die Modellannahmen überprüft werden: 1. Streuen die Residuen gleichmäßig um die Regressionsgerade bzw. Ebene ? Hierbei wird die Varianzhomogenität der Residuen - ihre Homoskedastizität - überprüft. 2. Können wir bei der empirischen Verteilung der betrachteten Variablen jeweils einen linearen Zusammenhang unterstellen ? Hierbei wird die Linearitätsannahme für die betrachteten empirischen Zusammenhänge untersucht. 3. Welche Datenpunkte liegen besonders weit von der Regressionsgeraden entfernt und stellen damit einflussreiche “Ausreißer” dar ? Wie der folgenden Grafik zu entnehmen ist, unterstellt das Regressionsmodell stets einen linearen Zusammenhang, wie er in Beispiel ( a ) vorliegt. Selbst wenn ein nichtlinearer Zu- sammenhang wie im Beispiel ( b ) existiert, legt das Regressionsverfahren eine Gerade durch die umgekehrte Parabel. Daher wissen wir nicht, worauf eine schlechte Modellanpassung zurückzuführen ist. Besteht wirklich kein Zusammenhang zwischen beiden Merkmalen oder ist dieser Zusammenhang nur nicht linear ? Die Beispiele ( c ) und ( d ) veranschaulichen den Einfluß von “Ausreißern” auf die Lage der Regressionsgeraden. Im Beispiel ( c ) zieht der “Ausreißer” die Regressionsgerade nach oben, im zweiten Beispiel konstituiert der Ausreißer einen Scheinzusammenhang. Ohne ihn läge im Beispiel ( d ) kein Zusammenhang vor, da alle Beobachtungen über identische X-Werte verfügen und somit keine Varianz aufweisen. (Fox 1991, S. 4)

Die Analyse der Residuen des Regressionsmodells · zunächst identifizieren und anschlie ßend durch eine geeignete Datentransformation “linearisie-ren” ? ... SPSSfWin-Men ü:

Embed Size (px)

Citation preview

Page 1: Die Analyse der Residuen des Regressionsmodells · zunächst identifizieren und anschlie ßend durch eine geeignete Datentransformation “linearisie-ren” ? ... SPSSfWin-Men ü:

Dr. Wolfgang Langer - Integrierte Veranstaltung Methoden IV WS 2002/2003 - 1

Die Analyse der Residuen des Regressionsmodells

Die Analyse der Residuen eines geschätzten Regressionsmodells verfolgt drei Ziele, bei denenjeweils die Modellannahmen überprüft werden:

1. Streuen die Residuen gleichmäßig um die Regressionsgerade bzw. Ebene ? Hierbei wirddie Varianzhomogenität der Residuen - ihre Homoskedastizität - überprüft.

2. Können wir bei der empirischen Verteilung der betrachteten Variablen jeweils einenlinearen Zusammenhang unterstellen ? Hierbei wird die Linearitätsannahme für diebetrachteten empirischen Zusammenhänge untersucht.

3. Welche Datenpunkte liegen besonders weit von der Regressionsgeraden entfernt undstellen damit einflussreiche “Ausreißer” dar ?

Wie der folgenden Grafik zu entnehmen ist, unterstellt das Regressionsmodell stets einenlinearen Zusammenhang, wie er in Beispiel ( a ) vorliegt. Selbst wenn ein nichtlinearer Zu-sammenhang wie im Beispiel ( b ) existiert, legt das Regressionsverfahren eine Gerade durchdie umgekehrte Parabel. Daher wissen wir nicht, worauf eine schlechte Modellanpassungzurückzuführen ist. Besteht wirklich kein Zusammenhang zwischen beiden Merkmalen oder istdieser Zusammenhang nur nicht linear ? Die Beispiele ( c ) und ( d ) veranschaulichen denEinfluß von “Ausreißern” auf die Lage der Regressionsgeraden. Im Beispiel ( c ) zieht der“Ausreißer” die Regressionsgerade nach oben, im zweiten Beispiel konstituiert der Ausreißereinen Scheinzusammenhang. Ohne ihn läge im Beispiel ( d ) kein Zusammenhang vor, da alleBeobachtungen über identische X-Werte verfügen und somit keine Varianz aufweisen. (Fox1991, S. 4)

Page 2: Die Analyse der Residuen des Regressionsmodells · zunächst identifizieren und anschlie ßend durch eine geeignete Datentransformation “linearisie-ren” ? ... SPSSfWin-Men ü:

Dr. Wolfgang Langer - Integrierte Veranstaltung Methoden IV WS 2002/2003 - 2

Die Linearität bivariater Zusammenhänge lässt sich mit Hilfe einfacher Streudiagrammeüberprüfen. Als inhaltliches Beispiel bietet sich hierfür die Analyse der Säuglingssterblichkeitin der dritten Welt an, für die wir einen Aggregatdatensatz der Weltgesundheitsorganisation(WHO) der Vereinten Nationen verwenden. Er liegt auf unserem Kursverzeichnis“G:\DATEN\METH4". Die zugehörige Datei heißt “WHO.SAV”. Wir betrachten hierbei dieZusammenhänge der folgenden vier Indikatoren:

V7: Säuglingssterblichkeit pro 1000. Lebendgeborene ( in Promille)V8: Medizinische Versorgungsdichte: Durchschnittliche Anzahl der Einwohner pro prakti-

zierenden Arzt.V10: Ernährungssituation: Mittlere tägliche Kalorienmenge in Kcal pro PersonV11: Alphabetisierungsgrad: Anteil der Personen über 15 Jahre an der Bevölkerung, die

Lesen und Schreiben können.

Hierbei testen wir die folgenden drei Hypothesen:

1. Je schlechter der medizinische Versorgungsgrad ist, desto höher ist die Säuglingssterb-lichkeit. D.h., je mehr Patienten im Landesdurchschnitt von einem Arzt betreut werdenmüssen, desto höher fällt die Säuglingssterblichkeit aus.

2. Je besser die Ernährungssituation ist, desto niedriger ist die Säuglingssterblichkeit.3. Je höher der Alphabetisierungsgrad ist, desto niedriger ist die Säuglingssterblichkeit.

Um die Linearität der Zusammenhänge zu überprüfen, erzeugen wir zunächst mit SPSSfWineine Matrix bivariater Streudiagramme, wobei wir die Datenpunkte dergestalt kennzeichnen,dass der jeweilige Kontinent über die Gruppenvariable V2 erkennbar ist.

SPSSfWin-Menü: Grafik - Scatterplot - Matrix: Definieren

Page 3: Die Analyse der Residuen des Regressionsmodells · zunächst identifizieren und anschlie ßend durch eine geeignete Datentransformation “linearisie-ren” ? ... SPSSfWin-Men ü:

Dr. Wolfgang Langer - Integrierte Veranstaltung Methoden IV WS 2002/2003 - 3

SPSSfWin-Syntax:

GRAPH/SCATTERPLOT(MATRIX)=v7 v8 v10 v11 BY v2/MISSING=LISTWISE .

SPSSfWin-Grafik: Matrix der bivariaten Streudiagramme

KINDERSTER

EINW. / ARZT

ERNÄHRUNG

BILDUNG

KONTINENT:

Asien/Europa

Ozeanien

Europa

Asien

Amerika

Afrika

Total Population

Abb. 1: Matrix-Streugramm der betrachteten Variablen. (WHO-Daten 1983)

Die obige Matrix von Streudiagrammen ist symmetrisch aufgebaut, wobei die abhängigeVariable jeweils auf der Y-Achse und die unabhängige auf der X-Achse abgetragen wird. DieHauptdiagonale enthält die zugehörigen Variablennamen bzw. Etiketten, die im Grafikeditorauch geändert werden können. Die Herkunftskontinente der Länder lassen sich über dieSymbole der Legende identifizieren. Über die Grafik-Option des Untermenüs “Bearbeiten”legen wir eine Regressionsgerade durch den jeweiligen Punktschwarm, wodurch sich dieLinearitätsannahme des Regressionsmodells direkt überprüfen läßt. Eine genauere Betrachtungder Punktschwärme ergibt, dass einige “nichtlineare” Zusammenhänge vorliegen. Die klarsteAbweichung von der Geraden als “funktionalem Zusammenhang” liegt zwischen der Säuglings-sterblichkeit und der medizinischen Versorgungsdichte vor, wobei erstens offensichtlich einlogarithmischer Zusammenhang in der Form besteht, dass mit zunehmender Einwohneranzahlpro Arzt sich der Anstieg der Säuglingssterblichkeit deutlich abflacht. Zweitens weichen dreiAusreißer deutlich von diesem Trend ab. Letztere markieren wir in einem separaten bivariatenStreudiagramm mit Hilfe des speziellen Cursors für die Auswahl von Datenpunkten.

Page 4: Die Analyse der Residuen des Regressionsmodells · zunächst identifizieren und anschlie ßend durch eine geeignete Datentransformation “linearisie-ren” ? ... SPSSfWin-Men ü:

Dr. Wolfgang Langer - Integrierte Veranstaltung Methoden IV WS 2002/2003 - 4

Wie Abb. 2 zu entnehmen ist, handelt es sich bei ihnen um Kampuchea, Gambia und dieSeychellen.

EINWOHNER PRO ARZT:Zahl der Einwohner auf 1 praktizierenden Arzt

800006000040000200000

KIN

DE

RS

TE

RB

LIC

HK

EIT

in 0

/00

300

200

100

0

Kampuchea

Burkina-Faso

eychellen

Äquatorial-Guinea

Gambia

ÄthiopienTschad

Abb.2: Säuglingssterblichkeit auf medizinische Versorgungsdichte (WHO 1983)

Berechnng der zugehörigen bivariaten Korrelationen:

SPSSfWin-Menü: Statistik - Korrelationen

Page 5: Die Analyse der Residuen des Regressionsmodells · zunächst identifizieren und anschlie ßend durch eine geeignete Datentransformation “linearisie-ren” ? ... SPSSfWin-Men ü:

Dr. Wolfgang Langer - Integrierte Veranstaltung Methoden IV WS 2002/2003 - 5

SPSSfWin-Syntax:

CORRELATIONS/VARIABLES=v7 v8 v10 v11/PRINT=TWOTAIL SIG/MISSING=LISTWISE .

SPSSfWin-Ausgabeprotokoll:

- - Correlation Coefficients - -

V7 V8 V10 V11

V7 1,0000 ,6079 -,6708 -,8604 ( 104) ( 104) ( 104) ( 104) P= , P= ,000 P= ,000 P= ,000

V8 ,6079 1,0000 -,5406 -,6391 ( 104) ( 104) ( 104) ( 104) P= ,000 P= , P= ,000 P= ,000

V10 -,6708 -,5406 1,0000 ,6436 ( 104) ( 104) ( 104) ( 104) P= ,000 P= ,000 P= , P= ,000

V11 -,8604 -,6391 ,6436 1,0000 ( 104) ( 104) ( 104) ( 104) P= ,000 P= ,000 P= ,000 P= ,

(Coefficient / (Cases) / 2-tailed Significance)

" , " is printed if a coefficient cannot be computed

Der bereits in der Streudiagrammmatrix erkennbare nichtlineare Zusammenhang zwischen derSäuglingssterblichkeit und der medizinischen Versorgungsdichte weist in der obigen Matrix denniedrigsten Korrelationskoeffizienten auf. Sowohl die Ernährungslage als auch der Bildungsgradüben einen deutlich stärkeren Einfluß aus.

Wie können wir diesen nichtlinearen, logarithmischen Zusammenhang zwischen Säuglings-sterblichkeit und medizinischer Versorgungsdichte in unserem linearen Regressionsmodellzunächst identifizieren und anschließend durch eine geeignete Datentransformation “linearisie-ren” ?

Hierfür berechnen wir zunächst ein bivariates Regressionsmodell mit SPSSfWin und lassen unsanschließend die standardisierten Residuen gegen die standardisierten geschätzten Werte für Yplotten. Dies kann entweder direkt aus dem Regression-Menü oder im nachhinein über einenseparaten Grafik-Streudiagramm-Befehl erfolgen. Durch die Verwendung der Z-standardisiertenWerte erreichen wir eine höhere Kompaktheit der graphischen Darstellung, wobei die Konfigu-ration der Datenpunkte als solche erhalten bleibt.

Page 6: Die Analyse der Residuen des Regressionsmodells · zunächst identifizieren und anschlie ßend durch eine geeignete Datentransformation “linearisie-ren” ? ... SPSSfWin-Men ü:

Dr. Wolfgang Langer - Integrierte Veranstaltung Methoden IV WS 2002/2003 - 6

Z�Standardisierung der geschätzten Werte Yi:

ZY i�

Y i � Y

sY

Z�Standardisierung der Residuen ei: ei � Yi � Yi

Zei�

ei � e

se

ei � 0

se

ei

se

SPSSfWin-Menü: Statistik - Regression - Linear

Page 7: Die Analyse der Residuen des Regressionsmodells · zunächst identifizieren und anschlie ßend durch eine geeignete Datentransformation “linearisie-ren” ? ... SPSSfWin-Men ü:

Dr. Wolfgang Langer - Integrierte Veranstaltung Methoden IV WS 2002/2003 - 7

SPSSfWin-UnterMenü: Grafiken ...

Zusätzlich zu unserem Streudiagramm der z-standardisierten Residuen vs. die ebenfalls z-standardisierten vorhergesagten Werte von Y fordern wir eine Auflistung der Fälle (Länder) an,die mehr als 2 Standardabweichungen (sy) von der Regressionsgeraden entfernt liegen. Um imbivariaten Streudiagramm die “Ausreißer” leichter zu identifizieren, geben wir zusätzlich als“Identifikationsvariable” V1 mit den Ländernamen an.

SPSSfWin-Syntax:

REGRESSION/MISSING LISTWISE/STATISTICS COEFF OUTS R ANOVA/CRITERIA=PIN(.05) POUT(.10)/NOORIGIN/DEPENDENT v7/METHOD=ENTER v8/SCATTERPLOT=(*ZRESID ,*ZPRED )/RESIDUALS ID(v1 )/CASEWISE PLOT(ZRESID) OUTLIERS(2) .

Page 8: Die Analyse der Residuen des Regressionsmodells · zunächst identifizieren und anschlie ßend durch eine geeignete Datentransformation “linearisie-ren” ? ... SPSSfWin-Men ü:

Dr. Wolfgang Langer - Integrierte Veranstaltung Methoden IV WS 2002/2003 - 8

SPSSfWin-Ausgabeprotokoll:

Multiple R ,58851R Square ,34634Adjusted R Square ,34204Standard Error 46,27155

Analysis of Variance

DF Sum of Squares Mean SquareRegression 1 172436,52421 172436,52421Residual 152 325440,54073 2141,05619

F = 80,53807 Signif F = ,0000

------------------ Variables in the Equation ------------------

Variable B SE B Beta T Sig T

V8 ,002745 3,0586E-04 ,588510 8,974 ,0000(Constant) 54,668365 4,400991 12,422 ,0000

Casewise Plot of Standardized Residual

Outliers = 2, *: Selected M: Missing

-5, -2, 2, 5, Case # V1 O:.......: :.......:O V7 *PRED *RESID 14 114 . *.. . 155 253,8975 -98,8975 16 116 . .. * . 204 86,5969 117,4031 18 118 . ..* . 172 76,9019 95,0981 40 141 . .. * . 215 60,7675 154,2325 114 308 . .. * . 260 96,6569 163,3431 150 349 . ..* . 170 72,8642 97,1358

6 Outliers found.

Residuals Statistics:

Min Max Mean Std Dev N

*PRED 55,3820 253,8976 75,6494 33,5714 154*RESID -98,8975 163,3431 ,0000 46,1201 154*ZPRED -,6037 5,3095 ,0000 1,0000 154*ZRESID -2,1373 3,5301 ,0000 ,9967 154

Total Cases = 215

Page 9: Die Analyse der Residuen des Regressionsmodells · zunächst identifizieren und anschlie ßend durch eine geeignete Datentransformation “linearisie-ren” ? ... SPSSfWin-Men ü:

Dr. Wolfgang Langer - Integrierte Veranstaltung Methoden IV WS 2002/2003 - 9

Interpretation der Ergebnisse:

Unter der Annahme, dass zwischen der Säuglingssterblichkeit und der medizinischen Versor-gungsdichte ein linearer Zusammenhang besteht, erklären wir rd. 34,4% der Varianz desKriteriums. Die Regressionskoeffizienten lassen sich folgendermaßen interpretieren: Befändenwir uns in einer “Ärzterepublik ohne sonstige Patienten”, so läge die Säuglingssterblichkeit imDurchschnitt bei geschätzten 54,7 Promille. Mit einer Zunahme der Einwohnanzahl um jeweils1000 Personen steigt die geschätzte Mortalität im Durchschnitt um jeweils 2,75 Promille. DieAuflistung der Residuen ergibt, dass insgesamt sechs Länder mehr als zwei Standardabwei-chungen von der Regressionsgeraden abweichen. Bei ihnen handelt es sich um Äthiopien,Gambia, Guinea, die Seychellen, Kampuchea sowie den Nordjemen. Da das Regressionsmodellmit 34,4% “erklärter Varianz” eine für Aggregatdaten schlechte Anpassung aufweist, müssenwir überprüfen , ob die unterstellte Linearitätsannahme verletzt ist. Hierfür betrachten wir dasStreudiagramm der z-transformierten geschätzten Werte von Y und ihrer Residuen. Um die In-terpretation zu erleichtern, lassen wir uns die zum Regressionsmodell gehörende Gerade als“Mittelwertslinie” der Residuen darstellen. Eine genaue Betrachtung der Residuen in Abb. 3 zeigt, dass sie bumerangartig um die Regres-sionsgerade streuen. Vergleichen wir diese Form mit der empirischen Verteilung in Abb. 2, sofällt auf, dass beide von der Form her gesehen sehr ähnlich sind. Dies bedeutet, dass wir auchim Nachhinein durch die Betrachtung der Residuen des Regressionsmodells Verstöße gegen dieLinearitätsannahme identifiziert werden können. Dies gilt ebenfalls für die Ausreißer, derenPositionen in beiden Abbildungen nahezu übereinstimmen. Des weiteren fällt auf, dass dieResiduen sehr unterschiedlich über den Wertebereich von Y streuen. Dies weist daraufhin, dassdie Annahme homogener Fehlervarianzen verletzt ist.

Wie können wir diesen offensichtlich nichtlinearen Zusammenhang im “linearen” Regressions-modell berücksichtigen?

Dies kann durch die Transformation der beobachteten Variablen X und Y geschehen. Urban(1982, S. 168) hat die wichtigsten nichtlinearen Funktion und ihre für die Linearisierungnotwendigen Transformationen zusammengestellt.

Page 10: Die Analyse der Residuen des Regressionsmodells · zunächst identifizieren und anschlie ßend durch eine geeignete Datentransformation “linearisie-ren” ? ... SPSSfWin-Men ü:

Dr. Wolfgang Langer - Integrierte Veranstaltung Methoden IV WS 2002/2003 - 10

Abb. 3: Nichtlineare Funktionen und ihre “Linearisierung” im Rahmen des Regressions-modells (Urban 1982, S. 168f.)

Page 11: Die Analyse der Residuen des Regressionsmodells · zunächst identifizieren und anschlie ßend durch eine geeignete Datentransformation “linearisie-ren” ? ... SPSSfWin-Men ü:

Dr. Wolfgang Langer - Integrierte Veranstaltung Methoden IV WS 2002/2003 - 11

KampucheaSeychellen

Guinea

Gambia

Äthiopien

Regression Standardisierter geschätzter Wert

6543210-1

Reg

ress

ion

Sta

ndar

disi

erte

s R

esid

uum

4

3

2

1

0

-1

-2

-3

Abb. 4: Streudiagramm der z-standardisierten Residuen vs. geschätzte Werte derSäuglingssterblichkeit mit Kennzeichnung der “Ausreißer”

Die gemeinsame empirische Verteilung der Säuglingssterblichkeit und der medizinischenVersorgungsdichte entspricht am ehesten dem Funktionsverlauf in Abb. 35c., der logarith-mischen Transformation der unabhängigen Variablen. Bei ihr müssen wir uns entscheiden, obwir den Logarithmus zur Basis e=2,72, der Eulerschen Zahl (“natürlicher Logarithmus”), oderzur Basis 10 (“Gaußsche Zehnerlogarithmus”) berechnen. Letztere bietet sich aufgrund seinereinfacheren Interpretierbarkeit in den Sozial- und Wirtschaftswissenschaften an. Der zugehörigeRegressionskoeffizient misst dann diejenige Veränderung von Y, die im Durchschnitt durch dieZunahme der unabhängigen Variablen um eine Zehnerpotenz bewirkt wird. Hierbei entsprechendie Maßeinheiten auf der X-Achse den Zehnerpotenzen der unabhängigen Variablen. DenWerten 0, 1, 2, 3 , 4 sowie 5 entsprechen in unserem Beispiel 1, 10, 100, 1.000, 10.000 bzw.100.000 Einwohner pro Arzt.

Sollte die unabhängige Variable den Wert 0 enthalten, so haben wir ihn durch eine Eins zuersetzen, da der Logarithmus von Null nicht definiert ist. Dies kann entweder direkt in derDatenmatrix oder bei der Transformation durch das Addieren einer Eins zum Beobachtungs-wert erfolgen.

Page 12: Die Analyse der Residuen des Regressionsmodells · zunächst identifizieren und anschlie ßend durch eine geeignete Datentransformation “linearisie-ren” ? ... SPSSfWin-Men ü:

Dr. Wolfgang Langer - Integrierte Veranstaltung Methoden IV WS 2002/2003 - 12

SPSSfWin-Menü: Transformieren - Berechnen ...

SPSSfWin-Syntax:

COMPUTE v8log10 = LG10(v8) .VARIABLE LABELS v8log10 'Log10 Einwohner pro Arzt' .EXECUTE .

Die Linearität des Zusammenhangs beider Merkmale lässt sich nun mit Hilfe eines weiterenStreudiagramm der Säuglingssterblichkeit und der logarithmierten Einwohneranzahl pro Arztüberprüfen.

Page 13: Die Analyse der Residuen des Regressionsmodells · zunächst identifizieren und anschlie ßend durch eine geeignete Datentransformation “linearisie-ren” ? ... SPSSfWin-Men ü:

Dr. Wolfgang Langer - Integrierte Veranstaltung Methoden IV WS 2002/2003 - 13

Sowjetunion

Kampuchea

Seychellen

Malawi

Libyen

Gambia

Äthiopie

Log10 Einwohner pro praktizierenden Arzt

5,04,54,03,53,02,52,0

KIN

DE

RS

TE

RB

LIC

HK

EIT

in 0

/00

300

200

100

0

Abb. 5: Säuglingssterblichkeit auf logarithmierte Einwohnanzahl pro praktizierendenArzt (WHO 1983): R2 = 56,81 %.

Für das zugehörige bivariate Regressionsmodell hat SPSSfWin die folgenden Koeffizientenermittelt:

SPSSfWin- Ausgabeprotokoll:

Multiple R ,77196R Square ,59592Adjusted R Square ,59326Standard Error 36,38079

Analysis of Variance DF Sum of Squares Mean SquareRegression 1 296695,69181 296695,69181Residual 152 201181,37313 1323,56167

F = 224,16462 Signif F = ,0000

------------------ Variables in the Equation ------------------

Variable B SE B Beta T Sig T

V8LOG10 70,501246 4,708833 ,771960 14,972 ,0000(Constant) -167,580855 16,507935 -10,152 ,0000

Page 14: Die Analyse der Residuen des Regressionsmodells · zunächst identifizieren und anschlie ßend durch eine geeignete Datentransformation “linearisie-ren” ? ... SPSSfWin-Men ü:

Dr. Wolfgang Langer - Integrierte Veranstaltung Methoden IV WS 2002/2003 - 14

Casewise Plot of Standardized Residual

Outliers = 2, *: Selected M: Missing

-5, -2, 2, 5, Case # V1 O:.......: :.......:O V7 *PRED *RESID 16 116 . .. * . 204 119,0528 84,9472 24 125 . ..* . 107 31,2005 75,7995 40 141 . .. * . 215 68,3688 146,6312 93 237 . .. * . 141 55,9265 85,0735 114 308 . .. * . 260 127,4391 132,5609 136 331 . ..* . 135 56,7229 78,2771

6 Outliers found.

Residuals Statistics:

Min Max Mean Std Dev N

*PRED 2,6778 175,1136 75,6494 44,0362 154*RESID -68,1460 146,6312 ,0000 36,2617 154*ZPRED -1,6571 2,2587 ,0000 1,0000 154*ZRESID -1,8731 4,0305 ,0000 ,9967 154

Interpretation:

Im Vergleich zum vorherigen Regressionsmodell hat sich die Modellanpassung mit rd. 59,6 %vs. 34,6 % deutlich verbessert. Dies ist ebenfalls am standardisierten Regressionskoeffizientenß erkennbar, der +0,77 beträgt. Bei der inhaltlichen Interpretation der unstandardisiertenRegressionskoeffizienten haben wir daran zu denken, dass sie nun die durch die logarithmierteEinwohneranzahl induzierte Änderung der Säuglingssterblichkeit messen. In unserem Fallbedeutet dies, dass die Zunahme der Einwohneranzahl um eine 10er Potenz zu einer durch-schnittlichen Steigerung der Säuglingssterblichkeit um rd. 70,5 Promille führt. Die Regressions-konstante ist inhaltlich nicht definiert, da der Fall eines Eins-zu-Eins-Verhältnisses von Ein-wohnern und Arzt rein hypothetisch ist.

Mit Hilfe des Streudiagramms der standardisierten vorhergesagten und Residualwerte läßt sichnun im nachhinein die Linearitäts- und Varianzhomogenitätsanahme überprüfen.

Page 15: Die Analyse der Residuen des Regressionsmodells · zunächst identifizieren und anschlie ßend durch eine geeignete Datentransformation “linearisie-ren” ? ... SPSSfWin-Men ü:

Dr. Wolfgang Langer - Integrierte Veranstaltung Methoden IV WS 2002/2003 - 15

Jemen (Nord-)

Kampuchea

Peru

Seychellen

LibyenGambia

Äthiopien

Regression Standardisierter geschätzter Wert

3210-1-2

Reg

ress

ion

Sta

ndar

disi

erte

s R

esid

uum

5

4

3

2

1

0

-1

-2

Abb. 6: Streudiagramm der z-standardisierten vorhersagten und Residualwerte derSäuglingssterblichkeit mit dem logarithmierten Einwohner Pro Arzt-Ratio(WHO 1983) und identifizierten “Ausreißern”

Sieht man von den “Ausreißern” ab, so streuen die Länder in Abb.6 relativ gleichmäßig um dieRegressionsgerade. Eine systematische Abweichung wie in Abb. 2 ist nicht mehr erkennbar.Daher dürften die beiden Modellannahmen der Linearität und Varianzhomogenität der Residuenfür dieses Regressionsmodell gelten.

Im multiplen linearen Regressionsmodell ist die Überprüfung dieser Modellannahmen schwieri-ger, da wir bei der Betrachtung des “funktionalen Zusammenhang” zusätzlich noch die Interkor-relationen mit den anderen Prädiktoren zu berücksichtigen haben. Dies geschieht im multiplenlinearen Regressionsmodell durch die wechselseitige Auspartialisierung der Einflüsse derunabhängigen Variablen untereinander und ihrer jeweiligen Effekte auf die abhängige Variable.Dies veranschaulichen die folgenden sechs Venndiagramme. Den Modellen a), b), d) sowie e)entspricht jeweils ein bivariates Regressionsmodell mit der ersten Variablen als Kriterium undder zweiten als Prädiktor. Nach der Schätzung des Regressionsmodells werden die Residuen desKriteriums berechnet und gespeichert. Dies entspricht der Restmengenbestimmung der Wahr-scheinlichkeitsrechnung, die mit dem Mengenoperator “\” gekennzeichnet wird. Im Beispiel a)bedeutet “X1 \ X2" die Bildung der Restmenge (Residualvarianz) von X1, wobei X2 auspartiali-siert wird. Um im multiplen Regressionsmodell die funktionale Form der Zusammenhängezwischen dem Kriterium und jeder unabhängigen Variablen zu bestimmen, müssen wir zuvoralle anderen unabhängigen Variablen jeweils aus dem betreffenden Prädiktor und dem Kriteri-um auspartialisieren. Bei mehr als zwei unabhängigen Variablen benötigen wir hierzu multiplelineare Regressionsmodelle, die jeweils alle anderen Prädiktoren aus dem betrachtetem Merk-mal und aus dem Kriterium herausnehmen.

Page 16: Die Analyse der Residuen des Regressionsmodells · zunächst identifizieren und anschlie ßend durch eine geeignete Datentransformation “linearisie-ren” ? ... SPSSfWin-Men ü:

Dr. Wolfgang Langer - Integrierte Veranstaltung Methoden IV WS 2002/2003 - 16

Betrachten wir nun die Linearität der Zusammenhänge im WHO-Beispiel. Als zusätzlichePrädiktoren verwenden wir die mittlere Kalorienmenge pro Tag und Person (V10) sowie dieAlphabetisierungsrate (V11).

Page 17: Die Analyse der Residuen des Regressionsmodells · zunächst identifizieren und anschlie ßend durch eine geeignete Datentransformation “linearisie-ren” ? ... SPSSfWin-Men ü:

Dr. Wolfgang Langer - Integrierte Veranstaltung Methoden IV WS 2002/2003 - 17

SPSSfWin-Menü: Statistik - Regression - Linear

Neben den univariaten Statistiken fordern wir über das UnterMenü “Grafiken...” zusätzlich diepartiellen Streudiagramme an, die in der Abb. 7 den Venndiagrammen c) und f) entsprechen.

SPSSfWin-Menü: Statistik - Regression - Linear - Grafiken

Page 18: Die Analyse der Residuen des Regressionsmodells · zunächst identifizieren und anschlie ßend durch eine geeignete Datentransformation “linearisie-ren” ? ... SPSSfWin-Men ü:

Dr. Wolfgang Langer - Integrierte Veranstaltung Methoden IV WS 2002/2003 - 18

SPSSfWin-Syntax:

REGRESSION/DESCRIPTIVES MEAN STDDEV CORR SIG N/MISSING LISTWISE/STATISTICS COEFF OUTS R ANOVA/CRITERIA=PIN(.05) POUT(.10)/NOORIGIN/DEPENDENT v7/METHOD=ENTER v8log10 v10 v11/PARTIALPLOT ALL/RESIDUALS ID(v1 )/SCATTERPLOT=(*ZRESID ,*ZPRED )/CASEWISE PLOT(ZRESID) OUTLIERS(2) .

SPSSfWin-Ausgabeprotokoll:

* * * * M U L T I P L E R E G R E S S I O N * * * *

Listwise Deletion of Missing Data

Mean Std Dev Label

V7 67,990 54,569 Kindersterblichkeit:je 1000 LebendgeboreneV8LOG10 3,388 ,597 Lg10 Patienten pro ArztV10 2729,673 562,433 ERNÄRUNG:Mittl. tägliche EnergieaufnahmeV11 66,817 28,708 ALPHABETISIERUNGSGRAD %

N of Cases = 104

Correlation, 1-tailed Sig:

V7 V8LOG10 V10 V11

V7 1,000 ,754 -,671 -,860 , ,000 ,000 ,000

V8LOG10 ,754 1,000 -,820 -,766 ,000 , ,000 ,000

V10 -,671 -,820 1,000 ,644 ,000 ,000 , ,000

V11 -,860 -,766 ,644 1,000 ,000 ,000 ,000 ,

Multiple R ,87601R Square ,76739Adjusted R Square ,76042Standard Error 26,70995

Page 19: Die Analyse der Residuen des Regressionsmodells · zunächst identifizieren und anschlie ßend durch eine geeignete Datentransformation “linearisie-ren” ? ... SPSSfWin-Men ü:

Dr. Wolfgang Langer - Integrierte Veranstaltung Methoden IV WS 2002/2003 - 19

Analysis of Variance DF Sum of Squares Mean SquareRegression 3 235364,86486 78454,95495Residual 100 71342,12552 713,42126

F = 109,97003 Signif F = ,0000

------------------ Variables in the Equation ------------------

Variable B SE B Beta T Sig T

V8LOG10 11,640364 9,181615 ,127361 1,268 ,2078V10 -,012479 ,008187 -,128615 -1,524 ,1306V11 -1,292681 ,142714 -,680070 -9,058 ,0000(Constant) 148,994066 52,859273 2,819 ,0058

Casewise Plot of Standardized Residual

Outliers = 2, *: Selected M: Missing

-5, -2, 2, 5, Case # O:.......: :.......:O V7 *PRED *RESID 16 . ..* . 204 142,5970 61,4030 40 . .. *. 215 81,8802 133,1198 64 . ..* . 138 79,6045 58,3955 84 . * .. . 23 89,0352 -66,0352 93 . .. * . 141 65,4610 75,5390 148 . .. * . 131 59,3577 71,6423

6 Outliers found.

Residuals Statistics:

Min Max Mean Std Dev N

*PRED 4,3625 168,8924 67,9904 47,8027 104*RESID -66,0352 133,1198 ,0000 26,3181 104*ZPRED -1,3311 2,1108 ,0000 1,0000 104*ZRESID -2,4723 4,9839 ,0000 ,9853 104

Interpretation:

Mit rd. 76,7 % “erklärter Varianz” weist unser Modell eine sehr gute Anpassung auf. Zubeachten sind aber die sehr hohen Korrelationen zwischen den Prädiktoren V10 und V11 mitV8LOG10, die Koeffizienten von -0,766 bzw. -0,820 aufweisen.Bei den Steigungsangaben handelt es um partielle Koeffizienten, die uns die Effektstärke desPrädiktors unter Konstanthaltung aller anderen angeben. Für die medizinische Versorgungs-dichte bedeutet dies, dass unter Kontrolle der Ernährungslage und des Bildungsniveaus proZehnerpotenz zu versorgender Patienten die Säuglingssterblichkeit im Durchschnitt um 11,6Promille steigt. Erhöht sich unter Konstanthaltung der anderen Prädiktoren die mittlere Nah-rungsmenge pro Kopf um 1000 Kcal, so sinkt im Durchschnitt die Mortalität um rd. 12,5Promille. Ebenfalls hypothesenkonform sinkt die Mortalität mit zunehmenden Bildungsniveau.Bei der gleichzeitigen Kontrolle der beiden anderen Prädiktoren erwarten wir pro zusätzlichemProzent von Schreib- und Lesekundiger im Durchschnitt eine Abnahme der Mortalität um rd.1,3 Promille. Für die Betrachtung der relativen Effektstärken bieten sich die standardisierten

Page 20: Die Analyse der Residuen des Regressionsmodells · zunächst identifizieren und anschlie ßend durch eine geeignete Datentransformation “linearisie-ren” ? ... SPSSfWin-Men ü:

Dr. Wolfgang Langer - Integrierte Veranstaltung Methoden IV WS 2002/2003 - 20

Regressionskoeffizienten an, die auf den Wertebereich von [-1;+1] begrenzt sind. Mit einem ß-Gewicht von -0,68 übt der Alphabetisierungsgrad den stärksten Einfluß auf die Säuglingssterb-lichkeit aus. Hingegen folgen weit abgeschlagen der medizinische Versorgungsgrad und dasErnährungsniveau mit Koeffizienten von +0,13 und -0,13.

Ob die Annahmen zur Varianzhomogenität der Residuen und der Linearität der Zusammenhän-ge erfüllt sind, läßt sich anhand der Residual- und partiellen Regressionsplots entscheiden.

TürkeiPeru

Honduras

BolivienSwaziland

Seychellen

Gambia

Regression Standardisierter geschätzter Wert

2,52,01,51,0,50,0-,5-1,0-1,5

Reg

ress

ion

Sta

ndar

disi

erte

Res

idue

n

6

4

2

0

-2

-4

Abb. 8: Streudiagramm der z-standardisierten geschätzten und Residualwerte derSäuglingssterblichkeit im multiplen Regressionsmodell (WHO-Daten 1983)

Sieht man von den sechs “Ausreißern” ab, die namentlich gekennzeichnet sind, so streuen dieResiduen relativ homogen um die Regressionsgerade.

Die Linearität der Zusammenhänge überprüfen wir mit Hilfe der partiellen Regressionsplot, beidenen die Residuen des jeweiligen Prädiktors und des Kriteriums gegeneinander abgetragenwerden, nachdem zuvor aus beiden die anderen Prädiktoren auspartialisiert worden sind.

Page 21: Die Analyse der Residuen des Regressionsmodells · zunächst identifizieren und anschlie ßend durch eine geeignete Datentransformation “linearisie-ren” ? ... SPSSfWin-Men ü:

Dr. Wolfgang Langer - Integrierte Veranstaltung Methoden IV WS 2002/2003 - 21

TürkeiPeru

Honduras

Bolivien Swaziland

Seychellen

Gambia

Partiell. Residuum-Plot: KINDERSTERBLICHKEIT R² = 1,58 %

Lg10 Patienten pro Arzt (Residuen)

,8,6,4,20,0-,2-,4-,6-,8

KIN

DE

RS

TE

RB

LIC

HK

EIT

(R

esid

uen)

200

100

0

-100

Abb. 9: Partieller Residualplot der Säuglingssterblichkeit auf das logarithmierteEinwohner pro Arzt-Verhältnis

TürkeiPeru

Honduras

Bolivien

Seychellen

Gambia

Partiell. Residuum-Plot: KINDERSTERBLICHKEIT R² = 2,27 %

ERNÄHRUNG:Mittl. tägliche Energieaufnahme je Einw. (Residuen)

10000-1000

KIN

DE

RS

TE

RB

LIC

HK

EIT

(R

esid

uen)

200

100

0

-100

Abb. 10: Partieller Residualplot der Säuglingssterblichkeit auf die tägliche mittlereEnergieaufnahme

Page 22: Die Analyse der Residuen des Regressionsmodells · zunächst identifizieren und anschlie ßend durch eine geeignete Datentransformation “linearisie-ren” ? ... SPSSfWin-Men ü:

Dr. Wolfgang Langer - Integrierte Veranstaltung Methoden IV WS 2002/2003 - 22

Ägypten

Jemen (Nord-)Libyen

Honduras

GambiaPeru

Seychellen

Partiell. Residuum-Plot: KINDERSTERBLICHKEIT R² = 45,1 %

ALPHABETISIERUNGSGRAD % (Residuen)

6040200-20-40-60

KIN

DE

RS

TE

RB

LIC

HK

EIT

(R

esid

uen)

200

100

0

-100

Abb. 11: Partieller Residualplot der Säuglingssterblichkeit auf den Alphabetisierungsgrad

Die Betrachtung der drei partiellen Residualplots ergibt, dass wir zwischen dem Kriterium undden drei Prädiktoren jeweils einen linearen Zusammenhang unterstellen können, der gelegent-lich durch einige Ausreißer verzerrt wird. Bei der medizinischen Versorgungsdichte und dertäglichen Nahrungsmenge ist dieser Zusammenhang nur sehr schwach ausgeprägt. Angesichtsder bisherigen bivariaten Ergebnisse erstaunt dies sehr. Betrachtet man die Interkorrelationender exogenen Merkmale genauer, so zeigt sich, dass medizinische Versorgungsdichte sehr hochnegativ mit der Ernährungslage und dem Alphabetisierungsgrad korreliert. Beide Prädiktorenkorrelieren ebenfalls mit der Säuglingssterblichkeit hoch negativ. Ob sich dahinter eine“Scheinkausalität” oder Multikollinearität verbirgt, lässt sich nur mit Hilfe theoretischerAnnahmen klären. Ebenfalls denkbar wäre, dass die drei Indikatoren nicht wechselseitigeUrsachen darstellen, sondern dass sie alle drei dasselbe theoretische Konstrukt “Unterentwick-lung” messen. Im Rahmen der Ausführungen zur Faktorenanalyse werden wir sehen, wie wirerstens diese Messhypothese überprüfen und zweitens durch eine geeignete Indexkonstruktionin das Regressionsmodell aufnehmen können.

Page 23: Die Analyse der Residuen des Regressionsmodells · zunächst identifizieren und anschlie ßend durch eine geeignete Datentransformation “linearisie-ren” ? ... SPSSfWin-Men ü:

Dr. Wolfgang Langer - Integrierte Veranstaltung Methoden IV WS 2002/2003 - 23

Literaturangaben:

Fox, John: Regression Diagnostics.Newbury Park, Ca: 1991(Quantitative Applications in the Social Sciences; Nr. 79)

Norušis, Marija J.: SPSS 7.5. Guide to Data Analysis.Upper Saddle River, N.J.: Prentice-Hall, 1997

Urban, Dieter: Regressionstheorie und Regressionstechnik.Stuttgart: Teubner, 1982(Teubner Studienskripte Soziologie, Nr. 36)