Einführung in die Grundlagen der Regressionsanalyse · Dr. Wolfgang Langer - Integrierte Veranstaltung Methoden IV WS 2002/2003 - 1 Einführung in die Grundlagen der Regressionsanalyse

Dr. Wolfgang Langer - Integrierte Veranstaltung Methoden IV WS 2002/2003 - 1

Einführung in die Grundlagen der Regressionsanalyse

Da die Regressionsanalyse auf den bereits bekannten Konzepten der Varianz und Kovarianz beruht,empfiehlt es sich diese grundlegenden statistischen Maße kurz zu wiederholen. Hierbei gehen wir beiden entsprechenden Formeln von Stichprobenbefunden aus, die mit Hilfe der Inferenzstatistik auf diezugehörige Grundgesamtheit verallgemeinert werden können.Um die Formeln zu veranschaulichen, werten wir auf Länderebene die EUROBAROMETER-Unter-suchung Nr. 30 zur Fremdenfeindlichkeit in Europa 1988 aus. Als abhängige Variable dient hierbeider Prozentsatz der befragten “Inländer”, welche die Ansicht vertreten haben, dass zu viele Ausländerim Lande leben. Zur Erklärung der Zustimmungsunterschiede dienen die “objektiven Indikatoren”Anteil der EG-Ausländer, Anteil der Nicht-EG-Ausländer sowie die Arbeitslosenquote 1988. Zu ihnengesellt sich als “weicher“ Faktor der in derselben Untersuchung ermittelte Anteil der Postmaterialistenim Sinne Ingleharts.

Tab.1: Subjektive Bewertung der Größe der Ausländerpopulation durch Inlän-der in der Europäischen Gemeinschaft 1988

Frage: "Was würden Sie - ganz allgemein gesehen- zur Anzahl der Menschenanderer Nationen in unserem Lande sagen: sind das zu viele, viele, abernicht zu viele - oder nicht viele ?"

LAND PZUVIELE PEGAUSL PNEGAUSL PPOSTMAT ARBEITSL

B 45,00 5,50 3,20 13,10 8,10DK 37,00 0,50 2,00 19,70 7,40D 49,00 2,30 5,30 25,30 5,10F 46,00 2,90 3,90 16,10 9,00GR 22,00 1,10 0,80 9,00 7,50GB 47,00 1,30 1,80 18,30 6,40IRL 8,00 1,90 0,50 10,20 15,60I 36,00 0,20 0,40 12,30 9,80L 31,00 24,30 2,00 13,10 1,60NL 31,00 1,10 2,80 24,20 8,10P 15,00 0,20 0,60 5,60 4,60E 20,00 0,50 0,40 13,50 16,10

Quellen: EUROBAROMETER Nr. 30 (1988) und EUROSTAT


x �

�n

i�1xi

n

S 2�

�n

i�1( xi � x )2

n�1

S � S 2

Mit Hilfe des arithmetrischen Mittels und der Varianz können wir die univariate Verteilung einerintervall-oder ratioskalierten Variablen beschreiben:

1. a) Beschreibung der zentralen Tendenz: Der Arithmetrischer Mittelwert

b) Beschreibung der Streuung um den Mittelwert: Die Varianz als die durchschnitt-liche quadrierte Abweichung vom arithmetrischen Mittelwert

c) Die Standardabweichung: Die durchschnittliche Abweichung vom arithmetri-schen Mittelwert

Zur Beschreibung des Zusammenhang zweier metrischer Variablen verwenden wir die Kovariation,die Kovarianz sowie die Korrelation. Während die Kovariation lediglich auf der Ebene der Werte-paare das Produkt seiner Abweichung in X und Y vom jeweiligen Mittelwert aufsummiert, stan-dardisiert die Kovarianz diese Summe zusätzlich am Stichprobenumfang. Beide Maße besitzen wederdefinierte Unter- noch Obergrenzen, so dass die Stärke des Zusammenhanges zwischen beidenMerkmalen nicht normiert ist. Daher lassen sich auch keine Aussagen darüber zu, ob dieser Zu-sammenhang stark oder schwach ausgeprägt ist. Erst der von Karl Pearson zusammen mit FrancisGalton 1890 entwickelte Produkt-Moment-Korrelations-Koeffizient lässt diese Aussagen zu, da er dieKovarianz am Produkt der Standardabweichungen von X und Y standardisiert und somit über einendefinierten Wertebereich von [-1; +1] verfügt. Sein Vorzeichen gibt jeweils die Richtung der Bezie-hung an. Hierbei setzen wir aber voraus, dass es sich um einen linearen Zusammenhang handelt. Erhalten wir einen Koeffizienten von Null, so besagt dies lediglich, dass die Linearitätsannahme nichterfüllt ist. Ob überhaupt kein Zusammenhang vorliegt oder ob er einen kurvenlinearen Verlaufannimmt, können wir mit Hilfe des von Galton entwickelten Streudiagramm feststellen. Hierzu tragenwir alle Wertepaare in einem zweiachsigen Koordinatensystem ab.


Kovariation (y,x) � �

N

i�1(xi � x ) � (yi � y )

Kovarianz (y,x) �

�

N

i�1(xi � x ) � (yi � y )

n � 1

Pearsons Korrelation ry,x �

�

N

i�1

(xi � x )

sx

�

(yi � y )

sy

n � 1

�Kovarianz (y,x)

sx � sy

� [�1;�1]

2. a) Die Kovariation von Y und X:

b) Die Kovarianz von Y und X:

c) Die Pearsonsche Produkt-Moment-Korrelation r:

Um zu überprüfen, ob ein linearer Zusammenhang zwischen den Merkmalen Prozentsatz der Zu-stimmung “zu viele Ausländer im Land” und dem Anteil der Nicht-EG-Ausländer an der Wohnbevöl-kerung besteht, zeichnen wir zunächst ein Streudiagramm beider Merkmale auf Länderebene. Wirgehen hierbei von der Forschungshypothese aus, dass je höher der Anteil der Nicht-EG-Ausländer ander Wohnbevölkerung ausfällt, desto höher ist die Furcht vor “Überfremdung”.


E

P

NLL

I

IRL

GB

GR

FD

DK

B

Prozentsatz Nicht-EG-Ausländer

6543210

Pro

zent

satz

zu

viel

e A

uslä

nder

60

50

40

30

20

10

0

Abb.1: Streudiagramm: Prozentsatz “Zu viele Ausländer “ auf Anteil der Nicht-EG-Ausländer an der Wohnbevölkerung (Quelle: EUROBAROMETER 30)

Die Betrachtung der Abbildung 1 zeigt, dass erstens zwischen beiden Merkmalen ein linearer,Zusammenhang besteht. Zweitens bildet die ihn repräsentierende Gerade die Verteilung der Punkte imEuklidischen Raum nicht vollständig ab. Mit Hilfe der zuvor dargestellten Kontingenzmaße könnenwir die Stärke des Zusammenhangs numerisch bestimmen. Hierzu dient die folgende Arbeitstabelle,wobei wir auf Ländebene die Produkte der absoluten Abweichungen vom jeweiligen Mittelwertberechnet haben.


(Xi�X ) (Yi�Y ) (Xi�X )� (Yi�Y )

Tab. 2: Berechnung der Kovariation, Kovarianz und Korrelation zwischen %-Zu-viele-Ausländer und %-Nicht-EG-Ausländer 1988

LAND PNEGAUSL:

X

PZUVIELE:

Y

B 3,2 45 1,22 12,75 15,56

DK 2,0 37 0,02 4,75 0,1

D 5,3 49 3,32 16,75 55,61

F 3,9 46 1,92 13,75 26,4

GR 0,8 22 -1,18 -10,25 12,1

GB 1,8 47 -0,18 14,75 -2,66

IRL 0,5 8 -1,48 -24,25 35,89

I 0,4 36 -1,58 3,75 -5,93

LUX 2,0 31 0,02 -1,25 -0,03

NL 2,8 31 0,82 -1,25 -1,03

P 0,6 15 -1,38 -17,25 23,81

H 0,4 20 -1,58 -12,25 19,36

� = 1,98 32,25 Kovariation = 179,18

s(x) = 1,58 13,59 Kovarianz = 16,29

Korrelation= 0,76

Im Durchschnitt stimmten 32,25 % der Befragten dem Statement “Es gibt zu viele Ausländer imLand” zu, wobei die durchschnittliche Abweichung von dieser Tendenz rd. 13,6% beträgt. Hingegenstellen die Nicht-EG-Ausländer im Durchschnitt rd. 2 % der Wohnbevölkerung. Dieser Anteilschwankt auf der Ebene der 12 EG-Staaten im Durchschnitt um rd. 1,6 %. Beide Merkmale verfügenüber sehr unterschiedliche Streuungen, was bei der Betrachtung der Zusammenhangsstärke kon-trolliert werden muß. Für die Kovariation bzw. Kovarianz haben wir Koeffizienten von 179,18, bzw.16,29 ermittelt. Der Pearsonsche Produkt-Moment-Korrelation beträgt +0,76. Auf letzteren stützt sichdie inhaltliche Interpretation der Effektsstärke, da er neben dem Stichprobenumfang auch die unter-schiedlichen Streuungen beider Merkmale berücksichtigt. Ein Koeffizient von +0,76 besagt, dass,wenn sich der Anteil der Nicht-EG-Ausländer an der Wohnbevölkerung um eine Standardabweichungvon X erhöht, d.h., wenn er um 1,59 % steigt, dann nimmt die Zustimmung zum Item “Es gibt zu vieleAusländer” im Durchschnitt um 0,76 Standardabweichungen von Y (0,76*13,59 % = 10,33%) zu. DiePearsonsche Korrelation belegt zwar einen starken Zusammenhang beider Merkmale, hierbei habenwir aber zu beachten, dass es sich um eine “ökologische Korrelation” handelt, die keinerlei Aufschlussüber die Variation innerhalb der Länder zulässt. Da sich die Wohnsitze der ausländischen Bevölke-rung nicht gleichermaßen auf die drei Siedlungstypen Ballungszentren, Verdichtungsgebiete undländlicher Raum verteilen, sondern sie vor allem in Kernstädten zu finden sind, müssen wir dies beider späteren Datenanalyse berücksichtigen, um “ökologische Fehlschlüsse” zu vermeiden.


yi � a � bxi � ei

yi: Vektor der abhängigen Variablexi: Vektor der unabhängige Variablea: Regressionskonstante (Ordinatenabschnitt)b: unstandardisierter Regressionskoeffizient (Steigung)ei: Residuum

3. Das bivariate Regressionsmodell

Im Gegensatz zur Korrelationsanalyse unterscheidet das Regressionsmodell zwischen dem abhängigenMerkmal (Kriterium) und den unabhängigen Merkmalen (Prädiktoren). Es geht daher immer von einerKausalbeziehung zwischen Y und X aus, wobei es die Variation der abhängigen Variablen Y aufdiejenige der unabhängigen Variablen X zurückführt. Da dies nicht vollständig leistbar ist, beinhaltetdas Modell einen zusätzlichen Fehlerterm e, der den Einfluss aller nicht im Modell explizit enthalte-nen Faktoren erfasst.

Gleichung des bivariaten linearen Modellregressionsmodells:

Die uns unbekannten Koeffizienten a und b lassen sich mit der Hilfe der Kleinsten-Quadrate-Methode(Best Linear Unbiased Estimates -Schätzer) eindeutig bestimmen, wobei die Vorgehensweise zweiSchritte umfasst:

1. Zunächst zerlegen wir die Abweichungsquadrate der abhängigen Variablen in die Summen derdurch das Regressionsmodell gebundenen und derjenigen der Fehlerquadrate (Zerlegung derquadrierten Distanzen).

� (y�y )2� � (y�y )2

� � (y�y )2

SSTotal � SSRegression � SSErrors


� e 2i � � [ yi � (a � b�xi ) ]2

� � [yi � y i]2� Minimum

Regressionskonstante a � y � b � x

Abb.2: Zerlegung der Abweichungsquadrate im bivariatenRegressionsmodell (Greene 1993², S. 152)

2. Anschließend bestimmen wir die Koeffizienten mit Hilfe der Kleinsten-Quadrate-Schätzung dergestalt, dass die Summe der quadrierten Abweichungen zwischen denbeobachteten und den geschätzten Werten der abhängigen Variablen ihr Minimumerreicht.

Im bivariaten Fall erfüllen die beiden folgenden Formel für die Regressionskonstante (Ordinaten-abschnitt) und den Regressionskoeffizienten (Steigung) diese Bedingung:

Berechnung der Regressionskonstante a (auch als b 0 abgekürzt ):


Regressionskoeffizient b�

�n

i�1(xi�x )�(yi�y )

(n�1)

�n

i�1( xi�x )2

(n�1)

�

Kovarianzy,x

Varianzx

Berechnung des unstandardisierten Regressionskoeffizienten b (der Steigung):

Modellannahmen:

1. Wir unterstellen einen linear-additiven Zusammenhang zwischen Y und X:Y = a + b x + �

2. Der Erwartungswert des Fehlerterms ist Null: E(�) = 0.3. Die Fehlerterme � verfügen über eine konstante Varianz (Homoskedastizität) 4. Die Fehlerterme � korrelieren nicht über die Beobachtungen hinweg. D.h., sie sind seriell

voneinander unabhängig.5. Die Fehlerterme � sind unabhängig vom linearen Prädiktor b’X.6. Die Fehlerterme � sind normalverteilt mit einem Erwartungswert Null und einer Varianz �2.

�i ~ N [0;�²]

Abb. 3: Darstellung der Annahmen zum Fehlerterm imklassischen Regressionsmodell (Greene 1993, S. 144)


Regressionskoeffizient b� 16,289

1.5782�

16.2892,490

��6.542

Regressionskonstante a � 32,250 � b �1,975

� 32,250 � 6,542�1,975 � 19,328

Berechnung der geschätzten Werte von Y: Y

Y i � a � b �Xi

Y i � 19,328 � 6,542 �Xi

In unserem EUROBAROMETER-30-Datensatz dient der Prozentsatz der Zustimmung zum Item “Esgibt zu viele Ausländer im Land” als abhängige Variable. Zur Erklärung ihrer Variation wird derAnteil der Nicht-EG-Ausländer an der Wohnbevölkerung herangezogen. Die wichtigsten Bestandteilefür die Formeln des Steigungskoeffizienten und des Ordinatenabschnittes haben wir bereits in Tab. 2berechnet, so dass wir sie nur noch an der entsprechenden Stelle einsetzen müssen.

Formal gesehen gibt der “unstandardisierte Regressionskoeffizient” an, um wie viele absoluteEinheiten sich Y ändert, wenn X um genau eine Einheit zunimmt. In unserem Fall bedeutet diesinhaltlich, dass die Zustimmung zur “fremdenfeindlichen Aussage” sich im Durchschnitt um rd. 6,5Prozentpunkte erhöht, wenn der Anteil der Anteil der Nicht-EG-Ausländer um 1 % zunimmt. Hin-gegen gibt die Regressionskonstante formal gesehen an, welchen Wert Y im Durchschnitt annimmt,wenn X Null ist. In unserem Fall bedeutet dies, dass wir im Durchschnitt eine Zustimmungsrate von19,33 % erwarten, wenn kein Nicht-EG-Ausländer im jeweiligen Land lebt.

Die geschätzten Werte für Y erhalten wir, indem wir die Werte des Y-Abschnitts und der Steigung indie Regressionsgleichung einsetzen und für jede Beobachtung von X den zugehörigen geschätzten Y-Wert berechnen.


R-Qu. = 0,5775

E

P

NLL

I

IRL

GB

GR

FD

DK

B

Prozentsatz Nicht-EG-Ausländer

6543210

Pro

zent

satz

zu

viel

e A

uslä

nder

60

50

40

30

20

10

0

Abb. 4 : Prozentsatz der Zustimmung “Zu viele Ausländer” auf Anteil der Nicht-EG-Ausländeran der Wohnbevölkerung mit geschätzter Regressionsgeraden

Nachteil des unstandardisierten Regressionskoeffizienten b :

Formal gesehen gibt der unstandardisierte Regressionskoeffizient an, um wie viele Einheiten sich Yschätzungsweise im Durchschnitt ändert, wenn X um eine absolute Einheit zunimmt. Deshalb ist derRegressionskoeffizient selbst von den Maßeinheiten von X und Y abhängig. Daher liegt eine Stan-dardisierung wie beim Korrelationskoeffizienten r nicht vor. Messen wir beispielsweise zwei un-abhängige Variablen in unterschiedlichen Maßeinheiten, so können wir die beiden unstandardisiertenRegressionskoeffizienten nicht miteinander vergleichen. In unserem Fall träfe dies zu, wenn wir denAusländeranteil in Prozent und den “Wohlstand des Landes” über das Bruttoinlandsprodukt pro Kopfin Euro messen. Verwenden wir beide Merkmale zur “Erklärung” der Fremdenfeindlichkeit jeweils ineinem getrennten Regressionsmodell, so können ihre Effektstärken (Steigungskoeffizienten) nichtvergleichen.

Einen Ausweg aus diesem Dilemma bietet der standardisierte Regressionskoeffizient, der sich ausdem Produkt der Steigung mit dem Quotienten der Standardabweichungen des Prädiktors und desKriteriums ergibt.


Standardisierter Regressionskoeffizient � �b �sx

sy

� [�1;�1]

Umkehrung: b�� sy

sx

� ursprüngliche Wertebereich

Berechnung des standardisierten Regressionskoeffizienten ß:

Vorteile:

1. Der standardisierte Regressionskoeffizient verfügt über einen von den ursprünglichen Maß-einheiten unabhängigen Wertebereich, der sich auf das Intervall [-1;+1] beschränkt.

2. Hierdurch lässt sich der standardisierte Regressionskoeffizient sowohl der Richtung als auchder Stärke nach eindeutig interpretieren.

Ein Wert von Null bedeutet hierbei, dass kein linearer Zusammenhang vorhanden ist. Hingegenkennzeichnet ein Wert von + 1 den perfekten positiven Zusammenhang in dem Sinne, dass, wenn dieunabhängige Variable X um eine Standardabweichung sx zunimmt, der Wert der abhängigen Varia-blen Y ebenfalls um eine Standardabweichung sy steigt. Ein standardisierter Koeffizient von - 1 belegteine perfekte inverse Beziehung beider Merkmale, d. h., wenn X um eine Standardabweichung sX

zunimmt, führt dies zu einer Verminderung von Y um eine Standardabweichung sY

Nachteile:

Der standardisierte Regressionskoeffizient eignet sich erstens nicht für den Vergleich desselbenModells in verschieden Stichproben, da in seine Berechnung die jeweils stichprobenabhängigenStandardabweichungen von X und Y einfließen. Daher greifen wir beim Vergleich desselben Regres-sionsmodells in verschiedenen Stichproben auf die unstandardisierten Regressionskoeffizientenzurück. Für Dummyvariablen darf zweitens der standardisierte Regressionskoeffizient ebenfalls nichtberechnet werden, da diese sich nicht um eine Standardabweichung ihrer selbst ändern können.Vielmehr nehmen sie stets um einen ganzen Wert von Null auf Eins zu. Ihr Steigungskoeffizienterfasst unmittelbar den geschätzten Gruppenunterschied der Kriteriumsvariablen zwischen derbetrachteten Effektgruppe (1) und ihrer zugehörigen Vergleichsgruppe (0).

Für unseren Beispieldatensatz berechnen wir den standardisierten Regressionskoeffizienten ß für denAnteil der Nicht-EG-Ausländer an der Wohnbevölkerung zunächst über seine Formel. Da er imbivariaten Regressionsmodell identisch mit dem von Pearson entwickelten Produkt-Moment-Korrela-tionskoeffizienten r ist, ist diese Berechnung eigentlich nicht erforderlich.


� � 6,542 �

1,57813,586

� � 0,760

Standardfehler der Regression �

�n

i�1(yi � yi)

2

(n�k�1)

�

SSError

(n�k�1)

n: Stichprobenumfangk: Anzahl der unabhängigen Variablen

Wie gut beschreibt das lineare Modell die Daten ?

Die Güte der Modellpassung lässt sich mit Hilfe des Standardfehlers der Regression und des De-terminationskoeffizienten R2 bestimmen. Den Standardfehler der Regression selbst interpretieren wirals das modellimmanent geschätzte durchschnittliche Residuum . Er gibt an, wie groß im Durchschnittdie Abweichung der Datenpunkte von der Regressionslinie ausfällt. Je größer der Betrag des Stan-dardfehlers ist, desto schlechter beschreibt die Regressionsgerade die Verteilung der Datenpunkte.

1. Berechnung des Standardfehlers der Regression:

Hingegen handelt es sich beim Determinationskoeffizienten R2 um ein Maß der ProportionalenFehlerreduktion (Proportional Reduction of Error), das angibt, wie viel Prozent der Varianz (Variati-on) von Y durch das unabhängige Merkmale X “gebunden” oder “erklärt” wird. Guttman (1977, S. 98)weist auf die Missverständlichkeit des Terminus “Erklärung” hin, indem er anmerkt, daß “proportion(or percentage) of variance is never explained. ... None of these words [ explanation, determinationor causation, W.L.] has any theoretical meaning; their use represents wishful thinkings about therelative predictability of a variable in a given context, such thinking generally leading to percentagesof “explanation” that add up to many times 100 per cent for the variable in question .”


Aus formaler Sicht gibt uns der Determinationskoeffizient R² an, wie viele Fehler wir bei der Vorher-sage des Kriteriums Y weniger machen, wenn wir den Prädiktor X berücksichtigen. Wir zerlegenhierfür die Varianz von Y in zwei Bestandteile, demjenigen der auf die Kovarianz mit X entfällt unddemjenigen des Residualanteil. Um ihn zu bestimmen, müssen wir neben der Gesamtanzahl derVorhersagefehler die Vorhersagefehler des Regressionsmodells bestimmen. Die Gesamtzahl derVorhersagefehler als Fehlermenge E1 ermitteln wir, indem wir jeden Y-Wert auf der Basis desMittelswerts von Y vorhersagen. Die Summe der quadrierten Abweichungen vom Mittelwert Y bildetdie Gesamtzahl aller möglichen Fehler. Die Fehlermenge des Regressionsmodells als zweite Fehler-summe E2 ermitteln über die Summe der quadrierten Abweichung zwischen dem jeweiligen Be-obachtungswert von Y und dem modellimmanent vorhergesagten Y-Wert. Hierbei folgt der De-terminationskoeffizient der allgemeinen Logik für Maßzahlen der Proportionalen Fehlerreduktion.

Der Determinationskoeffizient als Maß der Proportionalen Fehlerreduktion:

R 2�

E1 � E2

E1

�

�n

i�1(yi�y )2

� �n

i�1(yi�y )2

�n

i�1(yi� y )2

�

SSTotal � SSError

SSTotal

�

SSRegression

SSTotal

� 1 �

SSErrors

SSTotal

� [0 ;1]

SS: Summe der Abweichungsquadrate

Um in unserem EUROBAROMETER-Beispiel die Modellanpassung zu bestimmen, müssen wirzunächst die Abweichungsquadrate des Kriteriums in diejenigen der Regression und des Residuumszerlegen. Hierzu berechnen wir zunächst die geschätzten Werte für die Zustimmung zum Item “Esleben zu viele Ausländer im Land” und anschließend die Abweichungsquadrate der Regression sowiedes Residuums pro Mitgliedsland.


YSSRegression

(Y�Y )2

SSError

( Y� Y )2

SSTotal

(Y�Y )2

Standardfehler der Regression �

SSError

n�k�1

�857,83

n � 1 � 1�

857,8310

� 9,26

Tab. 3: Zerlegung der Abweichungsquadrate von Y im bivariaten Regressionsmodell:EB 30 Länderdaten.

LAND PNEGAUSL:

X

PZUVIELE:

Y

B 3,2 45 40,26 64,20 22,44 162,56

DK 2,0 37 32,41 0,03 21,05 22,56

D 5,3 49 54,00 473,09 25,01 280,56

F 3,9 46 44,84 158,55 1,34 189,06

GR 0,8 22 24,56 59,11 6,56 105,06

GB 1,8 47 31,10 1,31 252,70 217,56

IRL 0,5 8 22,60 93,14 213,13 588,06

I 0,4 36 21,94 106,20 197,55 14,06

LUX 2,0 31 32,41 0,03 1,99 1,56

NL 2,8 31 37,65 29,11 44,16 1,56

P 0,6 15 23,25 80,94 68,12 297,56

E 0,4 20 21,94 106,20 3,78 150,06

Mittelwert = 1,98 32,25 Zerlegung der Abweichungsquadrate:

s (x) = 1,58 13,59 SSTotal = 2030,25

SSReg = 1171,91

a = 19,33 b = 6,54 SSError = 857,83

Die durchschnittliche Abweichung der Datenpunkte von der Regressionslinie beträgt 9,26-%-Punkte.Diese Information ist aber wenig aussagekräftig, da uns eine eindeutige Vergleichsbasis fehlt. Erst derDeterminationskoeffizient R² erlaubt uns eine präzise Aussage darüber, wie gut die Regressionsliniedie Verteilung der Datenpunkte beschreibt.


R 2� 1 �

857,832030,25

�1171,912030,25

� 0,5772

R 2in % � 0,5772�100 � 57,72 %

Multiples r � R 2� [0 ;1]

EB 30 Länderdaten: Multiples r � 0,5772 � 0,76

In unserem Beispiel gehen wir davon aus, dass die Berücksichtigung der Anteils der Nicht-EG-Ausländer zu einer Verbesserung der Vorhersage der “Fremdenfeindlichkeit” um 57,72 % führt. DerAnteil der durch das unabhängige Merkmal gebundenen Varianz beträgt somit 57,72 %.

Ziehen wir die Quadratwurzel aus dem Determinationskoeffizienten, so erhalten wir das sogenannte“multiple r”, das in bivariaten Fall von seinem Betrag her mit dem Pearson-Produkt-Moment-Korrela-tionskoeffizienten identisch ist.


4. Das multiple lineare Regressionsmodell:

Das Ziel der multiplen linearen Regression besteht darin, die Variation des abhängigen Merkmals aufdie Variationen einer Vielzahl von unabhängigen Merkmalen zurückzuführen, wobei diese unterein-ander statistisch kontrolliert (auspartialisiert) werden. Dieses Vorgehen erlaubt die Bestimmung desNettoeinflusses / Nettoerklärungsbeitrags jeder einzelnen unabhängigen Variablen. Diese Erweiterungdes bivariaten Regressionsmodells lässt sich mit Hilfe von Pfeil- und Venndiagrammen veranschauli-chen.

Lineares Regressionsmodell:

Bivariates Modell: Multiples Modell:

X Y YX1

X2

Pfeildiagramme:

X Y

Venndiagramme:

X1

X2

Y

Nettoeffekt X1

Nettoeffekt X2

Interkorrelation X1 und X2

Abb.5: Die bivariate bzw. multiple lineare Regression als Pfeil- bzw. Venndiagramm


yi � a � b1 x1i � b2 x2i� ei

yi: Vektor der abhängigen Variablex1i: Vektor der 1.unabhängigen Variablenx2i: Vektor der 2.unabhängigen Variablena: Regressionskonstanteb1: unstandardisierter Regressionskoeffizient für X1

b2: unstandardisierter Regressionskoeffizient für X2

ei: Residuum

Modellgleichung des trichotomen Falls:

Erweiterung der Modellannahmen im multiplen Fall:

7. Die exogenen Merkmale X1 und X2 sind statistisch unabhängig voneinander. Als Kriteriumfür das Vorliegen von Multikollinearität gelten Interkorrelationen zwischen 0,60 und 0,80, jenach Rigidität des methodologischen Standpunktes.

8. Die X-Matrix der exogenen Merkmale hat vollen Spaltenrang. D.h., dass die Anzahl derBeobachtungen n mindestens so groß sein muss wie die Anzahl der zu schätzenden Parameterk.

Mit Hilfe der Kleinsten-Quadrate-Methode lassen sich die Koeffizienten a, b1 und b2 der obigenGleichung dergestalt bestimmen, dass die Summe der quadrierten Abstände der Datenpunkte von derim dreidimensionalen Raum aufgespannten Regressionsebene ihr Minimum erreicht. Dies lässt sichim geometrischen Sinne folgendermaßen veranschaulichen:


Regressionskonstante a � y � b1 � x1� b2 � x2

�yx1.x2� �1 �

ryx1� ryx2

�rx1 x2

1 � r 2x1 x2

�yx2.x1� �2 �

ryx2� ryx1

�rx1 x2

1 � r 2x1 x2

Abb. 6: Geometrische Darstellung der multiplen linearenRegression (Urban 1982, S.76)

Berechnung der Regressionskonstanten a (b0):

Verwendet man anstatt der ursprünglichen unabhängigen Variablen X1 und X2 jeweils ihre z-stan-dardisierten Werte, so lassen sich die standardisierten Regressionskoeffizienten ß1 und ß2 direkt ausden bivariaten Korrelationen der drei Merkmale berechnen (Lösung der Normalgleichungen). Siemüssen anschließend in unstandardisierte Regressionskoeffizienten umgerechnet werden:


Umrechnung in unstandardisierte Regressionskoeffizienten:

b1 � �1 �

sy

sx1

b2 � �2 �

sy

sx2

Korrelationsmatrix:YX1

X2

1,000

0,760 1,000

0,645 0,726 1,000

Die unstandardisierten Koeffizienten b1 und b2 setzen wir anschließend in die Formel für die Be-rechnung der Regressionskonstanten ein.

Anhand unseres bisherigen 12-Länder-Beispiels lässt sich die Vorgehensweise der multiplen Regressi-on mit zwei unabhängigen Variablen demonstrieren. In Tab. 1 finden wir neben dem Anteil der Nicht-EG-Ausländer ebenfalls den Prozentsatz der bei der Befragung ermittelten Postmaterialisten im Sinneder Inglehartschen Wertetypologie. Letzterer kann uns als Indikator für das Ausmaß der “Liberalität”im Lande dienen. Wir gehen hiebei von der konkurrierenden Hypothese aus, dass je liberaler ein Landist, desto geringer fällt der Anteil der Befürworter des Xenophobieitems aus. Wir vereinbaren für dasKriterium und die beiden Prädiktoren die folgenden Abkürzungen:

Y: Anteil der Befragten, die meinen, es gäbe zu viele Ausländer in ihrem LandX1: Anteil der Nicht-EG-Ausländer an der WohnbevölkerungX2: Anteil der “sich bekennenden Postmaterialisten”

Um die standardisierten Regressionskoeffizienten zu berechnen, benötigen wir lediglich die Korrela-tionsmatrix der Merkmale und ihre jeweiligen Standardabweichungen. Die Standardabweichung fürden Prozentsatz der Postmaterialisten (X2) beträgt 5,947.


�1 �0,760 � 0,645�0,726

1 � 0,7262� �0,617

�2 �0,645 � 0,760�0,726

1 � 0,7262� �0,197

Umrechnung in unstandardisierte Regressionskoeffizienten:

b1 � �0,617 �

13,5861,578

� �0,617�8,610 � �5,312

b2 � �0,197 �

13,5865,947

� �0,197�2,285 � �0,450

Berechnung der Regressionskonstanten a:

a � 32,250 � 5,312�1,975 � 0,450�15,033 � �14,994

Die ermittelten unstandardisierten Regressionskoeffizienten interpretieren wir folgendermaßen:

b1: Unter der Kontrolle des Anteils der Postmaterialisten steigt der Anteil derjenigen Personen, diemeinen, es gäbe zu viele Ausländer in ihrem Land, im Durchschnitt um 5,31%, wenn derAnteil der Nicht-EG-Ausländer an der Wohnbevölkerung um 1 % zunimmt.

b2: Unter der Kontrolle des Anteils der Nicht-EG-Ausländer an der Wohnbevölkerung steigt derAnteil der Personen, die meinen, es gäbe zu viele Ausländer in ihrem Land, im Durchschnittum 0,45 %, wenn der Anteil der Postmaterialisten um 1 % steigt.

a: Gäbe es weder Nicht-EG-Ausländer noch Postmaterialisten im Lande, so liegt der geschätzteAnteil der Personen, die meinen, es gäbe zu viele Ausländer in ihrem Land, bei 14,99 %.


Berechnung der geschätzten Werte von Y: Y

Yi � a � b1�X1i � b2�X2i

� 14,994 � 5,312�X1i � 0,450�X2i

Die standardisierten Regressionskoeffizienten interpretieren wir wie folgt:

ß1: Unter der Kontrolle des Anteils der Postmaterialisten steigt der Anteil derjenigen Personen, diemeinen, es gäbe zu viele Ausländer in ihrem Land, im Durchschnitt um 0,617 Standardabwei-chungen von Y, wenn der Anteil der Nicht-EG-Ausländer an der Wohnbevölkerung um eineStandardabweichung von X1 zunimmt.

ß2: Unter der Kontrolle des Anteils der Nicht-EG-Ausländer an der Wohnbevölkerung steigt derAnteil der Personen, die meinen, es gäbe zu viele Ausländer in ihrem Land, im Durchschnittum 0,197 Standardabweichungen (sy), wenn der Anteil der Postmaterialisten um eine Standard-abweichung von X2 zunimmt. Damit wird unsere zweite Hypothese eindeutig widerlegt, da dasermittelte nicht dem erwarteten Vorzeichen entspricht.

Der Vergleich der beiden standardisierten Regressionskoeffizienten ergibt, dass der Anteil der Nicht-EG-Ausländer an der Wohnbevölkerung einen rd. dreimal so großen Einfluss auf die Fremdenfeind-lichkeit ausübt wie der Anteil der Postmaterialisten. Da beide Koeffizienten größer als Betrag 0,10ausfallen, gehen wir davon aus, dass beide einen kausalen Einfluss ausüben. Offen bleibt aber, obdiese “ökologische Befunde” ebenfalls für Individualdaten gelten.

Am obigen Befund löst Erstaunen aus. Erstens ermittelt das multiple Regressionsmodell ein Vorzei-chen für den Effekt der Liberalität, welches konträr zum erwarteten Vorzeichen ausfällt. Zweitens wirdder Einfluss der Liberalität mit einem standardisierten Regressionskoeffizienten von +0,197 sehr vielniedriger eingestuft als aufgrund der bivariaten Korrelation von 0,645 zu erwarten wäre. Dies istdarauf zurückzuführen, dass die Korrelation zwischen beiden Prädiktoren + 0,726 beträgt, was auf einhohes Maß an Multikollinearität hinweist. Sie verstößt gegen die Grundannahme der nichtkorreliertenPrädiktoren. Da das multiple Regressionsmodell die Zusammenhänge der Prädiktoren untereinanderkontrolliert, in der Statistik spricht man von “Auspartialisierung”, kann Multikollinearität zu instabilenSchätzern führen, die sowohl ihr Vorzeichen als auch ihren Betrag wechseln können. In diesem Fallsollte man auf einen dieser hoch korrelierenden Prädiktoren verzichten.

Die Güte der Modellanpassung unseres multiplen Regressionsmodells ermitteln wir über die bereitsdargestellte Zerlegung der Abweichungsquadrate von Y. Hierzu benötigen wir die folgende Arbeits-tabelle, bei der wir die geschätzten Werte für Y durch das Einsetzen der unstandardisierten Regres-sionskoeffizienten sowie der Beobachtungswerte von X1 und X2 in die Modellgleichung erhalten.


Y SSRegression

( Y�Y )2

SSError

(Y� Y)2

SSTotal

(Y�Y )2

Tab. 4: Zerlegung der Abweichungsquadrate von Y im multiplen linearen Regressionsmodell

LAND PZUVIELE

Y

PNEGAUSL

X1

PPOSTMAT

X2

B 45,00 3,20 13,10 37,89 31,81 50,55 162,56

DK 37,00 2,00 19,70 34,48 4,97 6,35 22,56

D 49,00 5,30 25,30 54,53 496,40 30,58 280,56

F 46,00 3,90 16,10 42,96 114,70 9,24 189,06

GR 22,00 0,80 9,00 23,29 80,28 1,66 105,06

GB 47,00 1,80 18,30 32,79 0,29 201,92 217,56

IRL 8,00 0,50 10,20 22,24 100,20 202,78 588,06

I 36,00 0,40 12,30 22,65 92,16 178,22 14,06

L 31,00 2,00 13,10 31,51 0,55 0,26 1,56

NL 31,00 2,80 24,20 40,76 72,42 95,26 1,56

P 15,00 0,60 5,60 20,7 133,40 32,49 297,56

E 20,00 0,40 13,50 23,19 82,08 10,18 150,06

a = 14,994 Summe der Quadrate = 1209,27 819,50 2030,25

b1= 5,312

b2= 0,450 Standardfehler der Regression = 9,54

Determinationskoeffizient R2 = 0,5956

�Y32,25 R2 in % = 59,56

Der multiple Determinationskoeffizient R² belegt, dass durch die Einbeziehung der beiden Prädiktorenfast 60% der Varianz von Y gebunden werden. Damit weist unser Regressionsmodell eine “sehr gute”Anpassung an die empirischen Verteilung von Y auf. Dies belegt ebenfalls der Standardfehler derRegression, der angibt, dass die Datenpunkte im Durchschnitt rd. 9,5 Prozentpunkte von der Regres-sionsebene entfernt liegen.


b(OLS) � (X ´X)�1 X ´y

Erweiterung des multiplen linearen Regressionsmodells auf mehr als 2 Prädikto-ren:

Modellgleichung des multiplen linearen Regressionsmodells:

Yi � b0 � b1 x1i � ...� bkxki � �i

Die unstandardisierten Regressionskoeffizienten lassen sich nur mit Hilfe der Matrixalgebra be-rechnen, wobei das Regressionsmodell folgender Matrixnotation entspricht:

y1

y2

.

.

yn

�

1 x11 . . xk1

1 x12 . . xk2

. . . . .

. . . . .

1 xkn . . xkn

×

b0

b1

.

.

bk

�

�1

�2

.

.

�k

y � X × b � �

Die Matrixlösung der Kleinsten-Quadrate-Schätzung (OLS) lautet:

Um den Vektor der unstandardisierten Regressionskoeffizienten zu berechnen, absolvieren wir vierSchritte. Im ersten Schritt multiplizieren wir die Matrix der unabhängigen Variablen mit ihrerTransponierten. Die Transponierte erhalten wir, indem wir die Zeilen- und Spaltenindizes der Aus-gangsmatrix X miteinander vertauschen. Im zweiten Schritt berechnen wir die Inverse dieser Produkt-matrix. Bei ihr handelt es sich um diejenige Matrix, deren Multiplikation mit der (X ´X) - Matrix dieEinheitsmatrix ergibt. Bei der Einheitsmatrix ist die Hauptdiagonale mit Einsen besetzt, die übrigenZellen weisen Nullen auf. Im dritten Schritt multiplizieren wir zunächst die Transponierte derDatenmatrix X´ mit dem Vektor der abhängigen Variablen Y. Im vierten Schritt berechnen wiranschließend das Produkt aus der letzten Matrixmultiplikation und der Inversen der X´X-Matrix. Dadiese Matrixoperationen sehr aufwendig sind, empfiehlt es sich, sie dem jeweiligen Statistikprogramm


H0: b1 � b2 � .. � bk � 0oder alternativ:

H0: R 2� 0

zu überlassen. Programme wie SPSSfWin oder LIMDEP bieten darüber hinaus die Möglichkeit,entweder sich die Zwischenergebnisse der Matrixoperationen ausgeben zu lassen oder die ent-sprechenden Rechenschritte selbst zu programmieren.

5. Maße der “ statistischen Signifikanz ” :

Ziel: Schluss vom Stichprobenbefund auf die Grundgesamtheit

Globaler F-Test:

Nullhypothese: Alle Steigungskoeffizienten sind Null.

Globaler F�Test(D.F.1;D.F.2) �SSRegression / k

SSError / (n�k�1)

�R 2 / k

(1�R 2) / (n�k�1)folgt F � Verteilung

, wobei D.F.1=k Anzahl der unabhängigen Variablen kD.F.2=n-k-1 Stichprobenumfang abzüglich Anzahl unabhängiger

Variablen abzüglich Eins.n: Stichprobenumfangk: Anzahl der unabhängigen Variablen (geschätzten

Steigungskoeffizienten)

Ist der empirische F-Wert größer oder gleich dem kritischen F-Wert bei D.F.1 respektive D.F.2 -Freiheitsgeraden, so muss die Nullhypothese mit der gewählten Irrtumswahrscheinlichkeit � verwor-fen werden. D.h., die Gesamtheit der Prädiktoren "erklärt" in statistisch signifikantem Ausmaße dieVariation des endogenen Merkmals. Üblicherweise wird die F-Verteilung für die Sicherheitsniveausvon 95 und 99 % tabelliert. Dies entspricht einer Irrtumswahrscheinlichkeit von 5 bzw. 1 % .


H0: b3 � b4 � 0oder alternativ:

H0: R 2M2

� R 2M1

� � R 2M2 ,M1

� 0

Partieller F-Test:

Anwendung für eine hierarchische Folge von Regressionsmodellen, für die gilt:

M1 � M2,, d.h., M1 ist eine echte Teilmenge von M2

Beispiel: M1: X1,X2

M2: X1,X2,X3,X4

Nullhypothese: Die in M2 im Vergleich zu M1 zusätzlich enthaltenen PrädiktorenX3 und X4 üben keinen statistisch bedeutsamen Einfluss auf Y aus.

Partieller F�Test(D.F.1;D.F.2) �

�SSRegression (M1 ,M2 ) /�k

SSError (M2 ) / (n�k�1)(M2 )

�

�R 2M2 ,M1

/ �k

(1�R 2M2

) / (n�kM2�1)

folgt F � Verteilung

, wobei D.F.1: Differenz der Anzahl unabhängiger Variablen in M2 und M1

D.F.2: Stichprobenumfang abzüglich Anzahl unabhängiger Varia-blen von M 2 abzüglich Eins.

�k: Differenz der Anzahl der Steigungskoeffizienten in M 2 undM 1

n: Stichprobenumfangk M 2: Anzahl der Steigungskoeffizienten von M 2

Ist der empirische partielle F-Wert größer oder gleich dem kritischen F-Wert bei D.F.1 respektiveD.F.2 -Freiheitsgeraden, so muss die Nullhypothese mit der gewählten Irrtumswahrscheinlichkeit


Standardfehlerb � ˆVarianz (b )

�

�n

i1(yi � yi )

2

n�2

�n

i1(Xi � x )2

�Standardfehler der Regression

VariationX

verworfen werden. D.h., die Gesamtheit der neu einbezogenen Prädiktoren "erklärt" zusätzlich instatistisch signifikantem Ausmaße die Variation des endogenen Merkmals.

T-Test

Nullhypothese H0 : bX = 0

T-Test(D.F.) = ��

Schätzer � bH0

Standardfehler

� ��

bx - 0

S.E.bx

folgt T - Verteilung

, wobei sich die zugehörigen Freiheitsgrade (D.F.) aus der Differenz von Stichprobenumfang minus2 (n-2) ergeben.

Ist der empirische Testwert mindestens so groß wir der zum gewählten Signifikanzniveau � gehörendekritische T-Wert(D.F.), so übt das betrachtete Merkmal einen statistisch signifikanten Einfluss aus. Als"Daumenregel" gilt hierbei, dass der Parameter mindestens 1,96mal so groß wie sein Standardfehlersein muss, damit er das übliche Signifikanzniveau � von 5% erreicht.

Schätzung des Standardfehlers des unstandardisierten Regressionskoeffizienten b imbivariaten Regressionsmodell:


Standardfehlera � ˆVarianz (a )

�

�n

i1(yi � yi )

2

(n�2)�

1n

�

xx2

(n�1) �

�n

i1(xi � xx )2

(n�1)

�

�n

i1(yi � yi )

2

(n�2)�

1n

�

xx2

�n

i1(xi � xx )2

Schätzung des Standardfehlers der Regressionskonstante a (b0) bei der bivariatenRegression:

Abkürzung:

n: Stichprobenumfang


StandardfehlerbYX1.X2

� ˆVarianz (bYX1.X2)

�

�n

i1(yi � yi )

2

n�k�1

�n

i1(X1i

� x1 )2� (1�r 2

X1 ,X2)

�

�n

i1(yi � yi )

2 / (n�k�1)

�n

i1(X1i

� x1 )2� (1�r 2

X1 ,X2)


VariationX1� (1�r 2

X1 ,X2)

StandardfehlerbYX2.X1

� ˆVarianz (bYX2.X1)

�

�n

i1(yi � yi )

2

n�k�1

�n

i1(X2i

� x2 )2� (1�r 2

X1 ,X2)

�

�n

i1(yi � yi )

2 / (n�k�1)

�n

i1(X2i

� x2 )2� (1�r 2

X1 ,X2)


VariationX2� (1�r 2

X1 ,X2)

Schätzung des Standardfehlers der partiellen Steigungskoeffizienten b1 und b2 desmultiplen linearen Regressionsmodells mit zwei unabhängigen Variablen X1 und X2:


7. Maße der “praktischen Signifikanz”:

Der Determinationskoeffizient als Maß der Proportionalen Fehlerreduktion:

R 2� 1 �

�n

i�1(yi�y)2

�n

i�1(yi�y)2

� 1 �

SSErrors

SSTotal

�

SSRegression

SSTotal

� [0;1]

Korrektur des R² im Hinblick auf die Größe des Stichprobenumfangs und der Anzahlexogener Merkmale:

Adjustiertes R 2� 1 �

(n�1)(n�k)

× 1�R 2

n: Stichprobenumfangk: Anzahl der unabhängigen Variablen


8. Strategien des Testens beim Regressionsmodell:

Partielles R²:

In einer hierarchischen Modellfolge M1 � M2 lassen sich die vorgestellten Bestimmtheitsmaßeebenfalls partiell zerlegen. Dies bedeutet, dass die Differenz der Determinationskoeffizienten zweierhierarchischer Modelle M1 und M2 dem Anteil praktischer Signifikanz entspricht, der auf die nicht inM1 enthaltenen Prädiktoren von M2 entfällt.

�R 2(K) � R 2

(M2 mit K) � R 2(M1 ohne K)

, wobei K das im Teilmodell M1 nicht enthaltene exogene Merkmal symbolisiert.

Teststrategien:

1. Hierarchischer Modelltest

Vom Nullmodell ausgehend, wird das zu schätzende Regressionsmodell jeweils um eine Variableerweitert. Die Zunahme des Bestimmtheitsmaßes wird dieser Variablen gutgeschrieben.

Problem der hierarchischen Modelltests:

Beim hierarchischen Modelltest wird die Interkorrelation der unabhängigen Variablen der zuvorgetesteten Modelle mit denjenigen der nachfolgenden nicht kontrolliert.

2. Partieller Modelltest

Mit dem saturierten Modell, das alle unabhängigen Variablen enthält, wird jeweils ein Regressions-modell verglichen, das bis auf eine ausgeschlossene Variable jeweils alle anderen unabhängigenVariablen enthält. Die Verschlechterung der Modellanpassung wird dann der ausgeschlossenenVariablen zu geschrieben. Problem des partiellen Modelltests:

Beim partiellen Modelltest wird zwar die Interkorrelation aller unabhängigen Variablen kontrolliert,die Summe der partiellen R² entspricht aber nicht dem Determinationskoeffizienten des Gesamtmo-dells. Die Differenz entspricht dem gemeinsamen Effekt der betrachteten unabhängigen Merkmale imSinne ihrer Interaktion.


Documents

Einführung in die Grundlagen der Regressionsanalyse · Dr. Wolfgang Langer - Integrierte Veranstaltung Methoden IV WS 2002/2003 - 1 Einführung in die Grundlagen der Regressionsanalyse