Wann spricht man von Multikollinearität?

1

7. Sitzung

Alexander Spermann Universität Freiburg

Wann spricht man von Multikollinearität? Wenn zwei oder mehrere erklärende Variablen in einem linearen

Zusammenhang zueinander stehen. Dabei ist die zugrundeliegende Frage nicht, ob Multikollinearität

besteht oder nicht, sondern wie stark diese ausgeprägt ist. Da sich Multikollinearität auf die nicht stochastischen exogenen

Variablen bezieht, ist sie eine Eigenschaft der Stichprobe und nicht der Grundgesamtheit.

Einige Faustregeln zur Erkennung von Multikollinearität:1. Hohes R2, bei gleichzeitig insignifikanten t-Werten 2. Bei zwei erklärenden Variablen: der Korrelationskoeffizient ist

hoch, d.h. > 0.83. Bei mehr als zwei erklärenden Variablen: Überprüfung der

partiellen Korrelationskoeffizienten4. Um in einer Mehrfachregression zu prüfen, welche Variablen

sich wie beeinflussen, kann eine Hilfsregression durchgeführt werden

Multikollinearität

2

7. Sitzung


Beispiel :Hohe Korrelation zwischen erklärenden Variablen x1 und x2

kann ein Indiz für Multikollinearität sein

Sichtbar an: r1,2 1 (Korrelationskoeffizient misst die lineare

Abhängigkeit zwischen zwei exogenen Variablen; hier = 0,977, d.h. hoch)

Multikollinearität

3

7. Sitzung


Eigenschaften:

Perfekte Multikollinearität liegt fast nie vor

Wird Multikollinearität „diagnostiziert“, handelt es sich dabei meistens um sog. imperfekte Multikollinearität, d.h. den erklärenden Daten – exogenen Variablen – mangelt es an Informationsgehalt

Multikollinearität bedeutet nicht zwingend schlechte Datenqualität, wenn z.B. die Störgröße einen geringen Einfluss hat

Multikollinearität

4

7. Sitzung


Multikollinearität

Je höher die Multikollinearität, umso höher die Varianz der Schätzer

Bei Regression mit zwei erklärenden Variablen lautet Varianz von b1:

Hohe Multikollinearität kann durch große Variation s211

oder durch geringe Störgrößenvarianz 2 kompensiert werden:

)1()( 2

12211

2

1rs

bVar

5

7. Sitzung


Allgemein gilt: Genauigkeit eines Schätzers ist um so größer (Varianz und Standardfehler umso kleiner), je größer die Varianz der erklärenden Variablen ist.

Multikollinearität

6

7. Sitzung


Multikollinearität kann nicht nur in einer Zweifach-, sondern auch in einer Mehrfachregression vorliegen:

y = +... + ß1 ·x1 + ß2 ·x2 + ß3 ·x2 2 + ß4 ·x4 + u, x1 = Schuljahre, x2 = Berufserfahrung, x3 = x2 2 , x4 = Alter

Wenn der Korrelationskoeffizient in einer Regression mit zwei exogenen Variablen ein Indikator für Multikollinearität war, ist es nun das Bestimmtheitsmaß R2

4_123...n einer sog. Hilfsregression in Falle von Mehrfachregressionen, wobei n für die mögliche Anzahl der exogenen Variablen steht:

x4 = +... + ß1 ·x1 + ß2 ·x2 + ß3 ·x2 2 + u, x4 = Alter Interpretation: R2

4_123...n misst die Erklärungskraft der Variablen x1 , x2 usw. für die Werte der Variable x4 , wobei hohes R2

4_123..n hohe Multikollinearität signalisiert

Analoge Berechnung der Bestimmtheitsmaße für alle exogenen Variablen der Mehrfachregression

Multikollinearität

7

7. Sitzung


Beispiel : r4_12...n = 0.999787

Multikollinearität

8

7. Sitzung


Praktische Konsequenzen der Multikollinearität:

Trotz der BLUE-Eigenschaft, besitzen die OLS-Schätzer große Varianzen sowie Kovarianzen, was ihre Schätzgenauigkeit beeinträchtigt

Die hohen Varianzen bzw. Kovarianzen führen zu breiten Konfidenzintervallen, und somit zu

- einer höheren Akzeptanz der Nullhypothese: Ho=0 , d.h. Irrtumswahrscheinlichkeit für den Fehler 2. Art –

falsche Hypothese wird nicht verworfen – steigt - insignifikanten t-Werte, trotz hohen Bestimmtheitsmaßes

R2

Multikollinearität

9

7. Sitzung


MultikollinearitätDarstellung von Varianzen und Kovarianzen einzelner Variablen einer Zweifachregression:

A B

LIH

K

J

Keine Überschneidung zwischen den Variationen der zwei exogenen Variablen: Variablen unabhängig, KEINE Multikollinearität Überschneidungen mit der endogenen Variable (A und B) dienen zu Parameterschätzung

F

DC

G

E

Überschneidungen E und F: geringe Multikollinearität Lediglich C und D liefern Informationen für die Parameterschätzung Informationen in E sind den exogenen Variablen nicht individuell zurechenbar: gemeinsamer Einfluss G ist Variation der endogenen Variable, die nicht durch die exogenen Variablen erklärt werden kann: Einfluss der Störgrößen

Überschneidungen J und K zwischen den Variationen der exogenen Variablen J > E , aber L < G: d.h. stärkere Multikollinearität, ABER höhere Erklärungsgüte H und I liefern Informationen für die Parameterschätzung

10

7. Sitzung


Veranschaulichung der Folgen anhand der Variablen Berufserfahrung und Alter

y = +... + ß1 ·x1 + ß2 ·x2 + ß3 ·x2 2 + ß4 ·x4 + u, x1 = Schuljahre, x2 = Berufserfahrung, x3 = x2 2 , x4 = Alter

Schwierigkeiten, getrennte Effekte beider Variablen nachzuweisen

ungenaue Schätzer, d.h. sehr hohe Varianz

niedrige t-Werte, insignifikante Koeffizienten

Multikollinearität

11

7. Sitzung


Multikollinearität

12

7. Sitzung


Interpretation des Outputs, bei dem zwei erklärende Variablen – Alter und Berufserfahrung - hoch korreliert sind:

Die Koeffizienten für die korrelierten Variablen sind nicht signifikant von Null verschieden, da die Werte der t-Statistik I t I < 2 sind:

I tAlter I = 1,06 und I tBerufserf I = 1,38

Auch haben die Variablen Alter und Berufserfahrung vergleichsweise hohe Standardfehler

Die -Fehlerwahrscheinlichkeit ist mit Prob.Alter=29% und Prob.Berufserf=17% hoch

Insignifikant

Lösungen?

Multikollinearität

13

7. Sitzung


1. Lösungsansatz: Erhöhung der Anzahl der Observationen - Zeitreihen: z.B. Quartalsdaten statt Jahresdaten - Querschnitt: z.B. OECD statt G7 - Paneldaten

2. Lösungsansatz: Erhöhung der Varianz der exogenen Variablen

3. Lösungsansatz: Indexbildung für ähnliche exogene Variablen

4. Lösungsansatz: Entfernen einer der korrelierten Variablen, kann allerdings auch zu Verzerrung der Schätzung führen, falls die exogene Variable trotz Korrelation einen großen Erklärungsgehalt hat

Multikollinearität

Documents

Wann spricht man von Multikollinearität?