Ökonometrie II

Ökonometrie II

Multikollinearität

29.4.2005 Multikollinearität 2

Der SachverhaltModell Y = X + u, Ordnung von X: nxk

Annahme A2: r(X) = k

In der Realität: Spalten von X können Linearkombinationen anderer Spalten

sein („Rangabfall“); Determinante von X‘X ist Null Regressoren können hoch korreliert sein; Determinante von

X‘X hat Wert nahe bei Null

Fragestellungen: Konsequenzen von Multikollinearität Möglichkeiten zum Identifizieren von Multikollinearität Möglichkeiten, die Auswirkungen von Multikollinearität zu

vermindern


Ein Beispiel

Rang von X‘X ist 2Determinante det(X‘X) von X‘X hat Wert Null

Die Inverse (X‘X)-1 kann ermittelt werden als

(CX‘X: Matrix der Kofaktoren); ist nicht definiert, wenn det(X‘X) = 0

Achtung! Korrelation zwischen 2. und 3. Spalte von X ist 1!

14146

14146

663

',

331

221

111

XXX

'1 ( ) '

( ' )det( ' )

X XCX X

X X


KonsumfunktionC = 0 + 1 Ya + 2 Ye + 3 Yt + u

C: Privater Konsum Ya: Einkommen aus unselbständiger ErwerbstätigkeitYe: Einkommen aus Besitz und Unternehmung Yt: gesamtes Einkommen (Yt =Ye + Ya)

X hat Ordnung nx4, aber Rang 3; X‘X hat Ordnung 4x4, aber Rang 3; die Inverse (X‘X)-1 existiert nicht!


Korrelierte RegressorenOrdnung von X: nxk

X‘X kann eine nahezu singuläre Matrix sein Invertieren von X‘X liefert sehr große Werte Wegen Var{bt} = 2 (Xt’Xt)-1 sind Standardabweichungen

der Schätzer gross Die t-Werte sind klein, die Macht der t-Tests ist reduziert


Konsumfunktion, Forts.

C = + 1 Ya + 2 Ye + u

OLS-Schätzer für 1, geschrieben als partieller Regressionskoeffizient:

bca: Schätzer aus einfacher Regression C = + 1 Ya + u; analog bce, bea

rae: Korrelationskoeffizient zwischen Ya und Ye

rae = 1; z.B. für Ye = c Ya: bce = c bca, bae = c-1 bca.e = 0/0 (unbestimmte Form)

für orthogonale Regressoren gelten rae = bae = 0 und bca.e = bca

. 21ca ce ea

ca eae

b b bb

r


Identifizierte ParameterC = + 1 Ya + 2 Ye + u

Lineare Abhängigkeit: Ye = c Ya

C = + (1 + c2 )Ya + u = + Ya + u

OLS-Schätzer für = 1 + c2 kann problemlos berechnet werden, nicht aber für 1 und 2

Man sagt: ist identifiziert, 1 und 2 sind nicht identifiziert


Konsumfunktion für 1976-2001Datensatz DatS01 (Konsum und Einkommen)

C = 0 + 1 YDR + 2 PC + 3 MP + u

C: Privater Konsum YDR: verfügbares Einkommen der HaushaltePC: KonsumdeflatorMP: privates Geldvermögen

1.00 0.98 0.96

( , , ) 0.98 1.00 0.95

0.96 0.95 1.00

Corr YDR PC MP



Dependent Variable: CRMethod: Least SquaresDate: 04/28/05 Time: 20:26Sample(adjusted): 1976 2001Included observations: 26

Variable Coefficient Std. Error t-Statistic Prob. C 2310.739 298.3735 7.744451 0.0000YDR 0.393648 0.061877 6.361820 0.0000MP 0.088677 0.007291 12.16215 0.0000PC 1.283074 0.437438 2.937727 0.0076

R-squared 0.997563 Mean dependent var 8365.077Adjusted R-squared 0.997230 S.D. dependent var 1590.255S.E. of regression 83.69166 Akaike info criterion 11.83279Sum squared resid 154094.5 Schwarz criterion 12.02635Log likelihood -149.8263 F-statistic 3001.430Durbin-Watson stat 1.539090 Prob(F-statistic) 0.000000



Dependent Variable: CRMethod: Least SquaresDate: 04/28/05 Time: 20:29Sample(adjusted): 1976 2001Included observations: 26

Variable Coefficient Std. Error t-Statistic Prob. C -766.3772 429.8791 -1.782774 0.0878YDR 0.806083 0.140676 5.730050 0.0000PC 1.835451 1.182595 1.552054 0.1343

R-squared 0.981175 Mean dependent var 8365.077Adjusted R-squared 0.979538 S.D. dependent var 1590.255S.E. of regression 227.4772 Akaike info criterion 13.80014Sum squared resid 1190155. Schwarz criterion 13.94531Log likelihood -176.4019 F-statistic 599.3971Durbin-Watson stat 0.348434 Prob(F-statistic) 0.000000


MultikollinearitätOrthogonale Regressoren: für jedes Paar von Spalten xi und xj

aus X gilt xi‘xj = 0

Unkorrelierte Regressoren: für jedes Paar von Spalten xi und xj aus X gilt rij = 0

Unter Multikollinearität versteht man das Nicht-Zutreffen der Orthogonalität der Regressoren bzw. das Nicht-Zutreffen der Unkorreliertheit der Regressoren

Konsequenzen von Multikollinearität sind umso gravierender, je stärker die Regressoren korreliert sind

Häufige Ursache für Multikollinearität ist ein gemeinsamer Trend zwischen den Regressoren; Achtung bei Lagstrukturen


Residuendarstellung von bi

Modell Y = X + u, Ordnung von X: nxkOLS-Schätzer für i (vergl. Kap. 6.3 in Hackl, 2004):

Mi: residuenerzeugende Matrix für Regression von Xi auf alle Spalten von X außer Regressor Xi („Hilfsregression für Xi“)

= Mixi: Residuen der Regression von Xi auf alle Spalten von X außer Xi

1 12

( ) ( ) ti tti i i i i i i i i

tit

X Yb x M x x M y x x x y

X

22 1

2{ } ( )i i i

tit

Var b x xX

ix


Schätzer für unkorrelierte DatenDie Matrix A = I – i(i‘i)-1i‘, i=(1,…,1)‘, erzeugt zentrierte Xi: AX2

enthält Abweichungen von den Mittelwerten für die Spalten Xi, i=2,…,k

Für orthogonale Regressoren ist X2‘AX2 eine Diagonalmatrix

i-te Komponente von b2:

mit

bi* stimmt mit dem OLS-Schätzer von i aus Y = +iXi+u überein

* 12

( )( )( )

( )ti i tt

i i i iti it

X X Y Yb x Ax x Ay

X X

2* 2 1

2( ) ( )

( )i i iti it

Var b x AxX X


Vergleich von bi und bi*

OLS-Schätzer bi sind unverzerrt; das gilt für die Schätzer bi* im

allgemeinen nicht die Varianz von bi kann sehr viel größere Werte annehmen als

die Varianz von bi*

der Schätzer der Varianz der Störgrößen ist unverzerrt


Ein Maß für Multikollinearität

mit TSS = , RSS =

Ri2 ist das Bestimmtheitsmaß der Regression von Xi auf die

Spalten von X ohne Xi („Hilfsregression“)

Ri2 ≈ 0: bi

* ≈ bi, Korr{Xi,Xj} ≈ 0 für alle i ≠ j; Ri

2 ≈ 1: RSS << TSS, d.h. Xi ist lineare Funktion der Spalten von X ohne Xi

Multikollinearität bedeutet, dass Ri2 ≈ 1 für mindestens ein i

2( )ti itX X

*

2 1i

ii

Var b RSSR

Var b TSS

2titX


Indikatoren für Multikollinearität Bestimmtheitsmaße Ri

2 der Hilfsregressionen VIFi (variance inflation factors) Determinante der Matrix der Korrelationskoeffizienten der

Regressoren (ein Wert nahe bei Null zeigt Multikollinearität an) Konditionszahl (condition index, condition number) k von X‘X:

max (min) ist maximaler (minimaler) Eigenwert von X‘X; ein großer Wert (>20) von k ist Hinweis auf Multikollinearität

Effekt des Hinzufügens eines Regressors auf se(bi): Regressor ist (a) relevant: se(bi) wird größer; (b) multikollinear: se(bi) wird kleiner

max

min

( )k X X


Die Größen VIFi und Ri2

: variance inflation factor von bi

Ergibt sich aus

VIFi ≈ 0: Ri2 ≈ 0, bi

* ≈ bi, Corr{Xi,Xj} ≈ 0 für alle i ≠ j; kein Problem mit Multikollinearität

VIFi ≈ 1 für mindestens ein i: Ri2 ≈ 1, Xi ist lineare Funktion

der Spalten von X ohne Xi; Achtung! Multikollinearität

2 1(1 )i iVIF R

* *

22

1 ,1

i i

i ii i

Var b Var bR Var b

Var b R


Gründe für große Var{bi}

Ist Xti2 klein: zu wenig Beobachtungen (extrem: n < k)

Ist klein: zu geringe Varianz der Xti (extrem: Var {Xi} = 0)

Ist : Multikollinearität (extrem: Ri2 = 1)

2( )ti itX X

2 2 2( )ti i tit t ttiX X X X

2 2( )ti i tit tX X X


t-Test bei Multikollinearität

Der Schätzer für wird durch Multikollinearität nicht gestört; se(bi) wird bei Multikollinearität überschätzt

t-Test von H0:i=0; Teststatistik T = bi/se(bi)

unter H0 gilt: T ~ t(n-k), unabhängig von Multikollinearität (kein Effekt auf Wahrscheinlichkeit des Typ I Fehlers)

unter H1: i ≠ 0 gilt: Wahrscheinlichkeit des Typ II Fehlers wächst mit Var{bi}

2

ˆ( )i

tit

se bX


Maßnahmen bei Multikollinearität Vergrößern der in die Schätzung einbezogenen Datenmenge Eliminieren der für Multikollinearität verantwortlichen

Regressoren Bei gemeinsamen Trends: Spezifikation des Modells in

Differenzen statt in Niveauwerten Berücksichtigen von Information über Struktur der Parameter

Documents

Ökonometrie II