Upload
abuo
View
63
Download
2
Embed Size (px)
DESCRIPTION
ok
Citation preview
Institut fr Soziologie Professur fr empirische Sozialforschung
Prof. Dr. Johannes KoppppDr. Daniel Lois
Einfhrung in die Panelanalyse
Stand: Juli 2009
Inhaltsverzeichnis
1. Panel-Analyse: Grundlagen 32. Regressionsverfahren fr Paneldaten: FE und RE 163. Ein Beispiel mit SOEP-Daten 444. Zwischenfazit: FE oder RE? 575 Ein FE Modell fr zwei Wellen 595. Ein FE-Modell fr zwei Wellen 596. Literaturempfehlungen 63
3 Ereignisdatenanalyse 2
Panel-Analyse: Grundlagen
Bei Paneldaten handelt es sich um die wiederholte Messung einer oder mehrerer Variabler bei einer oder mehreren Personen
Paneldaten haben gegenber Querschnittdaten mehrere Vorteile: Sie erlauben die Analyse von individuellen Entwicklungen, da es
neben der Varianz zwischen Personen Varianz innerhalb von Personen gibt
Sie enthalten Informationen zur zeitlichen Abfolge von Zustnden Sie enthalten Informationen zur zeitlichen Abfolge von Zustnden und Ereignissen
Sie erlauben die Kontrolle unbeobachteter individueller Heterogenitt
Sie sind informativer (enthalten z.B. mehr Variabilitt und Freiheitsgrade)Freiheitsgrade)
Panelanalyse 3
Panel-Analyse: Grundlagen
Ein Beispiel: Grundlage ist ein Datensatz von 5 Personen mit Partner, die noch nicht verheiratet sind
Die abhngige Variable ist die Lebenszufriedenheit (10-fach abgestuft von 1 = sehr unzufrieden bis 10 = sehr zufrieden)
Die unabhngige Variable ist die Heirat Auf der nchsten Folie ist die Entwicklung der Lebenszufriedenheit bei
diesen 5 Personen ber 4 Panelwellen dargestelltdiesen 5 Personen ber 4 Panelwellen dargestellt
Die gestrichelten Linien stehen fr Personen, die jeweils zwischen Welle 2 und 3 heiraten
Die durchgezogenen Linien reprsentieren Personen, die innerhalb des Beobachtungszeitraums nicht heiraten
Panelanalyse 4
Panel-Analyse: Grundlagen
Positiver Effekt der Heirat
10
12
8
10d
e
n
h
e
i
t
4
6
L
e
b
e
n
s
z
u
f
r
i
e
d
Keine Heirat
Heirat zwischen Welle 2 und 3
2
L
01 2 3 4
Panelwelle
Selbstselektion: Personen, die heiraten, sind bereits vor der Heirat zufriedener
Panelanalyse 5
Panel-Analyse: Grundlagen
Die Abbildung deutet auf das Vorliegen von drei Effekten hin:E t ibt i h h Z it d P i d ff kt d di Erstens gibt es einen schwachen Zeit- oder Periodeneffekt, da die Lebenszufriedenheit ber die Zeit hinweg tendenziell abfllt
Zweitens finden sich Hinweise auf eine Selbstselektion: DiejenigenZweitens finden sich Hinweise auf eine Selbstselektion: Diejenigen Personen, die heiraten, sind im Durchschnitt schon vor der Heirat zufriedener als die Personen, die nicht heiraten
D itt i t i h i k l ( iti ) Eff kt d H i t f di Drittens zeigt sich ein kausaler (positiver) Effekt der Heirat auf die Zufriedenheit. Diese erhht sich im Anschluss an die Heirat zwischen den Wellen 2 und 3 deutlich. In der Kontrollgruppe ohne Heirat zeigt sich dieser Effekt nicht
Panelanalyse 6
Panel-Analyse: Grundlagen
Das Beispiel verdeutlicht, dass bei Paneldaten verschiedene Quellen von Heterogenitt differenziert werden mssen o ete oge tt d e e e t e de sse
Es gibt nicht nur wie bei Querschnittdaten Varianz zwischen den Personen (Personen, die heiraten, sind zufriedener)
Zustzlich entsteht durch die wiederholte Befragung im Panel Varianz innerhalb von Personen (Personen werden durch die Heirat zufriedener)
E t h d di V i ll i d R i f h f Entsprechend dieser Varianzquellen sind Regressionsverfahren fr Paneldaten entwickelt worden, die entweder nur die Varianz zwischen Personen (between), die Varianz innerhalb von Personen (within) oder beides nutzen
Diese Verfahren werden entlang dieser Logik im vorliegenden Skript kurz vorgestellt wobei der Schwerpunkt auf Modelle fr metrische abhngigevorgestellt, wobei der Schwerpunkt auf Modelle fr metrische abhngige Variable liegt
Panelanalyse 7
Panel-Analyse: Grundlagen
Varianz zwischen Personen steht bereits in Querschnittdaten zur V fVerfgung
Der Hauptvorteil von Paneldaten besteht daher in der Erzeugung von Varianz innerhalb von PersonenVarianz innerhalb von Personen
Es besteht also die Mglichkeit von Quasi-Experimenten: Wir interessieren uns dafr, wie sich Personen im Hinblick auf eine bh i V i bl ( B L b f i d h it) d di B iabhngige Variable (z.B. Lebenszufriedenheit) verndern, die z.B. ein
Ereignis (hier: Heirat) zwischen den Befragungswellen erleben (Experimentalgruppe) oder nicht (Vergleichsgruppe)
Im Rahmen von Panelanalysen kann also im Gegensatz zu Querschnittdaten der kausale Effekt eines treatments (z.B. eines Ereignisses) auf die abhngige Variable bestimmt werdenEreignisses) auf die abhngige Variable bestimmt werden
Panelanalyse 8
Panel-Analyse: Grundlagen
Hierzu eine etwas formellerer Exkurs: Wir interessieren uns fr den kausalen Effekt eines treatments T (hier: Heirat) auf eine abhngige Variable y (hier: Lebenszufriedenheit)
Wenn i das jeweilige Individuum bezeichnet, t ein Zeitindex ist und C fr die Messung vor dem treatment steht schtzen wir mit Querschnittdatendie Messung vor dem treatment steht, schtzen wir mit Querschnittdaten folgendes (sog. between-estimation):
CT yy
Geschtzt wird also die Differenz bei der abhngigen Variablen zwischen
t,jt,i 00y-y
Personen, die das treatment zum Zeitpunkt t0 erlebt haben und anderen Personen, die es zum Zeitpunkt t0 noch nicht erlebt haben
Panelanalyse 9
Panel-Analyse: Grundlagen
Der tatschliche kausale Effekt des treatments wird hier nur dann korrekt geschtzt, wenn sich die Personen der Gruppen i und j nicht im Hinblick auf unbeobachtete Merkmale unterscheiden
Da es sich hierbei in der Regel um eine unrealistische Annahme handelt wird auf Paneldaten zurckgegriffen Hier wird die sog within-handelt, wird auf Paneldaten zurckgegriffen. Hier wird die sog. within-Schtzung durchgefhrt:
CT yy
Geschtzt wird also, wie sich die abhngige Variable zum Zeitpunkt t1
t,it,i 01y-y
1im Vergleich zum ersten Messzeitpunkt t0 vor dem treatment bei denselben Personen verndert hat (deswegen within, Varianz innerhalb von Personen))
Panelanalyse 10
Panel-Analyse: Grundlagen
Der tatschliche kausale Effekt des treatments wird hier korrekt geschtzt, wenn es keine unbeobachtete Heterogenitt innerhalb von Personen gibt (d.h. die Personen i sich ber die Zeit bei unbeobachteten Merkmalen verndern)
Auerdem knnen Periodeneffekte (z B Alterungseffekte) die Schtzung Auerdem knnen Periodeneffekte (z.B. Alterungseffekte) die Schtzung verzerren, weshalb man eine sog. difference-in-difference Schtzung durchfhren kann:
)y-y(-)y-y( Ct,jCt,j
Ct,i
Tt,i 0101
Es werden also Personen im Hinblick auf ihre Vernderung bei der abhngigen Variablen verglichen, die das treatment entweder erlebt haben (linke Seite) oder nicht (rechte Seite, Kontrollgruppe)( ) ( g pp )
Panelanalyse 11
Panel-Analyse: Grundlagen
Verdeutlichen wir dies anhand des Beispiels der fnf Personen, die entweder heiraten oder nicht (siehe Folie 5) Wie gro ist der kausale Effekt der Heirat auf die Lebenszufriedenheit? Dies kann
mit der difference-in-difference Methode ausgerechnet werden, wobei sich das folgende Beispiel nur auf einen Vergleich der Wellen 2 und 3 bezieht
fr jede Person wird die Differenz der Lebenszufriedenheit vor und nach der Heirat bzw. bei dauerhaft Ledigen zwischen den Wellen 2 und 3 berechnet
diese Differenzen werden fr Personen die heiraten und fr ledige Personendiese Differenzen werden fr Personen die heiraten und fr ledige Personen gemittelt
schlielich ist die Differenz der Vorher-Nachher-Differenz der Personen mit und ohne Heirat der kausale Effekt Im Beispiel steigt die Lebenszufriedenheit durchohne Heirat der kausale Effekt. Im Beispiel steigt die Lebenszufriedenheit durch die Heirat um 2,17 Punkte:
1722170)7-9()8-10()66()8,3-5,3()4,8-6,4( +++ 17,2-2-17,0-2
)()(-3
)(),,(),,( ==
Panelanalyse 12
Panel-Analyse: Grundlagen
Vor der Berechnung von Regressionsmodellen mssen die Paneldaten richtig aufbereitet werden
Die Ausgangssituation ist in der Regel das sog. wide-Format. Die Zeilen im Datensatz stehen hier wie gewohnt fr Personen; zeitvernderliche Variablen werden in separaten Spalten (hier: je 4) abgespeichert:Variablen werden in separaten Spalten (hier: je 4) abgespeichert:
Dieser Datensatz muss nun ins long-Format umstrukturiert werden. In STATA geht dies u a ber den reshape long Befehl in SPSS ber denSTATA geht dies u.a. ber den reshape long-Befehl, in SPSS ber den Befehl varstocases (Daten Umstrukturieren Variablen in Flle)
Panelanalyse 13
Panel-Analyse: Grundlagen
Die folgenden Befehle bewirken die Umstrukturierung vom wide- ins long-Format. j(wave) erzeugt in STATA eine neue Variable wave mit fortlaufenden Zahlen von 1-4. Zeitkonstante Variablen (z.B. Geschlecht) mssen im reshape long Befehl nicht explizit aufgefhrt werden.
STATA: reshape long zf heirat i(id) j(wave) STATA: reshape long zf heirat, i(id) j(wave) SPSS: varstocases /make heirat from heirat1 heirat2 heirat3 heirat4
/make zf from zf1 zf2 zf3 zf4/index = wave(4)/keep = id/null = drop.
/null = drop bedeutet im SPSS-Befehl, dass Flle mit missings bei allen transponierten Variablen aus dem Datensatz entfernt werden
Panelanalyse 14
Panel-Analyse: Grundlagen
Personen flieen im long-Format nun in der Form von Zeilen mehrfach in den Datensatz ein; anstatt fnf Zeilen im wide-Format gibt es nun also 20 Zeilen (jeweils vier pro Person)
Pro Variable gibt es im long Pro Variable gibt es im long-Format jedoch nur noch eine Spalte
Die ID ist notwendig, um die personenspezifischen Beobachtungen gidentifizieren zu knnen
Panelanalyse 15
Regressionsmodelle fr Paneldaten: FE und RE
Nun knnen wir dazu bergehen, den Effekt der Heirat (x) auf die Lebenszufriedenheit (y) mit Regressionsmodellen zu analysieren
Eine erste Mglichkeit wre, eine einfache OLS-Regression mit den gepoolten Daten zu berechnen (i steht fr Personen, t fr Messzeitpunkte bzw Panelwellen und u fr den Fehlerterm):Messzeitpunkte bzw. Panelwellen und u fr den Fehlerterm):
itit10it uxy ++= Das Ergebnis ist auf der nchsten Folie dargestellt. Laut diesem Modell
fhrt eine Heirat dazu, dass sich die Lebenszufriedenheit um 4,03 Punkte erhht
Wie wir noch sehen werden, ist dieses Ergebnis stark verzerrt und gibt nicht den tatschlichen kausalen Effekt der Heirat auf die Zufriedenheitnicht den tatschlichen kausalen Effekt der Heirat auf die Zufriedenheit wieder
Panelanalyse 16
Regressionsmodelle fr Paneldaten: FE und RE
Panelanalyse 17
Regressionsmodelle fr Paneldaten: FE und RE
Dies liegt daran, dass sich der Effekt der Heirat (b = 4,03) in der OLS-Regression aus zwei Quellen speit: erstens fliet ein, dass die Heirat die Zufriedenheit erhht (within-Varianz)
Zweitens gibt es insofern eine Selektion, da Personen, die heiraten, im Durchschnitt bereits zufriedener sind (between-Varianz)Durchschnitt bereits zufriedener sind (between-Varianz)
Technisch gesehen besteht das Problem darin, dass durch die Selbstselektion der Fehlerterm u mit der unabhngigen Variablen x (Heirat) korreliert, wodurch eine der Annahmen der OLS-Regression verletzt wird
Um die Frage zu beurteilen inwiefern die Heirat die Zufriedenheit Um die Frage zu beurteilen, inwiefern die Heirat die Zufriedenheit erhht, muss daher auf geeignetere Verfahren zurckgegriffen werden
Panelanalyse 18
Regressionsmodelle fr Paneldaten: FE und RE
Im Folgenden werden zwei Regressionsmodelle fr Paneldaten vorgestellt: das fixed-effects (FE) Modell und das random-effects (RE) Modell
Das FE-Modell ist speziell dazu geeignet, den kausalen Effekt von zeitvernderlichen Kovariaten (z B von Ereignissen) auf eine metrischezeitvernderlichen Kovariaten (z.B. von Ereignissen) auf eine metrische abhngige Variable zu identifizieren. Es basiert ausschlielich auf der Varianz innerhalb von Personen
In das RE-Modell fliet sowohl die Varianz zwischen als auch innerhalb von Personen ein. In diesem Verfahren knnen auch zeitkonstante Variablen bercksichtigt werden
Sowohl das FE als auch das RE-Modell tragen zudem der Tatsache Rechnung, dass Personen im Rahmen des Panels mehrfach beobachtet werden und diese personenspezifischen Beobachtungen statistisch nichtwerden und diese personenspezifischen Beobachtungen statistisch nicht unabhngig sind
Panelanalyse 19
Regressionsmodelle fr Paneldaten: FE und RE
Der Ausgangspunkt der FE-Regression ist folgendes Fehlerkompo-nentenmodell:
itiit1it vxy ++= Hier wird der Fehlerterm (u) aufgeteilt in einen personenspezifischen
Fehler, der zeitkonstant ist (vi) und einen ideosynkratischen Fehler (it).
Diese Gleichung kann ber die Zeit fr jede Person i gemittelt werden, so dass sie sich ausschlielich auf die Varianz zwischen Personen bezieht:
iii1i vxy ++= Wird die zweite von der ersten Gleichung abgezogen, ergibt sich das
FE-Modell:
Panelanalyse 20
Regressionsmodelle fr Paneldaten: FE und RE
iitiit1iit )xx(yy += Im Unterschied zur OLS-Regression werden in der fixed-effects
Gleichung die abhngige Variable y und die unabhngige Variable x in der Form ihrer Abweichungen vom personenspezifischen Mittelwert reprsentiert (nur die Varianz innerhalb von Personen ist also von Interesse)
Bezogen auf die Abbildung in Folie 4 wird mit dem FE-Modell folglich ausschlielich berprft, inwieweit die Heirat die Zufriedenheit erhht (within)(within)
Die Tatsache, dass Personen, die heiraten, vor der Heirat bereits zufriedener sind (between), beeinflusst diese Schtzung nicht ( ) g
Panelanalyse 21
Regressionsmodelle fr Paneldaten: FE und RE
Eine der wichtigsten Eigenschaften des FE-Modells ist, dass der zeitkonstante personenspezifische Fehler (vi) durch die Subtraktion der beiden Gleichungen eliminiert wird
Dies ist aus folgenden Grnden zentral: Es gibt mglicherweise zeitkonstante Faktoren (reprsentiert durch v ) die zu einerzeitkonstante Faktoren (reprsentiert durch vi), die zu einer Selbstselektion fhren, also sowohl die Wahrscheinlichkeit einer Heirat und den Ausgangswert der abhngigen Variablen (Lebenszufriedenheit) beeinflussenbeeinflussen
Zum Beispiel sind westdeutsche Personen gleichzeitig im Durchschnitt zufriedener als ostdeutsche und heiraten hufiger
Diese zeitkonstanten Personenmerkmale (z.B. auch Persnlich-keit, Kindheitserfahrungen, Geburtskohorte, genetische Eigenschaften usw ) knnen entweder beobachtet oder unbeobachtet seinusw.) knnen entweder beobachtet oder unbeobachtet sein
Panelanalyse 22
Regressionsmodelle fr Paneldaten: FE und RE
Der wesentliche Vorteil des FE-Modells besteht darin, dass die Einflsse von allen zeitkonstanten Merkmalen kontrolliert werden, gleichgltig, ob sie beobachtet werden oder nicht!
Dieser Vorteil geht allerdings auch mit Nachteilen einher: Erstens hat das FE-Modell in der Regel eine geringere statistische Power als z Bdas FE-Modell in der Regel eine geringere statistische Power als z.B. das RE-Modell, da es nur auf der within-Varianz basiert (d.h., dass die Effekte tendenziell seltener signifikant werden)
Zweitens knnen im FE-Modell keine zeitkonstanten Variablen (z.B. Geschlecht, Ost/West, etc.) aufgenommen werden
Die nachfolgende Folie zeigt das Ergebnis einer fixed effects Regression Die nachfolgende Folie zeigt das Ergebnis einer fixed-effects Regression der Heirat auf die Zufriedenheit
Panelanalyse 23
Regressionsmodelle fr Paneldaten: FE und RE
Panelanalyse 24
Regressionsmodelle fr Paneldaten: FE und RE
Zunchst zu den Syntaxbefehlen oberhalb der Tabelle: mit tsset wird der Datensatz in STATA zu einem Paneldatensatz erklrt
Mit der Angabe der id wird festgelegt, welche personenspezifischen Beobachtungen zusammengehren
Mit wave wird die Variable definiert, die angibt, um welchen Messzeitpunkt es sich handelt
STATA teilt mit dass im Datensatz 5 Personen enthalten sind ( id 1 to STATA teilt mit, dass im Datensatz 5 Personen enthalten sind (id, 1 to5) und es 4 Wellen gibt (wave, 1 to 4)
Der Befehl fr eine fixed-effets Regression lautet xtreg zf (abhngige Variable) heirat (unabhngige Variable), fe (fr fixed-effects)
Panelanalyse 25
Regressionsmodelle fr Paneldaten: FE und RE
Das wichtigste Ergebnis des Outputs ist, dass die Heirat laut FE-Modell einen positiven Effekt auf die Lebenszufriedenheit in Hhe von b = 1,95 hat. Dies ist der tatschliche (kausale) Effekt
Damit wird deutlich, dass die OLS-Regression den Einfluss der Heirat deutlich berschtzt (b = 4 03)deutlich berschtzt (b = 4,03).
Der Output enthlt noch einige weitere Bestandteile, die nicht selbsterklrend sind, d.h. in normalen OLS-Regressionen nicht vorkommen
Bei sigma_u handelt es sich um die between-subject Standard-abweichung die in der FE Schtzung kontrolliert wirdabweichung, die in der FE-Schtzung kontrolliert wird
sigma_e bezieht sich entsprechend auf die within-subjectStandardabweichungg
Panelanalyse 26
Regressionsmodelle fr Paneldaten: FE und RE
Bei rho handelt es sich um den sog. Intraklassenkorrelations-koeffizienten. Er gibt diesem Modell den Anteil der personenspezifischen (between) Varianz an der Gesamtvarianz wieder
Der Intraklassenkorrelationskoeffizient wird allgemein in hierarchisch strukturierten Daten (d h Mehrebenendaten) angewendet Paneldatenstrukturierten Daten (d.h. Mehrebenendaten) angewendet. Paneldaten sind Mehrebenendaten: Ebene 1 ist die Zeit (within) und Ebene 2 entspricht den Personen (between)
i Die Berechnung von rho lautet wie folgt: e_sigmau_sigma
u_sigmarho +=
Nach Kontrolle der Variablen heirat geht im Beispiel 98% der Gesamtfehlervarianz auf between-Varianz zurck
Panelanalyse 27
Regressionsmodelle fr Paneldaten: FE und RE
Ein weiterer ntzlicher Bestandteil des Outputs ist die Korrelation zwischen den personenspezifischen Konstanten (u_i, s.u.) und der unabhngigen Variable x (hier: Heirat)
Diese wird hier mir r = .53 angegeben Dies zeigt direkt an, dass Selbstselektion vorliegt: diejenigen
Personen, die zufriedener sind, heiraten eher
Wre die Korrelation negativ wrde dies entsprechend bedeuten dass Wre die Korrelation negativ wrde dies entsprechend bedeuten, dass Personen, die zufriedener sind, eher nicht heiraten
Aber nochmal: Das Schtzergebnis des FE-Modells wird durch die Korrelation der zeitkonstanten Personeneigenschaften mit der unabhngigen Variablen nicht beeinflusst (dies ist beim RE-Modell anders, s.u.) )
Panelanalyse 28
Regressionsmodelle fr Paneldaten: FE und RE
Darber hinaus werden drei R-Werte ausgewiesen. Das between-R ist die quadrierte Korrelation zwischen dem personenspezifischen Mittelwert (ber alle Wellen) von y und dem vorhergesagten personenspezifischen Mittelwert von y
Das overall-R ist die quadrierte Korrelation zwischen den y-Werten und Das overall-R ist die quadrierte Korrelation zwischen den y-Werten und den vorhergesagten y-Werten
Das within-R ist im Rahmen der FE-Schtzung am wichtigsten. Es sagt aus, dass die Vernderung der Lebenszufriedenheit durch die Variable heirat zu fast 90% erklrt werden kann
Unterhalb der Tabelle wird ferner ein zustzlicher F Test Unterhalb der Tabelle wird ferner ein zustzlicher F-Test ausgewiesen, der die Nullhypothese alle u_i sind = 0 testet
Panelanalyse 29
Regressionsmodelle fr Paneldaten: FE und RE
Um den Zweck dieses Tests zu verdeutlichen, wird nun erlutert, dass das FE-Modell auch auf eine andere Weise geschtzt werden kann (durch ein sog. least quares dummy variable (LSDV) model)
Auf der nchsten Folie ist eine ganze normale OLS-Regression auf die Zufriedenheit dargestellt in der neben der unabhngigen VariablenZufriedenheit dargestellt, in der neben der unabhngigen Variablen heirat vier Dummy-Variablen fr 4 der 5 Personen im Datensatz enthalten sind (die fnfte Person ist die Referenz)
Der Effekt des Dummys dp1 (b = -1,1) bedeutet also, dass die erste Person verglichen mit der fnften eine geringere durchschnittliche Zufriedenheit ber alle Wellen aufweist
Wichtig ist, dass der geschtzte Effekt der Heirat auf die Zufriedenheit exakt derselbe ist wie im FE-Modell, das mit xtreg geschtzt wurde (b = 1 95) Dies gilt auch fr den Standardfehler und den t Wert1,95). Dies gilt auch fr den Standardfehler und den t-Wert
Panelanalyse 30
Regressionsmodelle fr Paneldaten: FE und RE
Panelanalyse 31
Regressionsmodelle fr Paneldaten: FE und RE
Die Ergebnisse stimmen exakt berein, da in der OLS-Regression alle zeitkonstanten Eigenschaften der Personen (z.B. ihre Persnlichkeit) ber die Dummy-Variablen kontrolliert werden
Der multivariate Effekt der zeitvernderlichen Variablen heirat bezieht sich dadurch ausschlielich auf Vernderungen innerhalb einersich dadurch ausschlielich auf Vernderungen innerhalb einer Person, also die within-Varianz
Nun wird verstndlich, was im FE-Modell der F-Test fr die Nullhypothese alle u_i = 0 bedeutet
Die u_i sind die personenspezifischen Dummy-Variablen Da die Nullhypothese, dass alle diese Dummy-Variablen einen Effekt von
0 haben, nicht abgelehnt werden kann (F = 143,1, p < .001, siehe Folie 24), liegt unbeobachtete personenspezifische Heterogenitt vor, die nicht ) g p p gzu vernachlssigen ist
Panelanalyse 32
Regressionsmodelle fr Paneldaten: FE und RE
Ein Nachteil des FE-Modells besteht wie gesagt darin, dass die Effekte von zeitkonstanten Variablen nicht geschtzt werden knnen
Dies ist im Rahmen des RE -Modells mglich, dass alternativ zum FE-Modell im Rahmen von xtreg zur Verfgung steht
Das random-effects Modell hat folgende Form:
itiit10it vxy +++= Es handelt sich hier somit ebenfalls um ein Fehlerkomponentenmodell
mit einem zeitkonstanten personenspezifischen Fehler (v ) und einem
itiit10ity
mit einem zeitkonstanten personenspezifischen Fehler (vi) und einem idiosynkratrischen Fehler (it), der ber die Zeit und ber Personen variiert
Panelanalyse 33
Regressionsmodelle fr Paneldaten: FE und RE
Der Unterschied zum FE-Modell besteht in der Behandlung von vi Die zeitkonstanten personenspezifischen Einflsse (vi) werden im RE- Die zeitkonstanten, personenspezifischen Einflsse (vi) werden im RE-
Modell nicht wie z.B. im LSDV-Modell ber Dummy-Variablen fix geschtzt
Stattdessen wird angenommen, dass vi eine normalverteilte latente Variable ist. Geschtzt wird lediglich die Varianz dieser latenten Variablen (deshalb random effects)
Das RE-Modell nutzt somit beide Varianzquellen (within und between) zur Schtzung der Parameter
Dies hat einige wichtige Konsequenzen fr die Voraussetzungen des Modells und seine Interpretation:
Panelanalyse 34
Regressionsmodelle fr Paneldaten: FE und RE
Die Effekte im RE-Modell sind eine Mischung aus between- und within-Schtzungen
Dies bedeutet im Beispiel, dass im RE-Modell implizit davon ausgegangen wird, dass
a) sowohl der die Zufriedenheit steigernde Effekt einer Heirat (within),
b) als auch die Tatsache dass Personen die heiraten generellb) als auch die Tatsache, dass Personen, die heiraten, generell zufriedener sind (between),
dazu beitragen, dass zwischen Heirat und Zufriedenheit ein positiver Zusammenhang besteht
Panelanalyse 35
Regressionsmodelle fr Paneldaten: FE und RE
Eine wichtige Annahme im RE-Modell ist, dass die Korrelation zwischen den zeitkonstanten Personeneinflssen vi und der bzw. den iunabhngigen Variablen 0 ist: Corr (xit, vi) = 0
Das Modell funktioniert also nur, wenn es irrelevante personen-ifi h H t itt ibt di i ht it d bh i V i blspezifische Heterogenitt gibt, die nicht mit den unabhngigen Variablen
korreliert
Im Beispiel bedeutet dies, dass es keine Selbstselektion in den DatenIm Beispiel bedeutet dies, dass es keine Selbstselektion in den Daten geben drfte, um mit einem RE-Modell zu verzerrungsfreien Schtzungen zu kommen
D h P di h i t d ft i ht d H i t b it i D.h. Personen, die heiraten, drften nicht vor der Heirat bereits im Durchschnitt zufriedener sein
Panelanalyse 36
Regressionsmodelle fr Paneldaten: FE und RE
Panelanalyse 37
Regressionsmodelle fr Paneldaten: FE und RE
Im Ergebnis zeigt sich, dass der positive Effekt der Heirat auf die Zufriedenheit im RE-Modell trotz Selbstselektion nur unwesentlich berschtzt wird (b = 1,99 versus b = 1,95 im FE-Modell)
Wie gro der Bias des RE-Schtzers ist, hngt in erster Linie davon ab wie gro die Varianz zwischen Personen im Verhltnis zur Varianzab, wie gro die Varianz zwischen Personen im Verhltnis zur Varianz innerhalb von Personen ist
Je grer die Varianz zwischen Personen im Verhltnis zur Varianz innerhalb von Personen ist (je mehr Heterogenitt es also zwischen Personen gibt), desto weniger verzerrt ist der RE- gegenber dem FE-Schtzer
Im STATA-Output gibt der Koeffizient theta ber das Varianzverhltnis Auskunft. Wenn die between-Varianz (sigma_u) deutlich grer ist als die within Varianz (sigma e) tendiert theta zu 1die within-Varianz (sigma_e), tendiert theta zu 1
Panelanalyse 38
Regressionsmodelle fr Paneldaten: FE und RE
Dies ist im Beispiel auf Folie 36 der Fall, wo theta = .88 ist
Links ist ein zweiter Datensatz dargestellt, in dem es deutlich mehr Varianz innerhalb vonmehr Varianz innerhalb von Personen gibt
Bei Personen, die heiraten, wurde nichts verndert
Personen die nicht Personen, die nicht heiraten, sind nun jedoch nicht nur im Durchschnitt unzufriedener sondernunzufriedener, sondern verndern sich strker ber die Zeit (mehr within-Varianz)
Panelanalyse 39
Regressionsmodelle fr Paneldaten: FE und RE
Die nchste Folie zeigt, dass in dem vernderten Datensatz mit mehr within-Varianz deutliche Unterschiede zwischen der FE- und der RE-Schtzung auftreten
Der kausale positive Effekt der Heirat auf die Zufriedenheit wird im FE-Modell weiterhin korrekt geschtzt (b = 1 95)Modell weiterhin korrekt geschtzt (b = 1,95)
Das RE-Modell berschtzt den Effekt nun dagegen stark (b = 3,41) und kommt in die Nhe der ursprnglichen OLS-Schtzung (b = 4,03)
Das RE-Modell ist im vernderten Datensatz also nicht mehr dazu geeignet, um den kausalen Effekt der Heirat verzerrungsfrei zu schtzen
Panelanalyse 40
Regressionsmodelle fr Paneldaten: FE und RE
Panelanalyse 41
Regressionsmodelle fr Paneldaten: FE und RE
Hierzu abschlieend noch eine formellere Darstellung. Das RE-Modell ist nichts anderes als eine gepoolte OLS-Regression auf die in der folgenden Weise transformierten Daten:
[ ]iitiiit10iit v)1()xx()1(yy +++= Auffllig ist die hnlichkeit mit der Formel fr das FE-Modell (s.o) mit
dem Unterschied dass zustzlich theta () in der Gleichung enthalten istdem Unterschied, dass zustzlich theta () in der Gleichung enthalten ist
theta ist wie folgt definiert (T = Anzahl der Panelwellen):
e_sigmau_sigma*Te_sigma1 +=
Panelanalyse 42
Regressionsmodelle fr Paneldaten: FE und RE
Wenn also = 1 ist, entspricht das RE-Modell dem FE-Modell (in der Gleichung werden die Konstante 0 und alle zeitkonstanten personenspezifischen Einflsse vi eliminiert)
Wenn = 0 ist, entspricht das RE-Modell einer OLS-Regression tendiert zu 1, wenn die Varianz zwischen den Personen (sigma_u)
deutlich grer ist als die Varianz innerhalb von Personen
tendiert entsprechend zu 0 wenn die Varianz innerhalb (sigma e) tendiert entsprechend zu 0, wenn die Varianz innerhalb (sigma_e ) deutlich grer ist als die Varianz zwischen Personen; insbesondere in dieser Situation kann es dazu kommen, dass der RE-Schtzer verzerrt istist
Die Formel zeigt auerdem, dass sich das RE- und das FE-Modell mit steigender Anzahl von Panelwellen (T) einander annhern g ( )
Panelanalyse 43
Ein Beispiel mit SOEP-Daten
Alle bisherigen Folien bezogen sich auf ein konstruiertes Beispiel mit nur 5 Personen; im Folgenden wird zu derselben Fragestellung eine kleine Analyse mit vier Wellen des SOEP (1998 bis 2001) durchgefhrt
Gegenstand der Analyse sind Frauen und Mnner, die im Jahr 1998 ledig und 18 Jahre oder lter sind Die Fragestellung lautet ob eineledig und 18 Jahre oder lter sind. Die Fragestellung lautet, ob eine Heirat die allgemeine Lebenszufriedenheit erhht (gemessen von 1-10, 10 = sehr zufrieden)
Beginnen wir mit einem RE-Modell, dessen Output auf der nchsten Folie dargestellt ist
Laut dieser Schtzung hat die Heirat einen positiven Effekt auf die Laut dieser Schtzung hat die Heirat einen positiven Effekt auf die Lebenszufriedenheit in Hhe von b = 0,145.
Panelanalyse 44
Ein Beispiel mit SOEP-Daten
Panelanalyse 45
Ein Beispiel mit SOEP-Daten
Das RE-Modell kann um weitere zeitkonstante und zeitvernderliche Variablen erweitert werden
Im Folgenden werden daher zunchst drei Dummy-Variablen fr die ersten drei untersuchten Wellen eingefhrt; die vierte Welle ist die ReferenzReferenz
Es ist immer eine gute Idee, mgliche Periodeneffekte zu kontrollieren. Wenn sich z.B. zu einem bestimmten Zeitpunkt die Lebenszufriedenheit bei allen Personen systematisch verndert, knnen die Schtzungen fr Effekte einzelner Kovariaten verzerrt werden
Auerdem werden die zeitkonstanten Variablen Geschlecht und Auerdem werden die zeitkonstanten Variablen Geschlecht und Ost/West bercksichtigt
Panelanalyse 46
Ein Beispiel mit SOEP-Daten
Panelanalyse 47
Ein Beispiel mit SOEP-Daten
Auch nach Kontrolle der genannten Kovariaten verbleibt ein positiver Effekt der Heirat, der sich sogar leicht verstrkt (b = 0,156)
Auerdem zeigt sich, dass es keine signifikanten Periodeneffekte gibt (gemessen ber die Dummys nwave1-nwave3), Mnner (sex=1) ber alle Panelwellen tendenziell unzufriedener sind als Frauen undalle Panelwellen tendenziell unzufriedener sind als Frauen und ostdeutsche Personen (ow=1) deutlich unzufriedener als westdeutsche
Ob der positive Effekt der zeitvernderlichen Variablen Heirat auf die Lebenszufriedenheit kausal ist, lsst sich im RE-Modell jedoch nicht mit Sicherheit beantworten
Da im RE Modell auch die Varianz zwischen Personen bercksichtigt Da im RE-Modell auch die Varianz zwischen Personen bercksichtigt wird, kann es zu Selektionseffekten kommen (Personen, die heiraten, sind vor der Heirat bereits zufriedener)
Panelanalyse 48
Ein Beispiel mit SOEP-Daten
Das Vorliegen von Selektionseffekten kann berprft werden, indem ein FE-Modell mit der unabhngigen Variablen heirat berechnet und die Korrelation zwischen u_i und x interpretiert wird
Im Beispiel ist diese Korrelation fr Frauen leicht positiv (r = .08, nicht dargestellt) zufriedene Frauen heiraten also offenbar eher (fr Mnnerdargestellt), zufriedene Frauen heiraten also offenbar eher (fr Mnner zeigt sich dagegen eine leicht negative Korrelation)
Eine zweite Mglichkeit besteht darin, die Lebenszufriedenheit im Jahr 1998, d.h. zu einem Zeitpunkt, wo alle Personen noch ledig sind, zwischen Personen zu vergleichen, die in den nchsten drei Wellen heiraten oder nicht
Es besttigt sich, dass Mnner, die heiraten, signifikant zufriedener sind als die Vergleichsgruppe (7,5 vs. 7,07). Das gleiche gilt fr Frauen (7,5 versus 7 16) Es gibt also in der Tat eine Selbstselektionversus 7,16). Es gibt also in der Tat eine Selbstselektion
Panelanalyse 49
Ein Beispiel mit SOEP-Daten
Der potentielle Bias, der durch diese Selektion entstehen kann, wrde nur dann nicht ins Gewicht fallen, wenn die between-Varianz deutlich grer wre als die within-Varianz
Der Output lsst jedoch bereits erkennen, dass das Verhltnis der beiden Varianzen ausgeglichen ist (rho = 48)beiden Varianzen ausgeglichen ist (rho = .48)
Um die Ergebnisse abzusichern, wird daher eine FE-Schtzung durchgefhrt, in die zustzlich Dummys fr die Panelwellen einflieen; alle zeitkonstanten Variablen (Geschlecht, Ost/West) knnen dabei nicht mehr bercksichtigt werden
Die Ergebnisse zeigen dass eine Heirat laut FE Schtzung keinen Die Ergebnisse zeigen, dass eine Heirat laut FE-Schtzung keinenkausalen Effekt auf die Lebenszufriedenheit hat; der RE-Schtzer ist demzufolge nach oben hin verzerrt!
Panelanalyse 50
Ein Beispiel mit SOEP-Daten
Panelanalyse 51
Ein Beispiel mit SOEP-Daten
Die bisherigen Ergebnisse deuten darauf hin, dass im vorliegenden Fall ein RE-Modell nicht angemessen ist
Es gibt zustzlich einen formellen Test (sog. Hausman-Test) mit dem berprft werden kann, ob der RE-Schtzer gegenber dem FE-Schtzer verzerrt istSchtzer verzerrt ist
Dazu mssen im Anschluss an die RE- bzw. FE-Regression (jeweils nur mit der unabhngigen Variablen heirat) die Schtzergebnisse im Datensatz abgespeichert werden (Befehl: estimates store fixed, wobei fixed ein vom Benutzer frei whlbarer Name ist)
Der Befehl fr den Hausman Test lautet dann: hausman fixed random Der Befehl fr den Hausman-Test lautet dann: hausman fixed random Auf der nchsten Folie sind die Ergebnisse dargestellt
Panelanalyse 52
Ein Beispiel mit SOEP-Daten
Panelanalyse 53
Ein Beispiel mit SOEP-Daten
Der Hausman-Test testet die Nullhypothese, dass die Koeffizienten, die durch das RE-Modell fr eine zeitvernderliche Variable geschtzt werden, dieselben sind wie im FE-Modell
Wenn dies der Fall ist, ist der unten angegebene -Wert insignifikant (p > 05) und es ist unproblematisch ein RE-Modell anzuwenden> .05) und es ist unproblematisch, ein RE-Modell anzuwenden
Wenn der -Wert dagegen signifikant ist (wie in unserem Beispiel: = 26,6, df = 1, p < .05), sollte man an ein FE-Modell bevorzugen
Inhaltlich ergibt sich damit im Beispiel eine Enttuschung: Ein signifikanter positiver kausaler Effekt der Eheschlieung auf die allgemeine Lebenszufriedenheit kann entgegen dem ersten Eindruckallgemeine Lebenszufriedenheit kann entgegen dem ersten Eindruck nicht nachgewiesen werden
Panelanalyse 54
Ein Beispiel mit SOEP-Daten
Abschlieend soll noch erwhnt werden, dass auch zeitkonstante Kovariate (z.B. das Geschlecht) in der Form von Interaktionseffekten mit zeitvernderlichen Kovariaten in das FE-Modell aufgenommen werden knnen
Auf der nchsten Folie geht der Interaktionseffekt sex*heirat genannt Auf der nchsten Folie geht der Interaktionseffekt sex heirat , genannt int2, in das Modell ein
Es zeigt sich, dass der Effekt der Eheschlieung bei Frauen (sex=0) der Richtung nach positiv, aber nicht signifikant ist (b = 0,09)
Bei Mnnern ist er dagegen der Richtung nach sogar negativ (b = 0,09 0 18 = 0 09); der Unterschied zwischen Mnnern und Frauen ist jedoch0,18 = -0,09); der Unterschied zwischen Mnnern und Frauen ist jedoch ebenfalls nicht signifikant (p = 0,15)
Zu beachten ist, dass im Unterschied zu normalen Regressionsmodellen der Haupteffekt der zeitkonstanten Variablen sexnicht mit ins Modell aufgenommen wird
Panelanalyse 55
Ein Beispiel mit SOEP-Daten
Panelanalyse 56
Zwischenfazit: FE oder RE?
In vielen Anwendungssituationen wird die zentrale Voraussetzung des RE-Modells, dass die unabhngigen Variablen nicht mit den zeitkonstanten Personeneigenschaften (vi) korrelieren, verletzt sein
Um in diesen Fllen unverzerrte Schtzer zu erhalten, sollte man das FE-Modell nutzenFE-Modell nutzen
Das RE-Modell schtzt zwar die Effekte von zeitkonstanten Kovariaten. Der eigentliche Sinn von Panelanalysen besteht jedoch nicht in der Analyse der between-Varianz, die auch im Querschnitt ausgewertet werden kann
Um die Strke der Paneldaten voll zu nutzen sollte man sich vielmehr Um die Strke der Paneldaten voll zu nutzen, sollte man sich vielmehr auf die Effekte von einigen wenigen zeitvernderlichen Variablen, die dichotom oder auch metrisch sein knnen, konzentrieren und das FE-Modell konsequent anwendenModell konsequent anwenden
Panelanalyse 57
Zwischenfazit: FE oder RE?
Weitere Vorteile des FE- gegenber dem RE-Modell bestehen darin, dass die Schtzung auch dann robust bleibt, wenn das Panel unbalanciert ist (d.h. nicht alle Personen werden in jeder Welle beobachtet) oder wenn es Panelmortalitt gibt, die mit zeitkonstanten Personeneigenschaften (vi) systematisch zusammenhngt
Das FE-Modell kann darber hinaus auch bei dichotomen oder ordinalenabhngigen Variablen oder im Rahmen von Ereignisdatenanalysen und Strukturgleichungsmodellen angewendet werden (einen berblick gibtStrukturgleichungsmodellen angewendet werden (einen berblick gibt Allison 2001)
Zudem besteht die Mglichkeit einer Hybrid-Methode, in der FE- und RE-Schtzungen kombiniert werden (siehe Allison 2001: 23ff)
Fr weiterfhrende Informationen zur Panelanalyse siehe die LiteraturangabenLiteraturangaben
Panelanalyse 58
Ein FE-Modell fr zwei Wellen
Ferner wird nun kurz vorgestellt, wie man ein FE-Modell fr eine metrische AV auf einfache Weise schtzen kann, wenn man nur ber Daten aus zwei Panelwellen verfgt
Hier kann auf die sog. Differenzscore-Regression zurckgegriffen werden:werden:
ii1i1i2 x)y-(y += Eine Umstrukturierung der Daten ins long-Format ist nicht notwendig.
Vielmehr wird zunchst der Wert der abhngigen Variablen zum zweiten Messzeitpunkt vom Wert zum ersten Messzeitpunkt abgezogen (dies ist der Differenzscore)
Auf diesen Differenzscore wird dann eine einfache OLS Regression Auf diesen Differenzscore wird dann eine einfache OLS-Regression berechnet
Panelanalyse 59
Ein FE-Modell fr zwei Wellen
Die Differenzscore-Regression hat die gleichen Eigenschaften wie ein FE-Modell fr mehr als zwei Wellen:
Es knnen nur zeitvernderliche unabhngige Variablen verschiedenen Messniveaus berecksichtigt werden, wobei metrische unabhngige Variablen ebenfalls als Differenzscore einflieenVariablen ebenfalls als Differenzscore einflieen
Zustzlich besteht die Mglichkeit, Interaktionseffekte zwischen zeitkonstanten und zeitabhngigen Kovariaten zu modellieren
Auch die Differenzscore-Regression weist den wesentlichen Vorteil aller FE-Modelle auf, dass ausschlielich die within-Varianz ausgewertet wird und die Schtzung von allen zeitkonstanten Personeneigenschaftenund die Schtzung von allen zeitkonstanten Personeneigenschaften (und damit von einigen potentiellen Selektionseffekten) unbeeinflusst bleibt
Panelanalyse 60
Ein FE-Modell fr zwei Wellen
Die folgende Folie zeigt ein mit SPSS berechnetes Beispiel Die abhngige Variable ist die Ruhestandsorientierung 1996 (t1) und Die abhngige Variable ist die Ruhestandsorientierung 1996 (t1) und
2000 (t2); die Ruhestandsorientierung 2000 wird von der Ruhestandsorientierung 1996 abgezogen
Die unabhngige Variable ist die Beteiligung an beruflicher Weiterbildung im Zeitraum 1997-1999 (1 = ja, 0 = nein)
Im Ergebnis zeigt sich dass sich die Ruhestandsorientierung durch die Im Ergebnis zeigt sich, dass sich die Ruhestandsorientierung durch die Weiterbildung leicht reduzieren zu scheint (b = -0,103)
Der altersbedingte allgemeine Anstieg der Ruhestandsorientierung wird in diesem Modell kontrolliert, da es sich um eine difference-in-difference-Schtzung handelt (siehe Folie 12); d.h. die Vernderung ber die Zeit in der Gruppe der Nichtteilnehmer (siehe Konstante) wird kontrolliert pp ( )
Panelanalyse 61
Ein FE-Modell fr zwei Wellen
Koeffizientena
Nicht standardisierteStandardisiert
e
,095 ,018 5,165 ,000(Konstante)Modell1
BStandardf
ehler
Koeffizienten
Beta
Koeffizienten
T Signifikanz,095 ,018 5,165 ,000
-,103 ,035 -,041 -2,966 ,003
( )Zwischen t1 und t2an Weiterbildungteilgenommen
Abh i V i bl R h d i i 2 1Abhngige Variable: Ruhestandsorientierung t2 - t1a.
Zwei-Wellen-Panelanalyse 62
Literaturempfehlungen
Einfhrungen:
Allison, P.D. (1994): Using panel data to estimate the effects of events. Sociological Methods & Research, 23, 174-199.
Halaby, C. (2004): Panel models in sociological research. Annual Review of Sociology, 30, 507-544.
FE-Modelle:
Allison, P.D. (2001): Fixed effects regression models. Sage University paper series in quantitative applications in the social sciences; 160. Thousand Oaks: Sage
berblickspapier ber RE- und FE-Modelle:
Brderl, Josef: Panel data analysis(http://www sowi unimannheim de/lehrstuehle/lessm/veranst/Panelanalyse pdf)(http://www.sowi.unimannheim.de/lehrstuehle/lessm/veranst/Panelanalyse.pdf)
Technische Einfhrung:
Wooldrige, J. (2003): Introductory econometrics: A modern approach. Thomson.
Speziell zur Zwei-Wellen-Panel-Analyse:
Johnson, D. (2005): Two-wave panel analysis: Comparing statistical methods for studying the effects oftransitions. Journal of Marriage and Family, 67, 1061-1075.
Panelanalyse 63