Einfuehrung_Panelanalyse

Institut fr Soziologie Professur fr empirische Sozialforschung

Prof. Dr. Johannes KoppppDr. Daniel Lois

Einfhrung in die Panelanalyse

Stand: Juli 2009

Inhaltsverzeichnis

1. Panel-Analyse: Grundlagen 32. Regressionsverfahren fr Paneldaten: FE und RE 163. Ein Beispiel mit SOEP-Daten 444. Zwischenfazit: FE oder RE? 575 Ein FE Modell fr zwei Wellen 595. Ein FE-Modell fr zwei Wellen 596. Literaturempfehlungen 63

3 Ereignisdatenanalyse 2

Panel-Analyse: Grundlagen

Bei Paneldaten handelt es sich um die wiederholte Messung einer oder mehrerer Variabler bei einer oder mehreren Personen

Paneldaten haben gegenber Querschnittdaten mehrere Vorteile: Sie erlauben die Analyse von individuellen Entwicklungen, da es

neben der Varianz zwischen Personen Varianz innerhalb von Personen gibt

Sie enthalten Informationen zur zeitlichen Abfolge von Zustnden Sie enthalten Informationen zur zeitlichen Abfolge von Zustnden und Ereignissen

Sie erlauben die Kontrolle unbeobachteter individueller Heterogenitt

Sie sind informativer (enthalten z.B. mehr Variabilitt und Freiheitsgrade)Freiheitsgrade)

Panelanalyse 3


Ein Beispiel: Grundlage ist ein Datensatz von 5 Personen mit Partner, die noch nicht verheiratet sind

Die abhngige Variable ist die Lebenszufriedenheit (10-fach abgestuft von 1 = sehr unzufrieden bis 10 = sehr zufrieden)

Die unabhngige Variable ist die Heirat Auf der nchsten Folie ist die Entwicklung der Lebenszufriedenheit bei

diesen 5 Personen ber 4 Panelwellen dargestelltdiesen 5 Personen ber 4 Panelwellen dargestellt

Die gestrichelten Linien stehen fr Personen, die jeweils zwischen Welle 2 und 3 heiraten

Die durchgezogenen Linien reprsentieren Personen, die innerhalb des Beobachtungszeitraums nicht heiraten

Panelanalyse 4


Positiver Effekt der Heirat

10

12

8

10d

e

n

h

e

i

t

4

6

L

e

b

e

n

s

z

u

f

r

i

e

d

Keine Heirat

Heirat zwischen Welle 2 und 3

2

L

01 2 3 4

Panelwelle

Selbstselektion: Personen, die heiraten, sind bereits vor der Heirat zufriedener

Panelanalyse 5


Die Abbildung deutet auf das Vorliegen von drei Effekten hin:E t ibt i h h Z it d P i d ff kt d di Erstens gibt es einen schwachen Zeit- oder Periodeneffekt, da die Lebenszufriedenheit ber die Zeit hinweg tendenziell abfllt

Zweitens finden sich Hinweise auf eine Selbstselektion: DiejenigenZweitens finden sich Hinweise auf eine Selbstselektion: Diejenigen Personen, die heiraten, sind im Durchschnitt schon vor der Heirat zufriedener als die Personen, die nicht heiraten

D itt i t i h i k l ( iti ) Eff kt d H i t f di Drittens zeigt sich ein kausaler (positiver) Effekt der Heirat auf die Zufriedenheit. Diese erhht sich im Anschluss an die Heirat zwischen den Wellen 2 und 3 deutlich. In der Kontrollgruppe ohne Heirat zeigt sich dieser Effekt nicht

Panelanalyse 6


Das Beispiel verdeutlicht, dass bei Paneldaten verschiedene Quellen von Heterogenitt differenziert werden mssen o ete oge tt d e e e t e de sse

Es gibt nicht nur wie bei Querschnittdaten Varianz zwischen den Personen (Personen, die heiraten, sind zufriedener)

Zustzlich entsteht durch die wiederholte Befragung im Panel Varianz innerhalb von Personen (Personen werden durch die Heirat zufriedener)

E t h d di V i ll i d R i f h f Entsprechend dieser Varianzquellen sind Regressionsverfahren fr Paneldaten entwickelt worden, die entweder nur die Varianz zwischen Personen (between), die Varianz innerhalb von Personen (within) oder beides nutzen

Diese Verfahren werden entlang dieser Logik im vorliegenden Skript kurz vorgestellt wobei der Schwerpunkt auf Modelle fr metrische abhngigevorgestellt, wobei der Schwerpunkt auf Modelle fr metrische abhngige Variable liegt

Panelanalyse 7


Varianz zwischen Personen steht bereits in Querschnittdaten zur V fVerfgung

Der Hauptvorteil von Paneldaten besteht daher in der Erzeugung von Varianz innerhalb von PersonenVarianz innerhalb von Personen

Es besteht also die Mglichkeit von Quasi-Experimenten: Wir interessieren uns dafr, wie sich Personen im Hinblick auf eine bh i V i bl ( B L b f i d h it) d di B iabhngige Variable (z.B. Lebenszufriedenheit) verndern, die z.B. ein

Ereignis (hier: Heirat) zwischen den Befragungswellen erleben (Experimentalgruppe) oder nicht (Vergleichsgruppe)

Im Rahmen von Panelanalysen kann also im Gegensatz zu Querschnittdaten der kausale Effekt eines treatments (z.B. eines Ereignisses) auf die abhngige Variable bestimmt werdenEreignisses) auf die abhngige Variable bestimmt werden

Panelanalyse 8


Hierzu eine etwas formellerer Exkurs: Wir interessieren uns fr den kausalen Effekt eines treatments T (hier: Heirat) auf eine abhngige Variable y (hier: Lebenszufriedenheit)

Wenn i das jeweilige Individuum bezeichnet, t ein Zeitindex ist und C fr die Messung vor dem treatment steht schtzen wir mit Querschnittdatendie Messung vor dem treatment steht, schtzen wir mit Querschnittdaten folgendes (sog. between-estimation):

CT yy

Geschtzt wird also die Differenz bei der abhngigen Variablen zwischen

t,jt,i 00y-y

Personen, die das treatment zum Zeitpunkt t0 erlebt haben und anderen Personen, die es zum Zeitpunkt t0 noch nicht erlebt haben

Panelanalyse 9


Der tatschliche kausale Effekt des treatments wird hier nur dann korrekt geschtzt, wenn sich die Personen der Gruppen i und j nicht im Hinblick auf unbeobachtete Merkmale unterscheiden

Da es sich hierbei in der Regel um eine unrealistische Annahme handelt wird auf Paneldaten zurckgegriffen Hier wird die sog within-handelt, wird auf Paneldaten zurckgegriffen. Hier wird die sog. within-Schtzung durchgefhrt:

CT yy

Geschtzt wird also, wie sich die abhngige Variable zum Zeitpunkt t1

t,it,i 01y-y

1im Vergleich zum ersten Messzeitpunkt t0 vor dem treatment bei denselben Personen verndert hat (deswegen within, Varianz innerhalb von Personen))

Panelanalyse 10


Der tatschliche kausale Effekt des treatments wird hier korrekt geschtzt, wenn es keine unbeobachtete Heterogenitt innerhalb von Personen gibt (d.h. die Personen i sich ber die Zeit bei unbeobachteten Merkmalen verndern)

Auerdem knnen Periodeneffekte (z B Alterungseffekte) die Schtzung Auerdem knnen Periodeneffekte (z.B. Alterungseffekte) die Schtzung verzerren, weshalb man eine sog. difference-in-difference Schtzung durchfhren kann:

)y-y(-)y-y( Ct,jCt,j

Ct,i

Tt,i 0101

Es werden also Personen im Hinblick auf ihre Vernderung bei der abhngigen Variablen verglichen, die das treatment entweder erlebt haben (linke Seite) oder nicht (rechte Seite, Kontrollgruppe)( ) ( g pp )

Panelanalyse 11


Verdeutlichen wir dies anhand des Beispiels der fnf Personen, die entweder heiraten oder nicht (siehe Folie 5) Wie gro ist der kausale Effekt der Heirat auf die Lebenszufriedenheit? Dies kann

mit der difference-in-difference Methode ausgerechnet werden, wobei sich das folgende Beispiel nur auf einen Vergleich der Wellen 2 und 3 bezieht

fr jede Person wird die Differenz der Lebenszufriedenheit vor und nach der Heirat bzw. bei dauerhaft Ledigen zwischen den Wellen 2 und 3 berechnet

diese Differenzen werden fr Personen die heiraten und fr ledige Personendiese Differenzen werden fr Personen die heiraten und fr ledige Personen gemittelt

schlielich ist die Differenz der Vorher-Nachher-Differenz der Personen mit und ohne Heirat der kausale Effekt Im Beispiel steigt die Lebenszufriedenheit durchohne Heirat der kausale Effekt. Im Beispiel steigt die Lebenszufriedenheit durch die Heirat um 2,17 Punkte:

1722170)7-9()8-10()66()8,3-5,3()4,8-6,4( +++ 17,2-2-17,0-2

)()(-3

)(),,(),,( ==

Panelanalyse 12


Vor der Berechnung von Regressionsmodellen mssen die Paneldaten richtig aufbereitet werden

Die Ausgangssituation ist in der Regel das sog. wide-Format. Die Zeilen im Datensatz stehen hier wie gewohnt fr Personen; zeitvernderliche Variablen werden in separaten Spalten (hier: je 4) abgespeichert:Variablen werden in separaten Spalten (hier: je 4) abgespeichert:

Dieser Datensatz muss nun ins long-Format umstrukturiert werden. In STATA geht dies u a ber den reshape long Befehl in SPSS ber denSTATA geht dies u.a. ber den reshape long-Befehl, in SPSS ber den Befehl varstocases (Daten Umstrukturieren Variablen in Flle)

Panelanalyse 13


Die folgenden Befehle bewirken die Umstrukturierung vom wide- ins long-Format. j(wave) erzeugt in STATA eine neue Variable wave mit fortlaufenden Zahlen von 1-4. Zeitkonstante Variablen (z.B. Geschlecht) mssen im reshape long Befehl nicht explizit aufgefhrt werden.

STATA: reshape long zf heirat i(id) j(wave) STATA: reshape long zf heirat, i(id) j(wave) SPSS: varstocases /make heirat from heirat1 heirat2 heirat3 heirat4

/make zf from zf1 zf2 zf3 zf4/index = wave(4)/keep = id/null = drop.

/null = drop bedeutet im SPSS-Befehl, dass Flle mit missings bei allen transponierten Variablen aus dem Datensatz entfernt werden

Panelanalyse 14


Personen flieen im long-Format nun in der Form von Zeilen mehrfach in den Datensatz ein; anstatt fnf Zeilen im wide-Format gibt es nun also 20 Zeilen (jeweils vier pro Person)

Pro Variable gibt es im long Pro Variable gibt es im long-Format jedoch nur noch eine Spalte

Die ID ist notwendig, um die personenspezifischen Beobachtungen gidentifizieren zu knnen

Panelanalyse 15

Regressionsmodelle fr Paneldaten: FE und RE

Nun knnen wir dazu bergehen, den Effekt der Heirat (x) auf die Lebenszufriedenheit (y) mit Regressionsmodellen zu analysieren

Eine erste Mglichkeit wre, eine einfache OLS-Regression mit den gepoolten Daten zu berechnen (i steht fr Personen, t fr Messzeitpunkte bzw Panelwellen und u fr den Fehlerterm):Messzeitpunkte bzw. Panelwellen und u fr den Fehlerterm):

itit10it uxy ++= Das Ergebnis ist auf der nchsten Folie dargestellt. Laut diesem Modell

fhrt eine Heirat dazu, dass sich die Lebenszufriedenheit um 4,03 Punkte erhht

Wie wir noch sehen werden, ist dieses Ergebnis stark verzerrt und gibt nicht den tatschlichen kausalen Effekt der Heirat auf die Zufriedenheitnicht den tatschlichen kausalen Effekt der Heirat auf die Zufriedenheit wieder

Panelanalyse 16


Panelanalyse 17


Dies liegt daran, dass sich der Effekt der Heirat (b = 4,03) in der OLS-Regression aus zwei Quellen speit: erstens fliet ein, dass die Heirat die Zufriedenheit erhht (within-Varianz)

Zweitens gibt es insofern eine Selektion, da Personen, die heiraten, im Durchschnitt bereits zufriedener sind (between-Varianz)Durchschnitt bereits zufriedener sind (between-Varianz)

Technisch gesehen besteht das Problem darin, dass durch die Selbstselektion der Fehlerterm u mit der unabhngigen Variablen x (Heirat) korreliert, wodurch eine der Annahmen der OLS-Regression verletzt wird

Um die Frage zu beurteilen inwiefern die Heirat die Zufriedenheit Um die Frage zu beurteilen, inwiefern die Heirat die Zufriedenheit erhht, muss daher auf geeignetere Verfahren zurckgegriffen werden

Panelanalyse 18


Im Folgenden werden zwei Regressionsmodelle fr Paneldaten vorgestellt: das fixed-effects (FE) Modell und das random-effects (RE) Modell

Das FE-Modell ist speziell dazu geeignet, den kausalen Effekt von zeitvernderlichen Kovariaten (z B von Ereignissen) auf eine metrischezeitvernderlichen Kovariaten (z.B. von Ereignissen) auf eine metrische abhngige Variable zu identifizieren. Es basiert ausschlielich auf der Varianz innerhalb von Personen

In das RE-Modell fliet sowohl die Varianz zwischen als auch innerhalb von Personen ein. In diesem Verfahren knnen auch zeitkonstante Variablen bercksichtigt werden

Sowohl das FE als auch das RE-Modell tragen zudem der Tatsache Rechnung, dass Personen im Rahmen des Panels mehrfach beobachtet werden und diese personenspezifischen Beobachtungen statistisch nichtwerden und diese personenspezifischen Beobachtungen statistisch nicht unabhngig sind

Panelanalyse 19


Der Ausgangspunkt der FE-Regression ist folgendes Fehlerkompo-nentenmodell:

itiit1it vxy ++= Hier wird der Fehlerterm (u) aufgeteilt in einen personenspezifischen

Fehler, der zeitkonstant ist (vi) und einen ideosynkratischen Fehler (it).

Diese Gleichung kann ber die Zeit fr jede Person i gemittelt werden, so dass sie sich ausschlielich auf die Varianz zwischen Personen bezieht:

iii1i vxy ++= Wird die zweite von der ersten Gleichung abgezogen, ergibt sich das

FE-Modell:

Panelanalyse 20


iitiit1iit )xx(yy += Im Unterschied zur OLS-Regression werden in der fixed-effects

Gleichung die abhngige Variable y und die unabhngige Variable x in der Form ihrer Abweichungen vom personenspezifischen Mittelwert reprsentiert (nur die Varianz innerhalb von Personen ist also von Interesse)

Bezogen auf die Abbildung in Folie 4 wird mit dem FE-Modell folglich ausschlielich berprft, inwieweit die Heirat die Zufriedenheit erhht (within)(within)

Die Tatsache, dass Personen, die heiraten, vor der Heirat bereits zufriedener sind (between), beeinflusst diese Schtzung nicht ( ) g

Panelanalyse 21


Eine der wichtigsten Eigenschaften des FE-Modells ist, dass der zeitkonstante personenspezifische Fehler (vi) durch die Subtraktion der beiden Gleichungen eliminiert wird

Dies ist aus folgenden Grnden zentral: Es gibt mglicherweise zeitkonstante Faktoren (reprsentiert durch v ) die zu einerzeitkonstante Faktoren (reprsentiert durch vi), die zu einer Selbstselektion fhren, also sowohl die Wahrscheinlichkeit einer Heirat und den Ausgangswert der abhngigen Variablen (Lebenszufriedenheit) beeinflussenbeeinflussen

Zum Beispiel sind westdeutsche Personen gleichzeitig im Durchschnitt zufriedener als ostdeutsche und heiraten hufiger

Diese zeitkonstanten Personenmerkmale (z.B. auch Persnlich-keit, Kindheitserfahrungen, Geburtskohorte, genetische Eigenschaften usw ) knnen entweder beobachtet oder unbeobachtet seinusw.) knnen entweder beobachtet oder unbeobachtet sein

Panelanalyse 22


Der wesentliche Vorteil des FE-Modells besteht darin, dass die Einflsse von allen zeitkonstanten Merkmalen kontrolliert werden, gleichgltig, ob sie beobachtet werden oder nicht!

Dieser Vorteil geht allerdings auch mit Nachteilen einher: Erstens hat das FE-Modell in der Regel eine geringere statistische Power als z Bdas FE-Modell in der Regel eine geringere statistische Power als z.B. das RE-Modell, da es nur auf der within-Varianz basiert (d.h., dass die Effekte tendenziell seltener signifikant werden)

Zweitens knnen im FE-Modell keine zeitkonstanten Variablen (z.B. Geschlecht, Ost/West, etc.) aufgenommen werden

Die nachfolgende Folie zeigt das Ergebnis einer fixed effects Regression Die nachfolgende Folie zeigt das Ergebnis einer fixed-effects Regression der Heirat auf die Zufriedenheit

Panelanalyse 23


Panelanalyse 24


Zunchst zu den Syntaxbefehlen oberhalb der Tabelle: mit tsset wird der Datensatz in STATA zu einem Paneldatensatz erklrt

Mit der Angabe der id wird festgelegt, welche personenspezifischen Beobachtungen zusammengehren

Mit wave wird die Variable definiert, die angibt, um welchen Messzeitpunkt es sich handelt

STATA teilt mit dass im Datensatz 5 Personen enthalten sind ( id 1 to STATA teilt mit, dass im Datensatz 5 Personen enthalten sind (id, 1 to5) und es 4 Wellen gibt (wave, 1 to 4)

Der Befehl fr eine fixed-effets Regression lautet xtreg zf (abhngige Variable) heirat (unabhngige Variable), fe (fr fixed-effects)

Panelanalyse 25


Das wichtigste Ergebnis des Outputs ist, dass die Heirat laut FE-Modell einen positiven Effekt auf die Lebenszufriedenheit in Hhe von b = 1,95 hat. Dies ist der tatschliche (kausale) Effekt

Damit wird deutlich, dass die OLS-Regression den Einfluss der Heirat deutlich berschtzt (b = 4 03)deutlich berschtzt (b = 4,03).

Der Output enthlt noch einige weitere Bestandteile, die nicht selbsterklrend sind, d.h. in normalen OLS-Regressionen nicht vorkommen

Bei sigma_u handelt es sich um die between-subject Standard-abweichung die in der FE Schtzung kontrolliert wirdabweichung, die in der FE-Schtzung kontrolliert wird

sigma_e bezieht sich entsprechend auf die within-subjectStandardabweichungg

Panelanalyse 26


Bei rho handelt es sich um den sog. Intraklassenkorrelations-koeffizienten. Er gibt diesem Modell den Anteil der personenspezifischen (between) Varianz an der Gesamtvarianz wieder

Der Intraklassenkorrelationskoeffizient wird allgemein in hierarchisch strukturierten Daten (d h Mehrebenendaten) angewendet Paneldatenstrukturierten Daten (d.h. Mehrebenendaten) angewendet. Paneldaten sind Mehrebenendaten: Ebene 1 ist die Zeit (within) und Ebene 2 entspricht den Personen (between)

i Die Berechnung von rho lautet wie folgt: e_sigmau_sigma

u_sigmarho +=

Nach Kontrolle der Variablen heirat geht im Beispiel 98% der Gesamtfehlervarianz auf between-Varianz zurck

Panelanalyse 27


Ein weiterer ntzlicher Bestandteil des Outputs ist die Korrelation zwischen den personenspezifischen Konstanten (u_i, s.u.) und der unabhngigen Variable x (hier: Heirat)

Diese wird hier mir r = .53 angegeben Dies zeigt direkt an, dass Selbstselektion vorliegt: diejenigen

Personen, die zufriedener sind, heiraten eher

Wre die Korrelation negativ wrde dies entsprechend bedeuten dass Wre die Korrelation negativ wrde dies entsprechend bedeuten, dass Personen, die zufriedener sind, eher nicht heiraten

Aber nochmal: Das Schtzergebnis des FE-Modells wird durch die Korrelation der zeitkonstanten Personeneigenschaften mit der unabhngigen Variablen nicht beeinflusst (dies ist beim RE-Modell anders, s.u.) )

Panelanalyse 28


Darber hinaus werden drei R-Werte ausgewiesen. Das between-R ist die quadrierte Korrelation zwischen dem personenspezifischen Mittelwert (ber alle Wellen) von y und dem vorhergesagten personenspezifischen Mittelwert von y

Das overall-R ist die quadrierte Korrelation zwischen den y-Werten und Das overall-R ist die quadrierte Korrelation zwischen den y-Werten und den vorhergesagten y-Werten

Das within-R ist im Rahmen der FE-Schtzung am wichtigsten. Es sagt aus, dass die Vernderung der Lebenszufriedenheit durch die Variable heirat zu fast 90% erklrt werden kann

Unterhalb der Tabelle wird ferner ein zustzlicher F Test Unterhalb der Tabelle wird ferner ein zustzlicher F-Test ausgewiesen, der die Nullhypothese alle u_i sind = 0 testet

Panelanalyse 29


Um den Zweck dieses Tests zu verdeutlichen, wird nun erlutert, dass das FE-Modell auch auf eine andere Weise geschtzt werden kann (durch ein sog. least quares dummy variable (LSDV) model)

Auf der nchsten Folie ist eine ganze normale OLS-Regression auf die Zufriedenheit dargestellt in der neben der unabhngigen VariablenZufriedenheit dargestellt, in der neben der unabhngigen Variablen heirat vier Dummy-Variablen fr 4 der 5 Personen im Datensatz enthalten sind (die fnfte Person ist die Referenz)

Der Effekt des Dummys dp1 (b = -1,1) bedeutet also, dass die erste Person verglichen mit der fnften eine geringere durchschnittliche Zufriedenheit ber alle Wellen aufweist

Wichtig ist, dass der geschtzte Effekt der Heirat auf die Zufriedenheit exakt derselbe ist wie im FE-Modell, das mit xtreg geschtzt wurde (b = 1 95) Dies gilt auch fr den Standardfehler und den t Wert1,95). Dies gilt auch fr den Standardfehler und den t-Wert

Panelanalyse 30


Panelanalyse 31


Die Ergebnisse stimmen exakt berein, da in der OLS-Regression alle zeitkonstanten Eigenschaften der Personen (z.B. ihre Persnlichkeit) ber die Dummy-Variablen kontrolliert werden

Der multivariate Effekt der zeitvernderlichen Variablen heirat bezieht sich dadurch ausschlielich auf Vernderungen innerhalb einersich dadurch ausschlielich auf Vernderungen innerhalb einer Person, also die within-Varianz

Nun wird verstndlich, was im FE-Modell der F-Test fr die Nullhypothese alle u_i = 0 bedeutet

Die u_i sind die personenspezifischen Dummy-Variablen Da die Nullhypothese, dass alle diese Dummy-Variablen einen Effekt von

0 haben, nicht abgelehnt werden kann (F = 143,1, p < .001, siehe Folie 24), liegt unbeobachtete personenspezifische Heterogenitt vor, die nicht ) g p p gzu vernachlssigen ist

Panelanalyse 32


Ein Nachteil des FE-Modells besteht wie gesagt darin, dass die Effekte von zeitkonstanten Variablen nicht geschtzt werden knnen

Dies ist im Rahmen des RE -Modells mglich, dass alternativ zum FE-Modell im Rahmen von xtreg zur Verfgung steht

Das random-effects Modell hat folgende Form:

itiit10it vxy +++= Es handelt sich hier somit ebenfalls um ein Fehlerkomponentenmodell

mit einem zeitkonstanten personenspezifischen Fehler (v ) und einem

itiit10ity

mit einem zeitkonstanten personenspezifischen Fehler (vi) und einem idiosynkratrischen Fehler (it), der ber die Zeit und ber Personen variiert

Panelanalyse 33


Der Unterschied zum FE-Modell besteht in der Behandlung von vi Die zeitkonstanten personenspezifischen Einflsse (vi) werden im RE- Die zeitkonstanten, personenspezifischen Einflsse (vi) werden im RE-

Modell nicht wie z.B. im LSDV-Modell ber Dummy-Variablen fix geschtzt

Stattdessen wird angenommen, dass vi eine normalverteilte latente Variable ist. Geschtzt wird lediglich die Varianz dieser latenten Variablen (deshalb random effects)

Das RE-Modell nutzt somit beide Varianzquellen (within und between) zur Schtzung der Parameter

Dies hat einige wichtige Konsequenzen fr die Voraussetzungen des Modells und seine Interpretation:

Panelanalyse 34


Die Effekte im RE-Modell sind eine Mischung aus between- und within-Schtzungen

Dies bedeutet im Beispiel, dass im RE-Modell implizit davon ausgegangen wird, dass

a) sowohl der die Zufriedenheit steigernde Effekt einer Heirat (within),

b) als auch die Tatsache dass Personen die heiraten generellb) als auch die Tatsache, dass Personen, die heiraten, generell zufriedener sind (between),

dazu beitragen, dass zwischen Heirat und Zufriedenheit ein positiver Zusammenhang besteht

Panelanalyse 35


Eine wichtige Annahme im RE-Modell ist, dass die Korrelation zwischen den zeitkonstanten Personeneinflssen vi und der bzw. den iunabhngigen Variablen 0 ist: Corr (xit, vi) = 0

Das Modell funktioniert also nur, wenn es irrelevante personen-ifi h H t itt ibt di i ht it d bh i V i blspezifische Heterogenitt gibt, die nicht mit den unabhngigen Variablen

korreliert

Im Beispiel bedeutet dies, dass es keine Selbstselektion in den DatenIm Beispiel bedeutet dies, dass es keine Selbstselektion in den Daten geben drfte, um mit einem RE-Modell zu verzerrungsfreien Schtzungen zu kommen

D h P di h i t d ft i ht d H i t b it i D.h. Personen, die heiraten, drften nicht vor der Heirat bereits im Durchschnitt zufriedener sein

Panelanalyse 36


Panelanalyse 37


Im Ergebnis zeigt sich, dass der positive Effekt der Heirat auf die Zufriedenheit im RE-Modell trotz Selbstselektion nur unwesentlich berschtzt wird (b = 1,99 versus b = 1,95 im FE-Modell)

Wie gro der Bias des RE-Schtzers ist, hngt in erster Linie davon ab wie gro die Varianz zwischen Personen im Verhltnis zur Varianzab, wie gro die Varianz zwischen Personen im Verhltnis zur Varianz innerhalb von Personen ist

Je grer die Varianz zwischen Personen im Verhltnis zur Varianz innerhalb von Personen ist (je mehr Heterogenitt es also zwischen Personen gibt), desto weniger verzerrt ist der RE- gegenber dem FE-Schtzer

Im STATA-Output gibt der Koeffizient theta ber das Varianzverhltnis Auskunft. Wenn die between-Varianz (sigma_u) deutlich grer ist als die within Varianz (sigma e) tendiert theta zu 1die within-Varianz (sigma_e), tendiert theta zu 1

Panelanalyse 38


Dies ist im Beispiel auf Folie 36 der Fall, wo theta = .88 ist

Links ist ein zweiter Datensatz dargestellt, in dem es deutlich mehr Varianz innerhalb vonmehr Varianz innerhalb von Personen gibt

Bei Personen, die heiraten, wurde nichts verndert

Personen die nicht Personen, die nicht heiraten, sind nun jedoch nicht nur im Durchschnitt unzufriedener sondernunzufriedener, sondern verndern sich strker ber die Zeit (mehr within-Varianz)

Panelanalyse 39


Die nchste Folie zeigt, dass in dem vernderten Datensatz mit mehr within-Varianz deutliche Unterschiede zwischen der FE- und der RE-Schtzung auftreten

Der kausale positive Effekt der Heirat auf die Zufriedenheit wird im FE-Modell weiterhin korrekt geschtzt (b = 1 95)Modell weiterhin korrekt geschtzt (b = 1,95)

Das RE-Modell berschtzt den Effekt nun dagegen stark (b = 3,41) und kommt in die Nhe der ursprnglichen OLS-Schtzung (b = 4,03)

Das RE-Modell ist im vernderten Datensatz also nicht mehr dazu geeignet, um den kausalen Effekt der Heirat verzerrungsfrei zu schtzen

Panelanalyse 40


Panelanalyse 41


Hierzu abschlieend noch eine formellere Darstellung. Das RE-Modell ist nichts anderes als eine gepoolte OLS-Regression auf die in der folgenden Weise transformierten Daten:

[ ]iitiiit10iit v)1()xx()1(yy +++= Auffllig ist die hnlichkeit mit der Formel fr das FE-Modell (s.o) mit

dem Unterschied dass zustzlich theta () in der Gleichung enthalten istdem Unterschied, dass zustzlich theta () in der Gleichung enthalten ist

theta ist wie folgt definiert (T = Anzahl der Panelwellen):

e_sigmau_sigma*Te_sigma1 +=

Panelanalyse 42


Wenn also = 1 ist, entspricht das RE-Modell dem FE-Modell (in der Gleichung werden die Konstante 0 und alle zeitkonstanten personenspezifischen Einflsse vi eliminiert)

Wenn = 0 ist, entspricht das RE-Modell einer OLS-Regression tendiert zu 1, wenn die Varianz zwischen den Personen (sigma_u)

deutlich grer ist als die Varianz innerhalb von Personen

tendiert entsprechend zu 0 wenn die Varianz innerhalb (sigma e) tendiert entsprechend zu 0, wenn die Varianz innerhalb (sigma_e ) deutlich grer ist als die Varianz zwischen Personen; insbesondere in dieser Situation kann es dazu kommen, dass der RE-Schtzer verzerrt istist

Die Formel zeigt auerdem, dass sich das RE- und das FE-Modell mit steigender Anzahl von Panelwellen (T) einander annhern g ( )

Panelanalyse 43

Ein Beispiel mit SOEP-Daten

Alle bisherigen Folien bezogen sich auf ein konstruiertes Beispiel mit nur 5 Personen; im Folgenden wird zu derselben Fragestellung eine kleine Analyse mit vier Wellen des SOEP (1998 bis 2001) durchgefhrt

Gegenstand der Analyse sind Frauen und Mnner, die im Jahr 1998 ledig und 18 Jahre oder lter sind Die Fragestellung lautet ob eineledig und 18 Jahre oder lter sind. Die Fragestellung lautet, ob eine Heirat die allgemeine Lebenszufriedenheit erhht (gemessen von 1-10, 10 = sehr zufrieden)

Beginnen wir mit einem RE-Modell, dessen Output auf der nchsten Folie dargestellt ist

Laut dieser Schtzung hat die Heirat einen positiven Effekt auf die Laut dieser Schtzung hat die Heirat einen positiven Effekt auf die Lebenszufriedenheit in Hhe von b = 0,145.

Panelanalyse 44


Panelanalyse 45


Das RE-Modell kann um weitere zeitkonstante und zeitvernderliche Variablen erweitert werden

Im Folgenden werden daher zunchst drei Dummy-Variablen fr die ersten drei untersuchten Wellen eingefhrt; die vierte Welle ist die ReferenzReferenz

Es ist immer eine gute Idee, mgliche Periodeneffekte zu kontrollieren. Wenn sich z.B. zu einem bestimmten Zeitpunkt die Lebenszufriedenheit bei allen Personen systematisch verndert, knnen die Schtzungen fr Effekte einzelner Kovariaten verzerrt werden

Auerdem werden die zeitkonstanten Variablen Geschlecht und Auerdem werden die zeitkonstanten Variablen Geschlecht und Ost/West bercksichtigt

Panelanalyse 46


Panelanalyse 47


Auch nach Kontrolle der genannten Kovariaten verbleibt ein positiver Effekt der Heirat, der sich sogar leicht verstrkt (b = 0,156)

Auerdem zeigt sich, dass es keine signifikanten Periodeneffekte gibt (gemessen ber die Dummys nwave1-nwave3), Mnner (sex=1) ber alle Panelwellen tendenziell unzufriedener sind als Frauen undalle Panelwellen tendenziell unzufriedener sind als Frauen und ostdeutsche Personen (ow=1) deutlich unzufriedener als westdeutsche

Ob der positive Effekt der zeitvernderlichen Variablen Heirat auf die Lebenszufriedenheit kausal ist, lsst sich im RE-Modell jedoch nicht mit Sicherheit beantworten

Da im RE Modell auch die Varianz zwischen Personen bercksichtigt Da im RE-Modell auch die Varianz zwischen Personen bercksichtigt wird, kann es zu Selektionseffekten kommen (Personen, die heiraten, sind vor der Heirat bereits zufriedener)

Panelanalyse 48


Das Vorliegen von Selektionseffekten kann berprft werden, indem ein FE-Modell mit der unabhngigen Variablen heirat berechnet und die Korrelation zwischen u_i und x interpretiert wird

Im Beispiel ist diese Korrelation fr Frauen leicht positiv (r = .08, nicht dargestellt) zufriedene Frauen heiraten also offenbar eher (fr Mnnerdargestellt), zufriedene Frauen heiraten also offenbar eher (fr Mnner zeigt sich dagegen eine leicht negative Korrelation)

Eine zweite Mglichkeit besteht darin, die Lebenszufriedenheit im Jahr 1998, d.h. zu einem Zeitpunkt, wo alle Personen noch ledig sind, zwischen Personen zu vergleichen, die in den nchsten drei Wellen heiraten oder nicht

Es besttigt sich, dass Mnner, die heiraten, signifikant zufriedener sind als die Vergleichsgruppe (7,5 vs. 7,07). Das gleiche gilt fr Frauen (7,5 versus 7 16) Es gibt also in der Tat eine Selbstselektionversus 7,16). Es gibt also in der Tat eine Selbstselektion

Panelanalyse 49


Der potentielle Bias, der durch diese Selektion entstehen kann, wrde nur dann nicht ins Gewicht fallen, wenn die between-Varianz deutlich grer wre als die within-Varianz

Der Output lsst jedoch bereits erkennen, dass das Verhltnis der beiden Varianzen ausgeglichen ist (rho = 48)beiden Varianzen ausgeglichen ist (rho = .48)

Um die Ergebnisse abzusichern, wird daher eine FE-Schtzung durchgefhrt, in die zustzlich Dummys fr die Panelwellen einflieen; alle zeitkonstanten Variablen (Geschlecht, Ost/West) knnen dabei nicht mehr bercksichtigt werden

Die Ergebnisse zeigen dass eine Heirat laut FE Schtzung keinen Die Ergebnisse zeigen, dass eine Heirat laut FE-Schtzung keinenkausalen Effekt auf die Lebenszufriedenheit hat; der RE-Schtzer ist demzufolge nach oben hin verzerrt!

Panelanalyse 50


Panelanalyse 51


Die bisherigen Ergebnisse deuten darauf hin, dass im vorliegenden Fall ein RE-Modell nicht angemessen ist

Es gibt zustzlich einen formellen Test (sog. Hausman-Test) mit dem berprft werden kann, ob der RE-Schtzer gegenber dem FE-Schtzer verzerrt istSchtzer verzerrt ist

Dazu mssen im Anschluss an die RE- bzw. FE-Regression (jeweils nur mit der unabhngigen Variablen heirat) die Schtzergebnisse im Datensatz abgespeichert werden (Befehl: estimates store fixed, wobei fixed ein vom Benutzer frei whlbarer Name ist)

Der Befehl fr den Hausman Test lautet dann: hausman fixed random Der Befehl fr den Hausman-Test lautet dann: hausman fixed random Auf der nchsten Folie sind die Ergebnisse dargestellt

Panelanalyse 52


Panelanalyse 53


Der Hausman-Test testet die Nullhypothese, dass die Koeffizienten, die durch das RE-Modell fr eine zeitvernderliche Variable geschtzt werden, dieselben sind wie im FE-Modell

Wenn dies der Fall ist, ist der unten angegebene -Wert insignifikant (p > 05) und es ist unproblematisch ein RE-Modell anzuwenden> .05) und es ist unproblematisch, ein RE-Modell anzuwenden

Wenn der -Wert dagegen signifikant ist (wie in unserem Beispiel: = 26,6, df = 1, p < .05), sollte man an ein FE-Modell bevorzugen

Inhaltlich ergibt sich damit im Beispiel eine Enttuschung: Ein signifikanter positiver kausaler Effekt der Eheschlieung auf die allgemeine Lebenszufriedenheit kann entgegen dem ersten Eindruckallgemeine Lebenszufriedenheit kann entgegen dem ersten Eindruck nicht nachgewiesen werden

Panelanalyse 54


Abschlieend soll noch erwhnt werden, dass auch zeitkonstante Kovariate (z.B. das Geschlecht) in der Form von Interaktionseffekten mit zeitvernderlichen Kovariaten in das FE-Modell aufgenommen werden knnen

Auf der nchsten Folie geht der Interaktionseffekt sex*heirat genannt Auf der nchsten Folie geht der Interaktionseffekt sex heirat , genannt int2, in das Modell ein

Es zeigt sich, dass der Effekt der Eheschlieung bei Frauen (sex=0) der Richtung nach positiv, aber nicht signifikant ist (b = 0,09)

Bei Mnnern ist er dagegen der Richtung nach sogar negativ (b = 0,09 0 18 = 0 09); der Unterschied zwischen Mnnern und Frauen ist jedoch0,18 = -0,09); der Unterschied zwischen Mnnern und Frauen ist jedoch ebenfalls nicht signifikant (p = 0,15)

Zu beachten ist, dass im Unterschied zu normalen Regressionsmodellen der Haupteffekt der zeitkonstanten Variablen sexnicht mit ins Modell aufgenommen wird

Panelanalyse 55


Panelanalyse 56

Zwischenfazit: FE oder RE?

In vielen Anwendungssituationen wird die zentrale Voraussetzung des RE-Modells, dass die unabhngigen Variablen nicht mit den zeitkonstanten Personeneigenschaften (vi) korrelieren, verletzt sein

Um in diesen Fllen unverzerrte Schtzer zu erhalten, sollte man das FE-Modell nutzenFE-Modell nutzen

Das RE-Modell schtzt zwar die Effekte von zeitkonstanten Kovariaten. Der eigentliche Sinn von Panelanalysen besteht jedoch nicht in der Analyse der between-Varianz, die auch im Querschnitt ausgewertet werden kann

Um die Strke der Paneldaten voll zu nutzen sollte man sich vielmehr Um die Strke der Paneldaten voll zu nutzen, sollte man sich vielmehr auf die Effekte von einigen wenigen zeitvernderlichen Variablen, die dichotom oder auch metrisch sein knnen, konzentrieren und das FE-Modell konsequent anwendenModell konsequent anwenden

Panelanalyse 57

Zwischenfazit: FE oder RE?

Weitere Vorteile des FE- gegenber dem RE-Modell bestehen darin, dass die Schtzung auch dann robust bleibt, wenn das Panel unbalanciert ist (d.h. nicht alle Personen werden in jeder Welle beobachtet) oder wenn es Panelmortalitt gibt, die mit zeitkonstanten Personeneigenschaften (vi) systematisch zusammenhngt

Das FE-Modell kann darber hinaus auch bei dichotomen oder ordinalenabhngigen Variablen oder im Rahmen von Ereignisdatenanalysen und Strukturgleichungsmodellen angewendet werden (einen berblick gibtStrukturgleichungsmodellen angewendet werden (einen berblick gibt Allison 2001)

Zudem besteht die Mglichkeit einer Hybrid-Methode, in der FE- und RE-Schtzungen kombiniert werden (siehe Allison 2001: 23ff)

Fr weiterfhrende Informationen zur Panelanalyse siehe die LiteraturangabenLiteraturangaben

Panelanalyse 58

Ein FE-Modell fr zwei Wellen

Ferner wird nun kurz vorgestellt, wie man ein FE-Modell fr eine metrische AV auf einfache Weise schtzen kann, wenn man nur ber Daten aus zwei Panelwellen verfgt

Hier kann auf die sog. Differenzscore-Regression zurckgegriffen werden:werden:

ii1i1i2 x)y-(y += Eine Umstrukturierung der Daten ins long-Format ist nicht notwendig.

Vielmehr wird zunchst der Wert der abhngigen Variablen zum zweiten Messzeitpunkt vom Wert zum ersten Messzeitpunkt abgezogen (dies ist der Differenzscore)

Auf diesen Differenzscore wird dann eine einfache OLS Regression Auf diesen Differenzscore wird dann eine einfache OLS-Regression berechnet

Panelanalyse 59


Die Differenzscore-Regression hat die gleichen Eigenschaften wie ein FE-Modell fr mehr als zwei Wellen:

Es knnen nur zeitvernderliche unabhngige Variablen verschiedenen Messniveaus berecksichtigt werden, wobei metrische unabhngige Variablen ebenfalls als Differenzscore einflieenVariablen ebenfalls als Differenzscore einflieen

Zustzlich besteht die Mglichkeit, Interaktionseffekte zwischen zeitkonstanten und zeitabhngigen Kovariaten zu modellieren

Auch die Differenzscore-Regression weist den wesentlichen Vorteil aller FE-Modelle auf, dass ausschlielich die within-Varianz ausgewertet wird und die Schtzung von allen zeitkonstanten Personeneigenschaftenund die Schtzung von allen zeitkonstanten Personeneigenschaften (und damit von einigen potentiellen Selektionseffekten) unbeeinflusst bleibt

Panelanalyse 60


Die folgende Folie zeigt ein mit SPSS berechnetes Beispiel Die abhngige Variable ist die Ruhestandsorientierung 1996 (t1) und Die abhngige Variable ist die Ruhestandsorientierung 1996 (t1) und

2000 (t2); die Ruhestandsorientierung 2000 wird von der Ruhestandsorientierung 1996 abgezogen

Die unabhngige Variable ist die Beteiligung an beruflicher Weiterbildung im Zeitraum 1997-1999 (1 = ja, 0 = nein)

Im Ergebnis zeigt sich dass sich die Ruhestandsorientierung durch die Im Ergebnis zeigt sich, dass sich die Ruhestandsorientierung durch die Weiterbildung leicht reduzieren zu scheint (b = -0,103)

Der altersbedingte allgemeine Anstieg der Ruhestandsorientierung wird in diesem Modell kontrolliert, da es sich um eine difference-in-difference-Schtzung handelt (siehe Folie 12); d.h. die Vernderung ber die Zeit in der Gruppe der Nichtteilnehmer (siehe Konstante) wird kontrolliert pp ( )

Panelanalyse 61


Koeffizientena

Nicht standardisierteStandardisiert

e

,095 ,018 5,165 ,000(Konstante)Modell1

BStandardf

ehler

Koeffizienten

Beta

Koeffizienten

T Signifikanz,095 ,018 5,165 ,000

-,103 ,035 -,041 -2,966 ,003

( )Zwischen t1 und t2an Weiterbildungteilgenommen

Abh i V i bl R h d i i 2 1Abhngige Variable: Ruhestandsorientierung t2 - t1a.

Zwei-Wellen-Panelanalyse 62

Literaturempfehlungen

Einfhrungen:

Allison, P.D. (1994): Using panel data to estimate the effects of events. Sociological Methods & Research, 23, 174-199.

Halaby, C. (2004): Panel models in sociological research. Annual Review of Sociology, 30, 507-544.

FE-Modelle:

Allison, P.D. (2001): Fixed effects regression models. Sage University paper series in quantitative applications in the social sciences; 160. Thousand Oaks: Sage

berblickspapier ber RE- und FE-Modelle:

Brderl, Josef: Panel data analysis(http://www sowi unimannheim de/lehrstuehle/lessm/veranst/Panelanalyse pdf)(http://www.sowi.unimannheim.de/lehrstuehle/lessm/veranst/Panelanalyse.pdf)

Technische Einfhrung:

Wooldrige, J. (2003): Introductory econometrics: A modern approach. Thomson.

Speziell zur Zwei-Wellen-Panel-Analyse:

Johnson, D. (2005): Two-wave panel analysis: Comparing statistical methods for studying the effects oftransitions. Journal of Marriage and Family, 67, 1061-1075.

Panelanalyse 63

Documents

Einfuehrung_Panelanalyse