63
Institut für Soziologie Professur für empirische Sozialforschung Prof. Dr. Johannes Kopp Dr. Daniel Lois Einführung in die Panelanalyse Stand: Juli 2009

Einfuehrung_Panelanalyse

  • Upload
    abuo

  • View
    63

  • Download
    2

Embed Size (px)

DESCRIPTION

ok

Citation preview

  • Institut fr Soziologie Professur fr empirische Sozialforschung

    Prof. Dr. Johannes KoppppDr. Daniel Lois

    Einfhrung in die Panelanalyse

    Stand: Juli 2009

  • Inhaltsverzeichnis

    1. Panel-Analyse: Grundlagen 32. Regressionsverfahren fr Paneldaten: FE und RE 163. Ein Beispiel mit SOEP-Daten 444. Zwischenfazit: FE oder RE? 575 Ein FE Modell fr zwei Wellen 595. Ein FE-Modell fr zwei Wellen 596. Literaturempfehlungen 63

    3 Ereignisdatenanalyse 2

  • Panel-Analyse: Grundlagen

    Bei Paneldaten handelt es sich um die wiederholte Messung einer oder mehrerer Variabler bei einer oder mehreren Personen

    Paneldaten haben gegenber Querschnittdaten mehrere Vorteile: Sie erlauben die Analyse von individuellen Entwicklungen, da es

    neben der Varianz zwischen Personen Varianz innerhalb von Personen gibt

    Sie enthalten Informationen zur zeitlichen Abfolge von Zustnden Sie enthalten Informationen zur zeitlichen Abfolge von Zustnden und Ereignissen

    Sie erlauben die Kontrolle unbeobachteter individueller Heterogenitt

    Sie sind informativer (enthalten z.B. mehr Variabilitt und Freiheitsgrade)Freiheitsgrade)

    Panelanalyse 3

  • Panel-Analyse: Grundlagen

    Ein Beispiel: Grundlage ist ein Datensatz von 5 Personen mit Partner, die noch nicht verheiratet sind

    Die abhngige Variable ist die Lebenszufriedenheit (10-fach abgestuft von 1 = sehr unzufrieden bis 10 = sehr zufrieden)

    Die unabhngige Variable ist die Heirat Auf der nchsten Folie ist die Entwicklung der Lebenszufriedenheit bei

    diesen 5 Personen ber 4 Panelwellen dargestelltdiesen 5 Personen ber 4 Panelwellen dargestellt

    Die gestrichelten Linien stehen fr Personen, die jeweils zwischen Welle 2 und 3 heiraten

    Die durchgezogenen Linien reprsentieren Personen, die innerhalb des Beobachtungszeitraums nicht heiraten

    Panelanalyse 4

  • Panel-Analyse: Grundlagen

    Positiver Effekt der Heirat

    10

    12

    8

    10d

    e

    n

    h

    e

    i

    t

    4

    6

    L

    e

    b

    e

    n

    s

    z

    u

    f

    r

    i

    e

    d

    Keine Heirat

    Heirat zwischen Welle 2 und 3

    2

    L

    01 2 3 4

    Panelwelle

    Selbstselektion: Personen, die heiraten, sind bereits vor der Heirat zufriedener

    Panelanalyse 5

  • Panel-Analyse: Grundlagen

    Die Abbildung deutet auf das Vorliegen von drei Effekten hin:E t ibt i h h Z it d P i d ff kt d di Erstens gibt es einen schwachen Zeit- oder Periodeneffekt, da die Lebenszufriedenheit ber die Zeit hinweg tendenziell abfllt

    Zweitens finden sich Hinweise auf eine Selbstselektion: DiejenigenZweitens finden sich Hinweise auf eine Selbstselektion: Diejenigen Personen, die heiraten, sind im Durchschnitt schon vor der Heirat zufriedener als die Personen, die nicht heiraten

    D itt i t i h i k l ( iti ) Eff kt d H i t f di Drittens zeigt sich ein kausaler (positiver) Effekt der Heirat auf die Zufriedenheit. Diese erhht sich im Anschluss an die Heirat zwischen den Wellen 2 und 3 deutlich. In der Kontrollgruppe ohne Heirat zeigt sich dieser Effekt nicht

    Panelanalyse 6

  • Panel-Analyse: Grundlagen

    Das Beispiel verdeutlicht, dass bei Paneldaten verschiedene Quellen von Heterogenitt differenziert werden mssen o ete oge tt d e e e t e de sse

    Es gibt nicht nur wie bei Querschnittdaten Varianz zwischen den Personen (Personen, die heiraten, sind zufriedener)

    Zustzlich entsteht durch die wiederholte Befragung im Panel Varianz innerhalb von Personen (Personen werden durch die Heirat zufriedener)

    E t h d di V i ll i d R i f h f Entsprechend dieser Varianzquellen sind Regressionsverfahren fr Paneldaten entwickelt worden, die entweder nur die Varianz zwischen Personen (between), die Varianz innerhalb von Personen (within) oder beides nutzen

    Diese Verfahren werden entlang dieser Logik im vorliegenden Skript kurz vorgestellt wobei der Schwerpunkt auf Modelle fr metrische abhngigevorgestellt, wobei der Schwerpunkt auf Modelle fr metrische abhngige Variable liegt

    Panelanalyse 7

  • Panel-Analyse: Grundlagen

    Varianz zwischen Personen steht bereits in Querschnittdaten zur V fVerfgung

    Der Hauptvorteil von Paneldaten besteht daher in der Erzeugung von Varianz innerhalb von PersonenVarianz innerhalb von Personen

    Es besteht also die Mglichkeit von Quasi-Experimenten: Wir interessieren uns dafr, wie sich Personen im Hinblick auf eine bh i V i bl ( B L b f i d h it) d di B iabhngige Variable (z.B. Lebenszufriedenheit) verndern, die z.B. ein

    Ereignis (hier: Heirat) zwischen den Befragungswellen erleben (Experimentalgruppe) oder nicht (Vergleichsgruppe)

    Im Rahmen von Panelanalysen kann also im Gegensatz zu Querschnittdaten der kausale Effekt eines treatments (z.B. eines Ereignisses) auf die abhngige Variable bestimmt werdenEreignisses) auf die abhngige Variable bestimmt werden

    Panelanalyse 8

  • Panel-Analyse: Grundlagen

    Hierzu eine etwas formellerer Exkurs: Wir interessieren uns fr den kausalen Effekt eines treatments T (hier: Heirat) auf eine abhngige Variable y (hier: Lebenszufriedenheit)

    Wenn i das jeweilige Individuum bezeichnet, t ein Zeitindex ist und C fr die Messung vor dem treatment steht schtzen wir mit Querschnittdatendie Messung vor dem treatment steht, schtzen wir mit Querschnittdaten folgendes (sog. between-estimation):

    CT yy

    Geschtzt wird also die Differenz bei der abhngigen Variablen zwischen

    t,jt,i 00y-y

    Personen, die das treatment zum Zeitpunkt t0 erlebt haben und anderen Personen, die es zum Zeitpunkt t0 noch nicht erlebt haben

    Panelanalyse 9

  • Panel-Analyse: Grundlagen

    Der tatschliche kausale Effekt des treatments wird hier nur dann korrekt geschtzt, wenn sich die Personen der Gruppen i und j nicht im Hinblick auf unbeobachtete Merkmale unterscheiden

    Da es sich hierbei in der Regel um eine unrealistische Annahme handelt wird auf Paneldaten zurckgegriffen Hier wird die sog within-handelt, wird auf Paneldaten zurckgegriffen. Hier wird die sog. within-Schtzung durchgefhrt:

    CT yy

    Geschtzt wird also, wie sich die abhngige Variable zum Zeitpunkt t1

    t,it,i 01y-y

    1im Vergleich zum ersten Messzeitpunkt t0 vor dem treatment bei denselben Personen verndert hat (deswegen within, Varianz innerhalb von Personen))

    Panelanalyse 10

  • Panel-Analyse: Grundlagen

    Der tatschliche kausale Effekt des treatments wird hier korrekt geschtzt, wenn es keine unbeobachtete Heterogenitt innerhalb von Personen gibt (d.h. die Personen i sich ber die Zeit bei unbeobachteten Merkmalen verndern)

    Auerdem knnen Periodeneffekte (z B Alterungseffekte) die Schtzung Auerdem knnen Periodeneffekte (z.B. Alterungseffekte) die Schtzung verzerren, weshalb man eine sog. difference-in-difference Schtzung durchfhren kann:

    )y-y(-)y-y( Ct,jCt,j

    Ct,i

    Tt,i 0101

    Es werden also Personen im Hinblick auf ihre Vernderung bei der abhngigen Variablen verglichen, die das treatment entweder erlebt haben (linke Seite) oder nicht (rechte Seite, Kontrollgruppe)( ) ( g pp )

    Panelanalyse 11

  • Panel-Analyse: Grundlagen

    Verdeutlichen wir dies anhand des Beispiels der fnf Personen, die entweder heiraten oder nicht (siehe Folie 5) Wie gro ist der kausale Effekt der Heirat auf die Lebenszufriedenheit? Dies kann

    mit der difference-in-difference Methode ausgerechnet werden, wobei sich das folgende Beispiel nur auf einen Vergleich der Wellen 2 und 3 bezieht

    fr jede Person wird die Differenz der Lebenszufriedenheit vor und nach der Heirat bzw. bei dauerhaft Ledigen zwischen den Wellen 2 und 3 berechnet

    diese Differenzen werden fr Personen die heiraten und fr ledige Personendiese Differenzen werden fr Personen die heiraten und fr ledige Personen gemittelt

    schlielich ist die Differenz der Vorher-Nachher-Differenz der Personen mit und ohne Heirat der kausale Effekt Im Beispiel steigt die Lebenszufriedenheit durchohne Heirat der kausale Effekt. Im Beispiel steigt die Lebenszufriedenheit durch die Heirat um 2,17 Punkte:

    1722170)7-9()8-10()66()8,3-5,3()4,8-6,4( +++ 17,2-2-17,0-2

    )()(-3

    )(),,(),,( ==

    Panelanalyse 12

  • Panel-Analyse: Grundlagen

    Vor der Berechnung von Regressionsmodellen mssen die Paneldaten richtig aufbereitet werden

    Die Ausgangssituation ist in der Regel das sog. wide-Format. Die Zeilen im Datensatz stehen hier wie gewohnt fr Personen; zeitvernderliche Variablen werden in separaten Spalten (hier: je 4) abgespeichert:Variablen werden in separaten Spalten (hier: je 4) abgespeichert:

    Dieser Datensatz muss nun ins long-Format umstrukturiert werden. In STATA geht dies u a ber den reshape long Befehl in SPSS ber denSTATA geht dies u.a. ber den reshape long-Befehl, in SPSS ber den Befehl varstocases (Daten Umstrukturieren Variablen in Flle)

    Panelanalyse 13

  • Panel-Analyse: Grundlagen

    Die folgenden Befehle bewirken die Umstrukturierung vom wide- ins long-Format. j(wave) erzeugt in STATA eine neue Variable wave mit fortlaufenden Zahlen von 1-4. Zeitkonstante Variablen (z.B. Geschlecht) mssen im reshape long Befehl nicht explizit aufgefhrt werden.

    STATA: reshape long zf heirat i(id) j(wave) STATA: reshape long zf heirat, i(id) j(wave) SPSS: varstocases /make heirat from heirat1 heirat2 heirat3 heirat4

    /make zf from zf1 zf2 zf3 zf4/index = wave(4)/keep = id/null = drop.

    /null = drop bedeutet im SPSS-Befehl, dass Flle mit missings bei allen transponierten Variablen aus dem Datensatz entfernt werden

    Panelanalyse 14

  • Panel-Analyse: Grundlagen

    Personen flieen im long-Format nun in der Form von Zeilen mehrfach in den Datensatz ein; anstatt fnf Zeilen im wide-Format gibt es nun also 20 Zeilen (jeweils vier pro Person)

    Pro Variable gibt es im long Pro Variable gibt es im long-Format jedoch nur noch eine Spalte

    Die ID ist notwendig, um die personenspezifischen Beobachtungen gidentifizieren zu knnen

    Panelanalyse 15

  • Regressionsmodelle fr Paneldaten: FE und RE

    Nun knnen wir dazu bergehen, den Effekt der Heirat (x) auf die Lebenszufriedenheit (y) mit Regressionsmodellen zu analysieren

    Eine erste Mglichkeit wre, eine einfache OLS-Regression mit den gepoolten Daten zu berechnen (i steht fr Personen, t fr Messzeitpunkte bzw Panelwellen und u fr den Fehlerterm):Messzeitpunkte bzw. Panelwellen und u fr den Fehlerterm):

    itit10it uxy ++= Das Ergebnis ist auf der nchsten Folie dargestellt. Laut diesem Modell

    fhrt eine Heirat dazu, dass sich die Lebenszufriedenheit um 4,03 Punkte erhht

    Wie wir noch sehen werden, ist dieses Ergebnis stark verzerrt und gibt nicht den tatschlichen kausalen Effekt der Heirat auf die Zufriedenheitnicht den tatschlichen kausalen Effekt der Heirat auf die Zufriedenheit wieder

    Panelanalyse 16

  • Regressionsmodelle fr Paneldaten: FE und RE

    Panelanalyse 17

  • Regressionsmodelle fr Paneldaten: FE und RE

    Dies liegt daran, dass sich der Effekt der Heirat (b = 4,03) in der OLS-Regression aus zwei Quellen speit: erstens fliet ein, dass die Heirat die Zufriedenheit erhht (within-Varianz)

    Zweitens gibt es insofern eine Selektion, da Personen, die heiraten, im Durchschnitt bereits zufriedener sind (between-Varianz)Durchschnitt bereits zufriedener sind (between-Varianz)

    Technisch gesehen besteht das Problem darin, dass durch die Selbstselektion der Fehlerterm u mit der unabhngigen Variablen x (Heirat) korreliert, wodurch eine der Annahmen der OLS-Regression verletzt wird

    Um die Frage zu beurteilen inwiefern die Heirat die Zufriedenheit Um die Frage zu beurteilen, inwiefern die Heirat die Zufriedenheit erhht, muss daher auf geeignetere Verfahren zurckgegriffen werden

    Panelanalyse 18

  • Regressionsmodelle fr Paneldaten: FE und RE

    Im Folgenden werden zwei Regressionsmodelle fr Paneldaten vorgestellt: das fixed-effects (FE) Modell und das random-effects (RE) Modell

    Das FE-Modell ist speziell dazu geeignet, den kausalen Effekt von zeitvernderlichen Kovariaten (z B von Ereignissen) auf eine metrischezeitvernderlichen Kovariaten (z.B. von Ereignissen) auf eine metrische abhngige Variable zu identifizieren. Es basiert ausschlielich auf der Varianz innerhalb von Personen

    In das RE-Modell fliet sowohl die Varianz zwischen als auch innerhalb von Personen ein. In diesem Verfahren knnen auch zeitkonstante Variablen bercksichtigt werden

    Sowohl das FE als auch das RE-Modell tragen zudem der Tatsache Rechnung, dass Personen im Rahmen des Panels mehrfach beobachtet werden und diese personenspezifischen Beobachtungen statistisch nichtwerden und diese personenspezifischen Beobachtungen statistisch nicht unabhngig sind

    Panelanalyse 19

  • Regressionsmodelle fr Paneldaten: FE und RE

    Der Ausgangspunkt der FE-Regression ist folgendes Fehlerkompo-nentenmodell:

    itiit1it vxy ++= Hier wird der Fehlerterm (u) aufgeteilt in einen personenspezifischen

    Fehler, der zeitkonstant ist (vi) und einen ideosynkratischen Fehler (it).

    Diese Gleichung kann ber die Zeit fr jede Person i gemittelt werden, so dass sie sich ausschlielich auf die Varianz zwischen Personen bezieht:

    iii1i vxy ++= Wird die zweite von der ersten Gleichung abgezogen, ergibt sich das

    FE-Modell:

    Panelanalyse 20

  • Regressionsmodelle fr Paneldaten: FE und RE

    iitiit1iit )xx(yy += Im Unterschied zur OLS-Regression werden in der fixed-effects

    Gleichung die abhngige Variable y und die unabhngige Variable x in der Form ihrer Abweichungen vom personenspezifischen Mittelwert reprsentiert (nur die Varianz innerhalb von Personen ist also von Interesse)

    Bezogen auf die Abbildung in Folie 4 wird mit dem FE-Modell folglich ausschlielich berprft, inwieweit die Heirat die Zufriedenheit erhht (within)(within)

    Die Tatsache, dass Personen, die heiraten, vor der Heirat bereits zufriedener sind (between), beeinflusst diese Schtzung nicht ( ) g

    Panelanalyse 21

  • Regressionsmodelle fr Paneldaten: FE und RE

    Eine der wichtigsten Eigenschaften des FE-Modells ist, dass der zeitkonstante personenspezifische Fehler (vi) durch die Subtraktion der beiden Gleichungen eliminiert wird

    Dies ist aus folgenden Grnden zentral: Es gibt mglicherweise zeitkonstante Faktoren (reprsentiert durch v ) die zu einerzeitkonstante Faktoren (reprsentiert durch vi), die zu einer Selbstselektion fhren, also sowohl die Wahrscheinlichkeit einer Heirat und den Ausgangswert der abhngigen Variablen (Lebenszufriedenheit) beeinflussenbeeinflussen

    Zum Beispiel sind westdeutsche Personen gleichzeitig im Durchschnitt zufriedener als ostdeutsche und heiraten hufiger

    Diese zeitkonstanten Personenmerkmale (z.B. auch Persnlich-keit, Kindheitserfahrungen, Geburtskohorte, genetische Eigenschaften usw ) knnen entweder beobachtet oder unbeobachtet seinusw.) knnen entweder beobachtet oder unbeobachtet sein

    Panelanalyse 22

  • Regressionsmodelle fr Paneldaten: FE und RE

    Der wesentliche Vorteil des FE-Modells besteht darin, dass die Einflsse von allen zeitkonstanten Merkmalen kontrolliert werden, gleichgltig, ob sie beobachtet werden oder nicht!

    Dieser Vorteil geht allerdings auch mit Nachteilen einher: Erstens hat das FE-Modell in der Regel eine geringere statistische Power als z Bdas FE-Modell in der Regel eine geringere statistische Power als z.B. das RE-Modell, da es nur auf der within-Varianz basiert (d.h., dass die Effekte tendenziell seltener signifikant werden)

    Zweitens knnen im FE-Modell keine zeitkonstanten Variablen (z.B. Geschlecht, Ost/West, etc.) aufgenommen werden

    Die nachfolgende Folie zeigt das Ergebnis einer fixed effects Regression Die nachfolgende Folie zeigt das Ergebnis einer fixed-effects Regression der Heirat auf die Zufriedenheit

    Panelanalyse 23

  • Regressionsmodelle fr Paneldaten: FE und RE

    Panelanalyse 24

  • Regressionsmodelle fr Paneldaten: FE und RE

    Zunchst zu den Syntaxbefehlen oberhalb der Tabelle: mit tsset wird der Datensatz in STATA zu einem Paneldatensatz erklrt

    Mit der Angabe der id wird festgelegt, welche personenspezifischen Beobachtungen zusammengehren

    Mit wave wird die Variable definiert, die angibt, um welchen Messzeitpunkt es sich handelt

    STATA teilt mit dass im Datensatz 5 Personen enthalten sind ( id 1 to STATA teilt mit, dass im Datensatz 5 Personen enthalten sind (id, 1 to5) und es 4 Wellen gibt (wave, 1 to 4)

    Der Befehl fr eine fixed-effets Regression lautet xtreg zf (abhngige Variable) heirat (unabhngige Variable), fe (fr fixed-effects)

    Panelanalyse 25

  • Regressionsmodelle fr Paneldaten: FE und RE

    Das wichtigste Ergebnis des Outputs ist, dass die Heirat laut FE-Modell einen positiven Effekt auf die Lebenszufriedenheit in Hhe von b = 1,95 hat. Dies ist der tatschliche (kausale) Effekt

    Damit wird deutlich, dass die OLS-Regression den Einfluss der Heirat deutlich berschtzt (b = 4 03)deutlich berschtzt (b = 4,03).

    Der Output enthlt noch einige weitere Bestandteile, die nicht selbsterklrend sind, d.h. in normalen OLS-Regressionen nicht vorkommen

    Bei sigma_u handelt es sich um die between-subject Standard-abweichung die in der FE Schtzung kontrolliert wirdabweichung, die in der FE-Schtzung kontrolliert wird

    sigma_e bezieht sich entsprechend auf die within-subjectStandardabweichungg

    Panelanalyse 26

  • Regressionsmodelle fr Paneldaten: FE und RE

    Bei rho handelt es sich um den sog. Intraklassenkorrelations-koeffizienten. Er gibt diesem Modell den Anteil der personenspezifischen (between) Varianz an der Gesamtvarianz wieder

    Der Intraklassenkorrelationskoeffizient wird allgemein in hierarchisch strukturierten Daten (d h Mehrebenendaten) angewendet Paneldatenstrukturierten Daten (d.h. Mehrebenendaten) angewendet. Paneldaten sind Mehrebenendaten: Ebene 1 ist die Zeit (within) und Ebene 2 entspricht den Personen (between)

    i Die Berechnung von rho lautet wie folgt: e_sigmau_sigma

    u_sigmarho +=

    Nach Kontrolle der Variablen heirat geht im Beispiel 98% der Gesamtfehlervarianz auf between-Varianz zurck

    Panelanalyse 27

  • Regressionsmodelle fr Paneldaten: FE und RE

    Ein weiterer ntzlicher Bestandteil des Outputs ist die Korrelation zwischen den personenspezifischen Konstanten (u_i, s.u.) und der unabhngigen Variable x (hier: Heirat)

    Diese wird hier mir r = .53 angegeben Dies zeigt direkt an, dass Selbstselektion vorliegt: diejenigen

    Personen, die zufriedener sind, heiraten eher

    Wre die Korrelation negativ wrde dies entsprechend bedeuten dass Wre die Korrelation negativ wrde dies entsprechend bedeuten, dass Personen, die zufriedener sind, eher nicht heiraten

    Aber nochmal: Das Schtzergebnis des FE-Modells wird durch die Korrelation der zeitkonstanten Personeneigenschaften mit der unabhngigen Variablen nicht beeinflusst (dies ist beim RE-Modell anders, s.u.) )

    Panelanalyse 28

  • Regressionsmodelle fr Paneldaten: FE und RE

    Darber hinaus werden drei R-Werte ausgewiesen. Das between-R ist die quadrierte Korrelation zwischen dem personenspezifischen Mittelwert (ber alle Wellen) von y und dem vorhergesagten personenspezifischen Mittelwert von y

    Das overall-R ist die quadrierte Korrelation zwischen den y-Werten und Das overall-R ist die quadrierte Korrelation zwischen den y-Werten und den vorhergesagten y-Werten

    Das within-R ist im Rahmen der FE-Schtzung am wichtigsten. Es sagt aus, dass die Vernderung der Lebenszufriedenheit durch die Variable heirat zu fast 90% erklrt werden kann

    Unterhalb der Tabelle wird ferner ein zustzlicher F Test Unterhalb der Tabelle wird ferner ein zustzlicher F-Test ausgewiesen, der die Nullhypothese alle u_i sind = 0 testet

    Panelanalyse 29

  • Regressionsmodelle fr Paneldaten: FE und RE

    Um den Zweck dieses Tests zu verdeutlichen, wird nun erlutert, dass das FE-Modell auch auf eine andere Weise geschtzt werden kann (durch ein sog. least quares dummy variable (LSDV) model)

    Auf der nchsten Folie ist eine ganze normale OLS-Regression auf die Zufriedenheit dargestellt in der neben der unabhngigen VariablenZufriedenheit dargestellt, in der neben der unabhngigen Variablen heirat vier Dummy-Variablen fr 4 der 5 Personen im Datensatz enthalten sind (die fnfte Person ist die Referenz)

    Der Effekt des Dummys dp1 (b = -1,1) bedeutet also, dass die erste Person verglichen mit der fnften eine geringere durchschnittliche Zufriedenheit ber alle Wellen aufweist

    Wichtig ist, dass der geschtzte Effekt der Heirat auf die Zufriedenheit exakt derselbe ist wie im FE-Modell, das mit xtreg geschtzt wurde (b = 1 95) Dies gilt auch fr den Standardfehler und den t Wert1,95). Dies gilt auch fr den Standardfehler und den t-Wert

    Panelanalyse 30

  • Regressionsmodelle fr Paneldaten: FE und RE

    Panelanalyse 31

  • Regressionsmodelle fr Paneldaten: FE und RE

    Die Ergebnisse stimmen exakt berein, da in der OLS-Regression alle zeitkonstanten Eigenschaften der Personen (z.B. ihre Persnlichkeit) ber die Dummy-Variablen kontrolliert werden

    Der multivariate Effekt der zeitvernderlichen Variablen heirat bezieht sich dadurch ausschlielich auf Vernderungen innerhalb einersich dadurch ausschlielich auf Vernderungen innerhalb einer Person, also die within-Varianz

    Nun wird verstndlich, was im FE-Modell der F-Test fr die Nullhypothese alle u_i = 0 bedeutet

    Die u_i sind die personenspezifischen Dummy-Variablen Da die Nullhypothese, dass alle diese Dummy-Variablen einen Effekt von

    0 haben, nicht abgelehnt werden kann (F = 143,1, p < .001, siehe Folie 24), liegt unbeobachtete personenspezifische Heterogenitt vor, die nicht ) g p p gzu vernachlssigen ist

    Panelanalyse 32

  • Regressionsmodelle fr Paneldaten: FE und RE

    Ein Nachteil des FE-Modells besteht wie gesagt darin, dass die Effekte von zeitkonstanten Variablen nicht geschtzt werden knnen

    Dies ist im Rahmen des RE -Modells mglich, dass alternativ zum FE-Modell im Rahmen von xtreg zur Verfgung steht

    Das random-effects Modell hat folgende Form:

    itiit10it vxy +++= Es handelt sich hier somit ebenfalls um ein Fehlerkomponentenmodell

    mit einem zeitkonstanten personenspezifischen Fehler (v ) und einem

    itiit10ity

    mit einem zeitkonstanten personenspezifischen Fehler (vi) und einem idiosynkratrischen Fehler (it), der ber die Zeit und ber Personen variiert

    Panelanalyse 33

  • Regressionsmodelle fr Paneldaten: FE und RE

    Der Unterschied zum FE-Modell besteht in der Behandlung von vi Die zeitkonstanten personenspezifischen Einflsse (vi) werden im RE- Die zeitkonstanten, personenspezifischen Einflsse (vi) werden im RE-

    Modell nicht wie z.B. im LSDV-Modell ber Dummy-Variablen fix geschtzt

    Stattdessen wird angenommen, dass vi eine normalverteilte latente Variable ist. Geschtzt wird lediglich die Varianz dieser latenten Variablen (deshalb random effects)

    Das RE-Modell nutzt somit beide Varianzquellen (within und between) zur Schtzung der Parameter

    Dies hat einige wichtige Konsequenzen fr die Voraussetzungen des Modells und seine Interpretation:

    Panelanalyse 34

  • Regressionsmodelle fr Paneldaten: FE und RE

    Die Effekte im RE-Modell sind eine Mischung aus between- und within-Schtzungen

    Dies bedeutet im Beispiel, dass im RE-Modell implizit davon ausgegangen wird, dass

    a) sowohl der die Zufriedenheit steigernde Effekt einer Heirat (within),

    b) als auch die Tatsache dass Personen die heiraten generellb) als auch die Tatsache, dass Personen, die heiraten, generell zufriedener sind (between),

    dazu beitragen, dass zwischen Heirat und Zufriedenheit ein positiver Zusammenhang besteht

    Panelanalyse 35

  • Regressionsmodelle fr Paneldaten: FE und RE

    Eine wichtige Annahme im RE-Modell ist, dass die Korrelation zwischen den zeitkonstanten Personeneinflssen vi und der bzw. den iunabhngigen Variablen 0 ist: Corr (xit, vi) = 0

    Das Modell funktioniert also nur, wenn es irrelevante personen-ifi h H t itt ibt di i ht it d bh i V i blspezifische Heterogenitt gibt, die nicht mit den unabhngigen Variablen

    korreliert

    Im Beispiel bedeutet dies, dass es keine Selbstselektion in den DatenIm Beispiel bedeutet dies, dass es keine Selbstselektion in den Daten geben drfte, um mit einem RE-Modell zu verzerrungsfreien Schtzungen zu kommen

    D h P di h i t d ft i ht d H i t b it i D.h. Personen, die heiraten, drften nicht vor der Heirat bereits im Durchschnitt zufriedener sein

    Panelanalyse 36

  • Regressionsmodelle fr Paneldaten: FE und RE

    Panelanalyse 37

  • Regressionsmodelle fr Paneldaten: FE und RE

    Im Ergebnis zeigt sich, dass der positive Effekt der Heirat auf die Zufriedenheit im RE-Modell trotz Selbstselektion nur unwesentlich berschtzt wird (b = 1,99 versus b = 1,95 im FE-Modell)

    Wie gro der Bias des RE-Schtzers ist, hngt in erster Linie davon ab wie gro die Varianz zwischen Personen im Verhltnis zur Varianzab, wie gro die Varianz zwischen Personen im Verhltnis zur Varianz innerhalb von Personen ist

    Je grer die Varianz zwischen Personen im Verhltnis zur Varianz innerhalb von Personen ist (je mehr Heterogenitt es also zwischen Personen gibt), desto weniger verzerrt ist der RE- gegenber dem FE-Schtzer

    Im STATA-Output gibt der Koeffizient theta ber das Varianzverhltnis Auskunft. Wenn die between-Varianz (sigma_u) deutlich grer ist als die within Varianz (sigma e) tendiert theta zu 1die within-Varianz (sigma_e), tendiert theta zu 1

    Panelanalyse 38

  • Regressionsmodelle fr Paneldaten: FE und RE

    Dies ist im Beispiel auf Folie 36 der Fall, wo theta = .88 ist

    Links ist ein zweiter Datensatz dargestellt, in dem es deutlich mehr Varianz innerhalb vonmehr Varianz innerhalb von Personen gibt

    Bei Personen, die heiraten, wurde nichts verndert

    Personen die nicht Personen, die nicht heiraten, sind nun jedoch nicht nur im Durchschnitt unzufriedener sondernunzufriedener, sondern verndern sich strker ber die Zeit (mehr within-Varianz)

    Panelanalyse 39

  • Regressionsmodelle fr Paneldaten: FE und RE

    Die nchste Folie zeigt, dass in dem vernderten Datensatz mit mehr within-Varianz deutliche Unterschiede zwischen der FE- und der RE-Schtzung auftreten

    Der kausale positive Effekt der Heirat auf die Zufriedenheit wird im FE-Modell weiterhin korrekt geschtzt (b = 1 95)Modell weiterhin korrekt geschtzt (b = 1,95)

    Das RE-Modell berschtzt den Effekt nun dagegen stark (b = 3,41) und kommt in die Nhe der ursprnglichen OLS-Schtzung (b = 4,03)

    Das RE-Modell ist im vernderten Datensatz also nicht mehr dazu geeignet, um den kausalen Effekt der Heirat verzerrungsfrei zu schtzen

    Panelanalyse 40

  • Regressionsmodelle fr Paneldaten: FE und RE

    Panelanalyse 41

  • Regressionsmodelle fr Paneldaten: FE und RE

    Hierzu abschlieend noch eine formellere Darstellung. Das RE-Modell ist nichts anderes als eine gepoolte OLS-Regression auf die in der folgenden Weise transformierten Daten:

    [ ]iitiiit10iit v)1()xx()1(yy +++= Auffllig ist die hnlichkeit mit der Formel fr das FE-Modell (s.o) mit

    dem Unterschied dass zustzlich theta () in der Gleichung enthalten istdem Unterschied, dass zustzlich theta () in der Gleichung enthalten ist

    theta ist wie folgt definiert (T = Anzahl der Panelwellen):

    e_sigmau_sigma*Te_sigma1 +=

    Panelanalyse 42

  • Regressionsmodelle fr Paneldaten: FE und RE

    Wenn also = 1 ist, entspricht das RE-Modell dem FE-Modell (in der Gleichung werden die Konstante 0 und alle zeitkonstanten personenspezifischen Einflsse vi eliminiert)

    Wenn = 0 ist, entspricht das RE-Modell einer OLS-Regression tendiert zu 1, wenn die Varianz zwischen den Personen (sigma_u)

    deutlich grer ist als die Varianz innerhalb von Personen

    tendiert entsprechend zu 0 wenn die Varianz innerhalb (sigma e) tendiert entsprechend zu 0, wenn die Varianz innerhalb (sigma_e ) deutlich grer ist als die Varianz zwischen Personen; insbesondere in dieser Situation kann es dazu kommen, dass der RE-Schtzer verzerrt istist

    Die Formel zeigt auerdem, dass sich das RE- und das FE-Modell mit steigender Anzahl von Panelwellen (T) einander annhern g ( )

    Panelanalyse 43

  • Ein Beispiel mit SOEP-Daten

    Alle bisherigen Folien bezogen sich auf ein konstruiertes Beispiel mit nur 5 Personen; im Folgenden wird zu derselben Fragestellung eine kleine Analyse mit vier Wellen des SOEP (1998 bis 2001) durchgefhrt

    Gegenstand der Analyse sind Frauen und Mnner, die im Jahr 1998 ledig und 18 Jahre oder lter sind Die Fragestellung lautet ob eineledig und 18 Jahre oder lter sind. Die Fragestellung lautet, ob eine Heirat die allgemeine Lebenszufriedenheit erhht (gemessen von 1-10, 10 = sehr zufrieden)

    Beginnen wir mit einem RE-Modell, dessen Output auf der nchsten Folie dargestellt ist

    Laut dieser Schtzung hat die Heirat einen positiven Effekt auf die Laut dieser Schtzung hat die Heirat einen positiven Effekt auf die Lebenszufriedenheit in Hhe von b = 0,145.

    Panelanalyse 44

  • Ein Beispiel mit SOEP-Daten

    Panelanalyse 45

  • Ein Beispiel mit SOEP-Daten

    Das RE-Modell kann um weitere zeitkonstante und zeitvernderliche Variablen erweitert werden

    Im Folgenden werden daher zunchst drei Dummy-Variablen fr die ersten drei untersuchten Wellen eingefhrt; die vierte Welle ist die ReferenzReferenz

    Es ist immer eine gute Idee, mgliche Periodeneffekte zu kontrollieren. Wenn sich z.B. zu einem bestimmten Zeitpunkt die Lebenszufriedenheit bei allen Personen systematisch verndert, knnen die Schtzungen fr Effekte einzelner Kovariaten verzerrt werden

    Auerdem werden die zeitkonstanten Variablen Geschlecht und Auerdem werden die zeitkonstanten Variablen Geschlecht und Ost/West bercksichtigt

    Panelanalyse 46

  • Ein Beispiel mit SOEP-Daten

    Panelanalyse 47

  • Ein Beispiel mit SOEP-Daten

    Auch nach Kontrolle der genannten Kovariaten verbleibt ein positiver Effekt der Heirat, der sich sogar leicht verstrkt (b = 0,156)

    Auerdem zeigt sich, dass es keine signifikanten Periodeneffekte gibt (gemessen ber die Dummys nwave1-nwave3), Mnner (sex=1) ber alle Panelwellen tendenziell unzufriedener sind als Frauen undalle Panelwellen tendenziell unzufriedener sind als Frauen und ostdeutsche Personen (ow=1) deutlich unzufriedener als westdeutsche

    Ob der positive Effekt der zeitvernderlichen Variablen Heirat auf die Lebenszufriedenheit kausal ist, lsst sich im RE-Modell jedoch nicht mit Sicherheit beantworten

    Da im RE Modell auch die Varianz zwischen Personen bercksichtigt Da im RE-Modell auch die Varianz zwischen Personen bercksichtigt wird, kann es zu Selektionseffekten kommen (Personen, die heiraten, sind vor der Heirat bereits zufriedener)

    Panelanalyse 48

  • Ein Beispiel mit SOEP-Daten

    Das Vorliegen von Selektionseffekten kann berprft werden, indem ein FE-Modell mit der unabhngigen Variablen heirat berechnet und die Korrelation zwischen u_i und x interpretiert wird

    Im Beispiel ist diese Korrelation fr Frauen leicht positiv (r = .08, nicht dargestellt) zufriedene Frauen heiraten also offenbar eher (fr Mnnerdargestellt), zufriedene Frauen heiraten also offenbar eher (fr Mnner zeigt sich dagegen eine leicht negative Korrelation)

    Eine zweite Mglichkeit besteht darin, die Lebenszufriedenheit im Jahr 1998, d.h. zu einem Zeitpunkt, wo alle Personen noch ledig sind, zwischen Personen zu vergleichen, die in den nchsten drei Wellen heiraten oder nicht

    Es besttigt sich, dass Mnner, die heiraten, signifikant zufriedener sind als die Vergleichsgruppe (7,5 vs. 7,07). Das gleiche gilt fr Frauen (7,5 versus 7 16) Es gibt also in der Tat eine Selbstselektionversus 7,16). Es gibt also in der Tat eine Selbstselektion

    Panelanalyse 49

  • Ein Beispiel mit SOEP-Daten

    Der potentielle Bias, der durch diese Selektion entstehen kann, wrde nur dann nicht ins Gewicht fallen, wenn die between-Varianz deutlich grer wre als die within-Varianz

    Der Output lsst jedoch bereits erkennen, dass das Verhltnis der beiden Varianzen ausgeglichen ist (rho = 48)beiden Varianzen ausgeglichen ist (rho = .48)

    Um die Ergebnisse abzusichern, wird daher eine FE-Schtzung durchgefhrt, in die zustzlich Dummys fr die Panelwellen einflieen; alle zeitkonstanten Variablen (Geschlecht, Ost/West) knnen dabei nicht mehr bercksichtigt werden

    Die Ergebnisse zeigen dass eine Heirat laut FE Schtzung keinen Die Ergebnisse zeigen, dass eine Heirat laut FE-Schtzung keinenkausalen Effekt auf die Lebenszufriedenheit hat; der RE-Schtzer ist demzufolge nach oben hin verzerrt!

    Panelanalyse 50

  • Ein Beispiel mit SOEP-Daten

    Panelanalyse 51

  • Ein Beispiel mit SOEP-Daten

    Die bisherigen Ergebnisse deuten darauf hin, dass im vorliegenden Fall ein RE-Modell nicht angemessen ist

    Es gibt zustzlich einen formellen Test (sog. Hausman-Test) mit dem berprft werden kann, ob der RE-Schtzer gegenber dem FE-Schtzer verzerrt istSchtzer verzerrt ist

    Dazu mssen im Anschluss an die RE- bzw. FE-Regression (jeweils nur mit der unabhngigen Variablen heirat) die Schtzergebnisse im Datensatz abgespeichert werden (Befehl: estimates store fixed, wobei fixed ein vom Benutzer frei whlbarer Name ist)

    Der Befehl fr den Hausman Test lautet dann: hausman fixed random Der Befehl fr den Hausman-Test lautet dann: hausman fixed random Auf der nchsten Folie sind die Ergebnisse dargestellt

    Panelanalyse 52

  • Ein Beispiel mit SOEP-Daten

    Panelanalyse 53

  • Ein Beispiel mit SOEP-Daten

    Der Hausman-Test testet die Nullhypothese, dass die Koeffizienten, die durch das RE-Modell fr eine zeitvernderliche Variable geschtzt werden, dieselben sind wie im FE-Modell

    Wenn dies der Fall ist, ist der unten angegebene -Wert insignifikant (p > 05) und es ist unproblematisch ein RE-Modell anzuwenden> .05) und es ist unproblematisch, ein RE-Modell anzuwenden

    Wenn der -Wert dagegen signifikant ist (wie in unserem Beispiel: = 26,6, df = 1, p < .05), sollte man an ein FE-Modell bevorzugen

    Inhaltlich ergibt sich damit im Beispiel eine Enttuschung: Ein signifikanter positiver kausaler Effekt der Eheschlieung auf die allgemeine Lebenszufriedenheit kann entgegen dem ersten Eindruckallgemeine Lebenszufriedenheit kann entgegen dem ersten Eindruck nicht nachgewiesen werden

    Panelanalyse 54

  • Ein Beispiel mit SOEP-Daten

    Abschlieend soll noch erwhnt werden, dass auch zeitkonstante Kovariate (z.B. das Geschlecht) in der Form von Interaktionseffekten mit zeitvernderlichen Kovariaten in das FE-Modell aufgenommen werden knnen

    Auf der nchsten Folie geht der Interaktionseffekt sex*heirat genannt Auf der nchsten Folie geht der Interaktionseffekt sex heirat , genannt int2, in das Modell ein

    Es zeigt sich, dass der Effekt der Eheschlieung bei Frauen (sex=0) der Richtung nach positiv, aber nicht signifikant ist (b = 0,09)

    Bei Mnnern ist er dagegen der Richtung nach sogar negativ (b = 0,09 0 18 = 0 09); der Unterschied zwischen Mnnern und Frauen ist jedoch0,18 = -0,09); der Unterschied zwischen Mnnern und Frauen ist jedoch ebenfalls nicht signifikant (p = 0,15)

    Zu beachten ist, dass im Unterschied zu normalen Regressionsmodellen der Haupteffekt der zeitkonstanten Variablen sexnicht mit ins Modell aufgenommen wird

    Panelanalyse 55

  • Ein Beispiel mit SOEP-Daten

    Panelanalyse 56

  • Zwischenfazit: FE oder RE?

    In vielen Anwendungssituationen wird die zentrale Voraussetzung des RE-Modells, dass die unabhngigen Variablen nicht mit den zeitkonstanten Personeneigenschaften (vi) korrelieren, verletzt sein

    Um in diesen Fllen unverzerrte Schtzer zu erhalten, sollte man das FE-Modell nutzenFE-Modell nutzen

    Das RE-Modell schtzt zwar die Effekte von zeitkonstanten Kovariaten. Der eigentliche Sinn von Panelanalysen besteht jedoch nicht in der Analyse der between-Varianz, die auch im Querschnitt ausgewertet werden kann

    Um die Strke der Paneldaten voll zu nutzen sollte man sich vielmehr Um die Strke der Paneldaten voll zu nutzen, sollte man sich vielmehr auf die Effekte von einigen wenigen zeitvernderlichen Variablen, die dichotom oder auch metrisch sein knnen, konzentrieren und das FE-Modell konsequent anwendenModell konsequent anwenden

    Panelanalyse 57

  • Zwischenfazit: FE oder RE?

    Weitere Vorteile des FE- gegenber dem RE-Modell bestehen darin, dass die Schtzung auch dann robust bleibt, wenn das Panel unbalanciert ist (d.h. nicht alle Personen werden in jeder Welle beobachtet) oder wenn es Panelmortalitt gibt, die mit zeitkonstanten Personeneigenschaften (vi) systematisch zusammenhngt

    Das FE-Modell kann darber hinaus auch bei dichotomen oder ordinalenabhngigen Variablen oder im Rahmen von Ereignisdatenanalysen und Strukturgleichungsmodellen angewendet werden (einen berblick gibtStrukturgleichungsmodellen angewendet werden (einen berblick gibt Allison 2001)

    Zudem besteht die Mglichkeit einer Hybrid-Methode, in der FE- und RE-Schtzungen kombiniert werden (siehe Allison 2001: 23ff)

    Fr weiterfhrende Informationen zur Panelanalyse siehe die LiteraturangabenLiteraturangaben

    Panelanalyse 58

  • Ein FE-Modell fr zwei Wellen

    Ferner wird nun kurz vorgestellt, wie man ein FE-Modell fr eine metrische AV auf einfache Weise schtzen kann, wenn man nur ber Daten aus zwei Panelwellen verfgt

    Hier kann auf die sog. Differenzscore-Regression zurckgegriffen werden:werden:

    ii1i1i2 x)y-(y += Eine Umstrukturierung der Daten ins long-Format ist nicht notwendig.

    Vielmehr wird zunchst der Wert der abhngigen Variablen zum zweiten Messzeitpunkt vom Wert zum ersten Messzeitpunkt abgezogen (dies ist der Differenzscore)

    Auf diesen Differenzscore wird dann eine einfache OLS Regression Auf diesen Differenzscore wird dann eine einfache OLS-Regression berechnet

    Panelanalyse 59

  • Ein FE-Modell fr zwei Wellen

    Die Differenzscore-Regression hat die gleichen Eigenschaften wie ein FE-Modell fr mehr als zwei Wellen:

    Es knnen nur zeitvernderliche unabhngige Variablen verschiedenen Messniveaus berecksichtigt werden, wobei metrische unabhngige Variablen ebenfalls als Differenzscore einflieenVariablen ebenfalls als Differenzscore einflieen

    Zustzlich besteht die Mglichkeit, Interaktionseffekte zwischen zeitkonstanten und zeitabhngigen Kovariaten zu modellieren

    Auch die Differenzscore-Regression weist den wesentlichen Vorteil aller FE-Modelle auf, dass ausschlielich die within-Varianz ausgewertet wird und die Schtzung von allen zeitkonstanten Personeneigenschaftenund die Schtzung von allen zeitkonstanten Personeneigenschaften (und damit von einigen potentiellen Selektionseffekten) unbeeinflusst bleibt

    Panelanalyse 60

  • Ein FE-Modell fr zwei Wellen

    Die folgende Folie zeigt ein mit SPSS berechnetes Beispiel Die abhngige Variable ist die Ruhestandsorientierung 1996 (t1) und Die abhngige Variable ist die Ruhestandsorientierung 1996 (t1) und

    2000 (t2); die Ruhestandsorientierung 2000 wird von der Ruhestandsorientierung 1996 abgezogen

    Die unabhngige Variable ist die Beteiligung an beruflicher Weiterbildung im Zeitraum 1997-1999 (1 = ja, 0 = nein)

    Im Ergebnis zeigt sich dass sich die Ruhestandsorientierung durch die Im Ergebnis zeigt sich, dass sich die Ruhestandsorientierung durch die Weiterbildung leicht reduzieren zu scheint (b = -0,103)

    Der altersbedingte allgemeine Anstieg der Ruhestandsorientierung wird in diesem Modell kontrolliert, da es sich um eine difference-in-difference-Schtzung handelt (siehe Folie 12); d.h. die Vernderung ber die Zeit in der Gruppe der Nichtteilnehmer (siehe Konstante) wird kontrolliert pp ( )

    Panelanalyse 61

  • Ein FE-Modell fr zwei Wellen

    Koeffizientena

    Nicht standardisierteStandardisiert

    e

    ,095 ,018 5,165 ,000(Konstante)Modell1

    BStandardf

    ehler

    Koeffizienten

    Beta

    Koeffizienten

    T Signifikanz,095 ,018 5,165 ,000

    -,103 ,035 -,041 -2,966 ,003

    ( )Zwischen t1 und t2an Weiterbildungteilgenommen

    Abh i V i bl R h d i i 2 1Abhngige Variable: Ruhestandsorientierung t2 - t1a.

    Zwei-Wellen-Panelanalyse 62

  • Literaturempfehlungen

    Einfhrungen:

    Allison, P.D. (1994): Using panel data to estimate the effects of events. Sociological Methods & Research, 23, 174-199.

    Halaby, C. (2004): Panel models in sociological research. Annual Review of Sociology, 30, 507-544.

    FE-Modelle:

    Allison, P.D. (2001): Fixed effects regression models. Sage University paper series in quantitative applications in the social sciences; 160. Thousand Oaks: Sage

    berblickspapier ber RE- und FE-Modelle:

    Brderl, Josef: Panel data analysis(http://www sowi unimannheim de/lehrstuehle/lessm/veranst/Panelanalyse pdf)(http://www.sowi.unimannheim.de/lehrstuehle/lessm/veranst/Panelanalyse.pdf)

    Technische Einfhrung:

    Wooldrige, J. (2003): Introductory econometrics: A modern approach. Thomson.

    Speziell zur Zwei-Wellen-Panel-Analyse:

    Johnson, D. (2005): Two-wave panel analysis: Comparing statistical methods for studying the effects oftransitions. Journal of Marriage and Family, 67, 1061-1075.

    Panelanalyse 63