Upload
dierk-schmer
View
108
Download
3
Embed Size (px)
Citation preview
Einkommensanalysen mit Paneldaten
Vortrag zum STATA User-MeetingAugust 2003 Berlin
Johannes GieseckeHumboldt Universität zu Berlin
Institut für Sozialwissenschaften
Gliederung
1. Theoretische Vorüberlegungen zum Thema
2. Methodische Aspekte
3. Beschreibung der Daten
4. Ergebnisse/Umsetzung mit STATA
5. Fazit
Theorie
• Einkommensmodelle:– klassische Humankapitalmodelle (z.B. Mincer,
Becker): Bildung und Berufserfahrung– erweiterte Modelle: angebotsseitige Charakteristika
(z.B. sozio-strukturelle Merkmale der Individuen) sowie nachfrageseitige Faktoren (z.B. Branche, Betriebsgröße)
• bisher weniger untersucht: Effekte „flexibler“ Beschäftigungsformen (z.B. Befristung, Teilzeit)
Theorie
• hier von Interesse: Teilzeit
• Einkommenseffekte von Teilzeit: – Arbeitseinkommen pro Stunde (hier: Bruttoeinkommen)
• Hypothesen zu Einkommenseffekten von Teilzeit: sowohl positive als auch negative Effekte zu erwarten
Theorie
• positive Einkommenseffekte zu erwarten aufgrund von:
– Produktivitätssteigerung– weniger unbezahlten Überstunden, damit höherer
Stundenlohn– Anreizsetzung von Seiten der Unternehmen mit Ziel
der Erhöhung der Flexibilität
Theorie
• negative Einkommenseffekte zu erwarten aufgrund von:
– geringerer Produktivität wegen geringerem Humankapital
– karrierehemmender Wirkung von TZ– Brutto-/Nettoeffekt der progressiven Besteuerung
Theorie
• weitere Überlegungen:– Teilzeit homogenes Phänomen?
• reguläre Teilzeit (16-34 Stunden/Woche)• marginale Teilzeit (bis zu 15 Stunden/Woche)
– Effekte abhängig von Stellung im Arbeitsmarkt?• z.B. Interaktion von Teilzeit mit Bildung
– Selektionseffekte• bestimmter Typus von ArbeitnehmerInnen in Teilzeit?
Methodische Aspekte
• Schätzungen von Einkommensgleichungen mit Querschnittsdaten (einmalig erhobene Daten)
0 1 1 ...i i K iK iy x x u
• typische Probleme für OLS-Schätzung: – heteroskedastische Fehler ui
– endogene unabhängige Variablen
Methodische Aspekte
• Heteroskedastizität: – inkorrekte Berechnung der Standardfehler
– kann mit robuster Varianzschätzung oder GLS-Schätzung korrigiert werden
• Endogene UV:– verzerrte Schätzung der Koeffizienten– mögliche Lösung: IV-Schätzung (z.B. 2SLS) mit
Instrumenten für diejenigen x, die mit Fehlerkorrelieren
– Beispiel: Teilzeit korreliert mit (unbeobachteter)Motivation/Erwerbsneigung
Methodische Aspekte
• Paneldaten erlauben Schätzung des Modells:
0 1 1 ...it i t K iKt i ity x x c u
• hier neu: unbeobachteter Individueneffekt ci (als zeitkonstant angenommen)
• damit Problem der Endogenität abgeschwächt, jedoch noch nicht vollständig beseitigt
• Wahl des Schätzverfahrens hängt zunächst von nur einer Frage ab:
Korrelieren einige/alle der UV mit dem unbeobachteten Individueneffekt ci ?
Methodische Aspekte
Korrelieren einige/alle der UV mit dem unbeobachteten Individueneffekt ci ?
• OLS-Schätzung: konsistente Schätzer für Koeffizienten, jedoch keine effiziente Schätzung
• random-effects-Schätzung:konsistente und effiziente Schätzung (unter bestimmten Annahmen)
• fixed-effects-Schätzung: konsistente und effiziente Schätzung (unter bestimmten Annahmen)
• first-difference-Schätzung:konsistente und effiziente Schätzung (unter bestimmten Annahmen)
nein ja
Methodische Aspekte
• größter Nachteil der fe- bzw. fd-Modelle: Effekte zeitkonstanter UV können nicht geschätzt werden
• größter Nachteil des re-Modells: liefert verzerrte Schätzungen für Koeffizienten, wenn UV doch mit Individueneffekt korrelieren
Daten
• Sozio-ökonomisches Panel (SOEP) 1985-2001• nur Frauen, da TZ hauptsächlich weibliches Phänomen• Arbeiterinnen, Angestellte und Beamtinnen• nur Westdeutsche• abhängige Variable: ln(Bruttostundenlohn)• unabhängige Variablen:
– Humankapital: Alter und Alter² als Proxy für Berufserfahrung, Bildung, Anzahl vorheriger Arbeitslosigkeitsphasen
– weitere individuelle Variablen: Familienstand, Anzahl Kinder im HH
– Arbeitsplatzmerkmale: Teilzeit (regulär und marginal), Branche, Betriebsgröße, Befristung
Daten
• Bildung:– nahezu zeitkonstant für Erwerbstätige– Interaktionen mit anderen UV
Modelle nach Bildungskategorien getrennt berechnen (Kategorien angelehnt an CASMIN)
• niedriges Ausbildungslevel • mittleres berufliches Ausbildungslevel• mittleres allgemeines Ausbildungslevel• hohes Ausbildungslevel
• hier nur betrachtet: mittleres berufliches Ausbildungslevel
ErgebnisseTabelle I: OLS-, re- und fe-Schätzung; Frauen mit beruflichem Ausbildungslevel
OLS Random-
effects Fixed- effects
Differenz fixed-random effects
Teilzeit regulär
-0.050** (-8.38)
0.002 (0.30)
0.031** (4.30)
0.029
Teilzeit marginal
-0.248** (-24.10)
-0.100** (-9.86)
-0.024* (-2.11)
0.079
N 18.210 18.210 18.210 Anzahl Personen
4286 4286
Modelle kontrollieren nach Alter, Anzahl vorheriger Arbeitslosigkeitsphasen, Familienstand, Anzahl der Kinder unter 16 im HH, Befristung, Branche sowie Betriebsgröße Quelle: SOEP, eigene Berechnungen; * p<0.05 ** p<0.01
Hausman-Test: signifikante Abweichung der re- von der fe-Schätzung
Ergebnisse/STATA
• Signifikanztests im fe-Modell basieren auf Annahme homoskedastischer und seriell unkorrelierter Fehler uit
• sinnvolle Annahme?
• robuste Varianzschätzungen erlauben „konservative“ Schätzung der Standardfehler
• mögliches Problem dann: sehr große Standardfehler
ErgebnisseTabelle II: robuste fe-Schätzungen; Frauen mit beruflichem Ausbildungslevel
Fixed-effects Fixed-effects
robust 1 Fixed-effects robust 2
Teilzeit regulär
0.031** (4.30)
0.031** (3.51)
0.031** (2.72)
Teilzeit marginal
-0.024* (-2.11)
-0.024 (-1.15)
-0.024 (-0.88)
N 18.210 18.210 18.210 Anzahl Personen
4286 4286 4286
Modelle kontrollieren nach Alter, Anzahl vorheriger Arbeitslosigkeitsphasen, Familienstand, Anzahl der Kinder unter 16 im HH, Befristung, Branche sowie Betriebsgröße robust 1: robuste Varianzschätzung für heteroskedastische Fehler (robust-Option bei Regression auf transformierte Daten) robust 2: robuste Varianzschätzung für heteroskedastische und seriell korrelierte Fehler (in STATA nicht implementiert) Quelle: SOEP, eigene Berechnungen; * p<0.05 ** p<0.01
Ergebnisse
• Konsistenz der FE-Schätzer basiert auf Annahme der strikten Exogenität
Annahme: idiosynkratische Fehler uit korrelieren nicht mit:
• vergangenen Werten der UV– nach Kontrolle der UV haben Lags der UV keinen Einfluss auf
die AV
– Lösungsmöglichkeit: Aufnahme der Lags in das Modell
• aktuellen Werten der UV– nicht berücksichtigte Variablen, Simultanität, Messfehler
– Lösungsmöglichkeit: IV-Schätzung
• zukünftigen Werten der UV– feed-back-Modelle: uit bzw. yit hat Einfluss auf xit+s
– Lösungsmöglichkeit: IV-Schätzung
Ergebnisse/STATA
• Erzeugen von Lags und Leads – per Hand:
• verlangt Sorgfalt (Stichwort: Lücken im Panel)
• sicherster Weg: erzeugen eines „balanced panels“ (fillin)
– über tsset:• sicher (interne Kontrolle von Lücken)
• sehr bequem
ErgebnisseTabelle III: fe-Schätzung mit lags und leads; Frauen mit beruflichem Ausbildungslevel
Fixed-effects I Fixed-effects II Fixed-effects III
Teilzeit regulär 0.031** (4.30)
0.060** (6.32) 0.095** (8.54)
Lag1 -0.040** (-4.04) -0.041** (-3.78)
Lag2 -0.030** (-3.24) -0.020** (-2.08)
Lead1 -0.060** (-5.99)
Teilzeit marginal -0.024* (-2.11)
0.090** (5.07) 0.145** (6.85)
Lag1 -0.157** ( -9.01)
-0.104** (-5.33)
Lag2 -0.083** (-5.73)
-0.069** (-4.39)
Lead1 -0.132** (-7.01) N (Anz. Personen) 18.210 (4286) 11.126 (2290) 8823 (1842)
Modelle kontrollieren nach Alter, Anzahl vorheriger Arbeitslosigkeitsphasen, Familienstand, Anzahl der Kinder unter 16 im HH, Befristung, Branche sowie Betriebsgröße Quelle: SOEP, eigene Berechnungen; * p<0.05 ** p<0.01
Ergebnisse
• Aufnahme der Lags in das Modell: Interpretation als distributed lag-Modell
Tabelle IV: Effekt regulärer und marginaler Teilzeit in distributed-lag-Modell; Frauen mit beruflichem Ausbildungslevel
Teilzeit regulär Teilzeit marginal Differenz
Haupteffekt 0.060
0.090 n.s.
Lag1 -0.040 -0.157
sig.
Lag2 -0.030 -0.083
sig.
-0.010
-0.151
Ergebnisse
• weiterhin bestehende Probleme: – feed-back: über- oder unterdurchschnittlicher Stundenlohn
beeinflusst zukünftigen Vollzeit-/Teilzeit-Status
– mögliche kontemporäre Korrelation von Teilzeit und uit, z.B. aufgrund nicht beobachteter (zeitlich variabler) Effekte
• IV-Schätzungen als mögliche Lösung• hier jedoch problematisch, da
– endogene UV aus zwei Dummyvariablen besteht– auch die Lags instrumentiert werden müssen– gute, möglichst exklusive Instrumente rar sind
Ergebnisse
• Probleme durch Selektion?– nur dann problematisch, wenn für Selektion verantwortliche
Variablen mit uit bzw. yit korrelieren
– Panelmodelle kontrollieren bereits nach unbeobachteten zeitkonstanten Individueneffekte
– dennoch ist Selektionsproblematik relevant
• Welche Selektion?– Selektion in AV– Missing data in AV und/oder UV– Panelausfälle
Ergebnisse
• hier von Interesse: erzeugt das Hinzunehmen der Lags ein Selektionsproblem?
• mögliche Tests: – Unterschiede in Koeffizienten im restringierten und
unrestringierten Sample– Indikatorvariable, ob vorangegangene Beobachtung mit im
Modell ist oder nicht (dabei Verlust einer Beobachtung pro Individuum)
Ergebnisse
Tabelle V: Selektionseffekte durch Einführung der Lag-Variablen; Frauen mit beruflichem Ausbildungslevel
“volles Sample” selektives Sample Differenz
Teilzeit regulär
0.031** (4.30)
-0.006 (-0.80)
-0.037
Teilzeit marginal
-0.024* (-2.11)
-0.099** (-6.96)
-0.074
N 18.210 11.126 Anzahl Personen
4286 2290
ohne Lag-Variablen
Hausman-Test: signifikante Abweichungen
Ergebnisse
Tabelle VI: Selektionseffekte durch Einführung der Lag-Variablen II; Frauen mit beruflichem Ausbildungslevel
Indikator s-1 0.019**
(3.82) N 10749 Anzahl Personen 2209
Ergebnisse
• mögliche Korrektur der Selektionsverzerrung: Verfahren nach Wooldridge
• ähnelt der Heckman-Korrektur, Schätzung eines Probit-Modells für Inklusionswahrscheinlichkeit
• deshalb auch hier: zusätzliche Variablen für Probit-Modell benötigt, die nicht in Einkommensgleichung sind
• Kandidaten hier: Familienstand und Anzahl der Kinder im HH (beide Effekte nicht signifikant)
ErgebnisseTabelleVII: fe-Schätzung mit mit Selektionskorrektur; Frauen mit beruflichem Ausbildungslevel
ohne Korrektur mit Selektionskorrektur
Teilzeit regulär 0.060** (6.32) 0.041** (2.91)
Lag1 -0.040** (-4.04) -0.071** (-4.29)
Lag2 -0.030** (-3.24) -0.055** (-4.06)
Teilzeit marginal 0.090** (5.07) -0.001 (-0.36)
Lag1 -0.157** ( -9.01)
-0.228** (-8.35)
Lag2 -0.083** (-5.73) -0.169** (-7.78) N (Anz. Personen) 11.126 (2290) 11.126 (2290)
Fazit
• inhaltlich:
– Beschäftigungsform der Teilzeit hat Effekt auf Arbeitseinkommen– positiver Anfangseffekt wird durch negative Karriereeffekte
konterkariert – deutliche Unterschiede zwischen regulärer und marginaler Teilzeit – Prozesse der Selbstselektion in Teilzeit zu erkennen, am
deutlichsten für marginale Teilzeit
Fazit
• methodisch:– Panelmodelle mit deutlichen Vorteilen gegenüber
Analyseverfahren für Querschnittsdaten• Kontrolle von unbeobachteter Heterogenität (wichtig für konsistente
Schätzung der Parameter)
• flexiblere Modellgestaltung (z.B. Testen des Einflusses von Lags)
– jedoch: sorgfältige Überprüfung der Annahme unbedingt notwendig
– Selektionseffekte können wichtig werden (hier z.B. nicht behandelt: Selektion aufgrund von Panelausfällen)
Fazit
• STATA:
– Grundlagenbefehle vorhanden, werden erkennbar ausgebaut (siehe STATA 8)
– für weitergehende Modelle: eigenes Programmieren notwendig– Tests auf Annahmeverletzungen sollten verstärkt implementiert
werden (wie etwa Diagnosemöglichkeiten für OLS)