Einkommensanalysen mit Paneldaten Vortrag zum STATA User-Meeting August 2003 Berlin Johannes Giesecke Humboldt Universität zu Berlin Institut für Sozialwissenschaften

Einkommensanalysen mit Paneldaten

Vortrag zum STATA User-MeetingAugust 2003 Berlin

Johannes GieseckeHumboldt Universität zu Berlin

Institut für Sozialwissenschaften

Gliederung

1. Theoretische Vorüberlegungen zum Thema

2. Methodische Aspekte

3. Beschreibung der Daten

4. Ergebnisse/Umsetzung mit STATA

5. Fazit

Theorie

• Einkommensmodelle:– klassische Humankapitalmodelle (z.B. Mincer,

Becker): Bildung und Berufserfahrung– erweiterte Modelle: angebotsseitige Charakteristika

(z.B. sozio-strukturelle Merkmale der Individuen) sowie nachfrageseitige Faktoren (z.B. Branche, Betriebsgröße)

• bisher weniger untersucht: Effekte „flexibler“ Beschäftigungsformen (z.B. Befristung, Teilzeit)

Theorie

• hier von Interesse: Teilzeit

• Einkommenseffekte von Teilzeit: – Arbeitseinkommen pro Stunde (hier: Bruttoeinkommen)

• Hypothesen zu Einkommenseffekten von Teilzeit: sowohl positive als auch negative Effekte zu erwarten

Theorie

• positive Einkommenseffekte zu erwarten aufgrund von:

– Produktivitätssteigerung– weniger unbezahlten Überstunden, damit höherer

Stundenlohn– Anreizsetzung von Seiten der Unternehmen mit Ziel

der Erhöhung der Flexibilität

Theorie

• negative Einkommenseffekte zu erwarten aufgrund von:

– geringerer Produktivität wegen geringerem Humankapital

– karrierehemmender Wirkung von TZ– Brutto-/Nettoeffekt der progressiven Besteuerung

Theorie

• weitere Überlegungen:– Teilzeit homogenes Phänomen?

• reguläre Teilzeit (16-34 Stunden/Woche)• marginale Teilzeit (bis zu 15 Stunden/Woche)

– Effekte abhängig von Stellung im Arbeitsmarkt?• z.B. Interaktion von Teilzeit mit Bildung

– Selektionseffekte• bestimmter Typus von ArbeitnehmerInnen in Teilzeit?

Methodische Aspekte

• Schätzungen von Einkommensgleichungen mit Querschnittsdaten (einmalig erhobene Daten)

0 1 1 ...i i K iK iy x x u

• typische Probleme für OLS-Schätzung: – heteroskedastische Fehler ui

– endogene unabhängige Variablen

Methodische Aspekte

• Heteroskedastizität: – inkorrekte Berechnung der Standardfehler

– kann mit robuster Varianzschätzung oder GLS-Schätzung korrigiert werden

• Endogene UV:– verzerrte Schätzung der Koeffizienten– mögliche Lösung: IV-Schätzung (z.B. 2SLS) mit

Instrumenten für diejenigen x, die mit Fehlerkorrelieren

– Beispiel: Teilzeit korreliert mit (unbeobachteter)Motivation/Erwerbsneigung

Methodische Aspekte

• Paneldaten erlauben Schätzung des Modells:

0 1 1 ...it i t K iKt i ity x x c u

• hier neu: unbeobachteter Individueneffekt ci (als zeitkonstant angenommen)

• damit Problem der Endogenität abgeschwächt, jedoch noch nicht vollständig beseitigt

• Wahl des Schätzverfahrens hängt zunächst von nur einer Frage ab:

Korrelieren einige/alle der UV mit dem unbeobachteten Individueneffekt ci ?

Methodische Aspekte

Korrelieren einige/alle der UV mit dem unbeobachteten Individueneffekt ci ?

• OLS-Schätzung: konsistente Schätzer für Koeffizienten, jedoch keine effiziente Schätzung

• random-effects-Schätzung:konsistente und effiziente Schätzung (unter bestimmten Annahmen)

• fixed-effects-Schätzung: konsistente und effiziente Schätzung (unter bestimmten Annahmen)

• first-difference-Schätzung:konsistente und effiziente Schätzung (unter bestimmten Annahmen)

nein ja

Methodische Aspekte

• größter Nachteil der fe- bzw. fd-Modelle: Effekte zeitkonstanter UV können nicht geschätzt werden

• größter Nachteil des re-Modells: liefert verzerrte Schätzungen für Koeffizienten, wenn UV doch mit Individueneffekt korrelieren

Daten

• Sozio-ökonomisches Panel (SOEP) 1985-2001• nur Frauen, da TZ hauptsächlich weibliches Phänomen• Arbeiterinnen, Angestellte und Beamtinnen• nur Westdeutsche• abhängige Variable: ln(Bruttostundenlohn)• unabhängige Variablen:

– Humankapital: Alter und Alter² als Proxy für Berufserfahrung, Bildung, Anzahl vorheriger Arbeitslosigkeitsphasen

– weitere individuelle Variablen: Familienstand, Anzahl Kinder im HH

– Arbeitsplatzmerkmale: Teilzeit (regulär und marginal), Branche, Betriebsgröße, Befristung

Daten

• Bildung:– nahezu zeitkonstant für Erwerbstätige– Interaktionen mit anderen UV

Modelle nach Bildungskategorien getrennt berechnen (Kategorien angelehnt an CASMIN)

• niedriges Ausbildungslevel • mittleres berufliches Ausbildungslevel• mittleres allgemeines Ausbildungslevel• hohes Ausbildungslevel

• hier nur betrachtet: mittleres berufliches Ausbildungslevel

ErgebnisseTabelle I: OLS-, re- und fe-Schätzung; Frauen mit beruflichem Ausbildungslevel

OLS Random-

effects Fixed- effects

Differenz fixed-random effects

Teilzeit regulär

-0.050** (-8.38)

0.002 (0.30)

0.031** (4.30)

0.029

Teilzeit marginal

-0.248** (-24.10)

-0.100** (-9.86)

-0.024* (-2.11)

0.079

N 18.210 18.210 18.210 Anzahl Personen

4286 4286

Modelle kontrollieren nach Alter, Anzahl vorheriger Arbeitslosigkeitsphasen, Familienstand, Anzahl der Kinder unter 16 im HH, Befristung, Branche sowie Betriebsgröße Quelle: SOEP, eigene Berechnungen; * p<0.05 ** p<0.01

Hausman-Test: signifikante Abweichung der re- von der fe-Schätzung

Ergebnisse/STATA

• Signifikanztests im fe-Modell basieren auf Annahme homoskedastischer und seriell unkorrelierter Fehler uit

• sinnvolle Annahme?

• robuste Varianzschätzungen erlauben „konservative“ Schätzung der Standardfehler

• mögliches Problem dann: sehr große Standardfehler

ErgebnisseTabelle II: robuste fe-Schätzungen; Frauen mit beruflichem Ausbildungslevel

Fixed-effects Fixed-effects

robust 1 Fixed-effects robust 2

Teilzeit regulär

0.031** (4.30)

0.031** (3.51)

0.031** (2.72)

Teilzeit marginal

-0.024* (-2.11)

-0.024 (-1.15)

-0.024 (-0.88)

N 18.210 18.210 18.210 Anzahl Personen

4286 4286 4286

Modelle kontrollieren nach Alter, Anzahl vorheriger Arbeitslosigkeitsphasen, Familienstand, Anzahl der Kinder unter 16 im HH, Befristung, Branche sowie Betriebsgröße robust 1: robuste Varianzschätzung für heteroskedastische Fehler (robust-Option bei Regression auf transformierte Daten) robust 2: robuste Varianzschätzung für heteroskedastische und seriell korrelierte Fehler (in STATA nicht implementiert) Quelle: SOEP, eigene Berechnungen; * p<0.05 ** p<0.01

Ergebnisse

• Konsistenz der FE-Schätzer basiert auf Annahme der strikten Exogenität

Annahme: idiosynkratische Fehler uit korrelieren nicht mit:

• vergangenen Werten der UV– nach Kontrolle der UV haben Lags der UV keinen Einfluss auf

die AV

– Lösungsmöglichkeit: Aufnahme der Lags in das Modell

• aktuellen Werten der UV– nicht berücksichtigte Variablen, Simultanität, Messfehler

– Lösungsmöglichkeit: IV-Schätzung

• zukünftigen Werten der UV– feed-back-Modelle: uit bzw. yit hat Einfluss auf xit+s

– Lösungsmöglichkeit: IV-Schätzung

Ergebnisse/STATA

• Erzeugen von Lags und Leads – per Hand:

• verlangt Sorgfalt (Stichwort: Lücken im Panel)

• sicherster Weg: erzeugen eines „balanced panels“ (fillin)

– über tsset:• sicher (interne Kontrolle von Lücken)

• sehr bequem

ErgebnisseTabelle III: fe-Schätzung mit lags und leads; Frauen mit beruflichem Ausbildungslevel

Fixed-effects I Fixed-effects II Fixed-effects III

Teilzeit regulär 0.031** (4.30)

0.060** (6.32) 0.095** (8.54)

Lag1 -0.040** (-4.04) -0.041** (-3.78)

Lag2 -0.030** (-3.24) -0.020** (-2.08)

Lead1 -0.060** (-5.99)

Teilzeit marginal -0.024* (-2.11)

0.090** (5.07) 0.145** (6.85)

Lag1 -0.157** ( -9.01)

-0.104** (-5.33)

Lag2 -0.083** (-5.73)

-0.069** (-4.39)

Lead1 -0.132** (-7.01) N (Anz. Personen) 18.210 (4286) 11.126 (2290) 8823 (1842)

Modelle kontrollieren nach Alter, Anzahl vorheriger Arbeitslosigkeitsphasen, Familienstand, Anzahl der Kinder unter 16 im HH, Befristung, Branche sowie Betriebsgröße Quelle: SOEP, eigene Berechnungen; * p<0.05 ** p<0.01

Ergebnisse

• Aufnahme der Lags in das Modell: Interpretation als distributed lag-Modell

Tabelle IV: Effekt regulärer und marginaler Teilzeit in distributed-lag-Modell; Frauen mit beruflichem Ausbildungslevel

Teilzeit regulär Teilzeit marginal Differenz

Haupteffekt 0.060

0.090 n.s.

Lag1 -0.040 -0.157

sig.

Lag2 -0.030 -0.083

sig.

-0.010

-0.151

Ergebnisse

• weiterhin bestehende Probleme: – feed-back: über- oder unterdurchschnittlicher Stundenlohn

beeinflusst zukünftigen Vollzeit-/Teilzeit-Status

– mögliche kontemporäre Korrelation von Teilzeit und uit, z.B. aufgrund nicht beobachteter (zeitlich variabler) Effekte

• IV-Schätzungen als mögliche Lösung• hier jedoch problematisch, da

– endogene UV aus zwei Dummyvariablen besteht– auch die Lags instrumentiert werden müssen– gute, möglichst exklusive Instrumente rar sind

Ergebnisse

• Probleme durch Selektion?– nur dann problematisch, wenn für Selektion verantwortliche

Variablen mit uit bzw. yit korrelieren

– Panelmodelle kontrollieren bereits nach unbeobachteten zeitkonstanten Individueneffekte

– dennoch ist Selektionsproblematik relevant

• Welche Selektion?– Selektion in AV– Missing data in AV und/oder UV– Panelausfälle

Ergebnisse

• hier von Interesse: erzeugt das Hinzunehmen der Lags ein Selektionsproblem?

• mögliche Tests: – Unterschiede in Koeffizienten im restringierten und

unrestringierten Sample– Indikatorvariable, ob vorangegangene Beobachtung mit im

Modell ist oder nicht (dabei Verlust einer Beobachtung pro Individuum)

Ergebnisse

Tabelle V: Selektionseffekte durch Einführung der Lag-Variablen; Frauen mit beruflichem Ausbildungslevel

“volles Sample” selektives Sample Differenz

Teilzeit regulär

0.031** (4.30)

-0.006 (-0.80)

-0.037

Teilzeit marginal

-0.024* (-2.11)

-0.099** (-6.96)

-0.074

N 18.210 11.126 Anzahl Personen

4286 2290

ohne Lag-Variablen

Hausman-Test: signifikante Abweichungen

Ergebnisse

Tabelle VI: Selektionseffekte durch Einführung der Lag-Variablen II; Frauen mit beruflichem Ausbildungslevel

Indikator s-1 0.019**

(3.82) N 10749 Anzahl Personen 2209

Ergebnisse

• mögliche Korrektur der Selektionsverzerrung: Verfahren nach Wooldridge

• ähnelt der Heckman-Korrektur, Schätzung eines Probit-Modells für Inklusionswahrscheinlichkeit

• deshalb auch hier: zusätzliche Variablen für Probit-Modell benötigt, die nicht in Einkommensgleichung sind

• Kandidaten hier: Familienstand und Anzahl der Kinder im HH (beide Effekte nicht signifikant)

ErgebnisseTabelleVII: fe-Schätzung mit mit Selektionskorrektur; Frauen mit beruflichem Ausbildungslevel

ohne Korrektur mit Selektionskorrektur

Teilzeit regulär 0.060** (6.32) 0.041** (2.91)

Lag1 -0.040** (-4.04) -0.071** (-4.29)

Lag2 -0.030** (-3.24) -0.055** (-4.06)

Teilzeit marginal 0.090** (5.07) -0.001 (-0.36)

Lag1 -0.157** ( -9.01)

-0.228** (-8.35)

Lag2 -0.083** (-5.73) -0.169** (-7.78) N (Anz. Personen) 11.126 (2290) 11.126 (2290)

Fazit

• inhaltlich:

– Beschäftigungsform der Teilzeit hat Effekt auf Arbeitseinkommen– positiver Anfangseffekt wird durch negative Karriereeffekte

konterkariert – deutliche Unterschiede zwischen regulärer und marginaler Teilzeit – Prozesse der Selbstselektion in Teilzeit zu erkennen, am

deutlichsten für marginale Teilzeit

Fazit

• methodisch:– Panelmodelle mit deutlichen Vorteilen gegenüber

Analyseverfahren für Querschnittsdaten• Kontrolle von unbeobachteter Heterogenität (wichtig für konsistente

Schätzung der Parameter)

• flexiblere Modellgestaltung (z.B. Testen des Einflusses von Lags)

– jedoch: sorgfältige Überprüfung der Annahme unbedingt notwendig

– Selektionseffekte können wichtig werden (hier z.B. nicht behandelt: Selektion aufgrund von Panelausfällen)

Fazit

• STATA:

– Grundlagenbefehle vorhanden, werden erkennbar ausgebaut (siehe STATA 8)

– für weitergehende Modelle: eigenes Programmieren notwendig– Tests auf Annahmeverletzungen sollten verstärkt implementiert

werden (wie etwa Diagnosemöglichkeiten für OLS)

Documents

Einkommensanalysen mit Paneldaten Vortrag zum STATA User-Meeting August 2003 Berlin Johannes Giesecke Humboldt Universität zu Berlin Institut für Sozialwissenschaften