Datensatzmanagement mit Stata - uni-kassel.de · verankert: „Soziologie soll heißen: Eine Wissenschaft, welche soziales Handeln deutend verste- hen und dadurch in seinem Ablauf

Ulrike Schwabe & Niklas Jungermann

Universität Kassel

Fachgebiet Methoden der empirischen Sozialforschung

Fachbereich 05 Gesellschaftswissenschaften

Kontakt: [email protected]

[email protected]

Letztes Update:11.09.2018

Datensatzmanagement mit Stata

Eine anwendungsorientierte Einführung zur Analyse von Längs-

schnittdaten am Beispiel der Daten des Nationalen Bildungspanels

(NEPS).

Einleitung

© Schwabe & Jungermann 2017

Diese Handreichung wurde für die Teilnehmer von forschungspraktischen

Seminaren im Bachelor und Master Soziologie an der Universität Kassel er-

stellt. Als Vorlage diente ein Skript zum „Datensatzmanagement“ (Raab et

al. 2007), welches im Rahmen der „Einführung in die Statistiksoftware Sta-

ta“ an der Otto-Friedrich-Universität Bamberg im Sommersemester 2007

eingesetzt wurde.

Wir bedanken uns beim gesamten Team der Professur für Methoden empi-

rischer Sozialforschung sowie interessierten Studierenden in den Lehrver-

anstaltungen für hilfreiche Kommentare und Anmerkungen zu früheren

Versionen des vorliegenden Manuskriptes.

Zitation: Schwabe, Ulrike / Jungermann, Niklas (2016): Datensatzmanagement mit Stata. Eine anwen-

dungsorientierte Einführung zur Analyse von Längsschnittdaten am Beispiel der Daten des Nati-

onalen Bildungspanels (NEPS). Universität Kassel: Unveröffentlichtes Manuskript.

Einleitung


Inhaltsverzeichnis 1. Einleitung ..................................................................................................................................................................... 1

1.1 Thematische Einführung ............................................................................................................................. 2

2. Kausalanalyse mit Paneldaten ............................................................................................................................ 3

2.1 Untersuchungsdesigns: Querschnitt-, Trend- und Paneldesign .................................................. 3

2.2 Nutzung von Paneldaten zur Absicherung kausaler Inferenz ...................................................... 8

3. Die Datenmatrix ..................................................................................................................................................... 12

4. Datenaufbereitung I: Einführung .................................................................................................................... 13

4.1 Die Kommandostruktur in Stata ............................................................................................................ 15

4.2 Erste Schritte: Den Datensatz öffnen ................................................................................................... 19

4.3 Erste Schritte: Einen Überblick über die Daten verschaffen ..................................................... 20

4.4 Dokumentation der Arbeitsschritte im „Do-File“ ........................................................................... 25

5. Datenaufbereitung II: Datensatzerstellung und Variablenaufbereitung ........................................ 27

5.1 Zusammenführen von (Teil-)Datensätzen ........................................................................................ 27

5.1.1 Der merge-Befehl ............................................................................................................................... 27

5.1.2 Der append-Befehl ............................................................................................................................. 30

5.2 Umwandeln der Datenstruktur: „long- und wide-Format“ ........................................................ 31

5.3 Generieren und Verändern von Variablen ........................................................................................ 34

6. Datenaufbereitung III: Umgang mit fehlenden Werten ......................................................................... 36

6.1 Missing values definieren ......................................................................................................................... 38

6.2 Fallweiser Ausschluss („listwise deletion“) ...................................................................................... 39

6.3 Imputation ...................................................................................................................................................... 40

6.4 Gewichtung ..................................................................................................................................................... 43

7. Verfahrensablauf/Workflow und Checkliste ............................................................................................. 44

8. Einkommenssteigerung durch Weiterbildung? ........................................................................................ 45

9. Allgemeine Hinweise für einen schnellen Einstieg in die Analysesoftware Stata ...................... 47

10. Literaturverzeichnis ............................................................................................................................................. 50

11. Anhang ......................................................................................................................................................................... 53

Einleitung


Abbildungsverzeichnis Abbildung 1: Webcomic zur Unterscheidung von Korrelation und Kausalität ........................................ 1

Abbildung 2: Querschnittsdesign ................................................................................................................................ 5

Abbildung 3: Trenddesign .............................................................................................................................................. 6

Abbildung 4: Paneldesign ............................................................................................................................................... 7

Abbildung 5: Einfluss einer unbeobachteten Drittvariablen ........................................................................... 8

Abbildung 6: Endogenität ............................................................................................................................................... 9

Abbildung 7: Mehrebenenstruktur von Paneldaten ......................................................................................... 10

Abbildung 8: Datenmatrix (Allgemeiner Aufbau) ............................................................................................. 12

Abbildung 9: Interface Stata 12.1 ............................................................................................................................. 14

Abbildung 10: Histogramm ......................................................................................................................................... 23

Abbildung 11: Box Plot ................................................................................................................................................. 24

Abbildung 12: Ausführlich dokumentierter Do-File......................................................................................... 26

Abbildung 13: Verwendung von Spelldaten zur Erfassung des Erwerbsstatus .................................... 27

Tabellenverzeichnis Tabelle 1: Bivariater Zusammenhang zwischen Weiterbildung und dem logarithmierten

Nettoeinkommen ............................................................................................................................................................... 3

Tabelle 2: Unterscheidung verschiedener Erhebungsdesigns ........................................................................ 4

Tabelle 3: Datenmatrix (Beispiel NEPS) ................................................................................................................ 13

Tabelle 4: Empfohlene Schreibweise von Variablen ........................................................................................ 16

Tabelle 5: Abkürzung von Variablen ....................................................................................................................... 17

Tabelle 6: Operatoren ................................................................................................................................................... 18

Tabelle 7: Kommentare in Stata ................................................................................................................................ 25

Tabelle 8: Long Format ................................................................................................................................................. 32

Tabelle 9: Wide Format ................................................................................................................................................ 32

Tabelle 10: Regeln des recode-Befehls ................................................................................................................... 35

Tabelle 11: Unterschiedliche Arten des Missingmechanismus.................................................................... 37

Tabelle 12: Kodierung fehlender Werte im NEPS ............................................................................................. 38

Tabelle 13: Anordnungsoptionen Imputation .................................................................................................... 42

Tabelle 14: Registrierungsarten der multiplen Imputation .......................................................................... 42

Tabelle 15: Einfluss von Weiterbildung auf das Einkommen ...................................................................... 46

Einleitung

© Schwabe & Jungermann 2017 1

1. Einleitung Jenseits thematischer Schwerpunktsetzungen sind in der Beschreibung gesellschaftlicher Phä-

nomene und im Aufdecken kausaler Wirkungszusammenhänge die beiden Oberziele der quanti-

tativ-empirischen Sozialwissenschaften zu sehen. Bereits Max Weber, einer der Gründungsväter

der Soziologie, hat diese beiden Zielsetzungen explizit in einer allgemeinen Definition des Faches

verankert: „Soziologie soll heißen: Eine Wissenschaft, welche soziales Handeln deutend verste-

hen und dadurch in seinem Ablauf und seinen Wirkungen ursächlich erklären will.“ (Weber

1921, 1988).

Die Frage nach Kausalität und damit ursächlichen Wirkungen ist besonders wichtig, um Fehl-

schlüsse und Fehlinterpretationen und, soweit damit einhergehend, falsche Handlungsempfeh-

lungen zu vermeiden. Dies sei an einem Beispiel verdeutlicht: Frank Messerli (2012) zeigte, dass

der Anteil an Nobelpreisträgern in einem Land höher ist, wenn dort mehr Schokolade konsu-

miert wird. Es könnte nun, und Messerli tut dies auch, angenommen werden, dass Schokolade

einen positiven Einfluss auf die Intelligenz und dadurch vermittelt auf die Anzahl der Nobel-

preisträger habe. Es ist offensichtlich, dass dies eine gewagte Interpretation der positiven Korre-

lation zwischen Schokoladenkonsum und dem Anteil an Nobelpreisträgern ist. Stattdessen ist zu

vermuten, dass in wohlhabenden Ländern zum einen mehr Schokolade konsumiert und zum

anderen mehr in Bildung investiert wird, weswegen der gefundene Zusammenhang durch den

Wohlstand des Landes erklärt werden kann. Die positive Korrelation ist zwar empirisch vorhan-

den, jedoch gibt es keinen ursächlichen Einfluss des Schokoladenkonsums. Ein ähnliches Bei-

spiel, dass in der Standardeinführungsliteratur häufig verwendet wird, ist der Zusammenhang

zwischen dem Aufkommen von Störchen und der Geburtenrate einer Region. Auch in diesem

Beispiel haben die Störche keinen eigenständigen Einfluss auf die Fertilität des Menschen

(Diekmann 2009: 67).

Abbildung 1: Webcomic zur Unterscheidung von Korrelation und Kausalität

1

Die Suche nach der eigentlichen Ursache ist jedoch oft nicht immer so einfach, da manche Korre-

lationen in den Daten auf den ersten Blick – wie auch im Comic anschaulich verdeutlicht - durch-

aus plausibel erscheinen. Die Frage nach dem Ziehen von kausalen Schlüssen (vgl. Kapitel 2.2 für

1 xkcd. A webcomic of romance, sarcasm, math, and language. Empfangen von https://xkcd.com/552/. Letzter Zugriff: 01.04.2017.

Einleitung


eine Einführung in die Kausalität) beschäftigt Sozialwissenschaftlicher (und nicht nur diese)

verschiedenster Themenbereiche, sodass Forschern mittlerweile eine Vielzahl an Möglichkeiten

zur Absicherung kausaler Inferenz zur Verfügung stehen. Neben Verfahren wie Matching (Gangl

2010), Instrumentvariablen (Morgan und Winship 2007) oder Experimenten (Shadish et al.

2002), sind Paneldaten (für eine Einführung siehe Brüderl 2010) besonders gut für Kausalanaly-

sen geeignet (vergleiche Kapitel 2). Gegenüber Querschnittsdaten zeichnen sich Längsschnittde-

signs dadurch aus, dass die jeweiligen Untersuchungseinheiten zu mehreren Zeitpunkten be-

fragt werden. Daraus resultiert ein informationsreicher, aber komplexer Datensatz. Trotz oder

gerade aufgrund des höheren Informationsgehaltes sind Paneldatensätze ohne ein effektives

Datensatzmanagement kaum sinnvoll zu analysieren. Die vorliegende Handreichung gibt des-

halb Hilfestellungen im Umgang mit diesen komplexen Längsschnittdatensätzen am Beispiel der

Daten des Nationalen Bildungspanels (NEPS).

In den letzten Jahrzehnten hat sich die Dateninfrastruktur in Deutschland und Europa stark

verbessert (Rat für Sozial- und WirtschaftsDaten 2015): Es gibt mittlerweile eine ganze Reihe an

Paneldatensätzen wie beispielsweise das Sozio-oekonomische Panel (SOEP), das Beziehungs-

und Familienpanel (Pairfam), den Survey of Health, Ageing and Retirement in Europe (SHARE),

sowie weitere nationale und internationale Studien, die als Längsschnitt konzipiert sind. Das

Vorgehen zur Datenaufbereitung und -auswertung kann analog auf all diese Datensätze übertra-

gen werden.

Im Folgenden werden zunächst die Vorteile von Längsschnittdaten auf Individualebene gegen-

über Trend- und Querschnittsdaten zur sozialwissenschaftlichen Analyse diskutiert und deren

Analysepotenzial dargestellt. In mehreren Schritten wird daran anschließend in die Statis-

tiksoftware „Stata“ eingeführt. Im Zuge dessen werden der Aufbau der Datenmatrix, grundle-

gende Befehle für einen Einblick in die Daten, die Dokumentation der eigenen Arbeit in soge-

nannten „Do-Files“ und die Handhabung mehrerer (Teil-)Datensätze sowie der Umgang mit feh-

lenden Werten thematisiert.

Um die einzelnen Schritte möglichst anschaulich darzustellen, werden diese anhand einer kon-

kreten Fragestellung mit der Erwachsenenkohorte (SC06) des NEPS (Blossfeld et al. 2011; Roß-

bach und NEPS, National Educational Panel Study 2015) exemplarisch umgesetzt.

1.1 Thematische Einführung Lebenslanges Lernen hat sich in den vergangenen zwei Jahrzehnten zu einem wichtigen Para-

digma für Wettbewerbsfähigkeit auf dem Arbeitsmarkt entwickelt (vgl. European Commission

2010, European Council 2000). Die Vermutung hierbei ist, dass Weiterbildungsmaßnahmen in

einer Wissensgesellschaft zu spürbaren Vorteilen derjenigen führen, die sich konstant weiter-

bilden. Eine erste, bivariate Regression des logarithmierten Nettoeinkommens auf die Teilnah-

me an einer Weiterbildungsmaßnahme scheint diesen Befund zu bestätigen (Tabelle 1).

Kausalanalyse mit Paneldaten


Tabelle 1: Bivariater Zusammenhang zwischen Weiterbildung und dem logarithmierten Nettoeinkommen

Model 1

Pooled OLS Teilnahme an Weiterbildung

0.339*** (0.012)

Beobachtungen 26043 Standardfehler in Klammern; * p < 0.05, ** p < 0.01, *** p < 0.001;

Panel-robuste Standardfehler.

Hier zeigt sich, dass das Nettoeinkommen von Befragten, die an Weiterbildungsmaßnahmen

teilgenommen haben, um 33,9 Prozent ansteigt. Nur durch die Teilnahme an einer Weiterbil-

dung ist es nach diesem Ergebnis also möglich, sein Einkommen um knapp ein Drittel zu erhö-

hen. Wenngleich das Ergebnis die politischen Bestrebungen nach einem Ausbau beruflicher Wei-

terbildungsmaßnahmen zunächst bestätigt, gibt es berechtigte Zweifel an der Validität dieses

Ergebnisses (vgl. Wolter und Schiener 2009). Andere Untersuchungen finden deutlich geringere

(Wolter und Schiener 2009) oder gar keine Effekte (Pischke 2001), ähnlich hohe Effekte werden

in keiner wissenschaftlichen Untersuchung gefunden. Es bleibt daher die Frage, ob der Einkom-

mensanstieg in diesem Fall deutlich überschätzt wurde oder ob der Einfluss von Weiterbildung

im Verlauf der letzten zehn Jahre deutlich zugenommen hat. Diese Frage begleitet das weitere

Vorgehen, sodass mit Informationen dieser Handreichung am Ende der kausale Effekt von Wei-

terbildung auf das Einkommen geschätzt werden kann.

Zunächst wird daher geklärt, welchen Vorteil Paneldaten bei der Beantwortung dieser Fragestel-

lung haben und weswegen sie sich besser als andere Erhebungsdesigns zur Analyse kausaler

Effekte eignen.

2. Kausalanalyse mit Paneldaten

2.1 Untersuchungsdesigns: Querschnitt-, Trend- und Paneldesign Die Frage nach dem Untersuchungsdesign stellt sich zu Beginn jedes Datenerhebungsprozesses.

Da jedes Design, Querschnitt-, Trend- und Paneldesign, spezielle Vorteile, aber auch entspre-

chende Nachteile hat, gilt es Nutzen und Kosten je nach Fragestellung, und damit dem Erkennt-

nisziel, abzuwägen. Gerade die zu erfragenden Inhalte können die Auswahl des Designs beein-

flussen: Während manche Fragestellungen mit Querschnittsdaten beantwortet werden können,

ist es bei anderen wiederum schwer, belastbare empirische Antworten ohne Paneldaten zu er-

halten. Schwer abrufbare Informationen, beispielsweise Einstellungen und Ansichten, die in der

Vergangenheit liegen, lassen sich kaum retrospektiv im Querschnitt erfassen, da sich die Befrag-

ten zum Erhebungszeitpunkt nicht mehr gut genug an ihre damalige Einstellung erinnern kön-

nen (vgl. Diekmann 2009: 313 f.). Eine Entscheidung darüber, welches Design für die eigene Fra-

gestellung angemessen ist, setzt fundierte Kenntnisse in den grundlegenden Unterschieden und

den spezifischen Analysepotentialen voraus. Nach Diekmann (2009: 304 ff.) lassen sich inhalt-

lich drei zentrale Punkte unterscheiden:



Tabelle 2: Unterscheidung verschiedener Erhebungsdesigns

Design Unterscheidungspunkte

Kann verwendet werden zur Mes-sung von:

1) Auswahl der Variablen

2) Erhebungs-zeitpunkte

3) Stichproben-zusammenset-zung

Quer-schnittsde-sign

Eine Themengelei-tete Auswahl an Variablen

Ein Messzeit-punkt

Eine Stichprobe Unterschieden zwi-schen Personen und Gruppen

Trenddesign Eine Themengelei-tete Auswahl an gleichen Variablen

Mehrere Mess-zeitpunkte

Zu jedem Mess-zeitpunkt ver-schiedene Stich-proben

Veränderungen und Entwicklungen auf Aggregatebene

Paneldesign Eine Themengelei-tete Auswahl an gleichen Variablen

Mehrere Mess-zeitpunkte

Zu jedem Mess-zeitpunkt die gleiche Stichpro-be

Veränderungen auf Individualebene

(Diekmann 2009: 304ff)

Jedes Design bietet individuelle Vor- und Nachteile, die Auswahl des Forschungsdesign sollte

daher in Abhängigkeit der interessierenden Fragestellung getroffen werden.

Querschnittsdesign:

Bei einer Querschnittserhebung wird (1) eine bestimmte Zusammensetzung von Variablen an

(2) einem Messzeitpunkt innerhalb (3) einer Stichprobe gemessen.

Fragen nach der beruflichen Stellung, dem eigenen Bildungsabschluss oder dem aktuellen Ein-

kommen können im Querschnittdesign erhoben und ausgewertet werden (Leuze und Strauß

2009). Mit dieser Datengrundlage ist es möglich, Unterschiede zwischen Gruppen innerhalb der

Stichprobe zu ermitteln. Kausalanalysen sind jedoch, aufgrund des einmaligen Erhebungszeit-

punktes, schwer durchführbar, da Endogenität, d.h. die Korrelation von unkontrollierten Stör-

größen mit den erklärenden Variablen (vgl. Kapitel 2.2), nicht ausgeschlossen werden kann und

diese die Unverzerrtheit der Messung ernsthaft gefährden kann. Außerdem können keine zeitli-

chen Veränderungen (außer über Retrospektivfragen und diese sind, je nach Zeitraum und Fra-

gegegenstand, äußerst unzuverlässig) erfasst werden. Dafür ist das Design vergleichsweise

günstig und unaufwendig, da die Befragung nur zu einem Zeitpunkt durchgeführt wird (vgl.

Diekmann 2009: 306).



Abbildung 2: Querschnittsdesign

Trenddesign:

Das Trenddesign erfasst (1) eine bestimmte Zusammensetzung von gleichen Variablen an (2)

mehreren Messzeitpunkten, dabei wird (3) jedes Mal eine neue Stichprobe gezogen.

Die Entwicklung der Arbeitslosenquote oder der Kriminalitätsrate sind typische Daten, die im

Trenddesign erfasst werden. Zentral ist hierbei, dass nur Veränderungen auf aggregierter Ebene

erfasst werden können, individuelle Arbeits-, Bildungs- oder Kriminalitätsentwicklungen sind

mangels veränderter Stichprobe nicht erfassbar (vgl. Diekmann 2009: 312 - 315). Wieder bliebe

der Umweg über Retrospektivdaten, es darf jedoch bezweifelt werden, wie genau Befragte ihre

Erwerbslosigkeitsphasen der letzten Jahre nachvollziehen können. Die „Allgemeine Bevölke-

rungsumfrage der Sozialwissenschaften“ (ALLBUS), der Mikrozensus oder das „Programme for

International Student Assessment“ (PISA), welches internationale Vergleiche ermöglicht, sind

bekannte Studien mit Trenddesign.

Letztlich sind Trenddaten mehrere, hintereinander stattfindende Querschnittserhebungen, mit

der Besonderheit, dass die einzelnen Erhebungen durch die vorherige Planung genauer aufei-

nander abgestimmt werden können.

0

1

2

3

4

5

2007/2008

Inh

alt

Messzeitpunkte

Querschnittsdesign



Abbildung 3: Trenddesign

Paneldesign:

Längsschnittstudien zeichnen sich dadurch aus, dass (1) eine bestimmte Zusammensetzung von

gleichen Variablen an (2) mehreren Messzeitpunkten erhoben wird und (3) jedes Mal die gleiche

Stichprobe befragt wird.

Der „kleine“ Unterschied in Punkt 3 hat große Auswirkungen auf die Möglichkeiten der weiteren

Analyse: Während das Trenddesign nur Veränderungen auf aggregierter Ebene feststellen kann,

ermöglicht ein Paneldesign, Veränderungen auf Individualebene zu erfassen. Dadurch bietet es

die besten Voraussetzungen für Kausalanalysen, da nicht nur Unterschiede zwischen Personen,

sondern auch Veränderungen innerhalb einer Person erfasst werden können (vgl. Brüderl 2010:

965). Im oben genannten Beispiel wäre beispielsweise zu überprüfen, ob sich das Einkommen

einer Person verändert, wenn diese mit dem Rauchen anfängt bzw. aufhört.

Zusätzlich zum höheren Aufwand, kommen bei Längsschnitterhebungen noch methodische

Probleme hinzu. Panelmortalität beschreibt erstens den Sachverhalt, dass mit jeder weiteren

Erhebungswelle ein Teil der Befragten für die weitere Teilnahme nicht mehr zur Verfügung

steht. Das kann zum einen daran liegen, dass sie aus unterschiedlichen Gründen nicht mehr zu

erreichen sind, und zum anderen, dass Personen die weitere Teilnahme ausdrücklich verwei-

gern. Die schwindende Stichprobengröße wird dann zu einem Problem, wenn der Schwund

nicht zufällig, sondern systematisch auftritt (vgl. Diekmann 2009: 309.), beispielsweise wenn

niedriger gebildete häufiger die Teilnahme verweigern. Das Einkommen wäre in diesem Fall

nach oben verzerrt und weitere Analysen würden diese Verzerrung übernehmen, was die Quali-

tät der Ergebnisse verschlechtert. Zweitens setzen Nachdenkprozesse, das sogenannte Panel

Conditioning, ein: Immer wiederkehrende Fragen sorgen dafür, dass sich die Befragten Gedan-

0

1

2

3

4

5

6

2007/2008 2009/2010 2010/2011 2011/2012

Inh

alt

Messzeitpunkte

Trenddesign



ken über diese machen und Veränderungen nicht nur durch äußere Faktoren, sondern auch

durch das verstärkte Nachdenken und damit die Befragung selbst zustande kommen.2

Abbildung 4: Paneldesign

Durch die Erfassung von Veränderungen auf Individualebene wird ein deutlicher Unterschied

zum Trenddesign deutlich; während die aggregierten Daten relativ konstante Verläufe vermuten

lassen, zeigt sich auf Individualebene, dass die Werte einzelner Personen über die Zeit teilweise

sehr stark variieren. Lediglich Person 3 weist einen relativ konstanten Verlauf auf, die Werte der

anderen beiden Personen schwanken sehr deutlich.

Retrospektiv erhobene Ereignisdaten

Eine Sonderform im Rahmen der genannten Untersuchungsdesigns sind retrospektiv erhobene

Ereignisdaten. Dabei handelt es sich nicht um ein eigenständiges Untersuchungsdesign, sondern

um eine spezielle Form der Datenerhebung, die in allen Designs Anwendung finden kann. Ziel

dieser retrospektiv erhobenen Ereignisdaten ist es, nicht nur den zum Befragungszeitpunkt ak-

tuellen Wert, sondern auch Veränderungen in der Vergangenheit zu erfassen, um detaillierte

Entwicklungen auf Individualebene abbilden zu können. Je genauer Entwicklungen von Perso-

nen nachvollzogen werden können, desto zuverlässiger können anschließend auch kausale Zu-

sammenhänge überprüft werden. Der Nachteil im Vergleich zu Paneldaten ist, dass eine retro-

spektive Erfassung mitunter schwierig ist. Bei „harten“ Fakten wie dem Jahr des Hochschulab-

schlusses sind retrospektive Erhebungen zwar weniger problematisch, bei Themen wie der ge-

nauen Arbeitszeit oder der Dauer der letzten Weiterbildung kann die Erinnerungsleistung der

Befragten zu gering sein, um belastbare Daten zu produzieren.

2 Genauere Ausführungen bieten sowohl Schnell, Hill und Esser (S. 222 – 239), als auch Diek-mann (S. 303 – 329).

0

1

2

3

4

5

6

2007/2008 2009/2010 2010/2011 2011/2012

Inh

alt

Messzeitpunkte

Paneldesign

Person 1

Person 2

Person 3



2.2 Nutzung von Paneldaten zur Absicherung kausaler Inferenz Es soll nun also der kausale Effekt, den die Teilnahme an Weiterbildung auf das Einkommen

ausübt, ermittelt werden. Das führt jedoch zu einem Problem, welches im kontrafaktischen Kau-

salmodell explizit formuliert wird. Vorweg: Wenn eine Person ein Treatment, Weiterbildung,

erhält und sich daraufhin das Einkommen verändert, so kann nicht mit Sicherheit gesagt wer-

den, dass es tatsächlich das Treatment war, das zu dieser Änderung führte. Es könnten auch an-

dere Faktoren einen Einfluss gehabt haben, während das Treatment nichts oder nur einen Teil

der Veränderung bewirkte. Das kontrafaktische Kausalmodell geht auf genau diesen Punkt ein,

indem betont wird, dass sich der tatsächliche kausale Effekt ß nur dadurch berechnen lässt, dass

man den Wert einer Person, die das Treatment bekommen (x=1) hat von dem Wert derselben

Person abzieht, die das Treatment nicht bekommen hat (x=0).

ß = 𝑦𝑖𝑡𝑥=1 − 𝑦𝑖𝑡

𝑥=0

Diese Bedingung ist jedoch nie erfüllbar, da es unmöglich ist, dass eine Person zur gleichen Zeit

das Treatment bekommt und es nicht bekommt. Mit Querschnittsdaten bleibt nun lediglich die

Möglichkeit, möglichst ähnliche Personen mit und ohne Treatment zu vergleichen, um so den

Effekt des Treatments exakt bestimmen zu können. Die Validität dieses Vergleichs wird jedoch

durch das Vorhandensein von unbeobachteter Heterogenität oder auch Endogenität3 bedroht.

Im Sinne des kontrafaktischen Kausalitätsmodells dürfen sich die zu vergleichenden Personen

nur durch das Treatment unterscheiden, da der Effekt (ß) des Treatments nur so unverzerrt

geschätzt werden kann. Es ist jedoch wahrscheinlich, dass unbeobachtete Unterschiede vorhan-

den sind, die sowohl mit dem Treatment als auch mit dem Outcome korreliert sind. In anderen

Worten beeinflussen unbeobachtete Drittvariablen (z) sowohl die Wahrscheinlichkeit das Trea-

tment (x) zu bekommen als auch das Outcome (y), wobei die Messung des Zusammenhangs zwi-

schen dem Treatment und dem Outcome verzerrt wird (vgl. Abbildung 5).

Abbildung 5: Einfluss einer unbeobachteten Drittvariablen

Dadurch werden Personen miteinander verglichen, die nicht nur bezüglich des Treatments, son-

dern auch bezüglich dieser unbeobachteten Unterschiede ungleich sind. Formal gesprochen sind

dadurch die Fehlerterme des Treatments (εx) und des Outcomes (εy) korreliert (vgl. Abbildung

6).

3 In der englischen und dem überwiegenden Teil der deutschsprachigen Literatur wird der Begriff Endo-genität verwendet. Simultan wird innerhalb der deutschen Literatur wird jedoch auch von unbeobachte-ter Heterogenität gesprochen. Da unbeobachtete Heterogenität die Problematik intuitiver beschreibt, wird dieser Begriff im Folgenden verwendet.

x y

z



Abbildung 6: Endogenität

Es existieren mehrere Möglichkeiten, um diese unbeobachteten Dritteinflüsse auszuschalten

oder zumindest zu reduzieren. Eine erste Möglichkeit ist die Kontrolle von Drittvariablen4, bei

denen man eine Korrelation mit dem Treatment und dem Outcome vermutet. Sollten alle diese

Variable mit kontrolliert werden, würden auch Vergleiche zwischen Personen kausale Schlüsse

ermöglichen. Praktisch ist es jedoch äußerst unwahrscheinlich, dass alle relevanten Variablen

kontrolliert werden können, sei es, da die Forscher kein Wissen über ihre Bedeutung haben,

oder da sie nicht erhoben wurden. In diesem Fall liefern Vergleiche zwischen Personen keine

validen Ergebnisse bezüglich des kausalen Effekts.5

Eine weitere Möglichkeit ist die zufällige Zuteilung des Treatments, wodurch zwei Gruppen, die

Experimentalgruppe, die das Treatment bekommt und die Kontrollgruppe, die das Treatment

nicht bekommt entstehen. Die Idee eines solchen randomisierten Experiments ist, dass durch

eine zufällige Zuteilung von Treatment zu Probanden dafür gesorgt wird, dass Drittvariablen die

Chance das Treatment zu bekommen nicht mehr beeinflussen können und das Treatment somit

nicht mehr mit dem Fehlerterm des Outcomes korreliert ist. Eine randomisierte Aufteilung ist in

der Sozialforschung aus verschiedenen Gründen oft nicht realisierbar.6

Sogenannte „Fixed Effects Modelle“ (FE-Modelle) reduzieren das Problem, indem sie sich die

spezifische Panelstruktur zu Nutze machen. Intuitiv gesagt werden nur Veränderungen inner-

halb von Personen untersucht, während Veränderungen zwischen Personen ignoriert werden.

Das führt zwar zu einem nicht unerheblichen Informationsverlust, sorgt jedoch auch dafür, dass

unbeobachteter Heterogenität begegnet werden kann, indem keine verzerrten Vergleiche von

Personen gemacht werden. Unbeobachtete, zeitkonstante Einflüsse, die Person 1 beeinflussen,

Person 2 jedoch nicht, stellen kein Problem mehr da, wenn nur die Veränderungen innerhalb der

Personen untersucht wird, da beide Personen zu beiden Zeitpunkten gleich von den jeweiligen

Einflüssen betroffen sind. Ein Beispiel hierfür wäre die Intelligenz: Diese wird meistens nicht

gemessen, es kann jedoch vermutet werden, dass diese sowohl die Teilnahme an Weiterbildung

als auch das Einkommen beeinflusst. Ein Vergleich zwischen zwei Personen könnte verzerrt

4 Unter Drittvariablenkontrolle wird die Aufnahme von erklärenden Variablen zur Vermeidung von Scheinkorrelationen verstanden. Wenn mit dem Treatment und dem Outcome korrelierte Variablen auf-genommen werden, wird die Chance, dass weiterhin unbeobachtete Unterschiede zwischen Personen existieren, reduziert. 5 Eine Möglichkeit bestünde in der Verwendung von Instrumentvariablen, welche jedoch oftmals nicht oder nur unzureichend angewendet werden können (vgl. Morgan und Winship (2007) für eine ausführli-che Darstellung zu Anwendbarkeit und Problem von Instrumentvariablen). 6 Wenn der Effekt von mehrgliedrigen Schulsystemen, wie in Deutschland, im Vergleich zu eingliedrigen, wie in Schweden, untersucht werden soll, ist es schwer vorstellbar, simultan zwei Systeme zu etablieren, in die die Schüler zufällig eingewiesen werden (für eine Ausnahme in Kenia siehe Duflo et al. 2011). Auch die Untersuchung der Wohngegend kann schwer experimentell untersucht werden, da Bürger nicht zufäl-lig Wohngegenden zugeordnet werden können (für eines der wenigen Experimente siehe Deluca und Dayton 2009).

x y

εx εy



werden, wenn die an Weiterbildung teilnehmende Person intelligenter als die nicht-

teilnehmende Person ist. Ein Vergleich innerhalb einer Person ist davon nicht betroffen, da die

Person zu beiden Messzeitpunkten gleich intelligent ist.

Etwas formeller, sinnvoll für ein besseres Verständnis, lässt sich die FE-Schätzung bei Betrach-

tung der Regressionsgleichung beschreiben. Zunächst muss man sich verdeutlichen, dass ein

Panel nichts anderes als ein Mehrebenenmodell ist, wobei die einzelnen Antworten jeder Person

innerhalb der Person geklumpt sind. Für jede Person i gibt es t Beobachtungen, die die jeweili-

gen Messzeitpunkte darstellen.

Abbildung 7: Mehrebenenstruktur von Paneldaten

(nach Pötschke 2014)

Während bei einmalig erhobenen Daten nur die Unterschiede zwischen Personen berechnet

werden können (da nur ein Messzeitpunkt vorliegt und Ebenen ‚t‘ und ‚i‘ identisch sind), können

bei Paneldaten auch Unterschiede zwischen den Messzeitpunkten und somit innerhalb der Per-

sonen berechnet werden. Diese Unterschiede werden als „within“–Varianz bezeichnet und bil-

den das Gegenstück zur „between“ –Varianz zwischen Personen. FE-Schätzer verwenden nur die

within-Varianz zur Berechnung des Kausaleffektes. Verdeutlichen kann man sich dies, wenn man

die Varianz in between- und within-Parts zerlegt (Schunck 2014).7 Ausgehend von der bekann-

ten Darstellung des linearen Regressionsmodells

𝑦𝑖𝑡 = 𝑎 + ß𝑥𝑖𝑡 + ε𝑖𝑡

wird die Varianz in einen zeitveränderlichen und einen zeitkonstanten Teil zerlegt

𝑦𝑖𝑡 = 𝑎 + ß2𝑍𝑖 + ß1𝑋𝑖𝑡 + 𝑢𝑖 + ε𝑖𝑡,

wobei der Vektor Zi zeitkonstante, nicht über t variierende (z.B. Geschlecht, Intelligenz) und der

Vektor Xit zeitveränderliche, über t variierende Variablen (z.B. Teilnahme an Weiterbildung, Al-

ter) enthält. Der korrespondierende Fehlerterm ui ist Individuen-spezifisch und variiert nur zwi-

schen Personen, während der Fehlerterm εit auch über Zeit innerhalb einer Person variiert.

Wenn man sich nun zwei Erhebungszeitpunkte anschaut, so bekommt man

𝑦𝑖1 = 𝑎 + ß2𝑧𝑖 + ß1𝑥𝑖1 + 𝑢𝑖 + ε𝑖1 für t=1

7 Die folgende Darstellungsweise ist aus einer Präsentation Reinhard Schunks, gehalten im Rahmen der Vortragsreihe „Empirische Forschungsmethoden“ am 24.11.2014 an der Universität Kassel, entnommen.

Ebene Element

2 Personen

1 Zeitpunkte



𝑦𝑖2 = 𝑎 + ß2𝑧𝑖 + ß1𝑥𝑖2 + 𝑢𝑖 + ε𝑖2 für t=2

als Gleichungen für zwei verschiedene Zeitpunkte. Ausgehend vom kontrafaktischen Kausali-

tätsmodell, nachdem der Kausaleffekt die Differenz des Wertes einer Person mit Treatment und

des Wertes der gleichen Person ohne Treatment ist, wird im Folgenden die Differenz der beiden

Messzeitpunkte gebildet

𝑦𝑖𝑡2 − 𝑦𝑖𝑡1 = 𝑎 − 𝑎 + ß2𝑧𝑖 − ß2𝑧𝑖 + ß1𝑥𝑖𝑡2 − ß1𝑥𝑖𝑡1 + 𝑢𝑖 − 𝑢𝑖 + ε𝑖𝑡2 − ε𝑖𝑡1,

wobei lediglich Zeitpunkt 1 von Zeitpunkt 2 abgezogen wird. In einem zweiten Schritt lassen

sich die zeitkonstanten Werte wegkürzen, da die Differenz innerhalb der Person automatisch

Null ist8:

𝑦𝑖𝑡2 − 𝑦𝑖𝑡1 = 𝑎 − 𝑎 + ß2𝑧𝑖 − ß2𝑧𝑖 + ß1𝑥𝑖𝑡2 − ß1𝑥𝑖𝑡1 + 𝑢𝑖 − 𝑢𝑖 + ε𝑖𝑡2 − ε𝑖𝑡1.

Daraus ergibt sich

𝑦𝑖𝑡2 − 𝑦𝑖𝑡1 = ß1𝑥𝑖𝑡2 − ß1𝑥𝑖𝑡1 + ε𝑖𝑡2 − ε𝑖𝑡1

(𝑦𝑖𝑡2 − 𝑦𝑖𝑡1) = ß𝐹𝐷(𝑥𝑖𝑡2 − 𝑥𝑖𝑡1) + (ε𝑖𝑡2 − ε𝑖𝑡1) .

Eine mögliche Beeinflussung der erklärenden Variable durch unbeobachtete zeitkonstante Ein-

flüsse ist nun kein Problem mehr, da ui - ui = 0. Wenn man sich nun an das kontrafaktische Kau-

salitätsmodell erinnert fällt auf, dass das FE-Modell sehr viel näher an dessen Bedingungen her-

an kommt, als es beim ursprünglichen Modell der Fall ist:

(FD-Modell) ß𝐹𝐷 = 𝑦𝑖𝑡2𝑥=1 − 𝑦𝑖𝑡1

𝑥=0

(Kontrafaktisches Kausalitätsmodell) ß = 𝑦𝑖𝑥=1 − 𝑦𝑖

𝑥=0

Diese Vorgehensweise funktioniert nur bei zwei Wellen zuverlässig, weswegen sie auch „First-

Difference“ - Modell genannt wird. Bei mehreren Wellen wird der jeweilige Zeitpunkt t vom

Durchschnittswert der Person abgezogen, die zugrunde liegende Logik ist jedoch identisch:

𝑦𝑖𝑡 − �̅�𝑖 = ß1𝑥𝑖𝑡 − ß1�̅�𝑖 + ε𝑖𝑡 − ε̅𝑖

(𝑦𝑖𝑡 − �̅�𝑖) = ß𝐹𝐸(𝑥𝑖𝑡 − �̅�𝑖) + (ε𝑖𝑡 − ε̅𝑖).

Das letzte verbleibende Problem sind die zeitveränderlichen Einflussfaktoren ε𝑖𝑡, die auch FE-

Modelle nicht ausschließen können.

Neben „Fixed Effects Modellen“ finden auch „Random Effects Modelle“ (RE-Modelle) in der em-

pirischen Forschung Anwendung. RE-Modelle können als ein Mittelweg zwischen einer reinen

between- und der reinen within-Schätzung gesehen werden, da beide Arten simultan verwendet

werden. Der Vorteil von RE-Modellen liegt darin, dass der RE-Schätzer durch die zusätzliche

between-Schätzung effizienter ist, da auch der Einfluss zeitkonstanter Faktoren geschätzt wird.

Sollte die between-Schätzung jedoch durch unbeobachtete Heterogenität verzerrt sein, wird

auch der RE-Schätzer verzerrte Ergebnisse liefern. Wenn keinerlei Verzerrung durch unbeo-

bachtete Heterogenität vorliegt, liefern beide Varianten identische Effektstärken, je größer die

Verzerrung ist, desto stärker weichen beide voneinander ab. Vor der Wahl des idealen Modells

8 Zwei zeitkonstante Variablen müssen zu beiden Zeitpunkten logischerweise den gleichen Wert aufwei-sen. Würden sich die Werte unterscheiden, wären die Variablen nicht mehr zeitkonstant.

Die Datenmatrix


muss daher abgewogen werden, ob der Gewinn durch die zusätzliche Effizienz die Gefahr einer

verzerrten Schätzung ausgleichen kann. Wenn die Schätzung des wahren kausalen Effekts im

Vordergrund steht (was sie tun sollte), wird man dies jedoch meistens verneinen müssen, wes-

wegen FE-Modelle für die meisten Fragestellungen die geeignetere Herangehensweise sind.

Nach dieser kurzen Einführung in die Kausalanalyse mit Paneldaten wird in den folgenden Kapi-

teln die Software Stata vorgestellt, mit deren Hilfe Längsschnittdaten adäquat ausgewertet wer-

den können.

3. Die Datenmatrix Die Rohdaten einer quantitativen Befragung orientieren sich in ihrer Organisation unabhängig

von der Themenstellung an der Notation der Matrix-Algebra, die als mathematische Grundlage

der späteren statistischen Auswertung dient. Dabei werden in den Spalten der Datenmatrix die

verschiedenen Fragebogenfragen, die Variablen, und in den Zeilen die Beobachtungen, in der

Regel die Befragten, aufgeführt. In den jeweiligen Zellen lässt sich die Ausprägung einer Variable

bei der jeweiligen Person ablesen, d.h. die Antworten der Befragten auf die einzelnen Items der

Befragung (vgl. Benninghaus 2007: 16-19, Diekmann 2009: 663-669).

Abbildung 8: Datenmatrix (Allgemeiner Aufbau)

Stimuli, Variablen, Merkmale (z.B. Fragebogenfragen)

S1 S2 S3 . . . Sj . . . Sn O1 R11 R12 R13 . . . R1j . . . R1n O2 R21 R22 R23 . . . R2j . . . R2n O3 R31 R32 R33 . . . R3j . . . R3n

Objekte, Untersuchungs-einheiten, Merkmalsträger (z.B. Befragte)

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

. Oi Ri1 Ri2 Ri3 . . . Rij . . . Rin

. . .

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

. Om Rm1 Rm2 Rm3 . . . Rmj . . . Rmn

(nach Benninghaus 2007: 16)

Das Beispiel in Tabelle 3 zeigt einen Ausschnitt aus einem Längsschnittdatensatz. Neben der

persönlichen ID der Befragten (erste Spalte) gibt „Welle“ (= Erhebungswelle) in der zweiten

Spalte an, zu welchem Zeitpunkt die Befragten an der Erhebung teilgenommen haben. Da eine

Person nun mehrere Zeilen hat (identische IDs untereinander), wird dieses Datensatzformat

auch als „long-format“ bezeichnet (siehe dazu auch Kapitel 5.2).9

9 Vgl. auch social science computing cooperative (2017).

Datenaufbereitung I: Einführung


Tabelle 3: Datenmatrix (Beispiel NEPS)

ID (anonymi-

siert)

Welle Einkom-

men

Teilnahme

Weiterbil-

dung

Alter Ge-

schlecht

Familien-

stand

800XXX8 1 2150 nein 52 männlich verheiratet 800XXX8 2 2150 nein 53 männlich verheiratet 800XXX8 4 2100 nein 55 männlich verheiratet 800XXX6 1 3150 Nein 55 männlich geschieden 800XXX6 3 2000 Ja 57 männlich geschieden 800XXX1 1 1300 Nein 54 Weiblich verheiratet 800XXX1 2 1600 Ja 56 Weiblich verheiratet 800XXX1 3 1900 Nein 56 Weiblich verheiratet 800XXX1 4 1400 Ja 58 Weiblich verheiratet

Wenn für die einzelnen Ausprägungen im Datensatz ein bestimmter Wertename10 z.B. „weiblich“

für den Wert „2“ bei der Frage nach dem Geschlecht der befragten Person, definiert wurde, dann

wird dieser in Stata in der Datenmatrix angezeigt, ansonsten werden stets die numerischen Wer-

te verwendet. Während sich aus dieser Matrix mit drei Personen und neun Variablen noch sinn-

voll Werte ablesen lassen, ist dies bei größeren Datensätzen mit hunderten von Variablen und

tausenden Befragten und daraus resultierend entsprechend vielen Zellen nicht mehr der Fall

und es können nur selten Informationen direkt aus der Datenmatrix abgelesen werden. Daher

bietet Stata Befehle, um sich mit dem Inhalt der Datenmatrix vertraut zu machen. Dennoch bie-

tet es sich an hin und wieder einen Blick in grundlegende Struktur der Daten zu werfen.

4. Datenaufbereitung I: Einführung Im Folgenden werden einführende Schritte der Datenaufbereitung behandelt. Erfahrenere Nut-

zer, die sich bereit grundlegend mit Stata auskennen, können dieses Kapitel überspringen und

direkt zu den fortgeschrittenen Anwendungen in Kapitel 5 springen.

Stata ist neben SPSS, SAS und R eine gängige Analysesoftware, die sich vor allem im akademi-

schen Bereich etabliert hat.11 Stata ermöglicht es, die Kommandos zur Aufbereitung und Aus-

wertung der Daten auf mehreren Wegen umzusetzen. Die augenscheinlichste Variante dürfte

das Verwenden der Menüleiste (vgl. Abbildung 9) analog zu üblichen Office-Programmen, sein.

Dieses Vorgehen bringt jedoch zwei entscheidende Nachteile mit sich: Zum einen ist das Ausfüh-

ren von Kommandos per Menüleiste langsam und fehleranfällig, zum anderen sind die so er-

zeugten Analyseergebnisse im Nachhinein nicht mehr nachvollziehbar. Intersubjektive Nach-

vollziehbarkeit, d.h. das lückenlose Dokumentieren des Weges, auf dem Ergebnisse generiert

10 Wertelabel (value label) sind Bezeichnungen für die einzelnen Ausprägungen einer Variable und sind nicht zu verwechseln mit den Variablennamen (variable label), die die ganze Variable benennen. „ge-schlecht“ ist beispielsweise ein Variablenname, während „weiblich“ und „männlich“ die Wertelabel für die beiden Ausprägungen der Variable „Geschlecht“ sind. ALLBUS ist einer der wenigen Datensätze, in denen variable label mit den Namen der value label übereinstimmen. 11 Für diese Handreichung wurde mit Stata 12 gearbeitet. Aktuell verfügbar ist die 14. Version (Stata 14). Geringe Unterschiede in neueren Versionen sind daher nicht gänzlich ausgeschlossen.



werden, gehört jedoch zu den Grundpfeilern guter wissenschaftlicher Arbeit (Diekmann 2009:

658 f.). Daher empfiehlt sich die Verwendung sogenannter „Do-Files“ (vgl. Kapitel 4.4)12, in de-

nen alle Befehle in Textform aufgeschrieben und gespeichert werden, sodass die Ergebnisse

auch zu späteren Zeitpunkten noch eindeutig repliziert13 werden können (Kohler und Kreuter

2012: 25 - 27).

Bevor jedoch die Kommandostruktur und einige Grundlegende Befehle behandelt werden, er-

folgt eine kurze Einführung in den Aufbau Statas.

Abbildung 9: Interface Stata 12.1

Review: Das Reviewfenster auf der linken Seite listet die in der aktuellen Sitzung eingegebenen

Kommandos auf. So lassen sich vorher eingegebene Kommandos per Doppelklick nochmal aus-

führen, ohne neu getippt werden zu müssen. Sollte ein sogenannter „Do-File“ verwendet werden

wird dieses Fenster weitestgehend obsolet.

Command: Die Kommandozeile in der unteren Mitte bietet die Möglichkeit, Kommandos direkt

einzutippen und auszuführen. Für die schnelle Ausgabe einer Häufigkeitstabelle kann sich die

Verwendung der Kommandozeile eignen. Komplexere Kommandos (und alles was gespeichert

werden soll) sollten eher im „Do-File” eingegeben werden.

Variables: Das Fenster oben rechts zeigt eine Liste der im Datensatz vorhandenen Variablen an.

Es ist nicht empfohlen dieses Fenster zum Suchen von Variablen zu verwenden.

12 „Do-Files“ entsprechen den Syntaxdateien bei SPSS. 13 Zur Validierung empirischer Ergebnisse ist es nötig, diese auch mit anderen Daten replizieren zu kön-nen. Sollte eine Replikation, beispielsweise mangels Dokumentation der Forschung, nicht möglich sein, kann die Aussagekraft der Ergebnisse nicht überprüft werden.



Properties: Das Properties-Fenster ist unten rechts angeordnet und enthält Informationen über

die im Variables-Fenster angeklickte Variable (beispielsweise das value label oder den Daten-

typ) und über den gesamten Datensatz.

Results: Das wichtigste Fenster dieser Ansicht. Das Results-Fenster zeigt die Resultate der so-

wohl per Kommandozeile als auch per „Do-File” eingegebenen Kommandos an. Die meisten Er-

gebnisse werden in diesem Fenster ausgegeben.

Wenn das Results-Fenster nicht mit per Menüzeile eingegebenen Kommandos gefüllt werden

soll, ist es nötig, sich die Kommandostruktur Statas zu verdeutlichen, um Kommandos eigen-

ständig eingeben zu können.

4.1 Die Kommandostruktur in Stata Kommandos in Stata, mit denen sämtliche Schritte der Datenaufbereitung- und Auswertung

durchgeführt werden, bestehen aus mehreren Bausteinen, die entweder vorgeschrieben, erlaubt

oder verboten sein können (vgl. Kohler und Kreuter 2012: 49 - 64).

Beispielhaft lässt sich dies anhand des summarize-Befehls darstellen:

[by varlist :] command [varlist] [weight] [if] [in] [, options]

1 2 3 / 4 5

1) Der Präfix by steht vor dem eigentlichen Kommando und wird immer durch einen Doppel-

punkt von diesem getrennt. by ermöglicht es, die Ausführung von Kommandos zu spezifizieren

und diese beispielsweise für alle Ausprägungen einer varlist (einer Liste an Variablen) separat

auszuführen.

2) Zu Beginn des Kommandos steht der auszuführende Befehl, beispielsweise summarize (vgl.

auch Kapitel 4.1).

3) Anschließend lassen sich (optionale) Elemente hinzufügen. Diese sind durch eckige Klam-

mern gekennzeichnet. Optionale Elemente sind, wie der Name bereits suggeriert, nicht verpflich-

tend, das Kommando kann auch ohne diese ausgeführt werden. Im Fall des summarize-Befehls

kann eine Variablenliste und eine Gewichtung hinzugefügt werden, außerdem lässt sich die Aus-

gabe durch if und in weiter spezifizieren.

4) Elemente, die nicht in eckigen Klammern stehen (wie das varlist-Element im merge-Befehl,

vgl. dazu Kapitel 7.1), sind vorgeschrieben und müssen, mit Inhalt gefüllt, im Kommando stehen.

5) Optionen sind ebenfalls (meistens) freiwillig und dienen dazu, das voreingestellte Verhalten

eines Befehls zu verändern (vgl. Kohler und Kreuter 2012: 53). Optionen werden durch ein

Komma vom restlichen Kommando getrennt und können hintereinander aufgelistet werden. Der

summarize-Befehl bietet beispielsweise mit der Option detail die Möglichkeit, sich zusätzlich

detaillierte Informationen wie die Schiefe der Verteilung ausgeben zu lassen.

In der umfangreichen Stata-Hilfe werden zu jedem Befehl alle erlaubten Optionen aufgelistet.

Gerade am Anfang wird die Nützlichkeit der Stata-Hilfe oft unterschätzt, dabei hilft sie, viele Fra-



gen schnell zu beantworten. Nicht nur die vollständige Syntax, sondern auch Beispiele helfen

dabei, Fehler direkt und ohne größeren Aufwand zu beheben (zum Aufrufen der Hilfe vgl. Kapi-

tel 9). Zusätzlich zu der in Stata integrierten Hilfe gibt es eine zusätzliche PDF-Dokumentation

mit über 11000 Seiten, die beinahe sämtliche Stata betreffenden Themenbereiche abdeckt.

Zur Verwendung der Befehlssyntax seien an dieser Stelle noch vier wichtige Hinweise gegeben:

(1) Stata unterscheidet zwischen Groß- und Kleinschreibung. Befehle werden grundsätzlich

klein geschrieben und Variablennamen müssen so eingegeben werden, wie sie im Datensatz

benannt wurden, da Stata sie ansonsten nicht erkennt. Deshalb empfiehlt es sich möglichst

einfache und aussagekräftige Variablennamen zu vergeben.

Tabelle 4: Empfohlene Schreibweise von Variablen

Variable Nicht Empfehlenswert

Empfehlenswert

Begründung

Einkommen Einkommen einkommen Variablennamen bevorzugt klein schreiben

Geschlecht

geschlecht (0=Mann, 1=Frau)

frau weiblich

Variablenname macht Auspra gung der Variable direkt deutlich

Weiterbildungsteilnahme

WeiBiTln weiterbildung WeiBiTln nicht aussagekra ftig, Groß- und Kleinschreibung gemischt

(2) Befehle und Optionen können außerdem oft abgekürzt werden. In der Stata-Hilfe sind die

zwingend benötigten Buchstaben unterstrichen, nicht unterstrichene Buchstaben sind demnach

optional. Zwischen dem Mindestbefehl und der vollen Schreibweise sind alle Kombinationen

möglich, wobei es teilweise nicht empfehlenswert ist, die kürzeste Schreibweise zu wählen, son-

dern zumindest 3-4 Buchstaben zu verwenden (vgl. Kohler und Kreuter 2012: 50). Eine Aus-

nahme davon sind Datenverändernde Befehle, die keine Abkürzung zulassen.

Es reicht „g newvar = …” anstatt „generate newvar = …” oder „sum ts23410_g1“ anstatt „summa-

rize ts23410_g1“ zu schreiben. „replace oldvar = 5 - oldvar“ kann nicht abgekürzt werden, da eine

alte Variable überschrieben wird.



(3) Variablen müssen ebenfalls nicht komplett ausgeschrieben werden (vgl. Tabelle 5Tabelle 4).

Tabelle 5: Abkürzung von Variablen

* Ersetzt eine beliebige Anzahl an Zeichen, wobei jede mo gliche Kombination mit angesprochen wird. Diese Vorgehensweise ist hilfreich, wenn mehrere, ähnliche Variablen ausgewählt werden sollen oder die genaue Endung unbekannt ist. Die Variable „wave“ kann auf vielfältige Weise ausgewählt werden: wa*, w*e oder *av*, wobei nicht jede Abkürzung sinnvoll ist. ABER: *ave wird auch die Variable nepswave mit auswählen, weswegen die Wahl der Abkürzung bedacht werden sollte.

? Ersetzt ein einzelnes Zeichen, was nützlich sein kann, sollten mehrere Variablen, sich nur bezüglich eines Zeichens unterscheiden: wav?, wa?e, w???.

Es genügt, wenn Variablennamen eindeutig identifizierbar sind, sich also eindeutig von allen

anderen Variablen unterscheiden.

„summarize wa“ statt „summarize wave“ ist ausreichend, da keine andere Variable im Datensatz

mit wa beginnt und die variable wave daher eindeutig identifiziert werden kann.

(4) Stata kennt drei Arten von Operatoren, arithmetische, logische und relationale.



Tabelle 6: Operatoren

Operator Bedeutung Arithmetisch (Auswahl) + Addition - Subtraktion * Multiplikation / Division Logisch & Und | Oder ! Nicht ~ Nicht Relational > Größer als < Kleiner als >= Größer oder gleich <= Kleiner oder gleich == Gleich != Ungleich ~= Ungleich

Diese Operatoren finden in sehr vielen Situationen Anwendungen. Bei der Spezifizierung von

Kommandos mithilfe des if-Elements werden relationale Operatoren zum Eingrenzen von Wer-

tebereichen oder logische Operatoren zum Verknüpfen mehrerer Bedingungen verwendet.

Arithmetische Operatoren finden beispielsweise beim Erzeugen neuer Variablen (vgl. Kapitel

5.3) Anwendung. Ein typischer Fehler ist das Verwechseln von „=“ und „==“. Während ersteres

vor allem im vorderen Teil des generate/replace- oder im recode-Befehl (vgl. Kapitel 5.3) ver-

wendet wird (und beide Seiten der Gleichung gleichsetzt), wird letzteres vor allem nach Bedin-

gungen wie dem if- oder dem in-Element verwendet. Dabei wird getestet, ob die Bedingung er-

füllt ist und die Variable den in der Bedingung formulierten Wert annimmt.

Kurz gesagt: „=“ wird im den vorderen Teil des generate/replace- oder des recode-Befehls ver-

wendet, während „==“ auf Bedingungen folgt.



4.2 Erste Schritte: Den Datensatz öffnen Bevor man sich einen Überblick über die Daten verschaffen kann, muss der Datensatz zunächst

geöffnet werden. Dieser Schritt ist relativ unkompliziert und erfordert lediglich zwei kurze

Kommandos.

cd

cd ["]drive:directory_name["]

Change directory teilt Stata einen bestimmten Ort der Festplatte mit. Anschließend wird Stata

diesen Ort verwenden, um Datensätze zu laden und zu speichern. Die Verwendung dieses Kom-

mandos ist zwar optional, jedoch oft sehr sinnvoll, um Tipparbeit zu reduzieren und Fehler

durch die Verwendung verschiedener Speicherorte zu minimieren. Die Anführungszeichen um

den Pfad sind ebenfalls optional aber sinnvoll, da Windows Ordnernamen mit Leerzeichen er-

laubt, eine Eingabe mit Leerzeichen bei Stata jedoch eine Fehlermeldung produziert.

Das Kommando „ cd "C:\Uni\Semester 3\NEPS" “ teilt Stata mit, Datensätze von nun an aus dem

Ordner „NEPS“ auf der Festplattenpartition „C“ zu laden.

Das Kommando „ cd C:Uni\Semester 3\NEPS “ wird mit einer Fehlermeldung abbrechen, da Sta-

ta davon ausgeht, dass die Pfadangabe nach „Semester“ endet. Da das Kommando nach „Semes-

ter“ endet, produziert „3\NEPS“ einen Fehler.

use

use filename [, clear nolabel]

Benennt den zu benutzenden Datensatz. Es ist auch möglich, wenngleich nicht empfohlen, hier

den ganzen Pfad, der sonst hinter dem cd-Befehl eingeben wurde, anzugeben. Die Option clear

sollte immer ergänzt werden, da Stata sich sonst weigert, einen Datensatz zu öffnen, solange

noch ein anderer geöffnet ist.14

Das Kommando „use SC6_pTarget_D_5-1-0“, clear teilt Stata mit, den pTarget-Datensatz der

Startkohorte 6 zu laden. In dieser Variante muss der Pfad schon vorher durch den cd-Befehl spe-

zifiziert sein.

Durch die Eingabe von „use "C:\Uni\Semester 3\NEPS\SC6_pTarget_D_5-1-0", clear“ wird der

Datensatz auch ohne vorherigen cd-Befehl geladen.

14 Diese Weigerung ist eine Sicherheitsmaßnahme um ungewollten Datenverlust zu vermeiden, da das Öffnen eines neuen Datensatzes dazu führt, dass der alte geschlossen wird und Änderungen verworfen werden.



Zusammengefasst lässt sich ein Datensatz wie folgt aufrufen:

cd "C:\Uni\Semester 3\NEPS”

use “SC6_pTarget_D_5-1-0”, clear

4.3 Erste Schritte: Einen Überblick über die Daten verschaffen Die folgenden Befehle ermöglichen es, sich in kurzer Zeit einen Überblick über den gesamten

Datensatz oder auch einzelne Variablen und deren Ausprägungen und Füllstände zu verschaffen.

Hierbei handelt es sich nicht um eine erschöpfende Auflistung von Stata-Kommandos, vielmehr

werden nur die gängigsten und hilfreichsten vorgestellt (Kohler und Kreuter 2012: ).

Wie in Kapitel 3 beschrieben, folgt die Kommandostruktur immer der gleichen Logik und unter-

scheidet sich lediglich darin, welche Optionen erlaubt, vorgeschrieben und verboten sind.

Die nachfolgenden Beispiele zu den einzelnen Stata-Befehlen beziehen sich auf die Datensätze

„SC6_pTarget_D_5-1-0.dta“ und „SC6_spEmp_D_5-1-0.dta“ der Erwachsenenkohorte des NEPS.

browse

browse [varlist] [if] [in] [, nolabel]

Mit dem browse-Befehl wird die Datenmatrix aufgerufen. Mit den Optionen if und in kann die

Ausgabe der Matrix angepasst werden. Wird keine Variablenliste definiert, zeigt Stata alle Be-

obachtungen und Variablen an. Die Datenmatrix wird in einem Datenbrowser dargestellt, der

immer das Ergebnis des aktuellsten browse-Befehls enthält und geschlossen werden kann, ohne

dass der aktuell geöffnete Datensatz ebenfalls geschlossen wird. Vor allem nach dem Erstellen

neuer Variablen kann es sinnvoll sein anhand einzelner Beispiele zu überprüfen, ob dies fehler-

frei und in gewünschter Weise funktioniert hat.

Das Kommando „browse t733001 if t700001==2“ zeigt den Familienstandstand (t733001) für

alle Frauen (t700001== 2) an.

list

list [varlist] [if] [in] [, options]

Mit dem list-Befehl werden die Ausprägungen mindestens einer Variablen und den dazugehöri-

gen Beobachtungen aufgezählt. Im Gegensatz zum browse-Befehl erfolgt die Ausgabe im Stan-

dardausgabefenster von Stata. Es empfiehlt sich, diesen Befehl mit der in-Option auf bestimmte

Fälle einzuschränken, da ansonsten die Werte für alle Beobachtungen ausgegeben werden.

Mit dem Kommando „list t700001 in 1/10“ wird das Geschlecht der ersten zehn Beobachtungen

im Datensatz aufgezeigt.



lookfor

lookfor string [string [...]]

Der lookfor-Befehl ermöglicht es, nach bestimmten Wörtern bzw. Buchstabenfolgen (strings) zu

suchen. Es werden Variablennamen und Variablenlabel durchsucht und alle aufgelistet, die den

Suchbegriff enthalten.

Mit dem Kommando „lookfor einkommen“ werden in diesem Fall alle Variablen, deren Label o-

der Namen das Schlagwort „Einkommen“ enthalten, aufgeführt.

codebook

codebook [varlist] [if] [in] [, options]

Der codebook-Befehl liefert unter anderem Informationen über die Range und Anzahl der Aus-

prägungen der Variable(n) sowie die Anzahl fehlender Werte. Darüber hinaus wird das der Vari-

able zugeordnete value label angezeigt, dessen Nutzen im nächsten Befehl erklärt wird.

Nach Eingabe des Kommandos „codebook t733001“ zeigt sich, dass die Variable 30414 fehlende

Werte aufweist, von denen 30394 designbedingt – beispielweise weil die Frage in einer Welle

nicht gestellt wurde – fehlen. Außerdem ist ihr das value label de296 zugeordnet.

label list

label list [lblname [lblname ...]]

Der label list-Befehl listet auf, welche inhaltliche Bedeutung die einzelnen Werte eines value la-

bels haben. Unter anderem lässt sich auch herauslesen, mit welchen Werten fehlende Angaben

codiert wurden.15

Mit „label list de296“ werden alle Ausprägung für das label de296 ausgegeben, wobei beispiels-

weise -97 für verweigerte Antworten, der Wert 1 für verheiratet und der Wert 5 für ledig steht.

describe

describe [varlist] [, memory_options]

Die Variablen inklusive Variablenbeschreibungen werden mit dem describe-Befehl ausgegeben.

Diese ist besonders hilfreich, um herauszufinden, was sich hinter den (teilweise kryptischen)

Variablennamen verbirgt. Dieser Befehl ähnelt dem zuvor dargestellten codebook.

Mit „describe t733001“ wird das Variablenlabel von t733001 – Familienstand aktuell - angezeigt.

15 In der Regel bekommen fehlende Angaben hohe Werte wie 999 oder negative Werte wie -99 zugewie-sen, um Kodierungsfehler zu vermeiden. Für die genauere Kodierung bei NEPS und Kodierungsmöglich-keiten in Stata vergleiche Kapitel 6.1.



count

count [if] [in]

Der count-Befehl ist eine einfache Rechenoperation. Er summiert alle Beobachtungen im Daten-

satz, für die bestimmte Bedingungen erfüllt sind. Ohne weitere Bedingungen gibt der count-

Befehl die Gesamtzahl an Beobachtungen aus.

Das Kommando „count if t733001 == 3“ zählt, wie viele Personen bei t733001 (Familienstand)

den Wert 3 (geschieden) angegeben haben.

summarize

summarize [varlist] [if] [in] [weight] [, options]

Mit dem summarize-Befehl werden eine oder mehrere Variablen zusammengefasst sowie statis-

tische Kennzahlen ausgegeben. Standardmäßig werden die Anzahl an Beobachtungen, der Mit-

telwert, die Standardabweichung und der Range berechnet. Optionen ermöglichen es beispiels-

weise detaillierte Informationen zu erhalten (,detail).

Das Kommando „sum ts23410_g1t70000y“ fasst die beiden Variablen (monatliches Einkommen

und Geburtsjahr) zusammen und gibt die Anzahl an Beobachtungen sowie deren Mittelwert,

Standardabweichung und Streuung getrennt nach Variablen aus.

tabulate

tabulate varname [if] [in] [weight] [, tabulate1_options]

tabulate varname1 varname2 [if] [in] [weight] [, options]

Mithilfe des tabulate-Befehls können die einzelnen Ausprägungen einer Variablen und deren

absoluten und relativen Häufigkeiten angezeigt werden. Dadurch ist es möglich, sich schnell

einen Überblick über einzelne, interessierende Variablen im Datensatz zu verschaffen. Es kön-

nen eine (tabulate oneway) oder zwei Variablen (tabulate twoway) angegeben werden. Letzte-

res ergibt die Ausgabe einer Kreuztabelle mit den absoluten Häufigkeiten in den einzelnen Zel-

len sowie die Randverteilungen in den Zeilen und Spalten.

Mit dem Kommando „tab t733001“ wird die Verteilung des Familienstands angegeben.

Mit „tab t733001 t700001“ wird die absolute Häufigkeitsverteilung des Familienstands separat

für Männer und Frauen angegeben.



histogram

histogram varname [if] [in] [weight] [, options]

Der histogram-Befehl gibt ein Histogramm für die angegebene Variable aus. Diese grafische

Darstellung ist vor allem dann nützlich, um einen schnellen Eindruck über die Verteilung zu be-

kommen.

Mit dem Kommando „histogram t733001, discrete percent“ wird ein Histogramm mit Häufig-

keitsverteilungen des Familienstands ausgegeben.

Abbildung 10: Histogramm

Das Histogramm ermöglicht es auf einen Blick festzustellen, dass ein Großteil der Be-

fragten den Wert 1 aufweist und somit verheiratet ist.

graph (box)

graph box yvars [if] [in] [weight] [, options]

Mit dem graph-Befehl lassen sich die Daten visualisieren, er bietet eine Reihe von Unterbefehlen

für Scatterplots, Balkendiagramme, Boxplots und viele mehr. Hier wird beispielhaft der ‘box‘-

Unterbefehl verwendet, mit dem Boxplots erstellt werden können. Boxplots fassen die mittleren

50% der Werte (das zweite und dritte Quartil) in einer Box zusammen und bilden Antennen,



sogenannte Whiskers, die zusätzlich das Anderthalbfache der Box (Interquartilsabstand(IQR) *

1,5) erfassen. Diese Darstellung ermöglicht es, Ausreißerwerte einfach zu identifizieren. Die Op-

tion over() ermöglicht es außerdem, sich die Werte getrennt nach einer weiteren Variable wie

beispielsweise dem Geschlecht anzeigen zu lassen

Mit dem Kommando „graph box ts23410_g1, over(t700001) ytitle(Einkommen)“ wird das Net-

toeinkommen für Männer und Frauen getrennt ausgegeben. Die Y-Achse bekommt den Titel

„Einkommen“ statt des Variablenlabels. Das Einkommen stammt aus dem Datensatz spEmp.

Abbildung 11: Box Plot

Insgesamt zeigt sich, dass Männer über ein höheres Einkommen verfügen als Frauen. Auch weisen

sie stärkere Ausreißer nach oben auf.

Zu Beginn eines Datenauswertungsprojektes ist es durchaus sinnvoll, sich zunächst „spielerisch“

einen Überblick über die Daten und interessierenden Variablen zu verschaffen. Um danach aber

effektiv arbeiten zu können und um die Ergebnisse anschließend für sich und andere nachvoll-

ziehbar zu machen, ist es unumgänglich sämtliche Arbeitsschritte systematisch und verständlich

zu dokumentieren. Eine Dokumentation ist direkt in Stata mit Hilfe sogenannter „Do-Files“ mög-

lich und auf jeden Fall, vor allem bei komplexen Datensätzen, empfehlenswert.



4.4 Dokumentation der Arbeitsschritte im „Do-File“ Zu den Grundpfeilern wissenschaftlicher Arbeit zählt die Nachprüf- und Replizierbarkeit der

eigenen empirischen Forschung (Kohler und Kreuter 2013: 31-36). Es ist nicht ausreichend, nur

das Ergebnis zu präsentieren, der Weg, der zu diesem geführt hat, muss für Außenstehende ein-

deutig nachvollziehbar sein. Daher müssen sämtliche Arbeitsschritte, von der Datenaufbereitung

bis hin zu den konkreten Analysen, ausführlich dokumentiert werden. Dies geschieht, wie be-

reits angesprochen, im sogenannten „Do-File“, der mit dem Befehl doedit aufgerufen wird. In

diesem werden alle Kommandos gespeichert, damit gewährleistet wird, dass auch andere Per-

sonen mit den gleichen Grunddatensätzen zu identischen Ergebnissen kommen. Die Komman-

dos werden im „Do-File“ nicht nur dokumentiert, sondern können auch direkt ausgeführt wer-

den, weswegen es effizienter ist, von Anfang an im „Do-File” zu arbeiten und die Kommandozeile

nur im Bedarfsfall zu benutzen. Ein Irrglaube hierbei ist, dass man immer den ganzen „Do-File”

ausführen müsse; Schon das eines Markieren eines einzigen Zeichen erlaubt es, nur die entspre-

chende Zeile(n) auszuführen, wodurch auch einzelne tabulate- oder summarize-Befehle per „Do-

File” ausgeführt werden können.

Nicht nur das Speichern der Kommandos ist Bestandteil einer guten Dokumentation, sondern

auch eine gute Kommentierung der einzelnen Arbeitsschritte, sodass deutlich erkennbar wird,

was in den jeweiligen Teilschritten erledigt wurde und warum bestimmte Entscheidungen, bei-

spielsweise im Umgang mit Ausreißern beim Einkommen, der Gruppierung bestimmter Merk-

male, dem Zuschnitt des Analysesamples, getroffen wurden. Das ausführliche Kommentieren

erleichtert nicht nur Außenstehenden das Nachvollziehen der eigenen Arbeitsschritte, gerade

bei komplexeren Forschungsprojekten erhöht es die Übersichtlichkeit und kann aus Unklarhei-

ten entstehende Fehler reduzieren.

Zur Kommentierung in „Do-Files“ bietet Stata drei Möglichkeiten:

Tabelle 7: Kommentare in Stata

* Der Indikator * am Anfang einer Zeile weist Stata darauf hin, dass die komplette Zeile (und nur diese) als Kommentar gewertet und daher ig-noriert werden soll. In der darauffolgenden Zeile werden Eingaben nicht mehr als Kommentare angesehen. Um * als Indikator verwenden zu können, muss die entsprechende Zeile mit * beginnen; es ist nicht möglich, * mitten in eine Zeile zu setzen.

// Alles, was hinter // steht, wird von Stata als Kommentar gewertet und

ignoriert. // bezieht sich ebenfalls nur auf die aktuelle Zeile, die Verwen-dung ist jedoch auch hinter einem Kommando (in der gleichen Zeile) möglich.

/* … */

Text, der sich zwischen /* und */ befindet, wird als Kommentar gewertet und von Stata ignoriert, auch über mehrere Zeilen hinweg. Diese Art der Markierung ist gerade für längere Kommentare oder auch für Kommen-tare innerhalb eines Kommandos nützlich.

Kommentare lassen sich leicht von der restlichen Syntax unterscheiden. Während Befehle dun-

kelblau, Funktionen blau und die restliche Syntax schwarz sind, werden Kommentare grün her-



vorgehoben. Ähnlich wie bei Befehlen gilt hier die Daumenregel, nicht mehr als 72-80 Zeichen in

eine Zeile zu schreiben (Cox 2005). Lange Zeilen bergen das Risiko unübersichtlich zu werden,

wenn die Zeile nicht mehr komplett auf dem Bildschirm dargestellt werden kann und der Nutzer

gezwungen ist zu scrollen.

Zur Verbesserung der Übersichtlichkeit ist es außerdem sinnvoll, getrennte Do-Files anzulegen.

Oft wird empfohlen, für das Zusammenführen von (Teil-)Datensätzen, die Aufbereitung der Va-

riablen und deren Analyse jeweils einen eigenen “Do-File” zu verwenden. In jedem Fall ist es

äußerst ratsam die Auswertungen von der Datenaufbereitung zu trennen, damit die Analysen

immer auf einem fertig aufbereiteten Datensatz beruhen.

Um Analysen auch mit neueren Versionen von Stata noch durchführen zu können, sollte jeder

„Do-File” mit der Benennung der verwendeten Version beginnen (z.B. version 12). Aktuelleren

Versionen von Stata wird so mitgeteilt, dass sie eventuell auf nicht mehr verwendete Komman-

dos beziehungsweise Kommandostrukturen zurückgreifen müssen.

Abbildung 12: Ausführlich dokumentierter Do-File

Datenaufbereitung II: Datensatzerstellung und Variablenaufbereitung


5. Datenaufbereitung II: Datensatzerstellung und Variablenaufbe-

reitung

5.1 Zusammenführen von (Teil-)Datensätzen

5.1.1 Der merge-Befehl

Im NEPS, wie auch bei anderen Längsschnitterhebungen, finden sich nicht alle Daten einer Ko-

horte in einem Datensatz. Stattdessen gibt es fast 30 thematisch sortiere Datensätze, die Infor-

mationen zum jeweiligen Thema enthalten. So findet man zum Beispiel unter dem Namen

„SC6_pTarget_D_5-1-0“ einen Datensatz, in dem alle Zielpersonen inklusive der wichtigsten In-

formationen gespeichert sind. Weitere Informationen sind in separaten Dokumenten zu finden

und müssen vor der Verwendung zum pTarget-Datensatz (oder einem anderen, je nach Frage-

stellung) hinzugefügt werden.16

Vor allem Spelldaten, die Informationen über Zeitverläufe zwischen zwei Erhebungszeitpunkten

enthalten, benötigen besondere Aufmerksamkeit. Bei jeder Erhebung werden zwar die aktuellen

Daten erhoben, oft ist es jedoch auch von Interesse, was zwischen beiden Erhebungszeitpunkten

passierte. Sollte eine Person im Befragungszeitraum ihre Erwerbstätigkeit wechseln, so sollten

sowohl die Daten der vorherigen als auch der aktuellen Erwerbstätigkeit erhoben werden, um

beispielsweise die zu einem Jobwechsel führenden Mechanismen analysieren zu können. Mit

Spelldaten wird diese Problemstellung angegangen, indem der Verlauf zwischen vorherigen und

aktuellen Erhebungszeitpunkt retrospektiv erfasst wird. Das sorgt jedoch dafür, dass Personen

nicht mehr nur eine Beobachtung pro Welle, sondern eine pro Spell aufweisen können. Die Da-

tenstruktur wird dadurch komplexer und die Datenaufbereitung erschwert. Aus diesem Grund

sind die Spelldaten bewusst separat gespeichert, um den Nutzern, die nicht auf sie zurückgreifen

müssen, das Datenhandling nicht unnötig zu erschweren.

Abbildung 13: Verwendung von Spelldaten zur Erfassung des Erwerbsstatus

Das Beispiel verdeutlicht den Nutzen von Spelldaten: Würden nur die aktuellen Werte der bei-

den Messzeitpunkte erhoben, würde fälschlicherweise angenommen, dass der Befragte kon-

stant gearbeitet hat, obwohl er im Februar und März arbeitslos war und erst wieder kurz vor

der Erhebung in Arbeit kam.

16 Dies liegt daran, dass NEPS sehr umfangreich und komplex ist und die Verwendung eines einzigen Da-tensatzes die Auswertungen erschweren würde. Gerade die Aufnahme von Spells ist relativ komplex und erschwert die Arbeit mit den Daten.

0

1

Januar /… Februar März April /…

Erwerbsstatus1= Erwerbstätig



Zum Zusammenführen mehrerer Datensätze bietet Stata den sogenannten merge-Befehl (engl.

für fusionieren). Dieser ermöglicht es, mehrere Datensätze anhand von Schlüsselvariablen, die in

beiden Datensätzen Beobachtungen (im nationalen Bildungspanel handelt es sich in der Regel

um die ID der Befragten und die Erhebungswelle) identifizieren, zusammenzufügen. Hierbei ist

es sinnvoll, nur die relevanten Informationen in den neuen Datensatz zu holen, da riesige Da-

tensätze zum einen die Geschwindigkeit beeinflussen können und zum anderen uninteressante

Variablen enthalten, die für die weitere Analyse nicht benötigt werden und keinen Nutzen bie-

ten. Der geöffnete Datensatz, an den Variablen angehängt werden, wird als master-Datensatz

bezeichnet, während der anzuhängende Datensatz als using-Datensatz bezeichnet wird. Je nach-

dem, ob die Schlüsselvariable(n) einzelne Beobachtungen eindeutig identifizieren, sind ver-

schiedene Varianten des merge-Befehls durchführbar:

Allgemeine Kommandostruktur:

merge 1:1 varlist using filename [, options]

merge 1:m varlist using filename [, options]

merge m:1 varlist using filename [, options]

merge m:m varlist using filename [, options]

Wichtige Optionen des merge-Befehls keepusing(varlist) Es kann bestimmt werden, welche Variablen des hinzugefügten Daten-

satzes übernommen werden; alle anderen Variablen werden rausgewor-fen. Voreingestellt ist die Übernahme aller Variablen.

nogenerate Es wird keine „_merge“-Variable erstellt. Die _merge-Variable gibt an, aus welchem Datensatz die Daten kommen: 1. Die Daten sind ausschließlich im master-Datensatz vorhanden 2. Die Daten sind ausschließlich im using-Datensatz vorhanden 3. Die Daten sind in beiden Datensätzen enthalten.

generate (newvar)

Die „_merge“-Variable kann einen beliebigen Variablennamen zugewie-sen bekommen.

nolabel Label werden nicht übernommen.

update Missings im master werden, falls vorhanden, durch Werte aus dem hin-zugefügten Datensatz ergänzt.

replace Werte im master werden durch Werte aus dem hinzugefügten Datensatz ersetzt (Benötigt update).

one to one merge



In den zu fusionierenden Datensätzen identifizieren die Schlüsselvariablen in allen Fällen genau

eine Beobachtung.

Um Informationen zu Weiterbildungen, die sich im Datensatz „SC6_spCourses _D_5 -1-0.dta“

befinden, mit spEmp, dem Datensatz zur Erwerbstätigkeit zu fusionieren, können mehrere Vari-

ablen, die zusammen eine eindeutige Identifizierung in beiden Datensätzen ermöglichen, ver-

wendet werden. „ID_t“, die personenspezifische ID, „wave“, die Erhebungswelle, und splink, der

jeweiligen Beschäftigungs-Spell, ermöglichen einen „1:1-merge“, da sie zusammen jede Beobach-

tung eindeutig identifizieren können .

many to one merge

Manchmal ist eine eindeutige Identifizierung in einem der Datensätze jedoch nicht möglich. Der

Datensatz „SC6_Basics_D_5-1-0.dta" enthält keine Information zur Welle oder dem Befragungs-

Spell, sodass ein one to one merge nicht möglich ist, da im spEmp-Datensatz keine eindeutige

Identifizierung möglich ist. Als Alternative kann in diesem Fall ein many to one merge („m:1“)

verwendet werden. „m:1 merges“ sind ähnlich wie „1:1 merges“, mit dem Unterschied, dass die

Schlüsselvariablen nur im using-Datensatz (derjenige, der hinzugefügt werden soll) Beobach-

tungen klar identifizieren kann. Im master-Datensatz hingegen haben mehrere Beobachtungen

die gleiche Ausprägung der Schlüsselvariable(n). Das ist bei einer Fusion der oben genannten

Dateien der Fall: spEmp enthält die meisten IDs mehrfach, einmal für jede bisherige Erhebungs-

welle und jeden Spell, Basics hingegen nur einmal. Ein „1:1 merge“ mit der ID als Schlüsselvari-

able ist logischerweise nicht mehr möglich, stattdessen werden mehrere Beobachtungen im

master-Datensatz mit einer Beobachtung im using-Datensatz fusioniert.

one to many merge

Der „1:m merge“ ähnelt dem „m:1 merge“, die eindeutige Identifizierbarkeit ist jedoch nur im

master-Datensatz gegeben. Im using-datensatz können die Schlüsselvariable(n) bei mehreren

Beobachtungen die gleiche Ausprägung haben.

many to many merge

Diese Variante sollte niemals verwendet werden!

In Situationen, in denen man einen many to many merge für nötig erachtet, sollte man sich die

Datenstruktur solange klarmachen, bis man eine Lösung des Problems mittels der zuvor darge-

stellten Varianten gefunden hat. Im Allgemeinen gilt, je uneindeutiger die Identifizierung der

Fälle in den Datensätzen, desto wahrscheinlicher geht beim Zusammenspielen der Daten etwas

schief. Das tückische daran ist, dass dies in den seltensten Fällen direkt ersichtlich ist. Die Erläu-

terung des „m:m merges“ geschieht hier nur aus Gründen der Vollständigkeit: Weder im master-,

noch im using-Datensatz können alle Beobachtungen über die Schlüsselvariable identifiziert

werden. Innerhalb der jeweiligen Ausprägung der Variablen ordnet Stata die Beobachtungen

nach der Reihenfolge ihres Vorkommens in dem jeweiligen Datensatz. Wenn in einer Kategorie

der Schlüsselvariablen ungleich viele Fälle vorhanden sind, wird die letzte Beobachtung der kür-



zeren Gruppe wiederholt zum Zusammenfügen mit den Beobachtungen der längeren Gruppe

verwendet. Daher wird auch im Stata-Manual dringend davon abgeraten, einen „m:m merge“

durchzuführen.

Es sollen der spEmp-Datensatz und der Basic-Datensatz fusioniert werden. Dazu reicht das fol-

gende, kurze Kommando:

use SC6_spEmp_D_5-1-0.dta, clear

merge m:1 ID_t using SC6_Basics_D_5-1-0.dta

Der using-Datensatz „SC6_Basics_D_5-1-0.dta“ wird mit dem bereits geöffneten master-

Datensatz fusioniert, wobei „ID_t“ als Schlüsselvariable verwendet wird.

Ein kleiner Tipp: Wenn sich die zusammenzufügenden Datensätze im gleichen Ordner befinden,

erspart man sich Tipparbeit und eliminiert außerdem weitere Fehlerquellen.

Außerdem sollte daran gedacht werden, dass varlist auch mehrere Variablen als Schlüsselvariab-

len definieren kann. Dieser Vorteil sollte genutzt werden, da mit einer einzigen Schlüsselvariable

bei NEPS in den seltensten Fällen eine eindeutige Identifizierung gewährleistet werden kann.


merge 1:m ID_t wave splink using SC6_spCourses_D_5-1-0.dta17

isid

isid varlist [using filename] [, sort missok]

Mit dem isid-Befehl kann schnell überprüft werden, ob die in varlist genannten Variablen eine

eindeutige Identifizierung ermöglichen. Mit der Ergänzung um „using filename“ kann außerdem

überprüft werden, ob ein Zusammenspielen mit dem weiteren Datensatz anhand der genannten

Variablen möglich ist.


isid ID_t wave splink subspell

Vier Variablen werden benötigt, um im unaufbereiteten SpEmp-Datensatz eindeutig Variablen

identifizieren zu können.

5.1.2 Der append-Befehl

Im Unterschied zum merge-Befehl, werden durch den append-Befehl Beobachtungen ergänzt

und nicht fusioniert. Diese Vorgehensweise wird beispielsweise verwendet, wenn die Daten der

17 Damit dieser Befehl fehlerfrei läuft, müssen beide Datensätze im Vorhinein aufbereitet werden.



Wellen einzeln gespeichert sind und für eine gemeinsame Analyse zusammengefasst werden

sollen. In der Startkohorte 5 (Studierende) ist es beispielsweise nötig, die Werte der selbstadmi-

nistrierten CAWI-Befragung (Welle 2) an den Target-Datensatz, der die Wellen 1 und 3 enthält,

anzuhängen. Da es in der Erwachsenenkohorte momentan keinen Grund gibt zwei Datensätze

aneinander zu hängen, bezieht sich das folgende Beispiel daher auf eine andere Startkohorte

und kann nicht auf die Startkohorte 6 übertragen werden!


append using filename [filename..] [, options]

Wichtige Optionen des append-Befehls generate (newvar)

Eine neue Variable wird erstellt. Diese vermerkt, aus welchem Datensatz die jeweilige Beobachtung kommt. 0 steht für den master-Datensatz, 1 für den ersten anzuhängenden Datensatz usw.

keep (varlist) Nur die genannten Variablen des anzuhängenden Datensatzes werden übernommen. Nützlich, wenn nur einige wenige Variablen der neuen Beobachtungen für die Analyse von Bedeutung sind.

nolabels Label des anzuhängenden Datensatzes werden nicht übernommen.

use SC5_pTargetCATI_D_4-0-0.dta, clear

append using SC5_pTargetCAWI_D_4-0-0

Der xTargetCAWI Datensatz wird an den bereits geöffneten pTarget-CATI Datensatz angehängt.

5.2 Umwandeln der Datenstruktur: „long- und wide-Format“ Wie bereits bekannt hat jeder Teilnehmer einer Panelbefragung Werte für die verschiedenen

Erhebungswellen (Welle 1,2,3, …), in denen die Daten erhoben wurden. Diese Darstellungsform

nennt sich long-Format und wird oft bei hierarchischen Daten verwendet. Hierarchische Daten

enthalten mindestens zwei Ebenen an Daten, bei denen Datenpunkte der ersten Ebene in Daten-

punkten der zweiten Ebene zusammengefasst sind. In Paneldatensätzen liegen beispielsweise

die einzelnen Befragungen einer Person auf der ersten Ebene und sind in der jeweiligen Person

zusammengefasst (vgl. Abbildung 7; vgl. außerdem social sciene computing cooperative 2017).



Tabelle 8: Long Format

ID (anonymi-

siert)

Welle Einkommen

800XXX6 1 200 800XXX6 2 Nicht ermit-

telbar 800XXX6 3 3000 800XXX6 4 3700 800XXX8 1 4200 800XXX8 2 3800 800XXX8 3 3600

Teilweise wird jedoch nur eine Zeile pro Person verwendet und die Informationen neuer Wellen

werden in einer neuen Spalte hinzugefügt. Diese Darstellungsform wird wide-Format genannt.

Tabelle 9: Wide Format

ID Einkommen

(ts23410_g11)

Einkommen

(ts23410_g12)

Einkommen

(ts23410_g13)

Einkommen

(ts23410_g14)

800XXX6 200 Nicht ermit-telbar

3000 3700

800XXX8 4200 3800 3600

Im wide-Format kann die Einkommensvariable beispielsweise dadurch unterschieden werden,

dass sie um die Information der Welle / des Spells ergänzt wird (ts23410_g11, ts23410_g12,

ts23410_g13, ts23410_g14).

Für bestimmte Untersuchungen, für eine bessere Darstellung oder für Kompatibilität mit ande-

ren Daten kann es nötig sein, das Format zu verändern. Stata bietet hierfür den reshape-Befehl.




long to wide:

reshape wide stubnames, i(varlist) [options]

wide to long:

reshape long stubnames, i(varlist) [options]

Wichtige Optionen des reshape-Befehls j(varname)

Die Variable, nach deren Ausprägung stubnames im Wide-Format sortiert werden.

string Verwenden, wenn j(varname) keine numerische Variable ist.

Die Kommandostruktur mag zunächst verwirrend wirken (stubnames, i(varlist)), ist aber sehr

einfach nachvollziehbar, wenn man sie sich einmal an einem Beispiel verdeutlicht:18

reshape wide ts23410_g, i(ID_t) j(wave)

Die Variable ID_t ist die Schlüsselvariable, anhand welcher der Datensatz umgewandelt wird.

Alle Beobachtungen, die bei ID_t bzw. i(varlist) den gleichen Wert aufweisen, werden von Stata

zu einer Beobachtung zusammengefasst.

ts23410_g bzw. stubnames ist die Variable, welche vom long in das wide-Format übersetzt wer-

den soll.

wave bzw. j(varname) wird verwendet, um Stata die Reihenfolge für ts23410_g mitzuteilen. Ge-

nerell orientiert sich stubnames an j(varname) und dessen Sortierung.

Nachdem die Umwandlung ausgeführt wurde, verändert sich die Datenmatrix von der Darstel-

lungsweise in Tabelle 8 zu der Darstellungsweise in Tabelle 9.

Ein Problem bei einem reshape vom long- in das wide-Format ist der Umgang mit den weiteren

Variablen im Datensatz. Um in das wide-Format übersetzt zu werden, müssen Variablen entwe-

der innerhalb der Schlüsselvariable konstant sein (beispielsweise Geschlecht, das Herkunfts-

land,…) oder explizit bei stubnames erwähnt und umgewandelt werden. Sollten sich noch nicht

konstante Variablen im Datensatz befinden, die nicht explizit genannt wurden, wird die Um-

wandlung abgebrochen.

18 In diesem Fall müssten noch die Spells beachtet werden. Aus Gründen der Übersichtlichkeit wurde in diesem Beispiel darauf verzichtet.



5.3 Generieren und Verändern von Variablen Auch wenn die Datensätze zusammengeführt und das richtige Datenformat gewählt wurde, ist

eine Analyse noch nicht möglich. Trotz sorgfältiger Aufbereitung seitens des Erhebungsinstitu-

tes ist es für die eigene Fragestellung praktisch immer nötig, einzelne Variablen zu verändern

oder neue zu erstellen. Im Folgenden werden daher Befehle vorgestellt, die die Veränderung und

Generierung von Variablen ermöglichen.

generate

generate [type] newvar[:lblname] =exp [if] [in]

Der generate-Befehl wird zur Erzeugung neuer Variablen genutzt und ist intuitiver, als er zu-

nächst erscheinen mag. Wichtig sind am Anfang nur zwei Elemente. Wie aus der Syntax ersicht-

lich wird, erzeugt der generate-Befehl neue Variablen (newvar) und kann niemals bestehende

überschreiben. Das zunächst kryptisch erscheinende „exp“ beschreib eine Expression, einen

Ausdruck, mit dem Stata mitgeteilt wird, aus was die mit newvar generierte Variable bestehen

soll.

Das Kommando „generate age = inty - t70000y” erstellt eine neue Variable mit dem Alter der

Befragten zum Befragungszeitpunkt.19 inty beschreibt hierbei das Jahr des Interviews von dem

t70000y, das Geburtsjahr, subtrahiert wird.

replace

replace oldvar =exp [if] [in] [, nopromote]

Der replace-Befehl ergänzt den generate-Befehl und erlaubt das Verändern bestehender Variab-

len. Dabei folgen beide Befehle der gleichen Logik und unterscheiden sich lediglich darin, ob eine

neue Variable erzeugt oder eine bestehende ersetzt werden soll. Da der replace-Befehl Daten

verändert, gehört er zu den wenigen Befehlen, die nicht abgekürzt werden können.

Durch die Eingabe von „replace ts23410_g = log(ts23410_g)“ wird das Einkommen durch das

logarithmierte Einkommen ersetzt.

recode

Basic Syntax: recode varlist (rule) [(rule) ...] [, generate(newvar)]

Full Syntax: recode varlist (erule) [(erule) ...] [if] [in] [, options]

Auch der recode-Befehl kann zur Veränderung von Variablen verwendet werden. Anders als der

generate/replace-Befehl werden vordefinierte Regeln statt Ausdrücken verwendet. Sollten ein-

19 Wobei die Angabe nicht ganz genau ist, da nur das Jahr betrachtet wird. Je nach Geburtstag und Datum des Interviews kann es sein, dass ein Befragter diesem Jahr noch nicht Geburtstag hatte und demnach jünger ist als berechnet.



zelne Werte von mehreren Regeln angesprochen werden (was generell vermieden werden soll-

te) werden alte Regeln von neueren überschrieben.

Mit der Option generate(newvar) kann außerdem eine neue Variable erzeugt werden, während

ansonsten die alte Variable überschrieben wird.

Tabelle 10: Regeln des recode-Befehls

Regel Beispiel Auswirkungen # = # 1 = 3 Wert 1 der varlist wird zu Wert 3 rekodiert # # = # 1 2 = 1 Die Werte 1 und 2 werden zum Wert 1 zusam-

mengefasst # / # = # 1 / 3 = 1 Die Werte 1 bis 3 werden zum Wert 1 zusam-

mengefasst nonmissing = # nonmissing = 2 Alle nicht fehlenden Werte, die bisher von keiner

Regel angesprochen wurden, bekommen den Wert 2

missing = # missing =-97 Fehlende Werte, die bisher von keiner Regel angesprochen wurden, bekommen den Wert -97

else = # else = -97 Alle Werte (fehlend und nicht fehlend), die bis-her von keiner Regel angesprochen wurden, be-kommen den Wert -97

Das Kommando „recode t751001_g2 (1/11=1) (12/16=0), generate(ostdeutschland)“ dichotomi-

siert den Wohnort der Befragten, indem nur noch zwischen Ost- und Westdeutschland unter-

schieden wird. Um Datenverlust zu vermeiden wird eine neue Variable (ostdeutschland) erstellt.

Der generate/replace-Befehl und der recode-Befehl können immer auch miteinander ausge-

tauscht werden. Oft ist jedoch eine der beiden Varianten weitaus effizienter, weswegen die Wahl

des Befehls von der konkreten Rekodierung abhängt.

rename

rename old_varname new_varname

Die im NEPS verwendeten Variablennamen sind oft komplex und für Außenstehende wenig intu-

itiv, sodass es dem Verständnis förderlich sein könnte, einfachere Varianten zu verwenden. Der

rename-Befehl ermöglicht eine einfache Umbenennung, indem sowohl der alte als auch der neue

Variablenname hintereinander eingegeben werden.

Durch „rename ts23410_g1 neteinkommen“ bekommt die Frage nach dem monatlichen Nettoein-

kommen einen kurzen und erkennbaren Namen.

Datenaufbereitung III: Umgang mit fehlenden Werten


label variable

label variable varname ["label"]

Der label variable-Befehl vergibt eine Variablenbeschreibung (bis zu 80 Zeichen), anhand derer

der Inhalt der Variable über den Namen hinaus erkennbar ist.

Das Kommando „label variable ts23410_g1 “Nettoeinkommen“ “ beschreibt die Einkommensva-

riable und grenzt sie von anderen möglichen Einkommensvariablen wie dem Haushaltseinkom-

men oder dem Bruttoeinkommen ab.

label define

label define lblname # "label" [# "label" ...] [, add modify replace nofix]

Weiter oben wurden value labels bereits angesprochen. Durch Datenveränderung kann es pas-

sieren, dass die vorherigen value labels nicht mehr auf die veränderten Daten passen. In diesem

Fall wird es nötig, eigene value labels zu erzeugen, die zu den Daten passen. Der label define-

Befehl ermöglicht deren Erstellung und durch die Nutzung von Optionen außerdem die Verän-

derung bestehender value labels.

Für die oben erstellte dichotome Rauchervariable können durch „label define ostdeutschland 0

„Westdeutschland“ 1 „Ostdeutschland“ “ value labels erzeugt werden.

label values

label values varlist [lblname|.] [, nofix]

Da es sich bei den oben erstellen value labels lediglich um Behälter handelt, müssen diese noch

den entsprechenden Variablen zugeordnet werden. Das geschieht mit Hilfe des label values-

Befehl.

Um den Behälter „raucher“ mit den beiden value labels „Nichtraucher“ und „Raucher“ mit der

Variable zum Raucherstatus zusammenzuführen, wird das Kommando „label values raucher_d

raucher“

6. Datenaufbereitung III: Umgang mit fehlenden Werten Bei jeder Auswertung wird man fehlende Werte bei einzelnen Variablen oder den Ausfall ganzer

Personen (bei Panel-Erhebungen) entdecken. Die Ursachen dafür sind vielfältig: Ein Befragter

verweigert die Beantwortung einer Frage, er kann sie nicht beantworten oder er nimmt (im

Rahmen einer Panelstudie) an einer Erhebungswelle gar nicht teil. Diese sogenannte „missings“

können, wenn sie systematisch entstehen, zu verzerrten Schätzungen führen. Zunächst sollte

man versuchen, die Ursachen für das Fehlen der Werte zu finden, da je nach Ursache unter-

schiedliche Handlungsmöglichkeiten möglich sind.



Es werden zwei Gründe für fehlende Werte unterschieden: Item- und Unit-Nonresponse. Wäh-

rend bei ersterem einzelne Variablen von einer Person nicht beantwortet wurden, fehlt bei Unit-

Nonresponse eine ganze Person. Jede dieser Nonresponse-Arten kann auf unterschiedliche Wei-

se behandelt werden. Auf Item-Nonresponse kann sowohl durch einen fallweisen Ausschluss

(listwise deletion, s.u.), als auch per (multipler) Imputation reagiert werden, die Verzerrung

durch Unit-Nonresponse ist durch Gewichtung und teilweise auch durch (multiple) Imputation

reduzierbar.

Bei fehlenden Items können darüber hinaus noch drei Arten von Missingmechanismen unter-

schieden werden, je nachdem, wie die Beziehung zwischen den gemessenen Variablen und dem

Datenausfall ist (vgl. Reinecke 2013): „missing completely at random“ (MCAR), „missing at rand-

om“ (MAR) und „missing not at random“ (MNAR).

Tabelle 11: Unterschiedliche Arten des Missingmechanismus

MCAR Der Datenausfall ist unabhängig von den beobachteten und un-beobachteten Werten und demnach zufällig entstanden. Fehlende Einkommenswerte, die weder durch die Einkommenshöhe, noch durch andere Einflüsse wie das Alter oder die Bildung der Befragten zustande kommen, würden als MCAR eingestuft. Durch das zufällige Auftreten des Datenausfalls ist nicht mit einer Verzerrung durch die fehlenden Werte zu rechnen, es kann gefahrlos eine listwise deletion durchgeführt werden, solange die Fallzahl dadurch nicht zu gering wird.

MAR Der Datenausfall wird systematisch durch die beobachteten Variablen verursacht, hängt jedoch nicht mit den unbeobachteten (fehlenden) Wer-ten zusammen. Fehlende Einkommenswerte, die zwar nicht von der Einkommenshöhe, aber von dem Alter und der Bildung der Befragten abhängen, würden als MAR eingestuft.

MNAR Der Datenausfall hängt sowohl von den beobachteten, als auch von den unbeobachteten Werten ab. Im Unterschied zu MAR sind die Ursachen des Fehlens nicht komplett im Modell (als beobachtete Kovariablen) vor-handen und Erfassbar, sondern auch außerhalb, in Form fehlender unbe-obachteter Werte, zu finden. Sollten die fehlenden Einkommenswerte nicht nur von der Bildung und dem Alter der Befragten, sondern auch von der Höhe des Einkommens abhängen, wären diese MNAR. Die Unterscheidung zwischen MAR und MNAR ist empirisch nicht möglich, da durch das Fehlen der Werte nicht überprüft werden kann, welchen Einfluss der (unbekannte) fehlende Wert darauf hatte, dass er letztendlich zu einem fehlenden Wert wurde.

Während MCAR, aufgrund des zufälligen Fehlens der Werte, das geringste Problem darstellt und

meistens zuverlässig per listewise deletion gehandhabt werden kann, benötigen MNAR und

MAR mehr Aufmerksamkeit, da eine listewise deletion zu Verzerrungen führen kann. In diesem

Fall wäre es daher sinnvoll, die fehlenden Werte beispielsweise per multipler Imputation (vgl

Kapitel 6.3) zu schätzen. Eine Ausnahme sind „wahre“ fehlende Werte: Das Fehlen des Berufes



des Vaters sollte zwar ersetzt werden, wenn der Befragte keine Angabe machen wollte, jedoch

nicht, wenn er keinen Vater hatte und deswegen keine Angabe machen konnte. Im zweiten Fall

würde man der Person fälschlicherweise einen Vater zuschreiben, den sie nicht hat.

6.1 Missing values definieren Bei der Durchführung des Interviews gibt es mehrere Ursachen dafür, dass Befragte auf einer

Variablen keinen inhaltlichen Wert aufweisen. So ist es möglich, dass Befragte die Antwort ver-

weigern, keine Meinung zu ihr haben oder sie ihnen gar nicht gestellt wird. Insgesamt gibt es im

NEPS fast 20 verschiedene Ursachen für fehlende Werte:

Tabelle 12: Kodierung fehlender Werte im NEPS

Code Ursache des fehlenden Wertes

-98 Weiß nicht

-97 Antwortverweigerung

-94 Nicht erreicht

-90 Unspezifizierter fehlender Wert

-20 … -29 Itemspezifischer fehlender Wert

-99

-96

-93

-54

Frage nicht gestellt, weil...

… Filter nicht zutreffend

… Nicht in Liste

… trifft für Befragten nicht zu

… Designbedingt fehlend

-95 / -52 Unplausibler Wert wurde entfernt

-56 Nicht teilgenommen

-55 Nicht Bestimmbar

-53 Anonymisiert

Bevor Analysen gestartet werden können, muss Stata mitgeteilt werden, dass fehlende Werte

nicht inhaltlich zu interpretieren sind und von der Analyse ausgeschlossen werden sollen, da sie

ansonsten als hohe negative Werte mit in die Berechnungen einfließen würden. Das geschieht,

indem die Werte als missings definiert werden, wodurch Stata sie automatisch von der Analyse

ausschließt.

Der Befehl mvdecode ermöglicht es, für einzelne (oder alle) Variablen bestimmte Zahlenwerte

als missing zu definieren; Es können mehrere Werte einen einzelnen Missingcode bekommen,



oder es kann differenziert werden, sodass man später noch nachvollziehen kann, weswegen die

Werte fehlen.20


mvdecode varlist [if] [in], mv(numlist | numlist=mvc [\numlist=mvc...])

Mit dem Komplementärbefehl mvencode lässt sich das definieren von missings außerdem

schnell wieder rückgängig machen.

Alternativ kann auch der Befehl recode verwendet werden.

recode varlist (rule) [(rule)…] [, generate (newvar)]

mvdecode t733001, mv (-98=.a\ -97=.b\ -54=.c)

recode t733001 (-98=.a) (-97=.b) (-54=.c)

Für die Frage nach dem aktuellen Familienstand werden die fehlenden Werte definiert. Jeder der

vorher festgelegten Codes (-98, -97, -54) bekommt eine eigene Kennzeichnung (.a, .b, .c), sodass

keine Informationen über die Herkunft der fehlenden Werte verloren gehen.

6.2 Fallweiser Ausschluss („listwise deletion“) Die Idee hinter dem fallweisen Ausschluss ist, dass Personen, die in mindestens einer der zu

untersuchenden Variablen fehlende Werte aufweisen, komplett aus der Analyse ausgeschlossen

werden. Obwohl Stata Beobachtungen mit definierten missings automatisch von der jeweiligen

Analyse ausschließt, reicht es nicht aus, sie nur aus dieser einen Analyse zu entfernen. Der

Grund dafür ist, dass die Fallzahl bei sämtlichen Untersuchungen identisch sein muss, um Ver-

zerrungen aufgrund einer systematischen Stichprobenreduzierung zu vermeiden. Während eine

Regression von Einkommen auf die Teilnahme an Weiterbildung noch 30890 Beobachtungen

aufweist, enthält eine Regression von Einkommen auf die Teilnahme an Weiterbildung, die Bil-

dung und den Familienstand der Befragten nur noch 29585 Beobachtungen. Die Aufnahme wei-

terer Variablen reduziert die Fallzahl noch weiter. Wenn dieser Ausfall systematisch passiert

(MAR / MNAR), so ist mit unterschiedlichen Werten aufgrund der Stichprobenzusammenset-

zung zu rechnen. Der Effekt der Hinzunahme der weiteren Variable wäre daher nicht mehr in-

terpretierbar, da Veränderungen nicht nur durch die Aufnahme von Kontrollvariablen sondern

auch durch die Reduktion der Stichprobe zustande kommen. Daher müssen sämtliche Regressi-

onen mit den exakt gleichen Fällen berechnet werden. Hierfür gibt es mehrere Wege, von denen

einer im Folgenden vorgestellt wird. In diesem Fall wird ein Modell mit allen in den Analysen

verwendeten Variablen berechnet. Die Berechnungsart und die Reihenfolge der Variablen ist 20 Für das Nationale Bildungspanel gibt es einen einfachen Weg zum Definieren der Fehlenden Werte. Das Herunterladbare Zusatzprogramm „nepsmiss“ ermöglicht es, fehlende Werte einzelner oder aller Variablen automatisch zu definieren. Zur Installation des Programms innerhalb Statas ‘net install nepstools, from(http://nocrypt.neps-data.de/stata)‘ eingeben.



vollkommen egal, da die Ergebnisse nicht von Bedeutung sind. Eine einfache lineare Regression

(regress) bietet sich hierfür an, da sie besonders schnell berechnet wird:

regress v1 v2 v3…vk21

Zur Berechnung der Regressionsparameter verwendet Stata automatisch nur Beobachtungen,

die in keiner der Variablen fehlenden Werte aufweisen. Der obige Befehl beruht daher auf einem

Sample mit Beobachtungen ohne fehlende Werte aufweisen. Anschließend werden mit dem Be-

fehl keep nur die Beobachtungen im Datensatz behalten, die in der vorherigen Regression ver-

wendet wurden:

keep if e(sample)

Da es sich hierbei nur um Beobachtungen handelt, die auf keiner der Variablen einen fehlenden

Wert aufweisen, da nur diese im ersten Regressionsbefehl verwendet wurden, wird das Analy-

sesample automatisch auf die kleinstmögliche Zahl reduziert.

Je nach vorliegenden Missingmechanismus eignet sich ein fallweiser Ausschluss mehr oder we-

niger gut. Bei einem unsystematischen Ausfall, MCAR, führt ein fallweiser Ausschluss „lediglich“

zu einer verringerten Fallzahl, die Qualität der Schätzung ist dadurch jedoch nicht beeinflusst.

Bei einem systematischen Ausfall würde man zunächst Intuitiv vermutlich davon ausgehen, dass

dieser zwangsläufig auch zu systematisch verzerrten Ergebnissen führt, weswegen teilweise

deutlich von einem fallweisen Ausschluss abgeraten wird (King et al. 1998). Diese Befürchtung

stimmt zumindest teilweise, unter bestimmten Bedingungen sind jedoch auch per fallweisem

Ausschluss unverzerrte Schätzungen bei MAR und MNAR möglich. In einer Regression liefern

unabhängige Variablen mit systematisch fehlenden Werten unverzerrte Ergebnisse, solange (1)

deren Ausfallwahrscheinlichkeit nicht von der abhängigen Variable beeinflusst und (2) das Mo-

dell korrekt spezifiziert ist. Bei logistischen Regressionen sind sogar unverzerrte Schätzungen

möglich, wenn die abhängige Variable MNAR ist. Voraussetzung ist hierbei, dass die Ausfall-

wahrscheinlichkeit nicht von den unabhängigen Variablen beeinflusst ist (Allison 2014).

Daher ist ein fallweiser Ausschluss bei Arbeiten im Bachelor und bei Seminararbeiten im Master

vollkommen ausreichend, zumal auch Imputationen nur dann zu besseren Ergebnissen kommen,

wenn sie sehr gut spezifiziert sind. Dennoch sollte man sich Gedanken über den zugrunde lie-

gende Missingmechanismus machen um sicher zu gehen, dass dieser im angewandten Modell

nicht zu Problemen führt und die Schätzungen unverzerrt sind. Außerdem sollte überprüft wer-

den, ob sich die Verteilung der zu analysierenden Variablen durch den Ausschluss verändert hat.

6.3 Imputation Die (multiple) Imputation ist ein Verfahren, in dem aus den Daten heraus plausible Werte als

Ersatz für die fehlenden Angaben geschätzt werden sollen. Da die Schätzung anhand der bekann-

ten Daten geschieht, setzen Imputationsmethoden in der Regel MAR voraus.

21 Hierbei stellt v1 die abhängige Variable und v2 … vk die unabhängigen Variablen dar.



Die einfachste Variante ist die Mittelwertimputation, bei welcher die missings durch den jeweili-

gen Mittelwert der Variablen ersetzt werden. Wenn der Datenausfall jedoch systematisch erfolgt

und beispielsweise das Einkommen mit höherer Bildung seltener angegeben wird, wird eine

Mittelwert-imputation den Einfluss der Bildung auf das Einkommen in hohen Bereichen unter-

schätzen. Daher kann eine Mittelwertimputation nicht empfohlen werden. Andere einfache Im-

putationsmethoden wie die Regressionsimputation oder die stochastische Regressionsimputati-

on bieten zwar genauere Schätzungen, es werden jedoch immer zu geringe Standardfehler und

Konfidenzintervalle geschätzt.

Mit der multiplen Imputation wird dieses Problem behoben, da mehrere Werte nacheinander

geschätzt werden und simultan verschiedene Datensätze ohne fehlende Werte erstellt werden.

Die Analysen werden anschließend für jeden so erzeugten Datensatz durchgeführt und der

Durchschnitt der entstandenen Mittelwerte wird als genauster Schätzwert angenommen. Hier

empfiehlt sich, nicht zu sparen und lieber zu viele als zu wenige Datensätze zu erstellen, wobei

die Angaben zwischen 5 bis 20 (Spieß 2010: 127) und mindestens 20 (Acock 2010: 361) variie-

ren. Je höher Gesamtvarianz zwischen den einzelnen Schätzungen ist, desto größer ist der Anteil

an fehlender Information (vgl. Spieß 2010: 128).

Bevor die einzelnen Datensätze erstellt werden, muss überlegt werden, welche Variablen in die

Berechnungen mit eingehen sollen. Acock (2012: 353 f.) schlägt vor, auch hier lieber viele Vari-

ablen zu verwenden, um eine angemessene Schätzung zu ermöglichen. Hierbei sollte darauf ge-

achtet werden, die abhängige und alle anderen Variablen des inhaltlichen Modells auf jeden Fall

mit einzubeziehen. Darüber hinaus sollten alle weiteren Variablen, die einen Einfluss auf die

Determinanten des inhaltlichen Modells haben, sowie jene, die die Ausprägungsstärke der AV

beeinflussen könnten, verwendet werden. Die einzige Ausnahme stellen Prädiktoren dar, die

ebenfalls viele fehlende Werte aufweisen, da ihre Aussagekraft durch die mangelhaften Informa-

tionen reduziert ist. Da die Aufnahme vieler Variablen jedoch zu Multikollinearität und anderen

Problemen führen kann, sollten nur jene verwendet werden, von denen einen Einfluss erwartet

wird und es sollten nicht wahllos Variablen hinzugefügt werden.

Im Gegensatz zu den bisher kennengelernten Befehlen, benötigt die multiple Imputation mehre

hintereinander folgende Befehle. Zunächst muss Stata mitgeteilt werden, wie die neu erzeugten

Datensätze dargestellt werden sollen:

mi set style

Style ist die konkrete Anordnungsanweisung und kennzeichnet sowohl das Format (wide oder

long), als auch spezifische Unterschiede innerhalb des long-Formats.



Tabelle 13: Anordnungsoptionen Imputation

wide Datensätze werden im wide-Format gespeichert. Aufgrund der internen Variablenbegrenzung in Stata (2047 in der Standardversion) kann dieses Format zu Problemen führen, da die Grenze schnell erreicht wird.

mlong (marginal and long)

Datensätze werden im long-Format gespeichert, wobei nur die Beobach-tungen, die missings aufweisen, in die erzeugten Datensätzen aufgenom-men werden. Hilfreich, um Speicherplatz zu sparen, falls 20.000 Beobach-tungen * 20 Datensätze den Arbeitsspeicher zu sehr belasten.

flong (full and long)

Datensätze werden im long-Format gespeichert, alle Beobachtungen werden mit aufgenommen.

flongsep (full and long, seperated)

Datensätze werden im long-Format gespeichert, imputierte Daten wer-den separat gespeichert. In der praktischen Umsetzung bietet die Sepa-rierung wenige Vorteile und führt eher zu Verwirrungen, weswegen mlong und flong zu favorisieren sind.

Im zweiten Schritt benötigt Stata Informationen darüber, welche Variablen wie verwendet wer-

den sollen:

mi register {imputed | passive | regular} varlist

Mit „mi register“ registriert man die Variablenliste und teilt sie einer der drei Gruppen (imputed,

passive oder regular zu). Sämtliche Variablen, die keiner Gruppe zugeordnet werden, werden als

unregistriert behandelt. Meistens ist nur imputed interessant, passive und regular sind nur bei

fortgeschrittenen Imputationen wichtig.

Tabelle 14: Registrierungsarten der multiplen Imputation

imputed In diese Kategorie fallen alle Variablen, die fehlende Werte aufweisen,

welche durch die Imputation geschätzt werden sollen.

passive Variablen müssen dann als passive kategorisiert werden, wenn sie Funk-tionen der imputierten Variablen sind. Das wäre der Fall, wenn eine Im-putation für Einkommen stattfände und das quadrierte Einkommen ebenfalls im Modell enthalten wäre.

regular Regular teilt Stata mit, dass die Variable über alle Datensätze konstant bleibt. Diese Information ist nur dann nötig, wenn andere Variablen wäh-rend der Berechnungen noch verändert werden, ansonsten sind regular und unregistrierte Variablen identisch.



Der letzte Schritt zur Erzeugung der Daten ist die Festlegung der Imputationsmethode:

mi impute method

Je nach Datenlage kann nun eine einfache Regression (regress), eine logistische Regression (lo-

git) oder auch andere Methoden verwendet werden.

Wer eine multiple Imputation durchführen will, sollte sich unbedingt intensiver in das Thema

reinlesen, da hier nur die absoluten Grundlagen angeschnitten werden konnten. 22

6.4 Gewichtung Die Gewichtung ist ein Verfahren, mit dem Unit-Nonresponse ausgeglichen werden kann. Ideal-

erweise repräsentiert die Stichprobe in allen Belangen die Grundgesamtheit, die Verteilung von

Männern und Frauen, Akademikern und Nichtakademikern, Ost- und Westdeutschen sollte also

in Stichprobe und Grundgesamtheit weitestgehend identisch sein. Leider ist dies selten der Fall

und manche Gruppen sind über- oder unterrepräsentiert, was zu verzerrten Ergebnissen führt.

Wenn, um wieder das Beispiel der Einkommensverteilung aufzugreifen, ärmere Menschen die

Teilnahme eher verweigern, führt dies automatisch zu einer Überschätzung der Charakteristika

der teilnahmebereiten Mittelschicht. Folgende Analysen würden nun von den Ausprägungen der

Mittelschicht dominiert, die spezifischen Charakteristika der Unterschicht gingen hingegen zu

einem zu geringen Teil in die Analyse ein.

Dies Problem lässt sich, sofern Informationen über die reale Verteilung vorliegen, korrigieren,

indem die Personen der unterrepräsentierten Gruppe höher gewichtet werden. Kurz gesagt fin-

det eine „Gewichtung jeder beobachteten Einheit mit dem Kehrwert ihrer Responsewahrschein-

lichkeit“ (Spieß 2010: 121) statt, durch welche von der Stichprobe auf die tatsächliche Vertei-

lung hochgerechnet wird. Sollten keine Informationen über die reale Verteilung vorliegen, muss

die Responsewahrscheinlichkeit manuell berechnet werden, sie dazu den oben genannten Arti-

kel.

Sollten die Gewichte jedoch nicht exakt sein, so kann deren Verwendung die Qualität der Analyse

sogar verschlechtern. Unter anderem deswegen empfiehlt Spieß, keine Gewichtung vorzuneh-

men, wenn die Beobachtungswahrscheinlichkeit alleine von den im inhaltlichen Modell enthal-

tenen Kovariablen abhängt. Wenn jedoch davon auszugehen ist, dass Variablen, die nicht im in-

haltlichen Modell enthalten sind, die Beobachtungswahrscheinlichkeit determinieren könnten,

sollte eine Gewichtung vorgenommen werden (vgl. Spieß 2010: 122 f.). Dies wäre der Fall, wenn

eine Haushaltsstichprobe gezogen wird und die Charakteristika des Wohnumfeldes die bestim-

menden Prädiktoren der Responsewahrscheinlichkeit sind, die Befragung jedoch nur personen-

spezifische Inhalte und keine Informationen über das Wohnumfeld ermittelt.

In Stata gibt es verschiedene Gewichtungsbefehle, je nachdem, was man gewichten möchte und

aus welchem Grund. In diesem Fall interessieren nur die „propability weights“ bzw. „sampling

weights“ (vgl. Kohler und Kreuter 2013: 75). Befehle, in deren Kommandostruktur [weight] steht

(beispielsweise regress, tabulate oder summarize), erlauben es, Gewichte zu verwenden.

22 Siehe Acock (2010: Kapitel 13) oder die Einführung der social science computing cooperation (http://www.ssc.wisc.edu/sscc/pubs/stata_mi_intro.htm) für ausführlichere Informationen und weiter-gehende Hilfestellungen sowie zahlreiche Beispiele.

Verfahrensablauf/Workflow und Checkliste


7. Verfahrensablauf/Workflow und Checkliste Im Folgenden werden die bisher erläuterten Punkte zu einer Checkliste zusammengefasst, die

bei der eigenen Analyse verwendet werden kann. Am Ende sollte jeder der unten genannten

Punkte mit ja zu beantworten oder bearbeitet worden sein.

1. Operationalisierung des theoretischen Konstruktes:

Wurde das theoretische Konstrukt so operationalisiert, dass alle inhaltlich relevan-

ten Themen messbar sind?

2. Zusammenstellung der Daten:

Welche Informationen liegen in den Daten vor? Welche Variablen werden benötigt,

um die Fragestellung zu beantworten?

Drei Wege, um sich schnell einen Überblick über die vorliegenden Daten zu machen:

Suche direkt im Datensatz (beispielsweise mit dem lookfor-Befehl). Setzt

Wissen über den Datensatz, in dem die Variable gespeichert ist, voraus.

Verwendung von Codebüchern und Fragebögen. Bietet den Vorteil, dass auch

die genauere Frageformulierung und eventuelle Filter sichtbar werden.

Verwendung des NEPSplorers (nur bei NEPS möglich; https://www.neps-

data.de/de-

de/datenzentrum/%C3%Bcbersichtenundhilfen/nepsplorer.aspx). Alle Da-

tensätze werden gleichzeitig nach bestimmten Stichworten durchsucht.

Empfohlen: Wurde eine Tabelle erstellt, in der festgehalten wird wie die verwende-

ten Variablen heißen, was sie messen, welche Ausprägungen sie haben und welche

Rekodierungen eventuell vorgenommen werden müssen?

3. Aufbereitungs- und Analyseplan erstellen

Kann das theoretische Konstrukt mit den vorliegenden Daten gemessen werden?

Wurde das Outcome vor und nach dem Treatment gemessen (Voraussetzung

für Fixed Effects) oder nur einmal (nur Vergleich zwischen Personen mög-

lich)?

Ist bekannt, ob die vorliegenden Daten umgearbeitet werden müssen (Rekodierung,

Erstellung neuer Variablen, Faktorenanalysen)?

4. Zusammenführen von Datensätzen (Erster Do-File)

Wurde ein eigener „Do-File” verwendet?

Wurde der neu entstandene Datensatze am Ende zur Weiterverarbeitung gespei-

chert? (bevorzugt in einen anderen Ordner, damit keine Verwirrung entsteht)

Wurde sich die Datenstruktur beider Datensätze vor dem mergen verdeutlicht und

überlegt, wie die Datensätze sinnvoll zusammengeführt werden können? Wurde da-

ran gedacht, dass auch mehrere Schlüsselvariablen definiert werden können?

5. Aufbereitung der Daten (Zweiter Do-File)

Wurden missings definiert?

Wurde die Filterführung überprüft? Haben alle Befragten die Fragen gestellt be-

kommen? Wenn dem nicht so ist, beeinflusst das die verwendeten Variablen?

Wurden alte Variablen nicht überschrieben, sondern neue erstellt? (nicht immer

wichtig, überschreiben sorgt jedoch dafür, dass sie später nicht mehr verfügbar sind)

Haben die Variablen sinnvolle Namen?

Einkommenssteigerung durch Weiterbildung?


Wurden alle Variablen nochmal überprüft? Sind irgendwo Ungereimtheiten (z.B. viel

zu geringe Fallzahlen, unerwartete Werte) und wurde überprüft woher diese kom-

men könnten?

Abschließend: Wurde eine Sampleabgrenzung vorgenommen? Hat der fallweise Aus-

schluss zu einer Veränderung des samples geführt und wie stark fällt diese aus?

6. Analyse (dritter Do-File)

Nochmal überprüfen: Sind die Fallzahlen konstant?

Wurden kategoriale Variablen als Dummies integriert?

Wurden sinnvolle Referenzkategorien gewählt?

Bei Interaktionseffekten: Sind die konditionalen Haupteffekte im Modell?

7. Ausgabe

Entsprechen die ausgegebenen Tabellen den Vorgaben?

Wurden die Koeffizienten auf zwei / drei Nachkommastellen gekürzt?

Sind bei kategorialen Variablen alle Kategorien ersichtlich?

Stimmt die Beschriftung der Variablen?

Ist die Tabelle gut lesbar?

Sind alle wichtigen Informationen zu den berechneten Modellen enthalten?

Berechnung der Standardfehler, nicht gezeigte Koeffizienten, t-Werte oder

Standardfehler in Klammern?

Entsprechen die ausgegebenen Grafiken den Vorgaben?

Sind die Achsen passend beschriftet? Stimmt die Legende?

8. Einkommenssteigerung durch Weiterbildung? Mit dem bisher erlernten Wissen ist es möglich, die eingangs gestellte Frage zu beantworten. Es

soll überprüft werden, ob der postulierte deutlich positive Effekt von Weiterbildung tatsächlich

vorhanden ist, oder ob Weiterbildung nur einen geringen oder gar keinen Einfluss auf das Ein-

kommen der Befragten hat. Dazu müssen zunächst theoretisch fundierte Prädiktoren gefunden

werden, die sowohl mit der abhängigen als auch mit der unabhängigen Variable korreliert sind.

In diesem Fall wird sich dafür an Wolter und Schieners (2009) orientiert, die ein Set an theore-

tisch fundierten und empirisch überprüften Variablen zur Beantwortung der gleichen Fragestel-

lung verwenden. Anschließend an die Auswahl der Variablen und deren entsprechende Kodie-

rung muss der Umgang mit fehlenden Werten diskutiert werden, wobei in diesem Fall, trotz po-

tentieller Probleme ein fallweiser Ausschluss durchgeführt wurde. Mit vollständig definierten

fehlenden Werten können Regressionen gerechnet werden. Während das bivariate erste Modell

einen Anstieg von 33,9 Prozent errechnet, reduziert sich dieser Einkommenszuwachs, sobald für

potentielle Grupppenunterschiede kontrolliert wird. Die 33.9 Prozent Einkommenszuwachs des

ersten Modells reduzieren sich so auf 12,8 Prozent, da die unbeobachtete Heterogenität zwi-

schen Befragten mit und ohne Treatment reduziert wird. Andere Faktoren wie die Bildung, das

Geschlecht, die Befristung des Jobs oder die wöchentliche Arbeitszeit beeinflussen sowohl die

Teilnahme an Weiterbildung als auch das Einkommen und führen im ersten Modell zu unbeo-

bachteten Gruppenunterschieden. Da jedoch zu befürchten bleibt, dass auch weiterhin unbeo-

bachtete Unterschiede, beispielsweise durch unterschiedliche Karriereaspirationen oder kogni-

tive Fähigkeiten, existieren, wird im letzten Modell auf ein ohnehin verzerrten Vergleich zwi-

schen Befragten verzichtet und nur die within-Varianz, die Unterschiede innerhalb von Perso-

nen zu verschiedenen Zeitpunkten, verwendet. Die Verwendung des Fixed-Effekts-Modells re-

Einkommenssteigerung durch Weiterbildung?


sultiert in einem erneut reduzierten Effekt, wobei Weiterbildung lediglich noch zu einem Ein-

kommenszuwachs von 4,3 Prozent führt. Da durch Fixed-Effects-Modelle zeitunveränderliche

unbeobachtete Heterogenität, beispielsweise die kognitive Fähigkeit der Befragten, ausgeschlos-

sen werden kann, ist der berechnete Effekt sehr viel näher, wenn nicht gleich dem wahren empi-

rischen Wert. Da der Effekt weiterhin signifikant ist, lässt sich schlussfolgern, dass die Teilnah-

me an Weiterbildung zwar zu einem Einkommenszuwachs führt, dieser jedoch weitaus geringer

ist als ursprünglich angenommen.

Tabelle 15: Einfluss von Weiterbildung auf das Einkommen

Modell 1

Modell 2 Modell 3

POLS I POLS II FE Teilnahme an Weiterbildung 0.339*** 0.128*** 0.043*** (0.012) (0.007) (0.006) Bildungsjahre 0.059*** (0.002) Wechsel der Beschäftigung 0.032*** 0.070*** (0.009) (0.009) Zeit in Firma 0.019*** 0.020*** (0.002) (0.006) Zeit in Firma quadriert -0.000*** -0.000* (0.000) (0.000) Befristeter Job -0.155*** -0.065 (0.019) (0.036) Wöchentliche Arbeitsstunden 0.019*** 0.008*** (0.001) (0.001) Alter 0.030*** 0.043** (0.005) (0.015) Alter quadriert -0.000*** -0.000** (0.000) (0.000) Verheirateta 0.003 (0.014) Geschieden 0.027 (0.020) Verwitwet 0.012 (0.039) Frau -0.330*** (0.013) EU-Auslandb -0.022 0.014 (0.041) (0.197)

Allgemeine Hinweise für einen schnellen Einstieg in die Analysesoftware Stata


Nicht-EU-Ausland -0.015 0.012 (0.045) (0.160) Ostdeutschland -0.120*** 0.030 (0.012) (0.046) ρ Beobachtungen 26043 26043 26043 Standardfehler in Klammern; * p < 0.05, ** p < 0.01, *** p < 0.001; Panel-robuste Standard- fehler; Referenzkategorien: a Ledig; b Deutsch. Nicht gezeigt (Modell 2-3): Welle, Spell, Arbeitssektor, Anzahl der Beschäftigten, Arbeitsplatz im öffentlichen Dienst, Stellung im Beruf, Kind unter 6 Jahren, Kind zwischen 6 und 14 Jahren, Interaktionen Kind * Frau (siehe Tabelle A1 im Anhang für die vollständigeAnalyse inklusive Random-Effects-Modell).

9. Allgemeine Hinweise für einen schnellen Einstieg in die Analy-

sesoftware Stata Ein schneller Einstieg in die Analysesoftware Stata ist mit Hilfe des Manuals, verschiedener On-

line-Materialien der UCLA, Onlineforen sowie einschlägiger Einführungsbücher möglich. Die

nachfolgenden, kommentierten Literaturempfehlungen fungieren als Wegweiser, um sich zielge-

richtet in die Software einzuarbeiten.

Stata-Hilfe:

Stata bietet zu jedem Befehl eine entsprechende Datei an. Diese enthält die allgemeine Befehls-

syntax, eine Auflistung aller Optionen sowie Beispiele zur Veranschaulichung.

Mit „help command“ wird die Hilfe für den entsprechenden Befehl aufgerufen.

Online - Materalien

University of California, Los Angeles:

Die University of California, Los Angeles bietet eine Sammlung von Modulen, die verschiedene

Befehle anhand von Beispielen anschaulich erklärt. Die Module behandeln überwiegend einfüh-

rende Themen, was sie zu einer guten Hilfestellung für unerfahrene Benutzer macht.

Es bietet sich an bei Google oder einer anderen Suchmaschine „stata ucla ‘command‘ “ einzuge-

ben (und ‚command‘ durch den jeweiligen Befehl zu ersetzen). So wird man direkt zu dem ent-

sprechenden Modul weitergeleitet und spart sich den „Umweg“ über die Auswahlseite.

Link: http://www.ats.ucla.edu/stat/stata/modules/



Statalist:

„Statalist“ ist ein englischsprachiges Forum, in dem Nutzer sich gegenseitig Hilfestellungen, auch

bei komplexen Fragestellungen, geben. Fragen werden in der Regel sehr schnell und kompetent

beantwortet.

Link: http://www.statalist.org/forums

Stata-Forum:

„Stata-Forum“ ist das deutschsprachige Pendant zu „Statalist“. Die Beteiligung im Forum ist

weitaus geringer als bei „Statalist“, sodass ein Ausweichen auf das deutschsprachige Stata Forum

nur empfehlenswert ist, wenn die Sprachkenntnisse für das englische Forum nicht ausreichen.

Link: http://www.stata-forum.de/

Überblick: Literaturhinweise zur quantitativen Datenanalyse (Niklas Jungermann und

Ulrike Schwabe 2017)

Die im Rahmen des Kompetenzzentrums für Empirische Forschungsmethoden an der Universi-

tät Kassel entstandene Übersicht gibt Literaturhinweise zu verschiedenen Bereichen der quanti-

tativen Datenanalyse. Zu den meisten Themen gibt es auch Literaturhinweise zur praktischen

Umsetzung, die oft mit Stata durchgeführt wird. Insgesamt handelt es sich hierbei weniger um

eine Einführung in die Software als vielmehr um einen Einblick in dessen praktische Anwend-

barkeit.

Link: http://www.uni-kassel.de/go/literaturhinweise

Einführungsbücher

Datenanalyse mit Stata: Allgemeine Konzepte der Datenanalyse und ihre praktische An-

wendung (Ulrich Kohler und Frauke Kreuter 2012):

Das bekannteste deutschsprachige Nachschlagewerk für Stata führt systematisch in die Software

ein. Der Leser wird von der ersten Dateneingabe über einfache Analysen bis zum eigenständigen

Programmieren geleitet. Sinnvollerweise werden die Befehle nicht nur vorgestellt, stattdessen

sind die Leser aufgefordert, sich simultan praktisch zu betätigen und das erlernte Wissen direkt

an einem (herunterladbaren) Datensatz auszuprobieren.

A Gentle Introduction to Stata (Alan C. Acock 2010):

Ähnlich dem Einführungswerk von Kohler und Kreuter, jedoch wird mehr mit dem graphischen

Userinterface gearbeitet. Inhaltlich ähneln sich beide Bücher, wobei unterschiedliche Schwer-

punkte gesetzt werden; Acock beschäftigt sich ausführlicher mit multipler Imputation, dafür fällt

der Abschnitt über das eigene Programmieren weg.



The Stata Survival Manual (David Pevalin und Karen Robson 2009)

Ein englisch-sprachiges Einführungsbuch in Stata, welches im Zuge von Einführungskursen im

Rahmen der Essex Summer School entstanden ist. Es ist, ungeachtet disziplinärer Provenienz,

sehr gut geeignet, um erste Erfahrungen mit der Software zu machen, da keinerlei Kenntnisse

vorausgesetzt werden. Im Vergleich zu Kohler/Kreuter 2012 gibt es keine gesonderten Kapitel

zum statistischen Hintergrund.

Stata for the Behavioral Sciences (Michael N. Mitchell 2015)

Mitchell geht auf typische Probleme und Vorgehensweisen der Verhaltenswissenschaften ein

und orientiert sein Buch daran. Auch wenn es nicht als klassische Einführungsliteratur konzi-

piert ist, eignet es sich dennoch gut für Einsteiger, da es den Leser durch den gesamten daten-

analytischen Abschnitt des Forschungsprozesses führt.

Alle vorgestellten Einführungsbücher bieten einen guten Einstieg in die praktische Datenanalyse

mit Stata, die letztendliche Auswahl wird daher durch persönliche Präferenz und die interessie-

rende Fragestellung bestimmt.

Literaturverzeichnis


10. Literaturverzeichnis Acock, Alan C. 2010. A Gentle Introduction to Stata. 3. Auflage. College Station, Texas: Stata Press.

Allison, Paul D. 2014. Listwise Deletion: It’s NOT Evil. http://www.statisticalhorizons.com/listwise-deletion-its-not-evil. 10.05.2017.

Baur, Nina; Blasius, Jörg (eds.). 2014. Handbuch Methoden der empirischen Sozialforschung. Wiesba-den: Springer VS.

Benninghaus, Hans. 2007. Deskriptive Statistik. Eine Einführung für Sozialwissenschaftler. 11. Auflage. Wiesbaden: VS Verlag für Sozialwissenschaften.

Blossfeld, Hans-Peter; Roßbach, Hans-Günther; Maurice, Jutta von. 2011. Education as a Lifelong Process. The German National Educational Panel Study (NEPS). Wiesbaden: VS Verlag für Sozialwis-senschaften.

Brüderl, Josef. 2010. Kausalanalyse mit Paneldaten. In: Wolf, Christof; Best, Henning (eds.). Handbuch der sozialwissenschaftlichen Datenanalyse. Wiesbaden: VS Verlag für Sozialwissenschaften. 963–994.

Cox, Nicholas J. 2005. Suggestions on Stata Programming Style. The Stata Journal 5 (4). 560–566.

DeLuca, Stefanie; Dayton, Elizabeth. 2009. Switching Social Contexts: The Effects of Housing Mobility and School Choice Programs on Youth Outcomes. Annual Review of Sociology 35 (1). 457–491.

Diekmann, Andreas. 2009. Empirische Sozialforschung. Grundlagen, Methoden, Anwendungen. 19. Auflage. Reinbek bei Hamburg: Rowohlt.

Duflo, Esther; Dupas, Pascaline; Kremer, Michael. 2011. Peer Effects, Teacher Incentives, and the Impact of Tracking: Evidence from a Randomized Evaluation in Kenya. American Economic Review 101 (5). 1739–1774.

European Commission. 2010. EUROPE 2020. A European Strategy for Smart, Sustainable and Inclusive Growth: Communication from the Comission. Brüssel.

European Council. 2000. Lisbon European Council 23-24 March 2000. Presidency conclusions. Lis-sabon.

Gangl, Markus. 2010. Nichtparametrische Schätzung kausaler Effekte mittels Matchingverfahren. In: Wolf, Christof; Best, Henning (eds.). Handbuch der sozialwissenschaftlichen Datenanalyse. Wiesba-den: VS Verlag für Sozialwissenschaften. 931–961.

King, Gary; Honaker, James; Joseph, Anne; Scheve, Kenneth. 1998. Listwise Deletion is Evil: What to Do About Missing Data in Political Science, Boston: Annual Meeting of the American Political Science Association.

Kohler, Ulrich; Kreuter, Frauke. 2012. Datenanalyse mit Stata. Allgemeine Konzepte der Datenanalyse und ihre praktische Anwendung. 4. Auflage. München: Oldenbourg.

Kopp, Johannes; Lois, Daniel. 2012. Sozialwissenschaftliche Datenanalyse. Eine Einführung. Wiesba-den: Springer VS.

Leopold, Thomas, Raab, Marcel, Skopek, Jan. 2011. Data Manual. Starting Cohort 6. Adult Education and Lifelong Learning. Bamberg, NEPS Data Center. https://www.neps-



data.de/Portals/0/Neps/Datenzentrum/Forschungsdaten/SC6/1-0-0/SC6_1-0-0_DataManual_EN.pdf. 10.05.2017.

Leuze, Kathrin; Strauß, Susanne. 2009. Lohnungleichheiten zwischen Akademikerinnen und Akademi-kern: Der Einfluss von fachlicher Spezialisierung, frauendominierten Fächern und beruflicher Segre-gation. Zeitschrift für Soziologie 38 (4). 262–281.

Messerli, Franz H. 2012. Chocolate Consumption, Cognitive Function, and Nobel Laureates. The New England journal of medicine 367 (16). 1562–1564.

Mitchell, Michael N. 2015. Stata for the Behavioral Sciences. College Station, Texas: Stata Press.

Morgan, Stephen L; Winship, Christopher. 2007. Counterfactuals and Causal Inference. Methods and Principles for Social Research. Cambridge: University Press.

Pevalin, David J; Robson, Karen. 2009. The Stata Survival Manual. Maidenhead, Berkshire: Open Uni-versity Press.

Pischke, Jörn-Steffen. 2001. Continuous Training in Germany. Journal of Population Economics 14 (3). 523–548.

Pötschke, Manuela. 2014. Mehrebenenanalyse. In: Baur, Nina; Blasius, Jörg (eds.). Handbuch Metho-den der empirischen Sozialforschung. Wiesbaden: Springer VS. 1101–1116.

Raab, Marcel; Ruland, Michael; Schmidt, Christopher. 2007. Datensatzmanagement. Unveröffentlich-tes Manuskript, Bamberg.

Rat für Sozial- und WirtschaftsDaten. 2015. Forschungsdateninfrastruktur: Standards setzen und Qua-lität sichern. http://www.ratswd.de/forschungsdaten/info. 10.05.2017.

Reinecke, Jost; Weins, Cornelia. 2013. The Development of Delinquency During Adolescence: A Com-parison of Missing Data Techniques. Quality & Quantity 47 (6). 3319–3334.

Roßbach, Hans-Günther; NEPS, National Educational Panel Study. 2015. NEPS Starting Cohort 6: Adults (SC6 5.1.0). Bamberg.

Schnell, Rainer; Hill, Paul B; Esser, Elke. 2013. Methoden der empirischen Sozialforschung. 10 Auflage. München: Oldenbourg.

Schunck, Reinhard. 2014. Analyse von Längsschnittdaten. Vorteile, Nachteile und Anwendungsbei-spiele, Kassel: Vortragsreihe "Empirische Forschungsmethoden".

Shadish, William R; Cook, Thomas D; Campbell, Donald T. 2002. Experimental and Quasi-Experimental Designs for Generalized Causal Inference. Boston, New York: Houghton Mifflin Company.

Social Science Computing Cooperative. 2013. Multiple Imputation in Stata. https://www.ssc.wisc.edu/sscc/pubs/stata_mi_intro.htm. 10.05.2017.

Spieß, Martin. 2010. Der Umgang mit fehlenden Werten. In: Wolf, Christof; Best, Henning (eds.). Handbuch der sozialwissenschaftlichen Datenanalyse. Wiesbaden: VS Verlag für Sozialwissenschaf-ten. 117–142.

StataCorp. 2011. Stata Statistical Software. Release 12. College Station, Texas: StataCorp LP.



Urban, Dieter; Mayerl, Jochen. 2011. Regressionsanalyse. Theorie, Technik und Anwendung. 4. Aufla-ge. Wiesbaden: VS Verlag für Sozialwissenschaften.

Wenzelburger, Georg; Jäckle, Sebastian; König, Pascal. 2014. Weiterführende statistische Methoden für Politikwissenschaftler. Eine anwendungsbezogene Einführung mit Stata. München: Oldenbourg.

Wolf, Christof; Best, Henning (eds.). 2010. Handbuch der sozialwissenschaftlichen Datenanalyse. Wiesbaden: VS Verlag für Sozialwissenschaften.

Wolter, Felix; Schiener, Jürgen. 2009. Einkommenseffekte beruflicher Weiterbildung. Empirische Analysen auf Basis des Mikrozensus-Panels. Kölner Zeitschrift für Soziologie und Sozialpsychologie 61 (1). 90–117.

11. Anhang


11. Anhang Tabelle A1: Vollständige Analyse

Model 1

Model 2 Model 3 Model 4

POLS I POLS II FE RE Teilnahme an Weiterbildung 0.339*** 0.128*** 0.043*** 0.075*** (0.012) (0.007) (0.006)

(0.006)

Bildungsjahre 0.059*** 0.060*** (0.002) (0.003) Wechsel der Beschäftigung 0.032*** 0.070*** 0.056*** (0.009) (0.009) (0.007) Zeit in Firma 0.019*** 0.020*** 0.025*** (0.002) (0.006) (0.002) Zeit in Firma quadriert -0.000*** -0.000* -0.000*** (0.000) (0.000) (0.000) Befristeter Job -0.155*** -0.065 -0.117*** (0.019) (0.036) (0.023) Wöchentliche Arbeitsstunden 0.019*** 0.008*** 0.012*** (0.001) (0.001) (0.001) Primärer Sektora -0.242*** -0.242 -0.212** (0.055) (0.297) (0.079) Tertiärer Sektor: Handel, Gast-gewerbe, Transport

-0.195*** (0.014)

-0.356*** (0.069)

-0.240*** (0.021)

Tertiärer Sektor: andere -0.160*** -0.303*** -0.218*** (0.014) (0.077) (0.022) Öffentlicher Dienst 0.040** 0.278*** 0.075*** (0.013) (0.067) (0.018) 1-9 Mitarbeiterb -0.410*** -0.541*** -0.464*** (0.016) (0.062) (0.022) 11-49 Mitarbeiterb -0.175*** -0.305*** -0.214*** (0.010) (0.055) (0.017) Angestellter 0.282*** 0.420*** 0.339*** (0.015) (0.075) (0.024) Beamter 0.527*** 1.168*** 0.625*** (0.022) (0.181) (0.034) Soldat 0.481*** 0.961* 0.586*** (0.046) (0.409) (0.128) Alter 0.030*** 0.043** 0.032*** (0.005) (0.015) (0.005) Alter quadriert -0.000*** -0.000** -0.000*** (0.000) (0.000) (0.000)

11. Anhang


Verheiratetd 0.003 0.005 (0.014) (0.014) Geschieden 0.027 0.031 (0.020) (0.020) Verwitwet 0.012 -0.004 (0.039) (0.043) Frau -0.330*** -0.374*** (0.013) (0.014) Kleinkind 0.062*** 0.071** 0.077*** (0.016) (0.022) (0.015) Frau * Kleinkind -0.050 -0.155*** -0.133*** (0.027) (0.036) (0.023) Schulkind 0.104*** 0.004 0.072*** (0.013) (0.012) (0.010) Frau * Schulkind -0.213*** -0.036 -0.179*** (0.021) (0.023) (0.017) EU Bürgere -0.022 0.014 -0.003 (0.041) (0.197) (0.038) Nicht-EU Bürger -0.015 0.012 -0.015 (0.045) (0.160) (0.047) Ostdeutschland -0.120*** 0.030 -0.100*** (0.012) (0.046) (0.012) ρ 0.62

Observations (ATE) 26043 26043 26043 26043 Standardfehler in Klammern; Panel-robuste Standardfehler; * p < 0.05, ** p < 0.01, *** p < 0.001; Nicht ge-zeigt: Welle, Spell. Referenzkategorien: a Sekundärer Sektor; b 50+ Mitarbeiter; c Arbeiter; d Ledig; e Deutsch.

Documents

Datensatzmanagement mit Stata - uni-kassel.de · verankert: „Soziologie soll heißen: Eine Wissenschaft, welche soziales Handeln deutend verste- hen und dadurch in seinem Ablauf