Einführung in das Arbeiten mit STATA und Daten des Sozio ... · PDF fileEinführung in das Arbeiten mit STATA und Daten des Sozio-oekonomischen Panels (SOEP) Skript zum Seminar von

Embed Size (px)

Citation preview

  • Einfhrung in das Arbeiten mit STATA und Daten des

    Sozio-oekonomischen Panels (SOEP)

    Skript zum Seminar von

    Tobias Graf

    Stefanie Hoherz

    Universitt Bielefeld Fakultt fr Soziologie

    Postfach 100131 33501 Bielefeld

    Email: [email protected] [email protected]

    2. April 2009

  • Inhalt

    1. Einleitung..............................................................................................................................................1 2. Einfhrung in das Arbeiten mit SOEP-Daten................................................................................1

    2.1 Was ist das SOEP .........................................................................................................................1 2.2 Themenbereiche............................................................................................................................2 2.3 Analysemglichkeiten...................................................................................................................3 2.4 SOEPinfo.......................................................................................................................................4 2.5 Dokumentation .............................................................................................................................4 2.6 Variablennamen und Datenstze................................................................................................4

    3. Einfhrung in das Arbeiten mit STATA .........................................................................................6 3.1 Die Struktur ...................................................................................................................................6 3.2 Arbeiten mit do-files und log-files..............................................................................................8 3.3 Syntaxschreiben.............................................................................................................................9 3.4 Das Datenfenster ........................................................................................................................10 3.5 Grundlegende Befehle................................................................................................................10 3.5.1 Hufigkeitstabellen ..................................................................................................................12 3.5.2 Wichtige Befehlsprfixe ..........................................................................................................12 3.5.3 Befehlsbedingungen ................................................................................................................12 3.6 Erstellen und Verndern von Variablen..................................................................................13 3.6.1 Generate, replace und recode ................................................................................................13 3.6.2 Lschen .....................................................................................................................................15 3.6.3 Vergabe von Labels................................................................................................................15 3.6.4 Rationale Operatoren (Dummy-Variablen) .........................................................................16 3.7 Weitere Befehlsprfixe ...............................................................................................................16 3.8 Mergen..........................................................................................................................................17 3.9 Kippen des Datensatzes.............................................................................................................21 3.10 Der Umgang mit fehlenden Werten (Missings) ...................................................................24 3.11 Gewichtung ...............................................................................................................................24 3.12 Gruppieren von Daten.............................................................................................................25 3.13 Schleifen (loops)........................................................................................................................26 3.14 Grafiken .....................................................................................................................................28 berblick ber wichtige Literatur und Homepages: ......................................................................0

  • 1

    1. Einleitung Dieses Skript wurde zur Untersttzung des Seminars Einfhrung in das Arbeiten mit STATA und Daten des Sozio-oekonomischen Panels (SOEP) an der Univarsitt Bielefeld erstellt. Es gibt eine kurze Einfhrung in die Benutzung des Statistikprogramms STATA, jedoch nur im Bezug auf Funktionen, die fr die Bearbeitung von SOEP-Datenstzen relevant sind. Ausfhrlichere und allgemeine Informationen fr die Benutzung von STATA findet man in verschiedenen Handbchern und auf der Seite www.stata.com. Es werden die aktuelle STATA-Version 10.0 und die SOEP-Daten bis 2007 (Welle X) verwendet. Diese Einfhrung in STATA beschrnkt sich auf das Schreiben der Syntaxen, es knnen zwar (hnlich wie bei SPSS) alle Funktionen ber das Men aufgerufen werden, doch hier steht das Erlernen der Programmiersprache im Vordergrund. Wir haben uns vorwiegend an dem Buch: U. Kohler und F. Kreuter (2008): Datenanalyse mit STATA. Allgemeine Konzepte der Datenanalyse und ihre praktische Anwendung, Mnchen: Oldenbourg Wissenschaftsverlag. orientiert.

    2. Einfhrung in das Arbeiten mit SOEP-Daten

    2.1 Was ist das SOEP Das SOEP ist eine seit 1984 laufende jhrliche Befragung von Deutschen, Auslndern und Zuwanderern in den alten und neuen Bundeslndern. Es handelt sich um eine fr die gesamte Bundesrepublik reprsentative Wiederholungsbefragung von Personen und Haushalten. Es gab neben der Erweiterung der Befragung im Jahr 1990 auf das Gebiet der ehemaligen DDR, auch fr die Erfassung des gesellschaftlichen Wandels mehrere Stichproben in den Jahren 1994, 1995, 1998, 2000, 2002 und 2006, die in die laufende Erhebung integriert wurden. Insgesamt haben bereits 61545 Personen aus ber 26000 Haushalten teilgenommen. Die Stichprobe umfasste im Erhebungsjahr 2007 ca. 11.000 Haushalte mit mehr als 21.000 Personen. Das Sozio-oekonomische Panel (SOEP) ist ein Survey, der fr die sozial- und wirtschaftswissenschaftliche Grundlagenforschung Mikrodaten bereitstellt. Die vom Deutschen Institut fr Wirtschaftsforschung (DIW) durchgefhrte Studie befragt mglichst alle Personen eines Haushaltes, die mindestens 17 Jahre alt sind. Seit dem Befragungsjahr 2000 werden zustzlich von Jugendlichen im Alter von 16 bis 17 Jahren jugendspezifische Biographiedaten erhoben. Seit 2003 beantworten Mtter von Neugeborenen Fragen nach zentralen Indikatoren, die fr die Entwicklungsprozesse von Kindern eine hohe Erklrungskraft aufweisen und seit 2005 werden auch die Eltern von zwei- und dreijhrigen Kindern besonders befragt. Ab 2008 werden auch die Eltern fnf- und sechsjhriger Kinder besonders befragt und ab 2010 zudem die Eltern lterer Kinder sowie die Kinder selbst, bevor diese mit dem 17. Lebensjahr zu regulren Befragungspersonen werden. Zudem werden ber den Haushaltsvorstand (in Vertretung aller Haushaltsmitglieder) Informationen ber den gesamten Haushalt erfasst. Erwachsene Haushaltsmitglieder und verzogene Haushalte werden auch nach einem Aus- oder Wegzug weiterverfolgt sowie zugezogene neue Haushaltsmitglieder mit befragt. Die Informationen werden sowohl durch herkmmliche Fragen in einjhrigen Abstnden, als auch ber Kalendarien oder Retrospektivbefragungen monatsgenau erfasst.1

    1 Fr weitere Informationen siehe http://www.diw.de/deutsch/soep/26628.html

  • 2

    2.2 Themenbereiche Die SOEP-Daten enthalten Informationen ber die Personen, den Haushalt in dem sie leben, ihre objektiven Lebensbedingungen, aber auch Persnlichkeitsmerkmale, Wertvorstellungen, Risikoeinstellungen und ber dynamische Abhngigkeiten zwischen allen Bereichen und deren Vernderungen. Die Themen im SOEP sind sehr vielfltig. Kontinuierlich liefert es Informationen ber Erwerbs- und Familienbiographien, Erwerbsbeteiligung und berufliche Mobilitt, Einkommensverlufe, Kinderbetreuung und Bildungsbeteiligung, Persnlichkeitsmerkmale, krperliche und mentale Gesundheit, die Haushaltszusammensetzung, Wohnsituation, gesellschaftliche Partizipation und Zeitverwendung sowie Lebenszufriedenheit. Zudem werden in jhrlich wechselnden Schwerpunktthemen Informationen ber die Familie und soziale Dienste, Weiterbildung und Qualifikation, Soziale Sicherung sowie Energie- und Umweltverhalten gesammelt. ber die Jahre wurden verschiedene Teilstichproben integriert: Sample A - Grundstichprobe Bundesbrger 1984 (4500 Haushalte) Sample B - Auslnder 1984 (1500 Haushalte) HV mit trkischer, griechischer, jugoslawischer, spanischer oder italienischer Staatsangehrigkeit Sample C - Ost 1990 (2000 Haushalte) Sample D1 und D2 Immigranten1995 (500 Haushalte) HH mit Personen, die in den Jahren 1984-1995 zugewandert sind Sample E Auffrischungsstichprobe 1998 (1000 Haushalte) methodische Sonderstichprobe Sample F Innovationsstichprobe 2000 (6000 Haushalte) Stichprobe zur Erhebung innovativer Erhebungskonzepte Sample G Hocheinkommensbezieher 2002 (1200 Haushalte) Sample H Haushalte in Deutschland 2006 (1000 Haushalte) Ergnzung zu E

  • 3

    Aufgrund der unterschiedlichen Ziehungswahrscheinlichkeit der Teilstichproben ist es deshalb unbedingt erforderlich, dass die Daten gewichtet werden. D.h. die jeweiligen Beobachtungen in den einzelnen Teilstichproben reprsentieren unterschiedlich vi