38
Statistik mit Stata -1- Übung Statistik I – Statistik mit Stata SS07 – 18.06.2007 9. Zusammenhangsanalyse I Andrea Kummerer (M.A.) Oec R. I-53 Sprechstunde: n.V. [email protected]

Übung Statistik I – Statistik mit Stata · Statistik mit Stata - 2 - Überblick 1. Zunächst 2. Vergleich der Übungsaufgabe von letzter Woche 3. Übung: Skalenniveaus, Lage- und

  • Upload
    others

  • View
    10

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Übung Statistik I – Statistik mit Stata · Statistik mit Stata - 2 - Überblick 1. Zunächst 2. Vergleich der Übungsaufgabe von letzter Woche 3. Übung: Skalenniveaus, Lage- und

Statistik mit Stata - 1 -

Übung Statistik I – Statistik mit StataSS07 – 18.06.2007

9. Zusammenhangsanalyse I

Andrea Kummerer (M.A.)

Oec R. I-53

Sprechstunde: n.V.

[email protected]

Page 2: Übung Statistik I – Statistik mit Stata · Statistik mit Stata - 2 - Überblick 1. Zunächst 2. Vergleich der Übungsaufgabe von letzter Woche 3. Übung: Skalenniveaus, Lage- und

Statistik mit Stata - 2 -

Überblick

1. Zunächst

2. Vergleich der Übungsaufgabe von letzter Woche

3. Übung: Skalenniveaus, Lage- und Streuungsmaße

4. Mittelwertvergleiche, T-Test

5. Übung: T-Test

6. Kreuztabellen

7. Übung: Kreuztabellen

Page 3: Übung Statistik I – Statistik mit Stata · Statistik mit Stata - 2 - Überblick 1. Zunächst 2. Vergleich der Übungsaufgabe von letzter Woche 3. Übung: Skalenniveaus, Lage- und

Statistik mit Stata - 3 -

1. Zunächst• Befehle, die bekannt sein sollten: Update, set memory,

input, use, clear, save, exit, pwd, cd, dir, describe, codebook, sort, list, help, search, tabulate oneway, numlabel, mvdecode, mvencode, label, set dp, log using, log close, log off/on, cmdlog using, cmdlog close, cmdlog off/on, do, generate, replace, recode, keep, drop, summarize, tabstat, histogram, graph pie, kdensity, graph box, set scheme, graph export

• Folien, die die Lösungen der heutigen Übungsaufgaben enthalten sind ab heute auf der MZS-Homepage zu finden.

• Vorbereitung:

1. profile.do ausführen! Ist Stata up-to-date?

2. Heute Verwendung von allbus_ueb4.dta. Wenn also im eigenen Verzeichnis noch nicht vorhanden aus dem Lehre on jeder Lehre Verzeichnis (V) in das eigene Verzeichnis kopieren.

Page 4: Übung Statistik I – Statistik mit Stata · Statistik mit Stata - 2 - Überblick 1. Zunächst 2. Vergleich der Übungsaufgabe von letzter Woche 3. Übung: Skalenniveaus, Lage- und

Statistik mit Stata - 4 -

2. Vergleich der Übungsaufgabe von letzter Woche(1) Fragestellung: Wie groß ist im ALLBUS 2006 das

durchschnittliche Jahreseinkommen der befragten Personen aus Ostdeutschland, die ihre eigene Wirtschaftslage als mindestens mittel (also nicht als schlecht) bezeichnen? Stelle die Verteilung der Ansichten der ostdeutschen Befragten zu ihrer eigenen derzeitigen wirtschaftlichen Situation auch graphisch dar.

(2) Daten: ALLBUS 2006 Welche Daten werden für die Beantwortung der Fragestellung benötigt? Wir brauchen die Variablen: Einkommen (v381), Erhebungsgebiet (v4) und derzeitige Wirtschaftlage des Befragten (v147)

(3) Überblick über die Daten verschaffen: codebook v381 v4 v147 Müssen Transformationen am Datensatz durchgeführt werden? Ja, da das Einkommen pro Monat und nicht pro Jahr vorliegt

���� Übung

Page 5: Übung Statistik I – Statistik mit Stata · Statistik mit Stata - 2 - Überblick 1. Zunächst 2. Vergleich der Übungsaufgabe von letzter Woche 3. Übung: Skalenniveaus, Lage- und

Statistik mit Stata - 5 -

(4) Erstellung einer Do-Datei (ueb06_11b.do), die benötigte Transformationen und u.U. bereits Befehle zur Auswertung enthält.

Page 6: Übung Statistik I – Statistik mit Stata · Statistik mit Stata - 2 - Überblick 1. Zunächst 2. Vergleich der Übungsaufgabe von letzter Woche 3. Übung: Skalenniveaus, Lage- und

Statistik mit Stata - 6 -

Fortsetzung der Do-Datei:

Page 7: Übung Statistik I – Statistik mit Stata · Statistik mit Stata - 2 - Überblick 1. Zunächst 2. Vergleich der Übungsaufgabe von letzter Woche 3. Übung: Skalenniveaus, Lage- und

Statistik mit Stata - 7 -

(5) Ausführen der Do-Datei auf dem ausgewählten Datensatz.

do W:\Stata\Do-Dateien\ueb06_11b.do

(6) Interpretation der Ergebnisse (Beantwortung der Fragestellung)

� Durchschnittliches Jahreseinkommen im ALLBUS 2006 der befragten Personen aus Ostdeutschland, die ihre eigene Wirtschaftslage als mindestens mittel (also nicht als schlecht) bezeichnen siehe Log-Datei:

view "W:\Stata\sessionlg.log"

Im ALLBUS 2006 beträgt das durchschnittliche Jahreseinkommen ostdeutscher Befragter, die ihre eigene wirtschaftliche Lage als nicht schlecht einschätzen 12955,40 Euro bei einer Standardabweichung von 7513,17 Euro.

� Grafik: W:\Stata\v147ost.png

Page 8: Übung Statistik I – Statistik mit Stata · Statistik mit Stata - 2 - Überblick 1. Zunächst 2. Vergleich der Übungsaufgabe von letzter Woche 3. Übung: Skalenniveaus, Lage- und

Statistik mit Stata - 8 -

W:\Stata\v147ost.png :

Page 9: Übung Statistik I – Statistik mit Stata · Statistik mit Stata - 2 - Überblick 1. Zunächst 2. Vergleich der Übungsaufgabe von letzter Woche 3. Übung: Skalenniveaus, Lage- und

Statistik mit Stata - 9 -

Lösung der Übungsaufgabe vgl. V:/Stata/ueb06_11

Page 10: Übung Statistik I – Statistik mit Stata · Statistik mit Stata - 2 - Überblick 1. Zunächst 2. Vergleich der Übungsaufgabe von letzter Woche 3. Übung: Skalenniveaus, Lage- und

Statistik mit Stata - 10 -

3. Übung: Skalenniveaus, Lage- und StreuungsmaßeGemeinsame schnelle Übung:

(1) Welches Skalenniveau haben folgende Variablen: v8, v151, v36, v143, Bildung (in Jahren), v27, v26, v10, v189, v20

(2) Ist bei v36 die Berechnung von Mittelwert und Standardabweichung sinnvoll? Welche Lage- und Streuungsmaße sind sinnvoll bei v143? Ist die Standardabweichung ein sinnvolles Lagemaß bei den Variablen v151 und v27?

Lösung Aufgabe (1):

• v8: nominal, da lediglich Unterscheidung möglich

• v151: intervall, da meist angenommen wird, dass die Abstände interpretierbar sind (bekanntestes Bsp: Schulnoten) bzw. ordinal, wenn Ausprägungen lediglich als Ränge interpretiert werden

���� Übung

Page 11: Übung Statistik I – Statistik mit Stata · Statistik mit Stata - 2 - Überblick 1. Zunächst 2. Vergleich der Übungsaufgabe von letzter Woche 3. Übung: Skalenniveaus, Lage- und

Statistik mit Stata - 11 -

• v36: nominal, da lediglich Unterscheidung möglich

• v143: ordinal, da Ränge interpretierbar

• Bildung (in Jahren): ratio, da Abstände interpretierbar & natürlicher Nullpunkt vorhanden

• v27: ratio, da Abstände interpretierbar & natürlicher Nullpunkt vorhanden

• v26: intervall, da Abstände interpretierbar, aber kein natürlicher Nullpunkt vorhanden (der Zeitpunkt Null unserer Zeitrechnung ist willkürlich gewählt)

• v10: nominal, da lediglich Unterscheidung möglich

• v189: nominal, da lediglich Unterscheidung möglich

• v20: ordinal, da Ränge interpretierbar

Page 12: Übung Statistik I – Statistik mit Stata · Statistik mit Stata - 2 - Überblick 1. Zunächst 2. Vergleich der Übungsaufgabe von letzter Woche 3. Übung: Skalenniveaus, Lage- und

Statistik mit Stata - 12 -

Lösung Aufgabe (2):

• Bei v36 ist die Berechnung von Mittelwert und Standard-abweichung nicht sinnvoll, da die Abstände zwischen den Ausprägungen nicht interpretierbar sind, sondern nur zwischen den Ausprägungen unterschieden werden kann (d.h. nur der Modus ist hier sinnvoll). tab v36

• Für Variable v143 sind die Lagemaße Modus und Median sowie die Streuungsmaße Range, Quantile und der Quartilabstand sinnvoll, da ein mehr bzw. weniger des Merkmals interpretierbar ist. tab v143 (Modus) sowie

tabstat v143, statistics(count min max r q iqr)

• Die Standardabweichung ist kein Lage-, sondern ein Streuungsmaß. Bei den Variablen v151 und v27 sind die Lagemaße Modus, Median und arithmetisches Mittel sowie die Streuungsmaße Range, Quantile, Quartilabstand, Varianz und Standardabweichung sinnvoll,

Page 13: Übung Statistik I – Statistik mit Stata · Statistik mit Stata - 2 - Überblick 1. Zunächst 2. Vergleich der Übungsaufgabe von letzter Woche 3. Übung: Skalenniveaus, Lage- und

Statistik mit Stata - 13 -

da interpretierbar ist, um wie viel mehr bzw. weniger die Merkmale vorliegen.

tabstat v151 v27 , statistics(count min max r mean q ///

iqr var sd)

HINWEIS:

• Im Gegensatz zum Gelernten in der Statistik I Veranstaltung entsprechen sich in Stata das 50%-Quartil und der Median immer. Gelernt in Statistik I: Der Median ist genau dann größer als das 50%-Quartil, wenn die Fallzahl gerade und die Realisierung mit dem Rangplatz (n/2+2) einen größeren Wert aufweist, als die Realisierung mit dem Rangplatz (n/2).

Page 14: Übung Statistik I – Statistik mit Stata · Statistik mit Stata - 2 - Überblick 1. Zunächst 2. Vergleich der Übungsaufgabe von letzter Woche 3. Übung: Skalenniveaus, Lage- und

Statistik mit Stata - 14 -

4. Mittelwertvergleiche, T-TestFragestellungen der letzten Übungen:

• Wie lange arbeiten die im ALLBUS 2006 befragten ostdeutschen Frauen im Durchschnitt pro Monat?

• Wie groß ist im ALLBUS 2006 das durchschnittliche Jahreseinkommen der befragten Personen aus Ostdeutschland, die ihre eigene Wirtschaftslage als mindestens mittel (also nicht als schlecht) bezeichnen?

Beide Fragen bezogen sich nur auf die Stichprobe des ALLBUS 2006, dabei wäre das eigentlich spannende, wie Merkmale in der Grundgesamtheit (z.B. der BRD) verteilt sind. Außerdem wäre die Information interessant, ob sich west- und ostdeutsche Frauen hinsichtlich ihrer durchschnittlichen Arbeitszeit unterscheiden. Bzw. ob Personen die ihre eigene Wirtschaftslage als mind. Mittel bezeichnen im Durchschnitt in West- mehr verdienen als in Ostdeutschland.

Page 15: Übung Statistik I – Statistik mit Stata · Statistik mit Stata - 2 - Überblick 1. Zunächst 2. Vergleich der Übungsaufgabe von letzter Woche 3. Übung: Skalenniveaus, Lage- und

Statistik mit Stata - 15 -

• Zur Beantwortung dieser Fragen: T-Test (Test zum Vergleich von Mittelwerten, d.h. nur für metrische Variablen).

• Generelles Vorgehen beim statistischen Testen:

1. Formulierung von Null- und Alternativhypothese

2. Auswahl der statistischen Prüfgröße (Teststatistik)

3. Festlegung von Irrtumswahrscheinlichkeit und Ablehnungsbereich

4. Berechnung der Prüfgröße und Entscheidung

5. Überprüfung der Anwendungsvoraussetzungen

Beispiel: Unterscheiden sich west- und ostdeutsche Frauen hinsichtlich ihrer durchschnittlichen Arbeitszeit?

1. H1: Es gibt einen Unterschied zwischen der mittleren Arbeitszeit von west- und ostdeutschen Frauen. (µ1≠ µ2)

H0: Es gibt keinen Unterschied zwischen der mittleren Arbeitszeit von west- und ostdeutschen Frauen. (µ1= µ2)

Page 16: Übung Statistik I – Statistik mit Stata · Statistik mit Stata - 2 - Überblick 1. Zunächst 2. Vergleich der Übungsaufgabe von letzter Woche 3. Übung: Skalenniveaus, Lage- und

Statistik mit Stata - 16 -

2. Auswahl der statistischen Prüfgröße (Teststatistik)

Es handelt sich um einen Test auf Mittelwertsunterschiede zwischen zwei Gruppen, die als unabhängige Stichprobenaufgefasst werden (Frauen in Westdeutschland und Frauen in Ostdeutschland werden als unabhängige Stichproben aufgefasst). Es wird zudem angenommen, dass die Mittelwerte der Arbeitsstunden aller möglichen Zufallsstich-proben normalverteilt sind (Anwendungsvoraussetzung).

Zur Entscheidung hinsichtlich des durchzuführenden Tests fragt sich nun noch, ob sich die Varianzen der beiden Stichproben signifikant unterscheiden. Dies kann durch den Levene Test für gleiche Varianzen ermittelt werden:

Stata-Befehl: robvar varname [if] [in] , by(groupvar)

Im Beispiel: robvar v207 if v174==2, by(v4)

Nur Frauen

Arbeitsstunden West- vs. Ostdeutschland

Page 17: Übung Statistik I – Statistik mit Stata · Statistik mit Stata - 2 - Überblick 1. Zunächst 2. Vergleich der Übungsaufgabe von letzter Woche 3. Übung: Skalenniveaus, Lage- und

Statistik mit Stata - 17 -

• Die Nullhypothese ist hier, dass es keinen Unterschied zwischen den Varianzen der beiden Stichproben gibt.

• Hinter W0 verbirgt sich die Levene Teststatistik, die hier einen Wert von 33,049 aufweist. Nach Angabe der Freiheitsgrade folgt als Ergebnis des Tests das empirische Signifikanzniveau von 0,000.

Page 18: Übung Statistik I – Statistik mit Stata · Statistik mit Stata - 2 - Überblick 1. Zunächst 2. Vergleich der Übungsaufgabe von letzter Woche 3. Übung: Skalenniveaus, Lage- und

Statistik mit Stata - 18 -

• Dies ist folgender Maßen zu interpretieren: Die Wahrscheinlichkeit, dass die Teststatistik bei gültiger Nullhypothese einen Wert von 33,049 aufweist, oder einen Wert, der noch mehr gegen die Nullhypothese spricht beträgt 0%. Die Nullhypothese, dass hier Varianzgleichheit vorliegt, kann somit verworfen werden.

3. Festlegung von Irrtumswahrscheinlichkeit und Ablehnungsbereich

Die Standardeinstellung bei der Durchführung von T-Tests ist in Stata 5%, also Irrtumswahrscheinlichkeit α=5%.

Drei Null- und zugehörige Alternativhypothesen möglich:

a) H0: µ1 = µ2 anders formuliert: H0: µ1 - µ2 = 0;

H1: µ1 - µ2 ≠ 0 anders formuliert: H1: |µ1 - µ2| > 0

a) H0: µ1 - µ2 ≥ 0; H1: µ1 - µ2 < 0

b) H0: µ1 - µ2 ≤ 0 ; H1: µ1 - µ2 > 0

Page 19: Übung Statistik I – Statistik mit Stata · Statistik mit Stata - 2 - Überblick 1. Zunächst 2. Vergleich der Übungsaufgabe von letzter Woche 3. Übung: Skalenniveaus, Lage- und

Statistik mit Stata - 19 -

Pr (T < t) < 0,05b) H0: µ1 - µ2 ≥ 0

Die Nullhypothese kann mit einer Irrtumswahrscheinlichkeit von 5% verworfen werden, wenn

Nullhypothese

Pr (T >t) < 0,05c) H0: µ1 - µ2 ≤ 0

Pr (|T| >|t|) < 0,05a) H0: µ1 - µ2 = 0

• Stata gibt als Ergebnis empirische Signifikanzen aus. Diese drücken die Wahrscheinlichkeit aus, dass bei gültiger Nullhypothese ein unten beschriebenes Verhältnis zwischen Wert der Teststatistik und kritischem Wert besteht:

Kritischer WertWert der Teststatistik

Page 20: Übung Statistik I – Statistik mit Stata · Statistik mit Stata - 2 - Überblick 1. Zunächst 2. Vergleich der Übungsaufgabe von letzter Woche 3. Übung: Skalenniveaus, Lage- und

Statistik mit Stata - 20 -

4. Berechnung d. Prüfgröße/ Entscheidung: Stata-Befehl: ttest

Page 21: Übung Statistik I – Statistik mit Stata · Statistik mit Stata - 2 - Überblick 1. Zunächst 2. Vergleich der Übungsaufgabe von letzter Woche 3. Übung: Skalenniveaus, Lage- und

Statistik mit Stata - 21 -

Page 22: Übung Statistik I – Statistik mit Stata · Statistik mit Stata - 2 - Überblick 1. Zunächst 2. Vergleich der Übungsaufgabe von letzter Woche 3. Übung: Skalenniveaus, Lage- und

Statistik mit Stata - 22 -

• In unserem Beispiel: Unterscheiden sich die durchschnittlichen Arbeitszeiten von Frauen aus West- und Ostdeutschland:

ttest v207 if v174==2, by(v4) unequal

• Offensichtlich prüft Stata immer alle drei möglichen Hypothesenpaare.

Page 23: Übung Statistik I – Statistik mit Stata · Statistik mit Stata - 2 - Überblick 1. Zunächst 2. Vergleich der Übungsaufgabe von letzter Woche 3. Übung: Skalenniveaus, Lage- und

Statistik mit Stata - 23 -

• Im Beispiel kann die Nullhypothese, dass es keinen Unterschied hinsichtlich der mittleren Arbeitszeit zwischen Frauen aus West und Ostdeutschland gibt (H0:µ1-µ2=0) verworfen werden. Genauso kann die Nullhypothese verworfen werden, dass der Mittelwert der ersten Stichprobe (westdeutsche Frauen) größer ist als der der zweiten (ostdeutsche Frauen) (H0:µ1-µ2≥0). D.h. Mit einer Irrtumswahrscheinlichkeit von 5% arbeiten Frauen in Ostdeutschland pro Woche signifikant länger als Frauen in Westdeutschland.

5. Überprüfung der Anwendungsvoraussetzungen (siehe 2.)

• Achtung: Im Datensatz allbus_ueb4.dta ist Gewichtung nach West/Ost [iweight=v735] notwendig, wenn repräsentative Aussagen für Gesamtdeutschland getroffen werden sollen!

Page 24: Übung Statistik I – Statistik mit Stata · Statistik mit Stata - 2 - Überblick 1. Zunächst 2. Vergleich der Übungsaufgabe von letzter Woche 3. Übung: Skalenniveaus, Lage- und

Statistik mit Stata - 24 -

5. Übung: T-Test1. Verschaffe dir einen Überblick über die Verteilung der

Variablen v381, v174 und v4. Verdienen Personen die ihre eigene Wirtschaftslage als mind. mittel bezeichnen im Durchschnitt in West- signifikant mehr als in Ostdeutschland?

Für die schnellen:

2. Verschaffe dir einen Überblick über die Verteilung der Variablen v145 und v212. Gibt es zwischen Personen, die in den letzten 10 Jahren arbeitslos waren und solchen die dies nicht waren einen Unterschied im Hinblick auf ihre Links-Rechts-Selbsteinstufung?

���� Übung

Page 25: Übung Statistik I – Statistik mit Stata · Statistik mit Stata - 2 - Überblick 1. Zunächst 2. Vergleich der Übungsaufgabe von letzter Woche 3. Übung: Skalenniveaus, Lage- und

Statistik mit Stata - 25 -

Lösung (A1):• codebook v381 v174 v4• sum v381 [iweight=v735] (hier Verwendung von sum, da

bei tabstat die Option iweights nicht erlaubt ist)• tab v174 [iweight=v735] (Modus=2)• tab v4 [iweight=v735] (Modus=1)1. H0: Personen, die ihre eigene Wirtschaftslage als mind.

mittel bezeichnen verdienen im Durchschnitt in Westdeutschland genauso viel oder weniger wie in Ostdeutschland. (H0: µ1 - µ2 ≤ 0)

2. Anwendungsvoraussetzung vgl. Folie 16robvar v381 if v147<=3, by(v4) zeigt, dass mit einerIrrtumswahrscheinlichkeit von 5% die Varianzen derStichproben sich auch in der Population unterscheiden.

3. α=5%, da H0: µ1 - µ2 ≤ 0 kann die Nullhypothese mit einer Irrtumswahrscheinlichkeit von 5% verworfen werden, wenn Pr (T >t) < 0,05

Page 26: Übung Statistik I – Statistik mit Stata · Statistik mit Stata - 2 - Überblick 1. Zunächst 2. Vergleich der Übungsaufgabe von letzter Woche 3. Übung: Skalenniveaus, Lage- und

Statistik mit Stata - 26 -

4. Berechnung der Prüfgröße und Entscheidung:

ttest v381 if v147<=3, by(v4) unequal

Die Nullhypothese, dass Personen, die ihre eigene Wirtschaftslage als mind. mittel bezeichnen im Durchschnitt in Westdeutschland genauso viel oder weniger wie in Ostdeutschland verdienen kann mit einer Irrtumswahrscheinlichkeit von 5% verworfen werden.

Auf einem Signifikanzniveau von 5% verdienen Personen, die ihre eigene Wirtschaftslage als mind. mittel bezeichnen im Durchschnitt in Westdeutschland mehr als in Ostdeutschland.

Page 27: Übung Statistik I – Statistik mit Stata · Statistik mit Stata - 2 - Überblick 1. Zunächst 2. Vergleich der Übungsaufgabe von letzter Woche 3. Übung: Skalenniveaus, Lage- und

Statistik mit Stata - 27 -

Lösung (A2):

• codebook v145 v212

• sum v145 [iweight=v735]

• tab v212 [iweight=v735] (Modus=2)

1. H0: Es gibt zwischen Personen, die in den letzten 10 Jahren arbeitslos waren und solchen die dies nicht waren keinen Unterschied im Hinblick auf ihre Links-Rechts-Selbsteinstufung. (H0: µ1 - µ2 = 0)

2. Anwendungsvoraussetzung vgl. Folie 16

robvar v145, by(v212) zeigt, dass mit einerIrrtumswahrscheinlichkeit von 5% die Varianzen derStichproben sich in der Population nicht unterscheiden.

3. α=5%, da H0: µ1 - µ2 = 0 kann die Nullhypothese mit einer Irrtumswahrscheinlichkeit von 5% verworfen werden, wenn Pr (|T| >|t|) < 0,05

Page 28: Übung Statistik I – Statistik mit Stata · Statistik mit Stata - 2 - Überblick 1. Zunächst 2. Vergleich der Übungsaufgabe von letzter Woche 3. Übung: Skalenniveaus, Lage- und

Statistik mit Stata - 28 -

4. Berechnung der Prüfgröße und Entscheidung:

ttest v145, by(v212)

Die Nullhypothese, dass es zwischen Personen, die in den letzten 10 Jahren arbeitslos waren und solchen die dies nicht waren keinen Unterschied im Hinblick auf ihre Links-Rechts-Selbsteinstufung gibt kann mit einer Irrtumswahrscheinlich-keit von 5% nicht verworfen werden.

Auf einem Signifikanzniveau von 5% gibt es zwischen Personen, die in den letzten 10 Jahren arbeitslos waren und solchen die dies nicht waren keinen Unterschied im Hinblick auf ihre Links-Rechts-Selbsteinstufung.

Page 29: Übung Statistik I – Statistik mit Stata · Statistik mit Stata - 2 - Überblick 1. Zunächst 2. Vergleich der Übungsaufgabe von letzter Woche 3. Übung: Skalenniveaus, Lage- und

Statistik mit Stata - 29 -

6. Kreuztabellen• Darstellung des Zusammenhangs zweier kategorialer

Variablen: Bivariate Kreuztabelle. Stata-Befehl:

• tab varname1 varname2 [if] [in] [weight] [,options]

• Beispiel:

ZeilenvariableSpaltenvariable

Interpretation: 39 Personen sind aus Ostdeutschland und gehören der Unterschicht an

Page 30: Übung Statistik I – Statistik mit Stata · Statistik mit Stata - 2 - Überblick 1. Zunächst 2. Vergleich der Übungsaufgabe von letzter Woche 3. Übung: Skalenniveaus, Lage- und

Statistik mit Stata - 30 -

• Kreuztabellen geben einen ersten Eindruck über den Zusammenhang zweier kategorialer Variablen. Dies wird bei Betrachtung der prozentualen Verteilung der Fälle deutlicher.

Page 31: Übung Statistik I – Statistik mit Stata · Statistik mit Stata - 2 - Überblick 1. Zunächst 2. Vergleich der Übungsaufgabe von letzter Woche 3. Übung: Skalenniveaus, Lage- und

Statistik mit Stata - 31 -

• Der Befehl tab v14 v4, cell gibt unter der Häufigkeit der Zelleihre relative Häufigkeit bezogen auf die Gesamtfallzahl (nurgültige Fälle) an.

Interpretation: 31,89% aller gültigen Fälle sind Personen aus Ostdeutschland undder Ansicht Abtreibung bei Gesundheitsg. der Frau sollte möglich sein.

Page 32: Übung Statistik I – Statistik mit Stata · Statistik mit Stata - 2 - Überblick 1. Zunächst 2. Vergleich der Übungsaufgabe von letzter Woche 3. Übung: Skalenniveaus, Lage- und

Statistik mit Stata - 32 -

• Der Befehl tab v14 v4, row gibt unter der Häufigkeit derZelle ihre relative Häufigkeit bezogen auf die Gesamtfallzahlder Zeile an.

Interpretation: 33,84% aller Personen, die der Ansicht sind, Abtreibung bei Gesundheitsg. der Frau sollte möglich sein sind aus Ostdeutschland

Page 33: Übung Statistik I – Statistik mit Stata · Statistik mit Stata - 2 - Überblick 1. Zunächst 2. Vergleich der Übungsaufgabe von letzter Woche 3. Übung: Skalenniveaus, Lage- und

Statistik mit Stata - 33 -

• Der Befehl tab v14 v4, col gibt unter der Häufigkeit der Zelleihre relative Häufigkeit bezogen auf die Gesamtfallzahl derSpalte an.

Interpretation: 95,51% aller Personen, die aus Ostdeutschland kommen sind der Ansicht, Abtreibung bei Gesundheitsg. der Frau sollte möglich sein.

Page 34: Übung Statistik I – Statistik mit Stata · Statistik mit Stata - 2 - Überblick 1. Zunächst 2. Vergleich der Übungsaufgabe von letzter Woche 3. Übung: Skalenniveaus, Lage- und

Statistik mit Stata - 34 -

• I.d.R. ist die Zeilenvariable die abhängige, die Spaltenvariable die unabhängige Variable, d.h. hinter dieser Darstellung steht, dass die Variable, die in den Zeilen abgetragen wird von der Variable, die in den Spalten abgetragen wird abhängt. Im Beispiel: Die Einstellung zur Abtreibung bei Gesundheitsgefährdung der Frau hängt vom Erhebungsgebiet ab und nicht: Das Erhebungsgebiet hängt von der Einstellung zur Abtreibung ab!

• Diese Konvention bedeutet zur Interpretation des Zusammenhangs ist die spaltenweise Prozentuierungsinnvoll. Denn es geht uns um Unterschiede in der Ausprägung der Zeilenvariable zwischen den Spaltenvariablen.

• Grundsätzlich kann man sich merken: Zeilenweise Prozentuierung bei spaltenweisem Vergleich und spaltenweise Prozentuierung bei zeilenweisem Vergleich.

Page 35: Übung Statistik I – Statistik mit Stata · Statistik mit Stata - 2 - Überblick 1. Zunächst 2. Vergleich der Übungsaufgabe von letzter Woche 3. Übung: Skalenniveaus, Lage- und

Statistik mit Stata - 35 -

7. Übung: Kreuztabelle• Stelle die Variablen Arbeitslosigkeit in den letzten 10 Jahren

und Mitgliedschaft in einer Gewerkschaft in einer Kreuztabelle dar. Was vermutest du implizit durch die Wahl von Zeilen- und Spaltenvariable? Prozentuiere entsprechend deiner Vermutung und interpretiere das Ergebnis.

���� Übung

Page 36: Übung Statistik I – Statistik mit Stata · Statistik mit Stata - 2 - Überblick 1. Zunächst 2. Vergleich der Übungsaufgabe von letzter Woche 3. Übung: Skalenniveaus, Lage- und

Statistik mit Stata - 36 -

• Durch die Wahl von Gewerkschaftsmitgliedschaft als Spalten- und Arbeitslosigkeit als Zeilenvariable wird vermutet, dass Arbeitslosigkeit von Gewerkschafts-mitgliedschaft abhängt. Da es also um Unterschiede zwischen den Zeilen geht ist spaltenweise prozentuiertworden: tab v212 v503, col ergibt:

Page 37: Übung Statistik I – Statistik mit Stata · Statistik mit Stata - 2 - Überblick 1. Zunächst 2. Vergleich der Übungsaufgabe von letzter Woche 3. Übung: Skalenniveaus, Lage- und

Statistik mit Stata - 37 -

• Waren 19,85% der Gewerkschaftsmitglieder in den letzten 10 Jahren arbeitslos waren es unter den Nicht-Gewerkschaftsmitgliedern 29,08%. In der Stichprobe des ALLBUS 2006 sind also Personen die einer Gewerkschaft angehören seltener zwischen 1996 und 2006 arbeitslos gewesen als Personen, die keiner Gewerkschaft angehören.

Page 38: Übung Statistik I – Statistik mit Stata · Statistik mit Stata - 2 - Überblick 1. Zunächst 2. Vergleich der Übungsaufgabe von letzter Woche 3. Übung: Skalenniveaus, Lage- und

Statistik mit Stata - 38 -

Hausaufgaben:

1. Führe jeden Befehl, den die Präsentation enthält mindestens einmal aus. Untersuche die verwendeten Befehle dabei auch auf mögliche Unterbefehle und Optionen.

2. Ergänze deine Befehlstabelle um die heute hinzugekommenen Befehle.