30
Zufällige Auswahlverfahren in der empirischen Sozialforschung Teil A 1. Warum Zufallsstichproben? 2. Beispiel: Studierendenbefragung a. Grundgesamtheit b. einfache Zufallsstichprobe c. geschichtete Zufallsstichprobe d. Klumpenstichprobe e. Disproportionale Zufallsauswahlen 3. Stichprobenfehler und Stichprobenverteilung des arithmetischen Mittels Ausblick auf die nächste Woche Teil B Geschichtete Zufallsstichproben Klumpenstichproben Disproportionale Zufallsauswahlen Zusammenfassung: Standardfehler in einfachen und komplexen Zufallsstichproben

Zufällige Auswahlverfahren in der empirischen …eswf.uni-koeln.de/lehre/06/05/s5_6.pdfMethoden der empirischen Sozialforschung. 6. Auflage. München / Wien: Oldenbourg Zufällige

  • Upload
    others

  • View
    3

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Zufällige Auswahlverfahren in der empirischen …eswf.uni-koeln.de/lehre/06/05/s5_6.pdfMethoden der empirischen Sozialforschung. 6. Auflage. München / Wien: Oldenbourg Zufällige

1

Zufällige Auswahlverfahren in der empirischen SozialforschungTeil A1. Warum Zufallsstichproben?2. Beispiel: Studierendenbefragung

a. Grundgesamtheitb. einfache Zufallsstichprobec. geschichtete Zufallsstichprobed. Klumpenstichprobee. Disproportionale Zufallsauswahlen

3. Stichprobenfehler und Stichprobenverteilung des arithmetischen Mittels

Ausblick auf die nächste Woche

Teil B• Geschichtete Zufallsstichproben• Klumpenstichproben• Disproportionale Zufallsauswahlen• Zusammenfassung: Standardfehler in

einfachen und komplexen Zufallsstichproben

Page 2: Zufällige Auswahlverfahren in der empirischen …eswf.uni-koeln.de/lehre/06/05/s5_6.pdfMethoden der empirischen Sozialforschung. 6. Auflage. München / Wien: Oldenbourg Zufällige

2

Teil 1

Warum Zufallsstichproben?

Jede dritte Frau klagt über häusliche Gewalt

Jede dritte Frau, die älter ist als 16 Jahre, ist laut Umfragen im eigenen Haus mindestens einmal Opfer von Gewalt gewesen. Weit mehr als die Hälfte dieser Frauen habe dabei gesundheitliche Schäden erlitten, berichtete das Bundesfamilienministerium […] Quelle: dpa/epd 24.11.2003

Page 3: Zufällige Auswahlverfahren in der empirischen …eswf.uni-koeln.de/lehre/06/05/s5_6.pdfMethoden der empirischen Sozialforschung. 6. Auflage. München / Wien: Oldenbourg Zufällige

3

Jede dritte Frau klagt über häusliche Gewalt

Jede dritte Frau, die älter ist als 16 Jahre, ist laut Umfragen im eigenen Haus mindestens einmal Opfer von Gewalt gewesen. Weit mehr als die Hälfte dieser Frauen habe dabei gesundheitliche Schäden erlitten, berichtete das Bundesfamilienministerium […] Die erstmals in Deutschland erfolgte quantitative Befragung von Patientinnen der Ersten Hilfe fand im Rahmen eines Berliner Gesundheitsprojektes im Jahr 2002 statt. Quelle: dpa/epd 24.11.2003

Vorteile von Zufallsstichproben

• Selektivität– frei von „willkürlicher“ Auswahl– Auswahl erfolgt durch einen „teilnahmslosen“

Zufallsalgorithmus• Präzision berechenbar

– zufällige Abweichungen von den „wahren“ Werten möglich (Stichwort: Stichprobenfehler)

– das Ausmaß der Abweichungen ist jedoch quantifizierbar

Page 4: Zufällige Auswahlverfahren in der empirischen …eswf.uni-koeln.de/lehre/06/05/s5_6.pdfMethoden der empirischen Sozialforschung. 6. Auflage. München / Wien: Oldenbourg Zufällige

4

Typische Aussagen aus einer empirischen Untersuchung• In Bielefeld geben Studierende

durchschnittlich 228,79 € für Miete aus.• 55,4 Prozent der Bielefelder Studierenden

sind Frauen.• Studierende der Physik studieren

durchschnittlich 5,5 Stunden pro Woche mehr als Studierende der Pädagogik.

Datenbasis: Stichprobe• Wie repräsentativ sind die Ergebnisse?• Besser: Sind Abweichungen von den

tatsächlichen („wahren“) Werten möglich?– systematische Abweichungen– zufällige Abweichungen

• Wie präzise sind die Aussagen bei Existenz von Zufallsfehlern?

• Mit welcher Sicherheit ist ein Rückschluss von der Stichprobe auf die Grundgesamtheit möglich, wenn erstere nur eine Teilmenge erfasst?

Page 5: Zufällige Auswahlverfahren in der empirischen …eswf.uni-koeln.de/lehre/06/05/s5_6.pdfMethoden der empirischen Sozialforschung. 6. Auflage. München / Wien: Oldenbourg Zufällige

5

Beispiele mit Angaben über Sicherheit und Präzision• Die Durchschnittsmiete Bielefelder Studierender

liegt mit 95% Wahrscheinlichkeit bei 228,79 € ±2,50 €.

• Mit 95% Wahrscheinlichkeit beträgt der Frauenanteil 55,4 Prozent (± 4,4 Prozent-punkte).

• Studierende der Physik studieren mit 5% Irrtumswahrscheinlichkeit durchschnittlich 5,5 Stunden pro Woche mehr als Studierende der Pädagogik.– Der zeitliche Mehraufwand beträgt mit 95%

Wahrscheinlichkeit 5,5 Stunden (± 0,34 Stunden)

Bestandteile der vorherigen Aussagen

Miete Frauenanteil Mehraufwand

Punkt-schätzer 228,79 55,4 5,50

Präzision(Standard-

fehler)1,272 2,2 0,170

Verteilungs-annahme

Tt=1,96

(Normal)z=1,96

Tt=1,96

Aussage ± 2,50 ± 4,4 ± 0,34

Page 6: Zufällige Auswahlverfahren in der empirischen …eswf.uni-koeln.de/lehre/06/05/s5_6.pdfMethoden der empirischen Sozialforschung. 6. Auflage. München / Wien: Oldenbourg Zufällige

6

Teil 2

BeispielStudierendenbefragung

GrundgesamtheitFakultät Studierende Anteil Frauen Anteil Zeit Std Miete StdBiologie 1054 5.45% 604 57.31% 43 0.500 230.25 € 30.097Chemie 533 2.76% 186 34.90% 43 0.500 230.23 € 29.784Geschichte 1274 6.59% 588 46.15% 34 0.500 230.80 € 29.875Gesundheitswissenschaften 524 2.71% 326 62.21% 44 0.500 230.11 € 27.475Literaturwissenschaft 3358 17.38% 2495 74.30% 34 0.500 229.78 € 30.298Mathematik 752 3.89% 343 45.61% 35 0.500 230.21 € 30.688Paedagogik 2487 12.87% 1807 72.66% 30 0.500 229.58 € 30.069Physik 375 1.94% 57 15.20% 36 0.500 227.64 € 28.260Psychologie 1498 7.75% 887 59.21% 33 0.500 230.07 € 30.023Rechtswissenschaft 2485 12.86% 1193 48.01% 37 0.500 230.58 € 29.828Soziologie 1813 9.38% 1014 55.93% 30 0.500 229.73 € 29.897Technische Fakultaet 1089 5.64% 256 23.51% 35 0.500 230.80 € 29.791Wirtschaftswissenschaften 2080 10.76% 789 37.93% 36 0.500 229.62 € 29.918Insgesamt 19322 100.00% 10545 54.58% 34.78 3.796 230.00 € 29.926

Page 7: Zufällige Auswahlverfahren in der empirischen …eswf.uni-koeln.de/lehre/06/05/s5_6.pdfMethoden der empirischen Sozialforschung. 6. Auflage. München / Wien: Oldenbourg Zufällige

7

Einfache Zufallsauswahl

Grundgesamtheit(Urne)

Stichprobe

Praktische Umsetzung• Lotterieverfahren• Zufallszahlen• Systematische Auswahl

– jedes x-te Element der Grundgesamtheit– mit Zufallsstart

• Art der Auswahl– ohne Zurücklegen: Mehrfachauswahl

ausgeschlossen. Mathematisch schwieriger.– mit Zurücklegen: Mehrfachauswahl möglich, aber

sinnvoll? Mathematisch einfacher.

Page 8: Zufällige Auswahlverfahren in der empirischen …eswf.uni-koeln.de/lehre/06/05/s5_6.pdfMethoden der empirischen Sozialforschung. 6. Auflage. München / Wien: Oldenbourg Zufällige

8

Einfache Zufallsstichprobe (Definition)Sie ist durch zwei Eigenschaften gekennzeichnet: • Die Wahrscheinlichkeit, in die Stichprobe zu gelangen,

ist bei jedem Auswahlschritt für alle noch nicht ausgewählten Untersuchungseinheiten der Grundgesamtheit gleich.

• Jede der denkbaren einfachen Zufallstichproben vom Umfang n aus einer Grundgesamtheit vom Umfang N kommt mit gleicher Wahrscheinlichkeit vor.

Beispiele für komplexere Stichprobendesigns• Schichtung: Zufallsauswahl von Studierenden

innerhalb der einzelnen Fakultäten• Klumpen: Zufallsauswahl von 4 Fakultäten mit

allen ihren Studierenden• Mehrstufige Auswahl

1. Zufallsauswahl von 4 Fakultäten2. Zufallsauswahl Studierender in diesen 4 Fakultäten

• Disproportionale Auswahlwahrscheinlichkeita. möglich bei Klumpenauswahlenb. Überrepräsentierung naturwissenschaftlicher Fakultäten

Page 9: Zufällige Auswahlverfahren in der empirischen …eswf.uni-koeln.de/lehre/06/05/s5_6.pdfMethoden der empirischen Sozialforschung. 6. Auflage. München / Wien: Oldenbourg Zufällige

9

Gründe für komplexere Stichprobendesigns• Überrepräsentierung: Analyse spezieller

Subgruppen (Naturwissenschaften, Ost / West)• Schichtung: optimale Repräsentation der

Grundgesamtheit (Studienfach, Region)• Klumpen: praktische Erwägungen (beschränkte

Ressourcen, Auswahlgrundlage)• Mehrstufige Auswahl: Kombination der

vorherigen Überlegungen (ADM-Design)

Problematik komplexer Designs

1. Präzision: Standardformeln zur Berechnung der Standardfehler nicht anwendbar

2. Prognose: Überrepräsentation kann Hochrechnung verfälschen

3. Struktur: Überrepräsentation kann Schätzung der Unterschiede und Effekte verfälschen

Page 10: Zufällige Auswahlverfahren in der empirischen …eswf.uni-koeln.de/lehre/06/05/s5_6.pdfMethoden der empirischen Sozialforschung. 6. Auflage. München / Wien: Oldenbourg Zufällige

10

Teil 3

Stichprobenfehler und Stichprobenverteilung des arithmetischen Mittelwerts

02

h

34.4 34.6 34.8 35r(mean)

Durchschnittlicher Zeitaufwand in 10 (einfachen) Zufallsstichproben

• „Man liegt im Mittel richtig,“ wenn der Durchschnitt aller geschätzten Werte 34,78 beträgt (Erwartungstreue der Schätzung)

• Schließt aber Abweichung im Einzelfall nicht aus:– Schätzfehler (Stichprobenfehler) = geschätzter Wert – 34,78

• Daher wünscht man sich möglichst geringe Stichprobenfehler, alsoeine möglichst geringe Streuung der Schätzwerte (Effizienz der Schätzung)

Abweichung in Stichprobe 7 (35,02)

Wert in der GG: 34,78

Page 11: Zufällige Auswahlverfahren in der empirischen …eswf.uni-koeln.de/lehre/06/05/s5_6.pdfMethoden der empirischen Sozialforschung. 6. Auflage. München / Wien: Oldenbourg Zufällige

11

0.5

11.

52

2.5

Den

sity

34 34.5 35 35.5r(mean)

Simulation der Stichprobenverteilung des geschätzten Zeitaufwandes

• 1000 Stichproben (Replikationen) jeweils mit n=500• Empirische Stichprobenverteilung: begrenzte Anzahl von

Replikationen (s. Histogramm)• (Theoretische) Stichprobenverteilung: unendliche Anzahl von

Replikationen (s. Normalverteilung)

Stichprobenverteilung des geschätzten Zeitaufwandes

• Erwartungstreue: Das arithmetische Mittel des geschätzten Zeitaufwandes über alle Stichproben entspricht dem durchschnittlichen Zeitaufwand in der GG.

• Effizienz: Streuung der Schätzwerte über alle Stichproben– Maß: Standardabweichung (Standardfehler des arithmetischen Mittels)

0.5

11.

52

2.5

Den

sity

34 34.5 35 35.5r(mean)

Std.abw. = 0,168

Arithm. Mittel = 34,78

Page 12: Zufällige Auswahlverfahren in der empirischen …eswf.uni-koeln.de/lehre/06/05/s5_6.pdfMethoden der empirischen Sozialforschung. 6. Auflage. München / Wien: Oldenbourg Zufällige

12

Zeitaufwand und Mietausgaben

n Zeit (σ=3,796) Miete (σ=29.926)

50

500

33.5 34 34.5 35 35.5 36x

33.5 34 34.5 35 35.5 36x

220 225 230 235 240x

220 225 230 235 240x

Standardfehler des arithmetischen Mittels• Standardfehler

– Standardabweichung σ des untersuchten Merkmals (z.B. Zeitaufwand) in der Grundgesamtheit:

– Stichprobenumfang n• geschätzter Standardfehler

– Standardabweichung s in der Stichprobe

• Konfidenzintervall

nx σσ =

nsx =σ̂

nstx

nstx ⋅+≤≤⋅− µ̂

Page 13: Zufällige Auswahlverfahren in der empirischen …eswf.uni-koeln.de/lehre/06/05/s5_6.pdfMethoden der empirischen Sozialforschung. 6. Auflage. München / Wien: Oldenbourg Zufällige

13

Zum Schluss

Wichtige Fachausdrücke

Deutsch Englisch Deutsch Englisch

Grundgesamt-heitsparameter

populationparameter

Stichproben-verteilung

samplingdistribution

Schätzwert estimated value Erwartungstreue Unbiasedness

Stichproben-fehler sampling error Effizienz Efficiency

Standardfehler standard error Konfidenz-intervall

confidenceinterval

Page 14: Zufällige Auswahlverfahren in der empirischen …eswf.uni-koeln.de/lehre/06/05/s5_6.pdfMethoden der empirischen Sozialforschung. 6. Auflage. München / Wien: Oldenbourg Zufällige

14

Weiterführende Literatur• Kapitel 4 des Grundlagentextes gibt einen

Überblick über verschiedene Auswahlverfahren: – Groves, R.M. / Fowler, F.J. / Couper, M.P. /

Lepkowski, J.M. / Singer, E. / Tourangeau, R. (2004): Survey methodology. Hoboken, NJ: Wiley

• Weitere Hinweise finden sich in jedem Lehrbuch zur empirischen Sozialforschung, z.B. in Kapitel 6 bei:– Schnell, Rainer / Hill, Paul B. / Esser, Elke (1999):

Methoden der empirischen Sozialforschung. 6. Auflage. München / Wien: Oldenbourg

Zufällige Auswahlverfahren

Teil B• Wiederholung der letzten Sitzung4. Simulationsstudie

• Erwartungstreue und Standardfehler in komplexen Stichprobendesigns

5. Ausgewählte Formeln• Standardfehler des arithmetischen Mittels für ausgewählte

komplexe Zufallsstichproben

6. Komplexe Zufallsstichproben und STATA7. Zusammenfassung

Page 15: Zufällige Auswahlverfahren in der empirischen …eswf.uni-koeln.de/lehre/06/05/s5_6.pdfMethoden der empirischen Sozialforschung. 6. Auflage. München / Wien: Oldenbourg Zufällige

15

Vor Beginn

Wiederholung der letzten Sitzung

Einfache ZufallsauswahlFakultät GG Stufe 1 Stufe 2

Biologie 1054

Chemie 533

Geschichte 1274

Gesundheitswissenschaften 524

Literaturwissenschaft 3358

Mathematik 752

Paedagogik 2487

Physik 375

Psychologie 1498

Rechtswissenschaft 2485

Soziologie 1813

Technische Fakultaet 1089

Wirtschaftswissenschaften 2080

Insgesamt 19322 500

Page 16: Zufällige Auswahlverfahren in der empirischen …eswf.uni-koeln.de/lehre/06/05/s5_6.pdfMethoden der empirischen Sozialforschung. 6. Auflage. München / Wien: Oldenbourg Zufällige

16

Geschichtete ZufallsauswahlFakultät GG Stufe 1 Stufe 2

Biologie 1054 27

Chemie 533 14

Geschichte 1274 33

Gesundheitswissenschaften 524 14

Literaturwissenschaft 3358 87

Mathematik 752 19

Paedagogik 2487 64

Physik 375 10

Psychologie 1498 39

Rechtswissenschaft 2485 64

Soziologie 1813 47

Technische Fakultaet 1089 28

Wirtschaftswissenschaften 2080 54

Insgesamt 19322 500

Zufällige Klumpenauswahl (Bsp 1)

Fakultät GG Stufe 1 Stufe 2

Biologie 1054

Chemie 533 533

Geschichte 1274

Gesundheitswissenschaften 524 524

Literaturwissenschaft 3358

Mathematik 752 752

Paedagogik 2487

Physik 375 375

Psychologie 1498

Rechtswissenschaft 2485

Soziologie 1813

Technische Fakultaet 1089

Wirtschaftswissenschaften 2080

Insgesamt 19322 2184

Page 17: Zufällige Auswahlverfahren in der empirischen …eswf.uni-koeln.de/lehre/06/05/s5_6.pdfMethoden der empirischen Sozialforschung. 6. Auflage. München / Wien: Oldenbourg Zufällige

17

Fakultät GG Stufe 1 Stufe 2

Biologie 1054

Chemie 533

Geschichte 1274

Gesundheitswissenschaften 524

Literaturwissenschaft 3358 3358

Mathematik 752

Paedagogik 2487 2487

Physik 375

Psychologie 1498

Rechtswissenschaft 2485 2485

Soziologie 1813

Technische Fakultaet 1089

Wirtschaftswissenschaften 2080 2080

Insgesamt 19322 10410

Zufällige Klumpenauswahl (Bsp 2)

Zweistufige ZufallsauswahlFakultät GG Stufe 1 Stufe 2

Biologie 1054

Chemie 533 533 125

Geschichte 1274

Gesundheitswissenschaften 524 524 125

Literaturwissenschaft 3358

Mathematik 752 752 125

Paedagogik 2487

Physik 375 375 125

Psychologie 1498

Rechtswissenschaft 2485

Soziologie 1813

Technische Fakultaet 1089

Wirtschaftswissenschaften 2080

Insgesamt 19322 2184 500

Page 18: Zufällige Auswahlverfahren in der empirischen …eswf.uni-koeln.de/lehre/06/05/s5_6.pdfMethoden der empirischen Sozialforschung. 6. Auflage. München / Wien: Oldenbourg Zufällige

18

ÜberrepräsentierungFakultät GG Stufe 1 Stufe 2

Biologie 1054 53

Chemie 533 27

Geschichte 1274 32

Gesundheitswissenschaften 524 13

Literaturwissenschaft 3358 84

Mathematik 752 38

Paedagogik 2487 62

Physik 375 19

Psychologie 1498 37

Rechtswissenschaft 2485 62

Soziologie 1813 45

Technische Fakultaet 1089 54

Wirtschaftswissenschaften 2080 52

Insgesamt 19322 578

Problematik komplexer Designs

1. Präzision: Standardformeln zur Berechnung der Standardfehler nicht anwendbar

2. Prognose: Überrepräsentation kann Hochrechnung verfälschen

3. Struktur: Überrepräsentation kann Schätzung der Unterschiede und Effekte verfälschen

Page 19: Zufällige Auswahlverfahren in der empirischen …eswf.uni-koeln.de/lehre/06/05/s5_6.pdfMethoden der empirischen Sozialforschung. 6. Auflage. München / Wien: Oldenbourg Zufällige

19

Teil 4

Eine SimulationsstudieErwartungstreue und Standardfehler in

komplexen Stichprobendesigns

Zur Erinnerung: Stichprobenverteilung des geschätzten Zeitaufwandes

• Erwartungstreue: Das arithmetische Mittel des geschätzten Zeitaufwandes über alle Stichproben entspricht dem durchschnittlichen Zeitaufwand in der GG.

• Effizienz: Streuung der Schätzwerte über alle Stichproben– Maß: Standardabweichung (Standardfehler des arithmetischen Mittels)

0.5

11.

52

2.5

Den

sity

34 34.5 35 35.5r(mean)

Std.abw. = 0,168

Arithm. Mittel = 34,78

Page 20: Zufällige Auswahlverfahren in der empirischen …eswf.uni-koeln.de/lehre/06/05/s5_6.pdfMethoden der empirischen Sozialforschung. 6. Auflage. München / Wien: Oldenbourg Zufällige

20

Analoge Simulationsstudie für komplexe AuswahlverfahrenVermutungen1. Klumpenstichproben: Schätzwerte streuen

mehr, verringern also die Präzision (Klumpeneffekt)

2. Geschichtete Stichproben: Schätzwerte streuen weniger, erhöhen die Präzision (Schichtungseffekt)

3. Überrepräsentation: verstärkt die Eigenschaften der überrepräsentierten Elemente in der Stichprobe (Verzerrung)

Nochmal zur Erinnerung

Besonderheiten der Daten1. Miete: keine Unterschiede zwischen Fakultäten (jede

Fakultät ein Abbild der Grundgesamtheit)2. Zeit: große Unterschiede zwischen Fakultäten

Besonderheiten einiger Auswahlverfahren1. zweistufige Auswahl: nicht-intendierter Nebeneffekt

der Überrepräsentation kleiner Fakultäten2. Überrepräsentation: intendierte Überrepräsentation der

naturwissenschaftlichen Fakultäten

Page 21: Zufällige Auswahlverfahren in der empirischen …eswf.uni-koeln.de/lehre/06/05/s5_6.pdfMethoden der empirischen Sozialforschung. 6. Auflage. München / Wien: Oldenbourg Zufällige

21

Ergebnisse der Simulation

von bis von bisEinfache Zufallsstichprobe 500 500 2.6% 2.6% 54.56% 0.0225Geschichtete Zufallsstichprobe 500 500 2.6% 2.6% 54.55% 0.0207Zufällige Klumpenauswahl 2184 10410 7.7% 7.7% 53.61% 0.0802Zweistufige Zufallsauswahl 500 500 1.1% 10.3% 48.61% 0.0765Überrepräsentierung 578 578 2.5% 5.0% 51.87% 0.0202zum Vergleich: GG 19322 19322 100.0% 100.0% 54.58% 0.4979Standardfehler (n=500, mit Z.) 0.0223Standardfehler (n=500, ohne Z.) 0.0220

Einfache Zufallsstichprobe 34.78 0.1684 230.02 € 1.3542Geschichtete Zufallsstichprobe 34.79 0.0220 229.98 € 1.3337Zufällige Klumpenauswahl 34.83 1.7487 230.01 € 0.2294Zweistufige Zufallsauswahl 36.20 1.9676 229.89 € 1.3079Überrepräsentierung 35.38 0.1398 230.06 € 1.1985zum Vergleich: GG 34.78 3.7960 230.00 € 29.9258Standardfehler (n=500, mit Z.) 0.1698 1.3383Standardfehler (n=500, ohne Z.) 0.1676 1.3209

Frau Std

Zeit StdAuswahlverfahren Miete Std

Stichprobenumfang Auswahlwahrsch.Auswahlverfahren

Geschichtete Stichproben• Im Mittel über alle denkbaren Stichproben ergibt

sich der tatsächliche („wahre“) Wert der Grundgesamtheit (Erwartungstreue).

• In der Regel streuen die einzelnen Stichprobenergebnisse viel weniger als in einfachen Stichproben (Schichtungseffekt).

• Es sei denn, die einzelnen Schichten sind verkleinerte Abbilder der Grundgesamtheit (s. Beispiel Mietausgaben).– technisch: Die arithmetischen Mittel der Schichten

unterscheiden sich kaum.

Page 22: Zufällige Auswahlverfahren in der empirischen …eswf.uni-koeln.de/lehre/06/05/s5_6.pdfMethoden der empirischen Sozialforschung. 6. Auflage. München / Wien: Oldenbourg Zufällige

22

Klumpenstichproben• Im Mittel über alle denkbaren Stichproben ergibt

sich noch der tatsächliche („wahre“) Wert der Grundgesamtheit (Erwartungstreue).

• In der Regel streuen die einzelnen Stichprobenergebnisse aber viel mehr als in einfachen Stichproben (Klumpeneffekt).

• Es sei denn, die einzelnen Klumpen sind verkleinerte Abbilder der Grundgesamtheit (s. Beispiel Mietausgaben).– technisch: Die arithmetischen Mittel der Klumpen

unterscheiden sich kaum.

Überrepräsentierung• Überrepräsentierung kleiner Fakultäten

– Nicht-intendierter Nebeneffekt eines nicht sehr klug geplanten zweistufigen Verfahrens

– kleine Fakultäten: geringer Frauenanteil, hoher ZeitwandUnterschätzung Frauenanteil, Überschätzung Zeitaufwand

• Überrepräsentierung Naturwissenschaften– Intendierter Effekt des Auswahlverfahrens– Naturwissenschaften: geringer Frauenanteil, hoher

ZeitwandUnterschätzung Frauenanteil, Überschätzung Zeitaufwand

Page 23: Zufällige Auswahlverfahren in der empirischen …eswf.uni-koeln.de/lehre/06/05/s5_6.pdfMethoden der empirischen Sozialforschung. 6. Auflage. München / Wien: Oldenbourg Zufällige

23

Teil 5

Ausgewählte FormelnStandardfehler des arithmetischen Mittels für

ausgewählte komplexe Zufallsstichproben

Zur Erinnerung:Konfidenzintervall Mietausgaben• Standardfehler

– Standardabweichung σ des untersuchten Merkmals (z.B. Zeitaufwand) in der Grundgesamtheit:

– Stichprobenumfang n• geschätzter Standardfehler

– Standardabweichung s in der Stichprobe

• Konfidenzintervall

nx σσ =

nsx =σ̂

nstx

nstx ⋅+≤≤⋅− µ̂

Page 24: Zufällige Auswahlverfahren in der empirischen …eswf.uni-koeln.de/lehre/06/05/s5_6.pdfMethoden der empirischen Sozialforschung. 6. Auflage. München / Wien: Oldenbourg Zufällige

24

Einfache Zufallsstichprobe mit Zurücklegen• geschätzter Standardfehler

– Standardabweichung s in der Stichprobe

– n Stichprobenumfang

ns

srswrx =,σ̂

Einfache Zufallsstichprobe ohne Zurücklegen• geschätzter Standardfehler

– Standardabweichung s in der Stichprobe

– n Stichprobenumfang

– N Umfang der Grundgesamtheit

– n/N Auswahlsatz

nsNn

ns

NnN

srsworx ⋅−≈⋅−−

= )1(1

ˆ ,σ

Page 25: Zufällige Auswahlverfahren in der empirischen …eswf.uni-koeln.de/lehre/06/05/s5_6.pdfMethoden der empirischen Sozialforschung. 6. Auflage. München / Wien: Oldenbourg Zufällige

25

Designfaktor

– Formeln für den Standardfehler in komplexen Stichproben s. Handout

• Der Designfaktor gibt an, um welchen Faktor ich den Stichprobenumfang des komplexen Designs erhöhen müsste, um ähnlich präzise Aussagen wie bei einfachen Zufallsstichproben ohne Zurücklegen machen zu können.

2,

2,

ˆˆ

srsworx

komplexxdeffσσ

=

Teil 6

Komplexe Zufallsstichproben und STATA

Page 26: Zufällige Auswahlverfahren in der empirischen …eswf.uni-koeln.de/lehre/06/05/s5_6.pdfMethoden der empirischen Sozialforschung. 6. Auflage. München / Wien: Oldenbourg Zufällige

26

STATA Informationen über das Survey-Design mitteilensvyset [pw=Gewicht], strata(Strata_id) psu(Psu_id)

fpc(Rate|GG_N)

• pw: gibt an, wie viele Einheiten der GG jedes Element der Stichprobe repräsentiert (Hochrechnungsfaktor)

• strata: Schichtindikator• psu: Indikator für Primary Sampling Unit

– Id für Klumpen, wobei bei mehrstufigen Designs nur die Klumpen der ersten Stufe interessieren (daher: primary sampling units)

• fpc: wahlweise Auswahlsatz oder Umfang der Grundgesamtheit

Survey-Design des vorliegenden Datensatzes beschreibensvydes

• Es müssen mindestens zwei PSUs pro Schicht vorliegen.

• Falls das nicht der Fall ist, müssen benachbarte Schichten zusammengelegt werden.

Page 27: Zufällige Auswahlverfahren in der empirischen …eswf.uni-koeln.de/lehre/06/05/s5_6.pdfMethoden der empirischen Sozialforschung. 6. Auflage. München / Wien: Oldenbourg Zufällige

27

Survey-Prozeduren in STATA

help svy

• Durch Eingabe des Help-Kommandoserhalten Sie einen Überblick über die vorhandenen Auswertungsprozeduren.

• Im Handout verwende ich beispielhaft die Prozedur svymean.

Teil 7

Zusammenfassung

Page 28: Zufällige Auswahlverfahren in der empirischen …eswf.uni-koeln.de/lehre/06/05/s5_6.pdfMethoden der empirischen Sozialforschung. 6. Auflage. München / Wien: Oldenbourg Zufällige

28

Zusammenfassung (1 von 2)1. Übliche Computerprogramme haben meistens nur

SRSWR implementiert.2. SRSWOR liefert kleinere Standardfehler.3. Wenn der Auswahlsatz sehr klein ist, unterscheiden

sich SRSWR und SRSWOR kaum.4. Proportional geschichtete Stichproben liefern

Standardfehler, die maximal so groß sind wie bei SRS (häufig sogar geringer).

5. Bei disproportionaler Schichtung ist die Lage nicht so klar. Sie erfordert auf jeden Fall für die Hochrechnung Gewichte. Bei sehr unterschiedlichen Gewichten erhöhen sich die Standardfehler.

Zusammenfassung (2 von 2)

6. Klumpenstichproben führen zu Standardfehlern, die mindestens so groß sind wie bei SRS.

7. Komplexe Stichprobendesigns beinhalten häufig sowohl Klumpen- als auch Schichtungseffekte.

8. Der Effekt auf die Standardfehler lässt sich wegen der gegenläufigen Effekte daher kaum a prior abschätzen.

Page 29: Zufällige Auswahlverfahren in der empirischen …eswf.uni-koeln.de/lehre/06/05/s5_6.pdfMethoden der empirischen Sozialforschung. 6. Auflage. München / Wien: Oldenbourg Zufällige

29

Zum Schluss

Wichtige Fachausdrücke

Deutsch Englisch Deutsch Englisch(einfache)

Zufallsstich-probe

(simple) randomsample

proportionale Auswahl

proportionatesampling

mit / ohne Zurücklegen

with / withoutreplacement

disproportionale Auswahl

disproportionatesampling

geschichtete Stichprobe stratified sample

Klumpen-stichprobe cluster sample

Page 30: Zufällige Auswahlverfahren in der empirischen …eswf.uni-koeln.de/lehre/06/05/s5_6.pdfMethoden der empirischen Sozialforschung. 6. Auflage. München / Wien: Oldenbourg Zufällige

30

Weiterführende Literatur• Abschnitt 10.7 des Grundlagentextes wiederholt einige Aspekte des heutigen Vortrages:

– Groves, R.M. / Fowler, F.J. / Couper, M.P. / Lepkowski, J.M. / Singer, E. / Tourangeau, R. (2004): Survey methodology. Hoboken, NJ: Wiley

• Der folgende Aufsatz weist darauf hin, dass Computerprogramme üblicherweise von einfachen Zufallsstichproben ausgehen und daher bei komplexen Stichprobendesigns falsche Ergebnisse liefern können:

– Lipsmeier, Gero (1999): Standard oder Fehler? Einige Eigenschaften von Schätzverfahren bei komplexen Stichprobenplänen und aktuelle Lösungsansätze. ZA-Information 44: 96-117

• Eine Einführung in die statistischen Grundlagen einfacher und komplexer Zufallsstichproben findet sich bei:

– Kalton, Graham (1983): Introduction to Survey Sampling. Quantitative Applications in the Social Sciences35. Newbury Park: Sage

• Die statistischen Grundlagen komplexer Stichprobendesigns werden behandelt bei:– Lee, Eun Sul / Forthofer, Ronald N. / Lorimor, Ronald J. (1989): Analysing Complex Survey Data.

Quantitative Applications in the Social Sciences 71. Newbury Park: Sage• Wer schließlich selber nachrechnen möchte, findet hier eine Menge von Anwendungsbeispielen:

– Levy, P.S. / Lemeshov, S. (1980): Sampling for health professionals. Belmont, CA: Lifetime Learning Pubs.