Jacob, Datenanalyse 1 - Uni Trier: Willkommen .- univariat - bivariat - multivariat . Jacob, Datenanalyse

  • View
    214

  • Download
    0

Embed Size (px)

Text of Jacob, Datenanalyse 1 - Uni Trier: Willkommen .- univariat - bivariat - multivariat . Jacob,...

  • Jacob, Datenanalyse 1

    Dr. habil. Rdiger JacobMethoden und Techniken der empirischen Sozialforschung

    Vorlesung mit Diskussion

    9. Datenaufbereitung und Datenanalyse

    Datenaufbereitung und Codierung, Datenmatrix, Datenfehler und Datenbereinigung, Korrelation und Kausalitt, Individualdaten und Aggregatdaten univariate und bivariate Datenanalyse, Signifikanz und Assoziation, Drittfaktorkontrolle

  • Jacob, Datenanalyse 2

    Datenaufbereitung und Datenanalyse

    Individual- oder Mikrodaten: Daten von einzelnen Merkmalstrgern.

    Aggregat- oder Makrodaten:Daten von Kollektiven. Alle Arten von Raten oder Anteilswerten: Eheschlieungs- und Scheidungsraten Arbeitslosenquote Lungenkrebsmorbidittsraten in einer Stadt Anteil der Raucher in einer Stadt Jahres-Pro-Kopf-Menge des Verbrauchs von Butter und anderen

    tierischen Fetten Mortalittsraten Herzinfarkt

    Bei Aggregatdaten: kologischer Fehlschluss bei Korrelationen

    kologische Korrelationen: Hinweise auf mgliche Zusammenhnge Zur Formulierung von Hypothesen gut geeignet, nicht zu deren berprfung!

  • Jacob, Datenanalyse 3

    Individualdaten und Aggregatdaten:Ernhrung und Herzinfarkt. Vergleich zwischen Deutschland und Japan

    (1988/OECD-health-Data)

    8,30,78,4Jhrlicher Verbrauch von Butter in Kg

    136,44533Tglicher Verbrauch von Getreideprotein in gr

    74,826473537Tglicher Kalorienkonsum

    20,5109,0531,0Herzinfarktmortalitt Mnner

    27,629,0105,0Herzinfarktmortalitt Frauen

    Rel.Rate Japan (D =100%)

    JapanDeutsch-land

  • Jacob, Datenanalyse 4

    Variable:Merkmale, die verschiedene Ausprgungen haben knnen.Dichotome Variable: 2 AusprgungenTrichotome Variable: 3 AusprgungenPolytome Variable: mehr als 2 Ausprgungen

    Konstante: Merkmale mit nur einer Ausprgung.

    Ob Merkmale Konstante oder Variable darstellen, hngt wesentlich von der Forschungsfrage und der Struktur der untersuchten Population ab

  • Jacob, Datenanalyse 5

    Phasen der Datenauswertung Kodierung und Dateneingabe

    Fehlerkontrolle, Fehlerbereinigung, Ausschluss fehlerhafter und fehlender Angaben ("missing values")

    Umformung von Variablen (Rekodierung), Neubildung von Variablen, Indizes und Skalen (Variablentransformation)

    Statistische Analyse von Verteilungen und Zusammenhngen - univariat - bivariat - multivariat

  • Jacob, Datenanalyse 6

    Datenmatrix

    Variable

    Flle

    Variable: Kopfseite Spalten Merkmalstrger, Flle: Stirnseite Zeilen

  • Jacob, Datenanalyse 7

    ID V1 V2 V3 V4 V5 V6 V7 V8 V9 V10

    1 0 1 0 1 1 3 1 9 9 9

    2 0 1 0 1 0 2 1 3 1 5

    3 0 0 0 0 1 9 9 3 2 2

    4 1 1 0 1 0 1 3 2 2 1

    : : : : : : : : : : :

    247 1 1 0 1 0 1 9 2 2 1

  • Jacob, Datenanalyse 8

    Wichtig:Eine Datenmatrix ist nicht mit einer Tabelle zu verwechseln.

    Tabellen zeigen die Verteilung eines Merkmals (Hufigkeitstabelle) oder die gemeinsame Verteilung von zwei Merkmalen (Kreuztabelle). Eine Datenmatrix enthlt dagegen alle erhobenen Merkmale einer Untersuchung.

    Erstellung einer Datenmatrix:VariablennamenKodierungPlatzhalter fr Filter und fehlende WerteFallnummern

  • Jacob, Datenanalyse 9

    7. Wie zufrieden sind Sie mit Ihrer Gesundheit? V7

    n=507

    A Sehr zufrieden 26,8 1 B Zufrieden 53,5 2 C Weniger zufrieden 13,6 3 D Unzufrieden 6,1 4 E Wei nicht (Interviewer: nicht vorlesen) / 8

    k.A. / 9 8. Und wie zufrieden sind Sie insgesamt mit der medizinischen Betreuung durch Ihre rzte? V8

    n=507

    A Sehr zufrieden 29,6 1 B Zufrieden 53,1 2 C Weniger zufrieden 13,2 3 D Unzufrieden 3,2 4 E Wei nicht (Interviewer: nicht vorlesen) 1,0 8 k. A. / 9 9. An wen wenden Sie sich zunchst, wenn Sie eine leichtere Erkrankung feststellen? Ja Nein A an Partner oder Ehepartner (n=507) 58,6 41,4 1, 0 V9.AB an Eltern / Verwandte (n=507) 32,3 67,7 1, 0 V9.B

    C an Freunde (n=507) 29,2 70,8 1, 0 V9.CD an rzte (n=507) 60,7 39,3 1, 0 V9.DE an Nachbarn (n=506) 7,3 92,7 1, 0 V9.E F an Arbeitskollegen (n=506) 15,2 84,8 1, 0 V9.F G an Krankenhaus (n=507) 10,3 89,7 1, 0 V9.G

    Frage (hier = Variable)

    Variablen-namerelative

    Hufigkeiten

    Fall-zahl

    Variable

    Codezahlen

    Variablen-namen

    Frage

  • Jacob, Datenanalyse 10

    Univariate Analyse: Verteilung eines Merkmals

    Deskriptive Mazahlen:

    1. Mae der zentralen Tendenz

    Mean: arithmetisches Mittel

    Median: Zentralwert

    Mode, Modus, Modalwert: am hufigsten vorkommender Wert

    2. Streuungsmae

    Range, Spannweite: Differenz zwischen dem kleinsten und dem grten Wert

    Varianz: quadrierte, summierte Abweichungen der individuellen Merkmalsausprgungen vom Mittelwert, dividiert durch die Gesamtzahl der Flle (dimensionsloser Wert)

    Standardabweichung: Wurzel aus der Varianz (gleiche Dimension wie die Ausgangsdaten)

  • Jacob, Datenanalyse 11

  • Jacob, Datenanalyse 12

    Rechtsschiefe/linkssteile Verteilung

  • Jacob, Datenanalyse 13

    Bei Normalverteilungen sind Modus, Median und arithmetisches Mittel identisch.

    Fr normalverteilte Merkmale gilt:

    rund 2/3 aller Flle (genau 68,26%) liegen in dem Intervall mit den Grenzen arith. Mittel + Standardabweichung und arith. Mittel - Standardabweichung.

    95,44% aller Flle liegen in dem Intervall mit den Grenzenarith. Mittel + 2 Standardabweichungen und arith. Mittel - 2 Standardabweichungen

    99,74% aller Flle liegen in dem Intervall mit den Grenzenarith. Mittel + 3 Standardabweichungen und arith. Mittel - 3 Standardabweichungen

    Bei schiefen Verteilungen gilt:

    Rechtsschiefe/linkssteile Verteilungen: Modusarith. Mittel

  • Jacob, Datenanalyse 14

  • Jacob, Datenanalyse 15

    Gewicht

    125,0120,0

    115,0110,0

    105,0100,0

    95,090,0

    85,080,0

    75,070,0

    65,060,0

    55,050,0

    45,040,0

    40

    30

    20

    10

    0

    Std.abw. = 14,29Mittel = 79,8N = 195,00

  • Jacob, Datenanalyse 16

    Gre

    190,0187,5

    185,0182,5

    180,0177,5

    175,0172,5

    170,0167,5

    165,0162,5

    160,0157,5

    155,0152,5

    150,0

    30

    20

    10

    0

    Std.abw. = 8,76 Mittel = 169,3N = 193,00

  • Jacob, Datenanalyse 17

    bergewicht: Body-Mass-Index (BMI). Krpergewicht in KG geteilt durch das Quadrat der Krpergre in m

    Gewicht(Kg)BMI = -----------------------

    Krpergre(m)2

    75KgBMI = --------------- = 25,9

    1,70m2

    Wertebereiche:

    unter 18: deutliches Untergewicht18-20: Untergewicht20-25: Normalgewicht25-30: bergewichtber 30: Adipositas

  • Jacob, Datenanalyse 18

    BMI

    Valid CumValue Label Value Frequency Percent Percent Percent

    deutl. Unterg. 1 2 1,0 1,1 1,1Normalg. 3 48 24,5 27,6 28,7berg. 4 69 35,2 39,7 68,4Adipositas 5 55 28,1 31,6 100,0 , 22 11,2 Missing ------- ------- ------- Total 196 100,0 100,0

    Valid cases 174 Missing cases 22

    Mean 27,797 Std dev 4,214Median 27,641 Variance 17,761Mode 24,221 Minimum 14,005

    Maximum 41,016Range 27,011

  • Jacob, Datenanalyse 19

    BMI-Werte in der allgemeinen Bevlkerung

    12-18 0,9

    18,1-20 5,6

    20,1-25 50,2

    25,1-30 36,9

    30,1 oder mehr 6,4

    N 2459

    Quelle: Sozialwissenschaften-BUS 1996

  • Jacob, Datenanalyse 20

    Dichotomisierung der Variablen:

    bis 25: kein bergewicht

    ber 25: bergewicht

    bergewicht (Angaben in Prozent)

    kein bergewicht 56,7

    bergewicht 43,3

    N 2459

    Quelle: Sozialwissenschaften-BUS 1996

  • Jacob, Datenanalyse 21

    Punkt- oder Intervallschtzung

    Wie viel Prozent der Bevlkerung sind bergewichtig?Wie genau schtzt der Anteilswert der Stichprobe den wahren Wert der Population?

    Voraussetzung zur Beantwortung der Frage: Zufallsstichprobe

    Kennwerte (Mittelwerte, Streuung, Anteilswerte) von Zufallsstichproben sind (approximativ) normalverteilt, der (unbekannte) Populationsparameter ist der Erwartungswert.

    Stichprobenergebnisse sind Intervallschtzer!

  • Jacob, Datenanalyse 22

    Konfidenzintervall

    95,44% der Stichprobenkennwerte liegen in einem Bereich Populationsparameter (z.B. ) +/- 2 Standardabweichungen.

    Populationsparameter, die mit einer Wahrscheinlichkeit von 95,44% einenspezifischen Stichprobenkennwert hervorbringen, liegen in dem Intervall

    Stichprobenkennwert +/- 2 Standardabweichungen.

    Die Wahrscheinlichkeit, dass dieser Kennwert zu einer Population gehrt, derenParameter ausserhalb dieses Intervalls liegt, betrgt hchstens 4,56%.

    Das Konfidenzintervall kennzeichnet den Bereich eines Merkmals, in dem sichein bestimmter Prozentsatz aller mglichen Populationsparameter befindet, die den empirisch ermittelten Stichprobenkennwert erzeugt haben knnen

    Fr solche Konfindenzintervalle bliche Bereiche:95%99%

  • Jacob, Datenanalyse 23

    Mittelwert=0

    68,26%

    95,44%

    1,96-1,96

    95%

    2,58

  • Jacob, Datenanalyse 24