Upload
others
View
1
Download
0
Embed Size (px)
Citation preview
Dozent: Dawid Bekalarczyk
Universität Duisburg-Essen
Fachbereich Gesellschaftswissenschaften
Institut für Soziologie
Lehrstuhl für empirische Sozialforschung
Raum: LF 161
TEIL 10: BIVARIATE ANALYSE FÜR NOMINALSKA-
LIERTE VARIABLEN
Dozent: Dawid Bekalarczyk
Universität Duisburg-Essen
Fachbereich Gesellschaftswissenschaften
Institut für Soziologie
Lehrstuhl für empirische Sozialforschung
Raum: LF 161
Einführung bivariate Analyse
• Die Beschaffenheit „der Welt“ ist zwar sehr komplex, unterliegt
aber auch Regelmäßigkeiten
• Regelmäßigkeiten sind wiederum Ausdruck von Merkmalen, die
sich einseitig oder gegenseitig bedingen: also Ausdruck von Zu-sammenhängen zwischen Variablen
• Die bivariate Analyse widmet sich der Frage nach dem Zusam-
menhang zwischen zwei Variablen
Dozent: Dawid Bekalarczyk
Universität Duisburg-Essen
Fachbereich Gesellschaftswissenschaften
Institut für Soziologie
Lehrstuhl für empirische Sozialforschung
Raum: LF 161
• Es wird versucht, auf statistisch-mathematischem Wege die
Stärke und die Vorzeichen-Richtung solcher Zusammenhänge
mithilfe von Zusammenhangsmaßen wissenschaftlich zu forma-
lisieren1
• Zusammenhangsmaße weisen meist einen standardisierten Wertebereich auf, welcher mit der Stärke des Zusammenhangs
einhergeht
1 Bei nominalskalierten Variablen stellt sich die Frage nach der Richtung eines Zusammenhangs nicht!
Dozent: Dawid Bekalarczyk
Universität Duisburg-Essen
Fachbereich Gesellschaftswissenschaften
Institut für Soziologie
Lehrstuhl für empirische Sozialforschung
Raum: LF 161
• Man unterscheidet zwischen symmetrischen und asymmetri-schen Zusammenhangsmaßen:
o Asymmetrische Maße verlangen, dass vorher a priori fest-
legt wird, welche der beiden Variablen den Einfluss auf die
jeweils andere hat
o Bei symmetrischen Maßen wird die vermutete Kausalrich-
tung offen gelassen (symmetrische Maße erbringen somit
das gleiche Ergebnis, egal, welche der beiden Variablen als
„�“ und welche als „�“ ausgelegt wird)
Dozent: Dawid Bekalarczyk
Universität Duisburg-Essen
Fachbereich Gesellschaftswissenschaften
Institut für Soziologie
Lehrstuhl für empirische Sozialforschung
Raum: LF 161
Bivariate Analyse für nominalskalierte Variablen
• Alle hier behandelten Zusammenhangsmaße für das Nominalni-
veau basieren auf der Analyse von Kreuztabellen
• Gegenstand der Analyse sind somit absolute und relative Häu-figkeiten der Ausprägungen solcher Variablen
• Die einfachste solcher Kreuztabellen ist die 2X2-Tabelle (beide
Variablen sind dichotom)
Dozent: Dawid Bekalarczyk
Universität Duisburg-Essen
Fachbereich Gesellschaftswissenschaften
Institut für Soziologie
Lehrstuhl für empirische Sozialforschung
Raum: LF 161
Grundstruktur 2X2-Tabelle:
a b a+b
c d c+d
a+c b+d n
Dozent: Dawid Bekalarczyk
Universität Duisburg-Essen
Fachbereich Gesellschaftswissenschaften
Institut für Soziologie
Lehrstuhl für empirische Sozialforschung
Raum: LF 161
Kreuztabelle mit absoluten Häufigkeiten:
Kind: Ja Kind: Nein
Arbeit: Ja 10 40 Σ=50
Arbeit: Nein 30 15 Σ=45
Σ=40 Σ=55 n=95
Kreuztabelle mit Spaltenprozenten:
Kind: Ja Kind: Nein
Arbeit: Ja 25% 73% Σ=50
Arbeit: Nein 75% 27% Σ=45
100% 100% n=95
Kreuztabelle mit Zeilenprozenten:
Kind: Ja Kind: Nein
Arbeit: Ja 20% 80% 100%
Arbeit: Nein 67% 33% 100%
Σ=40 Σ=55 n=95
Kreuztabelle mit Zellenprozenten:
Kind: Ja Kind: Nein
Arbeit: Ja 10,53% 42,11% Σ=50
Arbeit: Nein 31,6% 15,8% Σ=45
Σ=40 Σ=55 n=100%
Dozent: Dawid Bekalarczyk
Universität Duisburg-Essen
Fachbereich Gesellschaftswissenschaften
Institut für Soziologie
Lehrstuhl für empirische Sozialforschung
Raum: LF 161
Die Prozentsatzdifferenz d%
• Einfaches und intuitiv zugängliches Maß
• Ist nur anwendbar auf 2X2-Tabellen
• Ist ein asymmetrisches Maß (Unabhängige Variable x spalten-
weise; abhängige Variable y zeilenweise)
• Wertebereich zwischen 0 (vollständige Unabhängigkeit beider
Merkmale) und ±100% (vollständige Abhängigkeit beider
Merkmale)
Dozent: Dawid Bekalarczyk
Universität Duisburg-Essen
Fachbereich Gesellschaftswissenschaften
Institut für Soziologie
Lehrstuhl für empirische Sozialforschung
Raum: LF 161
• Formel:
�% = 100( + � − + �)
Dozent: Dawid Bekalarczyk
Universität Duisburg-Essen
Fachbereich Gesellschaftswissenschaften
Institut für Soziologie
Lehrstuhl für empirische Sozialforschung
Raum: LF 161
Erläuterung anhand des oberen Beispiels:
• Fragestellung der Prozentsatzdifferenz – Unterscheidet sich
der Anteil der Personen, die eine Arbeit haben, in der Gruppe der Kinderbesitzenden von demselben Anteil in der Gruppe der kinderlosen Personen? (konditionale relative Häufigkeiten)
�% = ��� (KinderbesitzendeKinderbesitzendeKinderbesitzendeKinderbesitzende, , , , die eine Arbeit habendie eine Arbeit habendie eine Arbeit habendie eine Arbeit habenalle Kinderbesitzendealle Kinderbesitzendealle Kinderbesitzendealle Kinderbesitzende − NichtNichtNichtNicht----KinderbesitzendeKinderbesitzendeKinderbesitzendeKinderbesitzende, , , , die eine Arbeit habendie eine Arbeit habendie eine Arbeit habendie eine Arbeit habenalle Nichtalle Nichtalle Nichtalle Nicht----KinderbesitzendeKinderbesitzendeKinderbesitzendeKinderbesitzende )
• Werden die Werte eingesetzt, ergibt sich:
�% = 100 %1040 − 4055( = 100 %− 2144( ≈ −47,73%
Dozent: Dawid Bekalarczyk
Universität Duisburg-Essen
Fachbereich Gesellschaftswissenschaften
Institut für Soziologie
Lehrstuhl für empirische Sozialforschung
Raum: LF 161
• Schlussfolgerung: Der Anteil der Arbeitenden in der Gruppe der
Kinderlosen ist um 47,73% höher (!!!), als in der Gruppe der
Personen mit Kind(ern)
Dozent: Dawid Bekalarczyk
Universität Duisburg-Essen
Fachbereich Gesellschaftswissenschaften
Institut für Soziologie
Lehrstuhl für empirische Sozialforschung
Raum: LF 161
Extremfälle der Prozentsatzdifferenz entlang des Beispiels:
• Würde ein Bruch 1 und der andere 0 betragen, dann wäre d% = 100, d.h.: alle, die Kinder hätten, hätten keine Arbeit und alle,
die keine Kinder hätten, hätten Arbeit (bzw. umgekehrt) � per-fekte Abhängigkeit
• Wären beide Brüche gleich, dann wäre d% = 0, d.h. das Vor-
handensein einer Arbeit würde sich gleichmäßig auf Personen
mit Kind und auf Personen ohne Kind verteilen � perfekte Unabhängigkeit
Dozent: Dawid Bekalarczyk
Universität Duisburg-Essen
Fachbereich Gesellschaftswissenschaften
Institut für Soziologie
Lehrstuhl für empirische Sozialforschung
Raum: LF 161
Verschiede Grade des Zusammenhangs bei 2x2-Tabellen mit gleichmäßig verteilten Randsummen:
a) keine Beziehung c) starke Beziehung
b) schwache Beziehung d) perfekte Beziehung
25 25 50
25 25 50
50 50 100
40 10 50
10 40 50
50 50 100
28 22 50
22 28 50
50 50 100
50 50
50 50
50 50 100
Dozent: Dawid Bekalarczyk
Universität Duisburg-Essen
Fachbereich Gesellschaftswissenschaften
Institut für Soziologie
Lehrstuhl für empirische Sozialforschung
Raum: LF 161
• Anmerkung: Unterscheiden sich die Randsummen stark vonei-
nander, dann ist die Stärke des Zusammenhangs u.U. nicht
mehr leicht visuell erkennbar:
18 18 36
62 2 64
80 20 100
Dozent: Dawid Bekalarczyk
Universität Duisburg-Essen
Fachbereich Gesellschaftswissenschaften
Institut für Soziologie
Lehrstuhl für empirische Sozialforschung
Raum: LF 161
Chi-Quadrat -.und Chi-Quadrat-basierte Maßzahlen
• Kontingenztabelle – Die übliche Kreuztabelle mit den beobach-
teten absoluten Häufigkeiten
• Indifferenztabelle – Konstruierte Tabelle mit Werten, welche
die Verteilung annehmen müsste, wenn beide Merkmale sta-tistisch vollkommen unabhängig wären (erwartete Häufigkei-
ten)
Dozent: Dawid Bekalarczyk
Universität Duisburg-Essen
Fachbereich Gesellschaftswissenschaften
Institut für Soziologie
Lehrstuhl für empirische Sozialforschung
Raum: LF 161
Grundidee:
• Vergleich zwischen der Kontingenz- und der Indifferenztabelle
• Je mehr die Kontingenz- von der Indifferenztabelle abweicht,
umso stärker hängen beide Merkmale zusammen
• Anmerkung: Chi-Quadrat und Chi-Quadrat-basierte Maße sind
symmetrisch
Dozent: Dawid Bekalarczyk
Universität Duisburg-Essen
Fachbereich Gesellschaftswissenschaften
Institut für Soziologie
Lehrstuhl für empirische Sozialforschung
Raum: LF 161
Bildung der Indifferenztabelle:
• Ausschlaggebend sind die Randsummen in den Zeilen und Spalten und die Gesamtzahl n
• Daher wird zuerst der Grundbau einer Tabelle betrachtet – hier
beispielhaft für eine 2x3-Tabelle:
Dozent: Dawid Bekalarczyk
Universität Duisburg-Essen
Fachbereich Gesellschaftswissenschaften
Institut für Soziologie
Lehrstuhl für empirische Sozialforschung
Raum: LF 161
Abitur↓ / Schicht → Unterschicht Mittelschicht Oberschicht
Ja Zeilensumme: 45
Nein Zeilensumme: 81
Spaltensumme: 42 Spaltensumme: 40 Spaltensumme: 44 Gesamt: 126
Allgemeine Berechnung der erwarteten Häufigkeit einer Zelle (Merkmalskombi-
nation) /:
01 = 23453678993 ∗ ;<=5>3678993?
Berechnung von @A beispielhaft für die
Zelle der Merkmalskombination „Unter-
schicht / Abitur“ (/ = 1):
0� = BC∙B.�.E = �C
Dozent: Dawid Bekalarczyk
Universität Duisburg-Essen
Fachbereich Gesellschaftswissenschaften
Institut für Soziologie
Lehrstuhl für empirische Sozialforschung
Raum: LF 161
Gegenüberstellung Kontingent- und Indifferenztabelle:
Kontingenztabelle (mit beispielhaften Häufigkeiten)
Abitur↓ / Schicht → Unterschicht Mittelschicht Oberschicht
Ja 10 15 20 Zeilensumme: 45
Nein 32 25 24 Zeilensumme: 81
Spaltensumme: 42 Spaltensumme: 40 Spaltensumme: 44 Gesamt: 126
Indifferenztabelle
Abitur↓ / Schicht → Unterschicht Mittelschicht Oberschicht
Ja 15 14,29 15,71 Zeilensumme: 45
Nein 27 25,71 28,29 Zeilensumme: 81
Spaltensumme: 42 Spaltensumme: 40 Spaltensumme: 44 Gesamt: 126
Dozent: Dawid Bekalarczyk
Universität Duisburg-Essen
Fachbereich Gesellschaftswissenschaften
Institut für Soziologie
Lehrstuhl für empirische Sozialforschung
Raum: LF 161
Formel für Chi-Quadrat:
FG = H ( A − @A)G@A
IAJK
mit: / = Laufindex für die einzelnen Merkmalskombinationen (Zellen der Kreuztabelle) der beiden be-
trachteten Variablen; � steht für die letzte Merkmalskombination
A= beobachtete Häufigkeit der Merkmalskombination /
@A= erwartete Häufigkeit der Merkmalskombination /
Dozent: Dawid Bekalarczyk
Universität Duisburg-Essen
Fachbereich Gesellschaftswissenschaften
Institut für Soziologie
Lehrstuhl für empirische Sozialforschung
Raum: LF 161
Somit müssen in dem oberen Beispiel die Ergebnisse von sechs Brü-chen addiert werden:
FG = (10 − 15)G15 + (15 − 14,29)G
14,29 + (20 − 15,17)G15,17 + (32 − 27)G
27 + (25 − 25,71)G25,71 + (24 − 28,29)G
28,29 = B, BENC
Dozent: Dawid Bekalarczyk
Universität Duisburg-Essen
Fachbereich Gesellschaftswissenschaften
Institut für Soziologie
Lehrstuhl für empirische Sozialforschung
Raum: LF 161
Anmerkungen zu Chi-Quadrat:
• Chi-Quadrat ist kein standardisiertes Maß, da es mit steigendem n wachsen kann
• Es bewegt sich bei 2x2-Tabellen im Intervall 0 ≤ FG ≤ P, bei grö-
ßeren Tabellen sogar darüber hinaus
• Deshalb bedarf es einer Standardisierung, also Maßzahlen mit
einem festen Wertebereich
• Dieser Wertebereich bewegt sich im Idealfall zwischen 0 und 1; je
größer der Wert, umso größer der Zusammenhang
Dozent: Dawid Bekalarczyk
Universität Duisburg-Essen
Fachbereich Gesellschaftswissenschaften
Institut für Soziologie
Lehrstuhl für empirische Sozialforschung
Raum: LF 161
Chi-Quadrat-basierte Maßzahlen
Phi-Koeffizient Q:
Q = RFGP
• Der Phi-Koeffizient weist den Vorteil auf, dass es eine sehr einfa-che und intuitiv zugängliche Maßzahl ist
• Nachteil: Er ist nur auf 2x2-Tabellen anwendbar, da sich bei grö-
ßeren Tabellen der Wertebereich von 0 bis 1 über 1 hinaus ver-
breitet
Dozent: Dawid Bekalarczyk
Universität Duisburg-Essen
Fachbereich Gesellschaftswissenschaften
Institut für Soziologie
Lehrstuhl für empirische Sozialforschung
Raum: LF 161
Kontingenzkoeffizient C:
S = R FGFG + P
• Der Kontingenzkoeffizient beseitigt den Nachteil von Phi, so dass
auch für größere Tabellen der Wertebereich die Grenze Eins nicht überschreitet
• Nachteil: Dafür kann der Extremwert Eins nur annähernd er-reicht werden (bei steigender Anzahl von Merkmalskombinatio-
nen konvergiert die Grenze gegen Eins)
Dozent: Dawid Bekalarczyk
Universität Duisburg-Essen
Fachbereich Gesellschaftswissenschaften
Institut für Soziologie
Lehrstuhl für empirische Sozialforschung
Raum: LF 161
Cramers V:
T = R FGP ∙ U/P ((V – 1); (� – 1))
• Cramers V ist so konstruiert, dass diese Maßzahl den Maximal-wert 1 immer, also unabhängig von der Anzahl der Zellen und
von der Stichprobengröße, erreichen kann
• Cramers V ist somit als die beste der drei Maßzahlen anzusehen
Dozent: Dawid Bekalarczyk
Universität Duisburg-Essen
Fachbereich Gesellschaftswissenschaften
Institut für Soziologie
Lehrstuhl für empirische Sozialforschung
Raum: LF 161
• Ausdruck „U/P ((V – 1); (� – 1))“ bedeutet:
o Die um eins erniedrigte Anzahl der Merkmalsausprägungen
der Variablen, welche weniger Ausprägungen hat
o V = Anzahl der Zeilen (rows), � = Anzahl der Spalten (co-
lumns), „min“ steht für das Minimum der beiden durch „;“ ge-
trennten Ausdrücke
• Ist unter den beiden betrachteten Variablen mindestens eine di-
chotome Variable, dann vereinfacht sich die Formel von Cramers
V zu der Formel von Phi, da „U/P ((V – 1); (� – 1)) = 1“