TEIL 10: BIVARIATE ANALYSE FÜR NOMINALSKA- LIERTE … · Anmerkungen zu Chi-Quadrat: • Chi-Quadrat ist kein standardisiertes Maß, da es mit steigendem n wachsen kann • Es bewegt

Dozent: Dawid Bekalarczyk

Universität Duisburg-Essen

Fachbereich Gesellschaftswissenschaften

Institut für Soziologie

Lehrstuhl für empirische Sozialforschung

Raum: LF 161

TEIL 10: BIVARIATE ANALYSE FÜR NOMINALSKA-

LIERTE VARIABLEN






Raum: LF 161

Einführung bivariate Analyse

• Die Beschaffenheit „der Welt“ ist zwar sehr komplex, unterliegt

aber auch Regelmäßigkeiten

• Regelmäßigkeiten sind wiederum Ausdruck von Merkmalen, die

sich einseitig oder gegenseitig bedingen: also Ausdruck von Zu-sammenhängen zwischen Variablen

• Die bivariate Analyse widmet sich der Frage nach dem Zusam-

menhang zwischen zwei Variablen






Raum: LF 161

• Es wird versucht, auf statistisch-mathematischem Wege die

Stärke und die Vorzeichen-Richtung solcher Zusammenhänge

mithilfe von Zusammenhangsmaßen wissenschaftlich zu forma-

lisieren1

• Zusammenhangsmaße weisen meist einen standardisierten Wertebereich auf, welcher mit der Stärke des Zusammenhangs

einhergeht

1 Bei nominalskalierten Variablen stellt sich die Frage nach der Richtung eines Zusammenhangs nicht!






Raum: LF 161

• Man unterscheidet zwischen symmetrischen und asymmetri-schen Zusammenhangsmaßen:

o Asymmetrische Maße verlangen, dass vorher a priori fest-

legt wird, welche der beiden Variablen den Einfluss auf die

jeweils andere hat

o Bei symmetrischen Maßen wird die vermutete Kausalrich-

tung offen gelassen (symmetrische Maße erbringen somit

das gleiche Ergebnis, egal, welche der beiden Variablen als

„�“ und welche als „�“ ausgelegt wird)






Raum: LF 161

Bivariate Analyse für nominalskalierte Variablen

• Alle hier behandelten Zusammenhangsmaße für das Nominalni-

veau basieren auf der Analyse von Kreuztabellen

• Gegenstand der Analyse sind somit absolute und relative Häu-figkeiten der Ausprägungen solcher Variablen

• Die einfachste solcher Kreuztabellen ist die 2X2-Tabelle (beide

Variablen sind dichotom)






Raum: LF 161

Grundstruktur 2X2-Tabelle:

a b a+b

c d c+d

a+c b+d n






Raum: LF 161

Kreuztabelle mit absoluten Häufigkeiten:

Kind: Ja Kind: Nein

Arbeit: Ja 10 40 Σ=50

Arbeit: Nein 30 15 Σ=45

Σ=40 Σ=55 n=95

Kreuztabelle mit Spaltenprozenten:

Kind: Ja Kind: Nein

Arbeit: Ja 25% 73% Σ=50

Arbeit: Nein 75% 27% Σ=45

100% 100% n=95

Kreuztabelle mit Zeilenprozenten:

Kind: Ja Kind: Nein

Arbeit: Ja 20% 80% 100%

Arbeit: Nein 67% 33% 100%

Σ=40 Σ=55 n=95

Kreuztabelle mit Zellenprozenten:

Kind: Ja Kind: Nein

Arbeit: Ja 10,53% 42,11% Σ=50

Arbeit: Nein 31,6% 15,8% Σ=45

Σ=40 Σ=55 n=100%






Raum: LF 161

Die Prozentsatzdifferenz d%

• Einfaches und intuitiv zugängliches Maß

• Ist nur anwendbar auf 2X2-Tabellen

• Ist ein asymmetrisches Maß (Unabhängige Variable x spalten-

weise; abhängige Variable y zeilenweise)

• Wertebereich zwischen 0 (vollständige Unabhängigkeit beider

Merkmale) und ±100% (vollständige Abhängigkeit beider

Merkmale)






Raum: LF 161

• Formel:

�% = 100( + � − + �)






Raum: LF 161

Erläuterung anhand des oberen Beispiels:

• Fragestellung der Prozentsatzdifferenz – Unterscheidet sich

der Anteil der Personen, die eine Arbeit haben, in der Gruppe der Kinderbesitzenden von demselben Anteil in der Gruppe der kinderlosen Personen? (konditionale relative Häufigkeiten)

�% = �� (KinderbesitzendeKinderbesitzendeKinderbesitzendeKinderbesitzende, , , , die eine Arbeit habendie eine Arbeit habendie eine Arbeit habendie eine Arbeit habenalle Kinderbesitzendealle Kinderbesitzendealle Kinderbesitzendealle Kinderbesitzende − NichtNichtNichtNicht----KinderbesitzendeKinderbesitzendeKinderbesitzendeKinderbesitzende, , , , die eine Arbeit habendie eine Arbeit habendie eine Arbeit habendie eine Arbeit habenalle Nichtalle Nichtalle Nichtalle Nicht----KinderbesitzendeKinderbesitzendeKinderbesitzendeKinderbesitzende )

• Werden die Werte eingesetzt, ergibt sich:

�% = 100 %1040 − 4055( = 100 %− 2144( ≈ −47,73%






Raum: LF 161

• Schlussfolgerung: Der Anteil der Arbeitenden in der Gruppe der

Kinderlosen ist um 47,73% höher (!!!), als in der Gruppe der

Personen mit Kind(ern)






Raum: LF 161

Extremfälle der Prozentsatzdifferenz entlang des Beispiels:

• Würde ein Bruch 1 und der andere 0 betragen, dann wäre d% = 100, d.h.: alle, die Kinder hätten, hätten keine Arbeit und alle,

die keine Kinder hätten, hätten Arbeit (bzw. umgekehrt) � per-fekte Abhängigkeit

• Wären beide Brüche gleich, dann wäre d% = 0, d.h. das Vor-

handensein einer Arbeit würde sich gleichmäßig auf Personen

mit Kind und auf Personen ohne Kind verteilen � perfekte Unabhängigkeit






Raum: LF 161

Verschiede Grade des Zusammenhangs bei 2x2-Tabellen mit gleichmäßig verteilten Randsummen:

a) keine Beziehung c) starke Beziehung

b) schwache Beziehung d) perfekte Beziehung

25 25 50

25 25 50

50 50 100

40 10 50

10 40 50

50 50 100

28 22 50

22 28 50

50 50 100

50 50

50 50

50 50 100






Raum: LF 161

• Anmerkung: Unterscheiden sich die Randsummen stark vonei-

nander, dann ist die Stärke des Zusammenhangs u.U. nicht

mehr leicht visuell erkennbar:

18 18 36

62 2 64

80 20 100






Raum: LF 161

Chi-Quadrat -.und Chi-Quadrat-basierte Maßzahlen

• Kontingenztabelle – Die übliche Kreuztabelle mit den beobach-

teten absoluten Häufigkeiten

• Indifferenztabelle – Konstruierte Tabelle mit Werten, welche

die Verteilung annehmen müsste, wenn beide Merkmale sta-tistisch vollkommen unabhängig wären (erwartete Häufigkei-

ten)






Raum: LF 161

Grundidee:

• Vergleich zwischen der Kontingenz- und der Indifferenztabelle

• Je mehr die Kontingenz- von der Indifferenztabelle abweicht,

umso stärker hängen beide Merkmale zusammen

• Anmerkung: Chi-Quadrat und Chi-Quadrat-basierte Maße sind

symmetrisch






Raum: LF 161

Bildung der Indifferenztabelle:

• Ausschlaggebend sind die Randsummen in den Zeilen und Spalten und die Gesamtzahl n

• Daher wird zuerst der Grundbau einer Tabelle betrachtet – hier

beispielhaft für eine 2x3-Tabelle:






Raum: LF 161

Abitur↓ / Schicht → Unterschicht Mittelschicht Oberschicht

Ja Zeilensumme: 45

Nein Zeilensumme: 81

Spaltensumme: 42 Spaltensumme: 40 Spaltensumme: 44 Gesamt: 126

Allgemeine Berechnung der erwarteten Häufigkeit einer Zelle (Merkmalskombi-

nation) /:

01 = 23453678993 ∗ ;<=5>3678993?

Berechnung von @A beispielhaft für die

Zelle der Merkmalskombination „Unter-

schicht / Abitur“ (/ = 1):

0� = BC∙B.�.E = �C






Raum: LF 161

Gegenüberstellung Kontingent- und Indifferenztabelle:

Kontingenztabelle (mit beispielhaften Häufigkeiten)


Ja 10 15 20 Zeilensumme: 45

Nein 32 25 24 Zeilensumme: 81


Indifferenztabelle


Ja 15 14,29 15,71 Zeilensumme: 45

Nein 27 25,71 28,29 Zeilensumme: 81







Raum: LF 161

Formel für Chi-Quadrat:

FG = H ( A − @A)G@A

IAJK

mit: / = Laufindex für die einzelnen Merkmalskombinationen (Zellen der Kreuztabelle) der beiden be-

trachteten Variablen; � steht für die letzte Merkmalskombination

A= beobachtete Häufigkeit der Merkmalskombination /

@A= erwartete Häufigkeit der Merkmalskombination /






Raum: LF 161

Somit müssen in dem oberen Beispiel die Ergebnisse von sechs Brü-chen addiert werden:

FG = (10 − 15)G15 + (15 − 14,29)G

14,29 + (20 − 15,17)G15,17 + (32 − 27)G

27 + (25 − 25,71)G25,71 + (24 − 28,29)G

28,29 = B, BENC






Raum: LF 161

Anmerkungen zu Chi-Quadrat:

• Chi-Quadrat ist kein standardisiertes Maß, da es mit steigendem n wachsen kann

• Es bewegt sich bei 2x2-Tabellen im Intervall 0 ≤ FG ≤ P, bei grö-

ßeren Tabellen sogar darüber hinaus

• Deshalb bedarf es einer Standardisierung, also Maßzahlen mit

einem festen Wertebereich

• Dieser Wertebereich bewegt sich im Idealfall zwischen 0 und 1; je

größer der Wert, umso größer der Zusammenhang






Raum: LF 161

Chi-Quadrat-basierte Maßzahlen

Phi-Koeffizient Q:

Q = RFGP

• Der Phi-Koeffizient weist den Vorteil auf, dass es eine sehr einfa-che und intuitiv zugängliche Maßzahl ist

• Nachteil: Er ist nur auf 2x2-Tabellen anwendbar, da sich bei grö-

ßeren Tabellen der Wertebereich von 0 bis 1 über 1 hinaus ver-

breitet






Raum: LF 161

Kontingenzkoeffizient C:

S = R FGFG + P

• Der Kontingenzkoeffizient beseitigt den Nachteil von Phi, so dass

auch für größere Tabellen der Wertebereich die Grenze Eins nicht überschreitet

• Nachteil: Dafür kann der Extremwert Eins nur annähernd er-reicht werden (bei steigender Anzahl von Merkmalskombinatio-

nen konvergiert die Grenze gegen Eins)






Raum: LF 161

Cramers V:

T = R FGP ∙ U/P ((V – 1); (� – 1))

• Cramers V ist so konstruiert, dass diese Maßzahl den Maximal-wert 1 immer, also unabhängig von der Anzahl der Zellen und

von der Stichprobengröße, erreichen kann

• Cramers V ist somit als die beste der drei Maßzahlen anzusehen






Raum: LF 161

• Ausdruck „U/P ((V – 1); (� – 1))“ bedeutet:

o Die um eins erniedrigte Anzahl der Merkmalsausprägungen

der Variablen, welche weniger Ausprägungen hat

o V = Anzahl der Zeilen (rows), � = Anzahl der Spalten (co-

lumns), „min“ steht für das Minimum der beiden durch „;“ ge-

trennten Ausdrücke

• Ist unter den beiden betrachteten Variablen mindestens eine di-

chotome Variable, dann vereinfacht sich die Formel von Cramers

V zu der Formel von Phi, da „U/P ((V – 1); (� – 1)) = 1“

Documents

TEIL 10: BIVARIATE ANALYSE FÜR NOMINALSKA- LIERTE … · Anmerkungen zu Chi-Quadrat: • Chi-Quadrat ist kein standardisiertes Maß, da es mit steigendem n wachsen kann • Es bewegt