View
3
Download
0
Category
Preview:
Citation preview
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 1/33
BivariateKreuztabellenKühnel, Krebs 2001 S. 307-342
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 2/33
Kreuztabellen
x1 ... xj ... xJ
y1
yi
yI
Σ
Σ
n11 n1j n1J n1•
ni•
nI•
... nij ...
... ... nIJ
n •1 n •j n •J n ••
Randverteilung
Randverteilung
Häufigkeit in Zelle y1x1
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 3/33
Vierfeldertabelle
• Beide Variablen dichotom, d.h. es gibt nurdie Ausprägungen x1, x2 und y1, y2
• Nur vier innere Zellen
• Vereinfachung zur Bezeichnung derabsoluten Häufigkeiten:
a = n11 n1• = a+b n•• = a+b+c+db= n12 n2• = c+dc = n21 n•1 = a+cd= n22 n•2 = b+d
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 4/33
Absolute Häufigkeiten inder Vierfeldertabelle
x1
y1
y2
Σ
Σ
a b a+b
c d c+d
a+c b+c
x2
a+b+c+d
Randverteilung
Randverteilung
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 5/33
Absolute HäufigkeitenBeispiel
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 6/33
Relative Häufigkeitenbezogen auf dieGesamtfallzahl
x1
y1
y2
Σ
Σx2
1.0
n11/n ••
n12/n ••
n21/n ••
n22/n ••
n •1/n ••
n •2/n ••
n1•/n ••
n2•/n ••
Randverteilung
Randverteilung
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 7/33
Relative Häufigkeitenbezogen auf dieGesamtfallzahl
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 8/33
Relative Häufigkeitenbezogen auf dieGesamtfallzahl
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 9/33
x1
y1
y2
Σ
Σx2
1.0
n11/n •1
n12/n •2
n21/n •1
n22/n •2
1.0 1.0
n1•/n ••
n2•/n ••
Spaltenbezogene relativeHäufigkeiten
Randvereilungunbedingte Verteilung
bedingte Verteilung
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 10/33
Spaltenbezogene relativeHäufigkeiten
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 11/33
Spaltenbezogene relativeHäufigkeiten
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 12/33
Zeilenbezogene relativeHäufigkeiten
x1
y1
y2
Σ
Σx2
1.0
n11/n1•
n12/n1•
n21/n2•
n22/n2•
n •1/n ••
n •2/n ••
1.0
1.0
Randverteilungunbedingte Verteilung
bedingte Verteilung
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 13/33
Zeilenbezogene relativeHäufigkeiten
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 14/33
Zeilenbezogene relativeHäufigkeiten
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 15/33
Zusammenhang zwischenden beiden Variablen in der
Kreuztabelle
Kein Zusammenhang (Variablen sind unabhängig): Prozentwerte der bedingten Verteilung entsprechenProzentwerte der Randverteilung
Zusammenhang (Variablen sind nicht unabhängig):Prozentwerte der bedingten Verteilung sind ungleichden Prozentwerten der Randverteilung
Symmetrischer Zusammenhang: es gibt keine erklärende und keine abhängige Variable
Asymmetrischer Zusammenhang: es gibt eine erklärende und eine abhängige Variable
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 16/33
Prozentsatzdifferenzen
• Maß für die Stärke des asymmetrischenZusammenhangs
• Berechnung in der Vierfeldertabelle:
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 17/33
Spaltenbezogene relativeHäufigkeiten
dyx%=59.3% - 61.4%= - 2.1
abhängige Variable
erklärende Variable
Kein Zusammenhang zwischen Geschlecht und Einstellung zu Schwangerschaftsabbruch
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 18/33
Prozentsatzdifferenzen• Vorzeichen spielt bei nominalskalierten
Variablen keine Rolle
• dYX% = 0 bei identischenSpaltenprozentwerten :kein Zusammenhang
• dYX% = -100 bzw. dYX% = +100 beiperfektem Zusammenhang
• dYX% > 25 PP starker Zusammenhang
• dYX% < 10 PP schwacher Zusammenhang
• dYX% < 5 PP nicht interpretierbar
• Vorsicht: Bei sehr schiefen Verteilungenkönnen auch Prozentsatzdifferenzen kleinerfünf bedeutsam sein!
FAUSTREGELN
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 19/33
ProzentsatzdifferenzenWerden abhängige u. unabhängige Variable vertauscht:
Prozentsatzdifferenz ändert isch.
AWL: abhängige Variable
EWL: erklärende Variable
dxy%=19.8 - 7.1=12.7 Prozentpunkte (PP)
SPALTENPROZENT
Schwacher Zusammenhang zwischen Einschätzung AWL auf Grund von EWL
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 20/33
ProzentsatzdifferenzenWerden abhängige u. erklärende Variable getauscht:
Prozentsatzdifferenz ändert sich.
ZEILENPROZENT
EWL: abhängige VariableAWL: erklärende Variable
dxy%=72.8-45.1=27.7
Starker Zusammenhang zwischen Einschätzung EWL auf Grund von AWL
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 21/33
Unabhängigkeit zweierVariablen
• Statistische Unabhängigkeit liegt vor wenn,Prozentsatzdifferenz gleich 0 ist
• alternativ: X und Y (beide dichotom) in derPopulation sind unabhängig, wenn dierelativen Häufigkeiten der bivariatenVerteilung gleich dem Produkt der relativenHäufigkeiten der univariaten Verteilung sind:
bedingte Verteilung=unbedingte Verteilung
• Unabhängigkeit kann dann mittelsHypothesenprüfung nachgewiesen werden
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 22/33
Unabhängigkeit zweierVariablen
• Die bei statistischer Unabhängigkeiterwarteten absoluten Häufigkeiten eij ergebensich aus dem Produkt der relativenHäufigkeiten der entsprechendenRandverteilungen:
• Die erwarteten absoluten Häufigkeitenstellen somit Schätzungen vonDurchschnittswerten dar
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 23/33
Unabhängigkeit zweierVariablen
Erwartete Häufigkeiten bei Unabhängigkeit
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 24/33
Pearsons Chiquadrat
• Teststatistik zum Erfassen der Abweichungzwischen erwarteten und beobachtetenHäufigkeiten
• Ermittlung: Quadrate der Differenzenzwischen erwarteten und beobachtetenHäufigkeiten werden durch die jeweiligenertwarteten Häufigkeiten dividiert und überalle vier Tabellenzellen aufsummiert:
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 25/33
Pearsons Chiquadrat
• alternativ (in Vierfeldertabellen):
( )726.123
1786*1703*3025*464
1365*1261660*3383489
22 =−=χ
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 26/33
Pearsons ChiquadratHypothesentest
• bei Unabhängikeit ist die Teststatistik χ²asymptotisch chiquadratverteilt mit df=1Freiheitsgrad
• H0: Zeilen- und Spaltenvariablen sindunabhängig
• H1: Zeilen- und Spaltenvariablen sindabhängig
• Nachweis mittels einseitigem Hypothesentest• Nullhypothese wird abgelehnt, wenn χ²
größer ist als das 1-α-Quantil derChiquadratverteilung mit df Freiheitsgraden
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 27/33
Pearsons ChiquadratHypothesentest
• Beispiel: χ² -Tabelle• Quantilwert des 95% Quantils einer χ²-
Verteilung mit df=1 Freiheitsgrad ist 3.841
In einer χ² Verteilung haben 95% der Realisationen einen Wert kleiner gleich 3.841
Da die Teststatistik χ² =123.726 größer ist als der kritische Wert 3.84 kann Nullhypothese
abgelehnt werden
Es besteht ein Zusammenhang zwischen EWL und AWL
Häufigkeiten müssen in allen Tabellenzellen mindestens 5 sein!!
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 28/33
EigenschaftenPearsons Chiquadrat
Maximal höchster Wert für Teststatistik χ² ist derStichprobenumfang n.
Da χ² mit der Fallzahl variiert ist es unbrauchbar für ein Zusammenhangsmaß
Gibt an ob ein Zusammenhang besteht, aber nicht, wie stark der Zusammenhang ist!!
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 29/33
SymmetrischeZusammenhangsmaße
• symmetrischer Zusammenhang, wenn nichtzwischen erklärender und abhängigerVariable unterschieden wird
• Phi Φ• Yules´ Q
• basieren beide auf χ² Teststatistik
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 23/33
SymmetrischesZusammenhangsmaß Phi
• berücksichtigt die Fallzahlabhängigkeit vonχ²:
• alternative Berechnung in derVierfeldertabelle:
2Φ=Φ
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 31/33
SymmetrischesZusammenhangsmaß Phi
• mißt den Zusammenhang zwischen zweiVariablen der Vierfeldertabelle
• kein Zusammenhang Φ = 0
• perfekter Zusammenhang Φ = 1 oder Φ = -1
• Ab Ordinalskalenniveau und beientsprechender Anordnung der Variablen(höchste bzw geringste Werte in der erstenZeile ) kann das Vorzeichen folgendermaßeninterpretiert werden:
- positives Vorzeichen: positive Beziehung, bei höherem Spaltenwert istmit höherem Zeilenwert zu rechnen undumgekehrt
- negatives Vorzeichen: negative Beziehung, bei höherem Spaltenwert istmit geringerem Zeilenwert zu rechnenund umgekehrt
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 32/33
Beispiel AWL & EWL
( )726.123
1786*1703*3025*464
1365*1261660*3383489
22 =−=χ
H0: AWL & EWL unabhängig ->ablehnen
188.01786*1703*3025*464
1365*1261660*338 =−=Φ
Bessere Einschätzung der EWL führt zu besserer Einschätzung der AWL und umgekhrt
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 33/33
Yules´ Q
• "robustes" Zusammenhangsmaß, istunempfindlich gegenüber Änderungen in denRandverteilungen der Kreuztabelle
• Berechnung:
• Q ist im allgemeinen größer als Φ, dieVorzeichen stimmt jedoch überein
• kein Zusammenhang Q = 0
• perfekter Zusammenhang Q = 1 oder Q = -1
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 1/15
Unabhängigkeit inMehrfeldertabellen
bei Nominal skaliertenVariablen
Kühnel & Krebs 2001 S. 343-381
Symmetrischer Zusammenhang
1. Standardisierte Residuen2. χ2 Test3. Cramérs V
Asymmetrischer Zusammenhang
1. PRE Maße2. Relative Devianzreduktion3. Likelihood Ratio Test
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 2/15
SymmetrischerZusammenhang
Unabhängigkeit inMehrfeldertabellen
• Untersuchung mit Pearsons Chiquadrattest
• Unabhängigkeit liegt vor, wenn diegemeinsame Verteilung der relativenHäufigkeiten von X und Y in denTabellenzellen mit dem Produkt der relativenHäufigkeiten der Randverteilungen von Xund Y übereinstimmt
• entsprechendes Hypothesenpaar:
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 3/15
Unabhängigkeit inMehrfeldertabellen
• Ermittlung der erwarteten absolutenHäufigkeiten für alle inneren Zellen analogzur Vierfeldertabelle:
• ebenso die Berechnung der Teststatistik χ²:
• Damit ergibt sich für die Beispieltabelle:
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 4/15
Unabhängigkeit inMehrfeldertabellen
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 5/15
Standardisierte Residuen
• zur Beurteilung die Abweichung zwischenerwarteten und beobachteten Häufigkeiten
• Berechnung:
• Vorzeicheninterpretation:+ beobachter Wert liegt über erwartetem- beobachter Wert liegt unter erwartetem
• standardisierte Residuen sind asymptotischnormalverteilt, Werte über +2 oder unter -2weisen auf überzufällige Abweichungen hin(Irrtumswahrschienlichkeit α = 5 %)
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 6/15
χ² in Mehrfeldertabellen
• bei zutreffender Nullhypothese ist χ²asymptotisch chiquadratverteilt
• Berechnung der Freiheitsgrade:
• Im Beispiel: df = (5-1) · (3-1) = 8• Ablesen des (1-α)-Quantils für df=8
χ²8,0.95=15,51
• berechneter Wert im Beispiel χ²= 252,4• 252,4 > 15,51 Nullhypothese ist
abzulehnen• Fazit: In der Population besteht wahr-
scheinlich ein Zusammenhang zwischenKonfession und Wahlabsicht
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 7/15
Cramérs V
• chiquadratbasiertes, symmetrischesZusammenhangsmaß für nominalskalierteVariablen
• Verallgemeinerung von Φ²• Berechnung:
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 8/15
Cramérs V• Vorzeichen kann ignoriert werden• Werte von V oder χ² ändern sich bei
Vertauschen von Zeilen oder Spalten nicht• Für die Beispieltabelle Konfession/Wahl-
absicht ergibt sich damit:χ²max= 2168 · 2
• Interpretation: Wert für V zwischen 0,10 und0,20 wird im Allgemeinen als geringbezeichnet Im Beispiel besteht einmäßiger Zusammenhang zwischenWahlabsicht und Konfession
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 9/15
AsymmetrischerZusammenhang
PRE-Maße• PRE = proportional reduction errors
• proportionale Fehlerreduktion• geben das Ausmaß der Verbesserung der
Vorhersage von Y an, das beiBerücksichtigung von X erreicht werdenkann
• berechnet wird der Anteil, um den sich derFehler dabei verringert:
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 10/15
Relative DevianzreduktionUnsicherheitskoeffizient, Likelihood-Ratio-Index,
Coefficient of uncertainty
• Devianz: Streuungsmaß für nominalskalierteVariablen
• Maß für Vorhersagefehler• Berechnung für Variable Y:
• Devianz ist Null bei perfekten Vorhersagen• Berechnung für Variable X erfolgt über die
Verteilung von X und Y:
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 11/15
Relative Devianzreduktion
• Devianz läßt sich als Fehlermaß nutzenKonstruktion das PRE-Maßes P²YX
• gibt die relative Devianzreduktion von Y beiKenntnis von X an:
• auch Likelihood-Ratio-Index oderUnsicherheitskoeffizient
• ist null bei Unabhängigkeit• Interpretation: P²YX < 5% gilt als gering
P²YX > 20% gilt als stark
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 12/15
Relative Devianzreduktion
• im Beispiel:
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 13/15
Relative Devianzreduktion
• Veringerung der Devianz der Wahlabsichtum 3,8% bei Kenntnis der Konfession
• geringer Zusammenhang
• beim Vertauschen der Variablen ergibtsich ein anderer Wert: P²YX = 0,05
• P²YX ist ein asymmetrisches Zusammen-hangsmaß für nominalskalierte Variablen
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 14/15
Likelihood-Ratio-Test L²
• alternative, aber äquivalente Testmethode zuPearsons Chiquadrattest
• prüft, ob die relative Devianzreduktionsignifikant von null verschieden ist:
Hypothesentest
H0: DY=DYX (DY-DYX=0)H1: DY<>DYX (DY-DYX<>0)
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 15/15
Likelihood-Ratio-Test L²
• für das Beispiel Wahlabsicht &konfessionelle Zugehörigkeitergibt sich L² = 237,67
H0: DY=DYX
H1: DY<>DYX
• Ablesen des 95% Quantils bei df=8 ergibt15,51 (Chiquadratverteilung mit α = 5 %)
• 237,67 > 15,51, also ist die Nullhypotheseabzulehnen
Wahlabsicht hängt signifikant von derkonfessionellen Zugehörigkeit ab
Recommended