Jacob, Datenanalyse 1 - Uni Trier: Willkommen · - univariat - bivariat - multivariat . Jacob, Datenanalyse 6 Datenmatrix Variable Fälle Variable: Kopfseite

Jacob, Datenanalyse 1

Dr. habil. Rüdiger JacobMethoden und Techniken der empirischen Sozialforschung

Vorlesung mit Diskussion

9. Datenaufbereitung und Datenanalyse

Datenaufbereitung und Codierung, Datenmatrix, Datenfehler und Datenbereinigung, Korrelation und Kausalität, Individualdaten und Aggregatdaten univariate und bivariate Datenanalyse, Signifikanz und Assoziation, Drittfaktorkontrolle


Datenaufbereitung und Datenanalyse

Individual- oder Mikrodaten: Daten von einzelnen Merkmalsträgern.

Aggregat- oder Makrodaten:Daten von Kollektiven. Alle Arten von Raten oder Anteilswerten: • Eheschließungs- und Scheidungsraten• Arbeitslosenquote• Lungenkrebsmorbiditätsraten in einer Stadt• Anteil der Raucher in einer Stadt• Jahres-Pro-Kopf-Menge des Verbrauchs von Butter und anderen

tierischen Fetten • Mortalitätsraten Herzinfarkt

Bei Aggregatdaten: Ökologischer Fehlschluss bei Korrelationen

Ökologische Korrelationen: Hinweise auf mögliche Zusammenhänge Zur Formulierung von Hypothesen gut geeignet, nicht zu deren Überprüfung!


Individualdaten und Aggregatdaten:Ernährung und Herzinfarkt. Vergleich zwischen Deutschland und Japan

(1988/OECD-health-Data)

8,30,78,4Jährlicher Verbrauch von Butter in Kg

136,44533Täglicher Verbrauch von Getreideprotein in gr

74,826473537Täglicher Kalorienkonsum

20,5109,0531,0Herzinfarktmortalität Männer

27,629,0105,0Herzinfarktmortalität Frauen

Rel.Rate Japan (D =100%)

JapanDeutsch-land


Variable:Merkmale, die verschiedene Ausprägungen haben können.Dichotome Variable: 2 AusprägungenTrichotome Variable: 3 AusprägungenPolytome Variable: mehr als 2 Ausprägungen

Konstante: Merkmale mit nur einer Ausprägung.

Ob Merkmale Konstante oder Variable darstellen, hängt wesentlich von der Forschungsfrage und der Struktur der untersuchten Population ab


Phasen der Datenauswertung Kodierung und Dateneingabe

Fehlerkontrolle, Fehlerbereinigung, Ausschluss fehlerhafter und fehlender Angaben ("missing values")

Umformung von Variablen (Rekodierung), Neubildung von Variablen, Indizes und Skalen (Variablentransformation)

Statistische Analyse von Verteilungen und Zusammenhängen - univariat - bivariat - multivariat


Datenmatrix

Variable

Fälle

Variable: Kopfseite Spalten Merkmalsträger, Fälle: Stirnseite Zeilen


ID V1 V2 V3 V4 V5 V6 V7 V8 V9 V10

1 0 1 0 1 1 3 1 9 9 9

2 0 1 0 1 0 2 1 3 1 5

3 0 0 0 0 1 9 9 3 2 2

4 1 1 0 1 0 1 3 2 2 1

: : : : : : : : : : :

247 1 1 0 1 0 1 9 2 2 1


Wichtig:Eine Datenmatrix ist nicht mit einer Tabelle zu verwechseln.

Tabellen zeigen die Verteilung eines Merkmals (Häufigkeitstabelle) oder die gemeinsame Verteilung von zwei Merkmalen (Kreuztabelle). Eine Datenmatrix enthält dagegen alle erhobenen Merkmale einer Untersuchung.

Erstellung einer Datenmatrix:VariablennamenKodierungPlatzhalter für Filter und fehlende WerteFallnummern


7. Wie zufrieden sind Sie mit Ihrer Gesundheit? V7

n=507

A Sehr zufrieden 26,8 1 B Zufrieden 53,5 2 C Weniger zufrieden 13,6 3 D Unzufrieden 6,1 4 E Weiß nicht (Interviewer: nicht vorlesen) / 8

k.A. / 9 8. Und wie zufrieden sind Sie insgesamt mit der medizinischen Betreuung durch Ihre Ärzte? V8

n=507

A Sehr zufrieden 29,6 1 B Zufrieden 53,1 2 C Weniger zufrieden 13,2 3 D Unzufrieden 3,2 4 E Weiß nicht (Interviewer: nicht vorlesen) 1,0 8 k. A. / 9 9. An wen wenden Sie sich zunächst, wenn Sie eine leichtere Erkrankung feststellen? Ja Nein A an Partner oder Ehepartner (n=507) 58,6 41,4 1, 0 V9.AB an Eltern / Verwandte (n=507) 32,3 67,7 1, 0 V9.B

C an Freunde (n=507) 29,2 70,8 1, 0 V9.CD an Ärzte (n=507) 60,7 39,3 1, 0 V9.DE an Nachbarn (n=506) 7,3 92,7 1, 0 V9.E F an Arbeitskollegen (n=506) 15,2 84,8 1, 0 V9.F G an Krankenhaus (n=507) 10,3 89,7 1, 0 V9.G

Frage (hier = Variable)

Variablen-namerelative

Häufigkeiten

Fall-zahl

Variable

Codezahlen

Variablen-namen

Frage


Univariate Analyse: Verteilung eines Merkmals

Deskriptive Maßzahlen:

1. Maße der zentralen Tendenz

• Mean: arithmetisches Mittel

• Median: Zentralwert

• Mode, Modus, Modalwert: am häufigsten vorkommender Wert

•2. Streuungsmaße

• Range, Spannweite: Differenz zwischen dem kleinsten und dem größten Wert

• Varianz: quadrierte, summierte Abweichungen der individuellen Merkmalsausprägungen vom Mittelwert, dividiert durch die Gesamtzahl der Fälle (dimensionsloser Wert)

• Standardabweichung: Wurzel aus der Varianz (gleiche Dimension wie die Ausgangsdaten)



Rechtsschiefe/linkssteile Verteilung


Bei Normalverteilungen sind Modus, Median und arithmetisches Mittel identisch.

Für normalverteilte Merkmale gilt:

rund 2/3 aller Fälle (genau 68,26%) liegen in dem Intervall mit den Grenzen arith. Mittel + Standardabweichung und arith. Mittel - Standardabweichung.

95,44% aller Fälle liegen in dem Intervall mit den Grenzenarith. Mittel + 2 Standardabweichungen und arith. Mittel - 2 Standardabweichungen

99,74% aller Fälle liegen in dem Intervall mit den Grenzenarith. Mittel + 3 Standardabweichungen und arith. Mittel - 3 Standardabweichungen

Bei schiefen Verteilungen gilt:

Rechtsschiefe/linkssteile Verteilungen: Modus<Median<arith. Mittel

Linksschiefe/rechtssteile Verteilungen: Modus>Median>arith. Mittel



Gewicht

125,0120,0

115,0110,0

105,0100,0

95,090,0

85,080,0

75,070,0

65,060,0

55,050,0

45,040,0

40

30

20

10

0

Std.abw. = 14,29Mittel = 79,8N = 195,00


Größe

190,0187,5

185,0182,5

180,0177,5

175,0172,5

170,0167,5

165,0162,5

160,0157,5

155,0152,5

150,0

30

20

10

0

Std.abw. = 8,76 Mittel = 169,3N = 193,00


Übergewicht: Body-Mass-Index (BMI). Körpergewicht in KG geteilt durch das Quadrat der Körpergröße in m

Gewicht(Kg)BMI = -----------------------

Körpergröße(m)2

75KgBMI = --------------- = 25,9

1,70m2

Wertebereiche:

unter 18: deutliches Untergewicht18-20: Untergewicht20-25: Normalgewicht25-30: Übergewichtüber 30: Adipositas


BMI

Valid CumValue Label Value Frequency Percent Percent Percent

deutl. Unterg. 1 2 1,0 1,1 1,1Normalg. 3 48 24,5 27,6 28,7Überg. 4 69 35,2 39,7 68,4Adipositas 5 55 28,1 31,6 100,0 , 22 11,2 Missing ------- ------- ------- Total 196 100,0 100,0

Valid cases 174 Missing cases 22

Mean 27,797 Std dev 4,214Median 27,641 Variance 17,761Mode 24,221 Minimum 14,005

Maximum 41,016Range 27,011


BMI-Werte in der allgemeinen Bevölkerung

12-18 0,9

18,1-20 5,6

20,1-25 50,2

25,1-30 36,9

30,1 oder mehr 6,4

N 2459

Quelle: Sozialwissenschaften-BUS 1996


Dichotomisierung der Variablen:

bis 25: kein Übergewicht

über 25: Übergewicht

Übergewicht (Angaben in Prozent)

kein Übergewicht 56,7

Übergewicht 43,3

N 2459

Quelle: Sozialwissenschaften-BUS 1996


Punkt- oder Intervallschätzung

Wie viel Prozent der Bevölkerung sind übergewichtig?Wie genau schätzt der Anteilswert der Stichprobe den wahren Wert der Population?

Voraussetzung zur Beantwortung der Frage: Zufallsstichprobe

Kennwerte (Mittelwerte, Streuung, Anteilswerte) von Zufallsstichproben sind (approximativ) normalverteilt, der (unbekannte) Populationsparameter ist der Erwartungswert.

Stichprobenergebnisse sind Intervallschätzer!


Konfidenzintervall

95,44% der Stichprobenkennwerte liegen in einem Bereich „Populationsparameter (z.B. µ) +/- 2 Standardabweichungen”.

Populationsparameter, die mit einer Wahrscheinlichkeit von 95,44% einenspezifischen Stichprobenkennwert hervorbringen, liegen in dem Intervall

“Stichprobenkennwert +/- 2 Standardabweichungen”.

Die Wahrscheinlichkeit, dass dieser Kennwert zu einer Population gehört, derenParameter ausserhalb dieses Intervalls liegt, beträgt höchstens 4,56%.

Das Konfidenzintervall kennzeichnet den Bereich eines Merkmals, in dem sichein bestimmter Prozentsatz aller möglichen Populationsparameter befindet, die den empirisch ermittelten Stichprobenkennwert erzeugt haben können

Für solche Konfindenzintervalle übliche Bereiche:95%99%


Mittelwert=0

68,26%

95,44%

1,96-1,96

95%

2,58


KonfidenzintervallDas 95%-Konfidenzintervall für den Anteilswert berechnet sich nach der Formel:

0,43-1,96*0,0099799=0,43-0,01956=0,410Untergrenze: 41%

0,43+1,96*0,0099799=0,43+0,01956=0,449Obergrenze:44,9%

Die Stichprobe entstammt mit 95% Wahrscheinlichkeit einer Population mit einem Anteil übergewichtiger Personen, der zwischen 41% und rund 45% liegt.

nppp

nppp )1.(.96,1)1.(.96,1 −

+≤≤−

− θ


Bivariate Analyse:

gemeinsame Analyse von zwei MerkmalenStandardanwendung: Kreuztabellen/Korrelationsanalyse Ziel: Prüfung kausaler Hypothesen

Beispiel:Geschlecht und Berufstätigkeit


Kreuztabellen/Kontingenztabellen

1. Ist ein Zusammenhang zwischen zwei Merkmalen erkennbar?

2. Ist ein solcher Zusammenhang nur zufällig aufgetreten oder bestehen signifikante Unterschiede zwischen Merkmalsgruppen, lässt sich das Ergebnis verallgemeinern? Sicherheit von Zusammenhängen, Signifikanz, Generalisierbarkeit

3. Lässt sich die Stärke des Zusammenhangs quantifizieren Korrelation, Assoziation

4. Gibt es weitere Variablen, durch die das Ergebnis einer zweidimensionalen Tabelle bestätigt oder geändert wird?

Drittfaktorenkontrolle



ungeordnete Population


Gruppierung nach Geschlecht und Berufstätigkeit


nicht berufstätige Männer

berufstätige Männer berufstätige Frauen

nicht berufstätige Frauen

Männer Frauen


Tabelle mit Fallzahlen

Tabelle mit Reihenprozent-werten

Tabelle mit Spaltenprozent-werten


Tabellenanalyse:

Gruppenvergleiche.Die Zahl der Gruppen wird durch die Menge der Merkmalsausprägungen des unabhängigen Merkmals definiert.

einfachster Fall:Vierfeldertabelle

Zwei allgemeine Konventionen zur Gestaltung von Tabellen:

1. Unabhängige Variablen stehen im Kopf der Tabellen, abhängige an der Stirnseite.

2. Prozentuiert wird spaltenweise, interpretiert wird zeilenweise.

Interpretation: Vergleich der Anteilswerte


K O P F: x

S

T

I

R

N

y

zeilenweise interpretieren

spaltenweise prozentuieren

Anzugeben sind:

• Titel

• Prozentuierungsbasen (= die absoluten Häufigkeiten

bzw. Fallzahlen in den jeweiligen Kategorien des

unabhängigen Merkmals)

• statistische Maßzahlen

• gegebenenfalls eine Quelle


Impfung gegen Grippe nach Altersklassen (Angaben in Prozent)

Grippe-impfung

18- u. 30 30- u. 40 40 – u. 50 50 – u. 60 60 oder älter

ja 12,5 9,0 18,4 19,0 39,8

nein 81,3 84,4 75,7 66,7 50,0

weiss nicht 6,3 6,6 5,8 14,3 10,2

N 96 122 103 63 118

N = 502. Sig. = .000, Cramer´s V = .224 Quelle: Regionaler Gesundheitssurvey Trier, 2000

Titel (über der Tabelle) unabhängiges Merkmal X

abhängiges Merkmal Y Fallzahlen der Merkmals-ausprägungenvon X

Stichprobengröße,statistische Maßzahlen

Spaltenprozent

Interpretation: Nur knapp 13% der jüngsten, aber rund 40% der ältesten Befragten haben sich gegen Grippe impfen lassen


Welche Prozentwerte werden hier verglichen?


Geschlecht (x) RV y Unfalltod (y) Männer Frauen Ja 26% 74% 8758 Nein ? ? ? RV x ? ? ?

Relevant ist die Frage nach den geschlechtsspezifischen bedingten Unfallrisiken abhängig von den jeweiligen Expositionen (=Teilnahme am Straßenverkehr). Diese Frage kann mit den vorhandenen Daten nicht beantwortet werden.

Indikatoren für die Exposition?


Gewicht nach Geschlecht

Männer Frauen N

Kein

Übergewicht

46,5% 65,9% 1393

Übergewicht 53,5% 34,1% 1065

N 1168 1290 2458

West Ost N

Kein

Übergewicht

56,8% 56,3% 1394

Übergewicht 43,2% 43,7% 1064

N 1964 494 2458

Gewicht nach regionaler Herkunft

Signifikanz: Ist das Gewicht abhängig von Geschlecht oder regionaler Herkunft?


Geprüft wird, ob zwei Merkmale statistisch voneinander unabhängig sind (H0, Nullhypo-these). In diesem Fall sind bei gegebenen Randverteilungen in den Zellen einer Zeile gleiche relative Häufigkeiten zu erwarten.

Empirische Verteilungen werden verglichen mit einer Indifferenztabelle

Tabelle mit Zellenbesetzungen, die sich bei gegebenen Randverteilungen ergeben, wenn die beiden Merkmale tatsächlich statistisch voneinander unabhängig sind.


Diese Erwartungswerte werden nach der Formel „Zeilensumme x Spaltensumme durch Gesamtsumme“ berechnet.

Für die erste Zelle der Tabelle ergibt sich damit:

fe = 1168*1393/2458 = 661,9

Für die letzte Zelle erhalten wir:

fe = 1260*1065/2458 = 558,9


Gewicht nach Geschlecht, 1. Wert: N,

2. Wert: Erwartungswert

Männer Frauen N

Kein

Übergewicht

543

661,9

850

731,1

1393

Übergewicht 625

506,1

440

558,9

1065

N 1168 1290 2458

Chi-Square: 93,97133, Sig. = .00000

Gewicht nach regionaler Herkunft, 1. Wert: N, 2. Wert:

Erwartungswert

West Ost N

Kein

Übergewicht

1116

1113,8

278

280,2

1394

Übergewicht 848

850,2

216

213,8

1064

N 1964 494 2458

Chi-Square: 0,04820, Sig. = .82623

Zeilensummen

SpaltensummenGesamtsumme


Die relativen Häufigkeiten sind bei diesen Erwartungswerten in den Zellen einer Zeile alle gleich:

661,9 = 56,67% von 1168731,1 = 56,67% von 1290506,1 = 43,33% von 1168558,9 = 43,33% von 1290

Bei statistischer Unabhängigkeit:Erwartete und beobachtete Werte weichen nicht oder kaum voneinander ab.Prüfgröße

Chi-Quadrat-Wert

k: Zahl der Zellenfbk: Beobachtungswertefek: Erwartungswerte

∑=

−=

n

k ek

ekbk

fff

1

2)(2χ


Männer Frauen N

Kein

Übergewicht

543 (fb)

661,9 (fe )

850

731,1

1393

Übergewicht 625

506,1

440

558,9

1065

N 1168 1290 2458

Zelle fb-fe (fb-fe)2 (fb-fe)2/fe

1,1 543-661,9=-118,9 14137,21 21,35

1,2 850-731,1= 118,9 14137,21 19,33

2,1 625-506,1= 118,9 14137,21 27,93

2,2 440-558,9=-118,9 14137,21 25,29

Summe 93,9


Geprüft wird die Wahrscheinlichkeit, dass die Nullhypothese zutrifft.

Ausgewiesen wird diese Wahrscheinlichkeit.

p/α=.05 signifikantes Ergebnis (die Wahrscheinlichkeit für die H0 beträgt nur 5%)p/α=.01 hochsignifikantes Ergebnis (die Wahrscheinlichkeit für die H0 beträgt nur 1%)

.00000 bedeutet nicht, dass die Wahrscheinlichkeit für die Nullhypothese exakt Null ist. Dieses Ergebnis ist mit statistischen Prüfverfahren nicht zu erreichen, vielmehr kommt irgendwann eine von Null verschiedene Zahl.


Basis für Signifikanztests: Chi-Quadrat-Verteilung(en)

Frage:Mit welcher Wahrscheinlichkeit ist ein errechneter Chi-Quadrat-Wert bei einer theoretischen Chi-Quadrat-Verteilung zu erwarten. Wie wahrscheinlich ist ein bestimmter Wert bei statistischer Unabhängigkeit von zwei Merkmalen?

Chi-Quadrat-Verteilungen bestehen aus der Summe quadrierter Merkmalsausprägungen voneinander unabhängiger normalverteilter z-transformierter Zufallsvariablen.

Zufallsvariable: Merkmal, dessen Ausprägungen (=Elementar-ereignisse genannt werden), ausschließlich vom Zufall abhängen.

Bsp.:Ein Würfelwurf ist eine Zufallsvariable mit 6 möglichen Elementar-ereignissen, die alle die Wahrscheinlichkeit 1/6 haben.


Eine neue Zufallsvariable auf der Basis dieser Variablen ist die Kombination der Augenzahlen von je zwei Würfelwürfen.

Elementarereignisse sind dann nicht mehr die Augenzahlen 1 bis 6, sondern Kombinationen dieser beiden Wertereihen, also (1 1)(1 2)(2 1) usw.

Die neue Zufallsvariable ist das Ergebnis der Kombination (additiv oder multiplikativ) der Elementarereignisse zweier voneinander unab-hängiger Zufallsvariablen

46


Diskrete Zufallsvariablen: Elementarereignisse können abgezählt werden.

Stetige Zufallsvariablen: Elementarereignisse können innerhalb eines bestimmten Intervalls jede beliebige Größe annehmen.

Bestimmend für die Form der Verteilung ist die Wahrscheinlichkeitsfunktion.

Bei diskreten Zufallsvariablen gibt diese Funktion an, mit welcher Wahrscheinlichkeit ein bestimmtes Elementarereignis zu erwarten ist, wenn das Zufallsexperiment (als z. B. der Wurf eines Würfels) unendlich oft wiederholt wird (in der Praxis bedeutet dies: sehrhäufige Wiederholung untere Grenze: 100).

Bei stetigen Zufallsvariablen wird die Wahrscheinlichkeitsdichte für das Auftreten von Elementarereignisse bestimmt, die innerhalb eines definierten Intervalls liegen.


Die Wahrscheinlichkeitsdichtefunktion hat stets Kurvenform. Die Gesamtwahrscheinlichkeit für eine stetige Zufallsvariable wird gleich Eins gesetzt und entspricht der Gesamtfläche unter der Kurve.

Die Wahrscheinlichkeitsdichte für ein bestimmtes Intervall mit den Grenzen a und b entspricht der durch diese Punkte markierten und begrenzten Fläche der darüber liegenden Kurve.

Je enger der Abstand von a und b ist und/oder je geringer der Abstand zwischen Kurve und X-Achse ist, umso kleiner wird die markierte Fläche und damit auch die Wahrscheinlichkeit des Auftretens von Elementarereignissen innerhalb der entsprechenden Intervallgrenzen.

Chi2-Verteilungen können aus einer, zwei drei, vier oder 10 oder allgemein n Zufallsvariablen gebildet werden.

Freiheitsgrade der Verteilung (DF= Degrees of Freedom).


Werte >= 4 haben bei den drei Verteilungen unterschiedliche Wahrscheinlichkeiten


FreiheitsgradeRestriktion empirischer Verteilungen auch bei statistischer Unab-hängigkeit der Merkmale: Fallzahlen und Merkmalsausprägungen der Merkmale

Gewicht nach regionaler Herkunft, 1. Wert: N, 2. Wert: Erwartungswert

24584941964N

1064216213,8

848850,2

Übergewicht

1394278280,2

11161113,8

Kein Übergewicht

NOstWest

Bei gegebenen Randverteilungen sind die Erwartungswerte Dezimalzahlen. Empirische Werte sind dagegen immer ganzzahlig.


Freiheitsgrade

Frage: Wie viele Zellenbesetzungen können bei gegebenen Randverteilungen frei besetzt werden, bevor alle weiteren dadurch Zellbesetzungen festgelegt sind.

DF: (Reihen minus 1) x (Spalten minus 1)Bei je zwei Reihen und Spalten beträgt DF = (2-1) x (2-1)=1.


Gewicht nach Geschlecht; Freiheitsgrade

Männer Frauen N

Kein

Übergewicht

160 1233 1393

Übergewicht 1008 57 1065

N 1168 1290 2458


Zu beachten ist:

Berechnet werden Abweichungen der beobachteten von den erwarteten Häufigkeiten. Chi² ist fallzahlabhängig.

Mit wachsender Stichprobengröße wächst die Wahr-scheinlichkeit, dass Zusammenhänge als signifikant aus-gewiesen werden.

Die Stichprobengröße bedingt die Zellbesetzungen. Um Abweichungen empirischer von theoretischen Werten berechnen zu können, müssen Spielräume, Variations-breiten vorliegen - also Mindestzellenbesetzungen - mög-lich sein, wobei hier eine Mindestbesetzung von fünf gefordert wird.

54

BMI nach Geschlecht

Männer Frauen N

12-18 0,7 0,9 20

18,1-20 2,0 9,0 139

20,1-25 43,9 56,0 1234

25,1-30 46,7 28,1 907

30,1 oder

mehr

6,8 6,0 157

N 1167 1290 2457

Chi-Square: 129,85758, Sig. = .00000

BMI nach Geschlecht

Männer Frauen N

12-18 2,2 5,7 4

18,1-20 4,3 11,3 8

20,1-25 45,7 47,2 46

25,1-30 41,3 26,4 33

30,1 oder

mehr

6,5 9,4 8

N 46 53 99

Chi-Square: 4,13111, Sig. = .38855

Tabellen mit gleichen Proportionen, aber unterschiedlichen Signifikanz-niveaus


Korrelation und KausalitätKorrelation: gemeinsames Auftreten und Variieren

zweier VariablenKausalität: Ursache-Wirkungs-Beziehung:

x verursacht y!

Eine statistisch nachweisbare Korrelation von x und y kann bedeuten:1. x verursacht y 2. y verursacht x3. x und y werden von einer dritten Variable

verursacht1. x und y beeinflussen sich wechselseitig


Beispiel: x: Umweltbewusstsein, Indikator: Skala mit

entsprechenden Itemsy: Umweltfreundliches Verhalten, Indikatoren:

kein Auto, keine Flugreisen, Benutzung von Bus und Rad

hohe Korrelation: Fast alle Personen im Sample, die sich durch ausgeprägtes Umweltbewusstsein auszeichnen, haben kein Auto, fliegen nicht und benutzen den Bus.Interpretation? Typ 1, 2, 3 oder 4?


Kausalität ist statistisch nicht nachweisbar.Messbar ist nur eine Korrelation von zwei Variablen.Kausalzusammenhänge: hypothetische Konstrukte!

Voraussetzungen für den Schluss auf eine kausale Beziehung:• X und Y korrelieren• X geht Y zeitlich voran• X und Y wurden exakt gemessen

Korrelation ist notwendige, aber nicht hinreichende Voraussetzung für Kausalität, Kausalität lässt sich korrelationsstatistisch nur widerlegen, aber nicht beweisen.


Korrelation

Korrelationskoeffizienten sind Maßzahlen für mindestens bivariate Verteilungen und informieren über die Stärke und (ab ordinalem Messniveau) die Richtung eines Zusammenhangs.

Anforderungen

1. Koeffizienten werden standardisiert auf den Wertebereich zwischen 0 und 1, dabei zeigt der Wert 1 eine perfekte, der Wert 0 eine Nichtbeziehung an.

Ab Ordinalskalenniveau lassen sich auch Koeffizienten mit Vorzeichen berechnen, wobei ein Wert von -1 eine perfekte negative (inverse) Beziehung darstellt (hohe X-Werte korrelieren mit niedrigen Y-Werten und umgekehrt).

2. Die Koeffizienten sollen invariant sein gegenüber unterschiedlichen absoluten Häufigkeiten der Tabelle und nur Unterschiede in den relativen Häufigkeiten zur Vergleichsgrundlage verwenden.


Gewicht in Abhängigkeit von Körpergröße

Größe in cm

210200190180170160150140130

Gew

icht

in k

g160

140

120

100

80

60

40

20

Niedrigen x-Werten entsprechen niedrige y-Werte, hohen x-Werten hohe y-Werte: Kleinere Personen sind leichter als größere.

Frage: Was ist ein niedriger x- oder y-Wert?


Pearson´s r:Maß für eine lineare Beziehung zwischen zwei mindestens intervallskalierten Variablen.

Mittelwertbasierter Koeffizient:

Mittelwert als Referenzwert für die Einstufung von X- bzw. Y-Werten als hoch oder niedrig

Die Merkmalsausprägungen der einzelnen Merkmale werden in Beziehung gesetzt zu ihren jeweiligen Mittelwerten, man berechnet die Abweichungen, indem der Mittelwert von der jeweiligen Merkmalsausprägung subtrahiert wird. Handelt es sich um eine relativ hohe Position, ist diese Differenz positiv, ansonsten negativ.


Zur Berechnung eines Zusammenhangs werden nun diese Differenzen für X und für Y für jede UE berechnet, multipliziert und diese Produkte addiert. Man nennt das auch die Summe der Abweichungsprodukte (SAP) oder die Summe der Kreuzprodukte.

Dividiert durch N erhält man die Kovarianz

Standardisierung auf Werte zwischen –1 und 1:

Kovarianz wird dividiert durch das Produkt der Standard-abweichungen von X und Y r


Pearson´s r

63

Katholikenanteil

Stimmanteil der CDU


X

Y



34,89/37,68

91,40/52,68

54,99

43,96






Kurvilineare Beziehung


Durchschnittlicher Alkoholkonsum pro Woche (Wein, Sekt, Bier, Viez) in Liter nach Schulbildung (Schulzeit in Jahren)

2,3

1,8

2,3

0

0,5

1

1,5

2

2,5

bis 9 Jahre 10 Jahre 12-13 Jahre

r = .04


Ordinales Messniveau: Maßzahlen auf der Basis des Paarvergleichs

Bei ordinalen Daten kann kein Mittelwert berech-net werden. Allerdings lassen sich ordinale Daten in eine Rangfolge bringen. Bei ordinalen Koeffi-zienten werden Wertepaare von verschiedenen Untersuchungseinheiten geordnet.

Zusammenhänge werden z. B. daraufhin unter-sucht, ob Personen, die bei Variable X einen höheren Wert aufweisen, dies auch bei Y tun oder nicht.


Alter (X): Code: Label:1 18 bis unter 302 30 bis unter 403 40 bis unter 504 50 bis unter 605 Über 60

AIDS-Kranke brauchen Solidarität und Hilfe. (Y1)Schuld an AIDS sind die Hauptrisikogruppen. (Y2)

Code: Label:1 stimme sehr zu2 stimme eher zu3 teils-teils4 stimme eher nicht zu5 stimme überhaupt nicht zu


Konkordanter Zusammenhang (c) Merkmale: X= Alter mit 5 Altersklassen Codezahlen: 1= 18 b. u. 30, 5= 60 u. älter Y1 = Solidarität mit Aids-Kranken, fünfpolige Likert-Skala Codezahlen: 1= stimme sehr zu, 5= lehne sehr ab

Alter X

Solidarität Y1

Person A 18 (1)

s.s.z. (1)

Person B 60 (5)

l.s.a. (5)

X und Y-Wert von A sind kleiner als von B


Diskordanter Zusammenhang (d) Merkmale: X= Alter mit 5 Altersklassen Codezahlen: 1= 18 b. u. 30, 5= 60 u. älter Y2= Schuldattributionen, fünfpolige Likert-Skala Codezahlen: 1= stimme sehr zu, 5= lehne sehr ab

Alter X

HRG sind Schuld an AIDS

Y2 Person A 18

(1) l.s.a. (5)

Person B 60 (5)

s.s.z. (1)

Der X-Wert von A ist kleiner, der Y-Wert größer als von B


Person X

Alter

Y1 Solidarität

Y2 Schuld

A 1 1 5 B 2 2 4 C 3 3 3 D 4 4 2 E 5 5 1 X/Y1: 10-0/10 = 1 X/Y2: 0-10/10 = -1

NpaareNdNcTauA −

=

2)1( −

=NNNpaare


Alter

Wichtigkeit von Recht und Ordnung

18- u. 30 1

30- u. 402

40- u. 503

ü. 50 4

sehr wichtig 1 - 1 2 4 wichtig 2 1 2 3 5 wenig. wicht. 3 5 5 2 - unwichtig 4 5 4 1 - Σ 11 12 8 9 N = 40


Insgesamt möglich Paare:

Konkordante Paare (Nc):Alle Zellhäufigkeiten, die rechts und unterhalb einer bestimmten Zelle liegen, summiert und multipliziert mit dieser Zelle, ergeben die Anzahl konkordanter Paare.

Nc:1(3+2+1+5)=112(5)=101(5+4+2+1)=122(2+1)=65(4+1)=255(1)=5Nc =69

Alter


18- u. 301

30- u. 402

40- u. 503

ü. 50 4

sehr wichtig 1 - 1 2 4 wichtig 2 1 2 3 5 wenig. wicht. 3 5 5 2 - unwichtig 4 5 4 1 -


Diskordante Paare (Nd):Alle Zellhäufigkeiten, die links und unterhalb einer bestimmten Zelle liegen, summiert und multipliziert mit dieser Zelle, ergeben die Anzahl diskordanter Paare

Nd:4(3+2+1+2+5+4+1+5+5)=1122(2+5+4+1+5+5)=441(1+5+5)=115(2+1+5+4+5+5)=1103(5+4+5+5)=572(5+5)=202(4)=82(5)=105(5)=25Nd=397

Alter


18- u. 301

30- u. 402

40- u. 503

ü. 50 4



Tied on x (Tx):Alle Zellhäufigkeiten, die unterhalb einer bestimmten Zelle liegen, summiert und multipliziert mit dieser Zelle, ergeben die Anzahl der auf x verknüpften Paare.Tx:1(5+5)=105(5)=251(2+5+4)=112(5+4)=185(4)=202(3+2+1)=123(2+1)=92(1)=24(5)=20Tx=127

Alter


18- u. 301

30- u. 402

40- u. 503

ü. 50 4



Tied on y (Ty):Alle Zellhäufigkeiten, die neben einer bestimmten Zelle liegen, summiert und multipliziert mit dieser Zelle, ergeben die Anzahl der auf y verknüpften Paare.Ty:1(2+4)=62(4)=81(2+3+5)=82(3+5)=163(5)=155(5+2)=355(2)=105(4+1)=254(1)=4Ty=127

Alter


18- u. 301

30- u. 402

40- u. 503

ü. 50 4



Tied on x and y (Txy):Alle Untersuchungseinheiten in

gleichen Zellen.n(n-1)/2Txy:2(2-1)/2=14(4-1)/2=62(2-1)/2=13(3-1)/2=35(5-1)/2=105(5-1)/2=105(5-1)/2=102(2-1)/2=15(5-1)/2=104(4-1)/2=6Txy=60

Alter


18- u. 30 1

30- u. 402

40- u. 503

ü. 50 4


84

Npaare = Nc+Nd+Tx+Ty+Txy

780=69+397+127+127+60

703.466328

−=−

=+−

=NdNcNdNcGamma

420.780328

−=−

=−

=Npaare

NdNcTauA

553.593328

()(−=

−=

++++−

=TyNdNcTxNdNc

NdNcTauB

546.48002624

)1²()(2

−=−

=−−

=Rn

NdNcRTauC

mit: R = Minimum der Zeilen- bzw. Spaltenzahl n = Anzahl der Meßwerte


Abwechslung und Spaß

18- u. 30 1

30- u. 40 2

40- u. 50 3

ü. 50 4

sehr wichtig 1

3

wichtig 2

3

wenig. wicht. 3

3

unwichtig 4

3

N =12, Npaare = 66, Nc = 54, Nd = 0, Tx = 0, Ty = 0, Txy = 12


66 = 54+0+0+0+12

00.15454

==Gamma

818.6654

==TauA

00.15454

==TauB

00.1432432

==TauC

symmetrische Tabelle


asymmetrische Tabelle

Abwechs.

und Spaß

18 – u. 30 30 –u. 40 40 – u. 50 50 – u. 60 ü. 60

sehr

wichtig

3

wichtig 3

wen. wicht. 3

unwichtig 3 3

N = 15, Npaare = 105, Nc = 81, Nd = 0, Tx = 0, Ty = 3(3)=9, Txy = 15


105 = 81+0+0+9+15

00.18181

==Gamma

771.10581

==TauA

948.381,85

81==TauB

960.675648

==TauC


Person X

Alter

Y1 Solidarität

Y2 Schuld

A 1 1 5 B 2 2 4 C 3 3 3 D 4 4 2 E 5 5 1 Rangkorrelation (Spearmann)

)1²(*²)...²2²1(*61

−++

−=NN

DxDDrs

D1 bis Dx: Differenzen der Rangplätze (=Codezahlen) für jeden der n Merkmalsträger


Person A B C D E Rang X 1 2 3 4 5 Rang Y1 1 2 3 4 5 D 0 0 0 0 0 D² 0 0 0 0 0

1)125(*5

)0(*61 =−

−=rs


Person A B C D E Rang X 1 2 3 4 5 Rang Y2 5 4 3 2 1 D -4 -2 0 2 4 D² 16 4 0 4 16

121)125(*5

)1640416(*61 −=−=−

++++−=rs


Nominales Messniveau: Chi-Quadrat basierte Maßzahlen

Grundgedanke: Eine Beziehung zwischen zwei Merkmalen ist umso stärker, je größer die Abweichung von der statistischen Unabhängigkeit ist.

Wichtig:Bei Merkmalen unterschiedlichen Messniveaus bestimmt das jeweils niedrigste Skalenniveau die Wahl des Koeffizienten.

N²χφ = )1/1min(

²−−

=crN

V χ


Gewicht nach Geschlecht, 1. Wert: N, 2. Wert:

Erwartungswert

Männer Frauen N

Kein

Übergewicht

-

25

50

25

50

Übergewicht 50

25

-

25

50

N 50 50 100

Chi-Square: 100

N²χφ =

1100100

==φ

92

Gewicht nach Altersklassen, 1. Wert: N, 2. Wert:

Erwartungswert

bis u. 30 bis u. 50 ü. 50 N

kein Überg. 100

33,3

-

33,3

-

33,3

100

leichtes Ü. -

33,3

100

33,3

-

33,3

100

Adipositas -

33,3

-

33,3

100

33,3

100

N 100 100 100 300

Chi-Square: 600

4142135,1300600

==φ

)1/1min(²

−−=

crNV χ

12*300

600==V


Schuld an AIDS sind die Hauptrisikogruppen

stimme sehr zu 30,3%stimme eher zu 29,3%teils-teils 23,3%lehne eher ab 10,1%lehne sehr ab 7,0%N 2106Quelle: ZUMA-Sozialwissenschaften-BUS 2/1990

59,6%

17,1%

94

V10_7 Risikogruppen sind Schuld by ALTK Altersklassen ALTK Count | Exp Val | Row Pct |18-30 30-40 40-50 50-60 ü. 60 Col Pct | Row Tot Pct | 1,00| 2,00| 3,00| 4,00| 5,00| Total V10_7 --------+--------+--------+--------+--------+--------+ 1 | 96 | 95 | 109 | 127 | 208 | 635 stimme sehr zu | 159,7 | 129,0 | 104,1 | 97,1 | 145,1 | 30,4% | 15,1% | 15,0% | 17,2% | 20,0% | 32,8% | | 18,3% | 22,4% | 31,8% | 39,7% | 43,5% | | 4,6% | 4,5% | 5,2% | 6,1% | 9,9% | +--------+--------+--------+--------+--------+ 2 | 125 | 118 | 97 | 108 | 166 | 614 stimme eher zu | 154,4 | 124,7 | 100,7 | 93,9 | 140,3 | 29,3% | 20,4% | 19,2% | 15,8% | 17,6% | 27,0% | | 23,8% | 27,8% | 28,3% | 33,8% | 34,7% | | 6,0% | 5,6% | 4,6% | 5,2% | 7,9% | +--------+--------+--------+--------+--------+ 3 | 152 | 123 | 86 | 55 | 71 | 487 teils/teils | 122,4 | 98,9 | 79,8 | 74,5 | 111,3 | 23,3% | 31,2% | 25,3% | 17,7% | 11,3% | 14,6% | | 28,9% | 28,9% | 25,1% | 17,2% | 14,9% | | 7,3% | 5,9% | 4,1% | 2,6% | 3,4% | +--------+--------+--------+--------+--------+ 4 | 91 | 46 | 35 | 24 | 16 | 212 lehne eher ab | 53,3 | 43,1 | 34,8 | 32,4 | 48,4 | 10,1% | 42,9% | 21,7% | 16,5% | 11,3% | 7,5% | | 17,3% | 10,8% | 10,2% | 7,5% | 3,3% | | 4,3% | 2,2% | 1,7% | 1,1% | ,8% | +--------+--------+--------+--------+--------+ 5 | 62 | 43 | 16 | 6 | 17 | 144 lehne sehr ab | 36,2 | 29,3 | 23,6 | 22,0 | 32,9 | 6,9% | 43,1% | 29,9% | 11,1% | 4,2% | 11,8% | | 11,8% | 10,1% | 4,7% | 1,9% | 3,6% | | 3,0% | 2,1% | ,8% | ,3% | ,8% | +--------+--------+--------+--------+--------+ Column 526 425 343 320 478 2092 Total 25,1% 20,3% 16,4% 15,3% 22,8% 100,0%


Chi-Square Value DF Significance -------------------- ----------- ---- ------------ Pearson 214,49197 16 ,00000 Minimum Expected Frequency - 22,027 Approximate Statistic Value ASE1 Val/ASE0 Significance -------------------- --------- -------- -------- ------------ Phi ,32020 ,00000 Cramer's V ,16010 ,00000 Kendall's Tau-b -,24786 ,01659 -14,8882 ,00000 Kendall's Tau-c -,23934 ,01608 -14,8882 ,00000 Gamma -,31890 ,02103 -14,8882 ,00000 Pearson's R -,30172 ,01981 -14,4680 ,00000 Spearman Correlation -,30245 ,02007 -14,5062 ,00000

96

v10_7 Risikogruppen sind Schuld by ALTK Altersklassen ALTK Col Pct | |18-30 30-40 40-50 50-60 ü. 60 | Row | 1,00| 2,00| 3,00| 4,00| 5,00| Total V10_7 --------+--------+--------+--------+--------+--------+ 1 | 18,3 | 22,4 | 31,8 | 39,7 | 43,5 | 635 stimme sehr zu | | | | | | 30,4 +--------+--------+--------+--------+--------+ 2 | 23,8 | 27,8 | 28,3 | 33,8 | 34,7 | 614 stimme eher zu | | | | | | 29,3 +--------+--------+--------+--------+--------+ 3 | 28,9 | 28,9 | 25,1 | 17,2 | 14,9 | 487 teils/teils | | | | | | 23,3 +--------+--------+--------+--------+--------+ 4 | 17,3 | 10,8 | 10,2 | 7,5 | 3,3 | 212 lehne eher ab | | | | | | 10,1 +--------+--------+--------+--------+--------+ 5 | 11,8 | 10,1 | 4,7 | 1,9 | 3,6 | 144 lehne sehr ab | | | | | | 6,9 +--------+--------+--------+--------+--------+ Column 526 425 343 320 478 2092 Total 25,1 20,3 16,4 15,3 22,8 100,0 Approximate Statistic Value ASE1 Val/ASE0 Significance -------------------- --------- -------- -------- ------------ Phi ,32020 ,00000 Cramer's V ,16010 ,00000 Kendall's Tau-b -,24786 ,01659 -14,8882 ,00000 Kendall's Tau-c -,23934 ,01608 -14,8882 ,00000 Gamma -,31890 ,02103 -14,8882 ,00000 Pearson's R -,30172 ,01981 -14,4680 ,00000 Spearman Correlation -,30245 ,02007 -14,5062 ,00000


V10_7 Risikogruppen sind Schuld by ALTK Altersklassen ALTK Col Pct | |18-30 30-40 40-50 50-60 ü. 60 | Row | 1,00| 2,00| 3,00| 4,00| 5,00| Total V10_7 --------+--------+--------+--------+--------+--------+ 1 | 42,0 | 50,1 | 60,1 | 73,4 | 78,2 | 1249 stimme sehr zu | | | | | | 59,7 +--------+--------+--------+--------+--------+ 2 | 28,9 | 28,9 | 25,1 | 17,2 | 14,9 | 487 stimme eher zu | | | | | | 23,3 +--------+--------+--------+--------+--------+ 3 | 29,1 | 20,9 | 14,9 | 9,4 | 6,9 | 356 teils/teils | | | | | | 17,0 +--------+--------+--------+--------+--------+ Column 526 425 343 320 478 2092 Total 25,1 20,3 16,4 15,3 22,8 100,0 Approximate Statistic Value ASE1 Val/ASE0 Significance -------------------- --------- -------- -------- ------------ Phi ,30484 ,00000 Cramer's V ,21555 ,00000 Kendall's Tau-b -,25803 ,01741 -14,6245 ,00000 Kendall's Tau-c -,25802 ,01764 -14,6245 ,00000 Gamma -,38250 ,02506 -14,6245 ,00000 Pearson's R -,29590 ,01976 -14,1617 ,00000 Spearman Correlation -,29926 ,02010 -14,3381 ,00000

98

Drittfaktorenkontrolle:

Ist die Konfessionszugehörigkeit die entscheidende erklärende Variable?


Drittfaktorenkontrolle

Bivariate Korrelation, signifikanter Zusammenhang

Einführung eines Drittfaktors t: (=potentielle weitere verursachende Variable), Berech-nung von Teiltabellen, die den ursprünglichen bivariatenZusammenhang für jeweils eine Merkmalsausprägung des Drittfaktors ausweisen.


Formen:Scheinkorrelation: ursprüngliche Beziehung besteht nur scheinbar und ist ein statistisches Artefakt

Intervention: Kausalkette

Multikausalität: Drittfaktor ist eine weitere unabhängige Variable

Bestätigung: Drittfaktor hat keinen nachweisbaren Effekt und bestätigt damit die ursprüngliche Beziehung




Statistischer NachweisScheinkorrelation und Intervention:Nach Einführung der Drittvariablen sind die bedingten Korrelationen gleich oder nahe Null und der Zusammenhang nicht mehr signifikant.Unterscheidung aufgrund theoretischer Überlegungen.Multikausalität:Die beiden unabhängigen Variablen sind statistisch unabhängig.Zumindest eine der bedingten Korrelationen ist größer als die ursprüngliche Korrelationen.Bestätigung:Alle bedingten Korrelationen sind größer als Null, keine ist größer als die ursprüngliche Korrelation bzw. alle bedingten Korrelationen sind gleich groß.


AIDS ist die Geißel der Menschheit und die Strafe für ein unmoralisches, zügelloses Leben

stimme sehr zu 10,6%stimme eher zu 18,0%teils-teils 22,6%lehne eher ab 21,9%lehne sehr ab 26,9%N 2113Quelle: ZUMA-Sozialwissenschaften-BUS 2/1990

28,6%

48,8%


V10_2 AIDS Geißel der Menschheit by FROMM Verbundenheit mit Kirche FROMM Col Pct | |stark weniger gar nich | stark t Row | 1,00| 2,00| 3,00| Total V10_2 --------+--------+--------+--------+ 2 | 37,0 | 27,4 | 23,1 | 572 stimme zu | | | | 29,9 +--------+--------+--------+ 3 | 25,7 | 23,0 | 19,9 | 447 teils-teils | | | | 23,4 +--------+--------+--------+ 4 | 37,2 | 49,6 | 57,0 | 891 lehne ab | | | | 46,6 +--------+--------+--------+ Column 637 966 307 1910 Total 33,4 50,6 16,1 100,0 Chi-Square Value DF Significance -------------------- ----------- ---- ------------ Pearson 41,75838 4 ,00000 Gamma ,20966


FROMM Verbundenheit mit Kirche by ALTK Altersklassen ALTK Col Pct | |18-30 30-40 40-50 50-60 ü. 60 | Row | 1,00| 2,00| 3,00| 4,00| 5,00| Total FROMM --------+--------+--------+--------+--------+--------+ 1,00 | 14,8 | 21,4 | 32,2 | 38,4 | 57,0 | 628 stark | | | | | | 33,0 +--------+--------+--------+--------+--------+ 2,00 | 53,9 | 58,4 | 53,2 | 54,4 | 38,0 | 968 weniger stark | | | | | | 50,9 +--------+--------+--------+--------+--------+ 3,00 | 31,3 | 20,1 | 14,6 | 7,2 | 5,0 | 306 gar nicht | | | | | | 16,1 +--------+--------+--------+--------+--------+ Column 447 373 314 305 463 1902 Total 23,5 19,6 16,5 16,0 24,3 100,0 Chi-Square Value DF Significance -------------------- ----------- ---- ------------ Pearson 283,99247 8 ,00000 Gamma -,45725


V10_2 AIDS Geißel der Menschheit by FROMM Verbundenheit mit Kirche Controlling for.. ALTK Altersklassen Value = 1,00 18-30 FROMM Col Pct | |stark weniger gar nich | stark t Row | 1,00| 2,00| 3,00| Total V10_2 --------+--------+--------+--------+ 2 | 18,2 | 15,8 | 17,1 | 74 stimme zu | | | | 16,6 +--------+--------+--------+ 3 | 22,7 | 17,8 | 15,7 | 80 teils-teils | | | | 17,9 +--------+--------+--------+ 4 | 59,1 | 66,4 | 67,1 | 293 lehne ab | | | | 65,5 +--------+--------+--------+ Column 66 241 140 447 Total 14,8 53,9 31,3 100,0 Chi-Square Value DF Significance -------------------- ----------- ---- ------------ Pearson 1,95869 4 ,74336 Gamma ,05971

Drittfaktor Alter: Scheinkorrelation oder Intervention?




V10_2 AIDS Geißel der Menschheit by FROMM Verbundenheit mit Kirche Controlling for.. ALTK Altersklassen Value = 3,00 40-50 FROMM Col Pct | |stark weniger gar nich | stark t Row | 1,00| 2,00| 3,00| Total V10_2 --------+--------+--------+--------+ 2 | 26,7 | 28,1 | 34,8 | 90 stimme zu | | | | 28,7 +--------+--------+--------+ 3 | 25,7 | 26,9 | 17,4 | 79 teils-teils | | | | 25,2 +--------+--------+--------+ 4 | 47,5 | 44,9 | 47,8 | 145 lehne ab | | | | 46,2 +--------+--------+--------+ Column 101 167 46 314 Total 32,2 53,2 14,6 100,0 Chi-Square Value DF Significance -------------------- ----------- ---- ------------ Pearson 2,20173 4 ,69871 Gamma -,04033




V10_2 AIDS Geißel der Menschheit by FROMM Verbundenheit mit Kirche Controlling for.. ALTK Altersklassen Value = 5,00 ü. 60 FROMM Col Pct | |stark weniger gar nich | stark t Row | 1,00| 2,00| 3,00| Total V10_2 --------+--------+--------+--------+ 2 | 46,6 | 42,0 | 39,1 | 206 stimme zu | | | | 44,5 +--------+--------+--------+ 3 | 26,9 | 23,3 | 30,4 | 119 teils-teils | | | | 25,7 +--------+--------+--------+ 4 | 26,5 | 34,7 | 30,4 | 138 lehne ab | | | | 29,8 +--------+--------+--------+ Column 264 176 23 463 Total 57,0 38,0 5,0 100,0 Chi-Square Value DF Significance -------------------- ----------- ---- ------------ Pearson 3,74277 4 ,44194 Gamma ,10891


V10_2 AIDS Geißel der Menschheit by FROMM Verbundenheit mit Kirche Controlling for.. S1 Geschlecht Value = 0 Männer FROMM Col Pct | |stark weniger gar nich | stark t Row | 1,00| 2,00| 3,00| Total V10_2 --------+--------+--------+--------+ 2 | 34,5 | 28,7 | 21,8 | 250 stimme zu | | | | 28,8 +--------+--------+--------+ 3 | 25,2 | 21,2 | 21,8 | 194 teils-teils | | | | 22,4 +--------+--------+--------+ 4 | 40,3 | 50,1 | 56,5 | 423 lehne ab | | | | 48,8 +--------+--------+--------+ Column 226 471 170 867 Total 26,1 54,3 19,6 100,0 Chi-Square Value DF Significance -------------------- ----------- ---- ------------ Pearson 12,18972 4 ,01599 Gamma ,16866

Drittfaktor Geschlecht: Bestätigung


V10_2 AIDS Geißel der Menschheit by FROMM Verbundenheit mit Kirche Controlling for.. S1 Geschlecht Value = 1 Frauen FROMM Col Pct | |stark weniger gar nich | stark t Row | 1,00| 2,00| 3,00| Total V10_2 --------+--------+--------+--------+ 2 | 38,4 | 26,3 | 24,8 | 322 stimme zu | | | | 30,9 +--------+--------+--------+ 3 | 26,0 | 24,6 | 17,5 | 253 teils-teils | | | | 24,3 +--------+--------+--------+ 4 | 35,5 | 49,1 | 57,7 | 468 lehne ab | | | | 44,9 +--------+--------+--------+ Column 411 495 137 1043 Total 39,4 47,5 13,1 100,0 Chi-Square Value DF Significance -------------------- ----------- ---- ------------ Pearson 30,76019 4 ,00000 Gamma ,23709


V10_2 AIDS Geißel der Menschheit by S1 Geschlecht S1 Col Pct | |Männer Frauen | Row | 0 | 1 | Total V10_2 --------+--------+--------+ 2 | 27,2 | 29,8 | 604 stimme zu | | | 28,6 +--------+--------+ 3 | 21,6 | 23,5 | 478 teils-teils | | | 22,6 +--------+--------+ 4 | 51,2 | 46,7 | 1031 lehne ab | | | 48,8 +--------+--------+ Column 991 1122 2113 Total 46,9 53,1 100,0 Chi-Square Value DF Significance -------------------- ----------- ---- ------------ Pearson 4,18636 2 ,12329 Gamma -,07114


V10_7 Risikogruppen sind Schuld by K3 Pol. Gemeindegröße K3 Page 1 of 1 Col Pct | | - u 5 5T - u 2 20T - u 50T - u 100T - ü | 0T 50T 100T 500T Row | 2 | 3 | 4 | 5 | 6 | Total V10_7 --------+--------+--------+--------+--------+--------+ 2 | 74,1 | 68,2 | 64,2 | 62,7 | 46,6 | 1256 stimme zu | | | | | | 59,6 +--------+--------+--------+--------+--------+ 3 | 14,7 | 20,2 | 22,3 | 20,1 | 29,5 | 491 teils/teils | | | | | | 23,3 +--------+--------+--------+--------+--------+ 4 | 11,2 | 11,5 | 13,5 | 17,2 | 23,9 | 359 lehne ab | | | | | | 17,0 +--------+--------+--------+--------+--------+ Column 286 485 327 209 799 2106 Total 13,6 23,0 15,5 9,9 37,9 100,0 Chi-Square Value DF Significance -------------------- ----------- ---- ------------ Pearson 104,85719 8 ,00000 Gamma ,28868

Multikausalität


V10_7 Risikogruppen sind Schuld by K3 Pol. Gemeindegröße Controlling for.. ALTK Altersklassen Value = 1,00 18-30 K3 Page 1 of 1 Col Pct | |2T - u 5 5T - u 2 20T - u 50T - u 100T - u |T 0T 50T 100T 500T Row | 2 | 3 | 4 | 5 | 6 | Total V10_7 --------+--------+--------+--------+--------+--------+ 2 | 66,1 | 58,2 | 40,5 | 44,6 | 28,3 | 221 stimme zu | | | | | | 42,0 +--------+--------+--------+--------+--------+ 3 | 23,2 | 20,0 | 33,8 | 23,2 | 34,3 | 152 teils/teils | | | | | | 28,9 +--------+--------+--------+--------+--------+ 4 | 10,7 | 21,8 | 25,7 | 32,1 | 37,4 | 153 lehne ab | | | | | | 29,1 +--------+--------+--------+--------+--------+ Column 56 110 74 56 230 526 Total 10,6 20,9 14,1 10,6 43,7 100,0 Chi-Square Value DF Significance -------------------- ----------- ---- ------------ Pearson 46,70910 8 ,00000 Gamma ,34015


V10_7 Risikogruppen sind Schuld by K3 Pol. Gemeindegröße Controlling for.. ALTK Altersklassen Value = 2,00 30-40 K3 Page 1 of 1 Col Pct | |2T - u 5 5T - u 2 20T - u 50T - u 100T - u |T 0T 50T 100T 500T Row | 2 | 3 | 4 | 5 | 6 | Total V10_7 --------+--------+--------+--------+--------+--------+ 2 | 64,4 | 54,7 | 54,4 | 62,5 | 37,4 | 213 stimme zu | | | | | | 50,1 +--------+--------+--------+--------+--------+ 3 | 18,6 | 31,6 | 27,9 | 17,5 | 34,4 | 123 teils/teils | | | | | | 28,9 +--------+--------+--------+--------+--------+ 4 | 16,9 | 13,7 | 17,6 | 20,0 | 28,2 | 89 lehne ab | | | | | | 20,9 +--------+--------+--------+--------+--------+ Column 59 95 68 40 163 425 Total 13,9 22,4 16,0 9,4 38,4 100,0 Chi-Square Value DF Significance -------------------- ----------- ---- ------------ Pearson 22,72916 8 ,00373 Gamma ,24056


V10_7 Risikogruppen sind Schuld by K3 Pol. Gemeindegröße Controlling for.. ALTK Altersklassen Value = 3,00 40-50 K3 Page 1 of 1 Col Pct | |2T - u 5 5T - u 2 20T - u 50T - u 100T - u |T 0T 50T 100T 500T Row | 2 | 3 | 4 | 5 | 6 | Total V10_7 --------+--------+--------+--------+--------+--------+ 2 | 66,0 | 64,5 | 73,3 | 58,3 | 50,0 | 206 stimme zu | | | | | | 60,1 +--------+--------+--------+--------+--------+ 3 | 17,0 | 24,7 | 20,0 | 27,8 | 29,5 | 86 teils/teils | | | | | | 25,1 +--------+--------+--------+--------+--------+ 4 | 17,0 | 10,8 | 6,7 | 13,9 | 20,5 | 51 lehne ab | | | | | | 14,9 +--------+--------+--------+--------+--------+ Column 47 93 45 36 122 343 Total 13,7 27,1 13,1 10,5 35,6 100,0 Chi-Square Value DF Significance -------------------- ----------- ---- ------------ Pearson 12,57686 8 ,12726 Minimum Expected Frequency - 5,353 Gamma ,18245


V10_7 Risikogruppen sind Schuld by K3 Pol. Gemeindegröße Controlling for.. ALTK Altersklassen Value = 4,00 50-60 K3 Page 1 of 1 Col Pct | |2T - u 5 5T - u 2 20T - u 50T - u 100T - u |T 0T 50T 100T 500T Row | 2 | 3 | 4 | 5 | 6 | Total V10_7 --------+--------+--------+--------+--------+--------+ 2 | 82,7 | 83,3 | 73,2 | 66,7 | 63,4 | 235 stimme zu | | | | | | 73,4 +--------+--------+--------+--------+--------+ 3 | 5,8 | 9,7 | 18,3 | 25,0 | 25,7 | 55 teils/teils | | | | | | 17,2 +--------+--------+--------+--------+--------+ 4 | 11,5 | 6,9 | 8,5 | 8,3 | 10,9 | 30 lehne ab | | | | | | 9,4 +--------+--------+--------+--------+--------+ Column 52 72 71 24 101 320 Total 16,3 22,5 22,2 7,5 31,6 100,0 Chi-Square Value DF Significance -------------------- ----------- ---- ------------ Pearson 15,64945 8 ,04768 Minimum Expected Frequency - 2,250 Cells with Expected Frequency < 5 - 3 of 15 ( 20,0%) Gamma ,26227


V10_7 Risikogruppen sind Schuld by K3 Pol. Gemeindegröße Controlling for.. ALTK Altersklassen Value = 5,00 ü. 60 K3 Page 1 of 1 Col Pct | |2T - u 5 5T - u 2 20T - u 50T - u 100T - u |T 0T 50T 100T 500T Row | 2 | 3 | 4 | 5 | 6 | Total V10_7 --------+--------+--------+--------+--------+--------+ 2 | 87,1 | 83,2 | 83,6 | 82,7 | 68,2 | 374 stimme zu | | | | | | 78,2 +--------+--------+--------+--------+--------+ 3 | 10,0 | 13,3 | 10,4 | 11,5 | 20,5 | 71 teils/teils | | | | | | 14,9 +--------+--------+--------+--------+--------+ 4 | 2,9 | 3,5 | 6,0 | 5,8 | 11,4 | 33 lehne ab | | | | | | 6,9 +--------+--------+--------+--------+--------+ Column 70 113 67 52 176 478 Total 14,6 23,6 14,0 10,9 36,8 100,0 Chi-Square Value DF Significance -------------------- ----------- ---- ------------ Pearson 18,75636 8 ,01622 Minimum Expected Frequency - 3,590 Cells with Expected Frequency < 5 - 3 of 15 ( 20,0%) Gamma ,31110

Documents

Jacob, Datenanalyse 1 - Uni Trier: Willkommen · - univariat - bivariat - multivariat . Jacob, Datenanalyse 6 Datenmatrix Variable Fälle Variable: Kopfseite