24
Statistik: 3.3.04 Relationen zwischen qualitativen Merkmalen

Statistik: 3.3.04 Relationen zwischen qualitativen Merkmalen

Embed Size (px)

Citation preview

Page 1: Statistik: 3.3.04 Relationen zwischen qualitativen Merkmalen

Statistik: 3.3.04

Relationen zwischen qualitativen Merkmalen

Page 2: Statistik: 3.3.04 Relationen zwischen qualitativen Merkmalen

3.3.04 PI Statistik, SS 2004 (4) 2

Beispiel: UnfälleFür 165 Unfälle wurden registriert:

Ort des Unfalls: (innner-/außerhalb) Stadtgebiet Personenschaden: ja/nein

P-Schaden

Stadt

Land Summe

ja 17 35 52

nein 65 48 113

Summe 82 83 165

Page 3: Statistik: 3.3.04 Relationen zwischen qualitativen Merkmalen

3.3.04 PI Statistik, SS 2004 (4) 3

Unfälle: Häufigkeitsverteilung

Unfallhäufigkeiten und Personenschaden

0

10

20

30

40

50

60

70

Stadt Land

ja

nein

StadtLand

ja

nein0

1020

30

40

50

60

70

Unfälle und Personenschaden

ja

nein

Gruppiertes Säulendiagramm

3D-Säulen

Page 4: Statistik: 3.3.04 Relationen zwischen qualitativen Merkmalen

3.3.04 PI Statistik, SS 2004 (4) 4

Kontingenztafel

Tabellierung von gemeinsamen Häufigkeiten zweier (oder mehrerer) qualitativer Merkmale, Häufigkeitsverteilung Auch Kreuztabellen oder Kreuzklassifikation genannt

X Y y1 … ysSumm

e

x1 n11 … n1s n1.

… … … … …

xr nr1 … nrs nr.

Summe

n.1 … n.r nZelle Randverteilung

en

Page 5: Statistik: 3.3.04 Relationen zwischen qualitativen Merkmalen

3.3.04 PI Statistik, SS 2004 (4) 5

Unfälle: Häufigkeitsverteilungen

StadtLand

ja

nein010

20

30

40

50

60

70

Unfälle und Personenschaden

0

10

20

30

40

50

60

70

80

90

Stadt Land

0

20

40

60

80

100

120

ja nein

Randverteilung nach • Personenschaden• Stadt/Land

(bedingte) Verteilung nach Personen-schäden von Unfällen in der Stadt

Page 6: Statistik: 3.3.04 Relationen zwischen qualitativen Merkmalen

3.3.04 PI Statistik, SS 2004 (4) 6

Rand- und bedingte Verteilungen

ni., i =1,…,r: (Rand)Verteilung des (Zeilen-) Merkmals X

n.j, j =1,…,s: (Rand)Verteilung des (Spalten-) Merkmals Y

„.“ gibt an, dass über alle möglichen Werte des Index summiert wurde

ni. = j nij

ni|j, i =1,…,r : bedingte Verteilung des (Zeilen-) Merkmals X für Y =yj

nj|i, j =1,…,s : bedingte Verteilung des (Spalten-) MerkmalsY für X =xi

Page 7: Statistik: 3.3.04 Relationen zwischen qualitativen Merkmalen

3.3.04 PI Statistik, SS 2004 (4) 7

Unfälle: Häufigkeitsverteilungen

P-Schaden

Stadt

Land Summe

ja 17 35 52

nein 65 48 113

Summe 82 83 165

Randverteilung nach • Personenschaden• Stadt/Land

(bedingte) Verteilung nach Personen-schäden von (82!) Unfällen in der Stadt

Gemeinsame Verteilung

Page 8: Statistik: 3.3.04 Relationen zwischen qualitativen Merkmalen

3.3.04 PI Statistik, SS 2004 (4) 8

Relative Häufigkeiten

Gemeinsame relative Häufigkeiten

, 1,..., , 1,...,ijij

np i r j s

n

z.B.: Anteil der (65) Unfälle ohne Personenschaden in der Stadt an allen (165) Unfällen

Bedingte relative Häufigkeiten

z.B.: Anteil der (65) Unfälle ohne Personenschaden (in der Stadt) an den (82) Unfällen in der Stadt

sjn

npri

n

np

i

ijij

j

ijji ,,1,,,,1,

.|

.|

Page 9: Statistik: 3.3.04 Relationen zwischen qualitativen Merkmalen

3.3.04 PI Statistik, SS 2004 (4) 9

Unfälle: Relative Häufigkeiten

P-Schaden

Stadt

Land Summe

ja 10.3 21.2 31.5

nein 39.4 29.1 68.5

Summe 49.7 50.3 100.0

Randverteilung nach • Stadt/Land• Personenschaden

Gemeinsame Verteilung

Page 10: Statistik: 3.3.04 Relationen zwischen qualitativen Merkmalen

3.3.04 PI Statistik, SS 2004 (4) 10

Unfälle: Bedingte relative Häufigkeiten

P-Schaden

Stadt

Land Summe

ja 32.7 67.3 100.0

nein 57.5 42.5 100.0

Summe 49.7 50.3 100.0

Bedingte Verteilungen für Unfälle • mit• ohne

Personenschaden

Analog bedingte Verteilungen für Unfälle in Stadt und Land

nach Personenschaden

Page 11: Statistik: 3.3.04 Relationen zwischen qualitativen Merkmalen

3.3.04 PI Statistik, SS 2004 (4) 11

Bedingte Verteilungen

Unfälle mit und ohne Personenschäden

20,7%42,2%

79,3%57,8%

0,0%

20,0%

40,0%

60,0%

80,0%

100,0%

120,0%

Stadt Land

Bedingte Verteilung für Unfälle in Stadt und Land nach Personenschaden

Gestapeltes Säulendiagramm

Page 12: Statistik: 3.3.04 Relationen zwischen qualitativen Merkmalen

3.3.04 PI Statistik, SS 2004 (4) 12

Beziehung zwischen Merkmalen

Das Wissen über die Ausprägung eines Merkmals hilft, die Ausprägung des anderen Merkmals vorherzusagen

Beispiel: Unfall passierte auf Autobahn; Personenschäden sind wahrscheinlicher als wenn der Unfall im Stadtgebiet stattgefunden hätte

Page 13: Statistik: 3.3.04 Relationen zwischen qualitativen Merkmalen

3.3.04 PI Statistik, SS 2004 (4) 13

Merkmale: Unabhängigkeit Zwei Merkmale X und Y werden als unabhängig bezeichnet, wenn die bedingten Verteilungen pi|j, i =1, …, r, für alle (j =1,… ,s) Merkmalsausprägungen von Y übereinstimmen

Page 14: Statistik: 3.3.04 Relationen zwischen qualitativen Merkmalen

3.3.04 PI Statistik, SS 2004 (4) 14

Sind Ort und Personenschäden bei Unfällen unabhängig?

Was sagen uns: bedingte Verteilungen für Unfälle mit und ohne

Personenschäden bedingte Verteilungen für Unfälle in Stadt und Land nach

Personenschaden

P-Schaden Stadt Land Summe

ja 32.7 67.3 100.0

nein 57.5 42.5 100.0

Summe 49.7 50.3 100.0

Page 15: Statistik: 3.3.04 Relationen zwischen qualitativen Merkmalen

3.3.04 PI Statistik, SS 2004 (4) 15

Erwartete Häufigkeiten

Sind X und Y unabhängige Merkmale, so erwarten wir die Häufigkeiten

n

nnn jiij

..ˆ

Die erwarteten Häufigkeiten sind durch die Randverteilungen bestimmt

Page 16: Statistik: 3.3.04 Relationen zwischen qualitativen Merkmalen

3.3.04 PI Statistik, SS 2004 (4) 16

Unfälle: Erwartete Häufigkeiten

P-Schaden

Stadt LandSumm

e

ja 25,8 26,2 52

nein 56,2 56,8 113

Summe 82 83 165

P-Schaden

Stadt

Land Summe

ja 17 35 52

nein 65 48 113

Summe 82 83 165

Beobachtet:

Bei Unabhängig-keit erwartet:

Page 17: Statistik: 3.3.04 Relationen zwischen qualitativen Merkmalen

3.3.04 PI Statistik, SS 2004 (4) 17

Chiquadrat-Statistik

Assoziationsmaß, d.h. Maß für Abhängigkeit zwischen Merkmalen

2

1

2

1

2

ˆ

)ˆ(

i j ij

ijij

n

nnT

Bei Unabhängigkeit der Merkmale: T = 0Bei Abhängigkeit: T ist wesentlich größer als 0

Bei Unabhängigkeit folgt die Chiquadrat-Statistik derChiquadrat-Verteilung

Page 18: Statistik: 3.3.04 Relationen zwischen qualitativen Merkmalen

3.3.04 PI Statistik, SS 2004 (4) 18

Unfälle

Chiquadrat-Statistik:T = 8.78

p-Wert (Wahrscheinlichkeit, dass T ≥ 8.78, wenn Unabhängigkeit der Merkmale zutrifft): 0.003Unabhängigkeit der Merkmale ist unplausibel

Page 19: Statistik: 3.3.04 Relationen zwischen qualitativen Merkmalen

3.3.04 PI Statistik, SS 2004 (4) 19

(r x s) - Kontingenztafel

Verallgemeinerung der 2x2-TafelChiquadrat-Statistik:

Bei Unabhängigkeit folgt die Chiquadrat-Statistik der Chiquadrat-Verteilung mit (r-1)(s-1) Freiheitsgraden

r

i

s

j ij

ijij

n

nnT

1 1

2

ˆ

)ˆ(

)1)(1(2 srT

Page 20: Statistik: 3.3.04 Relationen zwischen qualitativen Merkmalen

3.3.04 PI Statistik, SS 2004 (4) 20

Homogenität

Das Merkmal Y charakterisiert die PopulationHomogenität: die bedingten Verteilungen

pi|j, i =1, …, r

sind für alle j Populationen gleichZum Überprüfen der Homogenität: Chiquadrat-Statistik

Page 21: Statistik: 3.3.04 Relationen zwischen qualitativen Merkmalen

3.3.04 PI Statistik, SS 2004 (4) 21

Kontingentzkoeffizienten

Von der Chiquadrat -Statistik abgeleitete Assoziationsmaße:Pearson´scher Kontingenzkoeffizient

Cramér´scher Kontingenzkoeffizient

bei Unabhängigkeit: P = 0, C = 0 Maximalwert: P < 1, C ≤ 0

Tn

TP

)1,1min(

srn

TC

Page 22: Statistik: 3.3.04 Relationen zwischen qualitativen Merkmalen

3.3.04 PI Statistik, SS 2004 (4) 22

Unfälle

8.78 8.780.225, 0.231

165 8.78 165P C

Für die Kontingenzkoeffizienten erhalten wir

Page 23: Statistik: 3.3.04 Relationen zwischen qualitativen Merkmalen

3.3.04 PI Statistik, SS 2004 (4) 23

Beispiel: Nochmals UnfälleFür 165 Unfälle wurden registriert:

Ort des Unfalls: Ortsgebiet, Landstraße, Autobahn Personenschaden: ja/nein

P-Schaden Orts-Geb.

Land-Staße

A-Bahn

Summe

ja 17 23 12 52

nein 65 44 4 113

Summe 82 67 16 165

2x3 Kontingenztafel

Page 24: Statistik: 3.3.04 Relationen zwischen qualitativen Merkmalen

3.3.04 PI Statistik, SS 2004 (4) 24

Beispiel, Forts.

Chiquadrat-Statistik: T = 18.68

Bei Unabhängigkeit folgt T der Chiquadrat-Verteilung mit (r-1)(s-1) = 2 FreiheitsgradenDer p-Wert beträgt 0.000088 !Pearson´scher Kontingenzkoeffizient:

P = 0.319Cramér'scher Kontingenzkoeffizient:

C = 0.336