72
Bivariate Daten: Tabellarische und grafische Darstellungen Ordinale Daten Kontingenztafeln und Mosaikplots mit geordneten Kategorien Quantitative Daten Kontingenztafeln und Mosaikplots mit klassierten Daten 1 Nils Raabe: Wahrscheinlichkeitsrechnung und mathematische Statistik für Informatiker

Bivariate Daten: Tabellarische und ... - Fakultät Statistikraabe/Handouts04.pdf · mathematische Statistik für Informatiker Spiel HerkunftSchiri Gelb Spiel HerkunftSchiri Gelb Tot‘ham

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Bivariate Daten: Tabellarische und ... - Fakultät Statistikraabe/Handouts04.pdf · mathematische Statistik für Informatiker Spiel HerkunftSchiri Gelb Spiel HerkunftSchiri Gelb Tot‘ham

Bivariate Daten: Tabellarische und grafische Darstellungen

Ordinale Daten

Kontingenztafeln und Mosaikplots mit geordneten Kategorien

Quantitative Daten

Kontingenztafeln und Mosaikplots mit klassierten Daten

1Nils Raabe: Wahrscheinlichkeitsrechnung und

mathematische Statistik für Informatiker

Page 2: Bivariate Daten: Tabellarische und ... - Fakultät Statistikraabe/Handouts04.pdf · mathematische Statistik für Informatiker Spiel HerkunftSchiri Gelb Spiel HerkunftSchiri Gelb Tot‘ham

Bivariate Daten: Tabellarische und grafische Darstellungen

Quantitative Daten : Beispiel Bearbeitungen von Softwareaufgaben

Streudiagramm

Darstellung der Punktepaare (xi, yi) in einem kartesischen Koordinatensystem

2Nils Raabe: Wahrscheinlichkeitsrechnung und

mathematische Statistik für Informatiker

Page 3: Bivariate Daten: Tabellarische und ... - Fakultät Statistikraabe/Handouts04.pdf · mathematische Statistik für Informatiker Spiel HerkunftSchiri Gelb Spiel HerkunftSchiri Gelb Tot‘ham

Bivariate Daten: Zusammenhangsmaße

Erinnerung allgemeine Eigenschaft der Streuung univariater Daten:

Streuung von X desto höher, je schlechter konkrete Werte sich vorhersagen lassen.

Bisher: Vorhersage der Werte von X durch einzelnen Lageparameter.

Jetzt: Vorhersage der Werte von Y unter Verwendung der Werte von X.

Allgemein: Zusammenhang (=Korrelation) zwischen Y und X desto größer, je besser sich der Wert von Y unter Kenntnis des Werts von X vorhersagen lässt(oder umgekehrt).

3Nils Raabe: Wahrscheinlichkeitsrechnung und

mathematische Statistik für Informatiker

Page 4: Bivariate Daten: Tabellarische und ... - Fakultät Statistikraabe/Handouts04.pdf · mathematische Statistik für Informatiker Spiel HerkunftSchiri Gelb Spiel HerkunftSchiri Gelb Tot‘ham

Bivariate Daten: Zusammenhangsmaße

Korrelation und Kausalität

Es gilt:

X ist Ursache von Y => X und Y korrelieren

Aber:

X und Y korrelieren => X ist Ursache von Y

4Nils Raabe: Wahrscheinlichkeitsrechnung und

mathematische Statistik für Informatiker

X Y

X Y ⇓

X Y

X Y ⇑

Page 5: Bivariate Daten: Tabellarische und ... - Fakultät Statistikraabe/Handouts04.pdf · mathematische Statistik für Informatiker Spiel HerkunftSchiri Gelb Spiel HerkunftSchiri Gelb Tot‘ham

Bivariate Daten: Zusammenhangsmaße

Korrelation und Kausalität

X ist Ursache von Y => X und Y korrelieren

X und Y korrelieren => X ist Ursache von Y

VerschiedeneKorrelationsquellenmöglich

5Nils Raabe: Wahrscheinlichkeitsrechnung und

mathematische Statistik für Informatiker

X Y

X Y

X YZ ⇒

X Y

X YZ ⇐

X Y

Z

X Y

Z

⇑ ⇑

Page 6: Bivariate Daten: Tabellarische und ... - Fakultät Statistikraabe/Handouts04.pdf · mathematische Statistik für Informatiker Spiel HerkunftSchiri Gelb Spiel HerkunftSchiri Gelb Tot‘ham

Bivariate Daten: ZusammenhangsmaßeSimpson‘s Paradoxon

Beispiel: Gelbe Karten für deutsche und englische Teams in

nationalen und internationalen Wettbewerben

22 betrachtete Spiele der Saison 2010/2011:

6Nils Raabe: Wahrscheinlichkeitsrechnung und

mathematische Statistik für Informatiker

Spiel Gelb Spiel Gelb

Tot‘ham Arsenal 5 (3+2) ManU Arsenal 4 (0+4)

Partizan Arsenal 0 Werder Bayern 4 (2+2)

Bayern Werder 0 Tot‘ham ManU 6 (2+4)

Bayern Cluj 2 Real Tot‘ham 3

Bayern Werder 4 (1+3) Inter Schalke 4

ManU Tot‘ham 3 (0+3) Werder Schalke 3 (0+3)

Bursa ManU 0 Tot‘ham Arsenal 3 (0+3)

Schalke Werder 3 (1+2) Bayern Schalke 3 (1+2)

Arsenal Tot‘ham 4 (3+1) OM ManU 0

Schalke Bayern 1 (0+1) Schalke Bayern 2 (0+2)

Benfica Schalke 2 Arsenal ManU 5 (2+3)

Page 7: Bivariate Daten: Tabellarische und ... - Fakultät Statistikraabe/Handouts04.pdf · mathematische Statistik für Informatiker Spiel HerkunftSchiri Gelb Spiel HerkunftSchiri Gelb Tot‘ham

Bivariate Daten: Zusammenhangsmaße

Simpson‘s Paradoxon

Beispiel: Gelbe Karten für deutsche und englische Teams in

nationalen und internationalen Wettbewerben

Gelbe Karten pro Team und Spiel

7Nils Raabe: Wahrscheinlichkeitsrechnung und

mathematische Statistik für Informatiker

Team

Deutsch Englisch

1.474 19

28 = 1.833 18

33 =

Page 8: Bivariate Daten: Tabellarische und ... - Fakultät Statistikraabe/Handouts04.pdf · mathematische Statistik für Informatiker Spiel HerkunftSchiri Gelb Spiel HerkunftSchiri Gelb Tot‘ham

Bivariate Daten: ZusammenhangsmaßeSimpson‘s Paradoxon

Beispiel: Gelbe Karten für deutsche und englische Teams in

nationalen und internationalen Wettbewerben

22 betrachtete Spiele der Saison 2010/2011:

8Nils Raabe: Wahrscheinlichkeitsrechnung und

mathematische Statistik für Informatiker

Spiel Herkunft Schiri Gelb Spiel Herkunft Schiri Gelb

Tot‘ham Arsenal England 5 (3+2) ManU Arsenal England 4 (0+4)

Partizan Arsenal Deutschland 0 Werder Bayern Deutschland 4 (2+2)

Bayern Werder Deutschland 0 Tot‘ham ManU England 6 (2+4)

Bayern Cluj England 2 Real Tot‘ham Deutschland 3

Bayern Werder Deutschland 4 (1+3) Inter Schalke England 4

ManU Tot‘ham England 3 (0+3) Werder Schalke Deutschland 3 (0+3)

Bursa ManU Deutschland 0 Tot‘ham Arsenal England 3 (0+3)

Schalke Werder Deutschland 3 (1+2) Bayern Schalke Deutschland 3 (1+2)

Arsenal Tot‘ham England 4 (3+1) OM ManU Deutschland 0

Schalke Bayern Deutschland 1 (0+1) Schalke Bayern Deutschland 2 (0+2)

Benfica Schalke England 2 Arsenal ManU England 5 (2+3)

Page 9: Bivariate Daten: Tabellarische und ... - Fakultät Statistikraabe/Handouts04.pdf · mathematische Statistik für Informatiker Spiel HerkunftSchiri Gelb Spiel HerkunftSchiri Gelb Tot‘ham

Bivariate Daten: Zusammenhangsmaße

Simpson‘s Paradoxon

Beispiel: Gelbe Karten für deutsche und englische Teams in

nationalen und internationalen Wettbewerben

Gelbe Karten pro Team und Spiel

9Nils Raabe: Wahrscheinlichkeitsrechnung und

mathematische Statistik für Informatiker

Team

Deutsch Englisch

1.474 19

28 = 1.833 18

33 =

Page 10: Bivariate Daten: Tabellarische und ... - Fakultät Statistikraabe/Handouts04.pdf · mathematische Statistik für Informatiker Spiel HerkunftSchiri Gelb Spiel HerkunftSchiri Gelb Tot‘ham

Bivariate Daten: Zusammenhangsmaße

Simpson‘s Paradoxon

Beispiel: Gelbe Karten für deutsche und englische Teams in

nationalen und internationalen Wettbewerben

Gelbe Karten pro Team und Spiel

Bedingt auf Herkunft Schiedsrichter

10Nils Raabe: Wahrscheinlichkeitsrechnung und

mathematische Statistik für Informatiker

Schiri englisch

Schiri deutsch

Team

Deutsch Englisch

SchiriDeutsch 1.25 0.75

Englisch 2.667 2.143

1.474 1.833

Page 11: Bivariate Daten: Tabellarische und ... - Fakultät Statistikraabe/Handouts04.pdf · mathematische Statistik für Informatiker Spiel HerkunftSchiri Gelb Spiel HerkunftSchiri Gelb Tot‘ham

Bivariate Daten: Zusammenhangsmaße

Simpson‘s Paradoxon

Beispiel: Gelbe Karten für deutsche und englische Teams in

nationalen und internationalen Wettbewerben

Gelbe Karten pro Team und Spiel

Bedingt auf Herkunft Schiedsrichter

11Nils Raabe: Wahrscheinlichkeitsrechnung und

mathematische Statistik für Informatiker

Schiri englisch

Schiri deutsch

Team

Deutsch Englisch

SchiriDeutsch

20/16= 1.25

3/4= 0.75

23/20= 1.15

Englisch8/3

= 2.66730/14

= 2.14338/17

= 2.235

28/19= 1.474

33/18= 1.833

Page 12: Bivariate Daten: Tabellarische und ... - Fakultät Statistikraabe/Handouts04.pdf · mathematische Statistik für Informatiker Spiel HerkunftSchiri Gelb Spiel HerkunftSchiri Gelb Tot‘ham

Bivariate Daten: Zusammenhangsmaße

Nominale Daten

Zusammenhang (=Korrelation) zwischen Y und X desto größer, je besser sich der Wert von Y unter Kenntnis des Werts von X vorhersagen lässt (oder umgekehrt).

12Nils Raabe: Wahrscheinlichkeitsrechnung und

mathematische Statistik für Informatiker

Wert von Y lässt sich bei Kenntnis von X um-so besser vorhersagen, je stärker die bedingte Verteilung fY|X von Y gegeben X von der Randverteilung f•Y von Y abweicht.

Y

y(1) y(2) … y(K) Σ

X

x(1) fy;1|1 fy;2|1 … fy;K|1 1

x(2) fy;1|2 fy;2|2 … fy;K|2 1

… … … … … …

x(J) fy;1|J fy;2|J … fy;K|J 1

f•1 f•2 … f•K

Page 13: Bivariate Daten: Tabellarische und ... - Fakultät Statistikraabe/Handouts04.pdf · mathematische Statistik für Informatiker Spiel HerkunftSchiri Gelb Spiel HerkunftSchiri Gelb Tot‘ham

Bivariate Daten: Zusammenhangsmaße

Nominale Daten

Wert von Y lässt sich bei Kenntnis von X umso besser vorhersagen, je stärker die bedingte Verteilung fY|X von Y gegeben X von der Randverteilung f•Y von Y abweicht.

13Nils Raabe: Wahrscheinlichkeitsrechnung und

mathematische Statistik für Informatiker

Y

y(1) y(2) … y(K) Σ

X

x(1) f•1 f•2 … f•K 1

x(2) f•1 f•2 … f•K 1

… … … … … …

x(J) f•1 f•2 … f•K 1

f•1 f•2 … f•K

Zusammenhang minimal, falls

K}{1,...,k und J}{1,...,j alle für ff jj|ky; ∈∈= •

Page 14: Bivariate Daten: Tabellarische und ... - Fakultät Statistikraabe/Handouts04.pdf · mathematische Statistik für Informatiker Spiel HerkunftSchiri Gelb Spiel HerkunftSchiri Gelb Tot‘ham

Bivariate Daten: Zusammenhangsmaße

14Nils Raabe: Wahrscheinlichkeitsrechnung und

mathematische Statistik für Informatiker

Y

y(1) y(2) … y(K) Σ

X

x(1) 0 1 … 0 1

x(2) 0 0 … 1 1

… … … … … …

x(J) 1 0 … 0 1

f•1 f•2 … f•K

Nominale Daten

Wert von Y lässt sich bei Kenntnis von X umso besser vorhersagen, je stärker die bedingte Verteilung fY|X von Y gegeben X von der Randverteilung f•Y von Y abweicht.

Zusammenhang maximal, falls es für alle

gibt 1f mit K}{1,...,k ein J}{1,...,j j|ky; =∈∈

Page 15: Bivariate Daten: Tabellarische und ... - Fakultät Statistikraabe/Handouts04.pdf · mathematische Statistik für Informatiker Spiel HerkunftSchiri Gelb Spiel HerkunftSchiri Gelb Tot‘ham

Bivariate Daten: Zusammenhangsmaße

15Nils Raabe: Wahrscheinlichkeitsrechnung und

mathematische Statistik für Informatiker

Nominale Daten

Wert von Y lässt sich bei Kenntnis von X umso besser vorhersagen, je stärker die bedingte Verteilung fY|X von Y gegeben X von der Randverteilung f•Y von Y abweicht.

Ein Maß, dass desto größer wird, je größer die Abweichung der bedingten Verteilung fY|X von der Randverteilung f•Y ist, ist also ein sinnvolles Zusammenhangsmaß.

Y

y(1) y(2) … y(K) Σ

X

x(1) fy;1|1 fy;2|1 … fy;K|1 1

x(2) fy;1|2 fy;2|2 … fy;K|2 1

… … … … … …

x(J) fy;1|J fy;2|J … fy;K|J 1

f•1 f•2 … f•K

Page 16: Bivariate Daten: Tabellarische und ... - Fakultät Statistikraabe/Handouts04.pdf · mathematische Statistik für Informatiker Spiel HerkunftSchiri Gelb Spiel HerkunftSchiri Gelb Tot‘ham

Bivariate Daten: Zusammenhangsmaße

16Nils Raabe: Wahrscheinlichkeitsrechnung und

mathematische Statistik für Informatiker

Nominale Daten

Ein Maß, dass desto größer wird, je größer die Abweichung der bedingten Verteilung fY|X von der Randverteilung f•Y ist, ist also ein sinnvolles Zusammenhangsmaß.

Wären bedingte und Randverteilung identisch, so würde ein Anteil vonvon f0;jk= f•k·fj• an den N Daten in Kategorie (x(j), y(k)) fallen.

Dieser Fall wird als empirische

Unabhängigkeit von X und Y bezeichnet.

Y

y(1) y(2) … y(K) Σ

X

x(1) f0;11 f0;12 … f0;1K f1•

x(2) f0;21 f0;22 … f0;2K f2•

… … … … … …

x(J) f0;J1 f0;J2 … f0;JK fJ•

Σ f•1 f•2 … f•K 1

Page 17: Bivariate Daten: Tabellarische und ... - Fakultät Statistikraabe/Handouts04.pdf · mathematische Statistik für Informatiker Spiel HerkunftSchiri Gelb Spiel HerkunftSchiri Gelb Tot‘ham

Bivariate Daten: Zusammenhangsmaße

17Nils Raabe: Wahrscheinlichkeitsrechnung und

mathematische Statistik für Informatiker

Nominale Daten

Ein Maß, dass desto größer wird, je größer die Abweichung der bedingten Verteilung fY|X von der Randverteilung f•Y ist, ist also ein sinnvolles Zusammenhangsmaß.

Y

y(1) y(2) … y(K) Σ

X

x(1) ν11 ν12 … ν1K N1•

x(2) ν21 ν22 … ν2K N2•

… … … … … …

x(J) νJ1 νJ2 … νJK NJ•

Σ N•1 N•2 … N•K N

erwartet.x(k)) (x(j), Kategorie in genBeobachtun

N

NN

NN

NNN Nff ν

keitUnabhängig bei würden Somit

jkjk

jkjk

••••••

⋅=

⋅⋅⋅

=⋅⋅=

Page 18: Bivariate Daten: Tabellarische und ... - Fakultät Statistikraabe/Handouts04.pdf · mathematische Statistik für Informatiker Spiel HerkunftSchiri Gelb Spiel HerkunftSchiri Gelb Tot‘ham

Bivariate Daten: Zusammenhangsmaße

18Nils Raabe: Wahrscheinlichkeitsrechnung und

mathematische Statistik für Informatiker

Nominale Daten

Je größer die beobachteten Anzahlen Njk von den erwarteten νjk abweichen, desto mehr unterscheiden sich bedingte und Randverteilungen. Ein Maß, dass auf der quadratischen Abweichung der erwarteten von den beobachteten Häufigkeiten basiert, ist die χ2-Größe

Y

y(1) y(2) … y(K) Σ

X

x(1) (N11-ν11)2 (N12-ν12)2 … (N1K-ν1K)2 N1•

x(2) (N21-ν21)2 (N22-ν22)2 … (N2K-ν2K)2 N2•

… … … … … …

x(J) (NJ1-νJ1)2 (NJ2-νJ2)2 … (NJK-νJK)2 NJ•

Σ N•1 N•2 … N•K N

N

NNν ,

ν

)ν(Nχ kj

jk

J

1j

K

1k jk

2jkjk2 ••

= =

=−

=∑∑

Page 19: Bivariate Daten: Tabellarische und ... - Fakultät Statistikraabe/Handouts04.pdf · mathematische Statistik für Informatiker Spiel HerkunftSchiri Gelb Spiel HerkunftSchiri Gelb Tot‘ham

Bivariate Daten: Zusammenhangsmaße

19Nils Raabe: Wahrscheinlichkeitsrechnung und

mathematische Statistik für Informatiker

Nominale Daten: die χ2-Größe

Die χ2-Größe erfüllt die Forderung, desto größer zu werden, je größer die Abweichung der bedingten Verteilung fY|X von der Randverteilung f•Y ist.

N

NNν ,

ν

)ν(Nχ

kj

jk

J

1j

K

1k jk

2jkjk2 ••

= =

=−

=∑∑

∑∑∑∑

∑∑∑∑∑∑

= = •

••

= = ••

••

= = ••

••

= = ••

••

= = ••

••

−=

=

==

−=

J

1j

K

1k k

2kj|ky;j

J

1j

K

1k kj

2

k

j

jk2j

J

1j

K

1k kj

2kjjk

J

1j

K

1k kj

2kjjk

J

1j

K

1k kj

2

kj

jk

2

f

)f(fNf

ff

ff

fNf

ff

)ff-N(f

Nff

N)ff-N(f

NN

NN

NNN

χ

Page 20: Bivariate Daten: Tabellarische und ... - Fakultät Statistikraabe/Handouts04.pdf · mathematische Statistik für Informatiker Spiel HerkunftSchiri Gelb Spiel HerkunftSchiri Gelb Tot‘ham

Bivariate Daten: Zusammenhangsmaße

20Nils Raabe: Wahrscheinlichkeitsrechnung und

mathematische Statistik für Informatiker

Nominale Daten: die χ2-Größe

Alternative Darstellung der χ2-Größe

N

NNν ,

ν

)ν(Nχ

kj

jk

J

1j

K

1k jk

2jkjk2 ••

= =

=−

=∑∑

−=−=

+−=

+−=

+−=

−=

∑∑∑∑

∑∑∑∑

∑∑∑∑

= = ••= = ••

= = ••= =

••

••

••••

= = ••= = ••

••

1NN

NN N

NN

NN

N

N2N

NN

NN

N

NN2N

NN

NN

N

NN

N

NN2NN

NN

N

NN

NN

NNN

χ

J

1j

K

1k kj

2jk

J

1j

K

1k kj

2jk

2J

1j

K

1k kj

2jk

J

1j

K

1k

kj

jk

kj

2jk

2

kjkj

jk2jk

J

1j

K

1k kj

J

1j

K

1k kj

2

kj

jk

2

Page 21: Bivariate Daten: Tabellarische und ... - Fakultät Statistikraabe/Handouts04.pdf · mathematische Statistik für Informatiker Spiel HerkunftSchiri Gelb Spiel HerkunftSchiri Gelb Tot‘ham

Bivariate Daten: Zusammenhangsmaße

21Nils Raabe: Wahrscheinlichkeitsrechnung und

mathematische Statistik für Informatiker

Nominale Daten: die χ2-Größe

Es gilt: 0 ≤ χ2 ≤ N(min[J,K]-1)

Beweis:

0 ≤ χ2 klar wegen Nj• > 0, N•k > 0, (Njk – νjk)2 ≥ 0

0 = χ2 , wenn Njk = νjk, d.h. wenn alle bedingten Häufigkeiten den unter Unabhängigkeit erwarteten Häufigkeiten entsprechen. Nur möglich, wenn

N

NNν , 1

NN

NN

ν

)ν(N χ kj

jk

J

1j

K

1k kj

2jk

J

1j

K

1k jk

2jkjk2 ••

= = ••= =

=

−=

−= ∑∑∑∑

K.1,...,k und J1,...,j alle für ν jk ==ℵ∈

Page 22: Bivariate Daten: Tabellarische und ... - Fakultät Statistikraabe/Handouts04.pdf · mathematische Statistik für Informatiker Spiel HerkunftSchiri Gelb Spiel HerkunftSchiri Gelb Tot‘ham

Bivariate Daten: Zusammenhangsmaße

22Nils Raabe: Wahrscheinlichkeitsrechnung und

mathematische Statistik für Informatiker

Nominale Daten: die χ2-Größe

Es gilt: 0 ≤ χ2 ≤ N(min[J,K]-1)

Beweis:

N

NNν , 1

NN

NN

ν

)ν(N χ kj

jk

J

1j

K

1k kj

2jk

J

1j

K

1k jk

2jkjk2 ••

= = ••= =

=

−=

−= ∑∑∑∑

{∑∑∑∑∑∑∑

∑∑∑

== = •= =

≤••= = ••

=

•= = ••

==≤=⇒

≤=≤⇔−≤

J

1j

J

1j

K

1k j

jkJ

1j

K

1k

(*) 1

k

jk

j

jkJ

1j

K

1k kj

2jk

J

1jjk

jk

k

jkJ

1j

K

1k kj

2jk2

J 1 N

N

N

N

N

N

NN

N

(*) 1

N

N

N

N :gilt Es K)min(J,

NN

N 1)K]N(min[J, χ

Page 23: Bivariate Daten: Tabellarische und ... - Fakultät Statistikraabe/Handouts04.pdf · mathematische Statistik für Informatiker Spiel HerkunftSchiri Gelb Spiel HerkunftSchiri Gelb Tot‘ham

K)min(J, NN

N damit und K

NN

N analog , J

NN

N J

1j

K

1k kj

2jk

J

1j

K

1k kj

2jk

J

1j

K

1k kj

2jk ≤≤≤ ∑∑∑∑∑∑

= = ••= = ••= = ••

Bivariate Daten: Zusammenhangsmaße

23Nils Raabe: Wahrscheinlichkeitsrechnung und

mathematische Statistik für Informatiker

Nominale Daten: die χ2-Größe

Es gilt: 0 ≤ χ2 ≤ N(min[J,K]-1)

Beweis:

N

NNν , 1

NN

NN

ν

)ν(N χ kj

jk

J

1j

K

1k kj

2jk

J

1j

K

1k jk

2jkjk2 ••

= = ••= =

=

−=

−= ∑∑∑∑

K)min(J, NN

N 1)K]N(min[J, χ

J

1j

K

1k kj

2jk2 ≤⇔−≤ ∑∑

= = ••

Page 24: Bivariate Daten: Tabellarische und ... - Fakultät Statistikraabe/Handouts04.pdf · mathematische Statistik für Informatiker Spiel HerkunftSchiri Gelb Spiel HerkunftSchiri Gelb Tot‘ham

Bivariate Daten: Zusammenhangsmaße

24Nils Raabe: Wahrscheinlichkeitsrechnung und

mathematische Statistik für Informatiker

Nominale Daten: die χ2-Größe

Wann gilt: χ2 = N(min[J,K]-1) ?

Sei o.B.d.A. K ≤ J. Dann gilt für alle k = 1,…,K und j = 1,…,J mit Njk > 0:

d.h. χ2 wird maximal, wenn es zu jedem j ein k(j) mit fy,k(j)|j = 1 gibt.

N

NNν , 1

NN

NN

ν

)ν(N χ kj

jk

J

1j

K

1k kj

2jk

J

1j

K

1k jk

2jkjk2 ••

= = ••= =

=

−=

−= ∑∑∑∑

, 1 N

N K

NN

N

j

jkJ

1j

K

1k kj

2jk =⇔=

•= = ••∑∑

Page 25: Bivariate Daten: Tabellarische und ... - Fakultät Statistikraabe/Handouts04.pdf · mathematische Statistik für Informatiker Spiel HerkunftSchiri Gelb Spiel HerkunftSchiri Gelb Tot‘ham

Bivariate Daten: Zusammenhangsmaße

25Nils Raabe: Wahrscheinlichkeitsrechnung und

mathematische Statistik für Informatiker

Nominale Daten: die χ2-Größe

N

NNν , 1

NN

NN

ν

)ν(N χ kj

jk

J

1j

K

1k kj

2jk

J

1j

K

1k jk

2jkjk2 ••

= = ••= =

=

−=

−= ∑∑∑∑

0N , 1 N

N K

NN

Njk

j

jkJ

1j

K

1k kj

2jk >=⇔=

•= = ••∑∑

1.fN

N

mit existieren k(j) ein j jedem zu also muss Gleichheit die Für

K N

N

N

N

N

N gilt so gibt, 1

N

N0 mit k)(j, ein es Falls

"" :Beweis

j|k(j)y;

j

jk(j)

J

1j

K

1k k

jkJ

1j

K

1k j

jk

k

jk

j

jk

==

=<<<

= = •= = •••∑∑∑∑

Page 26: Bivariate Daten: Tabellarische und ... - Fakultät Statistikraabe/Handouts04.pdf · mathematische Statistik für Informatiker Spiel HerkunftSchiri Gelb Spiel HerkunftSchiri Gelb Tot‘ham

Bivariate Daten: Zusammenhangsmaße

26Nils Raabe: Wahrscheinlichkeitsrechnung und

mathematische Statistik für Informatiker

Nominale Daten: die χ2-Größe

N

NNν , 1

NN

NN

ν

)ν(N χ kj

jk

J

1j

K

1k kj

2jk

J

1j

K

1k jk

2jkjk2 ••

= = ••= =

=

−=

−= ∑∑∑∑

0N , 1 N

N K

NN

Njk

j

jkJ

1j

K

1k kj

2jk >=⇔=

•= = ••∑∑

KN/N

/NN NN

NN

NN

NN

N N N

N1f

"" :Beweis

K

1k k})jk(|j{j

jk(j)

k})jk(|j{j

jk(j)

K

1kk

k})jk(|j{jjk(j)

K

1k k})jk(|j{j kj

jk(j)jk(j)K

1k

J

1j kj

jkjk

jjk(j)

j

jk(j)

j|k(j)y;

=

=

==⇒

=⇒==

∑ ∑∑

∑ ∑∑ ∑∑∑

= =∈=∈

=•

=∈= =∈ ••= = ••

••

~~~~

~~~~

Page 27: Bivariate Daten: Tabellarische und ... - Fakultät Statistikraabe/Handouts04.pdf · mathematische Statistik für Informatiker Spiel HerkunftSchiri Gelb Spiel HerkunftSchiri Gelb Tot‘ham

Bivariate Daten: Zusammenhangsmaße

27Nils Raabe: Wahrscheinlichkeitsrechnung und

mathematische Statistik für Informatiker

Nominale Daten: die χ2-Größe

Es gilt: 0 ≤ χ2 ≤ N(min[J,K]-1)

Kontingenzkoeffizient nach Pearson

N

NNν , 1

NN

NN

ν

)ν(N χ kj

jk

J

1j

K

1k kj

2jk

J

1j

K

1k jk

2jkjk2 ••

= = ••= =

=

−=

−= ∑∑∑∑

[0,1] 1K)min(J,

K)min(J,

χC

2

2

∈−+

=

Page 28: Bivariate Daten: Tabellarische und ... - Fakultät Statistikraabe/Handouts04.pdf · mathematische Statistik für Informatiker Spiel HerkunftSchiri Gelb Spiel HerkunftSchiri Gelb Tot‘ham

Bivariate Daten: Zusammenhangsmaße

28Nils Raabe: Wahrscheinlichkeitsrechnung und

mathematische Statistik für Informatiker

Nominale Daten: die χ2-Größe

Wert von Y lässt sich bei Kenntnis von X umso besser vorhersagen, je stärker die bedingte Verteilung fY|X von Y gegeben X von der Randverteilung f•Y von Y abweicht.

Beispiel J = K = 2, N1• = N2• = N•1= N•2 = 50 (=> ν11 = ν12 = ν21 = ν22 = 25)

χ2 C χ2

N11 N11 |fy;1|1-f•1|

Page 29: Bivariate Daten: Tabellarische und ... - Fakultät Statistikraabe/Handouts04.pdf · mathematische Statistik für Informatiker Spiel HerkunftSchiri Gelb Spiel HerkunftSchiri Gelb Tot‘ham

Bivariate Daten: Zusammenhangsmaße

29Nils Raabe: Wahrscheinlichkeitsrechnung und

mathematische Statistik für Informatiker

Nominale Daten: Beispiel Bearbeitungen von Softwareaufgaben

Njk

Aufgabe

Abfrage Export Verknüpfung Σ

Bearbei-ter(in)

Kai 0 1 1 2

Miriam 0 3 0 3

Oliver 2 1 1 4

Tina 0 1 2 3

Σ 2 6 4 12

Page 30: Bivariate Daten: Tabellarische und ... - Fakultät Statistikraabe/Handouts04.pdf · mathematische Statistik für Informatiker Spiel HerkunftSchiri Gelb Spiel HerkunftSchiri Gelb Tot‘ham

Bivariate Daten: Zusammenhangsmaße

30Nils Raabe: Wahrscheinlichkeitsrechnung und

mathematische Statistik für Informatiker

Nominale Daten: Beispiel Bearbeitungen von Softwareaufgaben

νjk

Aufgabe

Abfrage Export Verknüpfung Σ

Bearbei-ter(in)

Kai 02·2/12=1/3

12·6/12=1

12·4/12=2/3

2

Miriam 03·2/12=1/2

33·6/12=3/2

03·4/12=1

3

Oliver 24·2/12=2/3

14·6/12=2

14·4/12=4/3

4

Tina 03·2/12=1/2

13·6/12=3/2

23·4/12=1

3

Σ 2 6 4 12

Page 31: Bivariate Daten: Tabellarische und ... - Fakultät Statistikraabe/Handouts04.pdf · mathematische Statistik für Informatiker Spiel HerkunftSchiri Gelb Spiel HerkunftSchiri Gelb Tot‘ham

Bivariate Daten: Zusammenhangsmaße

31Nils Raabe: Wahrscheinlichkeitsrechnung und

mathematische Statistik für Informatiker

Nominale Daten: Beispiel Bearbeitungen von Softwareaufgaben

(Njk-νjk)2

Aufgabe

Abfrage Export Verknüpfung Σ

Bearbei-ter(in)

Kai 0(0-1/3)2=1/9

1(1-1)2=0

1(1-2/3)2=1/9

2

Miriam 0(0-1/2)2=1/4

3(3-3/2)2=9/4

0(0-1)2=1

3

Oliver 2(2-2/3)2=16/9

1(1-2)2=1

1(1-4/3)2=1/9

4

Tina 0(0-1/2)2=1/4

1(1-3/2)2=1/4

2(2-1)2=1

3

Σ 2 6 4 12

Page 32: Bivariate Daten: Tabellarische und ... - Fakultät Statistikraabe/Handouts04.pdf · mathematische Statistik für Informatiker Spiel HerkunftSchiri Gelb Spiel HerkunftSchiri Gelb Tot‘ham

Bivariate Daten: Zusammenhangsmaße

32Nils Raabe: Wahrscheinlichkeitsrechnung und

mathematische Statistik für Informatiker

Nominale Daten: Beispiel Bearbeitungen von Softwareaufgaben

(Njk-νjk)2/νjk

Aufgabe

Abfrage Export Verknüpfung Σ

Bearbei-ter(in)

Kai 01·3/(9·1)=1/3

10/1=0

11·3/(9·2)=1/6

2

Miriam 01·2/(4·1)=1/2

39·2/(4·3)=3/2

01/1=1

3

Oliver 216·3/(9·2)=8/3

11/2

11·3/(9·4)=1/12

4

Tina 01·2/(4·1)=1/2

11·2/(4·3)=1/6

21/1=1

3

Σ 2 6 4 12

Page 33: Bivariate Daten: Tabellarische und ... - Fakultät Statistikraabe/Handouts04.pdf · mathematische Statistik für Informatiker Spiel HerkunftSchiri Gelb Spiel HerkunftSchiri Gelb Tot‘ham

Bivariate Daten: Zusammenhangsmaße

33Nils Raabe: Wahrscheinlichkeitsrechnung und

mathematische Statistik für Informatiker

Nominale Daten: Beispiel Bearbeitungen von Softwareaufgaben

(Njk-νjk)2/νjk

Aufgabe

Abfrage Export Verknüpfung Σ

Bearbei-ter(in)

Kai 1/3 0 1/6 2

Miriam 1/2 3/2 1 3

Oliver 8/3 1/2 1/12 4

Tina 1/2 1/6 1 3

Σ 2 6 4 12

8.417 12

58

12

101

12112226180

63264

12

1

ν

)ν(N χ

J

1j

K

1k jk

2jkjk2 ≈==

++++++++

+++=

−= ∑∑

= =

Page 34: Bivariate Daten: Tabellarische und ... - Fakultät Statistikraabe/Handouts04.pdf · mathematische Statistik für Informatiker Spiel HerkunftSchiri Gelb Spiel HerkunftSchiri Gelb Tot‘ham

Bivariate Daten: Zusammenhangsmaße

34Nils Raabe: Wahrscheinlichkeitsrechnung und

mathematische Statistik für Informatiker

Nominale Daten: Beispiel Bearbeitungen von Softwareaufgaben

(Njk-νjk)2/νjk

Aufgabe

Abfrage Export Verknüpfung Σ

Bearbei-ter(in)

Kai 1/3 0 1/6 2

Miriam 1/2 3/2 1 3

Oliver 8/3 1/2 1/12 4

Tina 1/2 1/6 1 3

Σ 2 6 4 12

0.786 490

303

2

3

24512

12101

1K)min(J,

K)min(J,

χ C ,

12

101 χ

2

22 ≈=⋅

⋅⋅=

−+==

Page 35: Bivariate Daten: Tabellarische und ... - Fakultät Statistikraabe/Handouts04.pdf · mathematische Statistik für Informatiker Spiel HerkunftSchiri Gelb Spiel HerkunftSchiri Gelb Tot‘ham

Bivariate Daten: Zusammenhangsmaße

35Nils Raabe: Wahrscheinlichkeitsrechnung und

mathematische Statistik für Informatiker

Ordinale Daten

Allgemein: Zusammenhang (=Korrelation) zwischen Y und X desto größer, je besser sich der Wert von Y unter Kenntnis des Werts von X vorhersagen lässt (oder umgekehrt).

Wert von Y lässt sich bei Kenntnis von X umso besser vorhersagen, je mehr ein hoher Wert von X einen hohen Wert von Y impliziert (positiver Zusammenhang) bzw. je mehr ein hoher Wert von X einen niedrigen Wert von Y impliziert (negativer

Zusammenhang).

Page 36: Bivariate Daten: Tabellarische und ... - Fakultät Statistikraabe/Handouts04.pdf · mathematische Statistik für Informatiker Spiel HerkunftSchiri Gelb Spiel HerkunftSchiri Gelb Tot‘ham

36Nils Raabe: Wahrscheinlichkeitsrechnung und

mathematische Statistik für Informatiker

Ordinale Daten

Beispiel 15-Punkte-Benotungssystem: Noten in den Fächern Mathematik und Physik

Latente Leistung λx ,Benotung x= f (λx)

Bivariate Daten: Zusammenhangsmaße

Page 37: Bivariate Daten: Tabellarische und ... - Fakultät Statistikraabe/Handouts04.pdf · mathematische Statistik für Informatiker Spiel HerkunftSchiri Gelb Spiel HerkunftSchiri Gelb Tot‘ham

37Nils Raabe: Wahrscheinlichkeitsrechnung und

mathematische Statistik für Informatiker

Ordinale Daten

Beispiel 15-Punkte-Benotungssystem: Noten in den Fächern Mathematik und Physik

Zusammenhang zwischen Leistungen

Bivariate Daten: Zusammenhangsmaße

Page 38: Bivariate Daten: Tabellarische und ... - Fakultät Statistikraabe/Handouts04.pdf · mathematische Statistik für Informatiker Spiel HerkunftSchiri Gelb Spiel HerkunftSchiri Gelb Tot‘ham

38Nils Raabe: Wahrscheinlichkeitsrechnung und

mathematische Statistik für Informatiker

Ordinale Daten

Beispiel 15-Punkte-Benotungssystem: Noten in den Fächern Mathematik und Physik

Zusammenhang zwischen Noten bei unterschiedlicher Skalierung

Bivariate Daten: Zusammenhangsmaße

Page 39: Bivariate Daten: Tabellarische und ... - Fakultät Statistikraabe/Handouts04.pdf · mathematische Statistik für Informatiker Spiel HerkunftSchiri Gelb Spiel HerkunftSchiri Gelb Tot‘ham

39Nils Raabe: Wahrscheinlichkeitsrechnung und

mathematische Statistik für Informatiker

Ordinale Daten

Beispiel 15-Punkte-Benotungssystem: Noten in den Fächern Mathematik und Physik

Zusammenhang zwischen Notenrängen bei unterschiedlicher Skalierung

Bivariate Daten: Zusammenhangsmaße

Page 40: Bivariate Daten: Tabellarische und ... - Fakultät Statistikraabe/Handouts04.pdf · mathematische Statistik für Informatiker Spiel HerkunftSchiri Gelb Spiel HerkunftSchiri Gelb Tot‘ham

Bivariate Daten: Zusammenhangsmaße

40Nils Raabe: Wahrscheinlichkeitsrechnung und

mathematische Statistik für Informatiker

Ordinale Daten

Allgemein: Zusammenhang (=Korrelation) zwischen Y und X desto größer, je besser sich der Wert von Y unter Kenntnis des Werts von X vorhersagen lässt (oder umgekehrt).

Wert von Y lässt sich bei Kenntnis von X umso besser vorhersagen, je mehr ein hoher Rang von X einen hohen Rang von Y impliziert (positiver Zusammenhang) bzw. je mehr ein hoher Rang von X einen niedrigen Rang von Y impliziert (negativer Zusammenhang).

Ein sinnvolles Zusammenhangsmaß für ordinale Daten sollte also im Absolutwert hoch sein, wenn hohe Ränge von X mit hohen bzw. niedrigen Rängen von Y einhergehen und niedrig, wenn Paare von hohen und hohen, hohen und niedrigen, niedrigen und hohen sowie niedrigen und niedrigen X- und Y-Rängen in gleichem Maße auftreten.

Page 41: Bivariate Daten: Tabellarische und ... - Fakultät Statistikraabe/Handouts04.pdf · mathematische Statistik für Informatiker Spiel HerkunftSchiri Gelb Spiel HerkunftSchiri Gelb Tot‘ham

Bivariate Daten: Zusammenhangsmaße

41Nils Raabe: Wahrscheinlichkeitsrechnung und

mathematische Statistik für Informatiker

Quantitative Daten

Allgemein: Zusammenhang (=Korrelation) zwischen Y und X desto größer, je besser sich der Wert von Y unter Kenntnis des Werts von X vorhersagen lässt (oder umgekehrt).

Wert von Y lässt sich bei Kenntnis von X umso besser vorhersagen, je mehr ein hoher Wert von X einen hohen Wert von Y impliziert (positiver Zusammenhang) bzw. je mehr ein hoher Wert von X einen niedrigen Wert von Y impliziert (negativer Zusammenhang).

Ein sinnvolles Zusammenhangsmaß für quantit. Daten sollte also im Absolutwert hoch sein, wenn hohe Werte von X mit hohen bzw. niedrigen Werten von Y einhergehen und niedrig, wenn Paare von hohen und hohen, hohen und niedrigen, niedrigen und hohen sowie niedrigen und niedrigen X- und Y-Werten in gleichem Maße auftreten.

Page 42: Bivariate Daten: Tabellarische und ... - Fakultät Statistikraabe/Handouts04.pdf · mathematische Statistik für Informatiker Spiel HerkunftSchiri Gelb Spiel HerkunftSchiri Gelb Tot‘ham

Bivariate Daten: Zusammenhangsmaße

42Nils Raabe: Wahrscheinlichkeitsrechnung und

mathematische Statistik für Informatiker

Quantitative Daten

Allgemein: Zusammenhang (=Korrelation) zwischen Y und X desto größer, je besser sich der Wert von Y unter Kenntnis des Werts von X vorhersagen lässt (oder umgekehrt).

Kovarianz:

sxy>0, wenn hohe Werte von X in hohem Maße mit hohen Werten von Y einhergehen

(Positive Korrelation)

sxy<0, wenn hohe Werte von X in hohem Maße mit niedrigen Werten von Y einhergehen (Negative Korrelation)

sxy=0, wenn hohe Werte von X in gleichem Maße mit hohen Werten wie mit niedrigen Werten von Y einhergehen (Unkorreliertheit)

)y(y)x(x1N

1s n

N

1n

nxy −−−

= ∑=

Page 43: Bivariate Daten: Tabellarische und ... - Fakultät Statistikraabe/Handouts04.pdf · mathematische Statistik für Informatiker Spiel HerkunftSchiri Gelb Spiel HerkunftSchiri Gelb Tot‘ham

Bivariate Daten: Zusammenhangsmaße

43Nils Raabe: Wahrscheinlichkeitsrechnung und

mathematische Statistik für Informatiker

Quantitative Daten: Kovarianz )y(y )x(x 1N

1s n

N

1n

nxy −−−

= ∑=

Page 44: Bivariate Daten: Tabellarische und ... - Fakultät Statistikraabe/Handouts04.pdf · mathematische Statistik für Informatiker Spiel HerkunftSchiri Gelb Spiel HerkunftSchiri Gelb Tot‘ham

Bivariate Daten: Zusammenhangsmaße

44Nils Raabe: Wahrscheinlichkeitsrechnung und

mathematische Statistik für Informatiker

Quantitative Daten: Kovarianz )y(y )x(x 1N

1s n

N

1n

nxy −−−

= ∑=

0)y(y)x(x

0

n

0

n <−⋅−><321321

0)y(y)x(x

0

n

0

n <−⋅−<>321321

0)y(y)x(x

0

n

0

n >−⋅−<<321321

0)y(y)x(x

0

n

0

n >−⋅−>>321321

x

y

Page 45: Bivariate Daten: Tabellarische und ... - Fakultät Statistikraabe/Handouts04.pdf · mathematische Statistik für Informatiker Spiel HerkunftSchiri Gelb Spiel HerkunftSchiri Gelb Tot‘ham

Bivariate Daten: Zusammenhangsmaße

45Nils Raabe: Wahrscheinlichkeitsrechnung und

mathematische Statistik für Informatiker

Quantitative Daten

Kovarianz

Beweis analog zu Beweis von

( )yxxy1N

N yxNyx

1N

1 )y(y)x(x

1N

1 s

N

1n

nnn

N

1n

nxy ⋅−−

=

−−

=−−−

= ∑∑==

222x xx d −=

( )yxxy1N

Nyx

1N

Nyx

1N

N-yx

1N

Nxy

1N

N

yxy1N

1xyx

1N

1yx

1N

1

)yxyx-yxy(x1N

1 )y(y)x(x

1N

1 s

N

1ni

N

1ni

N

1nnn

N

1nnnnnn

N

1nnxy

⋅−−

=⋅−

+⋅−

⋅−

−−

=

⋅+

−−

−−

−=

⋅+−−

=−−−

=

∑∑∑

∑∑

===

==

Page 46: Bivariate Daten: Tabellarische und ... - Fakultät Statistikraabe/Handouts04.pdf · mathematische Statistik für Informatiker Spiel HerkunftSchiri Gelb Spiel HerkunftSchiri Gelb Tot‘ham

Bivariate Daten: Zusammenhangsmaße

46Nils Raabe: Wahrscheinlichkeitsrechnung und

mathematische Statistik für Informatiker

Quantitative Daten

Kovarianz

Für die Kovarianz sxy gilt:

yxxyyx sssss ≤≤−

Page 47: Bivariate Daten: Tabellarische und ... - Fakultät Statistikraabe/Handouts04.pdf · mathematische Statistik für Informatiker Spiel HerkunftSchiri Gelb Spiel HerkunftSchiri Gelb Tot‘ham

Bivariate Daten: Zusammenhangsmaße

47Nils Raabe: Wahrscheinlichkeitsrechnung und

mathematische Statistik für Informatiker

Quantitative Daten: Kovarianz

Beweis: Spezialfall der Cauchy-Schwarz-Ungleichung:

yxxyyx sssss ≤≤−

yxxyyx

N

1n

2n

N

1n

2n

N

1n

nn

N

1n

2n

N

1n

2n

N

1n

2n

N

1n

2n

N

1n

nn

N

1n

2n

N

1n

2n

N

1n

2n

N

1n

2n

2N

1nnn

N

1n

2n

N

1n

2n

2N

1nnn

2nn

ss s ss

1N

) y(y

1N

) x(x

1N

) y)(y x(x

1N

) y(y

1N

) x(x

) y(y) x(x ) y)(y x(x ) y(y) x(x

) y(y) x(x) y)(y x(x baba gilt ,)b,(a für

≤≤−⇔

−≤

−−≤

−−⇔

−⋅−≤

−−≤−⋅−−⇔

−⋅−≤

−−⇒⋅≤

ℜ∈

∑∑∑∑∑

∑∑∑∑∑

∑∑∑∑∑∑

=====

=====

======

Page 48: Bivariate Daten: Tabellarische und ... - Fakultät Statistikraabe/Handouts04.pdf · mathematische Statistik für Informatiker Spiel HerkunftSchiri Gelb Spiel HerkunftSchiri Gelb Tot‘ham

Bivariate Daten: Zusammenhangsmaße

48Nils Raabe: Wahrscheinlichkeitsrechnung und

mathematische Statistik für Informatiker

Quantitative Daten: Kovarianz

Es gilt: – sxsy ≤ sxy ≤ sxsy

Korrelationskoeffizient nach Bravais-Pearson

yx

xy

xyss

sr =

)y(y )x(x 1N

1s n

N

1n

nxy −−−

= ∑=

Page 49: Bivariate Daten: Tabellarische und ... - Fakultät Statistikraabe/Handouts04.pdf · mathematische Statistik für Informatiker Spiel HerkunftSchiri Gelb Spiel HerkunftSchiri Gelb Tot‘ham

Bivariate Daten: Zusammenhangsmaße

49Nils Raabe: Wahrscheinlichkeitsrechnung und

mathematische Statistik für Informatiker

Quantitative Daten: Korrelationskoeffizient nach Bravais-Pearson

1r1 sssss ss

sr xyyxxyyx

yx

xy

xy ≤≤−⇒≤≤−=

( ) ( )

liegen. Geraden einerauf y und x alle wenn 1, dann genau ist |r| heißt, Das

xd-ycc mit xdcy

x-xdcy-y 1,1}{r

n alle für adcb mit d und c Konstanten gibt es baba

gilt ,)b,(a für

gUngleichun-Schwarz-Cauchy der bei sbedingungGleichheit

nnxy

nn

nnxy

nn

N

1n

2n

N

1n

2n

2N

1nnn

2nn

+=⋅+=⇔⋅+=⇔−∈

⋅+=⇔⋅=

ℜ∈

∑∑∑===

~~

Page 50: Bivariate Daten: Tabellarische und ... - Fakultät Statistikraabe/Handouts04.pdf · mathematische Statistik für Informatiker Spiel HerkunftSchiri Gelb Spiel HerkunftSchiri Gelb Tot‘ham

Bivariate Daten: Zusammenhangsmaße

50Nils Raabe: Wahrscheinlichkeitsrechnung und

mathematische Statistik für Informatiker

Quantitative Daten: Kovarianz )xdcdx(c )x(x 1N

1s n

N

1n

nxy +−+−−

= ∑=

x

y

1rxy =

Page 51: Bivariate Daten: Tabellarische und ... - Fakultät Statistikraabe/Handouts04.pdf · mathematische Statistik für Informatiker Spiel HerkunftSchiri Gelb Spiel HerkunftSchiri Gelb Tot‘ham

Bivariate Daten: Zusammenhangsmaße

51Nils Raabe: Wahrscheinlichkeitsrechnung und

mathematische Statistik für Informatiker

Quantitative Daten: Korrelationskoeffizient nach Bravais-Pearson

Nicht-linearer monotoner Zusammenhangx

0.965rxy =

y

Page 52: Bivariate Daten: Tabellarische und ... - Fakultät Statistikraabe/Handouts04.pdf · mathematische Statistik für Informatiker Spiel HerkunftSchiri Gelb Spiel HerkunftSchiri Gelb Tot‘ham

Bivariate Daten: Zusammenhangsmaße

52Nils Raabe: Wahrscheinlichkeitsrechnung und

mathematische Statistik für Informatiker

Ordinale/Quantitative Daten: Nicht-linearer monotoner Zusammenhang

Übergang zu Rängenx

y

0.965rxy =

Page 53: Bivariate Daten: Tabellarische und ... - Fakultät Statistikraabe/Handouts04.pdf · mathematische Statistik für Informatiker Spiel HerkunftSchiri Gelb Spiel HerkunftSchiri Gelb Tot‘ham

Bivariate Daten: Zusammenhangsmaße

53Nils Raabe: Wahrscheinlichkeitsrechnung und

mathematische Statistik für Informatiker

Ordinale/Quantitative Daten: Nicht-linearer monotoner Zusammenhang

Übergang zu RängenR(x)

1rR(x)R(y) =

R(y)

R(x)

R(y

)

Page 54: Bivariate Daten: Tabellarische und ... - Fakultät Statistikraabe/Handouts04.pdf · mathematische Statistik für Informatiker Spiel HerkunftSchiri Gelb Spiel HerkunftSchiri Gelb Tot‘ham

Bivariate Daten: Zusammenhangsmaße

54Nils Raabe: Wahrscheinlichkeitsrechnung und

mathematische Statistik für Informatiker

Ordinale/Quantitative Daten

Absolute Korrelation von Rängen bei monotonem Zusammenhang immer 1

0.965rxy =

1rR(x)R(y) =

0.79rxy =

0.979rxy =

0.952rxy =

Page 55: Bivariate Daten: Tabellarische und ... - Fakultät Statistikraabe/Handouts04.pdf · mathematische Statistik für Informatiker Spiel HerkunftSchiri Gelb Spiel HerkunftSchiri Gelb Tot‘ham

Bivariate Daten: Zusammenhangsmaße

55Nils Raabe: Wahrscheinlichkeitsrechnung und

mathematische Statistik für Informatiker

Ordinale/Quantitative Daten

Falls X und Y mindestens ordinales Skalenniveau haben, so wird der Bravais-Pearson-Korrelationskoeffizient der Ränge R(X) und R(X) von X und Y derSpearmansche Rangkorrelationskoeffizient rSp

xy von X und Y genannt:

( )( )

( ) ( )∑ ∑

= =

====N

1n

N

1n

2

n

2

n

N

1n

nn

R(y)R(x)

R(x)R(y)R(x)R(y)

Spxy

R(y)-)R(y R(x)-)R(x

R(y)-)R(y R(x)-)R(x

ss

s r r

Page 56: Bivariate Daten: Tabellarische und ... - Fakultät Statistikraabe/Handouts04.pdf · mathematische Statistik für Informatiker Spiel HerkunftSchiri Gelb Spiel HerkunftSchiri Gelb Tot‘ham

Bivariate Daten: Zusammenhangsmaße

56Nils Raabe: Wahrscheinlichkeitsrechnung und

mathematische Statistik für Informatiker

Ordinale/Quantitative Daten

Spearmansche Rangkorrelationskoeffizient

Falls keine Bindungen auftreten, d.h. R(xj)≠ R(xk) und R(yj)≠ R(yk) für alle j ≠ k, so gilt:

( )∑=

=N

1n

2

nn2

Spxy )R(y-)R(x

1)-N(N

6-1 r

∑ ∑∑

∑ ∑∑

= ==

= ==

++===

+===N

1n

N

1n

22n

N

1n

2n

N

1n

N

1n

n

N

1n

n

6

1)1)(2NN(N n )R(y )R(x und

2

1)N(N n )R(y )R(x :tzBeweisansa

Page 57: Bivariate Daten: Tabellarische und ... - Fakultät Statistikraabe/Handouts04.pdf · mathematische Statistik für Informatiker Spiel HerkunftSchiri Gelb Spiel HerkunftSchiri Gelb Tot‘ham

Bivariate Daten: Zusammenhangsmaße

57Nils Raabe: Wahrscheinlichkeitsrechnung und

mathematische Statistik für Informatiker

Ordinale/Quantitative Daten: Beispiel Bearbeitungen von Softwareaufgaben

Anzahl

Clicks

Rang

Bear-

beitungszeit

Rang

14 7.5 8.0 11

12 4.5 4.9 8

12 4.5 6.6 10

13 6 3.2 1

17 11 3.9 5

11 3 4.5 7

14 7.5 6.1 9

10 1.5 3.7 3.5

10 1.5 4.2 6

18 12 8.5 12

16 10 3.6 2

15 9 3.7 3.5

7s

13.5x2x

4

4==

3.24s

5.075x2x

5

5==

0.301 )3.24711.375)]/(1(1.51.475)(2.53.425)(4.5

0.875)3.5(1.375)3.5(1.025)(0.5 0.575)2.5(1.175)(3.51.875)0.5(

1.525)1.5(0.175)1.5(2.925)[(0.5r 54xx

=⋅⋅−⋅+−⋅+⋅++−⋅−+−⋅−+⋅

+−⋅−+−⋅+−⋅−+⋅−+−⋅−+⋅=

0.111 25)3)]/(39.45(2.54.5)(3.55.5)(5.5 0.5)5(3)5(2.5)(1

0.5)3.5(1.5)(4.55.5)0.5(

3.5)2(1.5)2(4.5)[(1r Spxx 54

=−⋅+−⋅+⋅++−⋅−+−⋅−+⋅

+⋅−+−⋅+−⋅−+⋅−+⋅−+⋅=

Page 58: Bivariate Daten: Tabellarische und ... - Fakultät Statistikraabe/Handouts04.pdf · mathematische Statistik für Informatiker Spiel HerkunftSchiri Gelb Spiel HerkunftSchiri Gelb Tot‘ham

Bivariate Daten: Lineare Regression

58Nils Raabe: Wahrscheinlichkeitsrechnung und

mathematische Statistik für Informatiker

Quantitative Daten: Erinnerung

Allgemein: Zusammenhang (=Korrelation) zwischen Y und X desto größer, je besser sich der Wert von Y unter Kenntnis des Werts von X vorhersagen lässt (oder umgekehrt).

Bravais-Pearson-Korrelationskoeffizient misst linearen Zusammenhang.

Wie lässt sich der lineare Zusammenhang zur Vorhersage nutzen?

Page 59: Bivariate Daten: Tabellarische und ... - Fakultät Statistikraabe/Handouts04.pdf · mathematische Statistik für Informatiker Spiel HerkunftSchiri Gelb Spiel HerkunftSchiri Gelb Tot‘ham

Bivariate Daten: Lineare Regression

59Nils Raabe: Wahrscheinlichkeitsrechnung und

mathematische Statistik für Informatiker

Quantitative Daten

|rxy| = 1 <=> yn = c+dxn für n=1,…,N

Perfekte Vorhersage durch Einsetzen in die Gleichung.

kkjkjk

kk

kk

kjkj

kj

kjkj

kk

jj

x )x(x /)y(y y

dxyc dxcy

)x(x /)y(y d

)xd(x

)dx(c)dx(cyy

dxcy

dxcy:kj mit k)(j, beliebiges Für

−−−=−=⇔

+=

−−=⇔−=

+−+=−⇒

+=+=

Page 60: Bivariate Daten: Tabellarische und ... - Fakultät Statistikraabe/Handouts04.pdf · mathematische Statistik für Informatiker Spiel HerkunftSchiri Gelb Spiel HerkunftSchiri Gelb Tot‘ham

Bivariate Daten: Lineare Regression

60Nils Raabe: Wahrscheinlichkeitsrechnung und

mathematische Statistik für Informatiker

Quantitative Daten

0 <|rxy| < 1 <=> yn = c + dxn + εn für n=1,…,N

Vorhersagefehler εn = yn – c – dxn

Page 61: Bivariate Daten: Tabellarische und ... - Fakultät Statistikraabe/Handouts04.pdf · mathematische Statistik für Informatiker Spiel HerkunftSchiri Gelb Spiel HerkunftSchiri Gelb Tot‘ham

Bivariate Daten: Lineare Regression

61Nils Raabe: Wahrscheinlichkeitsrechnung und

mathematische Statistik für Informatiker

Quantitative Daten: Methode der kleinsten Quadrate

Koeffizienten c

und d so

bestimmen, dass

Fehlerquadrat-

summe

minimal

wird.

∑=

=N

1n

2nεd)Q(c,

Page 62: Bivariate Daten: Tabellarische und ... - Fakultät Statistikraabe/Handouts04.pdf · mathematische Statistik für Informatiker Spiel HerkunftSchiri Gelb Spiel HerkunftSchiri Gelb Tot‘ham

Bivariate Daten: Lineare Regression

62Nils Raabe: Wahrscheinlichkeitsrechnung und

mathematische Statistik für Informatiker

Quantitative Daten: Methode der kleinsten Quadrate

( )

( )

0 yxxdxcN

0yx2x2dx2Nc x ydxc2 d)Q(c,d

0yxd c 0 y2N-x2dN2Nc ydxc2 d)Q(c,c

Beweis

N

1nnn

N

1n

2n

N

1nnn

N

1n

2nn

N

1nnn

N

1nnn

=−+⇔

=−+=−+=∂∂

=−+⇔=+=−+=∂∂

∑∑

∑∑∑

==

===

=

( )

xs

s-y c und

s

s d

für minimal ist dxcy d)Q(c, ratsummeFehlerquad Die

2x

xy

2x

xy

N

1n

2

nn

==

−−=∑=

Page 63: Bivariate Daten: Tabellarische und ... - Fakultät Statistikraabe/Handouts04.pdf · mathematische Statistik für Informatiker Spiel HerkunftSchiri Gelb Spiel HerkunftSchiri Gelb Tot‘ham

( )

xs

syc (1) in (3) (3),

s

s

xx1/N

yxyx1/N

xNx

yxNyx

d

yxNyx xNxd 0 yxxdxN xd-y (2) in (1)

xdyc

0 yxxdxcN (2) 0yxd c (1)

Beweis

2x

xy

2x

xy

2N

1n

2n

N

1nnn

2N

1n

2n

N

1nnn

N

1n

nn2

N

1n

2n

N

1n

nn

N

1n

2n

N

1nnn

N

1n

2n

−==

⋅−=

⋅−=⇔

⋅−=

−⇔=−+

−=⇔

=−+=−+

∑∑∑∑

∑∑

=

=

=

=

====

==

Bivariate Daten: Lineare Regression

63Nils Raabe: Wahrscheinlichkeitsrechnung und

mathematische Statistik für Informatiker

Quantitative Daten: Methode der kleinsten Quadrate

( )

xs

s-y c und

s

s d

für minimal ist dxcy d)Q(c, ratsummeFehlerquad Die

2x

xy

2x

xy

N

1n

2

nn

==

−−=∑=

Page 64: Bivariate Daten: Tabellarische und ... - Fakultät Statistikraabe/Handouts04.pdf · mathematische Statistik für Informatiker Spiel HerkunftSchiri Gelb Spiel HerkunftSchiri Gelb Tot‘ham

0s4Nx4x4N

x2x2

x22N

det

x2 d)Q(c,dd

, x2 d)Q(c,dc

, 2N2d)Q(c,cc

yx2x2dx2Nc d)Q(c,d

, y2N-x2dN2Nc d)Q(c,c

Beweis

2x

2

2N

1nn

N

1n

2nN

1n

2n

N

1nn

N

1nn

N

1n

2n

N

1nn

N

1n

N

1nnn

N

1n

2n

>=

−=

=∂∂

∂=∂∂∂==

∂∂∂

−+=∂∂+=

∂∂

∑∑∑∑

∑∑∑

∑∑

==

==

=

===

==

Bivariate Daten: Lineare Regression

64Nils Raabe: Wahrscheinlichkeitsrechnung und

mathematische Statistik für Informatiker

Quantitative Daten: Methode der kleinsten Quadrate

( )

xs

s-y c und

s

s d

für minimal ist dxcy d)Q(c, ratsummeFehlerquad Die

2x

xy

2x

xy

N

1n

2

nn

==

−−=∑=

Page 65: Bivariate Daten: Tabellarische und ... - Fakultät Statistikraabe/Handouts04.pdf · mathematische Statistik für Informatiker Spiel HerkunftSchiri Gelb Spiel HerkunftSchiri Gelb Tot‘ham

Bivariate Daten: Lineare Regression

65Nils Raabe: Wahrscheinlichkeitsrechnung und

mathematische Statistik für Informatiker

Quantitative Daten: Methode der kleinsten Quadrate

Je größer die absolute Korrelation, desto kleiner die Fehlerquadratsumme

xs

s-y c und

s

s d

2x

xy

2x

xy ==

( )( )2

y2xy

2y

2y

2xy

2y

2xy

2y

2x

2

x

y

xyxy

x

y

xy2y

N

1n

2n

2

x

y

xynn

x

y

xy2

n

N

1n

2

n

x

y

xyn

N

1n

2

n

x

y

xy

x

y

xyn

N

1n

N

1n

2

n2x

xy

2x

xy

n2n

srs1)-(N

srs2rs1)-(N ss

srs

s

s2rs1)-(N

)x(xs

sr)x)(xy(y

s

s2r)y(y )x(x

s

sr)y(y

xs

sr)x

s

sry(y x

s

s)x

s

sy(y ε

−⋅=

+−⋅=

+−⋅=

+−−−−=

−−−=

−−−=

−−−=

∑∑

∑∑ ∑

==

== =

Page 66: Bivariate Daten: Tabellarische und ... - Fakultät Statistikraabe/Handouts04.pdf · mathematische Statistik für Informatiker Spiel HerkunftSchiri Gelb Spiel HerkunftSchiri Gelb Tot‘ham

Bivariate Daten: Lineare Regression

66Nils Raabe: Wahrscheinlichkeitsrechnung und

mathematische Statistik für Informatiker

Quantitative Daten: Methode der kleinsten Quadrate

Je größer die absolute Korrelation, desto kleiner die Fehlerquadratsumme

0.034rxy =

Page 67: Bivariate Daten: Tabellarische und ... - Fakultät Statistikraabe/Handouts04.pdf · mathematische Statistik für Informatiker Spiel HerkunftSchiri Gelb Spiel HerkunftSchiri Gelb Tot‘ham

Bivariate Daten: Lineare Regression

67Nils Raabe: Wahrscheinlichkeitsrechnung und

mathematische Statistik für Informatiker

Quantitative Daten: Methode der kleinsten Quadrate

Je größer die absolute Korrelation, desto kleiner die Fehlerquadratsumme

0.477rxy =

Page 68: Bivariate Daten: Tabellarische und ... - Fakultät Statistikraabe/Handouts04.pdf · mathematische Statistik für Informatiker Spiel HerkunftSchiri Gelb Spiel HerkunftSchiri Gelb Tot‘ham

Bivariate Daten: Lineare Regression

68Nils Raabe: Wahrscheinlichkeitsrechnung und

mathematische Statistik für Informatiker

Quantitative Daten: Methode der kleinsten Quadrate

Je größer die absolute Korrelation, desto kleiner die Fehlerquadratsumme

0.9rxy =

Page 69: Bivariate Daten: Tabellarische und ... - Fakultät Statistikraabe/Handouts04.pdf · mathematische Statistik für Informatiker Spiel HerkunftSchiri Gelb Spiel HerkunftSchiri Gelb Tot‘ham

Bivariate Daten: Lineare Regression

69Nils Raabe: Wahrscheinlichkeitsrechnung und

mathematische Statistik für Informatiker

Quantitative Daten: Methode der kleinsten Quadrate

Je größer die absolute Korrelation, desto kleiner die Fehlerquadratsumme

1rxy =

Page 70: Bivariate Daten: Tabellarische und ... - Fakultät Statistikraabe/Handouts04.pdf · mathematische Statistik für Informatiker Spiel HerkunftSchiri Gelb Spiel HerkunftSchiri Gelb Tot‘ham

Bivariate Daten: Lineare Regression

70Nils Raabe: Wahrscheinlichkeitsrechnung und

mathematische Statistik für Informatiker

Quantitative Daten: Beispiel Bearbeitungen von Softwareaufgaben

Anzahl

Clicks

Bear-

beitungszeit

c+dx4 ε

14 8.0 5.177 2.823

12 4.9 4.768 0.132

12 6.6 4.768 1.832

13 3.2 4.973 –1.773

17 3.9 5.791 –1.891

11 4.5 4.564 –0.064

14 6.1 5.177 0.922

10 3.7 4.359 –0.659

10 4.2 4.359 –0.159

18 8.5 5.995 2.505

16 3.6 5.586 –1.986

15 3.7 5.382 –1.682

7s

13.5x2x

4

4==

3.24s

5.075x2x

5

5==

0.301r 54xx =

0.205

7

3.240.301

s

srd

2.314

13.57

3.240.3015.075

xs

srx c

εdxcx

4

5

54

4

5

54

x

x

xx

4

x

x

xx5

45

=

==

=

−=

−=

++=

Page 71: Bivariate Daten: Tabellarische und ... - Fakultät Statistikraabe/Handouts04.pdf · mathematische Statistik für Informatiker Spiel HerkunftSchiri Gelb Spiel HerkunftSchiri Gelb Tot‘ham

Bivariate Daten: Lineare Regression

71Nils Raabe: Wahrscheinlichkeitsrechnung und

mathematische Statistik für Informatiker

Quantitative Daten: Beispiel Bearbeitungen von Softwareaufgaben

ε0.205x2.314x 45 ++=

Page 72: Bivariate Daten: Tabellarische und ... - Fakultät Statistikraabe/Handouts04.pdf · mathematische Statistik für Informatiker Spiel HerkunftSchiri Gelb Spiel HerkunftSchiri Gelb Tot‘ham

Zusammenfassung

72Nils Raabe: Wahrscheinlichkeitsrechnung und

mathematische Statistik für Informatiker

Bivariate Daten: Zusammenhangsmaße

Skalennivau →

↓Zusammenhangsmaß

Nominal Ordinal Quantitativ

χ2-Größe/ Kon-

tingenzkoeffizient

nach Pearson

Rangkorrelations-

koeffizient nach

Spearman

Korrelationskoeff.

nach Bravais-

Pearson/lin. Regr.

+ Robust + Allg. Zusammenhang– Informations-

verlust– Ausreißeranfällig – Lin. Zusammenhang+ Informations-

nutzung

– Nur für klassierteDaten

– Nur für J = 2

– Nur für J = 2

– Informations-verlust