Der Chi-Quadrat Test Beispieleismi/wakolbinger/teaching/Stat03/... · Der Chi-Quadrat Test testet H...

Preview:

Citation preview

Der Chi-Quadrat Test

Beispiele

Theorie

N = (Ni) i=1,...I

N = (Ni) i=1,...I

N multinomialverteilt

N ~ M(n,p)

N = (Ni) i=1,...I

N multinomialverteilt

N ~ M(n,p)

N+= n

N = (Ni) i=1,...I

N multinomialverteilt

N ~ M(n,p)

N+= n

p = (pi)

Beobachtungen B = (Bi)

Beobachtungen B = (Bi)

Nullhypothese H0: p = p°

Beobachtungen B = (Bi)

Nullhypothese H0: p = p°

Ist B mit H0 verträglich?

Beobachtungen B = (Bi)

Nullhypothese H0: p = p°

Ist B mit H0 verträglich?

Der Chi-Quadrat Test:

Beobachtungen B = (Bi)

Nullhypothese H0: p = p°

Ist B mit H0 verträglich?

Der Chi-Quadrat Test:

Ei := npi°

Beobachtungen B = (Bi)

Nullhypothese H0: p = p°

Ist B mit H0 verträglich?

Der Chi-Quadrat Test:

Ei := npi°( Unter H0 gilt: E(Ni)=Ei )

Beobachtungen B = (Bi)

Nullhypothese H0: p = p°

Ist B mit H0 verträglich?

Der Chi-Quadrat Test:

Ei := npi°( Unter H0 gilt: E(Ni)=Ei )

Bi - Ei

Beobachtungen B = (Bi)

Nullhypothese H0: p = p°

Ist B mit H0 verträglich?

Der Chi-Quadrat Test:

Ei := npi°( Unter H0 gilt: E(Ni)=Ei )

Bi - Ei

X2 := S(Bi - Ei)2/Ei

Satz:

Für n ---> ∞ gilt

L(X2) ---> c2I-1

Satz:

Für n ---> ∞ gilt

L(X2) ---> c2I-1

(hängt nicht von p ab!)

Satz:

Für n ---> ∞ gilt

L(X2) ---> c2I-1

(hängt nicht von p ab!)

Sei X2 = X2(B):

Satz:

Für n ---> ∞ gilt

L(X2) ---> c2I-1

(hängt nicht von p ab!)

Sei X2 = X2(B):

falls Ws{ c2I-1 > X2 } < 0.05

Satz:

Für n ---> ∞ gilt

L(X2) ---> c2I-1

(hängt nicht von p ab!)

Sei X2 = X2(B):

falls Ws{ c2I-1 > X2 } < 0.05

wird H auf dem 5%-Niveau abgelehnt.

„n ---> ∞“

„n ---> ∞“

Wann ist n groß genug?

„n ---> ∞“

Wann ist n groß genug?

Konservative Faustregel (R):

„n ---> ∞“

Wann ist n groß genug?

Konservative Faustregel (R):

alle Ei ≥ 5

„n ---> ∞“

Wann ist n groß genug?

Konservative Faustregel (R):

alle Ei ≥ 5

Weniger strenge Faustregel:

„n ---> ∞“

Wann ist n groß genug?

Konservative Faustregel (R):

alle Ei ≥ 5

Weniger strenge Faustregel:

80% der Ei ≥ 5

„n ---> ∞“

Wann ist n groß genug?

Konservative Faustregel (R):

alle Ei ≥ 5

Weniger strenge Faustregel:

80% der Ei ≥ 5

alle Ei ≥ 1

Beispiel 1:

Beispiel 1:

The death dip

Können prominente Menschen

ihren Todestag

bis nach ihrem Geburtstag

hinauszögern?

Phillips berechnete

für 1251 verstorbeneprominente Amerikaner

die Verzögerung

V = Todesmonat - Geburtsmonat

Nullhypothese H0

Nullhypothese H0

pi° = 1/12 = 0.08333

Nullhypothese H0

pi°= 1/12 = 0.08333

s (Ni/n) = √(pi° (1-pi°)/n)

Chi-Quadrat Test

Chi-Quadrat Test

Ei = npi° = 1251/12

Chi-Quadrat Test

Ei = npi° = 1251/12

X2 := S(Bi - Ei)2/Ei

Chi-Quadrat Test

Ei = npi° = 1251/12

X2 := S(Bi - Ei)2/Ei

R:

Chi-Quadrat Test

Ei = npi° = 1251/12

X2 := S(Bi - Ei)2/Ei

R:

B<-c(90,100,87,96,101,86,119,118,121,114,113,106)

Chi-Quadrat Test

Ei = npi = 1251/12

X2 := S(Bi - Ei)2/Ei

R:

B<-c(90,100,87,96,101,86,119,118,121,114,113,106)chisq.test(B)

Chi-Quadrat Test

Ei = npi = 1251/12

X2 := S(Bi - Ei)2/Ei

R:

B<-c(90,100,87,96,101,86,119,118,121,114,113,106)chisq.test(B)# Wenn man nichts sagt, nimmt R an, # dass H0: alle pi gleich

Der Chi-Quadrat Test

testet H0

Der Chi-Quadrat Test

testet H0

gegen die Welt.

Der Chi-Quadrat Test

testet H0

gegen die Welt.(Z.B. für ihn ist jede Permutation von B gleich auffällig.)

Der Chi-Quadrat Test

testet H0

gegen die Welt.(Z.B. für ihn ist jede Permutation von B gleich auffällig.)

Uns interessiert

eine viel engere Alternative:

Der Chi-Quadrat Test

testet H0

gegen die Welt.(Z.B. für ihn ist jede Permutation von B gleich auffällig.)

Uns interessiert

eine viel engere Alternative:

wenige Todesfälle vor dem Geburtsmonat

Der Chi-Quadrat Test

testet H0

gegen die Welt.(Z.B. für ihn ist jede Permutation von B gleich auffällig.)

Uns interessiert

eine viel engere Alternative:

wenige Todesfälle vor dem Geburtsmonatviele Todesfälle nach dem Geburtsmonat

Nehmen wir an,das Todessenkung-Phänomen

in einer Vorstudieentdeckt wurde.

Nehmen wir an,das Todessenkung-Phänomen

in einer Vorstudieentdeckt wurde.

Die vorliegende Untersuchunghat zum Ziel,

die schon vorher bestehendeTodessenkung-Hypothese

zu testen.

Dann sollte manden Chi-Quadrat Test

nicht benutzen,

Dann sollte manden Chi-Quadrat Test

nicht benutzen,sondern

einenauf die anvisierte Alternative abgestimmten

Test,

Dann sollte manden Chi-Quadrat Test

nicht benutzen,sondern

einenauf die anvisierte Alternative abgestimmten

Test,der nur auf Abweichungen von H0

in die gegebene Richtungreagiert,

Dann sollte manden Chi-Quadrat Test

nicht benutzen,sondern

einenauf die anvisierte Alternative abgestimmten

Test,der nur auf Abweichungen von H0

in die gegebene Richtungreagiert,

und deswegengrößere Macht hat.

R:

R:

b<-c(370,585)

R:

b<-c(370,585)# 370 Todesfälle in den 4 Monaten vor dem Todesmonat

R:

b<-c(370,585)# 370 Todesfälle in den 4 Monaten vor dem Todesmonat# 585 Todesfälle im Todesmonat und 4 folgenden Monaten

R:

b<-c(370,585)# 370 Todesfälle in den 4 Monaten vor dem Todesmonat# 585 Todesfälle im Todesmonat und 4 folgenden Monaten chisq.test(b,p=c(4,5)/9)

Der Chi-Quadrat Test (II)

Der Chi-Quadrat Test (II)

N ~ M(n,p(q))

Der Chi-Quadrat Test (II)

N ~ M(n,p(q))

q in Mannigfaltigkeit Q

Der Chi-Quadrat Test (II)

N ~ M(n,p(q))

q in Mannigfaltigkeit Q

dim(Q) = r

Der Chi-Quadrat Test (II)

N ~ M(n,p(q))

q in Mannigfaltigkeit Q

dim(Q) = r(D.h. es gibt r unabhängige Parameter.)

Der Chi-Quadrat Test (II)

N ~ M(n,p(q))

q in Mannigfaltigkeit Q

dim(Q) = r(D.h. es gibt r unabhängige Parameter.)

q* = Maximum-Likelihood Schätzer von q

Der Chi-Quadrat Test (II)

N ~ M(n,p(q))

q in Mannigfaltigkeit Q

dim(Q) = r(D.h. es gibt r unabhängige Parameter.)

q* = Maximum-Likelihood Schätzer von q

Ei = npi(q*)

Der Chi-Quadrat Test (II)

N ~ M(n,p(q))

q in Mannigfaltigkeit Q

dim(Q) = r(D.h. es gibt r unabhängige Parameter.)

q* = Maximum-Likelihood Schätzer von q

Ei = npi(q*)

X2 := S(Bi - Ei)2/Ei

SatzFür n ---> ∞

giltL(X2) ---> c2

I-1-r

SatzFür n ---> ∞

giltL(X2) ---> c2

I-1-r

„Man verliert einen Freiheitsgradfür jeden geschätzten Parameter.“

WICHTIGSTE ANWENDUNG

WICHTIGSTE ANWENDUNG

Test auf Homogenität(oder Unabhängigkeit)

in Kontingenztafeln:

WICHTIGSTE ANWENDUNG

Test auf Homogenität(oder Unabhängigkeit)

in Kontingenztafeln:

N = (Nij) i=1...I, j=1...J

WICHTIGSTE ANWENDUNG

Test auf Homogenität(oder Unabhängigkeit)

in Kontingenztafeln:

N = (Nij) i=1...I, j=1...J

H0: pij = ui vj

WICHTIGSTE ANWENDUNG

Test auf Homogenität(oder Unabhängigkeit)

in Kontingenztafeln:

N = (Nij) i=1...I, j=1...J

H0: pij = ui vj

pij* =(Bi+/n) (B+j/n)

WICHTIGSTE ANWENDUNG

Test auf Homogenität(oder Unabhängigkeit)

in Kontingenztafeln:

N = (Nij) i=1...I, j=1...J

H0: pij = ui vj

pij* =(Bi+/n) (B+j/n)

X2 ~ c2(I-1)(J-1)

R:

R:

# z.B. Daten als J Variablen A, B, .. # der Länge I in der Datei X.dat

R:

# z.B. Daten als J Variablen A, B, .. # der Länge I in der Datei X.datattach(read.table(„X.dat“))

R:

# z.B. Daten als J Variablen A, B, .. # der Länge I in der Datei X.datattach(read.table(„X.dat“))tafel<-array(c(A,B,...),c(I,J))

R:

# z.B. Daten als J Variablen A, B, .. # der Länge I in der Datei X.datattach(read.table(„X.dat“))tafel<-array(c(A,B,...),c(I,J))chisq.test(tafel)

R:

# z.B. Daten als J Variablen A, B, .. # der Länge I in der Datei X.datattach(read.table(„X.dat“))tafel<-array(c(A,B,...),c(I,J))chisq.test(tafel)# R nimmt an: Test auf Unabhängigkeit

R:

# z.B. Daten als J Variablen A, B, .. # der Länge I in der Datei X.datattach(read.table(„X.dat“))tafel<-array(c(A,B,...),c(I,J))chisq.test(tafel)# R nimmt an: Test auf Unabhängigkeit# FG = (I-1)(J-1)

Beispiel 2

Beispiel 2

Beispiel 2

Wer schrieb die Paulusbriefe?

A. Q. Morton

zählte die Anzahl der Sätze

in den 10 längsten Paulusbriefen

bei denen das Wort kai (und)

0 mal, 1 mal, 2 mal, ≥3 mal

vorkam.

Ean tais glwssais twn anqrwpwn lalwkai twn aggelwn,

agaphn de mh ecw,gegona calkos hcwn

h kumbalon alalazon.

Ean tais glwssais twn anqrwpwn lalwkai twn aggelwn,

agaphn de mh ecw,gegona calkos hcwn

h kumbalon alalazon.

Wenn ich mit Menschenund mit Engel zungen redet

und hette die Liebe nichtSo were ich ein donend Ertzoder eine klingende Schelle.

i.Cor.13

Ean tais glwssais twn anqrwpwn lalwkai twn aggelwn,

agaphn de mh ecw,gegona calkos hcwn

h kumbalon alalazon.

Wenn ich mit Menschenund mit Engel zungen redet

und hette die Liebe nichtSo were ich ein donend Ertzoder eine klingende Schelle.

i.Cor.13

Ean tais glwssais twn anqrwpwn lalwkai twn aggelwn,

agaphn de mh ecw,gegona calkos hcwn

h kumbalon alalazon.

Wenn ich mit Menschenund mit Engel zungen redet

und hette die Liebe nichtSo were ich ein donend Ertzoder eine klingende Schelle.

i.Cor.13

Die einzelnen Bücher

im Vergleich

zu den restlichen.

Test auf Homogenität

alle 10 Briefe

Test auf Homogenität

alle 10 Briefe

Pearson's Chi-squared test

data: m X-squared = 185.0114, df = 27, p-value = < 2.2e-16

Welche Paare

von Briefen

sind miteinander

verträglich?

p-Wertevon paarweisen Chi-Quadrat Testen

der einzelnen Bücher

p-Wertevon paarweisen Chi-Quadrat Testen

der einzelnen Bücher

[,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9] [,10] [1,] 1.000 0.969 0.157 0.386 0.000 0.000 0.000 0.000 0.018 0.000 [2,] 0.969 1.000 0.064 0.416 0.000 0.000 0.000 0.000 0.008 0.000 [3,] 0.157 0.064 1.000 0.040 0.000 0.000 0.000 0.028 0.460 0.034 [4,] 0.386 0.416 0.040 1.000 0.000 0.000 0.000 0.001 0.003 0.000 [5,] 0.000 0.000 0.000 0.000 1.000 0.274 0.237 0.143 0.154 0.152 [6,] 0.000 0.000 0.000 0.000 0.274 1.000 0.032 0.026 0.016 0.005 [7,] 0.000 0.000 0.000 0.000 0.237 0.032 1.000 0.205 0.024 0.017 [8,] 0.000 0.000 0.028 0.001 0.143 0.026 0.205 1.000 0.422 0.549 [9,] 0.018 0.008 0.460 0.003 0.154 0.016 0.024 0.422 1.000 0.782[10,] 0.000 0.000 0.034 0.000 0.152 0.005 0.017 0.549 0.782 1.000

p-Wertevon paarweisen Chi-Quadrat Testen

der einzelnen Bücher

[,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9] [,10] [1,] 1.000 0.969 0.157 0.386 0.000 0.000 0.000 0.000 0.018 0.000 [2,] 0.969 1.000 0.064 0.416 0.000 0.000 0.000 0.000 0.008 0.000 [3,] 0.157 0.064 1.000 0.040 0.000 0.000 0.000 0.028 0.460 0.034 [4,] 0.386 0.416 0.040 1.000 0.000 0.000 0.000 0.001 0.003 0.000 [5,] 0.000 0.000 0.000 0.000 1.000 0.274 0.237 0.143 0.154 0.152 [6,] 0.000 0.000 0.000 0.000 0.274 1.000 0.032 0.026 0.016 0.005 [7,] 0.000 0.000 0.000 0.000 0.237 0.032 1.000 0.205 0.024 0.017 [8,] 0.000 0.000 0.028 0.001 0.143 0.026 0.205 1.000 0.422 0.549 [9,] 0.018 0.008 0.460 0.003 0.154 0.016 0.024 0.422 1.000 0.782[10,] 0.000 0.000 0.034 0.000 0.152 0.005 0.017 0.549 0.782 1.000

p-Wertevon paarweisen Chi-Quadrat Testen

der einzelnen Bücher

[,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9] [,10] [1,] 1.000 0.969 0.157 0.386 0.000 0.000 0.000 0.000 0.018 0.000 [2,] 0.969 1.000 0.064 0.416 0.000 0.000 0.000 0.000 0.008 0.000 [3,] 0.157 0.064 1.000 0.040 0.000 0.000 0.000 0.028 0.460 0.034 [4,] 0.386 0.416 0.040 1.000 0.000 0.000 0.000 0.001 0.003 0.000 [5,] 0.000 0.000 0.000 0.000 1.000 0.274 0.237 0.143 0.154 0.152 [6,] 0.000 0.000 0.000 0.000 0.274 1.000 0.032 0.026 0.016 0.005 [7,] 0.000 0.000 0.000 0.000 0.237 0.032 1.000 0.205 0.024 0.017 [8,] 0.000 0.000 0.028 0.001 0.143 0.026 0.205 1.000 0.422 0.549 [9,] 0.018 0.008 0.460 0.003 0.154 0.016 0.024 0.422 1.000 0.782[10,] 0.000 0.000 0.034 0.000 0.152 0.005 0.017 0.549 0.782 1.000

{1,2,3,4} {5,8,9,10} {6} {7}

{1,2,3,4} = Römer1 Korinther2 KorintherGalater

{1,2,3,4} = Römer1 Korinther2 KorintherGalater

{5,8,9,10} = Epheser1 Timotheus2 TimotheusHebräer

{1,2,3,4} = Römer1 Korinther2 KorintherGalater

{5,8,9,10} = Epheser1 Timotheus2 TimotheusHebräer

{6} = Philipper

{1,2,3,4} = Römer1 Korinther2 KorintherGalater

{5,8,9,10} = Epheser1 Timotheus2 TimotheusHebräer

{6} = Philipper

{7} = Kolosser

R:

Zwei Fälle „automatisch“

p = po

pij = ui vj

Andere „per Hand“

Andere „per Hand“

# b = Beobachtungsvektor

Andere „per Hand“

# b = Beobachtungsvektor# p* = ML-Schätzer selber berechnen

Andere „per Hand“

# b = Beobachtungsvektor# p* = ML-Schätzer selber berechnen# FG = Freiheitsgrade

Andere „per Hand“

# b = Beobachtungsvektor# p* = ML-Schätzer selber berechnen# FG = Freiheitsgradechi2test<-chisq.test(b,p=p*)

Andere „per Hand“

# b = Beobachtungsvektor# p* = ML-Schätzer selber berechnen# FG = Freiheitsgradechi2test<-chisq.test(b,p=p*)# p-Wert nicht trauen! Freiheitsgrade falsch!

Andere „per Hand“

# b = Beobachtungsvektor# p* = ML-Schätzer selber berechnen# FG = Freiheitsgradechi2test<-chisq.test(b,p=p*)# p-Wert nicht trauen! Freiheitsgrade falsch!x2<-chi2test$statistic

Andere „per Hand“

# b = Beobachtungsvektor# p* = ML-Schätzer selber berechnen# FG = Freiheitsgradechi2test<-chisq.test(b,p=p*)# p-Wert nicht trauen! Freiheitsgrade falsch!x2<-chi2test$statisticpWert<-1-pchisq(x2,FG)

BEISPIEL:

Selektion

bei der Tangfliege

Coelopa frigida

Die Tangfliege

Coelopa frigida

Im faulenden Tang

gärt es stark.

Im faulenden Tang

gärt es stark.

Ethanol ist giftig.

Enzym

Alkohol dehydrogenase

ADH

Gen

Adh

Gen

Adh

Drei Allele

B, C, D

Gen

Adh

Drei Allele

B, C, D

Sechs Genotypen

BB BC BD CC CD DD

Sechs Genotypen

BB BC BD CC CD DD

Sechs Genotypen

BB BC BD CC CD DD

Bei Zufallspaarung

Sechs Genotypen

BB BC BD CC CD DD

Bei Zufallspaarung

pB2 2pBpC 2pBpD pC

2 2pCpD pD2

pB = Häufigkeit von B, usw.

Sechs Genotypen

BB BC BD CC CD DD

Bei Zufallspaarung

pB2 2pBpC 2pBpD pC

2 2pCpD pD2

pB = Häufigkeit von B, usw.

Hardy-Weinberg Gleichgewicht

Eine Stichprobe von n = 646 adulten Fliegen

aus Portsmouth, England (1980)

Eine Stichprobe von n = 646 adulten Fliegen

aus Portsmouth, England (1980)

b = (104, 36, 334, 12, 50, 110) BB BC BD CC CD DD

Eine Stichprobe von n = 646 adulten Fliegen

aus Portsmouth, England (1980)

b = (104, 36, 334, 12, 50, 110) BB BC BD CC CD DD

Sind diese Datenmit Hardy-Weinberg Gleichgewicht

verträglich?

b = (104, 36, 334, 12, 50, 110) BB BC BD CC CD DD

b = (104, 36, 334, 12, 50, 110) BB BC BD CC CD DD

Parameter des Modells:

b = (104, 36, 334, 12, 50, 110) BB BC BD CC CD DD

Parameter des Modells:

pB, pC, pD

b = (104, 36, 334, 12, 50, 110) BB BC BD CC CD DD

Parameter des Modells:

pB, pC, pD

Maximum-Likelihood Schätzer

b = (104, 36, 334, 12, 50, 110) BB BC BD CC CD DD

Parameter des Modells:

pB, pC, pD

Maximum-Likelihood Schätzer

pB*

b = (104, 36, 334, 12, 50, 110) BB BC BD CC CD DD

Parameter des Modells:

pB, pC, pD

Maximum-Likelihood Schätzer

pB*=

( 2(104)+36+334 )/(2n)

b = (104, 36, 334, 12, 50, 110) BB BC BD CC CD DD

Parameter des Modells:

pB, pC, pD

Maximum-Likelihood Schätzer

pB*=

( 2(104)+36+334 )/(2n)= 0.447

pB* = 0.447

pB* = 0.447

Analog

pC* = 0.086

pB* = 0.447

Analog

pC* = 0.086

pD* = 0.467

pB* = 0.447

Analog

pC* = 0.086

pD* = 0.467

Für die Genotypen

pB* = 0.447

Analog

pC* = 0.086

pD* = 0.467

Für die Genotypen

p* = ( 0.200, 0.076, 0.418, 0.007, 0.080, 0.219 )

Warumkein Hardy-Weinberg Gleichgewicht?

Warumkein Hardy-Weinberg Gleichgewicht?

Eine mögliche Erklärung:

Warumkein Hardy-Weinberg Gleichgewicht?

Eine mögliche Erklärung:

Selektion

Warumkein Hardy-Weinberg Gleichgewicht?

Eine mögliche Erklärung:

Selektion

Einige Genotypen überleben besser.

Um diese Möglichkeit zu prüfen,

erhob man zur selben Zeit

eine Stichprobe

von präadulten Fliegen.

Recommended