View
6
Download
0
Category
Preview:
Citation preview
Woche 9: Hypothesentests fur zwei Stichproben
Patric Muller <patric.mueller@stat.math.ethz.ch>
ETHZ
WBL 19/21, 24.06.2019
Wahrscheinlichkeit und Statistik Patric Muller WBL 2019
Lernziele
Sie konnen. . .
. . . die richtige Wahl zwischen einem Ein- und einemZweistichproben-Test (bzw. zwischen einem gepaarten undungepaarten Test) treffen
. . . einen Zweistichproben-t-Test (ungepaarten t-Test) durchfuhren,von Hand und in R
. . . ein Vertrauensintervall fur die Differenz zweier Erwartungswerteberechnen
. . . einen Mann-Whitney-U-Test und einen Kolmogorov-Smirnov-Testin R durchfuhren
Vorlesung basiert auf Kapitel 4.8 des Skripts
Wahrscheinlichkeit und Statistik 3 / 23 WBL 2019
Beispiel: Monoaminooxidase und Schizophrenie
Monoaminooxidase (MAO):Enzym, das vermutlich eineRolle spielt in der Regulierungdes Verhaltens
Studie: Aktivitatsniveau von 42Patienten mit unterschiedlichemTyp von Schizophrenieuntersucht
510
15
Schizophrenie−Typ
MA
O−
Akt
ivitä
t
I II III
(Potkin et al., 1978)
Haben Patienten mit unterschiedlichem Schizophrenie-Typ imDurchschnitt unterschiedliche MAO-Aktivitatsniveaus?
Was sind die wesentliche Unterschiede zum Datensatz mit derDurchblutung vor und nach Kaffee-Konsum?
Wahrscheinlichkeit und Statistik 4 / 23 WBL 2019
Zwei vs. drei Stichproben
Im MAO-Datensatz gibt es drei Stichproben!
Prazisierung der Fragestellung:I Wir werden nur zwei Stichproben vergleichen, z.B. Typ I mit Typ II.I Fragestellung: Haben Patienten mit Schizophrenie-Typ I im
Durchschnitt unterschiedliche MAO-Aktivitatsniveaus als die mitTyp II?
Wir vergleichen nie mehr als zwei Stichproben gleichzeitig!I Die Frage “Haben Patienten mit unterschiedlichem Schizophrenie-Typ
im Durchschnitt unterschiedliche MAO-Aktivitatsniveaus?” wird nicht(direkt) beantwortet.
I Drei oder mehrere Stichproben kann man auch gleichzeitig vergleichen,z.B. mit einer ANOVA (Varianzanalyse).
Da wir sowieso nur zwei Stichproben vergleichen werden, spielteigentlich die Anzahl Stichproben keine Rolle bei derTestdurchfuhrung.
Wahrscheinlichkeit und Statistik 5 / 23 WBL 2019
Gepaart vs Ungepaart
Situation beim Kaffekonsum: (Stichproben sind gepaart)I Bei Person i werden die Messwerte Yi und Zi gemessen.I Die Messwerte Y7 und Z7 sind Messungen von Person 7.I Messwerte der beiden Stichproben konnen gepaart werden, denn z.B.
die Messwerte Y7 und Z7 sind beide von der Person 7 generiert worden.
Situation bei der MAO-Aktivitat: (Stichproben sind ungepaart)I Messwert i von der Stichprobe “Typ I” (Xi ) hat keinen speziellen Bezug
zu Messwert i von der Stichprobe “Typ II” (Yi ).I Die Stichproben sind ungepaart. Die Messungen X7 und Y7 sind
Messungen von zwei unterschiedlichen Personen.I Die gemeinsame Zuordnung der Daten spielt keine Rolle.
Gepaarte Stichproben haben immer die gleiche Anzahl Messungen.
Dieser Unterschied ist wesentlich und beeinflusst dieTestdurchfuhrung.
Wahrscheinlichkeit und Statistik 6 / 23 WBL 2019
MAO-Datensatz: zwei Stichproben vergleichen
Tests fur zwei (ungepaarte) Stichproben:I t-Test fur zwei Stichproben (oder
”ungepaarter“ t-Test)
I Mann-Whitney-U-TestI Kolmogorov-Smirnov-TestI . . . und viele weitere, hier nicht behandelt
Wahrscheinlichkeit und Statistik 7 / 23 WBL 2019
MAO-Datensatz: ungepaarter t-Test
1 Modell: Xi , Yi : MAO-Aktivitat von Patienten mit Schizophrenie vonTyp I bzw. II.
X1, . . . ,Xni.i.d.∼ N (µX , σ
2)
Y1, . . . ,Ymi.i.d.∼ N (µY , σ
2)
2 Nullhypothese: H0 : µX = µYAlternativhypothese: HA : µX 6= µY
3 Teststatistik: T = X−Y
spool√
1/n+1/m= 3.1151, wobei
s2pool =1
n + m − 2
((n − 1)s2x + (m − 1)s2y
)s2pool heisst gepoolte Stichproben-Varianz: es ist ein Schatzer fur die(in beiden Stichproben als identisch angenommene) VarianzVerteilung von T unter H0: T ∼ tn+m−2
Wahrscheinlichkeit und Statistik 8 / 23 WBL 2019
MAO-Datensatz: ungepaarter t-Test
4 Signifikanzniveau wahlen: z.B.α = 5%
5 Verwerfungsbereich:K = (−∞,−tn+m−2,1−α/2] ∪[tn+m−2,1−α/2,∞)tk,α: α-Quantil der t-Verteilung mit kFreiheitsgraden (df)Hier: df = n + m − 2 = 32;tn+m−2,1−α/2 = t32,0.975 = 2.0369
−3 −1 0 1 2 3
0.0
0.1
0.2
0.3
0.4
t
p(t)
Quantile in R berechnen:> qt(0.975, n+m-2)
[1] 2.036933
Wahrscheinlichkeit und Statistik 9 / 23 WBL 2019
MAO-Datensatz: ungepaarter t-Test
6 Testentscheid: H0 wird verworfen, falls T ∈ K , andernfallsbeibehaltenHier: T = 3.1151, K = (−∞,−2.0369] ∪ [2.0369,∞); X ∈ K , daherwird H0 verworfen
p-Wert: kleinstes Signifikanzniveau α, fur welches H0 verworfen wirdHier: p = 2 ∗ (1− F (T )), wobei F die kumulative Verteilungsfunktionmit n + m − 2 Freiheitsgraden beschreibt.> 2*(1 - pt(T, n + m - 2))
[1] 0.003863469
Wahrscheinlichkeit und Statistik 10 / 23 WBL 2019
Schneller geht’s mit R. . .
> t.test(x, y, alternative = "two.sided", paired = FALSE, conf.level = 0.95)
Welch Two Sample t-test
data: x and y
t = 3.1578, df = 31.647, p-value = 0.003483
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
1.249945 5.798666
sample estimates:
mean of x mean of y
9.805556 6.281250
Wahrscheinlichkeit und Statistik 11 / 23 WBL 2019
Annahmen prufen
Die Annahmen der Normalverteilung der beiden Variablen X und Y sollten(graphisch) gepruft werden:
4 6 8 10 14
510
15Q−Q−Plot: X
Theoretische Quantile
Em
piris
che
Qua
ntile
4 6 8 10 14
510
15
Q−Q−Plot: Y
Theoretische QuantileE
mpi
risch
e Q
uant
ile
Wahrscheinlichkeit und Statistik 12 / 23 WBL 2019
Nicht-parametrische Tests fur zwei Stichproben
Was tun, wenn die Voraussetzungen fur den gepaarten t-Test nichterfullt sind?
Alternative: nicht-parametrische Tests:I Mann-Whitney-U-Test (auch
”Wilcoxon-Mann-Whitney-Test“ genannt)
I Kolmogorov-Smirnov-Test
Beide Alternvativen lassen sich auf zwei unabhangige StichprobenX1, . . . ,Xn und Y1, . . . ,Ym anwenden.
Wahrscheinlichkeit und Statistik 13 / 23 WBL 2019
Mann-Whitney-U-Test
1 Modell: Verteilung der Stichproben Xi und Yi unterscheidet sichbloss um eine Verschiebung, ist sonst aber beliebig. Formal:
X1, . . . ,Xni.i.d.∼ FX = F (x),
Y1, . . . ,Ymi.i.d.∼ FY = F (y − a),
also FY (y) = FX (y − a).
2 Nullhypothese: H0 : a = 0 (keine Verschiebung, d.h. identischeVerteilungen)Alternativhypothese: HA : a 6= 0
Teststatistik und deren Verteilung sind kompliziert, in der Praxis nur mitSoftware zu berechnen.
Wahrscheinlichkeit und Statistik 14 / 23 WBL 2019
Mann-Whitney-U-Test in R
Mann-Whitney-U-Test ist auch in R-Funktion wilcox.test
implementiert:> wilcox.test(x, y, alternative = "two.sided", paired = FALSE,
conf.level = 0.95)
Wilcoxon rank sum test with continuity correction
data: x and y
W = 221.5, p-value = 0.007852
alternative hypothesis: true location shift is not equal to 0
Wahrscheinlichkeit und Statistik 15 / 23 WBL 2019
Mann-Whitney-U-Test: Annahmen prufen
Annahme, dass sich Verteilung beider Stichproben hochstens durch eineVerschiebung unterscheidet, ist nicht einfach zu prufen. Moglichkeit: beideempirischen kumulativen Verteilungsfunktionen plotten:
0 5 10 15 20
0.0
0.4
0.8
Emp. kumul. Vert.fn.
x
Fn(
x)
XY
Wahrscheinlichkeit und Statistik 16 / 23 WBL 2019
Kolmogorov-Smirnov-Test
1 Modell:
X1, . . . ,Xni.i.d.∼ FX ,
Y1, . . . ,Ymi.i.d.∼ FY
(keine weiteren Annahmen uber die Verteilungen von X und Y )
2 Nullhypothese: FX = FY (beide Grossen haben dieselbe Verteilung)Alternativhypothese: FX 6= FY
3 Teststatistik: d = maximale Differenz zwischen empirischenkumulativen Verteilungsfunktionen von X und Y . Verteilung von dunter Nullhypothese ist kompliziert.
Wahrscheinlichkeit und Statistik 17 / 23 WBL 2019
Kolmogorov-Smirnov-Test in R
> ks.test(x, y, alternative = "two.sided")
Two-sample Kolmogorov-Smirnov test
data: x and y
D = 0.40972, p-value = 0.1164
alternative hypothesis: two-sided
Wahrscheinlichkeit und Statistik 18 / 23 WBL 2019
Uberblick: verschiedene Tests und p-Werte furMAO-Datensatz
Test p-Wert, 2-seitig Annahmet-Test 0.00348 NormalverteilungMann-Whitney-U-Test 0.00785 VerschiebungKolmogorov-Smirnov-Test 0.11637 –
Je weniger Annahmen ein Test macht,
desto universeller einsetzbar ist er,
desto kleiner ist aber seine Macht.
Wahrscheinlichkeit und Statistik 19 / 23 WBL 2019
Wie aussagekraftig sind p-Werte?
Beispiel t-Test: Nullhypothese macht Aussage uber Erwartungswert(oder Differenz von Erwartungswerten), nicht uber ganze Verteilung.
Nullhypothese ist nie exakt richtig. Mit genugend grosser Stichprobekonnen wir jede Nullhypothese verwerfen, bzw. beliebig kleinep-Werte erhalten.
Wissenschaftliche Publikationen: gewisse Journals verbieten aus demGrund sogar die Publikation von p-Werten. . .
Alternative zum t-Test: Effektstarke berechnen
Wahrscheinlichkeit und Statistik 20 / 23 WBL 2019
Effektstarke
Situation: Zwei Stichproben, eine aus bestimmtem experimentellemSetting ({Xi}i ), eine aus
”Kontrollgruppe“ ({Yi}i )
Effektstarke d =X − Y
spool
(es gibt alternative Definitionen)
−4 −2 0 2 4
0.0
0.2
0.4
0.6
0.8
Grosse Effektstärke
x
p(x)
−4 −2 0 2 4
0.05
0.10
0.15
0.20
Kleine Effektstärke
x
p(x)
controlexp.
Wahrscheinlichkeit und Statistik 21 / 23 WBL 2019
MAO-Datensatz: Effektstarke
Im MAO-Datensatz haben wir
X = 9.806
Y = 6.281
spool = 3.293,
daher eine Effektstarke von
d =9.806− 6.281
3.293= 1.07
yD
ensi
ty
0 5 10 15 20
0.00
0.05
0.10
0.15
X (Typ I)Y (Typ II)
Wahrscheinlichkeit und Statistik 22 / 23 WBL 2019
Recommended