Upload
others
View
6
Download
0
Embed Size (px)
Citation preview
Hypothesen Tests
Fragestellungen
● Ist das Gewicht von Männern und Frauen signifiant unterschiedlich ?(2-sample test)
● Ist das Mittelgewicht von Männern signifiant grösser als 173 ? (one-sample test)
● Entspricht die Verteilung der Körpergrößen einer Normalverteilung ?(normality test)
● Gibt es eine signifiante Korrelation zwischen Alter und Cholesterin level ? (correlation test)
stab.glu hdl ratio glyhb location age gender height weight frame82 56 3.60 4.31 Buckingham 46 female 62 121 medium97 24 6.90 4.44 Buckingham 29 female 64 218 large92 37 6.20 4.64 Buckingham 58 female 61 256 large93 12 6.50 4.63 Buckingham 67 male 67 119 large90 28 8.90 7.72 Buckingham 64 male 68 183 medium94 69 3.60 4.81 Buckingham 34 male 71 190 large92 41 4.80 4.84 Buckingham 30 male 69 191 medium75 44 5.20 3.94 Buckingham 37 male 59 170 medium87 49 3.60 4.84 Buckingham 45 male 69 166 large89 40 6.60 5.78 Buckingham 55 female 63 202 small
Achtung : diese Fragen beziehen sich auf die Gesamtpopulation, nicht auf die Stichprobe !!
Hypothesen Tests : was braucht man ?
● Statistische Frage (= zu untersuchender Efekt): haben Männer und Frauen unterschiedliche durchschnittliche Körpergrößen ?
sind Männer im Durchschnitt mehr als 10 cm größer als Frauen?
● Hypothesen Null Hypothese H0 (= iein Efeit vorhanden):
der Unterschied der Erwartungswerte ist null (Diferenzen sind statistische Fluktuationen) der Unterschied der Erwartungswerte ist kleiner oder gleich 10 cm
alternative Hypothese (= ein Efeit vorhanden):
der Unterschied ist ungleich null der Unterschied ist größer als 10 cm
● eine Teststatistii, deren Verteilung under H0 bekannt ist
● Berechnung einer p-Wertes:Wahrscheinlichkeit, daß ich unter H0 einen größeren/kleineren Wert für die Teststatistik beobachten würde als den tatsächlich beobachteten.
Wir bauen eine Teststatistii...
● Null-Hypothese (H0) : nein, kein Efekt; Pfanzen nach Behandlung entstammen der gleichen Population mit Erwartungswert h = 1.5m
● Alternativhypothese (H1): ja, die Stichprobe könnte aus einer Population mit ileinerem oder größerem Erwartungswert kommen!
● Stichprobe x : Mittelwert x, Standardabweichung s
● Efektgrösse :
● Rauschen :
● Wie groß kann t werden, wenn die Durchschnittsgröße h=1.50m ist (statistische Fluktuationen, also H0 Hypothese)? H0-Verteilung von t→
x = {1.47 , 1.32 , 1.51 , 1.61 , 1.27 , 1.41 , 1.55 , 1.49 , 1.44 , 1.50 }
Test: Efekt von Düngemittel auf Wuchs von PfanzenKontrollpopulation (ohne Behandlung): h=1.5mFrage : Hat die Behandlung einen Efekt auf die Pfanzengröße?
H0 Verteilung und p-Wert
● Rote Kurve = H0 Verteilung der Teststatistik
● Vertikale Linie = beobachteter Wert der Teststatistik aus der untersuchten Stichprobe
● Grüner Bereich = Wahrscheinlichkeit, einen ileineren Wert unter H0 zu beobachten (lower-tail)
● Blauer Bereich = Wahrscheinlichkeit, einen größeren Wert unter H0 zu beobachten (upper-tail)
p-Wert = Wahrscheinlichieit, unter H0 einen ileineren,größeren,extremeren Werte des Schätzers zu
erhalten als den tatsächlich beobachteten
ein- oder beidseitiger Test
● Beispiel: Cholesterinwerte Frauen , Männer
● Unterschiedliche Fragen: gibt es einen signifkanten Unterschied zwischen chol. Werten bei Männern und Frauen ?
→ beidseitiger Test (H0: iein Unterschied , H1 : größer ODER ileiner)
haben Männer einen sign. höheren Cholesterinspiegel ? → einseitiger Test („upper tail test“) (H0: iein höherer Spiegel , H1 : höherer Spiegel)
haben Männer einen sign. niedrigeren Cholesterinspiegel ? → einseitiger Test(„lower tail test“) (H0: iein niedrigerer Spiegel , H1 : niedrigerer
Spiegel)
● wenn keine vorherige Annahme beidseitiger Test→
● die Frage muß gestellt werden, bevor der Test durchgeführt wird !(unter den Top 10 statistischen Todsünde..)
Signifianz
● Man defniert einen Signifianzwert α (=0.05,0.01,...)
● p < α : die Null-Hypothese kann verworfen werden
der beobachtete Efekt ist signifiant
H1 ist statistisch bewiesen
● p > α : der beobachtete Efekt kann durch statistische
Fluktuationen erklärt werden
der Efekt reicht nicht aus, um H0 zu verwerfen
Achtung : H0 ist dadurch nicht bewiesen !! Vielleicht würde der Efekt bei größeren Proben signifkant werden.
● α = 0.05 hat sich durchgesetzt, aus welchem Grund auch immer (keine goldene Regel !!)
Signifianz vs Relevanz
● Unterschied Frauen,Männer (= Efektgröße) bleibt ~ konstant
● der Efekt wird immer signifianter
● kleiner Efekt kann signifkant sein (N groß)
● großer Efekt kann nicht signifkant sein (N klein)
Ein Test iann signifiant sein, obwohl der Efeit gering ist!
Resampling Methoden
● bei Test in denen mehrere Stichproben verglichen werden kann man die H0 Verteilung simulieren
● H0 : kein Unterschied zwischen den Proben alle Werte können →vermischt werden
H0
?(10000 x)
Beispiel : 2 Stichproben Test
● Frage : haben Frauen und Männer signifikant unterschiedliche durchschnittliche Cholesterin Werte ?
● H0 : kein signifkanter Unterschied
● H1 : höher oder niedriger
● Stichprobe aus 168 Männern , 234 Frauen
● Teststatistik :
● Resampling Methode: H0 : kein Unterschied; was ist die Fluktuation von θ0 ?
10.000 Zufallsproben (168 , 234) aus den reellen Werten (cholM,cholF)
Verteilung von θ0 ?
Beispiel
● Beobachteter Wert:θ=1.41
● Anzahl der θ0 ≥ θ: 3700 , 10000 = 37%
● Anzahl der θ0 ≤ θ: 6300 , 10000 = 63%
● Nicht signifkant, H0 kann nicht verworfen werden.
● P-Wert ? Pup = 0.37
Pdown = 0.63
P2sided = 2*min(Pup,Pdown) = 0.74
Beispiel
● Andere Teststatistik:
● Beobachteter Wert:θ=1.006
● Anzahl der θ0 ≥ θ: 37%
● Anzahl der θ0 ≤ θ: 63%
● Nicht signifkant, H0 kann nicht verworfen werden.
2. Beispiel
● Frage: haben Männer und Frauen ein signifkant unterschiedliches Gewicht ?(beidseitiger Test)
● H0: kein signif. Unterschied
● Schätzer :
● beobachteter Wert: θ=0.96
● nicht signifkant, H0 kann nicht verworfen werden
2. Beispiel
● Frage: haben Männer ein signifkant höheres Gewicht ?(einseitiger Test)
● H0: kein signif. höheres Gewicht von Männern
● Schätzer :
● beobachteter Wert: θ=0.96
● signifkant, H0 kann verworfen werden
Empirische vs Exaite Tests
● p-Wert Bestimmungen durch resampling Methoden erlauben es, jede Hypothese anhand von jeder Teststatistik zu untersuchen
● Präzision der p-Wert Bestimmung hängt von Anzahl der resamplings ab n=1000 max. Präzision der p-Wertes : 1e-3→
n=100.000 max. Präzision der p-Wertes : 1e-5→
● kann schnell sehr Computerintensiv werden
● für gewisse Teststatistiken, unter gewissen Voraussetzungen kann man exakte, parametrische Tests benutzen
● Voraussetzungen nicht erfüllt : nicht-parametrische Tests
Mittelwert Tests● Hypothesen über Mittelwerte können anhand eines t-Tests
untersucht werden
● verschiedene Versionen 1-Proben Test : ist die Durchschnittskörpertemperatur 37.7 ° ?
2-Proben Test, ungepaart : haben Männer und Frauen unterschiedliche dursch. Körpergrößen ?
2-Proben Test, gepaart : verändert sich der durch.. Cholesterinspiegel, wenn man 1 Monat lang jeden Morgen ein Ei isst ?
2-Proben Testgepaart
2-Proben Testungepaart
1-Proben Test
t-Test
Typ TeststatistiiFreiheits
grade Anmeriung
1-Proben n-1
2-Probenungepaart
gleiche Varianz
n1+n2-2
2-Probenungepaart
ungleiche Varianz(*)
2-Proben gepaart
n-1xD = Diferenzen zwischen
Paaren
H0- Verteilung : t-Verteilung mit entsprechenden Freiheitsgraden
(*)
Tabelle der iritischen Werte
Freiheitsgrade● Beispiel (1-Proben Test):
Signifkanzwert α = 0.05
Teststatistik t = 2.01
Probengröße n=8 →Freiheitsgrade ν = 7
● Einseitiger Test: Spalte 1-α = 0.95
kritischer Wert = 1.895
t > 1.895 : Test ist signifkant bei α=0.05
H0 kann verworfen werden!
Tabelle der iritischen Werte
Freiheitsgrade● Beispiel (1-Proben Test):
Signifkanzwert α = 0.05
Teststatistik t = 2.01
Probengröße n=8 Freiheitsgrade → ν = 7
● Beidseitiger Test: Spalte 1-α,2 = 0.975
kritischer Wert = 2.365
|t| < 2.365 : Test istNICHT signifkant bei α=0.05
H0 kann NICHT verworfen werden
> t.test(weight.m,weight.f,var.equal=TRUE)
Two Sample t-test
data: weight.m and weight.f
t = 1.8265, df = 400, p-value = 0.06852
alternative hypothesis: true difference in
means is not equal to 0
95 percent confidence interval:
-0.5669448 15.4259192
sample estimates:
mean of x mean of y
181.9167 174.4872
t.test in R
Freiheitsgrade = n1+n2-2Teststatistik
Konfdenzinterval der Diferenzder Mittelwerte
zweiseitiger Student t-Test, ungepaart
H0: Durschnittsgewicht der Männer ist gleich das der FrauenH1 : Durschnittsgewicht der Männer ist ungleich das der Frauen
t.test in R
> t.test(weight.m,weight.f,alternative="greater",var.equal=TRUE)
Two Sample t-test
data: weight.m and weight.f
t = 1.8265, df = 400, p-value = 0.03426
alternative hypothesis: true difference in means is greater than 0
95 percent confidence interval:
0.723444 Inf
sample estimates:
mean of x mean of y
181.9167 174.4872
einseitiger Student t-Test, ungepaart
H0: Durchschnittsgewicht der Männer ist nicht größer als das der FrauenH1 : Durchschnittsgewicht der Männer ist größer als das der Frauen
bei einseitigen Testsist ober,unter Grenze des KIimmer +,- unendlich !
t.test in R
einseitiger Testα = 0.05
→ signifiant
beidseitiger Testα = 0.05
→ nicht signifiant
t.test in R
> t.test(weight.m,weight.f,alternative="greater")
Welch Two Sample t-test
data: weight.m and weight.f
t = 1.8453, df = 372.446, p-value = 0.0329
alternative hypothesis: true difference in means is greater than 0
95 percent confidence interval:
0.7903498 Inf
sample estimates:
mean of x mean of y
181.9167 174.4872
da die Varianzen selten genau gleich sind wird meistens der Welch t-Test durchgeführt (wird automatisch geprüft in R)
einseitiger Welch t-Test, ungepaart
zurüci zu den Beispielen
p-Wertt-Test
p-Wertresampling
Haben Männer und Frauen unterschiedliche
Cholesterinspiegel ?
p = 0.377(2-Proben, ungepaart, two-
tailed)p = 0.37
Haben Männer ein höheres
Körpergewicht ?
p = 0.0329(2-Proben, ungepaart, one-
tailed)p = 0.032
Gepaarte t-Tests
● 2 Proben mit gleicher Anzahl von Elementen
● jedes Element aus Gruppe A kann einem Element aus Gruppe B zugeordnet werden
Patienten vor,nach Behandlung
Technische Replikate
● xD : Diferenzen der Paare
ungepaartp = 5e-3
gepaartp = 7e-4
Efekt eine Medikamentesgegen Magersucht
Gepaarte t-Tests
das Kleingedrucite ...
● Datenverteilung ~ Normalverteilung QQ-plot
statistischer Test (Shapiro-Wilk, Kolmogorov-Smirnov)
wenn nicht : nicht-parametrische Tests
● gleiche Varianz (2-Proben Tests, ungepaart) wenn ja : Student's t-Test
wenn nein : Welsch t-Test
● unabhängige Proben (2-Proben Tests, ungepaart)
● Voraussetzungen nie 100% erfüllt : wie robust ist der t-Test ?
Normalität überprüfen
● um zu testen, ob wir den t-Test anwenden können, müssen wir zuerst testen, ob die Testdaten normalverteilt sind …
● Prinzip QQplot : graphische Überprüfung
Normalitätstest: Shapiro-Wilis Test, Kolmogorov-Smirnov Test,...
> n <- 10
> x <- rnorm(n) ## Normalverteilung
> shapiro.test(x)
Shapiro-Wilk normality test
data: x
W = 0.977, p-value = 0.9471
H0 : Daten sind normalverteiltin diesem Fall wird H0 nicht verworfen
→ Daten normalverteilt
> n <- 10
> x <- rt(n,df=2) ## t-Verteilung
> shapiro.test(x)
Shapiro-Wilk normality test
data: x
W = 0.6966, p-value = 0.0008003
H0 : Daten sind normalverteiltin diesem Fall wird H0 verworfen
→ Daten nicht normalverteilt
Überprüfung derNormalität
allgemeinerVergleich vonVerteilungen
Normalität überprüfen
● Kolmogorov-Smirnov Testnicht parametrischer Test, wird benutzt um 1-2 Datensätze zu Vergleichen
two-samples : 2 Datensätze miteinander
one-sample : 1 Datensatz vs. theoretische Verteilung
● Schätzer: D = Wert der größten Abweichung zwischen den kumul. Verteilungen
● H0 : beide Datensätze stammen aus der gleichen Verteilung
kritische Werte für ein bestimmtes →Signifkanzniveau α und Anzahl n von Werten sind tabelliert (hier ein Link).
> ks.test(x=X,y="pnorm")
One-sample Kolmogorov-Smirnov
test
data: X
D = 0.1978, p-value = 0.03441
alternative hypothesis: two-sided
Beispiel : one-sample KS
● Sind die Cholesterinwerte normal verteilt ? (H0 : ja !)
● Parameter einer entsprechenden Normalverteilung :
Mittelwert : m = 209.5
Standardabweichung : s = 41.67
● q0 = Quantile der beobachtetenWerteq1 = Quantile der Normalverteilung N(m,s)
● Grösste Diferenz q0,q1 : 0.129
● Entsprechender p-Wert für 20 Datenpunkte:p = 0.85
H0 iann NICHT verworfen werden → !also können wir annehmen, dass die Werte normalverteilt sind !
78 165 177 183 191 194 195 196 203 213 215 227 228 230 238 242 248 249 255 263
x q0 q1 D1 78 0.00 0.001 0.0012 165 0.05 0.143 0.0933 177 0.10 0.218 0.1184 183 0.15 0.262 0.1125 191 0.20 0.329 0.1296 194 0.25 0.355 0.1057 195 0.30 0.364 0.0648 196 0.35 0.373 0.0239 203 0.40 0.438 0.03810 213 0.45 0.533 0.08311 215 0.50 0.552 0.05212 227 0.55 0.663 0.11313 228 0.60 0.671 0.07114 230 0.65 0.689 0.03915 238 0.70 0.753 0.05316 242 0.75 0.782 0.03217 248 0.80 0.822 0.02218 249 0.85 0.828 0.02219 255 0.90 0.863 0.03720 263 0.95 0.900 0.050
q0
q1
Normalität überprüfen
● Kolmogorov-Smirnov Testnicht parametrischer Test, wird benutzt um 1-2 Datensätze zu Vergleichen
one-sample : 1 Datensatz vs. theoretische Verteilung
two-samples : 2 Datensätze miteinander
> ks.test(x=X,y="pnorm")
One-sample Kolmogorov-Smirnov
test
data: X
D = 0.1978, p-value = 0.03441
alternative hypothesis: two-sided
> ks.test(x=X,y=Y)
Two-sample Kolmogorov-Smirnov
test
data: X and Y
D = 0.2, p-value = 0.2719
alternative hypothesis: two-sided
Wie iann sich ein Test täuschen ?
H0 gilt H0 gilt nicht
H0 wird verworfen
Falsch Positiv oderTyp I Fehler
Wahre Positive
H0 wird nicht verworfen Wahre Negative
Falsch Negativ oder Typ II Fehler
Negative Positive
Was stimmt
Was
der
Tes
t sa
gt
Falsch Positiv Rate = Falsch Positive , Negative
TestPositive
TestNegative
einen Test … testen
● wie robust ist ein statistischer Test ?
● ein robuster Test sollte: richtige H0 Hypothesen nur in α Prozent der Fälle wiederlegen (Typ I Fehler
Rate oder Falsch Positiv Rate = α)
falsche H0 Hypothesen oft verwerfen (niedrige Typ II Fehler oder Falsch negative Rate)
● Robustheit gegenüber Abweichungen von den Voraussetzungen Normalität
identische Varianz
Beispiel : H0 gilt
● ich ziehe 2 Datenreihen von jeweils 50 Zahlen aus der gleichen Normalverteilung
● H0 : die Erwartungswerte der 2 Verteilungen sind gleich (stimmt !)
● ich führe einen t-Test durch (2 Proben, ungepaart) und bestimme den p-Wert
● ich führe dieses Experiment 1000 durch, und untersuche die Verteilung der p-Werte.
in 50% der Fällehabe ich einen
p-Wert kleiner als0.5
in 5% der Fällehabe ich einen
p-Wert kleiner als0.05
unter H0 ist die Verteilung der p-Werte eine Gleichverteilung
(Defnition des p-Wertes !)
Typ I Fehler
● Roter Bereich:bei α = 0.05 hätten wir die H0 Hypothese zu Unrecht verworfen
→ Falsch Positive !
● Wie oft wäre das passiert ?in 5% der Fälle (da Gleichverteilung)
→ Falsch-Positiv Rate wird von α angegeben.
10.000 Test bei denen H0 gilt :Gleichverteilung
Beispiel : H0 gilt nicht
● ich ziehe 2 Datenreihen von jeweils N=50 Zahlen aus 2 Normalverteilungen mit unterschiedlichen Erwartungswerten
● H0 : die Erwartungswerte der 2 Verteilungen sind gleich (stimmt nicht, der Test sollte H0 verwerfen !)
● ich führe einen t-Test durch (2 Proben, ungepaart) und bestimme den p-Wert
● ich führe dieses Experiment 1000 durch, und untersuche die Verteilung der p-Werte.
Verteilung der P-Werte
Viele kleine P-Werte → H0 wird in diesen
Fällen verworfen ✔
Einige grosse P-Werte → H0 wird in diesen
Fällen NICHTverworfen ✘
Typ II Fehler
● entstehen, wenn eine falsche H0 hypothese nicht wiederlegt wird→ “Falsch Negative”
● Wahrscheinlichkeit eines Typ II Fehlers : β-Wert
● die Wahrscheinlichkeit, einen Typ II Fehler nicht zu begehen nennt man die Power eines Tests
diese Fläche β entspricht den falsch Negativen:H0 wird nicht verworfen
Typ II Fehler
● 2 Datensätze der Größe N Normalverteilung, mu=0
Normalverteilung, mu=0.2
● hier gilt H0 also nicht
● t-Test p-Werte für →verschiedene N
● Fazit : mit steigender Probengröße hat der Test immer mehr Power
Power eines Tests
● Power 1-β hängt ab von
Signifianz level α Probengröße N
Efeitgröße : wie stark weicht der tatsächliche Efekt von H0 ab ?
HohesSignifkanzlevel
NiedrigesSignifkanzlevel
GrosseProbengrösse
GrosseEfektgrösse
KleineProbengrösse
KleineEfektgrösse
Power
Beispiel : Pinguine
● Ich untersuche Populationen von Pinguinen in der Antarktis
● 2 Arten Humboldtpinguine : μH=15kg, σH
Königspinguine: μK=16kg, σK
● Ich fange Gruppen von N Pinguinen, berechne das Durschnittsgewicht m, und bestimme, ob es HP sind oder nicht
● H0: es sind Humboldtpinguine
Verteilungen der Mittelwerte
Verteilung derMittelwerteμ = μH
σ = σH,√N
Verteilung derMittelwerteμ = μK
σ = σK,√N : Verwerfungsbereich von H0
: nicht Verwerfungsbereich von H0
H0 : es handelt sich umHumboldtpinguine
Typ II Fehler
● Bei festgelegtem α kann man N berechnen, sodass β einen bestimmen Wert nicht überschreitet.
● Beispiel: der Test soll bei einem Gewichtsunterschied von 1 kg eine Power von 60% haben und eine Signifkanz von 5%
N ~ 30→
: Verwerfungsbereich von H0
: nicht Verwerfungsbereich von H0
Nicht – parametrische Tests
● setzen keine Bedingung auf die Verteilung der Werte
● werden angewendet, wenn Normalitätsbedingungen der t-Tests nicht erfüllt sind.
● anstatt der Werte werden die Ränge dieser Werte benutzt
● Wilcoxon Rang Tests Ungepaarter Test : Wilcoxon rank sum test , Mann-Whitney U-test
Gepaarter Test : Wilcoxon signed rank test
● Werte der 2 Proben werden zusammengelegt, und nach steigenden Werten geordnet
● R1 ist die Summe der n1 Ränge der ersten Probe*
● Teststatistik :
R1 = 59
W = 23> wilcox.test(x1,x2)
Wilcoxon rank sum test
data: x1 and x2
W = 23, p-value = 0.3823
alternative hypothesis: true location shift
is not equal to 0
*Probe 1 ist per Defnition die mit dem kleinsten R
Wilcoxon Rani Sum Test , Mann-Whitney U Test– Zwei ungepaarte Proben –
Wilcoxon signed rani Test – zwei gepaarte Proben –
● Di : Diferenzen der Paare
● Ri : Ränge der |Di|
● Teststatistik :
● Sind die positiven Diferenzen größer,kleiner als die negativen ?
● H0: die positiven,negativen Diferenzen haben gleiche Rangverteilung
Wilcoxon signed rani Test – Beispiel : Behandlung der Anorexie –
> X Prior Post Diff AbsDiff ranks SignedRanks1 76.9 76.8 -0.1 0.1 1 -12 79.6 76.7 -2.9 2.9 2 -23 81.6 77.8 -3.8 3.8 3 -34 89.9 93.8 3.9 3.9 4 45 80.5 75.2 -5.3 5.3 5 -56 86.0 91.5 5.5 5.5 6 67 86.0 91.7 5.7 5.7 7 78 94.2 101.6 7.4 7.4 8 89 83.5 92.5 9.0 9.0 9 910 82.5 91.9 9.4 9.4 10 1011 87.3 98.0 10.7 10.7 11 1112 83.3 94.3 11.0 11.0 12 1213 83.8 95.2 11.4 11.4 13 1314 77.6 90.7 13.1 13.1 14 1415 82.1 95.5 13.4 13.4 15 1516 86.7 100.3 13.6 13.6 16 1617 73.4 94.9 21.5 21.5 17 17
> W.p <- sum(X[X$Diff>0,'ranks'])> W.m <- sum(X[X$Diff<0,'ranks'])
> W.p[1] 142> W.m[1] 11
> wilcox.test(X$Prior,X$Post,paired=TRUE)
Wilcoxon signed rank test
data: X$Prior and X$Post
V = 11, p-value = 0.0008392
alternative hypothesis: true location shift
is not equal to 0 Hier: beidseitiger Test !
Wilcoxon robuster als t-Test ?
● H0 gilt in allen Fällen
● immer stärkere Abweichung von der Normalitäts- voraussetzung
● p-Werte Verteilung weicht bei t-Test von der Gleichverteilung ab ...
● … aber nicht bei dem Wilcoxon rank-sum test.
ungepaartert-Test
Wilcoxonrank sum test