Upload
others
View
6
Download
0
Embed Size (px)
Citation preview
Hypothesen Tests
Fragestellungen
● Ist das Gewicht von Männern und Frauen signifikant unterschiedlich ?(2-sample test)
● Ist das Mittelgewicht von Männern signifikant grösser als 173 ? (one-sample test)
● Entspricht die Verteilung der Körpergrößen einer Normalverteilung ?(normality test)
● Gibt es eine signifikante Korrelation zwischen Alter und Cholesterin level ?(correlation test)
stab.glu hdl ratio glyhb location age gender height weight frame82 56 3.60 4.31 Buckingham 46 female 62 121 medium97 24 6.90 4.44 Buckingham 29 female 64 218 large92 37 6.20 4.64 Buckingham 58 female 61 256 large93 12 6.50 4.63 Buckingham 67 male 67 119 large90 28 8.90 7.72 Buckingham 64 male 68 183 medium94 69 3.60 4.81 Buckingham 34 male 71 190 large92 41 4.80 4.84 Buckingham 30 male 69 191 medium75 44 5.20 3.94 Buckingham 37 male 59 170 medium87 49 3.60 4.84 Buckingham 45 male 69 166 large89 40 6.60 5.78 Buckingham 55 female 63 202 small
Achtung : diese Fragen beziehen sich auf die Gesamtpopulation, nicht auf die Stichprobe !!
Hypothesen Tests : was braucht man ?
● Statistische Frage (= zu untersuchender Effekt): haben Männer und Frauen unterschiedliche durschnittliche Körpergrößen ?
sind Männer im Durschnitt mehr als 10 cm größer als Frauen?
● Hypothesen
Null Hypothese H0 (= kein Effekt vorhanden):
der Unterschied der Erwartungswerte ist null (Differenzen sind statistische Fluktuationen) der Unterschied der Erwartungswerte ist kleiner oder gleich 10 cm
alternative Hypothese (= ein Effekt vorhanden):
der Unterschied ist ungleich null der Unterschied ist größer als 10 cm
● eine Teststatistik, deren Verteilung under H0 bekannt ist
● Berechnung einer p-Wertes:Wahrscheinlichkeit, daß ich unter H0 einen größeren/kleineren Wert für dieTeststatistik beobachten würde als den tatsächlich beobachteten.
Teststatistik
● Beispiele: one-sample t-test :
two-sample Wilcoxon rank sum :
● große Proben: meistens sind die H0 Verteilungen asymptotischNormal
● kleine Proben : exakte Werte müssen anhand der reellenVerteilung berechnet werden
● H0 Verteilungen können auch empirisch bestimmt werden durchresampling/bootstrap-Methoden
Wir bauen eine Teststatistik...
● Frage : Kommt meine Stichprobe aus einer Population mit Erwartungswert h=1,5 ?
● Null-Hypothese (H0) : ja …
● Alternativhypothese (H1): nein, die Stichprobe könnte aus einer Population mitkleinerem oder größerem Erwartungswert kommen !
● Stichprobe xi
● Effektgrösse :
● Rauschen :
● Wie groß kann θ werden, wenn die Durschnittsgröße h=1,50m ist (statistischeFluktuationen, also H0 Hypothese) ?
● Wie groß ist mein tatsächlich beobachteter Wert von θ anhand meiner Stichprobe?
H0 Verteilung und p-Wert
● Rote Kurve = H0 Verteilung derTeststatistik
● Vertikale Linie = beobachteter Wertder Teststatistik aus deruntersuchten Stichprobe
● Grüner Bereich = Wahrscheinlichkeit,einen kleineren Wert unter H0 zubeobachten (lower-tail P-value)
● Blauer Bereich = Wahrscheinlichkeit,einen größeren Wert unter H0 zubeobachten (upper-tail P-value)
p-Wert = Wahrscheinlichkeit, unter H0 einenkleineren/größeren/extremeren Werte des Schätzers zu
erhalten als den tatsächlich beobachteten
ein- oder beidseitiger Test
● Beispiel: Cholesterinwerte Frauen / Männer
● Unterschiedliche Fragen: gibt es einen signifikanten Unterschied zwischen chol. Werten bei Männern und
Frauen ?→ beidseitiger Test (H0: kein Unterschied / H1 : größer ODER kleiner)
haben Männer einen sign. höheren Cholesterinspiegel ?→ einseitiger Test („upper tail test“) (H0: kein Unterschied / H1 : höherer Spiegel)
haben Männer einen sign. niedrigeren Cholesterinspiegel ?→ einseitiger Test(„lower tail test“) (H0: kein Unterschied / H1 : niedrigererSpiegel)
● wenn keine vorherige Annahme → beidseitiger Test
● die Frage muß gestellt werden, bevor der Test durchgeführt wird !(unter den Top 10 statistischen Todsünde..)
Signifikanz
● Man definiert einen Signifikanzwert α(=0.05,0.01,...)
● p < α :
die Null-Hypothese kann verworfen werden
der beobachtete Effekt ist signifikant
H1 ist statistisch bewiesen
● p > α : der beobachtete Effekt kann durch statistische
Fluktuationen erklärt werden
der Effekt reicht nicht aus, um H0 zu verwerfen
Achtung : H0 ist dadurch nicht bewiesen !! Vielleicht würde der Effekt bei größeren Probensignifikant werden.
● α = 0.05 hat sich durchgesetzt, auswelchem Grund auch immer (keinegoldene Regel !!)
Signifikanz vs Relevanz
● Unterschied Frauen/Männer(= Effektgröße) bleibt ~konstant
● der Effekt wird immersignifikanter
● kleiner Effekt kannsignifikant sein (N groß)
● großer Effekt kann nichtsignifikant sein (N klein)
Überlappung oder nicht der Standardfehler sagt nichts über die Signifikanz !
Resampling Methoden
● bei Test in denen mehrere Stichproben verglichen werden kannman die H0 Verteilung simulieren
● H0 : kein Unterschied zwischen den Proben → alle Werte könnenvermischt werden
H0
?(10000 x)
Beispiel : 2 Stichproben Test
● Frage : haben Frauen und Männer signifikant unterschiedlicheCholesterin Werte ?
● H0 : kein signifikanter Unterschied
● Stichprobe aus 168 Männern / 234 Frauen
● Teststatistik :
● Resampling Methode:
H0 : kein Unterschied; was ist die Fluktuation von θ0 ?
10.000 Zufallsproben (168 , 234) aus den reellen Werten (cholM,cholF)
Verteilung von θ0 ?
Beispiel
● Beobachteter Wert:θ=1.41
● Anzahl der θ0 ≥ θ: 37%
● Anzahl der θ0 ≤ θ: 63%
● Nicht signifikant, H0 kannnicht verworfen werden.
Beispiel
● Andere Schätzer:
● Beobachteter Wert:θ=1.006
● Anzahl der θ0 ≥ θ: 38%
● Anzahl der θ0 ≤ θ: 62%
● Nicht signifikant, H0 kann nicht verworfen werden.
2. Beispiel
● Frage: haben Männer undFrauen ein signifikantunterschiedliches Gewicht ?(beidseitiger Test)
● H0: kein signif. Unterschied
● Schätzer :
● beobachteter Wert:θ=0.96
● nicht signifikant, H0 kann nichtverworfen werden
2. Beispiel
● Frage: haben Männer einsignifikant höheres Gewicht ?(einseitiger Test)
● H0: kein signif. höheresGewicht von Männern
● Schätzer :
● beobachteter Wert:θ=0.96
● signifikant, H0 kann verworfenwerden
Empirische vs Exakte Tests
● p-Wert Bestimmungen durch resampling Methoden erlauben es,jede Hypothese anhand von jeder Teststatistik zu untersuchen
● Präzision der p-Wert Bestimmung hängt von Anzahl derresamplings ab n=1000 → max. Präzision der p-Wertes : 1e-3
n=100.000 → max. Präzision der p-Wertes : 1e-5
● kann schnell sehr Computerintensiv werden
● für gewisse Teststatistiken, unter gewissen Voraussetzungen kannman exakte, parametrische Tests benutzen
● Voraussetzungen nicht erfüllt : nicht-parametrische Tests
Mittelwert Tests● Hypothesen über Mittelwerte können anhand eines t-Tests
untersucht werden
● verschiedene Versionen 1-Proben Test : ist die Durschnittskörpertemperatur 37.7 ° ?
2-Proben Test, ungepaart : haben Männer und Frauen unterschiedlichedursch. Körpergrößen ?
2-Proben Test, gepaart : verändert sich der dursch. Cholesterinspiegel, wennman 1 Monat lang jeden Morgen ein Ei isst ?
2-Proben Testgepaart
2-Proben Testungepaart
1-Proben Test
t-Test
Typ SchätzerFreiheits
grade Anmerkung
1-Proben n-1
2-Probenungepaart
gleiche Varianz
n1+n2-2
2-Probenungepaart
ungleiche Varianz(*)
2-Probengepaart
n-1xD = Differenzen zwischen
Paaren
H0- Verteilung : t-Verteilung mit entsprechenden Freiheitsgraden
(*)
> t.test(weight.m,weight.f,var.equal=TRUE)
Two Sample t-test
data: weight.m and weight.f
t = 1.8265, df = 400, p-value = 0.06852
alternative hypothesis: true difference in
means is not equal to 0
95 percent confidence interval:
-0.5669448 15.4259192
sample estimates:
mean of x mean of y
181.9167 174.4872
t.test in R
Freiheitsgrade = n1+n2-2Schätzer
Konfidenzinterval der Differenzder Mittelwerte
zweiseitiger Student t-Test, ungepaart
H0: Durschnittsgewicht der Männer ist gleich das der FrauenH1 : Durschnittsgewicht der Männer ist ungleich das der Frauen
t.test in R
> t.test(weight.m,weight.f,alternative="greater",var.equal=TRUE)
Two Sample t-test
data: weight.m and weight.f
t = 1.8265, df = 400, p-value = 0.03426
alternative hypothesis: true difference in means is greater than 0
95 percent confidence interval:
0.723444 Inf
sample estimates:
mean of x mean of y
181.9167 174.4872
einseitiger Student t-Test, ungepaart
H0: Durschnittsgewicht der Männer ist nicht größer als das der FrauenH1 : Durschnittsgewicht der Männer ist größer als das der Frauen
bei einseitigen Testsist ober/unter Grenze des KIimmer +/- unendlich !
t.test in R
einseitiger Testα = 0.05→ signifikant
beidseitiger Testα = 0.05→ nicht signifikant
t.test in R
> t.test(weight.m,weight.f,alternative="greater")
Welch Two Sample t-test
data: weight.m and weight.f
t = 1.8453, df = 372.446, p-value = 0.0329
alternative hypothesis: true difference in means is greater than 0
95 percent confidence interval:
0.7903498 Inf
sample estimates:
mean of x mean of y
181.9167 174.4872
da die Varianzen selten genau gleich sind wird meistens der Welch t-Test durchgeführt (wird automatisch geprüft in R)
einseitiger Welch t-Test, ungepaart
zurück zu den Beispielen
p-Wertt-Test
p-Wertresampling
Haben Männer undFrauen unterschiedliche
Cholesterinspiegel ?
p = 0.377(2-Proben, ungepaart, two-
tailed)p = 0.37
Haben Männer einhöheres
Körpergewicht ?
p = 0.0329(2-Proben, ungepaart, one-
tailed)p = 0.032