Hypothesen Tests - Heidelberg Universitybioinfo.ipmb.uni-heidelberg.de/crg/biostat4fs/_downloads/Biostat_2017... · Hypothesen Tests : was braucht man ? Statistische Frage (= zu untersuchender

Hypothesen Tests

Fragestellungen

● Ist das Gewicht von Männern und Frauen signifikant unterschiedlich ?(2-sample test)

● Ist das Mittelgewicht von Männern signifikant grösser als 173 ? (one-sample test)

● Entspricht die Verteilung der Körpergrößen einer Normalverteilung ?(normality test)

● Gibt es eine signifikante Korrelation zwischen Alter und Cholesterin level ?(correlation test)

stab.glu hdl ratio glyhb location age gender height weight frame82 56 3.60 4.31 Buckingham 46 female 62 121 medium97 24 6.90 4.44 Buckingham 29 female 64 218 large92 37 6.20 4.64 Buckingham 58 female 61 256 large93 12 6.50 4.63 Buckingham 67 male 67 119 large90 28 8.90 7.72 Buckingham 64 male 68 183 medium94 69 3.60 4.81 Buckingham 34 male 71 190 large92 41 4.80 4.84 Buckingham 30 male 69 191 medium75 44 5.20 3.94 Buckingham 37 male 59 170 medium87 49 3.60 4.84 Buckingham 45 male 69 166 large89 40 6.60 5.78 Buckingham 55 female 63 202 small

Achtung : diese Fragen beziehen sich auf die Gesamtpopulation, nicht auf die Stichprobe !!

Hypothesen Tests : was braucht man ?

● Statistische Frage (= zu untersuchender Effekt): haben Männer und Frauen unterschiedliche durschnittliche Körpergrößen ?

sind Männer im Durschnitt mehr als 10 cm größer als Frauen?

● Hypothesen

Null Hypothese H0 (= kein Effekt vorhanden):

der Unterschied der Erwartungswerte ist null (Differenzen sind statistische Fluktuationen) der Unterschied der Erwartungswerte ist kleiner oder gleich 10 cm

alternative Hypothese (= ein Effekt vorhanden):

der Unterschied ist ungleich null der Unterschied ist größer als 10 cm

● eine Teststatistik, deren Verteilung under H0 bekannt ist

● Berechnung einer p-Wertes:Wahrscheinlichkeit, daß ich unter H0 einen größeren/kleineren Wert für dieTeststatistik beobachten würde als den tatsächlich beobachteten.

Teststatistik

● Beispiele: one-sample t-test :

two-sample Wilcoxon rank sum :

● große Proben: meistens sind die H0 Verteilungen asymptotischNormal

● kleine Proben : exakte Werte müssen anhand der reellenVerteilung berechnet werden

● H0 Verteilungen können auch empirisch bestimmt werden durchresampling/bootstrap-Methoden

Wir bauen eine Teststatistik...

● Frage : Kommt meine Stichprobe aus einer Population mit Erwartungswert h=1,5 ?

● Null-Hypothese (H0) : ja …

● Alternativhypothese (H1): nein, die Stichprobe könnte aus einer Population mitkleinerem oder größerem Erwartungswert kommen !

● Stichprobe xi

● Effektgrösse :

● Rauschen :

● Wie groß kann θ werden, wenn die Durschnittsgröße h=1,50m ist (statistischeFluktuationen, also H0 Hypothese) ?

● Wie groß ist mein tatsächlich beobachteter Wert von θ anhand meiner Stichprobe?

H0 Verteilung und p-Wert

● Rote Kurve = H0 Verteilung derTeststatistik

● Vertikale Linie = beobachteter Wertder Teststatistik aus deruntersuchten Stichprobe

● Grüner Bereich = Wahrscheinlichkeit,einen kleineren Wert unter H0 zubeobachten (lower-tail P-value)

● Blauer Bereich = Wahrscheinlichkeit,einen größeren Wert unter H0 zubeobachten (upper-tail P-value)

p-Wert = Wahrscheinlichkeit, unter H0 einenkleineren/größeren/extremeren Werte des Schätzers zu

erhalten als den tatsächlich beobachteten

ein- oder beidseitiger Test

● Beispiel: Cholesterinwerte Frauen / Männer

● Unterschiedliche Fragen: gibt es einen signifikanten Unterschied zwischen chol. Werten bei Männern und

Frauen ?→ beidseitiger Test (H0: kein Unterschied / H1 : größer ODER kleiner)

haben Männer einen sign. höheren Cholesterinspiegel ?→ einseitiger Test („upper tail test“) (H0: kein Unterschied / H1 : höherer Spiegel)

haben Männer einen sign. niedrigeren Cholesterinspiegel ?→ einseitiger Test(„lower tail test“) (H0: kein Unterschied / H1 : niedrigererSpiegel)

● wenn keine vorherige Annahme → beidseitiger Test

● die Frage muß gestellt werden, bevor der Test durchgeführt wird !(unter den Top 10 statistischen Todsünde..)

Signifikanz

● Man definiert einen Signifikanzwert α(=0.05,0.01,...)

● p < α :

die Null-Hypothese kann verworfen werden

der beobachtete Effekt ist signifikant

H1 ist statistisch bewiesen

● p > α : der beobachtete Effekt kann durch statistische

Fluktuationen erklärt werden

der Effekt reicht nicht aus, um H0 zu verwerfen

Achtung : H0 ist dadurch nicht bewiesen !! Vielleicht würde der Effekt bei größeren Probensignifikant werden.

● α = 0.05 hat sich durchgesetzt, auswelchem Grund auch immer (keinegoldene Regel !!)

Signifikanz vs Relevanz

● Unterschied Frauen/Männer(= Effektgröße) bleibt ~konstant

● der Effekt wird immersignifikanter

● kleiner Effekt kannsignifikant sein (N groß)

● großer Effekt kann nichtsignifikant sein (N klein)

Überlappung oder nicht der Standardfehler sagt nichts über die Signifikanz !

Resampling Methoden

● bei Test in denen mehrere Stichproben verglichen werden kannman die H0 Verteilung simulieren

● H0 : kein Unterschied zwischen den Proben → alle Werte könnenvermischt werden

H0

?(10000 x)

Beispiel : 2 Stichproben Test

● Frage : haben Frauen und Männer signifikant unterschiedlicheCholesterin Werte ?

● H0 : kein signifikanter Unterschied

● Stichprobe aus 168 Männern / 234 Frauen

● Teststatistik :

● Resampling Methode:

H0 : kein Unterschied; was ist die Fluktuation von θ0 ?

10.000 Zufallsproben (168 , 234) aus den reellen Werten (cholM,cholF)

Verteilung von θ0 ?

Beispiel

● Beobachteter Wert:θ=1.41

● Anzahl der θ0 ≥ θ: 37%

● Anzahl der θ0 ≤ θ: 63%

● Nicht signifikant, H0 kannnicht verworfen werden.

Beispiel

● Andere Schätzer:

● Beobachteter Wert:θ=1.006

● Anzahl der θ0 ≥ θ: 38%

● Anzahl der θ0 ≤ θ: 62%

● Nicht signifikant, H0 kann nicht verworfen werden.

2. Beispiel

● Frage: haben Männer undFrauen ein signifikantunterschiedliches Gewicht ?(beidseitiger Test)

● H0: kein signif. Unterschied

● Schätzer :

● beobachteter Wert:θ=0.96

● nicht signifikant, H0 kann nichtverworfen werden

2. Beispiel

● Frage: haben Männer einsignifikant höheres Gewicht ?(einseitiger Test)

● H0: kein signif. höheresGewicht von Männern

● Schätzer :

● beobachteter Wert:θ=0.96

● signifikant, H0 kann verworfenwerden

Empirische vs Exakte Tests

● p-Wert Bestimmungen durch resampling Methoden erlauben es,jede Hypothese anhand von jeder Teststatistik zu untersuchen

● Präzision der p-Wert Bestimmung hängt von Anzahl derresamplings ab n=1000 → max. Präzision der p-Wertes : 1e-3

n=100.000 → max. Präzision der p-Wertes : 1e-5

● kann schnell sehr Computerintensiv werden

● für gewisse Teststatistiken, unter gewissen Voraussetzungen kannman exakte, parametrische Tests benutzen

● Voraussetzungen nicht erfüllt : nicht-parametrische Tests

Mittelwert Tests● Hypothesen über Mittelwerte können anhand eines t-Tests

untersucht werden

● verschiedene Versionen 1-Proben Test : ist die Durschnittskörpertemperatur 37.7 ° ?

2-Proben Test, ungepaart : haben Männer und Frauen unterschiedlichedursch. Körpergrößen ?

2-Proben Test, gepaart : verändert sich der dursch. Cholesterinspiegel, wennman 1 Monat lang jeden Morgen ein Ei isst ?

2-Proben Testgepaart

2-Proben Testungepaart

1-Proben Test

t-Test

Typ SchätzerFreiheits

grade Anmerkung

1-Proben n-1

2-Probenungepaart

gleiche Varianz

n1+n2-2

2-Probenungepaart

ungleiche Varianz(*)

2-Probengepaart

n-1xD = Differenzen zwischen

Paaren

H0- Verteilung : t-Verteilung mit entsprechenden Freiheitsgraden

(*)

> t.test(weight.m,weight.f,var.equal=TRUE)

Two Sample t-test

data: weight.m and weight.f

t = 1.8265, df = 400, p-value = 0.06852

alternative hypothesis: true difference in

means is not equal to 0

95 percent confidence interval:

-0.5669448 15.4259192

sample estimates:

mean of x mean of y

181.9167 174.4872

t.test in R

Freiheitsgrade = n1+n2-2Schätzer

Konfidenzinterval der Differenzder Mittelwerte

zweiseitiger Student t-Test, ungepaart

H0: Durschnittsgewicht der Männer ist gleich das der FrauenH1 : Durschnittsgewicht der Männer ist ungleich das der Frauen

t.test in R

> t.test(weight.m,weight.f,alternative="greater",var.equal=TRUE)

Two Sample t-test


t = 1.8265, df = 400, p-value = 0.03426

alternative hypothesis: true difference in means is greater than 0


0.723444 Inf

sample estimates:

mean of x mean of y

181.9167 174.4872

einseitiger Student t-Test, ungepaart

H0: Durschnittsgewicht der Männer ist nicht größer als das der FrauenH1 : Durschnittsgewicht der Männer ist größer als das der Frauen

bei einseitigen Testsist ober/unter Grenze des KIimmer +/- unendlich !

t.test in R

einseitiger Testα = 0.05→ signifikant

beidseitiger Testα = 0.05→ nicht signifikant

t.test in R

> t.test(weight.m,weight.f,alternative="greater")

Welch Two Sample t-test


t = 1.8453, df = 372.446, p-value = 0.0329

alternative hypothesis: true difference in means is greater than 0


0.7903498 Inf

sample estimates:

mean of x mean of y

181.9167 174.4872

da die Varianzen selten genau gleich sind wird meistens der Welch t-Test durchgeführt (wird automatisch geprüft in R)

einseitiger Welch t-Test, ungepaart

zurück zu den Beispielen

p-Wertt-Test

p-Wertresampling

Haben Männer undFrauen unterschiedliche

Cholesterinspiegel ?

p = 0.377(2-Proben, ungepaart, two-

tailed)p = 0.37

Haben Männer einhöheres

Körpergewicht ?

p = 0.0329(2-Proben, ungepaart, one-

tailed)p = 0.032

Documents

Hypothesen Tests - Heidelberg Universitybioinfo.ipmb.uni-heidelberg.de/crg/biostat4fs/_downloads/Biostat_2017... · Hypothesen Tests : was braucht man ? Statistische Frage (= zu untersuchender