48
Hypothesen Tests

Hypothesen Tests - Heidelberg Universitybioinfo.ipmb.uni-heidelberg.de/crg/biostat4fs/_downloads/... · 2018. 5. 9. · Hypothesen Tests : was braucht man ? Statistische Frage (=

  • Upload
    others

  • View
    6

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Hypothesen Tests - Heidelberg Universitybioinfo.ipmb.uni-heidelberg.de/crg/biostat4fs/_downloads/... · 2018. 5. 9. · Hypothesen Tests : was braucht man ? Statistische Frage (=

Hypothesen Tests

Page 2: Hypothesen Tests - Heidelberg Universitybioinfo.ipmb.uni-heidelberg.de/crg/biostat4fs/_downloads/... · 2018. 5. 9. · Hypothesen Tests : was braucht man ? Statistische Frage (=

Fragestellungen

● Ist das Gewicht von Männern und Frauen signifiant unterschiedlich ?(2-sample test)

● Ist das Mittelgewicht von Männern signifiant grösser als 173 ? (one-sample test)

● Entspricht die Verteilung der Körpergrößen einer Normalverteilung ?(normality test)

● Gibt es eine signifiante Korrelation zwischen Alter und Cholesterin level ? (correlation test)

stab.glu hdl ratio glyhb location age gender height weight frame82 56 3.60 4.31 Buckingham 46 female 62 121 medium97 24 6.90 4.44 Buckingham 29 female 64 218 large92 37 6.20 4.64 Buckingham 58 female 61 256 large93 12 6.50 4.63 Buckingham 67 male 67 119 large90 28 8.90 7.72 Buckingham 64 male 68 183 medium94 69 3.60 4.81 Buckingham 34 male 71 190 large92 41 4.80 4.84 Buckingham 30 male 69 191 medium75 44 5.20 3.94 Buckingham 37 male 59 170 medium87 49 3.60 4.84 Buckingham 45 male 69 166 large89 40 6.60 5.78 Buckingham 55 female 63 202 small

Achtung : diese Fragen beziehen sich auf die Gesamtpopulation, nicht auf die Stichprobe !!

Page 3: Hypothesen Tests - Heidelberg Universitybioinfo.ipmb.uni-heidelberg.de/crg/biostat4fs/_downloads/... · 2018. 5. 9. · Hypothesen Tests : was braucht man ? Statistische Frage (=

Hypothesen Tests : was braucht man ?

● Statistische Frage (= zu untersuchender Efekt): haben Männer und Frauen unterschiedliche durchschnittliche Körpergrößen ?

sind Männer im Durchschnitt mehr als 10 cm größer als Frauen?

● Hypothesen Null Hypothese H0 (= iein Efeit vorhanden):

der Unterschied der Erwartungswerte ist null (Diferenzen sind statistische Fluktuationen) der Unterschied der Erwartungswerte ist kleiner oder gleich 10 cm

alternative Hypothese (= ein Efeit vorhanden):

der Unterschied ist ungleich null der Unterschied ist größer als 10 cm

● eine Teststatistii, deren Verteilung under H0 bekannt ist

● Berechnung einer p-Wertes:Wahrscheinlichkeit, daß ich unter H0 einen größeren/kleineren Wert für die Teststatistik beobachten würde als den tatsächlich beobachteten.

Page 4: Hypothesen Tests - Heidelberg Universitybioinfo.ipmb.uni-heidelberg.de/crg/biostat4fs/_downloads/... · 2018. 5. 9. · Hypothesen Tests : was braucht man ? Statistische Frage (=

Wir bauen eine Teststatistii...

● Null-Hypothese (H0) : nein, kein Efekt; Pfanzen nach Behandlung entstammen der gleichen Population mit Erwartungswert h = 1.5m

● Alternativhypothese (H1): ja, die Stichprobe könnte aus einer Population mit ileinerem oder größerem Erwartungswert kommen!

● Stichprobe x : Mittelwert x, Standardabweichung s

● Efektgrösse :

● Rauschen :

● Wie groß kann t werden, wenn die Durchschnittsgröße h=1.50m ist (statistische Fluktuationen, also H0 Hypothese)? H0-Verteilung von t→

x = {1.47 , 1.32 , 1.51 , 1.61 , 1.27 , 1.41 , 1.55 , 1.49 , 1.44 , 1.50 }

Test: Efekt von Düngemittel auf Wuchs von PfanzenKontrollpopulation (ohne Behandlung): h=1.5mFrage : Hat die Behandlung einen Efekt auf die Pfanzengröße?

Page 5: Hypothesen Tests - Heidelberg Universitybioinfo.ipmb.uni-heidelberg.de/crg/biostat4fs/_downloads/... · 2018. 5. 9. · Hypothesen Tests : was braucht man ? Statistische Frage (=

H0 Verteilung und p-Wert

● Rote Kurve = H0 Verteilung der Teststatistik

● Vertikale Linie = beobachteter Wert der Teststatistik aus der untersuchten Stichprobe

● Grüner Bereich = Wahrscheinlichkeit, einen ileineren Wert unter H0 zu beobachten (lower-tail)

● Blauer Bereich = Wahrscheinlichkeit, einen größeren Wert unter H0 zu beobachten (upper-tail)

p-Wert = Wahrscheinlichieit, unter H0 einen ileineren,größeren,extremeren Werte des Schätzers zu

erhalten als den tatsächlich beobachteten

Page 6: Hypothesen Tests - Heidelberg Universitybioinfo.ipmb.uni-heidelberg.de/crg/biostat4fs/_downloads/... · 2018. 5. 9. · Hypothesen Tests : was braucht man ? Statistische Frage (=

ein- oder beidseitiger Test

● Beispiel: Cholesterinwerte Frauen , Männer

● Unterschiedliche Fragen: gibt es einen signifkanten Unterschied zwischen chol. Werten bei Männern und Frauen ?

→ beidseitiger Test (H0: iein Unterschied , H1 : größer ODER ileiner)

haben Männer einen sign. höheren Cholesterinspiegel ? → einseitiger Test („upper tail test“) (H0: iein höherer Spiegel , H1 : höherer Spiegel)

haben Männer einen sign. niedrigeren Cholesterinspiegel ? → einseitiger Test(„lower tail test“) (H0: iein niedrigerer Spiegel , H1 : niedrigerer

Spiegel)

● wenn keine vorherige Annahme beidseitiger Test→

● die Frage muß gestellt werden, bevor der Test durchgeführt wird !(unter den Top 10 statistischen Todsünde..)

Page 7: Hypothesen Tests - Heidelberg Universitybioinfo.ipmb.uni-heidelberg.de/crg/biostat4fs/_downloads/... · 2018. 5. 9. · Hypothesen Tests : was braucht man ? Statistische Frage (=

Signifianz

● Man defniert einen Signifianzwert α (=0.05,0.01,...)

● p < α : die Null-Hypothese kann verworfen werden

der beobachtete Efekt ist signifiant

H1 ist statistisch bewiesen

● p > α : der beobachtete Efekt kann durch statistische

Fluktuationen erklärt werden

der Efekt reicht nicht aus, um H0 zu verwerfen

Achtung : H0 ist dadurch nicht bewiesen !! Vielleicht würde der Efekt bei größeren Proben signifkant werden.

● α = 0.05 hat sich durchgesetzt, aus welchem Grund auch immer (keine goldene Regel !!)

Page 8: Hypothesen Tests - Heidelberg Universitybioinfo.ipmb.uni-heidelberg.de/crg/biostat4fs/_downloads/... · 2018. 5. 9. · Hypothesen Tests : was braucht man ? Statistische Frage (=

Signifianz vs Relevanz

● Unterschied Frauen,Männer (= Efektgröße) bleibt ~ konstant

● der Efekt wird immer signifianter

● kleiner Efekt kann signifkant sein (N groß)

● großer Efekt kann nicht signifkant sein (N klein)

Ein Test iann signifiant sein, obwohl der Efeit gering ist!

Page 9: Hypothesen Tests - Heidelberg Universitybioinfo.ipmb.uni-heidelberg.de/crg/biostat4fs/_downloads/... · 2018. 5. 9. · Hypothesen Tests : was braucht man ? Statistische Frage (=

Resampling Methoden

● bei Test in denen mehrere Stichproben verglichen werden kann man die H0 Verteilung simulieren

● H0 : kein Unterschied zwischen den Proben alle Werte können →vermischt werden

H0

?(10000 x)

Page 10: Hypothesen Tests - Heidelberg Universitybioinfo.ipmb.uni-heidelberg.de/crg/biostat4fs/_downloads/... · 2018. 5. 9. · Hypothesen Tests : was braucht man ? Statistische Frage (=

Beispiel : 2 Stichproben Test

● Frage : haben Frauen und Männer signifikant unterschiedliche durchschnittliche Cholesterin Werte ?

● H0 : kein signifkanter Unterschied

● H1 : höher oder niedriger

● Stichprobe aus 168 Männern , 234 Frauen

● Teststatistik :

● Resampling Methode: H0 : kein Unterschied; was ist die Fluktuation von θ0 ?

10.000 Zufallsproben (168 , 234) aus den reellen Werten (cholM,cholF)

Verteilung von θ0 ?

Page 11: Hypothesen Tests - Heidelberg Universitybioinfo.ipmb.uni-heidelberg.de/crg/biostat4fs/_downloads/... · 2018. 5. 9. · Hypothesen Tests : was braucht man ? Statistische Frage (=

Beispiel

● Beobachteter Wert:θ=1.41

● Anzahl der θ0 ≥ θ: 3700 , 10000 = 37%

● Anzahl der θ0 ≤ θ: 6300 , 10000 = 63%

● Nicht signifkant, H0 kann nicht verworfen werden.

● P-Wert ? Pup = 0.37

Pdown = 0.63

P2sided = 2*min(Pup,Pdown) = 0.74

Page 12: Hypothesen Tests - Heidelberg Universitybioinfo.ipmb.uni-heidelberg.de/crg/biostat4fs/_downloads/... · 2018. 5. 9. · Hypothesen Tests : was braucht man ? Statistische Frage (=

Beispiel

● Andere Teststatistik:

● Beobachteter Wert:θ=1.006

● Anzahl der θ0 ≥ θ: 37%

● Anzahl der θ0 ≤ θ: 63%

● Nicht signifkant, H0 kann nicht verworfen werden.

Page 13: Hypothesen Tests - Heidelberg Universitybioinfo.ipmb.uni-heidelberg.de/crg/biostat4fs/_downloads/... · 2018. 5. 9. · Hypothesen Tests : was braucht man ? Statistische Frage (=

2. Beispiel

● Frage: haben Männer und Frauen ein signifkant unterschiedliches Gewicht ?(beidseitiger Test)

● H0: kein signif. Unterschied

● Schätzer :

● beobachteter Wert: θ=0.96

● nicht signifkant, H0 kann nicht verworfen werden

Page 14: Hypothesen Tests - Heidelberg Universitybioinfo.ipmb.uni-heidelberg.de/crg/biostat4fs/_downloads/... · 2018. 5. 9. · Hypothesen Tests : was braucht man ? Statistische Frage (=

2. Beispiel

● Frage: haben Männer ein signifkant höheres Gewicht ?(einseitiger Test)

● H0: kein signif. höheres Gewicht von Männern

● Schätzer :

● beobachteter Wert: θ=0.96

● signifkant, H0 kann verworfen werden

Page 15: Hypothesen Tests - Heidelberg Universitybioinfo.ipmb.uni-heidelberg.de/crg/biostat4fs/_downloads/... · 2018. 5. 9. · Hypothesen Tests : was braucht man ? Statistische Frage (=

Empirische vs Exaite Tests

● p-Wert Bestimmungen durch resampling Methoden erlauben es, jede Hypothese anhand von jeder Teststatistik zu untersuchen

● Präzision der p-Wert Bestimmung hängt von Anzahl der resamplings ab n=1000 max. Präzision der p-Wertes : 1e-3→

n=100.000 max. Präzision der p-Wertes : 1e-5→

● kann schnell sehr Computerintensiv werden

● für gewisse Teststatistiken, unter gewissen Voraussetzungen kann man exakte, parametrische Tests benutzen

● Voraussetzungen nicht erfüllt : nicht-parametrische Tests

Page 16: Hypothesen Tests - Heidelberg Universitybioinfo.ipmb.uni-heidelberg.de/crg/biostat4fs/_downloads/... · 2018. 5. 9. · Hypothesen Tests : was braucht man ? Statistische Frage (=

Mittelwert Tests● Hypothesen über Mittelwerte können anhand eines t-Tests

untersucht werden

● verschiedene Versionen 1-Proben Test : ist die Durchschnittskörpertemperatur 37.7 ° ?

2-Proben Test, ungepaart : haben Männer und Frauen unterschiedliche dursch. Körpergrößen ?

2-Proben Test, gepaart : verändert sich der durch.. Cholesterinspiegel, wenn man 1 Monat lang jeden Morgen ein Ei isst ?

2-Proben Testgepaart

2-Proben Testungepaart

1-Proben Test

Page 17: Hypothesen Tests - Heidelberg Universitybioinfo.ipmb.uni-heidelberg.de/crg/biostat4fs/_downloads/... · 2018. 5. 9. · Hypothesen Tests : was braucht man ? Statistische Frage (=

t-Test

Typ TeststatistiiFreiheits

grade Anmeriung

1-Proben n-1

2-Probenungepaart

gleiche Varianz

n1+n2-2

2-Probenungepaart

ungleiche Varianz(*)

2-Proben gepaart

n-1xD = Diferenzen zwischen

Paaren

H0- Verteilung : t-Verteilung mit entsprechenden Freiheitsgraden

(*)

Page 18: Hypothesen Tests - Heidelberg Universitybioinfo.ipmb.uni-heidelberg.de/crg/biostat4fs/_downloads/... · 2018. 5. 9. · Hypothesen Tests : was braucht man ? Statistische Frage (=

Tabelle der iritischen Werte

Freiheitsgrade● Beispiel (1-Proben Test):

Signifkanzwert α = 0.05

Teststatistik t = 2.01

Probengröße n=8 →Freiheitsgrade ν = 7

● Einseitiger Test: Spalte 1-α = 0.95

kritischer Wert = 1.895

t > 1.895 : Test ist signifkant bei α=0.05

H0 kann verworfen werden!

Page 19: Hypothesen Tests - Heidelberg Universitybioinfo.ipmb.uni-heidelberg.de/crg/biostat4fs/_downloads/... · 2018. 5. 9. · Hypothesen Tests : was braucht man ? Statistische Frage (=

Tabelle der iritischen Werte

Freiheitsgrade● Beispiel (1-Proben Test):

Signifkanzwert α = 0.05

Teststatistik t = 2.01

Probengröße n=8 Freiheitsgrade → ν = 7

● Beidseitiger Test: Spalte 1-α,2 = 0.975

kritischer Wert = 2.365

|t| < 2.365 : Test istNICHT signifkant bei α=0.05

H0 kann NICHT verworfen werden

Page 20: Hypothesen Tests - Heidelberg Universitybioinfo.ipmb.uni-heidelberg.de/crg/biostat4fs/_downloads/... · 2018. 5. 9. · Hypothesen Tests : was braucht man ? Statistische Frage (=

> t.test(weight.m,weight.f,var.equal=TRUE)

Two Sample t-test

data: weight.m and weight.f

t = 1.8265, df = 400, p-value = 0.06852

alternative hypothesis: true difference in

means is not equal to 0

95 percent confidence interval:

-0.5669448 15.4259192

sample estimates:

mean of x mean of y

181.9167 174.4872

t.test in R

Freiheitsgrade = n1+n2-2Teststatistik

Konfdenzinterval der Diferenzder Mittelwerte

zweiseitiger Student t-Test, ungepaart

H0: Durschnittsgewicht der Männer ist gleich das der FrauenH1 : Durschnittsgewicht der Männer ist ungleich das der Frauen

Page 21: Hypothesen Tests - Heidelberg Universitybioinfo.ipmb.uni-heidelberg.de/crg/biostat4fs/_downloads/... · 2018. 5. 9. · Hypothesen Tests : was braucht man ? Statistische Frage (=

t.test in R

> t.test(weight.m,weight.f,alternative="greater",var.equal=TRUE)

Two Sample t-test

data: weight.m and weight.f

t = 1.8265, df = 400, p-value = 0.03426

alternative hypothesis: true difference in means is greater than 0

95 percent confidence interval:

0.723444 Inf

sample estimates:

mean of x mean of y

181.9167 174.4872

einseitiger Student t-Test, ungepaart

H0: Durchschnittsgewicht der Männer ist nicht größer als das der FrauenH1 : Durchschnittsgewicht der Männer ist größer als das der Frauen

bei einseitigen Testsist ober,unter Grenze des KIimmer +,- unendlich !

Page 22: Hypothesen Tests - Heidelberg Universitybioinfo.ipmb.uni-heidelberg.de/crg/biostat4fs/_downloads/... · 2018. 5. 9. · Hypothesen Tests : was braucht man ? Statistische Frage (=

t.test in R

einseitiger Testα = 0.05

→ signifiant

beidseitiger Testα = 0.05

→ nicht signifiant

Page 23: Hypothesen Tests - Heidelberg Universitybioinfo.ipmb.uni-heidelberg.de/crg/biostat4fs/_downloads/... · 2018. 5. 9. · Hypothesen Tests : was braucht man ? Statistische Frage (=

t.test in R

> t.test(weight.m,weight.f,alternative="greater")

Welch Two Sample t-test

data: weight.m and weight.f

t = 1.8453, df = 372.446, p-value = 0.0329

alternative hypothesis: true difference in means is greater than 0

95 percent confidence interval:

0.7903498 Inf

sample estimates:

mean of x mean of y

181.9167 174.4872

da die Varianzen selten genau gleich sind wird meistens der Welch t-Test durchgeführt (wird automatisch geprüft in R)

einseitiger Welch t-Test, ungepaart

Page 24: Hypothesen Tests - Heidelberg Universitybioinfo.ipmb.uni-heidelberg.de/crg/biostat4fs/_downloads/... · 2018. 5. 9. · Hypothesen Tests : was braucht man ? Statistische Frage (=

zurüci zu den Beispielen

p-Wertt-Test

p-Wertresampling

Haben Männer und Frauen unterschiedliche

Cholesterinspiegel ?

p = 0.377(2-Proben, ungepaart, two-

tailed)p = 0.37

Haben Männer ein höheres

Körpergewicht ?

p = 0.0329(2-Proben, ungepaart, one-

tailed)p = 0.032

Page 25: Hypothesen Tests - Heidelberg Universitybioinfo.ipmb.uni-heidelberg.de/crg/biostat4fs/_downloads/... · 2018. 5. 9. · Hypothesen Tests : was braucht man ? Statistische Frage (=

Gepaarte t-Tests

● 2 Proben mit gleicher Anzahl von Elementen

● jedes Element aus Gruppe A kann einem Element aus Gruppe B zugeordnet werden

Patienten vor,nach Behandlung

Technische Replikate

● xD : Diferenzen der Paare

ungepaartp = 5e-3

gepaartp = 7e-4

Efekt eine Medikamentesgegen Magersucht

Page 26: Hypothesen Tests - Heidelberg Universitybioinfo.ipmb.uni-heidelberg.de/crg/biostat4fs/_downloads/... · 2018. 5. 9. · Hypothesen Tests : was braucht man ? Statistische Frage (=

Gepaarte t-Tests

Page 27: Hypothesen Tests - Heidelberg Universitybioinfo.ipmb.uni-heidelberg.de/crg/biostat4fs/_downloads/... · 2018. 5. 9. · Hypothesen Tests : was braucht man ? Statistische Frage (=

das Kleingedrucite ...

● Datenverteilung ~ Normalverteilung QQ-plot

statistischer Test (Shapiro-Wilk, Kolmogorov-Smirnov)

wenn nicht : nicht-parametrische Tests

● gleiche Varianz (2-Proben Tests, ungepaart) wenn ja : Student's t-Test

wenn nein : Welsch t-Test

● unabhängige Proben (2-Proben Tests, ungepaart)

● Voraussetzungen nie 100% erfüllt : wie robust ist der t-Test ?

Page 28: Hypothesen Tests - Heidelberg Universitybioinfo.ipmb.uni-heidelberg.de/crg/biostat4fs/_downloads/... · 2018. 5. 9. · Hypothesen Tests : was braucht man ? Statistische Frage (=

Normalität überprüfen

● um zu testen, ob wir den t-Test anwenden können, müssen wir zuerst testen, ob die Testdaten normalverteilt sind …

● Prinzip QQplot : graphische Überprüfung

Normalitätstest: Shapiro-Wilis Test, Kolmogorov-Smirnov Test,...

> n <- 10

> x <- rnorm(n) ## Normalverteilung

> shapiro.test(x)

Shapiro-Wilk normality test

data: x

W = 0.977, p-value = 0.9471

H0 : Daten sind normalverteiltin diesem Fall wird H0 nicht verworfen

→ Daten normalverteilt

> n <- 10

> x <- rt(n,df=2) ## t-Verteilung

> shapiro.test(x)

Shapiro-Wilk normality test

data: x

W = 0.6966, p-value = 0.0008003

H0 : Daten sind normalverteiltin diesem Fall wird H0 verworfen

→ Daten nicht normalverteilt

Überprüfung derNormalität

allgemeinerVergleich vonVerteilungen

Page 29: Hypothesen Tests - Heidelberg Universitybioinfo.ipmb.uni-heidelberg.de/crg/biostat4fs/_downloads/... · 2018. 5. 9. · Hypothesen Tests : was braucht man ? Statistische Frage (=

Normalität überprüfen

● Kolmogorov-Smirnov Testnicht parametrischer Test, wird benutzt um 1-2 Datensätze zu Vergleichen

two-samples : 2 Datensätze miteinander

one-sample : 1 Datensatz vs. theoretische Verteilung

● Schätzer: D = Wert der größten Abweichung zwischen den kumul. Verteilungen

● H0 : beide Datensätze stammen aus der gleichen Verteilung

kritische Werte für ein bestimmtes →Signifkanzniveau α und Anzahl n von Werten sind tabelliert (hier ein Link).

> ks.test(x=X,y="pnorm")

One-sample Kolmogorov-Smirnov

test

data: X

D = 0.1978, p-value = 0.03441

alternative hypothesis: two-sided

Page 30: Hypothesen Tests - Heidelberg Universitybioinfo.ipmb.uni-heidelberg.de/crg/biostat4fs/_downloads/... · 2018. 5. 9. · Hypothesen Tests : was braucht man ? Statistische Frage (=

Beispiel : one-sample KS

● Sind die Cholesterinwerte normal verteilt ? (H0 : ja !)

● Parameter einer entsprechenden Normalverteilung :

Mittelwert : m = 209.5

Standardabweichung : s = 41.67

● q0 = Quantile der beobachtetenWerteq1 = Quantile der Normalverteilung N(m,s)

● Grösste Diferenz q0,q1 : 0.129

● Entsprechender p-Wert für 20 Datenpunkte:p = 0.85

H0 iann NICHT verworfen werden → !also können wir annehmen, dass die Werte normalverteilt sind !

78 165 177 183 191 194 195 196 203 213 215 227 228 230 238 242 248 249 255 263

x q0 q1 D1 78 0.00 0.001 0.0012 165 0.05 0.143 0.0933 177 0.10 0.218 0.1184 183 0.15 0.262 0.1125 191 0.20 0.329 0.1296 194 0.25 0.355 0.1057 195 0.30 0.364 0.0648 196 0.35 0.373 0.0239 203 0.40 0.438 0.03810 213 0.45 0.533 0.08311 215 0.50 0.552 0.05212 227 0.55 0.663 0.11313 228 0.60 0.671 0.07114 230 0.65 0.689 0.03915 238 0.70 0.753 0.05316 242 0.75 0.782 0.03217 248 0.80 0.822 0.02218 249 0.85 0.828 0.02219 255 0.90 0.863 0.03720 263 0.95 0.900 0.050

q0

q1

Page 31: Hypothesen Tests - Heidelberg Universitybioinfo.ipmb.uni-heidelberg.de/crg/biostat4fs/_downloads/... · 2018. 5. 9. · Hypothesen Tests : was braucht man ? Statistische Frage (=

Normalität überprüfen

● Kolmogorov-Smirnov Testnicht parametrischer Test, wird benutzt um 1-2 Datensätze zu Vergleichen

one-sample : 1 Datensatz vs. theoretische Verteilung

two-samples : 2 Datensätze miteinander

> ks.test(x=X,y="pnorm")

One-sample Kolmogorov-Smirnov

test

data: X

D = 0.1978, p-value = 0.03441

alternative hypothesis: two-sided

> ks.test(x=X,y=Y)

Two-sample Kolmogorov-Smirnov

test

data: X and Y

D = 0.2, p-value = 0.2719

alternative hypothesis: two-sided

Page 32: Hypothesen Tests - Heidelberg Universitybioinfo.ipmb.uni-heidelberg.de/crg/biostat4fs/_downloads/... · 2018. 5. 9. · Hypothesen Tests : was braucht man ? Statistische Frage (=

Wie iann sich ein Test täuschen ?

H0 gilt H0 gilt nicht

H0 wird verworfen

Falsch Positiv oderTyp I Fehler

Wahre Positive

H0 wird nicht verworfen Wahre Negative

Falsch Negativ oder Typ II Fehler

Negative Positive

Was stimmt

Was

der

Tes

t sa

gt

Falsch Positiv Rate = Falsch Positive , Negative

TestPositive

TestNegative

Page 33: Hypothesen Tests - Heidelberg Universitybioinfo.ipmb.uni-heidelberg.de/crg/biostat4fs/_downloads/... · 2018. 5. 9. · Hypothesen Tests : was braucht man ? Statistische Frage (=

einen Test … testen

● wie robust ist ein statistischer Test ?

● ein robuster Test sollte: richtige H0 Hypothesen nur in α Prozent der Fälle wiederlegen (Typ I Fehler

Rate oder Falsch Positiv Rate = α)

falsche H0 Hypothesen oft verwerfen (niedrige Typ II Fehler oder Falsch negative Rate)

● Robustheit gegenüber Abweichungen von den Voraussetzungen Normalität

identische Varianz

Page 34: Hypothesen Tests - Heidelberg Universitybioinfo.ipmb.uni-heidelberg.de/crg/biostat4fs/_downloads/... · 2018. 5. 9. · Hypothesen Tests : was braucht man ? Statistische Frage (=

Beispiel : H0 gilt

● ich ziehe 2 Datenreihen von jeweils 50 Zahlen aus der gleichen Normalverteilung

● H0 : die Erwartungswerte der 2 Verteilungen sind gleich (stimmt !)

● ich führe einen t-Test durch (2 Proben, ungepaart) und bestimme den p-Wert

● ich führe dieses Experiment 1000 durch, und untersuche die Verteilung der p-Werte.

in 50% der Fällehabe ich einen

p-Wert kleiner als0.5

in 5% der Fällehabe ich einen

p-Wert kleiner als0.05

unter H0 ist die Verteilung der p-Werte eine Gleichverteilung

(Defnition des p-Wertes !)

Page 35: Hypothesen Tests - Heidelberg Universitybioinfo.ipmb.uni-heidelberg.de/crg/biostat4fs/_downloads/... · 2018. 5. 9. · Hypothesen Tests : was braucht man ? Statistische Frage (=

Typ I Fehler

● Roter Bereich:bei α = 0.05 hätten wir die H0 Hypothese zu Unrecht verworfen

→ Falsch Positive !

● Wie oft wäre das passiert ?in 5% der Fälle (da Gleichverteilung)

→ Falsch-Positiv Rate wird von α angegeben.

10.000 Test bei denen H0 gilt :Gleichverteilung

Page 36: Hypothesen Tests - Heidelberg Universitybioinfo.ipmb.uni-heidelberg.de/crg/biostat4fs/_downloads/... · 2018. 5. 9. · Hypothesen Tests : was braucht man ? Statistische Frage (=

Beispiel : H0 gilt nicht

● ich ziehe 2 Datenreihen von jeweils N=50 Zahlen aus 2 Normalverteilungen mit unterschiedlichen Erwartungswerten

● H0 : die Erwartungswerte der 2 Verteilungen sind gleich (stimmt nicht, der Test sollte H0 verwerfen !)

● ich führe einen t-Test durch (2 Proben, ungepaart) und bestimme den p-Wert

● ich führe dieses Experiment 1000 durch, und untersuche die Verteilung der p-Werte.

Page 37: Hypothesen Tests - Heidelberg Universitybioinfo.ipmb.uni-heidelberg.de/crg/biostat4fs/_downloads/... · 2018. 5. 9. · Hypothesen Tests : was braucht man ? Statistische Frage (=

Verteilung der P-Werte

Viele kleine P-Werte → H0 wird in diesen

Fällen verworfen ✔

Einige grosse P-Werte → H0 wird in diesen

Fällen NICHTverworfen ✘

Page 38: Hypothesen Tests - Heidelberg Universitybioinfo.ipmb.uni-heidelberg.de/crg/biostat4fs/_downloads/... · 2018. 5. 9. · Hypothesen Tests : was braucht man ? Statistische Frage (=

Typ II Fehler

● entstehen, wenn eine falsche H0 hypothese nicht wiederlegt wird→ “Falsch Negative”

● Wahrscheinlichkeit eines Typ II Fehlers : β-Wert

● die Wahrscheinlichkeit, einen Typ II Fehler nicht zu begehen nennt man die Power eines Tests

diese Fläche β entspricht den falsch Negativen:H0 wird nicht verworfen

Page 39: Hypothesen Tests - Heidelberg Universitybioinfo.ipmb.uni-heidelberg.de/crg/biostat4fs/_downloads/... · 2018. 5. 9. · Hypothesen Tests : was braucht man ? Statistische Frage (=

Typ II Fehler

● 2 Datensätze der Größe N Normalverteilung, mu=0

Normalverteilung, mu=0.2

● hier gilt H0 also nicht

● t-Test p-Werte für →verschiedene N

● Fazit : mit steigender Probengröße hat der Test immer mehr Power

Page 40: Hypothesen Tests - Heidelberg Universitybioinfo.ipmb.uni-heidelberg.de/crg/biostat4fs/_downloads/... · 2018. 5. 9. · Hypothesen Tests : was braucht man ? Statistische Frage (=

Power eines Tests

● Power 1-β hängt ab von

Signifianz level α Probengröße N

Efeitgröße : wie stark weicht der tatsächliche Efekt von H0 ab ?

HohesSignifkanzlevel

NiedrigesSignifkanzlevel

GrosseProbengrösse

GrosseEfektgrösse

KleineProbengrösse

KleineEfektgrösse

Power

Page 41: Hypothesen Tests - Heidelberg Universitybioinfo.ipmb.uni-heidelberg.de/crg/biostat4fs/_downloads/... · 2018. 5. 9. · Hypothesen Tests : was braucht man ? Statistische Frage (=

Beispiel : Pinguine

● Ich untersuche Populationen von Pinguinen in der Antarktis

● 2 Arten Humboldtpinguine : μH=15kg, σH

Königspinguine: μK=16kg, σK

● Ich fange Gruppen von N Pinguinen, berechne das Durschnittsgewicht m, und bestimme, ob es HP sind oder nicht

● H0: es sind Humboldtpinguine

Page 42: Hypothesen Tests - Heidelberg Universitybioinfo.ipmb.uni-heidelberg.de/crg/biostat4fs/_downloads/... · 2018. 5. 9. · Hypothesen Tests : was braucht man ? Statistische Frage (=

Verteilungen der Mittelwerte

Verteilung derMittelwerteμ = μH

σ = σH,√N

Verteilung derMittelwerteμ = μK

σ = σK,√N : Verwerfungsbereich von H0

: nicht Verwerfungsbereich von H0

H0 : es handelt sich umHumboldtpinguine

Page 43: Hypothesen Tests - Heidelberg Universitybioinfo.ipmb.uni-heidelberg.de/crg/biostat4fs/_downloads/... · 2018. 5. 9. · Hypothesen Tests : was braucht man ? Statistische Frage (=

Typ II Fehler

● Bei festgelegtem α kann man N berechnen, sodass β einen bestimmen Wert nicht überschreitet.

● Beispiel: der Test soll bei einem Gewichtsunterschied von 1 kg eine Power von 60% haben und eine Signifkanz von 5%

N ~ 30→

: Verwerfungsbereich von H0

: nicht Verwerfungsbereich von H0

Page 44: Hypothesen Tests - Heidelberg Universitybioinfo.ipmb.uni-heidelberg.de/crg/biostat4fs/_downloads/... · 2018. 5. 9. · Hypothesen Tests : was braucht man ? Statistische Frage (=

Nicht – parametrische Tests

● setzen keine Bedingung auf die Verteilung der Werte

● werden angewendet, wenn Normalitätsbedingungen der t-Tests nicht erfüllt sind.

● anstatt der Werte werden die Ränge dieser Werte benutzt

● Wilcoxon Rang Tests Ungepaarter Test : Wilcoxon rank sum test , Mann-Whitney U-test

Gepaarter Test : Wilcoxon signed rank test

Page 45: Hypothesen Tests - Heidelberg Universitybioinfo.ipmb.uni-heidelberg.de/crg/biostat4fs/_downloads/... · 2018. 5. 9. · Hypothesen Tests : was braucht man ? Statistische Frage (=

● Werte der 2 Proben werden zusammengelegt, und nach steigenden Werten geordnet

● R1 ist die Summe der n1 Ränge der ersten Probe*

● Teststatistik :

R1 = 59

W = 23> wilcox.test(x1,x2)

Wilcoxon rank sum test

data: x1 and x2

W = 23, p-value = 0.3823

alternative hypothesis: true location shift

is not equal to 0

*Probe 1 ist per Defnition die mit dem kleinsten R

Wilcoxon Rani Sum Test , Mann-Whitney U Test– Zwei ungepaarte Proben –

Page 46: Hypothesen Tests - Heidelberg Universitybioinfo.ipmb.uni-heidelberg.de/crg/biostat4fs/_downloads/... · 2018. 5. 9. · Hypothesen Tests : was braucht man ? Statistische Frage (=

Wilcoxon signed rani Test – zwei gepaarte Proben –

● Di : Diferenzen der Paare

● Ri : Ränge der |Di|

● Teststatistik :

● Sind die positiven Diferenzen größer,kleiner als die negativen ?

● H0: die positiven,negativen Diferenzen haben gleiche Rangverteilung

Page 47: Hypothesen Tests - Heidelberg Universitybioinfo.ipmb.uni-heidelberg.de/crg/biostat4fs/_downloads/... · 2018. 5. 9. · Hypothesen Tests : was braucht man ? Statistische Frage (=

Wilcoxon signed rani Test – Beispiel : Behandlung der Anorexie –

> X Prior Post Diff AbsDiff ranks SignedRanks1 76.9 76.8 -0.1 0.1 1 -12 79.6 76.7 -2.9 2.9 2 -23 81.6 77.8 -3.8 3.8 3 -34 89.9 93.8 3.9 3.9 4 45 80.5 75.2 -5.3 5.3 5 -56 86.0 91.5 5.5 5.5 6 67 86.0 91.7 5.7 5.7 7 78 94.2 101.6 7.4 7.4 8 89 83.5 92.5 9.0 9.0 9 910 82.5 91.9 9.4 9.4 10 1011 87.3 98.0 10.7 10.7 11 1112 83.3 94.3 11.0 11.0 12 1213 83.8 95.2 11.4 11.4 13 1314 77.6 90.7 13.1 13.1 14 1415 82.1 95.5 13.4 13.4 15 1516 86.7 100.3 13.6 13.6 16 1617 73.4 94.9 21.5 21.5 17 17

> W.p <- sum(X[X$Diff>0,'ranks'])> W.m <- sum(X[X$Diff<0,'ranks'])

> W.p[1] 142> W.m[1] 11

> wilcox.test(X$Prior,X$Post,paired=TRUE)

Wilcoxon signed rank test

data: X$Prior and X$Post

V = 11, p-value = 0.0008392

alternative hypothesis: true location shift

is not equal to 0 Hier: beidseitiger Test !

Page 48: Hypothesen Tests - Heidelberg Universitybioinfo.ipmb.uni-heidelberg.de/crg/biostat4fs/_downloads/... · 2018. 5. 9. · Hypothesen Tests : was braucht man ? Statistische Frage (=

Wilcoxon robuster als t-Test ?

● H0 gilt in allen Fällen

● immer stärkere Abweichung von der Normalitäts- voraussetzung

● p-Werte Verteilung weicht bei t-Test von der Gleichverteilung ab ...

● … aber nicht bei dem Wilcoxon rank-sum test.

ungepaartert-Test

Wilcoxonrank sum test