Proportions-Testsbioinfo.ipmb.uni-heidelberg.de/crg/biostat4fs/... · Achtung Verwechslungsgefahr ! 1-(1-α)k ist die Wahrscheinlichkeit, daß unter H0 irgend einer der k Tests p

Proportions-Tests

Proportions Tests

● Proportions Test können in zwei Fällen benutzt werden Vergleich von beobachteten vs. erwarteten Proportionen

Test der Unabhängigkeit von 2 Faktoren

● kann auch zum Vergleich von 2 Populationen benutzt werden(Goodness-of-fit)

● Test : Fishers Exact Test : exakter Test für alle Probengrößen, wird meistens für

kleine Anzahlen benutzt

Pearson χ2 – Test : gilt für große Anzahlen (>5 in jeder Kategorie)

für große beobachtete Anzahlen sind beide Tests gleich

Fishers Exact Test

● Testet ob 2 Eigenschaften unabhängig voneinander sind.

● 2 x 2 Kontingenztafel

iPhone kein iPhone

Damen 4 1 5

Herren 2 3 5

6 4 10

Wieviele Permutationen von 10 Elementen ergeben solche oder grössere/kleinere Verhältnisse und erhalten die Randsummen ?

Verhältniss iPhone/kein Iphone ist● 4/1 = 4 bei Damen● 2/3 bei Herren

→ Quotenverhältnis : 4/1 / 2/3 = 6(„odds-ratio“)

Fishers Exact Test

iPhone kein iPhone

Damen 4 1 5

Herren 2 3 5

6 4 10

iPhone kein iPhone

Damen 5 0 5

Herren 1 4 5

6 4 10

iPhone kein iPhone

Damen 3 2 5

Herren 3 2 5

6 4 10

Fishers Exact Test

iPhone kein iPhone

Damen 2 3 5

Herren 4 1 5

6 4 10

iPhone kein iPhone

Damen 1 4 5

Herren 5 0 5

6 4 10

Der Fischer Test untersucht alle möglichen Permutationender Daten und bestimmt wie oft die beobachtete Kontingenztabelle auftritt → exakter Test

Beobachtet BeobachtetiPhone kein iPhone iPhone kein iPhone

Damen 14 30 44 Damen 31.82% 68.18% 100.00%Herren 5 20 25 Herren 20.00% 80.00% 100.00%

19 50 69 27.54% 72.46% 100.00%

H0iPhone kein iPhone

Damen 27.54% 72.46% 100.00%Herren 27.54% 72.46% 100.00%

27.54% 72.46% 100.00%

Fishers Exact Test

H0: Quotenverhältnis (odds-ratio=OR) ist 1 :

Fisher's Exact Test in R

> fisher.test(table(smartPhone))

Fisher's Exact Test for Count

Data

data: table(smartPhone)

p-value = 0.4027

alternative hypothesis: true odds ratio

is not equal to 1

95 percent confidence interval:

0.5216129 7.6273675

sample estimates:

odds ratio

1.850454

BeobachtetiPhone kein iPhone

Damen 14 30 44Herren 5 20 25

19 50 69

H0 : das Verhältnis iPhone/kein iPhoneist unabhängig vom Geschlecht

→ kann nicht verworfen werden...

Jahrgang 2013/2014

Fisher's Exact Test

Nebenwirkung Nebenwirkung

Leicht Mittel Stark Leicht Mittel Stark

Drug A 25 11 13 49 Drug A 51.02% 22.45% 26.53% 100.00%

Drug B 9 14 11 34 Drug B 26.47% 41.18% 32.35% 100.00%

34 25 24 83 40.96% 30.12% 28.92% 100.00%

H0Nebenwirkung

Leicht Mittel Stark

Drug A 40.96% 30.12% 28.92% 100.00%

Drug B 40.96% 30.12% 28.92% 100.00%

40.96% 30.12% 28.92% 100.00%

> table(sideeffect)

SideEffect

Drug Leicht Mittel Schwer

A 25 11 13

B 9 14 11

> fisher.test(table(sideeffect))

Fisher's Exact Test for Count Data

data: table(sideeffect)

p-value = 0.06375

alternative hypothesis: two.sided

Für Kontingenztabellen größerals 2x2 wird kein OR gerechnet

Unterscheiden sich 2 Medikamente hinsichtlich der Nebeneffekte ?

Chi-Quadrat Tests

● der chi-Quadrat Test vergleicht beobachtete (O) mit erwarteter (E)Anzahl von Ereignissen (keine Proportionen !!)

● unter H0 folgt die Verteilung der chi2 Verteilung mit m-1 Freiheitsgraden für m unabhängige Beobachtungen.

● Anwendungsbereich :

Oi ≥ 2

80% der Beobachtungen sollten Oi ≥ 5

Chi-Quadrat Tests : Unabhängigkeitstest

Beobachtet BeobachtetiPhone kein iPhone iPhone kein iPhone

Damen 14 30 44 Damen 31.82% 68.18% 100.00%Herren 5 20 25 Herren 20.00% 80.00% 100.00%

19 50 69 27.54% 72.46% 100.00%

H0 H0iPhone kein iPhone iPhone kein iPhone

Damen 12.1 31.9 44 Damen 27.54% 72.46% 100.00%Herren 6.9 18.1 25 Herren 27.54% 72.46% 100.00%

19 50 69 27.54% 72.46% 100.00%

Achtung : Anzahl der Freiheitsgrade ist (Reihen -1) x (Spalten -1)

Tabelle der kritischen Werte chi2-Test

Chi2 Verteilung mit 5 (blau)Und 10 (rot) Freiheitsgraden

Chi-Quadrat Test

Nebenwirkung Nebenwirkung

Leicht Mittel Stark Leicht Mittel Stark

Drug A 25 11 13 49 Drug A 51.02% 22.45% 26.53% 100.00%

Drug B 9 14 11 34 Drug B 26.47% 41.18% 32.35% 100.00%

34 25 24 83 40.96% 30.12% 28.92% 100.00%

H0Nebenwirkung

Leicht Mittel Stark

Drug A 40.96% 30.12% 28.92% 100.00%

Drug B 40.96% 30.12% 28.92% 100.00%

40.96% 30.12% 28.92% 100.00%

Unterscheiden sich 2 Medikamente hinsichtlich der Nebeneffekte ?

> table(sideeffect) SideEffectDrug Leicht Mittel Schwer A 25 11 13 B 9 14 11

> chisq.test(table(sideeffect)) Pearson's Chi-squared testdata: table(sideeffect) X-squared = 5.5257, df = 2, p-value = 0.06311

> fisher.test(table(sideeffect)) Fisher's Exact Test for Count Datadata: table(sideeffect) p-value = 0.06375alternative hypothesis: two.sided

df = (3-1) x (2-1) = 2

Goodness of fit

● Weicht eine Verteilung signifikant von einer theoretischenVerteilung (hier : Gleichverteilung?

> chisq.test(bin.t)

Chi-squared test for

given probabilities

data: bin.t

X-squared = 83.344, df = 9, p-

value = 3.491e-14

> chisq.test(bin.w)

Chi-squared test for

given probabilities

data: bin.w

X-squared = 13.85, df = 9, p-

value = 0.1278

signifikante Abweichung keine signifikante Abweichung

10 unabhängigeBeobachtungen→ df = 10-1=9

Multiples Testen

Russisches Roulette:wenn 1 von 12 Kugelkammern eine Kugel enthält ...

… was ist die Wahrscheinlichkeit, daß in einer 10-köpfigen Gruppe jemanddieses Spiel zum letzten Mal spielt ?

Genexpressions Daten

10000 Gene p-value = 0.001389

p-value = 0.00271

445 signifikant diff. exprimierte

Gene alpha = 0.05

Welche Gene sind differenziel exprimiert zwischen den beiden Bedingungen ?

diff. Expression wird mit einemt-Test bestimmt(alpha = 0.05)

H0 : kein Unterschiedzwischen den MittelwertenDisease / Healthy

„ Ein blindes Huhnfindet auch mal ein Korn“

alles rein zufällige Daten…H0 gilt in ALLEN 10.000 Fällen→ alle positiven sind Falsch-Positive !

X <- matrix(rnorm(n=100000,sd=3),nrow=10000)

Multiple Testen

● der p-Wert gibt an, mit welcherWahrscheinlichkeit man unter H0 einvergleichbares/extremeres Ergebnisbekommen hätte.

● α ist das Risiko, zu unrecht H0 zuverwerfen (falsch Positiv oder Typ IFehler)

● umgekehrt ist 1-α die Wahrscheinlichkeit,keinen Typ I Fehler zu begehen.

● bei mehreren Tests :

2 Tests: (1-α)² → pTypI = 1-(1-α)²

k Tests : (1-α)k

→ pTypI = 1-(1-α)k

10000 Tests : → p = 1-1e-223 = 1 !!!

Bei mehreren unabhängigen Tests steigtdie Wahrscheinlichkeit einen Typ I Fehler zubegehen.

Achtung Verwechslungsgefahr !

● 1-(1-α)k ist dieWahrscheinlichkeit, daß unterH0 irgend einer der k Testsp<α hat→ Family-Wise error rate

● α ist die Falsch positiv Rate d.h. Anteil der Tests die bei H0 trotzdem als positiv bewertetwerden

Wahrscheinlichkeit, mindestens einen Punkt links der Linie zu bekommen

Anteil der Punktelinks der Linie

Fehlerquellen

H0 gilt( = negative)

H0 gilt nicht( = positive)

H0 wirdverworfen

(p < α)V S

R(= positiv

vorhergesagt)

H0 wird nichtverworfen

(p > α)U T

m-R(= negativ

vorhergesagt)

m0 m-m0 m

V = Typ I Fehler, Falsch-PositivT = Typ II Fehler, Falsch-Negativ

Fehlerquellen

H0 gilt( = negative)

H0 gilt nicht( = positive)

H0 wirdverworfen

(p < α)445 0

445(= positiv

vorhergesagt)

H0 wird nichtverworfen

(p > α)9.555 0

9.555(= negativ

vorhergesagt)

10.000 0 10.000

V = Typ I FehlerT = Typ II Fehler

Kontrolle der Typ I Fehler

● Gesamtheit der durchgeführten Testswird als „Familie“ bezeichnet : m Tests

● Wahrscheinlichkeit eines Typ I Fehlersin allen Test = Family Wise Error Rate :

FWER = P(V ≥ 1)

● Anteil der Falsch Positiven unter denNegativen= False Positive Rate

FPR = V / m0

● Anteil der falsch-positiven in densignifikanten (bei denen H0 verworfenwird)= False Discovery Rate

FDR = V / R

H0 giltH0 giltnicht

H0 wirdverworfen

V S R

H0 wirdnicht

verworfenU T m-R

m0 m-m0 m

Bonferroni Korrektur

● Kontrolle der FWER

● das Signifikanzniveau α wirdangepasst an die Anzahl von Tests

● bei N Tests :α → α / Np → padj = min(Np,1)

● Wahrscheinlichkeit einen Typ I Fehlerzu begehen bleibt konstant aufNiveau α

● sehr stringente Korrektur ! Erhöhtes Typ II Fehler Risiko !!

● z.B. Genexpressions Daten : 10.000Gene werde auf diff. Expressiongetestet:α = 0.05 → α/N = 5e-6

False Discovery Rate

● Bei einer großen Anzahl von Tests (typ. bei Genomdaten) ist dieBonferroni Korrektur zu stringent

● zu viele Typ II ( = falsch negative) Fehler !

● man kann eine gewisse Anzahl von FP tolerieren, solange derenAnteil kontrolliert wird : False Discovery Rate

● False Discovery Rate = Anteil der FP in den von mir als positivegewerteten Ergebnisse

● FDR = 10% : 10% der von mir als positiv betrachteten Ereignisse (H0 verworfen) sind falsch Positive.

Benjamini Hochberg

● Kontrolle des FDR Niveaus

● Prozedur alle p-Werte werden in

steigender Reihenfolge geordnetp1 ≤ p2 … ≤ pN

man bestimmt den höchstenRang j bei dem

pj ≤ δ j/N

alle Tests 1,2,...j werden alssignifikant erklärt

Beispiel bei FDR δ = 10%

Von den 4 signifikanten Tests sind 10% falsch Positive

q-Wert = N pj / j

Pval threshold Pass Qval

1 0.000853528 0.01 TRUE 0.00853528

2 0.004802111 0.02 TRUE 0.02401055

3 0.024180546 0.03 TRUE 0.08060182

4 0.030346760 0.04 TRUE 0.07586690

5 0.091403930 0.05 FALSE 0.18280786

6 0.127264255 0.06 FALSE 0.21210709

7 0.199171664 0.07 FALSE 0.28453095

8 0.202888447 0.08 FALSE 0.25361056

9 0.719389689 0.09 FALSE 0.79932188

10 0.910390445 0.10 FALSE 0.91039045

q-Wert = kleinste FDR δ, bei der dieser p-Wertsignifikant ist

Vergleich der multiple Testing Prozeduren

● Wir simulieren das Ergebnis von 1000 Tests (t-test) Bei 900 stimmt H0 (kein Unterschied zwischen den Mittelwerten der untersuchten

Proben)

Bei 100 stimmt H0 NICHT (es gibt einen signifikanten Unterschied)

● Wir vergleichen Alpha = 5%

Bonferroni Korrektur mit alpha = 5%/1000 = 0.005 %

Benjamini-Hochberg FDR = 5%

● FPR = falsch Positive / Negative

● FNR = falsch Negative / Positive

● FDR = falsch Positive / (Wahre Positive + falsch Positive)

Vergleich der multiple Testing Prozeduren

● Bonferroni Korrektur : sehr stringent → hoher Anteil an Typ IIFehlern (falsch negative)

● Benjamini-Hochberg : kontrolliert die FDR auf ein bestimmtesLevel; reduziert die Anzahl der falsch negativen

H0 gilt (900 Tests) H0 gilt nicht (100 Tests)

FPR FNR FDR

Alpha = 0.05 44 856 84 16

1 899 18 82

2 898 46 54

H0 verworfen(falsch positive)

H0 nicht verworfen(wahre negative)

H0 verworfen(wahre positive)

H0 nicht verworfen(falsche negative)

44 / (44+856) =4.8 %

16 / (16+84) =16%

44 / (44+84)= 34%

Bonferroni : alpha =0.05/1000

1 / (899+1) =0.11 %

82 / (82+18) =82%

1 / (1 + 18) =5 %

Benjamini-HochbergFDR = 5 %

2/(2+898) =0.2%

54/(54+46) =54 %

2 / (2+46) =4.1%

Beispiel: keine Korrektur

## Signifikanzniveau

> alpha <- 0.05

## 900 Daten mit Mittelw. 0, 100 mit Mittelw. 3

> x <- c(rnorm(900),rnorm(100,mean=3))

## Berechnung der p-Werte nach t.test ob m=0

> p <- pnorm(x,lower.tail=F)

## Anzahl der Tests, bei denen H0 verworfen wird

> test <- p < alpha

> table(test[1:900])

TRUE FALSE

44 856

> table(test[901:1000])

TRUE FALSE

84 16

hier gilt H0

hier gilt H0 nicht

falsch PositiveFPR = 44/900 = 4.8%

falsch Negative; FNR = 16/100 = 16%

wahre Negative

wahre Positive

Beispiel : Bonferroni Korrektur

## Signifikanzniveau Bonferroni

> alpha <- 0.05 / 1000






> test <- p < alpha


TRUE FALSE

1 899

> table(test[901:1000])

TRUE FALSE

18 82

hier gilt H0

hier gilt H0 nicht

falsch PositiveFPR = 1/900= 0.11%

falsch Negative; FNR = 82/100 = 82% !!!

wahre Negative

wahre Positive

Beispiel : FDR Prozedur## FDR

> fdr <- 0.05






> test <- p < max.p


TRUE FALSE

2 898

> table(test[901:1000])

TRUE FALSE

46 54

hier gilt H0

hier gilt H0 nicht

falsch PositiveFPR = 2/900 = 0.2%

falsch Negative; FNR = 54/100 = 54%

wahre Negative

wahre Positive

FDR = 2/(46+2) = 4.1%

Documents

Proportions-Testsbioinfo.ipmb.uni-heidelberg.de/crg/biostat4fs/... · Achtung Verwechslungsgefahr ! 1-(1-α)k ist die Wahrscheinlichkeit, daß unter H0 irgend einer der k Tests p