Biostatistik, Winter 2019/20 · 2019-12-21 · Konfidenzintervalle Definition Grundbegriffe W...

Preview:

Citation preview

Biostatistik, Winter 2019/20Schließende Statistik: Konfidenzintervalle

Prof. Dr. Achim Klenke

http://www.aklenke.de

10. Vorlesung: 10.01.2020

1/32

Inhalt

1 KonfidenzintervalleDefinitionNormalverteilung mit bekannter VarianzNormalverteilung mit unbekannter VarianzBinomialverteilung

2/32

Konfidenzintervalle Definition

Grundbegriffe

W Wertemenge der einzelnen Beobachtung (oft W = R)X = Wn Menge der Beobachtungen, Stichprobengroße nΘ Parametermenge fur die WahrscheinlichkeitsverteilungPϑ auf X

Wahrer Wert ϑ ∈ Θ ist zu schatzen.

3/32

Konfidenzintervalle Definition

Definition

Sei α ∈ (0,1) (typisch: α = 5% oder α = 1%).Sei Θ ⊂ R. Eine Vorschrift x 7→ C(x), die jedem x ∈ X einIntervall C(x) ⊂ Θ zuordnet mit

Pϑ[C(X ) 3 ϑ] ≥ 1− α fur alle ϑ ∈ Θ,

heißt Konfidenzintervall zum Konfidenzniveau 1− α.Sei Θ ⊂ Rk und i = 1, . . . , k fest gewahlt. Eine Vorschriftx 7→ C(x), die jedem x ∈ X ein Intervall C(x) zuordnet mit

Pϑ[C(X ) 3 ϑi ] ≥ 1− α fur alle ϑ ∈ Θ,

heißt Konfidenzintervall fur ϑi zum Konfidenzniveau 1− α.

4/32

Konfidenzintervalle Definition

Konfidenzintervalle anschaulich

0 10 20 30 40

68

10

12

14

●●

●●

●●

●●

● ● ●●

● ●●

Konfidenzintervalle zum Niveau 95% fur den wahren Wert 10(blaue Linie) bei 40 Versuchen.Zwei der Konfidenzintervalle beinhalten den wahren Wert nicht.Das sind genau 5%.

5/32

Konfidenzintervalle Normalverteilung mit bekannter Varianz

Normalverteilung mit bekannter VarianzMessgroße streut um wahren Wert µ mit einem Fehler, dernormalverteilt ist mit bekannter Varianz σ2.

W = R, X = Rn, Θ = RPµ = Nµ,σ2

Konfidenzintervall ist

C(x) =

[x − σ√

nz1−α/2, x +

σ√n

z1−α/2

].

Dabei ist

z1−α/2 das (1− α/2)-Quantil der Normalverteilung,

x =1n

(x1 + . . . + xn) Mittelwert der Stichprobe.

6/32

Konfidenzintervalle Normalverteilung mit bekannter Varianz

Quantile der Normalverteilung

β zβ0.8 0.84162

0.9 1.28155

0.95 1.64485

0.975 1.95996

0.98 2.05375

0.99 2.32635

β zβ0.995 2.57583

0.9975 2.80703

0.998 2.87816

0.999 3.09023

0.9995 3.29053

7/32

Konfidenzintervalle Normalverteilung mit bekannter Varianz

Beispiel: KalorimetrieIm Kalorimeter werden n = 9 Messungen des Energieumsatzeseiner Proteinreaktion durchgefuhrt. Streuung des Messgerates:σ = 8 cal/mol.Ziel: Konfidenzintervall zum Konfidenzniveau 95% (α = 5%).Messwerte (in cal/mol)

i 1 2 3 4 5 6 7 8 9

xi 72.2 72.4 78.4 68.6 61.7 78.7 76.7 86.0 80.0

Mit R bestimmen wir> kalorie <- c(72.2, 72.4, 78.4, 68.6, 61.7, 78.7,

76.7, 86.0, 80.0)

> (xquer <- mean(kalorie) )

[1] 74.96667

Mittelwert x = 74.978/32

Konfidenzintervalle Normalverteilung mit bekannter Varianz

Beispiel: KalorimetrieRechnung

x = 74.97 n = 9 σ = 8Konfidenzintervall fur α = 0.05

C(x) =

[x − σ√

nz1−α/2, x +

σ√n

z1−α/2

]=

[74.97− 8

3z0.975, 74.97 +

83

z0.975

]

9/32

Konfidenzintervalle Normalverteilung mit bekannter Varianz

Quantile der Normalverteilung

β = 1− α/2 = 1− 5%/2 = 0.975

β zβ0.8 0.84162

0.9 1.28155

0.95 1.64485

0.975 1.95996

0.98 2.05375

0.99 2.32635

β zβ0.995 2.57583

0.9975 2.80703

0.998 2.87816

0.999 3.09023

0.9995 3.29053

10/32

Konfidenzintervalle Normalverteilung mit bekannter Varianz

Beispiel: KalorimetrieRechnung

x = 74.97 n = 9 σ = 8Konfidenzintervall fur α = 0.05

C(x) =

[x − σ√

nz1−α/2, x +

σ√n

z1−α/2

]=

[74.97− 8

3z0.975, 74.97 +

83

z0.975

]=

[74.97− 8

3· 1.95996, 74.97 +

83· 1.95996

]= [69.74, 80.19] ≈ [69.7, 80.2]

11/32

Konfidenzintervalle Normalverteilung mit bekannter Varianz

Beispiel: KalorimetrieErgebnis

Das Konfidenzintervall zum Konfidenzniveau 95% fur denEnergieumsatz in cal/mol betragt

C(x) = [69.7, 80.2] .

12/32

Konfidenzintervalle Normalverteilung mit bekannter Varianz

Beispiel: KalorimetrieRechnung mit dem Computer

x = 74.97 n = 9 σ = 8 α = 0.05.

C(x) =

[x − σ√

nz1−α/2, x +

σ√n

z1−α/2

].

Mit R bestimmen wir> alpha <- 0.05

> qnorm( 1 - alpha/2 )

[1] 1.959964Also ist z0.975 = 1.959964. Intervall automatisch berechnen:> sigma <- 8

> n <- 9

> qnorm(mean=xquer, sd=sigma/sqrt(n),

p=c(alpha/2, 1- alpha/2))

[1] 69.74010 80.1932413/32

Konfidenzintervalle Normalverteilung mit unbekannter Varianz

Normalverteilung mit unbekannter VarianzMessgroße streut um wahren Wert µ mit einem Fehler, dernormalverteilt ist mit unbekannter Varianz σ2.

W = R, X = Rn, Θ = R× (0,∞)

Pµ,σ2 = Nµ,σ2. σ2 > 0 unbekannt, µ ∈ R ist zu schatzen.Konfidenzintervall fur µ ist

C(x) =

[x − sn−1√

ntn−1; 1−α/2, x +

sn−1√n

tn−1; 1−α/2

].

Dabei ist tn−1; 1−α/2 das (1− α/2)-Quantil der t-Verteilungmit n − 1 Freiheitsgraden und

sn−1 =

√√√√ 1n − 1

n∑i=1

(xi − x)2 Schatzwert fur die Streuung.

14/32

Konfidenzintervalle Normalverteilung mit unbekannter Varianz

Quantile der t-Verteilung

n tn; 0.9 tn; 0.95 tn; 0.975 tn; 0.99 tn; 0.995

1 3.0777 6.3138 12.7062 31.8205 63.65672 1.8856 2.9200 4.3026 6.9646 9.92483 1.6377 2.3534 3.1824 4.5407 5.84094 1.5332 2.1318 2.7764 3.7470 4.60415 1.4759 2.0150 2.5706 3.3649 4.0321

6 1.4398 1.9432 2.4469 3.1427 3.70747 1.4149 1.8946 2.3646 2.9980 3.49958 1.3968 1.8596 2.3060 2.8965 3.35549 1.3830 1.8331 2.2622 2.8214 3.2498

10 1.3722 1.8125 2.2281 2.7638 3.1693

15/32

Konfidenzintervalle Normalverteilung mit unbekannter Varianz

Beispiel: Neuronenaktivierung

Ein Neuron wird elektrisch bis zum ”Feuern“ gereizt. Wie großist die Aktivierungsspannung?10 Messungen, Fehler normalverteilt, Varianz unbekannt.Ziel: Konfidenzintervall zum Konfidenzniveau 99% (α = 1%).Messwerte (in mV)

i 1 2 3 4 5 6 7 8 9 10

xi 12 12.17 11.55 10.70 12.20 11.63 11.63 10.08 9.98 12.10

Mittelwert x = 11.404

Streuung s9 =√

19

∑10i=1(xi − x)2 = 0.8472072

16/32

Konfidenzintervalle Normalverteilung mit unbekannter Varianz

Beispiel: NeuronenaktivierungRechnung

x = 11.404 s9 = 0.8472072 n = 10Konfidenzintervall fur α = 0.01

C(x)

=

[x − sn−1√

ntn−1; 1−α/2, x +

sn−1√n

tn−1; 1−α/2

]=

[11.404− 0.8472072√

10t9; 0.995, 11.404 +

0.8472072√10

t9; 0.995

]

17/32

Konfidenzintervalle Normalverteilung mit unbekannter Varianz

Quantile der t-Verteilung1− α/2 = 1− 1%/2 = 0.995

n tn; 0.9 tn; 0.95 tn; 0.975 tn; 0.99 tn; 0.995

1 3.0777 6.3138 12.7062 31.8205 63.65672 1.8856 2.9200 4.3026 6.9646 9.92483 1.6377 2.3534 3.1824 4.5407 5.84094 1.5332 2.1318 2.7764 3.7470 4.60415 1.4759 2.0150 2.5706 3.3649 4.0321

6 1.4398 1.9432 2.4469 3.1427 3.70747 1.4149 1.8946 2.3646 2.9980 3.49958 1.3968 1.8596 2.3060 2.8965 3.35549 1.3830 1.8331 2.2622 2.8214 3.2498

10 1.3722 1.8125 2.2281 2.7638 3.1693

18/32

Konfidenzintervalle Normalverteilung mit unbekannter Varianz

Beispiel: NeuronenaktivierungRechnung

x = 11.404 s9 = 0.8472072 n = 10Konfidenzintervall fur α = 1% (in mV)

C(x)

=

[x − sn−1√

ntn−1; 1−α/2, x +

sn−1√n

tn−1; 1−α/2

]=

[11.404− 0.8472072√

10t9; 0.995 , 11.404 +

0.8472072√10

t9; 0.995

]=

[11.404− 0.8472072√

10· 3.2498, 11.404 +

0.8472072√10

· 3.2498]

= [10.53, 12.27] ≈ [10.5, 12.3]

19/32

Konfidenzintervalle Normalverteilung mit unbekannter Varianz

Beispiel: NeuronenaktivierungErgebnis

Das Konfidenzintervall zum Konfidenzniveau 99% fur dieAktivierungsspannung betragt (in mV)

C(x) = [10.5, 12.3] .

20/32

Konfidenzintervalle Normalverteilung mit unbekannter Varianz

Beispiel: NeuronenaktivierungRechnung mit dem Computer

> neuro.daten <- c(12, 12.17, 11.55, 10.70, 12.20,

11.63, 11.63, 10.08, 9.98, 12.10)

> xquer <- mean(neuro.daten)

> s <- sd(neuro.daten)

> n <- length(neuro.daten) # Anzahl der Werte

> alpha <- 0.01

> qt(df = n-1, p = 1-alpha/2) # Quantil

[1] 3.249836> xquer - qt(df=n-1, p=1-alpha/2) * s/sqrt(n)

[1] 10.53334> xquer + qt(df=n-1, p=1-alpha/2) * s/sqrt(n)

[1] 12.27466

21/32

Konfidenzintervalle Normalverteilung mit unbekannter Varianz

Beispiel: NeuronenaktivierungRechnung mit dem Computer/2

> neuro.daten <- c(12, 12.17, 11.55, 10.70, 12.20,

11.63, 11.63, 10.08, 9.98, 12.10)

> alpha <- 0.01

> t.test(neuro.daten, conf.level = 1 - alpha)

One Sample t-test

data: neuro.datent = 42.5665, df = 9, p-value = 1.088e-11alternative hypothesis: true mean is not equal to 099 percent confidence interval:10.53334 12.27466sample estimates:mean of x11.404

22/32

Konfidenzintervalle Binomialverteilung

Binomialverteilung

FragestellungUnbekannte Erfolgswahrscheinlichkeit p eines Experiments sollbestimmt werden. n Messungen, davon X Erfolge.

X = W = {0, . . . ,n} (Anzahl Erfolge), Θ = [0,1](Erfolgswahrscheinlichkeit)Pp = bn,p (Binomialverteilung). p ∈ [0,1] ist zu schatzen.

Berechnung des KonfidenzintervallsNormalapproximation, wenn n groß ist.Exakte Bestimmung mit Beta-Quantilen, wenn n klein ist(Tabelle).

23/32

Konfidenzintervalle Binomialverteilung

Binomialverteilung, NormalapproximationBeobachtung X ungefahr normalverteilt Nµ,σ2 mit µ = np undσ2 = np(1− p). Fur p Schatzwert X/n einsetzen:

X − pn√X (1− X/n)

≈ X − pn√np(1− p)

∼ N0,1.

Auflosen nach p liefert:

C(x) =[x

n− F ,

xn

+ F]

mit dem Fehler

F =1√n

√xn

(1− x

n

)z1−α/2.

24/32

Konfidenzintervalle Binomialverteilung

Beispiel

Anteil der Knaben unterallen Neugeborenen p =?Konfidenzintervall zumKonfidenzniveau 95%(α = 5%).

Geburtenregister StadtDusseldorf 1999:n = 5234 Geburten,darunter x = 2676Knaben.

25/32

Konfidenzintervalle Binomialverteilung

Rechnungn = 5234, x = 2676, α = 5%

Konfidenzintervall

C(x) =[x

n− F ,

xn

+ F]

= [0.5113− F ,0.5113 + F ]

= [0.4977,0.5249]

≈ [0.497,0.525]

mit dem Fehler

F =1√n

√xn

(1− x

n

)z1−α/2

= 1√5234

√26765234

(1− 2676

5234

)z0.975

= 0.006909438 · z0.975

= 0.006909438 · 1.95996= 0.0136

β zβ0.8 0.841620.9 1.281550.95 1.644850.975 1.959960.98 2.053750.99 2.32635 26/32

Konfidenzintervalle Binomialverteilung

Ergebnis

Aus den Daten der StadtDusseldorf von 1999 ergibt sichfur den Anteil der Knaben unterden Neugeborenen inDeutschland zumKonfidenzniveau 95% dasKonfidenzintervall

[0.497,0.525].

27/32

Konfidenzintervalle Binomialverteilung

Binomialverteilung, Exakte Berechnung

FragestellungUnbekannte Erfolgswahrscheinlichkeit p eines Experiments sollbestimmt werden. n Messungen, davon X Erfolge.

Exaktes Konfidenzintervall

C(x) =[1− βn−x+1,x ;1−α/2, βx+1,n−x ;1−α/2

].

Dabei ist βx ,n,1−α/2 das (1− α/2)-Quantil der Beta-Verteilung mitParametern x und n (Tabelle!).

28/32

Konfidenzintervalle Binomialverteilung

Beta-Verteilung: 97.5%-QuantilTabelliert ist βm,n; 0.975.

m \ n 1 2 3 4 5 6 7 8 9 10 11 121 .975 .842 .708 .602 .522 .459 .410 .369 .336 .308 .285 .2652 .987 .906 .806 .716 .641 .579 .526 .482 .445 .413 .385 .3603 .992 .932 .853 .777 .710 .651 .600 .556 .518 .484 .454 .4284 .994 .947 .882 .816 .755 .701 .652 .610 .572 .538 .508 .4815 .995 .957 .901 .843 .788 .738 .692 .651 .614 .581 .551 .5246 .996 .963 .915 .863 .813 .766 .723 .684 .649 .616 .587 .5607 .996 .968 .925 .878 .833 .789 .749 .711 .677 .646 .617 .5908 .997 .972 .933 .891 .848 .808 .770 .734 .701 .671 .643 .6169 .997 .975 .940 .901 .861 .823 .787 .753 .722 .692 .665 .639

10 .997 .977 .945 .909 .872 .837 .802 .770 .740 .711 .685 .66011 .998 .979 .950 .916 .882 .848 .816 .785 .756 .728 .702 .67812 .998 .981 .953 .922 .890 .858 .827 .797 .769 .743 .718 .694

29/32

Konfidenzintervalle Binomialverteilung

BeispielStichprobe n = 15, x = 4 Erfolge, Konfidenzniveau 95%(α = 5%).

C(x) =[1− βn−x+1,x ;1−α/2, βx+1,n−x ;1−α/2

]= [1− β12,4;0.975, β5,11;0.975]

= [1− 0.922, 0.551]

= [0.078, 0.551]

Zum Vergleich: Normalapproximation liefert

C(x) ≈ [0.042, 0.491].

Abweichung vom exakten Intervall etwa 5%. Bei einem soschlechten Konfidenzintervall ist das aber fast schon egal...

30/32

Konfidenzintervalle Binomialverteilung

Beispiel (Fortsetzung): Berechnung mit R. Stichprobe n = 15,x = 4 Erfolge, Konfidenzniveau 95% (α = 5%).> n <- 15

> x <- 4

> alpha <- 0.05

> binom.test(x = x, n = n, conf.level = 1 - alpha)

Exact binomial testdata: 4 and 15number of successes = 4, number of trials = 15, p-value =0.1185 alternative hypothesis: true probability of success is notequal to 0.595 percent confidence interval:0.07787155 0.55100324sample estimates:probability of success

0.266666731/32

Konfidenzintervalle Binomialverteilung

Fazit

Berechnung des KonfidenzintervallsNormalapproximation, wenn n groß ist.Exakte Bestimmung mit Beta-Quantilen, wenn n klein ist(Tabelle). Oft ist dann das Konfidenzintervall so groß, dasses nicht aussagekraftig ist.Berechnung mit R ist simpel - falls zur Hand.

32/32

Recommended