3
Konfidenzintervall für den Parameter p einer Binomialverteilung B(n, p) Ausgangssituation Man ziehe aus einer (unendlich groß gedachten) Population eine Stichprobe des Umfangs n. Die Personen werden nach ihrer Einstellung zu einem bestimmten Thema gefragt und haben genau 2 Antwortmög- lichkeiten: + oder -. k sei die Anzahl der „+“-Antworten in der Stichprobe (absolute Häu- figkeit). Die entsprechende relative Häufigkeit ist r = k n . p sei der wahre Anteil der „+“-Stimmen in der Gesamtpopulation. Die Verteilungen K sei die Zufallsvariable, die durch wiederholte Ziehung unabhängi- ger Stichproben und Berechnung von k entsteht. Analog zur einzelnen Stichprobe gilt R = K n . K ist binomialverteilt mit E (K)= μ K = n · p und σ K = n · p · q. Die Binomialverteilung B(n, p) darf durch die Normalverteilung N (μ K , σ K ) ersetzt werden, falls n · p 5 und n · q 5. Da p und q un- bekannt sind, muss hier stattdessen (als Schätzung) n · r und n · (1 - r) verwendet werden. Da r ein erwartungstreuer und konsistenter Schät- zer für p ist, ist anzunehmen, dass r p und 1 - r q gilt. Sind also n · r und n · (1 - r) deutlich größer als 5, so kann man getrost die NV- Approximation durchführen: K B(n, p) K a. N (μ K , σ K ) Für die Verteilung von R = K n folgt: R a. N ( μ K n , σ K n )= N ( p, pq n ) 1

Konfidenzintervall für den Parameter p einer ... · PDF fileDa p und q un-bekannt sind, muss hier stattdessen (als Schätzung) n·r und n·(1−r) verwendet werden. Da r ein erwartungstreuer

  • Upload
    vothuan

  • View
    213

  • Download
    0

Embed Size (px)

Citation preview

Konfidenzintervall für den Parameter peinerBinomialverteilung B(n, p)

Ausgangssituation

Man ziehe aus einer (unendlich groß gedachten) Population eineStichprobe des Umfangsn. Die Personen werden nach ihrer Einstellungzu einem bestimmten Thema gefragt und haben genau 2 Antwortmög-lichkeiten:+ oder−.

k sei die Anzahl der „+“-Antworten in der Stichprobe (absolute Häu-figkeit).

Die entsprechende relative Häufigkeit istr = kn.

p sei der wahre Anteil der „+“-Stimmen in der Gesamtpopulation.

Die Verteilungen

K sei die Zufallsvariable, die durch wiederholte Ziehung unabhängi-ger Stichproben und Berechnung vonk entsteht. Analog zur einzelnenStichprobe giltR= K

n .

K ist binomialverteilt mitE(K) = µK = n· p undσK =√

n· p·q.

Die BinomialverteilungB(n, p) darf durch die NormalverteilungN(µK,σK) ersetzt werden, fallsn · p≥ 5 undn ·q≥ 5. Da p und q un-bekannt sind, muss hier stattdessen (als Schätzung)n · r und n · (1− r)verwendet werden. Dar ein erwartungstreuer und konsistenter Schät-zer für p ist, ist anzunehmen, dassr ≈ p und 1− r ≈ q gilt. Sind alson · r und n · (1− r) deutlich größer als 5, so kann man getrost die NV-Approximation durchführen:

K ∼ B(n, p)→ Ka.∼ N(µK,σK)

Für die Verteilung vonR= Kn folgt:

Ra.∼ N(

µK

n,σK

n) = N(p,

√pqn

)

1

Standardisierung...

R−E(R)σR

=R− p√

pq/n∼ N(0,1)

Wir wissen, dass für 95% der Werte jeder standardnormalverteiltenVariable gilt:

|Z| ≤ 1.96

also auch: ∣∣∣∣∣ R− p√pq/n

∣∣∣∣∣ =|R− p|√

pq/n≤ 1.96

|R− p| ≤ 1.96·√

pqn

Die (unbekannte!) Populationsvarianz wird nun durch eine (bias-korrigierte) Schätzung ersetzt:

σR =√

pqn−→ σ̂R =

√r(1− r)n−1

Somit gilt:

|R− p| ≤ 1.96·√

r(1− r)n−1

Die Grenzen des 95%-KI

p1,2 = r±1.96·√

r(1− r)n−1

2

Allgemein: Die Grenzen für ein KI mit Irrtumswkt.α

p1,2 = r±z1−α/2 ·√

r(1− r)n−1

Beispiel

Am Abend der Präsidentschafts-Wahl werdenn = 300 Personen be-fragt, ob sie zur Wahl gegangen sind.k = 267 antworten mit „Ja“. Ei-ne erste Schätzung des Anteils in der Gesamtbevölkerung ist demnachp̂ = r = k

n = 0.89.

Berechnen des KI:

p1,2 = 0.89±1.96·√

0.89·0.11299

p1≈ 0.8545

p2≈ 0.9255

KI : [0.8545;0.9255]

Der „wahre“ Anteil der Personen in der Bevölkerung, die zur Wahlgegangen sind, liegt (mit einer Wahrscheinlichkeit von 95%) zwischen85.45% und 92.55%.

3