28
STATISTIK DER BINOMIALVERTEILUNG REGRESSION Weiterbildungskurs “Stochastik” Hansruedi Künsch Seminar für Statistik Departement Mathematik, ETH Zürich 24. Juni 2009 H.R. Künsch, ETH Zürich Weiterbildungskurs “Stochastik”

STATISTIK DER BINOMIALVERTEILUNG - stat.ethz.chstat.ethz.ch/~kuensch/gymnasien/praes-juni09.pdfSTATISTIK DER BINOMIALVERTEILUNG REGRESSION Fragestellungen Typische Fragestellungen

  • Upload
    vanlien

  • View
    214

  • Download
    0

Embed Size (px)

Citation preview

Page 1: STATISTIK DER BINOMIALVERTEILUNG - stat.ethz.chstat.ethz.ch/~kuensch/gymnasien/praes-juni09.pdfSTATISTIK DER BINOMIALVERTEILUNG REGRESSION Fragestellungen Typische Fragestellungen

STATISTIK DER BINOMIALVERTEILUNGREGRESSION

Weiterbildungskurs “Stochastik”

Hansruedi Künsch

Seminar für StatistikDepartement Mathematik, ETH Zürich

24. Juni 2009

H.R. Künsch, ETH Zürich Weiterbildungskurs “Stochastik”

Page 2: STATISTIK DER BINOMIALVERTEILUNG - stat.ethz.chstat.ethz.ch/~kuensch/gymnasien/praes-juni09.pdfSTATISTIK DER BINOMIALVERTEILUNG REGRESSION Fragestellungen Typische Fragestellungen

STATISTIK DER BINOMIALVERTEILUNGREGRESSION

Inhalt

1 STATISTIK DER BINOMIALVERTEILUNG

2 REGRESSION

H.R. Künsch, ETH Zürich Weiterbildungskurs “Stochastik”

Page 3: STATISTIK DER BINOMIALVERTEILUNG - stat.ethz.chstat.ethz.ch/~kuensch/gymnasien/praes-juni09.pdfSTATISTIK DER BINOMIALVERTEILUNG REGRESSION Fragestellungen Typische Fragestellungen

STATISTIK DER BINOMIALVERTEILUNGREGRESSION

Fragestellungen

Typische FragestellungenMendel’sche Theorie postuliert in einem bestimmtenKreuzungsversuch von Erbsen 25% grüne und 75% gelbeKeimblätter. Experiment ergibt unter 8023 Pflanzen 2001mit grünen Keimblättern.Spricht das für oder gegen Mendel’s Theorie ?Aus einer Umfrage der New York Times:“In theory, in 19 cases out of 20 the results based on sucha sample (of 1154 adults) will differ by no more than threepercentage points in either direction from what would havebeen obtained by seeking out all American adults.”Wie kommt man zu so einer Aussage ?

H.R. Künsch, ETH Zürich Weiterbildungskurs “Stochastik”

Page 4: STATISTIK DER BINOMIALVERTEILUNG - stat.ethz.chstat.ethz.ch/~kuensch/gymnasien/praes-juni09.pdfSTATISTIK DER BINOMIALVERTEILUNG REGRESSION Fragestellungen Typische Fragestellungen

STATISTIK DER BINOMIALVERTEILUNGREGRESSION

Die Binomialverteilung

Verteilung der Anzahl “Erfolge” bei n unabhängigenWiederholungen eines Experimentes mit zwei möglichenAusgängen “Erfolg/Misserfolg” unter gleichen Bedingungen.

Mendel’s Experiment: Jede Pflanze stellt eineWiederholung dar (n=8023), und ein “Erfolg” ist eine mitgrünen Keimblättern. Man hat also 2001 Erfolge.Meinungsumfragen: Die Befragung einer Person stellt eineWiederholung dar (n=1154), und ein “Erfolg” ist eine“Ja”-Antwort. Im Beispiel 56% Befürworter, also etwa 646Erfolge.

H.R. Künsch, ETH Zürich Weiterbildungskurs “Stochastik”

Page 5: STATISTIK DER BINOMIALVERTEILUNG - stat.ethz.chstat.ethz.ch/~kuensch/gymnasien/praes-juni09.pdfSTATISTIK DER BINOMIALVERTEILUNG REGRESSION Fragestellungen Typische Fragestellungen

STATISTIK DER BINOMIALVERTEILUNGREGRESSION

Formeln für die Binomialverteilung

Sei p die Wahrscheinlichkeit für einen Erfolg bei einerbestimmten Wiederholung.

pn(k) = P[ genau k Erfolge ] =

(nk

)pk (1− p)n−k .

Rekursiver Zusammenhang:

pn(k) =n − k + 1

kp

1− ppn(k − 1).

Folgerung:pn(k) wachsend im Bereich k ≤ (n + 1)p, fallend imBereich k ≥ (n + 1)p.Auf beiden Seiten des Maximums fällt pn(k) schneller alsexponentiell ab.

H.R. Künsch, ETH Zürich Weiterbildungskurs “Stochastik”

Page 6: STATISTIK DER BINOMIALVERTEILUNG - stat.ethz.chstat.ethz.ch/~kuensch/gymnasien/praes-juni09.pdfSTATISTIK DER BINOMIALVERTEILUNG REGRESSION Fragestellungen Typische Fragestellungen

STATISTIK DER BINOMIALVERTEILUNGREGRESSION

Konzentration der Binomialverteilung

Untersuchung der Binomialverteilung für verschiedene n und p(siehe Figur) zeigt:Die Wahrscheinlichkeiten pn(k) sind wesentlichverschieden von null nur in einem relativ kleinen Bereichum k = np herum (relativ zur Anzahl n + 1 der prinzipiellmöglichen Werte).

Bestimme einen Bereich von plausiblen Werten für dieAnzahl Erfolge

A(n,p) = {k1(n,p), k1(n,p) + 1, . . . k2(n,p)},

dessen Wahrscheinlichkeit (mindestens) 95% beträgt.

H.R. Künsch, ETH Zürich Weiterbildungskurs “Stochastik”

Page 7: STATISTIK DER BINOMIALVERTEILUNG - stat.ethz.chstat.ethz.ch/~kuensch/gymnasien/praes-juni09.pdfSTATISTIK DER BINOMIALVERTEILUNG REGRESSION Fragestellungen Typische Fragestellungen

STATISTIK DER BINOMIALVERTEILUNGREGRESSION

Berechnung von A(n,p)

Wir schneiden dazu auf beiden Seiten der Verteilung je 2.5%ab:

k1(n,p)−1∑j=0

pn(j) ≤ 0.025 <k1(n,p)∑

j=0

pn(j)

bzw.n∑

j=k2(n,p)+1

pn(j) ≤ 0.025 <n∑

j=k2(n,p)

pn(j).

Aus Symmetriegründen

k2(n,p) = n − k1(n,1− p).

A(n,p) ist der Annahmebereich für einen zweiseitigen Test zumNiveau 5%.

H.R. Künsch, ETH Zürich Weiterbildungskurs “Stochastik”

Page 8: STATISTIK DER BINOMIALVERTEILUNG - stat.ethz.chstat.ethz.ch/~kuensch/gymnasien/praes-juni09.pdfSTATISTIK DER BINOMIALVERTEILUNG REGRESSION Fragestellungen Typische Fragestellungen

STATISTIK DER BINOMIALVERTEILUNGREGRESSION

Beispiel: Daten von Mendel

Für n = 8023 und p = 0.25 ist A(n,p) = {1930, . . . ,2082}.2001 beobachtete Erfolge liegen klar innerhalb des plausiblenBereichs, also kein Widerspruch zur Mendel’schen Theorie. ImGegenteil, Abweichungen eher zu klein.

H.R. Künsch, ETH Zürich Weiterbildungskurs “Stochastik”

Page 9: STATISTIK DER BINOMIALVERTEILUNG - stat.ethz.chstat.ethz.ch/~kuensch/gymnasien/praes-juni09.pdfSTATISTIK DER BINOMIALVERTEILUNG REGRESSION Fragestellungen Typische Fragestellungen

STATISTIK DER BINOMIALVERTEILUNGREGRESSION

Vom Test zum Vertrauensintervall

Bei Meinungsumfragen entspricht p dem Anteil Befürworterunter allen amerikanischen Erwachsenen, und das will man jagerade mit der Umfrage herausfinden !Wenn die erhaltenen 646 Erfolge im plausiblen Bereich A(n,p)liegen, können wir das unbekannte p einschränken auf

I(n,646) = {p | A(n,p) enthält 646}= {p | k1(n,p) ≤ 646 ≤ k2(n,p)}.

Gleiches Vorgehen für einen anderen beobachteten Wert x .

H.R. Künsch, ETH Zürich Weiterbildungskurs “Stochastik”

Page 10: STATISTIK DER BINOMIALVERTEILUNG - stat.ethz.chstat.ethz.ch/~kuensch/gymnasien/praes-juni09.pdfSTATISTIK DER BINOMIALVERTEILUNG REGRESSION Fragestellungen Typische Fragestellungen

STATISTIK DER BINOMIALVERTEILUNGREGRESSION

Berechnung des Vertrauensintervalls

I(n, x) enthält die plausiblen Werten für die unbekannteWahrscheinlichkeit p. I(n, x) heisst das Vertrauensintervallfür p zum 95%-Niveau. (Illustration in Figur).

Grenzen des Vertrauensintervalls durch Auflösen der folgendenGleichungen nach p:

k1(n,p) = x , k2(n,p) = x .

also

x−1∑j=0

(nj

)pj(1− p)n−j = 0.025,

n∑j=x+1

(nj

)pj(1− p)n−j = 0.025.

Keine explizite Lösungen.

H.R. Künsch, ETH Zürich Weiterbildungskurs “Stochastik”

Page 11: STATISTIK DER BINOMIALVERTEILUNG - stat.ethz.chstat.ethz.ch/~kuensch/gymnasien/praes-juni09.pdfSTATISTIK DER BINOMIALVERTEILUNG REGRESSION Fragestellungen Typische Fragestellungen

STATISTIK DER BINOMIALVERTEILUNGREGRESSION

Interpretation des Vertrauensintervalls

Bei andern n Wiederholungen des Experiments (z.B. anderePersonen befragt), ergäbe sich eine andere Anzahl x vonErfolgen, und damit auch ein anderes Vertrauensintervall. DasVertrauensintervall ist also zufällig.Wann liegt der unbekannte wahre Wert p nicht im Intervall ?Genau, dann wenn die Anzahl Erfolge nicht in A(n,p) liegt.Nach Konstruktion geschieht das (höchstens) mitWahrscheinlichkeit 0.05.Das zufällige Vertrauensintervall enthält die unbekannteWahrscheinlichkeit p in etwa 19 von 20 Fällen

H.R. Künsch, ETH Zürich Weiterbildungskurs “Stochastik”

Page 12: STATISTIK DER BINOMIALVERTEILUNG - stat.ethz.chstat.ethz.ch/~kuensch/gymnasien/praes-juni09.pdfSTATISTIK DER BINOMIALVERTEILUNG REGRESSION Fragestellungen Typische Fragestellungen

STATISTIK DER BINOMIALVERTEILUNGREGRESSION

Näherungen für grosses n

Für grosses n kann man A(n,p) und I(n, x) approximieren,indem man die Binomial- durch eine Normalverteilung ersetzt.Alternativ verfiziert man empirisch

A(n,p) ist ungefähr symmetrisch um np.np − k1(n,p) ist am grössten für p = 0.5.np − k1(n,p) ≈ const .

√n, und für p = 0.5 ist const . ≈ 1.

Daraus folgt

I(n, x) ⊆[

xn− 1√

n,xn

+1√n

].

H.R. Künsch, ETH Zürich Weiterbildungskurs “Stochastik”

Page 13: STATISTIK DER BINOMIALVERTEILUNG - stat.ethz.chstat.ethz.ch/~kuensch/gymnasien/praes-juni09.pdfSTATISTIK DER BINOMIALVERTEILUNG REGRESSION Fragestellungen Typische Fragestellungen

STATISTIK DER BINOMIALVERTEILUNGREGRESSION

Illustration der Asymptotik

Länge des linken halben Annahmebereichs als Funktion von n.

•• •

••

• •• •

•• •

• ••

n

Laen

ge d

es h

albe

n A

nnah

meb

erei

chs

50 100 200 400

5

7

10

15

20

H.R. Künsch, ETH Zürich Weiterbildungskurs “Stochastik”

Page 14: STATISTIK DER BINOMIALVERTEILUNG - stat.ethz.chstat.ethz.ch/~kuensch/gymnasien/praes-juni09.pdfSTATISTIK DER BINOMIALVERTEILUNG REGRESSION Fragestellungen Typische Fragestellungen

STATISTIK DER BINOMIALVERTEILUNGREGRESSION

Problemstellung

Quantifizierung des Zusammenhangs zwischen zwei GrössenX und Y auf Grund von n Messungen (xi , yi). FallsZusammenhang approximativ linear, Bestimmung von Steigungund Achsenabschnitt. Beispiele

X = Umgebungstemperatur, Y = Frequenz im Balzrufeiner Froschart.X = Gehalt eines Lebensmittelfarbstoffs, Y = Fläche unterdem Gipfel im Chromatogramm.X = Luftdruck, Y = Siedepunkt von Wasser.etc.

H.R. Künsch, ETH Zürich Weiterbildungskurs “Stochastik”

Page 15: STATISTIK DER BINOMIALVERTEILUNG - stat.ethz.chstat.ethz.ch/~kuensch/gymnasien/praes-juni09.pdfSTATISTIK DER BINOMIALVERTEILUNG REGRESSION Fragestellungen Typische Fragestellungen

STATISTIK DER BINOMIALVERTEILUNGREGRESSION

Die Methode der Kleinsten Quadrate

Minimiere die Summe der quadrierten Abweichungen iny -Richtung

n∑i=1

(yi − a− bxi)2

bezüglich a und b. Lösung

a0 = y − b0x , b0 =

∑i xi(yi − y)∑i xi(xi − x)

=

∑i(xi − x)(yi − y)∑

i(xi − x)2 .

Didaktische Herleitung über die Spezialfälle b = 0, bzw. a = 0.

H.R. Künsch, ETH Zürich Weiterbildungskurs “Stochastik”

Page 16: STATISTIK DER BINOMIALVERTEILUNG - stat.ethz.chstat.ethz.ch/~kuensch/gymnasien/praes-juni09.pdfSTATISTIK DER BINOMIALVERTEILUNG REGRESSION Fragestellungen Typische Fragestellungen

STATISTIK DER BINOMIALVERTEILUNGREGRESSION

Übergang zur Statistik

Naheliegende FragenWie genau ist die Steigung der Geraden bestimmt ?Wie genau sind Vorhersagen des Y -Werts mit Hilfe derRegressionsgeraden bei gegebenem Wert x ?Können wir entscheiden, ob der Zusammenhang zwischenden Variablen tatsächlich linear ist ?

Beantwortung mit Methoden der schliessenden Statistik. Dazubrauchen wir ein Modell, wie die Fehler zustande kommen.

H.R. Künsch, ETH Zürich Weiterbildungskurs “Stochastik”

Page 17: STATISTIK DER BINOMIALVERTEILUNG - stat.ethz.chstat.ethz.ch/~kuensch/gymnasien/praes-juni09.pdfSTATISTIK DER BINOMIALVERTEILUNG REGRESSION Fragestellungen Typische Fragestellungen

STATISTIK DER BINOMIALVERTEILUNGREGRESSION

Das lineare Modell

Annahme: Es gibt eine unbekannte wahre Beziehung

y = α + βx .

Bei gegebenem Wert xi streut der Wert yi zufällig um denFunktionswert α + βxi :

yi = α + βxi + Ei .

Wiederholung der Messung ergäbe einen andern Wert für Ei .

Annahme: Verteilung der Abweichungen Ei gleich für alleWerte xi .

H.R. Künsch, ETH Zürich Weiterbildungskurs “Stochastik”

Page 18: STATISTIK DER BINOMIALVERTEILUNG - stat.ethz.chstat.ethz.ch/~kuensch/gymnasien/praes-juni09.pdfSTATISTIK DER BINOMIALVERTEILUNG REGRESSION Fragestellungen Typische Fragestellungen

STATISTIK DER BINOMIALVERTEILUNGREGRESSION

Illustration I

1.6 1.8 2.0�

0�

1

x�

Y�

Wahrschein-�

lichkeits-�

dichte�

H.R. Künsch, ETH Zürich Weiterbildungskurs “Stochastik”

Page 19: STATISTIK DER BINOMIALVERTEILUNG - stat.ethz.chstat.ethz.ch/~kuensch/gymnasien/praes-juni09.pdfSTATISTIK DER BINOMIALVERTEILUNG REGRESSION Fragestellungen Typische Fragestellungen

STATISTIK DER BINOMIALVERTEILUNGREGRESSION

Illustration II0

1

1.6 1.8 2.0

01

1.6 1.8 2.0

H.R. Künsch, ETH Zürich Weiterbildungskurs “Stochastik”

Page 20: STATISTIK DER BINOMIALVERTEILUNG - stat.ethz.chstat.ethz.ch/~kuensch/gymnasien/praes-juni09.pdfSTATISTIK DER BINOMIALVERTEILUNG REGRESSION Fragestellungen Typische Fragestellungen

STATISTIK DER BINOMIALVERTEILUNGREGRESSION

Illustration III0

1

1.6 1.8 2.0

01

1.6 1.8 2.0

H.R. Künsch, ETH Zürich Weiterbildungskurs “Stochastik”

Page 21: STATISTIK DER BINOMIALVERTEILUNG - stat.ethz.chstat.ethz.ch/~kuensch/gymnasien/praes-juni09.pdfSTATISTIK DER BINOMIALVERTEILUNG REGRESSION Fragestellungen Typische Fragestellungen

STATISTIK DER BINOMIALVERTEILUNGREGRESSION

Verteilung von a0, bzw. b0

Wenn die yi zufällig schwanken, dann tun dies auch diegeschätzten Parameter a0 und b0. Herleitung der Verteilungvon a0 und b0 zu kompliziert für die Mittelschule.

Ausweg: Simulation.

H.R. Künsch, ETH Zürich Weiterbildungskurs “Stochastik”

Page 22: STATISTIK DER BINOMIALVERTEILUNG - stat.ethz.chstat.ethz.ch/~kuensch/gymnasien/praes-juni09.pdfSTATISTIK DER BINOMIALVERTEILUNG REGRESSION Fragestellungen Typische Fragestellungen

STATISTIK DER BINOMIALVERTEILUNGREGRESSION

Hauptresultat

Wenn die Abweichungen Ei unabhängig undN (0, σ(E)2)-verteilt sind, dann kann man zeigen, dass dieKleinste-Quadrate-Schätzung b0 ebenfalls normalverteilt ist,nämlich

b0 ∼ N (β, σ(b0)2), σ(b0)2 =σ(E)2

(n − 1)s(x)2

Analoges Resultat auch für a0.

H.R. Künsch, ETH Zürich Weiterbildungskurs “Stochastik”

Page 23: STATISTIK DER BINOMIALVERTEILUNG - stat.ethz.chstat.ethz.ch/~kuensch/gymnasien/praes-juni09.pdfSTATISTIK DER BINOMIALVERTEILUNG REGRESSION Fragestellungen Typische Fragestellungen

STATISTIK DER BINOMIALVERTEILUNGREGRESSION

Vertrauensintervall für die Steigung

Zunächst wird σ(E) als bekannt vorausgesetzt.Normalverteilung für b0 impliziert, dass mit Wahrscheinlichkeit95%

β − 1.96σ(E)√

n − 1 s(x)≤ b0 ≤ β + 1.96

σ(E)√n − 1 s(x)

.

Auflösen nach β zeigt, dass das Intervall

b0 ± 1.96σ(E)√

n − 1 s(x)

die unbekannte wahre Steigung β mit Wahrscheinlichkeit 95%"einfängt".

H.R. Künsch, ETH Zürich Weiterbildungskurs “Stochastik”

Page 24: STATISTIK DER BINOMIALVERTEILUNG - stat.ethz.chstat.ethz.ch/~kuensch/gymnasien/praes-juni09.pdfSTATISTIK DER BINOMIALVERTEILUNG REGRESSION Fragestellungen Typische Fragestellungen

STATISTIK DER BINOMIALVERTEILUNGREGRESSION

Modifikation, wenn σ(E) unbekannt

Schätze σ(E)2 aus den Daten durch

s(E)2 =1

n − 2

n∑i=1

(yi − a0 − b0xi)2

und berücksichtige die zusätzliche Unsicherheit durch eine eineandere, leicht grössere Konstante als 1.96.

Die richtige Konstante ist das 97.5%-Quantil der sogenanntent-Verteilung mit n − 2 Freiheitsgraden.

H.R. Künsch, ETH Zürich Weiterbildungskurs “Stochastik”

Page 25: STATISTIK DER BINOMIALVERTEILUNG - stat.ethz.chstat.ethz.ch/~kuensch/gymnasien/praes-juni09.pdfSTATISTIK DER BINOMIALVERTEILUNG REGRESSION Fragestellungen Typische Fragestellungen

STATISTIK DER BINOMIALVERTEILUNGREGRESSION

Die Rolle von Transformationen

Mit Hilfe von Transformationen der xi und/oder der yi lassensich viele Beziehungen linearisieren:

y = αxβ ⇔ log y = logα + β log xy = αeβx ⇔ log y = logα + βx .

Additive Abweichungen vor, bzw. nach der Transformation sindnicht gleichwertig

log yi = logα + β log xi + Ei ⇔ yi = αxiβ · exp(Ei).

Linearisierung der Beziehung macht oft auch die Annahme vonadditiven Abweichungen gleicher Streuung plausibler.

H.R. Künsch, ETH Zürich Weiterbildungskurs “Stochastik”

Page 26: STATISTIK DER BINOMIALVERTEILUNG - stat.ethz.chstat.ethz.ch/~kuensch/gymnasien/praes-juni09.pdfSTATISTIK DER BINOMIALVERTEILUNG REGRESSION Fragestellungen Typische Fragestellungen

STATISTIK DER BINOMIALVERTEILUNGREGRESSION

Effekt von Transformationen I

Luftdruck und Siedetemperatur von H2O

700 750 800 850 900 950 1000

−0.

7−

0.5

−0.

3−

0.1

0.1

0.2

0.3

Luftdruck [hPa]

Res

idue

n [G

rad

C]

700 750 800 850 900 950 1000

9091

9293

9495

9697

9899

100

Luftdruck [hPa]

Sie

dete

mpe

ratu

r [G

rad

C]

H.R. Künsch, ETH Zürich Weiterbildungskurs “Stochastik”

Page 27: STATISTIK DER BINOMIALVERTEILUNG - stat.ethz.chstat.ethz.ch/~kuensch/gymnasien/praes-juni09.pdfSTATISTIK DER BINOMIALVERTEILUNG REGRESSION Fragestellungen Typische Fragestellungen

STATISTIK DER BINOMIALVERTEILUNGREGRESSION

Effekt von Transformationen II

Körper- und Hirnmasse von Säugetieren

0 1000 2000 3000 4000 5000 6000

050

015

0025

0035

0045

0055

00

Koerpermasse [kg]

Hir

nmas

se [g

]

1e−01 1e+00 1e+01 1e+02 1e+03 1e+04

5e−

015e

+00

5e+

015e

+02

5e+

03

Koerpermasse [kg]

Hir

nmas

se [g

]

H.R. Künsch, ETH Zürich Weiterbildungskurs “Stochastik”

Page 28: STATISTIK DER BINOMIALVERTEILUNG - stat.ethz.chstat.ethz.ch/~kuensch/gymnasien/praes-juni09.pdfSTATISTIK DER BINOMIALVERTEILUNG REGRESSION Fragestellungen Typische Fragestellungen

STATISTIK DER BINOMIALVERTEILUNGREGRESSION

Regression als "Rückschritt zum Mittel"

Rechnung zeigt

n∑i=1

(yi − a0 − b0xi)2 = (n − 1)s(y)2

(1− r2

xy

).

Daraus folgt |rxy | < 1, wenn die Punkte nicht auf einer Geradenliegen.

Damit sind bei der Regressionsgerade

y − ys(y)

= rxy ·x − xs(x)

die y -Werte näher beim Mittelwert als die x-Werte, wenn wirdie Standardabweichungen als Einheit benutzen.

H.R. Künsch, ETH Zürich Weiterbildungskurs “Stochastik”