69
* *

Mathematische Statistik Skript zur Vorlesung im ... · Mathematische Statistik Skript zur Vorlesung im Sommersemester 2016 Markus Bibinger Philipps-Universität Marburg, Fb12 Mathematik

Embed Size (px)

Citation preview

Page 1: Mathematische Statistik Skript zur Vorlesung im ... · Mathematische Statistik Skript zur Vorlesung im Sommersemester 2016 Markus Bibinger Philipps-Universität Marburg, Fb12 Mathematik

Mathematische Statistik

Skript zur Vorlesung

im Sommersemester 2016

Markus Bibinger∗

Philipps-Universität Marburg,

Fb12 Mathematik und Informatik

Version vom 1. April 2016

Inhaltsverzeichnis

1 Statistik im linearen Modell 1

1.1 Lineares Modell und kleinste Quadrate . . . . . . . . . . . . . . . 11.2 Der Satz von Gauÿ-Markov . . . . . . . . . . . . . . . . . . . . . 31.3 Asymptotik für Kleinste-Quadrate-Schätzer . . . . . . . . . . . . 61.4 Inferenz unter Normalverteilungsannahme . . . . . . . . . . . . . 7

2 Grundprinzipien statistischer Entscheidungstheorie 11

2.1 Formalisierung eines statistischen Problems . . . . . . . . . . . . 112.2 Optimale statistische Entscheidungen . . . . . . . . . . . . . . . . 13

2.2.1 Zulässigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . 132.2.2 Minimax-Ansatz . . . . . . . . . . . . . . . . . . . . . . . 132.2.3 Bayes-Ansatz . . . . . . . . . . . . . . . . . . . . . . . . . 14

2.3 Bayes-Methoden . . . . . . . . . . . . . . . . . . . . . . . . . . . 152.4 Das Stein-Phänomen . . . . . . . . . . . . . . . . . . . . . . . . . 202.5 Ergänzungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

3 Suzienz und Vollständigkeit 23

3.1 Dominierte Modelle . . . . . . . . . . . . . . . . . . . . . . . . . . 233.2 Exponentialfamilien . . . . . . . . . . . . . . . . . . . . . . . . . 243.3 Suzienz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 263.4 Vollständigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . 303.5 Cramér-Rao-Ungleichung . . . . . . . . . . . . . . . . . . . . . . 31

4 Parametrische Schätztheorie 35

4.1 Momentenmethode . . . . . . . . . . . . . . . . . . . . . . . . . . 354.2 Minimum-Kontrast- und Maximum-Likelihood-Schätzer . . . . . 394.3 Asymptotik von Schätzern . . . . . . . . . . . . . . . . . . . . . . 43

∗basierend auf editiertem Skript von Markus Reiÿ (Humboldt-Universität zu Berlin)

I

Page 2: Mathematische Statistik Skript zur Vorlesung im ... · Mathematische Statistik Skript zur Vorlesung im Sommersemester 2016 Markus Bibinger Philipps-Universität Marburg, Fb12 Mathematik

4.4 Konzentrationsungleichungen . . . . . . . . . . . . . . . . . . . . 49

5 Parametrische Testtheorie 52

5.1 Neyman-Pearson-Theorie . . . . . . . . . . . . . . . . . . . . . . 525.2 Gleichmäÿig beste einseitige Tests . . . . . . . . . . . . . . . . . . 555.3 Gleichmäÿig beste unverfälschte zweiseitige Tests . . . . . . . . . 575.4 Bedingte Tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . 585.5 Likelihood-Quotienten- und χ2-Test . . . . . . . . . . . . . . . . . 63

Literatur

Lehmann, E.L. (2005) Testing Statistical Hypotheses, Springer.

Lehmann, E.L. and G. Casella (2003) Theory of Point Estimation, Springer.

Romano, J. P. and Siegel, A. F. (1986). Counterexamples in probability and

statistics. The Wadsworth & Brooks/Cole Statistics/Probability Series. Mon-terey, California: Wadsworth & Brooks/Cole Advanced Books & Software.XXIV.

Seber, G. A. F. (2008). A Matrix Handbook for Statisticians. Wiley.

Shao, J. (2003). Mathematical statistics. 2nd ed., New York, NY: Springer.

Van der Vaart, A. W. and Wellner, J. A. (2000). Weak Convergence and Empi-

rical Processes. With Applications to Statistics. New York: Springer.

Van der Vaart, A. (1998) Asymptotic Statistics, Cambridge University Press.

Wassermann, L. (2003): All of Statistics, Springer.

Witting, H. (1985) Mathematische Statistik I, Teubner.

II

Page 3: Mathematische Statistik Skript zur Vorlesung im ... · Mathematische Statistik Skript zur Vorlesung im Sommersemester 2016 Markus Bibinger Philipps-Universität Marburg, Fb12 Mathematik

1 Statistik im linearen Modell

1.1 Lineares Modell und kleinste Quadrate

1.1 Denition. Ein lineares Modell mit n reellwertigen Beobachtungen Y =(Y1, . . . , Yn)> und p-dimensionalem Parameter β ∈ Rp, p 6 n, besteht aus einerreellen Matrix X ∈ Rn×p von vollem Rang p, der Designmatrix, und einemZufallsvektor ε = (ε1, . . . , εn)>, den Fehler- oder Störgröÿen, mit E[εi] = 0,Cov(εiεj) = Σij zur Kovarianzmatrix Σ > 0. Beobachtet wird eine Realisierungvon

Y = Xβ + ε.

Der (gewichtete) Kleinste-Quadrate-Schätzer β von β minimiert den gewichtetenEuklidischen Abstand zwischen Beobachtungen und Modellvorhersage:

|Σ−1/2(Xβ − Y )|2 = infb∈Rp|Σ−1/2(Xb− Y )|2.

Im gewöhnlichen Fall Σ = σ2En (En ∈ Rn×n: Einheitsmatrix) mit Fehlerniveauσ > 0, erhalten wir den gewöhnlichen Kleinste-Quadrate-Schätzer (OLS: ordi-nary least squares), der unabhängig von der Kenntnis von σ2 ist:

|Xβ − Y |2 = infb∈Rp|Xb− Y |2.

Bemerkung. Wir schreiben Σ > 0, falls Σ eine symmetrische, strikt positiv-denite Matrix ist. Dann ist Σ diagonalisierbar mit Σ = TDT>, D =diag(λ1, . . . , λn) Diagonalmatrix und T orthogonale Matrix, und wir setzenΣ−1/2 = TD−1/2T> mit D−1/2 = diag(λ

−1/21 , . . . , λ

−1/2n ). Wie erwartet, gilt

(Σ−1/2)2 = Σ−1 und somit |Σ−1/2v|2 = 〈Σ−1v, v〉.

1.2 Beispiele.

(a) Einfaches Shift-Modell: Wir beobachten Yi = µ + εi, i = 1, . . . , n, mitµ ∈ R unbekannt, was auf ein lineares Modell mit p = 1, β = µ undX = (1, . . . , 1)> führt.

(b) Lineare Regression: p = 2, β = (b, a)>, X = (Xij) mit Xi,1 = 1, Xi,2 = xi.Damit X Rang 2 hat, müssen mindestens zwei der (xi) verschieden sein.Wir beobachten also Realisierungen von

Yi = axi + b+ εi, i = 1, . . . , n,

wobei a, b ∈ R unbekannte Parameter, (xi) bekannte Werte (Versuchsplan,Design). Im gewöhnlichen Fall sind (εi) i.i.d. (unabhängig und identischverteilt) zentrierte Zufallsvariablen (d.h. E[εi] = 0) sind mit Var(εi) =σ2 > 0, die Messfehler modellieren. Man denke z.B. an Messungen derLeitfähigkeit Yi eines Stoes in Abhängigkeit der Temperatur xi.Gesucht ist eine Regressionsgerade der Form y = ax+ b, die die Beobach-tungen möglichst gut erklärt. Nach der Methode der kleinsten Quadrate

1

Page 4: Mathematische Statistik Skript zur Vorlesung im ... · Mathematische Statistik Skript zur Vorlesung im Sommersemester 2016 Markus Bibinger Philipps-Universität Marburg, Fb12 Mathematik

erhalten wir Schätzer a, b durch Minimierung der Summe der quadrati-schen Abstände:

(a, b) := argmin(a,b)∈R2

n∑i=1

(Yi − axi − b)2.

Dierentiation ergibt, dass a, b Lösungen der Normalengleichungen sind:

n∑i=1

(Yi − axi − b) = 0 undn∑i=1

xi(Yi − axi − b) = 0.

Explizit gilt a = cxY /σ2x, b = Y − ax mit x = 1

n

∑ni=1 xi, Y = 1

n

∑ni=1 Yi,

σ2x = 1

n−1

∑ni=1(xi − x)2, cxY = 1

n−1

∑ni=1(xi − x)(Yi − Y ).

(c) Mehrfache lineare Regression: bei d-dimensionalem Design mit Punktenxi = (xi,1, . . . , xi,d) beobachtet man

Yi = a0 + 〈a, xi〉+ εi, a = (a1, . . . , ad)>, i = 1, . . . , n.

Wir erhalten p = d+ 1, β = (a0, a1, . . . , ad)> sowie

X =

1 x1,1 · · · x1,d...

......

1 xn,1 · · · xn,d

.

Die Forderung, dassX vollen Rang besitzt, ist gleichbedeutend damit, dass

die Punkte

(1xi

), i = 1, . . . , n, den gesamten Raum Rd+1 aufspannen.

(d) Polynomiale Regression: wir beobachten

Yi = a0 + a1xi + a2x2i + · · ·+ ap−1x

p−1i + εi, i = 1, . . . , n.

Damit ergibt sich als Parameter β = (a0, a1, . . . , ap−1)> und eine Design-matrix vom Vandermonde-Typ:

X =

1 x1 x2

1 · · · xp−11

1 x2 x22 · · · xp−1

2...

......

...1 xn x2

n · · · xp−1n

.

Die Matrix X hat vollen Rang, sofern p der Designpunkte (xi) verschiedensind.

(e) Einfaktorielle Varianzanalyse/ANOVA: Im Modell

Yij = αi + εij , j = 1, . . . , ni, i = 1, . . . , p

2

Page 5: Mathematische Statistik Skript zur Vorlesung im ... · Mathematische Statistik Skript zur Vorlesung im Sommersemester 2016 Markus Bibinger Philipps-Universität Marburg, Fb12 Mathematik

mit i.i.d. zentrierten Fehlern mit Varianz σ2 > 0, β = (α1, . . . , αp), ausp verschiedenen Gruppen (Zielgröÿe abhängig von p Faktoren) mit Grup-pengröÿen ni, i = 1, . . . , p, ist X Blockdiagonalmatrix mit vollem Rang p.Bezeichne mit

Yi• =1

ni

ni∑j=1

Yij , i = 1, . . . , p,

die Gruppenmittelwerte. Neben der Parameterschätzung mit der Methodeder kleinsten Quadrate

αi = Yi• , i = 1, . . . , p,

interessiert vor allem auf unterschiedliche Einüsse der Faktoren zu testen:H0 : α1 = α2 = . . . = αp = 0. Hierzu bestimmt man Schätzer für

(i) die Varianz innerhalb der Gruppen,

(ii) die Varianz zwischen den Gruppen,

(iii) die Gesamtvarianz.

Je gröÿer dabei der Anteil der Varianz zwischen den Gruppen, desto eherwird H0 abgelehnt.

1.2 Der Satz von Gauÿ-Markov

1.3 Lemma. Setze XΣ := Σ−1/2X. Mit ΠXΣwerde die Orthogonalpro-

jektion von Rn auf den Bildraum ran(XΣ) bezeichnet. Dann gilt ΠXΣ=

XΣ(X>ΣXΣ)−1X>Σ und für den Kleinste-Quadrate-Schätzer

β = (X>Σ−1X)−1X>Σ−1Y . (1.1)

Insbesondere existiert der Kleinste-Quadrate-Schätzer und ist eindeutig.

Bemerkung.

(a) Im gewöhnlichen linearen Modell gilt β = (X>X)−1X>Y , da sich σ > 0herauskürzt.

(b) X+Σ := (X>ΣXΣ)−1X>Σ heiÿt auch Moore-Penrose-Inverse von XΣ, so dass

β = X+Σ Σ−1/2Y bzw. β = X+Y im gewöhnlichen linearen Modell gilt.

Beweis. Zunächst beachte, dass X>ΣXΣ = X>Σ−1X invertierbar ist wegen derInvertierbarkeit von Σ und der Rangbedingung an X:

X>Σ−1Xv = 0⇒ v>X>Σ−1Xv = 0⇒ |Σ−1/2Xv| = 0⇒ |Xv| = 0⇒ v = 0.

Setze PXΣ:= XΣ(X>ΣXΣ)−1X>Σ und w = PXΣ

v für ein v ∈ Rn. Dann folgtw ∈ ran(XΣ) und im Fall v = XΣu durch Einsetzen w = PXΣ

XΣu = v, so dassPXΣ

eine Projektion auf ran(XΣ) ist. Da PXΣselbstadjungiert (symmetrisch)

ist, handelt es sich um die Orthogonalprojektion ΠXΣ:

∀u ∈ Rn : 〈u− PXΣu,w〉 = 〈u,w〉 − 〈u, PXΣ

w〉 = 0.

3

Page 6: Mathematische Statistik Skript zur Vorlesung im ... · Mathematische Statistik Skript zur Vorlesung im Sommersemester 2016 Markus Bibinger Philipps-Universität Marburg, Fb12 Mathematik

Aus der Eigenschaft β = argminb|Σ−1/2(Y − Xb)|2 folgt, dass β die bes-te Approximation im Rn von Σ−1/2Y durch XΣb liefert. Diese ist durch dieOrthogonalprojektionseigenschaft ΠXΣ

Σ−1/2Y = XΣβ bestimmt. Es folgt

X>Σ ΠXΣΣ−1/2Y = (X>ΣXΣ)β ⇒ (X>Σ−1X)−1X>Σ−1Y = β.

1.4 Satz. Im gewöhnlichen linearen Modell mit Fehlerniveau σ > 0 gelten diefolgenden Aussagen:

(a) Der Kleinste-Quadrate-Schätzer β = (X>X)−1X>Y ist erwartungstreuerSchätzer von β (d.h. E[β] = β).

(b) Satz von Gauÿ-Markov: Ist der reelle Parameter γ = 〈β, v〉 für ein v ∈ Rpzu schätzen, so ist γ = 〈β, v〉 ein (in den Daten Y ) linearer erwartungs-treuer Schätzer, der unter allen linearen erwartungstreuen Schätzern mi-nimale Varianz besitzt, nämlich Var(γ) = σ2|X(X>X)−1v|2.

(c) Bezeichnet R := Y −Xβ den Vektor der Residuen, so ist im Fall n > pdie geeignet normalisierte Stichprobenvarianz

σ2 :=|R|2

n− p=|Y −Xβ|2

n− p(1.2)

ein erwartungstreuer Schätzer von σ2.

Beweis.

(a) Aus der Linearität des Erwartungswerts und E[ε] = 0 folgt

E[β] = E[(X>X)−1X>(Xβ + ε)] = β + 0 = β.

(b) Aus (a) folgt, dass γ linear und erwartungstreu ist. Sei nun γ = 〈Y,w〉ein beliebiger linearer erwartungstreuer Schätzer von γ. Dies impliziert füralle β ∈ Rp

E[〈Y,w〉] = γ ⇒ 〈Xβ,w〉 = 〈β, v〉 ⇒ 〈X>w − v, β〉 = 0⇒ X>w = v.

Nach Pythagoras erhalten wir

Var(γ) = E[〈ε, w〉2] = σ2|w|2 = σ2(|ΠXw|2 + |(En −ΠX)w|2)

und somit Var(γ) > σ2|ΠXw|2 = σ2|X(X>X)−1v|2 = Var(γ).

(c) Einsetzen zeigt E[|Y − Xβ|2] = E[|Y − ΠXY |2] = E[|(En − ΠX)ε|2]. Istnun e1, . . . , en−p eine Orthonormalbasis vom (n − p)-dimensionalen Bildran(En −ΠX) ⊆ Rn, so folgt

E[|(En −ΠX)ε|2] =

n−p∑i=1

E[〈ε, ei〉2] = σ2(n− p),

4

Page 7: Mathematische Statistik Skript zur Vorlesung im ... · Mathematische Statistik Skript zur Vorlesung im Sommersemester 2016 Markus Bibinger Philipps-Universität Marburg, Fb12 Mathematik

was die Behauptung impliziert.Wir beweisen (c) nachfolgend nocheinmal basierend auf entsprechendenPrinzipien der Matrizenrechnung.Zu zeigen ist, dass E[R>R | X] = (n− p)σ2. Es gilt:

E[R>R | X] = E[(X(β − β) + ε)>(X(β − β) + ε) | X]

= E[ε>(En −X(X>X)−1X>)>(En −X(X>X)−1X>)ε | X]

= E[ε>(En −X(X>X)−1X>)ε | X] ,

mit der Einheitsmatrix En. Für den letzten Term erhalten wir

E[R>R | X] = σ2n∑i=1

(En−X(X>X)−1X>)i,i = σ2(n−

n∑i=1

(X(X>X)−1X>)i,i

)und es bleibt zu zeigen, dass die Summe auf der rechten Seite gleich p ist.Dies folgt aus

p∑i=1

(X>X(X>X)−1)i,i =

p∑i=1

(Ep)i,i = p

vorausgesetzt dass∑n

i=1(X(X>X)−1X>)i,i =∑p

i=1(X>X(X>X)−1)i,i.Dies zeigt man mit dem Spur-Trick. Die Spur tr(C) einer quadratischenMatrix C ist

∑iCi,i. Für eine (p× q)-Matrix A und eine (q×p)-Matrix B

gilt tr(AB) =∑p

i=1

∑qj=1Ai,jBj,i =

∑qj=1

∑pi=1Bj,iAi,j = tr(BA). Setzt

man A = X(X>X)−1 and B = X> ein, folgt der Satz.

Bemerkung.

(a) Man sagt, dass der Schätzer γ im Satz von Gauÿ-Markov bester linearererwartungstreuer Schätzer (BLUE: best linear unbiased estimator) ist.

(b) Oft interessiert auch der Vorhersagefehler |Xβ − Xβ|2 (d.h. bei der Re-gression die quadrierte Dierenz der vorhergesagten und wahren Werte anden Designpunkten), so prüft man leicht nach:

E[|Xβ −Xβ|2] = E[|ΠXε|2] = σ2p.

Insbesondere wächst dieser Fehler linear in der Dimension p des Parame-terraums.

(c) Eine entsprechende Aussage des Satzes von Gauÿ-Markov gilt auch imallgemeinen linearen Modell.

(d) Falls X nicht vollen Rang hat gibt es unendlich viele Kleinste-Quadrate-Schätzer. Jeder ist im gewöhnlichen Fall von der Form β = (X>X)−X>Ymit (X>X)− verallgemeinerte Inverse von X>X. Im Falle der einfaktori-ellen Varianzanalyse mit Yij = µ+αi+εij und β = (µ, α1, . . . , αp) ∈ Rp+1

hat X nicht vollen Rang.

5

Page 8: Mathematische Statistik Skript zur Vorlesung im ... · Mathematische Statistik Skript zur Vorlesung im Sommersemester 2016 Markus Bibinger Philipps-Universität Marburg, Fb12 Mathematik

1.3 Asymptotik für Kleinste-Quadrate-Schätzer

In diesem Abschnitt nehmen wir an, dass die Beobachtungen(Yi, Xi,1, . . . , Xi,p), i = 1, . . . , n, i.i.d. sind und analysieren das asympto-tische Verhalten des OLS-Schätzers für β wenn n→∞.

1.5 Satz (Konsistenz des OLS-Schätzers). Im gewöhnlichen linearen Modell miti.i.d. (Yi, Xi,1, . . . , Xi,p), i = 1, 2, . . . , existiere E[X1X

>1 ] und sei invertierbar.

Dann gilt:β→β , P-stochastisch .

Beweis. Wir schreiben β = S−1XXsXY mit

SXX =1

n

n∑i=1

XiX>i (arithmetisches Mittel von XiX

>i ) und

sXY =1

n

n∑i=1

XiYi (arithmetisches Mittel von XiYi).

Nach dem schwachen Gesetz der groÿen Zahlen (SGGZ) gilt SXX→E[X1X>1 ]

stochastisch. Da die Matrix-Inversion eine stetige Transformation ist folgt mitcontinuous mapping (CMT) (vgl. Theorem 1.9.5 in van der Vaart and Wellner(2000))

S−1XX→(E[X1X

>1 ])−1 stochastisch .

Nach dem SGGZ folgt wiederum, dass sXY stochastisch gegen E[X1Y1] =(E[X1X

>1 ])β + E[X1ε1] = (E[X1X

>1 ])β konvergiert. Damit folgt

β = (S−1XX − (E[X1X

>1 ])−1)sXY + (E[X1X

>1 ])−1sXY

→ (E[X1X>1 ])−1(E[X1X

>1 ])β = β stochastisch.

Nachfolgend wird die asymptotische Normalität des OLS-Schätzers gezeigt.

1.6 Satz (Asymptotische Normalität des OLS-Schätzers). Im gewöhnlichen li-nearen Modell mit i.i.d. (Yi, Xi,1, . . . , Xi,p), i = 1, 2, . . . , existiere E[X1X

>1 ] und

sei invertierbar. Dann gilt√n (β − β)→ Z ∼ N(0p, σ

2(E[X1X>1 ])−1) in Verteilung.

Beweis. Es gilt β−β = (X>X)−1X>ε. Der (mehrdimensionale) Zentrale Grenz-wertsatz (ZGWS) liefert

1√nX>ε =

1√n

n∑i=1

Xiεi → Z ∼ N(0p, σ2(E[X1X

>1 ]) in Verteilung.

Wir erhalten für√n(β − β) = (n−1X>X)−1 1√

nX>ε , Zn = (E[X1X

>1 ])−1 1√

nX>ε ,

dass√n(β−β)−Zn → 0 P-stochastisch, wobei Zn = (E[X1X

>1 ])−1 1√

nX>ε→Z

in Verteilung mit CMT. Slutsky's Lemma impliziert den Satz.

6

Page 9: Mathematische Statistik Skript zur Vorlesung im ... · Mathematische Statistik Skript zur Vorlesung im Sommersemester 2016 Markus Bibinger Philipps-Universität Marburg, Fb12 Mathematik

Statistische Folgerung:

Angenommen σ2 sei bekannt. Dann kann der vorhergehende Satz zur Konstruk-tion von asymptotischen Kondenzintervallen für βk, k = 1, . . . , p genutzt wer-

den, da gilt√n(σ2[ (

1nX>X)−1 ]

k,k

)−1/2(βk−βk)→N(0, 1) in Verteilung. Setze

I(k)n =

[βk − z1−α/2 σ

√[(X>X)

−1 ]k,k, βk + z1−α/2 σ

√[(X>X)

−1 ]k,k

]wobei zq das q-Quantil der Standardnormalverteilung bezeichnet. Es folgt, dass

P(βk ∈ I(k)n )→ 1−α. Daher ist I(k)

n ein asymptotisches (1-α)-Kondenzintervallfür βk. Es ist allerdings wichtig, (asymptotische) Kondenzintervalle im realis-tischeren Fall wenn σ2 unbekannt ist herzuleiten.

1.7 Satz. Im gewöhnlichen linearen Modell mit i.i.d. (Yi, Xi,1, . . . , Xi,p), i =1, 2, . . . , existiere E[X1X

>1 ] und sei invertierbar. Dann gilt für den Schätzer

(1.2) σ2 → σ2 stochastisch wenn n→∞.

Beweis. Es genügt zu zeigen, dass 1n

∑ni=1R

2i → σ2 stochastisch. Mit dem SGGZ

und der Konsistenz von β erhalten wir

1

n

n∑i=1

R2i =

1

n

n∑i=1

(εi −X>i (β − β))2

=1

n

n∑i=1

ε2i − 2(β − β)>

1

n

n∑i=1

Xiεi + (β − β)>1

n

n∑i=1

XiX>i (β − β)

→ σ2 stochastisch.

Statistische Folgerung:

Die Resultate können zur Konstruktion asymptotischer Kondenzintervalle fürβk, k = 1, . . . , p im Falle σ2 unbekannt genutzt werden.

I(k)n =

[βk − z1−α/2 σ

√[(X>X)

−1]k,k, βk + z1−α/2 σ

√[(X>X)

−1]k,k

]ist ein asymptotisches (1-α)-Kondenzintervall für βk.

1.4 Inferenz unter Normalverteilungsannahme

1.8 Beispiel. Sind die Messfehler (εi) ∼ N(0, σ2En) gemeinsam normalverteilt,so gilt β ∼ N(β, σ2(X>X)−1) und γ ∼ N(γ, σ2v>(X>X)−1v). Ist weiterhinσ > 0 bekannt, so ist ein Kondenzintervall zum Niveau 95% für γ gegebendurch

I0,95(γ) :=[γ − 1, 96σ

√v>(X>X)−1v, γ + 1, 96σ

√v>(X>X)−1v

].

Dabei ist der Wert q0,975 = 1, 96 gerade das 0, 975-Quantil bzw. 0, 025-Fraktil derStandardnormalverteilung, d.h. Φ(1, 96) ≈ 0, 975. Analog wird der zweiseitige

7

Page 10: Mathematische Statistik Skript zur Vorlesung im ... · Mathematische Statistik Skript zur Vorlesung im Sommersemester 2016 Markus Bibinger Philipps-Universität Marburg, Fb12 Mathematik

Gauÿ-Test der Hypothese H0 : γ = γ0 gegen H1 : γ 6= γ0 zum Niveau α ∈ (0, 1)

konstruiert: H0 wird akzeptiert, falls |γ−γ0| 6 q1−α/2σ√v>(X>X)−1v gilt mit

dem (1− α/2)-Quantil q1−α/2 von N(0, 1), sonst verworfen.

Falls σ unbekannt ist, so ist eine Idee, einfach σ durch einen Schätzer σ inobigen Formeln zu ersetzen. Allerdings wird dann das vorgegebene Niveau nurnoch asymptotisch erreicht für einen konsistenten Schätzer, siehe Abschnitt 1.3.Im vorliegenden Fall können wir aber sogar die nicht-asymptotische Verteilungexakt bestimmen.

1.9 Denition. Die t-Verteilung (oder Student-t-Verteilung) mit n ∈ N Frei-heitsgraden auf (R,BR) ist gegeben durch die Lebesguedichte

tn(x) =Γ((n+ 1)/2)

Γ(n/2)√πn

(1 +

x2

n

)−(n+1)/2, x ∈ R .

Die F-Verteilung (oder Fisher-Verteilung) mit (m,n) ∈ N2 Freiheitsgraden auf(R,BR) ist gegeben durch die Lebesguedichte

fm,n(x) =mm/2nn/2

B(m/2, n/2)

xm/2−1

(mx+ n)(m+n)/21R+(x), x ∈ R .

Dabei bezeichnet Γ(p) =∫∞

0 tp−1e−tdt die Gamma-Funktion sowie B(p, q) =Γ(p)Γ(q)Γ(p+q) die Beta-Funktion.

1.10 Lemma. Es seien X1, . . . , Xm, Y1, . . . , Yn unabhängige N(0, 1)-verteilteZufallsvariablen. Dann ist

Tn :=X1√

1n

∑nj=1 Y

2j

gemäÿ einer t-Verteilung mit n Freiheitsgraden sowie

Fm,n :=1m

∑mi=1X

2i

1n

∑nj=1 Y

2j

gemäÿ einer F -Verteilung mit (m,n) Freiheitsgraden verteilt.

Beweis. Beachte zunächst, dass T 2n = F1,n gilt, so dass mittels Dichtetransfor-

mation f|Tn|(x) = fF1,n(x2)2x, x > 0, gilt. Da Tn symmetrisch (wie −Tn) verteiltist, folgt fTn(x) = fF1,n(x2)|x|, x ∈ R, und Einsetzen zeigt die Behauptung fürTn, sofern F1,n F (1, n)-verteilt ist.

Dafür benutze, dassX :=∑m

i=1X2i χ

2(m)-verteilt und Y :=∑n

j=1 Y2j χ

2(n)-verteilt sind. Wegen Unabhängigkeit von X und Y gilt für z > 0 (setze w = x/y)

P(X/Y 6 z) =

∫ ∫1(x/y 6 z)fX(x)fY (y) dydx

=

∫1(w 6 z)

(∫fX(wy)fY (y)y dy

)dw,

8

Page 11: Mathematische Statistik Skript zur Vorlesung im ... · Mathematische Statistik Skript zur Vorlesung im Sommersemester 2016 Markus Bibinger Philipps-Universität Marburg, Fb12 Mathematik

so dass sich die Dichte wie folgt ergibt (setze w = (x+ 1)y)

fX/Y (x) =

∫fX(xy)fY (y)y dy

=2−(m+n)/2

Γ(m/2)Γ(n/2)

∫ ∞0

(xy)m/2−1yn/2e−(xy+y)/2dy

=2−(m+n)/2

Γ(m/2)Γ(n/2)

∫ ∞0

(xw/(x+ 1))m/2−1(w/(x+ 1))n/2e−w/2(x+ 1)−1dw

=Γ((m+ n)/2)

Γ(m/2)Γ(n/2)xm/2−1(x+ 1)−(m+n)/2, x > 0.

Dichtetransformation ergibt damit für Fm,n = nm(X/Y ) die Dichte

mn fX/Y (mn x) = fm,n(x).

Bemerkung. Für n = 1 ist die t(n)-Verteilung gerade die Cauchy-Verteilungund für n → ∞ konvergiert sie schwach gegen die Standardnormalverteilung.Für jedes n ∈ N besitzt t(n) endliche Momente nur bis zur Ordnung p < n (sieist heavy-tailed). Ähnliches gilt für die F-Verteilung, insbesondere konvergiertmF (m,n) für F (m,n)-verteilte Zufallsvariablen F (m,n) und n→∞ gegen dieχ2(m)-Verteilung.

1.11 Satz. Im gewöhnlichen linearen Modell unter Normalverteilungsannahmeεi ∼ N(0, σ2) gelten folgende Kondenzaussagen für gegebenes α ∈ (0, 1) (No-tation wie in Satz 1.4):

(a) Kondenzbereich für β: Ist qF (p,n−p);1−α das (1−α)-Quantil der F (p, n−p)-Verteilung, so ist

C := β ∈ Rp | |X(β − β)|2 < p qF (p,n−p);1−ασ2

ein Kondenzellipsoid zum Niveau (1− α) für β.

(b) Kondenzbereich für γ = 〈β, v〉: Ist qt(n−p);1−α/2 das (1 − α/2)-Quantilder t(n− p)-Verteilung, so ist

I :=[γ−σ

√v>(X>X)−1vqt(n−p);1−α/2, γ+σ

√v>(X>X)−1vqt(n−p);1−α/2

]ein Kondenzintervall zum Niveau (1− α) für γ.

Beweis des Satzes. Allgemein müssen wir jeweils für einen Kondenzbereich Bfür den vom wahren Parameter β abgeleiteten Parameter ϑβ zum Niveau 1− αnachweisen, dass gilt

∀β ∈ Rp : Pβ(ϑβ ∈ B) > 1− α.

Im folgenden werden wir sogar Gleichheit erhalten.

(a) X(β−β) = ΠXε ist N(0, σ2ΠXΠ>X)-verteilt und somit ist σ−2|X(β−β)|2

χ2(p)-verteilt. Weiterhin gilt ja σ2 = |Y−ΠXY |2n−p = |ε−ΠXε|2

n−p , so dass

9

Page 12: Mathematische Statistik Skript zur Vorlesung im ... · Mathematische Statistik Skript zur Vorlesung im Sommersemester 2016 Markus Bibinger Philipps-Universität Marburg, Fb12 Mathematik

X(β − β) und σ2 unabhängig sind, weil ΠXε und (En − Πx)ε unabhän-gig sind (da unkorreliert und gemeinsam normalverteilt). Auÿerdem folgt,dass n−p

σ2 σ2 χ2(n− p)-verteilt ist. Wie in Lemma 1.10 schlieÿen wir, dass

|X(β − β)|2/(pσ2) F (p, n − p)-verteilt ist. Damit ist C per Konstruktionein entsprechender Kondenzbereich.

(b) Wie in (a) sind γ und σ unabhängig. Auÿerdem gilt (γ − γ) ∼N(0, σ2v>(X>X)−1v), so dass (γ − γ)/(σ

√v>(X>X)−1v) wie in Lem-

ma 1.10 t(n− p)-verteilt ist und die Behauptung folgt.

1.12 Korollar. Im Shiftmodell Yi = µ + εi, i = 1, . . . , n, mit εi ∼ N(0, σ2)i.i.d. und µ ∈ R, σ > 0 unbekannt ist

I := [µ− σn−1/2qt(n−1);1−α/2, µ+ σn−1/2qt(n−1);1−α/2]

mit µ = 1n

∑ni=1 Yi, σ

2 = 1n−1

∑ni=1(Yi − µ)2 ein Kondenzintervall zum Feh-

lerniveau α für µ. Die Hypothese H0 : µ = µ0 kann gegen die Alternati-ve µ 6= µ0 mit dem zweiseitigen t-Test zum Niveau α getestet werden: Falls|µ− µ0| > σn−1/2qt(n−1);1−α/2 gilt, lehne die Hypothese H0 ab, sonst akzeptieresie.

Beweis. Das Kondenzintervall folgt direkt aus Teil (b) des vorigen Satzes mitdem linearen Modell, wo p = 1, X = (1, . . . , 1)> und γ = β, v = 1 ist. DerTest folgt aus der Aussage für das Kondenzintervall I, weil diese insbesonderePµ0(µ0 /∈ I) 6 α impliziert und µ0 /∈ I ⇐⇒ |µ − µ0| > σn−1/2qt(n−1);1−α/2gilt.

1.13 Korollar. Im Modell der einfaktoriellen Varianzanalyse

Yij = µ+ αi + εij , j = 1, . . . , ni, i = 1, . . . , p,

bezeichne µ = Y•• = n−1∑p

i=1

∑nij=1 Yij, n =

∑pi=1 ni den Gesamtmittelwert.

Es gilt unter Normalverteilungsannahme εijiid∼ N(0, σ2), dass unter H0 : α1 =

. . . = αp = 0

F =

∑pi=1 ni(Yi• − Y••)2(n− p)∑p

i=1

∑nij=1(Yij − Yi•)2(p− 1)

∼ Fp−1,n−p .

Also lehnt man H0 ab falls F > qF (p−1,n−p);1−α.

Bemerkung. Es gibt sogenannte verallgemeinerte lineare Modelle (GLM:Generalized Linear Models), in denen statt der Normalverteilungsannahme eineVerteilung aus den exponentiellen Familien zugrunde gelegt wird. Ein wichtigesBeispiel ist die logistische Regression, wo Binomial-verteilte Yi ∼ Bin(ni, pi) be-obachtet werden mit der sogenannten logit-Linkfunktion log(pi/(1−pi))i=1,...,n =Xβ, so dass

Yi/ni = pi + εi =1

1 + exp(−(Xβ)i)+ εi, E[εi] = 0.

Desweiteren gibt es nicht-lineare Regressionsmodelle, z.B. im Michaelis-Menton-Modell.

10

Page 13: Mathematische Statistik Skript zur Vorlesung im ... · Mathematische Statistik Skript zur Vorlesung im Sommersemester 2016 Markus Bibinger Philipps-Universität Marburg, Fb12 Mathematik

2 Grundprinzipien statistischer Entscheidungstheorie

2.1 Formalisierung eines statistischen Problems

Als Grundlage einer Entscheidung dient die Realisierung eines Zufallsexperimen-tes, die beobachteten Daten. Das Zufallsexperiment wird durch eine Zufallsva-riableX mit Werten im Messraum (X ,F ) beschrieben. Die Verteilung vonX istunbekannt und wird zugehörig zu der Familie P = (Pϑ)ϑ∈Θ angenommen. DerParameter ϑ kann endlich- (parametrische) oder unendlich-dimensional (nicht-parametrische Statistik) sein, sowie Störparameter (nuisance) beinhalten, wel-che für die Entscheidung nicht von Bedeutung sind. Ein bereits vertrautes Bei-

spiel ist Θ = (µ, σ2) = R×R+, für (X1, . . . , Xn)iid∼ N(µ, σ2). Ebenso kann

Θ = (µ, F ), µ ∈ R,∫xF (dx) = 0 sein ohne spezielle Verteilungsannahme.

Während ein nichtparametrischer Ansatz verteilungsfrei ist, also ohne star-ke Verteilungsannahme auskommt, erlaubt die parametrische Statistik starkeAussagen über die Konstruktion und Eigenschaften von Lösungen statistischerEntscheidungsprobleme (z.B. von Schätzern). Entscheidungen sind Elemente ei-nes Aktionsraums A, z.B.A = 0, 1 bei einem Hypothesentest ohne Rando-misierung oder bei einer Klassikation (z.B. SPAM-Filter), oder A = R bei derSchätzung eines reellen Parameters.

2.1 Denition. Ein Messraum (X ,F ) versehen mit einer Familie (Pϑ)ϑ∈Θ vonWahrscheinlichkeitsmaÿen, Θ 6= ∅ beliebige Parametermenge, heiÿt statistischesExperiment oder statistisches Modell. X heiÿt Stichprobenraum. Jede (F ,S )-messbare Funktion Y : X → S mit Werten in (S,S ) heiÿt Beobachtung oderStatistik und induziert das statistische Modell (S,S , (PYϑ )ϑ∈Θ). Sind die Beob-achtungen Y1, . . . , Yn für jedes Pϑ unabhängig und identisch verteilt, so nenntman Y1, . . . , Yn eine mathematische Stichprobe.

2.2 Denition. Es sei (X ,F , (Pϑ)ϑ∈Θ) ein statistisches Experiment. EineEntscheidungsregel ist eine messbare Abbildung ρ : X → A, wobei der Mess-raum (A,A ) der sogenannte Aktionsraum ist. Jede Funktion l : Θ × A →[0,∞) =: R+, die messbar im zweiten Argument ist, heiÿt Verlustfunktion. DasRisiko einer Entscheidungsregel ρ bei Vorliegen des Parameters ϑ ∈ Θ ist

R(ϑ, ρ) := Eϑ[l(ϑ, ρ)] =

∫Xl(ϑ, ρ(x))Pϑ(dx).

2.3 Beispiele.

(a) Beim gewöhnlichen linearen Modell wähle als Parameterraum Θ =Rp×R+ mit Parametern ϑ = (β, σ) ∈ Θ. Nun wähle einen Wahrschein-lichkeitsraum (Ω,G ,P), auf dem der Zufallsvektor ε : Ω→ Rn mit E[ε] =0, E[εiεj ] = δi,j deniert ist. Versieht man den Stichprobenraum X = Rnmit seiner Borel-σ-Algebra F = BRn und setzt Yϑ = Yβ,σ = Xβ + σε, sobilden die Verteilungen (Pϑ)ϑ∈Θ der Zufallsvariablen (Yϑ)ϑ∈Θ die Familievon Wahrscheinlichkeitsmaÿen auf dem Stichprobenraum.

Um den Kleinste-Quadrate-Schätzer β als Entscheidungsregel zu interpre-tieren und seine Güte zu messen, betrachtet man den AktionsraumA = Rp

11

Page 14: Mathematische Statistik Skript zur Vorlesung im ... · Mathematische Statistik Skript zur Vorlesung im Sommersemester 2016 Markus Bibinger Philipps-Universität Marburg, Fb12 Mathematik

und beispielsweise die quadratische Verlustfunktion l(ϑ, a) = l((β, σ), a) =|β − a|2. Beim Verlust ist σ irrelevant; da aber die Verteilung Pϑ von σabhängt, spricht man von einem Störparameter.

Beachte, dass bei obiger Modellierung eine feste Verteilung von ε(z.B. Normalverteilung) angenommen wird. Ist realistischerweise auchdie Art der Verteilung unbekannt, sollte man statt (Pϑ) die Fami-lie P = P W-Maÿ auf F | EP[Y ] :=

∫y P(dy) ∈ ran(X),

∫(y −

EP[Y ])(y − EP[Y ])> P(dy) = σ2En betrachten. In dieser Betrachtungs-weise bleibt von einem unendlich-dimensionalen Parameterraum maxi-mal ein (p+ 1)-dimensionaler interessierender Parameter ϑ übrig (beachteβ = X−1(EP[Y ])).

(b) Bei einem Hypothesentest der Form H0 : ϑ ∈ Θ0 gegen die AlternativeH1 : ϑ ∈ Θ

0 ohne Randomisierung ist A = 0, 1. Als Verlustfunktionbetrachtet man üblicherweise

R(ϑ, ϕ) =

`0 ϑ ∈ Θ0, ϕ = 1,Fehler 1.Art,

`1 ϑ ∈ Θ0, ϕ = 0,Fehler 2.Art,

0 sonst .

Hierbei wird die Fehlerwahrscheinlichkeit erster Art mit `0, die zweiterArt mit `1 gewichtet mit Konstanten `0, `1 > 0.Bsp.: Für einen Test auf Wirksamkeit eines neuen Medikaments wer-den 100 Versuchspersonen mit diesem behandelt. Unter der (vereinfa-chenden) Annahme, dass alle Personen identisch und unabhängig aufdas Medikament reagieren, wird in Abhängigkeit von der Anzahl N dererfolgreichen Behandlungen entschieden, ob die Erfolgsquote höher istals diejenige einer klassischen Behandlung. Als Stichprobenraum wäh-le X = 0, 1, . . . , 100 mit der Potenzmenge als σ-Algebra und Pp =Bin(100, p), p ∈ Θ = [0, 1], als mögliche Verteilungen. Die Nullhypotheseist H0 : p 6 p0 für den unbekannten Parameter p. Als Aktionsraum dientA = 0, 1 (H0 annehmen bzw. verwerfen), und wir wählen den Verlustl(p, a) = `01p6p0, ϕ=1 + `11p>p0, ϕ=0. Dies führt auf das Risiko

R(p, ϕ) =

`0 Pp(ϕ = 1), p 6 p0

`1 Pp(ϕ = 0), p > p0

.

Gute Verfahren sollen möglichst kleines Risiko aufweisen. Da ϑ ∈ Θ ver-schiedene Werte annehmen kann, ist es möglich dass

R(ϑ1, ρ1) < R(ϑ1, ρ2), jedoch R(ϑ2, ρ1) > R(ϑ2, ρ2)

für ϑ1 6= ϑ2 verschiedene Parameter aus Θ. Da ϑ ∈ Θ unbekannt ist die Auswahleines besten Verfahrens allgemein ein schwieriges Problem. In Beispiel 2.3 (b)ist das Risiko direkt durch die Fehlerwahrscheinlichkeiten bestimmt. Man kanndie Güte des Tests Eϑ[ϕ] vergröÿern auf Kosten des Niveaus. Der einseitige Testhat bei H0 : ϑ ∈ Θ0 = ϑ0 gegen H1 : ϑ > ϑ0 eine gröÿere Güte auf ϑ >

12

Page 15: Mathematische Statistik Skript zur Vorlesung im ... · Mathematische Statistik Skript zur Vorlesung im Sommersemester 2016 Markus Bibinger Philipps-Universität Marburg, Fb12 Mathematik

ϑ0 als der zweiseitige Test, jedoch eine geringere auf ϑ < ϑ0. VerschiedeneLösungen des Konikts zwischen dem Risiko auf unterschiedlichen Teilmengenvon Θ führen zu unterschiedlichen Optimalitätsbegrien. Im folgenden Kapitelbehandeln wird die wichtigsten.

2.2 Optimale statistische Entscheidungen

2.2.1 Zulässigkeit

2.4 Denition. Die Entscheidungsregel ρ heiÿt besser als eine Entscheidungs-regel ρ′, falls R(ϑ, ρ) 6 R(ϑ, ρ′) für alle ϑ ∈ Θ gilt und falls ein ϑ0 ∈ Θ mitR(ϑ0, ρ) < R(ϑ0, ρ

′) existiert. Eine Entscheidungsregel heiÿt zulässig, wenn eskeine bessere Entscheidungsregel gibt.

Bemerkung. Häug wird für diese Denition die Menge der betrachteten Ent-scheidungsregeln eingeschränkt. So ist der Kleinste-Quadrate-Schätzer im linea-ren Modell nach dem Satz 1.4 von Gauÿ-Markov zulässig unter quadratischemVerlust in der Klasse der erwartungstreuen und linearen Schätzern.

2.5 Beispiel. Es sei Y1, . . . , Yn eine N(ϑ, 1)-verteilte mathematische Stichprobemit ϑ ∈ R. Betrachte ϑ1 = Y , ϑ2 = Y + 0.5, ϑ3 = 6 unter quadratischemVerlust l(ϑ, a) = (ϑ − a)2. Wegen R(ϑ, ϑ1) = 1/n, R(ϑ, ϑ2) = 0.25 + 1/n istϑ1 besser als ϑ2, allerdings ist weder ϑ1 besser als ϑ3 noch umgekehrt. In derTat ist ϑ3 zulässig, weil R(ϑ, ϑ3) = 0 für ϑ = 6 gilt und jeder Schätzer mitdieser Eigenschaft Lebesgue-fast überall mit ϑ3 übereinstimmt. Später werdenwir sehen, dass auch ϑ1 zulässig ist.

Wie das vorangehende Beispiel aufzeigt gibt es im Allgemeinen viele zuläs-sige Verfahren, darunter auch triviale oder unbrauchbare. Auÿerdem wird sichzeigen dass manche Standardmethoden nicht zulässig sind. Trotzdem ist dieZulässigkeit ein nützlicher Begri zur Einordnung statistischer Lösungen vonEntscheidungsproblemen.

2.2.2 Minimax-Ansatz

2.6 Denition. Eine Entscheidungsregel ρ heiÿt minimax, falls

supϑ∈Θ

R(ϑ, ρ) = infρ′

supϑ∈Θ

R(ϑ, ρ′),

wobei sich das Inmum über alle Entscheidungsregeln ρ′ erstreckt.

Nach dem Minimax-Prinzip wird also das Risiko im Worst Case Falle mini-miert (pessimistischer Standpunkt).

2.7 Beispiel. Betrachte eine Stichprobe X ∼ N(ϑ, 1) mit A = R, Θ = R unddie Klasse von Entscheidungsregeln ρk(X) = kX, k ∈ R+, mit quadratischerVerlustfunktion, so dass

R(ϑ, ρk) = E[(ϑ− kX)2

]= ϑ2(1− k)2 + k2 .

13

Page 16: Mathematische Statistik Skript zur Vorlesung im ... · Mathematische Statistik Skript zur Vorlesung im Sommersemester 2016 Markus Bibinger Philipps-Universität Marburg, Fb12 Mathematik

Abbildung 1: Risiko R(ϑ, ρk) gegen ϑ für verschiedene Werte von k in Beispiel2.7.

Für k = 1 ist R(ϑ, ρ1) = 1 konstant und ρ1 besser als ρk für alle k > 1. Alleρk, 0 6 k 6 1 sind zulässig, insbesondere ist R(0, ρ0) = 0. Vergleiche hierzuAbbildung 1. Die Entscheidungsregel ρ1 ist minimax, da

supϑ∈R

R(ϑ, ρk) =

1 , k = 1

∞ , k 6= 1.

2.2.3 Bayes-Ansatz

2.8 Denition. Der Parameterraum Θ trage die σ-Algebra FΘ, die Verlust-funktion l sei produktmessbar und ϑ 7→ Pϑ(B) sei messbar für alle B ∈ F . Diea-priori-Verteilung π des Parameters ϑ ist gegeben durch ein Wahrscheinlich-keitsmaÿ auf (Θ,FΘ) . Das zu π assoziierte Bayesrisiko einer Entscheidungsregelρ ist

Rπ(ρ) := Eπ[R(ϑ, ρ)] =

∫ΘR(ϑ, ρ)π(dϑ) =

∫Θ

∫Xl(ϑ, ρ(x)) Pϑ(dx)π(dϑ).

ρ heiÿt Bayesregel oder Bayes-optimal (bezüglich π), falls

Rπ(ρ) = infρ′Rπ(ρ′)

gilt, wobei sich das Inmum über alle Entscheidungsregeln ρ′ erstreckt.

Bemerkung. Während eine Minimaxregel den maximal zu erwartenden Ver-lust minimiert, kann das Bayesrisiko als ein (mittels π) gewichtetes Mittel derzu erwartenden Verluste angesehen werden. Alternativ wird π als die subjekti-ve Einschätzung der Verteilung des zugrundeliegenden Parameters interpretiert.

14

Page 17: Mathematische Statistik Skript zur Vorlesung im ... · Mathematische Statistik Skript zur Vorlesung im Sommersemester 2016 Markus Bibinger Philipps-Universität Marburg, Fb12 Mathematik

Daher wird das Bayesrisiko auch als insgesamt zu erwartender Verlust in fol-gendem Sinne verstanden: Deniere Ω := X ×Θ und P auf (Ω,F ⊗FΘ) gemäÿP(dx, dϑ) = Pϑ(dx)π(dϑ) (gemeinsame Verteilung von Beobachtung und Para-meter). Bezeichne mit X und ϑ die Koordinatenprojektionen von Ω auf X bzw.Θ. Dann gilt Rπ(ρ) = EP[l(ϑ, ρ(X))].

2.3 Bayes-Methoden

2.9 Denition. Es seiX eine (S,S )-wertige Zufallsvariable auf (Ω,F ,P). EineAbbildung K : S ×F → [0, 1] heiÿt reguläre bedingte Wahrscheinlichkeit oderMarkovkern bezüglich X, falls

(a) A 7→ K(x,A) ist Wahrscheinlichkeitsmaÿ für alle x ∈ S;

(b) x 7→ K(x,A) ist messbar für alle A ∈ F ;

(c) K(X,A) = P(A |X) := E[1A |X] P-f.s. für alle A ∈ F .

2.10 Satz. Es sei (Ω, d) ein vollständiger, separabler (= polnischer) Raum mitMetrik d und Borel-σ-Algebra F . Für jede Zufallsvariable X auf (Ω,F ,P) exis-tiert eine reguläre bedingte Wahrscheinlichkeit K bezüglich X. K ist P-f.s. ein-deutig bestimmt, d.h. für eine zweite solche reguläre bedingte WahrscheinlichkeitK ′ gilt P(∀A ∈ F : K(X,A) = K ′(X,A)) = 1.

Beweis. Siehe z.B. Gänssler, Stute (1977): Wahrscheinlichkeitstheorie, Springer.

2.11 Denition. Die Verteilung von ϑ unter der regulären bedingten Wahr-scheinlichkeit P(• |X = x) von P heiÿt a-posteriori-Verteilung des Parametersgegeben die Beobachtung X = x.

Aus der Wahrscheinlichkeitstheorie hat man folgenden grundlegenden Satzüber bedingte Wahrscheinlichkeiten (vgl.Witting, S. 321).

2.12 Satz. Es sei (X ,F , (Pϑ)ϑ∈Θ) ein statistisches Modell sowie π eine a-priori-Verteilung auf (Θ,FΘ), so dass Pϑ µ für alle ϑ ∈ Θ sowie π ν giltmit Maÿen µ und ν und Dichten fϑ bzw. g. Ist fϑ : X × Θ → R+ (F ⊗FΘ)-messbar, so besitzt die a-posteriori-Verteilung Pϑ |X=x des Parameters eine ν-Dichte, nämlich

fϑ |X=x(ϑ) =fϑ(x)g(ϑ)∫

Θ fϑ′(x)g(ϑ′)ν(dϑ′)(Bayes-Formel).

2.13 Beispiel. Für einen Bayestest (oder auch ein Bayes-Klassikationsproblem) setze Θ = 0, 1, A = 0, 1, l(ϑ, a) = |ϑ − a|(0-1-Verlust) und betrachte eine a-priori-Verteilung π mit π(0) =: π0,π(1) =: π1. Die Wahrscheinlichkeitsmaÿe P0,P1 auf (X ,F ) mögen dieDichten p0, p1 bezüglich einem Maÿ µ besitzen (z.B. µ = P0 +P1). Nach derBayes-Formel (mit Zählmaÿ ν) erhalten wir die a-posteriori-Verteilung

P(ϑ = i |X = x) =πipi(x)

π0p0(x) + π1p1(x), i = 0, 1 (PX -f.ü.)

15

Page 18: Mathematische Statistik Skript zur Vorlesung im ... · Mathematische Statistik Skript zur Vorlesung im Sommersemester 2016 Markus Bibinger Philipps-Universität Marburg, Fb12 Mathematik

2.14 Satz. Eine Regel ρ ist Bayes-optimal, falls gilt

ρ(X) = argmina∈A EP[l(ϑ, a) |X] P-f.s.,

d.h. EP[l(ϑ, ρ(x)) |X = x] 6 EP[l(ϑ, a) |X = x] für alle a ∈ A und PX-fast allex ∈ X .

Beweis. Für eine beliebige Entscheidungsregel ρ′ gilt

Rπ(ρ′) = EP[EP[l(ϑ, ρ′(X)) |X]] > EP[EP[l(ϑ, ρ(X)) |X]] = Rπ(ρ).

2.15 Korollar. Für Θ ⊆ R, A = R und quadratisches Risiko (d.h. l(ϑ, a) =(a − ϑ)2) ist die bedingte Erwartung ϑπ := EP[ϑ |X] Bayes-optimaler Schät-zer von ϑ bezüglich der a-priori-Verteilung π. Für den Absolutbetrag l(ϑ, a) =|ϑ − a| hingegen ist jeder a-posteriori-Median ϑπ, d.h. P(ϑ 6 ϑπ |X) > 1/2und P(ϑ > ϑπ |X) > 1/2, Bayes-optimaler Schätzer (Annahme: a-posteriori-Verteilung existiert).

Beweis. Dies folgt aus der L2-Projektionseigenschaft der bedingten Erwartungbzw. der L1-Minimierung des Medians.

2.16 Beispiel. (Fortsetzung) Nach Satz 2.14 nden wir einen Bayestest ϕ(x)als Minimalstelle von

a 7→ EP[l(ϑ, a) |X = x] =π0p0(x)

π0p0(x) + π1p1(x)a+

π1p1(x)

π0p0(x) + π1p1(x)(1− a).

Daher ist ein Bayestest (Bayesklassizierer) gegeben durch

ϕ(x) =

0, π0p0(x) > π1p1(x)

1, π1p1(x) > π0p0(x)

beliebig, π0p0(x) = π1p1(x)

und wir entscheiden uns für dasjenige ϑ ∈ 0, 1, dessen a-posteriori-Wahrscheinlichkeit am gröÿten ist (MAP-estimator: maximum a posteriori esti-mator). Für später sei bereits auf die Neyman-Pearson-Struktur von ϕ in Ab-hängigkeit von p1(x)/p0(x) hingewiesen.

2.17 Satz. Es liege die Situation aus der vorangegangenen Denition vor.

(a) Für jede Entscheidungsregel ρ gilt

supϑ∈Θ

R(ϑ, ρ) = supπRπ(ρ),

wobei sich das zweite Supremum über alle a-priori-Verteilungen π er-streckt. Insbesondere ist das Risiko einer Bayesregel stets kleiner odergleich dem Minimaxrisiko.

(b) Für eine Minimaxregel ρ gilt supπ Rπ(ρ) = infρ′ supπ Rπ(ρ′).

16

Page 19: Mathematische Statistik Skript zur Vorlesung im ... · Mathematische Statistik Skript zur Vorlesung im Sommersemester 2016 Markus Bibinger Philipps-Universität Marburg, Fb12 Mathematik

Beweis.

(a) Natürlich gilt Rπ(ρ) =∫

ΘR(ϑ, ρ)π(dϑ) 6 supϑ∈ΘR(ϑ, ρ). Durch Betrach-tung der a-priori-Verteilungen δϑ folgt daher die Behauptung.

(b) Nach (a) muss supϑ∈ΘR(ϑ, ρ) = infρ′ supϑ∈ΘR(ϑ, ρ′) gezeigt werden, wasgerade die Minimaxeigenschaft ist.

Bemerkung. Man kann diesen Satz insbesondere dazu verwenden, untereSchranken für das Minimax-Risiko durch das Risiko von Bayesschätzern ab-zuschätzen.

2.18 Satz. Für jede Entscheidungsregel ρ gilt:

(a) Ist ρ minimax und eindeutig in dem Sinn, dass jede andere Minimax-Regeldie gleiche Risikofunktion besitzt, so ist ρ zulässig.

(b) Ist ρ zulässig mit konstanter Risikofunktion, so ist ρ minimax.

(c) Ist ρ eine Bayesregel (bzgl. π) und eindeutig in dem Sinn, dass jede andereBayesregel (bzgl. π) die gleiche Risikofunktion besitzt, so ist ρ zulässig.

(d) Die Parametermenge Θ bilde einen metrischen Raum mit Borel-σ-AlgebraFΘ. Ist ρ eine Bayesregel (bzgl. π), so ist ρ zulässig, falls (i) Rπ(ρ) <∞;(ii) für jede nichtleere oene Menge U in Θ gilt π(U) > 0; (iii) für jedeRegel ρ′ mit Rπ(ρ′) 6 Rπ(ρ) ist ϑ 7→ R(ϑ, ρ′) stetig.

Beweis. Der Beweis erfolgt als Übungsaufgabe.

2.19 Satz. Es sei X1, . . . , Xn eine N(µ,Ed)-verteilte d-dimensionale mathema-tische Stichprobe mit µ ∈ Rd unbekannt. Bezüglich quadratischem Risiko ist dasarithmetische Mittel X = 1

n

∑ni=1Xi minimax als Schätzer von µ.

Beweis. Betrachte die a-priori-Verteilung π = N(0, σ2Ed) für µ. Dann gilt mitη1, . . . , ηn ∼ N(0, Ed) i.i.d., unabhängig von µ, die Darstellung Xi = µ+ ηi, i =1, . . . , n. Als lineare Abbildung von (µ, η1, . . . , ηn) ist (µ,X1, . . . , Xn) gemeinsamnormalverteilt und die bedingte Erwartung ist linear-an: EP[µj |X1, . . . , Xn] =∑n

i=1 α>ijXi+βj , j = 1, . . . , d. Aus Symmetrie- und Unabhängigkeitsgründen gilt

αij = αej = (0, . . . , 0, α, 0, . . . , 0)> für ein festes α ∈ R, und E[µj ] = 0 impliziertβj = 0. Damit liefert die Orthogonalität E[Xi,j(µj−α

∑nl=1Xl,j)] = 0 den Wert

α = 1n+σ−2 . Der Bayes-optimale Schätzer ist daher µσ,n = n

n+σ−2X (vektorwer-

tige bedingte Erwartung), seine Risikofunktion ist R(µ, µσ,n) = nd+|µ|2σ−4

(n+σ−2)2 .

17

Page 20: Mathematische Statistik Skript zur Vorlesung im ... · Mathematische Statistik Skript zur Vorlesung im Sommersemester 2016 Markus Bibinger Philipps-Universität Marburg, Fb12 Mathematik

Somit können wir das Minimax-Risiko von unten abschätzen:

infρ

supµR(µ, ρ) = inf

ρsupπRπ(ρ)

> infρ

supσ>0

RN(0,σ2Ed)(ρ)

> supσ>0

infρRN(0,σ2Ed)(ρ)

= supσ>0

EP

[nd+ |µ|2σ−4

(n+ σ−2)2

]= sup

σ>0

nd+ dσ−2

(n+ σ−2)2=d

n,

wie behauptet, da R(µ, X) = dn .

2.20 Satz. Es sei X1, . . . , Xn eine N(µ, 1)-verteilte eindimensionale mathema-tische Stichprobe mit µ ∈ R unbekannt. Bezüglich quadratischem Risiko ist dasarithmetische Mittel X = 1

n

∑ni=1Xi zulässig als Schätzer von µ.

Beweis. Gäbe es einen Schätzer µ mit R(µ, µ) 6 1n und R(µ0, µ) < 1

n fürein µ0 ∈ R, so wäre wegen Stetigkeit der Risikofunktion µ 7→ R(µ, µ) sogarR(µ, µ) 6 1

n − ε für alle |µ − µ0| < δ mit ε, δ > 0 geeignet. Damit hätte µ

ein Bayesrisiko RN(0,σ2)(µ) 6 1n − ε

∫ µ0+δµ0−δ ϕ0,σ2 . Also wäre 1

n − RN(0,σ2) grö-

ÿer als ein Vielfaches von σ−1 für σ → ∞, während für den Bayesschätzer1n −Rσ(µσ,n) = σ−2

n(n+σ−2)(s.o.) von der Ordnung σ−2 ist. Dies widerspricht der

Optimalität des Bayesschätzers bei einer hinreichend groÿen Wahl von σ. Alsoist X zulässig.

Bemerkung. Liegt eine andere Verteilung mit Erwartungswert µ und Varianzeins vor als die Normalverteilung, so ist X weder zulässig noch minimax (sofernn > 3), vergleiche Lehmann/Casella, Seite 153. Für d = 2 ist X weiterhinzulässig unter Normalverteilungsannahme, allerdings gilt das für d > 3 nichtmehr: Stein-Phänomen s.u.

2.21 Denition. Eine Verteilung π auf (Θ,FΘ) heiÿt ungünstigstea-priori-Verteilung zu einer gegebenen Verlustfunktion, falls

infρRπ(ρ) = sup

π′infρRπ′(ρ).

2.22 Satz. Es sei eine a-priori-Verteilung π mit zugehöriger Bayesregel ρπ gege-ben. Dann ist die Eigenschaft Rπ(ρπ) = supϑ∈ΘR(ϑ, ρπ) äquivalent zu folgenderSattelpunktseigenschaft

∀π′ ∀ρ′ : Rπ′(ρπ) 6 Rπ(ρπ) 6 Rπ(ρ′).

Aus jeder dieser Eigenschaften folgt, dass ρπ minimax und π ungünstigste a-priori-Verteilung ist.

18

Page 21: Mathematische Statistik Skript zur Vorlesung im ... · Mathematische Statistik Skript zur Vorlesung im Sommersemester 2016 Markus Bibinger Philipps-Universität Marburg, Fb12 Mathematik

Beweis. Wegen supϑR(ϑ, ρπ) = supπ′ Rπ′(ρπ) folgt aus der Sattelpunktseigen-schaft Rπ(ρπ) > supϑR(ϑ, ρπ). Da aus dem gleichen Grund stets `6' folgt, giltsogar Rπ(ρπ) = supϑR(ϑ, ρπ).

Andererseits bedeutet die Eigenschaft von ρπ, Bayesschätzer zu sein, geradedass Rπ(ρπ) 6 Rπ(ρ′) für alle ρ′ gilt. Mit Rπ(ρπ) = supϑ∈ΘR(ϑ, ρπ) schlieÿenwir dann auch

Rπ′(ρπ) =

∫ΘR(ϑ, ρπ)π′(dϑ) 6

∫ΘRπ(ρπ)π′(dϑ) = Rπ(ρπ).

Aus der Sattelpunktseigenschaft folgt direkt die Minimaxeigenschaft:

supϑR(ϑ, ρπ) = sup

π′Rπ′(ρπ) = inf

ρ′Rπ(ρ′) 6 inf

ρ′supϑR(ϑ, ρ′).

Analog erhalten wir infρ′ Rπ(ρ′) = supπ′ Rπ′(ρπ) > supπ′ infρRπ′(ρ), so dass πungünstigste a-priori-Verteilung ist.

2.23 Beispiel. Es werde X ∼ Bin(n, p) mit n > 1 bekannt und p ∈ [0, 1]unbekannt beobachtet. Gesucht wird ein Bayesschätzer pa,b von p unter qua-dratischem Risiko für die a-priori-Verteilung p ∼ B(a, b), wobei B(a, b) dieBeta-Verteilung mit Parametern a, b > 0 auf [0, 1] bezeichnet. Die a-posteriori-Verteilung berechnet sich zu p ∼ B(a + X, b + n − X) und der Bayesschätzer

als pa,b = a+Xa+b+n . Als Risiko ergibt sich Ep[(pa,b − p)2] = (a−ap−bp)2+np(1−p)

(a+b+n)2 . Im

Fall a∗ = b∗ =√n/2 erhält man das Risiko (2

√n+ 2)−2 für pa∗,b∗ = X+

√n/2

n+√n

=

Xn −

X−n2

n(√n+1)

(unabhängig von p), woraus die Sattelpunktseigenschaft folgt:

∀π ∀p : Rπ(pa∗,b∗) 6 RB(a∗,b∗)(pa∗,b∗) 6 RB(a∗,b∗)(p).

Damit ist B(a∗, b∗) ungünstigste a-priori-Verteilung und pa∗,b∗ Minimax-Schätzer von p. Insbesondere ist der natürliche Schätzer p = X/n mit Ep[(p −p)2] = p(1− p)/n nicht minimax (er ist jedoch zulässig).

Bemerkung. Erhalten wir bei Wahl einer Klasse von a-priori-Verteilungen fürein statistisches Modell dieselbe Klasse (i.A. mit anderen Parametern) als a-posteriori-Verteilungen zurück, so nennt man die entsprechenden Verteilungs-klassen konjugiert. An den Beispielen sehen wir, dass die Beta-Verteilungen zurBinomialverteilung konjugiert sind und die Normalverteilungen zu den Normal-verteilungen (genauer müsste man spezizieren, dass für unbekannten Mittelwertin der Normalverteilung a-priori-Normalverteilungen konjugiert sind). Konju-gierte Verteilungen sind die Ausnahme, nicht die Regel, und für komplexereModelle werden häug computer-intensive Methoden wie MCMC (Markov ChainMonte Carlo) verwendet, um die a-posteriori-Verteilung zu berechnen (Problem:i.A. hochdimensionale Integration).

19

Page 22: Mathematische Statistik Skript zur Vorlesung im ... · Mathematische Statistik Skript zur Vorlesung im Sommersemester 2016 Markus Bibinger Philipps-Universität Marburg, Fb12 Mathematik

2.4 Das Stein-Phänomen

Wir betrachten folgendes grundlegendes Problem: Anhand einer mathemati-schen Stichprobe X1, . . . , Xn ∼ N(µ,Ed) im Rd soll µ ∈ Rd möglichst gutbezüglich quadratischem Verlust l(µ, µ) = |µ − µ|2 geschätzt werden. Intuitivwegen Unabhängigkeit der Koordinaten ist das (koordinatenweise) arithmeti-sche Mittel X. Ein anderer, sogenannter empirischer Bayesansatz, beruht aufder Familie der a-priori-Verteilungen µ ∼ N(0, σ2Ed). In den zugehörigen Bayes-schätzern setzen wir dann allerdings statt σ2 die Schätzung

σ2 =|X|2

d− 1

n(erwartungstreu wegen Xi ∼ N(0, (σ2 + 1)Ed))

ein und erhalten

µ =n

n+ σ−2X =

(1− d

n|X|2)X.

Der Ansatz lässt vermuten, dass µ kleineres Risiko hat als X, wann immer |µ|klein ist. Überraschenderweise gilt für Dimension d > 3 sogar, dass µ besser istals X. Das folgende Steinsche Lemma ist der Schlüssel für den Beweis.

2.24 Lemma (Stein). Es sei f : Rd → R eine Funktion, die Lebesgue-f.ü.absolut stetig in jeder Koordinate ist. Dann gilt für Y ∼ N(µ, σ2Ed) mit µ ∈ Rd,σ > 0,

E[(µ− Y )f(Y )] = −σ2 E[∇f(Y )],

sofern E[| ∂f∂yi (Y )|] <∞ für alle i = 1, . . . , d gilt.

Beweis. Ohne Einschränkung der Allgemeinheit betrachte die Koordinate i = 1sowie µ = 0, σ = 1; sonst setze f(y) = f(σy + µ). Es genügt dann,

E[Y1f(Y ) |Y2 = y2, . . . , Yd = yd] = E[ ∂f∂y1(Y ) |Y2 = y2, . . . , Yd = yd]

zu zeigen für Lebesgue-fast alle y2, . . . , yd ∈ R, was wegen Unabhängig-keit gerade für fy(u) := f(u, y2, . . . , yd) die Identität

∫ufy(u)e−u

2/2du =∫f ′y(u)e−u

2/2du ist. Dies folgt durch partielle Integration, sofern die Randter-me verschwinden; ein geschickter Einsatz des Satzes von Fubini zeigt dies jedochohne weitere Voraussetzungen:∫ ∞−∞

f ′y(u)e−u2/2du =

∫ ∞0

f ′y(u)

∫ ∞u

ze−z2/2dzdu−

∫ 0

−∞f ′y(u)

∫ u

−∞ze−z

2/2dzdu

=

∫ ∞0

(∫ z

0f ′y

)ze−z

2/2dz −∫ 0

−∞

(∫ 0

zf ′y

)ze−z

2/2dz

=

∫ ∞−∞

ze−z2/2(fy(z)− fy(0)) dz

=

∫ ∞−∞

fy(z)ze−z2/2dz.

20

Page 23: Mathematische Statistik Skript zur Vorlesung im ... · Mathematische Statistik Skript zur Vorlesung im Sommersemester 2016 Markus Bibinger Philipps-Universität Marburg, Fb12 Mathematik

Betrachten wir nun allgemeine Schätzer der Form µ = g(X)X, so gilt

Eµ[|µ− µ|2] = Eµ[|X − µ|2 + |X − µ|2 − 2〈X − µ, X − µ〉

]=d

n+ Eµ[|(1− g(X))X|2]− 2Eµ[〈X − µ, (1− g(X))X〉].

Kann man nun auf f(x) = (1 − g(x))x : Rd → Rd das Steinsche Lemma koor-dinatenweise anwenden, so erhalten wir einen Ausdruck W (X) unabhängig vonµ:

Eµ[|µ− µ|2] =d

n+ Eµ[W (X)], W (x) := |f(x)|2 − 2

n

d∑i=1

∂fi(x)

∂xi.

Für f(x) = cx |x|−2, c > 0 eine Konstante, ist das Steinsche Lemma anwendbar.Wir erhalten

div f(x) =

d∑i=1

∂fi(x)

∂xi= c

d∑i=1

|x|2 − 2x2i

|x|4= c(d− 2)|x|−2

und

W (x) =c2

|x|2− 2c(d− 2)

n|x|2< 0 falls c ∈ (0, 2(d− 2)n−1), d > 3.

Der minimale Wert W (x) = −(d− 2)2/(n2|x|2) wird für c = (d− 2)/n erreicht,und wir haben folgendes bemerkenswertes Resultat bewiesen.

2.25 Satz. Es sei d > 3 und X1, . . . , Xn eine N(µ,Ed)-verteilte mathematischeStichprobe mit µ ∈ Rd unbekannt. Dann gilt für den James-Stein-Schätzer

µJS :=(

1− d− 2

n|X|2)X

mit X := 1n

∑ni=1Xi, dass

Eµ[|µJS − µ|2] =d

n− Eµ

[(d− 2)2

n2|X|2]<d

n= Eµ[|X − µ|2].

Insbesondere ist X bei quadratischem Risiko kein zulässiger Schätzer von µ imFall d > 3.

2.26 Bemerkungen.

(a) Die Abbildung µ 7→ Eµ[|X|−2] ist monoton fallend in |µ| und erfülltE0[|X|−2] = n/(d − 2), E0[|µJS − µ|2] = 2/n. Daher ist µJS nur fürµ nahe 0, groÿe Dimensionen d und kleine Stichprobenumfänge n einebedeutende Verbesserung von X. Der James-Stein-Schätzer heiÿt auchShrinkage-Schätzer, weil er die Beobachtungen zur Null hinzieht (wobeiauch jeder andere Wert möglich wäre). In aktuellen hochdimensionalenProblemen wie der Schätzung von Kovarianzmatrizen von groÿen Portfo-lios ndet diese Idee breite Anwendung.

21

Page 24: Mathematische Statistik Skript zur Vorlesung im ... · Mathematische Statistik Skript zur Vorlesung im Sommersemester 2016 Markus Bibinger Philipps-Universität Marburg, Fb12 Mathematik

(b) Die k-te Koordinate µJS,k des James-Stein-Schätzers verwendet zur Schät-zung von µk auch die anderen Koordinaten Xi,l, l 6= k, obwohl diese un-abhängig von Xi,k sind. Eine Erklärung für diese zunächst paradoxe Si-tuation ist, dass zwar

∑dk=1 Eµ[(µJS,k − µk)

2] <∑d

k=1 Eµ[(Xk − µk)2]

gilt, jedoch im Allgemeinen eine Koordinate k0 existieren wird mitEµ[(µJS,k0 − µk0)2] > Eµ[(Xk0 − µk0)2]. Man beachte auch, dass der sto-chastische Fehler (die Varianz) von X linear mit der Dimension d wächst,so dass es sich auszahlt, diesen Fehler auf Kosten einer Verzerrung (Bias)zu verringern.

(c) Selbst der James-Stein-Schätzer (sogar mit positivem Gewicht, s.u.) istunzulässig. Die Konstruktion eines zulässigen Minimax-Schätzers ist sehrschwierig (gelöst für d > 6, vgl. Lehmann/Casella, S. 358).

2.27 Satz. Es sei d > 3 und X1, . . . , Xn eine N(µ,Ed)-verteilte mathemati-sche Stichprobe mit µ ∈ Rd unbekannt. Dann ist der James-Stein-Schätzer mitpositivem Gewicht

µJS+ :=(

1− d− 2

n|X|2)

+X, a+ := max(a, 0),

bei quadratischem Risiko besser als der James-Stein-Schätzer µJS.

2.5 Ergänzungen

2.28 Denition. Zu vorgegebener Verlustfunktion l heiÿt eine Entscheidungs-regel ρ unverzerrt, falls

∀ϑ, ϑ′ ∈ Θ : Eϑ[l(ϑ′, ρ)] > Eϑ[l(ϑ, ρ)] =: R(ϑ, ρ).

2.29 Lemma. Es seien g : Θ → A ⊆ R und l(ϑ, ρ) = (ρ − g(ϑ))2 der qua-dratische Verlust. Dann ist eine Entscheidungsregel (ein Schätzer von g(ϑ))g : X → A mit Eϑ[g2] < ∞ und Eϑ[g] ∈ g(Θ) für alle ϑ ∈ Θ genau dannunverzerrt, wenn sie erwartungstreu ist, d.h. Eϑ[g] = g(ϑ) für alle ϑ ∈ Θ gilt.

2.30 Lemma. Es sei Θ = Θ0∪Θ1, A = [0, 1]. Für den Verlust l(ϑ, a) =l0a1Θ0(ϑ) + l1(1 − a)1Θ1(ϑ) ist eine Entscheidungsregel ρ (ein randomisierterTest von H0 : ϑ ∈ Θ0 gegen H1 : ϑ ∈ Θ1) genau dann unverzerrt, wenn sie zumNiveau α := l1/(l0 + l1) unverfälscht ist, d.h.

∀ϑ ∈ Θ0 : Eϑ[ρ] 6 α, ∀ϑ ∈ Θ1 : Eϑ[ρ] > α.

Der Beweis bleibt als Übungsaufgabe.

2.31 Denition. Ein Entscheidungskern oder randomisierteEntscheidungsregel ρ : X × A → [0, 1] ist ein Markovkern auf dem Akti-onsraum (A,A ) mit der Interpretation, dass bei Vorliegen der Beobachtungx gemäÿ ρ(x, •) eine Entscheidung zufällig ausgewählt wird. Das zugehörigeRisiko ist

R(ϑ, ρ) := Eϑ[ ∫A

l(ϑ, a) ρ(da)]

=

∫X

∫A

l(ϑ, a)ρ(x, da)Pϑ(dx).

22

Page 25: Mathematische Statistik Skript zur Vorlesung im ... · Mathematische Statistik Skript zur Vorlesung im Sommersemester 2016 Markus Bibinger Philipps-Universität Marburg, Fb12 Mathematik

2.32 Beispiel. Es sei Θ = Θ0∪Θ1, A = [0, 1] und der Verlust l(ϑ, a) =l0a1Θ0(ϑ) + l1(1−a)1Θ1(ϑ) vorgegeben. In diesem Rahmen kann eine Entschei-dungsregel ρ als randomisierter Test (oder Entscheidungskern) ρ′ von H0 : ϑ ∈Θ0 gegen H1 : ϑ ∈ Θ1 aufgefasst werden. Dazu setze A′ := 0, 1, FA′ := P(A′),benutze den gleichen Verlust l (eingeschränkt auf A′) und deniere die bedingtenWahrscheinlichkeiten ρ′(x, 1) := ρ(x), ρ′(x, 0) := 1−ρ′(x, 1). Dies bedeu-tet also, dass ρ(x) die Wahrscheinlichkeit angibt, mit der bei der Beobachtungx die Hypothese abgelehnt wird.

3 Suzienz und Vollständigkeit

3.1 Dominierte Modelle

3.1 Denition. Ein statistisches Modell (X ,F , (Pϑ)ϑ∈Θ) heiÿt dominiert (vonµ), falls es ein σ-endliches Maÿ µ auf F gibt, so dass Pϑ absolutstetig bezüglichµ ist (Pϑ µ) für alle ϑ ∈ Θ. Die durch ϑ parametrisierte Radon-Nikodym-Dichte

L(ϑ, x) :=dPϑdµ

(x), ϑ ∈ Θ, x ∈ X ,

heiÿt auch Likelihoodfunktion, wobei diese meist als durch x parametrisierteFunktion in ϑ aufgefasst wird.

3.2 Beispiele.

(a) X = R, F = BR, Pϑ ist gegeben durch eine Lebesguedichte fϑ, beispiels-weise P(µ,σ) = N(µ, σ2) oder Pϑ = U([0, ϑ]).

(b) Jedes statistische Modell auf dem Stichprobenraum (N,P(N)) oder allge-meiner auf einem abzählbaren Raum (X ,P(X )) ist vom Zählmaÿ domi-niert.

(c) Ist Θ = ϑ1, ϑ2, . . . abzählbar, so ist µ =∑

i ci Pϑi mit ci > 0,∑

i ci = 1ein dominierendes Maÿ.

(d) X = R, F = BR, Pϑ = δϑ für ϑ ∈ Θ = R (δϑ ist Punktmaÿ in ϑ) istnicht dominiert. Ein dominierendes Maÿ µ müsste nämlich µ(ϑ) > 0für alle ϑ ∈ Θ und damit µ(A) =∞ für jede überabzählbare BorelmengeA ⊆ R erfüllen (sonst folgte aus |x ∈ A |µ(x) > 1/n| 6 nµ(A) < ∞,dass A =

⋃n>1x ∈ A |µ(x) > 1/n abzählbar ist). Damit kann µ nicht

σ-endlich sein.

3.3 Satz. Es sei (X ,F , (Pϑ)ϑ∈Θ) ein dominiertes Modell. Dann gibt es einWahrscheinlichkeitsmaÿ Q der Form Q =

∑∞i=1 ci Pϑi mit ci > 0,

∑i ci = 1,

ϑi ∈ Θ, so dass Pϑ Q für alle ϑ ∈ Θ gilt.

Ein solches Wahrscheinlichkeitsmaÿ Q heiÿt auch privilegiertesdominierendes Maÿ.

23

Page 26: Mathematische Statistik Skript zur Vorlesung im ... · Mathematische Statistik Skript zur Vorlesung im Sommersemester 2016 Markus Bibinger Philipps-Universität Marburg, Fb12 Mathematik

Beweis. Sei zunächst das dominierende Maÿ µ endlich sowie

P0 :=∑

i

ci Pϑi∣∣∣ϑi ∈ Θ, ci > 0,

∑i

ci = 1(konvexe Hülle von (Pϑ)),

A :=A ∈ F

∣∣∣∃P ∈ P0 : P(A) > 0 unddPdµ

> 0 µ-f.ü. auf A.

Wähle nun eine Folge (An) in A mit µ(An)→ supA∈A µ(A) <∞. Setze A∞ :=⋃nAn und bezeichne Pn ein Element in P0 mit Pn(An) > 0, dPndµ > 0 µ-f.ü. auf

An. Für beliebige cn > 0 mit∑

n cn = 1 setze Q :=∑

n cn Pn ∈ P0.

Aus der Wahl von Pn folgt dQdµ > cn

dPndµ > 0 µ-f.ü. auf An und somit dQ

dµ > 0µ-f.ü. auf A∞ und Q(A∞) > 0, so dass A∞ ebenfalls in A liegt.

Zeige: P Q für alle P ∈ P0. Sonst gilt P(A) > 0 und Q(A) = 0 für ein Pund ein A ∈ F . Dies impliziert Q(A∩A∞) = 0⇒ µ(A∩A∞) = 0 (da dQ

dµ > 0 auf

A∞) und weiter P(A∩A∞) = 0 (da P µ). Für B := dPdµ > 0 gilt P(B) = 1,

und wir erhalten P(A) = P(A∩AC∞∩B) > 0. Aus P µ folgt µ(A∩AC∞∩B) > 0und somit µ(A∞∪(A ∩ AC∞ ∩B)) > µ(A∞). Nun ist aber (P+Q)/2 ∈ P0 sowied(P+Q)

2dµ > 0 µ-f.ü. auf A∞∪(A ∩ AC∞ ∩ B), was A∞∪(A ∩ AC∞ ∩ B) ∈ A zeigt.Dies widerspricht aber der Eigenschaft µ(A∞) = supA∈A µ(A).

Ist µ σ-endlich, so zerlege X :=⋃m>1Xm mit µ(Xm) <∞, deniere das Maÿ

Qm wie oben Q, wobei im Fall Pϑ(Xm) = 0 für alle ϑ ∈ Θ einfach Qm = Pϑ fürein beliebiges ϑ ∈ Θ gesetzt wird. Dann leistet

∑m>1 2−mQm das Gewünschte.

3.2 Exponentialfamilien

3.4 Denition. Es sei (X ,F , (Pϑ)ϑ∈Θ) ein von µ dominiertes Modell. Dannheiÿt (Pϑ)ϑ∈Θ Exponentialfamilie (in η(ϑ) und T ), wenn k ∈ N, η : Θ → Rk,C : Θ→ R+, T : X → Rk messbar und h : X → R+ messbar existieren, so dass

dPϑdµ

(x) = C(ϑ)h(x) exp(〈η(ϑ), T (x)〉Rk), x ∈ X , ϑ ∈ Θ.

T wird natürliche suziente Statistik von (Pϑ)ϑ∈Θ genannt. Sind η1, . . . , ηk li-near unabhängige Funktionen und gilt für alle ϑ ∈ Θ die Implikation

λ0 + λ1T1 + · · ·+ λkTk = 0 Pϑ -f.s.⇒ λ0 = λ1 = · · · = λk = 0

(1, T1, . . . , Tk sind Pϑ-f.s. linear unabhängig), so heiÿt die Exponentialfamilie(strikt) k-parametrisch.

Bemerkungen.

(a) C(ϑ) ist nur Normierungskonstante: C(ϑ) = (∫h(x)e〈η(ϑ),T (x)〉µ(dx))−1.

(b) Die Darstellung ist nicht eindeutig, mit einer invertierbaren Matrix A ∈Rk×k erhält man beispielsweise eine Exponentialfamilie in η(ϑ) = Aη(ϑ)und T (x) = (A>)−1T (x). Auÿerdem kann die Funktion h in das dominie-rende Maÿ absorbiert werden: µ(dx) := h(x)µ(dx).

24

Page 27: Mathematische Statistik Skript zur Vorlesung im ... · Mathematische Statistik Skript zur Vorlesung im Sommersemester 2016 Markus Bibinger Philipps-Universität Marburg, Fb12 Mathematik

(c) Aus der Identizierbarkeitsforderung Pϑ 6= Pϑ′ für alle ϑ 6= ϑ′ folgt dieInjektivität von η. Andererseits impliziert die Injektivität von η bei einerk-parametrischen Exponentialfamilie die Identizierbarkeitsforderung.

3.5 Denition. Bildet (Pϑ)ϑ∈Θ eine Exponentialfamilie (mit obiger Notation),so heiÿt

Z :=u ∈ Rk

∣∣∣ ∫Xe〈u,T (x)〉h(x)µ(dx) ∈ (0,∞)

ihr natürlicher Parameterraum. Die entsprechend mit u ∈ Z parametrisierteFamilie wird natürliche Exponentialfamilie in T genannt.

3.6 Beispiele.

(a) (N(µ, σ2))µ∈R,σ>0 ist zweiparametrische Exponentialfamilie in η(µ, σ) =(µ/σ2, 1/(2σ2))> und T (x) = (x,−x2)> unter dem Lebesguemaÿ als do-minierendem Maÿ. Jedes u der Form u = (µ/σ2, 1/(2σ2))> ist natür-licher Parameter, und der natürliche Parameterraum ist gegeben durchZ = R×(0,∞). Ist σ > 0 bekannt, so liegt eine einparametrische Expo-nentialfamilie in η(µ) = µ/σ2 und T (x) = x vor.

(b) (Bin(n, p))p∈(0,1) bildet eine Exponentialfamilie in η(p) = log(p/(1 − p))(auch logit-Funktion genannt) und T (x) = x bezüglich dem Zählmaÿ µauf 0, 1, . . . , n. Der natürliche Parameterraum ist R. Beachte, dass fürden Parameterbereich p = [0, 1] keine Exponentialfamilie vorliegt.

3.7 Lemma. Bildet (Pϑ)ϑ∈Θ eine (k-parametrische) Exponentialfamilie in η(ϑ)und T (x), so bilden auch die Produktmaÿe (P⊗nϑ )ϑ∈Θ eine (k-parametrische)Exponentialfamilie in η(ϑ) und

∑ni=1 T (xi) mit

dP⊗nϑdµ⊗n

(x) = C(ϑ)n( n∏i=1

h(xi))

exp(〈η(ϑ),∑n

i=1 T (xi)〉Rk), x ∈ X n, ϑ ∈ Θ.

Beweis. Dies folgt sofort aus der ProduktformeldP⊗nϑdµ⊗n (x) =

∏ni=1

dPϑdµ (xi).

3.8 Satz. Es sei (Pϑ)ϑ∈Z eine Exponentialfamilie mit natürlichem Parameter-raum Z ⊆ Rk und Darstellung

dPϑdµ

(x) = C(ϑ)h(x) exp(〈ϑ, T (x)〉) = h(x) exp(〈ϑ, T (x)〉 −A(ϑ)),

wobei A(ϑ) = log( ∫

h(x) exp(〈ϑ, T (x)〉)µ(dx)). Ist ϑ ein innerer Punkt von Z ,

so ist die erzeugende Funktion ψϑ(s) = Eϑ[e〈T,s〉] in einer Umgebung der Nullwohldeniert und beliebig oft dierenzierbar. Es gilt ψϑ(s) = exp(A(ϑ + s) −A(ϑ)) für alle s mit ϑ+ s ∈ Z .

Für i, j = 1, . . . , k folgt Eϑ[Ti] = dAdϑi

(ϑ) und Covϑ(Ti, Tj) = d2Adϑidϑj

(ϑ).

25

Page 28: Mathematische Statistik Skript zur Vorlesung im ... · Mathematische Statistik Skript zur Vorlesung im Sommersemester 2016 Markus Bibinger Philipps-Universität Marburg, Fb12 Mathematik

Beweis. Man setze µ(dx) = h(x)µ(dx). Die Aussage folgt mit∫exp

(〈T, s〉

)exp

(〈ϑ, T 〉 −A(ϑ)

)µ(dx)

=

∫exp

(〈T, s+ ϑ〉+A(ϑ+ s)−A(ϑ+ s)−A(ϑ)

)µ(dx)

= exp(A(ϑ+ s)−A(ϑ)

) ∫exp

(〈T, s+ ϑ〉 −A(ϑ+ s)

)µ(dx)︸ ︷︷ ︸

=1

.

3.9 Beispiele. (a) X ∼ N(µ, 1): A(µ) = µ2/2⇒ E[X] = µ,Var(X) = 1.

(b) X ∼ Bin(n, p), p ∈ (0, 1) unbekannt. Mit(n

k

)pk(1− p)n−k =

(n

k

)exp

(k log p

1−p + n log (1− p))

folgt für η(p) = log p1−p , dass A(p) = n log (1 + exp (η)) und hieraus

E[X] = nexp (η)

exp (η) + 1= np , Var(X) = n

exp (η)

(exp (η) + 1)2= np(1− p) .

3.3 Suzienz

Es sei X1, . . . , Xn eine gemäÿ der Lebesguedichte fϑ : R → R+ verteilte ma-thematische Stichprobe. Bei i.i.d. Beobachtungen (wie für unser einführendesBeispiel der Messungen der Lichtgeschwindigkeit) scheint die Reihenfolge derBeobachtungen irrelevant. Im Allgemeinen wird durch nichtumkehrbare Abbil-dungen T : X → Y Information (über Parameter) verloren gehen. Manchmalenthält hingegen T (X1, . . . , Xn) gleich viel Information wie die ursprünglicheBeobachtung (kein Informationsverlust). Solche Statistiken nennt man suzientoder erschöpfend/ausschöpfend. Liefern die Statistiken X oder max(X1, . . . , Xn)im Allgemeinen Information über Pϑ und damit ϑ, sind 1(X3 < X7) oder1(X1 = max(X1, . . . , Xn)) hingegen Statistiken, deren Verteilung nicht vonPϑ abhängt (sofern die i.i.d.-Annahme gültig ist) und somit keinerlei Informa-tionen über ϑ beinhalten (sogenannte ancillary statistics). Intuitiv ist dagegenalle Information bereits in der Ordnungsstatistik X(1), . . . , X(n) enthalten mitX(1) = minX1, . . . , Xn, X(k+1) := minX1, . . . , Xn \ X(1), . . . , X(k). Dieseist suzient.

3.10 Denition. Eine (S,S )-wertige Statistik T auf (X ,F , (Pϑ)ϑ∈Θ) heiÿtsuzient (für (Pϑ)ϑ∈Θ), falls für jedes ϑ ∈ Θ die reguläre bedingte Wahrschein-lichkeit von Pϑ gegeben T (existiert und) nicht von ϑ abhängt, d.h.

∃k ∀ϑ ∈ Θ, B ∈ F : k(T,B) = Pϑ(B |T ) := Eϑ[1B |T ] Pϑ -f.s.

Statt k(t, B) schreiben wir P•(B |T = t) bzw. E•[1B |T = t].

26

Page 29: Mathematische Statistik Skript zur Vorlesung im ... · Mathematische Statistik Skript zur Vorlesung im Sommersemester 2016 Markus Bibinger Philipps-Universität Marburg, Fb12 Mathematik

3.11 Satz (Faktorisierungskriterium von Neyman). Es sei (X ,F , (Pϑ)ϑ∈Θ) einvon µ dominiertes Modell mit Likelihoodfunktion L sowie T eine (S,S )-wertigeStatistik. Dann ist T genau dann suzient, wenn eine messbare Funktion h :X → R+ existiert, so dass für alle ϑ ∈ Θ eine messbare Funktion gϑ : S → R+

existiert mitL(ϑ, x) = gϑ(T (x))h(x) für µ-f.a. x ∈ X .

3.12 Lemma. Es seien P und µ Wahrscheinlichkeitsmaÿe mit P µ und Teine messbare Abbildung auf (X ,F ). Dann gilt für alle B ∈ F

EP[1B |T ] =Eµ[1B

dPdµ |T ]

Eµ[dPdµ |T ]P -f.s.

Beweis. Für jede beschränkte messbare Funktion ϕ erfüllt die rechte Seite

EP

[Eµ[1BdPdµ |T ]

Eµ[dPdµ |T ]ϕ(T )

]= Eµ

[Eµ[1BdPdµ |T ]

Eµ[dPdµ |T ]ϕ(T )dPdµ

]= Eµ

[Eµ[1BdPdµ |T ]

Eµ[dPdµ |T ]ϕ(T )Eµ[dPdµ |T ]

]= Eµ[1B

dPdµϕ(T )]

= EP[1Bϕ(T )].

Zusammen mit der σ(T )-Messbarkeit ist dies genau die Charakterisierung dafür,dass die rechte Seite eine Version der bedingten Erwartung EP[1B |T ] ist.

Bemerkung. Mit den üblichen Approximationsargumenten lässt sich dies zuEP[f |T ] = Eµ[f dPdµ |T ]/Eµ[dPdµ |T ] für f ∈ L1(P) verallgemeinern.

Beweis des Faktorisierungssatzes. Ohne Einschränkung sei µ ein Wahrschein-lichkeitsmaÿ, sonst betrachte das äquivalente Wahrscheinlichkeitsmaÿ µ(dx) =z(x)µ(dx) mit z =

∑m>1 2−mµ(Xm)−11Xm , wobei die Zerlegung X :=

⋃m>1Xm

mit µ(Xm) <∞ wegen der σ-Endlichkeit von µ existiert.Aus dem Lemma und der Form von L(ϑ, x) folgt daher

Pϑ(B |T ) =gϑ(T )Eµ[1Bh |T ]

gϑ(T )Eµ[h |T ]=

Eµ[1Bh |T ]

Eµ[h |T ]Pϑ -f.s.

Da die rechte Seite unabhängig von ϑ ist, ist T suzient.Ist nun andererseits T suzient, so setze k(T,B) := Pϑ(B |T ), ϑ ∈ Θ.

Für das privilegierte dominierende Maÿ Q gilt dann ebenfalls Q(B |T ) =∑i ci Pϑi(B |T ) = k(T,B) Q-f.s. Nach dem Satz von Radon-Nikodym gilt auf

dem Teilraum (X , σ(T ))

∀ϑ ∃fϑ : X → R+ σ(T )-messbar :dPϑ |σ(T )

dQ |σ(T )= fϑ.

Dann gibt es eine messbare Funktion gϑ, so dass fϑ = gϑ T , und für beliebigesB ∈ F erhalten wir

Pϑ(B) = Eϑ[Eϑ[1B |T ]] = EQ[EQ[1B |T ]gϑ(T )] = EQ[1Bgϑ(T )],

27

Page 30: Mathematische Statistik Skript zur Vorlesung im ... · Mathematische Statistik Skript zur Vorlesung im Sommersemester 2016 Markus Bibinger Philipps-Universität Marburg, Fb12 Mathematik

so dass gϑ T auch die Radon-Nikodym-Dichte dPϑdQ auf ganz F ist. Mit dPϑ

dµ =dPϑdQ

dQdµ erhalten wir den Ausdruck von L(ϑ, x), wobei h(x) = dQ

dµ (x).

3.13 Beispiele.

(a) Die Identität T (x) = x und allgemein jede bijektive, bi-messbare Trans-formation T ist stets suzient.

(b) Die natürliche suziente Statistik T einer Exponentialfamilie ist in derTat suzient. Im Normalverteilungsmodell (N(µ, σ2)⊗n)µ∈R,σ>0 ist damitT1(x) = (

∑ni=1 xi,−

∑ni=1 x

2i )> suzient, aber durch Transformation auch

T2(x) = (x, x2)> oder T3(x) = (x, s2)> mit der empirischen Varianz s2 =1

n−1

∑ni=1(xi− x)2. Bei einer Bernoullikette (Bin(1, p)⊗n)p∈(0,1) ist T (x) =∑n

i=1 xi (die Anzahl der Erfolge) suzient.

(c) Ist X1, . . . , Xn eine mathematische Stichprobe, wobei Xi gemäÿ der Le-besguedichte fϑ : R → R+ verteilt ist, so ist die Ordnungsstatistik(X(1), . . . , X(n)) suzient. Die Likelihoodfunktion lässt sich nämlich inder Form L(ϑ, x) =

∏ni=1 fϑ(x(i)) schreiben.

(d) Es wird die Realisierung (Nt, t ∈ [0, T ]) eines Poissonprozesses zum un-bekannten Parameter λ > 0 kontinuierlich auf [0, T ] beobachtet. MitSk = inft > 0 |Nt = k werden die Sprungzeiten bezeichnet. In derWahrscheinlichkeitstheorie wird gezeigt, dass bedingt auf das EreignisNT = n die Sprungzeiten (S1, . . . , Sn) dieselbe Verteilung haben wie dieOrdnungsstatistik (X(1), . . . , X(n)) mit unabhängigen Xi ∼ U([0, T ]). Dasich die Beobachtung (Nt, t ∈ [0, T ]) eindeutig aus den Sk rekonstruierenlässt, ist die Verteilung dieser Beobachtung gegeben NT = n unabhän-gig von λ, und NT ist somit eine suziente Statistik (z.B. die Kenntnisder Gesamtzahl an gemessenen radioaktiven Zerfällen liefert bereits diemaximal mögliche Information über die Intensität λ).

3.14 Satz. Es sei (X ,F , (Pϑ)ϑ∈Θ) ein statistisches Modell und T eine su-ziente Statistik. Dann existiert zu jeder Entscheidungsregel ρ : X → A einerandomisierte Entscheidungsregel ρ basierend auf T (X), so dass ρ und ρ dasgleiche Risiko haben.

Beweis. Setze ρ(t) = ρ(X∗) wobei X∗ gemäÿ Pϑ[X ∈ • |T = t] mit Randomi-sierung erzeugt wird.

R(ϑ, ρ) = Eϑ[E[l(ϑ, ρ(X∗))|T

]]= Eϑ

[Eϑ[l(ϑ, ρ(X))|T

]]= R(ϑ, ρ).

Sind Aktionsraum und Verlustfunktion konvex (z.B. Schätzprobleme) benö-tigt man keine Randomisierung.

3.15 Satz (Rao-Blackwell). Es seien (X ,F , (Pϑ)ϑ∈Θ) ein statistisches Modell,der Aktionsraum A ⊆ Rk konvex und die Verlustfunktion l(ϑ, a) im zweiten

28

Page 31: Mathematische Statistik Skript zur Vorlesung im ... · Mathematische Statistik Skript zur Vorlesung im Sommersemester 2016 Markus Bibinger Philipps-Universität Marburg, Fb12 Mathematik

Argument konvex. Ist T eine für (Pϑ)ϑ∈Θ suziente Statistik, so gilt für jedeEntscheidungsregel ρ und für ρ := E•[ρ |T ] die Risikoabschätzung

∀ϑ ∈ Θ : R(ϑ, ρ) 6 R(ϑ, ρ).

Beweis. Dies folgt aus der Jensenschen Ungleichung für bedingte Erwartungen:

R(ϑ, ρ) = Eϑ[l(ϑ,Eϑ[ρ |T ])] 6 Eϑ[Eϑ[l(ϑ, ρ) |T ]] = R(ϑ, ρ).

Ist l sogar strikt konvex sowie Pϑ(ρ = ρ) < 1, so gilt in der JensenschenUngleichung sogar die strikte Ungleichung und ρ ist besser als ρ.

3.16 Beispiel. Es sei X1, . . . , Xn eine U([0, ϑ])-verteilte mathematische Stich-probe mit ϑ > 0 unbekannt. Dann ist X ein erwartungstreuer Schätzer desErwartungswerts ϑ

2 , so dass ϑ = 2X ein plausibler Schätzer von ϑ ist mit

quadratischem Risiko R(ϑ, ϑ) = 4 Varϑ(X) = 4ϑ2

12n . Nun ist jedoch (bezüglichLebesguemaÿ auf (R+)n) die Likelihoodfunktion

L(ϑ, x) =n∏i=1

(ϑ−11[0,ϑ](xi)

)= ϑ−n1[0,ϑ]

(maxi=1,...,n

xi).

Demnach ist X(n) = maxi=1,...,nXi eine suziente Statistik, und wir bilden

ϑ := E•[ϑ |X(n)] =2

n

n∑i=1

E•[Xi |X(n)].

Aus Symmetriegründen reicht es, E•[X1 |X(n)] zu bestimmen. Als bedingte Ver-teilung von X1 gegeben X(n) = m vermuten wir 1

nδm + n−1n U([0,m]) wegen

Pϑ(X1 6 x |X(n) ∈ [m,m+ h]) =(x ∧ (m+ h))(m+ h)n−1 − (x ∧m)mn−1

(m+ h)n −mn

h→0−−−→ 1

n1(m < x) +

n− 1

n

x ∧mm

.

In der Tat gilt für x ∈ [0, ϑ]:∫ ϑ

0

( 1

nδm +

n− 1

nU([0,m])

)([0, x]) PX(n)

ϑ (dm)

=

∫ ϑ

0

( 1

n1[0,x](m) +

n− 1

n

x ∧mm

)nmn−1ϑ−n dm

=1

n(x/ϑ)n +

n− 1

n

((x/ϑ)n +

nx(ϑn−1 − xn−1)

(n− 1)ϑn

)=x

ϑ= Pϑ(X1 6 x).

Es folgt E[X1 |X(n)] = 1nX(n) + n−1

n

X(n)

2 = n+12n X(n). Wir erhalten ϑ = n+1

n X(n).

Natürlich ist ϑ auch erwartungstreu und als quadratisches Risiko ergibt einekurze Rechnung R(ϑ, ϑ) = ϑ2

n2+2n. Wir sehen, dass ϑ bedeutend besser als ϑ ist,

für n → ∞ erhalten wir die Ordnung O(n−2) anstelle O(n−1). Es bleibt, dieFrage zu klären, ob auch ϑ noch weiter verbessert werden kann (s.u.).

29

Page 32: Mathematische Statistik Skript zur Vorlesung im ... · Mathematische Statistik Skript zur Vorlesung im Sommersemester 2016 Markus Bibinger Philipps-Universität Marburg, Fb12 Mathematik

3.4 Vollständigkeit

Wie oben erwähnt, heiÿt eine Statistik V ancillary, wenn ihre Verteilung nichtvon ϑ abhängt. Sie heiÿt ancillary erster Ordnung, falls Eϑ[V ] unabhängig vonϑ ist. Falls jede Statistik der Form V = f(T ), die ancillary erster Ordnung ist,Pϑ-f.s. konstant ist, so ist keine redundante Information mehr in T enthalten.Eine solche suziente Statistik T reduziert die volle Information am eektivsten.Man nennt T in dem Falle vollständig.

3.17 Denition. Eine (S,S )-wertige Statistik T auf (X ,F , (Pϑ)ϑ∈Θ) heiÿtvollständig, falls für alle messbaren Funktionen f : S → R gilt

∀ϑ ∈ Θ : Eϑ[f(T )] = 0 =⇒ ∀ϑ ∈ Θ : f(T ) = 0 Pϑ -f.s.

3.18 Satz (Lehmann-Scheé). Es seien (X ,F , (Pϑ)ϑ∈Θ) ein statistisches Mo-dell und γ(ϑ) ∈ R, ϑ ∈ Θ, der jeweils interessierende Parameter. Es existiere einerwartungstreuer Schätzer γ von γ(ϑ) mit endlicher Varianz. Ist T eine suzi-ente und vollständige Statistik, so ist γ = E•[γ |T ] ein Schätzer von gleichmäÿigkleinster Varianz in der Klasse aller erwartungstreuen Schätzer (UMVU: uni-formly minimum variance unbiased).

Beweis. Zunächst ist klar, dass γ wiederum erwartungstreu ist. Auÿerdem ist γder f.s. einzige erwartungstreue Schätzer, der σ(T )-messbar ist, weil jeder anderesolche Schätzer γ wegen Vollständigkeit E[γ − γ] = 0 ⇒ γ = γ Pϑ-f.s. erfüllt.Nach dem Satz von Rao-Blackwell besitzt γ damit kleineres quadratisches Risikoals jeder andere erwartungstreue Schätzer. Nach der Bias-Varianz-Zerlegung istdas quadratische Risiko bei erwartungstreuen Schätzern gleich der Varianz.

Beachte, dass die Aussage des Satzes von Lehmann-Scheé sogar für dasRisiko bei beliebigen im zweiten Argument konvexen Verlustfunktionen gilt,wie sofort aus dem Satz von Rao-Blackwell folgt.

3.19 Satz. Es sei (X ,F , (Pϑ)ϑ∈Θ) eine k-parametrische Exponentialfamilie inT mit natürlichem Parameter ϑ ∈ Θ ⊆ Rk. Besitzt Θ ein nichtleeres Inneres,so ist T suzient und vollständig.

Beweis. Es bleibt, die Vollständigkeit zu beweisen. Ohne Einschränkung sei[−a, a]k ⊆ Θ für ein a > 0 (sonst verschiebe entsprechend) sowie h(x) = 1(sonst betrachte µ(dx) = h(x)µ(dx)). Es gelte Eϑ[f(T )] = 0 für alle ϑ ∈ Θ undein f : Rk → R. Mit f+ = max(f, 0), f− = max(−f, 0) sowie mit dem BildmaÿµT des dominierenden Maÿes µ unter T folgt

∀ϑ ∈ [−a, a]k :

∫Rk

exp(〈ϑ, t〉)f+(t)µT (dt) =

∫Rk

exp(〈ϑ, t〉)f−(t)µT (dt).

Insbesondere gilt∫f+(t)µT (dt) =

∫f−(t)µT (dt) =: M , und P+(dt) :=

M−1f+(t)µT (dt), P−(dt) := M−1f−(t)µT (dt) denieren Wahrscheinlichkeits-maÿe auf (Rk,BRk). Die obige Identität bedeutet gerade, dass die Laplace-Transformierten χ±(ϑ) :=

∫Rk exp(〈ϑ, t〉)P±(dt) für ϑ ∈ [−a, a] übereinstim-

men. χ+ und χ− sind darüberhinaus auf dem k-dimensionalen komplexen Strei-fen ϑ ∈ Ck | |Re(ϑ)| < a wohldeniert und analytisch. Der Eindeutigkeitssatz

30

Page 33: Mathematische Statistik Skript zur Vorlesung im ... · Mathematische Statistik Skript zur Vorlesung im Sommersemester 2016 Markus Bibinger Philipps-Universität Marburg, Fb12 Mathematik

für analytische Funktionen impliziert daher χ+(iu) = χ−(iu) für alle u ∈ Rk. Al-so besitzen P+ und P− dieselben charakteristischen Funktionen, so dass P+ = P−folgt (Eindeutigkeitssatz für char. Funktionen). Dies liefert f+ = f− µT -f.ü. undsomit f(T ) = 0 Pϑ-f.s. für alle ϑ ∈ Θ.

3.20 Beispiele.

(a) Das lineare Modell Y = Xβ + σε, β ∈ Rp mit Gauÿschen Fehlern ε ∼N(0, En) bildet eine (p+1)-parametrische Exponentialfamilie in η(β, σ) =σ−2(β,−1/2)> ∈ Rp×R− und T (Y ) = (X>Y, |Y |2)> ∈ Rp×R+. Der na-türliche Parameterbereich Z = Rp×R− besitzt ein nichtleeres Inneres inRp+1, so dass T suzient und vollständig ist. Durch bijektive Transforma-tion ergibt sich, dass dies auch für ((X>X)−1X>Y, |Y |2) = (β, |ΠXY |2 +

(n− p)σ2) mit dem Kleinste-Quadrate-Schätzer β und σ2 = |Y−Xβ|2n−p gilt.

Wegen ΠXY = Xβ ist also auch (β, σ2) suzient und vollständig. Damitbesitzen beide Schätzer jeweils minimale Varianz in der Klasse aller er-wartungstreuen Schätzer (von β bzw. σ2).Beachte: hierfür ist die Normalverteilungsannahme essentiell.

(b) Es sei X1, . . . , Xn ∼ U([0, ϑ]) eine mathematische Stichprobe mit ϑ > 0unbekannt. Aus der Form L(x, ϑ) = ϑ−n1x(n)6ϑ für x ∈ (R+)n der Like-lihoodfunktion folgt, dass das MaximumX(n) der Beobachtungen suzientist (s.o.). Gilt für alle ϑ > 0

Eϑ[f(X(n))] =

∫ ϑ

0f(t)nϑ−ntn−1 dt = 0,

so muss f = 0 Lebesgue-fast überall gelten, woraus die Vollständigkeitvon X(n) folgt. Andererseits gilt Eϑ[X(n)] = n

n+1ϑ. Also ist ϑ = n+1n X(n)

erwartungstreuer Schätzer von ϑ mit gleichmäÿig kleinster Varianz.

3.5 Cramér-Rao-Ungleichung

3.21 Lemma (Chapman-Robbins-Ungleichung). Es seien (X ,F , (Pϑ)ϑ∈Θ) einstatistisches Modell, g ein erwartungstreuer Schätzer von g(ϑ) ∈ R und ϑ0 ∈ Θ.Dann gilt für jedes ϑ ∈ Θ mit Pϑ 6= Pϑ0, Pϑ Pϑ0,

dPϑdPϑ0

∈ L2(Pϑ0)

Eϑ0 [(g − g(ϑ0))2] >(g(ϑ)− g(ϑ0))2

Varϑ0( dPϑdPϑ0).

Beweis. Dies folgt wegen Eϑ0 [ dPϑdPϑ0] = 1 aus

g(ϑ)− g(ϑ0) = Eϑ[g − g(ϑ0)]− Eϑ0 [g − g(ϑ0)]

= Eϑ0

[(g − g(ϑ0))

( dPϑdPϑ0

− 1)]

6 Eϑ0 [(g − g(ϑ0))2

]1/2 Eϑ0

[( dPϑdPϑ0

− 1)2]1/2

,

wobei zuletzt die Cauchy-Schwarz-Ungleichung angewendet wurde.

31

Page 34: Mathematische Statistik Skript zur Vorlesung im ... · Mathematische Statistik Skript zur Vorlesung im Sommersemester 2016 Markus Bibinger Philipps-Universität Marburg, Fb12 Mathematik

3.22 Beispiel. Wir beobachten X ∼ Exp(ϑ) mit ϑ > 0 unbekannt. Dann istdie Likelihoodfunktion gegeben durch dPϑ

dPϑ0(x) = (ϑ/ϑ0)e−(ϑ−ϑ0)x, x > 0. Diese

ist in L2(Pϑ0) nur im Fall ϑ > ϑ0/2 und besitzt dann die Varianz Varϑ0( dPϑdPϑ0) =

(ϑ−ϑ0)2

ϑ0(2ϑ−ϑ0) .Im Fall erwartungstreuer Schätzer g für g(ϑ) = ϑ ergibt die Chapman-

Robbins-Gleichung Eϑ0 [(g − g(ϑ0))2] > supϑ>ϑ0/2 ϑ0(2ϑ− ϑ0) =∞. Sofern wiralso beliebig groÿe Werte ϑ zulassen, existiert kein erwartungstreuer Schätzervon ϑ mit endlicher Varianz.

Im Fall g(ϑ) = ϑ−1 hingegen liefert die Chapman-Robbins-UngleichungEϑ0 [(g − g(ϑ0))2] > supϑ>ϑ0/2

2ϑ−ϑ0ϑ2ϑ0

= ϑ−20 , und die Identität g = X erreicht

auch diese Schranke.

3.23 Denition. Es sei (X ,F , (Pϑ)ϑ∈Θ) mit Θ ⊆ Rk ein von µ dominiertesModell mit Likelihoodfunktion L. Mit `(ϑ, x) := log(L(ϑ, x)) (log 0 := −∞)wird die Loglikelihood-Funktion bezeichnet. Falls ∂

∂ϑ`(ϑ, x) exisitiert in L2(Pϑ)nennt man

I(ϑ) = Eϑ[(

∂∂ϑ`(ϑ, x)

)(∂∂ϑ`(ϑ, x)

)>].

Fisher-Informationsmatrix. Man nennt ϑ 7→ ˙(ϑ) = ∂∂ϑ`(ϑ, x) auch

Score-Funktion.

Wir benötigen später die Regularitätsbedingung dass Integration und Die-rentiation wie folgt vertauschen:∫

∂∂ϑL(ϑ, x)µ(dx) = ∂

∂ϑ

∫L(ϑ, x)µ(dx) = 0 ,

∫∂2

∂ϑ2L(ϑ, x)µ(dx) = ∂∂ϑ

∫∂∂ϑL(ϑ, x)µ(dx) = 0 .

Eine Verteilungsfamilie mit existierenden Dichten, Θ oen, für welche diese Ver-tauschung gilt und für welche x|L(ϑ, x) > 0 unabhängig von ϑ ist nennt manauch Fisher-regulär.

Bemerkungen.

(a) Die Forderung dass ∂∂ϑ`(ϑ, x) exisitiert in L2(Pϑ) (und Fisher-Regularität)

ist in diesem Kapitel eine restriktive Vereinfachung. Im Laplace-Verteilungsmodell mit Likelihood L(ϑ, x) = 1

2 exp(− |x− ϑ|

)ist die

Dierenzierbarkeit z.B. in ϑ = x nicht gewährleistet. Mit Hellinger-Dierenzierbarkeit und Dierenzierbarkeit im quadratischen Mittel gibtes sehr viel allgemeinere weniger restriktive Konzepte Informationsunglei-chungen herzuleiten (und die Fisher-Information zu denieren).

(b) Nach Denition ist die Fisher-Informationsmatrix symmetrisch. Sie istauÿerdem stets positiv-semidenit.

3.24 Beispiel. Es sei X1, . . . , Xn eine mathematische Stichprobe gemäÿ der Le-besguedichte fϑ(x) = 1

2σe−|x−ϑ|/σ, x ∈ R, σ > 0 bekannt und ϑ ∈ R unbekannt.

32

Page 35: Mathematische Statistik Skript zur Vorlesung im ... · Mathematische Statistik Skript zur Vorlesung im Sommersemester 2016 Markus Bibinger Philipps-Universität Marburg, Fb12 Mathematik

Für beliebige ϑ0, ϑ ∈ R gilt

Lϑ0(ϑ) = exp(−

n∑i=1

(|Xi − ϑ| − |Xi − ϑ0|)/σ).

Es gilt

˙(ϑ) =n∑i=1

(1(Xi − ϑ > 0)− 1(Xi − ϑ < 0))/σ.

Die Fisher-Information ist

I(ϑ) =

n∑i=1

Varϑ(1(Xi − ϑ > 0)− 1(Xi − ϑ < 0))σ−2 = nσ−2.

Beachte, dass der seltene Fall vorliegt, dass die Fisher-Information nicht vomunbekannten Parameter abhängt.

3.25 Satz (Cramér-Rao-Ungleichung). Es seien (X ,F , (Pϑ)ϑ∈Θ) mit Θ ⊆ Rkein statistisches Modell, g : Θ → R dierenzierbar bei ϑ0 ∈ int(Θ) und g einerwartungstreuer Schätzer von g(ϑ). Für alle ϑ in einer Umgebung von ϑ0 geltePϑ Pϑ0 sowie ∂

∂ϑ`(ϑ, x) exisitiert in L2(Pϑ0) (Likelihood bzgl.Pϑ0), sowie

∂ϑ

∫r(x)L(ϑ, x)µ(dx) =

∫r(x)

∂ϑL(ϑ, x)µ(dx), ϑ ∈ Θ,

gilt für r(x) = 1 und r(x) = g(x). Falls die Fisher-Informationsmatrix I(ϑ0)strikt positiv-denit ist, gibt die Cramér-Rao-Ungleichung eine untere Schrankefür das quadratische Risiko

Eϑ0 [(g − g(ϑ0))2] = Varϑ0(g) > 〈I(ϑ0)−1g(ϑ0), g(ϑ0)〉.

Beweis. Wir beschränken uns auf den eindimensionalen Fall, k = 1. Mit derCauchy-Schwarzschen Ungleichung unter der angenommenen Fisher-Regularitätreicht

Eϑ[(

∂∂ϑ`(ϑ,X)

)2]= Var

(∂∂ϑ`(ϑ, x)

),

g(ϑ) = Cov(g(X), ∂∂ϑ`(ϑ,X)

).

Bemerkung. Ist g kein erwartungstreuer Schätzer von g(ϑ), so doch vonγ(ϑ) := Eϑ[g] (so existent). Mit der Bias-Varianz-Zerlegung liefert die Cramér-Rao-Ungleichung für diesen Fall

Eϑ0 [(g − g(ϑ0))2] > (g(ϑ0)− γ(ϑ0))2 + 〈I(ϑ0)−1γ(ϑ0), γ(ϑ0)〉.

Beachte dazu auch, dass erwartungstreue Schätzer von g(ϑ) nicht existieren müs-sen bzw. oftmals keine weiteren erstrebenswerten Eigenschaften besitzen.

33

Page 36: Mathematische Statistik Skript zur Vorlesung im ... · Mathematische Statistik Skript zur Vorlesung im Sommersemester 2016 Markus Bibinger Philipps-Universität Marburg, Fb12 Mathematik

3.26 Lemma. Bildet (Pϑ) eine Exponentialfamilie in T mit natürlichem Para-meterbereich Θ, so ist die Fisher-Information I(ϑ) = A(ϑ) (Notation aus Satz3.8).

Sofern I(ϑ) positiv-denit ist, erreicht Ti, i = 1, . . . , k, als erwartungstreu-er Schätzer von gi(ϑ) = Eϑ[Ti] die Cramér-Rao-Schranke (ist Cramer-Rao-ezient) im Innern von Θ.

Beweis. Nach Satz 3.8 gilt g(ϑ) = Eϑ[T ] = A(ϑ) und Varϑ(T ) = A(ϑ) (Kova-rianzmatrix). Andererseits ist die Loglikelihoodfunktion `(ϑ, T ) = (ϑ− ϑ0)T −(A(ϑ)−A(ϑ0)), so dass die Scorefunktion ˙(ϑ) = T − A(ϑ) im klassischen Sinnexistiert und

I(ϑ) = Eϑ[( ˙(ϑ))( ˙(ϑ))>] = Varϑ(T ) = A(ϑ)

gilt. Wegen gi(ϑ) = (Aij(ϑ))j =: Ai• ist die Cramér-Rao-Schranke gerade

〈A(ϑ)−1Ai•(ϑ), Ai•(ϑ)〉 = 〈ei, Ai•(ϑ)〉 = Aii(ϑ),

was gleich der Varianz von Ti ist.

3.27 Beispiel. Es sei X1, . . . , Xn eine N(µ, σ2)-verteilte mathematische Stich-probe mit µ ∈ R unbekannt und σ > 0 bekannt. Zur erwartungstreuen Schät-zung von µ betrachte µ = X. Dann gilt Varµ(µ) = σ2/n sowie für die Fisher-

Information I(µ) = n/σ2 (beachte A(µ) = nµ2

2σ2 , A(µ) = n/σ2). Also ist µ ezi-ent im Sinne der Cramér-Rao-Ungleichung. Um nun µ2 zu schätzen, betrachteden erwartungstreuen Schätzer µ2 = (X)2−σ2/n. Es gilt Varµ(µ2) = 4µ2σ2

n +2σ4

n2 ,

während die Cramér-Rao-Ungleichung die untere Schranke 4µ2σ2

n liefert. Damit

ist µ2 nicht Cramér-Rao-ezient. Allerdings ist X eine suziente und voll-ständige Statistik, so dass der Satz von Lehmann-Scheé zeigt, dass µ2 mini-male Varianz unter allen erwartungstreuen Schätzern besitzt. Demnach ist dieCramér-Rao-Schranke hier nicht scharf.

Bemerkung. In der Tat wird die Cramér-Rao-Schranke nur erreicht, wenn(Pϑ) eine Exponentialfamilie in T bildet und g(ϑ) = Eϑ[T ] oder eine lineareFunktion davon zu schätzen ist. Wegen der Vollständigkeit der Statistik T könnteman in diesen Fällen alternativ auch mit dem Satz von Lehmann-Scheé argu-mentieren. Später werden wir sehen, dass in allgemeineren Modellen immerhinasymptotisch die Cramér-Rao-Schranke erreichbar ist.

3.28 Lemma. Seien unter den Annahmen wie in Satz 3.25 X1, . . . , Xn Beob-achtungen aus unabhängigen Modellen mit derselben Parametermenge Θ. Be-zeichnet Ij die entsprechende Fisher-Information erzeugt von der BeobachtungXj, so ist im Produktmodell erzeugt von X1, . . . , Xn die Fisher-Information

∀ϑ ∈ Θ : I(ϑ) =n∑j=1

Ij(ϑ) .

Beweis. Aus der Denition

I(ϑ) = E[(

∂∂ϑ`(ϑ, x)

)(∂∂ϑ`(ϑ, x)

)>]34

Page 37: Mathematische Statistik Skript zur Vorlesung im ... · Mathematische Statistik Skript zur Vorlesung im Sommersemester 2016 Markus Bibinger Philipps-Universität Marburg, Fb12 Mathematik

folgt dies da man für die gemeinsame Likelihood eine Produkt- und somit fürdie Loglikelihood eine Summendarstellung hat. Die Erwartung der Kreuztermeverschwindet unter der vorausgesetzten Fisher-Regularität.

4 Parametrische Schätztheorie

4.1 Momentenmethode

4.1 Denition. Es seien (X n,F⊗n, (P⊗nϑ )ϑ∈Θ) ein statistisches(Produkt-)Modell mit X ⊆ R, F ⊆ BR und einem Parameter g(ϑ) mitg : Θ→ Rp. Ferner sei ψ = (ψ1, . . . , ψq) : X → Rq derart, dass

ϕ(ϑ) := Eϑ[ψ] =(∫Xψj(x) Pϑ(dx)

)j=1,...,q

existiert. Gibt es nun eine Borel-messbare Funktion G : ϕ(Θ) → g(Θ) mitG ϕ = g und liegt 1

n

∑ni=1 ψ(xi) in ϕ(Θ) für alle x1, . . . , xn ∈ X , so heiÿt

G( 1n

∑ni=1 ψ(xi)) (verallgemeinerter) Momentenschätzer für g(ϑ) mit Momen-

tenfunktionen ψ1, . . . , ψq.

4.2 Beispiele.

(a) Es sei X1, . . . , Xn ∼ Exp(λ) eine mathematische Stichprobe mit λ > 0unbekannt. Betrachte die klassische Momentenfunktion ψ(x) = xk für eink ∈ N. Mit g(λ) = λ und ϕ(λ) = Eλ[Xk

i ] = λ−kk! ergibt sich G(x) =(k!/x)1/k und als Momentenschätzer für λ

λk,n :=( k!

1n

∑ni=1X

ki

)1/k.

(b) Betrachte einen autoregressiven Prozess der Ordnung 1 (AR(1)-Prozess):

Xn = aXn−1 + εn, n > 1,

mit (εn) i.i.d., E[εn] = 0, Var(εn) = σ2 <∞ und X0 = x0 ∈ R.Um a zu schätzen, betrachte folgende Identität für das bedingte gemein-same Moment:

E[Xn−1Xn | ε1, . . . , εn−1] = aX2n−1.

Dies führt auf eine modizierte Momentenmethode als Schätzidee(Yule-Walker-Schätzer):

an :=1n

∑nk=1Xk−1Xk

1n

∑nk=1X

2k−1

= a+

∑nk=1Xk−1εk∑nk=1X

2k−1

.

Im Fall |a| < 1 kann man mit Hilfe des Ergodensatzes auf die Konsis-tenz von an für n → ∞ schlieÿen. Allgemeiner zeigt man leicht, dassMn :=

∑nk=1Xk−1εk ein Martingal bezüglich Fn := σ(ε1, . . . , εn) ist mit

quadratischer Variation 〈M〉n = σ2∑n

k=1X2k−1. Das starke Gesetz der

groÿen Zahlen für L2-Martingale liefert daher die Konsistenz

an = a+Mn

〈M〉nσ2 f.s.−−→ a.

35

Page 38: Mathematische Statistik Skript zur Vorlesung im ... · Mathematische Statistik Skript zur Vorlesung im Sommersemester 2016 Markus Bibinger Philipps-Universität Marburg, Fb12 Mathematik

Abbildung 2: Realisierungen (X1, . . . , X100) von AR(1)-Prozessen für unter-schiedliche a, σ = 1 und normalverteilte Fehler.

4.3 Lemma. Existiert für hinreichend groÿes n der Momentenschätzer gn =G( 1

n

∑ni=1 ψ(xi)) und ist G stetig, so ist gn (stark) konsistent, d.h. limn→∞ gn =

g(ϑ) P⊗Nϑ -f.s.

Beweis. Nach dem starken Gesetz der groÿen Zahlen gilt wegen der Stetigkeitvon G P⊗N

ϑ -fast sicher:

limn→∞

G( 1

n

n∑i=1

ψ(Xi))

= G(

limn→∞

1

n

n∑i=1

ψ(Xi))

= G(ϕ(ϑ)) = g(ϑ).

4.4 Satz (∆-Methode). Es seien (Xn) eine Folge von Zufallsvektoren im Rk,σn > 0, σn → 0, ϑ0 ∈ Rk sowie Σ ∈ Rk×k positiv semi-denit symmetrisch undes gelte

σ−1n (Xn − ϑ0)

d−→ N(0,Σ).

Ist f : Rk → R in einer Umgebung von ϑ0 stetig dierenzierbar, so folgt

σ−1n (f(Xn)− f(ϑ0))

d−→ N(0, 〈Σf(ϑ0), f(ϑ0)〉),

wobei N(0, 0) gegebenenfalls als Punktmaÿ δ0 in der Null zu verstehen ist.

36

Page 39: Mathematische Statistik Skript zur Vorlesung im ... · Mathematische Statistik Skript zur Vorlesung im Sommersemester 2016 Markus Bibinger Philipps-Universität Marburg, Fb12 Mathematik

Beweis. Nach dem Lemma von Slutsky gilt Xn−ϑ0 = σnXn−ϑ0σn

d−→ 0 und somit

XnP−→ ϑ0 für n→∞. Eine Taylorentwicklung ergibt

f(Xn) = f(ϑ0) + 〈f(ϑ0), Xn − ϑ0〉+Rn

mit Rn/|Xn − ϑ0| → 0 für Xn → ϑ0 bezüglich fast sicherer und damit auchstochastischer Konvergenz. Wiederum mittels Slutsky-Lemma folgt

Rnσn

=|Xn − ϑ0|

σn

Rn|Xn − ϑ0|

d−→ 0 ,

also auch bezüglich stochastischer Konvergenz. Eine dritte Anwendung desSlutsky-Lemmas gibt daher

σ−1n (f(Xn)− f(ϑ0)) = 〈f(ϑ0), σ−1

n (Xn − ϑ0)〉+ σ−1n Rn

d−→ N(0, f(ϑ0)>Σf(ϑ0));

denn es gilt 〈f(ϑ0), σ−1n (Xn − ϑ0)〉 → 〈f(ϑ0),Σ1/2Z〉 ∼ N(0, 〈Σf(ϑ0), f(ϑ0)〉)

mit Z ∼ N(0, Ek).

4.5 Korollar. Es seien ϑ0 ∈ Θ, g : Θ → R und für hinreichend groÿes nexistiere der Momentenschätzer gn = G( 1

n

∑ni=1 ψ(xi)) mit Momentenfunktio-

nen ψj ∈ L2(Pϑ0), j = 1, . . . , q. Betrachte Covϑ0(ψ) := (Covϑ0(ψi, ψj))i,j=1,...,q.Sofern G in einer Umgebung von ϕ(ϑ0) stetig dierenzierbar ist, ist gn unterP⊗Nϑ0

asymptotisch normalverteilt mit Rate n−1/2, asymptotischem Mittelwert

Null und Varianz 〈Covϑ0(ψ)G(ϕ(ϑ0)), G(ϕ(ϑ0))〉:

√n(gn − g(ϑ0))

d−→ N(0, 〈Covϑ0(ψ)G(ϕ(ϑ0)), G(ϕ(ϑ0))〉) (unter P⊗Nϑ0

).

Die Begri asymptotischer Mittelwert und asymptotische Varianz sind leichtirreführend: es gilt nicht notwendigerweise, dass die Momente von

√n(gn−g(ϑ0))

gegen die entsprechenden Momente von N(0, 〈Varϑ0(ψ)G(ϕ(ϑ0)), G(ϕ(ϑ0))〉)konvergieren (dafür wird gleichgradige Integrierbarkeit benötigt).

Beweis. Nach dem multivariaten zentralen Grenzwertsatz gilt unter P⊗Nϑ0

√n( 1

n

n∑i=1

ψ(Xi)− ϕ(ϑ0))

d−→ N(0,Covϑ0(ψ)).

Die Behauptung folgt daher unmittelbar mit der ∆-Methode.

4.6 Beispiel. Im Exponentialverteilungsmodell aus Beispiel 4.2 gilt G′(x) =−(k!/x)1/k(kx)−1 und Σ(λ0) = Varλ0(Xk

i ) = ((2k)! − (k!)2)/λ2k0 . Alle Momen-

tenschätzer λk,n sind asymptotisch normalverteilt mit Rate n−1/2 und Varianzσ2k = λ2

0k−2((2k)!/(k!)2−1). Da λ1,n die gleichmäÿig kleinste asymptotische Va-

rianz besitzt und auf der suzienten Statistik X basiert, wird dieser Schätzerim Allgemeinen vorgezogen.

37

Page 40: Mathematische Statistik Skript zur Vorlesung im ... · Mathematische Statistik Skript zur Vorlesung im Sommersemester 2016 Markus Bibinger Philipps-Universität Marburg, Fb12 Mathematik

Abbildung 3: Monte Carlo Verteilungen (aus 1000 Iterationen) der Momenten-schätzer für k = 1, 2, für Stichprobenumfänge n = 100 bzw.n = 1000. Histo-gramme mit theoretischer asymptotischer Dichte und Kerndichteschätzer mitSilverman's Bandweitenregel (gestrichelt) und QQ-Plots empirischer Verteilunggegen Normalverteilung.

Die Momentenmethode kann unter folgendem allgemeinen Gesichtspunktverstanden werden: Ist X1, . . . , Xn eine mathematische Stichprobe mit Wertenin R, so ist die empirische Verteilungsfunktion Fn(x) := 1

n

∑ni=1 1(Xi 6 x)

eine suziente Statistik und nach dem Satz von Glivenko-Cantelli gilt Pϑ-f.s. Fn(x) → Fϑ(x) = Pϑ(Xi 6 x) gleichmäÿig in x ∈ R. Ist nun g(ϑ) alsFunktional G(Fϑ(x), x ∈ R) darstellbar, so verwende die empirische VersionG(Fn(x), x ∈ R) als Schätzer von g(ϑ). Falls das Funktional G stetig bezüglichder Supremumsnorm ist, so folgt die Konsistenz.

Der Satz von Donsker für empirische Prozesse zeigt√n(Fn − Fϑ)

d−→ Γϑgleichmäÿig auf R mit einem zentrierten Gauÿprozess Γϑ von der Kovarianz-struktur Cov(Γϑ(x),Γϑ(y)) = Fϑ(x ∧ y) − Fϑ(x)Fϑ(y). Ist G ein Hadamard-

dierenzierbares Funktional, so folgt√n(G(Fn(x), x ∈ R) − g(ϑ))

d−→ G(Fϑ)Γϑunter Pϑ, also insbesondere asymptotische Normalverteilung mit Rate n−1/2 undexplizit bestimmbarer asymptotischer Varianz, siehe z.B. Van der Vaart (1998)für mehr Details.

Als einfaches (lineares) Beispiel sei g(ϑ) = Eϑ[ψ(Xi)] zu schätzen undXi > 0Pϑ-f.s. Dann folgt informell G(Fϑ) =

∫∞0 ψ(x) dFϑ(x) =

∫∞0 ψ′(x)(1−Fϑ(x)) dx.

Aus der Linearität erhalten wir G(Fϑ)Γϑ =∫∞

0 ψ′(x)(−Γϑ(x)) dx. Dies ist nor-malverteilt mit Erwartungswert Null und Varianz∫ ∞

0

∫ ∞0

ψ′(x)ψ′(y)(Fϑ(x ∧ y)− Fϑ(x)Fϑ(y)) dx dy

=

∫ ∞0

∫ ∞0

ψ(x)ψ(y)∂xy(Fϑ(x ∧ y)− Fϑ(x)Fϑ(y)) dx dy

=

∫ ∞0

ψ2(x) dFϑ(x)−(∫ ∞

0ψ(x) dFϑ(x)

)2,

was natürlich gerade der Varianz von G(Fn) = 1√n

∑ni=1 ψ(Xi) entspricht.

38

Page 41: Mathematische Statistik Skript zur Vorlesung im ... · Mathematische Statistik Skript zur Vorlesung im Sommersemester 2016 Markus Bibinger Philipps-Universität Marburg, Fb12 Mathematik

4.2 Minimum-Kontrast- und Maximum-Likelihood-Schätzer

4.7 Denition. Für zwei Wahrscheinlichkeitsmaÿe P und Q auf demselbenMessraum (X ,F ) heiÿt die Funktion

KL(P | Q) =

∫X log

(dPdQ(x)

)P(dx), falls P Q,

+∞, sonst

Kullback-Leibler-Divergenz (oder auch Kullback-Leibler-Abstand, relativeEntropie) von P bezüglich Q.

4.8 Lemma. Für die Kullback-Leibler-Divergenz gilt:

(a) KL(P | Q) > 0 und KL(P | Q) = 0 ⇐⇒ P = Q, aber KL ist nichtsymmetrisch;

(b) für Produktmaÿe ist KL additiv:

KL(P1⊗P2 | Q1⊗Q2) = KL(P1 | Q1) + KL(P2 | Q2);

(c) bildet (Pϑ)ϑ∈Θ eine natürliche Exponentialfamilie und ist ϑ0 innerer Punktvon Θ, so gilt

KL(Pϑ0 | Pϑ) = A(ϑ)−A(ϑ0) + 〈A(ϑ0), ϑ0 − ϑ〉.

Beweis. Der Beweis erfolgt als Übungsaufgabe.

Bemerkung. Wegen A(ϑ0) = Covϑ0(T ) in (c) erhalten wir für ϑ, ϑ0 ∈ int(Θ)mit einer Taylorentwicklung KL(Pϑ0 | Pϑ) = 1

2〈Covϑ(T )(ϑ − ϑ0), ϑ − ϑ0〉mit einer Zwischenstelle ϑ zwischen ϑ und ϑ0. Beachte, dass Covϑ(T ) gera-de die Fisher-Information bei ϑ angibt. Im Fall der mehrdimensionalen Nor-malverteilung N(µ,Σ) mit strikt positiv-deniter Kovarianzmatrix folgt ausA(µ) = 〈Σ−1µ, µ〉/2, dass A(µ) = Σ−1 unabhängig von µ ist und somitKL(N(ϑ0,Σ) |N(ϑ,Σ)) = 1

2〈Σ−1(ϑ− ϑ0), ϑ− ϑ0〉 gilt.

4.9 Denition. Es sei (Xn,Fn, (Pnϑ)ϑ∈Θ)n>1 eine Folge statistischer Modelle.Eine Funktion K : Θ × Θ → R∪+∞ heiÿt Kontrastfunktion, falls ϑ 7→K(ϑ0, ϑ) ein eindeutiges Minimum bei ϑ0 besitzt für alle ϑ0 ∈ Θ. Eine FolgeKn :Θ × Xn → R∪+∞ heiÿt zugehöriger Kontrastprozess (oder bloÿ Kontrast),falls folgende Bedingungen gelten:

(a) Kn(ϑ, •) ist Fn-messbar für alle ϑ ∈ Θ;

(b) ∀ϑ, ϑ0 ∈ Θ : Kn(ϑ)→ K(ϑ0, ϑ) Pnϑ0-stochastisch für n→∞.

Ein zugehöriger Minimum-Kontrast-Schätzer ist gegeben durch ϑn(xn) :=argminϑ∈ΘKn(ϑ, xn) (sofern existent; nicht notwendigerweise eindeutig).

39

Page 42: Mathematische Statistik Skript zur Vorlesung im ... · Mathematische Statistik Skript zur Vorlesung im Sommersemester 2016 Markus Bibinger Philipps-Universität Marburg, Fb12 Mathematik

4.10 Beispiele.

(a) Beim Produktexperiment (X n,F⊗n, (P⊗nϑ )ϑ∈Θ) mit Pϑ ∼ Pϑ′ für alleϑ, ϑ′ ∈ Θ ist

Kn(ϑ, x) = − 1

n

n∑i=1

`(ϑ, xi)

mit der Loglikelihood-Funktion ` bezüglich einem dominierenden Wahr-scheinlichkeitsmaÿ µ ein Kontrastprozess zur Kontrastfunktion

K(ϑ0, ϑ) = KL(ϑ0 |ϑ)−KL(ϑ0 |µ)

(schreibe kurz KL(ϑ0 |ϑ) := KL(Pϑ0 | Pϑ) etc.). Der zugehörige Minimum-Kontrast-Schätzer ist der Maximum-Likelihood-Schätzer (MLE), siehe De-nition 4.11.

(b) Betrachte das Regressionsmodell aus Beispiel 4.14 mit gϑ : [0, 1]→ R ste-tig, äquidistantem Design xi = i/n und beliebig verteilten Störvariablen(εi). Sind die (εi) i.i.d. mit E[εi] = 0 und E[ε4

i ] < ∞, so folgt leicht ausTschebyschew-Ungleichung und Riemannscher Summen-Approximation,dass Kn(ϑ) = 1

n

∑ni=1(Yi − gϑ(xi))

2 einen Kontrastprozess zur Kontrast-

funktion K(ϑ0, ϑ) =∫ 1

0 (gϑ0(x) − gϑ(x))2dx + E[ε2i ] bildet. Dabei muss

natürlich die Identizierbarkeitsbedingung gϑ 6= gϑ′ für alle ϑ 6= ϑ′ gelten.Also ist der Kleinste-Quadrate-Schätzer hier ebenfalls Minimum-Kontrast-Schätzer.

4.11 Denition. Es sei (X ,F , (Pϑ)ϑ∈Θ) ein von µ dominiertes Modell mit Li-kelihoodfunktion L(ϑ, x). Eine Statistik ϑ : X → Θ (Θ trage eine σ-AlgebraFΘ) heiÿt Maximum-Likelihood-Schätzer (MLE) von ϑ, falls L(ϑ(x), x) =supϑ∈Θ L(ϑ, x) für µ-fast alle x ∈ X gilt.

Bemerkung. Der MLE braucht weder zu existieren noch eindeutig zu sein, fallser existiert. Er hängt von der gewählten Version der Radon-Nikodym-Dichteab; es gibt jedoch häug eine kanonische Wahl, wie beispielsweise bei stetigenLebesguedichten. Auÿerdem ist eine Abänderung auf einer Nullmenge bezüglichaller Pϑ irrelevant, weil der Schätzer vor Realisierung des Experiments festgelegtwird und diese Realisierung damit fast sicher zum selben Schätzwert führen wird.Im Falle einer endlichen Parametermenge Θ existiert immer ein MLE. Ist dieLikelihoodfunktion L(ϑ) dierenzierbar im Innersen von Θ, ndet man den MLEmeist durch die Likelihood Gleichung:

∂L(ϑ)

∂ϑ= 0 .

Zu beachten ist allerdings dass Lösungen dieser Likelihood-Gleichungen lo-kale Extrema oder Sattelpunkte sein können. Da Likelihoodfunktionen posi-tiv sind und der Logarithmus monoton, maximiert der MLE auch die log-Likelihoodfunktion `(ϑ) und man erhält analog die log-Likelihood Gleichung:

∂`(ϑ)

∂ϑ= 0 .

40

Page 43: Mathematische Statistik Skript zur Vorlesung im ... · Mathematische Statistik Skript zur Vorlesung im Sommersemester 2016 Markus Bibinger Philipps-Universität Marburg, Fb12 Mathematik

Minimum-Kontrast-Schätzer mit dem prominentesten Spezialfall des MLEwerden auch M-Schätzer genannt.

4.12 Beispiele.

(a) Auf dem diskreten Stichprobenraum X seien Verteilungen (Pϑ)ϑ∈Θ gege-ben. Bezeichnet pϑ die zugehörige Zähldichte und ist die Verlustfunktionl(ϑ, ρ) homogen in ϑ ∈ Θ, so ist es für die Schätzung von ϑ plausibel,bei Vorliegen des Versuchsausgangs x für einen Schätzer ϑ(x) denjeni-gen Parameter ϑ ∈ Θ zu wählen, für den die Wahrscheinlichkeit pϑ(x)des Eintretens von x maximal ist: ϑ(x) := argmaxϑ∈Θ pϑ(x). Dies ist derMLE. Bereits im vorliegenden Fall ist weder Existenz noch Eindeutigkeitohne Weiteres garantiert. Bei Nicht-Eindeutigkeit wählt man einen maxi-mierenden Parameter ϑ nach Belieben aus. Im Fall einer mathematischenStichprobe X1, . . . , Xn ∼ Poiss(λ) mit λ > 0 unbekannt, ergibt sich bei-spielsweise

λ = argmaxλ>0

n∏i=1

(e−λ

λXi

Xi!

)= X

im Fall X > 0. Ist X = 0, d.h. X1 = · · · = Xn = 0, so wird das Supremumnur asymptotisch für λ→ 0 erreicht. Hier könnte man sich behelfen, indemman Poiss(0) als Punktmaÿ in der Null stetig ergänzt.

(b) Besitzen die Verteilungen Pϑ Lebesguedichten fϑ, so führt der Maximum-Likelihood-Ansatz analog auf ϑ(x) = argmaxϑ∈Θ fϑ(x). Betrachte dieStichprobe Y der Form Y = eX mit X ∼ N(µ, 1) mit µ ∈ R unbekannt.Dann ist Y log-normalverteilt, und es gilt

µ(Y ) = argmaxµ∈Re−(log(Y )−µ)2/2

√2πY

= log(Y ).

Man sieht, dass der MLE invariant unter Parametertransformation ist:bei Beobachtung von X ∼ N(µ, 1) erhält man den MLE µ(X) = X undEinsetzen von X = log(Y ) führt auf dasselbe Ergebnis. Interessanterweiseführt die Momentenmethode unter Benutzung von Eµ[Y ] = eµ+1/2 aufden Schätzer µ(Y ) = log(Y ) − 1/2, während Eµ[X] = µ auf µ(X) = Xführt; Momentenschätzer beruhend auf demselben Moment sind also imAllgemeinen nicht transformationsinvariant.

4.13 Lemma. Für eine natürliche Exponentialfamilie (Pϑ)ϑ∈Θ in T (x) ist derMLE ϑ implizit gegeben durch die Momentengleichung Eϑ[T ] = T (x), vorausge-setzt der MLE existiert und liegt im Innern int(Θ) von Θ.

Beweis. Schreiben wir die Loglikelihoodfunktion in der Form `(ϑ, x) =log(h(x)) + 〈ϑ, T (x)〉 − A(ϑ), so folgt (vgl. Satz 3.8) wegen der Dierenzier-barkeit im Innern ˙(ϑ) = T (x)− A(ϑ) = 0 und somit Eϑ[T ] = T (x).

Bei einer eineindeutigen Parametrisierung ϑ 7→ h(ϑ) ist dann natürlich h :=h(ϑ) der MLE für h(ϑ).

41

Page 44: Mathematische Statistik Skript zur Vorlesung im ... · Mathematische Statistik Skript zur Vorlesung im Sommersemester 2016 Markus Bibinger Philipps-Universität Marburg, Fb12 Mathematik

4.14 Beispiele.

(a) Es seiX1, . . . , Xn ∼ N(µ, σ2) eine mathematische Stichprobe. Dann ist derMLE für ϑ = (µ/σ2, 1/(2σ2))> gegeben durch Eϑ[(X, X2)>] = (X, X2)>,

also µ = X, µ2 + σ2 = X2. Durch Reparametrisierung (µ, µ2 + σ2) 7→(µ, σ2) erhalten wir σ2 = X2 − (X)2 = 1

n

∑ni=1(Xi − X)2. Beachte, dass

der MLE σ2 nicht erwartungstreu ist.Man erhält den MLE auch aus den log-Likelihood Gleichungen:

σ−2n∑i=1

(Xi − µ) = 0 , σ−4n∑i=1

(Xi − µ)2 − σ−2n = 0 ,

sowie der negativen Denitheit der Matrix der zweiten Ableitungen. Be-trachte nun Θ = (0,∞) × (0,∞), d.h.µ > 0 ist bekannt. Falls X > 0folgt analog der MLE wie gehabt. Falls X 6 0 ist die erste log-LikelihoodGleichung nicht in Θ lösbar. Aus der Monotonie von `(ϑ) folgt in diesemFall der MLE (0, n−1

∑ni=1X

2i ).

(b) Bei Beobachtung einer Markovkette (X0, X1, . . . , Xn) auf dem Zustands-raum S = 1, . . . ,M mit parameterunabhängigem Anfangswert X0 = x0

und unbekannten Übergangswahrscheinlichkeiten P(Xk+1 = j |Xk = i) =pij ergibt sich die Likelihoodfunktion (bzgl. Zählmaÿ) durch

L((pkl), X) =n∏i=1

pXi−1,Xi =M∏

k,l=1

pNkl(X)kl ,

wobei Nkl(X) = |i = 1, . . . , n |Xi−1 = k,Xi = l| die Anzahl der beob-achteten Übergänge von Zustand k nach Zustand l angibt. Als MLE ergibtsich nach kurzer Rechnung die relative Häugkeit pij = Nij/(

∑m∈S Nim)

der Übergänge.

(c) Beim allgemeinen parametrischen Regressionsmodell mit Beobachtungen

Yi = gϑ(xi) + εi, i = 1, . . . , n,

ergibt sich unter der Normalverteilungsannahme εi ∼ N(0, σ2) i.i.d. alsMLE der Kleinste-Quadrate-Schätzer ϑ = argminϑ∈Θ

∑ni=1(Yi − gϑ(xi))

2.

(d) Es sei X1, . . . , Xn ∼ Exp(λ) eine mathematische Stichprobe mit λ > 0unbekannt. Dann ist der MLE für λ gegeben durch

λn :=( 1

1n

∑ni=1Xi

),

also dem Momentenschätzer mit der klassischen Momentenfunktionψ(x) = xk für k = 1, vgl. Beispiel 4.3. (a).

(e) Wir betrachten das sogenannte Taxiproblem. Dazu sei X1, . . . , Xn ∼U([0, N ]) eine mathematische Stichprobe mit N ∈ N unbekannt. Dann istder MLE für N gegeben durch

N := X(n) = maxi=1,...,nXi.

42

Page 45: Mathematische Statistik Skript zur Vorlesung im ... · Mathematische Statistik Skript zur Vorlesung im Sommersemester 2016 Markus Bibinger Philipps-Universität Marburg, Fb12 Mathematik

Dies folgt analog für die Verteilung U(0, ϑ). Man beachte, dass hier derMLE nicht über die Likelihood Gleichung gefunden werden kann und X(n)

Unstetigkeitsstelle der Likelihood L(ϑ) = ϑ−n1(X(n),∞)(ϑ) ist. Für U(ϑ−1/2, ϑ + 1/2), ϑ ∈ R, ist die Likelihood L(ϑ) = 1(X(n)−1/2,X(1)+1/2)(ϑ).Damit ist jede Statistik T (X1, . . . , Xn), für welche X(n) − 1/2 6 T 6X(1) +1/2 gilt, ein MLE was aufzeigt dass der MLE nicht immer eindeutigist und auch nicht immer sinnvoll sein muss.

(f) Es sei X1, . . . , Xn ∼ Γ(a, b) eine mathematische Stichprobe mit a > 0, b >0 unbekannt. Als log-Likelihood ergibt sich

`(ϑ) = −na log b− n log Γ(a) + (a− 1)n∑i=1

logXi − b−1n∑i=1

Xi .

Die log-Likelihood Gleichungen ergeben

−n log b− nΓ′(a)

Γ(a)+

n∑i=1

logXi = 0 ,

−nab

+ b−2n∑i=1

Xi = 0 .

Aus der zweiten Gleichung folgt b = a−1X und einsetzen in die ersteGleichung ergibt:

log a− Γ′(a)

Γ(a)+ n−1

n∑i=1

logXi − log X = 0 ,

was auf keine explizite Lösung führt. Man kann jedoch zeigen, dass fastsicher eine eindeutige Lösung als MLE exisitiert, welche man numerischberechnen kann.

4.3 Asymptotik von Schätzern

Wir rekapitulieren zunächst die grundlegende Denition der (schwachen) Kon-sistenz.

4.15 Denition. Eine Folge von Schätzern (ϑn)n∈N heiÿt konsistent für ϑ,falls für jedes ε > 0 und alle ϑ ∈ Θ gilt: Pϑ

(‖ϑn − ϑ‖ > ε

)→ 0, wenn also

ϑn → ϑ Pnϑ-stochastisch für n→∞.

4.16 Satz. Es sei (Kn)n>1 ein Kontrastprozess zur Kontrastfunktion K. Dannist der zugehörige Minimum-Kontrast-Schätzer ϑn konsistent für ϑ0 ∈ Θ unterfolgenden Bedingungen:

(A1) Θ ist ein kompakter Raum;

(A2) ϑ 7→ K(ϑ0, ϑ) ist stetig und ϑ 7→ Kn(ϑ) ist Pnϑ0-f.s. stetig;

(A3) supϑ∈Θ|Kn(ϑ)−K(ϑ0, ϑ)| → 0 Pnϑ0-stochastisch.

43

Page 46: Mathematische Statistik Skript zur Vorlesung im ... · Mathematische Statistik Skript zur Vorlesung im Sommersemester 2016 Markus Bibinger Philipps-Universität Marburg, Fb12 Mathematik

Bemerkung. Beachte, dass ϑn als Minimum einer f.s. stetigen Funktion aufeinem Kompaktum stets f.s. existiert. Es kann auÿerdem messbar gewählt werden(vgl. Witting, 2. Band, Satz 6.7).

Beweis. Die entsprechende Funktion argmin : C(Θ)→ Θ ist stetig bezüglich derMaximumsnorm auf C(Θ) an den Stellen f , wo mf := argminϑ f(ϑ) eindeutigist. Betrachte fn ∈ C(Θ) mit ‖fn − f‖∞ → 0. Dann konvergieren auch dieMinima fn(mfn)→ f(mf ) wegen

fn(mfn)− f(mf ) > f(mfn)− f(mf )− ‖fn − f‖∞ > −‖fn − f‖∞ → 0,

fn(mfn)− f(mf ) 6 fn(mfn)− fn(mf ) + ‖fn − f‖∞ 6 ‖fn − f‖∞ → 0.

Ist nun m ∈ Θ (Θ kompakt) ein Häufungspunkt von (mfn), so folgt mit gleich-mäÿiger Konvergenz f(m) = limn→∞ fn(mfn) = f(mf ). Eindeutigkeit des Mi-nimums liefert m = mf , und daher besitzt (mfn) als einzigen Häufungspunktnotwendigerweise den Grenzwert mf .

Das Continuous-Mapping-Theorem für stochastische Konvergenz liefert mit(A3) die Behauptung, weil argmin stetig ist auf dem deterministischen Grenz-wert K(ϑ0, •).

Wir benötigen folgenden Satz aus der Wahrscheinlichkeitstheorie (hier ohneBeweis; vgl. Stochastik II).

4.17 Satz. Ist Θ ⊆ Rk kompakt, (Xn(ϑ), ϑ ∈ Θ)n>1 eine Folge stetiger Prozesse

mit Xn(ϑ)P−→ X(ϑ) für alle ϑ ∈ Θ und stetigem Grenzprozess (X(ϑ), ϑ ∈ Θ),

so gilt maxϑ∈Θ|Xn(ϑ)−X(ϑ)| P−→ 0 genau dann, wenn (Xn) stra ist, also wenn

∀ε > 0 : limδ↓0

lim supn→∞

P(

sup|ϑ1−ϑ2|<δ

|Xn(ϑ1)−Xn(ϑ2)| > ε)

= 0.

4.18 Denition. Für Zufallsvariablen (Xn) und positive Zahlen (an) schreibenwir Xn = OP(an), falls limK→∞ supn P(|Xn| > Kan) = 0 (Xn/an ist stochas-

tisch beschränkt oder stra), sowie Xn = oP(an), falls Xn/anP−→ 0.

4.19 Satz. Es mögen die Annahmen (A1)-(A3) sowie Θ ⊆ Rk und ϑ0 ∈ int(Θ)gelten. Der Kontrastprozess Kn sei zweimal stetig dierenzierbar in einer Um-gebung von ϑ0 (Pϑ0-f.s.), so dass mit

Un(ϑ) := Kn(ϑ) (Score), Vn(ϑ) := Kn(ϑ)

folgende Konvergenzen unter Pnϑ0gelten:

(B1)√nUn(ϑ0)

d−→ N(0, U(ϑ0)) mit U(ϑ0) ∈ Rk×k positiv denit.

(B2) Aus ϑnPnϑ0−−→ ϑ0 folgt Vn(ϑn)

Pnϑ0−−→ V (ϑ0) mit V (ϑ0) ∈ Rk×k regulär.

Dann gilt für den Minimum-Kontrast-Schätzer ϑn√n(ϑn − ϑ0) = −V (ϑ0)−1√nUn(ϑ0) + oPnϑ0

(1).

Insbesondere ist ϑn unter Pnϑ0asymptotisch normalverteilt:

√n(ϑn − ϑ0)

d−→ N(0, V (ϑ0)−1U(ϑ0)V (ϑ0)−1).

44

Page 47: Mathematische Statistik Skript zur Vorlesung im ... · Mathematische Statistik Skript zur Vorlesung im Sommersemester 2016 Markus Bibinger Philipps-Universität Marburg, Fb12 Mathematik

Beweis. Aus (A1)-(A3) folgt die Konsistenz von ϑn. Wegen ϑ0 ∈ int(Θ) giltfür Ω1

n := [ϑn, ϑ0] ∈ int(Θ) (setze [a, b] := ah + b(1 − h) |h ∈ [0, 1])limn→∞ Pnϑ0

(Ω1n) = 1. Auf Ω1

n gilt somit Kn(ϑn) = 0 und nach Mittelwertsatz

Kn(ϑn)− Kn(ϑ0) = Kn(ϑn)(ϑn − ϑ0), ϑn ∈ [ϑ0, ϑn].

Wir erhalten−Un(ϑ0) = Vn(ϑn)(ϑn − ϑ0).

Wegen (B2), und da V (ϑ0) regulär und die Inversenbildung stetig ist, haben wirPnϑ0

(Ω2n) → 1 für Ω2

n := Vn(ϑn)−1 existiert. Benutze nun Vn(ϑn)−11Ω1n∩Ω2

n→

V (ϑ0)−1 in Pnϑ0-Wahrscheinlichkeit, so dass

√n(ϑn − ϑ0) = −V (ϑ0)−1√nUn(ϑ0) + oPnϑ0

(1)d−→ N(0, V (ϑ0)−1U(ϑ0)V (ϑ0)−1)

aus Slutskys Lemma folgt.

4.20 Satz. Es sei (X n,F⊗n, (P⊗nϑ )ϑ∈Θ)n>1 mit Θ ⊆ Rk eine Folge dominier-ter Produktexperimente mit eindimensionaler Loglikelihoodfunktion `(ϑ, x) =log(dPϑdµ (x)). Es gelte:

(a) Θ ⊆ Rk ist kompakt und ϑ0 liegt im Innern int(Θ) von Θ.

(b) Es gilt Pϑ 6= Pϑ0 für alle ϑ 6= ϑ0 (Identizierbarkeitsbedingung).

(c) ϑ 7→ `(ϑ, x) ist stetig auf Θ und zweimal stetig dierenzierbar in einerUmgebung U von ϑ0 für alle x ∈ X .

(d) Es gibt H0, H2 ∈ L1(Pϑ0) und H1 ∈ L2(Pϑ0) mit supϑ∈Θ|`(ϑ, x)| 6 H0(x)und supϑ∈U | ˙(ϑ, x)| 6 H1(x), supϑ∈U |¨(ϑ, x)| 6 H2(x), x ∈ X .

(e) Die Fisher-Informationsmatrix (zu einer Beobachtung) I(ϑ0) =Eϑ0 [( ˙(ϑ0))( ˙(ϑ0))>] ist positiv denit.

Dann erfüllt der MLE ϑn

√n(ϑn − ϑ0) =

1√n

n∑i=1

I(ϑ0)−1 ˙(ϑ0) + oPnϑ0(1).

Insbesondere ist ϑn unter P⊗nϑ0asymptotisch normalverteilt mit Rate n−1/2 und

asymptotischer Kovarianzmatrix I(ϑ0)−1:

√n(ϑn − ϑ0)

d−→ N(0, I(ϑ0)−1).

Ferner gilt die Formel I(ϑ0) = −Eϑ0 [¨(ϑ0)].

Beweis. Setze Kn(ϑ, x) := − 1n

∑ni=1 `(ϑ, xi), x ∈ X , sowie K(ϑ0, ϑ) :=

−Eϑ0 [`(ϑ)]. Dann ist Kn ein Kontrastprozess zur Kontrastfunktion K, und wirweisen die Bedingungen (A1)-(A3), (B1)-(B2) mit U(ϑ0) = V (ϑ0) = I(ϑ0) nach.

(A1) Dies folgt aus Θ kompakt.

45

Page 48: Mathematische Statistik Skript zur Vorlesung im ... · Mathematische Statistik Skript zur Vorlesung im Sommersemester 2016 Markus Bibinger Philipps-Universität Marburg, Fb12 Mathematik

(A2) Wegen `(•, x) ∈ C(Θ) istKn stetig und dominierte Konvergenz mit |`(ϑ)−`(ϑ′)| 6 2H0 liefert

|K(ϑ0, ϑ)−K(ϑ0, ϑ′)| 6 Eϑ0 [|`(ϑ)− `(ϑ′)|] ϑ′→ϑ−−−→ 0.

(A3) Mit dem starken Gesetz der groÿen Zahlen folgt Pϑ0-f.s.:

lim supn→∞

sup|ϑ−ϑ′|<δ

|Kn(ϑ, x)−Kn(ϑ′, x)|

6 limn→∞

1

n

n∑i=1

sup|ϑ−ϑ′|<δ

|`(ϑ, xi)− `(ϑ′, xi)|

= Eϑ0

[sup

|ϑ−ϑ′|<δ|`(ϑ)− `(ϑ′)|

].

Mit dominierter Konvergenz und gleichmäÿiger Stetigkeit von ` auf demKompaktum Θ erhalten wir, dass der letzte Erwartungswert für δ → 0 ge-gen Null konvergiert. Dies zeigt die Straheit von Kn (mit f.s.-Konvergenzin Satz 4.17). Insbesondere ist wegen (A1)-(A3) ϑn konsistent.

(B1) Der zentrale Grenzwertsatz liefert wegen | ˙(ϑ)| 6 H1 ∈ L2 unter Pϑ0

√nKn(ϑ0)

d−→ N(0,Varϑ0( ˙(ϑ0))) = N(0, I(ϑ0)).

(B2) Mittels dominierter Konvergenz erhalten wir wie in Kapitel 3.5Eϑ0 [ ˙(ϑ0)] = 0. Wir verwenden nun die Identität

¨(ϑ) =L(ϑ)

L(ϑ)− ˙(ϑ) ˙(ϑ)>,

und erhalten mit dominierter Konvergenz

Eϑ0 [¨(ϑ0)] + I(ϑ0) = Eϑ0 [L(ϑ0)/L(ϑ0)] =

∫L(ϑ0) dµ = 1 = 0.

Wir haben Pϑ0-f.s. mit dem starken Gesetz der groÿen Zahlen

Vn(ϑ0, x) := − 1

n

n∑i=1

¨(ϑ, xi)n→∞−−−→ −E[¨(ϑ0)] = I(ϑ0).

Weiterhin gilt auf Ωδ,n := |ϑn − ϑ0| < δ (ϑn aus (B2)):

Eϑ0 [|Vn(ϑn)− Vn(ϑ0)|1Ωδ,n ] 6 Eϑ0

[sup

|ϑ−ϑ0|<δ|¨(ϑ)− ¨(ϑ0)|

].

Der Ausdruck im rechten Erwartungswert ist unabhängig von n, konver-giert für δ → 0 gegen null (Stetigkeit von ¨) und ist durch 2H2 dominiert,so dass

limδ→0

lim supn→∞

Eϑ0 [|Vn(ϑn)− Vn(ϑ0)|1Ωδ,n ] = 0

folgt. Mit limδ→0 limn→∞ Pϑ0(Ωδ,n) = 1 und der Konvergenz von Vn(ϑ0)erhalten wir daher in P⊗nϑ0

-Wahrscheinlichkeit

Vn(ϑn) = Vn(ϑ0) + oP⊗nϑ0

(1)n→∞−−−→ I(ϑ0).

46

Page 49: Mathematische Statistik Skript zur Vorlesung im ... · Mathematische Statistik Skript zur Vorlesung im Sommersemester 2016 Markus Bibinger Philipps-Universität Marburg, Fb12 Mathematik

Bemerkungen.

(a) Die Fisher-Information I(ϑ0) gibt gerade sowohl die asymptotische Vari-anz der Score-Funktion als auch die lokale Krümmung der Kontrastfunk-tion KL(ϑ0 | •) beim Minimum ϑ0 an.

(b) Es ist bemerkenswert, dass unter Regularitätsannahmen in der asympto-tischen Verteilung des MLE sowohl Unverzerrtheit als auch Cramér-Rao-Ezienz gilt. Beachte jedoch, dass es weder klar noch im Allgemeinenkorrekt ist, dass die Momente ebenfalls konvergieren und dass die Cramér-Rao-Schranke auch asymptotisch gilt.

(c) Oft ist Θ nicht kompakt, aber man kann durch separate Untersuchung dieKonsistenz von ϑn nachweisen. Dann gelten die Konvergenzresultate na-türlich weiterhin.

(d) Die Regularitätsbedingungen lassen sich in natürlicher Weise abschwächen.Es reicht aus, dass (Pϑ) bei ϑ0 Hellinger-dierenzierbar ist sowie die Lo-glikelihoodfunktion ` in einer Umgebung von ϑ0 Lipschitzstetig in ϑ ist mitLipschitzkonstante in L2(Pϑ0). Dies wird in Satz 5.39 in Van der Vaart(1998) unter Verwendung von empirischer Prozesstheorie bewiesen.

4.21 Beispiel. Bei einer Exponentialfamilie mit natürlichem Parameterraumund natürlicher suzienter Statistik T erfüllt der MLE (so er existiert undin int(Θ) liegt) Eϑ(x)[T ] = T (x) und die Fisher-Information I(ϑ) = Varϑ(T )

(Kovarianzmatrix von T ). Es folgt also mit Regularitätsannahmen√n(ϑn −

ϑ0) → N(0,Covϑ0(T )−1) unter Pϑ0 . Bei einer Bernoullikette X1, . . . , Xn mitXi ∼ Bin(1, p) ist ϑ = log(p/(1− p)) der natürliche Parameter sowie T (x) = x.Aus√n(ϑn−ϑ0)→ N(0, p(ϑ0)−1(1−p(ϑ0))−1) folgt mittels ∆-Methode für die

p-Parametrisierung√n(pn − p0) → N(0, p0(1 − p0)). Wegen pn = X ist dieses

Resultat natürlich konkret einfach zu überprüfen.

4.22 Denition. Im Rahmen des vorigen Satzes heiÿt die zufällige Matrix

In(x) := − 1

n

n∑i=1

¨(ϑn(x), xi)

beobachtete Fisher-Informationsmatrix.

4.23 Korollar. Unter den Voraussetzungen des vorigen Satzes gilt unter Pϑ0

√nI(ϑn)1/2(ϑn − ϑ0)

d−→ N(0, Ek),√nI1/2

n (ϑn − ϑ0)d−→ N(0, Ek).

Insbesondere sind für k = 1 und das (1 − α/2)-Quantil q1−α/2 der Standard-

normalverteilung [ϑn − n−1/2I(ϑn)−1/2q1−α/2, ϑn + n−1/2I(ϑn)−1/2q1−α/2] und

[ϑn−n−1/2I−1/2n q1−α/2, ϑn +n−1/2I−1/2

n q1−α/2] Kondenzintervalle für ϑ0 zumasymptotischen Vertrauensniveau 1− α.

47

Page 50: Mathematische Statistik Skript zur Vorlesung im ... · Mathematische Statistik Skript zur Vorlesung im Sommersemester 2016 Markus Bibinger Philipps-Universität Marburg, Fb12 Mathematik

Beweis. Da ϑn konsistent ist und I stetig von ϑ abhängt (benutze Stetigkeitund Dominiertheit von ¨), folgt I(ϑn)→ I(ϑ0) in Pϑ0-Wahrscheinlichkeit. Eben-so liefert das Argument im obigen Nachweis der Eigenschaft (B2) In → I(ϑ0)Pϑ0-f.s. Nach dem Lemma von Slutsky folgt damit die Konvergenzaussage ge-gen I(ϑ0)1/2N(0, I(ϑ0)−1) = N(0, Ek). Die Konvergenz in Verteilung impliziert,dass die entsprechenden Kondenzintervalle asymptotisch das Niveau 1−α be-sitzen (wie im Limesmodell).

4.24 Beispiel.

(a) Bei natürlichen Exponentialfamilien ist die beobachtete Fisher-Information gerade A(ϑn) = I(ϑn), also führen beide Ansätze, die Fisher-Informationen zu schätzen, auf dasselbe Verfahren.

(b) Cox (1958) gibt folgendes Beispiel, um die Frage bedingter Inferenz zu klä-ren: es gibt zwei Maschinen, die Messwerte einer interessierenden Gröÿeϑ ∈ R mit einem N(0, σ2

a)-verteilten Fehler, a = 0, 1 und σ0 6= σ1, pro-duzieren. In n Versuchen wird zunächst rein zufällig eine Maschine ausge-wählt und dann ihr Messwert beobachtet. Wir beobachten also eine mathe-matische Stichprobe (Yi, ai)i=1,...,n mit P(ai = 0) = P(ai = 1) = 1/2 undYi ∼ N(ϑ, σ2

ai) bedingt auf ai. Wir erhalten die Loglikelihood-Funktion

`(ϑ; y, a) = const.− 1

2

n∑i=1

(yi − ϑ)2

2σ2ai

.

Der MLE ist also ϑn = (∑n

i=1 Yi/σ2ai)/(

∑ni=1 σ

−2ai ) und die Fisher-

Information I(ϑ) = 12σ2

0+ 1

2σ21

=: I (unabhängig von ϑ). ϑn ist (nach

Theorie oder mit direkten Argumenten) asymptotisch normalverteilt mitasymptotischer Varianz N(0, I−1), was auf asymptotische Kondenzinter-valle der Form ϑn± 1√

nI1/2q1−α/2 führt. Natürlich gilt I(ϑn) = I, während

die beobachtete Fisher-Information In =∑ni=1 ainσ2

0+

∑ni=1(1−ai)nσ2

1erfüllt. Da-

mit ist I−1n gerade gleich der bedingten Varianz Varϑ(n1/2ϑn | a). Da wir

ja a beobachten, ist die bedingte Varianz sicherlich ein sinnvolleres Maÿfür die Güte des Schätzers ϑn, im konkreten Beispiel der bedingten Nor-malverteilung können damit sogar einfach nicht-asymptotische bedingteKondenzintervalle angegeben werden. Efron und Hinkley (1978) bevor-zugen aus diesem Grund auch für allgemeinere Modelle, in denen (ap-proximativ) ancillary-Statistiken vorkommen, die Normalisierung mit derbeobachteten Fisher-Information gegenüber der plug-in-Schätzung I(ϑn).

(c) Eine Stichprobe X1, . . . , Xn ∼ Laplace(µ, σ) mit µ ∈ R unbekannt undσ > 0 xiert, ist ein Beispiel für eine asymptotische Konvergenz der Ver-teilung des Maximum-Likelihood-Schätzers für µ gegen die Normalvertei-lung, die nicht mit Hilfe des vorherigen Korollars bewiesen werden kann,da die Dichte nicht dierenzierbar auf R ist.

(d) Das Taxiproblem (vgl. Beispiel 4.14 (e)) ist ein Beispiel für keine Konver-genz gegen eine Normalverteilung.

48

Page 51: Mathematische Statistik Skript zur Vorlesung im ... · Mathematische Statistik Skript zur Vorlesung im Sommersemester 2016 Markus Bibinger Philipps-Universität Marburg, Fb12 Mathematik

4.4 Konzentrationsungleichungen

Um auch nicht-asymptotische Kondenzaussagen zu erhalten, muss man Wahr-scheinlichkeiten der Form Pϑ(|ϑn − ϑ| > κ) gleichmäÿig in ϑ ∈ Θ und für festesn abschätzen. Gerade in Anwendungen wird häug für gröÿere Stichprobenum-fänge n auch ein komplexeres Modell gewählt (z.B. mit dim(Θn)→∞), um beigleicher statistischer Güte des Verfahrens den Modellfehler zu verringern (jedesstatistische Modell ist falsch). Aus mathematischer Sicht ist es für Minimum-Kontrast-Schätzer zunächst natürlich, den Fehler durch K(ϑ0, ϑn) −K(ϑ0, ϑ0)zu messen (bei MLE: tted log-likelihood). Beim MLE für Exponentialfamilienentspricht dies gerade einem gewichteten quadratischen Verlust (s.o.).

4.25 Lemma. Für einen Minimum-Kontrast-Schätzer ϑn bezüglich einem Kon-trastprozess Kn und einer Funktion K(ϑ0, •), die ihr Minimum bei ϑ0 ∈ Θ0

annimmt (z.B. K Kontrastfunktion), gilt

0 6 K(ϑ0, ϑn)−K(ϑ0, ϑ0) 6(Kn(ϑ0)−Kn(ϑn)

)−(K(ϑ0, ϑ0)−K(ϑ0, ϑn)

)6 sup

ϑ∈Θ

((Kn(ϑ0)−Kn(ϑ)

)−(K(ϑ0, ϑ0)−K(ϑ0, ϑ)

)).

Beweis. Aus den Denitionen erhalten wir, dass K(ϑ0, ϑn) − K(ϑ0, ϑ0) undKn(ϑ0)−Kn(ϑn) nicht-negativ sind, so dass

0 6 K(ϑ0, ϑn)−K(ϑ0, ϑ0) 6(Kn(ϑ0)−Kn(ϑn)

)−(K(ϑ0, ϑ0)−K(ϑ0, ϑn)

).

Das zufällige Argument ϑn liefert stets einen kleineren Wert als das Maximum.

4.26 Beispiele. In Fortführung von Beispiel 4.10 erhalten wir:

(a) Beim MLE aus einer mathematischen Stichprobe X1, . . . , Xn gilt

KL(ϑ0 | ϑn) 6 supϑ∈Θ

( 1

n

n∑i=1

(`(ϑ,Xi)− `(ϑ0, Xi) + KL(ϑ0 |ϑ)

)).

Unter Pϑ0 hat der Term in Klammern Erwartungswert Null und eine Va-rianz von der Ordnung 1/n. Das Supremum lässt sich allerdings nichtunmittelbar behandeln.

Im Gauÿschen Shiftmodell Xi ∼ N(ϑ, σ2) gilt KL(ϑ0 | ϑn) = (ϑ0 −ϑn)2/(2σ2). Wir schätzen hier also einfach den quadratischen Verlust ab.

(b) Beim Kleinste-Quadrate-Schätzer im nichtlinearen Regressionsmodell giltunter Pϑ0

‖gϑn − gϑ0‖2L2 6 supϑ∈Θ

( 2

n

n∑i=1

εi(gϑ0 − gϑ)(xi)−1

n

n∑i=1

(gϑ0 − gϑ)2(xi)

+ ‖gϑ0 − gϑ‖2L2

).

49

Page 52: Mathematische Statistik Skript zur Vorlesung im ... · Mathematische Statistik Skript zur Vorlesung im Sommersemester 2016 Markus Bibinger Philipps-Universität Marburg, Fb12 Mathematik

Die letzten beiden Terme bilden einen deterministischen Approximati-onsfehler, der für glatte gϑ im Allgemeinen klein ist. Da auf den nicht-asymptotischen Fall Wert gelegt werden soll, ist es vernünftig, statt derL2([0, 1])-Norm die empirische L2-Norm ‖f‖2n := 1

n

∑ni=1 f(xi)

2 zu be-trachten, wo dieselben Argumente nur den stochastischen Term liefern:

‖gϑn − gϑ0‖2n 6 supϑ∈Θ

( 2

n

n∑i=1

εi(gϑ0 − gϑ)(xi)).

Der innere Term allein ist zentriert und besitzt die Varianz σ2

n ‖gϑ0 − gϑ‖2n(setze σ2 = Var(ε1)), ist also von der Ordnung n−1/2. Allerdings ist a prioriüberhaupt nicht klar, ob dasselbe für das Supremum gilt. Wenn beispiels-weise ((gϑ0 − gϑ)(xi))i=1,...,n |ϑ ∈ Θ einen Würfel z ∈ Rn | maxi|zi| 6r mit r > 0 enthält, so ist das Supremum gröÿer als r

n

∑ni=1|εi|, was im

Erwartungswert rE[|ε1|] ergibt und nicht gegen Null konvergiert.

4.27 Denition. Eine (reellwertige) Zufallsvariable X erfüllt eineExponentialungleichung mit Parametern C,D > 0, R ∈ [0,+∞], falls füralle r ∈ [0, R] gilt

P(|X| > r) 6 Ce−r/D.

4.28 Beispiel. Aus E[e|X|/D] 6 C <∞ folgt mittels verallgemeinerter Markov-ungleichung die Exponentialungleichung mit C,D > 0 für alle r > 0 (R =∞).

4.29 Satz (Bernstein-Ungleichung, 1923). Es seien X1, . . . , Xn unabhängigeZufallsvariablen mit E[Xi] = 0 und Sn :=

∑ni=1Xi. Falls für eine determinis-

tische Konstante K > 0 und alle i = 1, . . . , n fast sicher |Xi| 6 K gilt, sofolgt

P(|Sn| > κ) 6 2 exp(− κ2

4(Var(Sn) + κK)

), κ > 0.

Beweis. Siehe z.B. Van der Vaart (1998) Lemma 19.32.

4.30 Beispiele.

(a) Im Fall der Binomialverteilung erhalten wir für Tn =∑n

i=1(Yi − E[Yi])und eine Bernoullikette (Yi)i>1 mit Erfolgswahrscheinlichkeit p ∈ (0, 1):

|Yi − E[Yi]| 6 max(p, 1− p), Var(Tn) = np(1− p).

Also impliziert die Bernsteinungleichung

P(|Tn| > κ) 6 2 exp(−κ2/(4(np(1− p) + κmax(p, 1− p)))).

Für Sn =∑n

i=1 Yi ∼ Bin(n, p) folgt durch Skalierung

P(|Sn − np| > κ

√np(1− p)

)6 2 exp

(− κ2

4 + 4 max(p, 1− p)κ(np(1− p))−1/2

).

50

Page 53: Mathematische Statistik Skript zur Vorlesung im ... · Mathematische Statistik Skript zur Vorlesung im Sommersemester 2016 Markus Bibinger Philipps-Universität Marburg, Fb12 Mathematik

Dies bedeutet, dass für groÿe n (bei festem p) die tails (Flanken) der stan-dardisierten Binomialverteilung fast wie e−κ

2/4 abfallen, also Gauÿschetails vorliegen. Im Fall npn → λ > 0 für n → ∞ ergibt sich nur eine Ex-ponentialungleichung der Ordnung e−κ

√λ/4, sogenannte Poissonsche tails

(vgl. Poissonscher Grenzwertsatz).

(b) Wenn die (Xi) eine Exponentialungleichung mit denselben ParameternC,D,R > 0 erfüllen, so folgt für beliebiges r ∈ [0, R] durch Fallunterschei-dung

P(|Sn| > κ) 6 P(∃i = 1, . . . , n : |Xi| > r) + 2 exp(− κ2

4(Var(Sn) + κr)

).

Der erste Term ist kleiner als nCe−r/D und wir wählen r = D(log(n) +κ2/(4 Var(Sn))) (sofern kleiner R), so dass wir insgesamt die Abschätzung

P(|Sn| > κ) 6 (2+C) exp(− κ2

4(Var(Sn) + κD log(n) + κ3D/(4 Var(Sn)))

)erhalten. Im i.i.d.-Fall gilt Var(Sn) = nVar(Xi) und Abweichungen von Snder Gröÿe x

√n sind im wesentlichen durch Gauÿsche tails e−x

2/(4 Var(Xi))

beschränkt, sofern x = o(n1/6) gilt:

P(|Sn| > x√n) 6 (2+C) exp

(− x2

4 Var(Xi) + 4xD√n

(log(n) + x2/(4 Var(Xi)))

).

Um das Supremum in Lemma 4.25 abzuschätzen, werden wir Aϑ =√n(Kn(ϑ)−K(ϑ0, ϑ)) im folgenden Satz betrachten.

4.31 Satz. Es sei (Aϑ, ϑ ∈ Θ) mit Θ ⊆ Rk beschränkt ein stetiger Prozess (d.h.ϑ 7→ Aϑ ist f.s. stetig) und es mögen die Exponentialungleichung

∀ϑ, ϑ′ ∈ Θ : P(|Aϑ −Aϑ′ | > r|ϑ− ϑ′|) 6 Ce−r/D, r ∈ [0, R],

bzw.

∀ϑ, ϑ′ ∈ Θ : P(|Aϑ −Aϑ′ | > r|ϑ− ϑ′|) 6 Ce−r2/D2

, r ∈ [0, R],

mit Konstanten C,D > 0, R ∈ (0,+∞] gelten. Dann gibt es für beliebige ϑ0 ∈ Θ,δ > 0 eine Konstante Cδ,k, so dass mit ρ := supϑ∈Θ|ϑ− ϑ0|

P(

supϑ∈Θ|Aϑ −Aϑ0 | > rρ

)6 Cδ,k exp

(− r

(2 + δ)D

), r ∈ [0, R],

bzw.

P(

supϑ∈Θ|Aϑ −Aϑ0 | > rρ

)6 Cδ,k exp

(− r2

((2 + δ)D)2

), r ∈ [0, R],

gilt. Cδ,k wächst dabei mit der Dimension k und mit δ−1.

51

Page 54: Mathematische Statistik Skript zur Vorlesung im ... · Mathematische Statistik Skript zur Vorlesung im Sommersemester 2016 Markus Bibinger Philipps-Universität Marburg, Fb12 Mathematik

Beweis. Setze Θ0 = ϑ0 und wähle endliche Teilmengen Θj−1 ⊆ Θj ⊆ Θ fürj > 1 mit supϑ∈Θ infϑj∈Θj |ϑ − ϑj | 6 ρ2−j (Θj ist ρ2−j-Netz). Man kann stets|Θj | 6 C12jk mit einer Konstanten C1 = C1(k) > 0 erreichen.

Für jedes ϑ ∈ Θ konvergiert τj(ϑ) := argminϑj∈Θj |ϑ− ϑj | für j →∞ gegenϑ. Wegen der Stetigkeit von A gilt Aϑ − Aϑ0 =

∑∞j=1(Aτj(ϑ) − Aτj−1(ϑ)). Wir

verwenden nun ein Chaining-Argument, indem wir ηj > 0 mit∑

j>1 ηj = 1wählen:

P(

supϑ∈Θ|Aϑ −Aϑ0 | > rρ

)6 P

(∃j > 1 : sup

ϑj∈Θj

|Aϑj −Aτj−1(ϑj)| > rρηj

)6∑j>1

|Θj | sup|ϑ−ϑ′|6ρ2−j+1

P(|Aϑ −Aϑ′ | > rρηj)

6∑j>1

C12jkC exp(−(rηj2j−1/D)β)

mit β ∈ 1, 2 (je nach Voraussetzung). Wähle nun ηj = ((1 + εjk)2−j+1)/C2

mit C2 =∑

j>1(1 + εjk)2−j+1 = 2 + 4εk. Dann ist die letzte Zeile kleiner als

CC1e−rβ/(DC2)β

∑j>1

2jke−(rεjk/(DC2))β .

Für ε := 2D/(r − 4k) und r > 4k ist die Summe maximal 2k/(ek − 2k). Da fürkleines r eine Exponentialungleichung stets durch Vergröÿerung des VorfaktorsC erreicht werden kann, können wir für jedes δ > 0 eine Konstante Cδ,k >CC12k/(ek − 2k) wählen, so dass die Behauptung gilt.

5 Parametrische Testtheorie

5.1 Neyman-Pearson-Theorie

5.1 Denition. Es sei (X ,F , (Pϑ)ϑ∈Θ) ein statistisches Modell mit ZerlegungΘ = Θ0∪Θ1. Jede messbare Funktion ϕ : X → [0, 1] heiÿt (randomisierter) Test.ϕ besitzt Niveau α ∈ [0, 1], falls Eϑ[ϕ] 6 α für alle ϑ ∈ Θ0 gilt. Die Abbildungϑ 7→ Eϑ[ϕ] heiÿt Gütefunktion von ϕ. Ein Test ϕ der Hypothese H0 : ϑ ∈ Θ0

gegen die Alternative H1 : ϑ ∈ Θ1 ist ein gleichmäÿig bester Test zum Niveauα, falls ϕ Niveau α besitzt sowie für alle anderen Tests ϕ′ vom Niveau α dieMacht (power) nicht gröÿer als die von ϕ ist:

∀ϑ ∈ Θ1 : Eϑ[ϕ] > Eϑ[ϕ′].

Ein Test ϕ ist unverfälscht zum Niveau α, falls ϕ Niveau α besitzt sowie auf derAlternative Eϑ[ϕ] > α, ϑ ∈ Θ1, gilt. ϕ heiÿt gleichmäÿig bester unverfälschterTest zum Niveau α, falls ϕ unverfälscht zum Niveau α ist sowie alle anderenunverfälschten Tests ϕ′ zum Niveau α nicht gröÿere Macht besitzen.

5.2 Beispiel. Es sei X1, . . . , Xn eine N(µ, σ20)-verteilte mathematische Stich-

probe mit µ ∈ R unbekannt sowie σ0 > 0 bekannt. Es soll die einseitige Hypothe-se H0 : µ 6 µ0 gegen H1 : µ > µ0 für ein vorgegebenes µ0 ∈ R getestet werden.

52

Page 55: Mathematische Statistik Skript zur Vorlesung im ... · Mathematische Statistik Skript zur Vorlesung im Sommersemester 2016 Markus Bibinger Philipps-Universität Marburg, Fb12 Mathematik

Dies lässt sich durch X = Rn mit Borel-σ-Algebra F und Verteilungen Pµ =N(µ1, σ2

0En) modellieren, wobei Θ = R und Θ0 = (−∞, µ0], Θ1 = (µ0,∞) ge-setzt wird. Der einseitige Gauÿ-Test beruht auf der unterN(µ0, σ

20) standardnor-

malverteilten Teststatistik T (X1, . . . , Xn) =√n(X − µ0)/σ0. Zu vorgegebenem

α ∈ (0, 1) sei Kα das α-Fraktil der Standardnormalverteilung, d.h. 1−Φ(Kα) =α. Dann besitzt der einseitige Gauÿ-Test ϕ(X1, . . . , Xn) = 1T (X1,...,Xn)>Kα dasNiveau α; es gilt nämlich nach Konstruktion Pµ(ϕ = 1) = α für µ = µ0 sowieaus Monotoniegründen Pµ(ϕ = 1) < α für µ < µ0.

5.3 Denition. Es sei (X ,F , (Pϑ)ϑ∈Θ) ein (binäres) statistisches Modell mitΘ = 0, 1. Bezeichnet pi, i = 0, 1, die Dichte von Pi bezüglich P0 +P1, so heiÿtein Test der Form

ϕ(x) =

1, falls p1(x) > kp0(x)

0, falls p1(x) < kp0(x)

γ(x), falls p1(x) = kp0(x)

mit kritischem Wert k ∈ R+ und γ(x) ∈ [0, 1] Neyman-Pearson-Test.

5.4 Satz (Neyman-Pearson-Lemma).

(a) Jeder Neyman-Pearson-Test ϕ ist ein (gleichmäÿig) bester Test für H0 :ϑ = 0 gegen H1 : ϑ = 1 zum Niveau E0[ϕ].

(b) Für jedes vorgegebene α ∈ (0, 1) gibt es einen Neyman-Pearson-Test zumNiveau α mit γ(x) = γ ∈ [0, 1] konstant.

Beweis.

(a) Betrachte einen beliebigen Test ϕ′ vom Niveau E0[ϕ]. Es gilt p1(x) >kp0(x) für x ∈ A := ϕ > ϕ′ wegen ϕ(x) > 0 sowie p1(x) 6 kp0(x)für x ∈ B := ϕ < ϕ′ wegen ϕ(x) < 1. Mit der disjunkten ZerlegungX = A ∪B ∪ ϕ = ϕ′ erhalten wir

E1[ϕ]− E1[ϕ′] =

∫A∪B

(ϕ− ϕ′)p1 >∫A

(ϕ− ϕ′)kp0 +

∫B

(ϕ− ϕ′)kp0

= k(E0[ϕ]− E0[ϕ′]) > 0.

(b) Wir zeigen im Anschluss, dass es ein k > 0 gibt mit P0(p1 > kp0) > αund P0(p1 > kp0) 6 α (k ist (1 − α)-Quantil von p1/p0 unter P0). Dannbesitzt mit γ := (α−P0(p1 > kp0))/P0(p1 = kp0) bzw. γ ∈ [0, 1] beliebig,falls P0(p1 = kp0) = 0, der entsprechende Neyman-Pearson-Test ϕ Niveauα: E0[ϕ] = 1•P0(p1 > kp0) + γ•P0(p1 = kp0) = α.

Es bleibt nachzuweisen, dass k := infr > 0 | ρ(r) 6 α mit ρ(r) :=P0(p1 > rp0) das gewünschte Quantil ist. Wegen P0(p0 = 0) = 0 undσ-Stetigkeit von P0 gilt limr→∞ ρ(r) = 0, und k ist endlich. Weiterhinist ρ(r) = 1 − P0(p1/p0 6 r) monoton fallend und rechtsstetig, was ausEigenschaften der Verteilungsfunktion von p1/p0 folgt. Daher gilt ρ(k) 6 αund ρ(r) > α für r < k, so dass

α 6 limr↑k

ρ(r) = limr↑k

P0(p1 > rp0) = P0(p1 > kp0)

53

Page 56: Mathematische Statistik Skript zur Vorlesung im ... · Mathematische Statistik Skript zur Vorlesung im Sommersemester 2016 Markus Bibinger Philipps-Universität Marburg, Fb12 Mathematik

aus der σ-Stetigkeit folgt.

5.5 Satz. Jeder gleichmäÿig beste Test für eine einfache Hypothese gegen eineeinfache Alternative besitzt fast sicher die Form eines Neyman-Pearson-Tests.

Beweis. Sei ϕ′ gleichmäÿig bester Test für H0 : ϑ = 0 gegen H1 : ϑ = 1 zumNiveau α := E0[ϕ′] ∈ (0, 1). Sei ϕ ein Neyman-Pearson-Test zum Niveau α. Wieim Beweis des Neyman-Pearson-Lemmas gilt p1(x) > kp0(x) für x ∈ A := ϕ >ϕ′ wegen ϕ(x) > 0 und p1(x) 6 kp0(x) für x ∈ B := ϕ < ϕ′ wegen ϕ(x) < 1.Einerseits gilt ∫

ϕ6=ϕ′,p1 6=kp0

(ϕ− ϕ′)(p1 − kp0)︸ ︷︷ ︸>0

> 0.

Andererseits gilt∫ϕ6=ϕ′,p1 6=kp0

(ϕ− ϕ′)(p1 − kp0) =

∫(ϕ− ϕ′)(p1 − kp0)

=E1[ϕ]− E1[ϕ′] 6 0,

da ϕ′ gleichmäÿig bester Test zum Niveau α ist. Also ist das Integral gleich Nullund der Integrationsbereich ϕ 6= ϕ′ ∩ p1 6= kp0 eine Nullmenge.

5.6 Satz (Verallgemeinertes NP-Lemma). Es seien (X ,F , (Pϑ)ϑ∈Θ) mit Θ =0, 1 ein (binäres) statistisches Modell, p0, p1 die entsprechenden Dichten undT ∈ L1(P0) eine reellwertige Statistik. Ein Test der Form

ϕ(x) =

1, falls p1(x) > kp0(x) + lT (x)p0(x)

0, falls p1(x) < kp0(x) + lT (x)p0(x)

γ, falls p1(x) = kp0(x) + lT (x)p0(x)

mit k, l ∈ R+ und γ ∈ [0, 1], der für α ∈ [0, 1] die Nebenbedingungen

E0[ϕ] = α und E0[Tϕ] = αE0[T ]

erfüllt, maximiert die Güte E1[ϕ] in der Menge aller Tests, die diese Nebenbe-dingungen erfüllen.

Beweis. Sei ϕ′ ein Test, der die Nebenbedingungen E0[ϕ′] = α und E0[Tϕ′] =αE0[T ] erfüllt. Es ist zu zeigen, dass Eϑ1 [ϕ− ϕ′] > 0. Es gilt p1(x) > kp0(x) +lT (x)p0(x) für x ∈ A := ϕ > ϕ′ wegen ϕ(x) > 0 und p1(x) 6 kp0(x) +lT (x)p0(x) für x ∈ B := ϕ < ϕ′ wegen ϕ(x) < 1.

Wir erhalten ∫(ϕ− ϕ′)(p1 − (kp0 + lTp0))

=

∫A

(ϕ− ϕ′)(p1 − (kp0 + lTp0))

+

∫B

(ϕ− ϕ′)(p1 − (kp0 + lTp0))

>0.

54

Page 57: Mathematische Statistik Skript zur Vorlesung im ... · Mathematische Statistik Skript zur Vorlesung im Sommersemester 2016 Markus Bibinger Philipps-Universität Marburg, Fb12 Mathematik

Damit folgt

Eϑ1 [ϕ− ϕ′]) =

∫(ϕ− ϕ′)p1 >

∫(ϕ− ϕ′)(kp0 + lTp0)

= kEϑ0 [ϕ− ϕ′] + lEϑ0 [Tϕ− Tϕ′] = 0.

Die Neyman-Pearson-Theorie liefert einem also gleichmäÿig beste Tests ein-facher Hypothesen gegen einfache Alternativen. Im Allgemeinen gibt es für kom-plexere Hypothesen keine gleichmäÿig besten Tests.

5.7 Beispiel. Betrachte X ∼ N(µ, 1) mit unbekanntem Parameter µ ∈ R. Fürein Testproblem H0 : µ = 0 gegen H1 : µ = µ0 6= 0 ist der zugehörige Neyman-Pearson-Test gleichmäÿig bester Test. Bezeichne diesen als ϕ falls µ0 > 0 bzw. ϕfalls µ0 < 0.Betrachte nun das Testproblem H0 : µ = 0 gegen die zweielementige AlternativeH1 : µ ∈ µ0, µ1 mit µ0 < 0 und µ1 > 0. Für einen gleichmäÿig besten Test ϕmüsste nun gelten:

Eµ[ϕ] > max(Eµ[ϕ],Eµ[ϕ]

)für µ = µ0 und µ = µ1 .

So ein Test kann aber nicht existieren, vgl. Bsp. 10.5 in Romano and Siegel(1986).

5.2 Gleichmäÿig beste einseitige Tests

5.8 Denition. Es seien (X ,F , (Pϑ)ϑ∈Θ) ein dominiertes Modell mit Θ ⊆ Rund Likelihoodfunktion L(ϑ, x) sowie T eine reellwertige Statistik. Dann be-sitzt die Familie (Pϑ)ϑ∈Θ monotonen Likelihoodquotienten (oder wachsendenDichtequotienten) in T , falls

(a) ϑ 6= ϑ′ ⇒ Pϑ 6= Pϑ′ ;

(b) Für alle ϑ < ϑ′ gibt es eine monoton wachsende Funktion h(•, ϑ, ϑ′) : R→R+ ∪+∞ mit (Konvention a/0 := +∞ für a > 0)

L(ϑ′, x)

L(ϑ, x)= h(T (x), ϑ, ϑ′) für (Pϑ +Pϑ′)-f.a. x ∈ X .

5.9 Satz. Ist (Pϑ)ϑ∈Θ mit Θ ⊆ R eine einparametrische Exponentialfamilie inη(ϑ) und T , so besitzt sie einen monotonen Dichtequotienten, sofern η strengmonoton wächst.

Beweis. Wir können den Likelihood-Quotienten schreiben als

L(ϑ′, x)

L(ϑ, x)= h(T (x), ϑ, ϑ′) mit h(t, ϑ, ϑ′) = C(ϑ′)C(ϑ)−1 exp((η(ϑ′)− η(ϑ))t).

Oensichtlich ist h streng monoton wachsend in t für ϑ′ > ϑ wegen η(ϑ′) > η(ϑ).Die strenge Monotonie impliziert auch, dass Pϑ 6= Pϑ′ gilt.

55

Page 58: Mathematische Statistik Skript zur Vorlesung im ... · Mathematische Statistik Skript zur Vorlesung im Sommersemester 2016 Markus Bibinger Philipps-Universität Marburg, Fb12 Mathematik

5.10 Beispiel. Beim Binomialmodell X ∼ Bin(n, p) mit p ∈ (0, 1) liegt eineExponentialfamilie in η(p) = log(p/(1− p)) und T (x) = x vor. η wächst strengmonoton, so dass dieses Modell einen monotonen Dichtequotienten in X besitzt.Direkt folgt dies aus der Monotonie bezüglich x des Dichtequotienten:(

nx

)px(1− p)n−x(

nx

)rx(1− r)n−x

=(p(1− r)r(1− p)

)x(1− p1− r

)n, x = 0, . . . , n, p > r.

5.11 Satz. Die Familie (Pϑ)ϑ∈Θ, Θ ⊆ R, besitze monotonen Dichtequotientenin T . Für α ∈ (0, 1) und ϑ0 ∈ Θ gilt dann:

(a) Unter allen Tests ϕ für das einseitige Testproblem H0 : ϑ 6 ϑ0 gegenH1 : ϑ > ϑ0 mit der Eigenschaft Eϑ0 [ϕ] = α gibt es einen Test ϕ∗, der dieFehlerwahrscheinlichkeiten erster und zweiter Art gleichmäÿig minimiert,nämlich

ϕ∗(x) =

1, falls T (x) > k,

0, falls T (x) < k,

γ, falls T (x) = k,

wobei k ∈ R, γ ∈ [0, 1] gemäÿ Eϑ0 [ϕ∗] = α bestimmt werden.

(b) Dieser Test ϕ∗ ist gleichmäÿig bester Test zum Niveau α für H0 : ϑ 6 ϑ0

gegen H1 : ϑ > ϑ0.

Beweis.

(a) Die Existenz von k, γ folgt wie im Neyman-Pearson-Lemma. Wähle ϑ2 >ϑ1 beliebig. Wegen des monotonen Likelihoodquotienten gilt

ϕ∗(x) =

1, falls L(ϑ2, x) > h(ϑ1, ϑ2, k)L(ϑ1, x),

0, falls L(ϑ2, x) < h(ϑ1, ϑ2, k)L(ϑ1, x).

Damit ist ϕ∗ gleichmäÿig bester Test von H0 : ϑ = ϑ1 gegen H1 : ϑ = ϑ2

zum vorgegebenen Niveau. Insbesondere ist die Fehlerwahrscheinlichkeitzweiter Art 1− Eϑ2 [ϕ∗] minimal für ϑ2 > ϑ0 zu vorgegebenen Niveau beiϑ1 = ϑ0. Für jeden Test ϕmit kleinerer Fehlerwahrscheinlichkeit erster Artbei ϑ1 < ϑ0, d.h. Eϑ1 [ϕ] < Eϑ1 [ϕ∗], gilt Eϑ0 [ϕ] < Eϑ0 [ϕ∗]; denn sonst wäre

ϕ = κϕ + (1 − κ) mit κ =1−Eϑ1

[ϕ∗]

1−Eϑ1[ϕ] ein besserer Test als ϕ∗ zum Niveau

Eϑ1 [ϕ∗]. Demnach gilt Eϑ1 [ϕ] > Eϑ1 [ϕ∗] für jeden Test ϕ mit Eϑ0 [ϕ] = α

(b) Da jeder Test ϕ auf H0 : ϑ = ϑ0 zum Niveau α durch ϕ = κϕ+(1−κ) mitκ = 1−α

1−Eϑ0[ϕ] zu einem besseren Test mit Eϑ0 [ϕ] = α gemacht werden kann,

bleibt nur noch zu zeigen, dass ϕ∗ das Niveau α für H0 : ϑ 6 ϑ0 einhält.In (a) haben wir gesehen, dass ϕ∗ auch bester Test für H0 : ϑ = ϑ1 mitϑ1 < ϑ0 gegen H1 : ϑ = ϑ0 ist, so dass im Vergleich zum konstanten Testϕ = Eϑ1 [ϕ∗] folgt Eϑ0 [ϕ∗] > Eϑ0 [ϕ] = Eϑ1 [ϕ∗]. Wir schlieÿen Eϑ1 [ϕ] 6 αfür alle ϑ1 < ϑ0.

56

Page 59: Mathematische Statistik Skript zur Vorlesung im ... · Mathematische Statistik Skript zur Vorlesung im Sommersemester 2016 Markus Bibinger Philipps-Universität Marburg, Fb12 Mathematik

5.12 Beispiel. Der einseitige Gauÿ-Test aus Beispiel 5.2 ist gleichmäÿig besterTest, da N(µ1, σ2

0En) monotonen Dichtequotienten in T (x) = x besitzt.

Bemerkungen.

(a) Die Gütefunktion Gϕ∗(ϑ) = Eϑ[ϕ∗] ist sogar streng monoton wachsend füralle ϑ mit Gϕ∗(ϑ) ∈ (0, 1), wie ein ähnlicher Beweis ergibt.

(b) Im Beweis wurde eine Konvexkombination ϕ von Tests betrachtet.Dieses Argument lässt sich gut geometrisch darstellen. Allgemein be-trachte bei einem binären Modell mit (P0,P1) die Menge C :=(E0[ϕ],E1[ϕ]) |ϕ Test ⊆ [0, 1]2. Diese ist konvex (Menge der Tests istkonvex), abgeschlossen (folgt aus dem Satz von Banach-Alaoglu) und ent-hält die Diagonale (betrachte konstante Tests). Neyman-Pearson-Testsentsprechen dann gerade der oberen Begrenzungskurve von C.

5.3 Gleichmäÿig beste unverfälschte zweiseitige Tests

Gegenbeispiel 5.7 motiviert für zweiseitige Testprobleme gleichmäÿig beste Testsinnerhalb der Klasse unverfälschter Tests anzustreben.

5.13 Satz. (Pϑ)ϑ∈Θ sei eine einparametrische Exponentialfamilie in η(ϑ) undT . Θ ⊆ R sei oen, ϑ0 ∈ Θ und η sei streng monoton (wachsend oder fallend)und stetig dierenzierbar um ϑ0 mit η′(ϑ0) 6= 0. Für α ∈ (0, 1), k1 < k2 undγ1, γ2 ∈ [0, 1] erfülle der Test

ϕ∗(x) =

1, falls T (x) < k1 oder T (x) > k2

0, falls T (x) ∈ (k1, k2)

γi, falls T (x) = ki, i = 1, 2

die Nebenbedingungen

Eϑ0 [ϕ∗] = α und Eϑ0 [Tϕ∗] = αEϑ0 [T ].

Dann ist ϕ∗ gleichmäÿig bester unverfälschter Test zum Niveau α für daszweiseitige Testproblem H0 : ϑ = ϑ0 gegen H1 : ϑ 6= ϑ0.

Beweis. Wir zeigen, dass ϕ∗ für P1 = Pϑ1 6= P0 = Pϑ0 die Form aus demverallgemeinerten Neyman-Pearson-Lemma besitzt. Mit a = η(ϑ1)− η(ϑ0) 6= 0,b = log(C(ϑ1)/C(ϑ0)) gilt

L(ϑ1, x) > kL(ϑ0, x) + lT (x)L(ϑ0, x) ⇐⇒ exp(aT (x) + b) > lT (x) + k.

Wähle nun k, l ∈ R so, dass die Gerade t 7→ lt+ k die streng konvexe Funktiont 7→ exp(at+ b) genau bei t ∈ k1, k2 schneidet. Dann gilt

L(ϑ1, x) > kL(ϑ0, x) + lT (x)L(ϑ0, x) ⇐⇒ T (x) /∈ [k1, k2]⇒ ϕ∗(x) = 1.

Analoge Äquivalenzen zeigen, dass ϕ∗ die gewünschte Form besitzt, und für je-den Test ϕ, der die Nebenbedingungen erfüllt, gilt Eϑ1 [ϕ∗] > Eϑ1 [ϕ] für ϑ1 6= ϑ0.

57

Page 60: Mathematische Statistik Skript zur Vorlesung im ... · Mathematische Statistik Skript zur Vorlesung im Sommersemester 2016 Markus Bibinger Philipps-Universität Marburg, Fb12 Mathematik

Jede Gütefunktion eines unverfälschten Tests ϕ besitzt bei ϑ0 eine Minimalstelleund erfüllt wegen dominierter Konvergenz (vergleiche Satz 3.8)

G′ϕ(ϑ0) = 0⇒∫ϕ(x)

(C(ϑ0)η′(ϑ0)T (x) + C ′(ϑ0)

)exp(η(ϑ0)T (x))µ(dx) = 0.

Wir erhalten also η′(ϑ0)Eϑ0 [ϕT ] + αC ′(ϑ0)/C(ϑ0) = 0. Für den konstantenunverfälschten Test ϕα(x) := α impliziert dies η′(ϑ0)Eϑ0 [T ]+C ′(ϑ0)/C(ϑ0) = 0,so dass jeder unverfälschte Test ϕ die angegebenen Nebenbedingungen erfülltund ϕ∗ gleichmäÿig bester Test in der Klasse ist.

Schlieÿlich ist ϕ∗ selbst unverfälscht, weil er besser als ϕα ist und daherEϑ[ϕ∗] > Eϑ[ϕα] = α für alle ϑ 6= ϑ0 erfüllt.

5.14 Beispiel. Es sei X1, . . . , Xn ∼ N(ϑ, σ2) eine mathematische Stichprobemit ϑ ∈ R unbekannt und σ > 0 bekannt. Es liegt eine einparametrische Ex-ponentialfamilie in T (x) =

∑ni=1 xi und η(ϑ) = ϑ/σ2 vor. Für ϑ0 ∈ R gilt

η′(ϑ) = σ−2 > 0, und wir bestimmen einen gleichmäÿig besten unverfälschtenTest von H0 : ϑ = ϑ0 gegen H1 : ϑ 6= ϑ0 gemäÿ obigem Satz. Aus Symme-triegründen wähle k1 = nϑ0 − k, k2 = nϑ0 + k und verzichte wegen stetigerVerteilung auf Randomisierung, so dass ϕ∗ = 1(|T (x) − nϑ0| > k) gilt. Wirerhalten mit Z =

∑ni=1(Xi − ϑ0) ∼ N(0, nσ2) unter Pϑ0 :

Eϑ0 [ϕ∗T ] = E[(nϑ0 + Z)1(|Z| > k)] = E[nϑ01(|Z| > k)] = Eϑ0 [T ]Eϑ0 [ϕ∗].

Wählt man also k = σ√nq1−α/2 mit dem (1−α/2)-Quantil q1−α/2 von N(0, 1),

so gilt Eϑ0 [ϕ∗] = α, und der beidseitige Gauÿtest ϕ∗ ist wie erwartet gleich-mäÿig bester unverfälschter Test.

Gegenbeispiel 10.19 in Romano and Siegel (1986) zeigt, dass in einer zwei-parametrischen Exponentialfamilie im Allgemeinen kein gleichmäÿig bester un-verfälschter Test existiert.

5.4 Bedingte Tests

5.15 Beispiel. In vielen Fällen sind bestimmte Parameter der Verteilung füreinen Test nicht von Interesse, aber sie beeinussen die Güte eines Tests (soge-nannte Störparameter oder nuisance-Parameter). Als wichtiges Beispiel habenwir bereits den t-Test kennengelernt, wo eine Hypothese über den Mittelwertµ bei unbekannter Varianz im Normalverteilungsmodell X1, . . . , Xn ∼ N(ϑ, σ2)getestet wird. Eine weitere wichtige Klasse bilden sogenannte Mehrstichproben-tests, wo nur das Verhältnis von Kennwerten (wie Mittelwert) zwischen denStichproben getestet wird.

5.16 Denition. Es sei Θ′ ⊆ Θ. Dann heiÿt ein Test ϕ α-ähnlich auf Θ′, wennEϑ[ϕ] = α für alle ϑ ∈ Θ′ gilt.

5.17 Lemma. Die Parametermenge Θ = Θ0∪Θ1 bilde einen metrischen Raumund ∂Θ0 bezeichne den topologischen Rand zwischen Hypothese und Alternative.Gilt für die Verteilungen (Pϑ), dass jeder Test eine stetige Gütefunktion besitzt,und ist ϕ gleichmäÿig bester Test von H0 : ϑ ∈ Θ0 gegen H1 : ϑ ∈ Θ1 unterallen α-ähnlichen Tests auf ∂Θ0, so ist ϕ auch gleichmäÿig bester unverfälschterTest von H0 : ϑ ∈ Θ0 gegen H1 : ϑ ∈ Θ1.

58

Page 61: Mathematische Statistik Skript zur Vorlesung im ... · Mathematische Statistik Skript zur Vorlesung im Sommersemester 2016 Markus Bibinger Philipps-Universität Marburg, Fb12 Mathematik

Beweis. Aus Stetigkeitsgründen erfüllt jeder unverfälschte Test ϕ′: Gϕ′(ϑ) = αfür ϑ ∈ ∂Θ0, ist also α-ähnlich auf ∂Θ0. Daher ist ϕ auch gleichmäÿig besterTest gegenüber den unverfälschten Tests, und ϕ ist selbst unverfälscht, da ϕgleichmäÿig besser als der konstante Test ϕ = α ist.

5.18 Lemma. Ist T eine bezüglich Θ′ vollständige und suziente Statistik undist ϕ ein auf Θ′ α-ähnlicher Test, so gilt E•[ϕ |T ] = α Pϑ-f.s. für alle ϑ ∈ Θ′.

Beweis. Aus Suzienz und Vollständigkeit folgern wir jeweils für alle ϑ ∈ Θ′

Eϑ[ϕ− α] = 0⇒ Eϑ[E•[ϕ− α |T ]] = 0⇒ E•[ϕ− α |T ] = 0 Pϑ -f.s.

5.19 Satz. Gegeben sei die natürliche Exponentialfamilie

dPϑ,τdµ

(x) = C(ϑ, τ) exp(ϑU(x) + 〈τ, T 〉

), x ∈ X , (ϑ, τ) = (ϑ, τ1, . . . , τk) ∈ Θ,

sowie α ∈ (0, 1) und ϑ0 ∈ R mit (ϑ0, τ) ∈ int(Θ) für ein τ ∈ Rk. Dann ist

ϕ∗(x) =

1, falls U(x) > K(T (x))

0, falls U(x) < K(T (x))

γ(T (x)), falls U(x) = K(T (x))

mit K(t) ∈ R, γ(t) ∈ [0, 1] derart, dass Eϑ0 [ϕ∗ |T ] = α Pϑ0-f.s., ein gleichmäÿigbester unverfälschter Test zum Niveau α von H0 : ϑ 6 ϑ0 gegen H1 : ϑ > ϑ0.

Bemerkung. Der Beweis wird zeigen, dass die bedingte Verteilung von ϕ∗ ge-geben T unter Pϑ0 nicht von den Störparametern τ abhängt, diese also für dieWahl von K(t), γ(t) unerheblich sind.

Beweis. Die bedingte Dichte von PU |T=tϑ,τ bezüglich µU |T=t (ohne Einschränkung

sei µWahrscheinlichkeitsmaÿ, sonst betrachte µ = Pϑ für ein ϑ ∈ Θ) ist gegebendurch

dPU |T=tϑ,τ

dµU |T=t(u) =

exp(ϑu+ 〈τ, t〉)∫exp(ϑv + 〈τ, t〉)µ(dv)

= C(ϑ)eϑu, u ∈ R,

insbesondere also unabhängig von τ . Unter der Bedingung T = t ist also

ϕ∗(u, t) =

1, falls u > K(t)

0, falls u < K(t)

γ(t), falls u = K(t)

mit Eϑ0 [ϕ∗(U, T ) |T = t] = α (beachte: bedingte Erwartung ist unabhängig vonτ) ein gleichmäÿig bester Test für H0 : ϑ 6 ϑ0 gegen H1 : ϑ > ϑ0.

Betrachte ∂Θ0 := τ ∈ Rk | (ϑ0, τ) ∈ Θ, das nichtleeres Inneres in Rkbesitzt. In Exponentialfamilien ist die Gütefunktion eines beliebigen Tests stetig,was aus der Stetigkeit von (ϑ, τ) 7→ dPϑ,τ

dµ (x) und dem Lemma von Scheé (eine

59

Page 62: Mathematische Statistik Skript zur Vorlesung im ... · Mathematische Statistik Skript zur Vorlesung im Sommersemester 2016 Markus Bibinger Philipps-Universität Marburg, Fb12 Mathematik

Anwendung des Lemmas von Fatou, s. Van der Vaart (1998), Kor. 2.30) folgt(ohne Details). Also reicht es nach Lemma 5.17, zu zeigen, dass ϕ∗ gleichmäÿigbester Test unter allen α-ähnlichen Tests ϕ auf ∂Θ0 ist. Da ∂Θ0 nichtleeresInneres im Rk besitzt, ist T suziente und bezüglich ∂Θ0 vollständige Statistik,so dass Lemma 5.18 für diese Tests Eϑ0 [ϕ |T ] = α liefert. Da ϕ∗(•, t) die Güteder bedingten Tests mit Eϑ0 [ϕ |T = t] = α nach dem Satz über beste einseitigeTests maximiert, folgt für ϑ > ϑ0 und τ ∈ Rk mit (ϑ, τ) ∈ Θ

Eϑ,τ [ϕ∗(U, T )] = Eϑ,τ [Eϑ,τ [ϕ∗(U, T ) |T ]] > Eϑ,τ [Eϑ,τ [ϕ |T ]] = Eϑ,τ [ϕ].

Als technische Feinheit bleibt die Frage der Produktmessbarkeit von (u, t) 7→ϕ∗(u, t), die aus der expliziten Konstruktion vonK(t), γ(t) mittels rechtsstetigerVerteilungsfunktion folgt, siehe Lehmann, Seite 149, für Details.

5.20 Beispiel. Zweistichproben-Poisson-Test: Es seien X1, . . . , Xn ∼ Poiss(a)und Y1, . . . , Ym ∼ Poiss(b) zwei unabhängige mathematische Stichproben mita, b > 0 unbekannt. Es soll die Hypothese H0 : a 6 b gegen die AlternativeH1 : a > b getestet werden. Die Beobachtungen folgen einer Exponentialfamiliebezüglich dem Zählmaÿ µ auf Nm+n

0 . Es gilt mit x ∈ Nn0 , y ∈ Nm0

dPa,bdµ

(x, y) =e−na−mb

(∏i xi!)(

∏j yj !)

exp(

log(a/b)n∑i=1

xi + log(b)( n∑i=1

xi +m∑j=1

yj

)).

Mit obiger Notation erhalten wir also ϑ = log(a/b), U(x, y) =∑

i xi, τ1 = log(b),T (x, y) =

∑i xi+

∑j yj . Wir können also das reduzierte TestproblemH0 : ϑ 6 0

gegen H1 : ϑ > 0 bei Beobachtung der suzienten Statistiken U, T betrachten.Nach obigem Satz hat ein gleichmäÿig bester unverfälschter Test die Form

ϕ∗(x, y) =

1, falls U(x, y) > K(T (x, y))

0, falls U(x, y) < K(T (x, y))

γ(T (x)), falls U(x, y) = K(T (x, y))

mit K(t) minimal so, dass P0(U > K(t) |T = t) 6 α gilt. Als bedingte Vertei-lung erhalten wir für u, t ∈ N0, u 6 t

Pa,b(U = u|T = t) =Pa,b(U = u, T − U = t− u)

Pa,b(T = t)=

(an)u

u! e−an (bm)t−u

(t−u)! e−bm∑t

i=0(an)i

i! e−an (bm)t−i

(t−i)! e−bm

=

(tu

)(an)u(bm)t−u∑t

i=0

(ti

)(an)i(bm)t−i

=

(t

u

)( an

an+ bm

)u( bm

an+ bm

)t−u.

Beachte, dass diese Verteilung in der Tat nur von ϑ = log(a/b) und nicht vonτ1 = log(b) abhängt. Im Fall ϑ = 0, also a = b, vereinfacht sich dies zu

Pϑ(U = u|T = t) =

(t

u

)pu(1− p)t−u = Bint,p(u) mit p =

n

n+m.

60

Page 63: Mathematische Statistik Skript zur Vorlesung im ... · Mathematische Statistik Skript zur Vorlesung im Sommersemester 2016 Markus Bibinger Philipps-Universität Marburg, Fb12 Mathematik

Für den möglichen Fall T = 0 gilt natürlich U = 0, und wir setzen Bin0,p(0) := 1.Ist also b(1−α, t, p) das (1−α)-Quantil der Bin(t, p)-Verteilung und γ(t) ∈ [0, 1]so gewählt, dass das Niveau ausgeschöpft wird, so ist

ϕ∗ =

1, falls

∑ni=1Xi > b

(1− α,

∑iXi +

∑j Yj , n/(n+m)

)0, falls

∑ni=1Xi < b

(1− α,

∑iXi +

∑j Yj , n/(n+m)

)γ(T (x)), falls

∑ni=1Xi = b

(1− α,

∑iXi +

∑j Yj , n/(n+m)

)gleichmäÿig bester unverfälschter Test von H0 : a 6 b gegen H1 : a > b zumNiveau α.

Vergleiche dies mit einem ad-hoc-Test der Form ϕ = 1( 1n

∑iXi >

k 1m

∑j Yj), der zwei suziente Statistiken vergleicht. Das Quantil b(1− α, t, p)

wächst monoton in t für α 6 1/2, so dass für diesen Fall durch monotoneTransformationen auch ϕ∗ in der Form 1( 1

n

∑iXi > k 1

m

∑j Yj) (plus Rando-

misierung) dargestellt werden kann.

Mit den gleichen Argumenten ergibt sich auch das folgende Resultat fürzweiseitige Tests.

5.21 Satz. Es liege die Situation des vorigen Satzes vor. Dann ist

ϕ∗(x) =

1, falls U(x) < K1(T (x)) oder U(x) > K2(T (x))

0, falls U(x) ∈ (K1(T (x)),K2(T (x)))

γi(T (x)), falls U(x) = Ki(T (x)), i = 1, 2,

mit Ki(t) ∈ R, γi(t) ∈ [0, 1] derart, dass

Eϑ0 [ϕ∗ |T ] = α und Eϑ0 [Uϕ∗ |T ] = αEϑ0 [U |T ] Pϑ0-f.s.

ein gleichmäÿig bester unverfälschter Test zum Niveau α von H0 : ϑ = ϑ0 gegenH1 : ϑ 6= ϑ0.

Für Anwendungen erleichtert das folgende Resultat häug die Bestimmungder bedingten kritischen Werte.

5.22 Satz (Basu). Es seien T und V Statistiken auf einem statistischen Modell(X ,F , (Pϑ)ϑ∈Θ). Ist T suzient und vollständig sowie V ancillary, d.h. PVϑ istunabhängig von ϑ ∈ Θ, so sind T und V unabhängig.

Beweis. Betrachte Eϑ[ϕ(V )] für messbare [0, 1]-wertige ϕ. Dann ist a :=Eϑ[ϕ(V )] unabhängig von ϑ wegen V ancillary und gemäÿ Lemma 5.18 folgtE•[ϕ(V ) |T ] = a Pϑ-f.s. für alle ϑ ∈ Θ. Dies impliziert Unabhängigkeit mittelsEϑ[ϕ(V )ψ(T )] = Eϑ[aψ(T )] = Eϑ[ϕ(V )]Eϑ[ψ(T )] und Einsetzen von Indikator-funktion ϕ = 1B, ψ = 1C .

5.23 Korollar. In der Situation von Satz 5.19 ist eine Statistik V unabhängigvon T unter jedem Pϑ0,τ , wenn die Verteilung von V nicht von τ abhängt.

Beweis. Dies folgt aus dem Satz von Basu und der Suzient und Vollständigkeitvon T für Pϑ0,τ auf ∂Θ0 (vgl. obiger Beweis).

61

Page 64: Mathematische Statistik Skript zur Vorlesung im ... · Mathematische Statistik Skript zur Vorlesung im Sommersemester 2016 Markus Bibinger Philipps-Universität Marburg, Fb12 Mathematik

5.24 Beispiele.

(a) Betrachte eine mathematische Stichprobe X1, . . . , Xn ∼ N(µ, σ2) mit µ ∈R, σ > 0 unbekannt. Wir erhalten eine natürliche Exponentialfamilie inU(x) = x, T (x) =

∑ni=1 x

2i mit ϑ = nµ/σ2, τ1 = −1/(2σ2). Teste auf

den Mittelwert H0 : µ = 0 gegen H1 : µ 6= 0 (für allgemeines H0 :µ = µ0 verschiebe entsprechend), d.h. H0 : ϑ = 0 gegen H1 : ϑ 6= 0.Betrachte daher ϕ∗(u, t) := 1(u /∈ [K1(t),K2(t)]) mit Eϑ=0[ϕ∗(U, T ) |T ] =α, Eϑ=0[Uϕ∗(U, T ) |T ] = αEϑ=0[U |T ]. Um diese bedingten Erwartungenauszurechnen, ist es einfacher, V = U/

√T zu betrachten. Für ϑ = µ = 0

ist die Verteilung von V unabhängig von τ1 = −1/(2σ2), so dass mit BasusSatz die Unabhängigkeit von V und T folgt und somit

α = Pϑ=0(U /∈ [K1(T ),K2(T )] |T = t)

= Pϑ=0(V /∈ [√tK1(t),

√tK2(t)] |T = t)

= Pϑ=0(V /∈ [K1, K2]).

Entsprechend erhalten wir aus der symmetrischen Verteilung von V dieBedingung

Eϑ=0[V√t1(V /∈ [K1, K2])] = αEϑ=0[V

√T |T = t] = 0.

Wegen der Verteilungssymmetrie von V wähle K2 = −K1, womit diezweite Bedingung erfüllt ist. Für die erste wähle K so, dass Pϑ=0(|V | >K) = α gilt. Da |Z| mit Z =

√n(n−1)V√1−nV 2

∼ tn−1 (vereinfache und vergleiche

mit Korollar 1.12) monoton in |V | wächst, ist ϕ∗ gerade der zweiseitiget-Test ϕ∗ = 1(|Z| > qt(n−1);1−α/2), s.o. Genauso ergibt sich der einseitiget-Test als gleichmäÿig bester unverfälschter Test für H0 : µ 6 µ0 gegenH1 : µ > µ0.

(b) Betrachte den Fall zweier unabhängiger mathematischer StichprobenX1, . . . , Xm ∼ N(µ, σ2), Y1, . . . , Yn ∼ N(ν, τ2) mit µ, ν ∈ R, σ, τ > 0 un-bekannt. Es soll H0 : µ = ν gegen H1 : µ 6= ν getestet werden. Im Fall σ 6=τ gibt es bislang keine befriedigende Lösung (Behrens-Fisher-Problem,1935). Hier betrachte daher den Fall τ = σ mit Lebesguedichte

fµ,ν,σ(x, y) = C(µ, ν, σ) exp(− 1

2σ2

(∑i

x2i +

∑j

y2j

)+mµ

σ2x+

σ2y),

so dass eine Exponentialfamilie in U(x, y) = y − x mit ϑ = (ν −µ)/(σ2(m−1 +n−1)), T1(x, y) = mx+ny mit τ1 = (mµ+nν)/(σ2(m+n))und T2(x, y) =

∑i x

2i +

∑j y

2j mit τ2 = −1/(2σ2) vorliegt. Übrigens ist

gerade diese Darstellung mit ϑ ∝ ν − µ und U ∝ Y − X im Behrens-Fisher-Problem nicht mehr gegeben. Um H0 : ϑ = 0 gegen H1 : ϑ 6= 0 zutesten, wähle wieder eine Teststatistik V , unabhängig von T unter Pϑ0,τ .In der Tat hängt die Verteilung von

V (X,Y ) :=Y − X√∑

i(Xi − X)2 +∑

j(Yj − Y )2

62

Page 65: Mathematische Statistik Skript zur Vorlesung im ... · Mathematische Statistik Skript zur Vorlesung im Sommersemester 2016 Markus Bibinger Philipps-Universität Marburg, Fb12 Mathematik

für ϑ = 0 (µ = ν) nicht von τ , also von µ und σ2, ab. Nach demSatz von Basu sind also V und T unabhängig. Auÿerdem gilt V =U/√T2 − T 2

1 /(m+ n)−mnU2/(m+ n) und |V | wächst streng monotonin |U |. Daher ist ein gleichmäÿig bester Test ϕ∗ = 1(U /∈ [−K(T ),K(T )])(K1(t) = −K2(t) wegen Symmetrie bzw. aus zweiter Nebenbedingung)auch als ϕ∗ = 1(V /∈ [−K(T ), K(t)]) darstellbar. Wegen der Unab-hängigkeit von T und V für ϑ = 0 ist K(T ) = K unabhängig vonT zu wählen. Nun ist Z :=

√(m+ n− 2)/(m−1 + n−1)V für ϑ = 0

der Quotient des N(0, 1)-verteilten Zählers (Y − X)/√σ2(m−1 + n−1)

und des Nenners√

(∑

i(Xi − X)2 +∑

j(Yj − Y )2)/(σ2(m+ n− 2)), des-

sen Quadrat, mit m + n − 2 multipliziert, χ2(m + n − 2)-verteilt fürϑ = 0 ist. Wie im Einstichprobenfall sind auch hier Zähler und Nen-ner unabhängig, so dass Z t(n + m − 2)-verteilt ist. Als gleichmäÿigbesten unverfälschten Test erhalten wir also den Zweistichproben-t-Testϕ∗ = 1(|V (X,Y )| >

√(m−1 + n−1)/(m+ n− 2)qt(n+m−2);1−α/2) auf

H0 : µ = ν gegen H1 : µ 6= ν.

5.5 Likelihood-Quotienten- und χ2-Test

Inspiriert vom Neyman-Pearson-Test für einfache Hypothesen und Alternativendenieren wir:

5.25 Denition. Es sei (X ,F , (Pϑ)ϑ∈Θ) ein dominiertes statistisches Modellmit Likelihoodfunktion L. Likelihood-Quotienten-Test für H0 : ϑ ∈ Θ0 gegenH1 : ϑ ∈ Θ1 heiÿt jeder Test der Form

ϕ(x) =

1, falls Λ(x) > k

0, falls Λ(x) < k

γ(x), falls Λ(x) = k

mit Λ(x) :=supϑ∈Θ1

L(ϑ, x)

supϑ∈Θ0L(ϑ, x)

∈ [0,+∞]

und k ∈ R+, γ(x) ∈ [0, 1] geeignet.

Im Allgemeinen liegt Θ1 dicht in Θ und die Likelihood-Funktion ist ste-tig in ϑ. Dann gilt supϑ∈Θ1

L(ϑ, x) = supϑ∈Θ L(ϑ, x) = L(ϑ(x), x) mit einem

Maximum-Likelihood-Schätzer ϑ. Dies ist auch Grundlage der asymptotischenTheorie.

5.26 Beispiel. Im Fall einer natürlichen Exponentialfamilie erhalten wir fürΘ1 dicht in Θ:

Λ(x) = infϑ0∈Θ0

exp(〈ϑ− ϑ0, T (x)〉 −A(ϑ) +A(ϑ0)).

Falls der Maximum-Likelihood-Schätzer ϑ im Innern von Θ liegt, so folgtEϑ(x)[T ] = T (x) gemäÿ Satz 3.8 und daher nach Lemma 4.8

log(Λ(x)) = infϑ0∈Θ0

KL(Pϑ | Pϑ0).

Die Likelihood-Quotienten-Statistik Λ misst hier also in natürlicher Weise denAbstand der zu ϑ ∈ Θ gehörenden Verteilung zur Hypothesenmenge (Pϑ0)ϑ0∈Θ0 .

63

Page 66: Mathematische Statistik Skript zur Vorlesung im ... · Mathematische Statistik Skript zur Vorlesung im Sommersemester 2016 Markus Bibinger Philipps-Universität Marburg, Fb12 Mathematik

5.27 Lemma. In der Situation vom Satz 5.11 über beste einseitige Tests führtder Likelihood-Quotienten-Test gerade auf den angegebenen besten Test.

Beweis. Schreibe

supϑ∈Θ1L(ϑ, x)

supϑ∈Θ0L(ϑ, x)

= supϑ>ϑ0

L(ϑ, x)

L(ϑ0, x)infϑ′6ϑ0

L(ϑ0, x)

L(ϑ′, x)

= supϑ>ϑ0

h(T (x), ϑ0, ϑ) infϑ′6ϑ0

h(T (x), ϑ′, ϑ0).

Dann sind die beiden Funktionen h monoton wachsend in T und damit auchdas Supremum, das Inmum sowie das Produkt. Also gilt für einen Likelihood-Quotienten-Test ϕ sowohl ϕ(x) = 1 für T (x) > k als auch ϕ(x) = 0 für T (x) < kmit k ∈ R geeignet.

Im Fall des zweiseitigen Testproblems aus Satz 5.13 führt der Likelihood-Quotienten-Test zwar auf einen Test mit Ablehnbereich T (x) /∈ [K1,K2], aller-dings ist er im Allgemeinen nicht mehr unverfälscht, wie folgendes Gegenbeispiellehrt: X ∼ Poiss(ϑ) führt auf einen Ablehnbereich X(log(X/ϑ0)−1) > k, wasfür k > 0 einem einseitigen Ablehnbereich X > k entspricht. Hingegen sindim Fall der Normalverteilung ein- und zweiseitige Gauÿ- und t-Tests Likelihood-Quotienten-Tests.

5.28 Satz. Es mögen die Voraussetzungen aus Satz 4.20 gelten. Es sei0 ∈ int(Θ), und die Hypothesenmenge Θ0 := (ϑ1, . . . , ϑr, 0, . . . , 0) ∈Θ |ϑ1, . . . , ϑr ∈ R liege in einem r-dimensionalen Unterraum, 0 6 r < k(Θ0 = 0 falls r = 0). Dann gilt für die Fitted-Loglikelihood-Statistik

λn(x) := supϑ∈Θ

n∑i=1

`(ϑ, xi)− supϑ∈Θ0

n∑i=1

`(ϑ, xi)

unter jedem Pϑ0 mit ϑ0 ∈ Θ0 ∩ int(Θ) die Konvergenz 2λnd−→ χ2(k − r). Insbe-

sondere besitzt der Likelihood-Quotienten-Test ϕ(x) = 1(λn(x) > 12qχ2(k−r),1−α)

mit dem (1−α)-Quantil der χ2(k− r)-Verteilung auf Θ0 ∩ int(Θ) asymptotischdas Niveau α ∈ (0, 1).

Beweis. Im folgenden sei Πr : Rk → Rr die Koordinatenprojektion auf die erstenr Koordinaten. Im Beweis von Satz 4.20 haben wir für den MLE ϑn insbesonderegezeigt, dass mit Kn(ϑ) = − 1

n

∑ni=1 `(ϑ, xi) für n hinreichend groÿ gilt

−Kn(ϑ0) = Kn(ϑn)(ϑn−ϑ0), Kn(ϑ0)−Kn(ϑn) =1

2〈Kn(ϑn)(ϑn−ϑ0), ϑn−ϑ0〉

mit Zwischenstellen ϑn, ϑn. Nun gilt mit (B2) und der Konsistenz von ϑn ge-rade Kn(ϑn) → I(ϑ0) in Pϑ0-Wahrscheinlichkeit. Bezeichnet oP (1) Terme, diestochastisch gegen Null konvergieren, so folgt

Kn(ϑ0)−Kn(ϑn) =1

2〈I(ϑ0)−1Kn(ϑ0), Kn(ϑ0)〉+ oP (1).

64

Page 67: Mathematische Statistik Skript zur Vorlesung im ... · Mathematische Statistik Skript zur Vorlesung im Sommersemester 2016 Markus Bibinger Philipps-Universität Marburg, Fb12 Mathematik

Vollkommen analog erhält man für den MLE ϑ0n über die kleinere Parameter-

menge Θ0, indem man formal Θ0 ⊆ Rk mit ΠrΘ0 ⊆ Rr identiziert,

Kn(ϑ0)−Kn(ϑ0n) =

1

2〈I0(ϑ0)−1K0

n(ϑ0), K0n(ϑ0)〉+ oP (1),

wobei K0n den Gradienten von Kn als Funktion der ersten r Argumente und

I0(ϑ0) = ΠrI(ϑ0)Π>r die r × r-Fisher-Informationsmatrix bezüglich dieser rParameterwerte bezeichne. Im ausgearteten Fall r = 0 setze einfach ϑ0

n = 0.Insgesamt erhalten wir

2λn(x) = 2n(Kn(ϑ0n)−Kn(ϑn))

= 〈(I(ϑ0)−1 −Π>r I0(ϑ0)−1Πr)

√nKn(ϑ0),

√nKn(ϑ0)〉+ oP (1).

Nach dem zentralen Grenzwertsatz (wie im Beweis von (B1)) gilt√nKn(ϑ0)

d−→N(0, I(ϑ0)), so dass mit Slutskys Lemma

2λnd−→ 〈(Ek − I(ϑ0)1/2Π>r I

0(ϑ0)−1ΠrI(ϑ0)1/2)Z,Z〉

mit Z ∼ N(0, Ek). Die Matrix M := I(ϑ0)1/2Π>r I0(ϑ0)−1ΠrI(ϑ0)1/2 ist sym-

metrisch und beschreibt wegen M2 = M eine Orthogonalprojektion. Als Spurerhalten wir (benutze tr(AB) = tr(BA))

tr(M) = tr(I(ϑ0)Π>r I0(ϑ0)−1Πr) = tr(ΠrI(ϑ0)Π>r I

0(ϑ0)−1) = tr(Er) = r.

Also besitzt M Rang r und Ek −M ist Orthogonalprojektion von Rang k − r.Dies impliziert (vergleiche die Beweise im linearen Modell), dass 〈(Ek−M)Z,Z〉χ2(k − r)-verteilt ist.

Schlieÿlich bemerke, dass aus der Stetigkeit von ` für die Likelihood-Quotienten-Statistik folgt

log Λn(x) = log( supϑ∈Θ

∏ni=1 L(ϑ, xi)

supϑ∈Θ0

∏ni=1 L(ϑ, xi)

)= λn(x)

und somit auf Grund der Montonie des Logarithmus der Likelihood-Quotienten-Test allgemein einen Ablehnbereich der Form λn > k besitzt. Beachte, dasseine Randomisierung asymptotisch vernachlässigbar ist.

Bemerkungen.

(a) Allgemeiner kann man Hypothesenmengen Θ0 betrachten, die r-dimensionale C1-Untermannigfaltigkeiten von Θ bilden, vergleiche Satz6.5 in Shao. Auÿerdem kann auf die Kompaktheit von Θ verzichtet wer-den, sofern die Konsistenz des Maximum-Likeliohood-Schätzers garantiertist. Für oene Θ ⊆ Rk gilt dann Konvergenz unter ganz H0, d.h. unterPϑ0 für alle ϑ0 ∈ Θ0.

(b) Für Anwendungen äuÿerst nützlich ist, dass die asymptotische Verteilungvon λn unabhängig von ϑ0 ∈ Θ0 ist; der Likelihood-Quotienten-Test istasymptotisch verteilungsfrei.

65

Page 68: Mathematische Statistik Skript zur Vorlesung im ... · Mathematische Statistik Skript zur Vorlesung im Sommersemester 2016 Markus Bibinger Philipps-Universität Marburg, Fb12 Mathematik

(c) Die asymptotische Verteilung von 2λn unter lokalen Alternativen ϑ = ϑ0 +h/√n ist eine nicht-zentrale χ2(k − r)-Verteilung, vergleiche Satz 16.7 in

Van der Vaart (1998). Für feste Alternativen ϑ ∈ Θ1 und n→∞ erhaltenwir insbesondere Konsistenz des Likelihood-Quotienten-Tests ϕn, das heiÿtlimn→∞ Eϑ[ϕn] = 1.

(d) Zwei weitere wichtige asymptotische Likelihood-Tests sind der Wald-Testund der Score-Test. Beim Wald-Test für eine einfache Hypothese H0 :

ϑ = ϑ0 wird die Teststatistik Wn = n〈I(ϑn)(ϑn − ϑ0), ϑn − ϑ0〉 mitdem Maximum-Likelihood-Schätzer ϑ betrachtet, die unter den Bedingun-gen von Satz 4.20 ebenfalls χ2(k)-verteilt ist, und der Wald-Test ist vonder Form 1(Wn > K). Im selben Modell ist Raos Score-Test gegeben durchϕ = 1(Rn > K) mit Rn = 1

n〈I(ϑ0)−1(∑n

i=1˙(ϑ0, Xi)),

∑ni=1

˙(ϑ0, Xi))〉,wobei Rn gerade die Approximation von 2λn aus obigem Beweis ist undsomit ebenfalls χ2(k)-verteilt ist.

5.29 Beispiel. Es werde ein Zufallsvektor N = (N1, . . . , Nk) beobachtet, derder Multinomialverteilung mit Parametern n und p = (p1, . . . , pk) folgt. Be-achte, dass N suziente Statistik bei n unabhängigen multinomialverteiltenBeobachtungen mit Parameter (1, p) ist und somit die obige Asymptotik fürn → ∞ greift. Auÿerdem kann wegen pk = 1 −

∑k−1i=1 pi als Parametermenge

Θ = p ∈ [0, 1]k−1 |∑

i pi 6 1 ⊆ Rk−1 verwendet werden. Wir betrachtendas Testproblem H0 : p = p0 gegen H1 : p 6= p0. Da p = N/n der Maximum-Likelihood-Schätzer von p ist, erhalten wir

λn = log(( n

N1···Nk

)(N1/n)N1 · · · (Nk/n)Nk(

nN1···Nk

)(p0

1)N1 · · · (p0n)Nk

)=

k∑i=1

Ni log(Ni/(np0i )).

Beachte nun, dass Ep0 [(Ni − np0i )

2/(np0i )] = 1 − p0

i 6 1 gilt, so dass wegen derEntwicklung (x+h) log((x+h)/x) = h+h2/(2x) + o(h2/x) sowie

∑iNi = n =∑

i np0i asymptotisch

2λn = 2

k∑i=1

((Ni − np0

i ) +(Ni − np0

i )2

2np0i

+ o((Ni − np0i )

2/(np0i )))

=k∑i=1

(Ni − np0i )

2

np0i

+ oP (1)

gilt. Damit konvergiert also auch∑k

i=1(Ni−np0

i )2

np0i

unter H0 in Verteilung gegen

χ2(k − 1).

5.30 Denition. Bei Beobachtung eines Zufallsvektors N = (N1, . . . , Nk), derder Multinomialverteilung mit Parametern n und p = (p1, . . . , pk) folgt, heiÿt

χ2n :=

∑ki=1

(Ni−np0i )

2

np0i

Pearson's χ2-Statistik für die Hypothese H0 : p = p0 und

ϕ = 1(χ2n > qχ2(k−1),1−α) χ2-Test mit dem (1 − α)-Quantil qχ2(k−1),1−α der

χ2(k − 1)-Verteilung.

Wir haben also als Folgerung:

66

Page 69: Mathematische Statistik Skript zur Vorlesung im ... · Mathematische Statistik Skript zur Vorlesung im Sommersemester 2016 Markus Bibinger Philipps-Universität Marburg, Fb12 Mathematik

5.31 Korollar. Der χ2-Test besitzt unter H0 : p = p0 asymptotisch das Niveauα ∈ (0, 1).

Bemerkung. Es gibt mannigfache Verallgemeinerungen, insbesondere bei Hy-pothesen H0 der Dimension 0 < r < k− 1 wird p0 durch einen MLE p0 ersetzt,und es ergibt sich asymptotisch eine χ2(k− r−1)-Verteilung. Der χ2-Test dienthäug als Goodness-of-t-Test, beispielsweise können Zufallszahlen darauf getes-tet werden, ob jede Zier mit gleicher Wahrscheinlichkeit auftritt, was dem Fallk = 10 und p0

1 = · · · = p010 = 0, 1 mit Ziernlänge n entspricht.

5.32 Beispiel. Klassische Anwendung des χ2-Tests ist die Überprüfung vonMendels Erbsendaten. Bei einer Erbsensorte gibt es die Ausprägungen rund (A)oder kantig (a) sowie gelb (B) oder grün (b). Die Merkmale rund und gelb sindder Theorie nach dominant, so dass die Genotypen AA, Aa, aA zum Phänotyprund und nur der Genotyp aa zum Phänotyp kantig führt. Ebenso ist gelb do-minant. Betrachtet man nun Nachkommen des heterozygoten Genotyps AaBb,so sollten die vier Phänotypen im Verhältnis 9:3:3:1 auftreten. Mendels Daten(1865) waren bei n = 556 Erbsen 315 AB, 101 aB, 108 Ab, 32 ab.

Als natürliches Modell ergibt sich unter der Hypothese eine Multinomial-verteilung mit Parametern n und p0 = (9/16, 3/16, 3/16, 1/16). Als χ2-Statistikerhalten wir

χ2n := (315−312,75)2

312,75 + (101−104,25)2

104,25 + (108−104,25)2

104,25 + (32−34,75)2

34,75 ≈ 0, 47.

Der sogenannte p-Wert des χ2-Tests bei diesen Daten beträgt 0, 9254 (P(X >0, 47) ≈ 0, 9254 für X ∼ χ2(3)), das heiÿt, dass der χ2-Test die Nullhypothesezu jedem Niveau α 6 0, 9254 akzeptiert hätte! Diese beeindruckende Güte derDaten hat andererseits zum Verdacht der Datenmanipulation geführt.

5.33 Denition. Der p-Wert zu einem Test gibt das kleinste Niveau an, zudem die Nullhypothese (noch) abgelehnt werden kann. Manchmal bezeichnetman dies auch als exaktes oder wahres Niveau eines Tests.

67