88
Mathematische Statistik Lehrstuhl f¨ ur Mathematische Statistik Universit¨ at W¨ urzburg Prof. Dr. Michael Falk

Mathematische Statistik · Vorwort Dieses Skript entstand aus der Vorlesung ” Mathematische Statistik I und II“, wie sie Prof. Dr. Michael Falk im Wintersemester 2007/2008 bis

  • Upload
    others

  • View
    8

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Mathematische Statistik · Vorwort Dieses Skript entstand aus der Vorlesung ” Mathematische Statistik I und II“, wie sie Prof. Dr. Michael Falk im Wintersemester 2007/2008 bis

Mathematische

Statistik

Lehrstuhl fur Mathematische Statistik

Universitat Wurzburg

Prof. Dr. Michael Falk

Page 2: Mathematische Statistik · Vorwort Dieses Skript entstand aus der Vorlesung ” Mathematische Statistik I und II“, wie sie Prof. Dr. Michael Falk im Wintersemester 2007/2008 bis

Vorwort

Dieses Skript entstand aus der Vorlesung”Mathematische Statistik I und

II“, wie sie Prof. Dr. Michael Falk im Wintersemester 2007/2008 bis Som-mersemester 2008 an der Julius-Maximilians-Universitat Wurzburg gehaltenhat.

Basierend auf meinen Aufzeichnungen zu dieser Vorlesung habe ich das vor-liegende Skript fur Herrn Prof. Dr. Falk erstellt. Ich mochte mich auch beiJohannes Hain bedanken, da er dieses Skript nochmals Korrektur gelesenhat.

Im Folgenden wird eine Einfuhrung in die grundlegenden Begriffe und Werk-zeuge der Mathematischen Statistik gegeben. Des Weiteren werden funda-mentale Satze der Mathematischen Statistik besprochen und mit Beispielenerlautert.

Stefan Englert

Wurzburg, September 2008

1

Page 3: Mathematische Statistik · Vorwort Dieses Skript entstand aus der Vorlesung ” Mathematische Statistik I und II“, wie sie Prof. Dr. Michael Falk im Wintersemester 2007/2008 bis

Inhaltsverzeichnis

1 GRUNDLAGEN 51.1 Ausgangssituation statistischer Entscheidungen . . . . . . . . 51.2 Tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81.3 Elementare Testverfahren unter Normalverteilungsannahme . . 91.4 Punktschatzverfahren . . . . . . . . . . . . . . . . . . . . . . . 141.5 Bereichsschatzungen . . . . . . . . . . . . . . . . . . . . . . . 161.6 Randomisierte Entscheidungsverfahren . . . . . . . . . . . . . 19

2 EXISTENZ OPTIMALER TESTS 262.1 Struktureigenschaften des Raumes Φ aller Testfunktionen . . . 262.2 Das Fundamentallemma von Neyman-Pearson . . . . . . . . . 352.3 Das verallgemeinerte Fundamentallemma von Neyman-Pearson 392.4 Exponentialfamilien . . . . . . . . . . . . . . . . . . . . . . . . 452.5 Einseitige Tests bei monotonem Dichtequotienten . . . . . . . 512.6 Gleichmaßig beste Tests in einparametrigen Exponentialfamilien 55

3 REDUKTION STATISTISCHER ENTSCHEIDUNGEN 603.1 Problemstellung . . . . . . . . . . . . . . . . . . . . . . . . . . 603.2 Bedingte Erwartungswerte und bedingte Wahrscheinlichkeiten 623.3 Suffiziente σ-Algebren und suffiziente Statistiken . . . . . . . . 693.4 Einige Anwendungen in der Statistik . . . . . . . . . . . . . . 783.5 Vollstandigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . 793.6 Die Ungleichung von Cramer-Rao und

die Fisher-Information . . . . . . . . . . . . . . . . . . . . . . 84

2

Page 4: Mathematische Statistik · Vorwort Dieses Skript entstand aus der Vorlesung ” Mathematische Statistik I und II“, wie sie Prof. Dr. Michael Falk im Wintersemester 2007/2008 bis

Problemstellung

Unter Mathematischer Statistik versteht man die Untersuchung von Mathe-matischen Modellen sowie die Herleitung bzw. Begrundung von Verfahrenzur Auswertung von Beobachtungsdaten.

Ein Beispiel zur Erlauterung der Grundproblematik: Zur Heilung einer be-stimmten Krankheit wurde eine neue Behandlungsmethode M2 entwickelt.Um eine Aussage uber ihre Qualitat zu erhalten, wurde diese bei 10 Patientenangewendet. Dabei trat in 8 Fallen ein Heilerfolg ein, in 2 Fallen ergab sichein Mißerfolg. Laßt sich nun aufgrund dieser 10 Uberprufungen bereits sagen,dass die neue Methode M2 haufiger zum Erfolg fuhrt als die herkommlicheMethoden M1, deren Heilungschance erfahrungsgemaß 65% betragt?

Der fur die Statistik spezifische Aspekt ist die Tatsache, dass das Eintretenvon Erfolg oder Nichterfolg bei einer einzelnen Uberprufung nicht nur vonder Qualitat der Heilmethode (dann ware die Entscheidung klar!), sondernauch von sehr vielen anderen uns unzuganglichen und in der Gesamtent-wicklung unubersehbaren Einflussen abhangt, so dass wir das Ergebnis nichtvoraussagen konnen und daher als zufallsabhangig betrachten. Bei unsererAussage uber die Gute von M3 mussen wir daher die Zufallsabhangigkeit der10 Ergebnisse berucksichtigen.

Die Verwendung der Wahrscheinlichkeitstheorie ermoglicht es, solche auchgefuhlsmaßig unsicheren Entscheidungen zum Gegenstand mathematischerUberlegungen zu machen. Das geschieht dadurch, dass wir die Beobachtun-gen (Ergebnisse) als Realisierungen von Zufallsvariablen auffassen und damitunterstellen, dass sich der Vorgang durch eine Wahrscheinlichkeitsverteilungbeschreiben lasst (Grundannahme der Mathematischen Statistik).Im obigen Beispiel werden wir Zufallsvariablen X1, . . . , X10 verwenden, diejeweils nur die beiden Werte 1 (fur Heilerfolg) und 0 (fur Mißerfolg) mitden Wahrscheinlichkeiten ϑ bzw. 1− ϑ annehmen konnen. Die Xi sind dannB(1, ϑ)–verteilte Zufallsvariablen, wobei durch den uns unbekannten Para-meter ϑ die Gute des neu entwickelten Medikamentes angegeben wird:

M2 ist besser als M1 ⇔ ϑ > 0, 65.

Besonders einfach wird die Behandlung dieses Modells, wenn wir zusatzlichvoraussetzen, dass die X1, . . . , X10 stochastisch unabhangig sind (d.h. dieVersuchsausfuhrungen beeinflussen sich nicht gegenseitig). Dann ist die Ver-teilung von (X1, . . . , X10) das Produktmaß B(1, ϑ)10/0, 110 und damit dieAnzahl der Erfolge, also

∑i≤10Xi, B(10, ϑ)–verteilt.

Eine Aussage uber die unbekannte Verteilung von X = (X1, . . . , X10) bzw.den unbekannten Verteilungsparameter aufgrund einer zufallsabhangigen Be-obachtung (im obigen Beispiel also aufgrund des beobachteten Tupels (x1, . . . ,

3

Page 5: Mathematische Statistik · Vorwort Dieses Skript entstand aus der Vorlesung ” Mathematische Statistik I und II“, wie sie Prof. Dr. Michael Falk im Wintersemester 2007/2008 bis

x10) mit∑

i≤10 xi = 8)) heißt eine statistische Entscheidung. Folglich ist eineVorschrift anzugeben, aus der zu jedem moglichen Versuchsausgang die zutreffende Entscheidung abzulesen ist.

Ein Beispiel fur eine derartige Entscheidungsvorschrift in obiger Situation istdie folgende:

Die Entscheidung M2 ist besser als M1 (d.h. ϑ > 0, 65) wirdgenau dann getroffen, wenn 8 oder mehr Heilerfolge eintreten.

Durch die Verwendung mathematischer Methoden wird die Unsicherheit sta-tistischer Entscheidungen nicht aufgehoben! Man kann sie aber durch dieVerwendung wahrscheinlichkeitstheoretischer Hilfsmittel quantitativ erfas-sen, d.h. Wahrscheinlichkeiten fur Fehlentscheidungen konnen (exakt) an-gegeben werden.

Im obigen Beispiel ist es etwa durchaus moglich, wenn auch nur mit der klei-nen Wahrscheinlichkeit 0, 610, dass im Fall ϑ = 0, 6 bei allen 10 Versuchsper-sonen ein Heilerfolg eintritt. In diesem Fall liefert aber die oben angegebeneEntscheidungsvorschrift die Entscheidung M2 ist besser als M1, obwohl siefalsch ist!

Daruber hinaus ermoglicht es die Wahrscheinlichkeitstheorie, unter allen Ent-scheidungsfunktionen diejenigen zu bestimmen, die ein vorgegebenes Optima-litatskriterium erfullen. Derartige optimale Losungen sind naturlich fur diePraxis von großter Bedeutung. Tatsachlich ist die Bestimmung optimalerstatistischer Entscheidungsverfahren ein wesentlicher Gegenstand der Ma-thematischen Statistik.

4

Page 6: Mathematische Statistik · Vorwort Dieses Skript entstand aus der Vorlesung ” Mathematische Statistik I und II“, wie sie Prof. Dr. Michael Falk im Wintersemester 2007/2008 bis

Kapitel 1

GRUNDLAGEN

1.1 Ausgangssituation statistischer Entschei-

dungen

Jeder statistischen Entscheidung liegt ein Datenmaterial x1, . . . , xn zugrun-de. Dieses denken wir uns zu einer Beobachtung x = (x1, . . . , xn) zusammen-gefaßt, die wir als Realisierung einer Zufallsgroße X : (Ω,A,P) → (X ,B)auffassen. (X ,B) heißt auch Stichprobenraum, x Stichprobe. Also:

(Ω,A,P) ist ein Wahrscheinlichkeitsraum,(X ,B) ist ein meßbarer Raum,X : (Ω,A) → (X ,B) ist meßbare Abbildung,x = X(ω).

Mit der Verteilung P := P ∗X von X, d.h.

P (B) := (P ∗X)(B) = P(X−1(B)), B ∈ B,

ist (X ,B, P ) ebenfalls ein Wahrscheinlichkeitsraum.Im Gegensatz zur Wahrscheinlichkeitstheorie ist es ein spezifischer Aspektder Mathematischen Statistik, dass die zugrundeliegende Verteilung P alsunbekannt anzusehen und aufgrund der Beobachtung x eine Aussage uberP zu machen ist. Haufig wird man jedoch gewisse Vorinformationen daruberhaben, welche Verteilungen uberhaupt in Frage kommen.

Definition 1.1.1. Unter einer Verteilungsannahme versteht man die Aus-zeichnung einer Klasse P von Verteilungen uber einem Stichprobenraum(X ,B). Dann heißt (X ,B,P) ein statistischer Raum.

Aus technischen Grunden indiziert man die Elemente P ∈ P haufig durcheinen Parameter ϑ. Die Gesamtheit Θ der zugelassenen Parameterwerte heißtParameterraum. Es gilt also

P = Pϑ : ϑ ∈ Θ.

5

Page 7: Mathematische Statistik · Vorwort Dieses Skript entstand aus der Vorlesung ” Mathematische Statistik I und II“, wie sie Prof. Dr. Michael Falk im Wintersemester 2007/2008 bis

Ist X eine Zufallsgroße mit Verteilung Pϑ, so schreiben wir fur den Erwar-tungswert, Varianz, Verteilungsfunktion, Dichte etc. von X

Eϑ, σ2ϑ, Fϑ, fϑ etc.

Eine Verteilungsklasse P = Pϑ : ϑ ∈ Θ heißt k–parametrig, wenn sie sich

”zwanglos“ durch einen k–dimensionalen Parameter ϑ parametrisieren laßt.

So ist etwa die Familie der eindimensionalen Normalverteilungen

P = N(µ, σ2) : µ ∈ R, σ2 > 0

eine zwei-parametrige Klasse mit Parameter ϑ = (µ, σ2).Allgemeiner interessiert von einer Verteilungsklasse P oft nur der Wert κ(P )eines Funktionals

κ : P → Kder unbekannten Verteilung P , etwa der Mittelwert von P .Ist speziell die Verteilungsklasse parametrisiert, so fassen wir κ als eine Ab-bildung von Θ nach K auf. Wir schreiben also

κ(ϑ) : Θ → K

d.h. κ(ϑ) statt κ(Pϑ).

In den meisten Anwendungen ist Θ eine Teilmenge des Rk.Erscheint im Rahmen des konkreten Problems eine solche parametrischeVerteilungsannahme als zu einschneidend, so wird man z.B. bei Problemenmit einer stetigen Verteilung typischerweise alle bzgl. des n–dimensionalenLebesgue-Maßes λn absolut stetigen Wahrscheinlichkeitsmaße auf (Rn,Bn)(also alle Wahrscheinlichkeitsverteilungen auf der Borel–σ–Algebra Bn desRn mit einer Dichte bzgl. λn) bei der Verteilungsannahme zulassen mussen.Man spricht in diesem Fall von einer nichtparametrischen Verteilungsannah-me.Neben der Verteilungsannahme ist noch die Gesamtheit der Aussagen an-zugeben, zwischen denen entschieden werden soll. Die Gesamtheit ∆ die-ser Aussagen, versehen mit einer σ–Algebra D heißt der Entscheidungsraum(∆,D). Die Elemente d von ∆ heißen Entscheidungen. Aufgabe ist es also,ein statistisches Entscheidungsverfahren anzugeben, d.h. eine Vorschrift, diejeder moglichen Beobachtung x ∈ X eindeutig eine Entscheidung

d = e(x) ∈ ∆

zuordnet.

Definition 1.1.2. Eine (nicht-randomisierte) Entscheidungsfunktion e isteine B,D–meßbare Abbildung des Stichprobenraumes (X ,B) in den Ent-scheidungsraum (∆,D). Deren Gesamtheit bezeichnen wir mit E .

6

Page 8: Mathematische Statistik · Vorwort Dieses Skript entstand aus der Vorlesung ” Mathematische Statistik I und II“, wie sie Prof. Dr. Michael Falk im Wintersemester 2007/2008 bis

Je nach der Struktur des Entscheidungsraumes unterscheidet man zwischenverschiedenen Grundtypen statistischer Entscheidungsverfahren. Die beidenwichtigsten sind die Tests und die Schatzverfahren.In den folgenden Abschnitten wollen wir diese Entscheidungsverfahren naheruntersuchen. Dabei gehen wir stets von einer parametrischen Verteilungsan-nahme P = Pϑ : ϑ ∈ Θ aus.Wir verstehen dann unter einer Hypothese H stets eine Aussage (Annahme)uber den Parameter ϑ. Dabei werden wir H mit derjenigen Teilmenge desParameterraumes Θ, fur die H gilt, identifizieren.

Definition 1.1.3. Gegeben sei eine Verteilungsannahme P = Pϑ : ϑ ∈ Θund ein Entscheidungsraum (∆,D). Dann heißt eine Funktion

L : Θ×∆ → [0,∞)

Verlustfunktion, falls gilt:

∀ϑ ∈ Θ : L(ϑ, ·) ist D,B–meßbar.

Bemerkung 1.1.4. L(ϑ, d) druckt den Verlust (Schaden) aus, den man beiTreffen der Entscheidung d und gleichzeitigem Vorliegen von Pϑ erleidet.

Definition 1.1.5. Es sei L eine Verlustfunktion. Dann heißt die FunktionR : Θ× E → [0,∞], definiert durch

R(ϑ, e) :=

∫XL(ϑ, e(x))Pϑ(dx),

Risikofunktion (erwarteter Verlust) bzgl. L und e.

R(ϑ, e) ist also der erwartete Verlust bei Vorliegen von Pϑ und Entschei-dungsfunktion e.

In der folgenden Definition legen wir Optimalitatskriterien fur Entscheidungs-funktionen fest.

Definition 1.1.6.

(i) e∗ heißt gleichmaßig beste (n.r.) Entscheidungsfunktion, falls

∀ϑ ∈ Θ : R(ϑ, e∗) = mine∈E

R(ϑ, e).

(ii) e heißt eine Mini-Max Losung bzgl. E , falls

supϑ∈Θ

R(ϑ, e) = mine∈E

supϑ∈Θ

R(ϑ, e).

7

Page 9: Mathematische Statistik · Vorwort Dieses Skript entstand aus der Vorlesung ” Mathematische Statistik I und II“, wie sie Prof. Dr. Michael Falk im Wintersemester 2007/2008 bis

1.2 Tests

Aufgrund einer vorliegenden Beobachtung x ∈ X soll zwischen zwei Aussagenentschieden werden:

ϑ ∈ H oder ϑ ∈ K,

wobeiΘ = H ∪K, H ∩K = ∅.

Bezeichen wir die Entscheidungen furH bzw.K mit dH bzw. dK , so definierenwir mit

∆ := dH , dK, D := Potenzmenge von ∆

einen Entscheidungsraum.Dann ist eine Abbildung e : X → ∆ genau dann eine (n.r.) Entscheidungs-funktion, wenn gilt

S := x ∈ X : e(x) = dK = e−1(dk) ∈ B,

(⇔ Sc ∈ B). Dies ist gerade die Meßbarkeit von e.

Definition 1.2.1. Eine Entscheidungsfunktion der Form

e(x) =

dK , falls x ∈ S,dH , falls x ∈ Sc, x ∈ X,

mit S ∈ B, heißt (n.r.) Test fur das Entscheidungsproblem H gegen K.

Man wird naturlich versuchen, S ∈ B bzw. e so zu wahlen, dass moglichstwenige Fehlentscheidungen getroffen werden.Zwei Arten von Fehlern sind dabei moglich:

Fehler 1. Art: Entscheidung fur K, obwohl H richtig ist,Fehler 2. Art: Entscheidung fur H, obwohl K richtig ist.

Die ubliche (unsymmetrische) Vorgehensweise ist die folgende: Man versuchtunter allen (n.r.) Tests mit einer vorgegebenen Irrtumswahrscheinlichkeit α ∈(0, 1) fur den Fehler 1. Art einen solchen zu bestimmen, der die Wahrschein-lichkeit fur den Fehler 2. Art minimiert: Gesucht ist also S∗ ∈ B mit

S∗ ∈ γα := S ∈ B : ∀ϑ ∈ H : Pϑ(S) ≤ α (1.2.2)

und

∀ϑ ∈ K : Pϑ(S∗c) = inf

S∈γα

Pϑ(Sc). (1.2.3)

8

Page 10: Mathematische Statistik · Vorwort Dieses Skript entstand aus der Vorlesung ” Mathematische Statistik I und II“, wie sie Prof. Dr. Michael Falk im Wintersemester 2007/2008 bis

Aquivalent zu (1.2.3) ist

∀ϑ ∈ K : Pϑ(S∗) = sup

S∈γα

Pϑ(S). (1.2.4)

Die Elemente der Klasse γα, d.h. Tests S ∈ B mit der Eigenschaft

∀ϑ ∈ H : Pϑ(S) ≤ α (1.2.5)

heißt n.r. Test zum Niveau α. α ∈ [0, 1] heißt Irrtumswahrscheinlichkeit oderWahrscheinlichkeit fur den Fehler 1. Art, 1−α heißt Sicherheitswahrschein-lichkeit.Man bezeichnet H auch als Nullhypothese oder Hypothese und K als Gegen-hypothese oder Alternative. Man nennt

S := x ∈ X : e(x) = dK =: e = dK

die kritische Region undSc = e = dH

den Annahmebereich des Tests e.

1.3 Elementare Testverfahren unter Normal-

verteilungsannahme

Im Folgenden seinenX1, . . . , Xn unabhangige und identischN(µ, σ2)-verteilteZufallsvariablen, (X ,B) = (Rn,Bn). Dabei bezeichnet

N(µ, σ2)(B) =

∫B

1√2π

exp

(−(x− µ)2

2σ2

)dx,

B ∈ B, µ ∈ R, σ > 0, die Normalverteilung auf (R,B) mit Mittelwert µ undVarianz σ2.

Wir unterscheiden im Folgendem verschiedene Falle:

(i) Es sei µ unbekannt, σ2 bekannt. Die parametrische Verteilungsannahmelautet in diesem Fall

P = Pϑ = N(µ, σ2)n : ϑ = µ ∈ Θ,Θ = R

Zu vorgegebenen Niveau, d.h. Fehlerwahrscheinlichkeit 1. Art α ∈ (0, 1),ist ein (einseitiger) Test fur H : ϑ ≥ ϑ0 gegen K : ϑ ≤ ϑ0 zu finden.Dabei ist ϑ0 ∈ R fest vorgegeben. Aufgrund des starken Gesetzes dergroßen Zahlen gilt

T (X1, . . . , Xn) :=1

n

n∑i=1

Xin→∞−→ E(X1) = µ P− f.s.

9

Page 11: Mathematische Statistik · Vorwort Dieses Skript entstand aus der Vorlesung ” Mathematische Statistik I und II“, wie sie Prof. Dr. Michael Falk im Wintersemester 2007/2008 bis

Es ist daher sinnvoll, H abzulehnen, falls aufgrund vorliegender Beob-achtungen

x = (x1, . . . xn) = (X1(ω), . . . Xn(ω))

die Statistik T (X1, . . . , Xn) ”zu klein“ ist, d.h. T (X1, . . . , Xn) ≤ γ <

ϑ0. Dabei ist γ so zu wahlen, dass die Wahrscheinlichkeit fur den Fehler1. Art nicht großer als α ist, d.h.

supϑ∈H

Pϑ(T (X1, . . . Xn) ≤ γ) ≤ α. (1.3.1)

Nach dem Faltungstheorem der Normalverteilung gilt fur ϑ ∈ Θ

(n∑i=1

Xi ∈ B

)= N(nµ, nσ2)(B), B ∈ B

⇒ Pϑ

(n1/2

(1

n

n∑i=1

Xi − µ

)/σ ∈ B

)= N(0, 1)(B)

d.h.Pϑ(n1/2(T (X1, . . . Xn)− µ)/σ ∈ B

)= N(0, 1)(B).

Daher gilt fur alle t ∈ R und T = T (X1, . . . , Xn) und ϑ ∈ Θ

(T ≤ ϑ+

n1/2

)= Pϑ

(n1/2 · T − ϑ

σ≤ t

)= Φ(t), B = (−∞; t]

wobei

Φ(t) =1√2π

∫ t

−∞exp

(−x2/2

)dx

die Verteilungsfunktion der Standardnormalverteilung ist.

Fur ϑ ∈ H erhalten wir nun

(T ≤ ϑ0 +

n1/2

)= Pϑ

T ≤ ϑ+tσ

n1/2− (ϑ− ϑ0)︸ ︷︷ ︸

≥0

ϑ≥ϑ0

≤ Pϑ

(T ≤ ϑ+

n1/2

)= Φ(t),

d.h.

supϑ∈H

(T ≤ ϑ0 +

n1/2

)≤ Φ(t)

Wahlen wir also t ∈ R so, dass Φ(t) = α, d.h. t = Φ−1(α) =: uα, sohaben wir (1.3.1) mit der Wahl γ := ϑ0 + uασn

−1/2 erfullt. Dabei istuα das α-Quantil der Standardnormalverteilung.

10

Page 12: Mathematische Statistik · Vorwort Dieses Skript entstand aus der Vorlesung ” Mathematische Statistik I und II“, wie sie Prof. Dr. Michael Falk im Wintersemester 2007/2008 bis

Die kritische Region unseres Tests ist also die Menge

C =

x ∈ Rn : T (x) ≤ ϑ0 +uασ

n1/2

Dieser Test heißt auch Gauss-Test.

(ii) Es sei σ2 unbekannt, µ hingegeen bekannt. Die Verteilungsannahmelautet in diesem Fall

P =Pϑ = N(µ, σ2)n : ϑ = σ2 ∈ Θ

,Θ = (0,∞),

Gesucht ist nun ein einseitiger Test zum Niveau α fur H : ϑ ≥ ϑ0 gegenK : ϑ < ϑ0. Dabei ist ϑ0 > 0 vorgegeben.

Das Starke Gesetz der großen Zahlen leifert

T := T (X1, . . . Xn) :=1

n

n∑i=1

(Xi−µ)2 n→∞−→ E((X1 − µ)2

)= σ2 P−f.s.

Wir werden daher H ablehnen, falls aufgrund einer vorliegenden Beob-achtung

x = (x1, . . . xn) = (X1(ω), . . . , Xn(ω))

die Testgroße T (x)”zu klein“ wird, d.h. T (x) ≤ γ ≤ ϑ0. Dabei ist γ

so festzulegen, dass

supϑ∈H

(T ≤ γ

)≤ α. (1.3.2)

Wir gehen wie folgt vor: Ist Xi N(µ, σ2)-verteilt, so ist (Xi − µ)/σN(0, 1)-verteilt. Damit ist

∑ni=1(Xi−µ)2/σ2 nach Definition χ2-verteilt

mit n Freiheitsgraden, i. Z. χ2n.

Bezeichnen wir mit Fχ2n

die Verteilungsfunktion der χ2-Verteilung mitn Freiheitsgraden und setzen wir noch

cα,n := F−1χ2

n(α),

so gilt mit γ := cα,n · ϑ0/n fur alle ϑ ∈ H = [ϑ0,∞)

(T ≤ γ

)= Pϑ

(1

n∑i=1

(Xi − µ)2 ≤ cα,n · ϑ0

n

)

= Pϑ

n∑i=1

(Xi − µ√

ϑ

)2

≤ cα,nϑ0

ϑ︸︷︷︸≤1

≤ Pϑ

(n∑i=1

(Xi − µ√

ϑ

)2

≤ cα,n

)= Fχ2

n(cα,n)

= α,

11

Page 13: Mathematische Statistik · Vorwort Dieses Skript entstand aus der Vorlesung ” Mathematische Statistik I und II“, wie sie Prof. Dr. Michael Falk im Wintersemester 2007/2008 bis

d.h. (1.3.2) ist erfullt. Die kritische Region unseres Tests ist also dieMenge

C =

x ∈ Rn : T (x) ≤ cα,n · ϑ0

n

(iii) Es sei nun µ und σ2 unbekannt.Die Verteilungsannahme lautet nun

P =Pϑ = N(µ, σ2)n : ϑ = (µ, σ2) ∈ Θ

,Θ = R× (0,∞).

Das starke Gesetz der großen Zahlen liefert mit Xn := 1n

∑ni=1Xi

S2 := S2(X1, . . . Xn) (1.3.3)

:=1

n− 1

n∑i=1

(Xi −Xn

)2=

1

n− 1

n∑i=1

((Xi − µ) + (µ−Xn)

)2

=n

n− 1︸ ︷︷ ︸n→∞−→ 1

(

1

n

n∑i=1

(Xi − µ)2

)︸ ︷︷ ︸

n→∞−→ σ2

−(Xn − µ

)2︸ ︷︷ ︸n→∞−→ 0

n→∞−→ σ2 P− f.s.,

falls Xi die Verteilung Pϑ besitzen mit ϑ = (µ, σ2).

Insbesondere giltEϑ(S

2) = σ2

Obige Konvergenzaussage nehmen wir zur Grundlage fur die Definitionvon Tests fur die beiden Entscheidungsprobleme.

(a) H : σ2 ≥ σ20 gegen K : σ2 < σ2

0, wobei σ20 > 0 fest vorgegeben ist

(b) H : µ ≤ µ0 gegen K : µ > µ0, wobei µ0 ∈ R fest vorgegeben ist

Zu (a): Die Konvergenzaussage (1.3.3) legt es nahe H abzulehnen, fallsaufgrund einer vorliegenden Beobachtung

x = (x1, . . . xn) = (X1(ω), . . . , Xn(ω))

gilt:S2(x) ≤ γ < σ2

0,

12

Page 14: Mathematische Statistik · Vorwort Dieses Skript entstand aus der Vorlesung ” Mathematische Statistik I und II“, wie sie Prof. Dr. Michael Falk im Wintersemester 2007/2008 bis

wobei γ so zu wahlen ist, dass

supϑ∈H

Pϑ(S2 ≤ γ

)≤ α. (1.3.4)

Beachte dabei dass H = R× [σ20,∞).

Nun ist (n− 1) · S2/σ2 χ2n−1-verteilt (siehe etwa Theorem 2.2.1 in Falk

et. al. (2002)). Setzen wir daher γ := cα,n−1σ20/(n − 1), so gilt fur alle

ϑ ∈ H

Pϑ(S2 ≤ γ) = Pϑ

n− 1

σ2S2 ≤ cα,n−1

(σ0

σ

)2

︸ ︷︷ ︸≤1

≤ Pϑ

(n− 1

σ2S2 ≤ cα,n−1

)= α

d.h. (1.3.4) ist erfullt. Die kritische Region unseres Tests ist also dieMenge

C =

x ∈ Rn : S2(x) ≤ cα,n−1 · σ2

0

n− 1

Zu (b): Da die Verteilung von T = 1n

∑nn−1(Xi − µ) von σ2 abhangt

und im vorliegenden Fall σ2 unbekannt ist liegt es wegen (1.3.3) nahedie Stichprobenfunktion

t(x1, . . . xn) :=n1/2 · (T (x1, . . . , xn)− µ)

(S2(x1, . . . , xn))1/2

zu verwenden. Als Entscheidungsregel verwenden wir:

H wird abgelehnt, falls aufgrund einer vorliegenden Beobachtung x =(x1, . . . xn)

t0(x) =n1/2 (T (x)− µ0)

(S2(x))1/2≥ γ > 0.

Dabei ist γ so zu wahlen, dass

supϑ∈H

Pϑ(t0 ≥ γ) ≤ α (1.3.5)

Beachte, dass H = (−∞, µ0]× (0,∞).

Es gilt

t(x) = (n− 1)1/2T (x)−µ

σ(n−1σ2 S2(x)

)1/2 ,13

Page 15: Mathematische Statistik · Vorwort Dieses Skript entstand aus der Vorlesung ” Mathematische Statistik I und II“, wie sie Prof. Dr. Michael Falk im Wintersemester 2007/2008 bis

wobei n1/2 (T (X1, . . . Xn)− µ) /σ N(0, 1)-verteilt ist und((n−1)/σ2)S2(X1, . . . Xn) χ

2n−1-verteilt ist, falls X1, . . . Xn unabhangig

und identisch N(µ, σ2).

Diese beiden Zufallsvariablen sind stochastisch unabhangig und die Ver-teilung von t(X1, . . . Xn) ist die (Studentsche) t-Verteilung mit n − 1Freiheitsgraden, i.Z. tn−1 (s. Falk et al. (2002), Theorem 2.2.1).Ist nun γ := d1−α,n−1 := t−1

n−1(1 − α) das 1 − α-Quantil der tn−1-Verteilung, so erhalten wir fur alle ϑ ∈ H

Pϑ(t0 ≥ γ) = Pϑ

t+ n1/2 µ− µ0

(S2)1/2︸ ︷︷ ︸≤0

≥ γ

≤ Pϑ(t ≥ γ)

= tn−1([γ,∞))

= tn−1([d1−α,n−1,∞))

= 1− (1− α)

= α,

d.h. (1.3.5) ist erfullt. Die kritische Region dieses (Einstichproben) t-Tests ist

C := x ∈ Rn : t0(x) ≥ d1−α,n−1 .

1.4 Punktschatzverfahren

Bei vorgegebenem Stichprobenraum (X ,B) und zugrundegelegter Verteilungs-annahme P = Pϑ : ϑ ∈ Θ soll aufgrund einer vorliegenden Beobachtungx ∈ X der zugrundeliegende Parameter ϑ ∈ Θ oder allgemein der Wert κ(ϑ)einer (reellen) Funktion κ auf Θ geschatzt werden.

Definition 1.4.1. Eine meßbare Abbildung κ des Stichprobenraumes (X ,B)in den (meßbaren) Wertebereich der Funktion κ heißt eine Schatzfunktion,genauer eine Punktschatzfunktion fur κ(ϑ), kurz κ : (X ,B) → (R,B).

Bei einer stetig verteilten Schatzfunktion wird jeder spezielle Wert, insbeson-dere der zugrundeliegende Wert κ(ϑ) mit Wahrscheinlichkeit 0 angenommen

Pϑ (κ = κ(ϑ)) = 0

Man trifft in diesem Fall somit fast sicher (= mit Wahrscheinlichkeit 1) eineFehlentscheidung.

14

Page 16: Mathematische Statistik · Vorwort Dieses Skript entstand aus der Vorlesung ” Mathematische Statistik I und II“, wie sie Prof. Dr. Michael Falk im Wintersemester 2007/2008 bis

Bei der Wahl einer Schatzfunktion κ sollte daher die Große des erwartetenFehlers berucksichtigt werden. Im Folgenden setzen wir vorraus dass κ : Θ →R.

Definition 1.4.2. κ : (X ,B) → (R,B) heißt erwartungstreu oder unverzerrt(engl. unbiased), falls

∀ϑ ∈ Θ : Eϑ(κ) = κ(ϑ)

Definition 1.4.3. κ∗ heißt erwartungstreue Schatzfunktion mit Minimalva-rianz, falls

(i) κ∗ ∈ K := κ : ∀ϑ ∈ Θ : Eϑ(κ) = κ(ϑ),

(ii) ∀ϑ ∈ Θ V arϑ(κ∗) = Eϑ((κ∗ − µ)2

)= inf κ∈K V arϑ(κ).

Die Bedeutung der Minimalvarianz lasst sich wie folgt motivieren. Es seiL : Θ× R → [0,∞) eine Verlustfunktion mit den beiden Eigenschaften

∀ϑ ∈ Θ : L(ϑ, ·) ist zweimal stetig diffbar

∀ϑ ∈ Θ : L(ϑ, κ(ϑ)) = 0

Damit wird fur eine beliebige erwartungstreue Schatzfunktion κ von κ nachder Taylorformel gelten:

L(ϑ, κ) = L(ϑ, κ)− L(ϑ, κ(ϑ))

=∂

∂κL(ϑ, κ(ϑ)) · (κ− κ(ϑ)) +

∂2

∂2κL(ϑ, ξ)

(κ− κ(ϑ))2

2

≈ ∂

∂κL(ϑ, κ(ϑ)) · (κ− κ(ϑ)) +

∂2

∂2κL(ϑ, κ(ϑ))

(κ− κ(ϑ))2

2

=∂

∂κL(ϑ, κ(ϑ)) · (κ− κ(ϑ)) + const(ϑ) · (κ− κ(ϑ))2

wobei ξ zwischen κ und κ liegt und const(ϑ) unabhangig von κ ist. Es folgt:

Rϑ(κ) = Eϑ (L(ϑ, κ))

≈ Eϑ

(∂

∂κL(ϑ, κ(ϑ)) · (κ− κ(ϑ)) + const(ϑ) · (κ− κ(ϑ))2

)=

∂κL(ϑ, κ(ϑ))Eϑ (κ− κ(ϑ))︸ ︷︷ ︸

=0

+const(ϑ) · Eϑ((κ− κ(ϑ))2

)= const(ϑ) · V arϑ(κ)

Ein erwartungstreuer Schatzer mit Minimalvarianz wird also tendenziell jedesRisiko minimieren. Das erklart die Bedeutung der Minimalvarianz.

15

Page 17: Mathematische Statistik · Vorwort Dieses Skript entstand aus der Vorlesung ” Mathematische Statistik I und II“, wie sie Prof. Dr. Michael Falk im Wintersemester 2007/2008 bis

Beispiel 1.4.4. Es seinen X1, . . . Xn unabhangige und identisch N(µ, σ2)-verteilte Zufallsvariablen, wobei µ und σ2 unbekannt sind.Es gilt also (X ,B,P) = (Rn,Bn,P = Pϑ = N(µ, σ2)n : ϑ = (µ, σ2) ∈Θ),Θ = R× (0,∞). Gesucht ist eine Schatung fur κ(ϑ) = µ.Das Gesetz der großen Zahlen legt die Schatzfunktion

κ =1

n

n∑i=1

xi, x = (x1, . . . , xn) ∈ Rn, fur κ(ϑ) nahe.

Tatsachlich ist κ erwartungstreu:

∀ϑ ∈ Θ : Eϑ(κ(X1, . . . Xn)) = Eϑ

(1

n

n∑i=1

Xi

)= µ = κ(ϑ).

Wir werden in Kapitel 3 zeigen, dass κ auch 1.4.3 (ii) erfullt, also ein Schatzermit Minimalvarianz ist. Zum Nachweis wird dabei wesentlich von der Nor-malverteilungsannahme Gebrauch gemacht.

Beispiel 1.4.5. Es seien X1, . . . , Xn unabhangige und identisch verteilteZufallsvariablen mit σ2 := V ar(X1) <∞. Setze

κ1(x) :=1

n

n∑i=1

(xi − x)2,

κ2(x) :=1

n− 1

n∑i=1

(xi − x)2,

x = (x1, . . . xn) ∈ Rn, x =1

n

n∑i=1

xi.

Dann liefert κ2(X1, . . . , Xn) eine erwartungstreue Schatzfunktion fur σ2,κ1(X1, . . . , Xn) aber nicht.

1.5 Bereichsschatzungen

Der Vorteil der in 1.4 betrachteten Schatzverfahren prazise Aussagen in Formvon Punktschatzungen zu liefern bedingt gleichzeitig, dass in (nahezu) allenFallen f.s. Fehlentscheidungen getroffen werden.Eine Alternative zur Punktschatzung besteht in der Bereichsschatzung (Kon-fidenzbereich) d.h. in der Angabe einer Abbildung

K : X → Potenzmenge von Θ

16

Page 18: Mathematische Statistik · Vorwort Dieses Skript entstand aus der Vorlesung ” Mathematische Statistik I und II“, wie sie Prof. Dr. Michael Falk im Wintersemester 2007/2008 bis

derart, dass K(·)(⊂ Θ) mit einer vorgegebenen Mindestwahrscheinlichkeit1− α den zugrundeliegenden Parameter enthalt

∀ϑ ∈ Θ : Pϑ(x ∈ X : ϑ ∈ K(x)) ≥ 1− α

Beispiel 1.5.1. Es seien X1, . . . , Xn unabhangige und identisch N(µ, σ20)-

verteilte Zufallsvariablen mit bekanntem σ20 > 0 und unbekanntem µ ∈ R

(X ,B) = (Rn,Bn), P = Pϑ = N(µ, σ20)n, ϑ = µ ∈ Θ = R

Setze T (x) := 1n

∑ni=1 xi, x = (x1, . . . xn) ∈ X .

Da mit T = T (X1, . . . , Xn) unter ϑ die Große n1/2(T −µ)/σ0 N(0, 1)-verteiltist, gilt fur ein beliebiges α ∈ (0, 1)

∀ϑ ∈ Θ : Pϑ

(−uα/2 ≤ n1/2T − µ

σ0

≤ uα/2

)= 1− α

wobei uα/2 = Φ−1(1− α

2

)oder

∀ϑ ∈ Θ : Pϑ

(T −

σ0 uα/2n1/2

≤ µ ≤ T +σ0 uα/2n1/2

)= 1− α

= Pϑ

ϑ︸︷︷︸=µ

∈[T −

σ0 uα/2n1/2

;T +σ0 uα/2n1/2

] .

Dies bedeutet, dass

K(x) :=[T (x)−

σ0 uα/2n1/2

;T (x) +σ0 uα/2n1/2

]x ∈ Rn, eine Bereichsschatzung ist mit der Eigenschaft

Pϑ (ϑ ∈ K(X1, . . . , Xn)) = 1− α,

ϑ ∈ Θ. Man nennt[T − σ0uα/2n

−1/2;T + σ0uα/2n−1/2

]Konfidenzintervall

(Vertrauensintervall) fur den Parameter ϑ zum Niveau 1− α.

Beispiel 1.5.2. Es seien X1, . . . , Xn unabhangige und N(µ, σ2)-verteilte Zu-fallsvariablen, wobei µ und σ2 > 0 unbekannt sind, d.h. Θ = R× (0,∞).Die Zufallsvariable

t(X1, . . . , Xn) := n1/2 T (X1, . . . , Xn)− µ√S2(X1, . . . , Xn)

17

Page 19: Mathematische Statistik · Vorwort Dieses Skript entstand aus der Vorlesung ” Mathematische Statistik I und II“, wie sie Prof. Dr. Michael Falk im Wintersemester 2007/2008 bis

ist nach Abschnitt 1.3 t-verteilt mit n− 1-Freiheitsgraden, i.Z. tn−1.Fur α ∈ (0, 1) sei tα/2 := d1−α

2,n das 1− α

2-Quantil der tn−1-Verteilung, d.h.

Pϑ(t(X1, . . . , Xn) ≤ tα/2) = 1− α

2.

Dann gilt ∀ϑ = (µ, σ2) ∈ Θ:

Pϑ(−tα/2 ≤ t(X1, . . . , Xn) ≤ tα/2

)= Pϑ

(t(X1, . . . , Xn) ≤ tα/2

)− Pϑ

(t(X1, . . . , Xn) ≤ −tα/2

)= 1− α

2− α

2= 1− α

oder ∀ϑ = (µ, σ2) ∈ Θ:

(T −

tα/2(S2)1/2

n1/2≤ µ ≤ T +

tα/2(S2)1/2

n1/2

)= 1− α

= Pϑ

(µ ∈

[T −

tα/2(S2)1/2

n1/2;T +

tα/2(S2)1/2

n1/2

])d.h.

[T − tα/2(S

2)1/2n−1/2;T + tα/2(S2)1/2n−1/2

]ist ein Konfidenzintervall fur

den Parameter κ(ϑ) = µ zum Niveau 1− α.

Definition 1.5.3. Eine Abbildung

K : X → Potenzmenge von Θ

heißt Bereichsschatzfunktion zum Konfidenzniveau 1 − α oder Konfidenzbe-reich zum Niveau 1− α :⇔

∀ϑ ∈ Θ : Pϑ (x ∈ X : ϑ ∈ K(x)) ≥ 1− α (1.5.4)

Bemerkung 1.5.5. (i) Damit die Wahrscheinlichkeit in (1.5.4) erklart ist,muss gelten

∀ϑ ∈ Θ : A(ϑ) := x ∈ X : ϑ ∈ K(x) ∈ B

(ii) Im Fall von Bereichsschatzungen ist der Entscheidungsraum die Po-tenzmenge von Θ. Er enthalt im Gegensatz zu den bisher beobachtetenEntscheidungsverfahren i.a. mehrere richtige Entscheidungen.

(iii) Ist Θ ein Intervall in R und ist fur alle x ∈ X K(x) ein Intervall inR, so heißt K als Losung von (1.5.4) ein Konfidenzintervall fur ϑ zumNiveau 1− α.

18

Page 20: Mathematische Statistik · Vorwort Dieses Skript entstand aus der Vorlesung ” Mathematische Statistik I und II“, wie sie Prof. Dr. Michael Falk im Wintersemester 2007/2008 bis

Satz 1.5.6 (Dualitatsprinzip). Es sei P = Pϑ : ϑ ∈ Θ eine beliebigeFamilie von Wahrscheinlichkeitsmaßen auf dem Stichprobenraum (X ,B) undα ∈ (0, 1). Dann gilt:

(i) Ist K ein Konfidenzbereich zum Niveau 1 − α, so ist fur jedes ϑ′ ∈ Θdie Menge X\A(ϑ′) = x ∈ X : ϑ′ /∈ K(x) die kritische Region einesTests zum Niveau α fur das Problem Hϑ′ : ϑ = ϑ′ gegen Kϑ′ : ϑ 6= ϑ′.

(ii) Ist fur jedes ϑ′ ∈ Θ C(ϑ′) die kritische Region eines Tests zum Niveauα fur das Entscheidungsproblem Hϑ′ : ϑ = ϑ′ gegen Kϑ′ : ϑ 6= ϑ′, sowird durch die Festsetzung K(x) := ϑ′ ∈ Θ : x ∈ C(ϑ′)c, x ∈ X , einKonfidenzbereich zum Niveau 1− α definiert.

Beweisskizze: Zu (i):

Pϑ′(X\A(ϑ′)) = Pϑ′(x ∈ X : ϑ′ /∈ K(x))

= 1− Pϑ′(x ∈ X : ϑ′ ∈ K(x))︸ ︷︷ ︸≥1−α

≤ α

Zu (ii): ϑ ∈ K(x) ⇔ x ∈ C(ϑ)c; wahle als K(x) alle ϑ mit der Eigenschaft:aufgrund von x wird ϑ nicht verworfen, d.h.

Pϑ(x ∈ X : ϑ ∈ K(x)) = Pϑ(x ∈ X : x ∈ C(ϑ)c)

= 1− Pϑ(x ∈ X : x ∈ C(ϑ))︸ ︷︷ ︸≤α

≥ 1− α

2

1.6 Randomisierte Entscheidungsverfahren

Der in Definition 1.2.1 auf Seite 8 eingefuhrte Begriff der nichtrandomisiertenEntscheidungsfunktion reicht fur die im Folgenden zu entwickelnde Theoriei.a. nicht aus, denn mit zwei Entscheidungsfunktionen e1, e2 benotigen wirauch eine solche, bei der aufgrund einer Beobachtung x mit der Wahrschein-lichkeit γ = γ(x) die Entscheidung e1(x) und mit der Wahrscheinlichkeit1− γ die Entscheidung e2(x) getroffen wird.Ob man sich also fur e1(x) oder e2(x) entscheidet, hangt somit von demAusgang eines Hilfsexperimentes ab, namlich davon, ob bei diesem ein Ereig-nis, welches die Wahrscheinlichkeit γ besitzt, eingetreten ist oder nicht. DieAusfuhrung eines solchen (Zusatz-) Experiments heißt Randomisieren nacheiner B(1, γ)-Verteilung.

19

Page 21: Mathematische Statistik · Vorwort Dieses Skript entstand aus der Vorlesung ” Mathematische Statistik I und II“, wie sie Prof. Dr. Michael Falk im Wintersemester 2007/2008 bis

Definition 1.6.1. Gegeben seien der Stichprobenraum (X ,B) und der Ent-scheidungsraum (∆,D). Eine randomisierte Entscheidungsfunktion ist danneine Ubergangswahrscheinlichkeit oder Markoffscher Kern von (X ,B) nach(∆,D), d.h. eine Abbildung δ : X ×D → [0, 1] mit den Eigenschaften

(i) ∀x ∈ X : δ(x, ·) ist ein Wahrscheinlichkeitsmaß auf D

(ii) ∀D ∈ D : δ(·, D) ist B,B-meßbar.

Die Zahl δ(x,D) ist dabei wie folgt zu interpretieren: Bei Vorliegen der Beob-achtung x ∈ X ist eine Entscheidung zu treffen, welche mit der Wahrschein-lichkeit δ(x,D) zur Menge D ∈ D gehort.

Das bedeutet: Um in einer konkreten Situation zu einer Entscheidung zugelangen, hat man zunachst die Beobachtung x ∈ X zu gewinnen und dannmit diesem Wert x ein Hilfsexperiment mit (∆,D) als Stichprobenraum undδ(x, ·) als Wahrscheinlichkeitsverteilung durchzufuhren. Der Ausgang diesesHilfsexperimentes ist dann die tatsachlich zu treffende Entscheidung. DieAusfuhrung eines Hilfsexperimentes heißt Randomisieren nach der Verteilungδ(x, ·).

Eine nicht randomisierte Entscheidungsfunktion kann mit der randomisiertenEntscheidungsfunktion δe(x,D) := 1D(e(x)) identifiziert werden: Bei Verwen-dung dieser Entscheidungsfunktion ist fur alle x ∈ X mit Wahrscheinlichkeit1 die Entscheidung e(x) zu treffen sofern e(x) ∈ D. [δe(x, e(x)) = 1].

Im Folgenden verzichten wir daher auf den Zusatz”randomisiert“.

Bei einem Testproblem besteht der Entscheidungsraum ∆ nur aus den beidenElementen dH und dK , so dass in diesem Fall eine Entscheidungsfunktionδ : X ×Potenzmenge von dH , dK → [0, 1] bereits durch ϕ(x) := δ(x, dK)vollig bestimmt ist.Im Spezialfall eines nicht randomisierten Tests e ergibt sich ϕ(x) = 1S(x),x ∈ X wobei S = x ∈ X : e(x) = dk die kritische Region von e ist.

Definition 1.6.2. Unter einer Testfunktion oder kurz Test ϕ versteht maneine (B,B)-meßbare Abbildung ϕ : X → [0, 1].

Dabei ist ϕ(x) die Wahrscheinlichkeit dafur, dass bei Vorliegen der Beobach-tung x ∈ X die Entscheidung dK getroffen wird, d.h. ϕ(x) =: δ(x, dK).Der Spezialfall ϕ = 1S mit S ∈ B entspricht dann dem nicht randomisiertenTest e(x) = dK , falls x ∈ S und e(x) = dH , falls x ∈ Sc.[δ(x, dK) = ϕ(x) ⇒ δ(x, dH) = 1 − δ(x, dK) = 1 − ϕ(x), δ(·, dK) =ϕ(·) ist B,B-meßbar, δ(x, ·) ist Wahrscheinlichkeitsmaß]

20

Page 22: Mathematische Statistik · Vorwort Dieses Skript entstand aus der Vorlesung ” Mathematische Statistik I und II“, wie sie Prof. Dr. Michael Falk im Wintersemester 2007/2008 bis

Bei zugrundeliegender Verteilungsannahme P = Pϑ : ϑ ∈ Θ und einerEntscheidungsfunktion δ : X × D → [0, 1] (Markoffscher Kern) wird durchdie Festsetzung

∀D ∈ D Qϑ,δ(D) := (Pϑ ⊗ δ)(D) (1.6.3)

:=

∫Xδ(x,D)Pϑ(dx)

= Eϑ(δ(·, D)) ∈ [0, 1]

ein Wahrscheinlichkeitsmaß Qϑ,δ auf D definiert.

Denn es gilt

(i)

Qϑ,δ(∆) =

∫Xδ(x,∆)Pϑ(dx)

= Pϑ(X )

= 1.

(ii) Es seinen D ∈ D, n ∈ N paarweise disjunkt. Dann folgt aus dem Satzder monotenen Konvergenz:

Qϑ,δ

(⋃n∈N

Dn

)=

∫Xδ

(x,⋃n∈N

Dn

)Pϑ(dx)

=

∫X

∑n∈N

δ(x,Dn)Pϑ(dx)

=

∫X

limm→∞

m∑n=1

δ(x,Dn)︸ ︷︷ ︸≥0︸ ︷︷ ︸

Pϑ(dx)

= limm→∞

∫X

m∑n=1

δ(x,Dn)Pϑ(dx)

= limm→∞

m∑n=1

∫Xδ(x,Dn)Pϑ(dx)

=∑n∈N

Qϑ,δ(Dn).

Qϑ,δ(D) lasst sich als Wahrscheinlichkeit dafur interpretieren, dass bei zu-grundeliegender Verteilung Pϑ eine in der oben beschreibenen zweistufigen

21

Page 23: Mathematische Statistik · Vorwort Dieses Skript entstand aus der Vorlesung ” Mathematische Statistik I und II“, wie sie Prof. Dr. Michael Falk im Wintersemester 2007/2008 bis

Weise (durch Randomisieren nach der Verteilung δ(x, ·) bei vorliegender Be-obachtung x) gewonnene Entscheidung d zur Menge D gehort.Im Spezialfall eines Tests ϕ ist Qϑ,δ bereits durch

Qϑ,δ(dK) =

∫Xδ(x, dK)Pϑ(dx)

=

∫Xϕ(x)Pϑ(dx)

= Eϑ(ϕ) ∈ [0, 1]

eindeutig definiert;

Qϑ,δ(dH) = 1−Qϑ,δ(dH)= 1− Eϑ(ϕ)

= Eϑ(1− ϕ)

Somit ist Eϑ(ϕ) die Wahrscheinlichkeit mit der unter der Verteilung Pϑ dieEntscheidung dK , d.h. Verwerfen der Hypothese, getroffen wird.Die Abbildung β : Θ → [0, 1] definiert durch

∀ϑ ∈ Θ : β(ϑ) := Eϑ(ϕ)

heißt Gutefunktion (power function) des Tests ϕ.Im Spezialfall ϕ = 1S (eines nichtrandomisierten Tests) gilt:

β(ϑ) = Pϑ(S).

Die Wahrscheinlichkeit fur den Fehler erster Art ist (fur ein beliebiges ϕ)Eϑ(ϕ), ϑ ∈ H, die Wahrscheinlichkeit fur den Fehler zweiter Art ist 1 −Eϑ(ϕ) = Eϑ(1− ϕ), ϑ ∈ K.Ein Test ϕ fur H gegen K mit der Eigenschaft

∀ϑ ∈ H : Eϑ(ϕ) ≤ α (1.6.4)

heißt Test zum Niveau α. Im Folgenden bezeichnen wir mit Φ die Gesamtheitaller Tests, d.h. Φ = ϕ : X → [0, 1] : ϕ ist B,B-meßbar .

Definition 1.6.5. Es sei Φ1 ⊂ Φ. Ein Test ϕ∗ heißt gleichmaßig bester Testbzgl. Φ1 fur H gegen K, falls

ϕ∗ ∈ Φ1 (1.6.6)

∀ϑ ∈ K : Eϑ(ϕ∗) = sup

ϕ∈Φ1

Eϑ(ϕ) (1.6.7)

22

Page 24: Mathematische Statistik · Vorwort Dieses Skript entstand aus der Vorlesung ” Mathematische Statistik I und II“, wie sie Prof. Dr. Michael Falk im Wintersemester 2007/2008 bis

Lemma 1.6.8. Es sei Φ1 ⊂ Φ2 ⊂ Φ und ϕ∗ ∈ Φ1. Ist ϕ∗ ein gleichmaßigbester Test bzgl. Φ2, dann ist ϕ∗ auch ein gleichmaßig bester Test bzgl. Φ1.

Beweis: ∀ϑ ∈ K : Eϑ(ϕ∗) = supϕ∈Φ2

Eϑ(ϕ) ≥ supϕ∈Φ1Eϑ(ϕ) ≥ Eϑ(ϕ

∗). 2

Fur α ∈ (0, 1) sei Φα := ϕ ∈ Φ : ∀ϑ ∈ H : Eϑ(ϕ) ≤ α die Gesamtheit allerTests zum Niveau α.Ein gleichmaßig bester Test bzgl. Φα heißt dann gleichmaßig bester Test zumNiveau α fur H gegen K.Wir werden in Kapitel 2 sehen, dass ein gleichmaßig bester Test zum Niveauα bei vielen einseitigen Testproblemen H : ϑ ≤ ϑ0 gegen K : ϑ > ϑ0 existiert,wobei Θ ⊂ R.Bei zweiseitigen Testproblemen H : ϑ = ϑ0 gegen K : ϑ 6= ϑ0 ist man hinge-gen haufig gezwungen Φα durch eine kleinere Klasse von Testfunktionen zuersetzen. Dabei nimmt man zumeist die Klasse aller unverfalschten Tests zumNiveau α. Ein Test ϕ zum Niveau α fur H gegen K heißt dabei unverfalscht,falls

∀ϑ ∈ K : Eϑ(ϕ) ≥ α (1.6.9)

d.h. bei Verwendung von ϕ ist unter K die Entscheidung fur K mindestensso wahrscheinlich wie unter der Hypotese H (∀ϑ ∈ H : Eϑ(ϕ) ≤ α).

Ein gleichmaßig bester Test bzgl.

Φuα := ϕ ∈ Φα : ∀ϑ ∈ K : Eϑ(ϕ) ≥ α

heißt gleichmaßig bester unverfalschter Test zum Niveau α fur H gegen K.

Lemma 1.6.10. Jeder gleichmaßig beste Test ϕ∗ zum Niveau α ist un-verfalscht und somit ein gleichmaßig bester unverfalschter Test zum Niveauα.

Beweis: Wegen ϕα := α ∈ Φα gilt gem. (1.6.7, S. 22)

∀ϑ ∈ K : Eϑ(ϕ∗) = α.

Wegen Φuα ⊂ Φα folgt die Behauptung somit aus Lemma 1.6.8. 2

Eine weitere Moglichkeit zur Auszeichnung optimaler Tests ist die Folgende:Gibt es keinen gleichmaßig besten (unverfalschten) Test zum Niveau α furH gegen K, so liegt es nahe, unter allen Tests zum Niveau α einen solchenzu bestimmen, der die maximale Wahrscheinlichkeit fur den Fehler zweiterArt minimiert. Dies ist gleichbedeutend damit infϑ∈K Eϑ(ϕ) unter allen Testsϕ ∈ Φα zu maximieren.

23

Page 25: Mathematische Statistik · Vorwort Dieses Skript entstand aus der Vorlesung ” Mathematische Statistik I und II“, wie sie Prof. Dr. Michael Falk im Wintersemester 2007/2008 bis

Definition 1.6.11. ϕ∗ ∈ Φα heißt Maximin-Test zum Niveau α fur H gegenK :⇔ infϑ∈K Eϑ(ϕ

∗) = supϕ∈Φαinfϑ∈K Eϑ(ϕ).

Offenbar ist jeder Maximin-Test zum Niveau α ein unverfalschter Test zumNiveau α.Im nachsten Kapitel werden wir sehen, dass ein optimaler nicht-randomisierterTest ϕ = 1S∗ fur das ProblemH : ϑ ≤ ϑ0 gegenK : ϑ > ϑ0 mit ϑ, ϑ0 ∈ Θ ⊂ Rhaufig von der Form ist

1S∗ = 1T>c, (1.6.12)

wobei T eine Stichprobenfunktion ist und die Konstante c ∈ R durch dieForderungen

∀ϑ ∈ H : Pϑ(T > c) ≤ α, (1.6.13)

∀ϑ ∈ K : Pϑ(T > c) = supS∈γα

Pϑ(S)

bestimmt wird.

Dabei wird c moglichst klein gewahlt, ohne dass die Fehlerwahrscheinlichkeiterster Art das Niveau α ubersteigt. Diese Konstante c heißt dann kritischerWert und die Stichprobenfunktion T : (X ,B) → (R,B) heißt Prufgroße bzw.Teststatistik fur den Parameter ϑ.

Suchen wir hingegen fur dasselbe Entscheidungsproblem einen optimalenTest innerhalb der großeren Klasse der randomisierten Tests, d.h. suchenwir fur das einseitige Testproblem H : ϑ ≤ ϑ0 gegen K : ϑ > ϑ0 einengleichmaßig besten Test ϕ∗ zum Niveau α, so wird ϕ∗ haufig von der Form

ϕ∗(x) =

1, falls T (x) > cγ, falls T (x) = c0, falls T (x) < c

(1.6.14)

mit γ ∈ [0, 1]. Randomisierte Entscheidungen werden nur auf der Mengex ∈ X : T (x) = c getroffen. Da diese Menge bei stetig verteiltem Tdie Wahrscheinlichkeit 0 besitzt, erhalt man (optimale) randomisierte Testsvornehmlich im Fall diskreter Verteilungen.

Die Gutefunktion des Tests (1.6.14) ist

β(ϑ) = Eϑ(ϕ∗) = Pϑ(T > c) + γ Pϑ(T = c) ϑ ∈ Θ

so dass aufgrund der Optimalitatskriterien (1.6.6) und (1.6.7) (mit Φ1 := Φα)der kritische Wert c moglichst klein und nach dieser Festsetzung γ moglichstgroß zu wahlen ist, ohne dass das Niveau α uberschritten wird.

24

Page 26: Mathematische Statistik · Vorwort Dieses Skript entstand aus der Vorlesung ” Mathematische Statistik I und II“, wie sie Prof. Dr. Michael Falk im Wintersemester 2007/2008 bis

Besteht nun unsere Verteilungsannahme aus diskreten Verteilungen Pϑ, etwaBinomial- oder Hypergeometrischen Verteilungen, so wird bei Verwenden desnicht randomisierten Tests (1.6.12), wobei c gemaß (1.6.13) festgelegt ist, daszugelassene Niveau α i.a. nicht erreicht.Bei Verwendung des randomisierten Tests (1.6.14) kann hingegen durch ge-eignete Wahl von c und γ das zugelassene Niveau α erreicht werden. DurchZulassen randomisierter Tests erzielt man somit einen Gewinn an Scharfe(power), d.h. des Wertes der Gutefunktion auf der Alternative.

25

Page 27: Mathematische Statistik · Vorwort Dieses Skript entstand aus der Vorlesung ” Mathematische Statistik I und II“, wie sie Prof. Dr. Michael Falk im Wintersemester 2007/2008 bis

Kapitel 2

EXISTENZ OPTIMALERTESTS

2.1 Struktureigenschaften des Raumes Φ al-

ler Testfunktionen

Es seien µ, ν Maße auf dem Stichprobenraum (X ,B).

Das Maß ν heißt absolut stetig bzgl. µ, i.Z. ν µ :⇔

µ(B) = 0 ⇒ ν(B) = 0 , B ∈ B

Wir sagen, dass eine Menge M von Maßen auf (X ,B) durch µ dominiertwird, i.Z. M µ :⇔

∀ν ∈M : ν µ.

Ist µ ein Maß auf B und

f ∈ L1(X ,B, µ) =

h : (X ,B) → (R,B) :

∫X|h(x)|µ(dx) <∞

mit f ≥ 0, so wird durch die Festlegung

ν(B) :=

∫B

fdµ :=

∫Xf · 1B dµ ,B ⊂ B,

ein endliches Maß ν auf B definiert mit ν µ.

Definition 2.1.1. Ein Maß µ auf (X ,B) heißt σ-endliches Maß, wenn paar-weise disjunkte X1, X2, · · · ∈ B existieren mit X =

⋃i∈NXi, µ(Xi) < ∞,

i ∈ N.

26

Page 28: Mathematische Statistik · Vorwort Dieses Skript entstand aus der Vorlesung ” Mathematische Statistik I und II“, wie sie Prof. Dr. Michael Falk im Wintersemester 2007/2008 bis

Satz 2.1.2 (Radon-Nikodym). Es sei µ ein σ-endliches Maß auf (X ,B)und ν/B sei ein endliches Maß mit ν µ. Dann existiert f ∈ L1(X ,B, µ),f ≥ 0, mit

ν(B) =

∫B

fdµ. (2.1.3)

Die Funktion f ist durch (2.1.3) µ–f.u. eindeutig bestimmt, d.h. falls f1 ≥ 0,f2 ≥ 0 Funktionen sind mit (2.1.3), so gilt µ(f1 6= f2) = 0, und heißt (Radon-Nikodym) Dichte von ν bzgl. µ, i.Z. f ∈ dν

dµoder auch dν = f dµ

Beweis: Siehe etwa Bauer, H. (1992): Wahrscheinlichkeitstheorie und Grundzugeder Maßtheorie, De Gruyter, Berlin, Satz 17.10. 2

Lemma 2.1.4. Es sei µ, ν endliche Maße auf (X ,B) mit der Eigenschaftν(B) ≤ µ(B), B ∈ B. Dann existiert ein f ∈ dν

dµmit 0 ≤ f ≤ 1.

Beweis: Offenbar gilt ν µ. Also existiert nach dem Satz von Radon-Nikodym f0 ∈ dν

dµ. Setzte B0 := f0 > 1. Dann gilt

0 = ν(B0)− ν(B0) ≥∫B0

f0 dµ− µ(B0) =

∫B0

f0 − 1 dµ ≥ 0

⇒∫B0

f0 − 1︸ ︷︷ ︸>0

dµ = 0

⇒ µ(B0) = 0

Damit erfullt f := f0 · 1BC0

die Behauptung. 2

Definition 2.1.5. Es sei µ/B ein endliches Maß. Eine Menge B0 ∈ B heißtein µ-Atom :⇔ µ(B0) > 0 und ∀B ∈ B mit B ⊂ B0 gilt µ(B) = 0 oderµ(B) = µ(B0). µ heißt atomlos, falls kein µ-Atom existiert.

Satz 2.1.6 (Ljapunoff). Es seinen µ1, . . . , µn endliche atomlose Maße aufB. Dann ist die Menge C := (µ1(B), . . . , µn(B)) : B ∈ B ⊂ Rn einekompakte und konvexe Teilmenge des Rn.

Beweis: J. Lindenstrauss (1966), Joural of Math. and Mech. (Indiana Uni-versity Mathematics Journal) 15, 971–972. 2

27

Page 29: Mathematische Statistik · Vorwort Dieses Skript entstand aus der Vorlesung ” Mathematische Statistik I und II“, wie sie Prof. Dr. Michael Falk im Wintersemester 2007/2008 bis

Satz 2.1.7. Es sei µ/B ein σ-endliches Maß. Dann existiert zu jeder Folge(ϕn)n∈N ⊂ Φ eine Teilfolge (ϕnk

)k∈N und ein Test ϕ0 ∈ Φ derart, dass

∀f ∈ L1(X ,B, µ) : limk→∞

∫ϕnk

f dµ =

∫ϕ0f dµ (2.1.8)

i.z. ϕnk ϕ0 bzgl µ.

Man sagt auch, Φ sei schwach folgenkompakt, und man nennt eine Folge(ϕn)n∈N ⊂ Φ schwach konvergent gegen ϕ0 ∈ Φ, falls ϕn ϕ0 bzgl. µ gilt.

Beweis: Witting, H. (1985) Mathematische Statistik, Teubner, Satz 2.14 2

Bemerkung 2.1.9. Es sei µ/B ein endliches Maß, ϕn ϕ0 bzgl. µ. Dann gilt

∀g ∈ Lb(X ,B) : limn→∞

∫Xϕn · g dµ =

∫Xϕ0 · g dµ

mit Lb(X ,B) := f : (X ,B) → (R,B) : f ist beschrankt.

Im Folgenden bezeichne Φ′ := Menge aller nicht-randomisierten Test = 1B :B ∈ B und Φ′′ := Menge aller Tests mit endlichem Wertebereich = ϕ ∈Φ : |ϕ(X )| <∞. Offenbar sind Φ′ und Φ′′ konvexe Mengen.

Lemma 2.1.10. Es seien P1, . . . , Pk Wahrscheinlichkeitsmaße auf B. Setze

M := (E1(ϕ), . . . , Ek(ϕ)) : ϕ ∈ Φ

mit Ei(ϕ) := EPi(ϕ) =

∫X ϕ dPi, ϕ ∈ Φ, 1 ≤ i ≤ k. Dann gilt

(i) M ⊂ [0, 1]k

(ii) α ∈ [0, 1] : (α, . . . , α)︸ ︷︷ ︸k−mal

∈M

(iii) M ist konvex

(iv) (α1, . . . , αk) ∈M ⇒ (1− α1, . . . , 1− αk) ∈M

(v) M ist kompakt

(vi) Ist (α1, . . . , αk) ein Extremalpunkt von M, so existiert ein ϕ′ ∈ Φ′ mitαi = Ei(ϕ

′) fur i = 1, . . . , k

(vii) M = (E1(ϕ), . . . , Ek(ϕ)) : ϕ ∈ Φ′′

28

Page 30: Mathematische Statistik · Vorwort Dieses Skript entstand aus der Vorlesung ” Mathematische Statistik I und II“, wie sie Prof. Dr. Michael Falk im Wintersemester 2007/2008 bis

(viii) Sind P1, . . . Pk samtlich atomlos, so gilt M = (E1(ϕ), . . . , Ek(ϕ)) : ϕ ∈Φ′

Bemerkung 2.1.11. Es sei L ein linearer Raum,K eine konvexe Teilmenge vonL. Ein Punkt x0 ∈ L heißt Extremalpunkt von K, wenn aus x0 = λx+(1−λ)yund x, y ∈ K und 0 ≤ λ ≤ 1 folgt : x = y = x0, d.h. wenn x0 kein innererPunkt einer ganzen in K verlaufenden Strecke ist.Es gilt der Satz von Minkovski: M ⊂ Rn sei kompakt und konvex, dann istM identisch mit der konvexen Hulle der Menge der Extremalpunkte, d.h.

M =

n∑i=1

λiei : λi ≥ 0,n∑i=1

λi = 1, ei Extremalpunkt

=

⋂A ist konvexe Menge, A ⊃Menge der Extremalpunkte von M

A.

Beweis:[von 2.1.10]

(i) Klar

(ii) Setze ϕα := α ∈ Φ, α ∈ [0, 1]

(iii) Es seien (α1, . . . , αk), (β1, . . . , βk) ∈ M , λ ∈ (0, 1) ⇒ ∃ϕ, ψ ∈ Φ :αi = Ei(ϕ), βi = Ei(ψ), 1 ≤ i ≤ k.Es gilt: λϕ + (1 − λ)ψ ∈ Φ ⇒ λ(α1, . . . , αk) + (1 − λ)(β1, . . . , βk) =(Ei(λϕ+ (1− λ)ψ)ki=1 ∈M

(iv) Ist offensichtlich, da ϕ ∈ Φ ⇒ 1− ϕ ∈ Φ

(v) Wir zeigen dass M folgenkompakt ist, d.h. jede Folge in M besitzt einekonvergente Teilfolge, deren Limes wiederum in M liegt. Dann ist Mkompakt.Fur n ∈ N sei (α

(n)1 , . . . , α

(n)k ) ∈M , d.h. es existiert eine Folge (ϕn)n∈N ⊂

Φ mit α(n)i = Ei(ϕn), 1 ≤ i ≤ k, n ∈ N. Setze

µ :=k∑i=1

Pi

[d.h. µ(B) = P1(B) + · · ·+ Pk(B) fur B ∈ B].

⇒ µ ist endliches Maß auf B 2.1.7⇒ ∃ Teilfolge (ϕnj)j∈N von (ϕn)n∈N und

∃ϕ0 ∈ Φ : limj∈N∫ϕnj

g dµ =∫ϕ0g dµ, g ∈ Lb(X ,B).

Offenbar gilt Pi ≤ µ, 1 ≤ i ≤ k2.1.4⇒ ∃gi ∈ dPi/dµ mit 0 ≤ gi ≤ 1, 1 ≤

i ≤ k. Es gilt also

limj∈N

Ei(ϕnj) = lim

j∈N

∫ϕnj

gi dµ =

∫ϕ0gi dµ = Ei(ϕ0)

29

Page 31: Mathematische Statistik · Vorwort Dieses Skript entstand aus der Vorlesung ” Mathematische Statistik I und II“, wie sie Prof. Dr. Michael Falk im Wintersemester 2007/2008 bis

1 ≤ i ≤ k, d.h.

limj∈N

(α(nj)1 , . . . , α

(nj)k ) = (α

(0)1 , . . . , α

(0)k ) := (E1(ϕ

(0)), . . . , Ek(ϕ(0))) ∈M

Also ist M ⊂ Rk folgenkompakt.

(vi) Es sei (α1, . . . , αk) ein Extremalpunkt von M .⇒ ∃ϕ ∈ Φ mit αi = Ei(ϕ), 1 ≤ i ≤ k. Setze fur ε ∈ (0, 1/2)

Aε := x ∈ X : ε ≤ ϕ(x) ≤ 1− ε,ϕ′ε := ϕ− ε · 1Aε

ϕ′′ε := ϕ+ ε · 1Aε

Dann gilt Aε ∈ B; ϕ′ε, ϕ′′ε ∈ Φ und ϕ = 1

2· ϕ′ε + 1

2· ϕ′′ε .

⇒ αi = Ei(ϕ) = 12Ei(ϕ

′ε) + 1

2Ei(ϕ

′′ε ), 1 ≤ i ≤ k, d.h.

(α1, . . . , αk) =1

2(E1(ϕ

′ε), . . . , Ek(ϕ

′ε)) +

1

2(E1(ϕ

′′ε ), . . . , Ek(ϕ

′′ε )).

Da (α1, . . . , αk) Extremalpunkt ist folgt αi = Ei(ϕ) = Ei(ϕ′ε) = Ei(ϕ

′′ε )

⇒ Pi(Aε) = 0 fur 1 ≤ i ≤ k. Da x ∈ X : 0 ≤ ϕ(x) ≤ 1 =⋃ε∈(0,1)∩QAε folgt Pi(0 < ϕ < 1) = 0 fur 1 ≤ i ≤ k.

Fur ϕ′ := 1ϕ=1 gilt daher αi = Ei(ϕ) = Ei(ϕ · 1ϕ>0) = Ei(ϕ ·1ϕ=1) = Ei(1ϕ=1) = Ei(ϕ

′) fur 1 ≤ i ≤ k.

(vii) Da M konvex und kompakt ist, ist M identisch mit der konvexen Hulle

seiner Extremalpunkte (Satz von Minkovski). Sei (α1, . . . , αk) ∈M(vi)⇒

∃c1, . . . cn ∈ [0, 1],∑n

i=1 ci = 1,∃B1, . . . , Bn ∈ B:

(α1, . . . , αk) =n∑j=1

cj(P1(Bj), . . . Pk(Bj)) = (E1(ϕ), . . . , Ek(ϕ))

mit ϕ :=∑n

j=1 cj · 1Bj∈ Φ′′.

(viii) Wir setzen den Beweisteil (vii) fort. Sind P1, . . . , Pk atomlos, so existiertnach 2.1.6 ein B ∈ B mit

n∑j=1

cj(P1(Bj), . . . , Pk(Bj)) = (P1(B), . . . , Pk(B))

d.h. (α1, . . . , αk) = (E1(1B), . . . , Ek(1B)).

2

30

Page 32: Mathematische Statistik · Vorwort Dieses Skript entstand aus der Vorlesung ” Mathematische Statistik I und II“, wie sie Prof. Dr. Michael Falk im Wintersemester 2007/2008 bis

Bemerkung 2.1.12. Ohne die Voraussetzung der Atomlosigkeit von Pi, 1 ≤i ≤ k ist (viii) i.a. nicht richtig.

Satz 2.1.13. Es sei P = Pϑ : ϑ ∈ Θ eine beliebige Familie von Wahr-scheinlicheitsmaßen auf (X ,B) mit P µ, µ ein σ-endliches Maß. Dannexistiert eine abzahlbare Teilfamilie Pϑn : n ∈ N von P, so dass P P :=∑

n∈N 2−nPϑn.

Beweis: O.B.d.A. sei |Θ| = ∞. Da µ σ-endlich ist, existieren Bn ∈ B, n ∈ N,mit Bn ∩Bm = ∅, n 6= m,

⋃n∈NBn = X und µ(Bn) <∞.

Setze fur B ∈ Bν(B) :=

∑n∈N0

1

2nµ(B ∩Bn)

µ(Bn)

wobei N0 = n ∈ N : µ(Bn) > 0.Dann ist ν ein endliches Maß auf (X ,B) mit P ν. Denn:

ν(B) = 0 ⇒ µ(B ∩Bn) = 0, n ∈ N

⇒ µ(B) = µ

B ∩⋃n∈N

Bn︸ ︷︷ ︸=X

= µ

(⋃n∈N

(B ∩Bn)

)=∑n∈N

µ(B ∩Bn) = 0

⇒ ∀ϑ ∈ Θ : Pϑ(B) = 0.

Es sei fur ϑ ∈ Θ nun fϑ ∈ dPϑ/dν (Satz von Radon-Nikodym), ferner seiC1 := B ∈ B : ∃ϑ ∈ Θ : B ⊂ fϑ > 0 sowie C2 := Gesamtheit allerabzahlbaren Vereinigungen von Mengen aus C1. Setze

ρ := supC∈C2

ν(C) <∞

und wahle Folge (Cn)n∈N ⊂ C2 mit limn∈N ν(Cn) = ρ. Dann ist C0 :=⋃n∈NCn ∈ C2 mit ν(C0) = ρ, denn ν(Cn) ≤ ν(C0), n ∈ N. Da C0 ∈ C2,

existiert eine Folge (Dn)n∈N ⊂ C1 mit C0 =⋃n∈NDn. Somit: ∀n ∈ N ∃ϑn ∈

Θ : Dn ⊂ fϑn > 0.Dann gilt:

∀ϑ ∈ Θ,∀B ∈ B : Pϑ(B) = Pϑ(B ∩ C0 ∩ fϑ > 0) (2.1.14)

31

Page 33: Mathematische Statistik · Vorwort Dieses Skript entstand aus der Vorlesung ” Mathematische Statistik I und II“, wie sie Prof. Dr. Michael Falk im Wintersemester 2007/2008 bis

Denn:

Pϑ(B) = Pϑ(B ∩ fϑ = 0) + Pϑ(B ∩ fϑ > 0)= Pϑ(B ∩ fϑ = 0) + Pϑ(B ∩ fϑ > 0 ∩ C0)

+Pϑ(B ∩ fϑ > 0 ∩ Cc0),

wobei

Pϑ(B ∩ fϑ = 0) =

∫B∩fϑ=0

fϑ dν = 0.

Zu zeigen bleibt also, dass Pϑ(B∩fϑ > 0∩Cc0) = 0 ist. Angenommen, dies

ware nicht der Fall, d.h. es gelte

Pϑ(B ∩ fϑ > 0 ∩ Cc0) > 0 ⇒ ν(B ∩ fϑ > 0 ∩ Cc

0) > 0

und damit

ν ( C0︸︷︷︸∈C2

∪(B ∩ fϑ > 0 ∩ Cc0︸ ︷︷ ︸

∈C1

))

︸ ︷︷ ︸∈C2

= ν(C0) + ν(B ∩ fϑ > 0 ∩Cc0) > ν(C0) = ρ,

d.h. wir haben einen Widerspruch zur Definition von ρ. Also gilt 2.1.14.Ferner gilt

Pϑn(B) = 0 ⇒ ∀ϑ ∈ Θ : ν(B ∩ fϑ > 0 ∩ fϑn > 0) = 0. (2.1.15)

Denn:

0 = Pϑn(B) ≥ Pϑn(B ∩ fϑ > 0 ∩ fϑn > 0)

=

∫B∩fϑ>0∩fϑn>0

fϑn dν ≥ 0.

Da auf dem Integrationsbereich der Integrand fϑn strikt positiv ist, das In-tegral aber gleich 0 ist, muss ν(B ∩ fϑ > 0 ∩ fϑn > 0) = 0 gelten.Es sei nun P (B) = 0. Zu zeigen ist

∀ϑ ∈ Θ Pϑ(B) = 0.

Da P (B) = 0 ⇒ ∀n ∈ N Pϑn(B) = 0

⇒ ∀ϑ ∈ Θ : ν(B ∩ C0 ∩ fϑ > 0) = ν

(B ∩ fϑ > 0 ∩

⋃n∈N

Dn

)

= ν

(⋃n∈N

(B ∩ fϑ > 0 ∩Dn)

)

≤∑n∈N

ν

B ∩ fϑ > 0 ∩ Dn︸︷︷︸⊂fϑn>0

∑n∈N

ν (B ∩ fϑ > 0 ∩ fϑn > 0)

2.1.15= 0.

32

Page 34: Mathematische Statistik · Vorwort Dieses Skript entstand aus der Vorlesung ” Mathematische Statistik I und II“, wie sie Prof. Dr. Michael Falk im Wintersemester 2007/2008 bis

Also gilt ∀ϑ ∈ Θ : ν(B ∩ C0 ∩ fϑ > 0) = 0 und damit auch ∀ϑ ∈ Θ :Pϑ(B ∩ C0 ∩ fϑ > 0) = 0, da ∀ϑ ∈ Θ Pϑ ν. Die Behauptung folgt nunaus (2.1.14). 2

Satz 2.1.16. Es sei P = Pϑ : ϑ ∈ Θ eine Familie von Wahrscheinlich-keitsmaßen auf (X ,B) mit P µ, µ σ-endliches Maß auf (X ,B). Es seiP = H ∪K, H ∩K = ∅, H,K 6= ∅. Dann existiert ein Maximin-Test zumNiveau α fur H gegen K.

Beweis: Setzes := sup

ϕ∈Φα

infϑ∈K

Eϑ(ϕ).

Es existiert eine Folge (ϕn)n∈N ⊂ Φα mit limn∈N infϑ∈K Eϑ(ϕn) = s. Auf-grund von Satz 2.1.7 existieren eine Teilfolge (ϕnk

)k∈N und ϕ∗ ∈ Φ mit derEigenschaft

∀f ∈ L1(X ,B, µ) : limk∈N

∫ϕnk

· f dµ =

∫ϕ∗ · f dµ.

Hieraus folgt speziell fur f = fϑ ∈ dPϑ/dµ, ϑ ∈ Θ:

limk∈N

∫ϕnk

· f dµ = limk∈N

∫ϕnk

dPϑ

= limk∈N

Eϑ(ϕnk)

= Eϑ(ϕ∗).

Fur ϑ ∈ H folgt hieraus, dass ϕ∗ ∈ Φα. Andererseits gilt wegen

limn∈N

infϑ∈K

Eϑ(ϕn) = s

auchs = lim

k∈Ninfϑ∈K

Eϑ(ϕnk) ≤ lim

k∈NEϑ(ϕnk

) = Eϑ(ϕ∗), ϑ ∈ K

d.h.infϑ∈K

Eϑ(ϕ∗) ≥ s.

Nach Definition von s und wegen ϕ∗ ∈ Φα gilt aber auch infϑ∈K Eϑ(ϕ∗) ≤ s.

Also giltinfϑ∈K

Eϑ(ϕ∗) = sup

ϕ∈Φα

infϑ∈K

Eϑ(ϕ), ϕ∗ ∈ Φα,

d.h. ϕ∗ ist ein Maximin-Test zum Niveau α. 2

Im folgenden werden wir mittels Satz 2.1.7 fur den Fall einer einfachen Alter-native K, d.h. |K| = 1, die Existenz bester Tests bzgl. gewisser TeilmengenΦ von Φ nachweisen.

33

Page 35: Mathematische Statistik · Vorwort Dieses Skript entstand aus der Vorlesung ” Mathematische Statistik I und II“, wie sie Prof. Dr. Michael Falk im Wintersemester 2007/2008 bis

Wir setzen im Folgenden voraus: Die Verteilungsannahme ist P = Pϑ : ϑ ∈Θ, ϑ1 ∈ Θ ist fest gewahlt, K := ϑ1, H := Θ\ϑ1. Wir setzen

Φ := ϕ ∈ Φ : ∀ϑ ∈ H : Eϑ(ϕ) ∈ Fϑ, (2.1.17)

wobei Fϑ fur jedes ϕ ∈ H eine abgeschlossene Teilmenge von [0, 1] ist.

Beispiel 2.1.18. Es sei α ∈ [0, 1].

(i) Fϑ := [0, α], ϑ ∈ H ⇒ Φ = Φα

(ii) Fϑ := α, ϑ ∈ H ⇒ Φ = ϕ ∈ Φ : Eϑ(ϕ) = α, ϑ ∈ H.

Satz 2.1.19. Es gelte P µ, wobei µ ein σ-endliches Maß auf (X ,B) ist.Dann existiert ein bester Test bzgl. der durch 2.1.17 definierten Klasse Φ furH = Θ\ϑ1 gegen K = ϑ1. Insbesondere gibt es aber einen besten Testzum Niveau α fur H gegen K.

Beweis: Setze

s := supϕ∈Φ

Eϑ1(ϕ) ⇒ ∃ Folge(ϕn)n∈N ⊂ Φ : s = limn∈N

Eϑ1(ϕn).

Mit Satz 2.1.7 folgt

∃ Teilfolge(ϕnk)k∈N ⊂ (ϕn)n∈N ∃ϕ∗ ∈ Φ : ∀f ∈ L1(X ,B, µ) :

limk∈N

∫ϕnk

f dµ =

∫ϕ∗f dµ.

Speziell fur f = fϑ ∈ dPϑ/dµ, ϑ ∈ Θ, folgt:

limk∈N

Eϑ(ϕnk) = Eϑ(ϕ

∗),

insbesondere also Eϑ1(ϕ∗) = limk∈NEϑ1(ϕnk

) = s. Da Fϑ abgeschlossen istfur ϑ ∈ H, folgt auch Eϑ(ϕ

∗) ∈ Fϑ, ϑ ∈ H, d.h. ϕ∗ ∈ Φ. 2

34

Page 36: Mathematische Statistik · Vorwort Dieses Skript entstand aus der Vorlesung ” Mathematische Statistik I und II“, wie sie Prof. Dr. Michael Falk im Wintersemester 2007/2008 bis

2.2 Das Fundamentallemma von Neyman-Pearson

In diesem Abschnitt betrachten wir die binare Verteilungsannahme P =Pϑ0 , Pϑ1, d.h. Θ = ϑ0, ϑ1. Nach Satz 2.1.19 existiert fur das Testpro-blem H = ϑ0 gegen K = ϑ1 stets ein Test zum Niveau α; man beachte,dass P µ = Pϑ0 +Pϑ1 . Ziel dieses Abschnitts ist es, solche besten Tests zukonstruieren.Im Folgenden sei µ ein P dominierendes endliches Maß und pi ∈ dPϑi

/dµ,i = 0, 1.

Definition 2.2.1. (i) ϕ∗ ∈ Φ heißt trennscharf fur (Pϑ0 , Pϑ1), wenn ϕ∗

bester Test zum Niveau α∗ := Eϑ0(ϕ∗) fur H = ϑ0 gegen K = ϑ1

ist [most powerful].Aquivalent: ∀ϕ ∈ Φ : Falls Eϑ0(ϕ) ≤ Eϑ0(ϕ

∗) ⇒ Eϑ1(ϕ) ≤ Eϑ1(ϕ∗)

(ii) ϕ∗ ∈ Φ heißt eigentlich trennscharf fur (Pϑ0 , Pϑ1), wenn fur alle ϕ ∈ Φgilt:Falls Eϑ0(ϕ) ≤ Eϑ0(ϕ

∗) und Eϑ1(ϕ) ≥ Eϑ1(ϕ∗) ⇒ Eϑi

(ϕ) = Eϑi(ϕ∗),

i = 0, 1.

Bemerkung 2.2.2. ϕ∗ eigentlich trennscharf fur (Pϑ0 , Pϑ1) ⇒ ϕ∗ trennscharffur (Pϑ0 , Pϑ1).

Definition 2.2.3. ϕ∗ ∈ Φ heißt Test vom Neyman-Pearson Typ fur (Pϑ0 , Pϑ1):⇔ ∃γ ∈ [0,∞) :

ϕ∗(x) =

1, falls p1(x) > γp0(x)0, falls p1(x) < γp0(x)

x ∈ X . (2.2.4)

Lemma 2.2.5 (Neyman-Pearson, Teil 1). ∀α ∈ (0, 1] ∃ϕ∗ ∈ Φ vomNP-Typ fur (Pϑ0 , Pϑ1) mit Eϑ0(ϕ

∗) = α.

Beweis: Setze fur γ ∈ [0,∞) die Menge Xγ := p1 > γp0 und t(γ) :=Pϑ0(Xγ). Die Abbildung t : [0,∞) → [0, 1] ist monoton fallend und rechtssei-tig stetig, denn:

γ1 ≤ γ2 ⇒ Xγ1 ≥ Xγ2 ⇒ t(γ1) ≥ t(γ2),

γnn∈N↓ γ0 ⇒ Xγ0 =

⋃n∈N

Xγn︸︷︷︸↑ in n

⇒ t(γ0) = limn∈N

t(γn)

(aufsteigende Stetigkeit eines Wahrscheinlichkeitsmaßes).

35

Page 37: Mathematische Statistik · Vorwort Dieses Skript entstand aus der Vorlesung ” Mathematische Statistik I und II“, wie sie Prof. Dr. Michael Falk im Wintersemester 2007/2008 bis

Sei nun γα := infγ ∈ [0,∞) : t(γ) ≤ α. Beachte, dass γ ∈ [0,∞) : t(γ) ≤α 6= ∅; denn angenommen diese Menge ware leer. Dann folgte fur beliebigesn ∈ N mit γ = n, dass

0 < α < Pϑ0(p1 > np0)

= Pϑ0(p0 > 0 und p1/p0 > n) + Pϑ0(p0 = 0 und p1 > np0)︸ ︷︷ ︸=0

= Pϑ0(p0 > 0 und p1/p0 > n).

Andererseits gilt aber p0 > 0 und p1/p0 > nn∈N↓ ∅

⇒ limn∈N Pϑ0(p0 > 0 und p1/p0 > n) = 0, (absteigende Stetigkeit einesWahrscheinlichkeitsmaßes), Widerspruch.Es folgt t(γα) ≤ α ≤ t(γα− 0) := limε↓0 t(γα− ε), wobei t(0− 0) := 1 gesetztwird. Setzte nun fur ein beliebiges x ∈ X

ϕ∗(x) :=

1, falls p1(x) > γαp0(x)

δα := α−t(γα)t(γα−0)−t(γα)

, falls p1(x) = γαp0(x)

0, falls p1(x) < γαp0(x)

Wobei δα := 0 gesetzt wird falls t(γα − 0) = t(γα) (= α). Dann ist ϕ∗ einTest vom NP1-Typ und es gilt

Eϑ0(ϕ∗) = Pϑ0(Xγα) + δαPϑ0(p1 = γαp0)

= t(γα) + δα(Pϑ0(p1 ≥ γαp0)− Pϑ0(p1 > γαp0))

= t(γα) + δα(t(γα − 0)− t(γα))

= α.

2

Lemma 2.2.6 (Neyman-Pearson, Teil 2). Es gilt:

(i) Jeder Test ϕ∗ von NP-Typ fur (Pϑ0 , Pϑ1) ist trennscharf.

(ii) Ist nun entweder die in der Darstellung 2.2.4 auftretende Konstante γpositiv oder ist im Fall von γ = 0 ϕ∗ von der speziellen Form

ϕ∗(x) =

1, falls p1(x) > 00, falls p1(x) = 0, p0(x) > 0

(2.2.7)

dann ist ϕ∗ sogar eigentlich trennscharf.

1NP = Neyman-Pearson

36

Page 38: Mathematische Statistik · Vorwort Dieses Skript entstand aus der Vorlesung ” Mathematische Statistik I und II“, wie sie Prof. Dr. Michael Falk im Wintersemester 2007/2008 bis

Beweis: ∀ϕ ∈ Φ:

(ϕ∗ − ϕ) · (p1 − γp0) ≥ 0

⇒∫

(ϕ∗ − ϕ) · (p1 − γp0) dµ ≥ 0

⇒∫ϕ∗p1 dµ−

∫ϕp1 dµ ≥ γ ·

(∫ϕ∗p0 dµ−

∫ϕp0 dµ

)d.h. aus der Definition von p0 und p1 folgt, dass

Eϑ1(ϕ∗)− Eϑ1(ϕ)︸ ︷︷ ︸≥0 ⇐

≥ γ︸︷︷︸≥0

· (Eϑ0(ϕ∗)− Eϑ0(ϕ))︸ ︷︷ ︸≥0

(2.2.8)

⇒ (i)

Zu (ii): Es sei nun ϕ ∈ Φ gegeben mit Eϑ0(ϕ) ≤ Eϑ0(ϕ∗) und Eϑ1(ϕ) ≥

Eϑ1(ϕ∗). Es folgt wegen 2.2.8

0 ≥ Eϑ1(ϕ∗)− Eϑ1(ϕ) ≥ γ · (Eϑ0(ϕ

∗)− Eϑ0(ϕ)) ≥ 0

⇒ Eϑ1(ϕ∗) = Eϑ1(ϕ) und außerdem Eϑ0(ϕ

∗) = Eϑ0(ϕ) im Fall γ > 0. Zuzeigen bleibt also Eϑ0(ϕ

∗) = Eϑ0(ϕ) falls ϕ∗ von der Form 2.2.7 ist.Wegen Eϑ1(ϕ) = Eϑ1(ϕ

∗) gilt:

0 = Eϑ1(ϕ∗)− Eϑ1(ϕ)

=

∫(ϕ∗ − ϕ)p1 dµ

=

∫p1>0

(ϕ∗ − ϕ)p1 dµ+

∫p1=0

(ϕ∗ − ϕ)p1 dµ

=

∫p1>0

(1− ϕ)p1 dµ

=

∫p1>0∩1−ϕ>0

(1− ϕ)p1 dµ

⇒ µ(p1 > 0 ∩ 1− ϕ > 0) = 0Pϑ0

µ⇒ Pϑ0(p1 > 0 ∩ 1− ϕ > 0) = 0

Hieraus folgt nun

Pϑ0(ϕ∗ > ϕ) = Pϑ0(p1 > 0 ∩ ϕ∗ > ϕ) + Pϑ0(p1 = 0 ∩ ϕ∗ > ϕ)

= Pϑ0(p1 > 0 ∩ 1− ϕ > 0)= 0,

denn

Pϑ0(p1 = 0 ∩ ϕ∗ > ϕ) = Pϑ0(p1 = 0 ∩ ϕ∗ > ϕ ∩ p0 = 0)+Pϑ0(p1 = 0 ∩ ϕ∗ > ϕ ∩ p0 > 0)

=

∫p1=0∩ϕ∗>ϕ∩p0=0

p0 dµ = 0.

37

Page 39: Mathematische Statistik · Vorwort Dieses Skript entstand aus der Vorlesung ” Mathematische Statistik I und II“, wie sie Prof. Dr. Michael Falk im Wintersemester 2007/2008 bis

Wir erhalten also ϕ∗ ≤ ϕ Pϑ0-f.u.

⇒ Eϑ0(ϕ∗) ≤ Eϑ0(ϕ) ⇒ Eϑ0(ϕ

∗) = Eϑ0(ϕ),

denn Eϑ0(ϕ∗) ≥ Eϑ0(ϕ) war vorausgesetzt. 2

Lemma 2.2.9 (Neyman-Pearson, Teil 3). Es gilt:

(i) Jeder fur (Pϑ0 , Pϑ1) trennscharfe Test ϕ0 mit Eϑ0(ϕ0) > 0 ist µ-f.u.vom NP-Typ fur (Pϑ0 , Pϑ1).

(ii) Ist ϕ0 daruber hinaus eigentlich trennscharf fur (Pϑ0 , Pϑ1), so ist γ > 0oder ϕ0 ist µ-f.u. von der Form 2.2.7 auf Seite 36.

Beweis: Es sei ϕ0 ∈ Φ trennscharf fur (Pϑ0 , Pϑ1) mit Eϑ0(ϕ0) > 0. NachLemma 2.2.5 existiert ein Test ϕ∗ vom NP-Typ mit Eϑ0(ϕ

∗) = Eϑ0(ϕ0). NachLemma 2.2.6 (i) ist ϕ∗ ebenfalls trennscharf fur (Pϑ0 , Pϑ1), d.h. Eϑ1(ϕ

∗) =Eϑ1(ϕ0).Da (ϕ∗ − ϕ0)(p1 − γp0) ≥ 0 und∫

(ϕ∗ − ϕ0)(p1 − γp0) dµ =

∫ϕ∗p1 dµ−

∫ϕ0p1 dµ−

γ

(∫ϕ∗p0 dµ−

∫ϕ0p0 dµ

)= Eϑ1(ϕ

∗)− Eϑ1(ϕ0)− γ (Eϑ0(ϕ∗)− Eϑ0(ϕ0))

= 0

⇒ (ϕ∗ − ϕ0)(p1 − γp0) = 0 µ-f.u., d.h. µ-f.u. giltp1(x) > γ · p0(x) ⇒ ϕ0(x) = ϕ∗(x) = 1p1(x) < γ · p0(x) ⇒ ϕ0(x) = ϕ∗(x) = 0

Also ist ϕ0 µ-f.u. vom NP-Typ fur (Pϑ0 , Pϑ1).

Zu (ii): Es ist zu zeigen, dass im Fall γ = 0 ϕ0 µ-f.u. die Form besitzt:

ϕ0(x) =

1, p1(x) > 00, p1(x) = 0, p0(x) > 0

Da ϕ0 wegen (i) µ-f.u. vom NP-Typ mit γ = 0 ist, gilt fur µ-f.a. x ∈ X :

p1(x) > 0 ⇒ ϕ0(x) = 1.

Sei nun ϕ∗ := 1p1>0 und M := p0 > 0, p1 = 0; es bleibt zu zeigen, dassϕ0/M = 0 µ-f.u.. Angenommen, dies sei nicht der Fall, d.h.

µ(ϕ0 > 0 ∩M) > 0.

38

Page 40: Mathematische Statistik · Vorwort Dieses Skript entstand aus der Vorlesung ” Mathematische Statistik I und II“, wie sie Prof. Dr. Michael Falk im Wintersemester 2007/2008 bis

Es folgt

Eϑ0(ϕ∗) =

∫p1>0

p0 dµ =

∫p1>0,p0>0

p0 dµ

=

∫p0>0,p1>0

ϕ0p0 dµ

<

∫p0>0,p1>0

ϕ0p0 dµ+

∫p0>0,p1=0=M

ϕ0p0 dµ

=

∫p0>0

ϕ0p0 dµ = Eϑ0(ϕ0)

Andererseits gilt aber

Eϑ1(ϕ0) =

∫ϕ0p1 dµ =

∫p1>0

ϕ0p1 dµ =

∫p1>0

p1 dµ

= Eϑ1(ϕ∗)

Damit erhalten wir einen Widerspruch zur eigentlichen Trennscharfe von ϕ0,wonach aus Eϑ0(ϕ

∗) ≤ Eϑ0(ϕ0) und Eϑ1(ϕ∗) ≥ Eϑ1(ϕ0) eigentlich

Eϑi(ϕ∗) = Eϑi

(ϕ0) i = 0, 1

folgen musste. 2

Korollar 2.2.10. Es sei ϕ0 ein bester Test zum Niveau α ∈ (0, 1) fur H =ϑ0 gegen K = ϑ1. Falls Pϑ0 6= Pϑ1, so gilt Eϑ1(ϕ0) > α.

2.3 Das verallgemeinerte Fundamentallemma

von Neyman-Pearson

In diesem Abschnitt untersuchen wir die Frage nach der Existenz besterTests im Fall einer zusammengesetzten Hypothese H = ϑ1, . . . , ϑk gegeneine einfache Alternative K = ϑk+1, ϑk+1 6= ϑi, 1 ≤ i ≤ k, k ∈ N. Fernersei µ ein endliches Maß auf (X ,B) mit Pϑ1 , . . . , Pϑk+1

µ, etwa µ :=Pϑ1 + · · ·+ Pϑk+1

, sowie pi ∈ dPϑi/dµ, i = 1,2, . . . , k+1.

Schließlich seinen α(k) := (α1, . . . , αk) ∈ (0, 1)k.Wir betrachten folgende zwei Teilklassen von Φ:

Φα(k) := ϕ ∈ Φ : Eϑi(ϕ) = αi, 1 ≤ i ≤ k 6= ∅ (dies sei vorausgesetzt)

Φα(k) := ϕ ∈ Φ : Eϑi(ϕ) ≤ αi, 1 ≤ i ≤ k 6= ∅

39

Page 41: Mathematische Statistik · Vorwort Dieses Skript entstand aus der Vorlesung ” Mathematische Statistik I und II“, wie sie Prof. Dr. Michael Falk im Wintersemester 2007/2008 bis

Definition 2.3.1. Ein Test ϕ∗ heißt vom NP-Typ fur (H,K), falls γ1, . . . , γk ∈R existieren mit

ϕ∗(x) =

1, falls pk+1(x) >

∑ki=1 γipi(x)

0, falls pk+1(x) <∑k

i=1 γipi(x)x ∈ X . (2.3.2)

Satz 2.3.3 (Verallgemeinertes Fundamentallemma von Neyman-Peason).Es gilt:

(i) Es existiert stets ein bzgl. Φα(k) bester Test fur H gegen K.

(ii) Ist ϕ ∈ Φα(k) µ-f.u. vom NP-Typ fur (H,K), so ist ϕ bester Test bzgl.Φα(k) fur H gegen K.

(iii) Ist α(k) ein innerer Punkt der Menge M (k) := (Eϑ1(ϕ), . . . , Eϑk(ϕ)) :

ϕ ∈ Φ, so ist ein bzgl. Φα(k) bester Test fur H gegen K µ-f.u. vomNP-Typ fur (H,K).

Beweis: Behauptung (i) folgt unmittelbar aus Satz 2.1.19 auf Seite 34 mitFϑi

= αi, 1 ≤ i ≤ k.

Zu (ii): Zu zeigen ist

Eϑk+1(ϕ) = sup

ϕ∈Φα(k)

Eϑk+1(ϕ)

Sei dann ϕ ∈ Φα(k) beliebig vorgegeben. Da ϕ µ-f.u. vom NP-Typ ist, existie-ren γ1, . . . , γk ∈ R, sodass µ-f.u. gilt:

(ϕ− ϕ) ·

(pk+1 −

k∑i=1

γipi

)≥ 0

⇒∫ϕpk+1 dµ−

∫ϕpk+1 dµ ≥

k∑i=1

γi

(∫ϕpi dµ−

∫ϕpi dµ

)

⇒ Eϑk+1(ϕ)− Eϑk+1

(ϕ) ≥k∑i=1

γi (Eϑi(ϕ)− Eϑi

(ϕ))

=k∑i=1

γi(αi − αi)

= 0

⇒ Eϑk+1(ϕ) ≥ Eϑk+1

(ϕ)

40

Page 42: Mathematische Statistik · Vorwort Dieses Skript entstand aus der Vorlesung ” Mathematische Statistik I und II“, wie sie Prof. Dr. Michael Falk im Wintersemester 2007/2008 bis

Zu (iii): Es sei ϕ ein bester Test bzgl. Φα(k) fur H gegen K. Setze M (k+1) :=(Eϑ1(ϕ), . . . , Eϑk+1

(ϕ)) : ϕ ∈ Φ, I := α ∈ [0, 1] : (α1, . . . , αk, α) ∈M (k+1).Es ist I 6= ∅, da z.B. Eϑk+1

(ϕ) ∈ I. Annahme: I enthalte wenigstens zweiElemente.Da nach Lemma 2.1.10 M (k+1) kompakt und daher abgeschlossen ist, ist auchI ⊂ [0, 1] abgeschlossen und daher kompakt. Also existiert

αk+1 := maxα : α ∈ I ∈ I.

Da ϕ bester Test bzgl. Φα(k) ist, folgt, Eϑk+1(ϕ) = αk+1 und

α(k+1) := (α1, . . . , αk, αk+1) ∈ ∂M (k+1) = topologischer Rand von M (k+1).

Da M (k+1) nach Lemma 2.1.10 außerdem konvex ist, existiert eine durchα(k+1) gehende Hyperebene H, so das M (k+1) ganz auf einer Seite dieserHyperebene liegt, d.h.

α(k+1) ∈ H :=

(t1, . . . , tk+1) ∈ Rk+1 :

k+1∑i=1

γi(ti − αi) = 0

fur gewisse reelle Zahlen γ1, . . . , γk+1 und

∀(β1, . . . , βk+1) ∈M (k+1) :k+1∑i=1

γi(βi − αi) ≥ 0

(Satz von der Existenz einer Stutzhyperebene).Dann ist γk+1 6= 0. Denn andernfalls ware

∑ki=1 γi(βi − αi) ≥ 0 fur alle

(β1, . . . , βk) ∈ M (k), d.h. M (k) liegt ganz auf einer Seite der HyperebeneH′ := (t1, . . . , tk) ∈ Rk :

∑ki=1 γi(ti − αi) = 0. Andererseits ist α(k) ∈ H′

und daher α(k) ∈ ∂M (k) im Widerspruch dazu, dass α(k) immer ein innererPunkt von M (k) ist. Also folgt γk+1 6= 0.Da nun fur α ∈ I gilt: (α1, . . . , αk, α) ∈M (k+1) und somit

0 ≤k∑i=1

γi(αi − αi) + γk+1(α− αk+1) = γk+1︸︷︷︸6=0

(α− αk+1)︸ ︷︷ ︸<0

,

folgt γk+1 < 0 (αk+1 ist maximales Element in I).

41

Page 43: Mathematische Statistik · Vorwort Dieses Skript entstand aus der Vorlesung ” Mathematische Statistik I und II“, wie sie Prof. Dr. Michael Falk im Wintersemester 2007/2008 bis

o.E. sei γk+1 = −1. Es folgt:

∀ϕ ∈ Φ : (Eϑ1(ϕ), . . . , Eϑk+1(ϕ)) ∈M (k+1)

⇒k+1∑i=1

γi(Eϑi(ϕ)− αi) ≥ 0

⇒ Eϑk+1(ϕ)−

k∑i=1

γiEϑi(ϕ) ≤ αk+1 −

k∑i=1

γiαi

⇒∫ϕ ·

(pk+1 −

k∑i=1

γipi

)dµ ≤ αk+1 −

k∑i=1

γiαi

= Eϑk+1(ϕ)−

k∑i=1

γiEϑi(ϕ)

=

∫ϕ

(pk+1 −

k∑i=1

γipi

)dµ.

Setzen wir zur Abkurzung h := pk+1 −∑k

i=1 γipi und ϕ∗ := 1h>0, so habenwir gezeigt, dass fur alle ϕ ∈ Φ gilt∫

ϕ · h dµ ≤∫ϕ · h dµ

Da außerdem ∫ϕ · h dµ ≤

∫ϕ∗ · h dµ,

folgt ∫ϕ · h dµ =

∫ϕ∗ · h dµ

bzw. ∫(ϕ∗ − ϕ) · h︸ ︷︷ ︸

≥0

dµ = 0

⇒ (ϕ∗ − ϕ) · h = 0 µ-f.u., d.h. ϕ ist µ-f.u. vom NP-Typ. 2

Lemma 2.3.4. Ist ϕ∗ ∈ Φα(k) vom NP-Typ fur (H,K) wobei γi ≥ 0, 1 ≤ i ≤k, so ist ϕ∗ sogar bester Test bzgl. der großeren Klasse Φα(k) fur H gegen K.

Beweis: Zu zeigen ist Eϑk+1(ϕ∗) = supϕ∈Φ

α(k)Eϑk+1

(ϕ). Es sei also ϕ ∈ Φα(k)

beliebig. Nach Voraussetzung existieren γi ≥ 0, 1 ≤ i ≤ k, so dass

(ϕ∗ − ϕ)

(pk+1 −

k∑i=1

γipi

)≥ 0.

42

Page 44: Mathematische Statistik · Vorwort Dieses Skript entstand aus der Vorlesung ” Mathematische Statistik I und II“, wie sie Prof. Dr. Michael Falk im Wintersemester 2007/2008 bis

Analog zum Beweis von Satz 2.3.3 (ii) folgt

Eϑk+1(ϕ∗)− Eϑk+1

(ϕ) ≥k∑i=1

γi

Eϑi(ϕ∗)︸ ︷︷ ︸

=αi

−Eϑi(ϕ)︸ ︷︷ ︸

≤αi

≥ 0

und daraus die Behauptung. 2

Definition 2.3.5. Wahrscheinlichkeitsmaße P1, . . . , Pk auf (X ,B) heißenlinear unabhangig :⇔

∀B ∈ B :k∑i=1

γiPi(B) = 0 ⇒ γi = 0, 1 ≤ i ≤ k.

Bemerkung 2.3.6. Es seien P1, . . . , Pk Wahrscheinlichkeitsmaße auf (X ,B),µ/B ein endliches Maß mit P1, . . . , Pk µ und pi ∈ dPi/dµi, 1 ≤ i ≤ k.Dann gilt:

P1, . . . , Pk sind linear unabhangig

[k∑i=1

γipi = 0 µ-f.u. ⇒ γi = 0, 1 ≤ i ≤ k

]

Lemma 2.3.7. Es gilt:

(i) Sind Pϑ1 , . . . , Pϑklinear unabhangig und ist α ∈ (0, 1), so ist (α, . . . , α)

∈ (0, 1)k innerer Punkt von M (k) = (Eϑ1(ϕ), . . . , Eϑk(ϕ)) : ϕ ∈ Φ.

(ii) Sind Pϑ1 , . . . , Pϑk, Pϑk+1

linear unabhangig und ist fur ein α ∈ (0, 1)der Vektor (α, . . . , α) innerer Punkt von M (k), so existiert ϕ ∈ Φ mitEϑi

(ϕ) = α, 1 ≤ i ≤ k und Eϑk+1(ϕ) > α.

Beweis: Zu (ii): Zu zeigen ist ∃ϕ ∈ Φ := ϕ ∈ Φ : Eϑi(ϕ) = α, 1 ≤ i ≤ k

mit Eϑk+1(ϕ) > α. Angenommen, dies ware nicht der Fall, dann ware ϕα :=

α (∈ Φ) ein bester Test bzgl. Φ fur H = ϑ1, . . . , ϑk gegen K = ϑk+1.Also ist nach Satz 2.3.3 ϕα µ-f.u. vom NP-Typ. Wegen 0 < α < 1 folgtpk+1−

∑ki=1 γipi = 0 µ-f.u. fur gewisse Zahlen γ1, . . . , γk, im Widerspruch zur

linearen Unabhangigkeit von Pϑ1 , . . . , Pϑk+1.

Zu (i): Durch vollstandige Induktion nach k:k = 1: M (1) = Eϑ1(ϕ) : ϕ ∈ Φ = [0, 1], d.h. α ∈ (0, 1) ist innerer Punktvon M (1)

43

Page 45: Mathematische Statistik · Vorwort Dieses Skript entstand aus der Vorlesung ” Mathematische Statistik I und II“, wie sie Prof. Dr. Michael Falk im Wintersemester 2007/2008 bis

k − 1 → k: Pϑ1 , . . . , Pϑklinear unabhangig.

Dann sind auch Pϑ1 , . . . , Pϑi−1, Pϑi+1

, . . . , Pϑklinear unabhangig ⇒ (α, . . . , α)

∈ (0, 1)k−1 ist innerer Punkt von M (k−1) nach Induktionvorraussetzung. Nach(ii) (fur k statt k+1 und Pϑi

statt Pϑi+1) folgt fur j = 1, . . . , i−1, i+1, . . . , k:

∃ϕi ∈ Φ : Eϑj(ϕi) = α, Eϑi

(ϕi) > α (2.3.8)

∃ϕ′i ∈ Φ : Eϑj(ϕ′i) = α, Eϑi

(ϕ′i) < α (2.3.9)

Denn durch Anwendung von 2.3.8 auf 1 − α statt α erhalt man ψi ∈ Φ, sodass ϕ′i := 1− ψi 2.3.9 erfullt. Fuhrt man diesen Schritt nun fur i = 1, . . . , kdurch, so liegt das k-Tupel (α, . . . , α) im Inneren der konvexen Hulle der 2kPunkte

(α, . . . , α, Eϑi(ϕi), α, . . . , α) , (α, . . . , α, Eϑi

(ϕ′i), α, . . . , α) , 1 ≤ i ≤ k.

Da jeder dieser 2k Punkte zu M (k) gehort und M (k) konvex ist, ist das k–Tupel (α, . . . , α) innerer Punkt von M (k). 2

Beispiel 2.3.10. Es sei (X ,B) = (R,B), Pϑi= N(µi, σ

2) i = 1, 2, 3 mitbekanntem σ2 > 0 und µ1 < µ3 < µ2. Ferner sei α ∈ (0, 1) und ϕ0 einbzgl. ϕ ∈ Φ : Eϑi

(ϕ) = α, i = 1, 2 bester Test fur H = ϑ1, ϑ2 gegenK = ϑ3. Dann sind Pϑ1 , Pϑ2 linear unabhangig, denn:

∀B ∈ B : γ1Pϑ1(B) + γ2Pϑ2(B) = 0B=R⇒ γ2 = −γ1

⇒ ∀B ∈ B : γ1 (Pϑ1(B)− Pϑ2(B)) = 0

⇒ γ1 = 0

Also ist nach Lemma 2.3.7 (i) (α, α) ein innerer Punkt von M (2). Daher folgtaus Satz 2.3.3 (iii): Fur λ-fast alle x ∈ R besitzt ϕ0 die Gestalt

ϕ0(x) =

1, falls 1√2πσ

exp(− (x−µ3)2

2σ2

)>

γ1√2πσ

exp(− (x−µ1)2

2σ2

)+ γ2√

2πσexp

(− (x−µ2)2

2σ2

)0, falls 1√

2πσexp

(− (x−µ3)2

2σ2

)<

γ1√2πσ

exp(− (x−µ1)2

2σ2

)+ γ2√

2πσexp

(− (x−µ2)2

2σ2

)44

Page 46: Mathematische Statistik · Vorwort Dieses Skript entstand aus der Vorlesung ” Mathematische Statistik I und II“, wie sie Prof. Dr. Michael Falk im Wintersemester 2007/2008 bis

2.4 Exponentialfamilien

Im folgenden behandeln wir die Frage nach der Existenz und der Gestaltgleichmaßig bester Tests zum Niveau α fur H gegen K mit beliebigen dis-junkten H,K ⊂ Θ.Wir gehen dabei wie folgt vor: Fur einen speziellen Wert ϑ1 ∈ K bestimmenwir aufgrund unserer bisherigen Ergebnisse einen besten Test fur H gegenK ′ := ϑ1.Ist dieser Test dann unabhangig von dem speziellen Wert ϑ1, so ist er eingleichmaßig bester Test fur H gegen K.

Definition 2.4.1. Eine Familie P = Pϑ : ϑ ∈ Θ von Wahrscheinlichkeits-maßen auf (X ,B) heißt k-parametrige Exponentialfamilie :⇔

(i) ∃ h, T1, . . . , Tk : (X ,B) → (R,B)

(ii) ∃ c, q1, . . . , qk : Θ → R

(iii) ∃ µ/B σ-endliches Maß:

pϑ(x) := c(ϑ) · h(x) · exp

(k∑j=1

qj(ϑ)Tj(x)

), x ∈ X ϑ ∈ Θ (2.4.2)

ist eine µ-Dichte von Pϑ. Dabei ist h ≥ 0 und c > 0.

Beispiel 2.4.3. Es sei (X ,B) = (R,B), Pϑ = N(µ, σ2) mit ϑ = (µ, σ2) ∈Θ = R× (0,∞), µ = λ = Lebesque-Maß auf (R,B).Pϑ hat die Dichte

pϑ(x) =1√2πσ

· exp

(−(x− µ)2

2σ2

)=

1√2πσ

exp

(− µ2

2σ2

)· exp

(− x2

2σ2+

µ

σ2x

),

welche die Form (2.4.2) besitzt mit

c(ϑ) =1√2πσ

exp

(− µ2

2σ2

)h ≡ 1

q1(ϑ) = − 1

2σ2

q2(ϑ) =µ

σ2

T1(x) = x2

T2(x) = x

45

Page 47: Mathematische Statistik · Vorwort Dieses Skript entstand aus der Vorlesung ” Mathematische Statistik I und II“, wie sie Prof. Dr. Michael Falk im Wintersemester 2007/2008 bis

d.h. k = 2, µ und σ unbekannt.

Ist hingegen µ = µ0 oder σ2 = σ20 bekannt, so ist

P =N(µ0, σ

2) : σ2 ∈ (0,∞)

bzw.P =

N(µ, σ2

0) : µ ∈ R

eine einparametrige Exponentialfamilie mit

c(ϑ) =1√2πσ

; h ≡ 1; q1(ϑ) = − 1

2σ2; T1(x) = (x− µ0)

2

bzw.

c(ϑ) =1√

2πσ0

exp

(− µ2

2σ20

); h(x) = exp

(− x2

2σ20

);

q1(ϑ) =µ

σ20

; T1(x) = x.

Bemerkung 2.4.4. Durch geeignete Wahl eines dominierenden Maßes µ lasstsich in der Darstellung (2.4.2) o.E. h ≡ 1 wahlen. Man gehe von µ zu µ(B) :=∫Bh dµ, B ∈ B uber, welches ebenfalls σ-endlich ist:

Es sei X =⋃n∈NXn mit µ(Xn) <∞ n ∈ N.

Setze Am := m− 1 ≤ h < m, m ∈ N. Dann gilt X =⋃

(m,n)∈N2 (Am ∩ Xn)und

µ (Am ∩ Xn) =

∫Am∩Xn

h dµ ≤ m ·∫Am∩Xn

1 dµ ≤ m · µ(Xn) <∞.

Also ist µ σ-endlich.Ferner gilt

Pϑ(B) =

∫B

pϑ(x) µ(dx)

=

∫B

h(x) · c(ϑ) exp

(k∑j=1

qj(ϑ) · Tj(x)

)µ(dx)

=

∫B

c(ϑ) · exp

(k∑j=1

qj(ϑ) · Tj(x)

)µ(dx),

siehe Stochastik I, da dµ = h dµ.

Bezeichnen wir mit µ∗T das Bildmaß von T bzgl. µ auf Bk, d.h. (µ∗T )(B) =µ(T−1(B)), B ∈ Bk (s. Stochastik I) mit T = (T1, . . . , Tk), so ist das BildmaßPϑ ∗ T von T bzgl. Pϑ absolut stetig bzgl. µ ∗ T und besitzt die µ ∗ T -Dichte

(t1, . . . tk) ∈ Rk 7→ c(ϑ) exp

(k∑j=1

qj(ϑ) · tj

). (2.4.5)

46

Page 48: Mathematische Statistik · Vorwort Dieses Skript entstand aus der Vorlesung ” Mathematische Statistik I und II“, wie sie Prof. Dr. Michael Falk im Wintersemester 2007/2008 bis

Denn fur ein beliebiges B ∈ Bk gilt nach dem Transformationssatz (s. Sto-chastik I) ∫

B

c(ϑ) · exp

(k∑j=1

qj(ϑ) · tj

)(µ ∗ T ) d(t1, . . . , tk)

=

∫T−1(B)

c(ϑ) · exp

(k∑j=1

qj(ϑ) · Tj

)µ(dx)

= Pϑ(T−1(B)) = (Pϑ ∗ T )(B).

Sowohl in (2.4.2) also auch in (2.4.5) spielt der Faktor c(ϑ) nur die Rolleeines Normierungsfaktors, damit jeweils das Integral 1 ergibt.Die Verteilung Pϑ bzw. Pϑ ∗ T hangt also nur uber q(ϑ) := (q1(ϑ), . . . , qk(ϑ))von ϑ ab.Dies nimmt man zum Anlass, die Menge

Θ :=

(q1, . . . , qk) ∈ Rk :

∫X

exp

(k∑j=1

qjTj(x)

)µ(dx) <∞

als neuen Parameterraum, den sog. naturlichen Parameterraum fur die k-parametrige Exponentialfamilie P einzufuhren.Dabei werden mit

K(q) :=1∫

exp(∑k

j=1 qjTj

)dµ

durch

pq(x) := K(q) · exp

(k∑j=1

qjTj(x)

), x ∈ X , q ∈ Θ, (2.4.6)

Wahrscheinlichkeitsdichten bzgl. µ definiert.Anstelle der ursprunglich vorgegebenen Exponentialfamilie P betrachtet mandann haufig die k-parametrige Exponentialfamilie mit naturlichem Parame-terraum.

P :=Pq : q ∈ Θ

mit Pq(B) =

∫B

pq dµ, B ∈ B, q ∈ Θ (2.4.7)

Lemma 2.4.8. Der naturliche Parameterraum Θ ⊂ Rk ist stets eine konvexeMenge.

47

Page 49: Mathematische Statistik · Vorwort Dieses Skript entstand aus der Vorlesung ” Mathematische Statistik I und II“, wie sie Prof. Dr. Michael Falk im Wintersemester 2007/2008 bis

Beweis: Es seinen q′, q′′ ∈ Θ, γ ∈ [0, 1], also∫exp

(k∑j=1

q′jTj

)dµ <∞,

∫exp

(k∑j=1

q′′j Tj

)dµ <∞.

Aus der Monotonie und der Konkavitat der Logarithmus-Funktion log(x) mitx > 0 folgt:

n∏i=1

aλii ≤

n∑i=1

aiλi fur ai > 0, λi ≥ 0,n∑i=1

λi = 1

und damit

exp

(k∑j=1

(γq′j + (1− γ)q′′j )Tj

)

=

(exp

(k∑j=1

q′jTj

))γ

·

(exp

(k∑j=1

q′′j Tj

))1−γ

≤ γ · exp

(k∑j=1

q′jTj

)+ (1− γ) · exp

(k∑j=1

q′′j Tj

)

Hieraus folgt∫exp

(k∑i=1

(γq′j + (1− γ)q′′j )Tj

)dµ

≤ γ

∫exp

(k∑j=1

q′jTj

)dµ+ (1− γ)

∫· exp

(k∑j=1

q′′j Tj

)dµ

<∞.

2

Im Folgenden untersuchen wir den Fall k = 1 einer einparametrigen Expo-nentialfamilie mit naturlichem Parameterraum Θ. In diesem Fall ist

Pq(B) =

∫B

pq dµ, B ∈ B, mit pq(x) = K(q) · exp(qT (x)), q ∈ Θ

wobei T : (X ,B) → (R,B) und Θ ein (moglicherweise entartetes) Intervall inR ist.

48

Page 50: Mathematische Statistik · Vorwort Dieses Skript entstand aus der Vorlesung ” Mathematische Statistik I und II“, wie sie Prof. Dr. Michael Falk im Wintersemester 2007/2008 bis

Lemma 2.4.9. Die Gutefunktion

Θ 3 q 7→ Eq(ϕ) :=

∫ϕ dPq =

∫Xϕ(x)Pp(dx) =

∫Xϕ(x)pq(x) µ(dx)

eines beliebigen Tests ϕ ∈ Φ ist in allen inneren Punkten von Θ beliebig oftdifferenzierbar.Speziell gilt:

d Eq(ϕ)

dq= Eq(ϕ · T )− Eq(ϕ) · Eq(T ). (2.4.10)

Beweis: Zunachst beweisen wir:Behauptung: Fur alle ϕ ∈ Φ ist die Funktion

ψ : Θ → R, ψ(q) :=

∫ϕ(x) exp(qT (x)) µ(dx)

in allen inneren Punkten von Θ beliebig oft differenzierbar und dort gilt

ψ′(q) =

∫ϕ(x)T (x) exp(qT (x))µ(dx) (2.4.11)

Denn: Sei dazu q0 ein innerer Punkt von Θ

⇒ ∃δ > 0 ∀q ∈ Θ, |q − q0| < δ : ψ(q) <∞

Ferner gilt:

ψ(q)− ψ(q0)

q − q0=

∫exp(qT )− exp(q0T )

q − q0ϕ dµ

=

∫ϕ · exp(q0T ) · exp((q − q0)T )− 1

q − q0dµ

Aus der Reihenentwicklung von exp(x) folgt zunachst fur |z| ≤ δ, t ∈ R

∣∣∣∣exp(zt)− 1

z

∣∣∣∣ =

∣∣∣∣∣∑∞

n=1(zt)n

n!

z

∣∣∣∣∣=

∣∣∣∣∣∞∑n=1

zn−1tn

n!

∣∣∣∣∣≤

∞∑n=1

|z|n−1 · |t|n

n!

≤ 1

δ

∞∑n=1

δn|t|n

n!

≤ 1

δexp(δ|t|).

49

Page 51: Mathematische Statistik · Vorwort Dieses Skript entstand aus der Vorlesung ” Mathematische Statistik I und II“, wie sie Prof. Dr. Michael Falk im Wintersemester 2007/2008 bis

Somit gilt fur obigen Integranden:∣∣∣∣ϕ · exp(q0T )exp((q − qo)T )− 1

q − q0

∣∣∣∣≤ exp(q0T ) · exp(δ|t|)

δ

=1

δexp(q0T + δ|T |)

≤ 1

δ(exp((q0 + δ)T ) + exp((q0 − δ)T ))

fur |q − q0| ≤ δ.Falls also |q− q0| ≤ δ, so ist q0± δ ∈ Θ, d.h. die rechte Seite in obiger Formelist µ integrierbar.Nach dem Satz der dominierten Konvergenz folgt somit fur jede Folge qn,n ∈ N, in Θ mit limn→∞ qn = q0

limn→∞

ψ(qn)− ψ(q0)

qn − q0=

∫ϕ · T · exp(q0T ) dµ,

d.h. ψ ist einmal differenzierbar und es gilt (2.4.10). Die Existenz hohererAbleitungen folgt analog durch vollstandige Induktion. Also gilt die obigeBehauptung.Fur ϕ ≡ 1 erhalten wir daraus, dass 1

K(q)=∫

exp(qT ) dµ und damit auch

K(q) in allen inneren Punkten von Θ beliebig oft differenzierbar ist mit(1

K(q)

)′=

∫T · exp(qT ) dµ.

Da andererseits (1

K(q)

)′= −K

′(q)

K2(q)

folgt wegen Eq(ϕ) =∫ϕ dPq = K(q) ·

∫ϕ exp(qT ) dµ

dEq(ϕ)

dq= K(q) · ψ′(q) +K ′(q) · ψ(q)

= K(q) ·∫ϕT exp(qT ) dµ−K2(q)ψ(q)

∫T exp(qT ) dµ

= Eq(ϕT )−K(q) · Eq(ϕ)

∫T exp(qT ) dµ

= Eq(ϕT )− Eq(ϕ) · Eq(T )

fur alle inneren Punkte q von Θ. 2

50

Page 52: Mathematische Statistik · Vorwort Dieses Skript entstand aus der Vorlesung ” Mathematische Statistik I und II“, wie sie Prof. Dr. Michael Falk im Wintersemester 2007/2008 bis

2.5 Einseitige Tests bei monotonem Dichte-

quotienten

Definition 2.5.1. Eine Familie P = Pϑ : ϑ ∈ Θ von Wahrscheinlichkeits-maßen auf (X ,B) mit Θ ⊂ R und Pϑ 6= Pϑ′ fur ϑ 6= ϑ′ heißt Familie mitmonotonem Dichtequotienten in T, falls gilt: ∃ Maß µ/B, P µ,

∀ ϑ ∈ Θ ∃ pϑ ∈ dPϑ/dµ ∃ T : (X ,B) → (R,B) ∀ϑ′, ϑ′′ ∈ Θ, ϑ′ < ϑ′′ :

pϑ′′(x)

pϑ′(x)= hϑ′,ϑ′′(T (x)), (2.5.2)

fur alle x ∈ Xϑ′,ϑ′′ := X\x ∈ X : pϑ′(x) = pϑ′′(x) = 0, (mit hϑ′,ϑ′′(T (x)) =∞, falls pϑ′′(x) > 0, pϑ′(x) = 0), wobei hϑ′,ϑ′′(t) streng monoton in T ist.

Beispiel 2.5.3. (i) Es sei P = Pϑ : ϑ ∈ Θ eine einparametrige Ex-ponentialfamilie, d.h. pϑ(x) = c(ϑ) · exp(q(ϑ) · T (x)), x ∈ X , ϑ ∈ Θ.Falls q(ϑ) streng monoton wachsend in ϑ ist, so ist P eine Familie mitmonotonem Dichtequotienten: Fur ϑ′, ϑ′′ ∈ Θ mit ϑ′ < ϑ′′ gilt

pϑ′′(x)pϑ′(x)

=c(ϑ′′)

c(ϑ′)· exp ((q(ϑ′′)− q(ϑ′)) · T (x))

=: hϑ′,ϑ′′(T (x)),

wobei hϑ′,ϑ′′(t) streng monoton wachsend in t ist.

(ii) Sind X1, . . . , Xn unabhangige und identisch N(0, σ2)-verteilte Zufalls-variablen, so ist σ−2

∑ni=1X

2i χ2-verteilt mit n Freiheitsgraden, i.Z.

χ2n.

Die Summe∑n

i=1X2i besitzt dann die Lebesgue-Dichte

pσ2(x) =1

σ2gn

( xσ2

)=

1

(2σ2)n/2Γ(n/2)x

n2−1 exp

(− x

2σ2

), x > 0,

wobei gn die Dichte der χ2n-Verteilung ist.

Fur ϑ = σ2 ∈ Θ := (0,∞) sei Pϑ das Wahrscheinlichkeitsmaß mitder λ-Dichte pϑ. Dann besitzt P = Pϑ : ϑ ∈ Θ einen monotonenDichtequotienten in T (x) = x. Denn fur σ2

1 < σ22 und x > 0 gilt

pσ22(x)

pσ21(x)

=

(σ2

1

σ22

)n/2· exp

((1

2σ21

− 1

2σ22

)· x)

=: hσ21 ,σ

22(x),

wobei hσ21 ,σ

22(x) streng monoton wachsend in t ist.

51

Page 53: Mathematische Statistik · Vorwort Dieses Skript entstand aus der Vorlesung ” Mathematische Statistik I und II“, wie sie Prof. Dr. Michael Falk im Wintersemester 2007/2008 bis

(iii) Fur ϑ > 0 sei Pϑ die Poisson-Verteilung zum Parameter ϑ > 0, d.h.

Pϑ(k) = exp(−ϑ)ϑk

k!, k = 0, 1, 2, . . .

Dann ist P = Pϑ : ϑ > 0 eine Familie von Wahrscheinlichkeitsmaßenauf (X ,B) = (N ∪ 0,P(N ∪ 0)), welche durch das Zahlmaß µB =∑∞

n=0 1B(n), B ⊂ N ∪ 0 dominiert wird.

P ist eine Familie mit monotonem Dichtequotienten in T (x) = x. Setzepϑ(x) := e−ϑϑx/x!, x ∈ X , ϑ ∈ Θ. Dann gilt pϑ ∈ dPϑ/dµ, denn

Pϑ(B) =∑k∈B

Pϑ(k) =∑k∈B

e−ϑϑk

k!=

∞∑k=0

1B(k)pϑ(k)

=

∫X

1B(x) · pϑ(x) µ(dx) =

∫B

pϑ(x) · µ(dx), B ∈ B

und fur ϑ1 < ϑ2 ist

pϑ2(x)

pϑ1(x)= exp((ϑ1 − ϑ2))

(ϑ2

ϑ1

)xstreng monoton wachsend in x.

Mit den in Abschnitt 2.2 bewiesenen Aussagen konnen wir nun gleichmaßigbeste Tests zum Niveau α fur das einseitige Testproblem H : ϑ ≤ ϑ0 gegenK : ϑ > ϑ0 (bzw. entsprechend fur H : ϑ ≥ ϑ0 gegen K : ϑ < ϑ0) herleiten.

Satz 2.5.4. P = Pϑ : ϑ ∈ Θ ⊂ R sei eine Familie von Wahrscheinlich-keitsmaßen mit monotonem Dichtequotienten in T. Ferner sei α ∈ (0, 1) undϑ0 ∈ Θ. Dann existiert fur das Testproblem H : ϑ ≤ ϑ0 gegen K : ϑ > ϑ0 eingleichmaßig bester Test ϕ∗ zum Niveau α.Dieser hat die Gestalt

ϕ∗ =

1, falls T (x) > cαδα falls T (x) = cα0, falls T (x) < cα, x ∈ X

(2.5.5)

wobei cα moglichst klein und – nach Wahl von cα – δα ∈ [0, 1] moglichst großderart gewahlt wird, dass

Eϑ0(ϕ∗) = Pϑ0(T > cα) + δαPϑ0(T = cα) = α. (2.5.6)

Daruber hinaus besitzt ϕ∗ die Eigenschaft

∀ϑ ∈ Θ : Eϑ(ϕ∗) = infEϑ(ϕ) : ϕ ∈ Φ mit Eϑ0(ϕ) = α (2.5.7)

52

Page 54: Mathematische Statistik · Vorwort Dieses Skript entstand aus der Vorlesung ” Mathematische Statistik I und II“, wie sie Prof. Dr. Michael Falk im Wintersemester 2007/2008 bis

Beweis: Es sei zunachst ϑ1 > ϑ0 beliebig aber fest gewahlt. Nach demNeymann-Pearson Lemma 2.2.5, 2.2.6 existiert fur das Testproblem H0 : ϑ =ϑ0 gegen K0 : ϑ = ϑ1 ein bester Test zum Niveau α der Form

ϕ(x) =

1, falls pϑ1(x) > γα pϑ0(x)δα falls pϑ1(x) = γα pϑ0(x)0, falls pϑ1(x) < γα pϑ0(x), x ∈ X

(2.5.8)

mit Eϑ0(ϕ) = α. Da P einen monotonen Dichtequotienten in T besitzt, gilt

ϕ(x) =

1, falls hϑ0,ϑ1(T (x)) > γαδα falls hϑ0,ϑ1(T (x)) = γα0, falls hϑ0,ϑ1(T (x)) < γα, x ∈ X

(2.5.9)

Da hϑ0,ϑ1(t) streng monoton wachsend in t ist, ist (2.5.9) aquivalent zu (2.5.5).Wahle man nun

cα = inft ∈ R : Pϑ0(T ≤ t) ≥ 1− α = inft ∈ R : Pϑ0(T > t) < α

und δα so, dass Pϑ0(T > cα) + δαPϑ0(T = cα) = α. Dann ist der zugehorigeTest ϕ∗ ein bester Test fur H0 gegen K0; da cα und δα offenbar nur von ϑ0

abhangen und nicht von ϑ1 ist ϕ∗ auch gleichmaßig bester Test zum Niveauα fur H0 : ϑ = ϑ0 gegen K0 : ϑ > ϑ0. Durch Vergleich mit dem Testϕα = α ergibt sich aus (2.5.7) (was aber erst noch bewiesen werden muss)∀ϑ < ϑ0 : Eϑ(ϕ

∗) ≤ α, d.h. ϕ∗ ist ein Test zum Niveau α fur H : ϑ ≤ ϑ0

gegen K : ϑ > ϑ0.Daraus folgt, dass ϕ∗ gleichmaßig bester Test zum Niveau α fur H0 : ϑ ≤ ϑ0

gegen K0 : ϑ > ϑ0 ist. Zum Nachweis von (2.5.7) werden wir zunachst einenTest ψ ∈ Φ := ϕ ∈ Φ : Eϑ0(ϕ) = 1− α konstruieren mit der Eigenschaft

∀ϑ < ϑ0 : Eϑ(ψ∗) = sup

ψ∈Φ

Eϑ(ψ).

Sei dazu ϑ2 < ϑ0 beliebig. Nach dem Neyman-Pearson-Lemma existiert ψ∗ ∈Φ mit Eϑ2(ψ

∗) = supψ∈ΦEϑ2(ψ), wobei ψ∗ die Gestalt besitzt

ψ∗(x) =

1, falls pϑ2(x) > γ pϑ0(x)

δ falls pϑ2(x) = γ pϑ0(x)0, falls pϑ2(x) < γ pϑ0(x), x ∈ X

bzw.

ψ∗(x) =

1, falls T (x) > c

δ falls T (x) = c0, falls T (x) < c, x ∈ X

Da andererseits 1 − ϕ∗ auch diese Gestalt besitzt und Eϑ(1 − ϕ∗) = 1 − α,folgt ψ∗ := 1− ϕ∗ ∈ Φ als Losung von Eϑ0(ψ

∗) = supψ∈ΦEϑ2(ψ).

53

Page 55: Mathematische Statistik · Vorwort Dieses Skript entstand aus der Vorlesung ” Mathematische Statistik I und II“, wie sie Prof. Dr. Michael Falk im Wintersemester 2007/2008 bis

Da 1− ϕ∗ unabhangig von ϑ2 < ϑ0 ist, gilt also Eϑ(1− ϕ∗) = supψ∈φEϑ(ψ),ϑ < ϑ0. Dies ist aber aquivalent zu (2.5.7).

2

Bemerkung 2.5.10. (i) Der in Satz 2.5.4 konstruierte gleichmaßig besteTest ϕ∗ zum Niveau α fur H : ϑ ≤ ϑ0 gegen K : ϑ > ϑ0 ist auch einbester Test zum Niveau α′ := Eϑ′(ϕ

∗) fur H ′ : ϑ = ϑ′ gegen K ′ : ϑ = ϑ′′

fur beliebiges ϑ′, ϑ′′ ∈ Θ mit ϑ′ < ϑ′′. Denn ϕ∗ ist nach Konstruktion einTest vom NP-Typ fur (Pϑ′ , Pϑ′′) und nach Lemma 2.2.6 damit trenn-scharf fur (Pϑ′ , Pϑ′′) daraus folgt, dass die Gutefunktion β(ϑ) := Eϑ(ϕ

∗)auf der Menge ϑ ∈ Θ : 0 < β < 1 streng monoton wachst:Seien ϑ′, ϑ′′ ∈ Θ mit ϑ′ < ϑ′′ und 0 < β(ϑ′) < 1. Dann ist ϕ∗ besterTest zum Niveau β(ϑ′) fur H ′ : ϑ = ϑ′ gegen K ′ : ϑ = ϑ′′, also gilt nachKorollar 2.2.10 β(ϑ′) < β(ϑ′′), da nach Voraussetzung stets Pϑ′ 6= Pϑ′′fur ϑ′ 6= ϑ′′.

(ii) In Analogie zu Satz 2.5.4 ergibt sich sofort, dass es auch fur das Test-problem H : ϑ ≥ ϑ0 gegen K : ϑ < ϑ0 einen gleichmaßig besten Testzum Niveau α ∈ (0, 1) gibt, namlich:

ϕ∗(x) =

1, falls T (x) < cαδα falls T (x) = cα0, falls T (x) > cα, x ∈ X ,

wobei die Konstanten cα und δα ∈ [0, 1] bestimmt werden aus derGleichung Eϑ0(ϕ

∗) = Pϑ0(T < cα) + δαPϑ0(T = cα) = α

(iii) Ferner folgt aus Lemma 2.2.9, dass die Bereiche strikter Ablehnung dergleichmaßig besten Tests zum Niveau α ∈ (0, 1) fur H0 : ϑ = ϑ0 gegenK : ϑ > ϑ0 bzw. K : ϑ < ϑ0 bis auf µ–Nullmengen von der FormT > cα bzw. T < cα sind. Folglich gibt es i.A. keinen gleichmaßigbesten Test zum Niveau α ∈ (0, 1) fur H0 : ϑ = ϑ0 gegen K0 : ϑ 6= ϑ0,da ja ein solcher Test sowohl gegen K, als auch gegen K gleichmaßigbester Test sein musste.

Beispiel 2.5.11. Im Beispiel 2.4.3 auf Seite 45 haben wir gesehen, dass beibekanntem Mittelwert µ0 die Familie P1 = N(µ0, σ

2) : σ2 ∈ (0,∞) eineeinparametrige Exponentialfamilie bildet c1(ϑ) = 1√

2πσ, q1(ϑ) = −1

(2σ2)und

T1(x) = (x − µ0)2, x ∈ R und ϑ = σ2 ∈ Θ := (0,∞), wenn µ := λ als

dominierendes Maß gewahlt wird. Dann ist im Stichprobenraum (X ,B) :=(Rn,Bn) gemaß Lemma 2.4.5 die Familie P := N(µ0, σ

2)n : σ2 ∈ (0,∞)eine einparametrige Exponentialfamilie mit T (x) =

∑ni=1(xi − µ0)

2, x =(x1, . . . , xn) ∈ Rn, und mit streng monoton wachsendem q(ϑ) = q1(ϑ) =

54

Page 56: Mathematische Statistik · Vorwort Dieses Skript entstand aus der Vorlesung ” Mathematische Statistik I und II“, wie sie Prof. Dr. Michael Falk im Wintersemester 2007/2008 bis

− 1(2ϑ)

, so dass wir nach Beispiel 2.5.3 (i) und Bemerkung 2.5.10 (ii) folgendeserhalten:P ist eine Familie mit monotonem Dichtequotienten in T , und der durch

ϕ∗(x) =

1, falls

∑ni=1(xi − µ0)

2 ≤ cα0, falls

∑ni=1(xi − µ0)

2 > cα, x ∈ Rn,

definierte Test mit cα so gewahlt, dass Eϑ0(ϕ∗) = α, ϑ0 = σ2

0, ist eingleichmaßig bester Test zum Niveau α fur das Testproblem

H : σ2 ≥ σ20 gegen K : σ2 < σ2

0

2.6 Gleichmaßig beste Tests in einparametri-

gen Exponentialfamilien

In diesem Abschnitt sei Θ stets ein reelles Intervall. Wir wollen gleichmaßigbeste Test zum Niveau α fur das Testproblem

H := ϑ ∈ Θ : ϑ ≤ ϑ1 ∪ ϑ ∈ Θ : ϑ ≥ ϑ2 gegen (2.6.1)

K := ϑ ∈ Θ : ϑ1 < ϑ < ϑ2

bestimmen, wobei ϑ1, ϑ2 ∈ Θ mit ϑ1 < ϑ2 vorgegeben sind (vgl. Beispiel2.3.10).

Satz 2.6.2. Es sei P = Pϑ : ϑ ∈ Θ eine einparametrige Exponentialfamilieim Stichprobenraum (X ,B), d.h. bzgl. eines geeigneten σ–endlichen Maßesµ/B besitzt Pϑ eine Dichte der Form pϑ(x) = c(ϑ) exp(q(ϑ)T (x)), x ∈ X , ϑ ∈Θ. Wir setzen voraus, dass q(ϑ) streng monoton wachst, und T nicht µ-f.s. konstant ist. Dann existiert fur das Testproblem (2.6.1) ein gleichmaßigbester Test ϕ∗ zum Niveau α ∈ (0, 1) der Form

ϕ∗(x) =

1, falls c1 < T (x) < c2δj, falls T (x) = cj, j = 1, 2, c1 < c20, falls T (x) ∈ (−∞, c1) ∪ (c2,∞)

x ∈ X . (2.6.3)

Dabei wird man c1 moglichst klein und c2 moglichst groß wahlen und nachderen Festlegung δj ∈ [0, 1], j = 1, 2, so bestimmen, dass

Eϑi(ϕ∗) = Pϑi

(c1 < T < c2) + δ1Pϑi(T = c1) + δ2Pϑi

(T = c2)(2.6.4)

= α, i = 1, 2

gilt. Daruber hinaus gilt

Eϑ(ϕ∗) = infEϑ(ϕ) : ϕ ∈ Φ mit Eϑ1(ϕ) = Eϑ2(ϕ) = α, ϑ ∈ H. (2.6.5)

55

Page 57: Mathematische Statistik · Vorwort Dieses Skript entstand aus der Vorlesung ” Mathematische Statistik I und II“, wie sie Prof. Dr. Michael Falk im Wintersemester 2007/2008 bis

Beweis: Sei zunachst ϑ ∈ Θ mit ϑ1 < ϑ < ϑ2 beliebig aber fest gewahlt.Behauptung: Pϑ1 und Pϑ2 sind linear unabhangig.Angenommen dies ware nicht der Fall. Dann ware fur ein γ > 0

c(ϑ1) exp(q(ϑ1)T (x)) = γ c(ϑ2) exp(q(ϑ2)T (x)) µ− f.u.

⇔c(ϑ1)

c(ϑ2)= γ exp((q(ϑ2)− q(ϑ1))T (x)) µ− f.u.

d.h. wegen q(ϑ2) − q(ϑ1) > 0 ware T µ-f.u. konstant, im Widerspruch zurVoraussetzung.Also sind Pϑ1 und Pϑ2 linear unabhangig und somit ist (α, α) gemaß Lemma2.3.7 (i) innerer Punkt der Menge M := (Eϑ1(ϕ), Eϑ2(ϕ)) : ϕ ∈ Φ.Daher ist nach Satz 2.3.3 der durch

ϕ0(x) =

1, falls c(ϑ) · exp(q(ϑ)T (x)) >γ1 · c(ϑ1) · exp(q(ϑ1) · T (x))

+γ2 · c(ϑ2) · exp(q(ϑ2)T (x))

0, falls c(ϑ) · exp(q(ϑ)T (x)) <γ1 · c(ϑ1) · exp(q(ϑ1) · T (x))

+γ2 · c(ϑ2) · exp(q(ϑ2)T (x)),

x ∈ X ,

definierte Test ein bzgl. der Klasse Φα := ϕ ∈ Φ : α = Eϑ1(ϕ) = Eϑ2(ϕ)bester Test fur das Problem H0 := ϑ1, ϑ2 gegen K0 := ϑ. Nach entspre-chender Umformung folgt nun

ϕ0(x) =

1, falls a(x) < 10, falls a(x) > 1

x ∈ X ,

wobei a(x) := γ′1 · exp(b1T (x))+γ′2 · exp(b2T (x)), γ′i := γi · c(ϑi)/c(ϑ), i = 1, 2und b1 = q(ϑ1)− q(ϑ) < 0, b2 = q(ϑ2)− q(ϑ) > 0.Eine Fallunterscheidung zeigt, dass γ′1 > 0 und γ′2 > 0 gelten muss:1. Fall: Angenommen, γ′1 ≤ 0, γ′2 ≤ 0. Dann folgt a(x) ≤ 0, x ∈ X ⇒ ϕ0 ≡ 1⇒ α = Eϑ1(ϕ0) = Eϑ2(ϕ0) = 1 /∈ (0, 1), Widerspruch.2. Fall: Angenommen, γ′1 > 0, γ′2 ≤ 0. Dann ist a(x) streng monoton fallendin T (x), also a(x) < 1 ⇔ T (x) > d1. Damit ist der Test ϕ0 von der Form

ϕ0(x) =

1, falls T (x) > d1

0, falls T (x) < d1x ∈ X ,

d.h. ϕ0 ist ein optimaler Test fur ein Testproblem der Form ϑ ≤ ϑ0 gegenϑ > ϑ0 und besitzt daher nach Bemerkung 2.5.10 (i) eine streng monotonwachsende Gutefunktion, also speziell Eϑ1(ϕ0) < Eϑ2(ϕ0), Widerspruch.3. Fall: γ′1 ≤ 0, γ′2 > 0 analog.

56

Page 58: Mathematische Statistik · Vorwort Dieses Skript entstand aus der Vorlesung ” Mathematische Statistik I und II“, wie sie Prof. Dr. Michael Falk im Wintersemester 2007/2008 bis

Also gilt γ′1 > 0 und γ′2 > 0 und daher auch γ1 > 0 und γ2 > 0. Es folgtsomit

ϕ0(x) =

1, falls c1 < T (x) < c20, falls T (x) < c1 oder T (x) > c2

x ∈ X .

Aus Lemma 2.3.4 folgt nun, dass der Test ϕ0 und damit auch der durch (2.6.3)und (2.6.4) definierte Test ϕ∗ ein gleichmaßig bester Test zum Niveau α furH0 = ϑ1, ϑ2 gegen K0 = ϑ ist. Da sich hierbei die Konstanten ci undδi, i = 1, 2 aus den von dem gewahlten ϑ unabhangigen Nebenbedingungen(2.6.4) ergeben, ist ϕ∗ sogar ein gleichmaßig bester Test zum Niveau α furH0 = ϑ1, ϑ2 gegen K. Durch Vergleich mit dem Test ϕ ≡ α folgt aus(2.6.5), dass Eϑ(ϕ

∗) ≤ α, ϑ ∈ H, d.h. ϕ∗ ist ein gleichmaßig bester Test zumNiveau α fur das Testproblem (2.6.1). Zum Nachweis von (2.6.5) sei ϑ ∈ H,ϑ < ϑ1, vorgegeben. Satz 2.3.3 liefert einen Test ψ∗, der bester Test ist bzgl.der Klasse

Φ1−α := ϕ ∈ Φ : Eϑ1(ϕ) = Eϑ2(ϕ) = 1− α

fur das Testproblem H0 = ϑ1, ϑ2 gegen K0 := ϑ. Fur den Test ϕ∗ :=1 − ψ∗ gilt also ϕ∗ ∈ Φα und Eϑ(ϕ

∗) = infEϑ(ϕ) : ϕ ∈ Φα. Gemaß 2.3.3(iii) ist ψ∗ µ-f.u. von der Form

ψ∗(x) =

1, falls γ′′1 exp(b1T (x)) + γ′′2 exp(b2T (x)) < 10, falls γ′′1 exp(b1T (x)) + γ′′2 exp(b2T (x)) > 1

x ∈ X ,

wobei hier b1 = q(ϑ1) − q(ϑ) > 0, b2 = q(ϑ2) − q(ϑ) > b1 > 0. Hieraus folgtfur die Konstanten γ′′1 , γ′′2 notwendigerweise γ′′1 > 0 und γ′′2 > 0:1. Fall: Angenommen γ′′1 ≤ 0; γ′′2 ≤ 0. Dann folgt ψ∗ = 1 µ-f.u. und damit1− α = Eϑ1(ψ

∗) = Eϑ2(ψ∗) = 1, im Widerspruch zu α ∈ (0, 1)

2. Fall: Angenommen γ′′1 > 0, γ′′2 ≥ 0. Dann ist b(x) := γ′′1 exp(b1T (x)) +γ′′2 exp(b2T (x)) streng monoton wachsend in T (x), also µ-f.u.

ψ∗(x) =

1, falls T (x) < d2

0, falls T (x) > d2x ∈ X ,

d.h. ψ∗(x) ist optimaler Test fur ein einseitiges Problem ϑ ≥ ϑ0 gegen ϑ < ϑ0

und besitzt nach 2.5.10 (i) eine streng monoton fallende Gutefunktion, alsospeziell Eϑ1(ψ

∗) > Eϑ2(ψ∗), Widerspruch.

3. Fall: Angenommen γ′′1 ≤ 0, γ′′2 > 0. Wegen b1 = b2 − ε0 mit ε0 > 0ist b(x) := γ′′1 exp(b2T (x)) exp(−ε0T (x)) + γ′′2 exp(b2T (x)) streng monotonwachsend in T (x) und man schließt wie in Fall 2.

Also gilt γ′′1 > 0, γ′′2 < 0 und daher

ψ∗(x) =

1, falls 1 < 1

γ′′1exp(−b1T (x))− γ′′2

γ′′1exp((b2 − b1)T (x))

0, falls 1 > 1γ′′1

exp(−b1T (x))− γ′′2γ′′1

exp((b2 − b1)T (x))x ∈ X ,

57

Page 59: Mathematische Statistik · Vorwort Dieses Skript entstand aus der Vorlesung ” Mathematische Statistik I und II“, wie sie Prof. Dr. Michael Falk im Wintersemester 2007/2008 bis

bzw.

ϕ∗(x) =

1, falls c1 < T (x) < c20, falls T (x) /∈ [c1, c2]

x ∈ X ,

wobei die Konstanten c1, c2 aus Eϑ1(ϕ∗) = Eϑ2(ϕ

∗) = α bestimmt werden.Dies bedeutet ϕ0 = ϕ∗ µ-f.u.Hieraus folgt wegen ϕ∗ ∈ Φα die Behauptung (2.6.5). Analog schließt manim Fall ϑ > ϑ2 2

Wie wir in 2.5.10 (iii) gesehen haben, existieren im Fall einparametrigerExponentialfamilien i.A. keine gleichmaßig besten Tests zum Niveau α furH : ϑ = ϑ0 gegen K : ϑ 6= ϑ0. Wir betrachten daher im Folgenden nur un-verfalschte Tests zum Niveau α, wobei wir den naturlichen Parameterraumzugrunde legen, d.h. unsere Verteilungsannahme ist P = Pϑ : ϑ ∈ Θ, wo-bei Pϑ die µ-Dichte pϑ(x) = c(ϑ) · exp(ϑT (x)) fur ϑ ∈ Θ und x ∈ X besitzt.Ferner nehmen wir an, dass Θ ein offenes Intervall in R ist. Ist dann ϕ einunverfalschter Test zum Niveau α fur H : ϑ = ϑ0 gegen K : ϑ 6= ϑ0, d.h.Eϑ0(ϕ) = α und infϑ∈K Eϑ(ϕ) ≥ α, so folgt aus Lemma 2.4.9

d

dϑEϑ(ϕ)|ϑ=ϑ0

= Eϑ0(ϕ T )− α Eϑ0(T ) = 0, (2.6.6)

da Eϑ(ϕ) in ϑ0 ein Minimum besitzt.

Der abschließende Satz zeigt, dass diese gegenuber der Unverfalschtheit ab-geschwachte Bedingung (2.6.6) ausreicht, um die Existenz eines gleichmaßigbesten unverfalschten Tests nachzuweisen.

Satz 2.6.7. Es sei P = Pϑ : ϑ ∈ Θ eine einparametrige Exponentialfamiliemit naturlichem Parameterraum Θ = offenes Intervall in R. Wahle ϑ0 ∈ Θ.Dann existiert fur das Testproblem H : ϑ = ϑ0 gegen K : ϑ 6= ϑ0 eingleichmaßig bester unverfalschter Test ϕ∗ zum Niveau α ∈ (0, 1) der Gestalt:

ϕ∗(x) =

1, falls T (x) /∈ [c1, c2]δj, falls T (x) = cj, j = 1, 2,0, falls T (x) ∈ (c1, c2)

x ∈ X . (2.6.8)

Dabei werden die Konstanten cj, δj ∈ [0, 1], j = 1, 2 so bestimmt, dass

Eϑ0(ϕ∗) = α und Eϑ0(ϕ

∗T ) = α Eϑ0(T ). (2.6.9)

Daruber hinaus gilt

Eϑ(ϕ∗) = supEϑ(ϕ) : ϕ ∈ Φ mit Eϑ0(ϕ) = α, (2.6.10)

Eϑ0(ϕ T ) = α Eϑ0(T ), ϑ ∈ K.

58

Page 60: Mathematische Statistik · Vorwort Dieses Skript entstand aus der Vorlesung ” Mathematische Statistik I und II“, wie sie Prof. Dr. Michael Falk im Wintersemester 2007/2008 bis

Beweis: Siehe Satz 2.70 in Witting, (1985) Mathematische Statistik, Teub-ner, Stuttgart. 2

Beispiel 2.6.11. Es seien X1, . . . , Xn unabhangige B(1, ϑ)-verteilte Zufalls-variablen, ϑ ∈ Θ := (0, 1). Gesucht ist ein gleichmaßig bester unverfalschterTest zum Niveau α fur das Testproblem H : ϑ = ϑ0 gegen K : ϑ 6= ϑ0.

Die Familie der Verteilungen Pϑ = B(1, ϑ)n von X = (X1, . . . , Xn) bildeteine einparametrige Exponentialfamilie mit T (x1, . . . , xn) =

∑ni=1 xi. Daher

ist (2.6.8), (2.6.9) eine Losung, wobei die Werte cj, δj wegen Pϑ∗T = B(n, ϑ)gem. (2.6.9) aus der B(n, ϑ0)-Verteilung zu bestimmen sind.

Bei n = 24 unabhangigen Wiederholungen eines Experimentes mit zufalligemAusgang und einer unbekannten Erfolgswahrscheinlichkeit ϑ ∈ (0, 1) habensich T = 12 Erfolge eingestellt. Es ist fur α = 0, 05 zwischen H : ϑ0 = 5

16

und K : ϑ 6= 516

zu unterscheiden. Aus (2.6.9) ergeben sich c1 = 3, c2 = 12,δ1 = 0, 757 und δ2 = 0, 398.

Es erfolgt keine strikte Ablehnung von H, sondern es wird mit der Wahr-scheinlichkeit 0,398 verworfen.

59

Page 61: Mathematische Statistik · Vorwort Dieses Skript entstand aus der Vorlesung ” Mathematische Statistik I und II“, wie sie Prof. Dr. Michael Falk im Wintersemester 2007/2008 bis

Kapitel 3

REDUKTIONSTATISTISCHERENTSCHEIDUNGEN

3.1 Problemstellung

In den Abschnitten 2.5 und 2.6 haben wir gesehen, dass alle optimalen Losun-gen der dort behandelten Testprobleme stets von der Form ϕ∗ = ψT waren,d.h. die Werte ϕ∗(x) optimaler Tests hingen uber T (x) von der Stichprobe xab.

Wie wir in diesem Kapitel sehen werden, gibt es auch bei anderen stati-stischen Entscheidungsproblemen haufig Stichprobenfunktionen (Statistiken)T , so dass man sich bei der Suche nach einer optimalen Losung auf solcheEntscheidungsfunktionen beschranken kann, die nur von T abhangen. Umalso in solchen Fallen eine Entscheidung zu treffen, benotigt man also nichtdie volle Information uber ϑ ∈ Θ, die in der Stichprobe x ∈ X enthalten ist,sondern lediglich diejenige, welche durch T (x) gegeben ist.

Statistiken mit einer solchen Eigenschaft werden wir in einem noch zu prazi-sierenden Sinn suffizient (erschopfend, hinreichend) nennen.

Beispiel 3.1.1. Es seien x1, . . . , xn die Realisationen von n unabhangigenund identisch B(1, ϑ)-verteilten Zufallsvariablen X1, . . . , Xn mit unbekann-ter Erfolgswahrscheinlichkeit P (X1 = 1) = ϑ ∈ Θ := (0, 1). Wegen derUnabhangigkeit der Einzelversuche kommt es nicht auf die Reihenfolge derVersuchsergebnisse an, sondern lediglich auf die Gesamtzahl

∑ni=1 xi der Er-

folge. Betrachten wir die zu X1, . . . , Xn gehorige Verteilungsannahme P =Pϑ = B(1, ϑ)n, ϑ ∈ Θ, so hangt

Pϑ(x1, . . . xn) = ϑ∑n

i=1 xi · (1− ϑ)n−∑n

i=1 xi

60

Page 62: Mathematische Statistik · Vorwort Dieses Skript entstand aus der Vorlesung ” Mathematische Statistik I und II“, wie sie Prof. Dr. Michael Falk im Wintersemester 2007/2008 bis

nur von der Gesamtanzahl T (x1, . . . , xn) =∑n

i=1 xi der Erfolge ab, so dassanschaulich T (x) die selbe Information uber den unbekannten Parameter ϑenthalt wie die Stichprobe x = (x1, . . . , xn) selbst.

In diesem Fall wird man vermuten, dass T (x) =∑n

i=1 xi eine suffizienteStatistik ist.

Beispiel 3.1.2. Liegt eine einparametrige Exponentialfamilie P einem Expe-riment zugrunde, also Wahrscheinlichkeitsmaße Pϑ auf (X ,B) mit µ-Dichtender Form c(ϑ) exp(q(ϑ)T ), wobei T : X → R B,B-messbar ist, so wird manauch hier vermuten, dass die Kenntnis uber x keine bessere Information uberϑ ∈ Θ liefert, als diejenige, die man durch T (x) gewinnt. Dadurch reduziertsich das Entscheidungsprolem, etwa die Bestimmung optimaler Losungen furTestprobleme dahingehend, dass man von der i.A. n-dimensionalen Zufalls-große X = (X1, . . . , Xn) zur eindimensionalen Zufallsgroße T (x) ubergehtund optimale Losungen nur noch unter Funktionen einer Variablen zu be-stimmen braucht.

Es wird sich zeigen, dass fur die meisten der von uns betrachteten Klassenvon Wahrscheinlichkeitsverteilungen Statistiken T : (X ,B) → (Y ,G) existie-ren, die in dem Sinn suffizient sind, dass sie eine

”Reduktion statistischer

Entscheidungsverfahren“ im obigen Sinn ermoglichen.

Betrachten wir etwa die Verteilungsannahme P = Pϑ = B(1, ϑ)n : ϑ ∈ Θ =(0, 1) aus Beispiel 3.1.1 auf (X ,B) = (0, 1n,P(0, 1)n) und die StatistikT (x) =

∑ni=1 xi, so ist fur jedes A ∈ B die bezuglich Pϑ gebildete bedingte

Wahrscheinlichkeit von A unter dem Ereignis T = k fur k = 0, 1, . . . nunabhangig von dem Parameter ϑ ∈ Θ:

Pϑ(A|T = k) =Pϑ(A ∩ T = k)Pϑ(T = k)

=

∑x∈A∩T=k ϑ

∑ni=1 xi(1− ϑ)n−

∑ni=1 xi(

nk

)ϑk(1− ϑ)n−k

=

∑x∈A∩T=k ϑ

k(1− ϑ)n−k(nk

)ϑk(1− ϑ)n−k

=|A ∩ T = k|(

nk

) , k = 0, 1, . . . , n

Somit kann also bei gegebenen T = k keine zusatzliche Information uberϑ ∈ Θ gewonnen werden, d.h. die

”gesamte Abhangigkeit dieses Modells P

von dem unbekannten Parameter ϑ ∈ Θ steckt in T (x)“.

61

Page 63: Mathematische Statistik · Vorwort Dieses Skript entstand aus der Vorlesung ” Mathematische Statistik I und II“, wie sie Prof. Dr. Michael Falk im Wintersemester 2007/2008 bis

Genauer gilt ∀ϑ ∈ Θ und ∀B ∈ B:

Pϑ(B) =n∑k=0

Pϑ(B ∩ T = k)

=n∑k=0

Pϑ(B|T = k)︸ ︷︷ ︸=:h(B,k)

·Pϑ(T = k)

=n∑k=0

h(B, k) · Pϑ(T = k)

=

∫0,1,...,n

h(B, k) (Pϑ ∗ T )(dk),

wobei h(B, k) = |B∩T=k|(n

k)unabhangig von ϑ ist.

Damit wird fur allgemeine statistische Modelle eine Prazisierung des Begriffs

”Suffizienz“ nahe gelegt: T : (X ,B) → (Y ,G) heißt suffizient fur eine Ver-

teilungsannahme P = Pϑ : ϑ ∈ Θ, falls fur alle B ∈ B die bedingteWahrscheinlichkeit (bzgl. Pϑ) von B ∈ B bei gegebenen T unabhangig vonϑ ∈ Θ ist.

3.2 Bedingte Erwartungswerte und bedingte

Wahrscheinlichkeiten

Der folgende Satz ist etwa in Ganssler, P. und Stute, W. (1977), Wahrschein-lichkeitstheorie, Springer, Heidelberg, Satz 1.2.24, bewiesen.

Satz 3.2.1. Es sei X eine beliebige nicht-leere Menge, (Y ,G) ein messbarerRaum und T : X → Y eine beliebige Abbildung. Dann existiert zu jederT−1(G) = T−1(G) : G ∈ G–messbaren Abbildung f : X → R eine G-messbare Abbildung g : Y → R, so dass f = g T .

Definition 3.2.2. Es sei (X ,B, P ) ein Wahrscheinlichkeitsraum, A eine sub-σ-Algebra von B, d.h. A ⊂ B, A ist σ-Algebra, B ∈ B und X ∈ L1(X ,B, P ).Dann heißt

EP (X|A) := E(X|A)

:=

Z ∈ L1(X ,A, P ) : ∀A ∈ A :

∫A

X dP =

∫A

Z dP

die bedingte Erwartung von X bei gegebenen A (bzgl. P ) und

P (B|A) := EP (1B|A)

die bedingte Wahrscheinlichkeit von B bei gegebenen A.

62

Page 64: Mathematische Statistik · Vorwort Dieses Skript entstand aus der Vorlesung ” Mathematische Statistik I und II“, wie sie Prof. Dr. Michael Falk im Wintersemester 2007/2008 bis

Satz 3.2.3. Unter den Voraussetzungen von 3.2.2 gilt

(i) E(X|A) 6= ∅,

(ii) Z1, Z2 ∈ E(X|A) ⇒ Z1 = Z2 P-f.s.,

(iii) Z1 ∈ E(X|A), Z2 : (X ,A) → (R,B) mit Z1 = Z2 P-f.u. ⇒ Z2 ∈E(X|A)

Beweis:

(i) Es sei zunachst X ≥ 0. Dann wird durch

Q(A) :=

∫A

X dP, A ∈ A,

ein endliches (wegen 0 ≤ EP (X) < ∞) Maß auf A definiert mit Q P . Also existiert nach dem Satz von Radon-Nikodym 2.1.3 ein Z0 ∈L1(X ,A, P ) mit Q(A) =

∫AZ0 dP , A ∈ A, d.h. Z0 ∈ E(X|A). Fur

ein beliebiges X ∈ L1(X ,B, P ) existieren Z1 ∈ E(X+|A) und Z2 ∈E(X−|A), wobei X+ = max(0, X), X− = max(0,−X), X = X+−X−.Dann ist Z := Z1 − Z2 ∈ E(X|A).

(ii) ∀A ∈ A: ∫A

Z1 dP =

∫A

X dP =

∫A

Z2 dP.

Mit A := Z1 > Z2 ∈ A bzw. A′ := Z1 < Z2 ∈ A folgt dieBehauptung.

(iii) Folgt unmittelbar aus obiger Gleichung.

2

Lemma 3.2.4. Falls

(i) A = X , ∅ ⇒ E(X|A) = E(X)

(ii) A = B ⇒ X ∈ E(X|A).

Beweis:

(i) Eine Abbildung f : X → R ist messbar bzgl. ∅,X ⇔ f ist konstant;also f ∈ E(X|A) ⇒ f = const.⇒ E(f) = const =

∫X f dP =

∫X X dP = E(X).

(ii) A = B ⇒ X ist A-messbar.⇒ X ∈ E(X|A)

63

Page 65: Mathematische Statistik · Vorwort Dieses Skript entstand aus der Vorlesung ” Mathematische Statistik I und II“, wie sie Prof. Dr. Michael Falk im Wintersemester 2007/2008 bis

2

Konvention 3.2.5. Es ist ublich jedes Z ∈ E(X|A) ebenfalls als bedingteErwartung von X bei gegebenem A zu bezeichnen und hierfur ebenfalls dasSymbol E(X|A) (dann aufgefasst als Zufallsvariable) zu verwenden. Dasselbegilt fur P (B|A).

Satz 3.2.6. Es sei (X ,B, P ) ein Wahrscheinlichkeitsraum und A eine sub-σ-Algebra von B. Sei X,Xn ∈ L1(X ,B, P ), n ∈ N, sowie a, b ∈ R. Danngilt:

(i) ∀A ∈ A∫AE(X|A) dP =

∫AX dP , speziell E(X) = E(E(X|A))

(ii) X = X1 P-f.s. ⇒ E(X|A) = E(X1|A) P-f.s.

(iii) X = a P-f.s. ⇒ E(X|A) = a P-f.s.

(iv) E(aX1 + bX2|A) = a · E(X1|A) + b · E(X2|A) P-f.s.

(v) X ≥ 0 P-f.s. ⇒ E(X|A) ≥ 0 P-f.s.

(vi) X1 ≤ X2 P-f.s. ⇒ E(X1|A) ≤ E(X2|A) P-f.s.

(vii) Xn ↑n∈N X P-f.s. ⇒ supn∈NE(Xn|A) = E(X|A) P-f.s.

(viii) X A-messbar ⇒ X = E(X|A) P-f.s.

Beweis:

(i) Definition von E(X|A)

(ii) Setze B := E(X1|A) > E(X|A) ∈ A

⇒∫B

E(X|A) dP =

∫B

X dP =

∫B

X1 dP =

∫B

E(X1|A) dP

⇒∫B

E(X1|A)− E(X|A)︸ ︷︷ ︸>0 auf B

dP = 0

⇒ P (B) = 0.

Vertauschen von X1 und X liefert die Behauptung.

(iii) folgt aus (ii)

(iv) folgt aus der Linearitat des Integrals

64

Page 66: Mathematische Statistik · Vorwort Dieses Skript entstand aus der Vorlesung ” Mathematische Statistik I und II“, wie sie Prof. Dr. Michael Falk im Wintersemester 2007/2008 bis

(v) Setze B := E(X|A) < 0 ∈ A∫B

E(X|A)︸ ︷︷ ︸<0 auf B

dP =

∫B

X dP ≥ 0

⇒ P (B) = 0.

(vi) folgt aus (iv) und (v): 0 ≤ E(X2 −X1︸ ︷︷ ︸≥0 P-f.s.

|A) = E(X2|A)−E(X1|A) P-f.s.

(vii) Aus (vi) folgt supn∈NE(Xn|A) = limn∈NE(Xn|A) P-f.s.

⇒ ∀B ∈ A :

∫B

limn∈N

E(Xn|A) dPmon. Konvergenz

= limn∈N

∫B

E(Xn|A) dP

= limn∈N

∫B

Xn dP

mon. Konvergenz=

∫B

limn∈N

Xn dP

=

∫B

X dP, P-f.s.

(viii) X A-messbar ⇒ X ∈ E(X|A); 3.2.3 (ii) ⇒ X = E(X|A) P-f.s.

2

Satz 3.2.7. Es sei (X ,B, P ) ein Wahrscheinlichkeitsraum, A eine sub-σ-Algebra von B und X ∈ L1(X ,B, P ).Falls die σ–Algebren X−1(B) := X−1(B) : B ∈ B und A unabhangigsind bzgl. P , d.h. P (B ∩ A) = P (B) · P (A), B ∈ X−1(B), A ∈ A, so giltE(X|A) = E(X) P-f.s.

Beweis: Nach Voraussetzung sind fur jedes A ∈ A die Zufallsvariablen 1Aund X unabhangig bzgl. P , denn 1−1

A (B) = ∅,X , A,Ac ⊂ A. Also gilt furA ∈ A ∫

A

X dP = E(1A ·X) = E(1A)E(X) =

∫A

E(X) dP.

Da E(X) als konstante Funktion A-messbar ist, folgt die Behauptung ausLemma 3.2.3 (ii). 2

Satz 3.2.8. Es sei (X ,B, P ) ein Wahrscheinlichkeitsraum, A1,A2 sub-σ-Algebren von B mit A1 ⊂ A2. Dann gilt:

E(E(X|A1)|A2)P-f.s.

= E(X|A1)P-f.s.

= E(E(X|A2)|A1)

65

Page 67: Mathematische Statistik · Vorwort Dieses Skript entstand aus der Vorlesung ” Mathematische Statistik I und II“, wie sie Prof. Dr. Michael Falk im Wintersemester 2007/2008 bis

Beweis: E(X|A1) ist A1-messbar und damit auch A2-messbar; 3.2.6 (viii)⇒ E(E(X|A1)|A2) = E(X|A1) P-f.s.Es sei nun A ∈ A1 ⊂ A2, dann:∫

A

X dPDef.=

∫A

E(X|A2) dPDef.=

∫A

E(E(X|A2)|A1) dP

Da dies fur alle A ∈ A1 gilt, folgt aus der Gleichheit von erstem und letztemTerm

E(X|A1) = E(E(X|A2)|A1) P-f.s.

2

Satz 3.2.9. Es sei (X ,B, P ) ein Wahrscheinlichkeitsraum, A eine sub-σ-Algebra von B und X ∈ L1(X ,B, P ), Y : X → R A-messbar mit der Eigen-schaft XY ∈ L1(X ,B, P ). Dann gilt

(i) ∀A ∈ A.∫AXY dP =

∫AY E(X|A) dP

(ii) E(XY |A) = Y E(X|A) P-f.s.

Beweis: O.E. sei X ≥ 0, sonst betrachte man X = X+ −X−. Wir knupfenan den Beweis von 3.2.3 (i) an und setzen Q(A) :=

∫AX dP , A ∈ A. Dann ist

Q ein endliches Maß auf A mit Q P und besitzt eine Dichte Z0 = E(X|A)bzgl. P . Wir erhalten somit fur ein beliebiges A ∈ A∫

A

XY dP =

∫A

Y dQ =

∫A

Y Z0 dP/A =

∫A

Y E(X|A) dP.

(ii) folgt aus (i) und der Definition von E(XY |A), da Y E(X|Y ) A-messbarist. 2

Definition 3.2.10. Es sei (X ,B, P ) ein Wahrscheinlichkeitsraum, (Y ,G) einmessbarer Raum, X ∈ L1(X ,B, P ), B ∈ B und T : (X ,B) → (Y ,G). Dannheißt

(i) E(X|T ) := E(X| T−1(G)︸ ︷︷ ︸:=T−1(G):G∈G⊂B

) die bedingte Erwartung von X bei

gegebenem T ,

(ii) P (B|T ) := P (B|T−1(G)) = E(1B|T−1(G)) die bedingte Wahrschein-lichkeit von B bei gegebenem T .

Satz 3.2.1 impliziert die folgende Aussage:

66

Page 68: Mathematische Statistik · Vorwort Dieses Skript entstand aus der Vorlesung ” Mathematische Statistik I und II“, wie sie Prof. Dr. Michael Falk im Wintersemester 2007/2008 bis

Satz 3.2.11. Unter den Voraussetzungen von Definition 3.2.10 existiert zujeden E(X|T ) eine G-messbare Funktion g : Y → R mit

E(X|T ) = g T

Satz 3.2.12. Unter den Voraussetzungen von Definition 3.2.10 sind fur eineG-messbare Funktion g : Y → R die beiden folgenden Aussagen aquivalent:

(i) g T = E(X|T ) P-f.s.

(ii) g ∈ L1(Y ,G, P ∗ T ) und∫G

g d(P ∗ T ) =

∫T−1(G)

X dP, G ∈ G.

Beweis: (i) ⇒ (ii): Fur G ∈ G gilt:∫T−1(G)

X dP3.2.6(i)

=

∫T−1(G)

E(X|T ) dP

(i)=

∫T−1(G)

g T dP

=

∫(1T−1(G))(g T ) dP

=

∫(1G T )(g T ) dP

=

∫(1G · g) T dP

=

∫1G · g d(P ∗ T )

=

∫G

g d(P ∗ T )

(ii) ⇒ (i): ∀G ∈ G:∫T−1(G)

g T dP =

∫(1G · g) T dP

=

∫(1G · g) d(P ∗ T )

=

∫G

g d(P ∗ T )

(ii)=

∫T−1(G)

X dP ;

da g T T−1(G)-messbar ist, folgt g T = E(X|T ) P-f.s. 2

67

Page 69: Mathematische Statistik · Vorwort Dieses Skript entstand aus der Vorlesung ” Mathematische Statistik I und II“, wie sie Prof. Dr. Michael Falk im Wintersemester 2007/2008 bis

Definition 3.2.13. Es seien die Voraussetzungen von 3.2.10 erfullt. Dannheißt

EP (X|T = ·) := E(Y |T = ·):= G ∈ L1(Y ,G, P ∗ T ) :

∀G ∈ G :

∫G

g d(P ∗ T ) =

∫T−1(G)

X dP

= g : (Y ,G) → (R,B) : g T = E(X|T ) P-f.s.

die bedingte Erwartung von X unter der Hypothese T = · bzw. Faktorisie-rung der bedingten Erwartung von X bzgl. T :

E(X|T ) = E(X|T = ·) T

Satz 3.2.14. Unter den Voraussetzungen von 3.2.10 gilt

(i) E(X|T = ·) 6= ∅,

(ii) g1, g2 ∈ E(X|T = ·) ⇒ g1 = g2 (P ∗ T )-f.u.

(iii) g1 ∈ E(X|T = ·) und g2 : (Y ,G) → (R,B) mit g1 = g2 (P ∗ T )-f.u.⇒ g2 ∈ E(X|T = ·)

Beweis: Teil (i) folgt aus 3.2.3 (i) und 3.2.11.Teil (ii): ∀G ∈ G:∫

G

g1 d(P ∗ T ) =

∫T−1(G)

X dP =

∫G

g2 d(P ∗ T ).

Mit G := g1 > g2 ∈ G bzw. G′ := g1 < g2 ∈ G folgt die Behauptung.Teil (iii) folgt unmittelbar aus obiger Gleichung. 2

Hinsichtlich der Verwendung des Symbols E(X|T = ·) gilt das Entsprechendewie bei der Konvention 3.2.5.

Fur E(X|T = ·) gelten die zu 3.2.6 analogen Eigenschaften.

Falls T (x) = y, so schreibt man

E(X|T )(x) = (E(X|T = ·) T )(x)

= E(X|T = ·)(T (x)︸︷︷︸=y

)

= E(X|T (x) = y)

= E(X|T = y).

68

Page 70: Mathematische Statistik · Vorwort Dieses Skript entstand aus der Vorlesung ” Mathematische Statistik I und II“, wie sie Prof. Dr. Michael Falk im Wintersemester 2007/2008 bis

3.3 Suffiziente σ-Algebren und suffiziente Sta-

tistiken

Definition 3.3.1. Es sei P = P/B eine Familie von Wahrscheinlichkeits-maßen auf (X ,B). Eine sub-σ-Algebra A von B heißt suffizient fur P/B,falls

∀B ∈ B :⋂P∈P

P (B|A) 6= ∅,

d.h. falls fur jedes B ∈ B eine von P ∈ P unabhangige Version der bedingtenWahrscheinlichkeit von B bei gegebenem A existiert.Eine Abbildung T : (X ,B) → (Y ,G) heißt suffizient fur P/B, falls A :=T−1(G) suffizient fur P/B ist.

Es sei T : (X ,B) → (Y ,G) suffizient fur P/B ⇒ ∀P ∈ P ∀B ∈ B:

P (B) =

∫1B dP

3.2.6(i)=

∫EP (1B|T )︸ ︷︷ ︸= P (B|T )︸ ︷︷ ︸

unabhangig von P

dP

3.2.1=: gB T

=

∫gB T dP

=

∫gB d(P ∗ T )

Bemerkung 3.3.2. Es sei P/B = P eine Familie von Wahrscheinlichkeitsma-ßen auf (X ,B). Dann gilt:

(i) B ist suffizient fur P/B

(ii) Jede P/B suffiziente sub-σ-Algebra A von B ist suffizient fur jede Teil-familie P0 von P .

(iii) Es sei (Y ,G) ein messbarer Raum und T : X → Y eine fur P/B suffi-ziente Statistik

⇒ ∀B ∈ B ∃gB : (Y ,G) → (R,B)

∀G ∈ G ∀P ∈ P : P (B ∩ T−1(G)) =

∫G

gB d(P ∗ T )

69

Page 71: Mathematische Statistik · Vorwort Dieses Skript entstand aus der Vorlesung ” Mathematische Statistik I und II“, wie sie Prof. Dr. Michael Falk im Wintersemester 2007/2008 bis

(iv) Es sei Y eine beliebige Menge T : X → Y eine beliebige Abbildung ⇒GT := G ⊂ Y : T−1(G) ∈ B ist eine σ-Algebra auf Y und T ist B,GT -messbar. Man nennt T suffizient fur P/B, wenn T−1(GT ) suffizient furP/B ist.

(v) Ist P = Pϑ : ϑ ∈ Θ eine parametrische Familie von Wahrscheinlich-keitsmaßen auf (X ,B), so nennt man A bzw. T suffizient fur ϑ ∈ Θ,wenn A bzw. T suffizient fur P/B ist.

Beweis:

(i) folgt aus 1B ∈⋂P∈P P (B|B)︸ ︷︷ ︸

EP (1B |B)

, B ∈ B

(ii) ist trivial

(iii) Fur beliebiges B ∈ B sei hB ∈⋂P∈P P (B|T−1(G)) mit 3.2.1 folgt

∃gB : (Y ,G) → (R,B) : hB = gB T

⇒ ∀G ∈ G ∀P ∈ P :

P (B ∩ T−1(G)) =

∫1B∩T−1(G) dP

=

∫1B · 1T−1(G) dP

=

∫T−1(G)

1B dP

=

∫T−1(G)

hB dP

=

∫T−1(G)

gB T dP

=

∫(gB T ) · 1T−1(G) dP

=

∫(gB T ) · (1G T ) dP

=

∫gB · 1G d(P ∗ T )

=

∫G

gB d(P ∗ T ).

2

70

Page 72: Mathematische Statistik · Vorwort Dieses Skript entstand aus der Vorlesung ” Mathematische Statistik I und II“, wie sie Prof. Dr. Michael Falk im Wintersemester 2007/2008 bis

Beispiel 3.3.3. Es sei G eine Gruppe endlicher Ordnung von bijektivenB,B-messbaren Abbildungen, und

g : X → X , A := B ∈ B : ∀g ∈ G : g(B) = B

die σ-Algebra der G-invarianten Mengen in B und P = P/B die Familie allerG-invarianten Wahrscheinlichkeitsmaße P auf (X ,B), d.h. P ∗ g = P , g ∈ G.Dann gilt

hB :=1

|G|∑g∈G

(1B g) ∈ P (B|A), B ∈ B, P ∈ P , (3.3.4)

d.h. A ist suffizient fur P/B.

Beweis: Da fur ein beliebiges aber festes g′ ∈ G mit g auch g g′ die ganzeGruppe G durchlauft, gilt

∀g ∈ G : hB g−1 = hB

und damit folgt

g(h−1B (A)) = (hB g−1)−1(A)

= h−1B (A) , A ∈ A, B ∈ B.

d.h. hB ist A-messbar.Fur B ∈ B gilt

P (B ∩ A) =

∫A

hB dP, A ∈ A, P ∈ P .

Denn aus 1A = 1A g, A ∈ A, g ∈ G folgt:

|G| ·∫A

hB dP =∑g∈G

∫A

1B g dP

=∑g∈G

∫X(1B g)(1A g) dP

=∑g∈G

∫X

1B · 1A d(P ∗ g)

=∑g∈G

(P ∗ g)(B ∩ A)

=∑g∈G

P (B ∩ A)

= |G| · P (B ∩ A)

2

Zwei Spezialfalle:

71

Page 73: Mathematische Statistik · Vorwort Dieses Skript entstand aus der Vorlesung ” Mathematische Statistik I und II“, wie sie Prof. Dr. Michael Falk im Wintersemester 2007/2008 bis

(i) Es sei (X ,B) = (Rn,Bn) und G die Gruppe der Ordnung n! derjenigenAbbildungen g : Rn → Rn, die den Permutationen der n Koordina-ten entsprechen. Dann ist A die σ-Algebra derjenigen Borelmengen desRn, die mit x ∈ Rn auch alle Punkte enthalten, die aus x durch Per-mutation der Koordinaten hervorgeht. Es sei P die Gesamtheit allerWahrscheinlichkeitsmaße auf (Rn,Bn) und P0 := P n : P ∈ P. Dannbesteht P0 aus G-invarianten Wahrscheinlichkeitsmaßen auf (Rn,Bn)[denn (P n ∗ g)(B1 × · · · × Bn) =

∏ni=1 P (Bi) = P n(B1 × · · · × Bn),

Bi ∈ B, i = 1, . . . , n; g ∈ G ⇒ P n ∗ g = P ]. Somit ist A nach 3.3.3suffizient fur P0.

(ii) Es sei (X ,B) = (R,B) und G := idR,−idR die Spieglungsgruppe(am Nullpunkt). Dann ist A die Gesamtheit aller um 0 symmetrischenBorel-Mengen von R, d.h. A = B ∈ B : B = −B = −x, x ∈ B. Aist suffizient fur die Familie aller um 0 symmetrischen Wahrscheinlich-keitsmaße auf (R,B), d.h. P (B) = P (−B), B ∈ B.

Da A = T−1(B) mit T (x) := |x|, x ∈ R, ist also T suffizent fur dieFamilie aller um 0 symmetrischen Wahrscheinlichkeitsmaße auf (R,B).

Lemma 3.3.5. Es sei P = P/B eine Familie von Wahrscheinlichkeitsmaßenauf (X ,B). Eine sub-σ-Algebra A von B ist genau dann suffizient fur P/B,falls

∀f ∈⋂P∈P

L1(X ,B, P ) :⋂P∈P

EP (f |A) 6= ∅

Beweis:”⇒“: Fur f = 1B, B ∈ B ist

⋂P∈P EP (1B|A) =

⋂P∈P P (B|A) 6= ∅.

Fur f ∈⋂P∈P L1(X ,B, P ) folgt die Behauptung durch algebraische Induk-

tion (d.h. die Behauptung gilt fur f = 1B ⇒ f =∑n

i=1 αi1Bi=: e einfache

Funktion ⇒ f = limn→∞ en mit e1 ≤ e2 ≤ . . . ⇒ f = f+ − f−) unter Ver-wendung von 3.2.6

”⇐“: Offensichtlich 2

Satz 3.3.6. Es sei P = P/B eine Familie von Wahrscheinlichkeitsmaßenauf (X ,B). Sind dann A0, A1 sub-σ-Algebren auf B mit A0 ⊂ A1(⊂ B), sogilt:

(i) Falls A0 suffizient ist fur P/B ⇒ A0 ist suffizient fur P/A1

(ii) Falls A0 suffizient ist fur P/A1 und A1 ist suffizient fur P/B ⇒ A0

ist suffizient fur P/B.

Beweis:

72

Page 74: Mathematische Statistik · Vorwort Dieses Skript entstand aus der Vorlesung ” Mathematische Statistik I und II“, wie sie Prof. Dr. Michael Falk im Wintersemester 2007/2008 bis

(i) ist offensichtlich

(ii) Sei B ∈ B und h1B ∈

⋂P∈P P (B|A1) . Da h1

B ∈⋂P∈P L1(X ,A1, P )

und da A0 suffizient ist fur P/A1 folgt nach 3.3.5 die Existenz vonhB ∈

⋂P∈P EP (h1

B|A0). Nach 3.2.8 gilt fur alle P ∈ P

EP (h1B|A0) = EP (EP (1B|A1)|A0) = EP (1B|A0) = P (B|A0) P-f.s.

also hB ∈⋂P∈P P (B|A0).

2

Definition 3.3.7. Fur eine Familie von Wahrscheinlichkeitsmaßen auf (X ,B)sei

PL :=

∑k∈N

ckPk : ck ≥ 0, Pk ∈ P , k ∈ N,∑k∈N

ck = 1

.

Beachte dass P ⊂ PL und dass die Elemente von PL Wahrscheinlichkeits-maße auf (X ,B) sind.

Satz 3.3.8. Es sei P = P/B eine Familie von Wahrscheinlichkeitsmaßenauf (X ,B) und A eine sub-σ-Algebra von B. Dann gilt:

(i) ∀f ∈⋂P∈P L1(X ,B, P ), f ≥ 0:

⋂P∈P EP (f |A) =

⋂P∈PL EP (f |A)

(ii) Ist A suffizient fur P/B, so auch fur PL/B.

Beweis:

(i) Wegen P ⊂ PL gilt”⊃“. Ist andererseits f0 ∈

⋂P∈P EP (f |A), so folgt

∀A ∈ A und ∀P ∈ PL:∫A

f0 dP =

∫A

f0 d

(∑k∈N

ckPk

)

=∑k∈N

ck ·∫A

f0 dPk

=∑k∈N

ck ·∫A

f dPk

=

∫A

f dP,

d.h. f0 ∈⋂P∈PL EP (f |A).

(ii) ist eine unmittelbare Folgerung aus (i).

73

Page 75: Mathematische Statistik · Vorwort Dieses Skript entstand aus der Vorlesung ” Mathematische Statistik I und II“, wie sie Prof. Dr. Michael Falk im Wintersemester 2007/2008 bis

2

Lemma 3.3.9. Es sei P = P/B eine Familie von Wahrscheinlichkeitsmaßenauf (X ,B) und A eine sub-σ-Algebra von B. Dann gilt:

(i) Ist A suffizient fur P/B, so gilt fur jedes P ∈ P und jedes P ∈ PL mitP/B P /B:

dP/AdP /A

⊂ dP/BdP /B

d.h. ∀P ∈ P ∃A-meßbare Dichte von P/B bzgl. P /B.

(ii) Falls ein P ∈ PL mit P/B P /B existiert und falls ∀P ∈ P gilt

dP/AdP /A

⊂ dP/BdP /B

so gilt ∀B ∈ BP (B|A) ⊂

⋂P∈P

P (B|A).

Insbesondere ist dann A suffizient fur P/B.

Beweis:

(i) A ist nach Voraussetzung suffizient fur P/B ⇒ ∀B ∈ B ∃ hB ∈⋂P∈P P (B|A); Nach 3.3.8 (i) folgt hB ∈

⋂P∈PL P (B|A).

Es seien nun P ∈ P und P ∈ PL mit P/B P /B beliebig vorgegeben

und es sei f ∈ dP/AdP /A . Dann gilt ∀B ∈ B:

P (B) =

∫XhB dP

hB ist A messbar=

∫XhB dP/A

=

∫XhB · f dP /A =

∫XhB · f dP

3.2.9(i)=

∫X

1B · f dP =

∫B

f dP

d.h. f ∈ dP/BdP /B

(ii) Es sei B ∈ B und P ∈ P. Ferner sei p ∈ dP/BdP /B A-meßbar und fB ∈

74

Page 76: Mathematische Statistik · Vorwort Dieses Skript entstand aus der Vorlesung ” Mathematische Statistik I und II“, wie sie Prof. Dr. Michael Falk im Wintersemester 2007/2008 bis

P (B|A). Dann gilt ∀A ∈ A:∫A

fB dP =

∫A

fB p dP

3.2.9(i)=

∫A

1B p dP

=

∫A∩B

p dP

= P (A ∩B)

=

∫A

1B dP

d.h. fB ∈ P (B|A). Da B ∈ B und P ∈ P beliebig waren, folgt dieBehauptung.

2

Satz 3.3.10 (Faktorisierungssatz von Halmos-Savage, Neyman-Kriterium).Es sei P = P/B = Pϑ : ϑ ∈ Θ eine Familie von Wahrscheinlichkeitsmaßenauf (X ,B), welche durch ein σ-endliches Maß µ/B dominiert wird. Dann gilt:

(i) Eine sub-σ-Algebra A von B ist suffizient fur P/B:⇔

∃h : (X ,B) → (R+,B ∩ R+) und ∀ϑ ∈ Θ (3.3.11)

∃fϑ : (X ,A) → (R+,B ∩ R+) : fϑ · h ∈dPϑ/Bdµ/B

(ii) Eine Statistik T : (X ,B) → (Y ,G) ist suffizient fur P/B :⇔

∃h : (X ,B) → (R+,B ∩ R+) und ∀ϑ ∈ Θ (3.3.12)

∃gϑ : (Y ,G) → (R+,B ∩ R+) : (gϑ T ) · h ∈ dPϑ/Bdµ/B

Beweis:

(i)”⇒“ A sei suffizient fur P/B. Mit 2.1.13 auf Seite 31 folgt: ⇒ ∃P ∈ PL

mit P/B P /B. Da auch P /B(=∑

k∈N 2−kPk) µ/B, existiert also

ein 0 ≤ h ∈ dP /Bdµ/B (Satz von Radon-Nikodym).

3.3.9 (i) ⇒ ∀ϑ ∈ Θ ∃fϑ ∈ dPϑ/BdP /B , fϑ A-messbar ⇒ fϑ · h ∈ dPϑ/B

dµ/B , denn:

Pϑ(B) =

∫B

fϑ dP =

∫B

fϑ · h dµ.

75

Page 77: Mathematische Statistik · Vorwort Dieses Skript entstand aus der Vorlesung ” Mathematische Statistik I und II“, wie sie Prof. Dr. Michael Falk im Wintersemester 2007/2008 bis

”⇐“ Gilt umgekehrt (3.3.11), so wird durch die Festlegung

µ0(B) :=

∫B

h dµ

ein Maß µ0/B definiert und es gilt ∀B ∈ B;∀ϑ ∈ Θ:

Pϑ(B) =

∫B

fϑ · h dµ =

∫B

fϑ dµ0,

d.h. fϑ ∈ dPϑ/Bdµ0/B , ϑ ∈ Θ. Mit 2.1.13 folgt: ∃P ∈ PL mit P/B P /B ⇒

∀B ∈ B :

P (B) =∑k∈N

2−kPϑk(B)

=∑k∈N

2−k∫B

fϑkdµ0

=

∫B

∑k∈N

2−kfϑkdµ0

=

∫B

h dµ0

wobei h :=∑

k∈N 2−kfϑk∈ dP /B

dµ0/B und h ist A-messbar, als Linearkom-bination A-messbarer fϑ. Wegen

P (h = 0) =

∫h=0

h dµ0 = 0

folgt Pϑ(h = 0) = 0, ϑ ∈ Θ (wegen P P ). Setzen wir nun

pϑ :=fϑ

h· 1h>0, ϑ ∈ Θ,

so ist pϑ A-messbar und pϑ ∈ dPϑ/BdP /B , denn es gilt ∀B ∈ B:

Pϑ(B) = Pϑ(B ∩ h > 0) + Pϑ(B ∩ h = 0)︸ ︷︷ ︸=0

=

∫B

1h>0 fϑ dµ0

=

∫B

h · pϑ dµ0

=

∫B

pϑ dP .

3.3.9 (ii) ⇒ Behauptung.

76

Page 78: Mathematische Statistik · Vorwort Dieses Skript entstand aus der Vorlesung ” Mathematische Statistik I und II“, wie sie Prof. Dr. Michael Falk im Wintersemester 2007/2008 bis

(ii) folgt aus (i) mit A = T−1(G) und Satz 3.2.1.

2

Beispiel 3.3.13. (i) Es sei P = P/B = Pϑ : ϑ ∈ Θ eine k-parametrigeExponentialfamilie auf (X ,B). (2.4.2) und Bemerkung 2.4.4 ⇒ bzgl.eines geeignet gewahlten σ-endlichen Maßes µ/B existieren µ-Dichtenvon Pϑ, ϑ ∈ Θ, der Form

c(ϑ) · exp

(k∑i=1

qi(ϑ) · Ti(x)

)

mit B-meßbaren Ti : X → R, i = 1, . . . , k. Damit folgt gemaß (3.3.12)mit

gϑ(y1, . . . , yk) := c(ϑ) · exp

(k∑i=1

qi(ϑ) · yi

), h ≡ 1,

dass die durch T (x) := (T1(x), . . . , Tk(x)) definierte Abbildung von(X ,B) → (Rk,Bk) eine fur P/B suffiziente Statistik ist.

(ii) Es sei P = P/Bn = Pϑ : N(µ, σ2)n : ϑ = (µ, σ2) ∈ Θ = R × (0,∞).Aus 2.4.3, folgt, dass die durch

T (x1, . . . , xn) :=

(n∑i=1

x2i ,

n∑i=1

xi

)

definierte Abbildung von (Rn,Bn) → (R2,B2) eine fur P/Bn suffizienteStatistik ist.

(iii) Es sei P = P/P(0, 1n) = Pϑ = B(1, ϑ)n : ϑ ∈ Θ = (0, 1). Dann istP eine einparametrige Exponentialfamilie in

T (x1, . . . , xn) =n∑i=1

xi.

Also ist die Abbildung T : (0, 1n,P(0, 1n)) → (R,B) eine fur Psuffiziente Statistik, vgl. 3.1.1.

77

Page 79: Mathematische Statistik · Vorwort Dieses Skript entstand aus der Vorlesung ” Mathematische Statistik I und II“, wie sie Prof. Dr. Michael Falk im Wintersemester 2007/2008 bis

3.4 Einige Anwendungen in der Statistik

Satz 3.4.1 (Rao-Blackwell). Es sei P = P/B = Pϑ : ϑ ∈ Θ eine Fa-milie von Wahrscheinlichkeitsmaßen auf (X ,B) und T : (X ,B) → (Y ,G)eine suffiziente Statistik fur ϑ ∈ Θ. Dann gibt es zu jeder erwartungstreuenSchatzfunktion g eines reellen Parameters κ(ϑ) eine erwartungstreue Schatz-funktion h fur κ(ϑ), namlich

h ∈⋂ϑ∈Θ

Eϑ(g|T )

mit gleichmaßig nicht großerer Varianz, d.h.

∀ϑ ∈ Θ : Eϑ((h− κ(ϑ)2)) ≤ Eϑ((g − κ(ϑ))2). (3.4.2)

Ist Eϑ((g − κ(ϑ))2) <∞, so gilt:

Eϑ((h− κ(ϑ)2)) = Eϑ((g − κ(ϑ))2) ⇔ g = h Pϑ-f.u. (3.4.3)

Beweis: Aus Lemma 3.3.5 folgt: ∃ h ∈⋂ϑ∈ΘEϑ(g|T ). Mit 3.2.6 (i) ergibt

sich:∀ϑ ∈ Θ : Eϑ(h) = Eϑ(Eϑ(g|T )) = Eϑ(g) = κ(ϑ),

d.h. h ist erwartungstreu fur κ(ϑ).Zum Beweis von (3.4.2) konnen wir o.E. annehmen, dass Eϑ((g − κ(ϑ))2) <∞. Dann gilt:

Eϑ((g − κ(ϑ))2) = Eϑ(((g − h) + (h− κ(ϑ)))2)

= Eϑ((g − h)2) + Eϑ((h− κ(ϑ))2)

≥ Eϑ((h− κ(ϑ))2),

da das beim Ausquadrieren auftretende gemischte Produkt verschwindet:

Eϑ(h · (h− κ(ϑ))) = Eϑ(Eϑ(g|T ) · (h− κ(ϑ)))

= Eϑ(Eϑ(g · (h− κ(ϑ))|T ))3.2.6(i)

= Eϑ(g · (h− κ(ϑ))).

Ferner gilt nun

Eϑ((h− κ(ϑ)2)) = Eϑ((g − κ(ϑ))2) ⇔ g = h Pϑ-f.u.

2

Durch Bildung der bedingten Erwartung bei gegebener suffizienter StatistikT kann man also aus einer erwartungstreuen Schatzfunktion g mit Varϑ(g) <∞, ϑ ∈ Θ, eine bessere gewinnen, falls nicht bereits (3.4.3) erfullt ist.

78

Page 80: Mathematische Statistik · Vorwort Dieses Skript entstand aus der Vorlesung ” Mathematische Statistik I und II“, wie sie Prof. Dr. Michael Falk im Wintersemester 2007/2008 bis

Durch abermalige Bildung der bedingten Erwartung bzgl. derselben suffi-zienten Statistik T erreicht man jedoch keine weitere Verbesserung, denn∀ϑ ∈ Θ:

Eϑ(h|T ) = Eϑ(Eϑ(g|T )|T ) = Eϑ(g|T ) = h Pϑ-f.u.

Satz 3.4.4. Es sei P = Pϑ : ϑ ∈ Θ eine Familie von Wahrscheinlichkeits-maßen auf (X ,B) und T : (X ,B) → (Y ,G) eine fur P/B suffiziente Statistik.Dann gibt es zu jedem Test ϕ einen nur von T abhangigen Test ψ T , mitψ : Y → [0, 1] G-messbar, mit derselben Gutefunktion.

Beweis: Sei ϕ ∈ Φ. Aus Lemma 3.2.5 folgt: ∃ h ∈⋂ϑ∈ΘEϑ(ϕ(T )). Mit Satz

3.2.1 ergibt sich:∃ ψ : (Y ,G) → (R,B) : h = ψ T.

Da ∀ϑ ∈ Θ : 0 ≤ ψ T ≤ 1 Pϑ-f.u. (da ϕ ∈ [0, 1]), kann ψ so festgelegtwerden, dass 0 ≤ ψ ≤ 1 gilt: ψ′ := ψ · 10≤ψ≤1. Dann ist ψ′ G-messbar,0 ≤ ψ′ ≤ 1 und ψ = ψ′ Pϑ ∗ T -f.u.. Sei ϑ ∈ Θ :

Eϑ(ψ T ) = Eϑ(h) = Eϑ(Eϑ(ϕ|T ))3.2.6(i)

= Eϑ(ϕ).

2

3.5 Vollstandigkeit

Im Zusammenhang mit dem Satz von Rao-Blackwell stellt sich die Frage,ob die mit Hilfe dieses Satzes gewonnene erwartungstreue Schatzfunktionbereits eine gleichmaßig kleinste Varianz besitzt (UMVU-Schatzer: uniform-ly minimum variance unbiased extimator). Um hierfur eine einfache hinrei-chende Bedingung angeben zu konnen, wird der Begriff der Vollstandigkeiteingefuhrt.

Definition 3.5.1. P = P/B = Pϑ : ϑ ∈ Θ sei eine Familie von Wahr-scheinlichkeitsmaßen auf (X ,B).

(i) P/B heißt vollstandig :⇔ ∀f : (X ,B) → (R,B), Eϑ(f) = 0,∀ϑ ∈ Θ ⇒

∀ ϑ ∈ Θ : f = 0 Pϑ-f.u.

(ii) T : (X ,B) → (Y ,G) ist vollstandig fur ϑ ∈ Θ :⇔ P/T−1(G) istvollstandig.

79

Page 81: Mathematische Statistik · Vorwort Dieses Skript entstand aus der Vorlesung ” Mathematische Statistik I und II“, wie sie Prof. Dr. Michael Falk im Wintersemester 2007/2008 bis

Nach 3.2.1 ist T : (X ,B) → (Y ,G) genau dann vollstandig fur ϑ ∈ Θ, wenn:∀f : (Y ,G) → (R,B),

∫Y f d(Pϑ∗T ) = 0 , ϑ ∈ Θ,⇒ f = 0 Pϑ∗T -f.u., ϑ ∈

Θ.⇔ [∀ϑ ∈ Θ Eϑ(f(T )) = 0, f : (Y ,G) → (R,B) ⇒ f T = 0 Pϑ-f.u.]

Die Bedeutung der”Vollstandigkeit“ beruht vor allem auf dem folgenden

Satz.

Satz 3.5.2 (Lehmann-Scheffe). Es sei P = P/B = Pϑ : ϑ ∈ Θ eineFamilie von Wahrscheinlichkeitsmaßen auf (X ,B). Ferner sei die StatistikT : (X ,B) → (Y ,G) suffizient und vollstandig fur ϑ ∈ Θ. Dann gilt: Fallses uberhaupt eine erwartungstreue Schatzfunktion g fur den reellen Para-meter κ(ϑ) gibt, so existiert auch eine solche erwartungstreue Schatzfunk-tion mit Minimalvarianz. Diese optimale Schatzfunktion ist gegeben durchh ∈

⋂ϑ∈ΘEϑ(g|T ).

Beweis: Sei g eine erwartungstreue Schatzfunktion fur κ(ϑ). Nach 3.3.5existiert

h ∈⋂ϑ∈Θ

Eϑ(g|T )

mit h erwartungstreu fur κ(ϑ) (siehe Beweis zu 3.4.1). Dieses h besitzt Mi-nimalvarianz: Angenommen dies ware nicht der Fall ⇒ ∃ g1 erwartungstreueSchatzfunktion fur κ(ϑ) und ∃ ϑ1 ∈ Θ: Varϑ1(g1) < Varϑ1(h). 3.4.1 ⇒ furh1 ∈

⋂ϑ∈ΘEϑ(g1|T ): Varϑ1(h1) ≤ Varϑ1(g1) < Varϑ1(h). Da h und h1 T

−1(G)-messbar sind und Eϑ(h) = Eϑ(h1) (= κ(ϑ)), ϑ ∈ Θ, ⇒ Eϑ(h−h1) = 0, ϑ ∈ ΘVollstandigkeit⇒ h − h1 = 0 Pϑ-f.u. bzw. h = h1 Pϑ-f.u. ⇒ Varϑ1(h) =Varϑ1(h1), Widerspruch. Mit diesem Widerspruch ist der Satz bewiesen. 2

Beispiel 3.5.3. Es sei P = P/P(0, 1n) := Pϑ = B(1, ϑ)n : ϑ ∈ Θ =(0, 1). Dann ist T (x1, . . . , xn) :=

∑ni=1 xi, (x1, . . . , xn) ∈ X = 0, 1n,

80

Page 82: Mathematische Statistik · Vorwort Dieses Skript entstand aus der Vorlesung ” Mathematische Statistik I und II“, wie sie Prof. Dr. Michael Falk im Wintersemester 2007/2008 bis

vollstandig fur ϑ ∈ Θ: Sei f ∈ (R,B) → (R,B) mit der Eigenschaft:

0 = Eϑ(f T )

=

∫Xf T dB(1, ϑ)n

=

∫0,1,...,n

f d(B(1, ϑ)n ∗ T )

=

∫0,1,...,n

f dB(n, ϑ)

=n∑i=0

f(i)B(n, ϑ)(i)

=n∑i=0

f(i)

(n

i

)ϑi(1− ϑ)n−i

= (1− ϑ)nn∑i=0

f(i)

(n

i

)(ϑ

1− ϑ

)i, ϑ ∈ Θ

also

k∑i=1

f(i)

(n

i

) ϑ

1− ϑ︸ ︷︷ ︸=:z

i

= 0, ϑ ∈ Θ

d.h. das Polynom p(z) := f(i)(ni

)zi, z ∈ R, hat mehr als n Nullstellen ⇒

p(z) = 0, z ∈ R. Aus dem Identitatssatz fur Polynome folgt f(i) = 0,i = 0, 1, . . . , n, d.h. f = 0 B(n, ϑ)-f.u., ϑ ∈ Θ. Außerdem ist T suffizient furϑ ∈ Θ nach 3.3.13(iii).Da g(x1, . . . xn) := x = 1

nT (x1, . . . , xn) ein erwartungstreuer Schatzer fur

κ(ϑ) = ϑ ist, der nur von T abhangt, also g ∈⋂ϑ∈ΘEϑ(g|T ) folgt aus 3.5.2,

dass g ein UMVU-Schatzer fur κ(ϑ) = ϑ ist.Ferner ist h(x1, . . . , xn) := 1

n−1

∑ni=1(xi − x)2 = 1

n−1(∑n

i=1 x2i − n x2) ein

erwartungstreuer Schatzer fur κ(ϑ) = ϑ · (1 − ϑ). Da x2i = xi (∈ 0, 1),

hangt h = 1n−1

(T − 1

nT 2)

nur von T ab, also h ∈⋂ϑ∈ΘEϑ(h|T ). Somit

ist h aufgrund von 3.5.2 ein erwartungstreuer Schatzer fur ϑ(1 − ϑ) mitMinimalvarianz.Hingegen ist fur n > 1 die Familie P/P(0, 1n) nicht vollstandig: Bezeich-net πi i = 1, 2 die Projektion von 0, 1n auf die i-te Komponente , d.h.

81

Page 83: Mathematische Statistik · Vorwort Dieses Skript entstand aus der Vorlesung ” Mathematische Statistik I und II“, wie sie Prof. Dr. Michael Falk im Wintersemester 2007/2008 bis

πi(x1, . . . , xn) = xi, i = 1, 2, so gilt fur beliebiges ϑ ∈ Θ = (0, 1):∫π1 − π2 dPϑ =

∫π1 dPϑ −

∫π2 dPϑ

=

∫0,1n

π1(x1, . . . , xn)(B(1, ϑ)n d(x1, . . . , xn))

−∫0,1n

π2(x1, . . . , xn)(B(1, ϑ)n d(x1, . . . , xn))

=

∫0,1

x1 (B(1, ϑ)n ∗ π1) dx1

−∫0,1

x2 (B(1, ϑ)n ∗ π2) dx1

=

∫0,1

x1 B(1, ϑ)(dx1)−∫0,1

x2 B(1, ϑ)(dx2)

= ϑ− ϑ = 0.

Es gilt jedoch nicht π1 = π2 Pϑ-f.u.

Die Bedeutung des Satzes von Lehmann-Scheffe liegt darin, dass man furdie wichtigsten Klassen von Wahrscheinlichkeitsverteilungen vollstandige undsuffiziente Statistiken angeben kann.

Satz 3.5.4. P = P/B = Pϑ : ϑ ∈ Θ sei eine k-parametrige Exponen-tiafamilie derart, dass der zugehorige naturliche Parameterraum Θ ⊂ Rk we-nigstens einen inneren Punkt besitzt. Dann ist die k–dimensionale StatistikT = (T1, . . . , Tk) suffizient und vollstandig fur ϑ ∈ Θ.

Beweis: Witting, H (1985): Mathematische Statistik, Teubner, Satz 3.39.

2

Beispiel 3.5.5. Sei P = P/Bn = Pϑ = N(µ, σ2)n : ϑ = (µ, σ2) ⊂ Θ =R× (0,∞). Nach 3.3.13(ii) ist T (x1, . . . , xn) = (

∑ni=1 x

2i ,∑n

i=1 xi) suffizientfur ϑ ∈ Θ (n ≥ 2).3.5.4⇒ T ist auch vollstandig fur ϑ ∈ Θ. Folglich sind g(x1, . . . , xn) := x bzw.h(x1, . . . , xn) := (n − 1)−1

∑ni=1(xi − x)2 erwartungstreue Schatzfunktionen

fur κ(ϑ) = µ bzw. κ(ϑ) = σ2, d.h. nur von T abhangen, aufgrund von 3.5.2also solche mit Minimalvarianz.

Lemma 3.5.6. P1,P2 seien zwei Familien von Wahrscheinlichkeitsmaßenauf (X ,B) mit P1 ⊂ P2 ist P1/B vollstandig und es gilt P2/B P1/B (d.h.∀F ∈ B : [∀P1 ∈ P1 : P1(F ) = 0 ⇒ ∀P ∈ P2 : P (F ) = 0]), so ist auch P2

vollstandig.

82

Page 84: Mathematische Statistik · Vorwort Dieses Skript entstand aus der Vorlesung ” Mathematische Statistik I und II“, wie sie Prof. Dr. Michael Falk im Wintersemester 2007/2008 bis

Beweis: Es sei g : (X ,B) → (R,B) mit∫g dP = 0 fur P ∈ P2 ⇒

∫g dP = 0

fur P ∈ P1 ⇒ g = 0 P -f.u., P ∈ P1 ⇒ ∀ P ∈ P1 : P (g 6= 0) = 0 ⇒∀ P ∈ P2 : P (g 6= 0) = 0, d.h. g = 0 P -f.u., P ∈ P2. 2

Definition 3.5.7. Es sei µ ein beliebiges Maß auf (X ,B) und C ∈ B mit0 < µ(C) <∞. Dann heißt das Wahrscheinlichkeitsmaß

PC(B) :=1

µ(C)

∫B

1C dµ =µ(B ∩ C)

µ(C), B ∈ B

µ-Gleichverteilung auf C.

Satz 3.5.8. Sei µ ein σ–endliches Maß auf (X ,B), dann ist die FamilieP = P/B = PC : C ∈ B mit 0 < µ(C) < ∞ aller µ–Gleichverteilungenvollstandig.

Beweis: Sei g : (X ,B) → (R,B) mit 1µ(C)

∫g · 1C dµ =

∫g dPC = 0, PC ∈

P . Dann gilt∫Cg dµ = 0, C ∈ B mit 0 < µ(C) <∞. Hieraus folgt wegen der

σ-Endlichkeit von µ, dass g = 0 µ-f.u.: X =⋃n∈NXn, Xn ∈ B, µ(Xn) < ∞

n ∈ N und X1, X2, . . . sind paarweise disjunkt;∫C∩Xn

g dµ = 0, C ∈ B,n ∈ N,

C =⋃n∈N

(C ∩Xn) ⇒ g = 0 µ-f.u.

mit C1 := g > 0 und C2 := g < 0 folgt g = 0 PC-f.u., PC ∈ P , daPC µ. 2

Satz 3.5.9. Sei µ ein σ-endliches Maß auf (X ,B). Dann ist die Familiealler Wahrscheinlichkeitsmaße auf (X ,B), die absolut stetig sind bzgl. µ,vollstandig.

Beweis: Wegen P1/B := PC : C ∈ B mit 0 < µ(C) < ∞ ⊂ P/B genugtes wegen 3.5.6 und 3.5.8 zu zeigen, dass P/B P1/B. Dazu sei B0 ∈ Bmit PC(B0) = 0 fur alle PC ∈ P1. Angenommen ∃P0 ∈ P mit P0(B0) > 0 ⇒µ(B0) > 0 und wegen der σ-Endlichkeit von µ (B0 =

⋃n∈N(Xn∩B0)) existiert

C0 = Xn0 ∩ B0 mit 0 < µ(C0) <∞⇒ PC0(B0) = µ(B0 ∩ C0)/µ(C0) = 1, imWiderspruch zu PC0(B0) = 0. 2

83

Page 85: Mathematische Statistik · Vorwort Dieses Skript entstand aus der Vorlesung ” Mathematische Statistik I und II“, wie sie Prof. Dr. Michael Falk im Wintersemester 2007/2008 bis

3.6 Die Ungleichung von Cramer-Rao und

die Fisher-Information

In diesem Abschnitt sei P = Pϑ : ϑ ∈ Θ und Θ ⊂ R. Ist T : (X ,B) →(R,B) eine erwartungstreue Schatzfunktion fur κ(ϑ), so ist die Varϑ(T ) einGutemaß fur den Schatzer T . Wir werden unter gewissen Regulatitatsvoraus-setzungen eine nur von ϑ abhangige untere Schranke fur Varϑ(T ) herleiten.Liegt dann Varϑ(T ) in der Nahe dieser unteren Schranke, so ist dies eineAussage uber die Gute von T .

Regularitatsvoraussetzungen 3.6.1. Wir fordern an P , T und x:

(i) Es existiere ein geeignetes σ-endliches Maß µ/B und Dichten pϑ ∈dPϑ/dµ mit pϑ(x) > 0, ϑ ∈ Θ, x ∈ X .

(ii) Θ ⊂ R sei offen und die Abbildung Θ 3 ϑ 7→ pϑ(x) sei stetig differen-zierbar, x ∈ X

(iii) 0 < Varϑ(∂∂ϑ

log(pϑ))<∞, ϑ ∈ Θ

(iv) E(∂∂ϑ

log(pϑ))

= 0, ϑ ∈ Θ

(v) T sei eine erwartungstreue Schatzfunktion fur κ. Dabei sei κ differen-zierbar und es gelte

κ′(ϑ) =∂

∂ϑκ(ϑ) =

∫T (x)

∂ϑlog(pϑ(x)) Pϑ(dx)

Motivation von Bedingung (v):

κ′(ϑ) =

(∫T (x) Pϑ(dx)

)′=

(∫T (x)pϑ(x) µ(dx)

)′!=

∫T (x)p′ϑ(x) µ(dx)

=

∫T (x)

p′ϑ(x)

pϑ(x)pϑ(x) µ(dx)

=

∫T (x)

∂ϑlog(pϑ(x)) Pϑ(dx).

84

Page 86: Mathematische Statistik · Vorwort Dieses Skript entstand aus der Vorlesung ” Mathematische Statistik I und II“, wie sie Prof. Dr. Michael Falk im Wintersemester 2007/2008 bis

Satz 3.6.2 (Ungleichung von Cramer und Rao). Unter den Regula-ritatsbedingungen 3.6.1 gilt

Varϑ(T ) ≥ (κ′(ϑ))2

I(ϑ), ϑ ∈ Θ. (3.6.3)

Dabei ist

I(ϑ) = Eϑ

((∂

∂ϑlog(pϑ)

)2), ϑ ∈ Θ,

die Fisher-Informationsfunktion.

Beweis: Setze lϑ := ∂∂ϑ

log(pϑ). Gemaß 3.6.1 gilt dann

Eϑ((T − κ(ϑ)) lϑ)(iv)= Eϑ(T lϑ)

(v)= κ′(ϑ).

Es folgt aus der Cauchy-Schwarz-Ungleichung

(κ′(ϑ))2 = (Eϑ((T − κ(ϑ)) · lϑ))2

≤ Eϑ((T − κ(ϑ))2) · Eϑ(l2ϑ)= Varϑ(T ) · I(ϑ)

2

Beispiel 3.6.4. Sei X = (N ∪ 0)n, B = P(X ) und P = P nϑ : ϑ ∈ (0,∞),

wobei Pϑ die Poisson-Verteilung zum Parameter ϑ > 0 bezeichne, d.h.

Pϑ(k) = e−ϑϑk

k!, k = 0, 1, 2 . . . .

Setze S(x) =∑n

i=1 xi, x = (x1, . . . , xn) ∈ X . Dann ist

lϑ =∂

∂ϑlog(pϑ)

=∂

∂ϑ

(−nϑ+

n∑i=1

xi · log ϑ−n∑i=1

log(xi!)

)= −n+ S(x) · 1

ϑ.

Da T1(x) := S(x)/n eine erwartungstreue Schatzfunktion von ϑ ist, folgtwegen lϑ = n

ϑ(T1 − ϑ):

I(ϑ) = Eϑ

((nϑ

(T1 − ϑ))2)

=n2

ϑ2Eϑ((T1 − ϑ)2)

=n2

ϑ2

∫(x1 − ϑ)2 Pϑ(dx)

n.

85

Page 87: Mathematische Statistik · Vorwort Dieses Skript entstand aus der Vorlesung ” Mathematische Statistik I und II“, wie sie Prof. Dr. Michael Falk im Wintersemester 2007/2008 bis

Also gilt mit κ(ϑ) = ϑ:

Varϑ(T1) =n

ϑ

≥ (κ′(ϑ))2

I(ϑ)

=12

=n

ϑ

d.h. T1 nimmt die Cramer-Rao-Schranke an, ist also ein erwartungstreuerSchatzer mit Minimalvarianz.Ferner ist T2 :=

(1− 1

n

)Seine erwartungstreue Schatzung fur κ(ϑ) := e−ϑ.

Da S suffizient und vollstandig ist, ist T2 nach der Ungleichung von Lehmann-Scheffe eine Schatzung fur κ(ϑ) mit Minimalvarianz.Da

Varϑ(T2) = e−2ϑ ·(eϑ/n − 1

)und die Cramer-Rao-Schranke gleich

(κ′(ϑ))2/I(ϑ) =ϑ

n· e−2ϑ

ist, wird letztere also von keiner fur κ(ϑ) erwartungstreuen Schatzung ange-nommen bzw. erreicht.

Bemerkung 3.6.5. (i) Aus 3.6.1 (iii), (iv) folgt, dass

I(ϑ) = Varϑ(lϑ) ∈ (0,∞)

(ii) In (3.6.3) gilt genau dann das Gleichheitszeichen fur ein ϑ ∈ Θ, wennT − κ(ϑ) und lϑ linear abhangig sind, d.h. ∃ cϑ ∈ R mit lϑ = cϑ · (T −κ(ϑ)) Pϑ-f.u.. In diesem Fall gilt I(ϑ) = |c(ϑ)| · |κ′(ϑ)|.

(iii) Die Fischer Information I(ϑ) lasst sich deuten als eine Maßzahl fur dieGenauigkeit, mit welcher der unbekannte Parameter ϑ (bzw. κ(ϑ)) auf-grund von vorliegenden Beobachtungen geschatzt werden kann. Dement-sprechend heißt fur eine erwartungstreue Schatzfunktion T von κ(ϑ)unter den Regularitatsvoraussetzungen 3.6.1 die Abbildung

Θ 3 ϑ 7→ Cramer-Rao-Schranke

Varϑ(T )=

(κ′(ϑ))2

I(ϑ) · Varϑ(T )

Effizienz von T.

T heißt effiziente Schatzung fur κ, falls die Effizienz von T konstantgleich 1 ist, d.h., falls Varϑ(T ) die Cramer-Rao-Schranke erreicht furalle ϑ ∈ Θ.

86

Page 88: Mathematische Statistik · Vorwort Dieses Skript entstand aus der Vorlesung ” Mathematische Statistik I und II“, wie sie Prof. Dr. Michael Falk im Wintersemester 2007/2008 bis

Beispiel 3.6.6. (i) Sei X = 0, 1n, B = P(X ) und P = B(1, ϑ)n : ϑ ∈Θ. Dann ist pϑ(x) = ϑT (x)(1 − ϑ)n−T (x) mit T (x) =

∑ni=1 xi, x =

(x1, . . . , xn), eine Dichte von B(1, ϑ)n bzgl. des Zahlmaßes auf (X ,B).

Dann gilt lϑ = ∂∂ϑ

log(pϑ(x)) = T (x)ϑ− n−T (x)

1−ϑ = nϑ(1−ϑ)

(1nT (x)− ϑ

). Da

T (x)/n eine erwartungstreue Schatzfunktion fur κ(ϑ) = ϑ ist, folgt ausBemerkung 3.6.5 (ii), dass T (x)/n sogar eine effiziente Schatzung furϑ ist mit I(ϑ) = n

ϑ(1−ϑ).

(ii) Sei (X ,B,P) wie in Beispiel 3.6.4. Dann folgt aus den dortigen Uberle-gungen, dass T1(x) = 1

n

∑ni=1 xi eine effiziente Schatzung fur κ(ϑ) = ϑ

ist und andererseits, dass fur κ(ϑ) = e−ϑ keine effiziente Schatzungexistiert.

ENDE

87