37
Vorlesung Einf¨ uhrung in die mathematische Statistik Prof. A. Antille Sommersemester 2004 Literatur P.J. Bickel – K.A. Doksum, Mathematical Statistics: Basic Ideas and Selected Topics (Holden-Day, 1977). L. Breiman, Statistics: With a View Toward Applications (Houghton Mifflin, 1973). B.L. van der Waerden, Mathematische Statistik (Grundlehren der math. Wis- senschaften, Bd 87, Springer, 1971). H. Witting, Mathematische Statistik (Teubner, 1966). Inhalt I. Vorbemerkungen, Statistische Modelle, Beispiele II. Sch¨ atztheorie § 1 Einige Sch¨ atzmethoden § 2 Verlustfunktion, G¨ ute einer Sch¨ atzung, Optimalit¨ atseigenschaften § 3 Vertrauensgebiete III. Testtheorie § 1 Testverfahren, Niveau, Macht, Lemma von Neyman–Pearson § 2 Einige wichtige Beispiele von Tests

Vorlesung Einführung in die mathematische Statistik

  • Upload
    buinhi

  • View
    229

  • Download
    2

Embed Size (px)

Citation preview

Page 1: Vorlesung Einführung in die mathematische Statistik

Vorlesung

Einfuhrung in die mathematische StatistikProf. A. Antille

Sommersemester 2004

Literatur

P.J. Bickel – K.A. Doksum, Mathematical Statistics: Basic Ideas and SelectedTopics (Holden-Day, 1977).

L. Breiman, Statistics: With a View Toward Applications (Houghton Mifflin,1973).

B.L. van der Waerden, Mathematische Statistik (Grundlehren der math. Wis-senschaften, Bd 87, Springer, 1971).

H. Witting, Mathematische Statistik (Teubner, 1966).

Inhalt

I. Vorbemerkungen, Statistische Modelle, Beispiele

II. Schatztheorie

§ 1 Einige Schatzmethoden

§ 2 Verlustfunktion, Gute einer Schatzung, Optimalitatseigenschaften

§ 3 Vertrauensgebiete

III. Testtheorie

§ 1 Testverfahren, Niveau, Macht, Lemma von Neyman–Pearson

§ 2 Einige wichtige Beispiele von Tests

Page 2: Vorlesung Einführung in die mathematische Statistik

2

I. Vorbemerkungen, Statistische Modelle, Beispiele

Im Sprachgebrauch bedeutet “Statistik” die Sammlungen von Daten, welche fur den Staatwichtig sind: Steuerstatistik, Sterbestatistik, Arbeitslosenstatistik, Studentenstatistik etc.

Die mathematische Statistik hat mit Fragen dieser Art wenig oder nichts mehr zu tun.

Wesentliches Merkmal: Der Schritt vom Sammeln von Daten zum Schliessen aus Daten,bzw. zum Fuhren von Entscheidungen nach Sichtungen von Daten.

Aufgabe der mathematischen Statistik ist es, mathematische Modelle zu entwickeln, die eserlauben, aus zufalligen Beobachtungen Entscheidungen abzuleiten. Die wahre Verteilungder beobachteten Zufallsgrosse ist unbekannt.

Sei X eine Teilmenge von Rn, A eine σ-Algebra von Teilmengen von X , Θ eine Teilmenge

von Rk.

Definition Ein statistisches Modell ist ein Tripel(X ,A, (Pθ)θ∈Θ

), wobei (Pθ)θ∈Θ eine

Familie von Wahrscheinlichkeiten ist.

Interpretation: Beobachtet wird eine Zufallsgrosse X mit Werten in X . Die Verteilung vonX ist unbekannt. Sie gehort aber der Familie (Pθ)θ∈Θ an. Aufgabe der Statistik ist es, aufGrund einer Beobachtung von X , Entscheidungen uber den wahren Wert von θ, d.h. uberdie zugrundeliegende Verteilung von X , abzuleiten.

Θ heisst Parameterraum und X Beobachtungsraum oder Stichprobenraum.

Beispiel 1: Um die Qualitat eines Heilverfahrens zu uberprufen, werde es auf n Personenangewandt. Dabei handle es sich jeweils um unabhangige Wiederholungen ein- und des-selben Experiments, wobei nur das Eintreten oder Nichteintreten von Heilerfolg (mit einerWahrscheinlichkeit θ, 0 ≤ θ ≤ 1) interessiert. Hier werden Zufallsgrossen X1, X2, . . . , Xn

verwendet, die nur zwei Werte annehmen konnen, namlich 1 (fur Erfolg) und 0 (fur Nicht-erfolg) mit den Wahrscheinlichkeiten θ bzw. 1 − θ. Demgemass liegt eine ZufallsgrosseX := (X1, . . . , Xn) vor, wobei X1, X2, . . . , Xn unabhangig sind. Das zugrundeliegende sta-tistische Modell ist dann

(X ,A, (Pθ)θ∈[0,1]

), wobei

X ={x := (x1, x2, . . . , xn) : xi ∈ {0, 1}

}, A = P(X ) und

Pθ({x}) = θ

n∑

i=1

xi

(1 − θ)n−

n∑

i=1

xi

, ∀x ∈ X .

Typische Fragen: 1. Wie gross ist der wahre Wert von θ (Schatzproblem!) ?2. Ist der wahre Wert grosser als (z.B.) 0,65 (Testproblem!) ?

Mogliche Entscheidungen fur Frage 1: Alle Werte im Intervall [0, 1],

Mogliche Entscheidungen fur Frage 2: Ja oder nein.

Beispiel 2: nMessungen einer Lange θ ergeben x1, x2, . . . , xn. Die Vorstellung ist die, dassdiese Werte so zustandekommen, dass zur wahren Lange θ ein jeweils unabhangiger zufalligerMessfehler hinzukommt. Der Vektor x := (x1, x2, . . . , xn) kann als als eine Beobachtungeines Zufallsvektors X := (X1, . . . , Xn) interpretiert werden. Ferner gilt Xi = θ + Zi,

Page 3: Vorlesung Einführung in die mathematische Statistik

3

i = 1, 2, . . . , n, wobei die Zufallsgrossen (zufallige Messfehler) Z1, Z2, . . . , Zn unabhangigsind.

Typische Frage: Wie gross ist die Lange? (Schatzproblem!)

Falls E(Zi) = 0, ist es ublich Xn := 1n

n∑

i=1

Xi, den Mittelwert der BeobachtungenX1, . . . , Xn,

als Schatzer zu nehmen. Fur grosse Werte von n ist dieses Schatzverfahren (Entscheidungs-verfahren), wegen der Gesetze der grossen Zahlen, sicher sinnvoll. Ob man es besser machenkann, ist eine andere Frage.

Wurde man die Zufallsgrossen Z1, Z2, . . . , Zn normalverteilt N(0, σ2) (σ2 bekannt) voraus-setzen, ware dann das zugrundeliegende statistische Modell:

(X ,A, (Pθ)θ∈R

), wobei X = R

n,

A = βRn = Borel’sche σ-Algebra und Pθ(A) =

(1√2πσ

)n ∫

A

e−

n∑

i=1

(xi−θ)2

2σ2

dx1dx2 . . . dxn,

∀A ∈ A.

Beispiel 3: (Schatzproblem)

X1, X2, . . . , Xn seien wie im Beispiel 1. Wurde man nur X :=n∑

i=1

Xi beobachten, dann

ware das zugrundeliegende Modell:

(X ,A, (Pθ)θ∈[0,1]

), wobei X = {0, 1, . . . , n},

A = P(X ), Pθ({x}) =(nx

)θx(1 − θ)n−x, ∀x ∈ X

(X ist B(n, θ) verteilt!).

Beispiel 4: (Schatzproblem)Eine “unendlich grosse” Urne enthalt θ (unbekannt) Kugeln. Die Kugeln seien von 1 bis θdurchnumeriert. n Kugeln werden der Reihe nach zufallig (mit Zurucklegen) ausgewahlt.X := (X1, . . . , Xn) sei der Vektor der beobachteten Nummer. Das entsprechende Modell istdann

(X ,A, (Pθ)θ∈{1,2,...,}

), wobei

X = {x := (x1, . . . , xn) : xi ∈ {1, 2, 3, . . .}} , A = P(X )und Pθ({x}) = 1

θn , ∀x ∈ X mit xi ∈ {1, 2, . . . , θ}.Gesucht ist eine Schatzung fur die Anzahl der Kugeln.

n sei gross. Was meinen Sie uber die zwei folgenden Vorschlage?:

1. T (X1,2 , . . . , Xn) := max{X1, X2, . . . , Xn},

2. S(X1, X2, . . . , Xn) := 2Xn − 1, wobei Xn :=1

n

n∑

i=1

Xi .

Begrundung fur den zweiten Vorschlag:

Die Zufallsgrossen X1, . . . , Xn sind i.i.d. Also ist Xn ≈ E(X1) =θ + 1

2wegen der Gesetze

der grossen Zahlen und somit θ ≈ 2Xn − 1.

Page 4: Vorlesung Einführung in die mathematische Statistik

4

Beispiel 5: (Testproblem)Ein Angler fangt in seinem gewohnten Teich an einem Nachmittag durchschnittlich 6 Fische.Ein Freund uberredet ihn, in einem anderen Teich zu angeln. Dort fangt er aber in dergleichen Zeit nur 4 Fische. Lohnt es sich fur ihn, wenigstens noch einmal einen Versuch mitdem zweiten Teich zu machen?

Fur diese Situation konnen wir folgendes mathematische Modell betrachten: Sei X die, beimzweiten Versuch, Anzahl der gefangenen Fische.

Teich 1: X ist Poisson-verteilt mit Parameter λ1 = 6,

Teich 2: X ist Poisson-verteilt, aber mit unbekanntem λ2.

Das statistische Problem liegt gerade darin, dass λ2 unbekannt ist. Wenn λ2 bekannt ware,wusste der Angler, wohin er nachsten Sonntag geht. Bekannt ist aber nur der Beobach-tungswert X = 4, das von verschiedenen λ herruhren kann.

Wir werden spater sehen (III), dass sich dieses Problem als Testproblem deuten lasst.Ein Testproblem ist folgendermassen beschaffen: Es soll eine Entscheidung zwischen zweiMoglichkeiten getroffen werden.

Beispiel 6: (Vertrauensintervalle)X sei wie im Beispiel 2. Als Schatzer fur die Lange haben wir Xn erwahnt. Xn ist eineZufallsgrosse. In der Praxis ist aber die Wahrscheinlichkeit Null, dass Xn den wahren Wertliefert. Fur grosse Werte von n weiss man nur, dass der wahre Wert in der Nahe von Xn

liegt. Um ein Gefuhl fur die Gute von Xn zu haben, konnte man so verfahren: Man gibt sicheine Zahl β in der Nahe von 1 vor, z.B. β = 0, 99. Dann sucht man ein um Xn symmetrischesIntervall I(X), das den wahren Wert mit einer Wahrscheinlichkeit = 0, 99 enthalt (falls einIntervall uberhaupt existiert!). Ein solches Intervall heisst Vertrauensintervall vom Niveau0, 99. Je “kleiner” I(X), desto besser ist der Schatzer Xn. Vertrauensintervalle werden wirim Kapitel II, § 3 besprechen.

II Schatztheorie

§ 1 Einige Schatzmethoden

X1, X2, . . . , Xn seien i.i.d. reelle diskrete Zufallsgrossen (d.h. mit Werten in einer abzahlbarenTeilmenge E = {e1, e2, . . .}) oder Zufallsgrossen mit einer Dichte. Beobachtet wird der Zu-fallsvektor X := (X1, . . . , Xn). Die Verteilung von X gehore einer Familie (Pθ)θ∈Θ⊆Rk vonWahrscheinlichkeiten an. mk(θ) sei der k–te Moment von X1 unter Pθ, d.h.

i) mk(θ) :=∞∑

i=1

eki Pθ(X1 = ei) falls

∞∑

i=1

|ei|kPθ(X1 = ei) <∞) im diskreten Fall und

ii) mk(θ) :=∫xkgθ(x)dx (falls

∫|x|kgθ(x)dx <∞) im Falle, wo X1 die Dichte gθ besitzt.

Die Verteilung von X ist unbekannt und wir mochten sie schatzen. Da die Verteilung durchden Parameter θ eindeutig bestimmt ist, besteht die Aufgabe darin, dass man den wahrenWert θ0 von θ schatzt.

Page 5: Vorlesung Einführung in die mathematische Statistik

5

1.1. Die Methode der Momente

Nehmen wir nun an, dass q(θ) = h(m1(θ), . . . ,mr(θ)

), wobei h eine stetige Funktion ist.

Methode der Momente: Als Schatzer fur q(θ0) wahlt man Tn(X) := h(M1(X), . . . ,Mr(X)

),

wo Mk(X) := 1n

n∑

i=1

Xki , d.h. man ersetzt in der Funktion h die Momente mk(θ) durch die

sogenannten empirischen Momente Mk(X).

Dieses Schatzverfahren beruht auf den starken Gesetzen der grossen Zahlen: Falls mi(θ0)

existiert, gilt Mi(X) = Mi(X1, . . . , Xn)f.s.−→

n→∞mi(θ0) und wegen der Stetigkeit von h,

Tn(X)f.s.−→

n→∞h(m1(θ0), . . . ,mr(θ0)

)= q(θ0) .

Beispiel 1: X1, X2, . . . , Xn seien i.i.d. mit einer Normalverteilung N(µ, σ2). Hier istθ := (µ, σ2) ∈ Θ = R × R+. Da θ =

(m1(θ),m2(θ) −m2

1(θ)), bekommen wir als Schatzer

fur θ,

Tn(X1, X2, . . . , Xn) =(M1(X),M2(X) −M2

1 (X))

=(Xn,

1

n

n∑

i=1

(Xi − Xn)2),

wobei Xn :=1

n

n∑

!‘=1

Xi.

Beachte:1

n

n∑

i=1

X2i − (Xn)2 =

1

n

n∑

i=1

(Xi − Xn)2.

Beispiel 2: X1, . . . , Xn seien wie im Kapitel I, Beispiel 1. Die Methode liefert der SchatzerTn(X) = Xn, denn θ = m1(θ).

Ware die Grosse ψ(θ) := θ(1 − θ) relevant, konnte man Sn(X) := Tn(X)(1 − Tn(X)

)=

Xn(1 − Xn) als Schatzer von ψ(θ) vorschlagen.

Bemerkung: ψ(θ) = Varθ(X1) = Eθ(X21 ) −

(Eθ(X1)

)2= m2(θ) −m2

1(θ).

Also ist Tn(X) = M2(X) −M21 (X) =

1

n

n∑

i=1

(Xi − Xn)2.

Beispiel 3: X1, X2, . . . , Xn seien wie im Kapitel I, Beispiel 2.

Es gilt Eθ(X1) =θ∑

i=1

i

θ=θ(θ + 1)

2θ=θ + 1

2. Also ist θ = 2m1(θ) − 1. Die Methode der

Momente liefert dann den Schatzer

S(X1, . . . , Xn) := 2M1(X) − 1 = 2Xn − 1.

Beachte: Die Schatzung S(X1, . . . , Xn) ist sinnlos, wenn 2Xn − 1 < max{X1, . . . , Xn}.

Page 6: Vorlesung Einführung in die mathematische Statistik

6

1.2. Die Maximum–Likelihood Methode

A. Diskreter Fall:X1, X2, . . . , Xn seien i.i.d. Zufallsgrossen mit Werten in E = {x1, x2, . . .} und moglichenWahrscheinlichkeiten Pθ({xi}), θ ∈ Θ ⊆ R

k (statistisches Modell!)

Die Maximum–Likelihood Methode:Als Schatzer fur θ wahlt man den (einen) Wert θn so, dass

L(X1, X2, . . . , Xn; θn) = maxθ∈Θ

L(X1, X2, . . . , Xn, θ),

wobei

L(x1, . . . , xn; θ) := Pθ({x1}) . . . Pθ({xn}), ∀(x1, . . . , xn) ∈ En := E × . . .× E︸ ︷︷ ︸

n−mal

.

Begrundung: Wenn X1 = x1, . . . , Xn = xn beobachtet wurden, ist die Wahrschein-lichkeit dafur

Pθ({x1}) · Pθ({x2}) . . . · Pθ({xn}) = L(x1, x2, . . . , xn; θ).

Falls dieser Wert sehr klein ist bei einem θ, ist die Beobachtung unwahrscheinlich. DieMethode besteht darin, dass man als Schatzer denjenigen Wert θn wahlt, fur welchendie Beobachtung am wahrscheinlichsten ist.

Beispiel 1: X1, X2, . . . , Xn seien wie im Kapitel I, Beispiel 1. In diesem Fall istE = {0, 1}. Ferner gilt

L(x1, . . . , xn; θ) = θ

n∑

i=1

xi

(1 − θ)n−

n∑

i=1

xi

, ∀x = (x1, . . . , xn) ∈ En.

Gesucht ist nun der Wert θn, fur welchen L(x1, . . . , xn; θ) maximal wird:

L(x1, . . . , xn; θ) maximal ⇐⇒ ln(L(x1, . . . , xn; θ)

)maximal.

Eine notwendige Bedingung dafur ist:

d ln(L)

dθ= (

n∑

i=1

xi)d ln(θ)

dθ+(n−

n∑

i=1

xi)d ln(1 − θ)

dθ= (

n∑

i=1

xi)1

θ−(n−

n∑

i=1

xi)1

1 − θ= 0.

Der Maximum-Likelihood Schatzer ist also θn = Xn .

Beispiel 2: X1, X2, . . . , Xn seien wie im Kapitel I, Beispiel 4. Mit E = {1, 2, . . .}gilt Pθ({x}) =

1

θnfur alle x = (x1, . . . , xn) ∈ En, falls max{x1, . . . , xn} ≤ θ und

Pθ({x}) = 0 sonst. Somit ist der Maximum-Likelihood Schatzer θn = max{X1, . . . , Xn}.

B. Der Fall mit einer DichteX1, X2, . . . , Xn seien i.i.d. reelle Zufallsgrossen mit einer Dichte gθ, wo θ ∈ Θ ⊆ R

k.Man definiert L als

L(x1, . . . , xn; θ) =

n∏

i=1

gθ(xi), ∀x = (x1, . . . , xn) ∈ Rn .

Page 7: Vorlesung Einführung in die mathematische Statistik

7

Maximum-Likelihood Methode: Man wahlt denjenigen Wert θn, fur welchen L(X1, . . . , Xn; θ)maximal wird.

Beispiel 1: X1, . . . , Xn seien i.i.d. und normalverteilt N(µ, σ2) mit θ := (µ, σ2) ∈R × R+. In diesem Fall ist

L(x1, x2, . . . , xn; θ) =

(1√2πσ

)2

e−

n∑

i=1

(xi−µ)2

2σ2

.

Gesucht ist der maximale Wert von L (als Funktion von θ): L maximal ⇐⇒ ln(L)maximal. Eine notwendige Bedingung dafur ist:

a)∂

∂µln(L) = 0,

b)∂

∂σln(L) = 0.

Eine einfache Rechnung (siehe Ubungen) liefert dann die Losungen µn = xn, σ2 =1n

∑(xi − xn)2. Der Maximum-Likelihood Schatzer θn ist also

θn =

(

Xn ,1

n

n∑

i=1

(Xi − Xn)2

)

.

Bemerkung: Man sollte noch verifizieren, dass an der Stelle θn, L(X1, . . . , Xn; θ) denmaximalen Wert annimmt. Dies ist aber trivial. (Warum?)

Beispiel 2: X1, . . . , Xn seien i.i.d. mit der Dichte gθ := 12e

−|x−θ|, θ ∈ R.

L(x1, . . . , xn; θ) =1

2n

n∏

i=1

e−|xi−θ| =1

2ne−

n∑

i=1

|xi−θ|.

Der Maximum-Likelihood Schatzer ist also der Wert θn, fur welchen die Summen∑

i=1

|Xi−θ| minimal wird, den sogenannten Zentralwert oder Median (siehe Ubungen).

Dieses Beispiel zeigt, dass der Maximum-Likelihood Schatzer nicht immer eindeutigbestimmt ist (n gerade!).

Bemerkungen: Wie die Methode der Momente (siehe 1.1., Beispiel 3, oben), kann dieMaximum-Likelihood Methode zu unvernunftigen Schatzungen fuhren: X1, X2, . . . , Xn,Y1, Y2, . . . , Yn seien unabhangige reelle Zufallsgrossen, wobei Xk, Yk, normalverteiltN(µk, σ

2) sind, k = 1, . . . , n (µk, σ2, unbekannt). Als Schatzer fur µk, σ

2 bekommenwir

µk =Xk + Yk

2, k = 1, 2, . . . , n und σ2

n =1

4n

n∑

k=1

(Xk − Yk)2.

Eσ0 (Xk − Yk)2 = 2σ20 , wobei σ2

0 der wahre Wert von σ2 ist. Wegen der Gesetze der

grossen Zahlen konvergiert aber σ2n fast sicher gegen

σ20

2.

Page 8: Vorlesung Einführung in die mathematische Statistik

8

1.3. Die Methode der kleinsten Quadrate

Oft stellt sich das Problem, eine Gerade, Parabel oder eine andere “einfache” Funktion einergegebenen Menge von Messwerten anzupassen. Z.B. kann in Abhangigkeit von einer Grossex eine Grosse y gemessen worden sein, und nun liegen n Messpunkte (x1, y1), . . . , (xn, yn)vor. Wenn diese Punkte relativ gut auf einer Geraden liegen, kann man einen linearenZusammenhang der beobachteten Grossen vermuten, der nur durch Messfehler zi gestortist. Dann ware yi = α+ βxi + zi (i = 1, . . . , n).

In anderen Fallen konnte etwa aus Naturgesetzen ein Ansatz yi = α+βxi +γx2i +zi geboten

sein, in dem nur noch α, β, γ unbekannt sind.

Allgemeiner nehmen wir an, θ1, . . . , θp seien unbekannte Parameter, und fur bekannte Funk-tionen ϕi sei δi = ϕi(θ1, . . . , θp) (i = 1, . . . , n) der wahre zu messende Wert bei der i–tenMessung und yi = δi + zi der tatsachlich beobachtete Wert, also zi der Messfehler. ImBeispiel der Geraden ware θ1 = α, θ2 = β und ϕi(θ1, θ2) = θ1 + θ2xi .

Man fragt, welche Parameter am besten zu den yi passen.

Methode der kleinsten Quadrate: Die Methode besagt, man solle die θk so bestimmen, dass

Q :=n∑

i=1

(yi − δi)2 minimal wird. Dies ist als ad hoc Ansatz ohne jede Statistik formulierbar

und wird oft angewandt.

In dieser Vorlesung nehmen wir an, dass die zi Realisierungen von Zufallsgrossen Zi sind,wobei die Zi unabhangig sind mit E(Zi) = 0, ∀ i. So ist y = (y1, . . . , yn) die Realisierungvon Y = (Y1, Y2, . . . , Yn) mit Yi = δi + Zi .

Das allgemeine lineare Regressionsmodell

Definition: Das Regressionsmodell Yi = ϕi(θ1, . . . , θp) + Zi, i = 1, . . . , n, heisst linear,falls sich ϕi(θ1, . . . , θp) schreiben lasst als

ϕi(θ1, . . . , θp) =

p∑

j=1

xijθj mit bekannten Zahlen xij .

In Matrixschreibweise lasst sich das lineare Modell so darstellen:

Y = Xθ + Z, wobei Y = (Y1, . . . , Yn)T , θ = (θ1, . . . , θp)T

(CT bedeudet die transponierte Matrix). X = (xij) ist die bekannte n× p Matrix.

Beachte: Die Methode der kleinsten Quadrate besteht darin, dass man den (einen) Wert θ

sucht, fur welchen Q(θ) = minθ∈Rp

Q(θ) mit

Q(θ) := ‖Y −Xθ‖2 :=

n∑

i=1

Yi −p∑

j=1

xijθj

2

(Euklidische Norm des Vektors Y −Xθ).

Page 9: Vorlesung Einführung in die mathematische Statistik

9

Satz: Wenn p ≤ n und Rang(X) = p, dann ist θ die einzige Losung des Gleichungssystems

(XTX)θ = XTY (Normalgleichungen).

Die Losung lasst sich also explizit schreiben als

θ = (XTX)−1XTY.

Beweis. Fur i = 1, 2, . . . , p, bezeichne αi(∈ Rn) den i–ten Spaltenvektor der Matrix X . Mit

η := Xθ gilt Y = η + Z =p∑

i=1

θiαi + Z. Vp sei der durch die Vektoren α1, . . . , αp gespannte

Unterraum von Rn, d.h.

Vp =

{p∑

i=1

λiαi : λi ∈ R, ∀ i}

.

Die Dimension von Vp ist gleich p.

η sei die orthogonale Projektion von Y auf Vp . Dann gilt ‖Y − η‖2 = minη∈Vp

‖Y − η‖2. Da

η ∈ Vp , gibt es eindeutig bestimmte Zahlen θ1, θ2, . . . , θp so, dass

η =

p∑

i=1

θiαi .

Diese Zahlen sind die einzigen Losungen der Normalgleichungen, denn

αTi (Y − η) = αT

i (Y −Xθ) = 0 fur i = 1, 2, . . . , p (η ist die orthogonale Projektion) ⇐⇒

XT (Y −Xθ) = 0 ⇐⇒ XTY = XTXθ �

Bemerkung: Um den Wert θ zu bestimmen, hatten wir auch die partiellen Ableitun-gen von Q(θ) nach θ1, . . . , θp Null setzen konnen. Die so erhaltenen Gleichungen sind dieNormalgleichungen.

– Ein Beispiel wird in der Vorlesung angegeben.

Page 10: Vorlesung Einführung in die mathematische Statistik

10

§ 2 Verlustfunktion, Gute einer Schatzung, Optimalitats-

eigenschaften

Wie im § 1 wird in diesem Abschnitt ein Zufallsvektor X = (X1, . . . , Xn) beobachtet, wobeidie {Xj} i.i.d. mit Verteilung (Pθ)θ∈Θ⊆Rk . Zu schatzen ist der unbekannte Parameter θoder eine reelle bekannte Funktion h von θ.

(X ,A, (Pθ)θ∈Θ

)bezeichne das zugrundeliegende

statistische Modell.

2.1 Verlustfunktion, Gute einer Schatzung

Definitionen Eine Schatzfunktion oder kurz eine Schatzung fur h(θ) ist eine Abbildungvon X in h(Θ), wobei h(Θ) := {h(θ): θ ∈ Θ}.δ sei eine Schatzung fur h(θ). Ihre Risikofunktion R(θ, δ) ist definiert alsR(θ, δ) := Eθ

(δ(X)−

h(θ))2

, θ ∈ Θ.

δ heisst erwartungstreu oder biasfrei, falls Eθ

(δ(X)

)= h(θ), ∀ θ ∈ Θ.

δ(X) = δ(X1, . . . , Xn) =: δn(X) heisst konsistent, falls Pθ

(|δn(X) − h(θ)| > ε

)−→

n→∞0, d.h.

falls δn(X)Pθ−→

n→∞h(θ), ∀ θ ∈ Θ.

Die Funktion L(u, t) := (u − t)2, u, t ∈ h(Θ) heisst Verlustfunktion. Die Risikofunktion istalso nichts anderes als R(δ, θ) = Eθ

(L(δ(X), h(θ))

), d.h. R(δ, θ) ist der erwartete Verlust.

Spieltheoretische Interpretation von statistischen Entscheidungsproblemen

Der Spieler Nr. I sei der “Statistiker”;der Spieler Nr. II sei die “Natur”.

Die Natur wahlt einen Zustand h(θ) mit θ ∈ Θ.

Der Statistiker wahlt eine Strategie, d.h. eine Schatzfunktion δ.

Wird X = x beobachtet, dann wird die Entscheidung δ(x) getroffen. Der Statistiker verliertdann die Summe L

(δ(x), h(θ)

).

Die Risikofunktion R(δ, θ) ist also der erwartete Verlust, wenn δ die Strategie des erstenSpielers ist, und wenn der zweite Spieler den Zustand θ

(h(θ)

)wahlt.

Bemerkung: R(δ, θ) ist ein Mass fur die Gute der Schatzung δ. Je kleiner R(δ, θ), destobesser ist die Strategie δ.

δ1, δ2 seien zwei Schatzer fur h(θ).

Definitionen:δ1 ist besser als δ2 an der Stelle θ, falls R(δ1, θ) < R(δ2, θ).

δ1 ist uberall besser als δ2, falls R(δ1, θ) < R(δ2, θ) fur alle θ ∈ Θ.

δ1 ist zulassig, falls kein δ existiert, so dass R(δ, θ) ≤ R(δ1, θ), ∀ θ mit R(δ, θ) < R(δ, θ) furmindestens ein Element von Θ.

Page 11: Vorlesung Einführung in die mathematische Statistik

11

δ∗ heisst minimax, falls supθ∈Θ

R(δ∗, θ) = minδ

supθ∈Θ

R(δ, θ).

Beachte: Falls δ erwartungstreu fur h(θ) ist, gilt

R(δ, θ) = Eθ

(δ(X) − h(θ)

)2= Varθ(

(δ(X)

).

Beispiele:

1. Beispiel 1, II.1.1.Ist h(θ) = h(µ, σ2) = µ, haben wir den Schatzer δ(X) = Xn := 1

n

i=1

Xi vorgeschlagen.

δ ist erwartungstreu und R(δ, θ) = Varθ((δ(X)

)= 1

n2

n∑

i=1

Varθ(Xi) = 1nσ

2. Nach dem

schwachen Gesetz der grossen Zahl ist δn(X) = δ(X1, . . . , Xn) konsistent.

2. Beispiel 2, II.1.1.δ(X) = Xn ist eine erwartungstreue Schatzung fur die unbekannte Wahrscheinlichkeitθ. In diesem Fall gilt R(δ, θ) = Varθ(Xn) = 1

nVarθ(X1) = 1nθ(1 − θ). Die Schatzung

Xn ist konsistent.

3. Beobachtet wird der Zufallsvektor X = (X1, . . . , Xn), wobei X1, . . . , Xn, i.i.d. Zufalls-grossen mit gleichformiger Verteilung auf dem Intervall [0, θ], θ > 0. Die Maximum-Likelihood Methode liefert den Schatzer T (X) = max(X1, X2, . . . , Xn). Wir betrach-ten die folgenden erwartungstreuen Schatzer fur θ: δ1(X) := n+1

n T (X), δ2(X) := 2Xn.

In den Ubungen wird man zeigen, dass

Varθ

(δ1(X)

)=

θ2

n(n+ 2)und Varθ

(δ2(X)

)=

θ2

3 · n .

δ1 ist also immer eine bessere Strategie als δ2.

Bemerkung 1: Man kann zeigen, dass δ1 unter allen biasfreien Schatzungen (fur θ)diejenige ist, die uberall die kleinste Varianz hat.

Bemerkung 2: Wir werden spater zeigen, dass δ(X) im ersten Beispiel 1 unter allenerwartungstreuen Schatzungen uberall die kleinste Varianz hat.

Bemerkung 3: In den Beispielen 1 und 2 besitzt der Schatzer Xn wegen des Zentral-grenzwertsatzes die folgende Eigenschaft:

Beispiel 1: Pθ

(

a <

√n(Xn − µ)

σ< b

)

−→n→∞

Φ(b) − Φ(a), ∀ a, b,

Beispiel 2: Pθ

(

a <

√n(Xn − θ)√

θ(1 − θ)< b

)

−→n→∞

Φ(b)−Φ(a), ∀ a, b und 0 < θ < 1.

Page 12: Vorlesung Einführung in die mathematische Statistik

12

Die Fisher Information

X sei eine Zufallsgrosse mit Werten in E := {e1, e2, . . .} ⊆ Rn (diskreter Fall) oder ein

Zufallsvektor mit einer Dichte.

Im diskreten Fall sei das statistische Modell (E,P(E), (Pθ)θ∈Θ⊆R) und wenn eine Dichteexistiert (Rn, βRn , (pθ)θ∈Θ⊆R), wobei Pθ({ei}) := Pθ(X = ei), i = 1, 2, . . . und pθ(x), x ∈ R

n

die Dichte ist. Sehr oft existierendPθ

dθund

∂θpθ(x). Nehmen wir an, es sei der Fall. Dann

konnen wir die sogenannte Fisher Information definieren:

Definition: (Fisher Information)

1. I(Pθ) :=

∞∑

i=1

[dPθ

dθ ({ei})Pθ({ei})

]2

Pθ({ei}) (diskreter Fall),

2. I(pθ) :=

∫[

∂∂θ (pθ(x))

pθ(x)

]2

pθ(x)dx .

Diese Grossen werden im folgenden Abschnitt eine wichtige Rolle spielen (siehe Cramer-RaoUngleichung, unten).

Beispiele (fur die Beweise siehe die Ubungen)

i) X habe die Dichte pθ(x) =

(1√2πδ

)n

e−∑

(xi−θ)2

2σ2 (σ2 bekannt). Dann gilt

I(pθ) =1

nσ2.

ii) X habe die Verteilung Pθ

({(x1, x2, . . . , xn)}

)=

e−nθθ

n∑

i=1

xi

x1!x2! . . . xn!, (x1, x2, . . . , xn) ∈ {0, 1, 2, . . .}n,

θ > 0. Dann gilt I(Pθ) =n

θ.

iii) Falls X die Verteilung Pθ

({(x1, . . . , xn)}

)= θ

n∑

i=1

xi

(1 − θ)n−

n∑

i=1

xi

mit

(x1, . . . , xn) ∈ {0, 1}n und 0 < θ < 1 besitzt, dann gilt I(Pθ) =n

θ(1 − θ).

Page 13: Vorlesung Einführung in die mathematische Statistik

13

2.2. Die Cramer-Rao Ungleichung

X sei ein Zufallsvektor mit Werten in Rn. Die Dichte von X gehore einer Familie {p(x)

θ }θ∈Θ

von Dichten an, wobei Θ eine offene Teilmenge von Rk ist. Zu schatzen ist eine reelleFunktion h(θ).

Satz 1: (Cramer-Rao Ungleichung) T (X) sei eine biasfreie Schatzung fur h(θ) mitEθ

(T 2(X)

)<∞, ∀ θ ∈ Θ.

Voraussetzungen:

1. Aθ := {x : pθ(x) > 0} hangt nicht von θ ab.

2. Die Dichte pθ(x) ist fur alle x nach θ differenzierbar

(

p′θ(x) :=∂

∂θ

(pθ(x)

))

und es gilt

∫ (pθ+∆(x) − pθ(x)

∆pθ(x)− p′θ(x)

pθ(x)

)2

pθ(x)dx −→∆→0

0, ∀ θ ∈ Θ,

3. 0 < I(pθ) <∞, ∀ θ ∈ Θ.

4. Man darf immer unter dem Integralzeichen ableiten.

Behauptung: R(θ, T ) := Eθ

[(T (X)− h(θ)

)2]

= Varθ

(T (X)

)≥ (h′(θ))2

I(pθ).

Beweis: Da T (X) biasfrei ist, gilt fur alle reelle Zahlen a,

(1)

∫(T (x) − a

)pθ+∆(x)dx = h(θ + ∆) − a und

(2)

∫(T (x) − a

)pθ(x)dx = h(θ) − a .

Indem man (2) von (1) substrahiert, erhalt man

(3)

∫(T (x) − a

)(pθ+∆(x) − pθ(x)

)dx = h(θ + ∆) − h(θ).

Wegen Voraussetzung 1. gilt dann

(4)

∫(T (x) − a

)(pθ+∆(x) − pθ(x)

∆pθ(x)

)

pθ(x)dx =h(θ + ∆) − h(θ)

∆, ∀∆ 6= 0.

Ersetzt man in (4) a durch h(θ), dann erhalt man (Schwarz’sche Ungleichung)

(5)

(h(θ + ∆) − h(θ)

)2

≤ Varθ

(T (X)

)·∫ (

pθ+∆(x) − pθ(x)

∆pθ(x)

)2

pθ(x)dx, ∀∆ 6= 0.

Lasst man ∆ gegen 0 streben, bekommen wir (wegen Voraussetzungen 2. und 3.)

Page 14: Vorlesung Einführung in die mathematische Statistik

14

(6)(h′(θ)

)2 ≤ Varθ

(T (X)

)I(pθ) :

Wegen 2. gilt mit w∆(x) :=pθ+∆(x) − pθ(x)

∆pθ(x),

∫ (

w∆(x) − p′θ(x)

pθ(x)

)2

pθ(x)dx −→∆→0

0.

Daraus folgt, dass {w∆} eine Cauchy-Folge ist, d.h.

∫(w∆(x)−w∆′(x)

)2pθ(x)dx −→

∆,∆′→00.

Da

∫(T (x)−h(θ)

)(w∆(x)−w∆′ (x)

)pθ(x)dx =

h(θ + ∆) − h(θ)

∆− h(θ + ∆′) − h(θ)

∆′ ,

gilt dann

(h(θ + ∆) − h(θ)

∆−h(θ + ∆′) − h(θ)

∆′

)2

≤ Varθ

(T (X)

)·∫(w∆(x)−w∆′(x)

)2pθ(x)dx −→

∆,∆′→00.

{h(θ + ∆) − h(θ)

}

ist also eine Cauchy-Folge. Da R vollstandig ist, konvergiert dann

die Folge

{h(θ + ∆) − h(θ)

}

. Der Limes ist naturlich h′(θ). �

Beachte: Voraussetzung 4. haben wir im Beweis nicht benutzt. Wir werden sie aberbrauchen, um den folgenden Satz zu beweisen:

Satz 2: X = (X1, . . . , Xn) sei ein Zufallsvektor, wobei die {Xj} i.i.d. sind mit Dich-te (gθ)θ∈Θ⊆R . Wie oben, sei h(θ) zu schatzen. T (X) sei ein biasfreier Schatzer mitEθ

(T 2(X)

)<∞.

Behauptung: Falls die Familie {gθ} die Voraussetzungen vom Satz 1 erfullt, so ist dasauch der Fall fur die Dichten pθ des Vektors X .Ferner gilt: I(pθ) = n I(gθ) und somit

Varθ

(T (X)

)≥(h′(θ)

)2

n I(gθ).

Beweis: Wir zeigen nur, dass I(pθ) = n I(gθ) :

I(pθ) =

∫ (p′θ(x)

pθ(x)

)2

pθ(x)dx =

∫(

n∑

i=1

g′θ(xi)

gθ(xi)

)2 n∏

i=1

gθ(xi)dx1dx2 . . . dxn

= E[(

n∑

i=1

g′θ(Xi)

gθ(Xi)

)2]

=

n∑

i=1

E

[(g′θ(Xi)

gθ(Xi)

)2]

+∑

i6=j

E

(g′θ(Xi)

gθ(Xi)· g

′θ(Xj)

gθ(Xj)

)

= n I(gθ)

+∑

i6=j

E

(g′θ(Xi)

gθ(Xi)

)

E

(g′θ(Xj)

gθ(Xj)

)

(wegen der Unabhangigkeit)

= n I(gθ), denn E

(g′θ(Xi)

gθ(Xi)

)

=

∫g′θ(x)

gθ(x)gθ(x)dx

=

g′θ(x)dx =

(∫

gθ(x)dx

)′(wegen Voraussetzung 4!)

= 0 . �

Page 15: Vorlesung Einführung in die mathematische Statistik

15

Bemerkung: Unter denselben Voraussetzungen ist die Cramer-Rao Ungleichung auchim diskreten Fall gultig. Die Dichten (Integrale) werden einfach durch die Wahrscheinlich-keiten (Summen) ersetzt.

Beispiele:

1. X := (X1, . . . , Xn) mit X1, . . . , Xn i.i.d. und normalverteilt N(θ, σ20), σ2

0 bekannt. Xn

ist erwartungstreu fur θ mit Varθ(Xn) =σ20

n . Nun gilt

I(pθ) = n I(gθ) mit gθ(x) =1√

2πσ0

e− (x−θ)2

2σ20 .

ln gθ(x) = − (x− θ)2

2σ20

− ln(√

2πσ0) undg′θ(x)

gθ(x)=

∂θln gθ(x) =

x− θ

σ20

.

Also ist I(gθ) =1

σ40

(x − θ)2gθ(x)dx =1

σ20

und deswegen gilt Varθ(Xn) =1

n I(gθ),

d.h. Xn ist unter allen biasfreien Schatzungen fur θ, diejenige mit der kleinstenVarianz.

2. X1, X2, . . . , Xn seien i.i.d. Zufallsgrossen mit Werten in {0, 1} und Qθ({Xi = 1}) = θ,0 < θ < 1.Xn ist biasfrei mit Varθ(Xn) = 1

nθ(1 − θ).I(Pθ) = n I(Qθ), wobei

I(Qθ) =

(Q′

θ({Xi = 1})Qθ({Xi = 1})

)2

Qθ({Xi = 1}) +

(Q′

θ({Xi = 0})Qθ({Xi = 0})

)2

Qθ({Xi = 0}) = (1

θ)2 · θ + (

−1

1 − θ)2(1 − θ) =

1

θ(1 − θ).

Also ist I(Pθ) =n

θ(1 − θ). Wir haben Gleichheit in der Ungleichung von Cramer-Rao,

d.h. Xn ist unter allen linearen Schatzern derjenige mit der kleinsten Varianz.

3. X1, X2, . . . , Xn seien i.i.d. Zufallsgrossen mit gleichformiger Verteilung auf dem Inter-vall [0, θ], θ > 0. Sie haben gezeigt, dass T (X1, . . . , Xn) := n+1

n · max{X1, . . . , Xn}

biasfrei ist mit Varθ(T ) =θ2

n(n+ 2). Ferner gilt gθ(x) =

1

θ1[0,θ](x). Also ist

g′θ(x)

gθ(x)= −1

θ1[0,θ](x) und somit

I(gθ) =1

θ

θ∫

0

1

θ2dx =

1

θ2.

Daraus folgt

I(pθ) =n

θ2und Varθ(T ) <

1

I(pθ).

In diesem Fall ist die Cramer-Rao Ungleichung nicht gultig.Beachte: die erste Voraussetzung vom Satz 1 ist nicht erfullt. Man kann aber trotzdemzeigen, dass T (X1, . . . , Xn) unter allen biasfreien Schatzungen die beste ist. Der Beweis istnicht einfach und wird deshalb nicht in dieser Vorlesung vorgefuhrt.

Page 16: Vorlesung Einführung in die mathematische Statistik

16

2.3. Asymptotische Eigenschaften von Maximum-Likelihood Schatzungen

X1, X2, . . . sei eine Folge von i.i.d. reellen Zufallsgrossen mit Dichte gθ , wobei θ ∈ Θ ⊆ R.

Man definiert die Funktion Ln als Ln(x1, . . . , xn) =n∏

i=1

gθ(xi) (= Dichte des Vektors X =

(X1, . . . , Xn)). Nehmen wir an, die Gleichungn∑

i=1

g′θ(Xi)

gθ(Xi)= 0 besitzt eine einzige Losung

θn = θn(X1, . . . , Xn) und dies fur alle n. ( g′θ(Xi) :=∂

∂θ

(gθ(Xi)

))

θn ist die sogenannte Maximum-Likelihood Schatzung fur θ (aus der Stichprobe (X1, . . . , Xn)hergeleitet).

Unter sehr schwachen Voraussetzungen uber die moglichen Dichten gθ kann man zeigen,

dass θn konsistent ist: θnPθ−→

n→∞θ, d.h. falls θ der wahre Wert ist, dann konvergiert θn in

Wahrscheinlichkeit gegen θ.

Definition: Y, Y1, Y2, . . . seien Zufallsgrossen mit stetigen Verteilungsfunktionen. DieFolge Y1, Y2, . . . konvergiert in Verteilung gegen Y , falls

limn→∞

P (a < Yn < b) = P (a < Y < b), ∀ a, b.

U(θ) sei eine Zufallsgrosse mit Normalverteilung N(0, 1I(gθ) ). Unter schwachen Bedingungen

uber {gθ} kann man zeigen, dass die Folge{√

n(θn − θ)}

in Verteilung gegen U(θ) konver-

giert, falls θ der wahre Wert ist. Dies bedeutet, dass fur grosse Werte von n die Zufallsgrosseθn − θ angenahert N(0, 1

n I(gθ) ) verteilt ist. Grob gesagt: Asymptotisch ist die Cramer-Rao

Schranke erreicht.

Beweisskizze fur die asymptotische NormalitatPer Definition hat man

n∑

i=1

h(θn, Xi) = 0, wobei h(θ, x) :=g′θ(x)

gθ(x).

Ist die Funktion h nach θ differenzierbar, dann gilt, falls θ der wahre Wert ist,

0 =1

n

n∑

i=1

h(θn − θ + θ,Xi) ∼=1

n

n∑

i=1

h(θ,Xi) +1

n

n∑

i=1

h′(θ,Xi)(θn − θ)

(θn − θ ist “klein”). Also ist

√n(θn − θ) ∼=

1√n

n∑

i=1

h(θ,Xi)

− 1n

n∑

i=1

h′(θ,Xi)=:

InIIn

.

Asymptotisches Verhalten von IIn

h′(θ, x) =∂

∂θ

(g′θ(x)

gθ(x)

)

=g′′θ (x)gθ(x) − (g′θ(x))

2

g2θ(x)

.

Page 17: Vorlesung Einführung in die mathematische Statistik

17

Also gilt

(h′(θ,Xi)

)=

∫g′′θ (x)gθ(x)

g2θ(x)

gθ(x)dx −∫ (

g′θ(x)

gθ(x)

)2

gθ(x)dx

=

g′′θ (x)dx − I(gθ) =

(∫

gθ(x)dx

)′′

− I(gθ) = −I(gθ).

Nach dem schwachen Gesetz der grossen Zahlen konvergiert also IIn in Wahrscheinlichkeitgegen −I(gθ).

Asymptotisches Verhalten von InEs gilt

(h(θ,Xi)

)=

∫g′θ(x)

gθ(x)gθ(x)dx =

g′θ(x)dx =(∫

gθ(x)dx)′

= 0

und Eθ

(h2(θ,Xi)

)= Varθ

(h(θ,Xi)

)=

∫ (g′θ(x)

gθ(x)

)2

gθ(x)dx = I(gθ).

Nach dem Zentralgrenzwertsatz Konvergiert In in Verteilung gegen eine Zufallsgrosse U∗(θ),die N

(0, I(gθ)

)verteilt ist.

Aus den obigen Uberlegungen folgt, dass√n(θn − θ) in Verteilung gegen die Zufallsgrosse

U(θ) :=U∗(θ)

−I(gθ)konvergiert. Die letztere ist aber N(0,

1

I(gθ)) verteilt. �

Page 18: Vorlesung Einführung in die mathematische Statistik

18

2.4. Einige Eigenschaften der Kleinsten-Quadrat-Schatzung (KQ-Schatzung)

Wie in 1.3. betrachten wir das allgemeine lineare Regressionsmodell:

Y = Xθ + Z, wobei θ der unbekannte Parameter ist (Y ∈ Rn, θ ∈ R

p).

Definition Falls U eine zufallige Matrix ist, ist die Erwartung E(U) von U definiert alsdie Matrix der Erwartungen der Elemente Uij von U , d.h.

(E(U)

)

ij:= E(Uij).

In diesem Abschnitt machen wir die folgenden Voraussetzungen:

1. p < n,

2. Rang(X) = p,

3. E(Z) = 0 und Cov(Z) := E[(Z − E(Z)

)(Z − E(Z)

)T]

= E[ZZT ] = σ2In (In ist die

n× n Identitatsmatrix.)

Beachte Falls die Komponenten Z1, Z2, . . . , Zn von Z i.i.d. Zufallsgrossen sind mit E(Zi) =

0 und Var(Zi) = σ2, ist die dritte Voraussetzung erfullt. Die KQ-Schatzung θ fur θ ist

θ = (XTX)−1XTY (siehe 1.3).

Satz 1Unter den gemachten Voraussetzungen gilt

a) Eθ,σ2(θ) = θ, ∀θ, σ2, d.h. θ ist biasfrei,

b) Covθ,σ2(θ) =(XTX

)−1 · σ2, ∀θ, σ2.

Beweis

“a)”: Eθ,σ2(θ) = Eθ,σ2

((XTX)−1XTY

)= (XTX)−1XTEθ,σ2(Y ) (Linearitat der Erwartung!)

= (XTX)−1XTEθ,σ2(Xθ + Z) = (XTX)−1XTXθ = θ,

“b)”: Covθ,σ2(θ) = Eθ,σ2

[

(θ − θ)(θ − θ)T]

=

Eθ,σ2

[((XTX)−1XTY − θ

)((XTX)−1XTY − θ

)T]

= Eθ,σ2

[((XTX)−1XT (Y −Xθ)

)((XTX)−1XT (Y −Xθ)

)T]

= Eθ,σ2

[(XTX)−1XTZZTX(XTX)−1

]

= (XTX)−1XTEθ,σ2(ZZT )X(XTX)−1

= σ2(XTX)−1XTX(XTX)−1 = σ2(XTX)−1. �

Die Diagonalelemente der Matrix Covθ,σ2(θ) geben Information uber die Gute der Schatzungen

θi, i = 1, . . . , p. Es ist also notwendig, einen Schatzer fur den unbekannten Parameter σ2 zuhaben. Eine Moglichkeit ist durch den folgenden Satz gegeben:

Page 19: Vorlesung Einführung in die mathematische Statistik

19

Satz 2

σ2 :=‖Y −Xθ‖2

n− pist eine biasfreie Schatzung fur σ2, d.h. Eθ,σ2(σ2) = σ2, ∀θ, σ2.

Beweis Fuhre im y–Raum (Beobachtungsraum) ein neues orthogonales Koordinatensystemein mit den ersten p orthonormierten Basisvektoren in dem von “idealen” Messwerten Xθaufgespannten Unterraum Vp. Seien V ∗

1 , . . . , V∗n die Koordinaten des Punktes Y im neuen

System. Da V ∗ = ΓY mit Γ ortogonal, gilt:

1. δθ,σ2 := Eθ,σ2(V ∗) = ΓEθ,σ2(Y ) mit (δθ,σ2)i = 0 fur i > p,

2. Covθ,σ2(V ∗) = Eθ,σ2

[

Γ(Y − E(Y )

)(

Γ(Y − E(Y )

))T]

= Eθ,σ2

[ΓZZT ΓT

]= Γσ2InΓT = σ2In,

3. ‖Y −Xθ‖2 = ‖ΓY − ΓXθ‖2 (Γ ist orthogonal!) =n∑

i=p+1

V ∗2i .

Daraus folgt:

Eθ,σ2(‖Y −Xθ‖2) =

n∑

i=p+1

Eθ,σ2(V ∗2i ) =

n∑

i=p+1

Varθ,σ2(V ∗2i ) (wegen 1.).

Also giltEθ,σ2(‖Y −Xθ‖2) = (n− p)σ2 (wegen 2.). �

Sei ψ(θ) :=p∑

i=1

λiθi mit λ1, λ2, . . . , λp bekannt.

Definition 1 Die KQ-Schatzung ψ fur ψ ist definiert als ψ(Y ) =p∑

i=1

λiθi .

Definition 2 Ein Schatzer T (Y ) fur ψ heisst linear, falls T sich schreiben lasst als

T (Y ) =

n∑

i=1

diYi ,

wobei d1, . . . , dn Konstanten sind.

Bemerkung Die KQ-Schatzung ψ fur ψ ist linear. Es gilt weiter Eθ,σ2(ψ) = ψ(θ),

∀θ, σ2, d.h. ψ ist biasfrei.

Satz 3 (Gauss-Markov)

ψ(θ) :=n∑

i=1

λiθi sei irgend eine Linearform in den unbekannten Parametern.

Page 20: Vorlesung Einführung in die mathematische Statistik

20

Behauptung Unter allen linearen biasfreien Schatzungen fur ψ(θ) ist ψ diejenige mitder kleinsten Varianz.

Beweis Wenn ψ =n∑

i=1

ciYi irgend eine lineare Schatzung von ψ ist, dann ist ψ auch in den

v∗–Koordinaten linear:

ψ =

n∑

i=1

diV∗i .

Erwartungstreue ergibt

ψ(θ) = Eθ,σ2(ψ) =

p∑

i=1

diEθ,σ2(V ∗i ), denn Eθ,σ2(V ∗

i ) = 0 fur i > p.

Die Beobachtungsgleichungen konnen auch im v∗–System ausgedruckt werden; sie lautenetwa

V ∗i =

p∑

j=1

x′ijθj + Z ′i mit x′ij = 0 fur i > p.

Also ist Eθ,σ2(V ∗i ) =

∑pj=1 x

′ijθj , und Einsetzen ergibt

ψ(θ) =

p∑

j=1

λjθj =

p∑

i=1

di

p∑

j=1

x′ijθj =

p∑

j=1

(p∑

i=1

dix′ij

)

θj , ∀θ.

Koeffizientenvergleich bestimmt d1, . . . , dp eindeutig (wahrend die dp+1, . . . , dn beliebig sind),denn die Matrix (x′ij) hat Rang p.

Wir haben Varθ,σ2(ψ) =n∑

i=1

d2i Varθ,σ2(V ∗

i ) = σ2n∑

i=1

d2i ; das wird minimal, wenn wir dp+1 =

. . . = dn = 0 setzen.

Die so bestimmte lineare erwartungstreue Schatzung kleinster Varianz ψ =p∑

k=1

dkV∗k fallt

aber mit der KQ-Schatzung ψ zusammen, denn auch diese ignoriert die Werte von V ∗p+1, . . . , V

∗n ,

und d1, . . . , dp sind durch die Erwartungstreue eindeutig bestimmt. �

Bemerkung Wenn die Messungen verschiedene Varianzen σ2i := Var(Zi) besitzen, soll

man

Q(θ) :=n∑

i=1

1

σ2i

Yi −p∑

j=1

xijθj

2

minimalisieren.

Beweis Ersetze

Yi =

p∑

j=1

xijθj + Zi durch

(√

1

σ2i

Yi

)

=

p∑

j=1

(√

1

σ2i

xij

)

θj +

1

σ2i

Zi, i = 1, . . . , n.

Beispiel (siehe Ubungen.)

Page 21: Vorlesung Einführung in die mathematische Statistik

21

§ 3 Vertrauensgebiete: Vertrauensintervalle fur die Erwartung

Im Beispiel 1 (Seite 2) haben wir als Schatzer fur die Erfolgswahrscheinlichkeit θ,

Xn :=1

n

n∑

i=1

Xi vorgeschlagen. Ist n hinreichend gross, wissen wir (starkes Gesetz der

grossen Zahlen!), dass mit grosser Wahrscheinlichkeit |Xn − θ| klein ist. Dies legt es nahe zuversuchen, ein kleines Intervall I(X) (siehe Beispiel 6, Seite 4) um den Schatzer Xn herumfestzulegen, indem man θ vermuten darf. Man konnte etwa fordern, dass z.B. P (I(X)enthalt den wahren Wert θ) ≥ 0, 95.

Allgemein liege ein statistisches Modell(X ,A, (Pθ)θ∈Θ

)vor und es sei g(θ) (∈ R) zu

schatzen. Beobachtet wird also eine Zufallsgrosse X mit Werten in X .

Definition Ein zufalliges Gebiet C(X) mit der Eigenschaft

(C(X) enthalt g(θ)

)≥ 1 − α, ∀θ ∈ Θ,

heisst Vertrauensgebiet fur g(θ) zum Niveau 1 − α.

Oft ist C(X) ein zufalliges Intervall. Man spricht dann von einem Vertrauensintervall zumNiveau 1 − α.

Es ist wichtig, sich diese Definition genau anzusehen, damit die Angabe von C(X) nichtfalsch interpretiert wird: Nicht g(θ) ist zufallig, sondern X und damit C(X). Wird X = xbeobachtet, ist dann C(x) ein festes Gebiet und es gilt: entweder g(θ) ∈ C(x) oder nicht,aber {θ : g(θ) ∈ C(x)} ist kein Ereignis. Die Aussage uber das Niveau 1 − α ist vielmehreine Aussage uber die gesamte Familie {C(x) : x ∈ X}, d.h. uber die Vorschrift, nach derdas Gebiet aus der Beobachtung bestimmt wird. Wenn wir fur jedes x das Gebiet C(x) alsVertrauensgebiet angeben, wird — was auch immer θ ∈ Θ ist — das zufallige Gebiet in ca.95 % der Falle g(θ) enthalten (falls α = 0, 05 ist).

Beispiel 1 X := (X1, X2, . . . , Xn) mit X1, . . . , Xn i.i.d. Zufallsgrossen. Nehmen wir an,X1 sei N(θ, σ2) verteilt mit σ2 bekannt.

Xn :=1

n

n∑

i=1

Xi ist eine biasfreie Schatzung fur θ.

Falls θ der wahre Wert ist, dann besitzt

√n(Xn − θ)

σeine N(0, 1) Verteilung.

0 < α < 1 sei vorgegeben. ξ∗α sei diejenige Zahl, fur welche1√2π

ξ∗

α∫

−ξ∗

α

e−u2

2

du = 1 − α. (Z.B.

fur α = 0, 05 ist ξ∗α ≈ 1, 96.)

Dann gilt Pθ

(∣∣∣

√n(Xn − θ)

σ

∣∣∣ ≤ ξ∗α

)

= 1 − α, ∀θ. Also ist I(X) :=

[

Xn − σξ∗α√n, Xn +

σξ∗α√n

]

ein Vertrauensintervall fur die Erwartung θ zum Niveau 1 − α.

Page 22: Vorlesung Einführung in die mathematische Statistik

22

Beispiel 2 X1, X2, . . . , Xn seien i.i.d. Zufallsgrossen mit NormalverteilungN(θ, σ2), wobei

σ2 unbekannt ist. Wir definieren V 2n := 1

n−1

n∑

i=1

(Xi − Xn)2 (Xn wie im Beispiel 1). Falls θ

der wahre Wert ist, kann man zeigen, dass Tn :=√

n(Xn−θ)Vn

eine Student-Verteilung mit n−1Freiheitsgraden ist. fn−1 sei die Dichte dieser Verteilung und 0 < α < 1 sei vorgegeben. Man

bestimmt dann die Zahl t∗α,n−1, fur welchet∗α,n−1∫

t∗α,n−1

fn−1(x)dx = 1 − α. (Dazu benutzt man

eine Tabelle fur die Student-Verteilung; z.B. fur n = 7 und α = 0, 05 ist t∗0,05, 6 = 2, 365.)Mit dieser Wahl von t∗α,n−1 gilt

Pθ(|Tn| ≤ t∗α,n−1) = 1 − α, ∀ θ, σ2

und somit ist I(X) :=

[

Xn − Vn√nt∗α,n−1, Xn +

Vn√nt∗α,n−1

]

ein Vertrauensintervall fur θ

zum Niveau 1 − α.

Beispiel 3 X1, X2, . . . , Xn seien i.i.d. Zufallsgrossen mit Pθ(Xi = 1) = θ und Pθ(Xi =0) = 1 − θ, 0 < θ < 1. Xn ist eine erwartungstreue Schatzung fur θ. Fur hinreichend

grosse n besagt der Zentralgrenzwertsatz, dass Vn :=

√n(Xn − θ)√

θ(1 − θ)angenahert N(0, 1)–

verteilt ist (falls θ der wahre Wert ist!). ξ∗α sei wie im Beispiel 1 definiert. Dann giltPθ(|Vn| ≤ ξ∗α) ≈ 1 − α, d.h.

([

Xn −√

θ(1 − θ)ξ∗α√n

, Xn +

θ(1 − θ)ξ∗α√n

]

enthalt θ

)

≈ 1 − α.

Da θ(1 − θ) ≤ 1

4, ∀θ, gilt

([

Xn − ξ∗α2√n, Xn +

ξ∗α2√n

]

enthalt θ

)∼≥1 − α, ∀θ.

Somit ist I(Xn) :=

[

Xn − ξ∗α2√n, Xn +

ξ∗α2√n

]

ein Vertrauensintervall zum Niveau∼≥1 − α.

Page 23: Vorlesung Einführung in die mathematische Statistik

23

III Testtheorie

§1 Testverfahren, Niveau, Macht.

X sei eine Zufallsgrosse und(X ,A, (Pθ)θ∈Θ

)das zugrundeliegende statistische Modell. Von

einem Testproblem spricht man, wenn man auf grund des beobachteten Wertes x der Zu-fallsgrosse X entscheiden soll, ob Pθ einer bestimmten echten Teilmenge H von Θ angehortoder nicht.

Ein Test ist eine Entscheidungsregel, die fur jeden moglichen Wert von x festlegt, ob mansich fur die Hypothese “θ ∈ H” oder fur die Alternative “θ ∈ Θ−H” = “θ ∈ Hc” entscheidensoll. Man nennt auch kurzH die Hypothese und K := Hc die Alternative. Die EntscheidungdH fur die Hypothese nennt man “Annahme” der Hypothese, und die Entscheidung dK furdie Alternative nennt man Verwerfen der Hypothese. Ein Test ist also (bis auf weiteres)beschrieben durch Angabe der Menge R derjenigen x, fur welche die Hypothese verworfenwerden soll. R wird Verwerfungsbereich oder kritischer Bereich des Tests genannt.

Innerhalb des gewahlten Modells sind also zwei Arten von Fehlern moglich:Ist θ ∈ H und wird die Hypothese verworfen, so spricht man von einem Fehler erster Art.Ist θ ∈ K und wird die Hypothese “angenommen”, so spricht man von einem Fehler zweiterArt.

Praktisch gibt man R meist mit Hilfe von einer Funktion ϕ(x) an, der sogenannten Test-funktion, die X in {0, 1} ([0, 1]) abbildet:

Ist ϕ(x) = 1, dann lehnt man die Hypothese ab.Ist ϕ(x) = 0, dann wird die Hypothese “angenommen”.

Bemerkung: Die Nullhypothese ist damit nicht bewiesen; sie ist bloss nicht widerlegt. Es istmoglich, dass wir einen Fehler 2. Art mit grosser Wahrscheinlichkeit begehen. Siehe unten.

Falls ϕ, X in [0, 1] abbildet, dann lehnt man die Hypothese mit Wahrscheinlichkeit ϕ(x) ab(falls x beobachtet wurde). Der Test heisst dann randomisiert.

Bisher haben wir das Testsproblem so formuliert, dass H und K vollig symmetrische Rollenspielen. In konkreten Fragestellungen gibt es aber gewohnlich eine Asymmetrie. Ist man z.B.daran interessiert, ob sich irgendwelche Daten innerhalb einer etablierten Theorie erklarenlassen oder auf neue Effekte hindeuten, so sollte man auf neue Effekte erst schliessen, wennwirklich deutliche Hinweise darauf vorliegen. Soll ein gebrauchliches Medikament durchein neues ersetzt werden, so wird man bei unklaren Vergleichswerten vorerst bei den altenMedikamenten bleiben. In beiden Fallen erscheint ein vorschneller Wechsel nicht ratsam.Im Zweifel kann man sich ja gewohnlich weitere Daten verschaffen.

In der Formulierung des Testproblems tragt man dem so Rechnung, dass man als Hypo-these die Verteilung (oder die Verteilungen) wahlt, die der etablierten Theorie bzw. reinerZufalligkeit entsprechen.

Man zieht nur Verwerfungsbereiche R (d.h. Bereich der Form {x : ϕ(x) = 1}) in Betracht,fur die die Wahrscheinlichkeit eines Fehlers erster Art durch eine vorgegebene Zahl α > 0 be-grenzt ist. Dadurch erreicht man, dass man neue Effekte oder wesentliche Vorteile des neuenMedikamentes nur dann behauptet, wenn wirklich die Daten deutlich dafur sprechen. Leiderlasst sich die Wahrscheinlichkeit eines Fehlers zweiter Art (beim festen Stichprobenumfang)nicht simultan in gleicher Weise begrenzen.

Quantitative Aussagen erhalt man durch Betrachtung der Gutefunktion

Page 24: Vorlesung Einführung in die mathematische Statistik

24

β(θ) := Pθ

(ϕ(X) = 1

)= Eθ

(ϕ(X)

)des Tests ϕ, die jedem θ die Verwerfungswahrschein-

lichkeit unter Pθ zuordnet.

Definition Wir sagen, dass der Test ϕ das Niveau α hat, falls

supθ∈H

β(θ) ≤ α.

Beachte β(θ) ≤ α, ∀θ ∈ H bedeutet: Die Wahrscheinlichkeit eines Fehlers erster Art istmaximal α.

Fur θ ∈ K heisst β(θ) die Macht des Tests in θ.

Beachte Ist die Macht β(θ) nahe bei 1, so ist die Wahrscheinlichkeit 1− β(θ) eines Fehlerszweiter Art klein.

Beispiel Angenommen, jemand behauptet, er habe eine Methode gefunden, um dasZahlenverhaltnis (∼ 1 : 1) zwischen Kuh- und Stierkalbern zugunsten der ersten zu ver-schieben. Eine landwirtschaftliche Organisation ist interessiert, aber skeptisch, und mochtedas Verfahren zuerst ausprobieren, z.B. in n = 20 Fallen; dabei kommen X Kuhkalberheraus.

X = 20 wurde sie wohl uberzeugen. Nehmen wir aber an, sie entschliesst sich, das Verfahrenzu empfehlen, falls X ≥ 15. Was bedeutet das?

X ist binomial B(20, θ) verteilt, d.h.

Pθ(X = x) =

(n

x

)

θx(1 − θ)n−x, x = 0, 1, . . . , 20.

Hypothese H : θ = 12 (“Behandlung wirkungslos”),

Alternative K: θ ≥ 0, 7 (“Behandlung wirtschaftlich interessant”)

ϕ(x) = 1, falls x ≥ 15 und ϕ(x) = 0 sonst.

In diesem Beispiel ist β(12 )

= P1/2(X ≥ 15) = (1

2)20[(

20

15

)

+

(20

16

)

+ . . .+

(20

20

)]

≈ 0, 021 und P0,7(X ≥ 15) ≈ 0, 416 ,

d.h. das Niveau des Tests ϕ ist gleich 0, 021 und die Macht an der Stelle θ = 0, 7 betragt0, 416.

Bemerkung Wurde man nach einem Test ϕ∗ suchen, so dass β∗(12 ) = 0, 05 und β∗(0, 7) =

0, 90, so musste die Anzahl n von Versuchen grosser als 52 sein und ϕ∗(x) = 1, falls x ≥ 33.Fur kleinere n geht es nicht.

Page 25: Vorlesung Einführung in die mathematische Statistik

25

§2 Einige Beispiele von wichtigen Tests

2.1 Ein einfacher Test mit Hilfe des Zentralgrenzwertsatzes

Es wird immer wieder behauptet, die Wahrscheinlichkeit einer Knabengeburt sei grosser alsdie Wahrscheinlichkeit einer Madchengeburt. Ist das wirklich so?

Wir versuchen die folgende Hypothese H zu testen:

Wahrscheinlichkeit p einer Knabengeburt = 0,5. Die Alternative K sei p > 0, 5. Wir testenalso einseitig (zweiseitig wurde die Alternative K∗ : p 6= 0, 5 bedeuten). Die Wahl derAlternative bedeutet, dass wir praktisch sicher sind, dass p < 0, 5 nicht in Frage kommt.

Wir benutzen als Beobachtungen die Zahlen, die ein zwischen 1969 und 1972 zufallig aus-gewahlter Jahrgang des Statistischen Jahrbuches der Schweiz liefert. Dieses nennt fur 1972,n = 91′342 Geburten mit x = 47′179 Knabengeburten. Diese Zahl stellt einen Wert einerZufallsgrosse X dar.

Unter der Hypothese (p = 12 ) ist X , B(91′342, 1

2 ) verteilt. Es ist aber hier einfacher mit der

Normal-Approximation zu arbeiten. Wir wissen, dass (unter H) Y :=X − n

212

√n

angenahert

eine Standard Normalverteilung besitzt. Sei α (das Niveau) = 5 % und ξ0,05 die Zahl, fur

welche 1√2π

ξ0,05∫

−∞e−

x2

2 dx = 0.95. Es ist naheliegend, die Hypothese zu verwerfen, falls der

Beobachtete Wert x von X zu gross ist, d.h. falls y(x) zu gross ist. Tut man das, fallsy(x) ≥ ξ0,05 (Verwerfungsbereich), dann hat unser Test das Niveau 5 %. In diesem Beispielist y ≈ 10 und aus einer Tabelle der Normalverteilung liest man ξ0,05 = 1, 645.

Der Test lehnt also die Hypothese ab. Die Abweichung ist sogar hochsignifikant, denn auchfur das Niveau α = 1 % (ξ0,01 = 2, 326), wurden wir die Hypothese verwerfen.

Eine Bemerkung uber den sogenannten p–Wert (p–value) Wenn man bei einemTestproblem ein Software benutzt, liefert ein Computer immer im output den sogenanntenp–value. Diese Zahl wollen wir im oberen Beispiel erklaren.

Die Lange der Stichprobe war n = 91342 und der beobachtete Wert der Zufallsgrosse Xgleich x = 47179.

Definition:Der p–value ist die Wahrscheinlichkeit, dass die normalisierte Zufallsgrosse Y = Y (X) denbeobachteten Wert y(x), unter H , uberschreitet. Man bezeichne diese Wahrscheinlichkeitmit αy(x).

Interpretation:Falls fur ein vorgegebenes Niveau α die Ungleichung α ≥ αy(x) gilt, lehnt man (zum Niveauα) die Hypothese ab.

Man kann also die jetzt bei statistischen Auswertungen von den Computern berechnetenp–Werte als Entscheidungsanweisungen fur den Statistiker auffassen, der α fest gewahlt hat.Je nach Wahl von α wird die Anweisung zu verschiedenen Entscheidungen fuhren.

Achtung:Kritisch an der Verwendung von p–Werten ist vor allem, dass sie leicht fehlinterpretiert

Page 26: Vorlesung Einführung in die mathematische Statistik

26

werden. Nicht ganz so offensichtlich ist im Falle αy(x) = 0, 023 darauf zu schliessen, dass Hzum Niveau 0, 023 abzulehnen ist. Das Niveau soll ja nicht vom Ergebnis x abhangen.

Ist die Hypothese einfach (= 12 ), so ist die folgende Intepretation richtig: αy(x) ist die

Wahrscheinlichkeit (unter H) dafur, dass Y (X) ≥ y(x) ist, also die Wahrscheinlichkeit,dass die Teststatistik Y (X) einen mindestens so grossen Wert annimmt wie den aktuellbeobachteten.

2.2 Beispiel 2.1 Fortsetzung

Im Beispiel 2.1 konnte man dieselbe Hypothese p = 12 gegen die Alternative K∗ : p 6= 1

2testen (zweiseitige Situation).

Wir betrachten dieselben ZufallsgrossenX und Y wie im Beispiel 2.1 und dieselben Beobach-tungen aus dem Jahre 1972. In diesem Falle ist es naheliegend, die Hypothese abzulehnen,falls Y zu gross ist (p > 1

2 ) oder zu klein ist (p < 12 ), d.h. falls |Y | (absoluter Betrag) zu

gross ist.

Bemerkung: Unter der Hypothese hat Y wieder angenahert eine Standard Normalverteilung,die um 0 symmetrisch ist. Sei α (das Niveau) = 5 % vorgegeben, und sei ξ∗0,05 die Zahl, fur

welche 1√2π

ξ∗

0,05∫

−ξ∗

0,05

e−x2

2 dx = 0, 95. Man lehnt dann die Hypothese ab, falls |y| ≥ ξ∗0,05. Aus

einer Tabelle der Normalverteilung liest man ξ∗0,05 = 1, 96. Da |y| ∼= 10, lehnt der Test dieHypothese ab. Wie vorher wurde man auch zum Niveau 1 % ablehnen, da ξ∗0,01 = 2, 576.

Bemerkung: Im Beispiel 2.2 (wie auch im Beispiel 2.1) ist die Alternative K∗ zusammenge-setzt. Alle moglichen Werte p in der Menge (0, 1) −

{12

}sind theoretisch moglich fur K∗.

Die Macht des Tests hangt also von der Alternative ab. Sie wurde definiert als

β(p) := Pp

(|Y | ≥ ξ∗0,05

),

wenn das Niveau 5 % betragt und p ∈ K∗.

Wenn p ∈ K∗ nahe bei der Hypothese p = 12 liegt, steht die Macht an dieser Stelle sehr nahe

bei 5 %. Die Wahrscheinlichkeit eines Fehlers 2. Art ist dann in diesem Fall sehr gross undman muss sehr vorsichtig sein:Da α (das Niveau) frei wahlbar ist, hat man eine Kontrolle uber die Wahrscheinlichkeit einesFehlers 1. Art (≤ α), ber keine uber die Wahrscheinlichkeit eines Fehlers 2. Art. Deshalbsagt man, ein Test ist signifikant, wenn die Hypothese abgelehnt wird. Wenn nicht, ist dieHypothese nicht bewiesen, sie ist einfach nicht widerlegt.

2.3 Vergleich von zwei Wahrscheinlichkeiten bei unabhangigen Stichproben

Auf zwei verschiedenen Anlagen wird dasselbe Objekt hergestellt. Man vermutet, dass dieWahrscheinlichkeiten an Ausschussstucken bei diesen beiden Anlagen verschieden sind undwill dies durch Stichproben uberprufen. n1 = 200 Objekte der ersten Anlage weisen x = 5fehlerhafte Stucke auf; n2 = 100 Objekte der zweiten Anlage zeigen total y = 10 fehlerhafteExemplare. Sind die beiden Ausschusswahrscheinlichkeiten p1, p2 wirklich verschieden?

Das statistische Modell fur dieses Problem: Beobachtet werden n1 +n2 unabhangige Zufalls-grossen X1, X2, . . . , Xn1 , Y1, Y2, . . . , Yn2 , wobei Xi = 1 (Yi = 1), falls das i–te Objekt ausder ersten (zweiten) Anlage fehlerhaft ist, = 0 sonst. Relevant fur uns sind die Zufallsgrossen

Page 27: Vorlesung Einführung in die mathematische Statistik

27

X :=n1∑

i=1

Xi, Y :=n2∑

j=1

Yj , d.h. die totalen Anzahlen von fehlerhaften Objekten in beiden

Fallen.

Als Hypothese wahlen wir p1 = p2 =: p.

Wir mussen zunachst p schatzen. Nach den Gesetzen der grossen Zahlen, fur n1 + n2 gross,ist, unter der Hypothese, p := X+Y

n1+n2sehr nahe bei p. Das wird unsere Schatzung fur p sein.

Nach dem Zentralgrenzwertsatz ist die Differenz Xn1

− Yn2

angenahert normalverteilt mit

Erwartung p1 − p2 = 0 (unter der Hypothese) und Varianz p(1 − p)( 1n1

+ 1n2

) (unter derHypothese).

Somit ist, im Falle, wo p1 = p2 = p,

U :=X/n1 − Y/n2

p(1 − p)( 1n1

+ 1n2

)

angenahert standard normalverteilt.

Dasselbe gilt auch, wenn man fur p unsern Schatzer p einfuhrt, d.h. fur

V :=X/n1 − Y/n2

p(1 − p)( 1n1

+ 1n2

).

Hier ist der Test zweiseitig. So, zum Niveau 5 %, lehnt man die Hypothese ab, falls derbeobachtete Wert v von V so ist, dass |v| ≥ ξ∗0,05 = 1.96 (siehe Beispiel 2.2).

Fur v erhalten wir mit unsern Beobachtungen (x = 5, y = 10, p = 0, 05) den Wert v = −2, 8.

Der Test lehnt also die Hypothese ab.

2.4 Der Vorzeichentest fur kleine gepaarte Stichproben

Bei einer Person sei der diastolische Blutdruck durch Pd bezeichnet und der systolischeBlutdruck durch Ps. Der “mittlere” Blutdruck wird dann definiert als 2

3Pd + 13Ps.

An 18 zufallig ausgewahlten Studenten wurde der mittlere Blutdruck zweimal gemessen,einmal liegend und einmal stehend. Man beobachtet also 18 Paare (xi, yi) von Zahlen.

Das statistische Modell fur dieses Experiment besteht aus 18 i.i.d. Zufallsvektoren Zi :=(Xi, Yi).

Der Vorzeichen Test: Wir betrachten die Differenzen Zi := Yi−Xi. Wenn bei der Messungdie Lage des Studenten auf seinen mittleren Blutdruck keinen Einfluss hatte, wurde wohlP (Zi > 0) = P (Zi < 0) = 1

2 gelten (Wertepaare mit Differenz 0 lassen wir zum vorausweg und zahlen sie nicht mit!). Man konnte aber vermuten, dass P (zi > 0) > 1

2 ist.Deshalb wahlen wir als Hypothese H : P (Zi > 0) = P (Zi < 0) = 1

2 und als AlternativeP (Zi > 0) > 1

2 . (Ein Test ist signifikant, nur wenn er die Hypothese ablehnt!)

Sei V die Anzahl der positiven Zi’s, d.h. V :=18∑

i=1

I(Zi > 0), wobei I die Indikatorfunktion

ist. Der (einseitige) Vorzeichen Test lehnt die Hypothese ab, wenn der beobachtete Wert vvon V zu gross ist.

Page 28: Vorlesung Einführung in die mathematische Statistik

28

Das Verfahren:α sei vorgegeben. Man bestimmt dann die kleinste ganze Zahl cα so, dass PH(V ≥ cα) ≤ α.

Der Vorzeichen-Test lehnt die Hypothese ab, falls v (beobachteter Wert von V ) ≥ cα .

Tabelle (beobachtete Differenzen)

Im Jahre 1975 wurden im physiologischen Institut die folgenden Differenzen zi der mittlerenBlutdrucke beobachtet:

Student 1 2 3 4 5 6 7 8 9

Differenz 1 23 1 2

3 2 23 4 1

3 −2 23 −3 1

3 −8 13 −1 2

3 5 13

Student 10 11 12 13 14 15 16 17 18

Differenz 5 −5 1 23 1 2

3 3 13 5 1

3 1 23 −5

Sei α = 5 %. In einer Tabelle fur die Binomialverteilung B(n, p) fur n klein (n ≤ 40), dieman zum Beispiel im Buch von E.L. Lehmann “Nonparametrics”: Statistical Methods basedon ranks, Holden Day (1975), finden kann, liest man, dass die kleinste Zahl c0,05, fur welchePH(V ≥ c0,0.5) ≤ 0, 05, gleich 13 ist. Unsere Stichprobe liefert fur V den Wert v = 12. DieHypothese wird also nicht abgelehnt.

Bemerkung: Ware die Lange n der Stichprobe (in unseremBeispiel n = 18) viel grosser, dannwurde man die Zufallsgrosse V so normalisieren, dass die Normal Approximation anwendbarist (etwa wie im Beispiel 2.1).

2.5 Der χ2–Anpassungstest

Das Testproblem: Es werden n unabhangige, untereinander gleiche Teilexperimente aus-gefuhrt. Diese haben r ≥ 2 mogliche Ausgange und der i–te Ausgang hat Wahrscheinlichkeitpi. Der Parameter θ := (p1, p2, . . . , pr) ist unbekannt. Wir nehmen an, dass alle pi positivsind. Fur einen vorgegebenen Wahrscheinlichkeitsvektor π := (π1, π2, . . . , πr) ist zu testen,ob θ = π ist.

Das zugehorige statistische Modell: Beobachtet wird ein ZufallsvektorX := (N1, N2, . . . , Nr),wobei Ni die Anzahl der Auftreten des i–ten Ausganges (bei den n Wiederholungen des Ex-perimentes) darstellt.

Beachte, dassr∑

i=1

Ni = n und dass der Vektor X eine Multinomialverteilung mit Parametern

n,p1, . . . , pr besitzt.

Beispiel: n Wurfe mit einem Wurfel. Mogliche Ausgange: {1}, {2}, . . . , {6}. Man konntesich die folgende Frage stellen: Ist der Wurfel symmetrisch, d.h. ist (p1, p2, . . . , p6) =(16 ,

16 , . . . ,

16 ) =: π ?

Zuruck zum allgemeinen Testproblem. Der χ2–Anpassungstest

Page 29: Vorlesung Einführung in die mathematische Statistik

29

Falls n gross ist, ist Ni

n , unter der Hypothese, nahe bei πi (Gesetz der grossen Zahlen!).Wenn man N1 = n1, . . . , Nr = nr beobachtet hat, scheint es vernunftig, die beobachteteabsolute Haufigkeit ni mit den, unter der Hypothese θ = π, erwarteten Haufigkeiten nπi zu

vergleichen. Man wurde also die Hypothese θ = π ablehnen, falls z.B.r∑

i=1

(ni−nπi)2 zu gross

ist. Man benutzt indessen einen besonders gut brauchbaren Wert, wenn man die Quadrateder Unterschiede noch normiert:

Definition: Die χ2–Statistik ist definiert als

χ2 =r∑

i=1

(Ni − nπi)2

nπ.

Definition (χ2–Quadrat Anpassungstest)Man kann zeigen (aber das ist schon hohere Statistik), dass fur relative grosse Werte vonn, etwa nπi ≥ 3, ∀ i, die Statistik χ2(X) = χ2(N1, N2, . . . , Nr), unter der Hypothese θ = π,angenahert eine χ2–Quadrat Verteilung mit r − 1 = Anzahl der moglichen Ausgange −1Freiheitsgraden besitzt.

Der χ2–Anpassungstest: Sei α vorgegeben und hm die Dichte der χ2–Quadrat Vertei-lung mit m Freiheitsgraden, m = 1, 2, 3, . . .. Man bestimmt dann die Zahl ηα so, dassηα∫

0

hr−1(x)dx = 1 − α. Der χ2–Quadrat Anpassungstest zum Niveau α lehnt die Hypothese

θ = π ab, falls χ2(n1, n2, . . . , nr) ≥ ηα, wobei n1, n2, . . . , nr die beobachteten Werte vonN1, . . . , Nr sind.

Eine AnwendungEs wird vermutet, dass bei Pferderennen auf einer kreisformigen Rennbahn die Startposi-tionen einen Einfluss auf die Gewinnchancen hat. In n = 144 Rennen hatten die Sieger dieStartpositionen 1, 2, . . . , 8 = r mit den folgenden Haufigkeiten n1 = 29, n2 = 19, n3 = 18,n4 = 25, n5 = 17, n6 = 10, n7 = 15, n8 = 11. Man teste die Hypothese, dass alle Positionendie gleiche Siegwahrscheinlichkeit besitzen zum Niveau 0, 05.

Losung: θi sei die Siegwahrscheinlichkeit mit Start position i. Hier ist die Hypothe-se (θ1, . . . , θ8) = (1

8 , . . . ,18 ). Die Anzahl der Freiheitsgrade betragt 8 − 1 = 7. Aus ei-

ner Tabelle fur die χ2–Quadrat Verteilung liest man η0,05 = 14.07. Hier bekommt manχ2(29, 19, 18, 25, 17, 10, 15, 11) = 16, 333. Also lehnt der Test die Hypothese ab.

2.6 Der χ2–Anpassungstest in einem komplizierteren Falle

Jemand hat 100 Messungen einer chemischen Grosse gemacht. Die Resultate seienx1, x2, . . . , x100 . Da bei jeder Messung ein zufalliger Fehler auftritt, konnen die Zahlenx1, x2, . . . , x100 als n100 Beobachtungen einer Zufallsgrosse X betrachtet werden. Wegen desZentralgrenzwertsatzes konnte man sich fragen, ob X eine Normalverteilung besitzt. Dieswird unsere Hypothese H sein.

Ein mogliches Verfahren, um H zu testen:

Page 30: Vorlesung Einführung in die mathematische Statistik

30

1. Die Parameter µ und σ2, unter H , sind unbekannt. Als Schatzer fur µ wahlen wir

x100 := 1100

100∑

i=1

xi und fur σ2, s2100 := 1100

100∑

i=1

(xi − x100)2.

2. Nehmen wir an, x100 = 37, 54, s100 = 2, 81.

3. Man wahlt dann z.B. 5 Intervalle I1, I2, I3, I4, I5 um x100 aus und bezeichnet mit nk

die Anzahl der xi, die im k–ten Intervall fallen.Die Situation sei die folgende:

Intervalle (Klassen) beobachtete Haufigkeiten

I1 = [29, 5, 32, 5] n1 = 4

I2 = [32, 5, 35, 5] n2 = 17

I3 = [35, 5, 38, 5] n3 = 43

I4 = [38, 5, 41, 5] n4 = 29

I5 = [41, 5, 44, 5] n5 = 7

4. Y sei N(x100, s2100) = N(37, 54; (2, 81)2) verteilt und sei pi := P (Y ∈ Ii), i =

1, 2, . . . , 5. Die, unter der Hypothese, erwarteten Haufigkeiten sind dann durch 100pi,i = 1, . . . , 5, gegeben.Wir bekommen also die folgende Tabelle (siehe die Ubungen fur die Bestimmung derpi!):

Intervalle beobachtete Haufigkeiten pi erwartete Haufigkeiten

I1 4 0, 035 3, 5

I2 17 0, 196 19, 6

I3 43 0, 400 40, 0

I4 29 0, 288 28, 8

I5 7 0, 072 7, 2

Totale 100 1 100

5. Man lehnt die Hypothese ab, falls die Chiquadrat-Statistik X2 :=5∑

i=1

(ni−100pi)2

100pi=

0, 648 zu gross ist:

Das vorgegebene Niveau sei α. Man bestimmt dann die Zahl ηα so, dassηα∫

0

h2(x)dx =

1 − α und lehnt die Hypothese ab, falls 0, 648 ≥ ηα . Wenn α = 5 %, dann ist z.B.η0,05 = 5, 99 und die Hypothese wird nicht abgelehnt.

Bemerkung: In diesem Beispiel ist die Anzahl der Freiheitsgrade = 5 − 1 − 2 =Anzahl der Intervalle (Klassen) −1 − Anzahl der geschatzten Parameter (µ, σ2!).

Page 31: Vorlesung Einführung in die mathematische Statistik

31

2.7 Der χ2–Test als Unabhangigkeitstest

Wenn man am Montag die Zeitungen liest, so hat man oft den Eindruck, am Wochenende (Sa,So) sei der Anteil der Verkehrsunfalle mit todlichem Ausgang, bezogen auf die Gesamtzahlder Verkehrsunfalle, grosser als wahrend der Woche.

Als Hypothese nehmen wir an, der Anteil mit todlichem Ausgang sei vom Wochentag un-abhangig. Zum Testen ziehen wir eine Verkehrsstatistik mit n = 135′876 Unfallen heran.

Anzahl Verkehrsunfalle Anzahl Verkehrsunfalle

mit todlichem Ausgang ohne todlichen Ausgang TotaleA Ac

Wochenende n11 = 2′808 n12 = 45′708 n1· = 48′516

B

Woche (Mo-Fr) n21 = 4′680 n22 = 82′680 n2· = 87′360

Bc

Totale n·1 = 7′488 n·2 = 128′388 n = 135′876

Es liegen hier also vier Klassen vor, die wir in einer sogenannten Vierfeldertafel (oder 2× 2Kontingenz-Tafel) dargestellt haben.

Das zugehorige statistische Modell

Beobachtet wurde ein Zufallsvektor (N11, N12, N21, N22), wobei die ZufallsgrossenN11(N12, N21, N22) die totale Anzahl der Auftreten des EreignissesA ∩B(Ac ∩B,A ∩Bc, Ac ∩Bc) darstellt (Ac bedeutet das Komplement von A!).

Nun seien θ11 = P (A∩B), θ12 = P (B∩Ac), θ21 = P (A∩Bc), θ22 = P (Ac∩Bc), p1 = P (B),q1 = P (Bc), p2 = P (A), q2 = P (Ac). Alle diese Zahlen sind naturlich a priori unbekannt.Mann konnte sie aber mit Hilfe der Kontingenz-Tafel schatzen.

Der χ2–Test fur UnabhangigkeitWare die Hypothese richtig, dann wurden die Ereignisse A, Ac, B, Bc unabhangig sein. Indiesem Fall wurde dann das folgende gelten:

θ11 = p1p2, θ12 = p1q2, θ21 = q1p2, θ22 = q1q2,

(C und D sind unabhangig, falls P (C ∩D) = P (C)P (D) !).

Beachte, dass p1 + q1 = 1, p2 + q2 = 1 gilt.

Statt vier Paramter zu schatzen, bleiben, unter der Hypothese, nur 2 zu schatzen, etwa p1

und p2. Nach dem schwachen Gesetz der grossen Zahlen kann p1 (p2) durch die relativeHaufigkeit p1 : n1·

n = n11+N12

n (p2 : n·1

n = n11+n21

n ) geschatzt werden.

Page 32: Vorlesung Einführung in die mathematische Statistik

32

Die Idee ist jetzt die folgende: Man vergleicht die beobachteten Haufigkeiten (siehe Tafel)nij mit den, unter der Hypothese, erwarteten Haufigkeiten

n11 := n1·

n · n·1

n · n, n12 := n1·

n

(1 − n1·

n

)n, n21 := n·1

n

(1 − n1·

n

)n,

n22 :=(1 − n1·

n

) (1 − n·1

n

)n.

Der χ2–Test fur Unabhangigkeit lehnt die Hypothese ab, falls

χ2(n11, n12, n21, n22) :=(n11 − n11)

2

n11+

(n12 − n12)2

n12+

(n21 − n21)2

n21+

(n22 − n22)2

n22

zu gross ist.

Bestimmung des Ablehnungsbereichs:Ersetzt man in der Definition der nij die Grossen n1·, n·1 durch die Zufallsvariablen N1·,

N·2, dann bekommt man Zufallsgrossen Nij fur die erwarteten Haufigkeiten.

Man kann dann zeigen, dass

χ2(N11, N12, N21, N22) :=(N11 − N11)

2

N11

+(N12 − N12)

2

N12

+(N21 − N21)

2

N21

+(N22 − N22)

2

N22

,

unter der Hypothese, angenahert eine χ2–Verteilung mit ν = 4 − 1 − 2 = 1 = Anzahl vonKlassen −1− Anzahl der geschatzten Parameter (p1 und p2!) besitzt. (Der Beweis ist nichtso einfach!)

Zuruck zum BeispielDie boebachteten Falle liefern

χ2(2808, 45708, 4680, 82680) = 10.43.

Als Niveau wahle man 5 %.

Analog wie im Beispiel 2.5 bestimmt man mit Hilfe einer Tabelle die Zahl η0,05 so, dassη0,05∫

0

h1(x)dx = 0, 95. Man bekommt in diesem Fall 3, 84.

Der χ2–Test fur Unabhangigkeit lehnt also zum Niveau 5 % die Hypothese ab, da

χ2(2808, 45708, 4680, 82680) = 10, 43 > 3, 84.

2.7 Testen eines Mittelwertes bei unbekannter Varianz:Der einseitige Student-Test

An einer Frauenklinik hat man wahrend langerer Zeit das Geburtsgewicht der lebend undreif geborenen Madchen bestimmt und gemittelt. Das Resultat, 3200 g := µ0, betrachtetman als Erwartung.

Einige Jahre spater, fuhren weitere Beobachtungen zur Vermutung, dass die Erwartung µnicht mehr 3200 g betrage, dass aber µ > µ0.

Die Hypothese sei µ = µ0 und die Alternative µ > µ0.

Page 33: Vorlesung Einführung in die mathematische Statistik

33

Um die Hypothese zu testen, will man bei den 25 nachsten Geburten von lebenden, reifgeborenen Madchen das Gewicht messen.

Das zugehorige statistische Model:Beobachtet wird der Zufallsvektor X = (X1, . . . , X25), wobei Xi das Gewicht bei i–terGeburt ist. Man kann hier annehmen, dass die Zufallsgrossen Xi’s, i.i.d. normal-verteiltN(µ, σ2) sind mit unbekannten Parametern µ, σ2.

Aus der Schatztheorie wissen wir, dass X25 := 125

25∑

i=1

Xi und V 225 := 1

24

25∑

i=1

(Xi − X25)2 sehr

gute Schatzungen fur µ und σ2 sind.

Bemerkung Die emprische Varianz ist S2n := 1

25

25∑

i=1

(Xi − X25)2. Fur V 2

25 hat man die

Summe der Quadrate durch 24 dividiert. Der Grund dafur ist die folgende

Behauptung Unter der Hypothese µ = µ0 hat die Statistik T =X25 − µ0

V25/5genau eine

Student-Verteilung mit 24 Freiheitsgraden.

(Daruber werden wir in den Ubungen sprechen, aber nur fur Mathematiker und Physiker!)

Wir bezeichnen mit fm die Dichte der Student-Verteilung mit m Freiheitsgraden (siehe“Einfuhrung in die Wahrscheinlichkeitstheorie”) und, fur 0 < α < 1, mit tα,m die Zahl, fur

welchetα,m∫

−∞fm(x)dx = 1 − α.

Die Idee: Der Test von Student (einseitig) lehnt die Hypothese ab, falls der beobachteteWert t von T zu gross ist.

Zuruck zum BeispielNehmen wir an, wir haben X1 = x1, . . ., X25 = x25 beobachtet, und das folgende erhalten:

x25 = 125

25∑

i=1

x2 = 3470 g, v25 = 408 g. Dann bekommen wir t =x25 − 3200

408/5= 3, 31.

α sei 5 %.Aus einer Tabelle fur die Student-Verteilung liest man t0,05, 24 = 1, 711.

Folgerung: Der Student-Test lehnt die Hypothese ab, da 3, 31 > 1, 711.

Der Test ist sogar hoch signifikant, weil er auch zum Niveau 1 % ablehnt: t0,01,24 = 2, 492.

2.8 Beispiel 2.7: Fortsetzung. Der zweiseitige Student-Test

Die Bezeichnungen sind dieselben, wie unter 2.7.Die Hypothese ist wie oben, d.h. µ = µ0 = 3200 g. Wir betrachten aber jetzt als Alternative

K∗ : µ 6= µ0. Fur 0 < α < 1 vorgegeben, sei t∗α,m die Zahl fur welchet∗α,m∫

−t∗α,m

fm(x)dx = 1−α.

Definition Der zweiseitige Student-Test fur H gegen K∗ lehnt die Hypothese zum Ni-veau α ab, falls

|t| =x25 − 3200

408/5≥ t∗α, 24 ist .

Page 34: Vorlesung Einführung in die mathematische Statistik

34

Ware z.B. α = 5 %, dann wurde man in einer Tabelle fur die Student-Verteilung mit 24Freiheitsgraden t∗0,05, 24 = 2, 06 finden. Da |t| = 3, 31, lehnt also der Student-Test dieHypothese ab. Wie vorher wurde der Test die Hypothese auch zum Niveau 1 %(t∗0,01, 24 = 2, 80!) ablehnen.

2.9 Testen von zwei Mittelwerten bei unbekannter Varianz

Der einseitige (zweiseitige) Student-Test fur zwei unabhangige StichprobenHaufig stellt sich das Problem des qualitativen Vergleiches von zwei Methoden, z.B. desVergleiches von zwei Behandlungsmethoden A und B. Man hat dann zwei Reihen von Zu-fallsgrossen (Messungen) X1, . . . , Xn1 (Methode A) und Y1, . . . Yn2 (Methode B), die alleunabhangig sind. Weiter nimmt man haufig an, X1, . . . , Xn1 seien N(µ1, σ

21)–verteilt und

Y1, . . . , Yn2 seien N(µ2, σ22)–verteilt.

Wir wollen hier die Hypothese µ1 = µ2 gegen die Alternative K : µ2 > µ1 (einseitiger Fall)oder die Hypothese µ1 = µ2 gegen die Alternative K∗ : µ1 6= µ2 (zweiseitiger Fall) testen.

Im folgenden werden wir annehmen, dass σ21 = σ2

2 =: σ2 ist.(Den Fall, wo die Varianzen verschieden sind, werden wir in der Vorlesung kurz besprechen.)

Man definiere

Xn1 := 1n1

n1∑

i=1

Xi, Yn2 := 1n2

n2∑

j=1

Yj und

V 2n1+n2

= V 2n := 1

n1+n2−2

{n1∑

i=1

(Xi − Xn1)2 +

n2∑

j=1

(Yj − Yn2)2

}

.

Dann kann man den folgenden Satz beweisen:

Satz (ohne Beweis)Unter der Hypothese µ1 = µ2 besitzt die Statistik

T (X1, . . . , Xn1 , Y1, . . . , Yn2) :Xn1 − Yn2

Vn

√1

n1+ 1

n2

eine Student-Verteilung mit n1 + n2 − 2 Graden.

tα,n und t∗α,m seien wie unter 2.7 und 2.8 definiert.

Definition Wenn man X1 = x1, . . . , Xn1 = xn1 , Y1 = y1, . . . , Yn2 = yn2 beobachtet hat,lehnt, zum Niveau α, der einseitige Student-Test (zweiseitige Student-Test) die Hypotheseab, falls

T (x1, . . . , xn1 , y1, . . . , yn2) ≥ tα,n1+n2−2

(|T (x1, . . . , xn2 , y1, . . . , yn2)| ≥ t∗α,n1+n2−2

)

Beispiel Schweinemast mit zwei verschiedenen Futtermitteln A und B. Beobachtet wur-den bei 14 zufallig ausgewahlten Schweinen die Gewichtszunahme (in kg) wahrend einerbestimmten Periode. Dabei waren 7 Schweine mit A gefuttert worden, die anderen mit B.

Hier sind die Resultate:

Page 35: Vorlesung Einführung in die mathematische Statistik

35

Gruppe A Gruppe B

x y1 33,17 53,772 66,25 53,133 26,08 37,754 43,79 73,455 46,22 58,256 55,81 61,147 54,50 38,80

Dann bekommen wirT (x1, . . . , x7, y1, . . . , y7) = 1, 023 .

Wir haben hier 12 Freiheitsgrade fur die Student-Verteilung. Aus einer Tabelle liest man,fur α = 5 %, t0,05, 12 = 1, 782. Also wird die Hypothese µ1 = µ2 gegen µ2 > µ1 nichtabgelehnt. Fur den zweiseitigen Fall (µ1 6= µ2) hat man t∗0,05, 12 = 2, 179. Also wird hierauch die Hypothese nicht abgelehnt.

2.10 Ein anderer Test zum Vergleich von zwei Mittelwerten:Der Wilcoxon-Test oder Mann-Whitney U–Test

Der Einfachheit halber betrachten wir dasselbe Problem und dasselbe Beispiel wie unter 2.9.(Der Wilcoxon-Test ist fur sehr allgemeine Situationen anwendbar. Man braucht z.B. nichtwie beim Student-Test eine Normalverteilung fur die Zufallsgrossen vorauszusetzen.)

Es werden also n = n1 + n2 unabhangige Zufallsgrossen X1, . . . , Xn1 , Y1, . . . , Yn2 mit denXi’s i.i.d. N(µ1, σ

2) verteilt und den Yj ’s i.i.d. N(µ2, σ2) verteilt, beobachtet.

Als Hypothese nehmen wir wie vorher µ1 = µ2 (es gibt also keinen Unterschied zwischen denFuttermitteln A und B!) und als Alternativen, einmal K : µ2 > µ1 (einseitig) und einmalK∗ : µ1 6= µ2 (zweiseitig).

Das VerfahrenMan ordnet alle Xi, Yj gemeinsam der Grosse nach an. Jeder Zufallsgrosse ordnet mandann ihren Rang in der gesamten Stichprobe zu.

Ri sei der Rang von Xi, i = 1, . . . , n1.

Qj sei der Rang von Yj , j = 1, . . . , n2,.

Beachte: Die Range sind Zufallsgrossen.

U1 (U2) sei die Summe der Range der Xi (Yj), also U1 :=n1∑

i=1

Ri, U2 :=n2∑

j=1

Qj .

Die Idee im einseitigen Fall (zweiseitigen Fall): Man lehnt die Hypothese ab, falls derbeobachtete Wert u2 von U2 zu gross ist (falls u2 zu gross oder zu klein ist).

Illustration anhand des Beispiels von 2.9.

Page 36: Vorlesung Einführung in die mathematische Statistik

36

Die geordnete Stichprobe sieht so aus:

x x y y x x y26,08 33,17 37,71 38,80 43,79 46,22 53,13

y x x y y x y53,77 54,50 55,81 58,25 61,14 66,25 73,45

Die Range der yj sind {3, 4, 7, 8, 11, 12, 14}.Die Summe u2 dieser Range ist also u2 = 59.

Aus einer Tabelle fur die Wilcoxon Statistik liest man, fur den einseitigen Fall, dass, unter

der Hypothese, PH

(

U2 :=7∑

j=1

Qj ≥ 59

)

= 0, 22789 (siehe z.B. Lehmann “Nonparametrics”:

Statistical methods based on ranks).

Der Wert α59 = 0, 22789 ist der sogenannte p–Wert, der im Abschnitt 2.1 erklart wurde.

Wahlt man α = 5 %, dann gilt α < α59. Deshalb lehnt der Wilcoxon-Test die Hypotheseµ1 = µ2 nicht ab (siehe 2.1).

Auch im zweiseitigen Fall wird die Hypothese nicht abgelehnt.

Bemerkung Fur grosse Werte von n1 und n2 (siehe oben: Das Verfahren), normiert

man die Statistik U2 =n2∑

j=1

Qj so, dass, unter der Hypothese, eine Approximation durch die

Standard-Normal-Verteilung moglich ist. (Siehe z.B. Lehmann “Nonparametrics”: Statisti-cal methods based on ranks.)

2.11 Vergleich zweier unabhangiger binomial-verteilter Zufallsgrossen (sieheAbschnitt 2.3)Wir betrachten dieselbe Situation wie unter 2.3. Wie dort seien X , Y zwei unabhangigebinomial-verteilte Zufallsgrossen mit Parametern n1, p1 bzw. n2, p2. Wie vorher sei dieHypothese H : p1 = p2 = p, wobei p unbekannt ist.

Der χ2–Test fur die Hypothese HNehmen wir an, wir haben X = x und Y = y beobachtet. Die Resultate konnen wir in einerTafel zusammenfassen:

Anlage 1 Anlage 2 Totale

x y x+ y

n1 − x n2 − y n1 + n2 − x− y

Total = n1 Total = n2 n = n1 + n2

Das Verfahren

1. Unter der Hypothese schatzt man p durch x+yn1+n2

=: p.

Page 37: Vorlesung Einführung in die mathematische Statistik

37

2. Die erwartete Haufigkeit der fehlerhaften Stucke bei der Anlage 1 (Anlage 2) ist durchx := n1p (y := n2p) gegeben.

3. Die χ2–Statistik ist dann

χ2 :=(x− x)2

x+

(y − y)2

y+

(n1 − x− (n1 − x))2

n1 − x+

(n2 − y − (n2 − y))2

n2 − y.

4. Die Anzahl von Freiheitsgraden ist gleich v := 4 − 1 − 1 = 2 = Dimension der Tafel−1−Anzahl der geschatzten Parameter (p!).

5. Sei 0 < α < 1 vorgegeben. Sei ηα die Zahl, fur welcheηα∫

0

h2(x)dx = 1 − α.

6. Der χ2–Test lehnt die Hypothese ab, falls χ2 ≥ ηα.

Beispiel (siehe 2.3)n1 = 200, x = 5, n2 = 100, y = 10.

χ2 ist dann gleich 7.85 und η0,05 = 5, 9991.

Der χ2–Test lehnt also die Hypothese ab.

Bemerkung Auf dieselbe Weise kann man den χ2–Test benutzen, um zwei unabhangigemultinomial-verteilte Zufallsgrossen zu vergleichen:

Beispiel Man wurfelt mit einem Wurfel A, n1–mal und mit einem Wurfel B, n2–mal. SeiPA({i}) =: pi = Wahrscheinlichkeit bei einem Wurf mit A, i zu bekommen, i = 1, 2, . . . , 6.qi := PB({i}) sei analog definiert.

Frage Gilt pi = qi =: wi, i = 1, 2, . . . , 6, wobei die wi unbekannt sind? D.h. besitzen diebeiden Wurfel dieselben probabilistischen Eigenschaften?

Das Verfahren, um die Hypothese H : pi = qi, ∀ i, zu testen:

Man definiere nk1 := Anzahl von k bei den n1 Wurfen mit A und nk2 := Anzahl von k beiden n2 Wurfen mit B. Das sind die beobachteten Haufigkeiten, k = 1, 2, . . . , 6.

Man schatzt, unter der Hypothese, wi durch wi : ni1+ni2

n1+n2, i = 1, . . . , 6. Die erwarteten

Haufigkeiten sind dann durch nk1 := n1wk und nk2 := n2wk gegeben, k = 1, 2, . . . , 6.

Die χ2–Statistik ist dann definiert als

χ2 =

6∑

i=1

(ni1 − ni1)2

ni1+

6∑

i=1

(ni2 − ni2)2

ni2.

Die Anzahl von Freiheitsgraden ist gleich 12 − 1 − 5 = 6 = Dimension der Tafel (der nik,(i = 1, . . . , 6, k = 1, 2) −1− Anzahl der geschatzten Parameter (w1, w2, . . . , w5!).

Der χ2–Test lehnt die Hypothese zum Niveau α ab, falls χ2 ≥ ηα, wo ηα so ist, dassηα∫

0

h6(x)dx = 1 − α .