93
Stochastik II Skript zur Vorlesung Wolfgang N¨ ather Dietrich Stoyan Helge Bahmann Tobias Schlemmer Gunter D¨ oge April 2005

Stochastik II - Fakultät für Mathematik und Informatik (Fakultät 1) … · 2008-04-01 · Stochastik In diesem Kapitel sollen die Grundlagen der Wahrscheinlichkeitstheorie auf

  • Upload
    others

  • View
    5

  • Download
    0

Embed Size (px)

Citation preview

Page 2: Stochastik II - Fakultät für Mathematik und Informatik (Fakultät 1) … · 2008-04-01 · Stochastik In diesem Kapitel sollen die Grundlagen der Wahrscheinlichkeitstheorie auf
Page 3: Stochastik II - Fakultät für Mathematik und Informatik (Fakultät 1) … · 2008-04-01 · Stochastik In diesem Kapitel sollen die Grundlagen der Wahrscheinlichkeitstheorie auf

INHALTSVERZEICHNIS i

Inhaltsverzeichnis

1 Nachtrage zu den Grundlagen der Stochastik 3

1.1 Eigenschaften der Wahrscheinlichkeit . . . . . . . . . . . . . . . . . . . . . . . . . . 3

1.2 Darstellung der hypergeometrischen Verteilung als Bildmaß . . . . . . . . . . . . . 6

2 Zufallsgroßen und Verteilungen - maßtheoretisch 7

2.1 Zufallsgroßen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

3 Erwartungswerte - maßtheoretisch 9

3.1 Allgemeines und Formeln . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

3.1.1 Definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

3.1.2 Berechnung von Erwartungswerten . . . . . . . . . . . . . . . . . . . . . . . 9

3.2 Einige Ungleichungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

4 Quantile und Zufallszahlen-Erzeugung 13

5 Unabhangigkeit und Produktmaße 17

5.1 Unabhangigkeit von σ-Algebren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

5.2 Unabhangige oder Produkt-Experimente . . . . . . . . . . . . . . . . . . . . . . . . 17

6 Zufallige Vektoren, unabhangige Zufallsgroßen 19

6.1 Zufallige Vektoren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

6.1.1 Grundbegriffe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

6.1.2 Diskrete und absolutstetige Zufallsvektoren . . . . . . . . . . . . . . . . . . 20

6.2 Randverteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

6.3 Unabhangigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

6.4 Erwartungswert, Kovarianz, Korrelation . . . . . . . . . . . . . . . . . . . . . . . . 24

6.5 Beispiele fur Verteilungen zufalliger Vektoren . . . . . . . . . . . . . . . . . . . . . 26

6.5.1 Gleichverteilung auf G ∈ Rd . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

6.5.2 n-dimensionale Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . . 26

6.5.3 Gibbs-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

6.5.4 Bayes-a-posteriori-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . 28

Page 4: Stochastik II - Fakultät für Mathematik und Informatik (Fakultät 1) … · 2008-04-01 · Stochastik In diesem Kapitel sollen die Grundlagen der Wahrscheinlichkeitstheorie auf

ii INHALTSVERZEICHNIS

7 Bedingte Verteilungen, bedingte Erwartung 29

7.1 Einfuhrung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

7.2 Bedingte Großen bezuglich B ∈ A mit P (B) > 0 . . . . . . . . . . . . . . . . . . . 30

7.3 Verteilung von X unter der Bedingung Y = y . . . . . . . . . . . . . . . . . . . . . 31

7.4 Allgemeiner Begriff der bedingten Erwartung . . . . . . . . . . . . . . . . . . . . . 32

8 Funktionen von Zufallsvektoren, Faltung 37

8.1 Funktionen von zufalligen Vektoren . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

9 Prufverteilungen der Statistik 41

9.1 χ2-Verteilung mit n Freiheitsgraden . . . . . . . . . . . . . . . . . . . . . . . . . . 41

9.2 Verteilung von S2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

9.3 t-Verteilung mit n Freiheitsgraden . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

9.4 F -Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

10 Charakteristische Funktionen 45

10.1 Definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

10.2 Elementare Eigenschaften . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

10.3 Umkehr- und Eindeutigkeitssatz . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

10.4 Die charakteristische Funktion und Momente . . . . . . . . . . . . . . . . . . . . . 48

10.5 Stetigkeitssatz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

11 Gesetze der großen Zahlen 51

11.1 Konvergenzarten der Stochastik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

11.2 Gesetze der großen Zahlen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

11.2.1 Schwache Gesetze der großen Zahlen . . . . . . . . . . . . . . . . . . . . . . 52

11.2.2 Starkes Gesetz der großen Zahlen . . . . . . . . . . . . . . . . . . . . . . . . 53

12 Zentrale Grenzwertsatze 57

12.1 Vorbetrachtungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57

12.2 Grenzwertsatz von Moivre-Laplace . . . . . . . . . . . . . . . . . . . . . . . . . . . 57

12.3 Grenzwertsatz fur Folgen von iid-Zufallsgroßen . . . . . . . . . . . . . . . . . . . . 59

12.4 Grenzwertsatz von Lindeberg-Feller . . . . . . . . . . . . . . . . . . . . . . . . . . . 60

13 Eigenschaften von Schatzern 67

13.1 Ungleichung von Rao-Cramer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

13.2 Suffiziente Schatzer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70

14 Signifikanztests 73

14.1 Einfuhrung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73

14.2 Beispiel: Mittelwert-Tests im Fall der Normalverteilung . . . . . . . . . . . . . . . 74

14.2.1 Bekannte Varianz – Gauß-Test . . . . . . . . . . . . . . . . . . . . . . . . . 74

Page 5: Stochastik II - Fakultät für Mathematik und Informatik (Fakultät 1) … · 2008-04-01 · Stochastik In diesem Kapitel sollen die Grundlagen der Wahrscheinlichkeitstheorie auf

INHALTSVERZEICHNIS 1

14.2.2 Unbekannte Varianz – Student-Test, t-Test . . . . . . . . . . . . . . . . . . 76

14.2.3 Vergleich zweier Mittelwerte – Welch-Test . . . . . . . . . . . . . . . . . . . 77

14.3 Ausgewahlte weitere Tests im Fall der Normalverteilung . . . . . . . . . . . . . . . 77

14.3.1 Varianztest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

14.3.2 Korrelation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78

14.4 χ2-Anpassungstest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78

15 Regressionsanalyse 79

15.1 Einfuhrung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79

15.2 Methode der kleinsten Quadrate fur Modell I . . . . . . . . . . . . . . . . . . . . . 80

15.3 Nicht parametrische Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82

16 Konfidenz-Intervalle 83

Literaturverzeichnis 87

Index 87

Page 6: Stochastik II - Fakultät für Mathematik und Informatik (Fakultät 1) … · 2008-04-01 · Stochastik In diesem Kapitel sollen die Grundlagen der Wahrscheinlichkeitstheorie auf

2 INHALTSVERZEICHNIS

Page 7: Stochastik II - Fakultät für Mathematik und Informatik (Fakultät 1) … · 2008-04-01 · Stochastik In diesem Kapitel sollen die Grundlagen der Wahrscheinlichkeitstheorie auf

3

Kapitel 1

Nachtrage zu den Grundlagen derStochastik

In diesem Kapitel sollen die Grundlagen der Wahrscheinlichkeitstheorie auf der Grundlage derMaßtheorie erlautert werden.

1.1 Eigenschaften der Wahrscheinlichkeit

Um ein Zufallsexperiment quantitativ zu beschreiben, werden den Ereignissen A ∈ A

”Haufigkeiten“ ihres moglichen Auftretens, die sog. Wahrscheinlichkeiten, zugeordnet. Die Wahr-scheinlichkeit1 dafur, dass A eintritt (kurz: Wahrscheinlichkeit von A), wird mit P (A) bezeichnet.

Definition 1.1 Axiomatische Definition von Kolmogorow Der Maßraum [Ω,A, P ] istder sogenannte Wahrscheinlichkeitsraum. Dabei ist P ein normiertes Maß, das sogenannteWahrscheinlichkeits-Maß, auch Wahrscheinlichkeits-Verteilung genannt.

Damit genugt P : A → [0, 1] den folgenden Eigenschaften (jeweils fur beliebige A,B ∈ A):

P (A) ≥ 0P (Ω) = 1

A ∩B = ∅ ⇒ P (A ∪B) = P (A) + P (B)A1, A2, . . . ∈ A paarweise unvereinbar ⇒ P (

⋃i Ai) =

∑i P (Ai)

(σ-Additivitat/Volladditivitat)

Aus der Maßtheorie ergeben sich die folgenden Eigenschaften (fur A,B,Bn ∈ A):

Bn ↓ B ⇒ P (Bn) ↓ P (B) StetigkeitP (∅) = 0

P (Ac) = 1− P (A)A ⊂ B ⇒ P (A) ≤ P (B) (Monotonie)

Ferner gilt die Einschluss-Ausschluss-Formel (Poincare-Formel):

P

(n⋃

i=1

Ai

)=

n∑k=1

(−1)k−1∑

1≤i1<...<ik≤n

P (Ai1 ∩ . . . ∩Aik) (1.1)

1lat.”probabilitas, -atis“; engl.

”probability“

Page 8: Stochastik II - Fakultät für Mathematik und Informatik (Fakultät 1) … · 2008-04-01 · Stochastik In diesem Kapitel sollen die Grundlagen der Wahrscheinlichkeitstheorie auf

4 KAPITEL 1. NACHTRAGE ZU DEN GRUNDLAGEN DER STOCHASTIK

Fur n = 3 lautet diese Formel zum Beispiel:

P (A ∪B ∪ C) = P (A) + P (B) + P (C)− P (A ∩B)− P (B ∩ C)− P (A ∩ C) + P (A ∩B ∩ C)

und fur n = 2:

P (A ∪B) = P (A) + P (B)− P (A ∩B)

Bemerkung: Das Rechnen mit Komplementen ist eine haufig angewendete Methode, zum Beispielbei

P (”mindestens ein . . .“) = 1− P (”kein . . .“).

Obwohl das unmogliche Ereignis die Wahrscheinlichkeit 0 hat, ist nicht jedes Ereignis, das dieWahrscheinlichkeit 0 hat, das unmogliche Ereignis. Dementsprechend heißen Ereignisse A mit

• A 6= ∅, P (A) = 0 ”fast unmoglich“

• A 6= Ω, P (A) = 1 ”fast sicher“

Weiterhin gilt fur beliebige Ereignisse A1, A2, . . . die Boolesche Ungleichung (vergleiche Maßtheo-rie):

P

( ∞⋃i=1

(Ai)

)≤

∞∑i=1

P (Ai) (1.2)

Satz 1.1 (1. Borel-Cantelli-Lemma) Sei Ai eine beliebige Folge von Ereignissen. Wenn

∞∑i=1

P (Ai) < ∞

ist, so gilt

P

(lim sup

i→∞Ai

)= 0.

Beweis: Es gilt

lim supi→∞

Ai =∞⋂

k=1

∞⋃n=k

An ⊂∞⋃

n=k

An, (k beliebig).

Damit lasst sich fur beliebig kleines ε zeigen, dass es ein k0 gibt, so dass fur alle k > k0 gilt:

P

(lim sup

i→∞Ai

)≤ P

( ∞⋃n=k

An

)≤

∞∑n=k

P (An) < ε

Satz 1.2 (2. Borel-Cantelli-Lemma) Die Ereignisse A1, . . . , An seien paarweise unabhangig

mit∞∑

n=1P (An) = ∞. Dann gilt:

P (lim supn→∞

An) = 1

Page 9: Stochastik II - Fakultät für Mathematik und Informatik (Fakultät 1) … · 2008-04-01 · Stochastik In diesem Kapitel sollen die Grundlagen der Wahrscheinlichkeitstheorie auf

1.1. EIGENSCHAFTEN DER WAHRSCHEINLICHKEIT 5

Beweis. 2 Fur vollstandig unabhangige An gilt:

P (N⋂

k=n

Ack) =

N∏k=n

(1− P (Ak)) ≤ exp

(−

N∑k=n

P (Ak)

)

Letzterer Term strebt gegen Null, wenn N gegen Unendlich geht. (Die Abschatzung nutzte dieBeziehung:

(1− x) ≤ e−x.)

Fur alle n ist daher P (∞⋂

k=n

Ack) = 0, und nach der Booleschen Ungleichung und den de-Morganschen

Formeln folgt:

0 = P

( ∞⋃n=1

∞⋂k=n

Ack

)= P

(( ∞⋂n=1

∞⋃k=n

Ak

)c)

= P

((lim sup

n→∞An)c

)Demzufolge ist

P (lim supn→∞

An) = 1.

Diese Satze sind sogenannte ”Null-Eins-Gesetze“. Diese Gesetze enthalten Aussagen uber Wahr-scheinlichkeiten, die unter bestimmten Bedingungen nur die Werte 0 oder 1 annehmen konnen.

Eine Anwendung ergibt sich, wenn An das Ereignis beschreibt, dass bei der n-ten Lotto-Ziehungein Sechser erzielt wird. Die Voraussetzungen von Satz 1.2 sind offenbar erfullt. Schließlich sind dieeinzelnen An unabhangig und die Wahrscheinlichkeiten P (An) liegen konstant bei P (A1), welchegroßer als 0 ist. Der Satz besagt nun folgendes: Wenn die Menschheit unendlich lange Lotto spielenwurde, kame es unendlich oft vor, dass ein Sechser auftritt.

Wahrscheinlichkeits-Begriff

Es gab in der Entwicklung der Wahrscheinlichkeitstheorie noch andere Versuche, die Wahrschein-lichkeit zu definieren:

Bernoulli definierte 1713 die Wahrscheinlichkeit als ”Grad der Gewissheit, welcher sich zur Ge-wissheit wie der Teil zum Ganzen verhalt“. Ahnlich bezeichnete Laplace 1812 damit das Verhaltnisder Anzahl der fur A gunstigen Falle zu der Anzahl der moglichen Falle. Dies entspricht dersogenannten frequentistischen Auffassung, die von einer naturgesetzartigen Konvergenz derHaufigkeiten ausgeht.

von Mises versuchte 1919, die Wahrscheinlichkeit folgendermaßen zu definieren: Wenn in einerFolge von gleichartigen Beobachtungen bei jeder regellosen Auswahl unendlich vieler Ereignis-se die Wahrscheinlichkeit P (A) = lim

n→∞h(A)

n stets das gleiche Ergebnis liefert, so ist dieses dieWahrscheinlichkeit.

Kolmogorow fuhrte 1933 die obige axiomatische Definition der Wahrscheinlichkeit ein:

Der Vollstandigkeit halber soll hier noch die subjektive Wahrscheinlichkeit angefuhrt werden.Diese begegnet uns z. B., wenn beim Wetterbericht das Niederschlags-Risiko bekanntgegeben wird.Es handelt sich dabei oft um Zahlenwerte, die der Meteorologe vom Dienst festlegt.

2vergleiche [6], Seite 74. Dort steht auch der Beweis fur den allgemeinen Fall.

Page 10: Stochastik II - Fakultät für Mathematik und Informatik (Fakultät 1) … · 2008-04-01 · Stochastik In diesem Kapitel sollen die Grundlagen der Wahrscheinlichkeitstheorie auf

6 KAPITEL 1. NACHTRAGE ZU DEN GRUNDLAGEN DER STOCHASTIK

1.2 Darstellung der hypergeometrischen Verteilung alsBildmaß

Das Lottomodell

N . . . Anzahl moglicher Zahlen

M . . . Anzahl der Gewinnzahlen

n . . . Anzahl der getippten Zahlen

(siehe ”Elementare Stochastik“, Kapitel B) kann durch ein diskretes Wahrscheinlichkeits-Maß aufΩ′ = max0, n − N + M,max0, n − N + M + 1, . . . ,minn, M beschrieben werden, diesogenannte hypergeometrische Verteilung. Der Raum (Ω′,A′ = P(Ω′), P(N,M,n)) mit

P(N,M,n)(k) =

(Mk

)(N−Mn−k

)(Nn

) (1.3)

ist ein Wahrscheinlichkeitsraum und eine Vergroberung des Ausgangswahrscheinlichkeitsraumes(Ω,A = P(Ω), P ), wobei Ω die Menge der

(Nn

)moglichen Tipps und P die diskrete Gleichverteilung

auf A ist. Es gibt(Mk

)(N−Mn−k

)Elemente von Ω, die auf dasselbe Element von Ω′ (namlich k) fuhren.

Sei der Tipp z.B. die Menge 1, 2, . . . , n. Dann kann eine diesen Tipp charakterisierende Abbil-dung S : Ω → Ω′ folgendermaßen definiert werden:

S(ω) = |ω ∩ 1, . . . , n|, ω ∈ Ω.

ω ist dann ein n-tupel verschiedener Zahlen aus 1,. . . ,N. Da Potenzmengen σ-Algebren sind, ist indiesem Falle auch die Messbarkeit gegeben. Das dadurch induzierte Bildmaß ist durch PS(k) :=P (S−1(k)) definiert. Dies lasst sich noch etwas umformen:

P (S−1(k)) = P (ω : |ω ∩ 1, 2, . . . , n| = k = P(N,M,n)(k).

Page 11: Stochastik II - Fakultät für Mathematik und Informatik (Fakultät 1) … · 2008-04-01 · Stochastik In diesem Kapitel sollen die Grundlagen der Wahrscheinlichkeitstheorie auf

7

Kapitel 2

Zufallsgroßen und Verteilungen -maßtheoretisch

In diesem Kapitel soll nun der Zusammenhang zwischen der Wahrscheinlichkeitstheorie und derMaßtheorie vertieft werden. Reelle Funktionen werden mit Zufallsgroßen und Abbildungen mitZufallsvariablen identifiziert (diese sind ja beide messbar). Speziell wird aus der Funktion f ein Xund aus dem Wert f(x) wird die Realisierung X(ω) = x.

2.1 Zufallsgroßen

Oft ist es sinnvoll, das Zufallsgeschehen von (Ω,A, P ) auf einen leichter beschreibbaren Raum(Ω′,A′) zu transformieren (z.B. Ω′ = Rd). Wenn zum Beispiel ωk ein Elementarereignis ist, in demsich k Unfalle an einem Tag ereignen, dann ist X(ωk) = k eine sinnvolle Transformation.

Ein weiteres Beispiel: Wurfeln mit zwei Wurfeln, wobei die Augensumme betrachtet wird. Ω istdann Ω = 1, . . . , 6×1, . . . , 6. Fur den Bildraum ist Ω′ = R1 sinnvoll. Zu dem Elementarereignisω = (ω1, ω2) bietet sich das Bildelementarereignis ω′ = ω1 + ω2 an.

Allgemein muss gesichert sein, dass

X ∈ A′ = ω ∈ Ω : X(ω) ∈ A′ = X−1(A′) ∈ A, (2.1)

damit X ∈ A′ ein Ereignis und P (X ∈ A′) definiert sind. X muss also eine (A,A′)-messbareAbbildung sein.

Definition 2.1 Seien (Ω,A, P ) ein Wahrscheinlichkeitsraum und (Ω′,A′) ein messbarer Raum.Die Abbildung X : Ω → Ω′ heißt Zufallsvariable (zufallige Variable), wenn sie (A,A′)-messbar ist.

DurchPX(A′) = P (X−1(A′)), A′ ∈ A′ (2.2)

wird durch X auf (Ω′,A′) ein Wahrscheinlichkeitsmaß PX induziert. (Ω′,A′, PX) ist der Bild-Wahrscheinlichkeitsraum bezuglich X. PX heißt dann Verteilungs-Gesetz der Zufallsvariablen X.

Wir interessieren uns im Folgenden speziell fur folgende Zufallsvariablen:

Ω′ = R1, A′ = R1 = σ-Algebra der Borelmengen des R1; dann heißt die Zufallsvariable Zufalls-große.

Ω′ = Rd, A′ = Rd = σ-Algebra der Borelmengen des Rd; dann heißt die zufallige Variable zufalligerVektor bzw. Zufallsvektor.

Page 12: Stochastik II - Fakultät für Mathematik und Informatik (Fakultät 1) … · 2008-04-01 · Stochastik In diesem Kapitel sollen die Grundlagen der Wahrscheinlichkeitstheorie auf

8 KAPITEL 2. ZUFALLSGROSSEN UND VERTEILUNGEN - MASSTHEORETISCH

Weitere wichtige Zufallsvariablen hangen mit zufalligen Funktionen, stochastischen Prozessen undzufalligen Mengen zusammen.

Speziell: Zufallsgroßen

(Ω,A, P ) X−→ (R1,R1, PX)

PX ist Wahrscheinlichkeitsmaß auf (R1,R1), (−∞;x) : x ∈ R ist ein Erzeugendensystem furR1, das heißt durch PX((−∞;x)) fur alle x ist PX bereits eindeutig bestimmt (siehe Maßtheorie).Daher:

Definition 2.2 Es sei X eine Zufallsgroße auf (Ω,R, P ). Dann heißt die fur alle reellen x defi-nierte Funktion

FX(x) = PX((−∞;x)) = P (ω ∈ Ω : X(ω) < x) = P (X < x) (2.3)

Verteilungsfunktion 1 der Zufallsgroße X.

Bemerkung. Neben diskreten und absolut stetigen Verteilungen existieren auch singular stetigeVerteilungen. Eine Verteilung Ps heißt singular stetig, wenn ihre Verteilungsfunktion stetig ist undeine Lebesgue-Nullmenge N mit Ps(N) = 1 existiert.

Es gilt der Zerlegungssatz von Lebesgue:Fur jede Verteilungsfunktion F existieren eindeutig bestimmte Verteilungsfunktionen Fa (absolutstetig), Fs (singular stetig), Fd (diskret) und nichtnegative Zahlen αa, αs, αd mit

F = αaFa + αsFs + αdFd, (2.4)

wobei αa + αs + αd = 1.

1In vielen Buchern findet sich”≤“ statt

”<“. Dann wird also mit den halboffenen Intervallen (−∞, x] gearbeitet.

Dann ist die Verteilungsfunktion nicht mehr links-, sondern rechtsseitig stetig. Damit kann es vor allem bei Beweisenzu gewissen Unterschieden kommen, obwohl sich die Theorie vom Ergebnis her kaum unterscheidet.

Page 13: Stochastik II - Fakultät für Mathematik und Informatik (Fakultät 1) … · 2008-04-01 · Stochastik In diesem Kapitel sollen die Grundlagen der Wahrscheinlichkeitstheorie auf

9

Kapitel 3

Erwartungswerte - maßtheoretisch

3.1 Allgemeines und Formeln

3.1.1 Definition

Hier soll nun die Identifikation des Maßes µ mit der Wahrscheinlichkeit P forciert werden. Eswerden die Integrale

∫f(ω) µ(dω),

∫f dµ und

∫f(x) dx, sowie die Bezeichnungen EX, E(X) und

EP (X) eingefuhrt.

Definition 3.1 Es sei X eine Zufallsgroße auf (Ω,A, P ), X sei integrierbar bezuglich P (dasbedeutet

∫Ω

|X(ω)|P (dω) < ∞). Dann heißt

EX =∫Ω

X(ω) P (dω) (3.1)

Erwartungswert von X (Erwartungswert zur Verteilung PX).

Wenn X ≥ 0 ist, so ist die Existenz immer gegeben, aber unter Umstanden ist EX = ∞.

3.1.2 Berechnung von Erwartungswerten

Die Berechnung von Erwartungswerten basiert auf dem Transformationssatz der Maßtheorie. Da-bei werden g mit X und g(µ) mit PX identifiziert. Demnach gilt:

EX =∫R1

xPX(dx) =

+∞∫−∞

xdFX(x) (Riemann-Stieltjes). (3.2)

Im diskreten Fall ergibt sich daraus fur P (X = ak) = pk:

EX =∑(k)

akpk (3.3)

und im absolutstetigen Fall:

EX =

+∞∫−∞

xfX(x) dx. (3.4)

EX kann als Massenschwerpunkt oder Mittelwert gedeutet werden. Hier nun noch zwei Spezialfalle:

Page 14: Stochastik II - Fakultät für Mathematik und Informatik (Fakultät 1) … · 2008-04-01 · Stochastik In diesem Kapitel sollen die Grundlagen der Wahrscheinlichkeitstheorie auf

10 KAPITEL 3. ERWARTUNGSWERTE - MASSTHEORETISCH

• Es sei X = 1A mit A ∈ A. Dann ist

EX = E1A = P (A),

denn es gilt: ∫1A(ω) P (dω) =

∫A

P (dω). (3.5)

Eine alternative Begrundung geht von der Formel EX =∑

akpk aus und ergibt ebenfalls

EX = 0 · p0 + 1 · p1 = 0 · P (Ac) + 1 · P (A) = P (A).

• Fur die Exponential-Verteilung lautet die Dichte-Funktion:

fX(x) = 1[0,∞) λe−λx.

Fur den Erwartungswert ergibt sich also:

EX =

∞∫−∞

xfX(x) dx

=

∞∫0

xλe−λx dx =1λ

Bemerkung. Die Integration ist eine lineare Operation, daher gilt fur beliebige reelle Zahlen αund β

E(αX + βY ) = αEX + βEY, (3.6)

sofern die Erwartungswerte EX und EY der beiden Zufallsgroßen X und Y existieren.

Anwendung Um den Erwartungswert einer Binomialverteilung auszurechnen, ist es ungeschickt,zu versuchen, ihn nach (3.3) direkt zu berechnen.

Viel einfacher ist es hingegen, die Zufallsvariable entsprechend

X =n∑

i=1

Xi, Xi = 1Ai

zu zerlegen, wobei Ai das Ereignis eines Erfolges im i-ten Versuch beschreibt. Die Xi sind danndiskret mit a1 = 0, a2 = 1, p1 = 1−p und p2 = p. Damit ist der Erwartungswert EXi = p. Darausfolgt fur den Gesamt-Erwartungswert

EX = np. (3.7)

Wenn X ≥ 0, kann man den Erwartungswert mitunter elegant durch Integration uber die Vertei-lungsfunktion F (x) ermitteln:

EX =

∞∫0

(1− F (x)) dx. (3.8)

Damit kann man zum Beispiel noch einmal den Erwartungswert der Exponentialverteilung be-rechnen. Dichte- und Verteilungsfunktion sahen ja folgendermaßen aus:

F (x) = 1− e−λx, x ≥ 0f(x) = λe−λx, x ≥ 0.

Page 15: Stochastik II - Fakultät für Mathematik und Informatik (Fakultät 1) … · 2008-04-01 · Stochastik In diesem Kapitel sollen die Grundlagen der Wahrscheinlichkeitstheorie auf

3.2. EINIGE UNGLEICHUNGEN 11

Es ergibt sich

EX =

∞∫0

(1− F (x)) dx

=

∞∫0

e−λx dx

=[− 1

λe−λx

]∞0

=1λ

Hier noch eine Bezeichnungsweise:

E(X;A) =∫A

X(ω) P (dω)

ist der auf das Ereignis A eingeschrankte Erwartungswert von X. Oft werden die speziellen Er-wartungswerte E(X;X 6= Y ) und E(X;X > 0) benotigt. Es ist offensichtlich, dass gilt:

E(X;A) = E(X1A).

Es handelt sich hier nicht um einen bedingten Erwartungswert, wie er in 7.4 betrachtet wird.

Beispiel. Bei einem Wurfelwurf beschreibe X die Augenzahl. A sei das Ereignis, dass die Au-genzahl großer als 3 ist. Dann beschreibt E(X;A) den Mittelwert von ”Null oder der Augenzahl,sofern diese großer als 3 ist.“ Es ergibt sich rechnerisch:

E(X;A) =6∑

k=4

akpk = 4 · 16

+ 5 · 16

+ 6 · 16

= 2.5

3.2 Einige Ungleichungen

Satz 3.1 Es sei X eine Zufallsgroße und g eine auf [0,∞) definierte nicht negative monotonwachsende Funktion mit E(g(|X|)) < ∞. Dann gilt fur jede positive Zahl z:

P (|X| ≥ z) ≤ Eg(|X|)g(z)

(3.9)

Beweis. Es gilt fur alle ω

g(|X(ω)|) ≥ g(|X(ω)|)1 (|X(ω)| ≥ z) ≥ g(z)1 (|X(ω)| ≥ z) ,

also

Eg(|X|) ≥ E (g(|X|); |X| ≥ z) ≥ g(z)P (|X| ≥ z).

Speziell fur g(x) = xk, k > 0, ergibt sich die Markowsche Ungleichung

P (|X| ≥ z) ≤ E|X|k

zk(3.10)

und fur X := X − EX und k = 2 die Tschebyschewsche Ungleichung:

P (|X − EX| ≥ z) ≤ varX

z2(3.11)

Page 16: Stochastik II - Fakultät für Mathematik und Informatik (Fakultät 1) … · 2008-04-01 · Stochastik In diesem Kapitel sollen die Grundlagen der Wahrscheinlichkeitstheorie auf

12 KAPITEL 3. ERWARTUNGSWERTE - MASSTHEORETISCH

Satz 3.2 (Jensensche Ungleichung) g sei konvex und E|X| < ∞. Dann gilt

g(EX) ≤ E(g(X)) (3.12)

Beweis. Wegen der Konvexitat existiert ein reelles a, so dass fur alle x gilt:

g(x) ≥ g(EX) + a(x− EX)

(Wenn g differenzierbar ist, dann ist a = g′(EX).) Fur x = X(ω) ergibt sich

g(X(ω)) ≥ g(EX) + a(X(ω)− EX) fur alle ω.

Damit ist dannEg(X) ≥ g(EX) + a(EX − EX) = g(EX)

An dieser Stelle sei noch auf die wichtigen Ungleichungen der Funktionalanalysis von Holder,Ljapunow und Minkowski verwiesen. Die Cauchy-Schwarzsche Ungleichung gilt naturlich auchhier. Unter der Voraussetzung, dass EX2 < ∞ und EY 2 < ∞ und damit auch E|XY | < ∞ sind,gilt:

(E(XY ))2 ≤ EX2EY 2. (3.13)

Gleichheit gilt genau dann, wenn X und Y linear abhangig sind, also reelle Zahlen a und bexistieren, so dass P (aX + bY = 0) = 1 ist.

Page 17: Stochastik II - Fakultät für Mathematik und Informatik (Fakultät 1) … · 2008-04-01 · Stochastik In diesem Kapitel sollen die Grundlagen der Wahrscheinlichkeitstheorie auf

13

Kapitel 4

Quantile, Quantilfunktionen undZufallszahlen-Erzeugung

Definition 4.1 Es seien X eine Zufallsgroße auf (Ω,B, P ) mit der Verteilungsfunktion FX , p ∈(0, 1) sowie

Q−p = supx ∈ R : FX(x) < p (4.1)

Q+p = supx ∈ R : FX(x) ≤ p. (4.2)

Jeder Wert Qp ∈ [Q−p , Q+

p ] heißt p-Quantil der Verteilung FX .

Fur fast alle p ist Q−p = Q+

p , d.h., es existiert zu p genau ein Quantilwert Qp. Ist die Verteilungs-funktion FX jedoch in einem Intervall konstant mit Funktionswert p, so ist Q−

p < Q+p . Das tritt

vor allem bei diskreten Verteilungen auf, aber auch bei stetigen Verteilungen, wenn die Wahr-scheinlichkeitsmasse auf mehrere nicht zusammenhangende Intervalle konzentriert ist.

Es gilt:

Qp ist p-Quantil ⇔ FX(Qp) ≤ p ≤ FX(Qp + 0) (4.3)

Interpretation: ”links“ von Qp liegen (maximal) 100% ·p der ”Wahrscheinlichkeitsmasse“, ”rechts“davon (maximal) 100% · (1− p). Im Gegensatz zu EX und varX existieren Quantile immer.

In dem Spezialfall, dass FX absolutstetig mit der Dichte fX ist, ist Qp Losung der Gleichung

FX(Qp) =

Qp∫−∞

fX(x) dx = p (4.4)

Besonders wichtig sind die Quantile fur sehr kleine bzw. sehr große p sowie die Werte

• p = 14 , p = 3

4 , die sogenannten Quartile

• p = 12 , der Median

Im allgemeinen sind Median und Erwartungswert einer Verteilung verschieden (wie man bei-spielsweise an der Exponentialverteilung sieht), fur symmetrische Verteilungen (FX(EX + a) =1−FX(EX − a)) stimmen beide uberein, falls der Median eindeutig im Sinne von Q−

0.5 = Q+0.5 ist.

Page 18: Stochastik II - Fakultät für Mathematik und Informatik (Fakultät 1) … · 2008-04-01 · Stochastik In diesem Kapitel sollen die Grundlagen der Wahrscheinlichkeitstheorie auf

14 KAPITEL 4. QUANTILE UND ZUFALLSZAHLEN-ERZEUGUNG

F

1,0

0,8

0,6

0,4

0,2

0,00 654321

-

6

F−1

6

5

4

3

2

1

01,00,80,60,40,20,0

-

6

Abbildung 4.1: Beispiel einer Verteilungsfunktion (links) sowie der zugehorigen Quantilfunktion(rechts)

Satz 4.1 Sei X eine Zufallsgroße mit E|X| < ∞. Dann gilt

E|X −Q 12| = inf

a∈RE|X − a|,

Falls X absolutstetig ist, so gilt die Formel

Q 12

= arg min(a)

E|X − a|, (4.5)

d.h., der Median minimiert den mittleren (erwarteten) Absolutfehler.1

Ebenfalls von Bedeutung (aber kein Quantil) sind Modalwerte: Dies sind die Werte der Zufalls-große, an denen die Dichte (bei einer absolutstetigen) bzw. Wahrscheinlichkeit (bei einer diskretenZufallsgroße) ein lokales Maximum hat. Gibt es nur einen Modalwert, so heißt die Verteilungunimodal.

Die Inverse der Verteilungsfunktion wird auch als Quantilfunktion bezeichnet:

F−1(x) = supt : FX(t) ≤ x (4.6)

Die Existenz dieser Funktion ist aufgrund der Monotonie von FX immer gegeben. Falls FX strengmonoton ist, so handelt es sich hierbei um die Umkehrfunktion. Man setzt

F−1X (0) = supt : FX(t) = 0

F−1X (1) = inft : FX(t) = 1

Beispiel. In Abbildung 4.1 sind eine Verteilungs-Funktion und die zugehorige Quantil-Funktiondargestellt. Als Auswahl seien hier folgende beiden Werte angegeben:

F−1(0.1) = supt : FX(t) ≤ 0.1 = 1.5F−1(0.5) = supt : FX(t) ≤ 0.5 = 2.5

Satz 4.2 1. Fur alle x und t gilt: F−1(x) < t ⇔ x < F (t).

2. F−1 ist wachsend und rechtsseitig stetig

3. Wenn F stetig ist, dann gilt F (F−1(x)) = x fur alle x aus dem Intervall (0, 1).1Zum Vergleich: Der Erwartungswert minimiert den mittleren quadratischen Fehler:

var X = E(X − EX)2 = infa∈R

E(X − a)2

Page 19: Stochastik II - Fakultät für Mathematik und Informatik (Fakultät 1) … · 2008-04-01 · Stochastik In diesem Kapitel sollen die Grundlagen der Wahrscheinlichkeitstheorie auf

15

Quantil-Transformation

Die Quantil-Transformation bildet eine wichtige Grundlage der Monte-Carlo-Methode.

Satz 4.3 Es sei F eine Verteilungsfunktion und U sei auf [0, 1] gleichmaßig verteilt. Dann hatX = F−1(U) die Verteilungsfunktion F.

Beweis. F−1 ist monoton, also Borel-messbar. Also ist X eine Zufallsgroße. Wegen Satz 4.2 (1.)gilt:

P (X < x) = P (F−1(U) < x) = P (U < F (x)) = F (x)

Inversionsmethode

Aus Pseudo-Zufallszahlen u werden nach dem Prinzip X = F−1(U) Pseudo-Zufallszahlen mit derVerteilungsfunktion F erzeugt.

Wir betrachten hier die Inversionsmethode im diskreten Fall. Es seien P (X = ai) = pi fur i = 1, . . .

und qk =k∑

j=1

pj . Eine naive Losung ist folgende:

Falls u < q1 → a1

q1 ≤ u < q2 → a2

...

Eine eventuell cleverere Losung ist nun, die pi so zu sortieren (hier dann mit p∗i bezeichnet), dassp∗1 > p∗2 > . . . gilt. Dann sieht die Losung folgendermaßen aus:

Falls u < q∗1 → a∗1

q∗1 ≤ u < q∗2 → a∗2...

Verwerfungsmethode

Die Verwerfungsmethode von J. v. Neuman geht davon aus, dass die Zufallsgroße X eine Dichte-funktion f mit f(x) ≤ M und f(x) = 0 fur x < a und x > b besitzt. Man erzeuge Zufallszahlenux und uy aus dem Intervall [0, 1]. Dann berechne man einen Punkt T = (a + ux(b− a),Muy) =(xT , yT ). Falls T unter der Kurve (x, f(x)) liegt, setze man x = xT und erhalt somit eine Zufalls-zahl zur Dichte f(x). Falls T nicht unter der Kurve liegt, starte man neu.

Begrunden lasst sich dieses Verfahren mittels geometrischer Wahrscheinlichkeiten:

P (X < z) = P (XT < z |YT < f(XT )) =P (XT < z, YT < f(XT ))

P (YT < f(XT ))

=

1M(b−a)

z∫a

f(x) dx

1M(b−a)

=

z∫a

f(x) dx = F (z)

Page 20: Stochastik II - Fakultät für Mathematik und Informatik (Fakultät 1) … · 2008-04-01 · Stochastik In diesem Kapitel sollen die Grundlagen der Wahrscheinlichkeitstheorie auf

16 KAPITEL 4. QUANTILE UND ZUFALLSZAHLEN-ERZEUGUNG

Bemerkungen:

• Diese Methode funktioniert auch in hochdimensionalen Fallen mit einer Dichtefunktion wief(x1, . . . , xn).

• Eine Vorsiebung kann die Effektivitat erhohen.

Page 21: Stochastik II - Fakultät für Mathematik und Informatik (Fakultät 1) … · 2008-04-01 · Stochastik In diesem Kapitel sollen die Grundlagen der Wahrscheinlichkeitstheorie auf

17

Kapitel 5

Unabhangigkeit und Produktmaße

5.1 Unabhangigkeit von σ-Algebren

Definition 5.1 Eine Familie Eii∈I von Ereignis-Systemen Ei ⊂ A heißt (vollstandig) un-abhangig, wenn fur alle k und i1, . . . , ik ∈ I und jede mogliche Wahl von Ereignissen Aim

∈ Eim

(m = 1, . . . , k) die Gleichheit

P (k⋂

m=1

Aim) =

k∏m=1

P (Aim) (5.1)

besteht.

Falls die Ei die Einermengen Ai symbolisieren, so handelt es sich um unabhangige Ereignisse.Sind die Ei speziell σ-Algebren Ai, so werden die Ai ⊂ A als unabhangige σ-Algebren bezeich-net. Wenn die Ei durchschnittsstabil sind und die Beziehung Ai = σ(Ei) gilt, so folgt aus derUnabhangigkeit der Ei auch die Unabhangigkeit der Ai, vgl. [6].

5.2 Unabhangige oder Produkt-Experimente

Es seien (Ωk,Ak, Pk) Wahrscheinlichkeitsraume fur zufallige Experimente, k = 1, . . . , n. Der Wahr-scheinlichkeitsraum, auch Produktraum, fur das Produkt-Experiment, die stochastisch unabhangigeHintereinanderausfuhrung dieser Einzel-Experimente, ist dann gegeben durch:

(n∏

ν=1

Ων ,n⊗

ν=1

Aν ,n⊗

ν=1

Pν) = (Ω,A, P )

mit

Ω :=n∏

ν=1

Ων = Ω1 × . . .× Ωn

A :=n⊗

ν=1

Aν = σ(A1 × . . .× An : Ak ∈ Ak)

P ist dann das (eindeutig bestimmte) Produktmaß auf der Produkt-σ-Algebra A mit

P (A1 × . . .×An) = P1(A1) · . . . · Pn(An), Ai ∈ Ai.

Page 22: Stochastik II - Fakultät für Mathematik und Informatik (Fakultät 1) … · 2008-04-01 · Stochastik In diesem Kapitel sollen die Grundlagen der Wahrscheinlichkeitstheorie auf

18 KAPITEL 5. UNABHANGIGKEIT UND PRODUKTMASSE

Ai = Ω1 × . . .×Ai × . . .× Ωn bezeichnet das Ereignis, dass im i-ten Experiment das Ereignis Ai

eintritt. Es gilt:

P (Ai) = Pi(Ai)P (Ai ∩ Aj) = P (Ω1 × . . .×Ai × . . .× . . . Aj × . . .× Ωn)

= Pi(Ai) · Pj(Aj)

= P (Ai) · P (Aj)

usw. D.h., die Ai sind vollstandig unabhangig.

Bernoulli-Schema

Ein praktisch wichtiges Beispiel fur ein Produktexperiment ist die n-fache, stochastisch un-abhangige Hintereinanderausfuhrung von ein und demselben Bernoulli-Experiment, welches durchden Wahrscheinlichkeitsraum (Ω,A, P ) mit A = ∅,Ω, A, A charakterisiert wird, P (A) = p. Dabeibedeute A einen Erfolg und A einen Nicht-Erfolg im k-ten Versuch.

Das einzelne (Teil-)Experiment werde durch den Wahrscheinlichkeitsraum (Ω,A0, P0) mit A0 =∅,Ω, A, Ac charakterisiert und es sei P0(A) = p. Dabei bedeute z.B. A einen Erfolg und Ac einenNicht-Erfolg. Dann ist P0(Ac) = 1− p. Weil die (Teil-)Experimente alle gleich sind, gilt:

Ω1 = . . . = Ωn = Ω0

A1 = . . . = An = A0

P1 = . . . = Pn = P0

Fur das Produkt-Experiment gilt dann:

Ω =n∏

i=1

Ωi

A =n⊗

i=1

Ai

P =n⊗

i=1

Pi

ω = (ω1, . . . , ωn)

Es sei Ai das Ereignis, dass im i-ten Versuch ein Erfolg eintritt. Dann sind Ai und Aj (i 6= j)stochastisch unabhangig.

P (Ai) = 1 · . . . · 1 · P0(A) · 1 · . . . · 1 = P0(A) = p

P (Ai ∩Aj) = 1 · . . . · 1 · P0(A) · 1 · . . . · 1 · P0(A) · 1 . . . · 1 = P0(A)2 = p2

Page 23: Stochastik II - Fakultät für Mathematik und Informatik (Fakultät 1) … · 2008-04-01 · Stochastik In diesem Kapitel sollen die Grundlagen der Wahrscheinlichkeitstheorie auf

19

Kapitel 6

Zufallige Vektoren, unabhangigeZufallsgroßen

6.1 Zufallige Vektoren

6.1.1 Grundbegriffe

Ein zufalliger Vektor ist eine zufallige Variable (Borel-messbare Abbildung) X : Ω → Rd, X =(X1, . . . , Xd)T , d.h.

(Ω,A, P ) X−→ (Rd,Rd, PX)

mit PX(B) = P (X ∈ B), B ∈ Rd. Beispielsweise konnte X1 die Große, X2 das Gewicht und X3

den Bauchumfang eines Menschen beschreiben.

Ebenso wie Zufallsgroßen konnen auch Zufallsvektoren durch Verteilungsfunktionen charakteri-siert werden:

Definition 6.1 Die durch

FX(x1, . . . , xd) = P (X1 < x1, . . . , Xd < xd) (6.1)

gegebene Funktion FX : Rd → [0, 1] heißt Verteilungsfunktion des Zufallsvektors X bzw. gemein-same Verteilungsfunktion der Komponenten von X (joint distribution function).

Diese Verteilungsfunktion hat folgende Eigenschaften:

1. FX ist monoton steigend in jeder Variablen

2. limxk→−∞

FX(x1, . . . , xk, . . . , xd) = 0

3. limx1→∞x2→∞

...xd→∞

FX(x1, . . . , xd) = 1

4. FX ist in jedem Argument linksseitig stetig

Page 24: Stochastik II - Fakultät für Mathematik und Informatik (Fakultät 1) … · 2008-04-01 · Stochastik In diesem Kapitel sollen die Grundlagen der Wahrscheinlichkeitstheorie auf

20 KAPITEL 6. ZUFALLIGE VEKTOREN, UNABHANGIGE ZUFALLSGROSSEN

5. FX ”wachst“ auf jedem d-dimensionalen Quader, d.h.

FX(x1 + h1, x2 + h2, . . . , xd + hd)− FX(x1, x2, . . . , xd)− (FX(x1, x2 + h2, . . . , xd + hd)− FX(x1, x2, . . . , xd))− (FX(x1 + h1, x2, . . . , xd + hd)− FX(x1, x2, . . . , xd))

...− (FX(x1 + h1, x2 + h2, . . . , xd)− FX(x1, x2, . . . , xd)) ≥ 0

(6.2)

Bemerkung: Es gibt Funktionen, die 1. bis 4. erfullen, jedoch 5. verletzen, z.B. im zweidimensio-nalen Fall

F (x1, x2) =

1 x1 + x2 > 00 sonst

PX ist eindeutig durch FX bestimmt. So gilt zum Beispiel:

P (a ≤ X1 ≤ b, c ≤ X2 ≤ d) = PX(Rechteck)= F (b, d)− F (a, d)− F (b, c) + F (a, c).

Der Zerlegungssatz von Lebesgue (2.4) hat auch im d-Dimensionalen Gultigkeit, auch Vektor-funktionen lassen sich daher in einen absolut-stetigen, einen singular-stetigen und einen diskretenAnteil aufteilen. Wir beschranken uns jedoch auf

1. rein absolut-stetige Verteilungsfunktionen (d.h. PX νd), charakterisiert durch die Radon-Nikodym-Dichte

fX(x1, . . . , xd)

2. rein diskrete Verteilungsfunktionen, charakterisiert durch

P (X1 = x1, . . . , Xd = xd)

an diskreten Stellen (x1, . . . , xd)

6.1.2 Diskrete und absolutstetige Zufallsvektoren

Bei einem diskreten Zufallsvektor existiert eine abzahlbare Teilmenge C ⊂ Rd mit P (X ∈ C) = 1und P (X = x) > 0 fur alle x ∈ C. Dies ist genau dann der Fall, wenn alle Komponenten diskretsind.

Wenden wir uns nun den absolutstetigen Zufallsvektoren zu. Es sei PX νd. Dann existiert einegemeinsame Dichte fX(x1, . . . , xn). Fur die Verteilungsfunktion gilt dann:

FX(x1, . . . , xd) =

x1∫−∞

. . .

xd∫−∞

fX(t1, . . . , td) dt1 . . . dtd

Beachte: Auch wenn X1, . . . , Xd absolutstetig sind, folgt nicht, dass X absolutstetig ist.

Page 25: Stochastik II - Fakultät für Mathematik und Informatik (Fakultät 1) … · 2008-04-01 · Stochastik In diesem Kapitel sollen die Grundlagen der Wahrscheinlichkeitstheorie auf

6.2. RANDVERTEILUNGEN 21

6.2 Randverteilungen

Die Verteilungsfunktion Fi der Komponente Xi kann aus FX erhalten werden. Sie wird Rand-Verteilungsfunktion genannt.

Satz 6.1 Sei X ein zufalliger Vektor. Dann gilt fur jedes i und x:

FXi(xi) = limxj→∞

j 6=i

FX(x1, . . . , xi, . . . , xd) (6.3)

Beweis. Es gilt im Fall (xj) →∞ fur alle j 6= i:

X1 < x1, . . . , Xi < xi, . . . , Xd < xd ↑ Xi < xi

Wegen der Stetigkeit von P (Satz 4.1 aus der Maßtheorie) folgt (6.3).

Es ist z. B.

FX1(x1) = PX((−∞, x1)× Rd−1) = P (X1 < x1)= lim

x2→∞x3→∞

...xd→∞

FX(x1, x2, . . . , xd)

die Randverteilung bezuglich X1; die Zufallsgroßen X2, . . . , Xd werden in ihr nicht beachtet.

Allgemein heißt

FXi1 ,...,Xik(xi1 , . . . , xik

) = limi/∈i1,...,ik:

xi→∞

FX(x1, x2, . . . , xd)

(6.4)

(k-dimensionale) Randverteilung bezuglich (Xi1 , . . . , Xik)T . Speziell ergibt sich im zweidimensio-

nalen Fall:

FX1(x1) = F(X1,X2)(x1,∞)FX2(x2) = F(X1,X2)(∞, x2) (6.5)

Im absolut-stetigen Fall PX νd existieren Randverteilungsdichten:

fXi1 ,...,Xik(xi1 , . . . , xik

) =∫

Rd−k

fX(x1, . . . , xd) νd−k(dx′), (6.6)

wobei sich die Integration uber die nicht erfassten Komponenten erstreckt. Soll die Randverteilungeiner Komponente berechnet werden, sieht die Formel wie folgt aus:

fXi(x) =

∞∫−∞

. . .

∞∫−∞

fX(t1, . . . , ti−1, x, ti+1, . . . , td) dt1 . . . dti−1 dti+1 . . . dtd

Im zweidimensionalen Fall ergibt sich

fX1(x1) =

∞∫−∞

f(X1,X2)(x1, x2) dx2

fX2(x2) =

∞∫−∞

f(X1,X2)(x1, x2) dx1 (6.7)

Page 26: Stochastik II - Fakultät für Mathematik und Informatik (Fakultät 1) … · 2008-04-01 · Stochastik In diesem Kapitel sollen die Grundlagen der Wahrscheinlichkeitstheorie auf

22 KAPITEL 6. ZUFALLIGE VEKTOREN, UNABHANGIGE ZUFALLSGROSSEN

Im diskreten Fall ist

P (Xi1 = xi1 , . . . , Xik= xik

) =∑

xj1 ,...,xjd−k

P (X1 = x1, . . . , Xd = xd), (6.8)

wobei hier uber die (d− k) fehlenden Komponenten summiert wird, d.h.,

i1, . . . , ik ∪ j1, . . . , jd−k = 1, . . . , d, i1, . . . , ik ∩ j1, . . . , jd−k = ∅.

Beispiele

1. Wir betrachten die Gleichverteilung auf einem zusammenhangenden Gebiet G ⊂ Rd; dieseist eine absolutstetige Verteilung mit uber G konstanter Dichte

fX(x1, . . . , xd) =1

νd(G)1G(x1, . . . , xd)

Fur die zweidimensionale Gleichverteilung auf [a, b]× [c, d] gilt

fX1,X2(x1, x2) =1

(b− a)(d− c)1[a,b]×[c,d](x1, x2)

fX1(x1) =1

b− a1[a,b](x1)

fX2(x2) =1

d− c1[c,d](x2)

2. Wir betrachten eine diskrete Verteilung im R2 mit endlich vielen Werten (x1i, x2j), i =1, . . . , q, j = 1, . . . , r. Die Wahrscheinlichkeiten

P (X1 = x1i, X2 = x2j) =: pij

bilden eine q × r-Matrix

P = (pij) (6.9)

Die Randverteilungen ergeben sich als Zeilen- beziehungsweise Spaltensummen der Matrix:

P (X1 = x1i) =∑

j

pij = pi·, (6.10)

P (X2 = x2j) =∑

i

pij = p·j . (6.11)

6.3 Unabhangigkeit

Definition 6.2 Es sei (Xi)i=1,2,... eine Folge von Zufallsgroßen auf (Ωi,Ai, Pi); die (Xi) heißentotal stochastisch unabhangig, wenn fur jedes k der zufallige Vektor X = (Xi1 , . . . , Xik

) durchden Produkt-Wahrscheinlichkeitsraum (

Rk,Rk,k⊗

j=1

PXij

)beschrieben wird ( Abschnitt 5.2).

Insbesondere gilt also

PX =k⊗

j=1

PXij(6.12)

fur jede Auswahl X = (Xi1 , . . . , Xik). Sind alle Verteilungen PXi uberdies gleich, so heißen die Xi,

i = 1, 2, . . . unabhangig und identisch verteilt (auch iid:”independent and identically distributed“).

Page 27: Stochastik II - Fakultät für Mathematik und Informatik (Fakultät 1) … · 2008-04-01 · Stochastik In diesem Kapitel sollen die Grundlagen der Wahrscheinlichkeitstheorie auf

6.3. UNABHANGIGKEIT 23

Aus (6.12) und der Erzeugereigenschaft der (−∞, xi) folgt:

Genau dann gilt fur jede Auswahl X = (Xi1 , . . . , Xik)

FX(x1, . . . , xk) =k∏

j=1

FXij(xj), (6.13)

wenn (Xi) eine total stochastisch unabhangige Familie ist. Speziell ist also bei zufalligen Vektorenmit unabhangigen Komponenten die Verteilungsfunktion das Produkt der Randverteilungsfunk-tionen der einzelnen Komponenten. Im absolut-stetigen Fall folgt aus der Unabhangigkeit:

fX(x1, . . . , xd) =d∏

i=1

fXi(xi) (6.14)

Ein Beispiel fur eine solche absolutstetige Verteilung ist die zweidimensionale Gleichverteilung auf[a, b]× [c, d] (siehe obiges Beispiel).

Bei diskreten zufalligen Vektoren ist die Unabhangigkeit aquivalent zu:

P (X1 = x1, . . . , Xd = xd) =d∏

i=1

P (Xi = xi) (6.15)

Bei diskreten Verteilungen im R2 lasst sich (6.15) auch ausdrucken als:

pij = pi· · p·j (6.16)

Fur den Erwartungswert des Produkts zweier unabhangiger Zufallsgroßen gilt

E(XY ) = EX · EY (6.17)

wegen

E(XY ) =∫

X(ω)Y (ω)P (dω) =

∞∫−∞

∞∫−∞

xy dF (x, y)

=

∞∫−∞

∞∫−∞

xy dF (x) dF (y) =

∞∫−∞

xdF (x) ·∞∫

−∞

y dF (y)

Speziell: Wenn X und A unabhangig sind (d. h., σ(X) und ∅, A, Ac,Ω sind unabhangig), so sindX und 1A unabhangig und es gilt fur E(X;A) = EX1A =

∫A

X(ω)P (dω)

E(X;A) = E(X1A) = EX E1A = EX P (A).

Beispiel.X sei die Augenzahl beim zweiten Wurf. A sei das Ereignis, dass die Augenzahl beim ersten Wurfgerade war. Dann betragt E(X;A) = 3.5 · 0.5.

Page 28: Stochastik II - Fakultät für Mathematik und Informatik (Fakultät 1) … · 2008-04-01 · Stochastik In diesem Kapitel sollen die Grundlagen der Wahrscheinlichkeitstheorie auf

24 KAPITEL 6. ZUFALLIGE VEKTOREN, UNABHANGIGE ZUFALLSGROSSEN

6.4 Erwartungswert, Kovarianz, Korrelation

Definition 6.3 Es sei X ein d-dimensionaler zufalliger Vektor auf (Ω,A, P ). Der Erwartungs-wert EX (falls er existiert) ist gleich dem Vektor der Erwartungswerte der Komponenten von X,d.h.,

EX = (EX1, . . . ,EXd)T (6.18)

Bemerkung: EX ist bereits durch die Randverteilungen FXi, i = 1, . . . , d, bestimmt:

EXi =∫Rd

xi dFX(x1, . . . , xi, . . . , xd) =∫R1

xi dFXi(xi) (6.19)

Wenn Xi und Xj unabhangig sind, dann gilt nach (6.17)

EXiXj = EXi · EXj (6.20)

Definition 6.4 Es sei X ein d-dimensionaler zufalliger Vektor auf (Ω,A, P ). Die Große

E ((Xi − EXi)(Xj − EXj)) = EXiXj − EXi · EXj = cov(Xi, Xj) (6.21)

heißt (sofern sie existiert) Kovarianz von Xi und Xj. Die normierte Große

%(Xi, Xj) =cov(Xi, Xj)√varXi · varXj

(6.22)

heißt Korrelationskoeffizient zwischen Xi und Xj.

Als Spezialfall ergibt sich: cov(Xi, Xi) = var Xi, %(Xi, Xi) = 1.

Als allgemeine Formel fur die Varianz der Summe von Zufallsgroßen ergibt sich nunmehr

var (Xi ±Xj) = var Xi + varXj ± 2cov(Xi, Xj), (6.23)

und fur unkorrelierte Xi und Xj gilt

var (Xi ±Xj) = var Xi + varXj (6.24)

Beweis von (6.23).

var (Xi ±Xj) = E((Xi − EXi)± (Xj − EXj))2

= E((Xi − EXi)2 + (Xj − EXj)2 ± 2(Xi − EXi)(Xj − EXj))= varXi + varXj ± 2cov(Xi, Xj).

Fur den d-dimensionalen Vektor X ist

(cov(Xi, Xj))d×d = ΣX (6.25)

sogenannte Kovarianzmatrix und(%(Xi, Xj))d×d = RX (6.26)

sogenannte Korrelationsmatrix . ΣX und RX sind symmetrisch und positiv semidefinit.

Page 29: Stochastik II - Fakultät für Mathematik und Informatik (Fakultät 1) … · 2008-04-01 · Stochastik In diesem Kapitel sollen die Grundlagen der Wahrscheinlichkeitstheorie auf

6.4. ERWARTUNGSWERT, KOVARIANZ, KORRELATION 25

Nachweis: Es sei z der Spaltenvektor aus den Xi − EXi. Dann ist ΣX = E(zzT ). Fur einenbeliebigen d-Vektor t gilt

tT ΣXt = tT E(zzT )t = E(tT (zzT )t) = E((tT z)(zT t)) = E((tT z)2)

= E

( d∑i=1

(ti(Xi − EXi))

)2 ≥ 0.

Hilbertraum der Zufallsgroßen 2. Ordnung. Zufallsgroßen, deren ersten beide Momente existieren,heißen Zufallsgroßen 2. Ordnung. Wenn Xi und Xj zwei Zufallsgroßen zweiter Ordnung sind, dannist durch

〈Xi, Xj〉 = EXiXj (6.27)

ein Skalarprodukt definiert. So entsteht ein Hilbertraum mit dem in (6.27) definierten Skalarpro-dukt. Es gilt die Cauchy-Schwarzsche Ungleichung:

|EXiXj |2 ≤ |EX2i | · |EX2

j | (6.28)

Wegen

〈Xi, Xj〉 =∫Ω

Xi(ω)Xj(ω)P (dω) (6.29)

wird der Raum auch als L2(Ω,A, P ) bezeichnet.

Interpretation des Korrelationskoeffizienten: %(Xi, Xj) misst den Grad der linearen Abhangigkeitzwischen Xi und Xj : Ist % > 0, dann besteht die Tendenz, dass bei großen Werten von Xi auchXj groß ist, ist % < 0, dann treten bei großen Xi tendenziell kleine Xj auf.

Eigenschaften des Korrelationskoeffizienten:

1. |%(Xi, Xj)| ≤ 1

2. Sind Xi und Xj unabhangig, dann ist %(Xi, Xj) = 0 (Xi und Xj sind unkorreliert)

3. Gilt X ′k = akXk + bk fur k = i und j, so folgt %(X ′

i, X′j) = %(Xi, Xj).

4. |%(Xi, Xj)| = 1 ⇔ Xif.s.= aXj + b

Beweise.

1. folgt sofort aus der Schwarzschen Ungleichung

2. folgt aus (6.20) und (6.21)

3. Einfaches Ausrechnen

4. ”⇐“: ergibt sich unmittelbar durch Einsetzen

”⇒“: Es sei %(Xi, Xj) = +1, X ′i := Xi−EXi√

var Xi, X ′

j := Xj−EXj√var Xj

; es ist also EX ′i = EX ′

j = 0,

varX ′i = varX ′

j = 1. Es folgt:

var (X ′i −X ′

j) = 1 + 1− 2cov(X ′i, X

′j) = 2(1− EX ′

iX′j)

= 2(1− %(Xi, Xj)) = 0

Daraus folgt, dass X ′i −X ′

jf.s.= 0, also Xi

f.s.= aXj + b

Als Folgerung aus (6.23) ergibt sich: Xi, Xj sind unkorreliert genau dann, wenn var (Xi + Xj) =varXi + varXj .

Sind die Komponenten des Vektors X alle unkorreliert, dann ist ΣX eine Diagonal- und RX eineEinheitsmatrix.

Page 30: Stochastik II - Fakultät für Mathematik und Informatik (Fakultät 1) … · 2008-04-01 · Stochastik In diesem Kapitel sollen die Grundlagen der Wahrscheinlichkeitstheorie auf

26 KAPITEL 6. ZUFALLIGE VEKTOREN, UNABHANGIGE ZUFALLSGROSSEN

6.5 Beispiele fur Verteilungen zufalliger Vektoren

6.5.1 Gleichverteilung auf G ∈ Rd

Die Dichtefunktion hat die Form:

fX(x) =1G(x)νd(G)

, x ∈ Rd

Speziell fur G = [0, 1]d ergibt sich die Dichtefunktion

fX(x) =

1, x ∈ [0, 1]d

0, sonst .

Es gilt dann Xid= U mit U = glm[0, 1]. Die Xi sind hier iid.

6.5.2 n-dimensionale Normalverteilung

Vorerst ein paar Worte zur n-dimensionalen Standard-Normalverteilung. Dort sind die Kompo-nenten Zi des Zufallsvektors Z unabhangig und N(0, 1)-verteilt. Fur die Dichte-Funktion gilt

f(z1, . . . , zn) = ϕ(z1) · . . . · ϕ(zn) =1

√2π

n exp

−1

2

n∑i=1

z2i

(6.30)

wobei die zi beliebige reelle Zahlen sind.

Doch nun zur allgemeinen mehrdimensionalen Normalverteilung. Eine regulare mehrdimensionaleNormalverteilung ist eine absolutstetige Verteilung mit der Dichtefunktion

fX(xi, . . . , xn) =1√

(2π)n detΣexp

(−1

2(x− µ)T Σ−1(x− µ)

)(6.31)

wobei µ = (µ1, . . . , µn)T , x = (x1, . . . , xn)T und Σ eine positiv definite (n × n)-Matrix. MitX = AZ + µ, wobei Z n-dimensional standard-normalverteilt ist und A eine n × n-Matrix mitdet A 6= 0 sowie Σ = AAT erhalt man (6.31) aus (6.30). Symbolisch wird dies ausgedruckt durch:

X ∼ N(µ,Σ) (6.32)

Die ”Hohenlinien“ der Dichte sind Ellipsen, deren Hauptachsen durch die Eigenwerte und Eigen-vektoren von Σ, der Kovarianzmatrix, bestimmt sind.

Es gilt:

EX = µ (6.33)

Sind die Komponenten von X unkorreliert, so ist Σ eine Diagonalmatrix mit den Werten σ21 , . . . σ2

n

in der Hauptdiagonalen, wobei σ2k = varXk. Die Dichte lasst sich in diesem Fall auch darstellen

als:

fX(x) =1√

(2π)nn∏

i=1

σ2i

exp

(−1

2

n∑i=1

(xi − µi

σi

)2)

=n∏

i=1

1√2πσ2

i

exp

(−1

2

(xi − µi

σi

)2)

=n∏

i=1

fXi(xi)

Page 31: Stochastik II - Fakultät für Mathematik und Informatik (Fakultät 1) … · 2008-04-01 · Stochastik In diesem Kapitel sollen die Grundlagen der Wahrscheinlichkeitstheorie auf

6.5. BEISPIELE FUR VERTEILUNGEN ZUFALLIGER VEKTOREN 27

Aus (6.14) ergibt sich, dass die Komponenten unabhangig sind.

Ist also X ∼ N(µ,Σ), so gilt:

Komponenten unabhangig ⇐⇒ Komponenten unkorreliert (6.34)

Die Randverteilungen einer mehrdimensionalen Normalverteilung sind wieder Normalverteilungen:

X ∼ N(µ,Σ) ⇒ Xi ∼ N(µi, σ2i )

Setzt sich der normalverteilte Vektor X aus zwei Vektoren zusammen, d.h.,

X =(

X1

X2

), Σ =

(Σ11 Σ21

Σ21 Σ22

), µ =

(µ1

µ2

),

dann ist auch X1 normalverteilt:X1 ∼ N(µ1,Σ11) (6.35)

Lineare Transformationen von normalverteilten Zufallsgroßen liefern wieder normalverteilte Zu-fallsgroßen. Zu jeder positiv definiten symmetrischen Matrix Σ existiert eine absolutstetige Nor-malverteilung N(µ,Σ). Ist Σ symmetrisch und positiv semidefinit, aber nicht positiv definit, dannexistiert zwar ein Zufallsvektor X mit normalverteilten Komponenten Xi und Kovarianzmatrix Σ,die Verteilung von X ist aber nicht absolutstetig bezuglich νn, der sogenannte irregulare Fall. Die-ser Fall tritt genau dann auf, wenn lineare Abhangigkeiten zwischen den Komponenten X1,. . . ,Xn

bestehen.

Fur den Spezialfall einer zweidimensionalen Normalverteilung ergibt sich

fX(x1, x2) =1

2πσ1σ2

√1− %2

exp

− 1

2(1− %)2

((x1 − µ1

σ1

)2

−2%x1 − µ1

σ1

x2 − µ2

σ2+(

x2 − µ2

σ2

)2)

, (6.36)

wobei % = %(X1, X2) und

Σ =(

σ21 %σ1σ2

%σ1σ2 σ22

).

Will man im zweidimensionalen Fall normalverteilte Zufallsvektoren erzeugen, so kann man denlog-tri-Algorithmus verwenden. Dafur verwendet man zwei gleichverteilte Zufallszahlen u1 und u2

aus dem Intervall [0, 1] und σ1, σ2 und µ1, µ2 und % wie oben. Die gesuchten Komponenten x1 undx2 konnen dann wie folgt berechnet werden:

x1 = µ1 + σ1

√−2 ln u1(

√1− %2 cos(2πu2) + % sin(2πu2))

x2 = µ2 + σ2

√−2 ln u1 sin(2πu2)

Page 32: Stochastik II - Fakultät für Mathematik und Informatik (Fakultät 1) … · 2008-04-01 · Stochastik In diesem Kapitel sollen die Grundlagen der Wahrscheinlichkeitstheorie auf

28 KAPITEL 6. ZUFALLIGE VEKTOREN, UNABHANGIGE ZUFALLSGROSSEN

6.5.3 Gibbs-Verteilung

Die Gibbs-Verteilung hat die Dichte-Funktion

f(x1, . . . , xn) = exp−U(x1, . . . , xn)C

mit (x1, . . . , xn) ∈ B ⊂ Rn. U hat die Form

U(x1, . . . , xn) =∑i<j

Θ(|xi − xj |),

wobei Θ eine Paarpotential-Funktion ist. Beispielsweise konnte

Θ(t) =∞ t < h0 t ≥ h

sein. Das ist ein Modell fur zufallig verteilte Punkte in B mit dem minimalen Zwischenpunktab-stand h.

Es ergibt sich hierbei das Problem, dass C meist nicht formelmaßig bestimmbar ist, weswegenSimulationen herangezogen werden.

6.5.4 Bayes-a-posteriori-Verteilung

Laut Bayesscher Formel gilt:

P (Bi |A) =P (A |Bi)P (Bi)∑

(j)

P (A |Bj)P (Bj)

Die absolutstetige Version dazu lautet dann:

f(x |A) =P (A |x)f(x)∫P (A | y)f(y) dy

= P (A |x)f(x)C

Wieder tritt das Problem der Bestimmung von C auf.

Page 33: Stochastik II - Fakultät für Mathematik und Informatik (Fakultät 1) … · 2008-04-01 · Stochastik In diesem Kapitel sollen die Grundlagen der Wahrscheinlichkeitstheorie auf

29

Kapitel 7

Bedingte Verteilungen, bedingteErwartung

7.1 Einfuhrung

Bevor wir uns diesem Thema zuwenden, hier zwei einfuhrende Beispiele:

1. (X, Y ) bezeichne den Zufallsvektor (Große,Gewicht) eines zufallig ausgewahlten Menschen.Da es sich um absolutstetige Zufallsgroßen handelt, ist P (X = x) = 0. Oft interessieren wiruns fur bedingte Wahrscheinlichkeiten wie P (Y < y |X = x) oder z. B. fur eine Gewicht-stabelle am Wageautomaten E(Y |X = x). Die bisherigen Formeln helfen uns nicht viel, dahier nach der Formel der einfachen bedingten Wahrscheinlichkeit durch Null geteilt wird.

2. Bei einem Wurfel ist Ω = 1, . . . , 6, die σ-Algebra A ist die Potenzmenge P(Ω). Fur dieZufallsgroße X gelte X(ω) = ω. Nun werden die beiden Seiten mit den Werten 1 und6 zugeklebt und rot angemalt. Damit werden die Beobachtungen vergrobert. Zu diesemVersuch gehort nur noch eine kleinere σ-Algebra C. Diese enthalt zwar 1, 6 als Element,aber nicht 1 und 6. Genauer gesagt gilt C = σ(2, 3, 4, 5, 1, 6).

Was wird nun aus X? X ist ja nun nicht mehr bezuglich C messbar, denn das Urbild von1 existiert ja nicht mehr. Es wird also eine ”vernunftige“ Zufallsgroße ”Augenzahl“ fur dasvereinfachte Experiment gesucht. Wir fuhren also ein:

E(X |C)(ω) = X(ω), fur ω = 2, 3, 4, 5E(X |C)(ω) = const., fur ω = 1, 6

=1 + 6

2= 3.5.

Wurden wir nun alle Seiten zukleben, dann ergabe sich die σ-Algebra C0 = ∅,Ω. Dannwurden wir verwenden:

E(X |C0)(ω) = const. = 3.5

Daraus sieht man, dass einer Vergroberung der σ-Algebra eine Vergroberung von X ent-spricht, bei der sich die Varianz bei gleichbleibendem Erwartungswert verringert.

Page 34: Stochastik II - Fakultät für Mathematik und Informatik (Fakultät 1) … · 2008-04-01 · Stochastik In diesem Kapitel sollen die Grundlagen der Wahrscheinlichkeitstheorie auf

30 KAPITEL 7. BEDINGTE VERTEILUNGEN, BEDINGTE ERWARTUNG

7.2 Bedingte Großen bezuglich B ∈ A mit P (B) > 0

Ausgangspunkt ist die in Kapitel 4 definierte bedingte Wahrscheinlichkeit

P (A |B) =P (A ∩B)

P (B)

PB(·) = P (· |B) ist dann ein Wahrscheinlichkeitsmaß.

Wir betrachten nun die Transformation von dem Wahrscheinlichkeitsraum (Ω,A, P ) in den Raum(Ω,A, PB). Sei B ∈ A mit P (B) > 0 ein Ereignis, X : Ω → R1 eine Zufallsgroße, PX |B dasBildmaß von PB bei X. Dann ist

PB(dω) =P (dω)P (B)

1B(ω),

und die bedingte Verteilung ist definiert durch:

PX |B(A) = P (X ∈ A |B) =P (X(ω) ∈ A ∩B)

P (B)(7.1)

Fur die zugehorige bedingte Verteilungsfunktion gilt dann:

FX |B(x) = P (X < x |B) (7.2)

Falls PX |B absolutstetig ist, gilt

FX |B(x) =∫

(−∞,x)∩X(B)

1P (B)

fX(t) dt =

x∫−∞

1P (B)

fX(t)1X(B)(t) dt,

also ist durchfX |B(x) =

1P (B)

fX(x)1X(B)(x) (7.3)

die bedingte Dichte gegeben.

Beispiel.(Zweiseitige Stutzung)Sei B = X−1([a, b]) = ω ∈ Ω : a ≤ X(ω) ≤ b. Dann sind X(B) = [a, b] und P (B) = FX(b) −FX(a). Die bedingte Dichte

fX |B(x) =fX(x)1[a,b](x)FX(b)− FX(a)

(7.4)

heißt dann die Dichte der bei a und b gestutzten Verteilung von X.

Bedingter Erwartungswert E(X |B) unter der Hypothese B:

E(X |B) =∫Ω

X(ω) PB(dω) =

∫Ω

X(ω)1B(ω) P (dω)

P (B)=

∫B

X(ω) P (dω)

P (B)=

E(X;B)P (B)

(7.5)

oder:

E(X |B) =

∞∫−∞

xdFX |B(x)

=1

P (B)

∫X(B)

xdFX(x) =

1

P (B)

∑xi∈X(B)

xi(P (X = xi)

1P (B)

∫X(B)

xfX(x) dx(7.6)

Page 35: Stochastik II - Fakultät für Mathematik und Informatik (Fakultät 1) … · 2008-04-01 · Stochastik In diesem Kapitel sollen die Grundlagen der Wahrscheinlichkeitstheorie auf

7.3. VERTEILUNG VON X UNTER DER BEDINGUNG Y = Y 31

Bei der zweiseitigen Stutzung ergibt sich:

E(X | a ≤ X ≤ b) =

b∫a

xfX(x) dx

F (b)− F (a)

7.3 Verteilung von X unter der Bedingung Y = y

Zunachst wird der diskrete Fall betrachtet. X nehme die Werte x1, x2, . . . und Y die Wertey1, y2, . . . an, P (Y = yi) = pi > 0. Dann ist

P (X = xi, Y = yj) = pij , i, j = 1, 2, . . .

die gemeinsame Verteilung von (X, Y ) (siehe (6.9)). Dann ist

P (X = xi |Y = yj) = pi|j =pij

p·j(7.7)

die Verteilung von X unter der Bedingung Y = yj , entsprechend

P (Y = yj |X = xi) = pj|i =pij

pi·

die Verteilung von Y unter der Bedingung X = xi.

Es ergeben sich die bedingten Erwartungswerte

E(X |Y = yj) =∑

i xipi|j =1p·j

∑i

xipij

E(Y |X = xi) =∑

j yjpj|i =1pi·

∑j

yjpij

(7.8)

Betrachten wir nun den Fall, dass (X, Y ) absolutstetig mit der gemeinsamen Dichte f(X,Y ) ist.Wir suchen nun nach der bedingten Dichtefunktion fX |Y =y. Es gilt:

P (X < x | y ≤ Y ≤ y + h) =

x∫−∞

y+h∫y

f(X,Y )(s, t) dt ds

y+h∫y

fY (t) dt

Dann ist, falls fY (y) > 0

FX |Y =y(x) = limh→0

P (X < x | y ≤ Y ≤ y + h)

=

x∫−∞

f(X,Y )(s, y) ds

fY (y)(7.9)

die Verteilungsfunktion von X unter der Bedingung Y = y; die zugehorige Dichtefunktion ist danngegeben durch:

fX |Y =y(x) =f(X,Y )(x, y)

fY (y)(7.10)

Entsprechend ergeben sich FY |X=x und fY |X=x. Als bedingter Erwartungswert mX(y) ergibtsich:

mX(y) = E(X |Y = y) =

∞∫−∞

xfX |Y =y(x) dx =

∞∫−∞

xf(X,Y )(x, y) dx

fY (y)(7.11)

Page 36: Stochastik II - Fakultät für Mathematik und Informatik (Fakultät 1) … · 2008-04-01 · Stochastik In diesem Kapitel sollen die Grundlagen der Wahrscheinlichkeitstheorie auf

32 KAPITEL 7. BEDINGTE VERTEILUNGEN, BEDINGTE ERWARTUNG

mX wird auch Regressionsfunktion 1. Art von X bezuglich Y genannt. Entsprechend E(Y |X = x).

Beispiel. Sei (X, Y ) normalverteilt (siehe (6.36)) mit

Σ =(

σ2X %σXσY

%σXσY σ2Y

).

Dann ist

fY |X=x(y) =1√

2π(1− %2)%2y

exp

−1

2[y − µY − % σY

σX(x− µX)]2

(1− %2)σ2Y

, (7.12)

die Dichte der bedingten Verteilung ist also die Dichte der Verteilung N(µY + % σY

σX(x− µX), (1−

%2)σ2Y ). Fur den bedingten Erwartungswert ergibt sich:

E(Y |X = x) = µY + %σY

σX(x− µX) (7.13)

Die Regressionsfunktion von Y bezuglich X ist also eine Gerade, was ein Charakteristikum derNormalverteilung ist. Die Gerade ist steigend, falls % > 0 bzw. fallend, falls % < 0.

7.4 Allgemeiner Begriff der bedingten Erwartung

”Der Erwartungswert ist wichtiger als die Wahrscheinlichkeit.“

Denn es gilt:

P (A) = E1A

P (A |Y = y) = E(1A |Y = y) =∑(j)

1A(j)pj|i =∑j∈A

pj|i

Offensichtlich ist E(X |Y = y) eine Funktion von y. Das fuhrt zu der Einfuhrung der Zufallsgroße

E(X |Y )(ω) = E(X |Y = y)

fur alle ω mit Y (ω) = y. Mit der Messbarkeit von E(X |Y ) bzgl. σ(Y ) hangt die BezeichnungE(X |σ(Y )) zusammen. Im Trivialfall ist E(X |X = x) = x und E(X |X) = X.

Beispiel.Sei X die Augenzahl eines Wurfels. Y beschreibe folgendes Ereignis:

Y =

g, geradeu, ungerade

Klassisch ermittelt sich der bedingte Erwartungswert auf die folgende Weise:

E(X |Y = g) =∑j=1

jpj|g

= 2p2|g + 4p4|g + 6p6|g

= (2 + 4 + 6) · 13

= 4

Analog berechnet sich auch E(X |Y = u) = 3. Dem entspricht die Zufallsgroße:

E(X |Y )(ω) =

3, ω ∈ 1, 3, 5, d.h., wenn Y = u4, ω ∈ 2, 4, 6, d.h., wenn Y = g

Es sei (Ω,A, P ) ein Wahrscheinlichkeitsraum, X : Ω → R eine Zufallsgroße mit E|X| < ∞ (Maßtheorie), C ⊂ A sei Unter-σ-Algebra von A. Nun wird eine zu C passende Vergroberung derZufallsgroße X gesucht.

Diese Zufallsgroße E(X |C) heißt bedingte Erwartung und hat zwei wichtige Eigenschaften:

Page 37: Stochastik II - Fakultät für Mathematik und Informatik (Fakultät 1) … · 2008-04-01 · Stochastik In diesem Kapitel sollen die Grundlagen der Wahrscheinlichkeitstheorie auf

7.4. ALLGEMEINER BEGRIFF DER BEDINGTEN ERWARTUNG 33

1. E(X |C) ist messbar bezuglich C. (”Vergroberung“)

2. Fur alle C aus C giltE(X;C) = E(E(X |C);C).

(”beide Großen sind im Mittel gleich“)

Fur das Wurfelbeispiel gilt C = σ(1, 3, 5, 2, 4, 6). Fur C = 1, 3, 5 gilt

E(X;C) = 1 · 16

+ 3 · 16

+ 5 · 16

= 1.5,

also ist E(X |C)(ω) = 3 fur ω = 1, 3 und 5.

Beispiel. (Vergroberte Exponentialverteilung)Es sei X ∼ Exp(λ), dann ist der Median x0.5 = ln 2

λ . Fur die mit beliebigen a 6= b gemaß

Y (ω) =

a X(ω) ≤ x0.5

b sonst

definierte Zufallsgroße Y gilt dann P (Y = a) = P (Y = b) = 12 . Die von Y erzeugte σ-Alebra ist

C = ∅, A, AC ,Ω mit A = ω : X(ω) < x0.5.

E(X |Y ) = E(X |C) ist auf A bzw. AC jeweils konstant, wie auch Y . Aber wie lauten die entspre-chenden Werte cA bzw. cAC ?

E(X;A) =∫A

X(ω) P (dω) =

x0.5∫0

xdF (x) =

x0.5∫0

xλe−λx dx

= λe−λx

λ2· (−λx− 1)

∣∣∣∣x0.5

0

=1λ

[1− e−λx0.5 (1 + λx0.5)

]=

[1− e− ln 2 (1 + ln 2)

]=

[1− 1

2(1 + ln 2)

]=

1− ln 22λ

=0.1534

λ

Durch E(E(X |C);A) = P (A) ·cA erhalt man cA =0.3068

λ, mit P (A) ·cA +P (AC) ·cAC = EX =

dann auch cAC =1.6932

λ.

Kontrolle mittels (7.6):

E(X |Y = a) = E(X |X < x0.5) = 2 ·x0.5∫0

λe−λx dx = cA

Satz 7.1 Es sei X eine nichtnegative bzw. integrierbare Zufallsgroße auf (Ω,A, P ). C sei einebeliebige Teil-σ-Algebra von A. Dann existiert bis auf fast sichere Gleichheit eine C-messbareZufallsgroße XC mit

E(X;C) = E(XC;C), C ∈ C (7.14)

bzw. ∫C

X(ω) P (dω) =∫C

XC(ω) P (dω)

XC ist fast sicher nichtnegativ bzw. integrierbar und wird bedingte Erwartung von X bezuglich C

genannt:XC = E(X |C)

Page 38: Stochastik II - Fakultät für Mathematik und Informatik (Fakultät 1) … · 2008-04-01 · Stochastik In diesem Kapitel sollen die Grundlagen der Wahrscheinlichkeitstheorie auf

34 KAPITEL 7. BEDINGTE VERTEILUNGEN, BEDINGTE ERWARTUNG

Beweis fur X ≥ 0. Es wird der Satz von Radon-Nikodym verwendet, der besagt, dass fur einσ-finites Maß µ und ein Maß ν mit ν µ eine Dichtefunktion f existiert mit

ν(C) =∫C

f(ω) µ(dω), C ∈ C

Wenn wir das jetzt auf unser Problem beziehen, sei PC die Einschrankung von P auf C. Ferner sei

Q(C) =∫C

X(ω) P (dω) = E(X;C).

Um die Analogie zum obigen Formalismus herzustellen, identifizieren wir ν mit Q und µ mit PC.Die σ-Finitheit ist gegeben, da P ein Wahrscheinlichkeitsmaß ist. Naturlich ist Q PC, da ausPC(C) = P (C) = 0 ∫

C

X(ω) P (dω) = 0

folgt. Also existiert eine C-messbare nichtnegative Funktion XC mit∫C

X(ω) P (dω) = Q(C) =∫C

XC(ω)PC(dω) =∫C

XC(ω) P (dω),

da XC C-messbar ist. XC ist P -fast-eindeutig:

Wenn XC eine andere Zufallsgroße ware, die der Bedingung ebenfalls genugt, so muss gelten:

PC(XC = XC) = 1,

und weil XC = XC ∈ C folgt P (XC = XC) = 1.

Die Fortsetzung des Beweises findet sich in [6] auf den Seiten 118 ff.

Bemerkungen

1. E(X |C) ist nur P -fast-sicher bestimmt.

2. Die Berechnung von E(X |C) ist oft schwierig. (”Differenzieren ist nicht immer leichter alsIntegrieren.“)

3. X → E(X |C) ist eine Glattung oder Mittelung (siehe Beispiele).

4. Zwei Extremfalle:

• E(X |A) = X fast sicher.

• C = ∅,Ω ⇒ E(X |C) = EX fast sicher.

Fakten

• Es gilt die Formel des totalen Erwartungswertes:

E(E(X |C)) = EX. (7.15)

(In (7.14) setzen wir C = Ω.)

• Ist Z C-messbar, so gilt E(ZX |C) = ZE(X |C).

• Es gilt E(|E(X |C)|p) ≤ E|X|p fur p ≥ 1. Damit gilt auch:

var (E(X |C)) ≤ var X (7.16)

Page 39: Stochastik II - Fakultät für Mathematik und Informatik (Fakultät 1) … · 2008-04-01 · Stochastik In diesem Kapitel sollen die Grundlagen der Wahrscheinlichkeitstheorie auf

7.4. ALLGEMEINER BEGRIFF DER BEDINGTEN ERWARTUNG 35

• Wir betrachten nun L2(Ω,A,P ), also Zufallsgroßen mit EX2 < ∞ ( Maßtheorie Abschnitt

11.2). Hier gilt: Alle X, die messbar bezuglich C sind, bilden einen linearen Teilraum vonL2.

• Im Spezialfall C = σ(Y ) schreibt man E(X |C) = E(X |Y )

• Es gilt E(X |X) = X fast sicher.

• Es giltE(X |Y ) = f(Y ). (7.17)

Daraus ergibt sich ein Rezept zur Berechnung von E(X |Y ): Berechne

f(y) = E(X |Y = y)

mittels elementarer Stochastik. Setze dann E(X |Y ) = f(Y ).

Wenn z. B. E(X + Y |Y ) fur unabhangige X und Y gesucht ist, dann ergibt sich:

E(X + Y |Y = y) = E(X |Y = y) + E(Y |Y = y) = EX + y = f(y)

Also E(X + Y |Y ) = EX + Y .

Bei stochastischen Prozessen (z. B. Martingalen) beschreibt

C = σ(X1, . . . , Xn)

die kleinste σ-Algebra, bezuglich der X1, . . . , Xn messbar sind. Interpretiert werden kann das auchwie folgt:

E(Xn+1 |X1, . . . , Xn) ist gesucht, wobei die X1, . . . , Xn die ”Vergangenheit“ darstellen.

Bemerkungen

• Wenn X und Y diskret sind, dann hat die Zufallsgroße E(X |Y ) gerade die bedingten Er-wartungswerte E(X |Y = y) aus (7.8) als mogliche Realisierungen.

Der Erwartungswert des bedingten Erwartungswertes E(X |Y ) ist nach (7.15) gleich EX:

E(E(X |Y )) =∑

j

E(X |Y = yj)p·j = EX

• Wenn X und Y absolutstetig sind, dann sind die E(X |Y = y) aus (7.11) die moglichenWerte der Zufallsgroße E(X |Y ). Aus (7.15) folgt wiederum:

E(E(X |Y )) =

∞∫−∞

E(X |Y = y)fY (y) dy = EX

• Sei A ∈ A und X(ω) = 1A(ω). Dann schreibt man

E(X |C)(ω) = P (A |C)(ω) (7.18)

und mit (7.14) ergibt sich fur alle B ∈ C

P (A ∩B) =∫B

P (A |C)(ω) P (dω) (7.19)

Speziell fur B = Ω ergibt sich

P (A) =∫Ω

P (A |C)(ω) P (dω), (7.20)

die Formel der totalen Wahrscheinlichkeit.

Page 40: Stochastik II - Fakultät für Mathematik und Informatik (Fakultät 1) … · 2008-04-01 · Stochastik In diesem Kapitel sollen die Grundlagen der Wahrscheinlichkeitstheorie auf

36 KAPITEL 7. BEDINGTE VERTEILUNGEN, BEDINGTE ERWARTUNG

Sei Bi (i = 1, . . . , n) eine Folge von paarweise disjunkten Teilmengen aus Ω mit P (Bi) > 0 undC = σ(B1, . . . , Bn) die von den Bi erzeugte σ-Algebra. Aus der C-Messbarkeit von E(X |C) folgt,dass E(X |C) konstant auf den Bi ist, spezieller:

E(X |C)(ω) = E(X |Bi) fur ω ∈ Bi (7.21)

Dies ergibt sich aus

E(X |C)(ω) =∫Bi

X(ω)P (dω)1

P (Bi)= E(X |Bi)

Page 41: Stochastik II - Fakultät für Mathematik und Informatik (Fakultät 1) … · 2008-04-01 · Stochastik In diesem Kapitel sollen die Grundlagen der Wahrscheinlichkeitstheorie auf

37

Kapitel 8

Funktionen von Zufallsvektoren,Faltung

8.1 Funktionen von zufalligen Vektoren

Es sei X ein zufalliger Vektor auf (Ω,A, P ), g : Rd → Rd sei Borel-messbar, dann ist Y = g(X)ein zufalliger Vektor auf demselben Wahrscheinlichkeitsraum mit

PY (B) = PX(g−1(B)) (8.1)

fur alle Borelmengen B. Es sei nun X absolutstetig mit der Dichte fX , g sei eineindeutig, g−1 = hsei die Umkehrabbildung, d.h.

X = h(Y ) = (h1(Y ), . . . , hd(Y )).

Dann gilt:

P (X ∈ A) =∫A

fX(x1, . . . , xd) dx1 . . .dxd

=∫

g(A)

fX(h(y))|J |dy1 . . . dyd

= P (Y ∈ g(A)). (8.2)

Es gilt alsofY (y) = |J |fX(h(y)) (8.3)

Hierbei ist

J = det

((∂hi(y)

∂yj

)i,j=1,...,d

)die sogenannte Jacobische Funktionaldeterminante.

Beispiel. Seien X1, X2 unabhangig und gleichverteilt auf [0, 1]. Dann sind Y1 und Y2 mit

Y1 =√−2 ln X1 sin 2πX2

Y2 =√−2 ln X1 cos 2πX2

(8.4)

unabhangig N(0, 1) verteilt.

Page 42: Stochastik II - Fakultät für Mathematik und Informatik (Fakultät 1) … · 2008-04-01 · Stochastik In diesem Kapitel sollen die Grundlagen der Wahrscheinlichkeitstheorie auf

38 KAPITEL 8. FUNKTIONEN VON ZUFALLSVEKTOREN, FALTUNG

Anwendung von (8.3) auf X = (X1, X2)T mit der Dichte fX(x1, x2) liefert:

fX1+X2(z) =∞∫−∞

fX1,X2(x, z − x) dxfalls X1,X2

=unabhangig

∞∫−∞

fX1(x)fX2(z − x) dx

fX1−X2(z) =∞∫−∞

fX1,X2(x, x− z) dx =∞∫−∞

fX1(x)fX2(x− z) dx

fX1X2(z) =∞∫−∞

1|x|fX1,X2(x, z

x ) dx =∞∫−∞

1|x|fX1(x)fX2(

zx ) dx

fX1/X2(z) =∞∫−∞

|x|fX1,X2(xz, x) dx =∞∫−∞

|x|fX1(xz)fX2(x) dx

(8.5)

Beweis. Es werden nur die Aussagen uber die Addition und das Produkt von Zufallsgroßen bewie-sen.

1. Addition. Sei

g(x1, x2) =(

x1

x1 + x2

)Y1 = g1(X1, X2) = X1 X1 = h1(Y1, Y2) = Y1

Y2 = g2(X1, X2) = X1 + X2 X2 = h2(Y1, Y2) = Y2 − Y1

Es ergibt sich die Jacobi-Determinante

J =∣∣∣∣ 1 0−1 1

∣∣∣∣ = 1

Damit folgt

fY1,Y2(y1, y2) = fX1,X2(y1, y2 − y1)

fY2(z) =∫

fX1,X2(x, z − x) dx

2. Produkt. Sei

g(x1, x2) =(

x1

x1x2

)Y1 = g1(X1, X2) = X1 X1 = h1(Y1, Y2) = Y1

Y2 = g2(X1, X2) = X1X2 X2 = h2(Y1, Y2) =Y2

Y1

Es ergibt sich die Jacobi-Determinante

J =

∣∣∣∣∣∣1 0

−y2

y21

1y1

∣∣∣∣∣∣ = 1y1

Damit folgt

fY1,Y2(y1, y2) =1|y1|

fX1,X2

(y1,

y2

y1

)fY2(z) =

∫1|x|

fX1,X2

(x,

z

x

)dx

Page 43: Stochastik II - Fakultät für Mathematik und Informatik (Fakultät 1) … · 2008-04-01 · Stochastik In diesem Kapitel sollen die Grundlagen der Wahrscheinlichkeitstheorie auf

8.1. FUNKTIONEN VON ZUFALLIGEN VEKTOREN 39

Verteilung Parameter Summenverteilung ParameterNormal µ1, σ2

1 , µ2, σ22 Normal µ1 + µ2, σ2

1 + σ22

Bernoulli p Binomial 2, pBinomial n1, p, n2, p Binomial n1 + n2, pPoisson λ1, λ2 Poisson λ1 + λ2

Exponential λ, λ Gamma 2, λGamma p1, λ, p2, λ Gamma p1 + p2, λGleichmaßig [0, 1], [0, 1] Dreieck [0, 2]

Tabelle 8.1: Verteilungen von Summen unabhangiger Zufallsgroßen

Die Operation

fX1 ∗ fX2 = fX1+X2 =

∞∫−∞

fX1(x)fX2(z − x) dx (8.6)

wird als Faltung bezeichnet.

Beispiele. Tabelle 8.1 zeigt einige Verteilungen von Summen unabhangiger Zufallsgroßen.

Der Beweis dieser Aussagen ergibt sich mit Hilfe des Faltungsintegrals (8.6) bzw. dem diskretenAnalogon

P (X1 + X2 = k) =∑

i

P (X1 = i)P (X2 = k − i) (8.7)

bzw. leichter mit charakteristischen Funktionen (siehe nachstes Kapitel).

Normalverteilung, Poissonverteilung und Binomialverteilung heißen auf Grund der Gleichungen inTabelle 8.1 faltungsstabil.

Die Formeln (8.5) lassen sich auch direkt erhalten, z.B.

FX1+X2(y) = P (X1 + X2 < y) =∫

x1+x2<y

fX1,X2(x1, x2) dx1 dx2

oder heuristisch

P (X1 + X2 < y) =

∞∫−∞

P (X2 < y − x) fX1(x) dx︸ ︷︷ ︸P (X1∈(x,x+dx))

=

∞∫−∞

FX2(y − x)fX1(x) dx,

was auf

fX1+X2(y) =

∞∫−∞

fX1(x)fX2(y − x) dx

und

fX1+X2 = fX1 ∗ fX2

fuhrt.

Speziell fur die allgemeine zweidimensionale Normalverteilung von (X1, X2) ergibt sich:

X1 + X2 ∼ N(µ1 + µ2, σ21 + σ2

2 + 2σ1σ2%).

Ein wichtiges Problem der Statistik ist die ”Entfaltung“. Dabei sind fur Y = X1 + X2 die Datenvon Y und die Verteilung von X1 bekannt, und X2 ist gesucht. Das ist ein typisches inversesProblem.

Page 44: Stochastik II - Fakultät für Mathematik und Informatik (Fakultät 1) … · 2008-04-01 · Stochastik In diesem Kapitel sollen die Grundlagen der Wahrscheinlichkeitstheorie auf

40 KAPITEL 8. FUNKTIONEN VON ZUFALLSVEKTOREN, FALTUNG

Page 45: Stochastik II - Fakultät für Mathematik und Informatik (Fakultät 1) … · 2008-04-01 · Stochastik In diesem Kapitel sollen die Grundlagen der Wahrscheinlichkeitstheorie auf

41

Kapitel 9

Prufverteilungen der Statistik: χ2,t und F

Wir betrachten hier eine mathematische Stichprobe vom Umfang n (vgl. S.67) aus einer N(µ, σ2)-Grundgesamtheit. Der Stichprobenmittelwert und die Stichprobenstreuung sind definiert als

X =1n

n∑i=1

Xi und S2 =1

n− 1

n∑i=1

(Xi − X)2.

Es gilt

X ∼ N

(µ,

σ2

n

).

9.1 χ2-Verteilung mit n Freiheitsgraden

Es seien die Zufallsgroßen Xi ∼ N(0, 1) stochastisch unabhangig. Dann ist die positive Zufallsgroße

X2 = X21 + . . . + X2

n ∼ χ2n

χ2-verteilt mit n Freiheitsgraden. Um die Dichtefunktion fX2(x) zu erhalten, betrachten wir zuerstden Fall n = 1:

P (X21 < x) = P (−

√x < X1 <

√x) = FX1(

√x)− FX1(−

√x)

Also gilt fur die Dichtefunktion

fX21(x) =

12√

x(fX1(

√x) + fX1(−

√x)),

woraus folgt:

fX21(x) =

x−12

√2π

e−x2 1[0,∞)(x).

Das ist die Dichte der Γ-Verteilung mit p = 12 und λ = 1

2 . Nach dem Additionstheorem furdiese Verteilung ist X2 ebenfalls Γ-verteilt, mit den Parametern p = n

2 und λ = 12 . Fur die

Dichtefunktion gilt dann:

fX2(x) = fχ2n(x) =

12

n2 Γ(n

2 )x

n2−1e−

x2 1[0,∞)(x) (9.1)

Page 46: Stochastik II - Fakultät für Mathematik und Informatik (Fakultät 1) … · 2008-04-01 · Stochastik In diesem Kapitel sollen die Grundlagen der Wahrscheinlichkeitstheorie auf

42 KAPITEL 9. PRUFVERTEILUNGEN DER STATISTIK

Die zugehorige Verteilung heißt χ2-Verteilung mit n Freiheitsgraden.

Falls nun Xi = N(0, σ2) verteilt ist, hat X2i eine Γ-Verteilung mit p = 1

2 und λ = 12σ2 . Daraus

lasst sich ableiten, dass

Y =n∑

i=1

X2i = X2

Γ-verteilt mit den Parametern p = n2 und λ = 1

2σ2 ist.

Satz 9.1 Genau dann, wenn Xi ∼ N(µ, σ2) ist, sind X und S2 unabhangig.

Zum Beweis sei auf [13] verwiesen.

9.2 Verteilung von S2

Es giltn− 1σ2

S2 ∼ χ2n−1 (9.2)

wegen

(n− 1)S2 =n∑

i=1

(Xi − X)2.

Es handelt sich um die Summe aus n Zufallsgroßen, wobei die Bindung

nX =n∑

i=1

Xi

besteht. Daher spricht man von n− 1 Freiheitsgraden. Es gilt weiterhin:

ES2 = σ2

var S2 =2

n− 1σ4

Diese Tatsachen lassen sich auf die allgemein (d. h. ohne Normalverteilungs-Annahme) gultigenAussagen

ES2 = varX1

var S2 =1n

(E(X1 − EX1)4 −

n− 3n− 1

(varX1)2)

zuruckfuhren. 1

9.3 t-Verteilung mit n Freiheitsgraden

Wenn zwei Zufallsgroßen X ∼ N(0, 1) und Y ∼ χ2n unabhangig sind, dann gilt:

X√Yn

∼ tn

Die zugehorige Verteilung wird Studentsche t-Verteilung mit n Freiheitsgraden genannt. Als wich-tige Anwendung gilt:

T =X − µ

S√n

∼ tn−1. (9.3)

1Zum Beweis siehe [8], Seite 177.

Page 47: Stochastik II - Fakultät für Mathematik und Informatik (Fakultät 1) … · 2008-04-01 · Stochastik In diesem Kapitel sollen die Grundlagen der Wahrscheinlichkeitstheorie auf

9.4. F -VERTEILUNG 43

Diese Verteilung wurde von Gosset, der unter dem Pseudonym ”Student“ veroffentlichte, 1908publiziert. Die Dichtefunktion von tn ist

fn(x) =Γ(

n + 12

)Γ(n

2

)√πn

(1 +

x2

n

)−n+12

.

Die t-Verteilung nahert sich fur große n der Normalverteilung an. Deswegen kann man fur n ≥ 30die Quantile tn,α und zα miteinander identifizieren (Regel ”30 = ∞“).

9.4 F -Verteilung

Definition:Es seien X ∼ χ2

n1, Y ∼ χ2

n2sowie X und Y stochastisch unabhangig. Dann heißt die Verteilung

der ZufallsgroßeXn1Yn2

=n2

n1

X

Y

F -Verteilung mit (n1, n2) Freiheitsgraden (R.A. Fisher 1912).

Wenn S21 und S2

2 die Stichproben-Streuungen zweier unabhangiger Stichproben aus N(µ, σ2) mitden Umfangen n1 und n2 sind, dann ist der Quotient

S21

S22

∼ Fn1−1,n2−1

F -verteilt (Fishersche F -Verteilung mit (n1, n2) Freiheitsgraden). Fur weitere Informationen undTabellen sei auf entsprechende Literatur verwiesen.

Page 48: Stochastik II - Fakultät für Mathematik und Informatik (Fakultät 1) … · 2008-04-01 · Stochastik In diesem Kapitel sollen die Grundlagen der Wahrscheinlichkeitstheorie auf

44 KAPITEL 9. PRUFVERTEILUNGEN DER STATISTIK

Page 49: Stochastik II - Fakultät für Mathematik und Informatik (Fakultät 1) … · 2008-04-01 · Stochastik In diesem Kapitel sollen die Grundlagen der Wahrscheinlichkeitstheorie auf

45

Kapitel 10

Charakteristische Funktionen

10.1 Definition

Charakteristische Funktionen sind ein wichtiges Hilfsmittel der Stochastik. Sie vereinfachen vieleDarstellungen und Beweise: Faltung, Momentenberechnung, Beweis von Grenzwertsatzen. Erst-mals eingefuhrt wurden sie von Lagrange, und sie gehen zuruck auf Laplace und Fourier (Laplace-Transformation, Fourier-Transformation). Die charakteristische Funktion der Zufallsgroße X wirdeingefuhrt als Erwartungswert der Zufallsgroße eitX . Zunachst werden daher komplexwertige Zu-fallsgroßen eingefuhrt.

Z = X + iY ist eine komplexwertige Zufallsgroße auf (Ω,A, P ) genau dann, wenn X und Y reelleZufallsgroßen auf (Ω,A, P ) sind. Der Erwartungswert wird erklart durch EZ = EX + iEY , dieVarianz durch varZ = E|Z − EZ|2. Zwei Zufallsgroßen Z1 = X1 + iY1 und Z2 = X2 + iY2 heißenunabhangig genau dann wenn (X1, Y1)T und (X2, Y2)T unabhangig sind. Dann gilt z.B.:

EZ1Z2 = EZ1 · EZ2 (10.1)

Haufig wird die bekannte Euler-Relation verwendet:

eitX = cos tX + i sin tX (10.2)

Definition 10.1

ϕX(t) = EeitX , −∞ < t < ∞ (10.3)

=∫Ω

eitX(ω) P (dω)

=∫R1

eitx PX(dx) =

∞∫−∞

eitx dFX(x) (∗)

=

∞∫−∞

eitxfX(x) dx (∗∗)∑k eitxkP (X = xk)

(10.4)

heißt charakteristische Funktion der Zufallsgroße X (bzw. der Verteilungsfunktion FX). (∗) heißtauch Fourier-Stieltjes-Transformierte von FX , (∗∗) heißt auch Fourier-Transformierte von fX .

Wegen |ϕX(t)| ≤ E|eitX | = 1 bzw.∞∫−∞

|eitx|dFX(x) =∞∫−∞

1 dFX(x) = 1 < ∞ existiert zu jeder

Zufallsgroße X eine charakteristische Funktion.

Page 50: Stochastik II - Fakultät für Mathematik und Informatik (Fakultät 1) … · 2008-04-01 · Stochastik In diesem Kapitel sollen die Grundlagen der Wahrscheinlichkeitstheorie auf

46 KAPITEL 10. CHARAKTERISTISCHE FUNKTIONEN

In Tabelle 10.1 sind die charakteristischen Funktionen einiger wichtiger Verteilungen zusammen-gestellt.

Verteilung Parameter charakteristische FunktionKonstant c eitc

Bernoulli p 1− p + peit

Binomial n, p (1− p + peit)n

Geometrisch ppeit

1− (1− p)eit

Negativ binomial m, p

(peit

1− (1− p)eit

)m

Poisson λ eλ(eit−1)

Standard normal e−t22

Normal µ, σ2 eµit−σ2 t22

Exponential λλ

λ− it

Gamma α, λ

λ− it

gleichmaßig [−a, a] asin at

at

Tabelle 10.1: Charakteristische Funktionen wichtiger Verteilungen

10.2 Elementare Eigenschaften

Eigenschaften der charakteristischen Funktion:

ϕX(0) = 1, |ϕ(x)| ≤ 1, ϕX(−t) = ϕX(t) (10.5)

Beweis:

ϕX(0) =

∞∫−∞

1 dFX(x) = 1

|ϕX(t)| ≤∞∫

−∞

|eitx|dFX(x) =

∞∫−∞

1 dFX(x) = 1

ϕX(−t) = Eei(−t)X = Ee−itX = Eeitx = ϕX(t)

Satz 10.1 ϕX ist gleichmaßig stetig auf R1.

Beweis: Es gilt fur beliebiges h:

|ϕX(t + h)− ϕ(t)| =∣∣E (eitX

(eihX − 1

))∣∣≤ E

∣∣eitX∣∣︸ ︷︷ ︸

=1

∣∣eihX − 1∣∣ = E

(∣∣eihX − 1∣∣) .

Aus h → 0 folgt E|eihX − 1| → 0 nach dem Lebesgue-Satz uber die majorisierte Konvergenz mitP -integrierbarem |eihX |, wobei fur alle ω eihX(ω) gegen 1 konvergiert. Die Majorante ist 2.

Page 51: Stochastik II - Fakultät für Mathematik und Informatik (Fakultät 1) … · 2008-04-01 · Stochastik In diesem Kapitel sollen die Grundlagen der Wahrscheinlichkeitstheorie auf

10.3. UMKEHR- UND EINDEUTIGKEITSSATZ 47

Bei der linearen Transformation Y = aX + b verhalt sich die charakteristische Funktion folgen-dermaßen

ϕaX+b(t) = Eeit(aX+b) = eitbϕX(at) (10.6)

Sei X ∼ N(0, 1) und Y = σX + µ. Dann ergibt sich

ϕN(µ,σ2) = ϕY (t) = eitµϕX(σt) = exp

itµ− σ2t2

2

(10.7)

Satz 10.2 (Faltungssatz) Es seien X1 und X2 unabhangig. Dann gilt fur Z = X1 + X2:

ϕZ(t) = ϕX1(t)ϕX2(t) (10.8)

Beweis:

ϕX1+X2(t) = Eeit(X1+X2) = EeitX1eitX2

= EeitX1EeitX2 = ϕX1(t)ϕX2(t)

Die charakteristische Funktion der Summe zweier Zufallsgroßen ist also das Produkt der charak-teristischen Funktionen der Zufallsgroßen. Sind beispielsweise X1 ∼ N(µ1, σ

21), X2 ∼ N(µ2, σ

22),

dann gilt:

ϕX1+X2 = exp

itµ1 −σ2

1t2

2

· exp

itµ2 −

σ22t2

2

= exp

it(µ1 + µ2)−

(σ21 + σ2

2)t2

2

Auf Grund des Eindeutigkeitssatzes ( spater) folgt

X1 + X2 ∼ N(µ1 + µ2, σ21 + σ2

2)

10.3 Umkehr- und Eindeutigkeitssatz

Es gelten folgende ”Umkehrformeln“:

Satz 10.3 An Stetigkeitsstellen a und b von FX (a < b) gilt:

FX(b)− FX(a) =12π

∞∫−∞

e−ita − e−itb

itϕX(t) dt (10.9)

Im absolutstetigen Fall ergibt sich die Umkehrformel der Fourier-Transformation:

fX(x) =12π

∞∫−∞

ϕX(t)e−itx dt (10.10)

Satz 10.4 (Eindeutigkeitssatz) Wenn ϕX(t) = ϕY (t) fur alle t gilt, dann folgt Xd= Y .

Jede Verteilungsfunktion FX ist eindeutig durch die charakteristische Funktion ϕX bestimmt. Zueinem Beweis des Satzes siehe z. B. Gnedenko, Renyi.

Page 52: Stochastik II - Fakultät für Mathematik und Informatik (Fakultät 1) … · 2008-04-01 · Stochastik In diesem Kapitel sollen die Grundlagen der Wahrscheinlichkeitstheorie auf

48 KAPITEL 10. CHARAKTERISTISCHE FUNKTIONEN

10.4 Die charakteristische Funktion und Momente

Die Momente einer Verteilung konnen leicht aus ϕX berechnet werden.

Satz 10.5 Falls EXn existiert, dann ist ϕX n-mal stetig differenzierbar und es gilt:

(−i)kϕ(k)X (0) = EXk, k = 1, 2, . . . , n (10.11)

Beweis. Der Beweis wird nur fur den Fall k = 1 gefuhrt. Es gilt:

ϕ′X(t) = limh→0

ϕX(t + h)− ϕX(t)h

= limh→0

1h

E(ei(t+h)X − eitX)

Nun konvergiert Zh = 1h (ei(t+h)X − eitX) gegen Z = iXeitX , wenn h gegen 0 geht. Wegen

|eity − eitz| ≤ |y − z| · |t|

folgt

|Zh| =1|h||ei(t+h)X − eitX | ≤ |h| · |X|

|h|= |X|.

Also wird Zh durch |X| dominiert und gehort damit zum L1. Nach dem Lebesgue-Satz uber diemajorisierte Konvergenz gilt

limh→0

EZh = E( limh→0

Zh) = E(iXeitX),

woraus die Behauptung folgt.

Speziell gilt EX = −iϕ′X(0) und EX2 = −ϕ′′X(0).

Beispielsweise ergibt sich fur X ∼ N(0, 1):

ϕX(t) = e−t22

ϕ′X(t) = −te−t22

ϕ′′X(t) = (t2 − 1)e−t22

Daraus folgt EX = 0, EX2 = 1 und varX = 1.

Falls EXn existiert, dann kann ϕX in eine Taylor-Reihe der Ordnung n entwickelt werden, d.h.

ϕX(t) = 1 +n∑

k=1

1k!

(it)kEXk + o(tn) (10.12)

Wenn ϕ(k)X (0) existiert, so existiert auch EXk fur gerade k.

10.5 Stetigkeitssatz

Eine Folge von Zufallsgroßen Xn konvergiert in Verteilung gegen X (Xnd−→ X) genau dann, wenn

limn→∞

FXn(x) = FX(x)

fur alle Stetigkeitspunkte x von F gilt. Aquivalent dazu ist

limn→∞

Ef(Xn) = Ef(X)

fur alle stetigen und beschrankten Funktionen f . Hierbei ist Ef(X) =∫

f(x) dFX(x).

Page 53: Stochastik II - Fakultät für Mathematik und Informatik (Fakultät 1) … · 2008-04-01 · Stochastik In diesem Kapitel sollen die Grundlagen der Wahrscheinlichkeitstheorie auf

10.5. STETIGKEITSSATZ 49

Satz 10.6 Es giltXn

d−→ X ⇐⇒ limn→∞

ϕXn(t) = ϕX(t) fur alle t.

Beweis:”=⇒“: Da cos(tx) und sin(tx) stetig und beschrankt sind, konvergiert

ϕXn(t) = E(cos(tXn)) + iE(sin(tXn))

gegenE(cos(tX)) + iE(sin(tX)).

”⇐=“: Es genugt zu zeigen, dass fur alle a und b mit a < b, die Stetigkeitspunkte aller FXnund

von FX sind, gilt:FXn(b)− FXn(a) → FX(b)− FX(a)

Es gilt

FX(b)− FX(a) = limT→∞

12π

T∫−T

e−ita − e−itb

itϕX(t) dt

= limT→∞

12π

T∫−T

e−ita − e−itb

it( limn→∞

ϕXn(t)) dt

= limn→∞

limT→∞

12π

T∫−T

e−ita − e−itb

it(ϕXn

(t)) dt

= limn→∞

(FXn(b)− FXn

(b))

nach dem Satz von der majorisierten Konvergenz.

Satz 10.7 Stetigkeitssatz (Levy, Cramer). Fn(x) → F (x) fur n → ∞ an jeder Stetigkeitsstellevon F gilt genau dann, wenn ϕn(t) → ϕ(t) fur n →∞ gleichmaßig auf jedem endlichen Intervallkonvergiert.

Anwendungsbeispiel: Poissonscher Grenzwertsatz. Es sei Xn binomialverteilt mit den Pa-rametern n und pn. Wenn n groß wird und pn gegen Null strebt, strebe npn gegen einen Wert λmit 0 < λ < ∞. Es gilt EXn = npn. Es sei weiterhin X Poisson-verteilt mit dem Parameter λ

und damit mit dem Erwartungswert λ. Es gilt Xnd−→ X, was ubrigens heißt, dass die Einzelwahr-

scheinlichkeiten P (Xn = i) gegen P (X = i) konvergieren.

Beweis. Es gilt

ϕXn(t) = (1− pn + pneit)n

ϕX(t) = eλ(eit−1)

und (1− pn + pneit

)n ∼ (1− λ

n+

λ

neit

)n

strebt gegeneλ(eit−1)

Nach Satz 10.6 folgt nun die Behauptung.

Page 54: Stochastik II - Fakultät für Mathematik und Informatik (Fakultät 1) … · 2008-04-01 · Stochastik In diesem Kapitel sollen die Grundlagen der Wahrscheinlichkeitstheorie auf

50 KAPITEL 10. CHARAKTERISTISCHE FUNKTIONEN

Bemerkungen:

• X sei diskrete Zufallsgroße. Dann gilt

ϕX(t) =∑

k

eitkP (X = k). (10.13)

ϕX hangt nur uber eit von t ab, ist damit periodisch mit der Periode 2π; die Kenntnis vonϕX auf [−π, π] genugt, damit die zugehorige Zufallsgroße eindeutig bestimmt ist, es gilt:

pk = P (X = k) =

π∫−π

eitkϕX(t) dt

Man erhalt also den k-ten Koeffizienten der Fourier-Reihe von ϕX .

• Substituiert man z = eit in (10.13), erhalt man:

GX(z) :=∑

k

pkzk, (10.14)

die erzeugende Funktion von X; es gilt ϕX(t) = GX(eit).

• Die charakteristische Funktion fur zufallige Vektoren X = (X1, . . . , Xd)T wird analog defi-niert:

ϕX(t1, . . . , td) = EeiXT t = E(ei

∑dj=1 Xjtj

)(10.15)

Dabei ist t = (t1, . . . , tn)T Wenn X unabhangige Komponenten hat, so gilt:

ϕX(t1, . . . , td) =d∏

j=1

ϕXj(tj) (10.16)

• Noch allgemeiner ist das charakteristische Funktional fur eine zufallige Funktion X(u):

ϕX(t) = E(ei

∫t(u)X(u) du

).

Page 55: Stochastik II - Fakultät für Mathematik und Informatik (Fakultät 1) … · 2008-04-01 · Stochastik In diesem Kapitel sollen die Grundlagen der Wahrscheinlichkeitstheorie auf

51

Kapitel 11

Gesetze der großen Zahlen

11.1 Konvergenzarten der Stochastik

Es sei (Xn)n∈N eine Folge von Zufallsgroßen.

• Verteilungskonvergenz

Symbolisch: Xnd−→ X

Die Folge (Xn) heißt verteilungskonvergent gegen X, falls fur jede Stetigkeitsstelle x von FX

giltlim

n→∞FXn

(x) = FX(x) (11.1)

Bemerkung: Verteilungskonvergenz ist zur sogenannten schwachen Konvergenz Xn → Xaquivalent, d.h., fur alle beschrankten und stetigen f gilt:

limn→∞

Ef(Xn) = Ef(X) (11.2)

• Konvergenz in Wahrscheinlichkeit (stochastische Konvergenz)

Symbolisch: XnP−→ X

Die Folge (Xn) heißt stochastisch konvergent gegen X, wenn fur jedes positive ε gilt

limn→∞

P (|Xn −X| ≥ ε) = 0 (11.3)

(entspricht der Maßkonvergenz)

• Konvergenz mit Wahrscheinlichkeit 1 (fast sichere Konvergenz)

Symbolisch: XnP−f.s.−−−−→ X

Die Folge (Xn) heißt gegen X fast sicher konvergent, wenn

P (ω ∈ Ω : limn→∞

Xn(ω) = X(ω)) = 1 (11.4)

(vgl. Maßtheorie: Konvergenz P -fast uberall)

• Konvergenz im p-ten Mittel

Symbolisch: XnLp

−−→ X

limn→∞

E|Xn −X|p = 0, p ≥ 1 (11.5)

Speziell fur p = 2 spricht man von der Konvergenz im quadratischen Mittel und fur p = 1von der L1-Konvergenz.

Page 56: Stochastik II - Fakultät für Mathematik und Informatik (Fakultät 1) … · 2008-04-01 · Stochastik In diesem Kapitel sollen die Grundlagen der Wahrscheinlichkeitstheorie auf

52 KAPITEL 11. GESETZE DER GROSSEN ZAHLEN

Im Rahmen der Maßtheorie wurden die meisten der folgenden Beziehungen zwischen den verschie-denen Konvergenzarten ( Abbildung 11.1) nachgewiesen.

XnL2

→ X XnL1

→ X

XnP -f.s.→ X

XnP→ X Xn

d→ X

-HHH

HHHj

*

-

6

X = c

Abbildung 11.1: Beziehungen zwischen den Konvergenzarten

11.2 Gesetze der großen Zahlen

11.2.1 Schwache Gesetze der großen Zahlen

Die Erfahrung lehrt, dass die relative Haufigkeit eines Ereignisses bei einer großen Anzahl vonVersuchen gegen die Wahrscheinlichkeit strebt; das arithmetische Mittel von (unabhangigen) Zu-fallsgroßen mit gleichem Erwartungswert strebt gegen den Erwartungswert. Die Gesetze der großenZahlen sind Satze uber die Konvergenz von arithmetischen Mitteln gegen Konstanten. Speziell:

Xn =1n

n∑i=1

Xi =1n

Sn → EX (11.6)

Schwache Gesetze der großen Zahlen hangen mit der stochastischen Konvergenz zusammen,wahrend starke Gesetze der großen Zahlen zur fast sicheren Konvergenz gehoren.

Satz 11.1 Es sei X1, X2, . . . eine Folge von unabhangigen Zufallsgroßen auf (Ω,A, P ) mit

EXi = µ und var Xi ≤ M < ∞ (11.7)

Dann gilt XnP−→ µ.

Zwei Beweise:

1. Es gilt:

EXn = µ

var Xn =1n2

n∑i=1

varXi ≤M

n

P (|Xn − µ| ≥ ε) ≤ varXn

ε2≤ M

ε2n

n→∞−−−−→ 0

2. Allgemein gilt: Aus Xnd−→ c folgt Xn

P−→ c. Das ergibt sich folgendermaßen.

P (|Xn − c| > ε) = P (Xn < c− ε) + P (Xn > c + ε)≤ FXn(c− ε) + (1− FXn(c + ε))

Page 57: Stochastik II - Fakultät für Mathematik und Informatik (Fakultät 1) … · 2008-04-01 · Stochastik In diesem Kapitel sollen die Grundlagen der Wahrscheinlichkeitstheorie auf

11.2. GESETZE DER GROSSEN ZAHLEN 53

Die rechte Seite strebt wegen Xnd−→ c gegen

Fc(c− ε) + (1− Fc(c + ε)) = 0 + (1− 1) = 0.

Es genugt also zum Beweis des Gesetzes der großen Zahlen, die Konvergenz der charakteris-tischen Funktion ϕXn

(t) → eitµ zu zeigen:

ϕXn(t) = ϕSn

(t

n

)=(

ϕX

(t

n

))n

=(

1 +itµn

+ o

(1n

))n

−→ eitµ.

Beispiel. Unabhangige Wiederholung eines Bernoulli-Experiments; sei

Xi =

1, falls Erfolg im i-ten Versuch0, falls Misserfolg im i-ten Versuch

Es gilt P (Xi = 1) = p, EXi = p, var Xi = p(1 − p) ≤ 14 , damit ist der eben bewiesene Satz

anwendbar und es folgt:1n

n∑k=1

Xin→∞−−−−→

Pp. (11.8)

(Bernoullisches Gesetz der großen Zahlen)

11.2.2 Starkes Gesetz der großen Zahlen

Unser Ziel ist es nun, XnP−f.s.−−−−→ µ unter den gleichen Voraussetzungen (11.7) zu beweisen.

Satz 11.2 (Starkes Gesetz der großen Zahlen) Seien X1, X2, . . . unabhangige Zufallsgroßen auf

(Ω,A, P ) mit EXi ≡ µ und var Xi ≤ M < ∞. Dann gilt XnP−f.s.−−−−→ µ.

Beweis. Sei Zn = Xn − µ = 1n

n∑i=1

(Xi − µ). Dann ist XnP−f.s.−−−−→ µ ⇔ Zn

P−f.s.−−−−→ 0

1. Es wird zunachst gezeigt, dass Zn2P−f.s.−−−−→ 0. Sei An := |Zn2 | ≥ ε; dann gilt:

varZn2 =1n4

n2∑i=1

var Xi ≤ Mn2

n4=

M

n2(11.9)

Mittels Tschebyschews Ungleichung folgt:

P (An) ≤ varZn2

ε2≤ M

n2ε2

∞∑n=1

P (An) < ∞

Fur A∗ = lim supAi folgt aus dem Lemma von Borel-Cantelli (Satz 1.1) P (A∗) = 0; seispeziell

A∗k := ω : Zn2(ω) ≥ 1

kfur unendlich viele n

Page 58: Stochastik II - Fakultät für Mathematik und Informatik (Fakultät 1) … · 2008-04-01 · Stochastik In diesem Kapitel sollen die Grundlagen der Wahrscheinlichkeitstheorie auf

54 KAPITEL 11. GESETZE DER GROSSEN ZAHLEN

Es folgt: P (A∗k) = 0 damit auch P (

⋃k A∗

k) = 0; mit E :=⋂

k(A∗k)c folgt P (E) = 1, d.h. E

enthalt ”fast alle“ Elemente von Ω. Fur fast jedes ω ∈ E und zu jedem k ∈ N gibt es nurendlich viele n mit

|Zn2 | ≥ 1k

(11.10)

d.h. fur P -fast falle ω ∈ Ω gilt: limn→∞

Zn2 = 0.

2. Fur m ∈ N sei n = n(m) die naturliche Zahle mit n(m)2 ≤ m ≤ (n(m) + 1)2; Zm wird nunmit Zn2 verglichen. Sei

Sk :=k∑

i=1

(Xi − µ)

Dann gilt:

var (Sm − Sn2) =m∑

i=n2+1

var Xi ≤ M(m− n2)

und Tschebyschews Ungleichung liefert

P (|Sm − Sn2 | ≥ εn2) ≤ M(m− n2)ε2n4

Summiert man nun uber m auf, ergibt sich:

∞∑m=1

P

(1

n2(m)|Sm − Sn2(m)| ≥ ε

)≤ M

ε2

∞∑n=1

(n+1)2−1∑m=n2

m− n2

n4

=M

ε2

∞∑n=1

1n4

(1 + 2 + . . . + 2n)

=M

ε2

∞∑n=1

2n(2n + 1)2n4

< ∞

Nach dem Lemma von Borel-Cantelli gilt fur fast alle ω und hinreichend große m:

1n2(m)

|Sm − Sn2(m)| < ε

Es folgt daraus zeilenweise:

Zn2(m) =1

n2(m)Sn2(m) < ε

|Sm|m

= |Zm| < 2ε

Zm → 0

Die Gesetze der großen Zahlen sind spezielle ”Ergodensatze“. Solche Satze zeigen, dass untergewissen Bedingungen gilt

Xn =1n

n∑i=1

Xin→∞−−−−→

∫Ω

X(ω) P (dω)

”Zeitmittel“ ”Raummittel“

Fasst man die Xi als zeitliche Abfolge von Zufallsgroßen auf, deren Werte das Verhalten einerGroße an einem Ort im Raum Rd beschreibt, so bedeutet diese Beziehung, dass das ”Zeitmittel“

Page 59: Stochastik II - Fakultät für Mathematik und Informatik (Fakultät 1) … · 2008-04-01 · Stochastik In diesem Kapitel sollen die Grundlagen der Wahrscheinlichkeitstheorie auf

11.2. GESETZE DER GROSSEN ZAHLEN 55

gegen das ”Raummittel“ konvergiert. Interessant ist dies insbesondere im Fall von stochastischabhangigen X1, X2, . . . . Dass diese Konvergenz keineswegs immer gilt, zeigt folgendes

Beispiel. Sei

X1 =

1 p = 12

−1 p = 12

Xi = X1 i = 2, 3, . . .

Offenbar ist EXi = 0, aber

1n

n∑i=1

Xi =

1 falls X1 = 1−1 falls X1 = −1

= X1, d.h., lim

n→∞Xn = X1 6= EXi

Es mussen also Voraussetzungen an die Starke der Abhangigkeit der Variablen gemacht werden,damit ein starkes Gesetz der großen Zahlen gilt.

Page 60: Stochastik II - Fakultät für Mathematik und Informatik (Fakultät 1) … · 2008-04-01 · Stochastik In diesem Kapitel sollen die Grundlagen der Wahrscheinlichkeitstheorie auf

56 KAPITEL 11. GESETZE DER GROSSEN ZAHLEN

Page 61: Stochastik II - Fakultät für Mathematik und Informatik (Fakultät 1) … · 2008-04-01 · Stochastik In diesem Kapitel sollen die Grundlagen der Wahrscheinlichkeitstheorie auf

57

Kapitel 12

Zentrale Grenzwertsatze

In diesem Kapitel betrachten wir die Konvergenz der Verteilung normierter Summen gegen N(0, 1).

12.1 Vorbetrachtungen

Es sei X1, X2, . . . eine total unabhangige Folge von Bernoulli-Zufallsgroßen mit

Xi =

1 mit Wkt. p0 mit Wkt. 1− p

Dann kann fur großes n die Verteilung von

n∑k=1

Xk ∼ Bin(n, p) (12.1)

durch eine Normalverteilung mit µ = np und σ2 = np(1− p) approximiert werden.

Sei allgemeiner X1, X2, . . . eine beliebige Folge total unabhangiger Zufallsgroßen mit EXi = µi

und varXi = σ2i . Gegen welche Verteilung konvergiert

1nα

n∑i=1

Xi − µi

σi= Sn(α) ? (12.2)

Fur α = 1 ergibt sich aus dem vorherigen Abschnitt, dass Sn(1)P−f.s.−−−−→ 0 (starkes Gesetz der

großen Zahlen). Im Fall α = 0 ist varSn(0) = n, es liegt also keine Konvergenz vor, die Verteilung

”verbreitert“ sich immer starker. Im Fall α = 12 ergibt sich unter gewissen Bedingungen eine

Konvergenz gegen eine Normalverteilung:

Sn

(12

)d−→ N(0, 1) (12.3)

Sn

(12

)heißt auch asymptotisch normalverteilt. Die zentralen Grenzwertsatze behandeln Bedin-

gungen fur diese Konvergenz.

12.2 Grenzwertsatz von Moivre-Laplace

Der Grenzwertsatz von Moivre-Laplace sichert die Konvergenz binomialverteilter Zufallsgroßengegen eine N(0, 1)-Verteilung.

Page 62: Stochastik II - Fakultät für Mathematik und Informatik (Fakultät 1) … · 2008-04-01 · Stochastik In diesem Kapitel sollen die Grundlagen der Wahrscheinlichkeitstheorie auf

58 KAPITEL 12. ZENTRALE GRENZWERTSATZE

Satz 12.1 Sei Yn binomialverteilt mit den Parametern (p, n). Dann gilt:

Zn =Yn − np√np(1− p)

d−→ Z, Z ∼ N(0, 1), (12.4)

d. h.

limn→∞

P

(Yn − np√np(1− p)

< x

)= Φ(x). (12.5)

Der Beweis wird spater in allgemeinerem Zusammenhang nachgeholt werden.

Binomialverteilung

-4 -3 -2 -1 0

1 2 3

4

0.0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1.0

Abbildung 12.1: Verteilungsfunktionen der Zn fur binomialverteilte Yn mit p = 13 und n = 5, 20, 100

sowie der Standardnormalverteilung

Bemerkung. Da Yn =n∑

i=1

Xi mit iid-Bernoulli-Variablen Xi ist, hat der Grenzwertsatz von

Moivre-Laplace tatsachlich die Form wie in (12.3).

Page 63: Stochastik II - Fakultät für Mathematik und Informatik (Fakultät 1) … · 2008-04-01 · Stochastik In diesem Kapitel sollen die Grundlagen der Wahrscheinlichkeitstheorie auf

12.3. GRENZWERTSATZ FUR FOLGEN VON IID-ZUFALLSGROSSEN 59

Der Zentrale Grenzwertsatz kann dazu benutzt werden, um eine Binomialverteilung anzunahern.Fur große n gilt:

Bin(n, p) ≈ N(np, np(1− p)) (12.6)

12.3 Grenzwertsatz fur Folgen von iid-Zufallsgroßen

Nachdem wir nun eine brauchbare Naherung fur die Binomialverteilung bei großen n haben,mochten wir das nun etwas verallgemeinern und i.i.d. Zufallsgroßen mit endlicher Streuung be-trachten.

Satz 12.2 Sei X1, X2, . . . eine Folge von iid-Zufallsgroßen mit EXi = µ und varXi = σ2 < ∞.Dann gilt

Sn

(12

)=

1√n

n∑i=1

Xi − µ

σ=

n∑i=1

Xi − nµ

σ√

n

d−−−−→n→∞

Z ∼ N(0, 1) (12.7)

oder

limn→∞

P

(Sn

(12

)< x

)= Φ(x) (12.8)

Beweis. Ohne Beschrankung der Allgemeinheit sei µ = 0 (andernfalls setze man X ′i = Xi − µ).

Aus dem Faltungssatz (siehe (10.6) und (10.9)) ergibt sich fur die charakteristische Funktion vonSn := Sn

(12

):

ϕSn(t) =[ϕX

(t

σ√

n

)]n

Entwicklung von ϕX in eine Taylorreihe unter Berucksichtigung von µ = 0 liefert:

ϕX(t) = 1− t2σ2

2+ o(t2)

Damit ergibt sich:

ϕSn(t) =[1− t2

2n+ o

(t2

n

)]n

Wegen limn→∞

(1 + x

n

)n = ex ergibt sich:

limn→∞

ϕSn(t) = e−

t22

Aus dem Stetigkeitssatz und dem Eindeutigkeitssatz fur charakteristische Funktionen folgtSn ∼ N(0, 1).

Die unabhangige Wiederholung ein und desselben Experiments fuhrt in der Summe der Messwertezu einer normalverteilten Zufallsgroße, d.h.

n∑i=1

Xid≈ N(nµ, nσ2) (12.9)

Man spricht dann von einer ”asymptotisch normalverteilten“ Zufallsgroße. Es gilt dann

P

(n∑

i=1

Xi < x

)≈ Φ

(x− nµ√

).

Oft ist diese Naherung schon fur kleine n brauchbar. Dies ist naturlich von der Verteilung von X1

abhangig.

Page 64: Stochastik II - Fakultät für Mathematik und Informatik (Fakultät 1) … · 2008-04-01 · Stochastik In diesem Kapitel sollen die Grundlagen der Wahrscheinlichkeitstheorie auf

60 KAPITEL 12. ZENTRALE GRENZWERTSATZE

Die Gleichverteilung auf dem Intervall [0, 1] der Zufallsgroßen Xi ist hier ein wichtiger Spezialfall.Dort gilt z.B. n = 12 als eine ausreichend große Anzahl. Man geht dann naherungsweise vonfolgendem Zusammenhang aus:

S12 = X1 + . . . + X12 ∼ N(µ, σ2) mit µ = 6 und σ2 = 1,

mit EX1 = 0.5, ES12 = 6, varX1 =112

, var S12 = 1 folgt

S12 − 6 ∼ N(0, 1)

Das wird ausgenutzt zur Erzeugung von normalverteilten Zufallszahlen.

12.4 Grenzwertsatz von Lindeberg-Feller

Die Bedingung, dass die Zufallsgroßen der betrachteten Folge identisch verteilt sein mussen, wirdnun fallengelassen, lediglich Unabhangigkeit wird auch weiterhin gefordert. Die behandelte Fra-ge ist wiederum die, wann die additive Uberlagerung vieler kleiner zufalliger (Fehler-)Einflussenaherungsweise auf eine Normalverteilung fuhrt.

Satz 12.3 (Lindeberg, 1922) Sei X1, X2, . . . eine Folge unabhangiger Zufallsgroßen mit EXi = µi

und varXi < ∞, sowie Zn :=n∑

i=1

Xi. Sei

σ2n =

n∑i=1

varXi = varZn (12.10)

und es gelte fur alle ε > 0 die Lindeberg-Bedingung, d.h.

limn→∞

1σ2

n

n∑i=1

E((Xi − µi)2; |Xi − µi| > εσn) = 0, (12.11)

bzw. anders ausgedruckt

limn→∞

1σ2

n

n∑i=1

∫|x−µi|>εσn

(x− µi)2 dFXi(x) = 0. (12.12)

Dann gilt gleichmaßig in x:

limn→∞

P

(1σn

n∑i=1

(Xi − µi) < x

)= Φ(x) (12.13)

Beispiele.

1. Wir betrachten gleichmaßig beschrankte Verteilungen, d.h., P (|Xi − µi| ≤ c) = 1 mitσ2

n →∞. Wir wahlen zu positivem ε ein n0 so, dass ε · σn > c fur alle n > n0 wird.Dann ist E((Xi − µi)2; |Xi − µi| > εσn) = 0 fur alle i.

2. Wenn die Zufallsgroßen iid. mit EX1 = 0 und var X1 = σ2 sind, dann lasst sich mit demLebesgueschen Satz von der majorisierten Konvergenz zeigen, dass

1σ2

n

n∑i=1

E(X2i ; |Xi| > εσn) =

1σ2

E(X21 ; |X1| > ε

√nσ) → 0.

Page 65: Stochastik II - Fakultät für Mathematik und Informatik (Fakultät 1) … · 2008-04-01 · Stochastik In diesem Kapitel sollen die Grundlagen der Wahrscheinlichkeitstheorie auf

12.4. GRENZWERTSATZ VON LINDEBERG-FELLER 61

Man beachte dazu

EX21 =

∫X2

1 (ω) µ(dω) mit µ = P

E(X21 ; An) =

∫fn(ω) µ(dω) mit fn = X2

11An

wobei An = ω : |X1(ω)| > ε√

Die Folge der An strebt gegen die leere Menge. Damit ergibt sich:

fn(ω) → f(ω) ≡ 0,

woraus folgt ∫f(ω) µ(dω) = 0.

Bevor wir zum Beweis dieses Grenzwertsatzes kommen, sind noch einige Vorbetrachtungennutzlich:

• Auf Grund der Unabhangigkeit ist σ2n = var

n∑i=1

Xi.

• (12.12) wird Lindeberg-Bedingung genannt.

• Interpretation der Lindeberg-Bedingung: Sei

Ai =|Xi − µi|

σn> ε

Dann gilt:

P (Ai) =∫

|x−µi|>σnε

dFXi(x) ≤ 1ε2σ2

n

∫|x−µi|>σnε

(x− µi)2 dFXi(x)

Damit erhalt man:

P

(sup

1≤i≤n

|Xi − µi|σn

> ε

)= P

(n⋃

i=1

Ai

)

≤n∑

i=1

P (Ai) ≤1

ε2σ2n

n∑i=1

∫|x−µi|>εσn

(x− µi)2 dFXi(x) n→∞−−−−→ 0

Aus (12.12) folgt also

limn→∞

P

(sup

1≤i≤n

|Xi − µi|σn

> ε

)= 0, (12.14)

d.h., die Summanden in der relevanten Summe

1σn

∑|Xi − µi|

werden gleichmaßig klein (konvergieren gleichmaßig stark gegen Null).

• Analog kann aus (12.12) gefolgert werden:

limn→∞

sup1≤i≤n

√var Xi

σn= 0, (12.15)

d.h., alle Standardabweichungen√

varXi sind im Vergleich zur Standardabweichung vonn∑

i=1

Xi gleichmaßig klein.

Page 66: Stochastik II - Fakultät für Mathematik und Informatik (Fakultät 1) … · 2008-04-01 · Stochastik In diesem Kapitel sollen die Grundlagen der Wahrscheinlichkeitstheorie auf

62 KAPITEL 12. ZENTRALE GRENZWERTSATZE

• (12.15) ist hinreichend fur (12.14) (Tschebyschewsche Ungleichung)

• (12.12) ist unter gewissen Bedingungen nicht nur hinreichend sondern auch notwendig, ge-nauer: aus (12.13) und (12.15) folgt (12.12). Der Beweis wurde von Feller 1933 erbracht,daher heißt (12.15) Feller-Bedingung.

• Fur die Lindeberg-Bedingung (12.12) ist die sogenannte Ljapunow-Bedingung hinreichend.

limn→∞

1

σβn

n∑i=1

E|Xi − µi|β = 0 fur ein β > 2 (12.16)

Beweis.

1σ2

n

n∑i=1

∫|x−µi|>εσn

(x− µi)2 dFXi(x)

≤ 1σ2

n

n∑i=1

∫|x−µi|>εσn

|x− µi|β

(εσn)β−2dFXi

(x)

≤ 1εβ−2

(1

σβn

n∑i=1

E|Xi − µi|β)

n→∞−−−−→ 0

• Eine Fehlerabschatzung fur die Annaherung an die Normalverteilung liefert der folgendeSatz:

Satz 12.4 (Berry- Esseen 1941) Seien X1, X2, . . . iid-Zufallsgroßen mit EXi = µ, var Xi =σ2 und γ = E|Xi − µ|3 < ∞. Fur die Verteilungsfunktion

Fn(x) = P

(1√nσ

∑(Xi − µ) < x

)gilt dann

supx|Fn(x)− Φ(x)| ≤ 0.5

γ

σ3√

n.

Bemerkung: Die Konstante 0.5 stammt von Bentkus (1988); im ursprunglichen Beweis (1941)betrug sie 7.59.

Beispiel. Die Wahrscheinlichkeit fur das Eintreten eines Ereignisses soll durch die relativeHaufigkeit hn = k

n des Eintretens bei n-facher unabhangiger Wiederholung des Experimentsgeschatzt werden (Bernoulli-Experiment mit Erfolgswahrscheinlichkeit p). hn ist Realisierung von

Hn = 1n

n∑i=1

Xi, wobei Xi Erfolg (1) oder Misserfolg (0) im i-ten Experiment beschreibt, d.h.,

P (Xi = 1) = p und P (Xi = 0) = 1− p. Wie groß ist die Wahrscheinlichkeit einer Abweichung ummehr als 0.05 gegenuber dem tatsachlichen Wert, d. h. wie groß ist P (|Hn − p| ≥ 0.05)?

1. Abschatzung durch Ungleichung von Tschebyschew:

EHn = p var Hn =p(1− p)

n

P (|Hn − p| > 0.05) ≤ p(1− p)n(0.05)2

≤ 14n(0.05)2

=

1 n = 1000.1 n = 1000

Page 67: Stochastik II - Fakultät für Mathematik und Informatik (Fakultät 1) … · 2008-04-01 · Stochastik In diesem Kapitel sollen die Grundlagen der Wahrscheinlichkeitstheorie auf

12.4. GRENZWERTSATZ VON LINDEBERG-FELLER 63

2. Abschatzung durch Approximation mit Normalverteilung (Grenzwertsatz von Moivre-Laplace): Hn

as∼ N(p, p(1−p)n )

P (|Hn − p| > 0.05) = P

(|Hn − p|√p(1− p)

√n >

0.05√p(1− p)

√n

)

≤ P

(|Zn| ≥

0.05√1/4

√n

)= P (|Zn| > 0.1

√n)

= 2(1− Φ(0.1√

n)) =

0.3174 n = 1000.0016 n = 1000

3. Gute der Approximation durch eine Normalverteilung:

Die Folge X1, X2, . . . erfullt die Voraussetzungen des Satzes von Berry-Esseen. Es gilt

γ = E|Xi − p|3 = (1− p)3p + p3(1− p) = p(1− p)(p2 + (1− p)2)σ3 = (varXi)3/2 = (p(1− p))3/2

also

supx|Fn(x)− Φ(x)| ≤ 0.5

(1− p)2 + p2√np(1− p)

und speziell fur p = 0.5:

supx|Fn(x)− Φ(x)| ≤ 0.5√

n=

0.05 n = 1000.016 n = 1000

Tabelle 12.1 stellt die gewonnenen Ergebnisse noch einmal den tatsachlichen Werten gegenuber.

n P (|Hn − 12 | > 0.05) Tschebyschew Moivre-Laplace

100 0.2713 1,0 0.31731000 0.0014 0.1 0.0016

Tabelle 12.1: Exakte Werte fur P (|Hn − p|) und dessen Abschatzungen im Fall p = 0.5

Wir wenden uns nun dem Beweis des Satzes von Lindeberg zu:

Beweis. Es sei ηk = Xk − µk (Eηk = 0),

ξn =1σn

n∑k=1

ηk =n∑

k=1

ηk

σn

Zu zeigen ist nun limn→∞

P (ξn < x) = Φ(x). Wir benutzen charakteristische Funktionen und zeigen

limn→∞

ϕξn(t) = exp− t2

2

; die Behauptung folgt dann aus Stetigkeits- und Eindeutigkeitssatz. Es

gilt:

ϕ ηkσn

(t) = ϕηk

(t

σn

)=

∞∫−∞

eitx/σn dFηk(x)

=∫

|x|>εσn

eitx/σn dFηk(x) +

∫|x|≤εσn

eitx/σn dFηk(x)

= I1 + I2

Page 68: Stochastik II - Fakultät für Mathematik und Informatik (Fakultät 1) … · 2008-04-01 · Stochastik In diesem Kapitel sollen die Grundlagen der Wahrscheinlichkeitstheorie auf

64 KAPITEL 12. ZENTRALE GRENZWERTSATZE

mit ε > 0 beliebig.

Einschub: Es gilt eia =m−1∑ν=0

(ia)ν

ν! + amΥm

m! mit |Υm| ≤ 1. Speziell ergibt sich mit m = 2:

eitx/σn = 1 +itxσn

+ Υ2x2t2

2σ2n

(12.17)

und mit m = 3:

eitx/σn = 1 +itxσn

− x2t2

2σ2n

+ Υ3x3t3

6σ3n

(12.18)

Mit (12.17) ergibt sich fur I1:

I1 =∫

|x|>εσn

dFηk(x) +

itσn

∫|x|>εσn

xdFηk(x) + R

(1)k

mit |R(1)k | ≤ t2

2σ2n

∫|x|>εσn

x2 dFηk(x). Fur I2 ergibt sich mit (12.18):

I2 =∫

|x|≤εσn

dFηk(x) +

itσn

∫|x|≤εσn

xdFηk(x)

− t2

2σ2n

∫|x|≤εσn

x2 dFηk(x) + R

(2)k

mit |R(2)k | ≤ |t|3

6σ3n

∫|x|≤εσn

|x|3 dFηk(x) ≤ ε|t|3

6σ2n

var Xk.

Damit konnen wir schreiben:

ϕηk

(t

σn

)= I1 + I2 =

(1 + 0− t2

2σ2n

varXk

)

+

R(1)k + R

(2)k +

t2

2σ2n

∫|x|>εσn

x2 dFηk(x)

Wir setzen nun

ak := 1 + 0− t2

2σ2n

varXk

bk := R(1)k + R

(2)k +

t2

2σ2n

∫|x|>εσn

x2 dFηk(x)

Nach dem Faltungssatz ergibt sich:

ϕξn=

n∏k=1

ϕηk

(t

σn

)Wir setzen

∆1 :=n∏

k=1

ϕηk

(t

σn

)−

n∏k=1

(1− t2

2σ2n

varXk

)

∆2 :=n∏

k=1

(1− t2

2σ2n

var Xk

)−

n∏k=1

e− t2

2σ2n

var Xk

Page 69: Stochastik II - Fakultät für Mathematik und Informatik (Fakultät 1) … · 2008-04-01 · Stochastik In diesem Kapitel sollen die Grundlagen der Wahrscheinlichkeitstheorie auf

12.4. GRENZWERTSATZ VON LINDEBERG-FELLER 65

und erhalten ∣∣∣ϕξn(t)− e−

t22

∣∣∣ ≤ |∆1|+ |∆2|

Einschub: Es gilt:n∏

k=1

(ak + bk)−n∏

k=1

ak =n∑

j=1

bj

∏k<j

ak

∏j<k

(aj + bj) (12.19)

Mit Hilfe von (12.19) erhalten wir nun:

∆1 =n∑

j=1

bj

∏k<j

(1− t2

2σ2n

varXk

)∏j<k

ϕηk

(t

σn

)⇒ |∆1| ≤

n∑j=1

|bj |

|bk| ≤ ε|t|3

6σ2n

varXk +t2

σ2n

∫|x|>εσn

x2 dFηk(x)

|∆1| ≤ ε|t|3

6+

t2

σ2n

n∑j=1

∫|x−µj |>εσn

(x− µj)2 dFXj(x)

≤ ε

(|t|3

6+ t2

)fur n ≥ n0 = n0(ε) wegen (12.12)

Auf Grund der Ungleichung

e− t2var Xk

2σ2n ≤

(1− t2varXk

2σ2n

)+

(12

(t2var Xk

2σ2n

)2)

erhalten wir wiederum mit (12.19) und (12.15) fur n ≥ n′0 = n′0(ε):

|∆2| ≤n∑

k=1

18

t4(varXk)2

σ4n

≤n∑

k=1

18t4

varXk

σ2n

ε2 =18t4ε2

Damit folgt limn→∞

ϕηk(t) = e−

t22 .

Bemerkungen.

• Der zentrale Grenzwertsatz ist im allgemeinen nicht geeignet zur Abschatzung der Wahr-scheinlichkeiten seltener Ereignisse, insbesondere der Wahrscheinlichkeiten großer Abwei-chungen von µ (large deviation, P (Zn > x)), auch wenn z. B.

Znd−→ N(0, 1),

d. h., wenn|P (Zn ≥ x)− (1− Φ(x))| = |P (Zn < x)− Φ(x)|

klein wird (z. B. im Sinne von Berry-Esseen), kann der relative Fehler der Approximationsehr groß sein (ist beispielsweise P (Zn ≥ x) = 0.01 und 1 − Φ(x) = 0.0001, so betragt derrelative Fehler 100).

• In der Theorie der großen Abweichungen wird daher eine Funktion Q(n, x) gesucht, fur die

limn→∞x→∞

P (Zn ≥ x)Q(n, x)

= 1 (12.20)

(Dies ist z. B. in der Versicherungsmathematik bei der sogenannten Risikotheorie (Abschat-zung der Wahrscheinlichkeit großer Schaden) wichtig).

Page 70: Stochastik II - Fakultät für Mathematik und Informatik (Fakultät 1) … · 2008-04-01 · Stochastik In diesem Kapitel sollen die Grundlagen der Wahrscheinlichkeitstheorie auf

66 KAPITEL 12. ZENTRALE GRENZWERTSATZE

• Es sind mehrere Verallgemeinerungen der Grenzwertsatze denkbar:

– Verteilung einer zufalligen Anzahl von Summanden:

N∑i=1

Xi

wobei N und Xi Zufallsgroßen bezeichnen (z.B. Schadenssummen pro Jahr).

– Aufgabe der Unabhangigkeit der Xi; dies wird in Grenzwertsatzen uber stochastischeProzesse betrachtet

– Aufgabe der Summenstruktur; z.B. ist die Konvergenz von

min(X1, . . . , Xn)− an

bn

(entsprechend fur max) von Interesse (sogenannte Extremwertverteilung; z.B. ist dieWeibull-Verteilung eine solche Extremwertverteilung).

Ein weiterer bekannter Grenzwertsatz ist der Satz vom iterierten Logarithmus:

Satz 12.5 (ohne Beweis)Die Folge der Zufallsgroßen Xi sei iid. mit EX1 = 0 und 0 < σ2 = varX1 < ∞. Dann gilt:

lim supn→∞

n∑i=1

Xi√2σ2n log(log(n))

= 1 fast sicher, (12.21)

d.h., bei iid-Zufallsgroßen Xi wird∑

Xi von der Ordnung√

n log(log n) groß.

Page 71: Stochastik II - Fakultät für Mathematik und Informatik (Fakultät 1) … · 2008-04-01 · Stochastik In diesem Kapitel sollen die Grundlagen der Wahrscheinlichkeitstheorie auf

67

Kapitel 13

Eigenschaften von SchatzernModell der klassischen mathematischen Statistik (Wiederholung)

In der klassischen mathematischen Statistik betrachten wir Zufallsgroßen X1, . . . , Xn, die un-abhangig und identisch verteilt sind. Dabei ist X1

d= X, wobei X der Prototyp der Grundge-samtheit ist. Der Vektor X = (X1, . . . , Xn)T wird als mathematische Stichprobe bezeichnet, derenRealisierung x = (x1, . . . , xn) konkrete Stichprobe heißt. Dabei wird mit n der Stichproben-Umfangbezeichnet.

Die Aufgabe der klassischen mathematischen Statistik ist es nun, anhand von gegebenen kon-kreten Stichproben die Verteilung PX zu erforschen. Ublicherweise formuliert man aufgrund vonVorwissen oder einer Explorativen Datenanalyse eine Annahme. Auf dieser Annahme bauen dannweitere Untersuchungen auf.

Unter sogenannten Verteilungsannahmen versteht man Annahmen der Form: ”Die gesuchte Ver-teilung gehort zu einer Menge P (PX ∈ P).“ Wichtig sind parametrische Aufgaben. Bei diesen giltfur die Menge P:

P = P : P = Pϑ, ϑ ∈ Θ

13.1 Ungleichung von Rao-Cramer

Im allgemeinen ist es erstrebenswert, bei erwartungstreuen Schatzern die Schatz-VarianzE(ϑ − ϑ)2 = E(ϑ − Eϑ)2 moglichst klein zu halten. Unter gewissen Umstanden kann man hierfureine untere Schranke angeben. Falls diese erreicht wird, spricht man von einem effektiven Schatzer.

Da viele Indizes die Ubersicht erschweren, treffen wir an dieser Stelle folgende Konvention: ϑ seireell und ϑ ein Schatzer fur ϑ, wobei der Erwartungswert von ϑ endlich ist. Wir schreiben dannϑ(X) bzw. ϑ(x) und meinen dabei ϑ = T (X).

Es gilt:

Eϑ =∫

Mn

ϑ(x)L(x, ϑ) dx = ϑ + b(ϑ) (13.1)

Dabei bezeichnet b(ϑ) den Bias, den systematischen Fehler. Fur den absolutstetigen Fall ergibtsich speziell

Eϑ =∫

Mn

ϑ(x)n∏

i=1

f(xi, ϑ) dx1 . . . dxn

und im diskreten Fall

Eϑ =∑

ϑ(x)n∏

i=1

P (xi, ϑ)

Page 72: Stochastik II - Fakultät für Mathematik und Informatik (Fakultät 1) … · 2008-04-01 · Stochastik In diesem Kapitel sollen die Grundlagen der Wahrscheinlichkeitstheorie auf

68 KAPITEL 13. EIGENSCHAFTEN VON SCHATZERN

Es werden nun die folgenden Voraussetzungen gemacht:

1. Der Support suppL(x, ϑ) = x ∈ Mn : L(x, ϑ) > 0 ist von ϑ unabhangig. Dies ist bei-spielsweise fur die Gleichverteilung glm[0, ϑ] nicht erfullt.

2. L soll nach ϑ differenzierbar sein und

3. die Integration bezuglich x muss mit der Differentiation bezuglich ϑ (in Ausdrucken wie(13.1)) vertauschbar sein.

Satz 13.1 (Informations-Ungleichung von Rao-Cramer bei reellwertigem Parameter ϑ)Unter den obigen Voraussetzungen gilt

var ϑ ≥ (1 + b′(ϑ))2

nI(ϑ), (13.2)

wobei

I(ϑ) = var(

∂ ln f(X1, ϑ)∂ϑ

)im stetigen Fall beziehungsweise

I(ϑ) = var(

∂ lnP (X1, ϑ)∂ϑ

)im diskreten Fall ist, allgemein

I(ϑ) =1n

var(

∂ϑlnL(X, ϑ)

).

I(ϑ) wird als Fisher-Information bezeichnet. Die rechte Seite von (13.2) heißt Rao-Cramer-Schranke. Bei r Parametern wird aus der Fisher-Information die Fishersche Informationsmatrix.

Beweis.

1. Differentiation von 13.1 nach ϑ liefert

1 + b′(ϑ) =∫

Mn

ϑ(x)L′(x, ϑ) dx.

Hierbei ist u′ = ∂∂ϑu. Aus l = ln L folgt l′ = L′

L und damit L′ = l′L. Somit ergibt sich

1 + b′(ϑ) =∫

Mn

ϑ(x)l′(x, ϑ)L(x, ϑ) dx = E(ϑ · l′

).

2. Aus 1 =∫

L(x, ϑ) dx folgt durch Differentation beider Seiten

0 =∫

l′(x, ϑ)L(x, ϑ) dx = El′.

Speziell fur n = 1 ergibt sich

0 = E

(∂ ln f(X1, ϑ)

∂ϑ

)= El′1.

Page 73: Stochastik II - Fakultät für Mathematik und Informatik (Fakultät 1) … · 2008-04-01 · Stochastik In diesem Kapitel sollen die Grundlagen der Wahrscheinlichkeitstheorie auf

13.1. UNGLEICHUNG VON RAO-CRAMER 69

3. Fur die eigentliche Rechnung ergibt sich nun:

1 + b′(ϑ) = E(ϑ · l′)− El′ · Eϑ = E((ϑ− Eϑ)l′),

da El′ = 0 ist. Nach der Schwarzschen Ungleichung gilt:

(1 + b′(ϑ))2 ≤ E(ϑ− Eϑ)2 · El′2 = var ϑ · El′

2.

Da die Zufallsgroßen Xi unabhangig identisch verteilt sind und l′ =∑i

l′i gilt, folgt

El′2 = var l′ = n · var l′1 = nI(ϑ)

und die Behauptung.

Bemerkung. Bei Erwartungstreue erhalt der Zahler in (13.2) den Wert 1.

Beispiel. Wir betrachten die Poisson-Verteilung, wo bekanntlich λ = X erwartungstreu ist. Furdie Varianz gilt dann var X = 1

nvarX1, und daraus ergibt sich

var λ = var X =1n

var X1 =λ

n.

Um nun die Fisher-Information zu berechnen, gehen wir folgendermaßen vor. Zuerst berechnenwir l(X1, λ):

l(X1, λ) = ln(

λX1

X1!e−λ

)= X1 lnλ− (λ + ln(X1!))

Differentiation ergibt dann

l′1 =∂l(X1, λ)

∂λ=

X1

λ− 1.

Damit ergibt sich bei der Varianz-Berechnung

var l′1 = varX1

λ=

1λ2

varX1 =λ

λ2=

.

Also betragt die Fisher-Information I(λ) = 1λ . Es folgt fur die rechte Seite von (13.2)

var ϑ =1

n 1λ

n,

demnach ist X effektiv.

Definition 13.1 Ein erwartungstreuer Schatzer, der das durch (13.2) gegebene Minimum er-reicht, heißt effektiv (effizient, wirksam).

Nun wollen wir uns der Frage widmen, warum das so schon klappt (und wann in der SchwarzschenUngleichung das Gleichheitszeichen gilt). Die Bedingung dafur ist eine bestimmte Struktur derVerteilung.

Wir befassen uns mit der Exponentialfamilie (Pϑ)ϑ∈Θ mit absolutstetigen Pϑ. Die zugehorigeLikelihoodfunktion hat die Struktur

L(x, ϑ) = 1D(x) expA(ϑ)η(x) + B(ϑ) + C(x). (13.3)

D bezeichnet hierbei eine Borel-Menge des Rn. A,B,C sind messbare Funktionen, die in die Mengeder reellen Zahlen abbilden. Schließlich gilt noch η = η(x), η ist der Schatzer fur einen Parameterη(ϑ), wobei im Augenblick noch nicht klar ist, wie η von unserem Modellparameter ϑ abhangt.

Page 74: Stochastik II - Fakultät für Mathematik und Informatik (Fakultät 1) … · 2008-04-01 · Stochastik In diesem Kapitel sollen die Grundlagen der Wahrscheinlichkeitstheorie auf

70 KAPITEL 13. EIGENSCHAFTEN VON SCHATZERN

Wann gilt in (13.2) das Gleichheitszeichen?

Im obigen Beweis wurde die Schwarzsche Ungleichung E(UV )2 ≤ EU2EV 2 fur die ZufallsgroßenU = l′ und V = η−Eη benutzt. Gleichheit gilt nur im Fall U = aV , wobei a eine reelle Konstanteist.

Es giltl′(x, ϑ) = A′(ϑ)η(x) + B′(ϑ), x ∈ D.

Demnach muss0 = El′(X, ϑ) = A′(ϑ)Eη(X) + B′(ϑ) = A′(ϑ)Eη + B′(ϑ)

gelten, woraus folgt

B′(ϑ) = −Eη ·A′(ϑ), und damit

Eη = −B′(ϑ)A′(ϑ)

.

Daraus kann man nun auf

l′(x, ϑ) = A′(ϑ)(η(x)− Eη), x ∈ D

schließen. Mit a = A′(ϑ) gilt dann tatsachlich U = aV ,

Also ist η fur den Parameter η = −B′(ϑ)A′(ϑ) erwartungstreu und effektiv. Was nutzt das nun?

Wir mussen jetzt die Formel (13.3) nehmen, die Dichtefunktion in eine passende Form bringenund versuchen, η zu verstehen und hoffen, dass −B′(ϑ)

A′(ϑ) anstandig aussieht.

Beispiel.Fur die Exponentialverteilung ist die Dichtefunktion

f(x, λ) = λe−λx1[0,∞)(x)

bekannt. Damit ergibt sich fur die Likelihood-Funktion

L(x, λ) = 1[0,∞)n(x)λn exp

−λ

n∑i=1

xi

und damit

L(x, λ) = 1[0,∞)n(x) exp

−λ

n∑i=1

xi + n lnλ

Damit gehort die Exponentialverteilung zur Exponential-Familie. Wir setzen also A(λ) = −λ,

B(λ) = n lnλ und η =n∑

i=1

xi und erhalten B′(λ) = nλ und A′(λ) = −1. Damit ist Eη = −B′(λ)

A′(λ) = nλ .

Also istn∑

i=1

Xi erwartungstreu und effizient fur nλ . Entsprechend ist X erwartungstreu und effizient

fur 1λ .

13.2 Suffiziente Schatzer

Beispiel 1. Gesucht wird mit Hilfe der Statistik die Einzelwahrscheinlichkeit p im Bernoulli-Schema. Dazu nehmen wir eine Stichprobe (x1, . . . , xn) = x (Folge von ”0“ und ”1“ der einzelnenxi, wobei ”0“ einen Misserfolg und ”1“ einen Erfolg bezeichnet). Wenn nur p zu schatzen ist,genugt es anscheinend, nur

T (x) =n∑

i=1

xi

Page 75: Stochastik II - Fakultät für Mathematik und Informatik (Fakultät 1) … · 2008-04-01 · Stochastik In diesem Kapitel sollen die Grundlagen der Wahrscheinlichkeitstheorie auf

13.2. SUFFIZIENTE SCHATZER 71

zu kennen. Es gilt ja dann:

p =T (x)

nT (x) ∼ Bin(n, p).

Also ist viel weniger Information als das gesamte x erforderlich. 1

Beispiel 2. Ein Physiker will λ der Exponentialverteilung schatzen. Er findet den Schatzer

λ =n

n∑i=1

Xi

nicht gut, weil so viel Information verschenkt wird. Deswegen hat er ein Histogramm ermitteltund eine Exponentialfunktion angepasst. Ist das sinnvoll?

Wann sind nun solche Datenreduzierungen zulassig und sinnvoll? Mit dieser Frage beschaftigt sichdie Theorie der suffizienten/erschopfenden Statistiken.

Definition 13.2 T (X) heißt suffizient (erschopfend) fur ϑ, wenn PX(·|T = t;ϑ) unabhangig vonϑ ist.

Beispiel. Im Bernoulli-Schema sei T (X) = k die Anzahl der Erfolge. Wenn k bekannt ist, wie hochsind dann die Wahrscheinlichkeiten fur die verschiedenen Realisierungen von X = (X1, . . . , Xn)?Es gibt dann

(nk

)mogliche Falle, 2 die allesamt die gleiche Wahrscheinlichkeit haben. Damit ergibt

sich die Wahrscheinlichkeit von(nk

)−1 fur jedes (x1, . . . , xn). Diese ist offenbar unabhangig von p.Also ist T (X) suffizient.

Fur den absolutstetigen Fall mit reellem ϑ stellt eine Likelihood-Funktion der Form

L(x, ϑ) = q(ϑ, T (x))r(x)

ein hinreichendes Kriterium fur die Suffizienz dar.

Im Falle der Exponential-Verteilung mit der Likelihood-Funktion

L(x, λ) = 1[0,∞)n(x)λn exp

−λ

n∑i=1

xi

sind zum Beispiel r = 1[0,∞)(x) und q = λn exp−λ

n∑i=1

xi

, wobei T (x) =

n∑i=1

xi ist.

Die Verbesserung von Schatzern durch Bedingen mit suffizienten Schatzern nennt man saloppRao-Blackwellisieren. Es sei ϑ ein erwartungstreuer Schatzer fur ϑ und T (X) sei suffizient. Dannkann man mittels der Formel

ϑT (X) = E(ϑ(X) |T (X)) (13.4)

einen neuen Schatzer ϑT konstruieren. Er ist wegen

E(E(X |Y )) = EX (13.5)

ebenfalls erwartungstreu, nach (7.16) ist die Streuung kleiner (oder gleich) als die von ϑ, und ϑT

ist wie T (X) suffizient.

1Naturlich gilt dies nicht fur alle Aufgaben. Wollte man zum Beispiel prufen, ob das Bernoulli-Schema wirklichpassend ist, so ware es notig, wirklich x zu kennen.

2Diese lassen sich kombinatorisch herleiten, indem die n Positionen von 1 bis n durchnumeriert werden. Jedermogliche Fall beschreibt dann eine Auswahl von genau k dieser Positionen aus den n moglichen ohne Wiederholung.Dafur gibt es bekanntlich

(nk

)Moglichkeiten.

Page 76: Stochastik II - Fakultät für Mathematik und Informatik (Fakultät 1) … · 2008-04-01 · Stochastik In diesem Kapitel sollen die Grundlagen der Wahrscheinlichkeitstheorie auf

72 KAPITEL 13. EIGENSCHAFTEN VON SCHATZERN

Beispiel. Sei X auf dem Intervall [0, ϑ] gleichverteilt und ein geeigneter Schatzer fur ϑ ge-sucht. Es seien weiterhin ϑ(1) = max

iXi der M-L-Schatzer und ϑ(2) = 2X der erwartungstreue

Momentenmethoden-Schatzer fur ϑ. ϑ(1) ist suffizient fur ϑ, denn die Likelihood-Funktion

L(X, ϑ) =1ϑn

1[Xmax,∞)(ϑ)

hangt nur von Xmax ab. Dann ergibt

E(2X|Xmax) =n + 1

nXmax = ϑT = ϑ(3)

einen suffizienten Schatzer, der offensichtlich besser als ϑ(1) ist.

Um die ”wahre“ Gestalt von E(2X|Xmax) zu erforschen, wird die in Kapitel 11 skizzierte Methodeangewendet. Dazu wird die Funktion f(x) = E(X|Xmax = x) berechnet. Es gilt

f(x) =1n

x +n− 1

n

x

2=

n + 12n

x.

Daraus folgt

E(X|Xmax) =n + 12n

Xmax,

woraus unser oben genanntes Ergebnis E(2X|Xmax) = n+1n Xmax folgt.

Satz 13.2 (Rao-Blackwell) Es sei T (X) suffizient fur den Parameter ϑ und ϑ sei erwartungs-treu. Dann ist der Schatzer

ϑT = E(ϑ(X)|T (X))

ebenfalls erwartungstreu und suffizient und hat hochstens die Varianz von ϑ,

var ϑT ≤ var ϑ.

Beweis. Die Erwartungstreue resultiert aus der Formel 13.5, die Suffizienz aus (7.17) mitE(X|Y ) = f(Y ) und die Varianzungleichung aus (7.16).

Page 77: Stochastik II - Fakultät für Mathematik und Informatik (Fakultät 1) … · 2008-04-01 · Stochastik In diesem Kapitel sollen die Grundlagen der Wahrscheinlichkeitstheorie auf

73

Kapitel 14

Signifikanztests

14.1 Einfuhrung

Die Signifikanztests werden manchmal als eine der 20 großen Erfindungen des 20. Jahrhundertsbezeichnet. Ein Test ist allgemein ein Verfahren zur Uberprufung einer Hypothese. Als statistischeHypothesen werden oft die folgenden verwendet:

1. EX > µ0 (z. B. Festigkeit eines Werkstoffes)

2. p < p0 (z. B. Ausschussquote hinreichend klein).

3. Die Verteilungsfunktion einer Zufallsgroße ist die Normalverteilungsfunktion mit den Para-metern (µ, σ2).

4. Zwei Stichproben stammen aus der gleichen Grundgesamtheit (z. B. Erzproben aus zweiLagerstatten).

Das Ziel ist nun eine solche Hypothese anzunehmen oder abzulehnen, ausgehend von einer Stich-probe. Das Ergebnis ist vom Zufall abhangig. 1

Die Nullhypothese H0 spielt eine zentrale Rolle im Test, manchmal nur vergleichend, oftmals aberauch direkt. Sie legt die Verteilung eindeutig fest; wenn H0 erfullt ist, kann die Verteilung einer

”Testgroße“ bestimmt werden. Oft macht sie nur die Aussage ”nichts los“ oder ”kein Effekt“.

Alternativ dazu gibt es die sogenannte Alternativhypothese H1 (manchmal auch HA). Sie wirdakzeptiert, wenn H0 abgelehnt wird, wenn H0 als zu unwahrscheinlich erscheint. Dann sprichtman von ”signifikanten“ oder ”statistisch gesicherten“ Abweichungen von H0. Oft ist die Alterna-tivhypothese die ”Arbeitshypothese“, die man eigentlich beweisen will.

Entscheidungsregeln konnen mittels einer Zufallsgroße τ formuliert werden:

τ(ω) =

1, wenn H0 abgelehnt0, wenn H0 nicht abgelehnt werden kann

Diese Zufallsgroße hat die Eigenschaft:

τ(ω) = 1 ⇐⇒ ω liegt im kritischen Bereich.

Bei den Tests gibt es zwei wichtige Fehler:

1Uber die Richtigkeit oder Falschheit der Hypothese kann keine Aussage gemacht werden, weil die statistischenUntersuchungen auf Zufall und Wahrscheinlichkeiten beruhen und nicht auf Sicherheiten.

Page 78: Stochastik II - Fakultät für Mathematik und Informatik (Fakultät 1) … · 2008-04-01 · Stochastik In diesem Kapitel sollen die Grundlagen der Wahrscheinlichkeitstheorie auf

74 KAPITEL 14. SIGNIFIKANZTESTS

1. H0 ist richtig, aber wir lehnen H0 ab. Dieser Fehler wird als Fehler erster Art bezeichnet.

2. H0 wird nicht abgelehnt, obwohl sie falsch ist. Das ist dann der Fehler zweiter Art .

Bei den sogenannten Signifikanz-Tests ist die Wahrscheinlichkeit des Fehlers erster Art vorgegeben.Diese soll kleiner oder (idealerweise) gleich einer Zahl α sein, die dann Irrtums-Wahrscheinlichkeit2 bzw. Signifikanzniveau 3 genannt wird.

Die Tests kann man grob in zwei Klassen einteilen:

Parameter-Test: Es werden Parameter betrachtet. So kann die Nullhypothese die FormH0 : µ = µ0 o. a. haben.

nichtparametrischer Test:z.B. Anpassungs-Test: Es werden Verteilungsfunktionen betrachtet. So kann die Nullhy-pothese die Form H0 : F = F0 haben. (Englisch: ”goodness-of-fit test“).Ein weiterer nichtparametrischer Test ist z.B. der Test auf stochastische Unabhangigkeitzweier Merkmale.

14.2 Beispiel: Mittelwert-Tests im Fall der Normalvertei-lung

14.2.1 Bekannte Varianz – Gauß-Test

Die Nullhypothese lautetH0 : µ = µ0,

und es wird angenommen, dass σ2 bekannt ist. µ konnte beispielsweise die Fullmenge von Bierfla-schen angeben. Als Alternativ-Hypothese stehen die folgenden drei zur Verfugung:

• Die zweiseitige Alternative H1 : µ 6= µ0 ist z. B. fur den Messtechniker, der eine moglichsthohe Genauigkeit beim Bierabfullen erreichen will, interessant. Wenn er das Abfullgerateingestellt hat, hofft er auf eine Annahme von H0.

• Die einseitige Alternative H1 : µ > µ0 ist z. B. fur einen Alkoholgegner interessant, derbefurchtet, dass die Leute durch (unbewusst) hoheren Bierkonsum abhangig werden. Erhofft auf die Ablehnung von H1.

• Die einseitige Alternative H1 : µ < µ0 ist z. B. fur einen Saufer interessant, der moglichstviel trinken mochte und deshalb sicherstellen mochte, dass die Flasche auch mindestens dietheoretische Fullmenge enthalt. Auch er hofft auf die Ablehnung von H1.

Die beiden einseitigen Alternativen H1 : µ > µ0 bzw. H1 : µ < µ0 ”passen“ eigentlich besser zuden Nullhypothesen H0 : µ ≤ µ0 bzw. H1 : µ ≥ µ0, und haufig wird die Testproblematik dannauch so behandelt.

Wenn nun H0 richtig ist, dann gilt fur die unabhangig identisch verteilten X1, . . . , Xn

X1, . . . , Xn ∼ N(µ0, σ2)

und fur den Mittelwert X ∼ N(µ0,σ2

n ). Die Idee ist nun, H0 abzulehnen, wenn x zu weit vonµ0 entfernt ist, also x µ0 oder x µ0 ist. Zur weiteren Rechnung fuhren wir die kanonischeVariable ω = x ein. Wenn wir H1 : µ > µ0 betrachten, dann erhalten wir fur die Zufallsgroße τ :

τ(x) =

1 x > x1−α

0 sonst2Beachte: Hier wird nur der Fehler erster Art betrachtet.3Manchmal wird auch 1− α als Signifikanz-Niveau bezeichnet

Page 79: Stochastik II - Fakultät für Mathematik und Informatik (Fakultät 1) … · 2008-04-01 · Stochastik In diesem Kapitel sollen die Grundlagen der Wahrscheinlichkeitstheorie auf

14.2. BEISPIEL: MITTELWERT-TESTS IM FALL DER NORMALVERTEILUNG 75

mit geeignetem x1−α. Unser Ziel ist, dass der Fehler 1.Art die Wahrscheinlichkeit α hat, d.h., dassgilt

Pµ0

(X > x1−α

)= α.

Das richtige x1−α finden wir gemaß

P (X > x1−α) = α = 1− Φ

(x1−α − µ0

σ√n

)unter Ausnutzung der Normalverteilungsannahme. Es gilt

x1−α − µ0σ√n

= z1−α,

also x1−α = µ0 + z1−ασ√n.

Der kleinste Wert von α, bei dem fur ein gegebenes x H0 abgelehnt wird, ist der sogenanntep-Wert . Im hier betrachteten Fall berechnet er sich folgendermaßen:

p = Pµ0(X > x) = 1− Φ

(x− µ0

σ√n

).

Die Gutefunktion (Macht, Power) ist die Wahrscheinlichkeit in Abhangigkeit von µ dafur, dass H0

abgelehnt wird. Sie hat folgende Form:

g(µ) = Pµ

(X > µ0 + z1−α

σ√n

)= 1− Φ

(µ0 + z1−α

σ√n− µ

σ√n

)= 1− Φ(z1−α − c)

mit c :=µ− µ0

σ

√n ”Nichtzentralitatsparameter“ .

g ist also monoton wachsend in µ. Damit lasst sich nun auch die maximale Wahrscheinlichkeitangeben, dass H0 falschlicherweise abgelehnt wird. Sie liegt hier bei:

supµ≤µ0

g(µ) = g(µ0),

was plausibel erscheint. Bemerkenswert ist vielleicht noch

limµ→∞

g(µ) = 1.

Wir wollen nun x festhalten und den Einfluss von α und n auf das Testergebnis untersuchen.Wir beginnen mit α. H1 wird angenommen, wenn x > µ0 + z1−α

σ√n

gilt. Nun fallt aber z1−α beisteigendem α. Damit wurde dann H1 ”ofter“ angenommen. Also ist ein großes α H0-unfreundlich.

Hieraus ergeben sich Moglichkeiten, Betrugereien in der Statistik durchzufuhren. So kann manα sehr klein wahlen, wenn man H0 annehmen mochte, und sehr groß, wenn man H1 annehmenmochte. Ubliche Werte fur α sind von 0.05 bis 0.01, wobei in der Medizin oft auch mit 0.005gerechnet wird. Außerst unublich sind dagegen Werte wie 0.10 oder 0.001.

Kommen wir nun zum Einfluss von n. Fur steigendes n fallt µ + z1−ασ√n. Damit werden auch

relativ kleine Anderungen von x ernst genommen.

Der Fehler zweiter Art wird mit β bezeichnet. Bei uns wird α vorgegeben, wahrend i.a. β berechnetwerden muss. Kleine β sind oft nur durch große n zu erreichen. Berechnet wird der Fehler zweiterArt nach der Formel

β(µ) = 1− g(µ).

Page 80: Stochastik II - Fakultät für Mathematik und Informatik (Fakultät 1) … · 2008-04-01 · Stochastik In diesem Kapitel sollen die Grundlagen der Wahrscheinlichkeitstheorie auf

76 KAPITEL 14. SIGNIFIKANZTESTS

H0 nicht abgelehnt H0 abgelehnt

H0 richtigrichtige Entscheidung

1− αfalsche Entscheidung

α

H0 falschfalsche Entscheidung

βrichtige Entscheidung

1− β

Tabelle 14.1: mogliche Entscheidungen und Fehler beim Signifikanztest

1− g(µ) wird als Operations-Charakteristik (OC) bezeichnet. Die vier moglichen Entscheidungenund Fehler sind in Tabelle 14.1 systematisiert.

Beispiel. Eine Lebensdauer-Untersuchung wird angesetzt, um zu ermitteln, ob die Lebensdauereines Bauteils großer als 100 Tage ist. Bei dieser Untersuchung sind n = 10, σ = 20 und α = 0.05festgesetzt. Als Nullhypothese wurde H0 : µ = 100 genommen. Die Alternativhypothese lautetdann H1 : µ > 100. Damit ergibt sich µ0 = 100. In der Stichprobe moge sich eine durchschnittlicheLebensdauer von x = 112 ergeben. Die Rechnung ergibt:

x1−α = µ0 + z1−ασ√n

= 100 + 1.645 · 20√10

= 110.4, d.h. x > x1−α.

Demnach wird H0 abgelehnt und H1 angenommen. Der p-Wert betragt in diesem Falle 0.0289.Das bedeutet, dass bei einem α von 0.01 H0 angenommen wurde. Das Ergebnis konnte man etwaso formulieren:

”Die Messungen (Versuche) haben ergeben, dass die mittlere Lebensdauer signifikant(mit großer Sicherheit) uber 100 Tagen liegt.“

Fur die Gutefunktion gilt in diesem Fall:

g(µ) = 1− Φ

(100 + 32.9√

n− µ

20√n

)

Damit ergibt sich fur n = 10 und eine wahre mittlere Lebensdauer von 110 Tagen der Wertg(110) = 0.48. Das ist allerdings ein klagliches Ergebnis: Wenn tatsachlich µ = 110 ist, wird H1

nur in 48% der Falle angenommen. Erst bei n = 43 gibt es diesbezuglich ein einigermaßen sicheresErgebnis: Es gilt dann g(110) = 0.95.

Hier noch einmal die Testregeln fur den Gauß-Test: Testgroße T =x− µ0

σ

sog. kritische Bereiche

H0 :

µ ≤ µ0

µ ≥ µ0

µ = µ0

H1 :

µ > µ0 : Lehne H0 ab, wenn T

︷ ︸︸ ︷> z1−α .

µ < µ0 : Lehne H0 ab, wenn T < −z1−α = zα.µ 6= µ0 : Lehne H0 ab, wenn T < −z1−α

2∨ T > z1−α

2.

14.2.2 Unbekannte Varianz – Student-Test, t-Test

Fur die Nullhypothese sei wieder H0 : µ = µ0. Auch die Alternativhypothesen mogen die gleichenFalle annehmen, wie im vorigen Abschnitt. Entsprechend Formel (9.3) gilt:

T =X − µ

S√n

∼ tn−1

Page 81: Stochastik II - Fakultät für Mathematik und Informatik (Fakultät 1) … · 2008-04-01 · Stochastik In diesem Kapitel sollen die Grundlagen der Wahrscheinlichkeitstheorie auf

14.3. AUSGEWAHLTE WEITERE TESTS IM FALL DER NORMALVERTEILUNG 77

Die drei Testregeln haben dann die folgende Form: 4

H0 :

µ ≤ µ0

µ ≥ µ0

µ = µ0

H1 :

µ > µ0 : Lehne H0 ab, wenn T > tn−1,1−α.µ < µ0 : Lehne H0 ab, wenn T < −tn−1,1−α.µ 6= µ0 : Lehne H0 ab, wenn |T | > tn−1,1−α

2.

Die Annahme hierbei ist, dass es sich um eine Normalverteilung handelt (bzw. dass X asymptotischnormalverteilt ist. Dieser Test ist relativ robust gegenuber Abweichungen von der Normalvertei-lung.) Ab n = 30 kann ubrigens statt tn−1,1−α naherungsweise z1−α genommen werden.

14.2.3 Vergleich zweier Mittelwerte – Welch-Test

Als Nullhypothese wird hier H0 : µX = µY betrachtet, wobei

Xi ∼ N(µX , σ2X)

Yi ∼ N(µY , σ2Y )

Bei Verwendung von Stichprobenumfangen nX und nY und unbekannten und verschiedenen Va-rianzen σ2

X und σ2Y gibt es von Welch gefundene Naherungsformeln fur H1 : µX 6= µY :

T =X − Y√S2

X

nX+ S2

Y

nY

∼ tm

mit

m = int

(S2

X

nX+ S2

Y

nY

)2

(S2

XnX

)2

nX+1 +

(S2

YnY

)nY +1

− 2

Fur große nX und nY gilt m ≈ nX + nY .

14.3 Ausgewahlte weitere Tests im Fall der Normalvertei-lung

14.3.1 Varianztest

Bei einer Normalverteilung sei die Nullhypothese H0 : σ2 = σ20 zu testen. Man benutzt die Test-

große

T =(n− 1)S2

σ20

∼ χ2n−1,

vgl. (9.2). Hier gibt es die folgenden Testregeln:

H0 :

σ2 ≤ σ20

σ2 ≥ σ20

σ2 = σ20

H1 :

σ2 > σ2

0 : Lehne H0 ab, wenn T > χ2n−1,1−α.

σ2 < σ20 : Lehne H0 ab, wenn T < χ2

n−1,α.σ2 6= σ2

0 : Lehne H0 ab, wenn T < χ2n−1, α

2oder T > χn−1,1−α

2.

Hilfreich zum Verstandnis ist hierzu [10], Seiten 120/121.

4Siehe auch Tabellen [10], Seite 117

Page 82: Stochastik II - Fakultät für Mathematik und Informatik (Fakultät 1) … · 2008-04-01 · Stochastik In diesem Kapitel sollen die Grundlagen der Wahrscheinlichkeitstheorie auf

78 KAPITEL 14. SIGNIFIKANZTESTS

14.3.2 Korrelation

Die Zufallsgroßen X und Y mogen eine zweidimensionale Normalverteilung haben. Wenn nun%XY = 0 ist, dann sind beide unabhangig. Als Schatzer fur %XY verwenden wir %XY , fur dessenRealisierung in der Literatur oft das Symbol rXY verwendet wird. Der empirische Korrelations-koeffizient rXY wird berechnet durch

rXY =∑n

i=1(xi − x)(yi − y)√∑ni=1(xi − x)2

∑ni=1(yi − y)2

.

Hierbei ist zu beachten, dass die Werte xi und yi fur jedes i zusammengehoren. Als Testgroße wird

T =rXY

√n− 2√

1− r2XY

∼ tn−2

benutzt. Alternativhypothese ist H1 : %XY 6= 0. Als Testregel gilt hier: Lehne H0 ab, wenn|T | > tn−2,1−α

2.

Auch hier wird von unehrlichen Statistikern oft getrickst. Ein genugend großes α oder ein großesn fuhren zur Ablehnung von H0.

14.4 χ2-Anpassungstest

Mit Hilfe des χ2-Anpassungstests konnen Verteilungsannahmen getestet werden. Hier gilt beigroßem n fur die Stichprobenfunktion

T =k∑

i=1

(hi − npi)2

npi∼ χ2

k−r−1.

Dabei werden die Einzelergebnisse in k Klassen eingeteilt (z. B. die Intervalle [ai−1, ai), wobeimeist a0 = 0, gegebenenfalls auch a0 = −∞, und ak = ∞ ist). Dann sind hi die Haufigkeiten inden einzelnen Klassen. n ist – wie immer – die Anzahl der Werte. Fur die pi gilt hier

pi = P (ai−1 ≤ X < ai) = F0(ai)− F0(ai−1).

Fur große n ergibt sich naherungsweise eine χ2-Verteilung. Dabei gibt r die Anzahl der Parame-ter an, die nach der M-L-Methode aus der Stichprobe geschatzt werden (z. B. r = 2 bei einerNormalverteilung). Die Nullhypothese H0 wird abgelehnt, wenn T > χ2

k−r−1,1−α ist.

Page 83: Stochastik II - Fakultät für Mathematik und Informatik (Fakultät 1) … · 2008-04-01 · Stochastik In diesem Kapitel sollen die Grundlagen der Wahrscheinlichkeitstheorie auf

79

Kapitel 15

Regressionsanalyse

15.1 Einfuhrung

Bei der Regressions-Analyse soll eine Punktwolke, ein sogenannter Scatter-Plot, auf einen funktio-nalen Zusammenhang hin untersucht werden. Dazu werden in der Regel zwei Modelle verwendet:

Modell I. Beim Modell I wird als Zusammenhang die Formel

Y (x) = g(x) + ε(x)

angenommen. Dabei ist g eine unbekannte deterministische Funktion. ε(x) ist der zufallige Fehlerbei der Beobachtung. Hier soll Eε(x) = 0 gelten, es soll also kein systematischer Fehler vorliegen.Ferner sei var ε(x) = σ2 und die Fehler fur verschiedene x seien i.i.d. Der Parameter x ist einstell-bar, wird also vorgegeben. Die Stichprobe y1, . . . , yn besteht aus den Realisierungen Y (xi) an denBeobachtungsstellen x1, . . . , xn.

Nun gibt es abhangig von der Aufgabe zwei Wege, wie das Problem gelost werden kann: Derparametrische und der nichtparametrische Weg. Wir werden uns zunachst dem parametrischenWeg widmen. Dabei wird ein Ansatz g(x, ϑ) (z. B. g(x) = a + bx mit ϑ = (a, b)) gemacht. Derlineare Ansatz hat die Form

g(x, ϑ) = ϑ1f1(x) + . . . + ϑrfr(x),

mit bekannten fi. Die ϑi konnen dann mit Hilfe der Approximations-Theorie oder Ausgleichsrech-nung ermittelt werden.

Modell II. Hier liegt ein Zufallsvektor (X, Y ) vor, dem ein Zusammenhang der Form Y = g(X)+εangepasst wird. Die Daten sind analog zum Modell I gegeben. Der Unterschied liegt aber darin,dass sowohl X als auch Y zufallig sind, d.h., jetzt lautet die Stichprobe (x1, y1), . . . , (xn, yn).

Beispiele.

1. Große (X) und Gewicht (Y ) des Menschen.

2. Große des Vaters (X) und des Sohnes (Y ).

Woher kommt ubrigens der Name ”Regression“? Große Vater haben nicht immer so große Sohneund kleine Vater nicht immer so kleine, wie schon Galton bei statistischen Untersuchungen feststell-te. Dementsprechend ergibt sich eine Kurve wie in Abbildung 15.1 zu sehen. Dieses ”Zuruckgehenzum Durchschnitt“ hangt mit der Vorsilbe ”Re“ zusammen.

Die optimale Losung von E(Y − g(X))2 != min (messbares g) ist naturlich mit g(X) = E(Y |X)gegeben, haufig aber schwer zu berechnen. Daher wird oft eine aufgezwungene Losung verwendet,

Page 84: Stochastik II - Fakultät für Mathematik und Informatik (Fakultät 1) … · 2008-04-01 · Stochastik In diesem Kapitel sollen die Grundlagen der Wahrscheinlichkeitstheorie auf

80 KAPITEL 15. REGRESSIONSANALYSE

ideale Gerade

beobachtete Kurve

Y

X

-

6

Abbildung 15.1: Regressions-Kurve

die durch einen Ansatz bestimmt ist. Beispielsweise fuhrt der lineare Ansatz zu dem Optimie-rungsproblem

E((Y − a− bX)2) → min!

Die Formeln zur Bestimmung von a und b unterscheiden sich nicht von denen im Modell I.

15.2 Methode der kleinsten Quadrate fur Modell I

Im allgemeinen ist die Wahl der Messpunkte frei. Zur optimalen Wahl der xi kann man die Theorieder Versuchsplanung befragen.

Zur Berechnung der Naherung gibt es nun verschiedene Moglichkeiten: Zum einen gibt es dieTschebyschew-Approximation

ϑ = arg minϑ

supi=1,...,n

|g(xi, ϑ)− yi|

sowie die L1-Approximation

ϑ = arg minϑ

n∑i=1

|g(xi, ϑ)− yi|.

Zum anderen gibt es die Methode der kleinsten Quadrate von Gauß und Legendre, die von Legendre1805 publiziert worden ist und der L2-Approximation entspricht. 1

ϑ = arg minϑ

n∑i=1

(g(xi, ϑ)− yi)2.

Im linearen Fall hat man damit keine großeren Probleme. Aber im nichtlinearen Fall nutzt manhaufig eine der beiden Alternativen:

1. Numerische Verfahren. Hier ist die beliebteste Methode in der Statistik die Marquardt-Prozedur.

2. Transformationsmethode

Beispiel. Die Funktion y = ae−bx kann man durch Logarithmieren auf eine lineare Form bringen:

ln y = ln a− bx

zi = A + Bxi

1Gauß behauptete damals, schon lange so gerechnet zu haben.

Page 85: Stochastik II - Fakultät für Mathematik und Informatik (Fakultät 1) … · 2008-04-01 · Stochastik In diesem Kapitel sollen die Grundlagen der Wahrscheinlichkeitstheorie auf

15.2. METHODE DER KLEINSTEN QUADRATE FUR MODELL I 81

Die daraus ermittelten Werte A und B kann man nun folgendermaßen zurucktransformieren: Fura gilt a = eA und aus B wird b = −B.

Doch wenden wir uns jetzt dem linearen Fall zu. Wir betrachten also den Zusammenhang

Y = a + bx + ε(x), (15.1)

oder allgemeinerY = ϑ1f1(x) + . . . + ϑrfr(x) + ε(x) = f(x)T ϑ + ε(x). (15.2)

Wir fassen nun alle unsere Werte y1,. . . ,yn der Stichprobe zusammen. Dann sind y = (y1, . . . , yn)T ,ε = (ε1, . . . , εn)T , F = (f(x1), . . . ,f(xn))T und ϑ = (ϑ1, . . . , ϑr)T . Es ergibt sich die folgendeFormel: y = Fϑ + ε

n∑i=1

(f(xi)T ϑ− yi)2 = (Fϑ− y)T (Fϑ− y) = h(ϑ) = ‖Fϑ− y‖2

Die Ableitung bezuglich ϑ ergibt dann

gradϑh(ϑ) = 2F T (Fϑ− y)

Fur das optimale ϑ muss nun gelten:

gradϑh(ϑ) = 2F T F ϑ− 2F T y = 0.

Damit ergibt sich das Normalgleichungssystem

F T F ϑ = F T y. (15.3)

Wenn nun F T F regular, also invertierbar ist, dann erhalt man nach Auflosung von (15.3) denMKQ-Schatzer

ϑ = (F T F )−1F T y (15.4)

Speziell fur Y = a + bx ergibt sich:

a = Y − bx

b =

n∑i=1

xiYi − nxY

n∑i=1

x2i − nx2

.

Die MKQ-Schatzung hat fur regulare F T F die folgenden Eigenschaften:

1. ϑ ist erwartungstreu. Wegen Y = Fϑ + ε gilt:

Eϑ = (F T F )−1F T EY

= (F T F )−1F T Fϑ = ϑ.

2. Satz 15.1 (Gauß-Markow-Theorem)ϑ ist der beste lineare erwartungstreue Schatzer (BLUE) fur ϑ. Das bedeutet: Fur jedenanderen linearen erwartungstreuen Schatzer ϑ = CY gilt: covϑ − covϑ ist eine positivsemidefinite r × r-Matrix.

Page 86: Stochastik II - Fakultät für Mathematik und Informatik (Fakultät 1) … · 2008-04-01 · Stochastik In diesem Kapitel sollen die Grundlagen der Wahrscheinlichkeitstheorie auf

82 KAPITEL 15. REGRESSIONSANALYSE

3. Bei i.i.d. normalverteilten Beobachtungen, das heißt, wenn Y ∼ N(g(x,ϑ), σ2) oder ε(x) ∼N(0, σ2), ist der MKQ-Schatzer zugleich auch M-L-Schatzer. Es ist ja

L(y,ϑ) =n∏

i=1

f(yi;ϑ) = exp

− 1

2σ2

n∑i=1

(g(xi,ϑ)− yi)2· (const)n

wegen

f(yi;ϑ) = exp− 1

2σ2(g(xi,ϑ)− yi)2

· (const).

Damit wird L(y,ϑ) maximal, wennn∑

i=1

(g(xi,ϑ)− yi)2 minimal wird.

Die Uberprufung des Modelles wird im allgemeinen mittels der Residuen durchgefuhrt, die wiefolgt definiert sind.

εi = Yi − f(xi)T ϑ (15.5)

Die Datenanalyse dieser Residuen erfolgt oft durch einfache Visualisierung. Falls sehr extremeResiduen auftauchen, muss das Modell gepruft werden.

15.3 Nicht parametrische Regression

Ein wichtiges Beispiel der nicht parametrischen Regression ist der Nadaraya-Watson-Schatzer.

Hierzu brauchen wir wieder eine Kernfunktion Kh(x) mit∞∫−∞

Kh(x) dx = 1. Wichtige Kerne sind

der Rechteck-KernKh(x) =

12h

1[−h,h](x)

und der Epanechnikow-Kern

Kh(x) =34h

(1− x2

h2

)1[−h,h](x).

Der Schatzer hat dann die Form

g(x) =

n∑i=1

Kh(x− xi)yi

n∑i=1

Kh(x− xi).

Er nimmt den Wert 0 an, wenn der Zahler den Wert 0 hat. Probleme gibt es dabei am Rand undbei der Wahl von h. Große h fuhren zu einer glatten Funktion.

Page 87: Stochastik II - Fakultät für Mathematik und Informatik (Fakultät 1) … · 2008-04-01 · Stochastik In diesem Kapitel sollen die Grundlagen der Wahrscheinlichkeitstheorie auf

83

Kapitel 16

Konfidenz-Intervalle

Punktschatzungen liefern nur Punkte auf der Zahlengeraden. In vielen Fallen ist aber P (ϑ = ϑ) =0, auch wenn ϑ erwartungstreu ist. So ist zum Beispiel bei der Normalverteilung X1 ∼ N(µ, σ2)mit µ = X ∼ N(µ, σ2

n ), und es ist P (X = µ) = 0. Die neue Idee (Neyman, 1935) ist nun, anstelleeines Punktes ein Intervall, einen Bereich oder sonst eine Menge zu betrachten. Dazu betrachtenwir Stichprobenfunktionen

I : Mn → J,

wobei J die Menge aller abgeschlossenen Intervalle in R ist.

Ein etwas absonderliches, aber sicherlich anschauliches Beispiel ist eine Fliege an der Wand. Dabeikommt der Versuch, auf die Fliege zu schießen, einem Punktschatzer gleich. Die Verwendung einerMenge entspricht dann dem Einsatz einer Fliegenklatsche. Sie trifft zwar auch nicht besser, abersie erwischt doch mehr von der Wand. Damit ist die Wahrscheinlichkeit, die Fliege zu treffen,trotzdem hoher, ohne dass aber der genaue Ort der Fliege erhalten wird.

Das Ziel ist nun, ϑ mit moglichst großer Wahrscheinlichkeit zu uberdecken, aber moglichst schmaleIntervalle zu verwenden.

Definition 16.1 Eine Bereichsschatzung I heißt Konfidenzschatzung (-intervall, Vertrauens-Intervall) zum Niveau (1− α), wenn fur alle ϑ ∈ Θ

Pϑ(ϑ ∈ I) ≥ (1− α) (16.1)

gilt.

Beliebte Werte fur 1− α sind 0.95 und 0.99.

Beispiele.

1. Hier betrachten wir Konfidenzintervalle fur µ bei der Normalverteilung N(µ, σ2) mit bekann-ter Varianz σ2. Es gilt

X ∼ N(µ,σ2

n)

Also folgt nun

(−z1−α

2≤ X − µ

σ√n

≤ z1−α2

)= 1− α.

Das lasst sich umformen als

(X − z1−α

2

σ√n≤ µ ≤ X + z1−α

2

σ√n

)= 1− α. (16.2)

Page 88: Stochastik II - Fakultät für Mathematik und Informatik (Fakultät 1) … · 2008-04-01 · Stochastik In diesem Kapitel sollen die Grundlagen der Wahrscheinlichkeitstheorie auf

84 KAPITEL 16. KONFIDENZ-INTERVALLE

Daraus ergibt sich nun fur das Intervall:

I(µ) =[X − z1−α

2

σ√n

, X + z1−α2

σ√n

]2. Betrachten wir nun das Gleiche fur unbekannte Varianz. Fur die Verteilungsfunktion gilt

nunX − µ

S√n

∼ tn−1.

Also gilt

(−tn−1,1−α

2≤ X − µ

S√n

≤ tn−1,1−α2

)= 1− α,

woraus folgt

(X − tn−1,1−α

2

S√n≤ µ ≤ X + tn−1,1−α

2

S√n

)= 1− α (16.3)

Die hier betrachteten Intervalle sind zweiseitige Intervalle. Man kann aber auch einseitige Intervallebetrachten (z. B. [X − tn−1,1−α

S√n,∞)). Zu weiteren Intervallen sei hier auf die Tabellenbucher

verwiesen.

Hinweis. ϑ ist deterministisch und I(X) zufallig. Es ist

Pϑ(ϑ ∈ I(X)) ≥ 1− α.

Also ist ϑ mit einer Wahrscheinlichkeit, die großer als 1−α ist, im Intervall. Das ist solange richtig,wie I(X) zufallig ist. Aus einer konkreten Statistik wird jedoch eine deterministische Realisierungvon I(X) ermittelt. Dann liegt ϑ liegt entweder im Intervall oder nicht. Es ist dann nur bekannt,dass ein Rezept genommen wurde, das ”oft“, namlich mit Wahrscheinlichkeit 1−α, erfolgreich ist.Die Lage von ϑ im Intervall ist ein anderes Problem.

Eine wichtige Anwendung der Konfidenzintervalle ist die Suche nach dem notwendigenStichproben-Umfang n. Fur seine Wahl gibt es als grobe Faustregel das folgende Rezept:

• n ≥ 10 bei Parameterschatzungen,

• n ≥ 6 bei H0 : µ = µ0 und

• n ≥ 50 bei Verteilungsfunktionsschatzungen.

Die Idee, die bei der Anwendung eines Konfidenzintervalls zugrunde liegt, sagt: Gib α und diezulassige Breite 2b des Intervalls vor und berechne den notwendigen Stichprobenumfang n. Wollteman z.B. µ schatzen, dann gibt es die Formel

b = tn−1,1−α2

S√n

.

n muss man hier iterativ bestimmen. b ist in der Praxis oft schwer angebbar, wahrend α naturlicheinfacher zu wahlen ist.

Das Problem, welches sich hier ergibt, ist, dass S naherungsweise bekannt sein muss. Dies kannman durch eine Pilotuntersuchung losen.

Was war nun der Grund, dass bei der Konstruktion der obigen Intervalle alles so schon klappte?Wir hatten eine Pivot-Große (z.B. t = X−µ

σ/√

n) verwendet, die folgende Eigenschaften hatte:

1. Die Verteilung ist unabhangig von den unbekannten Parametern.

Page 89: Stochastik II - Fakultät für Mathematik und Informatik (Fakultät 1) … · 2008-04-01 · Stochastik In diesem Kapitel sollen die Grundlagen der Wahrscheinlichkeitstheorie auf

85

2. Die Ungleichung u ≤ t ≤ o lasst sich leicht in eine Ungleichung der Form µu ≤ µ ≤ µo

umformen.

Im Fall einer Nicht-Normalverteilung gibt es unter anderem folgende Auswege:

1. NV-Asymptotik. Ein Beispiel fur die Normalverteilungs-Asymptotik ist die Suche nach einemIntervall fur p bei einer Bernoulli-Verteilung. 1 Hier wird eine asymptotische Pivot-Großebetrachtet. Dabei macht man sich den Sachverhalt

Sn − np√np(1− p)

d−−−−→n→∞

N(0, 1)

zunutze. Dabei ist Sn =n∑

i=1

Xi = k die Anzahl der Erfolge. Mit Hilfe von p = kn ergibt sich

p− p√p(1− p)

√n −→ N(0, 1).

Aus der Bedingung P (p1 ≤ p ≤ p2)<≈ 1− α ergeben sich nun die Losungen

p1,2 =p +

z21−α

2

2n∓

z1−α2√

n

√p(1− p) +

z21−α

2

4n

1 +z21−α

2

n

.

2. Man kann auch die Bootstrap-Methode verwenden, die 1982 von Efron eingefuhrt wurde.Wir betrachten sie hier fur µ = EX und X ∼ F mit unbekanntem F . Dabei gehen wir vonder Große

T =X − µ

s√n

aus. Um noch brauchbare Ergebnisse zu erzielen, mussen wir uns nun am eigenen Stie-felriemen aus dem Sumpf ziehen.2 Wir ersetzen dazu F durch Fn und kennzeichnen allezugehorigen Großen mit ∗. Dabei erhalten wir so die Formeln

µ∗ = X, und t∗ =X∗ − X

S∗√n

.

Die Quantile von t∗ bezeichnen wir mit tB und tB . Fur diese Werte gelten dann die FormelnP ∗(t∗ ≤ tB) = α

2 und P ∗(t∗ ≥ tB) = α2 . Sie lassen sich entweder numerisch berechnen oder

mussen ”er“-simuliert werden.

Die Simulation lauft dabei folgendermaßen ab: Aus den Stichprobendaten x1, . . . , xn werdenneue Stichproben (zufallig, mit Zurucklegen) vom Umfang m (haufig: m = n) gebildet undjeweils t∗ ermittelt. Als Faustregel gelten ca. 1000 Simulationen. Aus den empirischen Quan-tilen t1, t2, . . . , t999, t1000 werden dann Schatzwerte fur tB und tB gebildet. Beispielsweisenimmt man fur α = 0.05 die Werte t25 und t976.

Das hierbei erhaltene Vertrauensintervall[X − S√

ntB , X − S√

ntB

]ist dann oft besser als die NV-Asymptotik.

1Vergleiche dazu auch [13].2 Eigentlich ziehen wir uns ja am eigenen Zopf aus dem Sumpf, aber die englischsprachige Gesellschaft verwendet

dazu den Bootstrap, also den Stiefelriemen.

Page 90: Stochastik II - Fakultät für Mathematik und Informatik (Fakultät 1) … · 2008-04-01 · Stochastik In diesem Kapitel sollen die Grundlagen der Wahrscheinlichkeitstheorie auf

86 KAPITEL 16. KONFIDENZ-INTERVALLE

Page 91: Stochastik II - Fakultät für Mathematik und Informatik (Fakultät 1) … · 2008-04-01 · Stochastik In diesem Kapitel sollen die Grundlagen der Wahrscheinlichkeitstheorie auf

LITERATURVERZEICHNIS 87

Literaturverzeichnis

[] Klassiker

[1] Feller, W., An Introduction to Probability Theory and its Application, J. Wiley & Sons (VolI 1950, Vol II 1966)

[2] Fisz, M., Wahrscheinlichkeitsrechnung und mathematische Statistik, Deutscher Verlag derWissenschaften (11.Auflage 1988)

[3] Gnedenko, B.W., Lehrbuch der Wahrscheinlichkeitsrechnung, Akademie Verlag Berlin (Neu-auflage 1994; russisch 1954)

[4] Kolmogorow, A.N., Grundbegriffe der Wahrscheinlichkeitsrechnung, Springer-Verlag (1933,Neuauflage 1973)

[5] Renyi, A., Wahrscheinlichkeitstheorie, Deutscher Verlag der Wissenschaften (6.Auflage 1979)

[] Neuere Bucher

[6] Bauer, H., Wahrscheinlichkeitstheorie, Walter de Gruyter (4. Auflage 1991) 2, 5.1, 7.4

[7] Beichelt, F., Stochastik fur Ingenieure, Teubner (1995)

[8] Beyer, O., H. Hackel und V. Pieper, Wahrscheinlichkeitsrechnung und mathematische Statis-tik, Teubner (8.Auflage 1999) 1

[9] Georgii, H.-O., Stochastik. Einfuhrung in die Wahrscheinlichkeitstheorie und Statistik, Walterde Gruyter (2002)

[10] Gohler, W. und B. Ralle, Formelsammlung Hohere Mathematik, Harry Deutsch (14.Auflage1999) 14.3.1, 4

[11] Karr, A., Probability, Springer-Verlag (1993)

[12] Krengel, U., Einfuhrung in Wahrscheinlichkeitstheorie und Statistik, Vieweg Verlag Braun-schweig (3.Auflage 1991)

[13] Krickeberg, K. und H. Ziezold, Stochastische Methoden, Springer-Verlag (4.Auflage 1995) 9.1,1

[14] Sachs, L., Angewandte Statistik. Anwendung statistischer Methoden, Springer-Verlag(10.Auflage 2002)

[15] Storm, R., Wahrscheinlichkeitsrechnung, Mathematische Statistik und Statistische Qua-litatskontrolle, Fachbuchverlag Leipzig (11.Auflage 2001)

[16] Stoyan, D., Stochastik fur Ingenieure und Naturwissenschaftler, Akademie Verlag Berlin(1993)

[17] Viertl, R., Einfuhrung in die Stochastik, Springer-Verlag Wien (1997)

Page 92: Stochastik II - Fakultät für Mathematik und Informatik (Fakultät 1) … · 2008-04-01 · Stochastik In diesem Kapitel sollen die Grundlagen der Wahrscheinlichkeitstheorie auf

88 INDEX

Index

σ-Additivitat, 3p-Wert, 75

Abweichungsignifikante, 73

Alternativeeinseitige, 74zweiseitige, 74

Bernoulli-Schema, 18

Dichtegemeinsame, 20

Erwartungswert, 9Experiment

Bernoulli-, 18Produkt-, 17unabhangiges, 17

Fehlerbei statistischen Tests, 73erster Art, 74zweiter Art, 74, 75

frequentistische Auffassung, 5Funktion

charakteristische, 45Gute-, 75Verteilungs-, 8, 19

GesetzNull-Eins-Gesetz, 5Verteilungs-, 7

HypotheseNull-, 73statistische, 73

IntervallKonfidenz-, 83

Inversionsmethode, 15

Korrelation-smatrix, 24

Korrelationskoeffizient, 24empirischer, 78

Kovarianz, 24-matrix, 24

Maßraum, 3Maß

normiertes, 3Wahrscheinlichkeits-, 6, 7

Quantil, 13-Funktion, 13-Transformation, 15

Schatzereffektiver, 67

Stichprobekonkrete, 67mathematische, 67

Test, 73Anpassungs-, 74Parameter-, 74Signifikanz-, 73, 74

Unabhangigkeit, 22Ungleichung

Boolesche, 4Jensensche, 12Markowsche, 11Tschebyschewsche, 11

Vektorzufalliger, 19Zufalls-, 19

Verteilunghypergeometrische, 6

Verwerfungsmethode, 15Volladditivitat, 3

Wahrscheinlichkeit, 3Irrtums-, 74subjektive, 5

Wahrscheinlichkeits-Maß, 3Verteilung, 3

Wahrscheinlichkeitsraum, 3Bild-, 7

Page 93: Stochastik II - Fakultät für Mathematik und Informatik (Fakultät 1) … · 2008-04-01 · Stochastik In diesem Kapitel sollen die Grundlagen der Wahrscheinlichkeitstheorie auf

INDEX 89

Zufallsgroße, 7Unabhangigkeit von ˜n, 22

Zufallsvariable, 7Zufallsvektor, 19Zufallszahlen-Erzeugung, 13