102
R. Gr¨ ubel Universit¨atHannover Institut f¨ ur Mathematische Stochastik STOCHASTIK I Sommersemester 2006 Dieses Skript enth¨ alt (in geringf¨ ugigem Umfang) Material, das in der Vorlesung selbst nicht besprochen wurde; in ‘besonders schweren F¨allen’ ist der entspre- chende Passus mit einem ‘ ’ gekennzeichnet. Außerdem fehlen nat¨ urlich (in gr¨ oßerem Umfang) Illustrationen, Beispiele und Erl¨ auterungen, die in der Vor- lesung ad hoc gegeben wurden.

STOCHASTIK I - Blu7 · STOCHASTIK I Sommersemester 2006 Dieses Skript entha¨lt (in geringfu¨gigem Umfang) Material, das in der Vorlesung selbst nicht besprochen wurde; in ‘besonders

  • Upload
    others

  • View
    3

  • Download
    0

Embed Size (px)

Citation preview

Page 1: STOCHASTIK I - Blu7 · STOCHASTIK I Sommersemester 2006 Dieses Skript entha¨lt (in geringfu¨gigem Umfang) Material, das in der Vorlesung selbst nicht besprochen wurde; in ‘besonders

R. Grubel

Universitat HannoverInstitut fur Mathematische Stochastik

STOCHASTIK I

Sommersemester 2006

Dieses Skript enthalt (in geringfugigem Umfang) Material, das in der Vorlesungselbst nicht besprochen wurde; in ‘besonders schweren Fallen’ ist der entspre-chende Passus mit einem ‘⋆’ gekennzeichnet. Außerdem fehlen naturlich (ingroßerem Umfang) Illustrationen, Beispiele und Erlauterungen, die in der Vor-lesung ad hoc gegeben wurden.

Page 2: STOCHASTIK I - Blu7 · STOCHASTIK I Sommersemester 2006 Dieses Skript entha¨lt (in geringfu¨gigem Umfang) Material, das in der Vorlesung selbst nicht besprochen wurde; in ‘besonders

1. Grundbegriffe

Stochastik, ein moderner Sammelbegriff fur die Gebiete Wahrscheinlichkeits-theorie und mathematische Statistik, ist die

Mathematik des Zufalls.

Typische Situationen, bei denen der Zufall in der einen oder anderen Form eineRolle spielt, finden wir

- bei Glucksspielen (Wurfelwurf, Kartenmischen),

- in der Physik (statistische Mechanik, Quantenmechanik),

- in den Ingenieurwissenschaften (Signalverarbeitung),

- in den Wirtschaftswissenschaften (Modellierung von Aktienkursen),

- in der Medizin (Vergleich von Medikamenten),

- im Operations Research (Bediennungssysteme), sowie

- in der Informatik (Analyse von Algorithmen, randomisierte Verfahren).

In diesem ersten Abschnitt geht es um einige fundamentale Grundbegriffe, dieim gesamten Verlauf der Vorlesung routinemaßig verwendet werden.

1.1 Ein mathematisches Modell fur Zufallsexperimente. Bei Zufallsex-perimenten ist das Ergebnis nicht durch die Randbedingungen des Experimentsfestgelegt. Der Ergebnisraum Ω ist eine Menge, die die moglichen Ergebnisse(Resultate) des Experiments enthalt, Ereignisse werden durch Teilmengen vonΩ beschrieben. Aussagen uber das Ergebnis werden dabei in Teilmengen desErgebnisraumes ubersetzt: eine Aussage wird zu der Menge aller ω ∈ Ω, furdie diese Aussage richtig ist.

Beispiel 1.1 Beim Wurf eines Wurfels ist Ω := 1, 2, 3, 4, 5, 6 eine geeigneteErgebnismenge; das Ereignis ‘eine gerade Zahl erscheint’ wird reprasentiertdurch (ist) A = 2, 4, 6. Wirft man einen Wurfel zweimal, so bietet sich

Ω2 := (i, j) : i, j ∈ Ω(

= Ω × Ω = Ω2)

an, wobei das Paar (i, j) dafur steht, dass i im ersten und j im zweiten Wurferscheint. Wirft man zwei Wurfel gleichzeitig (und kann man diese nicht un-terscheiden), so liegt

Ω2 := (i, j) ∈ Ω2. i ≤ j

nahe (die Einzelergebnisse sind aufsteigend geordnet). Das Ereignis ‘Augen-summe 8’ wird zu A = (2, 6), (3, 5), (4, 4), (5, 3), (6, 2) bei Ergebnisraum Ω2

und zu A = (2, 6), (3, 5), (4, 4) bei Ergebnisraum Ω2. ⊳

Page 3: STOCHASTIK I - Blu7 · STOCHASTIK I Sommersemester 2006 Dieses Skript entha¨lt (in geringfu¨gigem Umfang) Material, das in der Vorlesung selbst nicht besprochen wurde; in ‘besonders

2 1. Grundbegriffe

Ein Ereignis A mit exakt einem Element, also A = ω mit einem ω ∈ Ω, nenntman ein Elementarereignis. Ergebnisse sind also Elemente von Ω, EreignisseTeilmengen von Ω. Kombinationen von Ereignissen konnen durch mengentheo-retische Operationen beschrieben werden:

A ∩ B : A und B treten beide ein,

A ∪ B : A oder B (oder beide) tritt (treten) ein,

Ac : A tritt nicht ein.

Beim Wurfelwurf wird beispielsweise das Ereignis ‘es erscheint keine geradeZahl’ beschrieben durch 2, 4, 5c = 1, 3, 5.

Beispiel 1.2 (Kombinationen von mehr als zwei Ereignissen)(a) ‘Genau eines der Ereignisse A, B, C tritt ein’ wird beschrieben durch

A ∩ Bc ∩ Cc + Ac ∩ B ∩ Cc + Ac ∩ Bc ∩ C.

Hierbei steht A + B fur A ∪ B bei disjunkten Mengen A, B.

(b) Es sei A1, A2, A3, . . . eine Folge von Ereignissen. Dann wird das Ereignis‘unendlich viele der Ai’s treten ein’ reprasentiert durch den Limes superior derMengenfolge,

lim supn→∞

An :=

∞⋂

n=1

∞⋃

m=n

Am.

Klar: ∪∞m=nAm steht fur ‘mindestens eines der Ereignisse mit Index ≥ n tritt

ein’, und es gilt

ω ∈ lim supn→∞

An ⇐⇒ ∀n ∈ N ∃m ≥ n : ω ∈ Am

⇐⇒ #n ∈ N : ω ∈ An = ∞.⊳

Die Menge der Ereignisse (eine Menge von Mengen!) in einem Zufallsexpe-riment bildet ein Mengensystem A uber Ω, also eine Teilmenge der Potenz-menge P(Ω) von Ω. Bei endlichem oder abzahlbar unendlichem Ergebnisraumkonnen wir problemlos A = P(Ω) voraussetzen (jede Zusammenfassung vonErgebnissen ist ein Ereignis), bei uberabzahlbarem Ω geht dies in vielen wich-tigen Fallen nicht (wir werden dies spater prazisieren). Die obigen Beispiele furKombinationen von Ereignissen fuhren auf gewisse Mindestvoraussetzungen andas System A und damit zur folgenden Definition.

Definition 1.3 A ⊂ P(Ω) heißt eine σ-Algebra uber Ω, wenn gilt:

(i) Ω ∈ A, (ii) A ∈ A =⇒ Ac ∈ A,

(iii) A1, A2, . . . ∈ A =⇒⋃∞

i=1 Ai ∈ A.

Page 4: STOCHASTIK I - Blu7 · STOCHASTIK I Sommersemester 2006 Dieses Skript entha¨lt (in geringfu¨gigem Umfang) Material, das in der Vorlesung selbst nicht besprochen wurde; in ‘besonders

Ein mathematisches Modell fur Zufallsexperimente 3

In Worten: Ein Mengensystem uber Ω ist eine σ-Algebra, wenn es die Grund-menge (also den Ergebnisraum) enthalt und stabil ist gegenuber den Operatio-nen ‘Komplement’ und ‘abzahlbare Vereinigung’.

Was ist nun ‘Wahrscheinlichkeit’? Strenggenommen ist dies keine mathema-tische Frage (analog zu: Was ist eine Gerade?, was ist eine Menge?) Als ma-thematischer Gegenstand ist Wahrscheinlichkeit eine Funktion, die EreignissenZahlen zwischen 0 und 1 zuordnet und dabei gewissen Axiomen genugt. DieseAxiome (Forderungen) werden durch den umgangssprachlichen Wahrschein-lichkeitsbegriff motiviert. Zur Erlauterung betrachten wir die Aussage ‘dasEreignis A hat Wahrscheinlichkeit p’ (z.B.: ‘beim Wurf eines fairen Wurfels er-scheint mit Wahrscheinlichkeit 1/2 eine gerade Zahl’). Es gibt zwei hauptsach-liche Interpretationen:

(F) Die ‘Haufigkeitsauffassung’, deren Anhanger auch Frequentisten genanntwerden. Es sei Nn(A) die Haufigkeit des Auftretens von A bei n Wiederho-lungen des Zufallsexperiments; 1

nNn(A) ist die relative Haufigkeit von A. Bei

großem n wurde man erwarten, dass die relative Haufigkeit von A in der Nahevon p liegt (ungefahr die Halfte der Wurfelwurfe sollte eine gerade Zahl liefern).

(S) Die ‘Glaubens- oder Plausibilitatsauffassung’, deren Anhanger man gele-gentlich als Subjektivisten bezeichnet. Der Wert p gibt auf einer Skala von0 bis 1 die ‘Starke meines Glaubens’ an das Eintreten von A wieder. Dieskann uber Wetten formalisiert werden und ist im Gegensatz zu (a) auch beinichtwiederholbaren Experimenten anwendbar (aber eben subjektiv).

Diese Auffassungen sind naturlich nicht disjunkt. Fur relative Haufigkeitengelten die Regeln

1

nNn(Ω) = 1,

1

nNn(A) ≥ 0 fur alle A ∈ A,

sowie fur alle paarweise disjunkten A1, . . . , Ak ∈ A

1

nNn(A1 + . . . + Ak) =

1

nNn(An) + . . . +

1

nNn(Ak).

Insgesamt motiviert dies das folgende mathematische Modell fur Zufallsexpe-rimente:

Definition 1.4 (Die Kolmogorov-Axiome) Ein Wahrscheinlichkeitsraum istein Tripel (Ω,A, P ), bestehend aus einer nichtleeren Menge Ω (dem Ergebnis-raum), einer σ-Algebra A uber Ω (dem Ereignissystem), und einer AbbildungP : A → R mit den Eigenschaften

(i) P (Ω) = 1, (ii) P (A) ≥ 0 fur alle A ∈ A,

Page 5: STOCHASTIK I - Blu7 · STOCHASTIK I Sommersemester 2006 Dieses Skript entha¨lt (in geringfu¨gigem Umfang) Material, das in der Vorlesung selbst nicht besprochen wurde; in ‘besonders

4 1. Grundbegriffe

(iii) P(

∑∞i=1 Ai

)

=∑∞

i=1 P (Ai) fur alle paarweise disjunkten A1, A2, . . . ∈ A.

Eine Abbildung mit diesen Eigenschaften heißt Wahrscheinlichkeitsmaß, Eigen-schaft (iii) nennt man die σ-Additivitat.

Beispiel 1.5 (a) Ist Ω eine endliche und nicht-leere Menge, so wird durch

P (A) :=#A

#Ωfur alle A ⊂ Ω

ein Wahrscheinlichkeitsmaß auf (Ω,P(Ω)) definiert. Man nennt (Ω,A, P ) mitA = P(Ω) das Laplace-Experiment uber Ω. Solche Modelle werden haufigdurch Symmetrieuberlegungen nahegelegt. Beim Wurf eines fairen (d.h. sym-metrischen) Wurfels ergibt sich damit als Wahrscheinlichkeit dafur, dass einegerade Zahl geworfen wird,

P (A) =#2, 4, 6

#1, 2, 3, 4, 5, 6=

1

2

(Anzahl der gunstigen Falle dividiert durch die Anzahl der moglichen Falle,eine vielleicht schon aus dem Schulunterricht bekannte Regel). Ob fur einvorgegebenes Zufallsexperiment ein Laplace-Experiment uber einer bestimmtenMenge das korrekte Modell ist, ist keine (rein) mathematische Frage. Bei denbeiden Ergebnisraumen zum zweimaligen Wurfelwurf und zum gleichzeitigenWurf zweier Wurfel wurde man unterschiedliche Wahrscheinlichkeiten fur dieAugensumme 8 bekommen. ‘Außermathematische’ Uberlegungen zeigen, dassWurfel (wie allgemein makroskopische Objekte) unterscheidbar sind und somit5/36 die richtige Antwort ist; bei der Elementarteilchenphysik konnen durchausandere Modelle korrekt sein (in dem Sinne, dass sie die physikalische Realitatrichtig wiedergeben).

(b) Ein deterministisches Experiment, bei dem nur ein einziges Ergebnis ω0

moglich ist, kann als degeneriertes Zufallsexperiment (Ω,A, δω0) betrachtet wer-

den. Hierbei ist Ω irgendeine Menge, die ω0 enthalt, A eine σ-Algebra uber Ωund δω0

das Dirac-Maß oder auch Einpunktmaß in ω0:

δω0(A) =

1, ω0 ∈ A,0, ω0 /∈ A.

Man macht sich leicht klar, dass δω0ein Wahrscheinlichkeitsmaß ist. ⊳

Im folgenden Satz sind einige erste Folgerungen aus den Axiomen zusammen-gefasst.

Page 6: STOCHASTIK I - Blu7 · STOCHASTIK I Sommersemester 2006 Dieses Skript entha¨lt (in geringfu¨gigem Umfang) Material, das in der Vorlesung selbst nicht besprochen wurde; in ‘besonders

Ein mathematisches Modell fur Zufallsexperimente 5

Satz 1.6 Es sei (Ω,A, P ) ein Wahrscheinlichkeitsraum. Dann gilt:

(a) P (∅) = 0, P (A) ≤ 1 fur alle A ∈ A,

(b) P (Ac) = 1 − P (A) fur alle A ∈ A,

(c) (endliche Additivitat) P (A1 ∪ . . . ∪ Ak) = P (A1) + . . . + P (Ak) fur allepaarweise disjunkten A1, . . . , Ak ∈ A,

(d) (Monotonie) A ⊂ B ⇒ P (A) ≤ P (B) fur alle A, B ∈ A,

(e) (Boolesche Ungleichung) P (A1 ∪ . . .∪Ak) ≤ P (A1) + . . . + P (Ak) fur alle(nicht notwendigerweise disjunkten) A1, . . . , Ak ∈ A,

(f) P (A ∪ B) = P (A) + P (B) − P (A ∩ B) fur alle A, B ∈ A,

(g) (Formel von Poincare, auch: Einschluss-Ausschluss-Formel oder Siebformel)

P (A1 ∪ . . . ∪ Ak) =∑

∅6=H⊂1,...,k

(−1)#H−1P(

i∈H

Ai

)

.

Beweis: Der Nachweis, dass die beteiligten Mengenkombinationen nicht ausder σ-Algebra herausfuhren, ist Gegenstand einer Ubungsaufgabe; beispiels-weise gilt ∅ ∈ A wegen Ω ∈ A und ∅ = Ωc.

(a) Verwendet man die σ-Additivitat von P mit A1 = A2 = . . . = ∅, so folgtP (∅) = P (∅) + P (∅) + . . ., also P (∅) = 0. Die Aussage P (A) ≤ 1 folgt ausP (Ω) = 1 und der Monotonie (Teil (d)).

(c) Setze Ak+1 = Ak+2 = . . . = ∅, verwende die σ-Additivitat und P (∅) = 0.

(b) A ∪ Ac = Ω, A ∩ Ac = ∅; verwende nun die endliche Additivitat.

(d) Es gilt B = A + B ∩ Ac, also P (B) = P (A) + P (B ∩ Ac) ≥ P (A), daP (B ∩ Ac) ≥ 0.

(e) Im Falle k = 2 folgt die Aussage aus Teil (f) und P (A∩B) ≥ 0. Angenom-men, die Aussage ist fur ein k ≥ 2 richtig. Dann folgt

P(

(A1 ∪ . . . ∪ Ak) ∪ Ak+1

)

≤ P (A1 ∪ . . . ∪ Ak) + P (Ak+1),

denn fur zwei Ereignisse gilt die Formel, also

P(

(A1 ∪ . . . ∪ Ak) ∪ Ak+1

)

≤(

P (A1) + . . . + P (Ak))

+ P (Ak+1),

d.h. die Aussage gilt dann auch fur k + 1. Vollstandige Induktion liefert nundie gewunschte Aussage.

(f) A = A∩B +A∩Bc, also ergibt der bereits bewiesene Teil (c) P (A∩Bc) =P (A) − P (A ∩ B). Weiter gilt A ∪ B = B + A ∩ Bc, also

P (A ∪ B) = P (B) + P (A ∩ Bc) = P (B) + P (A) − P (A ∩ B).

(g) Im Falle k = 2 erhalt man (f). Induktionsschritt: Ubungsaufgabe.

Page 7: STOCHASTIK I - Blu7 · STOCHASTIK I Sommersemester 2006 Dieses Skript entha¨lt (in geringfu¨gigem Umfang) Material, das in der Vorlesung selbst nicht besprochen wurde; in ‘besonders

6 1. Grundbegriffe

Warum wird in den Kolmogorov-Axiomen die σ-Additivitat anstelle beispiels-weise der (schwacheren) endlichen Additivitat gefordert? Man sieht leicht, dassletztere bereits aus

P (A ∪ B) = P (A) + P (B) fur alle disjunkten A, B ∈ A

folgt. Das folgende Resultat zeigt, dass man σ-Additivitat als Stetigkeitseigen-schaft interpretieren kann. Wir nennen eine Folge (An)n∈N von Teilmengen vonΩ isoton, wenn An ⊂ An+1 fur alle n ∈ N gilt, antiton im Falle An ⊃ An+1 furalle n ∈ N. Wir schreiben beispielsweise An ↓ A, wenn (An)n∈N eine antitoneMengenfolge ist mit der Eigenschaft

⋂∞n=1 An = A.

Satz 1.7 Es seien Ω 6= ∅, A eine σ-Algebra auf Ω und P : A → R eineAbbildung mit den Eigenschaften(i) P (Ω) = 1, (ii) P (A) ≥ 0 fur alle A ∈ A,(iii) P (A ∪ B) = P (A) + P (B) fur alle A, B ∈ A mit A ∩ B = ∅.

Dann sind aquivalent:

(a) P ist σ-additiv (also ein Wahrscheinlichkeitsmaß),

(b) P ist stetig von unten, d.h. fur jede isotone Folge A1, A2, . . . von Ereignis-sen gilt

limn→∞

P (An) = P(

∞⋃

n=1

An

)

,

(c) P ist stetig von oben, d.h. fur jede antitone Folge A1, A2, . . . von Ereignissengilt

limn→∞

P (An) = P(

∞⋂

n=1

An

)

,

(d) P ist stetig in ∅, d.h. fur jede Folge (An)n∈N von Ereignissen mit derEigenschaft An ↓ ∅ gilt

limn→∞

P (An) = 0.

Beweis: (a) ⇒ (b). Es sei B1 := A1, Bn := An ∩ Acn−1 fur alle n > 1. Klar:

Bn ∈ A fur alle n ∈ N, (Bn)n∈N paarweise disjunkt, An = B1 + . . . + Bn furalle n ∈ N,

⋃∞n=1 An =

∑∞n=1 Bn. Die σ-Additivitat von P liefert

P(

∞⋃

n=1

An

)

= P(

∞∑

n=1

Bn

)

=

∞∑

n=1

P (Bn)

= limn→∞

n∑

m=1

P (Bm) = limn→∞

P(

n∑

m=1

Bm

)

= limn→∞

P (An).

Page 8: STOCHASTIK I - Blu7 · STOCHASTIK I Sommersemester 2006 Dieses Skript entha¨lt (in geringfu¨gigem Umfang) Material, das in der Vorlesung selbst nicht besprochen wurde; in ‘besonders

Bedingte Wahrscheinlichkeiten und Unabhangigkeit 7

(b) ⇒ (c): Uber Komplementbildung: Ist An ↓, so ist Acn ↑ und man erhalt

P(

∞⋂

n=1

An

)

= 1 − P(

∞⋃

n=1

Acn

)

= 1 − limn→∞

P (Acn)

= 1 − limn→∞

(

1 − P (An))

= limn→∞

P (An).

(c) ⇒ (d): Trivial.

(d) ⇒ (a): Sind A1, A2, . . . disjunkt, so gilt Bn ↓ ∅ fur Bn :=∑∞

k=n+1 Ak, alsofolgt unter Verwendung der endlichen Additivitat

P(

∞⋃

n=1

An

)

= P(

n∑

k=1

Ak + Bn

)

=

n∑

k=1

P (Ak) + P (Bn).

Wegen P (Bn) → 0 konvergiert die Reihe und ist gleich P(⋃∞

k=1 Ak

)

.

Wir werden spater noch einmal auf die verschiedenen Varianten der Additivitatzuruckkommen und bemerken hier nur, dass als Ersatz fur die σ-Additivitat dieendliche Additivitat zu schwach fur eine befriedigende mathematische Theorieist.

1.2 Bedingte Wahrscheinlichkeiten und Unabhangigkeit. Es seien Aund B Ereignisse in einem Zufallsexperiment, das durch einen Wahrscheinlich-keitsraum (Ω,A, P ) beschrieben wird. Was ist die Wahrscheinlichkeit von Bunter der Bedingung, dass A eintritt? Bei n Wiederholungen tritt A Nn(A)-mal ein, unter diesen ist Nn(A ∩ B) die (absolute) Haufigkeit von B. Fur dierelative Haufigkeit von B unter den Experimenten, die A liefern, gilt

Nn(A ∩ B)

Nn(A)=

1nNn(A ∩ B)1nNn(A)

.

Durch den frequentistischen Wahrscheinlichkeitsbegriff wird somit die folgendeDefinition motiviert.

Page 9: STOCHASTIK I - Blu7 · STOCHASTIK I Sommersemester 2006 Dieses Skript entha¨lt (in geringfu¨gigem Umfang) Material, das in der Vorlesung selbst nicht besprochen wurde; in ‘besonders

8 1. Grundbegriffe

Definition 1.8 Es sei A ein Ereignis mit P (A) > 0. Die bedingte Wahr-

scheinlichkeit eines Ereignisses B unter A wird definiert durch

P (B |A) :=P (A ∩ B)

P (A).

Man sieht leicht, dass dann B 7→ P (B |A) ein Wahrscheinlichkeitsmaß ist, d.h.(Ω,A, P ( · |A)) ist ein Wahrscheinlichkeitsraum. Er reprasentiert das gegenuber(Ω,A, P ) dahingehend veranderte Experiment, dass das Eintreten von A be-kannt ist.

Satz 1.9 (a) (Die Multiplikationsregel) Es seien A1, . . . , An Ereignisse mitP (A1 ∩ . . . ∩ An) > 0. Dann gilt

P (A1∩ . . .∩An) = P (A1)P (A2 |A1)P (A3 |A1∩A2) · . . .·P (An|A1∩ . . .∩An−1).

(b) (Das Gesetz von der totalen Wahrscheinlichkeit) Es sei A1, . . . , An eineEreignispartition von Ω, d.h.

A1, . . . , An ∈ A,

n⋃

i=1

Ai = Ω, Ai ∩ Aj = ∅ fur i 6= j.

Dann gilt fur alle B ∈ A

P (B) =

n∑

i=1

P (B |Ai)P (Ai)

(wir lassen hierbei P (Ai) = 0 zu und setzen dann P (B |Ai)P (Ai) = 0).

(c) (Die Formel von Bayes) Es seien A1, . . . , An, B wie in (b) und es gelteP (B) > 0. Dann folgt

P (Ai|B) =P (B |Ai)P (Ai)

∑n

k=1 P (B |Ak)P (Ak).

Beweis: Verwende B =∑n

i=1 B ∩Ai und die Additivitat von P bei (b). Allesandere folgt unmittelbar aus den Definitionen.

Page 10: STOCHASTIK I - Blu7 · STOCHASTIK I Sommersemester 2006 Dieses Skript entha¨lt (in geringfu¨gigem Umfang) Material, das in der Vorlesung selbst nicht besprochen wurde; in ‘besonders

Bedingte Wahrscheinlichkeiten und Unabhangigkeit 9

Beispiel 1.10 Ein bestimmter medizinischer Test ist zu 95% effektiv beimErkennen einer bestimmten Krankheit, liefert allerdings bei 1% der gesundenPersonen einen ‘falschen Alarm’. Angenommen, 0.5% der Bevolkerung lei-den unter dieser Krankheit — mit welcher Wahrscheinlichkeit hat jemand dieKrankheit, wenn der Test dies behauptet? Wir schreiben A fur das Ereignis,dass die getestete Person die Krankheit hat, B fur das Ereignis, dass der Testdas Vorliegen der Krankheit anzeigt, und ubersetzen die obigen Annahmen in

P (A) = 0.005, P (B |A) = 0.95, P (B |Ac) = 0.01.

Mit der Bayes-Formel ergibt sich dann

P (A|B) =P (B |A)P (A)

P (B |A)P (A) + P (B |Ac)P (Ac)

=0.95 · 0.005

0.95 · 0.005 + 0.01 · 0.995≈ 0.323,

ein zumindest auf den ersten Blick uberraschend hoher Wert. Man beachte,dass der Ubersetzung von Prozentzahlen in Wahrscheinlichkeiten bestimmteAnnahmen uber die Auswahl der Testperson etc. zugrundeliegen.

Es ist hier moglicherweise hilfreich (in dem Sinne, dass dieses Resultat dannweniger paradox wirkt — die mathematische Herleitung bleibt von solchenVerstandnishilfen unberuhrt), wenn man mit einer hypothetischen Populationarbeitet: Besteht diese aus 100 000 Personen, so mussten aufgrund der obigenProzentzahlen 500 Personen krank, 99 500 gesund sein; unter den Krankenwurden 475 vom Test als krank deklariert, von den Gesunden 995. Wahlt mannun unter den insgesamt 475 + 995 Personen mit ‘positivem’ Testresultat einePerson zufallig aus, so erhalt man mit Wahrscheinlichkeit 475/(475 + 995) ≈0.323 eine kranke Person. ⊳

Beispiel 1.10 zeigt auch, dass es nicht immer notig bzw. sinnvoll ist, einenWahrscheinlichkeitsraum (Ω,A, P ) explizit anzugeben.

Einer der zentralen Begriffe der Stochastik ist der der (stochastischen) Unab-hangigkeit. Die mathematische Definition soll das intuitive Konzept wieder-geben: B wird von A nicht beeinflusst, wenn sich die Wahrscheinlichkeit vonB nicht durch die Information andert, dass A eingetreten ist. Dies fuhrt aufdie Forderung P (B |A) = P (B). Langweilige Fallunterscheidungen (ist P (A)grosser als 0?) werden vermieden durch

Definition 1.11 Zwei Ereignisse A und B heißen stochastisch unabhangig ,wenn P (A ∩ B) = P (A)P (B) gilt.

Bei mehr als zwei Ereignissen ist Vorsicht angesagt:

Page 11: STOCHASTIK I - Blu7 · STOCHASTIK I Sommersemester 2006 Dieses Skript entha¨lt (in geringfu¨gigem Umfang) Material, das in der Vorlesung selbst nicht besprochen wurde; in ‘besonders

10 1. Grundbegriffe

Definition 1.12 Eine Familie Ai : i ∈ I von Ereignissen heißt paarweise

unabhangig , wenn gilt:

P (Ai ∩ Aj) = P (Ai)P (Aj) fur alle i, j ∈ I mit i 6= j;

sie heißt unabhangig , wenn gilt:

P(

i∈H

Ai

)

=∏

i∈H

P (Ai) fur jede endliche Teilmenge H von I.

Beispiel 1.13 Wir betrachten das Laplace-Experiment uber

Ω = (0, 0), (0, 1), (1, 0), (1, 1)(

= 0, 12)

.

Schreibt man ‘0’ fur das Resultat ‘Kopf’ und ‘1’ fur Wappen, so ist diesesLaplace-Experiment beispielsweise ein Modell fur den zweimaligen Wurf einerfairen Munze. Es seien

A1 := (0, 0), (0, 1) (’Kopf’ im ersten Wurf),

A2 := (0, 0), (1, 0) (’Kopf’ im zweiten Wurf),

A3 := (0, 1), (1, 0) (Resultate verschieden).

Man sieht leicht (die Durchschnitte sind jeweils einelementig)

P (A1 ∩ A2) =1

4=

1

2·1

2= P (A1)P (A2),

und erhalt analog

P (A1 ∩ A3) = P (A1)P (A3), P (A2 ∩ A3) = P (A2)P (A3).

Die Familie A1, A2, A3 ist also paarweise unabhangig. Es gilt jedoch

P (A1 ∩ A2 ∩ A3) = P (∅) = 0 6= P (A1)P (A2)P (A3),

die Familie ist also nicht unabhangig. Moral: paarweise Unabhangigkeit impli-ziert nicht die (volle) Unabhangigkeit. ⊳

Beispiel 1.14 Eine typische Fragestellung der Angewandten Wahrscheinlich-keitsrechnung bezieht sich auf das Funktionieren von Netzwerken. Wir betrach-ten einen einfachen Fall, in dem ein System aus funf wie folgt angeordnetenKomponenten besteht:

Page 12: STOCHASTIK I - Blu7 · STOCHASTIK I Sommersemester 2006 Dieses Skript entha¨lt (in geringfu¨gigem Umfang) Material, das in der Vorlesung selbst nicht besprochen wurde; in ‘besonders

Bedingte Wahrscheinlichkeiten und Unabhangigkeit 11

L R

1

2

3

4 5

.....

.....

..............................

...........................................................................................................................................

.....

.....

...............................

..........................................................................................................................................

.....

.....

..............................

...........................................................................................................................................

.....

.....

...............................

..........................................................................................................................................

.....

.....

...............................

..........................................................................................................................................

...........................................................................................................................................................................................

.......................................................................................................................................................

..................................................................................................................................................................................................

...................................................................................................................

.............................................................................................................................................................

...............................................................................

...............................................................................

........................................................................

........................................................................

......................................................................................................................................................

...............................................................................................................................................

....................................

Wir nehmen an, dass die Komponenten unabhangig voneinander und zwar je-weils mit Wahrscheinlichkeit p funktionieren. Das Gesamtsystem funktioniert,wenn es einen Pfad funktionierender Komponenten vom Eingang zum Ausganggibt. Mit welcher Wahrscheinlichkeit funktioniert das Gesamtsystem?

Es sei Ai das Ereignis, dass Komponente i funktioniert, B das interessierendeEreignis. Dann gilt B = B1 ∪ B2 mit

B1 := A4 ∩ A5 (unterer Pfad passierbar)

B2 := A1 ∩ (A2 ∪ A3) (oberer Pfad passierbar).

Mit Hilfe der Unabhangigkeit und der Formel P (A ∪ B) = P (A) + P (B) −P (A ∩ B) aus Satz 1.6 erhalten wir

P (B1) = P (A4)P (A5) = p2,

P (B2) = P ((A1 ∩ A2) ∪ (A1 ∩ A3))

= P (A1 ∩ A2) + P (A1 ∩ A3) − P (A1 ∩ A2 ∩ A3)

= 2p2 − p3,

P (B1 ∩ B2) = P (A4 ∩ A5 ∩ A1 ∩ A2) + P (A4 ∩ A5 ∩ A1 ∩ A3)

− P (A4 ∩ A5 ∩ A1 ∩ A2 ∩ A3)

= 2p4 − p5

(man konnte auch ‘B1, B2 unabhangig’ verwenden — allerdings erfordert dieseine abstrakte Zusatzuberlegung), also insgesamt

P (B) = P (B1) + P (B2) − P (B1 ∩ B2)

= p2 + 2p2 − p3 − (2p4 − p5)

= p2(3 − p − 2p2 + p3).

Man beachte, dass paarweise Unabhangigkeit hier nicht gereicht hatte. ⊳

Page 13: STOCHASTIK I - Blu7 · STOCHASTIK I Sommersemester 2006 Dieses Skript entha¨lt (in geringfu¨gigem Umfang) Material, das in der Vorlesung selbst nicht besprochen wurde; in ‘besonders

12 1. Grundbegriffe

Beispiel 1.15⋆ (‘Simpson’s paradox’) Das Rechnen mit bedingten Wahrschein-lichkeiten kann gelegentlich in als paradox empfundenen Situationen eine ein-fache Losung oder Erklarung liefern; siehe auch das in den Ubungen bespro-chene ‘Ziegenproblem’. Ein klassisches Beispiel fur das, worum es uns hiergeht, liefern die Zulassungszahlen einer amerikanischen Universitat aus demJahr 1973: Von 1576 mannlichen Bewerbern wurden etwa 58% angenommen,von 526 weiblichen Bewerbern nur etwa 46% (aus Zeitgrunden betrachten wirnur einen Teil der Daten). Dies wurde damals als Beleg fur die Diskriminierungvon Frauen angesehen. Die Aufschusselung nach Fachern sah wie folgt aus:

Manner Frauen

Fach # Bewerber zugelassen # Bewerber zugelassen

1 825 511 (62%) 108 82 (89%)2 560 352 (63%) 25 17 (68%)3 191 53 (28%) 393 134 (34%)

Summe 1576 916 (58%) 526 240 (46%)

Berucksichtigt man also den Faktor ‘Fach’, so ergibt sich ein ganz anderesBild — offensichtlich bewerben sich Frauen eher in Fachern mit einer hoherenAblehnungsquote.

Was hat dies mit bedingten Wahrscheinlichkeiten zu tun? Wie im Beispiel 1.10werden Haufigkeiten und Wahrscheinlichkeiten dadurch in Zusammenhang ge-bracht, dass man die zufallige Auswahl einer Person aus der Grundpopulationder 1576 + 526 Bewerber, also ein Laplace-Experiment uber 1, 2, . . . , 2102betrachtet. Es seien

Sk : die ausgewahlte Person hat sich fur Studiengang k beworben,

Z : die ausgewahlte Person wird zugelassen,

F, M : die ausgewahlte Person ist eine Frau bzw. ein Mann.

Es gilt dann beispielsweise P (S1 |M) = 8251576

. Die oben eingefuhrten Rechenre-geln liefern

P (Z |F ) =

3∑

k=1

P (Z |F ∩ Sk)P (Sk |F ),

P (Z |M) =

3∑

k=1

P (Z |M ∩ Sk)P (Sk |M).

Man landet also bei dem (ziemlich trivialen) Sachverhalt, dass durchaus

P (Z |F ∩ Sk) > P (Z |M ∩ Sk) fur k = 1, 2, 3

und trotzdem P (Z |F ) < P (Z |M) gelten kann, da ja die Gewichte verschiedensein konnen. ⊳

Page 14: STOCHASTIK I - Blu7 · STOCHASTIK I Sommersemester 2006 Dieses Skript entha¨lt (in geringfu¨gigem Umfang) Material, das in der Vorlesung selbst nicht besprochen wurde; in ‘besonders

2. Laplace-Experimente

Bei Laplace-Experimenten (siehe Beispiel 1.5(a)) haben alle Ergebnisse (korrektware: Elementarereignisse) dieselbe Wahrscheinlichkeit. Zufallsexperimentedieser Art tauchen auf:

– beim Werfen eines symmetrischen Gegenstands (Munze, Wurfel, etc.). ‘Sym-metrisch’ heißt dabei, dass alle Seiten mit derselben Wahrscheinlichkeit obenlanden.

– beim Mischen von Karten oder allgemeiner beim Herstellen einer zufalligenReihenfolge. ‘Gut gemischt’ bzw. ‘zufallige Reihenfolge’ heißt dabei, dassalle moglichen Anordnungen dieselbe Wahrscheinlichkeit haben.

– beim Entnehmen einer zufalligen Stichprobe aus einer Grundgesamtheit.Zufallige Entnahme einer Stichprobe vom Umfang k aus einer Grundgesamt-heit M von n Gegenstanden/Personen o.a. heißt dabei, dass alle Teilmengenvom Umfang k von M mit derselben Wahrscheinlichkeit gezogen werden.

Die Formel ‘Anzahl der gunstigen, geteilt durch Anzahl der moglichen’ Er-gebnisse fur Wahrscheinlichkeiten in Laplace-Experimenten bedeutet, dass dasBestimmen von Wahrscheinlichkeiten in Laplace-Experimenten letztlich auf dasZahlen hinauslauft, wir beschaftigen uns also zunachst mit der ‘Kunst desZahlens’. Danach betrachten wir einige konkrete Beispiele und wenden unsschließlich der Frage zu, was ‘gleich wahrscheinlich’ bei nicht mehr endlichemErgenisraum bedeuten konnte.

2.1 Etwas Kombinatorik. Es sei wieder #A der Elemente einer Menge A.In diesem Absatz besprechen wir einige wichtige Formeln fur #A bei bestimm-ten ‘Standardmengen’ A. Wir schreiben A × B =

(a, b) : a ∈ A, b ∈ B

furdas kartesische Produkt der Mengen A und B und haben einen zugehorigenPotenzbegriff:

Ak = A × . . . × A︸ ︷︷ ︸

k-mal

=

(x1, . . . , xk) : xi ∈ A fur i = 1, . . . , k

.

Unser Ausgangspunkt sind die beiden folgenden elementaren Grundregeln:

Regel 1: Gibt es eine bijektive Abbildung von A nach B,so gilt #A = #B.

Regel 2: Sind A und B disjunkt, so gilt #(A ∪ B) = #A + #B.

Hat beispielsweise C ⊂ A × B die Eigenschaft

#Bx = n fur alle x ∈ A mit Bx := y ∈ B : (x, y) ∈ C,

Page 15: STOCHASTIK I - Blu7 · STOCHASTIK I Sommersemester 2006 Dieses Skript entha¨lt (in geringfu¨gigem Umfang) Material, das in der Vorlesung selbst nicht besprochen wurde; in ‘besonders

14 2. Laplace-Experimente

so gilt #C = n #A. Um dies einzusehen, schreibt man die Menge der Paareals disjunkte Vereinigung der Mengen x × Bx, x ∈ A, verwendet bei deneinzelnen Mengen Regel 1 (mit y 7→ (x, y)) und anschließend die auf von zweiauf endlich viele Mengen verallgemeinerte Variante von Regel 2. Als Spezialfall(Bx hangt nicht von x ab) erhalt man die Formel #(A × B) = #A · #B.

Wir schreiben abkurzend Mn fur 1, . . . , n (im Folgenden kann anstelle vonMn eine beliebige Menge mit n Elementen stehen). Die obigen Regeln liefern,zusammen mit der anschließenden Diskussion, das folgende Resultat.

Satz 2.1

#Mkn = #

(i1, . . . , ik) : 1 ≤ ij ≤ n fur j = 1, . . . , k

= nk.

Die Elemente von Mkn werden gelegentlich k-Permutationen von Mn mit Wie-

derholung genannt. Wir geben zwei typische Anwendungen, bei der Mengendieses Typs auftauchen:

(i) Einer Menge von n Elementen kann man nk Stichproben vom Umfang k mitZurucklegen bei Berucksichtigung der Reihenfolge des Ziehens entnehmen. DasElement (i1, . . . , ik) von Mk

n steht dabei fur die Stichprobe, bei der im l-tenZug das Element il erscheint, fur l = 1, . . . , k.

(ii) Es gibt nk Moglichkeiten, k verschiedene Objekte auf n mogliche Platzezu verteilen, wieder bei Berucksichtigung der Reihenfolge und mit moglicherMehrfachbelegung. Hierbei steht (i1, . . . , ik) ∈ Mk

n fur die Austeilung, bei derim l-ten Schritt das Objekt mit der Nummer l auf den Platz mit der Nummeril gelegt wurde, wieder fur l = 1, . . . , k.

Ein recht formaler und moglicherweise weniger anschaulicher Zugang verwendetdie Bezeichnung BA fur die Menge der Funktionen f : A → B und fuhrt auf

#(

BA)

= (#B)#A fur endliche Mengen A, B.

Mit A = a1, . . . , ak und B = b1, . . . , bn steht dann das k-Tupel (i1, . . . , ik)aus Mk

n fur die Funktion f ∈ BA mit f(al) = bilfur l = 1, . . . , k.

Was passiert, wenn wir nur injektive Funktionen zulassen?

Satz 2.2 Fur 1 ≤ k ≤ n gilt

#

(i1, . . . , ik) ∈ Mkn : il 6= ij fur l 6= j

=n!

(n − k)!.

Beweis: Es gibt n Moglichkeiten fur i1, bei gegebenem i1 bleiben n − 1Moglichkeiten fur i2, bei gegebenem (i1, i2) bleiben n − 2 Moglichkeiten furi3 etc., die gesuchte Anzahl ist also gemaß der oben skizzierten Anwendung derElementarregeln gleich n(n − 1)(n − 2) · . . . · (n − k + 1).

Page 16: STOCHASTIK I - Blu7 · STOCHASTIK I Sommersemester 2006 Dieses Skript entha¨lt (in geringfu¨gigem Umfang) Material, das in der Vorlesung selbst nicht besprochen wurde; in ‘besonders

Etwas Kombinatorik 15

Als wichtigen Spezialfall dieses Satzes erhalt man bei k = n, dass es genau n!Permutationen einer Menge mit n Elementen gibt. Die Elemente der Menge ausSatz 2.2 werden auch k-Permutationen von Mn ohne Wiederholung genannt.Wir haben wieder zwei hauptsachliche Interpretationen:

(i) Einer Menge von n Elementen kann man n!(n−k)!

verschiedene Stichproben

vom Umfang k ohne Zurucklegen bei Berucksichtigung der Reihenfolge entneh-men.

(ii) Es gibt n!(n−k)!

verschiedene Moglichkeiten, k Objekte auf n Platze so zu

verteilen, dass keine Mehrfachbesetzungen vorkommen.

Satz 2.3 Fur 1 ≤ k ≤ n gilt

#

(i1, . . . , ik) ∈ Mkn : i1 < i2 < . . . < ik

=

(

n

k

)

.

Beweis: Zu jedem Element dieser Menge gehoren genau k! Elemente derMenge aus Satz 2.2, namlich alle die k-Tupel, die durch Permutation der Koor-dinaten aus dem geordneten Tupel hervorgehen.

Man nennt die Elemente der Menge aus Satz 2.3 auch k-Kombinationen von

Mn ohne Wiederholung . Als wichtigen Spezialfall erhalten wir die Aussage,dass eine Menge mit n Elementen

(

n

k

)

Teilmengen vom Umfang k hat — waswiederum zusammen mit der bekannten Formel fur die Machtigkeit der Potenz-menge einer Menge einen Beweis fur

∑n

k=0

(

n

k

)

= 2n liefert. (Wir sehen, dass

man Identitaten fur Binomialkoeffizienten mit kombinatorischen Uberlegungenbeweisen kann.)

Wie in den vorangegangenen Fallen haben wir auch hier zwei Standardanwen-dungen:

(i) Es gibt(

nk

)

Moglichkeiten, aus n verschiedenen Objekten k verschiedeneherauszugreifen (Stichproben ohne Zurucklegen und ohne Berucksichtigung derReihenfolge des Ziehens).

(ii) Es gibt(

n

k

)

verschiedene Moglichkeiten, k Objekte ohne Mehrfachbesetzungauf n Platze zu verteilen, wenn die Verteilungsreihenfolge nicht berucksichtigtwird.

Satz 2.4 Fur alle k ∈ N gilt

#

(i1, . . . , ik) ∈ Mkn : i1 ≤ i2 ≤ . . . ≤ ik

=

(

n + k − 1

k

)

.

Page 17: STOCHASTIK I - Blu7 · STOCHASTIK I Sommersemester 2006 Dieses Skript entha¨lt (in geringfu¨gigem Umfang) Material, das in der Vorlesung selbst nicht besprochen wurde; in ‘besonders

16 2. Laplace-Experimente

Beweis: Wir definieren eine bijektive Abbildung φ von

(i1, . . . , ik) ∈ Mkn : i1 ≤ . . . ≤ ik

nach

(i1, . . . , ik) ∈ Mkn+k−1 : i1 < . . . < ik

durchφ(

(i1, . . . , ik))

= (i1, i2 + 1, i3 + 2, . . . , ik + k − 1)

und verwenden Regel 1 und Satz 2.3.

Auch fur die Elemente der Menge aus Satz 2.4 gibt es einen Namen, k-Kombi-

nationen von Mn mit Wiederholung , sowie zwei klassische Interpretationen:

(i) Einer Menge von n Elementen kann man(

n+k−1

k

)

verschiedene Stichprobenvom Umfang k entnehmen, wenn zuruckgelegt wird und die Ziehungsreihenfolgeunbeachtet bleibt.

(ii) Es gibt(

n+k−1

k

)

Moglichkeiten, k Objekte mit moglicher Mehrfachbesetzungauf n Platze zu verteilen, wenn die Verteilungsreihenfolge nicht berucksichtigtwird.

Aus der zweiten Interpretation ergibt sich als Anwendung, dass man einenaturliche Zahl k auf

(

n+k−1

k

)

Weisen als Summe von n nicht-negativen ganzenZahlen schreiben kann:

#

(i1, . . . , in) ∈ Nn0 : i1 + . . . + in = k

=

(

n + k − 1

k

)

.

Hierbei ist il die Anzahl der Objekte auf Platz l, ein leeres Fach beispielsweiseentspricht einem Summanden 0.

Gibt es auch bei Kombinationen eine formale Definition uber Funktionen? Beiden Permutationen sieht man den Zusammenhang zu Funktionen, wenn man(i1, . . . , ik) als Tabelle auffasst: Mit A = a1, . . . , ak und B = b1, . . . , bnsteht diese dann fur die Funktion f : A → B mit f(al) = bil

, 1 ≤ l ≤ k. Beiden Kombinationen haben wir nur isotone Tupel zugelassen. Definiert mannun eine Aquivalenzrelation ‘∼’ auf BA durch

f ∼ g :⇐⇒ ∃π : A → A, π bijektiv, f = g π,

so entsprechen die Kombinationen mit Wiederholung den Aquivalenzklassenin BA, die ohne Wiederholung den Aquivalenzklassen im Teilraum der injek-tiven Funktionen. Dies folgt aus zwei einfachen Uberlegungen: Zum einen istInjektivitat in dem Sinn mit ‘∼’ vertraglich, dass entweder alle Elemente ei-ner Aquivalenzklasse injektiv sind oder keines, zum anderen gibt es bei einer

Page 18: STOCHASTIK I - Blu7 · STOCHASTIK I Sommersemester 2006 Dieses Skript entha¨lt (in geringfu¨gigem Umfang) Material, das in der Vorlesung selbst nicht besprochen wurde; in ‘besonders

Einige typische Probleme 17

festgelegten Numerierung der Elemente von A und B stets einen kanonischenVertreter, namlich das isotone Element. Satz 2.3 und Satz 2.4 konnen also auchwie folgt geschrieben werden:

#(

f ∈ BA : f injektiv/ ∼)

=

(

#B

#A

)

, #(

BA/ ∼) =

(

#B + #A − 1

#A

)

.

Wir fassen die Formeln aus den Satzen 2.1-2.4 in der folgenden Tabelle zusam-men:

Wiederholungen:

mit ohne

Permutationen nk n!

(n − k)!

Kombinationen

(

n + k − 1

k

) (

n

k

)

2.2 Einige typische Probleme.

2.2.1 (Das Geburtstagsproblem) In einem Raum befinden sich n Personen. Mitwelcher Wahrscheinlichkeit haben mindestens zwei dieser Personen am gleichenTag Geburtstag? Wir machen einige vereinfachende Annahmen: Der 29. Fe-bruar wird vernachlassigt, ebenso die Moglichkeit von Zwillingen etc., auchsaisonale Schwankungen der Geburtenrate werden nicht berucksichtigt. Dannist ein Laplace-Experiment uber

Ω :=

(i1, . . . , in) : 1 ≤ i1, . . . , in ≤ 365

= 1, . . . , 365n

plausibel, wobei ij = k bedeutet, dass Person j am k-ten Tag des JahresGeburtstag hat. Es geht um

A :=

(i1, . . . , in) ∈ Ω : il = ij fur ein Paar (l, j) mit l 6= j

.

Man hatAc =

(i1, . . . , in) ∈ Ω : il 6= ij fur l 6= j

und erhalt mit den Formeln aus Abschnitt 2.2

P (A) = 1 −#Ac

#Ω= 1 −

365!

365n(365 − n)!.

Dies ist eine (in n) steigende Folge, denn beim Ubergang von n zu n + 1 wirdim Nenner ein Faktor (365− n) durch 365 ersetzt. Ab n = 23 gilt P (A) ≥ 0.5,bei n = 50 hat man bereits P (A) ≈ 0.97.

Page 19: STOCHASTIK I - Blu7 · STOCHASTIK I Sommersemester 2006 Dieses Skript entha¨lt (in geringfu¨gigem Umfang) Material, das in der Vorlesung selbst nicht besprochen wurde; in ‘besonders

18 2. Laplace-Experimente

2.2.2 (Ein Bridge-Problem) Beim Kartenspiel Bridge werden 52 Karten an dievier Spieler (Nord, Sud, Ost und West) verteilt. Wir wollen die Wahrschein-lichkeit der Ereignisse

A : einer der Spieler erhalt alle vier Asse,

B : jeder der Spieler erhalt ein As

bestimmen. Das Mischen der Karten liefert eine zufallige Reihenfolge,

Ω′ =

(ω1, . . . , ω52) ∈ 1, . . . , 5252 : ωi 6= ωj fur i 6= j

,

Ω′ ist also die Menge der Permutationen von 1, . . . , 52. Hierbei werden dieKarten mit 1, . . . , 52 durchnumeriert; ωk = j bedeutet, dass die k-te Karteim Stapel die Nummer j hat. Alle Elementarereignisse haben dieselbe Wahr-scheinlichkeit 1

52!(wir konnen diese Annahme als Definition von ‘Karten gut

gemischt’ betrachten). Die Ereignisse A und B hangen nicht von der Reihen-folge ab, mit der die Karten bei den Spielern ankommen; man kann also auchmit

Ω :=

(D1,D2, D3, D4) : Di ⊂ 1, . . . , 52,

#Di = 13 fur i = 1, . . . , 4, Di ∩ Dj = ∅ fur i 6= j

arbeiten. Hierbei ist Di die Menge der Karten fur Spieler i. Die Austeilrei-henfolge definiert eine Abbildung von Ω′ in Ω, die jeweils (13!)4 verschiedeneElemente von Ω′ auf genau ein Element von Ω abbildet (alle 13! Permutationender an Spieler 1 ausgegebenen Karten liefern dieselbe Menge D1 etc.). Betrach-ten wir also als Resultat des Zufallsexperiments das Vierer-Tupel der ‘Hande’,so liegt noch stets ein Laplace-Experiment vor, denn es werden jeweils gleichviele Elemente von Ω′ zu einem Element von Ω zusammengefasst. Hierausergibt sich auch

#Ω =#Ω′

(13!)4=

52!

13!13!13!13!.

Man kann dies auch wie folgt einsehen: D1 ist eine Teilmenge vom Umfang 13von einer Menge mit 52 Elementen, es gibt also

(

52

13

)

Moglichkeiten fur D1. D2

ist eine Teilmenge vom Umfang 13 der Menge 1, . . . , 52 − D1, die 52-13=39Elemente hat. Ist also D1 festgelegt, so bleiben

(

39

13

)

Moglichkeiten fur D2. Fur

D3 bleiben(

26

13

)

Moglichkeiten und der vierte Spieler erhalt automatisch dieubrigen Karten: Anwendung der Regeln aus Abschnitt 2.2 fuhrt also auf

#Ω =

(

52

13

)

·

(

39

13

)

·

(

26

13

)

· 1 =52!

13!13!13!13!.

Es sei nun Ai das Ereignis, dass Spieler i alle vier Asse erhalt (wir konnenannehmen, dass diese mit 1, . . . , 4 durchnumeriert sind). Dann gilt

A1 =

(D1, D2, D3, D4) ∈ Ω : D1 ⊃ 1, 2, 3, 4

.

Page 20: STOCHASTIK I - Blu7 · STOCHASTIK I Sommersemester 2006 Dieses Skript entha¨lt (in geringfu¨gigem Umfang) Material, das in der Vorlesung selbst nicht besprochen wurde; in ‘besonders

Einige typische Probleme 19

Fur D1 ∩ 1, . . . , 4c bleiben(

48

9

)

Moglichkeiten (9 Karten aus der Menge der‘Nicht-Asse’). Die Anzahl der Moglichkeiten fur D2, D3 und D4 bleibt un-verandert, also gilt

P (A1) =1

(

48

9

)(

39

13

)(

26

13

)

=13 · 12 · 11 · 10

52 · 51 · 50 · 49.

Dieselben Argumente funktionieren bei A2, A3, A4 und fuhren auf dasselbe Er-gebnis. Offensichtlich sind A1, . . . , A4 disjunkt und haben Vereinigung A, alsoergibt sich

P (A) = P (A1) + . . . + P (A4) = 4P (A1) ≈ 0.01056,

in ungefahr einem von 100 Spielen wird ein Spieler alle Asse erhalten.

Bei der Behandlung von B kann man ganz analog verfahren. Wir kurzen dieArgumentation wie folgt ab: Es gibt 4! Moglichkeiten, die vier Asse so an dievier Spieler zu verteilen, dass jeder genau ein As erhalt (4 Moglichkeiten furdas Kreuz-As, 3 fur das Pik-As etc.). Sind die Asse verteilt, so bleiben

(

48

12

)(

36

12

)(

24

12

)

=48!

12!12!12!12!

Moglichkeiten fur die ubrigen Karten. Dies ergibt

P (B) =#B

#Ω=

4! 134

52 · 51 · 50 · 49≈ 0.1055,

in ungefahr einem von 10 Spielen sind also die Asse gleichmassig verteilt.

2.2.3 (Der zerstreute Postbote) Ein Postbote verteilt n Briefe zufallig auf nBriefkasten, einen pro Kasten. Wir nehmen an, dass zu jeder der n Adressengenau einer der n Briefe gehort. Mit welcher Wahrscheinlichkeit erhalt keinePerson den fur sie bestimmten Brief?

Wir numerieren Briefe und Briefkasten so, dass Brief i in Kasten i gehort,1 ≤ i ≤ n. Die moglichen Austeilungen entsprechen dann den Permutationenvon 1, . . . , n. ‘Zufallig’ soll heißen, dass ein Laplace-Experiment uber

Ωn :=

(ω1, . . . , ωn) : ωi ∈ 1, . . . , n, ωi 6= ωj fur i 6= j

vorliegt. Sei zunachst

An := ω ∈ Ωn : ωi 6= i fur alle i = 1, . . . , n

Page 21: STOCHASTIK I - Blu7 · STOCHASTIK I Sommersemester 2006 Dieses Skript entha¨lt (in geringfu¨gigem Umfang) Material, das in der Vorlesung selbst nicht besprochen wurde; in ‘besonders

20 2. Laplace-Experimente

die Menge der fixpunktfreien Permuationen sowie

Bn,i := ω ∈ Ωn : ωi = i, 1 ≤ i ≤ n.

Offensichtlich gilt Acn =

⋃n

i=1 Bni, also folgt mit der Siebformel (Satz 1.6 (g))

Pn(An) = 1 − P(

n⋃

i=1

Bni

)

= 1 −∑

H⊂1,···,n, H 6=∅

(−1)#H−1 Pn

(

i∈H

Bni

)

.

Wir haben⋂

i∈H

Bni = ω ∈ Ωn : ωi = i fur alle i ∈ H .

Fur ein ω aus diesem Durchschnitt sind #H Positionen festgelegt. Die ubrigenn − #H Positionen konnen beliebig permutiert werden, also gilt

#⋂

i∈H

Bni = (n − #H)! .

Schliesslich ist die Anzahl aller H mit k Elementen gleich(

n

k

)

, also erhalten wirinsgesamt

Pn(An) = 1 −∑

H⊂1,...,n, H 6=∅

(−1)#H−1(n − #H)!

n!

= 1 −n

k=1

(

n

k

)

(−1)k−1 (n − k)!

n!

=

n∑

k=0

(−1)k

k!.

Aus der Analysis ist∑∞

k=0 xk/k! = ex bekannt. Fur große n ist also die Wahr-scheinlichkeit dafur, dass kein Brief beim richtigen Empfanger landet, ungefahre−1 ≈ 0.3679. Wir haben hier ein erstes Grenzwertresultat. Da es im vorlie-genden Fall um eine alternierende Reihe geht, konnen wir daruberhinaus sogareine Fehlerabschatzung angeben:

∣Pn(An) − e−1∣

∣ ≤1

(n + 1)!.

Gleichzeitig haben wir eine Aussage bewiesen, die nicht auf Wahrscheinlichkei-ten Bezug nimmt: Die Anzahl der fixpunktfreien Permutationen einer Mengevon n Elementen ist n!

∑n

k=0(−1)k/k!.

Page 22: STOCHASTIK I - Blu7 · STOCHASTIK I Sommersemester 2006 Dieses Skript entha¨lt (in geringfu¨gigem Umfang) Material, das in der Vorlesung selbst nicht besprochen wurde; in ‘besonders

Unendliche Ergebnisraume 21

2.3 Unendliche Ergebnisraume. Kann man auch bei unendlichem Er-gebnisraum von gleich wahrscheinlichen Resultaten sprechen? Bei abzahlbarunendlichem Ω wie beispielsweise Ω = N erhalt man, wenn P (n) = δ fur allen ∈ N gilt mit einem festen δ > 0,

P(

1, 2, . . . ,⌈2

δ

⌉)

= δ⌈2

δ

≥ 2,

was naturlich nicht sein darf (man beachte, dass wir bei diesem Argument nurdie endliche Additivitat verwendet haben). Im verbleibenden Fall, also beiP (n) = 0 fur alle n ∈ N, hatte man

P (N) =

∞∑

n=1

P (n) = 0,

was ebenfalls nicht sein darf (bei diesem Argument haben wir die σ-Additivitatverwendet). Es gibt in unserem axiomatischen Rahmen also kein Modell fureine zufallige naturliche Zahl, bei dem alle Elementarereignisse n, n ∈ N,dieselbe Wahrscheinlichkeit haben.

Wir betrachten nun die Situation bei uberabzahlbarem Ergebnisraum.

2.3.1 (Der rotierende Zeiger) Halt man eine Uhr mit einem Sekundenzeigerzu einem ‘zufalligen Zeitpunkt’ an und betrachtet den Winkel ω ∈ [0, 2π) desSekundenzeigers mit der 12 Uhr-Richtung, so wurde man von einem Laplace-Experiment uber Ω60 = 2πk/60 : k = 0, 1, . . . , 59 ausgehen. Bei einerstets feiner werdenden Zerlegung (oder einem geeigneten Mechanismus mitkontinuierlicher Bewegung) liegt, zumindest als Idealisierung, ein ‘Laplace-Experiment’ uber Ω = [0, 1) nahe, mit

P(

[a, b))

=b − a

2πfur 0 ≤ a < b < 2π.

Bei diesem Modell erhalt man mit der Stetigkeit von oben von Wahrscheinlich-keitsmaßen (Satz 1.7 (c))

P (a) = limn→∞

P([

a, a +1

n

))

= 0,

alle Elementarerereignisse haben also dann die Wahrscheinlichkeit 0. Im Ge-gensatz zur Situation im abzahlbaren Fall folgt hieraus nicht P (Ω) = 0, dazubrauchte man schon eine Art ‘Hyperadditivitat’.

Page 23: STOCHASTIK I - Blu7 · STOCHASTIK I Sommersemester 2006 Dieses Skript entha¨lt (in geringfu¨gigem Umfang) Material, das in der Vorlesung selbst nicht besprochen wurde; in ‘besonders

22 2. Laplace-Experimente

2.3.2 (Die Nadel von Buffon) Eine große Flache wird mit parallelen Linienim Abstand D bedeckt. Eine Nadel der Lange L wird ‘in zufalliger Weise’ aufdiese Flache geworfen. Mit welcher Wahrscheinlichkeit schneidet die Nadel einedieser Linien? Wir setzen einfachheitshalber L ≤ D voraus. Das Wurfergebniskann durch ein Paar (x, θ) beschrieben werden, wobei x den Abstand des Na-delzentrums zur nachsten Linie und θ den Winkel zwischen Nadel- und Linien-richtung angibt. Entscheidend ist nun eine Invarianzuberlegung: Drehungenund Verschiebungen sollten keine Rolle spielen, also sollten alle Elemente von

Ω :=

(x, θ) : 0 ≤ x ≤ D/2, 0 ≤ θ < π

‘dieselbe Wahrscheinlichkeit’ haben. Schaut man sich die Formel an, auf diediese Forderung bei endlichem Ergebnisraum fuhrt, so liegt es nahe,

P (A) =Flache von A

Flache von Ω

zu forden.

Bei gegebenem θ schneidet die Nadel genau dann eine der Linien, wenn x ≤L sin(θ)/2 gilt, das interessierende Ereignis wird also beschrieben durch

A =

(x, θ) ∈ Ω : x ≤L

2sin(θ)

und man erhalt

P (A) =(πD

2

)−1∫ π

0

L

2sin(θ) dθ =

2L

πD.

Schatzt man P (A) durch die beobachtete relative Haufigkeit der Linienuber-querungen beim Wurf einer großen Anzahl von Nadeln, so lasst sich auf dieseWeise ein (zufalliger) Naherungswert fur π bestimmen. Diese Beobachtunghat allerdings bestenfalls didaktischen Wert als Einstieg in die Monte-Carlo-Methode, da selbst die aus der Numerik als praktisch unbrauchbar bekannteLeibniz-Reihe bessere Resultate liefert.

2.3.3 (Das Paradox von Bertrand) Mit welcher Wahrscheinlichkeit ist die voneiner zufalligen Geraden im Einheitskreis gebildete Sekante langer als

√3, die

Seite eines einbeschriebenen gleichseitigen Dreiecks?

Methode 1 : Man wahlt einen Punkt zufallig und gleichverteilt aus dem Innerendes Kreises und betrachtet die Sehne, die diesen Punkt als Mittelpunkt hat.

In dieser Situation ist die Sekante genau dann langer als die Seite des einbe-schriebenen Dreiecks, wenn der Punkt im Inneren des Inkreises des Dreiecksliegt. Dieser hat Radius 1/2, man erhalt also die Antwort 1/4.

Page 24: STOCHASTIK I - Blu7 · STOCHASTIK I Sommersemester 2006 Dieses Skript entha¨lt (in geringfu¨gigem Umfang) Material, das in der Vorlesung selbst nicht besprochen wurde; in ‘besonders

Unendliche Ergebnisraume 23

Methode 2 : Man wahlt zwei Punkte unabhangig voneinander zufallig undgleichverteilt auf dem Rand des Kreises und verbindet diese.

Betrachtet man den als ersten gewahlten Punkt als Eckpunkt eines einbe-schriebenen gleichseitigen Dreiecks, so ist das interessierende Ereignis aquiva-lent dazu, dass der zweite Punkt ‘im Schatten’ der gegenuberliegenden Seitelandet. Dies fuhrt auf die Antwort 1/3.

Methode 3 : Man wahlt einen zufalligen Kreisdurchmesser, dann, unabhangigvon der ersten Wahl, auf diesem einen zufalligen Punkt (in beiden Fallen gleich-verteilt auf dem moglichen Intervall) und betrachtet die Sehne, die diesen Punktals Mittelpunkt hat.

Die Sekante, die man als Senkrechte zu dem gewahlten Durchmesser im Punktx erhalt, ist genau dann langer als

√3, wenn x ∈ (−1/2, 1/2) gilt. Diese

Argumentation fuhrt auf die Antwort 1/2.

Welches die richtige Antwort ist, hangt davon ab, wie das Zufallsexperimentausgefuhrt wird; Invarianzuberlegungen fuhren auf die Antwort 1/2. Man sieht,dass man bei uberabzahlbarem Ergebnisraum mit dem Konzept ‘gleich wahr-scheinlich’ vorsichtig umgehen muss.

2.3.4 (You can’t always get what you want) In den obigen Beispielen mituberabzahlbarem Ergebnisraum haben wir uns nicht um den konkreten Defi-nitionsbereich der Wahrscheinlichkeitsmaße gekummert — aus gutem Grund,wie wir jetzt sehen werden. Bereits im allereinfachsten Beispiel des rotierendenZeigers aus Absatz 2.3.1 benotigen wir eine Gleichverteilung auf [0, 1), alsoeinen Wahrscheinlichkeitsraum (Ω,A, P ) mit Ω = [0, 1) und

P (x + A) = P (A) fur alle x ∈ [0, 1), A ∈ A, (⋆)

wobei die Addition modulo 1 zu verstehen ist und x + A := x + y : y ∈ A.

Satz 2.5 Ein Wahrscheinlichkeitsmaß auf P([0, 1)) mit der Eigenschaft (⋆)existiert nicht.

Beweis (unter Verwendung des Auswahlaxioms): Auf [0, 1) wird durch

x ∼ y :⇐⇒ x − y ∈ Q

eine Aquivalenzrelation definiert. Das Auswahlaxiom erlaubt es, aus jeder derzugehorigen Aquivalenzklassen ein Element auszuwahlen; sei A die so erhal-tene Menge. Da die Aquivalenzklassen disjunkt sind, enthalt A von jederAquivalenzklasse genau ein Element. Wir behaupten nun:

Page 25: STOCHASTIK I - Blu7 · STOCHASTIK I Sommersemester 2006 Dieses Skript entha¨lt (in geringfu¨gigem Umfang) Material, das in der Vorlesung selbst nicht besprochen wurde; in ‘besonders

24 2. Laplace-Experimente

(i) (A + x) ∩ (A + y) = ∅ fur alle x, y ∈ Q ∩ [0, 1), x 6= y,

(ii)⋃

x∈Q∩[0,1)(x + A) = [0, 1).

Zu (i): Angenommen, man hat a + x = b + y mit x, y ∈ Q ∩ [0, 1), x < y, unda, b ∈ A. Dies fuhrt auf a 6= b, wegen a − b ∈ Q wurde A also im Widerspruchzur Konstruktion zwei Elemente aus einer Aquivalenzklasse enthalten.

Zu (ii): Die Richtung ‘⊂’ ist klar, da die Addition modulo 1 geschieht. Istandererseits z ∈ [0, 1), dann existiert ein a ∈ A mit a ∼ z, d.h. x := a − z ∈ Q

(mit dem ‘ublichen’ Minus). Ersetzt man ggf. x durch x +1, so erhalt man diegewunschte Darstellung von z.

Ist nun P ein Wahrscheinlichkeitsmaß auf P([0, 1)) mit der Eigenschaft (⋆),so muss P auch der Menge A einen Wert zuordnen. Mit (⋆), (ii) und derσ-Additivitat von P (deren Anwendbarkeit (i) benotigt) wurde dann

x∈Q∩[0,1)

P (A) = 1

folgen — dies ist unmoglich.

Die Potenzmenge ist also zu groß, wir werden uns mit einer kleineren σ-Al-gebra zufrieden geben mussen. Wir werden dies im ubernachsten Abschnittweiterverfolgen, betrachten aber im folgenden Abschnitt zunachst wieder Wahr-scheinlichkeitsraume mit endlichem oder abzahlbar unendlichem Ergebnisraum.

Die obigen Betrachtungen werfen auch zusatzliches Licht auf die Additivitats-annahmen bei Wahrscheinlichkeitsmaßen. Bereits in Abschnitt 1 haben wirerwahnt, dass die schwachere Bedingung der endlichen Additivitat fur einebefriedigende mathematische Theorie nicht reicht. Fordert man dagegen dieAdditivitat fur beliebige, also auch uberabzahlbare Mengenfamilien (‘Hyper-additivitat’; eine Eigenschaft, die fur relative Haufigkeiten gilt), so bleibt nichtgenug ubrig: Aus P (ω) = 0 fur alle ω ∈ Ω wurde P ≡ 0 folgen.

Page 26: STOCHASTIK I - Blu7 · STOCHASTIK I Sommersemester 2006 Dieses Skript entha¨lt (in geringfu¨gigem Umfang) Material, das in der Vorlesung selbst nicht besprochen wurde; in ‘besonders

3. Diskrete Wahrscheinlichkeitsraume und Zufallsgroßen

3.1 Allgemeines. Wir nennen (Ω,A, P ) einen diskreten Wahrscheinlich-

keitsraum, wenn Ω eine endliche oder abzahlbar unendliche Menge ist undA = P(Ω) gilt. Aufgrund der σ-Additivitat ist P dann durch die zugehorigeWahrscheinlichkeitsmassenfunktion (kurz: Massenfunktion) p,

p : Ω → R, p(ω) := P(

ω)

eindeutig festgelegt:

P (A) =∑

ω∈A

p(ω) fur alle A ∈ A.

Dies verallgemeinert die im letzten Abschnitt behandelten Laplace-Experimen-te, bei denen Ω endlich und p eine konstante Funktion ist.

Oft interessiert man sich nicht fur das konkrete Ergebnis ω eines Zufallsexpe-riments, sondern nur fur einen hiervon abhangigen Wert X(ω).

Definition 3.1 Es seien (Ω,A, P ) eine diskreter Wahrscheinlichkeitsraum undS eine nicht-leere Menge. Dann heißt eine Abbildung X : Ω → S eine S-wertigediskrete Zufallsgrosse. Im Falle S = R sprechen wir von Zufallsvariablen, beiS = R

d mit d > 1 von Zufallsvektoren.

Mit ω ist auch X(ω) zufallig, triviale Extremfalle ausgenommen. Es wird beider Behandlung von Zufallsgroßen also nicht darum gehen (konnen), welchenWert X annimmt, sondern darum, mit welcher Wahrscheinlichkeit X in einerTeilmenge A von S liegt. Im folgenden sei X−1(A) :=

ω ∈ Ω : X(ω) ∈ A

.

Satz und Definition 3.2 Es seien (Ω,A, P ) ein diskreter Wahrscheinlich-keitsraum und X : Ω → S eine diskrete Zufallsgrosse. Dann wird durch

PX : P(S) → R, PX(A) := P(

X−1(A))

fur alle A ⊂ S,

ein Wahrscheinlichkeitsmaß auf (S,P(S)) definiert, die Verteilung von X.

Beweis: (i) PX(S) = P (ω ∈ Ω : X(ω) ∈ S) = P (Ω) = 1.

Page 27: STOCHASTIK I - Blu7 · STOCHASTIK I Sommersemester 2006 Dieses Skript entha¨lt (in geringfu¨gigem Umfang) Material, das in der Vorlesung selbst nicht besprochen wurde; in ‘besonders

26 3. Diskrete Wahrscheinlichkeitsraume und Zufallsgroßen

(ii) Sind A1, A2, . . . ⊂ S paarweise disjunkt, so sind auch die Mengen X−1(A1),X−1(A2), . . . paarweise disjunkt, und mit der σ-Additivitat von P folgt

PX(

∞∑

i=1

Ai

)

= P(

X−1(

∞∑

i=1

Ai

))

= P(

∞∑

i=1

X−1(Ai))

=

∞∑

i=1

P(

X−1(Ai))

=

∞∑

i=1

PX(Ai).

Dies zeigt, dass PXσ-additiv ist.

Als alternative Schreibweise fur die Verteilung einer Zufallsgroße verwendenwir auch L(X) (das L steht fur das englische Wort ‘law’) und schreiben haufigP (X ∈ A) fur P

(

X−1(A))

.

Beispiel 3.3 Wie oft erscheint ‘Kopf’ beim funfmaligen Wurf einer fairenMunze? Das Ausgangsexperiment ist ein Laplace-Experiment uber Ω = 0, 15

(1: Kopf, 0: Wappen). Die Anzahl der ‘Kopf’-Wurfe ist

X(ω) := ω1 + ω2 + . . . + ω5, ω = (ω1, . . . , ω5) ∈ Ω.

Als Bildbereich kommt beispielsweise S = 0, 1, . . . , 5 in Frage. Als Wahr-scheinlichkeitsmaß auf einer endlichen Menge wird L(X) wieder durch die zu-gehorige Massenfunktion beschrieben, wir benotigen also die Werte

P (X = k) = P(

ω ∈ Ω : X(ω) = k)

= P(

X−1(k))

fur k = 0, 1, . . . , 5. Man erhalt

P(

ω ∈ Ω : X(ω) = k)

=#ω ∈ Ω : X(ω) = k

=#(ω1, . . . , ω5) ∈ 0, 15 :

∑5

i=1 ωi = k

25

=

(

5

k

)

32fur k = 0, 1, . . . , 5,

denn es gibt(

5

k

)

Moglichkeiten, die k 1-Werte auf die funf moglichen Positionenzu verteilen. ⊳

Page 28: STOCHASTIK I - Blu7 · STOCHASTIK I Sommersemester 2006 Dieses Skript entha¨lt (in geringfu¨gigem Umfang) Material, das in der Vorlesung selbst nicht besprochen wurde; in ‘besonders

Einige wichtige diskrete Verteilungen 27

Man beachte, dass L(X) die im Zusammenhang mit X interessierenden Wahr-scheinlichkeiten festlegt, keineswegs aber die Zufallsgroße selbst. Bezeichnetbeispielsweise Y die Anzahl der ‘Wappen’-Wurfe in der Situation von Bei-spiel 3.3, so erhalt man L(Y ) = L(X), obwohl offensichtlich X und Y niemalsdenselben Wert annehmen.

3.2 Einige wichtige diskrete Verteilungen.

3.2.1 Eine diskrete Zufallsvariable X heißt binomialverteilt mit Parametern nund p, kurz: L(X) = Bin(n, p) oder X ∼ Bin(n, p), wobei n ∈ N und p ∈ [0, 1],wenn

P (X = k) =

(

n

k

)

pk(1 − p)n−k fur k = 0, . . . , n

gilt. Dies impliziert wegen

n∑

k=0

(

n

k

)

pk(1 − p)n−k =(

p + (1 − p))n

= 1

(binomische Formel), dass die Wahrscheinlichkeit fur X-Werte außerhalb von0, 1, . . . , n gleich 0 ist, also P (X ∈ 0, 1, . . . , n) = 1 gilt.

Die Zufallsvariable X aus Beispiel 3.3 ist Bin(5, 12)-verteilt. In Verallgemei-

nerung der in diesem Beispiel betrachteten Situation tauchen Binomialvertei-lungen stets bei Erfolgsanzahlen bei unabhangigen Wiederholungen auf, wennman ‘Erfolg’ als das Eintreten eines bestimmten Ereignisses A in einem Einzel-experiment (beispielsweise ‘Kopf’ beim Munzwurf) interpretiert. Hierbei istn die Anzahl der Versuchswiederholungen und p die Erfolgswahrscheinlichkeit,d.h. die Wahrscheinlichkeit fur das Eintreten von A in einem Einzelexperiment.Zur Begrundung bemerken wir, dass jede konkrete Abfolge von A und Ac,bei der k-mal A und (n − k)-mal Ac vorkommt, wegen der vorausgesetztenUnabhangigkeit der Einzelexperimente die Wahrscheinlichkeit pk(1−p)n−k hat;es gibt

(

n

k

)

Moglichkeiten, die k A-Faktoren auf die n moglichen Positionen zuverteilen.

Im Falle n = 1 spricht man auch von Bernoulli-Verteilungen; X nimmt dannmit Wahrscheinlichkeit 1 nur die Werte 0 und 1 an.

3.2.2 Die Zufallsvariable X heißt Poisson-verteilt mit Parameter λ > 0, wenn

P (X = k) = e−λ λk

k!fur alle k ∈ N0

gilt. Diese Verteilung spielt eine wichtige Rolle als Grenzverteilung, sie ap-proximiert beispielsweise Binomialverteilungen Bin(n, p) bei großem n und klei-nem p:

Page 29: STOCHASTIK I - Blu7 · STOCHASTIK I Sommersemester 2006 Dieses Skript entha¨lt (in geringfu¨gigem Umfang) Material, das in der Vorlesung selbst nicht besprochen wurde; in ‘besonders

28 3. Diskrete Wahrscheinlichkeitsraume und Zufallsgroßen

Satz 3.4 Ist (pn)n∈N ⊂ [0, 1] eine Nullfolge mit der Eigenschaft

limn→∞

npn = λ ∈ (0,∞),

so gilt fur alle k ∈ N0

limn→∞

(

n

k

)

pkn(1 − pn)n−k = e−λ λk

k!.

Beweis: Eine einfache Umformung liefert

(

n

k

)

pkn(1 − pn)n−k =

n(n − 1) · . . . · (n − k + 1)

nk

(npn)k

k!

(

1 − npn

n

)n

(1 − pn)k.

Bei festem k ergibt sich mit n → ∞ fur den ersten Faktor der Grenzwert 1,fur den zweiten λk/k!. Beim Nenner des letzten Faktors erhalt man den Limes1, beim Zahler verwendet man die Monotonie von x 7→ (1 − x/n)n, x > 0, inVerbindung mit einem Einschachtelungsargument und der bekannten Aussagelimn→∞(1 + x/n)n = ex, um den Grenzwert e−λ zu erhalten.

In Worten besagt dieser Satz, dass bei einer großen Anzahl n von Wiederholun-gen mit kleiner Erfolgswahrscheinlichkeit p die Zahl X der Erfolge naherungs-weise Poisson-verteilt ist mit Parameter λ = np. Diese Verteilung taucht daherhaufig im Zusammenhang mit seltenen Ereignissen auf, beispielsweise bei derAnzahl der Druckfehler pro Seite in einem Buch, der Anzahl emittierter Partikelpro Zeiteinheit bei radioaktivem Material, bei der Anzahl der durch Hufschlagihres Pferdes ums Leben gekommenen Soldaten eines Kavallerieregiments etc.;Satz 3.4 ist daher auch als das Gesetz der seltenen Ereignisse bekannt.

3.2.3 Angenommen, wir werfen einen fairen Wurfel solange, bis eine Sechserscheint. Es sei X die hierfur notwendige Anzahl der Wurfe, einschließlichdes Wurfes, der die erste Sechs liefert. Offensichtlich gilt X = n (mit n ∈ N)genau dann, wenn die ersten n − 1 Versuche keine Sechs ergeben und im n-ten Versuch eine Sechs erscheint. Aufgrund der Unabhangigkeit der Wurfe hatdieses Ereignis die Wahrscheinlichkeit

(

1 −1

6

)n−1 1

6.

Wenn allgemeiner X nur Werte aus N annimmt und

P (X = n) = (1 − p)n−1p fur alle n ∈ N

Page 30: STOCHASTIK I - Blu7 · STOCHASTIK I Sommersemester 2006 Dieses Skript entha¨lt (in geringfu¨gigem Umfang) Material, das in der Vorlesung selbst nicht besprochen wurde; in ‘besonders

Einige wichtige diskrete Verteilungen 29

gilt, dann heißt X geometrisch verteilt mit Parameter p (∈ (0, 1)).

Diese Verteilung tritt also als Verteilung der Anzahl der Versuche auf, wennman ein Zufallsexperiment solange wiederholt, bis ein bestimmtes Ereignis, dasdie Wahrscheinlichkeit p hat, eingetreten ist. Wartet man in Verallgemeinerunghiervon auf das r-te Eintreten des Ereignisses, so erhalt man eine ZufallsvariableX , die nur die Werte r, r + 1, . . . annimmt, und fur die

P (X = n) =

(

n − 1

r − 1

)

(1 − p)n−rpr fur alle n ∈ N, n ≥ r

gilt. Man nennt diese Verteilung die negative Binomalverteilung mit Parame-tern r und p, wobei r ∈ N und 0 < p < 1. In der Literatur wird stattdessenhaufig auch die Verteilung der Anzahl der Misserfolge bis zum r-ten Versuch(also von Y = X − r) so benannt.

Wir haben hier die explizite Angabe des Definitionsbereiches Ω der Zufalls-variablen vermieden. Ergebnisraume der Form 0, 1N (unendlich oft wieder-holter Munzwurf) sind uberabzahlbar, passen also nicht in den gegenwartigenRahmen. Alternativ kann man beim Warten auf den ersten Erfolg von derabzahlbaren Ergebnismenge Ω := (0, 0, . . . , 0, 1) ∈ 0, 1k : k ∈ N ausgehen.

3.2.4 Eine Urne enthalte N Kugeln, M weiße und N − M schwarze. DieserUrne werden n Kugeln ohne Zurucklegen entnommen (n, M ≤ N), X sei dieAnzahl der weißen Kugeln in der ‘Stichprobe’. Dann gilt, wobei wie ublich(

i

j

)

= 0 fur j > i gesetzt wird,

P (X = k) =

(

Mk

)(

N−Mn−k

)

(

N

n

) fur k = 0, . . . , n,

denn es gibt(

Mk

)

Moglichkeiten fur die weißen und(

N−Mn−k

)

fur die schwar-

zen Kugeln in der Stichprobe und alle(

N

n

)

moglichen Ziehungen werden alsgleich wahrscheinlich vorausgesetzt. Wir nennen diese Verteilung die hyper-

geometrische Verteilung mit Parametern n, N und M , und kurzen dies ab zuX ∼ HypGeo(N ; M, n) (bei dieser Reihenfolge darf man die letzten beiden Pa-

rameter vertauschen, siehe Ubungen). Beispielsweise ist in der in Abschnitt2.2.2 beschriebenen Situation die Anzahl der Asse, die ‘Nord’ erhalt, hypergeo-metrisch verteilt mit Parametern 13, 52 und 4. Ein anderes populares Beispiel:Die Wahrscheinlichkeit fur k Richtige beim Zahlenlotto ‘6 aus 49’ ist

(

6

k

)(

43

6−k

)

(

49

6

) fur k = 0, . . . , 6,

man erhalt hypergeometrische Verteilung mit den Parametern 49, 6 und 6.

Page 31: STOCHASTIK I - Blu7 · STOCHASTIK I Sommersemester 2006 Dieses Skript entha¨lt (in geringfu¨gigem Umfang) Material, das in der Vorlesung selbst nicht besprochen wurde; in ‘besonders

30 3. Diskrete Wahrscheinlichkeitsraume und Zufallsgroßen

3.2.5 Es seien (Ω,A, P ) ein Zufallsexperiment und A1, . . . , Ar eine Ereignis-partition (siehe Satz 1.9 (b)) von Ω; pi := P (Ai) fur i = 1, . . . , r. DiesesExperiment werde n-mal unabhangig wiederholt, X = (X1, . . . , Xr) sei der Zu-fallsvektor, dessen l-te Komponente zahlt, wie oft das Ereignis Al eingetretenist. Dann gilt in Verallgemeinerung von 3.2.1

P(

X = (k1, . . . , kr))

=n!

k1! · . . . · kr!pk1

1 · . . . · pkr

r

fur alle k1, . . . , kr ∈ N0 mit k1 + . . . + kr = n. Man nennt diese Verteilung dieMultinomialverteilung mit Parametern n und p = (p1, . . . , pr); hierbei mussn ∈ N, p ∈ [0, 1]r mit

∑r

i=1 pi = 1 erfullt sein.

Zahlt man beispielsweise beim n-fachen Wurf eines fairen Wurfels, wie haufigdie Ergebnisse 1, . . . , 6 eingetreten sind, so erhalt man die Multinomialvertei-lung mit Parametern n und p =

(

16, 1

6, . . . , 1

6

)

.

3.3 Erwartungswert und Varianz von Zufallsvariablen. In diesemUnterabschnitt sei stets (Ω,A, P ) ein diskreter Wahrscheinlichkeitsraum undX : Ω → R (soweit nicht anders erwahnt) eine (diskrete) Zufallsvariable.

Definition 3.5 Der Erwartungswert von X , Schreibweise: EX , wird definiertdurch

EX =∑

ω∈Ω

X(ω)P(

ω)

,

vorausgesetzt, die Summe konvergiert absolut, d.h.∑

ω∈Ω

|X(ω)|P (ω) < ∞.

Ist dies nicht der Fall, so sagen wir, dass der Erwartungswert von X nicht

existiert.

Der Erwartungswert EX ist also ein mit den jeweiligen Wahrscheinlichkeitengewogenes Mittel der Werte von X . Das folgende Resultat zeigt, dass man dieSummation auf den Bildraum verlagern kann.

Satz 3.6 Zusatzlich zu (Ω,A, P ) und X sei f : R → R gegeben, Y := f(X).Dann ist Y eine diskrete Zufallsvariable, und mit pX, pY als zugehorigen Mas-senfunktionen gilt

EX =∑

x∈R

x pX(x)

(

:=∑

x∈R,pX(x)>0

x pX(x)

)

,

EY =∑

y∈R

y pY (y) =∑

x∈R

f(x) pX(x),

vorausgesetzt, die beteiligten Summen konvergieren absolut.

Page 32: STOCHASTIK I - Blu7 · STOCHASTIK I Sommersemester 2006 Dieses Skript entha¨lt (in geringfu¨gigem Umfang) Material, das in der Vorlesung selbst nicht besprochen wurde; in ‘besonders

Erwartungswert und Varianz von Zufallsvariablen 31

Beweis: Die Mengen Ax :=

ω ∈ Ω : X(ω) = x

, x ∈ Bild(X), bilden eineEreignispartition von Ω. Da absolut konvergente Reihen beliebig umgeordnetwerden konnen, erhalten wir

ω∈Ω

X(ω)P (ω) =∑

x∈Bild(X)

ω∈Ax

X(ω)P (ω)

=∑

x∈R

x∑

ω∈Ax

P (ω) =∑

x∈R

xP (X = x).

Y ist offensichtlich wieder eine reellwertige Abbildung auf Ω, also eine (diskrete)Zufallsvariable. Es gilt

EY =∑

ω∈Ω

Y (ω)P (ω)

=∑

ω∈Ω

f(

X(ω))

P (ω)

=∑

x∈Bild(X)

ω∈Ax

f(X(ω))P (ω)

=∑

x∈R

f(x)P (X = x),

denn f X ist auf Ax konstant.

Wichtige Konsequenz: EX hangt von X nur uber die Verteilung von X ab —insbesondere haben Zufallsvariablen mit derselben Verteilung auch denselbenErwartungswert. Fur das Verstandnis von Erwartungswerten ist vielleicht diefolgende Analogie zur Mechanik hilfreich: Platziert man Massen π1, π2, π3, . . .auf die Punkte x1, x2, x3, . . . ∈ R, so ist

xipi, mit pi := πi/∑

j πj , derSchwerpunkt des Gesamtgebildes. Beim Wurfelwurf hat man die Massen 1/6in den Punkten 1, 2, . . . , 6 und erhalt als Schwerpunkt den Wert 3.5 (dies zeigtubrigens, dass der Erwartungswert nicht unbedingt ein Wert ist, den man er-warten wurde).

Betrachtet man allgemeiner eine S-wertige diskrete Zufallsgroße X und eineAbbildung f : S → R, so erhalt man

Ef(X) =∑

x∈S

f(x)P (X = x),

eine in vielen Rechnungen nutzliche Formel.

Page 33: STOCHASTIK I - Blu7 · STOCHASTIK I Sommersemester 2006 Dieses Skript entha¨lt (in geringfu¨gigem Umfang) Material, das in der Vorlesung selbst nicht besprochen wurde; in ‘besonders

32 3. Diskrete Wahrscheinlichkeitsraume und Zufallsgroßen

Beispiel 3.7 Im Falle X ∼ Bin(n, p) erhalten wir, da das Bild von X aus denZahlen 0, 1, . . . , n besteht,

EX =

n∑

k=0

k P (X = k)

=

n∑

k=1

k

(

n

k

)

pk (1 − p)n−k

= np

n∑

k=1

(n − 1)!

(k − 1)! ((n − 1) − (k − 1))!pk−1 (1 − p)(n−1)−(k−1)

= np

n−1∑

k=0

(

n − 1

k

)

pk(1 − p)n−1−k = np .

Definiert man Y durch Y := X(X − 1), so ergibt sich ganz analog

EY =

n∑

k=2

k(k − 1)

(

n

k

)

pk (1 − p)n−k = n(n − 1)p2.⊳

Der folgende Satz zeigt, dass der Erwartungswertoperator linear und monotonist.

Satz 3.8 Es seien X, Y diskrete Zufallsvariable mit existierendem Erwartungs-wert und c ∈ R.

(a) (Linearitat) Dann existieren auch E(X+Y ) sowie E(cX) und es gilt E(X+Y ) = EX + EY , E(cX) = cEX.

(b) (Monotonie) Gilt X ≤ Y , also X(ω) ≤ Y (ω) fur alle ω ∈ Ω, so folgtEX ≤ EY .

Beweis: Die Existenz beispielsweise von E(X + Y ) ergibt sich leicht mit derDreiecksungleichung:

ω∈Ω

∣(X + Y )(ω)∣

∣ P (ω) ≤∑

ω∈Ω

(

|X(ω)| + |Y (ω)|)

P (ω)

≤∑

ω∈Ω

|X(ω)|P (ω) +∑

ω∈Ω

|Y (ω)|P (ω)

< ∞.

Nachdem dies geklart ist, kann man den Erwartungswert der Summe mit im

Page 34: STOCHASTIK I - Blu7 · STOCHASTIK I Sommersemester 2006 Dieses Skript entha¨lt (in geringfu¨gigem Umfang) Material, das in der Vorlesung selbst nicht besprochen wurde; in ‘besonders

Erwartungswert und Varianz von Zufallsvariablen 33

wesentlichen denselben Schritten einfach nachrechnen:

E(X + Y ) =∑

ω∈Ω

(X + Y )(ω)P (ω)

=∑

ω∈Ω

X(ω)P (ω) +∑

ω∈Ω

Y (ω)P (ω)

= EX + EY,

die anderen Beweisteile konnen genauso leicht erbracht werden.

Mit der Linearitat und der Monotonie folgt aus X ≤ |X |, −X ≤ |X | diewichtige Beziehung

|EX | ≤ E|X |.

Der Erwartungswert von X beschreibt die Lage der Verteilung von X . Esfolgen nun Messzahlen fur die Variabilitat der Verteilung.

Definition 3.9 Das k-te Moment einer Zufallsvariablen X ist EXk, voraus-gesetzt, es gilt

x |x|kP (X = x) < ∞ (sonst sagen wir, dass das k-te Moment

von X nicht existiert). Existiert das zweite Moment zu X , so nennen wir

var(X) := E(X − EX)2, σ(X) :=(

var(X))1/2

die Varianz und die Standardabweichung von X .

Die Varianz ist also die mittlere quadratische Abweichung der ZufallsvariablenX von ihrem Mittelwert; durch den Ubergang zur Standardabweichung erhaltman eine Streuungsmesszahl in den gleichen Dimensionen wie X . Bei derBerechnung dieser Großen sind die folgenden Formeln oft hilfreich.

Lemma 3.10 (a) var(X) = EX2 − (EX)2,

(b) var(αX) = α2 var(X) fur alle α ∈ R.

(c) Gilt P (X = c) = 1 fur ein c ∈ R, so folgt var(X) = 0.

Beweis: Wir zeigen nur (a), die anderen Teile werden in den Ubungen behan-delt. Mit den Rechenregeln aus Satz 3.8 erhalt man

var(X) = E(

X2 − 2(EX)X + (EX)2)

= EX2 − 2(EX)EX + E(

(EX)2)

= EX2 − (EX)2,

wobei wir im letzten Schritt Teil (c) verwendet haben.

Page 35: STOCHASTIK I - Blu7 · STOCHASTIK I Sommersemester 2006 Dieses Skript entha¨lt (in geringfu¨gigem Umfang) Material, das in der Vorlesung selbst nicht besprochen wurde; in ‘besonders

34 3. Diskrete Wahrscheinlichkeitsraume und Zufallsgroßen

Beispiel 3.11 (a) Im Falle X ∼ Bin(n, p) gilt nach Beispiel 3.7

EX = np, EX(X − 1) = n(n − 1)p2,

also

EX2 = E(X2 − X) + EX = EX(X − 1) + EX = n2p2 − np2 + np

und damit

var(X) = EX2 − (EX)2 = n2p2 − np2 + np − n2p2 = np(1 − p).

(b) Ist X Poisson-verteilt mit Parameter λ (siehe Absatz 3.2.2), so erhalt man

EX =∞∑

k=0

k e−λ λk

k!

= λ e−λ

∞∑

k=1

λk−1

(k − 1)!

= λ e−λ

∞∑

k=0

λk

k!= λ e−λ eλ = λ

sowie

EX(X − 1) =∞∑

k=2

k(k − 1)e−λ λk

k!= λ2,

alsovar(X) = EX(X − 1) + EX − (EX)2 = λ .

Bei der Poisson-Verteilung stimmen Erwartungswert und Varianz uberein. ⊳

Bemerkung und Definition 3.12 Ist M eine beliebige Menge und A ⊂ M ,so heißt

1A : M → R, x 7→

1, x ∈ A,0, x /∈ A,

die Indikatorfunktion zu A. Man kann A 7→ 1A als Einbettung der Potenz-menge von M in den Ring der reellwertigen Funktionen auf M betrachten;so wird beispielsweise aus dem Durchschnitt die Multiplikation. Ist (Ω,A, P )ein diskreter Wahrscheinlichkeitsraum und A ⊂ Ω, so zeigt die ZufallsvariableX := 1A an, ob das Ereignis A eintritt (Wert 1) oder nicht (Wert 0). Offen-sichtlich gilt L(X) = Bin(1, p) mit p = P (A). Mit dieser Konstruktion siehtman, dass Erwartungswerte Wahrscheinlichkeiten verallgemeinern:

E1A = 0 · P (1A = 0) + 1 · P (1A = 1) = P (A),

Page 36: STOCHASTIK I - Blu7 · STOCHASTIK I Sommersemester 2006 Dieses Skript entha¨lt (in geringfu¨gigem Umfang) Material, das in der Vorlesung selbst nicht besprochen wurde; in ‘besonders

Bedingte Verteilungen und Unabhangigkeit 35

d.h. die Wahrscheinlichkeit eines Ereignisses ist gleich dem Erwartungswert derzugehorigen Indikatorfunktion. Mathematisch ergeben sich Erwartungswerteals naturliche Fortsetzung von Wahrscheinlichkeiten, wenn man Ereignisse uberihre Indikatorfunktionen in den Raum der Zufallsvariablen einbettet: Die Ad-ditivitat des Maßes wird zur Linearitat des Erwartungswertes.

3.4 Bedingte Verteilungen und Unabhangigkeit. Sind X : Ω → S1

und Y : Ω → S2 Zufallsgroßen auf einem diskreten Wahrscheinlichkeitsraum(Ω,A, P ), so ist

Z : Ω → S1 × S2, ω 7→(

X(ω), Y (ω))

eine Zufallsgroße mit Werten in S1 × S2. Die Verteilung PZ von Z nennt manauch die gemeinsame Verteilung von X und Y .

Beispiel 3.13 In der Situation von Absatz 2.2.2 (Bridge) sei X die Anzahl derAsse von ‘Nord’, Y die von ‘Sud’. Dann ist Z := (X, Y ) eine Zufallsgroße mitWerten in 0, . . . , 4 × 0, . . . , 4, und die dort eingefuhrten Techniken fuhrenauf

P(

Z = (k, l))

=

(

4

k

)(

48

13 − k

)(

4 − k

l

)(

35 + k

13 − l

)(

26

13

)

52!

(13!)4

.

X

0 1 2 3 4Zeilen-

summen:

0 1150 2600 1950 572 55 6327

1 2600 4225 2028 286 0 9139

Y 2 1950 2028 468 0 0 4446

3 572 286 0 0 0 858

4 55 0 0 0 0 55

Spalten-summen:

6327 9139 4446 858 55 (20825)

Tabelle der mit 20825 multiplizierten Werte

Aus den Werten in der Tabelle ergeben sich wegen

P (X = i) = P (X = i, Y = 0) + P (X = i, Y = 1) + . . . + P (X = i, Y = 4)

Page 37: STOCHASTIK I - Blu7 · STOCHASTIK I Sommersemester 2006 Dieses Skript entha¨lt (in geringfu¨gigem Umfang) Material, das in der Vorlesung selbst nicht besprochen wurde; in ‘besonders

36 3. Diskrete Wahrscheinlichkeitsraume und Zufallsgroßen

fur i = 0, . . . , 4 (analog fur Y ) die Marginalverteilungen (oder auch Randver-

teilungen) der Verteilung von Z, also die Verteilungen der Komponenten Xund Y von Z. Die gemeinsame Verteilung enthalt i.a. mehr Information alsdie Randverteilungen. Man kann aus der Tabelle die Wahrscheinlichkeit vonEreignissen ablesen, die von X und Y abhangen, beispielsweise

P (X = Y ) = P (X = 0, Y = 0) + . . . + P (X = 4, Y = 4)

=1150 + 4225 + 468 + 0 + 0

20825≈ 0.280576 . ⊳

Die gemeinsame Verteilung erlaubt auch eine Verlagerung der Summation beider Berechnung von Erwartungswerten von Zufallsvariablen der Form f(X, Y ).In der im folgenden Diagramm zusammengefassten Situation

Ω

S1

S2

R×X

Y

f.....................................

.....................................

................................................................

...........................................................................................................

..

.......................................................................................................................... ................

erhalt man im Stil von Satz 3.6 die fur Rechnungen haufig nutzliche Formel

Ef(X, Y ) =∑

x

y

f(x, y)P (X = x, Y = y) .

Analog zum Ubergang von Wahrscheinlichkeiten zu bedingten Wahrscheinlich-keiten in Abschnitt 1.2 erhalten wir bei diskreten Zufallsgroßen einen Ubergangvon Verteilungen zu bedingten Verteilungen und (bei Bildmenge R) von Erwar-tungswerten zu bedingten Erwartungsweerten.

Satz und Definition 3.14 Mit (Ω,A, P ), S1, S2, X und Y wie oben giltfur alle x ∈ S1 mit P (X = x) > 0 : Durch

A 7→ P (Y ∈ A|X = x)

(

=P

(

ω ∈ Ω : Y (ω) ∈ A ∧ X(ω) = x)

P(

ω ∈ Ω : X(ω) = x)

)

wird ein Wahrscheinlichkeitsmaß auf(

S2,P(S2))

definiert, die bedingte Ver-

teilung von Y unter X = x; Schreibweise: P Y |X=x oder L(Y |X = x).

Im Falle S2 = R und∑

y |y|PY |X=x(y) < ∞ nennen wir

E[Y |X = x] :=∑

y∈R

y P Y |X=x(

y)

(

=1

P (X = x)

y

y P (Y = y, X = x)

)

den bedingten Erwartungswert von Y unter X = x.

Page 38: STOCHASTIK I - Blu7 · STOCHASTIK I Sommersemester 2006 Dieses Skript entha¨lt (in geringfu¨gigem Umfang) Material, das in der Vorlesung selbst nicht besprochen wurde; in ‘besonders

Bedingte Verteilungen und Unabhangigkeit 37

Fur die Verknupfung der Abbildungen X : Ω → S1 und x 7→ PY |X=x bzw. x 7→E[Y |X = x] schreiben wir kurz P Y |X oder L(Y |X) bzw. E[Y |X ]. Beide Ab-bildungen sind Zufallsgrossen, die sich als Funktion von X darstellen lassen.

Beweis: Klar.

In der Situation von Beispiel 3.13 ergibt sich beispielsweise als bedingte Erwar-tung der Anzahl der Asse des Partners, wenn man selbst 2 Asse hat,

E[Y |X = 2] = 0 · P (Y = 0|X = 2) + . . . + 4 · P (Y = 4|X = 2)

= 0 ·1950

4446+ 1 ·

2028

4446+ 2 ·

468

4446+ 3 ·

0

4446+ 4 ·

0

4446

=2964

4446=

2

3.

Als Erwartungswert fur Y , also ohne die Zusatzinformation X = 2, erhalt manden Wert 1 — was man ubrigens auch begrunden kann, ohne zu rechnen. In denUbungen werden einige Eigenschaften bedingter Erwartungswerte behandelt(mit denen man dann auch das obige Ergebnis 2/3 ohne Rechnung erhaltenkann), und es wird gezeigt, dass der bedingte Erwartungswert E[Y |X ] dieFunktion von X ist, die die Zufallsvariable Y in einem gewissen Sinn optimalvorhersagt.

Beispiel 3.15 Es sei (Ω′,A′, P ′) das Modell fur ein Zufallsexperiment, indem ein bestimmtes Ereignis A mit Wahrscheinlichkeit p > 0 eintritt. UnserModell fur das n-malige unabhangige Wiederholen des Ausgangsexperimentsist (Ω,A, P ) mit Ω = (Ω′)n, A = P(Ω) und

P(

(ω1, . . . , ωn))

= P ′(

ω1)

· . . . · P ′(

ωn)

.

(Man sieht leicht, dass hierdurch in der Tat ein Wahrscheinlichkeitsmaß auf(Ω,A) definiert wird.) Es sei

X : Ω → R, ω 7→ #1 ≤ i ≤ n : ωi ∈ A

die Anzahl der Einzelexperimente mit Resultat in A,

Y : Ω → P(1, . . . , n), ω 7→ 1 ≤ i ≤ n : ωi ∈ A

die Menge der Versuchsnummern, in denen A eintritt. Die gemeinsame Vertei-lung von X und Y ist offensichtlich auf

(k, B) : k ∈ 0, . . . , n, B ⊂ 1, . . . , n mit #B = k

Page 39: STOCHASTIK I - Blu7 · STOCHASTIK I Sommersemester 2006 Dieses Skript entha¨lt (in geringfu¨gigem Umfang) Material, das in der Vorlesung selbst nicht besprochen wurde; in ‘besonders

38 3. Diskrete Wahrscheinlichkeitsraume und Zufallsgroßen

konzentriert, und fur jedes Element dieser Menge gilt

P (X = k, Y = B) =∏

j∈B

p∏

j /∈B

(1 − p) = pk(1 − p)n−k.

Aus Abschnitt 3.2.1 ist bereits P (X = k) =(

n

k

)

pk(1−p)n−k bekannt, also folgt

PY |X=k(B) =pk(1 − p)n−k

(

n

k

)

pk(1 − p)n−k=

1(

n

k

) .

Die bedingte Verteilung von Y unter X = k ist also die Gleichverteilung (auchLaplace-Verteilung genannt) auf der Menge der Teilmengen vom Umfang kvon 1, . . . , n: Alle moglichen Anordnungen fur die ‘Erfolge’ sind gleich wahr-scheinlich. In der Statistik wird es sich als wichtig erweisen, dass in dieserbedingten Verteilung der Parameter p nicht auftaucht — im Gegensatz zurVerteilung von Y selbst, gilt doch beispielsweise P

(

Y = 1, . . . , n)

= pn. ⊳

Wir dehnen nun den Unabhangigkeitsbegriff auf Zufallsgroßen aus.

Definition 3.16 Fur jedes i ∈ I sei Xi : Ω → Si eine diskrete Zufallsgroße.Die Familie Xi : i ∈ I heißt stochastisch unabhangig , wenn fur jede Wahl vonAi ⊂ Si, i ∈ I, die Ereignisfamilie X−1

i (Ai) : i ∈ I stochastisch unabhangigist im Sinne von Definition 1.12.

Satz 3.17 Eine Familie Xi, : i ∈ I von diskreten Zufallsgroßen ist genaudann unabhangig, wenn fur alle i1, . . . , in ⊂ I, xi1 ∈ Si1 , . . . , xin

∈ Singilt:

P (Xi1 = xi1 , . . . , Xin= xin

) = P (Xi1 = xi1) · . . . · P (Xin= xin

).

Beweis: Fur beliebige Ai ⊂ Si und i1, . . . , in ⊂ I gilt

P(

n⋂

j=1

X−1ij

(Ai))

=∑

xi1∈Ai1

,...,xin∈Ain

P (Xin= xi1 , . . . , Xin

= xin)

=∑

xi1∈Ai1

P (Xi1 = xi1)∑

xi2∈Ai2

P (Xi2 = xi2) . . .

. . .∑

xin∈Ain

P (Xin= xin

)

= P (Xin∈ Ai1 ) · . . . · P (Xin

∈ Ain),

also ist die Bedingung hinreichend. Wahlt man Elementarereignisse in Defini-tion 3.16, so folgt auch die Notwendigkeit.

Page 40: STOCHASTIK I - Blu7 · STOCHASTIK I Sommersemester 2006 Dieses Skript entha¨lt (in geringfu¨gigem Umfang) Material, das in der Vorlesung selbst nicht besprochen wurde; in ‘besonders

Reellwertige diskrete Zufallsgroßen 39

Bei einer endlichen Familie X1, . . . , Xn hat man also Unabhangigkeit genaudann, wenn die gemeinsame Massenfunktion p

p(x1, . . . , xn) = P (X1 = x1, . . . , Xn = xn),

sich als Produkt der marginalen Massenfunktionen pi, pi(xi) = P (Xi = xi) fur1 ≤ i ≤ n, schreiben lasst, also

p(x1, . . . , xn) = p1(x1) · . . . · pn(xn)

gilt fur alle x1 ∈ S1, . . . , xn ∈ Sn. Bei Unabhangigkeit ergibt sich daher diegemeinsame Verteilung aus den Randverteilungen; i.a. ist dies nicht der Fall.

3.5 Reellwertige diskrete Zufallsgroßen. Mit R als Wertebereich hatman zusatzliche Strukturen und damit spezielle Probleme und Konzepte.

Satz 3.18 (Multiplikationsregel fur Erwartungswerte) Sind X und Y unab-hangige Zufallsvariablen mit existierenden Erwartungswerten, so existiert auchder Erwartungswert zu X · Y , und es gilt EXY = EXEY .

Beweis: Die Mengen

Axy :=

ω ∈ Ω : X(ω) = x, Y (ω) = y

, x ∈ Bild(X), y ∈ Bild(Y ),

bilden eine Partition von Ω, also folgt wie im Beweis zu Satz 3.6 (Verlagerungder Summation) unter Ausnutzung der Unabhangigkeit

ω∈Ω

∣(X · Y )(ω)∣

∣ P(

ω)

=∑

x

y

ω∈Ax,y

(

X · Y)

(ω)∣

∣ P(

ω)

=∑

x

y

|xy|P (X = x, Y = y)

=∑

x

y

|x| |y|P (X = x)P (Y = y)

=(

x

|x|P (X = x)) (

y

|y|P (Y = y))

=(

ω∈Ω

∣X(ω)∣

∣P(

ω)

) (

ω∈Ω

∣Y (ω)∣

∣P(

ω)

)

.

Wegen der vorausgesetzten Existenz der einzelnen Erwartungswerte ist diesendlich, also existiert auch EXY . Wiederholt man nun die Rechnung ohneBetragsstriche, oder verwendet man die Formeln

Ef(X, Y ) =∑

x

y

f(x, y)P (X = x, Y = y), Ef(X) =∑

x∈S

f(x)P (X = x),

so erhalt man EXY = EXEY .

Page 41: STOCHASTIK I - Blu7 · STOCHASTIK I Sommersemester 2006 Dieses Skript entha¨lt (in geringfu¨gigem Umfang) Material, das in der Vorlesung selbst nicht besprochen wurde; in ‘besonders

40 3. Diskrete Wahrscheinlichkeitsraume und Zufallsgroßen

Im allgemeinen folgt die Existenz von EXY nicht aus der von EX, EY . Manhat jedoch:

Satz 3.19 (Cauchy-Schwarz-Ungleichung) Existiert zu den Zufallsvariablen Xund Y das zweite Moment, so existiert auch EXY und es gilt

(EXY )2 ≤ EX2EY 2.

Beweis: Wegen

∣(X · Y )(ω)∣

∣ =∣

∣X(ω)∣

∣Y (ω)∣

∣ ≤ X(ω)2 + Y (ω)2 fur alle ω ∈ Ω

gilt

ω∈Ω

∣(X · Y )(ω)∣

∣ P(

ω)

≤∑

ω∈Ω

X(ω)2 P(

ω)

+∑

ω∈Ω

Y (ω)2P(

ω)

,

also existiert der Erwartungswert zu XY . Fur beliebiges t ∈ R existiert dannauch das zweite Moment zu X + tY (Satz 3.8) und ist nicht-negativ:

0 ≤ E(X + tY )2 = EX2 + t2EY 2 + 2tEXY fur alle t ∈ R.

Im Falle EY 2 = 0 kann die Gerade auf der rechten Seite nur dann oberhalbvon 0 bleiben, wenn EXY = 0 gilt; in diesem Falle gilt also die behaupteteUngleichung. Im Falle EY 2 > 0 erhalt man als kleinsten Wert der Parabel aufder rechten Seite

1

EY 2

(

EX2EY 2 − (EXY )2)

.

Dies ist nur dann nicht-negativ, wenn die behauptete Ungleichung gilt.

Varianten der Cauchy-Schwarz-Ungleichung tauchen auch in anderen Vorlesun-gen auf, oft im Zusammenhang mit Begriffen wie Orthogonalitat und Projek-tion. In der folgenden Bemerkung stellen wir die Verbindung her und erhaltengleichzeitig eine geometrische Interpretation bedingter Erwartungswerte; De-tails sind Gegenstand einer Ubungsaufgabe.

Bemerkung 3.20 Ist (Ω,A, P ) ein diskreter Wahrscheinlichkeitsraum mit derEigenschaft

P(

ω)

> 0 fur alle ω ∈ Ω,

so istH := X : Ω → R : EX2 < ∞ mit 〈X, Y 〉 := EXY

Page 42: STOCHASTIK I - Blu7 · STOCHASTIK I Sommersemester 2006 Dieses Skript entha¨lt (in geringfu¨gigem Umfang) Material, das in der Vorlesung selbst nicht besprochen wurde; in ‘besonders

Reellwertige diskrete Zufallsgroßen 41

ein Hilbert-Raum. Mit ‖X‖ := 〈X, X〉1/2 wird die Cauchy-Schwarzsche Un-gleichung zu

∣〈X, Y 〉∣

∣ ≤ ‖X‖ ‖Y ‖.

Ist Z eine Zufallsgroße auf diesem Wahrscheinlichkeitsraum und mit Werten inirgendeiner Menge S, so wird durch

H(Z) :=

X ∈ H : X = φ(Z) fur ein φ : S → R

ein Unterraum von H definiert. Die Abbildung

H → H(Z), X 7→ E[X |Z]

ist die Orthogonalprojektion auf diesen Unterraum.

Dies behandelt die allgemeine Situation (im diskreten Fall). Bei endlichenWahrscheinlichkeitsraumen, beispielsweise bei Ω = 1, . . . , n, A = P(Ω) undpi := P (i) > 0 fur i = 1, . . . , n, kann man eine Zufallsvariable X mit demVektor

x =

x1

...xn

, xi := X(i) fur i = 1, . . . , n,

identifizieren und erhalt dann den euklidischen Raum Rn mit dem Skalarpro-

dukt 〈x, y〉 =∑n

i=1 pixiyi. ⊳

Definition 3.21 Es seien X und Y Zufallsvariablen mit endlichem zweitenMoment und den Standardabweichungen σX , σY . Dann heißt

cov(X, Y ) := E(X − EX)(Y − EY )

die Kovarianz von X und Y . Im Falle cov(X, Y ) = 0 nennt man X und Yunkorreliert. Ist σX · σY > 0, so nennt man

ρ(X, Y ) :=cov(X, Y )

σXσY

den Korrelationskoeffizienten von X und Y .

Satz 3.22 Es seien X und Y Zufallsvariablen mit existierendem zweiten Mo-ment. Dann gilt:

(a) cov(X, Y ) = EXY − (EX)(EY ).

(b) Sind X und Y unabhangig, so sind sie auch unkorreliert.

(c) Ist ρ(X, Y ) ist definiert, so gilt −1 ≤ ρ(X, Y ) ≤ 1.

Page 43: STOCHASTIK I - Blu7 · STOCHASTIK I Sommersemester 2006 Dieses Skript entha¨lt (in geringfu¨gigem Umfang) Material, das in der Vorlesung selbst nicht besprochen wurde; in ‘besonders

42 3. Diskrete Wahrscheinlichkeitsraume und Zufallsgroßen

Beweis: (a) Mit der Linearitat des Erwartungswertoperators (Satz 3.8) folgt

cov(X, Y ) = E(

XY − (EX)Y − X(EY ) + (EX)(EY ))

= EXY − (EX)(EY ) − (EX)(EY ) + (EX)(EY )

= EXY − EXEY.

(b) folgt unmittelbar aus (a) und Satz 3.18.

(c) Satz 3.19 liefert

var(X)var(Y ) ρ(X, Y )2 =(

E(X − EX)(Y − EY ))2

≤ E(X − EX)2 E(Y − EY )2

= var(X) var(Y ).

Gemaß Teil (b) des Satzes sind unabhangige Zufallsvariable unkorreliert —die Umkehrung hiervon gilt nicht! Kovarianz und Korrelation konnen als Maßfur die lineare Abhangigkeit von Zufallsvariablen betrachtet werden; auch dieswird in den Ubungsaufgaben weiter ausgefuhrt. Mit Hilfe dieser Begriffe lasstsich auch etwas uber die Varianz einer Summe von Zufallsvariablen aussagen.Die zweite Aussage des folgenden Satzes ist auch als Gleichheit von Bienayme

bekannt.

Satz 3.23 Es seien X1, . . . , Xn Zufallsvariablen mit existierendem zweitenMoment. Dann gilt

var(X1 + . . . + Xn) =

n∑

i=1

var(Xi) +

n∑

i,j=1i6=j

cov(Xi, Xj).

Sind die Zufallsvariablen X1, . . . , Xn daruberhinaus unabhangig, so gilt

var(X1 + . . . + Xn) = var(X1) + . . . + var(Xn).

Beweis: Unter Verwendung von Satz 3.22 und Lemma 3.10 folgt

var(

n∑

i=1

Xi

)

= E(

n∑

i=1

Xi

)2

−(

E

n∑

i=1

Xi

)2

=

n∑

i,j=1

EXiXj −n

i,j=1

EXiEXj

Page 44: STOCHASTIK I - Blu7 · STOCHASTIK I Sommersemester 2006 Dieses Skript entha¨lt (in geringfu¨gigem Umfang) Material, das in der Vorlesung selbst nicht besprochen wurde; in ‘besonders

Reellwertige diskrete Zufallsgroßen 43

=

n∑

i=1

(

EX2i − (EXi)

2)

+∑

i6=j

(EXiXj − EXiEXj)

=n

i=1

var(Xi) +∑

i6=j

cov(Xi, Xj).

Der zweite Teil folgt hieraus sofort mit Satz 3.22 (b).

Beispiel 3.24 (a) In einem Zufallsexperiment sei A ein Ereignis mit derWahrscheinlichkeit p. Das Experiment werde n-mal unabhangig wiederholt;Xi zeige an, ob das Ereignis in der i-ten Wiederholung eintritt (Xi = 1) odernicht (Xi = 0). Dann sind X1, . . . , Xn unabhangig mit

EXi = 0 · P (Xi = 0) + 1 · P (Xi = 1) = p,

EX2i = EXi = p, var(Xi) = p − p2 = p(1 − p).

Somit gilt fur Sn := X1 + . . . + Xn

ESn =

n∑

i=1

EXi = np, var(Sn) =

n∑

i=1

var(Xi) = np(1 − p).

Wegen Sn ∼ Bin(n, p) ist dies ein alternativer Beweis fur die Formeln ausBeispiel 3.11 (a).

(b) Es sei X hypergeometrisch verteilt, also

P (X = k) =

(

M

k

)(

N−M

n−k

)

(

Nn

) fur k = 0, . . . , n.

Wie in Abschnitt 3.2.4 erklart, entsteht dies als Verteilung der Anzahl derweißen Kugeln, wenn man einer Urne mit N Kugeln eine Stichprobe vom Um-fang n entnimmt; hierbei wird vorausgesetzt, dass M der Kugeln in der Urneweiß sind. Setzt man Xi = 1, wenn im i-ten Zug eine weiße Kugel gezogen wird,und Xi = 0 sonst, so gilt offensichtlich X = X1 + . . . + Xn. Im Gegensatz zuder unter (a) betrachteten Situation sind die Summanden nun allerdings nichtmehr unabhangig, wir benotigen also eine Hilfsuberlegung. Hierzu stellen wiruns die Kugeln als mit den Zahlen 1 bis N numeriert vor. Sind Y1, . . . , Yn die(Nummern der) gezogenen Kugeln, so gilt Xi = φ(Yi) mit

φ(i) :=

1, i-te Kugel weiß,0, sonst,

Page 45: STOCHASTIK I - Blu7 · STOCHASTIK I Sommersemester 2006 Dieses Skript entha¨lt (in geringfu¨gigem Umfang) Material, das in der Vorlesung selbst nicht besprochen wurde; in ‘besonders

44 3. Diskrete Wahrscheinlichkeitsraume und Zufallsgroßen

und mit den in Abschnitt 3 besprochenen Techniken erhalt man

P (Y1 = i1, . . . , Yn = in) =(N − n)!

N !

fur alle n-Permutationen (i1, . . . , in) ohne Wiederholung von 1, . . . , N. Essei Sn die Menge der Permutationen von 1, . . . , n. Fur beliebiges π ∈ Sn und(i1, . . . , in) wie oben ergibt sich

P(

Yπ(1) = i1, . . . , Yπ(n) = in)

= P(

Y1 = iπ−1(1), . . . , Yn = iπ−1(n)

)

=(N − n)!

N !

= P (Y1 = i1, . . . , Yn = in),

also gilt L(

(Y1, . . . , Yn))

= L(

(Yπ(1), . . . , Yπ(n)))

und damit auch

L(

(X1, . . . , Xn))

= L(

(Xπ(1), . . . , Xπ(n)))

fur alle π ∈ Sn

(man spricht dann von vertauschbaren Zufallsvariablen). Dies impliziert, dassdie Verteilung von Xi nicht von i abhangt. Man sieht leicht, dass X1 ∼Bin(1, M/N) gilt, erhalt also

EX =

n∑

i=1

EXi = n EX1 =nM

N.

Bei der Varianz argumentiert man analog und benutzt nun, dass L(

(Xi, Xj))

=

L((X1, X2))

fur alle i, j mit i 6= j gilt. Wegen X1 + X2 ∼ HypGeo(2; N, M)bedeutet dies

EX1X2 = P (X1 + X2 = 2) =

(

M

2

)(

N−M

0

)

(

N

2

) =M(M − 1)

N(N − 1).

Mit Satz 3.23 folgt nun

var(X) = n var(X1) + n(n − 1) cov(X1, X2)

= nM

N

(

1 −M

N

)

+ n(n − 1)

(

M(M − 1)

N(N − 1)−

M2

N2

)

=nM(N − n)(N − M)

N2(N − 1).

Beide Formeln kann man naturlich auch im Stil von Beispiel 3.7 ‘zu Fuß’ erhal-ten. ⊳

Page 46: STOCHASTIK I - Blu7 · STOCHASTIK I Sommersemester 2006 Dieses Skript entha¨lt (in geringfu¨gigem Umfang) Material, das in der Vorlesung selbst nicht besprochen wurde; in ‘besonders

Reellwertige diskrete Zufallsgroßen 45

Satz und Definition 3.25 (a) Es seien P und Q Wahrscheinlichkeitsmaßeauf Z mit Massenfunktionen p und q. Dann ist auch

r : Z → R, rn :=∑

k∈Z

pkqn−k

eine Wahrscheinlichkeitsmassenfunktion. Das zugehorige Wahrscheinlichkeits-maß R nennen wir die Faltung von P und Q, Schreibweise: R = P ⋆ Q.

(b) Sind X und Y unabhangige Zufallsvariablen mit Werten in Z, so ist auchX + Y eine Zufallsvariable mit Werten in Z, und es gilt P X+Y = PX ⋆ PY .

Beweis: (a) Offensichtlich hat man rn ≥ 0 fur alle n ∈ Z sowie∑

n∈Z

rn =∑

n∈Z

k∈Z

pkqn−k

=∑

k∈Z

pk

n∈Z

qn−k =∑

k∈Z

pk · 1 = 1,

also definiert r ein Wahrscheinlichkeitsmaß auf Z (durch R(A) :=∑

k∈A rk).

(b) Wir zerlegen nach dem Wert von X :

P (X + Y = n) =∑

k∈Z

P (X = k, X + Y = n)

=∑

k∈Z

P (X = k, Y = n − k)

=∑

k∈Z

P (X = k)P (Y = n − k).

Verwende nun Teil (a) mit pk = P (X = k), qk = P (Y = k) und rk = P (X +Y = k).

Beispiel 3.26 Es seien X und Y unabhangige Zufallsvariable; X sei Poisson-verteilt mit Parameter λ und Y sei Poisson-verteilt mit Parameter µ. Danngilt fur alle n ∈ N0

P (X + Y = n) =∑

k∈Z

P (X = k)P (Y = n − k)

=

n∑

k=0

e−λ λk

k!e−µ µn−k

(n − k)!

= e−(λ+µ) 1

n!

n∑

k=0

(

n

k

)

λkµn−k

= e−(λ+µ) (λ + µ)n

n!,

Page 47: STOCHASTIK I - Blu7 · STOCHASTIK I Sommersemester 2006 Dieses Skript entha¨lt (in geringfu¨gigem Umfang) Material, das in der Vorlesung selbst nicht besprochen wurde; in ‘besonders

46 3. Diskrete Wahrscheinlichkeitsraume und Zufallsgroßen

X + Y ist also wieder Poisson-verteilt, und zwar mit Parameter λ + µ. DiePoisson-Verteilungen bilden eine sog. Faltungshalbgruppe.

Was ist die bedingte Verteilung von X unter X + Y ? Fur alle n ∈ N0, k ∈0, . . . , n erhalt man

P (X = k|X + Y = n) =P (X = k, X + Y = n)

P (X + Y = n)

=P (X = k)P (Y = n − k)

P (X + Y = n)

=e−λ λk

k!e−µ µn−k

(n−k)!

e−(λ+µ)(λ+µ)k

n!

=

(

n

k

)

( λ

λ + µ

)k(

1 −λ

λ + µ

)n−k

,

also gilt L(X |X + Y ) = Bin(

X + Y, λ/(λ + µ))

. Konkret: Angenommen,ein Buch von 100 Seiten hat auf Seite k Xk Druckfehler, wobei X1, . . . , X100

unabhangig und Poisson-verteilt sind mit Parameter λ > 0 (diese Annahmensind naturlich bestenfalls naherungsweise erfullt). Enthalt das Buch insgesamt10 Druckfehler, so ist die bedingte Verteilung der Anzahl der Druckfehler aufder dritten Seite Bin

(

10, 1100

)

. ⊳

3.6 Wahrscheinlichkeitserzeugende Funktionen. Ist (an)n∈N0eine Folge

reeller Zahlen, so nennt man bekanntlich die Potenzreihe a(z) :=∑∞

n=0 anzn

die zugehorige erzeugende Funktion. Ist die Folge beschrankt, so darf a in einerNullumgebung beliebig oft gliedweise differenziert werden und man kann danninsbesondere die Folge aus ihrer erzeugenden Funktion zuruckerhalten:

an =1

n!

dn

dzna(z)

z=0.

Manche Probleme, insbesondere die Behandlung von Differenzengleichungen,konnen durch den Ubergang zu erzeugenden Funktionen vereinfacht werden.

Beispiel 3.27 (Ein Ruin-Problem) Spieler I besitzt ne, Spieler II N − ne.In jeder Runde gewinnt I von II 1e mit Wahrscheinlichkeit p und verliert 1esonst. Das Spiel wird fortgesetzt, bis einer der Spieler sein gesamtes Geldverloren hat. Mit welcher Wahrscheinlichkeit gewinnt I das Spiel?

Sei N ∈ N fest; An bezeichne das Ereignis, dass I bei Anfangskapital n gewinnt,B das Ereignis, dass I die erste Runde gewinnt. Das Gesetz von der totalenWahrscheinlichkeit (Satz 1.9 (b)) liefert

P (An) = P (An |B)P (B) + P (An |Bc)P (Bc) fur 0 < n < N.

Page 48: STOCHASTIK I - Blu7 · STOCHASTIK I Sommersemester 2006 Dieses Skript entha¨lt (in geringfu¨gigem Umfang) Material, das in der Vorlesung selbst nicht besprochen wurde; in ‘besonders

Wahrscheinlichkeitserzeugende Funktionen 47

Sei pn := P (An). Wir nehmen an, dass die Runden voneinander unabhangigsind und erhalten dann fur (p0, . . . , pN ) die folgende Differenzengleichung zwei-ter Ordnung mit zwei Randbedingungen:

pn = p pn+1 + (1 − p) pn−1 fur 1 ≤ n ≤ N − 1, p0 = 0, pN = 1. (∗)

Mit erzeugenden Funktionen lassen sich solche Gleichungen haufig routine-maßig losen (oft es geht es naturlich auch, wie ubrigens auch hier, direkt mitirgendwelchen Tricks oder geschickten Umformungen — die allerdings erst ein-mal gefunden werden mussen). Sei r := (1 − p)/p, wir setzen (zunachst) r 6= 1voraus (also p 6= 1

2). Lost man (∗) nach pn+1 auf, so erhalt man

pn+1 = (1 + r)pn − rpn−1.

Multiplikation mit zn+1 und Summation uber n ∈ N liefert unter Beachtungvon p0 = 0 fur p(z) =

∑∞n=0 pnzn die Beziehung

p(z) − p1z = (1 + r)zp(z) − rz2p(z).

Lost man dies nach p(z) auf und fuhrt man dann eine Partialbruchzerlegungdurch, so ergibt sich

p(z) =p1z

1 − (1 + r)z + rz2=

p1

r − 1

( 1

1 − rz−

1

1 − z

)

.

Erinnert man sich nun an die Formel fur die geometrische Reihe, so erhalt manhieraus

pn =p1

r − 1

(

rn − 1)

.

Die ubrige Randbedingung pN = 1 fuhrt auf p1 = (r − 1)/(rN − 1), also folgtinsgesamt

pn =rn − 1

rN − 1, n = 0, . . . , N.

Ahnlich erhalt man bei r = 1 das Resultat pn = nN

, n = 0, . . . , N . Konkret:Ich betrete ein Kasino mit 100e Kapital und setze bei Roulette in jeder Rundeeinen Euro auf Rot; Rot erscheint mit Wahrscheinlichkeit 18/37 und bringt2 e. Ich hore auf, wenn ich 100 e gewonnen oder aber alles verloren habe.Dies passt in die obige Situation mit p = 18/37, N = 200 und n = 100. Diezugehorige Erfolgswahrscheinlichkeit ist

(1918

)100 − 1

(1918

)200 − 1≈ 0.00447.

In dieser Situation ist es offensichtlich geschickter, alles auf einen Schlag aufRot zu setzen, denn dann ist die Erfolgswahrscheinlichkeit 18/37 ≈ 0.4865. ⊳

Page 49: STOCHASTIK I - Blu7 · STOCHASTIK I Sommersemester 2006 Dieses Skript entha¨lt (in geringfu¨gigem Umfang) Material, das in der Vorlesung selbst nicht besprochen wurde; in ‘besonders

48 3. Diskrete Wahrscheinlichkeitsraume und Zufallsgroßen

Definition 3.28 Ist X eine N0-wertige Zufallsvariable, so heißt

pX(z) :=

∞∑

k=0

P (X = k) zk(

= EzX)

die wahrscheinlichkeitserzeugende Funktion zu(r Verteilung von) X .

Wir schreiben f (k) fur die k-te Ableitung einer Funktion f .

Satz 3.29 (a) Ist X eine N0-wertige Zufallsvariable mit wahrscheinlichkeits-erzeugender Funktion p, so gilt fur alle k ∈ N: Das k-te faktorielle MomentE

(

X(X−1)·. . .·(X−k+1))

existiert genau dann, wenn limz↑1 p(k)(z) existiert,und dann gilt

EX(X − 1) · . . . · (X − k + 1) = limz↑1

p(k)(z).

(b) Sind X und Y unabhangige, N0-wertige Zufallsvariablen mit wahrschein-lichkeitserzeugenden Funktionen pX und pY , so gilt fur die wahrscheinlichkeits-erzeugende Funktion pX+Y zur Summe X + Y :

pX+Y (z) = pX(z) pY (z) fur alle z mit |z| ≤ 1.

Beweis: (a) Innerhalb des Konvergenzradius ist die Vertauschung von Sum-mation und Differentiation erlaubt, d.h. es gilt

p(k)(z) =

∞∑

n=k

n(n − 1) · . . . · (n − k + 1)P (X = n) zn−k.

Nach dem aus der Analysis bekannten Satz von Abel gilt fur Potenzreihen∑∞

n=0 anzn mit nichtnegativen Koeffizienten

limz↑1

∞∑

n=0

anzn =∞∑

n=0

an,

wobei bestimmte Divergenz zugelassen ist (d.h. genau dann kommt auf dereinen Seite ∞ heraus, wenn dies auch fur die andere Seite gilt). Schließlich giltnach der letzten Formel in Satz 3.6

EX(X − 1) · . . . · (X − k + 1) =

∞∑

n=0

n(n − 1) · . . . · (n − k + 1)P (X = n).

(b)pX+Y (z) = EzX+Y = EzXzY

= EzX EzY = pX(z) pY (z).

Hierbei haben wir verwendet, dass bei festem |z| ≤ 1 mit X und Y auch dieZufallsvariablen zX und zY unabhangig sind (hierzu spater mehr) und somitSatz 3.19 angewendet werden kann.

Page 50: STOCHASTIK I - Blu7 · STOCHASTIK I Sommersemester 2006 Dieses Skript entha¨lt (in geringfu¨gigem Umfang) Material, das in der Vorlesung selbst nicht besprochen wurde; in ‘besonders

Ungleichungen, das schwache Gesetz der großen Zahlen 49

Beispiel 3.30 (a) Ist X Poisson-verteilt mit Parameter λ > 0, so erhalt man

pX(z) =

∞∑

n=0

zn e−λ λn

n!= e−λ

∞∑

n=0

1

n!(λz)n = eλ(z−1).

Hieraus folgtp′X(z) = λpX(z), p′′X(z) = λ2pX(z),

mit Satz 3.29 (a) also

EX = limz↑1

λeλ(z−1) = λ, EX(X − 1) = limz↑1

λ2eλ(z−1) = λ2,

in Ubereinstimmung mit Beispiel 3.11 (b). Ist Y eine weitere, von X unab-hangige und mit Parameter µ Poisson-verteilte Zufallsvariable, so folgt mitSatz 3.29 (b)

pX+Y (z) = pX(z) pY (z) = eλ(z−1)eµ(z−1) = e(λ+µ)(z−1) .

Dies ist die wahrscheinlichkeitserzeugende Funktion zur Poisson-Verteilung mitParameter λ + µ. Da p durch p festgelegt ist, muss also die ZufallsvariableX + Y wieder Poisson-verteilt sein, und zwar mit Parameter λ + µ. Insgesamthaben wir damit einen alternativen Beweis fur einen bereits in Beispiel 3.26hergeleiteten Sachverhalt.

(b) Die obigen Aussagen lassen sich mit Induktion von zwei auf n Summan-den ubertragen. Sind beispielsweise X1, . . . , Xn unabhangig und identischverteilt (insbesondere haben sie dann dieselbe wahrscheinlichkeitserzeugendeFunktion), so gilt

pX1+···+Xn(z) = pX1

(z)n.

Beim Wurfelwurf ergibt sich so fur die Augensumme S = X1 + · · · + X10 von10 Wurfen die wahrscheinlichkeitserzeugende Funktion

pS(z) =(1

6(z + z2 + · · · + z6)

)10

.

Als Wahrscheinlichkeit fur die Augensumme 35 erhalt man nun mit den Maple-Befehlen

p := z -> (sum(z^k,k=1..6)/6)^10;

coeff(p(z),z,35);

den Wert7631

104976≈ 0.0727.

Page 51: STOCHASTIK I - Blu7 · STOCHASTIK I Sommersemester 2006 Dieses Skript entha¨lt (in geringfu¨gigem Umfang) Material, das in der Vorlesung selbst nicht besprochen wurde; in ‘besonders

50 3. Diskrete Wahrscheinlichkeitsraume und Zufallsgroßen

3.7 Ungleichungen, das schwache Gesetz der großen Zahlen. Nachden Resultaten aus Abschnitt 3.5 gilt fur den Mittelwert Xn = 1

n

∑n

i=1 Xi vonn unabhangigen Zufallsvariablen X1, . . . , Xn, die alle den Erwartungswert µund die Varianz σ2 haben,

EXn =1

n

n∑

i=1

µ = µ, var(

Xn

)

=1

n2

n∑

i=1

σ2 =σ2

n

(wir haben hier die Rechenregel var(αX) = α2var(X) benutzt, die Gegenstandeiner Ubungsaufgabe ist). Fur große n ist also die Verteilung von Xn mitkleiner Variabilitat um den Mittelwert herum konzentriert. Prazisere Aussagenermoglichen Ungleichungen vom folgenden Typ.

Satz 3.31 (a) (Die Markovsche Ungleichung)Es sei p > 0 und E|X |p < ∞. Dann gilt

P(

|X | ≥ α)

≤1

αpE|X |p fur alle α > 0.

(b) (Die Chebyshevsche Ungleichung)Es sei EX2 < ∞. Dann gilt

P(

|X − EX | ≥ α)

≤1

α2var(X) fur alle α > 0.

Beweis: (a) Wir definieren eine neue (diskrete) Zufallsvariable Y durch

Y (ω) :=

α,∣

∣X(ω)∣

∣ ≥ α,

0∣

∣X(ω)∣

∣ < α.

Offensichtlich gilt |Y (ω)|p ≤ |X(ω)|p fur alle ω ∈ Ω, die Monotonieeigenschaftdes Erwartungswertes (Satz 3.8) liefert also E|Y |p ≤ E|X |p. Da Y nur diebeiden Werte α und 0 annimmt, gilt gemaß Satz 3.6

E|Y |p = 0pP(

|X | < α)

+ αpP(

|X | ≥ α)

.

Insgesamt erhalt man also αpP (|X | ≥ α) ≤ E|X |p.

(b) Sei Y = X − EX . Wir verwenden Teil (a) mit p = 2:

P(

|X − EX | ≥ α) = P(

|Y | ≥ α)

≤1

α2EY 2 =

1

α2var(X).

Page 52: STOCHASTIK I - Blu7 · STOCHASTIK I Sommersemester 2006 Dieses Skript entha¨lt (in geringfu¨gigem Umfang) Material, das in der Vorlesung selbst nicht besprochen wurde; in ‘besonders

Ungleichungen, das schwache Gesetz der großen Zahlen 51

Der folgende Satz ist eine einfache Version des schwachen Gesetzes der großenZahlen.

Satz 3.32 Es sei X1, X2, . . . eine Folge von paarweise unkorrelierten Zufalls-variablen mit Erwartungswert µ und Varianz σ2, Xn := 1

n

∑n

i=1 Xi. Danngilt

P(

|Xn − µ| ≥ ǫ)

→ 0 mit n → ∞ fur alle ǫ > 0.

Beweis: Mit Satz 3.23 erhalt man var(Xn) = σ2/n, also folgt mit Chebyshev(Satz 3.31 (b))

P(

|Xn − µ| ≥ ǫ)

≤1

ǫ2var(Xn) → 0

mit n → ∞ fur jedes feste ǫ > 0.

Nimmt man also ein festes ǫ > 0 (wie klein auch immer), so geht die Wahr-scheinlichkeit dafur, dass der Mittelwert der Beobachtungen vom gemeinsa-men Erwartungswert um mehr als ǫ abweicht, mit wachsendem n gegen 0.Ein Spezialfall ist der, bei dem Xi anzeigt, ob im i-ten Experiment ein be-stimmtes Ereignis A eingetreten ist. Der obige Satz besagt dann, dass dierelative Haufigkeit von A bei n Wiederholungen mit n → ∞ in einem gewis-sen Sinn gegen die Wahrscheinlichkeit von A konvergiert: Die Wahrschein-lichkeit dafur, dass relative Haufigkeit und Wahrscheinlichkeit um mehr alsǫ (ǫ > 0 fest) voneinander abweichen, wird bei hinreichend großer Anzahlvon Versuchswiederholungen beliebig klein. Man kann dieses Resultat als eine(erste) Bestatigung des axiomatischen Aufbaus der Wahrscheinlichkeitstheoriedurch die Kolmogorov-Axiome ansehen.

Beispiel 3.33 (Eine Anwendung in der Analysis)Der Approximationssatz von Weierstraß besagt, dass eine stetige reellwertigeFunktion auf einem kompakten Intervall [a, b] ⊂ R gleichmaßig durch Poly-nome approximiert werden kann. Wir wollen diesen Satz mit den Mitteln derStochastik beweisen — sogar konstruktiv! Wir konnen [a, b] = [0, 1] annehmen.Sei hierzu

pn : [0, 1] → R, pn(x) :=

n∑

k=0

f(k

n

)

(

n

k

)

xk(1 − x)n−k

das n-te Bernstein-Polynom zu f . Wir behaupten:

∀ǫ > 0 ∃n0 ∈ N ∀n ≥ n0 ∀x ∈ [0, 1] :∣

∣f(x) − pn(x)∣

∣ ≤ ǫ. (⋆)

Page 53: STOCHASTIK I - Blu7 · STOCHASTIK I Sommersemester 2006 Dieses Skript entha¨lt (in geringfu¨gigem Umfang) Material, das in der Vorlesung selbst nicht besprochen wurde; in ‘besonders

52 3. Diskrete Wahrscheinlichkeitsraume und Zufallsgroßen

Sei also ǫ > 0. Da eine stetige Funktion auf einem kompakten Intervallgleichmaßig stetig ist, existiert ein δ = δ(ǫ) > 0 mit

∀x, y ∈ [0, 1] : |x − y| < δ ⇒∣

∣f(x) − f(y)∣

∣ < ǫ/2.

Außerdem sind stetige Funktionen auf kompakten Intervallen beschrankt, d.h.es gibt ein K < ∞ mit |f(x)| ≤ K fur alle x ∈ [0, 1]. Nach diesen analytischenVorbereitungen stellen wir nun wie folgt die Verbindung zur Stochastik her:Wahle x ∈ [0, 1]. Wir betrachten den n-fach wiederholten Wurf einer Munze,die mit Wahrscheinlichkeit x das Resultat 1 und sonst 0 liefert. Bezeichnet Xi

das Resultat des i-ten Wurfes, so ist nXn die Anzahl der 1-Ergebnisse, alsoBin(n, x)-verteilt, und es folgt

Ef(Xn) =

n∑

k=0

f(k

n

)

P(

nXn = k)

= pn(x).

Wie im Beweis zu Satz 3.32 erhalten wir

Pn

(

|Xn − x| ≥ δ)

≤x(1 − x)

nδ2≤

1

4nδ2,

denn x(1 − x) ≤ 1/4. Wahle nun n0 ∈ N so groß, dass die Ungleichung2K/(4n0δ

2) < ǫ/2 erfullt ist. Fur alle n ≥ n0 gilt dann

∣f(x) − pn(x)∣

∣ =∣

∣Ef(Xn) − f(x)∣

≤ E∣

∣f(Xn) − f(x)∣

∣ 1|Xn−x|<δ

+ E∣

∣f(Xn) − f(x)∣

∣ 1|Xn−x|≥δ

≤ǫ

2P

(

|Xn − x| < δ)

+ 2K P(

|Xn − x| ≥ δ)

< ǫ.

Damit ist (⋆) bewiesen. ⊳

Page 54: STOCHASTIK I - Blu7 · STOCHASTIK I Sommersemester 2006 Dieses Skript entha¨lt (in geringfu¨gigem Umfang) Material, das in der Vorlesung selbst nicht besprochen wurde; in ‘besonders

4. Allgemeine Wahrscheinlichkeitsraume

4.1 Mengensysteme. In Abschnitt 2.3.4 haben wir gesehen, dass man beiuberabzahlbarem Ergebnisraum Ω in der Regel nicht mehr allen TeilmengenA von Ω eine Wahrscheinlichkeit zuordnen kann. Der Definitionsbereich vonP soll aber haufig zumindest bestimmte Mengen enthalten, beispielsweise dieIntervalle im Falle Ω = R. Wir beschaftigen uns in diesem Unterabschnittzunachst ganz allgemein mit Mengensystemen.

Definition 4.1 Es sei Ω 6= ∅ und E ⊂ P(Ω). Dann heißt

σ(E) :=⋂

A⊃E,A σ−Algebra

A

die von E erzeugte σ-Algebra; E nennt man ein Erzeugendensystem zu A.

In dieser Definition haben wir stillschweigend von der (trivialen) Tatsache Ge-brauch gemacht, dass der Durchschnitt von beliebig vielen σ-Algebren uberderselben Grundmenge wieder eine σ-Algebra ist. Der obige Durchschnitt istubrigens nicht leer, denn es gilt E ⊂ P(Ω) und P(Ω) ist eine σ-Algebra. Derfur uns vorlaufig wichtigste Fall ist Ω = R.

Definition 4.2 Die von den LORA-Intervallen (a, b], −∞ < a < b < ∞,erzeugte σ-Algebra heißt die σ-Algebra der Borel-Mengen von R; Schreibweisen:B, B(R) oder BR.

Eine σ-Algebra A kann durchaus verschiedene Erzeugendensysteme haben,großere Mengensysteme erzeugen großere σ-Algebren und trivialerweise giltσ(A) = A. Als ‘general abstract nonsense’ formuliert: Die Abbildung E 7→ σ(E)ist isoton und idempotent, aber nicht injektiv.

Satz 4.3 Die σ-Algebra B(R) wird auch erzeugt von den Mengensystemen

E1 :=

[a, b) : −∞ < a < b <∞

(den ‘LARO-Intervallen’ ),

E2 :=

(−∞, a] : −∞ < a <∞

,

E3 :=

U ⊂ R : U offen

.

Beweis: Es sei E := (a, b] : −∞ < a < b < ∞ das Erzeugendendsystem ausder Definition von B. Es reicht, jeweils Ei ⊂ B und E ⊂ σ(Ei) zu zeigen: Dieerste Inklusion impliziert σ(Ei) ⊂ B, die zweite B (= σ(E)) ⊂ σ(Ei). Hierbei

Page 55: STOCHASTIK I - Blu7 · STOCHASTIK I Sommersemester 2006 Dieses Skript entha¨lt (in geringfu¨gigem Umfang) Material, das in der Vorlesung selbst nicht besprochen wurde; in ‘besonders

54 4. Allgemeine Wahrscheinlichkeitsraume

konnen wir die mengenalgebraischen Abgeschlossenheitseigenschaften von σ-Algebren gegenuber endlichen und abzahlbar unendlichen Vereinigungen undDurchschnitten sowie Komplementen verwenden. In diesem Sinne ergibt sichσ(E1) = B aus

[a, b) =

∞⋂

n=1

∞⋃

m=1

(

a−1

n, b−

1

m

]

, (a, b] =

∞⋃

n=1

∞⋂

m=1

[

a+1

n, b+

1

m

)

und σ(E2) = B folgt aus

(−∞, a] =∞⋃

n=1

(a− n, a], (a, b] = (−∞, b] ∩ (−∞, a]c.

Bei E3 verwenden wir, dass es zu jedem x aus einer offenen Menge U ein xenthaltendes Intervall (a, b] ⊂ U gibt, von dem wir annehmen konnen, dass dieEndpunkte rationale Zahlen sind:

U =⋃

(a,b)∈Q×Q: (a,b]⊂U

(a, b] .

Dies zeigt, dass jede offene Menge U ⊂ R als abzahlbare Vereinigung vonLORA-Intervallen dargestellt werden kann, also σ(E3) ⊂ B. Die Gegenrichtungfolgt aus der Darstellung

(a, b] =

∞⋂

n=1

(

a, b+1

n

)

und der bekannten Tatsache, dass offene Intervalle offene Mengen sind.

Dieser Satz impliziert, dass die Intervalle [a, b), (−∞, a] Borel-Mengen sind,ebenso wie alle offenen Mengen. Wegen

a =

∞⋂

n=1

(

a−1

n, a

]

sind auch alle Einpunktmengen und somit alle abzahlbaren Mengen wie bei-spielsweise Q Borel-Mengen, damit auch kompakte Intervalle, die irrationalenZahlen etc.; B ist fur alle praktischen Zwecke reichhaltig genug.

Ist A eine nicht-leere Teilmenge von R, so wird durch

BA = B ∩A : B ∈ B

eine σ-Algebra uber A definiert (Ubungsaufgabe), die Spur von B auf A; wirnennen BA auch das System der Borel-Mengen von A. In der Maßtheorie wirdder folgende wichtige Satz bewiesen.

Page 56: STOCHASTIK I - Blu7 · STOCHASTIK I Sommersemester 2006 Dieses Skript entha¨lt (in geringfu¨gigem Umfang) Material, das in der Vorlesung selbst nicht besprochen wurde; in ‘besonders

Mengensysteme 55

Satz 4.4 Es gibt ein Wahrscheinlichkeitsmaß P auf(

[0, 1),B[0,1)

)

mit derEigenschaft

P(

[a, b))

= b− a fur alle a, b mit 0 ≤ a < b < 1. (⋆)

Bemerkung 4.5 (a) Man kann zeigen, dass (⋆) auf die Eigenschaft (⋆) ausAbschnitt 2.3.4 fuhrt; wir werden spater sehen, dass (mit B[0,1) anstelle von A)auch die Gegenrichtung gilt. Satz 4.4 zeigt also, dass durch eine Verkleinerungdes Definitionsbereiches, die fur praktische Anwendungen bedeutungslos ist,tatsachlich das in Abschnitt 2.3.4 angesprochene Problem gelost wird.

(b) Man kann P auf (R,BR) fortsetzen durch

PR(B) := P(

B ∩ [0, 1))

fur alle B ∈ BR.

Umgekehrt erhalt man aus einem Wahrscheinlichkeitsmaß P auf (R,BR) einWahrscheinlichkeitsmaß P[0,1) auf

(

[0, 1),B[0,1)

)

durch

P[0,1)(B) := P (B ∩ [0, 1)),

wenn nur P ([0, 1)) = 1 gilt. Das Intervall [0, 1) lasst sich hierbei durch einA ∈ B mit P (A) = 1 ersetzen. In diesem Sinne nennt man das Wahrscheinlich-keitsmaß P aus Satz 4.4 die Gleichverteilung auf dem Einheitsintervall, ohnei.a. zu spezifizieren, ob man [0, 1), (0, 1], (0, 1) oder [0, 1] meint, denn wegen

P(

x)

= limn→∞

P([

x, x+1

n

))

= limn→∞

(

x+1

n− x

)

= 0

spielen die Randpunkte keine Rolle. Man schreibt fur P auch unif(0, 1), die‘uniforme’ Verteilung; eine weitere Bezeichnung, deren Sinn spater klar werdenwird, ist Rechteckverteilung .

(c) In der Maßtheorie nennt man ein Paar (Ω,A), Ω 6= ∅ und A eine σ-Algebrauber Ω, einen messbaren Raum, und eine Abbildung µ : A → [0,∞] ein Maß,wenn

µ(∅) = 0, µ(

∞∑

i=1

Ai

)

=∞∑

i=1

µ(Ai)

fur alle paarweise disjunkten A1, A2, . . . ∈ A gilt. In diesem Sinne sind Wahr-scheinlichkeiten ganz einfach normierte Maße. Die geometrische Variante desProblems aus Abschnitt 2.3.4 lautet: Lasst sich allen Teilmengen von R (oderallgemeiner R

d) sinnvoll eine Lange (allgemeiner, ein Volumen) zuordnen? Esist wieder eine Einschrankung des Definitionsbereiches notig, und man erhaltdann: Es gibt ein Mass ℓ (das Lebesgue-Maß) auf (R,B) mit

ℓ(

(a, b])

= b− a fur alle a < b, a, b ∈ R.

Man kann also unif(0, 1) als Einschrankung von ℓ auf das Einheitsintervallauffassen. ⊳

Page 57: STOCHASTIK I - Blu7 · STOCHASTIK I Sommersemester 2006 Dieses Skript entha¨lt (in geringfu¨gigem Umfang) Material, das in der Vorlesung selbst nicht besprochen wurde; in ‘besonders

56 4. Allgemeine Wahrscheinlichkeitsraume

Wir mussen uns nun mit dem Problem der Eindeutigkeit auseinandersetzen—ist beispielsweise unif(0, 1) durch (⋆) eindeutig bestimmt? Hierzu verwendenwir ein auch spater sehr nutzliches Hilfsmittel.

Definition 4.6 Es sei Ω eine nicht-leere Menge. Dann heißt D ⊂ P(Ω) einDynkin-System, wenn gilt

(i) Ω ∈ D, (ii) A ∈ D ⇒ Ac ∈ D,

(iii) A1, A2, . . . ∈ D mit Ai ∩Aj = ∅ fur i 6= j =⇒⋃∞

i=1Ai ∈ D.

Im Vergleich zu σ-Algebren wird also die Forderung der Abgeschlossenheit ge-genuber beliebigen abzahlbaren Vereinigungen auf disjunkte Vereinigungen ab-geschwacht. Der Durchschnitt von beliebig vielen Dynkin-Systemen ist offen-sichtlich wieder ein Dynkin-System, wir konnen also von

δ(E) :=⋂

D⊃E,D Dynkin-System

D

als dem von E erzeugten Dynkin-System sprechen.

Dynkin-Systeme sind ‘fast’ σ-Algebren. Um dies prazisieren zu konnen, benoti-gen wir den folgenden Begriff: Wir nennen ein Mengensystem E durchschnitts-

stabil und schreiben kurz ∩-stabil, wenn gilt

A,B ∈ E =⇒ A ∩B ∈ E.

Der folgende Satz zeigt, dass genau diese Eigenschaft den Schritt vom Dynkin-System zur σ-Algebra ermoglicht.

Satz 4.7 (a) Ein ∩-stabiles Dynkin-System ist eine σ-Algebra.

(b) Ist E ∩-stabil, so gilt δ(E) = σ(E).

Beweis: (a) Es seien A1, A2, . . . ∈ D (nicht notwendigerweise disjunkt!). Wirwollen zeigen, dass

⋃∞n=1An ∈ D gilt und setzen hierzu B1 := A1,

Bn := An ∩Ac1 ∩ . . . ∩A

cn−1

(

= An \ (A1 ∪ . . . ∪An−1))

fur alle n > 1. Durchschnittsstabilitat und Eigenschaft (ii) liefern Bn ∈ D furalle n ∈ N. Offensichtlich sind die Bn’s disjunkt, also gilt nach Eigenschaft (iii)⋃∞

n=1Bn ∈ D. Mit∞⋃

n=1

Bn =

∞⋃

n=1

An

Page 58: STOCHASTIK I - Blu7 · STOCHASTIK I Sommersemester 2006 Dieses Skript entha¨lt (in geringfu¨gigem Umfang) Material, das in der Vorlesung selbst nicht besprochen wurde; in ‘besonders

Zufallsgroßen und Verteilungen 57

folgt nun die gewunschte Aussage (eine ahnliche Konstruktion wurde bereitsim Beweis von Satz 1.7 verwendet).

(b) Da jede σ-Algebra ein Dynkin-System ist, folgt δ(E) ⊂ σ(E) unmittelbaraus den beteiligten Definitionen. Es sei nun, fur jedes A ∈ δ(E),

DA :=

B ⊂ Ω : B ∩A ∈ δ(E)

.

Dann ist DA ein Dynkin-System: (i) und (iii) sind trivial, (ii) folgt mit

Bc ∩A = (Ac +B ∩A+ Ωc + Ωc + . . .)c .

Da E ∩-stabil ist, gilt E′ ∈ DE fur alle E,E′ ∈ E, also E ⊂ DE und damitδ(E) ⊂ DE fur alle E ∈ E, denn DE ist ja ein Dynkin-System. Dies heißt

D ∈ δ(E), E ∈ E =⇒ D ∩E ∈ δ(E),

also E ∈ DD fur alle E ∈ E, D ∈ δ(E). Dies wiederum liefert E ⊂ DD, alsoδ(E) ⊂ DD fur alle D ∈ δ(E) und damit

A ∈ δ(E), D ∈ δ(E) =⇒ A ∩D ∈ δ(E).

Also ist δ(E) ∩-stabil und δ(E) ⊃ σ(E) folgt mit Teil (a).

Satz 4.8 Es sei A eine σ-Algebra mit ∩-stabilem Erzeuger E. Sind dann Pund Q Wahrscheinlichkeitsmaße auf A mit der Eigenschaft

P (E) = Q(E) fur alle E ∈ E,

so gilt

P (A) = Q(A) fur alle A ∈ A.

Beweis: Es sei

D :=

A ∈ A : P (A) = Q(A)

.

Dann gilt E ⊂ D und D ist, wie man leicht uberpruft, ein Dynkin-System.Satz 4.7 (b) liefert nun

D ⊃ δ(E) = σ(E) = A.

Page 59: STOCHASTIK I - Blu7 · STOCHASTIK I Sommersemester 2006 Dieses Skript entha¨lt (in geringfu¨gigem Umfang) Material, das in der Vorlesung selbst nicht besprochen wurde; in ‘besonders

58 4. Allgemeine Wahrscheinlichkeitsraume

Stimmen also zwei Wahrscheinlichkeitsmaße auf einem ∩-stabilen Erzeugeruberein, so sind sie gleich. Die Mengen [a, b), 0 ≤ a ≤ b < 1, bilden ein Er-zeugendensystem von B[0,1) (Ubungsaufgabe); dieses ist offensichtlich ∩-stabil.Insbesondere gibt es also nur ein Wahrscheinlichkeitsmaß auf B[0,1) mit derEigenschaft (⋆) und wir konnen von der Gleichverteilung auf dem Einheits-intervall sprechen.

4.2 Zufallsgroßen und Verteilungen. Wie im diskreten Fall interessiertman sich auch im allgemeinen Fall oft nicht fur das exakte Resultat ω ∈ Ωeines Zufallsexperiments, sondern nur fur den Wert X(ω) einer Funktion Xhiervon, und es geht dann um die Wahrscheinlichkeit, dass X in einer be-stimmten Menge landet. Da unser Wahrscheinlichkeitsmaß nun u.U. nicht mehrauf der gesamten Potenzmenge des Ergebnisraums definiert ist, ist nicht mehrautomatisch gewahrleistet, dass P (X ∈ A) uberhaupt ‘legal’ ist. Wir schreibenweiterhin X ∈ A oder X−1(A) fur ω ∈ Ω : X(ω) ∈ A.

Definition 4.9 Es seien (Ω,A, P ) ein Wahrscheinlichkeitsraum und (Ω′,A′)ein messbarer Raum. Eine Abbildung X : Ω → Ω′ heißt Zufallsgroße (auf(Ω,A, P ) und mit Werten in (Ω′,A′)), wenn X (A,A′)-messbar ist, d.h. wenngilt:

X−1(A′) ∈ A fur alle A′ ∈ A′.

Fur eine Zufallsgroße sind also die Wahrscheinlichkeiten dafur, dass ein Wertin einer messbaren Menge des Bildraums angenommen wird, definiert. DerBegriff Messbarkeit stammt (naturlich) aus der Maßtheorie. Die folgende Ana-logie zur Topologie ist gelegentlich hilfreich: Auf einer Menge M wird eineTopologie durch das System U ⊂ P(U) der offenen Mengen beschrieben. EineAbbildung f : M → M ′ von einem topologischen Raum (M,U) in einen wei-teren topologischen Raum (M ′,U′) heißt stetig, wenn f−1(U ′) ∈ U gilt fur alleU ′ ∈ U′. Also: Messbarkeit heißt, dass die Urbilder messbarer Mengen messbarsind, Stetigkeit heißt, dass die Urbilder offener Mengen offen sind. Naturlich istim Falle A = P(Ω) die BedingungX−1(A′) ∈ A sogar fur alle A′ ∈ P(Ω′) erfullt— dies ist der Grund dafur, dass wir bei diskreten Wahrscheinlichkeitsraumenohne den Messbarkeitsbegriff ausgekommen sind.

Es ist bekannt, dass Verknupfungen stetiger Funktionen wieder stetig sind; derfolgende Satz enthalt den entsprechenden maßtheoretischen Sachverhalt.

Satz 4.10 Es seien (Ω,A), (Ω′,A′), (Ω′′,A′′) messbare Raume sowie X :Ω → Ω′, Y : Ω′ → Ω′′ (A,A′)- bzw. (A′,A′′)-messbare Abbildungen. Dann istZ := Y X (A,A′′)-messbar.

Page 60: STOCHASTIK I - Blu7 · STOCHASTIK I Sommersemester 2006 Dieses Skript entha¨lt (in geringfu¨gigem Umfang) Material, das in der Vorlesung selbst nicht besprochen wurde; in ‘besonders

Zufallsgroßen und Verteilungen 59

Beweis: Fur alle A′′ ∈ A′′ gilt

Z−1(A′′) =

ω ∈ Ω : Y (X(ω)) ∈ A′′

= X−1(

ω′ ∈ Ω′ : Y (ω′) ∈ A′′)

= X−1(

Y −1(A′′))

∈ A,

denn A′ := Y −1(A′′) ∈ A′, X−1(A′) ∈ A gilt aufgrund der vorausgesetztenMessbarkeiten.

Beim Nachweis der Messbarkeit kann man sich auf Erzeugendensysteme be-schranken:

Satz 4.11 Es seien (Ω,A) und (Ω′,A′) messbare Raume und X : Ω → Ω′ eineAbbildung. Ist E′ ⊂ P(Ω′) ein Erzeugendensystem von A′ und gilt

X−1(E′) ∈ A fur alle E′ ∈ E′,

so ist X (A,A′)-messbar.

Beweis: Es sei A0 = A′ ⊂ Ω′ : X−1(A′) ∈ A. Dann ist A0 eine σ-Algebrauber Ω′: X−1(Ω′) = Ω ∈ A, also gilt Ω′ ∈ A0. Weiter hat man

X−1(Ac) = ω ∈ Ω : X(ω) /∈ A =(

ω ∈ Ω : X(ω) ∈ A)c

=(

X−1(A))c,

also giltA ∈ A0 =⇒ X−1(A) ∈ A =⇒

(

X−1(A))c

∈ A

=⇒ X−1(Ac) ∈ A =⇒ Ac ∈ A0.

Analog erhalt man mit

X−1(

∞⋃

n=1

An

)

=

∞⋃

n=1

X−1(An)

die dritte definierende Eigenschaft einer σ-Algebra. Nach Voraussetzung giltE′ ⊂ A0, also A′ = σ(E′) ⊂ A0 und damit X−1(A′) ∈ A fur alle A′ ∈ A′.

Schließlich haben wir die folgende Verallgemeinerung von Satz 3.2.

Satz und Definition 4.12 Ist X eine (Ω′,A′)-wertige Zufallsgroße auf(Ω,A, P ), so wird durch

A′ ∋ A′ 7→ P (X ∈ A′)(

= P(

ω ∈ Ω : X(ω) ∈ A′)

)

ein Wahrscheinlichkeitsmaß auf (Ω′,A′) definiert. Dieses Wahrscheinlichkeits-maß heißt die Verteilung von X, Schreibweisen: PX oder L(X).

Page 61: STOCHASTIK I - Blu7 · STOCHASTIK I Sommersemester 2006 Dieses Skript entha¨lt (in geringfu¨gigem Umfang) Material, das in der Vorlesung selbst nicht besprochen wurde; in ‘besonders

60 4. Allgemeine Wahrscheinlichkeitsraume

Bei Beachtung der Messbarkeit ist der Beweis identisch zum Beweis im diskre-ten Fall. In der Sprache der Maßtheorie ist die Verteilung einer Zufallsgroßedas durch die messbare Abbildung auf dem Bildraum induzierte Bildmaß.

Beispiel 4.13 Es sei (Ω,A, P ) =(

[0, 1),B[0,1), unif(0, 1))

. Fur jedes x ∈ Ωwerde Tx : Ω → Ω definiert durch

Tx(y) :=

y − x, wenn y ≥ x,y − x+ 1, wenn y < x.

Fur alle A ∈ A gilt dann

T−1x (A) = y ∈ Ω : y − x ∈ A oder y − x+ 1 ∈ A = x+A (mod 1),

insbesondere also

T−1x

(

[0, a))

=

[x, x+ a), wenn x+ a ≤ 1,[0, x+ a− 1) ∪ [x, 1), wenn x+ a > 1

∈ A .

Mit σ(

[0, a) : 0 < a ≤ 1)

= A und Satz 4.11 folgt hieraus die (A,A)-Messbarkeit von Tx. Man sieht auch, dass

P(

T−1x ([0, a))

)

= a = P ([0, a))

fur alle a ∈ (0, 1] gilt, mit Satz 4.8 folgt also PTx = P . Dies wiederum liefert

P (x+A) = P (A) fur alle A ∈ A,

d.h. das Wahrscheinlichkeitsmaß unif(0, 1) hat die Eigenschaft (⋆) (Transla-tionsinvarianz modulo 1). ⊳

4.3 Reellwertige Zufallsgroßen. Wie in der in Abschnitt 3 behandel-ten diskreten Situation verdient der Fall, in dem R der Wertebereich der Zu-fallsgroßen ist, besondere Beachtung. Eine reellwertige Zufallsgroße nennen wirauch Zufallsvariable (kurz: ZV). Es sei (Ω,A, P ) ein Wahrscheinlichkeitsraum;als σ-Algebra auf R werden wir grundsatzlich die σ-Algebra B der Borel-Mengennehmen. Aus Satz 4.3 und Satz 4.11 folgt unmittelbar, dass X : Ω → R genaudann eine Zufallsvariable, also (A,B)-messbar ist, wenn X−1((−∞, a]) ∈ Ωfur alle a ∈ R erfullt ist. Den einfachsten Fall solcher Abbildungen liefern dieIndikatorfunktionen: Wegen

1−1A

(

(−∞, a])

=

∅, a < 0,Ac, 0 ≤ a < 1,Ω, a ≥ 1,

ist 1A genau dann eine Zufallsvariable, wenn A ∈ A gilt. Durch den UbergangA 7→ 1A werden also die messbaren Mengen in den Raum der messbaren Ab-bildungen eingebettet.

Haufig werden mit einer Zufallsvariablen X Operationen ausgefuhrt, im Zu-sammenhang mit der Streuung ist beispielsweise X2 interessant. Ist X2 wiedereine Zufallsvariable?

Page 62: STOCHASTIK I - Blu7 · STOCHASTIK I Sommersemester 2006 Dieses Skript entha¨lt (in geringfu¨gigem Umfang) Material, das in der Vorlesung selbst nicht besprochen wurde; in ‘besonders

Reellwertige Zufallsgroßen 61

Satz 4.14 Ist g : R → R stetig oder (schwach) monoton steigend oder fallend,so ist g (B,B)-messbar.

Beweis: Ist g stetig, so ist g−1(U) fur jede offene Menge offen, also in B.Hieraus folgt die Behauptung mit Satz 4.3 und Satz 4.11. Der Beweis furmonotone Funktionen g ist Gegenstand einer Ubungsaufgabe.

Ist X eine Zufallsvariable, so kann X2 als Verknupfung der (A,B)-messbarenAbbildung X und der (B,B)-messbaren, weil stetigen, Abbildung g : R → R,g(x) = x2, angesehen werden, ist nach Satz 4.10 also (A,B)-messbar und damitwieder eine Zufallsvariable. Wird eine neue Abbildung aus mehreren Zufalls-variablen zusammengesetzt, so lasst sich haufig der folgende Satz anwenden.

Satz 4.15 (a) Sind X und Y Zufallsvariablen auf (Ω,A, P ), so liegen dieMengen X < Y , X ≤ Y , X = Y und X 6= Y in A (hierbei stehtX < Y fur die Menge ω ∈ Ω : X(ω) < Y (ω) etc.).

(b) Sind X,Y Zufallsvariablen auf (Ω,A, P ) und α, β ∈ R, so sind auch

αX + β, X + Y, X · Y, X ∧ Y, X ∨ Y

Zufallsvariablen. (a ∧ b := mina, b, a ∨ b := maxa, b)

(c) Ist (Xn)n∈N eine Folge von Zufallsvariablen auf (Ω,A, P ), so sind auch

supn∈N

Xn, infn∈N

Xn, lim supn→∞

Xn, lim infn→∞

Xn

Zufallsvariablen (vorausgesetzt, diese Großen sind R-wertig). Gilt Xn(ω) →X(ω) fur alle ω ∈ Ω, so ist auch X eine Zufallsvariable.

Beweis: (a) Durch X < Y =⋃

q∈QX < q ∩ Y > q wird die Menge

X < Y als zugelassene Kombination messbarer Mengen dargestellt. WegenX ≤ Y = Y < Xc, X = Y = X ≤ Y ∩ X < Y c, X 6= Y = X =Y c liegen dann auch die anderen Mengen in A.

(b) Die Abbildung x→ αx+β ist stetig, also ist αX+β als Verknupfung mess-barer Abbildungen messbar (siehe auch das obige Argument fur X2). Weitererhalt man mit dem bereits bewiesenen Teil (a)

X + Y ≤ a = X ≤ a− Y ∈ A fur alle a ∈ R,

denn a− Y ist ein Zufallsvariable, folglich ist X + Y messbar. Mit

X · Y =1

4

(

(X + Y )2 − (X − Y )2)

Page 63: STOCHASTIK I - Blu7 · STOCHASTIK I Sommersemester 2006 Dieses Skript entha¨lt (in geringfu¨gigem Umfang) Material, das in der Vorlesung selbst nicht besprochen wurde; in ‘besonders

62 4. Allgemeine Wahrscheinlichkeitsraume

folgt dann auch die Messbarkeit von X · Y , mit

X ∨ Y ≤ a = X ≤ a ∩ Y ≤ a, X ∧ Y ≤ a = X ≤ a ∪ Y ≤ a

die von X ∨ Y und X ∧ Y (hierbei haben wir wiederholt verwendet, dass X(A,B)-messbar ist, wenn X ≤ a ∈ A gilt fur alle a ∈ R).

(c) Ahnlich wie bei Teil (b) erhalt man

supn∈N

Xn ≤ a

=

∞⋂

n=1

Xn ≤ a ∈ A.

Die Messbarkeit der anderen Abbildungen ergibt sich nun mit

infn∈N

Xn = − supn∈N

(−Xn),

lim supn→∞

Xn = infn∈N

supm≥n

Xm,

lim infn→∞

Xn = supn∈N

infm≥n

Xm.

Konvergiert Xn mit n→ ∞ punktweise gegen X , so gilt X = lim supn→∞Xn,also ist X eine Zufallsvariable.

Im Teil (c) lasst sich die Einschrankung auf R-wertige Abbildungen beseitigen,wenn man R zu R := R ∪ −∞ ∪ +∞

(

= [−∞,∞])

erweitert und auch B

passend erganzt zu B(R) := σ(

B ∪ −∞, ∞)

.

4.4 Verteilungsfunktionen. Die Verteilung einer reellwertigen Zufallsgroßeist ein Wahrscheinlichkeitsmaß auf (R,B), also eine Abbildung von B nach[0, 1]. Wir wollen nun zeigen, dass sich solche Wahrscheinlichkeitsmaße durchAbbildungen von R nach [0, 1] beschreiben lassen.

Definition 4.16 Die Verteilungsfunktion F zu einem WahrscheinlichkeitsmaßP auf (R,B) wird definiert durch

F : R → R, F (x) := P(

(−∞, x])

fur alle x ∈ R.

Ist P die Verteilung einer Zufallsvariablen X , so nennen wir F auch die Ver-teilungsfunktion zu X .

Da die Mengen (−∞, x], x ∈ R, ein ∩-stabiles Erzeugendensystem von B bilden(Satz 4.3), wird P durch das zugehorige F eindeutig festgelegt (Satz 4.8).

Page 64: STOCHASTIK I - Blu7 · STOCHASTIK I Sommersemester 2006 Dieses Skript entha¨lt (in geringfu¨gigem Umfang) Material, das in der Vorlesung selbst nicht besprochen wurde; in ‘besonders

Verteilungsfunktionen 63

Satz 4.17 Ist F die Verteilungsfunktion zu einem Wahrscheinlichkeitsmaß Pauf (R,B), so hat F die folgenden Eigenschaften:

(i) limx→−∞ F (x) = 0, limx→+∞ F (x) = 1,

(ii) F ist (schwach) monoton steigend,

(iii) F ist stetig von rechts.

Beweis: (ii) folgt unmittelbar aus der Monotonie von P (siehe Satz 1.6 (d)).

(i): Sei (xn)n∈N ⊂ R mit limn→∞ xn = −∞ (d.h. ∀c ∈ R ∃n0 ∈ N ∀n ≥ n0 :xn ≤ c). Setze yn := supm≥n xm. Dann gilt yn ↓ −∞, also (−∞, yn] ↓ ∅, undes folgt mit der Stetigkeit von P in ∅ (Satz 1.7 (d))

0 ≤ F (xn) = P(

(−∞, xn])

≤ P(

(−∞, yn])

→ 0

mit n → ∞. Die andere Aussage erhalt man analog mit der Stetigkeit von Pvon unten (in R, Satz 1.7 (b)).

(iii) Ist (xn)n∈N ⊂ R mit xn ≥ x fur alle n ∈ N und xn → x, so gilt yn ↓ x furyn := supm≥n xm, also

F (x) = P(

(−∞, x])

≤ P(

(−∞, xn])

= F (xn) ≤ P(

(−∞, yn])

→ P ((−∞, x]) = F (x),

wobei wir wieder eine Stetigkeitseigenshaft von P verwendet haben.

Wir wollen nun zeigen, dass die obige Liste vollstandig ist, d.h. dass zu je-der Funktion F mit den Eigenschaften (i)-(iii) ein Wahrscheinlichkeitsmaß Pexistiert, dessen Verteilungsfunktion F ist.

Definition 4.18 Es sei F eine Funktion mit den Eigenschaften (i)-(iii) ausSatz 4.17. Dann definieren wir die Quantilfunktion Q zu F durch

Q : (0, 1) → R, Q(y) := inf

x ∈ R : F (x) ≥ y

.

Wir schreiben auch F−1 fur die Quantilfunktion zu F .

Ist X eine Zufallsvariable mit Verteilungsfunktion F , so nennt man F−1(α)(0 < α < 1) das α-Quantil zu X (bzw. L(X) oder F ); es ist dies der kleinsteWert qα mit der Eigenschaft, dass der Wert von X mit Mindestwahrschein-lichkeit α nicht großer ist. Nur wenn F stetig und streng monoton wachsendist, ist F−1 die Umkehrfunktion von F im ublichen Sinne.

Page 65: STOCHASTIK I - Blu7 · STOCHASTIK I Sommersemester 2006 Dieses Skript entha¨lt (in geringfu¨gigem Umfang) Material, das in der Vorlesung selbst nicht besprochen wurde; in ‘besonders

64 4. Allgemeine Wahrscheinlichkeitsraume

Lemma 4.19 y ≤ F (x) ⇐⇒ F−1(y) ≤ x.

Beweis: ‘⇒’ folgt unmittelbar aus der Definition von F−1. Da außerdem

F (x) < y =⇒ F(

x+1

n

)

< y fur ein n ∈ N (denn F ist stetig von rechts)

=⇒ F−1(y) ≥ x+1

n(denn F ist schwach monoton steigend)

=⇒ F−1(y) > x

gilt, hat man auch die Gegenrichtung.

Satz 4.20 Es sei F : R → R eine Funktion mit den Eigenschaften (i)-(iii)aus Satz 4.17. Dann existiert ein Wahrscheinlichkeitsmaß P auf (R,B) mitVerteilungsfunktion F .

Beweis: Es sei Ω = (0, 1), A = B(0,1) und P0 = unif(0, 1). Wir definierenX : Ω → R durch X(ω) := F−1(ω). Dann ist X eine Zufallsvariable (nacheiner Ubungsaufgabe folgt Messbarkeit von F−1 aus der Monotonie von F−1),und Lemma 4.19 liefert fur P := L(X)

P(

(−∞, x])

= P0(X ≤ x)

= P0

(

ω ∈ Ω : F−1(ω) ≤ x)

= P0

(

(0, F (x)])

= F (x).

Der Ubergang von P : B → R zu F : R → R, der letzlich durch die spezielleStruktur von (R,B) ermoglicht wird, bedeutet eine erhebliche Vereinfachung.Satz 4.20 zeigt auch, dass es zu jedem Wahrscheinlichkeitsmaß auf (R,B) eineZufallsvariable mit diesem Wahrscheinlichkeitsmaß als Verteilung gibt.

In den Ubungen wird gezeigt, dass Verteilungsfunktionen linksseitige Limitenhaben, d.h. fur alle x ∈ R existiert

F (x−) := limy↑x,y<x

F (y),

und dass die Wahrscheinlichkeit, mit der X einen Wert x annimmt, durch dieSprunghohe F (x) − F (x−) von F in x gegeben wird. Insbesondere bestehtdie Verteilungsfunktion zu einer diskreten Zufallsvariablen nur aus Sprungen.Ist f : R → R eine Funktion mit

∫ ∞

−∞ f(x) dx = 1, so wird nach den obigenResultaten durch

P(

(−∞, x])

:=

∫ x

−∞

f(y) dy fur alle x ∈ R

Page 66: STOCHASTIK I - Blu7 · STOCHASTIK I Sommersemester 2006 Dieses Skript entha¨lt (in geringfu¨gigem Umfang) Material, das in der Vorlesung selbst nicht besprochen wurde; in ‘besonders

Einige wichtige Verteilungen mit Riemann-Dichten 65

ein Wahrscheinlichkeitsmaß auf (R,B) definiert, das Wahrscheinlichkeitsmaßmit der Riemann-Dichte f . Hat die Zufallsvariable X eine solche VerteilungP , so nennen wir f eine Wahrscheinlichkeitsdichte von X . Zufallsvariablen miteiner Dichte werden gelegentlich ‘stetig’ genannt (als Gegensatz zu ‘diskret’) —dies bezieht sich nicht auf X als Abbildung, sondern ist nur als Abkurzung von‘X ist absolutstetig verteilt’ zu verstehen. Ist f stetig in x, so ist die zugehorigeVerteilungsfunktion F ,

F (x) =

∫ x

−∞

f(y) dy fur alle x ∈ R,

in x differenzierbar, und es gilt F ′(x) = f(x).

Beispiel 4.21 Im Falle P = unif(0, 1) hat man

P(

(−∞, x])

=

∫ x

−∞

f(y) dy fur alle x ∈ R

mit

f(y) =

1, 0 < y < 10, sonst

(

= 1(0,1)(y))

.

Wahrscheinlichkeitsdichten sind in mancher Hinsicht ein infinitesimales Ana-logon zu Wahrscheinlichkeitsmassenfunktionen, konnen aber durchaus Wertegroßer als 1 annehmen. Ganz allgemein gilt fur eine Zufallsvariable X mitDichte f :

P (X ∈ A) =

A

f(x) dx,

die Wahrscheinlichkeiten ergeben sich also als Flache unter der Dichtefunktion.Da wir hier nur das Riemann-Integral voraussetzen, macht die rechte Seitenicht fur alle Borel-Mengen Sinn — dies wird erst durch den (in der Maßtheoriebzw. der Stochastik II ausgefuhrten) Ubergang zum Lebesgue-Integral erreicht.

4.5 Einige wichtige Verteilungen mit Riemann-Dichten.

4.5.1 Die Funktion

fa,b : R → R, fa,b(x) =

1/(b− a), a < x < b,0, sonst,

hat fur alle a, b ∈ R mit a < b die Eigenschaften

fa,b(x) ≥ 0 fur alle x ∈ R,

∫ ∞

−∞

fa,b(x) dx = 1,

Page 67: STOCHASTIK I - Blu7 · STOCHASTIK I Sommersemester 2006 Dieses Skript entha¨lt (in geringfu¨gigem Umfang) Material, das in der Vorlesung selbst nicht besprochen wurde; in ‘besonders

66 4. Allgemeine Wahrscheinlichkeitsraume

ist also Dichte eines Wahrscheinlichkeitsmaßes auf (R,B). Wir nennen diesesWahrscheinlichkeitsmaß die Gleich- oder Rechteckverteilung auf dem Intervall(a, b) (die Randpunkte spielen keine Rolle) und schreiben hierfur unif(a, b).Offensichtlich verallgemeinert dies die zu Beginn dieses Abschnitts eingefuhrteGleichverteilung auf dem Einheitsintervall. Alle diese Verteilungen gehen durchaffine Transformationen auseinander hervor: Hat X die Verteilung unif(0, 1),so gilt fur die Zufallsvariable Y := a+ (b− a)X

P (Y ≤ y) = P(

X ≤y − a

b− a

)

=y − a

b − afur a < y < b,

P (Y ≤ y) = 0 fur y ≤ a,

P (Y ≤ y) = 1 fur y ≥ b,

also insgesamt

P (Y ≤ y) =

∫ y

−∞

fab(x) dx fur alle y ∈ R,

d.h. Y ∼ unif(a, b). (Wir haben Satz 4.15 (b) verwendet.)

Beispiel 4.22 Ein Stab der Lange 1 zerbricht an einer zufalligen Stelle. Wirmachen die (einigermaßen unrealistische) Annahme, dass alle Bruchpositionengleich wahrscheinlich sind und erhalten dann als Modell fur dieses Zufallsexpe-riment den Wahrscheinlichkeitsraum (Ω,A, P ) mit Ω = (0, 1), A = B(0,1) undP = unif(0, 1). Die Lange des kurzeren Stucks ist X(ω) = minω, 1−ω, nachSatz 4.15 ist dies eine Zufallsvariable. Welche Verteilung hat X? Offensicht-lich gilt P (X ≤ x) = 0 fur x < 0 und P (X ≤ x) = 1 fur x ≥ 1/2, und furx ∈ (0, 1/2) erhalt man

P (X ≤ x) = P(

ω ∈ (0, 1) : ω ≤ x oder 1 − ω ≤ x)

= P(

(0, x] ∪ [1 − x, 1))

= 2x.

Dies ist die Verteilungsfunktion zu unif(0, 1/2), also ist X wieder gleichverteilt,nun auf dem Intervall (0, 1/2). ⊳

4.5.2 Die Gamma-Verteilung mit Parametern α und λ (α > 0, λ > 0) ist dieVerteilung mit der Dichte

fα,λ(x) =

1Γ(α)

xα−1λαe−λx, x > 0,0, x ≤ 0,

wobei Γ(z) =∫ ∞

0xz−1e−x dx die Gamma-Funktion bezeichnet. Wir schreiben

hierfur auch Γ(α, λ) und kurz X ∼ Γ(α, λ), wenn die Zufallsvariable X dieseVerteilung hat. Diese Klasse von Wahrscheinlichkeitsmaßen taucht in verschie-denen Zusammenhangen auf. Besonders wichtig ist der Fall α = 1, der aufdie Exponentialverteilungen fuhrt (diese werden in einer Ubungsaufgabe naherbehandelt).

Page 68: STOCHASTIK I - Blu7 · STOCHASTIK I Sommersemester 2006 Dieses Skript entha¨lt (in geringfu¨gigem Umfang) Material, das in der Vorlesung selbst nicht besprochen wurde; in ‘besonders

Einige wichtige Verteilungen mit Riemann-Dichten 67

4.5.3 Die Normalverteilung mit Parametern µ und σ2, kurz N(µ, σ2), wobeiµ ∈ R beliebig und σ2 > 0, ist die Verteilung mit der Dichte

φµ,σ2(x) :=1

√2πσ2

exp(

−1

2σ2(x− µ)2

)

, x ∈ R.

Als Graph erhalt man die beruhmte Gaußsche Glockenkurve; die Parameter µund σ beschreiben die Lage und Breite von φ. Im Falle µ = 0, σ2 = 1 sprichtman von den Standardparametern, N(0, 1) ist die Standardnormalverteilung .Offensichtlich gilt

φµ,σ2 (x) =1

σφ0,1

(x− µ

σ

)

fur alle x ∈ R.

Die Verteilungsfunktion zu N(0, 1) ist Φ,

Φ : R → [0, 1], Φ(x) :=

∫ x

−∞

1√

2πe−y2/2 dy.

Eine Variante hiervon ist auch als ‘Fehlerfunktion’ bekannt. Die FunktionΦ ist vertafelt und in gangigen Softwarepaketen enthalten. Die statistischenAnwendungen sind die zugehorige α-Quantile von Bedeutung; fur α = 0.9,0.95, 0.975, 0.99, 0.995 erhalt man die Werte 1.2816, 1.6449, 1.9600, 2.3263und 2.5758.

Lemma 4.23 (a)∫ ∞

−∞φµ,σ2 (x) dx = 1 fur alle µ ∈ R, σ2 > 0,

(b) Φ(x) = 1 − Φ(−x) fur alle x ∈ R,

(c) X ∼ N(µ, σ2), a 6= 0, b ∈ R =⇒ Y := aX + b ∼ N(aµ+ b, a2σ2).

Beweis: (a) Substitution y = σ−1(x− µ) zeigt, dass es reicht, den Fall µ = 0,σ2 = 1 zu behandeln. Standardtechniken der Analysis (Transformation aufPolarkoordinaten) ergeben

(∫ ∞

−∞

e−x2/2 dx

)2

=

∫ ∞

−∞

∫ ∞

−∞

e−(x2+y2

)/2 dx dy

=

∫ 2π

0

∫ ∞

0

r e−r2/2 dr dφ

=

∫ 2π

0

(

−e−r2/2)

0dφ = 2π.

(b) folgt mit φ(−x) = φ(x).

Page 69: STOCHASTIK I - Blu7 · STOCHASTIK I Sommersemester 2006 Dieses Skript entha¨lt (in geringfu¨gigem Umfang) Material, das in der Vorlesung selbst nicht besprochen wurde; in ‘besonders

68 4. Allgemeine Wahrscheinlichkeitsraume

(c) Im Falle a > 0 erhalt man mit der Substitution x′ = ax+ b

P (Y ≤ y) = P(

X ≤y − b

a

)

=

∫y−b

a

−∞

1√

2πσ2exp

(

−1

2σ2(x− µ)2

)

dx

=

∫ y

−∞

1√

2πσ2a2exp

(

−1

2σ2a2

(

x′ − (aµ+ b))2

)

dx′ .

Dies zeigt, dass die Verteilungsfunktion zu Y die Verteilungsfunktion zuN(aµ+b, a2σ2) ist, also Y ∼ N(aµ+ b, a2σ2) gilt.

Teil (a) ist ein Nachtrag: φµ,σ2 ist tatsachlich eine Wahrscheinlichkeitsdichte.Wegen (b) und (c) reicht es, die Verteilungsfunktionen zu N(µ, σ2) fur dieStandardparameter und Argumente ≥ 0 zu vertafeln; beispielsweise gilt uα =−u1−α fur die Quantile uα zu N(0, 1). In Kombination mit den oben genanntenQuantilen ergibt sich als typische Anwendung von Lemma 4.23 (b) und (c) dieAussage, dass

P(

|X − µ| > 1.96σ)

≈ 0.05

gilt, wenn X normalverteilt ist mit Parametern µ und σ2.

Eines der wichtigsten Resultate der Stochastik, der Zentrale Grenzwertsatz,besagt, dass Normalverteilungen unter bestimmten, recht allgemeinen Bedin-gungen als Grenzwerte bei (standardisierten) Summen von unabhangigen Zu-fallsvariablen auftauchen. Dieses Thema wird in der Stochastik II im Detailbehandelt; wir begnugen uns hier mit einem wichtigen Spezialfall und verzich-ten beim Beweis auf die vollstandige Ausarbeitung der technischen Details.

Satz 4.24 (de Moivre-Laplace)Es sei (Xn)n∈N eine Folge von Zufallsgroßen mit Xn ∼ Bin(n, p) fur alle n ∈ N,mit einem festen p, 0 < p < 1. Dann gilt fur alle a, b ∈ R mit a < b

limn→∞

P(

a ≤Xn − np

np(1 − p)≤ b

)

=1

√2π

∫ b

a

e−x2/2 dx.

Beweisskizze: Wir setzen σ2n := np(1 − p) und xn(k) := σ−1

n (k − np). Danngilt

P(

a ≤Xn − np

np(1 − p)≤ b

)

=∑

k: a≤xn(k)≤b

1

σn

φn

(

xn(k))

(⋆)

Page 70: STOCHASTIK I - Blu7 · STOCHASTIK I Sommersemester 2006 Dieses Skript entha¨lt (in geringfu¨gigem Umfang) Material, das in der Vorlesung selbst nicht besprochen wurde; in ‘besonders

Einige wichtige Verteilungen mit Riemann-Dichten 69

mit

φn(x) := σnP( Xn − np

np(1 − p)= x

)

,

also

φn

(

xn(k))

= σnP (Xn = k) =√

np(1 − p)

(

n

k

)

pk(1 − p)n−k.

Wegen xn(k)−xn(k−1) = σ−1n lasst sich die rechte Seite von (⋆) als Riemann-

Summe interpretieren, wobei allerdings die Funktion φn noch von n abhangt.Wir wollen nun zeigen, dass fur jede Folge (kn)n∈N mit limn→∞ xn(kn) = x,x ∈ [a, b],

limn→∞

φn

(

xn(k))

= φ(x)

gilt, wobei φ = φ0,1 die Dichte zur Standardnormalverteilung bezeichnet. ImLimes wird die erwahnte Summe dann zum Integral von φ uber [a, b], und diesist der behauptete Grenzwert.

Es ist etwas angenehmer, mit den Logarithmen zu arbeiten. Die Stirling-Formelwird dann zu

log(n!) =(

n+1

2

)

log(n) − n+1

2log(2π) + o(1),

und man erhalt, wobei wir kn zu k abkurzen,

log(

φn

(

xn(k)))

=1

2log(n) +

1

2log(p) +

1

2log(1 − p)

+(

n+1

2

)

log(n) − n +1

2log(2π)

−(

k +1

2

)

log(k) + k −1

2log(2π)

−(

n− k +1

2

)

log(n− k) + (n− k) −1

2log(2π)

+ k log(p) + (n− k) log(1 − p) + o(1)

= −1

2log(2π) − n · ψ

(k

n

)

+ o(1)

mit

ψ(y) := y log(y

p

)

+ (1 − y) log(1 − y

1 − p

)

,

wobei wir1

2log(n) −

1

2log(k) +

1

2log(p) = o(1)

Page 71: STOCHASTIK I - Blu7 · STOCHASTIK I Sommersemester 2006 Dieses Skript entha¨lt (in geringfu¨gigem Umfang) Material, das in der Vorlesung selbst nicht besprochen wurde; in ‘besonders

70 4. Allgemeine Wahrscheinlichkeitsraume

etc. benutzt haben. Eine Taylor-Entwicklung von ψ an der Stelle y = p liefert

ψ(y) = ψ(p) + ψ′(p) (y − p) +1

2ψ′′(p) (y − p)2 + o((y − p)2)

=1

2p(1 − p)(y − p)2 + o((y − p)2).

Mit y = k/n und k = kn wie oben erhalt man

nψ(k

n

)

=1

2x2 + o(1),

also ergibt sich der gewunschte Grenzwert.

Die bekannten Formeln fur die Momente von Binomialverteilungen fuhren auf

E( Xn − np

np(1 − p)

)

= 0, var( Xn − np

np(1 − p)

)

= 1,

die ZufallsgroßenXn wurden also durch eine geeignete Verschiebung auf Erwar-tungswert 0 und durch eine geeignete Skalierung auf Varianz 1 transformiert.Satz 4.24 zeigt, dass auf diese Weise standardisierte Binomialverteilungen durcheine Standardnormalverteilung approximiert werden konnen. Im Gegensatz zuder Situation beim Gesetz der seltenen Ereignisse (Satz 3.4) geht die Erfolgs-wahrscheinlichkeit p mit wachsender Zahl n von Wiederholungen nicht gegen 0,sondern bleibt konstant. Der oben erwahnte Zentrale Grenzwertsatz betrachtetSummen von Zufallsvariablen; im hier behandelten Spezialfall sind die einzel-nen Summanden die Indikatorfunktionen, die anzeigen, ob in den einzelnenVersuchswiederholungen ein Erfolg eintritt.

Beispiel 4.25 Mit welcher Wahrscheinlichkeit erscheint beim 600-maligenWurf eines Wurfels mindestens 90-mal und hochstens 105-mal eine Sechs? Alstatsachlicher Wert ergibt sich

105∑

k=90

(

600

k

)

(1

6

)k(5

6

)600−k

= 0.60501 . . . ,

Satz 4.24 fuhrt mit n = 600 und p = 1/6 auf

P (90 ≤ X600 ≤ 105) = P(105 − 100

500/6≤ X⋆

600 ≤90 − 100√

500/6

)

≈ Φ( 5

500/6

)

− Φ( −10

500/6

)

= 0.571398 . . . .

(Man kann diese Approximation mit der sog. Stetigkeitskorrektur verbessern,bei der beispielsweise P (X600 ≤ 105) = P (X600 ≤ 105.5) ausgenutzt wird.) ⊳

Page 72: STOCHASTIK I - Blu7 · STOCHASTIK I Sommersemester 2006 Dieses Skript entha¨lt (in geringfu¨gigem Umfang) Material, das in der Vorlesung selbst nicht besprochen wurde; in ‘besonders

Erwartungswerte 71

4.6 Erwartungswerte. Die ‘offizielle’ Verallgemeinerung erfordert das allge-meine Lebesgue-Integral, das beispielsweise zu Beginn der Vorlesung Stochas-tik II besprochen wird. Wir begnugen uns hier mit Andeutungen.

Ist X eine Zufallsvariable mit Dichte f und setzt man fur alle x ∈ R

⌈x⌉ := mink ∈ Z : k ≥ x, ⌊x⌋ := maxk ∈ Z : k ≤ x,

so wird durchXn := 2−n⌊2nX⌋, Xn := 2−n⌈2nX⌉

eine Familie von diskreten Zufallsvariablen definiert, fur die Xn ↑ X , Xn ↓ Xmit n → ∞ gilt. Bei diesen konnen wir die bereits vorhandene Definition desErwartungswertes verwenden:

EXn =∑

k∈Z

k2−n P(

Xn = k2−n)

=∑

k∈Z

k2−n

∫ (k+1)2−n

k2−n

f(x) dx

=∑

k∈Z

∫ (k+1)2−n

k2−n

⌊2nx⌋

2nf(x) dx

=

∫ ∞

−∞

⌊2nx⌋

2nf(x) dx

∫ ∞

−∞

xf(x) dx

∫ ∞

−∞

⌈2nx⌉

2nf(x) dx = . . . = EXn.

Wegen Xn −Xn ≤ 2−n gilt

EXn − EXn = E(Xn −Xn) ≤ 2−n,

es liegt also nahe, den Erwartungswert von X im Falle∫

|x|f(x)dx <∞ durch

EX =

xf(x) dx

zu definieren. Obwohl dies fur praktische Zwecke (Rechnungen) i.a. reicht, istes doch mathematisch unbefriedigend: Eine nutzliche Formel wie

Eg(X) =

g(x)f(x) dx,

die wir im folgenden haufig verwenden werden, ergibt sich nicht ohne weiteres.

Page 73: STOCHASTIK I - Blu7 · STOCHASTIK I Sommersemester 2006 Dieses Skript entha¨lt (in geringfu¨gigem Umfang) Material, das in der Vorlesung selbst nicht besprochen wurde; in ‘besonders

72 4. Allgemeine Wahrscheinlichkeitsraume

Beispiel 4.26 Im Falle X ∼ N(µ, σ2) erhalt man

EX =

∫ ∞

−∞

x1

√2πσ2

e−(x−µ)2/2 dx

=

∫ ∞

−∞

(x− µ)1

2µσ2e−(x−µ)2/2 dx + µ

∫ ∞

−∞

1√

2µσ2e−(x−µ)2/2 dx

= µ,

denn das erste Integral hat aus Symmetriegrunden den Wert 0 und das zweiteIntegral ist als Integral uber eine Wahrscheinlichkeitsdichte gleich 1. ⊳

4.7 Unabhangigkeit. Bisher sind uns σ-Algebren nur als ‘notwendigesUbel’ begegnet; sie spielen aber in der Stochastik eine weitaus wichtigere Rolle,beispielsweise als naturliche Heimat des Unabhangigkeitsbegriffs und als Repra-sentanten von Teilinformation.

Satz und Definition 4.27 Es sei X eine Zufallsgroße auf dem Wahrschein-lichkeitsraum (Ω,A, P ) mit Werten in dem messbaren Raum (Ω′,A′). Dannist X−1(A) : A ∈ A′ eine σ-Algebra. Diese nennt man die von X erzeugteσ-Algebra, Schreibweise: σ(X).

Beweis: Ubungsaufgabe.

Kennen wir das Resultat ω des Zufallsexperiments, so konnen wir von jedemEreignis A ∈ A sagen, ob es eingetreten ist oder nicht. Die von X erzeugteσ-Algebra σ(X) ist die Menge der Ereignisse, fur die wir diese Entscheidungtreffen konnen, wenn uns nur X(ω) bekannt ist.

Wir haben in Abschnitt 1 der Vorlesung zwei Ereignisse A und B unabhangiggenannt, wenn P (A∩B) = P (A)P (B) gilt, und in Aufgabe 7 (d) gesehen, dassdann auch Ac und Bc unabhangig sind. Es gilt sogar, dass dann zwei beliebigeMengen aus den jeweiligen erzeugten σ-Algebren

σ(A) = ∅, A,Ac,Ω, σ(B) = ∅, B,Bc,Ω

in diesem Sinne unabhangig sind. Dies fuhrt auf:

Definition 4.28 Es sei (Ω,A, P ) ein Wahrscheinlichkeitsraum, I 6= ∅.

(a) Eine Familie Ai :∈ I von Unter-σ-Algebren von A heißt stochastisch

unabhangig, wenn fur jede endliche Teilmenge J = j1, . . . , jn von I und alleAj1 ∈ Aj1 , . . . , Ajn

∈ Ajngilt:

P(

j∈J

Aj

)

=∏

j∈J

P (Aj). (∗)

Page 74: STOCHASTIK I - Blu7 · STOCHASTIK I Sommersemester 2006 Dieses Skript entha¨lt (in geringfu¨gigem Umfang) Material, das in der Vorlesung selbst nicht besprochen wurde; in ‘besonders

Unabhangigkeit 73

(b) Ist fur jedes i ∈ I Xi eine Zufallsgroße auf (Ω,A, P ) mit Werten in ei-nem messbaren Raum (Ωi,Ai), so heißt die Familie Xi : i ∈ I stochastisch

unabhangig (kurz: die Zufallsgroßen Xi, i ∈ I, sind unabhangig), wenn dieFamilie σ(Xi) : i ∈ I der erzeugten σ-Algebren im Sinne von (a) unabhangigist.

Der folgende Satz zeigt, dass man sich beim Nachweis der entscheidenden Ei-genschaft (∗) aus der Definition auf ∩-stabile Erzeugendensysteme beschrankenkann.

Satz 4.29 Es seien (Ω,A, P ) ein Wahrscheinlichkeitsraum, I 6= ∅, und furjedes i ∈ I Ai eine Unter-σ-Algebra von A mit ∩-stabilem ErzeugendensystemEi. Gilt dann

P(

n⋂

k=1

Ejk

)

=

n∏

k=1

P (Ejk)

fur alle endlichen J = j1, . . . , jn ⊂ I und alle Ejk∈ Ejk

, k = 1, . . . , n, sosind Ai, i ∈ I, stochastisch unabhangig.

Beweis: Sei J = j1, . . . , jn ⊂ I. Sei Dj1 die Menge aller A ∈ Aj1 mit

P (A ∩ Ej2 ∩ . . . ∩ Ejn) = P (A)P (Ej1) . . . P (Ejn

)

fur alle Ej2 ∈ Ej2 , . . . , Ejn∈ Ejn

. Man sieht leicht, dass Dj1 ein Dynkin-Systemist. Da Dj1 den ∩-stabilen Erzeuger Ej1 von Aj1 enthalt, gilt also Dj1 = Aj1

nach Satz 4.7 (b). Im zweiten Schritt sei Dj2 die Menge aller A ∈ Aj2 mit

P (Aj1 ∩A ∩ Ej3 ∩ . . . ∩ Ejn) = P (Aj1)P (A)P (Ej3 ) . . . P (Ejn

)

fur alle Ej3 ∈ Ej3 , . . . , Ejn∈ Ejn

. Man sieht wieder, dass Dj2 ein Dynkin-System ist, das nach dem bereits bewiesenen Teil Ej2 enthalt, und es folgtwieder Dj2 = Aj2 . Nach insgesamt n Schritten dieser Art erhalt man diegewunschte Beziehung

P (Aj1 ∩ . . . ∩Ajn) = P (Aj1) . . . P (Ajn

)

fur alle Aj1 ∈ Aj1 , . . . , Ajn∈ Ajn

.

Bei einer diskreten Zufallsgroße X bilden die Mengen X−1(x), x ∈ Bild(X),ein ∩-stabiles Erzeugendensystem von σ(X). Satz 3.17 zeigt also, dass Teil (b)der Definition 4.28 zu Definition 3.16 ‘abwartskompatibel’ ist.

Der Zugang uber σ-Algebren bietet Vorteile, beispielsweise beim Beweis desfolgenden Satzes, der grob gesprochen besagt, dass Funktionen unabhangigerZufallsgroßen wieder unabhangig sind.

Page 75: STOCHASTIK I - Blu7 · STOCHASTIK I Sommersemester 2006 Dieses Skript entha¨lt (in geringfu¨gigem Umfang) Material, das in der Vorlesung selbst nicht besprochen wurde; in ‘besonders

74 4. Allgemeine Wahrscheinlichkeitsraume

Satz 4.30 Fur jedes i ∈ I seien Xi eine Zufallsgroße mit Werten in (Ωi,Ai),(Ω′

i,A′i) ein weiterer meßbarer Raum und gi : Ωi → Ω′

i eine (Ai,A′i)-messbare

Abbildung. Ist dann Xi : i ∈ I eine unabhangige Familie, so ist auch Yi :i ∈ I mit Yi := gi(Xi) unabhangig.

Beweis: σ(Yi) ⊂ σ(Xi).

Beispiel 4.31 Es sei (Ω,A, P ) =(

[0, 1),B[0,1), unif(0, 1))

. Fur jedes n ∈ N

werde Xn = Ω → 0, 1 definiert durch

Xn(ω) := ⌊2nω⌋ − 2⌊2n−1ω⌋.

Dann gilt ω =∑∞

n=1 2−nXn(ω) — die Folge 0.X1(ω)X2(ω)X3(ω) . . . ist alsoeine (mehr oder weniger: die) Binardarstellung von ω.

Fur alle k1, . . . , kn ∈ 0, 1 gilt

P (X1 = k1, . . . , Xn = kn) = P(

n∑

l=1

2−lkl ≤ ω <

n∑

l=1

2−lkl + 2−n)

= 2−n,

denn das Intervall besteht aus allen ω ∈ [0, 1), deren Binardarstellung mit denZiffern (bits) k1, . . . , kn beginnt. Fur beliebige i1 < i2 < . . . < in erhalt mansomit

P (Xi1 = 1, . . . , Xin= 1)

=∑

(k1,...,kin)∈0,1in

kij=1 fur j=1,...,n

P (X1 = k1, X2 = k2, . . . , Xin= kn)

= 2−in#

(k1, . . . , kin) ∈ 0, 1in : kij

= 1 fur j = 1, . . . , n

= 2−in 2in−n (denn genau n Positionen sind festgelegt)

= 2−n .

Insbesondere folgt P (Xij= 1) = 1/2 und damit insgesamt

P (Xi1 = 1, . . . , Xin= 1) = P (Xi1 = 1) . . . P (Xin

= 1).

Da

X−1i (1)

ein ∩-stabiles Erzeugendensystem von σ(Xi) ist, haben wirdamit die Unabhangigkeit der Zufallsvariablen X1, X2, X3, . . . gezeigt. Außer-dem gilt L(Xi) = Bin(1, 1/2), die gesamte Konstruktion kann also als Modellfur den unendlich oft wiederholten Wurf einer fairen Munze dienen. Umgekehrtließe sich aus einer unendlichen Folge von Munzwurfen k1, k2, . . . eine auf [0, 1)gleichverteilte Zahl x durch x :=

∑∞i=1 ki2

−i konstruieren! ⊳

Page 76: STOCHASTIK I - Blu7 · STOCHASTIK I Sommersemester 2006 Dieses Skript entha¨lt (in geringfu¨gigem Umfang) Material, das in der Vorlesung selbst nicht besprochen wurde; in ‘besonders

Unabhangigkeit 75

Wir betrachten nun den Fall reellwertiger Zufallsgroßen etwas naher. Sind Xund Y unabhangige Zufallsvariablen mit Verteilungsfunktionen FX und FY , sogilt

P (X ≤ x, Y ≤ y) = P (X ≤ x)P (Y ≤ y) = FX(x)FY (y)

fur alle x, y ∈ R. Definiert man die gemeinsame Verteilungsfunktion von zwei(beliebigen) Zufallsvariablen X und Y durch

FX,Y = R2 → R, FX,Y (x, y) := P (X ≤ x, Y ≤ y),

so erhalt man, dass bei Unabhangigkeit die gemeinsame Verteilungsfunktiondas Produkt der einzelnen Verteilungsfunktionen ist, d.h.

FX,Y (x, y) = FX(x)FY (y) fur alle x, y ∈ R.

Die Mengen (−∞, x], x ∈ R, bilden nach Satz 4.3 ein ∩-stabiles Erzeugenden-system von B(R), also folgt mit Satz 4.29 auch umgekehrt die Unabhangigkeitvon X und Y aus dieser Darstellung.

Sind X und Y stetige Zufallsvariablen mit Dichten fX , fY , d.h. insbesondere

FX(x) =

∫ x

−∞

fX(y) dy, FY (y) =

∫ y

−∞

fY (z) dz,

so erhalt man bei Unabhangigkeit

FX,Y (x, y) =

∫ x

−∞

∫ y

−∞

fX(u)fY (v) du dv.

In naheliegender Verallgemeinerung des eindimensionalen Falles nennt manfX,Y : R

2 → R+ eine gemeinsame Dichte von X und Y , wenn

P(

(X,Y ) ∈ A)

=

∫∫

A

fX,Y (x, y) dx dy

fur ‘hinreichend viele’ A ⊂ R2 gilt (in der Vorlesung Stochastik II wird dies

prazisiert). Insbesondere hat man bei unabhangigen Zufallsvariablen X , Y mitDichten fX , fY

fX,Y (x, y) = fX(x)fY (y),

die Analogie zum diskreten Fall (Satz 3.17) ist offensichtlich.

Mit gemeinsamen Dichtefunktionen lassen sich auch beispielsweise Erwartungs-werte von Funktionen von mehreren Zufallsvariablen ausrechnen; wir beschran-ken uns wie oben auf den Fall von zwei Zufallsvariablen X und Y . Zur Erinne-rung: Sind X und Y diskrete Zufallsgroßen mit gemeinsamer Massenfunktion

Page 77: STOCHASTIK I - Blu7 · STOCHASTIK I Sommersemester 2006 Dieses Skript entha¨lt (in geringfu¨gigem Umfang) Material, das in der Vorlesung selbst nicht besprochen wurde; in ‘besonders

76 4. Allgemeine Wahrscheinlichkeitsraume

pX,Y (x, y) = P (X = x, Y = y), so gilt unter der Voraussetzung, dass dieSumme absolut konvergiert,

Eg(X,Y ) =∑

x∈Bild(X)

y∈Bild(Y )

g(x, y) pX,Y (x, y).

Ganz analog hat man in der stetigen Situation

Eg(X,Y ) =

∫∫

g(x, y) fX,Y (x, y) dx dy

(Genaueres, beispielsweise zur Messbarkeit von g, wird in der Vorlesung Sto-chastik II besprochen). Hiermit erhalt man u.a. eine Variante der Multiplika-tionsregel fur unabhangige stetige Zufallsvariablen X,Y :

EXY =

∫ ∫

xy fX(x)fY (y) dx dy

=(

xfX(x) dx)(

yfY (y) dy)

= (EX) (EY ),

man vergleiche dies mit Satz 3.18. Auch Begriffe wie Kovarianz etc. lassen sichauf diese Weise auf den stetigen Fall ubertragen.

In der Maßtheorie (siehe die Vorlesung mit diesem Namen, aber auch denBeginn der Stochastik II) wird gezeigt, dass sowohl der diskrete als auch derstetige Fall Spezialfalle einer allgemeinen Theorie sind. Es gibt ubrigens durch-aus auch Zufallsvariable, die weder diskret noch stetig sind — ein Beispiel wirdin den Ubungen behandelt.

Mit dem obenstehenden sind die moglichen Analogiebetrachtungen bei weitemnicht erschopft; die Faltung beispielsweise wird in den Ubungsaufgaben behan-delt.

Beispiel 4.32 Die Lebensdauer X einer Gluhbirne vom Typ A sei exponen-tialverteilt mit Parameter λA, Y sei die Lebensdauer einer Gluhbirne vom TypB, ebenfalls exponentialverteilt, nun mit Parameter λB. Wir setzen voraus,dass die Zufallsvariablen X und Y unabhangig sind. Mit welcher Wahrschein-lichkeit brennt die B-Birne langer als die A-Birne? Die obigen Uberlegungenfuhren auf

P (X < Y ) = P(

(X,Y ) ∈ (x, y) ∈ R2 : x < y

)

=

∫∫

(x,y)∈R2: x<y

fX,Y (x, y) dy dx

=

∫∫

(x,y)∈R2: x<y

λA e−λAy λB e

−λBx dy dx

Page 78: STOCHASTIK I - Blu7 · STOCHASTIK I Sommersemester 2006 Dieses Skript entha¨lt (in geringfu¨gigem Umfang) Material, das in der Vorlesung selbst nicht besprochen wurde; in ‘besonders

Unabhangigkeit 77

=

∫ ∞

0

(

∫ ∞

x

λB e−λBy dy

)

λA e−λAx dx

= λA

∫ ∞

0

e−λBxe−λAxdx =λA

λA + λB

.⊳

Page 79: STOCHASTIK I - Blu7 · STOCHASTIK I Sommersemester 2006 Dieses Skript entha¨lt (in geringfu¨gigem Umfang) Material, das in der Vorlesung selbst nicht besprochen wurde; in ‘besonders

5. Grundbegriffe der mathematischen Statistik

5.1 Allgemeines. In der Wahrscheinlichkeitstheorie geht man von einemModell (Ω,A, P ) fur ein Zufallsexperiment aus und berechnet beispielsweisedie Wahrscheinlichkeit eines Ereignisses A. In der Statistik soll man, nun aus-gehend von den bei der Ausfuhrung des Experiments gewonnenen Daten, eineAussage uber das zugehorige P machen (P ist also unbekannt). Beim zehnfa-chen Munzwurf ist beispielsweise eine typische wahrscheinlichkeitstheoretischeFrage:

Mit welcher Wahrscheinlichkeit kommt achtmal Kopf, wenn dieMunze fair ist?

Typische statistische Fragestellungen waren in dieser Situation:

Es kam achtmal Kopf. Welchen Wert hat p, die Wahrscheinlichkeitfur Kopf? Ist die Munze fair, d.h. gilt p = 1/2?

Klar: Die Beobachtung x = 8 lasst die exakte Bestimmung von p nicht zu— auf der Basis von zufalligen Beobachtungen lassen sich i.a. keine absolutsicheren (nicht-trivialen) Schlusse ziehen (‘you can’t make a silk purse out of asow’s ear’).

Der formale Rahmen fur die hier zu betrachtenden statistischen Fragestellun-gen besteht aus einem messbaren Raum (X ,A), dem Stichprobenraum, der diemoglichen Datenwerte x enthalt; auf (X ,A) hat man eine Familie P von Wahr-scheinlichkeitsmaßen, die in Frage kommenden Verteilungen fur die Daten (ausdem Zusammenhang sollte immer klar hervorgehen, ob sich das Symbol P aufeine Familie von Wahrscheinlichkeitsmaßen oder auf die Potenzmengenbildungbezieht). Diese Familie kann die Klasse aller Wahrscheinlichkeitsmaße auf demStichprobenraum sein, hat aber meistens eine bestimmte Struktur. Haufig istP = Pθ : θ ∈ Θ, mit Θ ⊂ R

d, ein d-dimensionale parametrische Familie, Θheißt dann die Parametermenge. Die Daten x ∈ X konnen als Realisierungeneiner Zufallsgroße X : Ω → X mit unbekannter Verteilung L(X) ∈ P betrach-tet werden. Wird beispielsweise beim zehnfachen Munzwurf nur die Anzahlder ‘Kopf’-Wurfe beobachtet, so konnte man

X = 0, 1, . . . , 10, A = P(X ), Θ = [0, 1], Pθ = Bin(10, θ)

wahlen. Einen besonders wichtigen Spezialfall der allgemeinen Situation erhaltman, wenn die Daten durch unabhangige Wiederholungen eines Zufallsexperi-ments gewonnen werden, also x = (x1, . . . , xn) gilt, wobei xi das Ergebnis der

Page 80: STOCHASTIK I - Blu7 · STOCHASTIK I Sommersemester 2006 Dieses Skript entha¨lt (in geringfu¨gigem Umfang) Material, das in der Vorlesung selbst nicht besprochen wurde; in ‘besonders

Schatztheorie 79

i-ten Wiederholung ist. Man spricht dann von (den Werten) einer Stichprobe

vom Umfang n aus einer Verteilung.

Wir betrachten die drei hauptsachlichen statistischen Verfahren: Schatzer,Tests und Konfidenzbereiche.

5.2 Schatztheorie. Ein Schatzer (auch: Schatzfunktion) ist eine Abbildung

θ : X → Θ, die jeder Beobachtung x einen Schatzwert θ = θ(x) fur den

unbekannten Parameter θ zuordnet. Im Munzwurfbeispiel ist θ := x/10 einnaheliegender Schatzer.

Wie erhalt man (gute) Schatzfunktionen? Ein plausibles und sehr wichtiges

Prinzip besteht darin, dass man den Wert θ wahlt, unter dem die Beobachtungx die großte (infinitesimale) Wahrscheinlichkeit hat. Dies ist die Likelihood-

Methode. Konkret nennen wir im diskreten Fall die Funktion

l( · |x) : Θ → R, θ 7→ Pθ(x),

die Likelihood-Funktion zur Beobachtung x. Hat θ : X → Θ die Eigenschaft

l(

θ(x)∣

∣x)

= sup

l(θ|x) : θ ∈ Θ

fur alle x ∈ X ,

so nennen wir θ einen Maximum-Likelihood-Schatzer fur θ. Geht es in dieserSituation nicht um θ selbst, sondern um einen hiervon abhangenden Wert η =g(θ), so nennen wir η := g(θ) den Maximum-Likelihood-Schatzer fur η.

Es konnen naturlich allerlei Schwierigkeiten auftreten; beispielsweise wird dasSupremum moglicherweise nicht angenommen, oder es ist nicht eindeutig. Beider praktischen Anwendung ist es haufig bequemer, den Logarithmus der Wahr-scheinlichkeit, also die Log-Likelihood-Funktion, zu maximieren.

Beispiel 5.1 (Das Capture-Recapture-Problem)Ein See enthalte eine unbekannte Anzahl N von Fischen. Es werden M Fischegefangen, markiert, und wieder freigelassen. Nach einer gewissen Zeit werdenn Fische gefangen, unter diesen befinden sich x markierte. Wie sollte man Nschatzen?

Unter gewissen Voraussetzungen (Fische ‘vermischen sich’ etc.) erscheint dasfolgende Modell vernunftig: M und n sind bekannt, N ist der unbekannteParameter (aus M, M + 1, M + 2, . . .), und X = 0, . . . , n ist der Stich-probenraum. Die Beobachtung ist hypergeometrisch verteilt mit ParameternN, M und n, also

PN (x) =

(

Mx

)(

N−Mn−x

)

N

Page 81: STOCHASTIK I - Blu7 · STOCHASTIK I Sommersemester 2006 Dieses Skript entha¨lt (in geringfu¨gigem Umfang) Material, das in der Vorlesung selbst nicht besprochen wurde; in ‘besonders

80 5. Grundbegriffe der mathematischen Statistik

Dann gilt

PN (x)

PN−1(x)=

(

Mx

)(

N−Mn−x

)(

N−1

n

)

(

N

n

)(

M

x

)(

N−1−M

n−x

) =(N − M)(N − n)

N(n − M − n + x)

Hieraus folgt

PN (x) > PN−1(x) ⇐⇒ (N − M)(N − n) > N(N − M − n + x)

⇐⇒ nM > Nx,

also wird N → PN (x) maximal fur N := ⌊nMx

⌋. Im Falle nM/x ∈ N wird

das Maximum in N und N − 1 angenommen.

Man kann auch direkter argumentieren, dass der Anteil x/n der markiertenFische im Fang ungefahr ubereinstimmen sollte mit dem Anteil M/N der mar-kierten Fische im See. Konsequente Anwendung des Prinzips fuhrt bei Beo-bachtung x = 0 auf den Schatzwert N = ∞ (nicht besonders realistisch, dadann kein Platz mehr fur das Wasser bleibt). ⊳

Bei einer Stichprobe vom Umfang n aus einer Verteilung mit Massenfunktionp( · |θ) erhalt man (siehe die Bemerkungen nach Satz 3.17) als Likelihood-Funktion

l(θ|x) = l(θ|x1, . . . , xn) =

n∏

i=1

p(xi |θ).

Besonders dann, wenn das Maximum nach der Methode ‘Ableiten und Null-setzen’ gefunden werden soll, erweist sich der Ubergang zur Log-Likelihood-Funktion als sinnvoll.

Bei der Momentenmethode werden die Momente der Stichprobe,

1

n

n∑

i=1

xi,1

n

n∑

i=1

x2i ,

1

n

n∑

i=1

x3i , . . .

den ‘theoretischen’ Momenten EθX , EθX2, EθX

3, . . . (die ja von θ abhangen)gleichgesetzt, und die entstehenden Gleichungen werden nach θ aufgelost. Mannimmt so viele Gleichungen, wie man braucht, um nach θ auflosen zu konnen.Hat man nur eine einzige Beobachtung x, so wurde diese Methode auf dieGleichung x = EθX fuhren, beim Capture-Recapture-Problem in Verbindungmit der aus Beispiel 3.24(b) bekannten Formel fur den Erwartungswert zurhypergeometrischen Verteilung wieder auf den Schatzer N ≈ Mn/x.

Page 82: STOCHASTIK I - Blu7 · STOCHASTIK I Sommersemester 2006 Dieses Skript entha¨lt (in geringfu¨gigem Umfang) Material, das in der Vorlesung selbst nicht besprochen wurde; in ‘besonders

Schatztheorie 81

Beispiel 5.2 Ein Zufallsexperiment, in dem ein bestimmtes Ereignis A dieWahrscheinlichkeit θ hat, wird n-mal unabhangig wiederholt; θ ist zu schatzen.Schreiben wir 1 fur das Eintreten von A und sonst 0, so sind die gewonnenenDaten Elemente von X = 0, 1n und als Klasse der moglichen Verteilungenergibt sich P = Pθ : 0 ≤ θ ≤ 1, wobei zu Pθ die Massenfunktion

p(

(x1, . . . , xn)∣

∣θ)

=

n∏

i=1

θxi(1 − θ)1−xi = θk(1 − θ)n−k

mit k := #1 ≤ i ≤ n : xi = 1 gehort. Zu gegebener Zahl k von Erfolgenerhalt man also die Likelihood-Funktion l(θ) = θk(1 − θ)n−k. Wir betrachtendie Randfalle separat: Bei k = 0 erhalt man das (eindeutige, globale) Maximum

in θ = 0, bei k = n in θ = 1. In den Fallen k ∈ 1, . . . , n−1 ist l(0) = l(1) = 0,l(θ|x) > 0 auf 0 < θ < 1, und das Maximum kann uber die Ableitung der Log-Likelihood-Funktion gefunden werden: Mit

∂θlog l(θ) = −

n− k

1 − θ+

k

θ

fuhrt dies auf den Maximum-Likelihood-Schatzer θ = k/n. Wegen

EθXi = 0 · (1 − θ) + 1 · θ = θ

fuhrt die Momentenmethode auf den Ansatz 1n

∑n

i=1 xi = θ, also ebenfalls auf

den Schatzer θ = k/n. Es ist naturlich auch intuitiv naheliegend, die unbe-kannte Wahrscheinlichkeit von A durch die relative Haufigkeit des Eintretensvon A zu schatzen. ⊳

Wie verfahrt man im nicht-diskreten Fall? Hat man eine Stichprobe vom Um-fang n aus einer Verteilung mit Dichtefunktion f( · |θ), so bietet es sich an, an-stelle der ‘richtigen’ Wahrscheinlichkeiten die ‘infinitesimalen’ Wahrscheinlich-keiten zu verwenden, also die gemeinsame Massenfunktion durch die gemein-same Dichtefunktion zu ersetzen. Mit den Resultaten von Abschnitt 4.7 erhaltman dann als Likelihood-Funktion

l(θ|x) = l(θ|x1, . . . , xn) =n

i=1

f(xi |θ).

Beispiel 5.3 Als Beispiel fur eine stetige Situation mit mehrdimensionalemParameterraum betrachten wir eine Stichprobe X1, . . . , Xn aus der Normal-verteilung N(µ, σ2) mit unbekanntem µ ∈ R und unbekanntem σ2 > 0. Wirhaben

fXi(xi|µ, σ2) =

1√

2πσ2exp

(

−1

2σ2(xi − µ)2

)

,

Page 83: STOCHASTIK I - Blu7 · STOCHASTIK I Sommersemester 2006 Dieses Skript entha¨lt (in geringfu¨gigem Umfang) Material, das in der Vorlesung selbst nicht besprochen wurde; in ‘besonders

82 5. Grundbegriffe der mathematischen Statistik

erhalten also als gemeinsame Dichte in x = (x1, . . . , xn)

f(x|µ, σ2) =

n∏

i=1

fXi(xi|µ, σ2) =

(

1√

2πσ2

)n

exp(

−n

i=1

1

2σ2(xi − µ)2

)

und damit

log l(µ, σ2) = −n

2log(2πσ2) −

1

2σ2

n∑

i=1

(xi − µ)2.

Fur jedes feste σ2 > 0 wird dies als Funktion von µ durch den Stichprobenmit-telwert xn := 1

n

∑n

i=1 xi maximiert. Die Funktion

σ2 → −n

2log(2πσ2) −

1

2σ2

n∑

i=1

(xi − xn)2

wiederum wird maximal in 1n

∑n

i=1(xi−xn)2. Damit erhalt man die Maximum-Likelihood-Schatzer

µ = xn, σ2 =1

n

n∑

i=1

(xi − xn)2.

Beispiel 5.4 In den bisherigen Beispielen war die Verteilung durch den zuschatzenden Parameter festgelegt — dies muss nicht unbedingt so sein. Willman beispielsweise in der Stichprobensituation den Erwartungswert der Zufalls-variablen schatzen, so fuhrt die Momentenmethode auf den Schatzer xn. Beider Maximum-Likelihood-Methode sind genauere Annahmen an die Verteilungnotig. Die Varianz wird haufig durch die Stichprobenvarianz

S2n =

1

n − 1

n∑

i=1

(xi − xn)2

geschatzt. Mit var(Xi) = EX2i −(EXi)

2 wurde die Momentenmethode auf denSchatzer

1

n

n∑

i=1

x2i −

(

1

n

n∑

i=1

xi

)2

=1

n

n∑

i=1

(xi − xn)2

fuhren (dieses Beispiel wird in einer Ubungsaufgabe naher betrachtet). ⊳

Page 84: STOCHASTIK I - Blu7 · STOCHASTIK I Sommersemester 2006 Dieses Skript entha¨lt (in geringfu¨gigem Umfang) Material, das in der Vorlesung selbst nicht besprochen wurde; in ‘besonders

Schatztheorie 83

Bei den bisherigen Beispielen war der Ausgangspunkt stets eine Stichprobeaus einer festen Verteilung. In der statistischen Praxis stoßt man schnell andie Grenzen dieses Modells; beispielsweise geht es haufig um die Abhangigkeitder Beobachtungen von anderen Großen. Wir behandeln exemplarisch einequalitative und eine quantitative solche Situation.

Beispiel 5.5 (Zweistichprobenproblem) Angenommen, wir haben zwei Ty-pen A und B von Gluhbirnen mit jeweils exponentialverteilten Lebensdauern,Typ A mit Parameter λA und Typ B mit Parameter λB. Es werden m Exem-plare des ersten und n Exemplare des zweiten Typs untersucht; man beobach-tet die Lebensdauern x1, . . . , xm in der ersten und y1, . . . , yn in der zweitenGruppe. Die Daten x1, . . . , xm, y1, . . . , yn fassen wir als Realisierungen vonunabhangigen Zufallsvariablen X1, . . . , Xm, Y1, . . . , Yn auf, mit

Xi ∼ Exp(λA) fur i = 1, . . . , m, Yj ∼ Exp(λB) fur j = 1, . . . , n.

Aus der gemeinsamen Dichte ergibt sich die Loglikelihood-Funktion

log l(λA, λB |x1, . . . , xm, y1, . . . , yn)

= log(

m∏

i=1

λAe−λAxi

n∏

j=1

λBe−λByj

)

= m log(λA) − λA

m∑

i=1

xi + n log(λB) − λB

n∑

j=1

yj.

Dies wird in

(

λA

λB

)

=

(

1/xm

1/yn

)

mit xm :=1

m

m∑

i=1

xi, yn :=1

n

n∑

j=1

yj

maximal. Fur das Verhaltnis θ = EXi/EYj = λB/λA der mittleren Lebens-

dauern erhalt man so den Maximum-Likelihood-Schatzer θ = xm/yn. Aucheine entsprechende Variante der Momentenmethode wurde auf diesen Schatzerfuhren. ⊳

Beispiel 5.6 (Einfache lineare Regression) Unsere Beobachtungen y1, . . . , yn

(die abhangigen Variablen, ‘response’) betrachten wir als Realisierungen derunabhangigen Zufallsvariabeln Y1, . . . , Yn; zu jedem Yi gehort eine Hilfsgroße(unabhangige Variable, Einstellvariable, ‘covariate’) xi. Wir setzen voraus,dass der ‘systematische Teil’ EYi affin-linear von dieser Große abhangt,

EYi = α + βxi fur i = 1, . . . , n,

Page 85: STOCHASTIK I - Blu7 · STOCHASTIK I Sommersemester 2006 Dieses Skript entha¨lt (in geringfu¨gigem Umfang) Material, das in der Vorlesung selbst nicht besprochen wurde; in ‘besonders

84 5. Grundbegriffe der mathematischen Statistik

und interessieren uns fur die unbekannten Parameter α und β (Achsenab-schnitt und Steigung der Regressionsgeraden). Typische Beispiele sind dieAbhangigkeit des Ernteertrags von der eingebrachten Dungemittelmenge oderauch das Klausurergebnis in Abhangigkeit von der in den Hausubungen er-reichten Punktzahl; dabei ist eine affin-lineare Abhangigkeit in der Regel (beinicht zu großen Bereichen fur die Hilfsvariable) eine brauchbare Naherung.

Bei der auf Gauß zuruckgehenden Methode der kleinsten Quadrate werden αund β durch die Werte α und β geschatzt, die die Summe der quadriertenAbweichungen der beobachteten Werte der abhangigen Variablen von ihremErwartungswert unter dem Modell mit diesen Parametern, also die Funktion

(α, β) 7→n

i=1

(

yi − (α + βxi))2

,

minimieren. Diese Idee kann als Anpassung der Momentenmethode angesehenwerden: EYi wird durch yi ersetzt, an die Stelle der Auflosung nach α und βtritt die Approximation bzgl. des euklidischen Abstands. Eine etwas muhsameRechnung fuhrt auf

α =(∑n

i=1 x2i )(

∑n

i=1 yi) − (∑n

i=1 xi)(∑n

i=1 xiyi)

n∑n

i=1 x2i − (

∑n

i=1 xi)2,

β =n

∑n

i=1 xiyi − (∑n

i=1 xi)(∑n

i=1 yi)

n∑n

i=1 x2i − (

∑n

i=1 xi)2.

Setzt man zusatzlich voraus, dass die Yi’s normalverteilt sind, alle mit derselben(unbekannten) Varianz σ2, so kann man Likelihood-Methoden verwenden: Umden Maximum-Likelihood-Schatzer fur (α, β, σ2) zu erhalten, mussen wir dieFunktion

(α, β, σ2) 7→ log(

n∏

i=1

φ(

yi

∣αxi + β, σ2)

)

= −n

2log(2πσ2) −

1

2σ2

n∑

i=1

(

yi − (α + βxi))2

maximieren (siehe auch Beispiel 5.3). Fur die Parameter α und β ist diesaquivalent zu dem obigen Minimierungsproblem bei der Methode der kleinstenQuadrate, man erhalt also dieselben Schatzer. ⊳

Weitere Beispiele werden in den Ubungen besprochen.

Wie beurteilt man die Qualitat von Schatzfunktionen? Unser formales Mo-dell geht von einem ‘Hintergrundwahrscheinlichkeitsraum’ (Ω,A′, P) aus; die

Page 86: STOCHASTIK I - Blu7 · STOCHASTIK I Sommersemester 2006 Dieses Skript entha¨lt (in geringfu¨gigem Umfang) Material, das in der Vorlesung selbst nicht besprochen wurde; in ‘besonders

Schatztheorie 85

beobachteten Daten x werden als Werte (Realisierungen) einer ZufallsgroßeX : Ω → X betrachtet (also: Großbuchstaben stehen fur die Abbildung selbst,kleine Buchstaben fur ihre Werte — eine Konvention, die wir allerdings nichtstets einhalten werden . . .). Die Verteilung L(X) von X ist ein unbekanntesElement P von P = Pθ : θ ∈ Θ. Schatzfunktionen sind Abbildungen vom

Datenraum X in den Parameterraum Θ. Im Falle Θ ⊂ R ist θ(X) in derRegel messbar (wir setzen dies in Zukunft stillschweigend voraus), also eineZufallsvariable, deren Erwartungswert die Lage der Verteilung des Schatzersbeschreibt. Verteilung und damit auch Erwartungswert hangen naturlich vonder unbekannten Verteilung von X ab: Wir schreiben Eθ θ(X) oder kurz Eθ θ

fur den Erwartungswert von θ(X) unter der Voraussetzung, dass L(X) = Pθ

gilt, also θ der wahre Parameter ist.

Ist Θ ⊂ R oder betrachtet man allgemeiner eine reellwertige Parameterfunktiong(θ), so kann man die Differenz θ− θ bzw. g(θ)− g(θ) bilden. WunschenswerteEigenschaften eines Schatzers beziehen sich darauf, dass diese Differenz — dieja eine Zufallsgroße ist — in irgendeinem Sinne klein ist.

Definition 5.7 Es sei η ein (messbarer) Schatzer fur eine reellwertige Para-meterfunktion η = g(θ). Wir setzen voraus, dass die im folgenden verwendetenErwartungswerte existieren.

(i) Der Schatzer η heißt erwartungstreu (Englisch: unbiased) fur η = g(θ),wenn gilt:

Eθη = g(θ) fur alle θ ∈ Θ,

die Differenz Eθ η − g(θ) ist der systematische Fehler oder Bias von η.

(ii) Die mittlere quadratische Abweichung MSE( · ; η) von η wird definiert durch

MSE(θ; η) := Eθ

(

η − g(θ))2

.

(MSE ist die Abkurzung fur ‘mean squared error’).

Bei einem erwartungstreuen Schatzer ist der mittlere quadratische Fehler of-fensichtlich gleich der Varianz. Allgemein gilt

MSE(θ; θ) =(

Eθ θ − θ)2

+ varθ(θ).

Beispiel 5.8 Es seien X = 0, . . . , n, Θ = (0, 1) und Pθ = Bin(n, θ). (Diesist die aus Beispiel 5.2 bekannte Situation, wenn man dort nur die Anzahl k derErfolge festhalt.) Der Schatzer θ = X/n ist offensichtlich erwartungstreu, dennX hat unter Pθ den Erwartungswert nθ. Als mittleren quadratischen Fehlererhalt man

MSE(θ; θ) = varθ(θ) =1

n2varθ(X) =

1

n2nθ(1 − θ) =

θ(1 − θ)

n.

Page 87: STOCHASTIK I - Blu7 · STOCHASTIK I Sommersemester 2006 Dieses Skript entha¨lt (in geringfu¨gigem Umfang) Material, das in der Vorlesung selbst nicht besprochen wurde; in ‘besonders

86 5. Grundbegriffe der mathematischen Statistik

Man kann zeigen, dass dieser Schatzer unter allen erwartungstreuen Schatzernfur θ gleichmassig in θ ∈ (0, 1) die kleinste mittlere quadratische Abweichung

hat. (Dies gilt sogar im Rand: im Falle θ = 0, θ = 1 hat θ den MSE 0, wasnicht zu unterbieten ist.)

Was passiert, wenn man auch nicht-erwartungstreue Schatzer in die Konkur-renz aufnimmt? Klar: der ‘entartete’ Schatzer θ ≡ θ0 fur ein festes θ0 ∈ Θ hatMSE 0 in θ0 (eine stehengebliebene Uhr zeigt zweimal am Tag die genaue Zeit

an). Interessanter ist der Schatzer θA := (X + 1)/(n + 2), der vermeidet, dassdie Wahrscheinlichkeit durch 0 bzw. 1 geschatzt wird, wenn das interessierendeEreignis gar nicht bzw. immer eintritt. Man erhalt

Eθ θA =1

n + 2(EθX + 1) =

nθ + 1

n + 2,

insbesondere ist θA nicht erwartungstreu. Eine etwas langere Rechnung (oderMaple) liefert

Eθ(θA − θ)2 =1 + (n − 4)θ(1 − θ)

(n + 2)2,

und ein Vergleich der Funktionen zeigt, dass keiner der beiden Schatzer einengleichmassig kleineren mittleren quadratischen Fehler hat als der andere. ⊳

Beispiel 5.9 Es sei X1, . . . , Xn eine Stichprobe aus unif(0, θ), der Gleichver-teilung auf dem Intervall (0, θ) (siehe Abschnitt 4.5.1). Dann gilt EθXi = θ/2,

die Momentenmethode fuhrt also auf θMM = 2Xn. Fur die zugehorigen Dich-ten gilt f(x|θ) = 1/θ fur 0 ≤ x ≤ θ, f(x|θ) = 0 sonst, also erhalt man dieLikelihood-Funktion

l(θ) =

θ−n, falls θ ≥ maxx1, . . . , xn,0, sonst.

Hier wird das globale Maximum auf dem Rand angenommen und man erhaltθML = maxX1, . . . , Xn.

Welcher Schatzer ist besser? Es gilt EθXi = θ/2, also

Eθ θMM = 2 ·1

n

n∑

i=1

EθXi = θ,

d.h. θMM ist erwartungstreu. Als Verteilungsfunktion Gθ des Maximum-Likeli-hood-Schatzers ergibt sich

Gθ(x) = Pθ(θML ≤ x)

= Pθ(X1 ≤ x, . . . , Xn ≤ x)

= Pθ(X1 ≤ x) · . . . · Pθ(Xn ≤ x)

=(x

θ

)n

Page 88: STOCHASTIK I - Blu7 · STOCHASTIK I Sommersemester 2006 Dieses Skript entha¨lt (in geringfu¨gigem Umfang) Material, das in der Vorlesung selbst nicht besprochen wurde; in ‘besonders

Tests 87

fur 0 ≤ x ≤ θ; fur x < 0 gilt Gθ(x) = 0 und fur x > θ erhalt man Gθ(x) = 1.Eine zugehorige Dichte ist

gθ(x) =

1θn(x

θ)n−1 , 0 ≤ x ≤ θ,

0 , sonst,

also folgt

Eθ θML =

x gθ(x) dx =

∫ θ

0

x1

θn

(x

θ

)n−1

dx =n

n + 1θ,

dieser Schatzer ist also nicht erwartungstreu — allerdings ist der systematischeFehler bei großem n klein. Fur die mittleren quadratischen Abweichungenerhalt man

MSE(θMM; θ) = varθ(θMM) =4

n2

n∑

i=1

varθ(Xi) =θ2

3n,

denn es gilt 1θXi ∼ unif(0, 1) und damit varθ(Xi/θ) = 1/12 (siehe hierzu Bei-

spiel 5.12 (i)). Beim Maximum-Likelihood-Schatzer erhalt man

Eθ θ2ML =

∫ θ

0

x2 1

θn

(x

θ

)n−1

dx =n

n + 2θ2,

also

MSE(θML; θ) = Eθ θ2ML − 2θEθ θML + θ2

=n

n + 2θ2 − 2θ

n

n + 1θ + θ2 =

2θ2

(n + 2)(n + 1).

Dies ist stets kleiner oder gleich dem fur θMM erhaltenen Wert, echt kleiner abn = 3 und bei großem n sehr viel kleiner! Ist man also bereit, einen (kleinen)

systematischen Fehler zu akzeptieren, so wird man θML bevorzugen. In einerUbungsaufgabe wird ein dritter Schatzer behandelt, der aus θML hervorgehtund Erwartungstreue mit kleiner mittlerer quadratischer Abweichung verbin-det. ⊳

5.3 Tests. Es sei wieder P eine Familie von Wahrscheinlichkeitsmaßen auf(X ,A). Oft soll anhand der Daten entschieden werden, ob die tatsachlicheVerteilung P in einer vorgegebenen Teilfamilie P0 von P liegt, d.h. man will dieHypothese H : P ∈ P0 testen. Bei einer parametrisierten Familie P = Pθ :θ ∈ Θ lasst sich die Teilfamilie uber eine Teilmenge Θ0 des ParameterraumsΘ charakterisieren; die Hypothese lautet dann H : θ ∈ Θ0, wobei θ fur den‘wahren’ Parameter steht. K : θ ∈ Θ − Θ0 (bzw. K : P−P0) bezeichnet manals Alternative; man kann H und K auch als Zerlegung von Θ auffassen. Hheißt einfach im Falle #P0 = 1 bzw. #Θ0 = 1 und zusammengesetzt sonst;analoge Bezeichnungen werden auch bei K verwendet.

Page 89: STOCHASTIK I - Blu7 · STOCHASTIK I Sommersemester 2006 Dieses Skript entha¨lt (in geringfu¨gigem Umfang) Material, das in der Vorlesung selbst nicht besprochen wurde; in ‘besonders

88 5. Grundbegriffe der mathematischen Statistik

Definition 5.10 Eine (messbare) Funktion φ : X → [0, 1] heißt (randomi-

sierte) Testfunktion zum Signifikanzniveau α, kurz: Test zum Niveau α, wenngilt:

EP φ(X) ≤ α fur alle P ∈ P0.

Die Abbildung P → EP φ(X) ist die Gutefunktion oder auch Operationscha-

rakteristik des Tests; im parametrischen Fall ist dies

β : Θ → [0, 1], β(θ) := Eθφ(X).

Interpretation: Bei Vorliegen der Beobachtung x wird H mit Wahrscheinlich-keit φ(x) verworfen, also wird bei einem Test zum Niveau α die Wahrschein-lichkeit fur eine irrtumliche Verwerfung der Hypothese nicht großer als α. Furα sind die Werte 0.1, 0.05, 0.01 und 0.001 gebrauchlich. Bei Tests geht esalso darum, eine vorgegebene Hypothese anhand der Daten entweder zu ver-werfen oder nicht zu verwerfen (beachte: ‘nicht verwerfen’ ist nicht dasselbewie ‘als richtig bewiesen’ !). In der Regel wird man nicht-randomisierte Testsverwenden, bei denen also φ nur die Werte 0 und 1 annimmt. Die Mengex ∈ X : φ(x) = 1 ist dann der Ablehnungsbereich eines solchen Tests. Die-ser wird haufig uber eine Testgroße (auch: Teststatistik) T beschrieben, die dieEigenschaft hat, dass große Werte von T gegen H sprechen. In der Tat lieferteine solche Testgroße gleich eine ganze Familie von nicht-randomisierten Testsφc uber

φc(X) =

1, T (x) ≥ c,0, T (x) < c.

Man nennt in dieser Situation c den kritischen Wert.

Um diese Begriffe zu illustrieren, betrachten wir die folgende einfache Situation:Eine Munze wird zehnmal geworfen, θ bezeichne die unbekannte Wahrschein-lichkeit fur Kopf, und es soll H : θ = 1/2 getestet werden. Man ist also an derHypothese interessiert, dass die Munze fair ist. Schreibt man wieder 1 fur Kopf,0 fur Zahl und Xn fur das Ergebnis des n-ten Wurfes, so liegt als Testgroße

T (X1, . . . , X10) =∣

10∑

i=1

Xi − 5∣

nahe: Große Werte von T sind unwahrscheinlich, wenn die Hypothese richtigist. Angenommen, wir lehnen ab, wenn T ≥ 4 gilt, d.h. wir wahlen den kriti-schen Wert c = 4. Dies bedeutet, dass wir die Hypothese genau dann ablehnen,wenn ‘Kopf’ 0, 1, 9 oder 10mal vorkommt. Ist H richtig, so hat dieses Ereignisdie Wahrscheinlichkeit

P0·5(T ≥ 4) =

((

10

0

)

+

(

10

1

)

+

(

10

9

)

+

(

10

10

))

· 2−10 =22

1024≈ 0.0215.

Page 90: STOCHASTIK I - Blu7 · STOCHASTIK I Sommersemester 2006 Dieses Skript entha¨lt (in geringfu¨gigem Umfang) Material, das in der Vorlesung selbst nicht besprochen wurde; in ‘besonders

Tests 89

Dieses Verfahren wurde also einen Test zum Niveau α = 0.05, aber nicht zumNiveau α = 0.01 liefern. Ganz allgemein gilt in dieser Situation

Pθ(T ≥ 4) =

(

10

0

)

θ0(1 − θ)10−0 +

(

10

1

)

θ1(1 − θ)10−1

+

(

10

9

)

θ9(1 − θ)10−9 +

(

10

10

)

θ10(1 − θ)10−10.

Bei θ = 0.9 beispielsweise erhalt man den Wert 0.7361 und bei θ = 0.6 denWert 0.0480. Dies bedeutet, dass der Test bei θ = 0.9 mit Wahrscheinlichkeit1−0.7361 = 0.2639 zu einer falschen Entscheidung fuhrt, bei θ = 0.6 immerhinmit Wahrscheinlichkeit 0.952!

0.2 0.4 0.6 0.8 1.0

0.2

0.4

0.6

0.8

1.0

n = 50, k = 32

n = 10, k = 8

......................................................................................................................................................................................................................................................

........................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................

.................

..............................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................

.................................................................................................................

Gutefunktionen zu zwei Tests:H0 : θ ≤ 0.5 wird bei n Versuchswiederholungen verworfen,

wenn die Anzahl der Erfolge großer oder gleich k ist.

Analog kann man bei der einseitigen Hypothese H : θ ≤ 1/2 verfahren. Gehtman ganz allgemein von n (statt wie oben speziell von n = 10) Versuchs-wiederholungen aus, so bietet sich die Variable T (X1, . . . , Xn) =

∑n

i=1 Xi alsTestgroße an, d.h. wir verwerfen die Hypothese, dass ‘Kopf’ mit einer Wahr-scheinlichkeit kleiner oder gleich 1/2 erscheint, wenn in n Wurfen die Anzahlder ‘Kopf’-Resultate eine bestimmte Schranke uberschreitet. Im obigen Dia-gramm sind fur zwei solche Tests, einmal bei n = 10 und kritischem Wert 8, undeinmal bei n = 50 und kritischem Wert 32, die Gutefunktionen eingezeichnet.

Page 91: STOCHASTIK I - Blu7 · STOCHASTIK I Sommersemester 2006 Dieses Skript entha¨lt (in geringfu¨gigem Umfang) Material, das in der Vorlesung selbst nicht besprochen wurde; in ‘besonders

90 5. Grundbegriffe der mathematischen Statistik

Bei Tests geht es um nur zwei Entscheidungen: H wird verworfen oder H wirdnicht verworfen. Als Folge hiervon gibt es zwei Fehlerarten:

• Fehler 1. Art: Die Hypothese wird verworfen, obwohl sie richtig ist.

• Fehler 2. Art: Die Hypothese wird nicht verworfen, obwohl sie falsch ist.

Fur das Verstandnis und den korrekten Gebrauch klassischer statistischer Testsist die Unsymmetrie (nur fur einen Typ Fehlentscheidung wird die Wahrschein-lichkeit begrenzt) ein sehr wichtiger Aspekt: Man hat in der Regel keine(brauchbare) Fehlerschranke fur den Fehler zweiter Art. Es bietet sich einVergleich mit dem juristischen Prinzip ‘im Zweifel fur den Angeklagten’ an:Eine Verurteilung soll nur bei hinreichend sicherer Beweislage erfolgen, einFreispruch ist somit kein Unschuldsbeweis. Bei Tests: ‘absence of evidence isnot evidence of absence’, eine Nicht-Ablehnung ist kein Beleg dafur, dass dieHypothese stimmt.

Die Wahrscheinlichkeit fur eine falsche Entscheidung hangt naturlich von demunbekannten wahren Parameter θ ab. Bei einem Test zum Niveau α darf dieWahrscheinlichkeit fur einen Fehler 1. Art den Wert α nicht ubersteigen. AlleFehlerwahrscheinlichkeiten lassen sich aus der Gutefunktion ablesen. Man wirdnun versuchen, bei einer vorgegebenen Schranke fur den Fehler 1. Art einen Testzu finden, bei dem die Wahrscheinlichkeiten fur einen Fehler 2. Art moglichstgleichmaßig minimiert werden. Bei einfacher Hypothese und einfacher Alter-native (also bei #P = 2) kann man dieses Optimierungsproblem leicht losen.

Satz 5.11 (Das Neyman-Pearson Lemma)Es sei P = P0, P1 und α ∈ (0, 1). Wir setzen voraus, dass P0 und P1

entweder beide diskret sind oder beide ein Dichte haben, und schreiben p0, p1

fur die Massenfunktionen im ersten und f0, f1 fur die Dichten im zweiten Fall.Dann existieren ein c ≥ 0 und ein γ ∈ [0, 1] mit

P0(p1 > cp0) + γP0(p1 = cp0) = α bzw. P0(f1 > cf0) + γP0(f1 = cf0) = α

im diskreten bzw. stetigen Fall, und der Neyman-Pearson-Test φ : X → [0, 1],

φ(x) =

1, >γ, p1(x) = cp0(x)0, <

bzw. φ(x) =

1, >γ, f1(x) = cf0(x)0, <

im diskreten bzw. stetigen Fall ist ein Test zum Niveau α fur H : P = P0,der unter allen solchen Tests die kleinste Wahrscheinlichkeit fur einen Fehler2. Art hat.

Page 92: STOCHASTIK I - Blu7 · STOCHASTIK I Sommersemester 2006 Dieses Skript entha¨lt (in geringfu¨gigem Umfang) Material, das in der Vorlesung selbst nicht besprochen wurde; in ‘besonders

Tests 91

Beweis: Wir betrachten nur den diskreten Fall. Der Beweis fur den steti-gen Fall verlauft sehr ahnlich, im wesentlichen mussen einige Summen durchIntegrale ersetzt werden.

Wir konnen p0 und p1 als Zufallsvariablen auf dem Wahrscheinlichkeitsraum(X ,A, P0) auffassen und erhalten beispielsweise

P0(p0 > 0) =∑

x∈X, p0(x)>0

p0(x) =∑

x∈X

p0(x) = P0(X ) = 1.

Es sei c das (1 − α)-Quantil zur Verteilung von q,

q(x) :=

p1(x)/p0(x), falls p0(x) > 0,0, sonst.

Aus unseren allgemeinen Betrachtungen zu Quantilfunktionen (Lemma 4.19,Ubungsaufgaben) folgt dann, dass

P0(q > c) ≤ α ≤ P0(q ≥ c)

gilt. Wir setzen γ := 0 im Falle P0(q = c) = 0 und

γ :=α − P0(q > c)

P0(q = c)

sonst. Mit diesen Werten erhalt man

P0(p1 > cp0) + γP (p1 = cp0) = P0(p1 > cp0, p0 > 0) + γP (p1 = cp0, p0 > 0)

= P0(q > c) + γP (q = c)

= α,

womit der erste Teil der Behauptung bewiesen ware.

Fur den Beweis des zweiten (und interessanteren) Teils sei φ irgendein Testzum Niveau α fur H : P = P0. Wir setzen

A :=

x ∈ X : φ(x) > φ(x)

, B :=

x ∈ X : φ(x) < φ(x)

.

Auf A ist φ > 0, also p1 ≥ cp0, auf B ist φ(x) < 1, also p1 ≤ cp0. Damit folgt

E1φ(X) − E1φ(X) =∑

x∈X

(

φ(x) − φ(x))

p1(x)

=∑

x∈A

(

φ(x) − φ(x))

p1(x) +∑

x∈B

(

φ(x) − φ(x))

p1(x)

≥∑

x∈A

(

φ(x) − φ(x))

cp0(x) +∑

x∈B

(

φ(x) − φ(x))

cp0(x)

= c∑

x∈X

(

φ(x) − φ(x))

p0(x)

= c(

E0φ(X) − E0φ(X))

≥ 0,

denn E0φ(X) = α, E0φ(X) ≤ α.

Page 93: STOCHASTIK I - Blu7 · STOCHASTIK I Sommersemester 2006 Dieses Skript entha¨lt (in geringfu¨gigem Umfang) Material, das in der Vorlesung selbst nicht besprochen wurde; in ‘besonders

92 5. Grundbegriffe der mathematischen Statistik

Der optimale Test hangt also nur uber das Verhaltnis p1/p0 bzw. f1/f0, densogenannten Likelihood-Quotienten, von x ab. Der Ablehnungsbereich entstehtdadurch, dass man die x-Werte mit den großten Likelihood-Quotienten zusam-menfasst, soweit dies die Fehlerschranke erlaubt. Dies ist eine auch intuitivnaheliegende Vorgehensweise.

Beispiel 5.12 Wie in Beispiel 5.2 sei X = 0, 1n,

p(x|θ) = θT (x)(1 − θ)n−T (x) mit T (x) =

n∑

i=1

xi.

Wir betrachten zunachst die Familie P = Pθ0, Pθ1

mit 0 < θ0 < θ1 < 1 fest.Als Verhaltnis der Massenfunktionen ergibt sich

p1(x)

p0(x)=

(1 − θ1

1 − θ0

)n−T (x)(θ1

θ0

)T (x)

.

Wegen θ1 > θ0 ist dies eine streng monoton wachsende Funktion von T (x),d.h. zu jedem c existiert ein c mit der Eigenschaft, dass

p1(x)>=<

cp0(x) ⇐⇒ T (x)>=<

c

fur alle x ∈ X gilt. Nach dem Neymann-Pearson-Lemma ist also der beste Testfur θ0 gegen θ1 von der Form

φ(x) =

1, >γ,

∑n

i=1 xi = c0, <

,

wobei c und γ ∈ [0, 1] bestimmt werden aus

Pθ0

(

n∑

i=1

Xi > c)

+ γ Pθ0

(

n∑

i=1

Xi = c)

= α.

(Die Uberlegung, dass streng monoton wachsende Transformationen der Test-große bei entsprechender Transformation des kritischen Werts den Test un-verandert lassen, kann bei Rechnungen sehr hilfreich sein.) Man beachte nun,dass in der Beschreibung des Tests θ1 nicht mehr auftritt; nur θ1 > θ0 wurde inder Herleitung verwendet. Die Hypothese H : θ = θ0 gegen K : θ = θ1 wurdeauf denselben Test fuhren, wenn nur θ1 > θ0 gilt. Dies zeigt, dass φ unter

Page 94: STOCHASTIK I - Blu7 · STOCHASTIK I Sommersemester 2006 Dieses Skript entha¨lt (in geringfu¨gigem Umfang) Material, das in der Vorlesung selbst nicht besprochen wurde; in ‘besonders

Tests 93

allen Tests zum Niveau α fur H : θ = θ0 gegen K : θ > θ0 gleichmaßig dieFehlerwahrscheinlichkeiten 2. Art minimiert, φ ist also ein gleichmaßig bester

Test zum Niveau α fur θ = θ0 gegen θ > θ0. Es kommt sogar noch besser:Jeder Test zum Niveau α fur H : θ ≤ θ0 gegen K : θ > θ0 ist auch einTest zum Niveau α fur H : θ = θ0 gegen K : θ > θ0. Da Eθφ eine mono-ton wachsende Funktion von θ ist, halt φ auch in dieser großeren Hypothesedas Niveau α ein, minimiert also auch in dieser Klasse gleichmaßig die Feh-lerwahrscheinlichkeiten zweiter Art. Gelegentlich lassen sich also mit Hilfe desNeyman-Pearson-Lemmas optimale Tests sogar bei zusammengesetzten Hypo-thesen und Alternativen bestimmen. ⊳

Beispiel 5.13 Die Zufallsvariablen X1, . . . , Xn seien unabhangig und expo-nentialverteilt mit unbekanntem Parameter θ > 0. Anhand der Realisierungensoll

H : θ = θ0 gegen K : θ = θ1

getestet werden. Wir betrachten den Fall θ1 > θ0. Die Dichtefunktion zuX = (X1, . . . , Xn) ist

f(x|θ) =

n∏

i=1

θe−θxi = θne−θsn mit sn :=

n∑

i=1

xi .

Wie in Beispiel 5.12 ist fur den optimalen Test nur die Realisierung sn derSumme Sn =

∑n

i=1 Xi der Zufallsvariablen relevant. Satz 5.11 fuhrt mitfi(x) = f(x|θi), i = 0, 1, auf die Testgroße

f1(x)

f0(x)=

(θ1

θ0

)n

e−(θ1−θ0)sn .

Wegen θ1 > θ0 ist dies eine streng monoton fallende Funktion von sn, derNeyman-Pearson-Test also von der Form

φ(x) =

1, <γ,

∑n

i=1 xi = c ,0, >

wobei wieder c und γ ∈ [0, 1] bestimmt werden aus

P0(Sn < c) + γ P0(Sn = c) = α.

Unter P0 ist Sn Γ(n, θ0)-verteilt, insbesondere gilt also P0(Sn = c) = 0 fur allec ∈ R und eine Randomisierung wird nicht benotigt. Der zweite Parameterder Gammaverteilung reprasentiert nur eine Umskalierung, insbesondere ist

Page 95: STOCHASTIK I - Blu7 · STOCHASTIK I Sommersemester 2006 Dieses Skript entha¨lt (in geringfu¨gigem Umfang) Material, das in der Vorlesung selbst nicht besprochen wurde; in ‘besonders

94 5. Grundbegriffe der mathematischen Statistik

θ0Sn unter der Hypothese Γ(n, 1)-verteilt. Einer Tafel fur die unvollstandigeGammafunktion entnimmt man den Wert c mit

∫ θ0c

0

xn−1e−x dx = α Γ(n)

(alternativ kann beispielsweise im Computeralgebra-Programm Maple die linkeSeite mit GAMMA(n,c) berechnet werden), dieses c ist der kritische Wert beiSignifikanzniveau α. Wie im letzten Beispiel ergibt sich auch hier fur alleAlternativwerte θ1 > θ0 derselbe Test, und die Wahrscheinlichkeit fur eineAblehnung wird mit fallendem θ kleiner, d.h. der Neyman-Pearson-Test istsogar der gleichmaßig beste Test zum Niveau α fur H : θ ≤ θ0 gegen K : θ > θ0.

Hat man ganz allgemein eine parametrische Familie P = Pθ : θ ∈ Θ vonfur die Beobachtungen in Frage kommenden Verteilungen (durchaus mit mehr-dimensionalem Parameterraum Θ), so lassen sich Hypothese und Alternativedurch Teilmengen von Θ beschreiben, d.h. man mochte

H : θ ∈ Θ0 gegen K : θ ∈ Θ1 := Θ − Θ0

testen. Sind die Verteilungen Pθ, θ ∈ Θ, alle diskret oder alle stetig, so ma-chen die bisher behandelten Ideen das folgende Vorgehen plausibel: Schatzeθ durch die Werte, die die Likelihood-Funktion θ 7→ l(θ|x) (wobei wiederl(θ|x) = p(x|θ) im diskreten und l(θ|x) = f(x|θ) im stetigen Fall) auf Θ0

bzw. Θ1 maximieren und verwende den dann erhaltenen Dichtequotienten alsTestgroße. Dies fuhrt auf den Likelihood-Quotienten-Test (oder kurz LQ-Test),der ablehnt, wenn die Testgroße

TLQ(x) =supθ∈Θ1

l(θ|x)

supθ∈Θ0l(θ|x)

einen durch die Forderung

supθ∈Θ0

Pθ(T ≥ c) = α

festgelegten kritischen Wert c ubersteigt (man kann auch hier wieder randomi-sieren, wenn beispielsweise im diskreten Fall ein solches c nicht existiert).

Beispiel 5.14 Wir gehen aus von einer Stichprobe X1, . . . , Xn aus einer Nor-malverteilung N(µ, σ2) mit unbekannten µ ∈ R, σ2 > 0 und wollen

H : µ = µ0 gegen K : µ 6= µ0

Page 96: STOCHASTIK I - Blu7 · STOCHASTIK I Sommersemester 2006 Dieses Skript entha¨lt (in geringfu¨gigem Umfang) Material, das in der Vorlesung selbst nicht besprochen wurde; in ‘besonders

Tests 95

zum Niveau α testen (µ0 und α sind vorgegeben). Dies passt in den obenbeschriebenen Rahmen, mit θ = (µ, σ2),

Θ = R × (0,∞), Θ0 = µ0 × (0,∞), Θ1 =(

R \ µ0)

× (0,∞).

Zur Bestimmmung des LQ-Tests mussen wir die Funktion

l(θ|x) = (2πσ2)−n/2 exp(

−1

2σ2

n∑

i=1

(xi − µ)2)

auf Θ1 bzw. Θ0 maximieren. Da diese Funktion stetig ist und Θ1 dicht liegt inΘ, gilt

supθ∈Θ1

l(x|θ) = supθ∈Θ

l(x|θ)

und mit den Rechnungen aus Beispiel 5.3 (die ML-Schatzer sind µ = xn undσ2 = 1

n

∑n

i=1(xi − xn)2) folgt

supθ∈Θ1

l(x|θ) = (2πσ2)−n/2 e−n/2.

Zur Bestimmung des Nenners der Testgroße muss l auf Θ0 maximiert werden,wodurch µ = µ0 festgelegt ist. Das Maximum der Funktion

σ2 7→ (2πσ2)−n/2 exp(

−1

2σ2

n∑

i=1

(xi − µ0)2)

wird in ˜σ2 := 1n

∑n

i=1(xi − µ0)2 angenommen, also gilt

supθ∈Θ0

l(x|θ) = (2π˜σ2)−n/2 e−n/2

und man erhalt insgesamt die Testgroße

TLQ(x) =

(

˜σ2

σ2

)n/2

=

(∑n

i=1(xi − xn + xn − µ0)2

∑n

i=1(xi − xn)2

)n/2

=

(

1 +(xn − µ0)

2

σ2

)n/2

.

Dies ist offensichtlich eine streng monoton wachsende Funktion von

T (x) =|xn − µ0|

1n−1

∑n

i=1(xi − xn)2,

Page 97: STOCHASTIK I - Blu7 · STOCHASTIK I Sommersemester 2006 Dieses Skript entha¨lt (in geringfu¨gigem Umfang) Material, das in der Vorlesung selbst nicht besprochen wurde; in ‘besonders

96 5. Grundbegriffe der mathematischen Statistik

man erhalt also denselben Test, wenn man als Testgroße T verwendet. Diesergibt den zweiseitigen t-Test zur Hypothese µ = µ0 bei Stichproben aus derNormalverteilung mit unbekannter Varianz.

Zur praktischen Ausfuhrbarkeit muss allerdings noch die Verteilung der Test-große unter der Hypothese bestimmt werden. Da die Hypothese nun aus mehrals einem Wert besteht, ist zunachst nicht einmal klar, ob nicht sogar mehrereVerteilungen, abhangig von dem unbekanntem σ2, erscheinen. Zumindest dieseFrage konnen wir bereits jetzt beantworten: Sind X1, . . . , Xn unabhangig undN(µ0, σ

2)-verteilt, so sind die Zufallsvariablen Y1, . . . , Yn mit Yi := (Xi−µ0)/σunabhangig (Satz 4.30) und N(0, 1)-verteilt (Lemma 4.23 (c)). Man uberpruftleicht, dass mit Yn := 1

n

∑n

i=1 Yi

T (X1, . . . , Xn) =|Yn|

1n−1

∑n

i=1(Yi − Yn)2

gilt. Auf der rechten Seite sind µ0 und σ2 verschwunden, T (X) hat also unterallen Verteilungen, fur die die Hypothese richtig ist, eine feste Verteilung; diesehangt nicht von µ0 ab. Es stellt sich heraus, dass diese Große, nach Beseitigungder Betragsstriche, die t-Verteilung mit n − 1 Freiheitsgraden hat; dies ist dieVerteilung mit der Dichte

x 7→1

π(n − 1)

Γ(n2)

Γ(n−12

)

(

1 +x2

n − 1

)−n/2

, −∞ < x < ∞

(genaueres in der Vorlesung Stochastik II). ⊳

Bemerkung 5.15 (a) Klassische Tests laufen in den folgenden Schrittenab: Zunachst wird die Hypothese festgelegt, dann eine geeignete TestgroßeT gewahlt. (Grob gilt, dass große Werte von T gegen die Hypothese sprechensollen. Die Testgroße bestimmt letztlich, welche Abweichungen von der Hypo-these der Test bevorzugt entdeckt; die Wahl sollte daher von der Alternativeabhangen.) Bei nicht-randomisierten Tests mit einem Ablehnungsbereich vonder Form x ∈ X : T (x) ≥ c geht das Signifikanzniveau α nur uber den kriti-schen Wert c = c(α) ein. Dieses Signifikanzniveau wird nun vor Ausfuhrung desExperiments festgelegt, und nach Erhebung der Daten x und Berechnung vonT (x) die Entscheidung (Ablehnung/keine Ablehnung) festgehalten; bei Ableh-nung der Hypothese H : µ ≤ 0 beispielsweise in der Form ‘die Aussage µ > 0ist statistisch auf dem Niveau α abgesichert’. Hieraus geht nicht hervor, obnicht vielleicht sogar fur ein kleineres α auch eine Ablehnung erzielt wordenware oder ob nicht ein weniger stringentes α doch eine Ablehnung gelieferthatte. Man gibt daher haufig anstelle eines Signifikanzniveaus den p-Wert der

Page 98: STOCHASTIK I - Blu7 · STOCHASTIK I Sommersemester 2006 Dieses Skript entha¨lt (in geringfu¨gigem Umfang) Material, das in der Vorlesung selbst nicht besprochen wurde; in ‘besonders

Konfidenzbereiche 97

Beobachtung x an: Dies ist der kleinste α-Wert, der noch zu einer Ablehnungder Hypothese gefuhrt hatte. Der p-Wert ist somit die maximale Wahrschein-lichkeit, unter der Hypothese, dass die Testgroße mindestens so groß ist wieder tatsachlich beobachtete Wert. Der Ubergang von einem festgelegten Signi-fikanzniveau zu p-Werten vermeidet einen Informationsverlust und uberlasstletztlich dem Anwender die Wahl des Signifikanzniveaus.

(b) Wie aus dem Beweis zu Satz 5.11 hervorgeht, dient Randomisierung derAusschopfung der zugelassenen Fehlerwahrscheinlichkeit 1. Art. Als konkretesBeispiel betrachten wir die Hypothese, dass ‘Kopf’ bei einer gegebenen Munzehochstens mit Wahrscheinlichkeit 1/2 erscheint. Soll dies durch zehnmaligenWurf uberpruft werden, so fuhrt Beispiel 5.12 auf die Anzahl T der ‘Kopf’-Wurfe als Testgroße. Es gilt P0.5(T ≥ 9) = 0.0108 . . ., P0.5(T ≥ 8) = 0.0546 . . .,also ist der beste Test zum Niveau α = 0.05 wegen

γ =α − P0.5(T ≥ 9)

P0.5(T = 8)= 0.89 . . .

von der Form

φ(x) =

1, >0.89 . . . ,

∑n

i=1 xi = 80, <

.

Wird nun die Munze zehnmal geworfen, so ist man nur im Falle T < 8oder T > 8 fertig: Bei T = 8 wird ein weiteres, vom bisherigen Gesche-hen unabhangiges Zufallsexperiment ausgefuhrt, in dem mit Wahrscheinlich-keit 0.89 . . . ein bestimmtes Ereignis A eintritt. Erscheint tatsachlich A, sowird die Hypothese abgelehnt, sonst nicht.

Randomisierung wird von vielen Praktikern als mathematische Spielerei an-gesehen. Im Sinne von Teil (a) wurde man beim Erhalt von achtmal ‘Kopf’stattdessen angeben, dass man mit diesem Resultat bei α ≥ 0.0108 . . . eineAblehnung erhalten hatte. ⊳

5.4 Konfidenzbereiche. Die Daten x seien wieder Realisierungen einerZufallsgroße X , deren Verteilung ein unbekanntes Element einer vorgegebenenFamilie P = Pθ : θ ∈ Θ ist. Neben dem direkten Schatzen des Parametersθ und dem Testen von Aussagen uber θ ist die Konstruktion von Konfidenz-bereichen das dritte Standardverfahren der Statistik, man spricht hier auchvon Bereichsschatzern. Jedem x ∈ X wird hierbei eine Teilmenge C(x) desParameterraums Θ zugeordnet. Gilt

(

C(X) ∋ θ)

≥ 1 − α fur alle θ ∈ Θ,

so nennt man C(X) ein 100(1−α)-prozentiges Konfidenzgebiet fur θ. Naturlichmuss x ∈ X : C(x) ∋ θ fur alle θ ∈ Θ eine messbare Teilmenge des

Page 99: STOCHASTIK I - Blu7 · STOCHASTIK I Sommersemester 2006 Dieses Skript entha¨lt (in geringfu¨gigem Umfang) Material, das in der Vorlesung selbst nicht besprochen wurde; in ‘besonders

98 5. Grundbegriffe der mathematischen Statistik

Stichprobenraums sein. Ist C(X) ein Intervall, so spricht man naheliegender-weise von einem Konfidenzintervall, bei C(X) = (−∞, θ(X)] nennt man θ(X)eine obere Konfidenzschranke zum Niveau 1 − α etc.. Fur α sind wieder dieWerte 0.1, 0.05, 0.01, 0.001 gebrauchlich. Wie bei Schatzern ist man auch hieru.U. nicht an dem gesamten Parameter θ, sondern nur an einem Teil η = g(θ)interessiert; die Ausdehnung dieser Konzepte auf solche Parameterfunktionendurfte klar sein.

Beispiel 5.16 Ist X1, . . . , Xn eine Stichprobe aus der Exponentialverteilungmit unbekanntem Parameter θ > 0, so sind die Zufallsvariablen θX1, . . . , θXn

unabhangig und exponentialverteilt mit Parameter 1, und nach einer Ubungs-aufgabe ist Y := minθX1, . . . , θXn dann exponentialverteilt mit Parametern. Es gilt also

(

θ ≥z

minX1, . . . , Xn

)

= Pθ

(

θ minX1, . . . , Xn ≥ z)

= e−nz

fur alle θ ∈ Θ = (0,∞) und alle z > 0. Wahlt man nun z in Abhangigkeitvom Stichprobenumfang n und dem gewahlten Konfidenzniveau α so, dasse−nz = 1 − α gilt, so erhalt man mit

θ(X) =− 1

nlog(1 − α)

minX1, . . . , Xn

eine 100(1 − α)%-Konfidenzunterschranke fur θ. ⊳

Ein Konfidenzbereich C(X) ist eine zufallige Menge, die den unbekannten Pa-rameter θ mit einer bestimmten Wahrscheinlichkeit, dem Konfidenzniveau,uberdeckt (enthalt). Setzt man fur X die Daten x ein, so erhalt man eineRealisierung des Konfidenzbereichs, die den unbekannten Parameter entwederenthalt oder nicht enthalt. Ergibt sich beispielsweise das Intervall [2.5, 3.1],so wird haufig, aber falsch, formuliert: ‘das Intervall [2.5, 3.1] enthalt denunbekannten Parameter θ mit Wahrscheinlichkeit 0.95’. Ein ahnliches Miss-verstandnis ist auch bei Anwendern statistischer Tests weit verbreitet: Wirdeine Hypothese auf dem Niveau α abgelehnt, so heißt dies nicht, dass sie mitWahrscheinlichkeit 1 − α falsch ist. Zur Verdeutlichung betrachten wir einenanalogen Sachverhalt beim Wurfelwurf: Die Augenzahl X nimmt mit Wahr-scheinlichkeit 1/6 den Wert 2 an — wurde geworfen und beispielsweise derWert x = 5 erhalten, so heißt dies nicht, dass 5 mit Wahrscheinlichkeit 1/6gleich 2 ist! Es bleibt dem Experimentator naturlich unbenommen, Konfi-denzintervalle mit subjektiven Wahrscheinlichkeiten im Sinne von Abschnitt 1dieser Vorlesung zu verbinden und somit zu einer Aussage der Form ‘die Starke

Page 100: STOCHASTIK I - Blu7 · STOCHASTIK I Sommersemester 2006 Dieses Skript entha¨lt (in geringfu¨gigem Umfang) Material, das in der Vorlesung selbst nicht besprochen wurde; in ‘besonders

Konfidenzbereiche 99

meines Glaubens daran, dass das Intervall [2.5, 3.1] den unbekannten Parameterθ enthalt, hat den Wert 0.9’ zu kommen.

Zwischen den Ablehnungsbereichen von Tests einfacher Hypothesen und Kon-fidenzbereichen besteht ein gelegentlich nutzlicher Zusammenhang.

Satz 5.17 Fur jedes θ0 ∈ Θ sei A(θ0) ⊂ X Ablehnungsbereich eines nicht-randomisierten Tests zum Niveau α fur H : θ = θ0 gegen K : θ 6= θ0. Dannist C,

C(X) := θ ∈ Θ : X /∈ A(θ)

ein Konfidenzbereich zum Niveau 1 − α fur θ.

Beweis: Die Aussage ergibt sich sofort aus

(

C(X) ∋ θ)

= Pθ

(

X /∈ A(θ))

= 1 − Pθ

(

X ∈ A(θ))

≥ 1 − α.

Eine weitere im Zusammenhang mit der Konstruktion von Konfidenzbereichensehr nuzliche Idee ist die des Pivots (Englisch fur ‘Drehpunkt’): Hat man eineFunktion h : X × Θ → Y mit den Eigenschaften, dass erstens die VerteilungQ von h(X, θ) bei L(X) = Pθ nicht von θ abhangt und dass zweitens Mengender Form x ∈ X : h(x, θ) ∈ A nach θ aufgelost werden konnen (hier hatman oft eine Art ‘Drehung’), so erhalt man durch C(X) mit C(x) := θ ∈ Θ :h(x, θ) ∈ A einen 100(1−α)%-Konfidenzbereich, wenn man fur A eine Mengemit Q(A) ≥ 1 − α wahlt. In Beispiel 5.16 ist h(x, θ) := θ minx1, . . . , xn einsolcher Pivot, ein anderer (und besserer) ist h(x, θ) := θ

∑n

i=1 xi.

Der Zusammenhang von Tests und Konfidenzintervallen, die Idee des Pivotsund schließlich der Umgang mit Parameterfunktionen werden im folgendenBeispiel illustriert, bei dem es um Konfidenzbereiche fur den Mittelwert beinormalverteilten Großen geht.

Beispiel 5.18 Es sei X1, . . . , Xn eine Stichprobe aus N(µ, σ2), wobei sowohlµ als auch σ2(> 0) als unbekannt betrachtet werden. Es seien wieder

Xn =1

n

n∑

i=1

Xi, S2n =

1

n − 1

n∑

i=1

(Xi − Xn)2,

der Stichprobenmittelwert und die Stichprobenvarianz. Bereits beim t-Test inBeispiel 5.14 wurde verwendet, dass

√n(Xn−µ)/Sn eine t-Verteilung mit n−1

Freiheitsgraden hat. Bezeichnet wieder tn−1;1−α das (1 − α)-Quantil zu dieserVerteilung, so gilt daher

Pµ,σ2

(√n

Xn − µ

Sn

≤ tn−1;1−α

)

= 1 − α fur alle µ ∈ R, σ2 > 0.

Page 101: STOCHASTIK I - Blu7 · STOCHASTIK I Sommersemester 2006 Dieses Skript entha¨lt (in geringfu¨gigem Umfang) Material, das in der Vorlesung selbst nicht besprochen wurde; in ‘besonders

100 5. Grundbegriffe der mathematischen Statistik

Unter Verwendung der einfachen Umformung

√n

Xn − µ

Sn

≤ tn−1;1−α ⇐⇒ µ ≥ Xn −1√

nSn tn−1;1−α

(dies entspricht der oben erwahnten Auflosung oder ‘Drehung’) folgt hieraus,dass

µ = Xn −1√

nSn tn−1;1−α

eine 100(1 − α)%-Konfidenzunterschranke fur µ ist. Ganz analog sieht man,dass

[

Xn −1√

nSn tn−1;1−α/2 , Xn +

1√

nSn tn−1;1−α/2

]

ein 100(1− α)%-Konfidenzintervall fur µ ist. ⊳

Die obigen Beispiele beziehen sich alle auf stetige Verteilungen. In der Tatsind Konfidenzintervalle bei diskreten Verteilungen oft ein recht muhsamesGeschaft. Wir bringen ein Beispiel, Konfidenzintervalle fur Wahrscheinlich-keiten, bei dem asymptotische Uberlegungen zu einer Vereinfachung fuhren.

Beispiel 5.19 Es seien wieder einmal X1, X2, . . . unabhangig und Bin(1, θ)-verteilt mit unbekanntem θ ∈ (0, 1). Wir verwenden Xn : = 1

n

∑n

i=1 Xi alsSchatzer fur θ (siehe auch Beispiel 5.2). Nach dem Satz von de Moivre-Laplace(Satz 4.24) gilt mit Sn =

∑n

i=1 Xi = nXn

limn→∞

(

a ≤Sn − nθ

nθ(1 − θ)≤ b

)

= Φ(b) − Φ(a),

wobei wieder Φ die Verteilungsfunktion zur Standardnormalverteilung bezeich-net. Ist uα das zugehorige α-Quantil, also Φ(uα) = α, so folgt mit b := u1−α/2,a := −b bei großem n

(

−u1−α/2 ≤Sn − nθ

nθ(1 − θ)≤ u1−α/2

)

≈ 1 − α,

denn Φ(−u1−α/2) = 1−Φ(u1−α/2) = 1−(1−α/2) = α/2. Wegen θ(1−θ) ≤ 1/4gilt

−u1−α/2 ≤Sn − nθ

nθ(1 − θ)≤ u1−α/2

=⇒ Xn −u1−α/2

2√

n≤ θ ≤ Xn +

n1−α/2

2√

n,

Page 102: STOCHASTIK I - Blu7 · STOCHASTIK I Sommersemester 2006 Dieses Skript entha¨lt (in geringfu¨gigem Umfang) Material, das in der Vorlesung selbst nicht besprochen wurde; in ‘besonders

Konfidenzbereiche 101

also ergibt sich

[

Xn −1

2√

nu1−α/2 , Xn +

1

2√

nu1−α/2

]

als (asymptotisches, konservatives) 100(1 − α)%-Konfidenzintervall fur θ.

Bemerkenswert ist hier, dass die Lange des Intervalls mit 1/√

n fallt; fur eineweitere Dezimalstelle musste man also den Stichprobenumfang verhundertfa-chen. Numerisches Beispiel: Soll bei einer Wahl ein Konfidenzintervall fur dieAnzahl der Stimmen einer Partei von der Form ‘Prozentsatz in Stichprobe ±1%’ auf dem Niveau 0.95 erhalten werden, so muss

1

2√

nu0.975 ≤ 0.01

gelten. Mit u0.975 = 1.96 . . . ergibt sich n ≥ 9604; bei ±0.1% wurde man schonn ≥ 960400 benotigen. (Bei Umfragen werden in der Regel kompliziertereVerfahren verwendet, die von zusatzlicher Information, beispielsweise uber dasWahlverhalten bestimmter Personenkreise, Gebrauch machen.) ⊳