Angewandte Stochastik - Luchsinger Mathematics · Angewandte Stochastik Dr. C.J. Luchsinger 1 Repetition Wahrscheinlichkeitstheorie (WT) Bitte arbeiten Sie dieses Kapitel wenn notwendig

Angewandte Stochastik

Dr. C.J. Luchsinger

1 Repetition Wahrscheinlichkeitstheorie (WT)

Bitte arbeiten Sie dieses Kapitel wenn notwendig vor Semesterbeginn durch. Es ist eine

Zusammenfassung der aktuellsten Version von Kapitel 1-5 aus der Vorlesung ”Einfuhrung

in die Wahrscheinlichkeitstheorie und Statistik”. Die Bezeichnungen und Nummerierungen

fur Kapitel, Sektionen und Aussagen ist gleich belassen, um die Orientierung zu erleichtern;

hingegen steht immer ein ”WTS” (fur Wahrscheinlichkeitstheorie und Statistik) vor jedem

Satz/Kapitel etc.

WTS-1 Wahrscheinlichkeit

Literatur WTS-Kapitel 1

* Cartoon Guide: Kapitel 3

* Krengel: § 1 und 2

WTS-1.4 Das Konzept der Wahrscheinlichkeit P

Wir werden die naive Vorstellung von Wahrscheinlichkeit und Zufall formalisieren,

in die Sprache der Mathematik ubersetzen. Als erstes mussen wir, ohne die Wahrschein-

lichkeiten anzuschauen, Versuchsausgange formalisieren.

WTS-1.4.1 Ereignisraum (auch Menge der Versuchsausgange)

* Sei Ω eine nichtleere Menge.

* Sie steht fur die Menge der Versuchsausgange; wir nennen sie auch Ereignisraum. Es

findet jeweils in einem Experiment genau ein sogenanntes Elementarereignis statt, z.B.

ω1 ∈ Ω oder ω2 ∈ Ω etc.

1

* Bei einem Wurfel wird man sinnvollerweise mit Ω := 1, 2, 3, 4, 5, 6 die Menge der

moglichen Anzahl Augen wahlen.

* Bei Munzwurf wird man sinnvollerweise Ω := K,Z wahlen. k−facher Munzwurf:

Ω := K,Zk.

* Die Menge Ω kann von endlicher oder unendlicher Kardinalitat sein; sogar uberabzahlbar

unendlich:

* abzahlbar unendliches Ω: zufallige Zahl aus Ω := N

* uberabzahlbar unendliches Ω: Zeit bis Atom zerfallt ist im Intervall Ω := (0,∞)

und zufallig, zumindest in gewissen physikalischen Modellen. Unendlicher Munzwurf:

Ω := K,Z∞.

* Beim Wurfel konnen wir fortfahren mit: A ist mit A := 2, 4, 6 die Menge der geraden

Zahlen und B := 4, 5, 6 die Menge der Zahlen streng grosser 3.

* A bzw. B nennen wir ein Ereignis. Ereignisse sind allgemein Teilmengen von Ω. Dies ist

verwirrend. Es kann ja (Ereignis A) nicht gleichzeitig 2, 4 und 6 geworfen werden. Es gilt

nach wie vor, dass genau ein sogenanntes Elementarereignis stattfindet. Wenn dieses ω1

z.B. gleich 2 ist, so sagen wir: A ist eingetreten - es ist ja auch eine gerade Zahl geworfen

worden; eine reicht!

Wir fassen die mengentheoretischen Ausdrucke und ihre Bedeutung fur die Wahrschein-

lichkeitstheorie in folgender Tabelle zusammen:

Symbol Mengentheorie / Bedeutung fur die WT

Ω Menge / Ereignisraum, Menge der Versuchsausgange

ω Element von Ω / Elementarereignis, Versuchsausgang

A Teilmenge von Ω / Ereignis; falls ω ∈ A, sagt man, dass das Ereignis A

eingetreten ist

Ac Komplement von A / kein Elementarereignis aus A findet statt

2

A ∩B Schnittmenge von A und B / ein Elementarereignis aus A und B findet statt

A ∪B Vereinigung von A und B / ein Elementarereignis aus A oder B findet statt

A\B A ohne B / ein Elementarereignis aus A tritt ein, aber nicht aus B

A ⊂ B A ist Teilmenge von B / Wenn ein Elementarereignis aus A stattfindet, dann

immer auch ein Elementarereignis aus B

∅ leere Menge / unmogliches Ereignis

Ω ganze Menge / sicheres Ereignis (etwas muss passieren)

WTS-1.4.2 σ-Algebra

Wir wollen den Ereignissen (z.B. A aus Ω) spater eine Wahrscheinlichkeit (P [A]) zuordnen.

Wenn wir mehrere Ereignisse vorgegeben haben, wollen wir auch die Wahrscheinlichkeiten

von deren Vereinigungen, Durchschnitten oder Komplementen angeben konnen. An die

Menge der Teilmengen von Ω, welche wir untersuchen, stellen wir also ein paar wenige

Bedingungen:

Definition WTS-1.1 [σ-Algebra] Ein Teilmengensystem A von Ω heisst σ-Algebra,

wenn folgende 3 Bedingungen erfullt sind:

a) Ω ∈ A

b) A ∈ A ⇒ Ac ∈ A

c) A1, A2, . . . ∈ A ⇒ ∪n≥1An ∈ A.

Falls |Ω| = n < ∞, so hat die Potenzmenge von Ω bekanntlich Kardinalitat 2n, ist also

wiederum endlich. Wir werden im Fall |Ω| = n <∞ in dieser Vorlesung einfach als A die

Potenzmenge von Ω wahlen.

Nur nebenbei sei erwahnt, dass man z.B. im Fall Ω = R etliche Klippen uberwinden

muss(te), um sowohl diese Konzepte wie auch die dazugehorigen Wahrscheinlichkeitsmasse

P [.] korrekt und ohne Widerspruche zu definieren. Dies wird in der Masstheorie behandelt.

Wir gehen hier nicht weiter darauf ein, sondern prasentieren im Eilzugtempo: Wenn wir

3

Ω = R wahlen, dann ist die sogenannte Borel-σ-Algebra B(R) die kleinste σ-Algebra auf

R, welche z.B. alle geschlossenen Intervalle enthalt. Dieses Teil-Mengensystem enthalt

auch alle halboffenen und alle offenen Intervalle, auch ”fast alle” sonstigen Teilmengen von

R. Man muss aktiv und gezielt Mengen konstruieren, welche in dieser σ-Algebra nicht

enthalten sind!

WTS-1.4.3 Wahrscheinlichkeit P [.]

WTS-Definition 1.2 [Wahrscheinlichkeit P ] Eine Wahrscheinlichkeit P ist eine

reellwertige Funktion auf den Mengen aus A. Dabei mussen folgende 3 Bedingungen erfullt

sein:

a) A ∈ A ⇒ 0 ≤ P [A] ≤ 1

b) P [Ω] = 1

c) Sei Ai∞i=1 eine abzahlbare Folge von disjunkten Mengen aus A, dann muss gelten:

P [∪∞i=1Ai] =∞∑

i=1

P [Ai].

Man darf in WTS-Definition 1.2 c) z.B. auch Ai = ∅, i ≥ 3 wahlen!

Es gibt eine extrem praktische Interpretation von Wahrscheinlichkeiten und Pro-

portionen: Wir haben 7.5 Millionen EinwohnerInnen in der Schweiz. Wenn man jetzt

zufallig (jedeR EinwohnerIn hat gleiche Wahrscheinlichkeit, ausgewahlt zu werden, also

(1/7’500’000)) eineN EinwohnerIn herausgreift, so ist beispielsweise die Wahrscheinlichkeit,

einen Basler herauszugreifen, genau gleich der Proportion der Basler an der Schweizerischen

Bevolkerung. Wir werden diese Analogie in vielen Fallen einsetzen.

Aus WTS-Definition 1.2 lassen sich nutzliche Eigenschaften ableiten, welche wir im folgen-

den Lemma zusammenfassen.

4

WTS-Lemma 1.3 [nutzliche Eigenschaften von P ] Mit A,B ∈ A gelten folgende

Aussagen:

a) Prinzip der Gegenwahrscheinlichkeit: P [A] = 1− P [Ac]; v.a. P [∅] = 0

b) Sei Ai∞i=1 eine abzahlbare Folge von Mengen aus A, dann muss gelten:

P [∪∞i=1Ai] ≤∞∑

i=1

P [Ai].

c) A ⊆ B ⇒ P [B] = P [A] + P [B\A]

d) A ⊆ B ⇒ P [A] ≤ P [B]

e) P [A ∪B] = P [A] + P [B]− P [A ∩B].

WTS-1.4.4 Wahrscheinlichkeitsraum

WTS-Definition 1.4 [Wahrscheinlichkeitsraum (Ω,A, P )] Wir nennen ein Tripel

der Form (Ω,A, P ) Wahrscheinlichkeitsraum.

WTS-1.4.5 Bedingte Wahrscheinlichkeit P [A|B]

WTS-Definition 1.5 [Bedingte Wahrscheinlichkeit P [A|B]]

P [A|B] :=P [A ∩B]P [B]

,

falls P [B] > 0. Man nennt P [A|B] die bedingte Wahrscheinlichkeit von A gegeben B.

WTS-1.4.6 Unabhangigkeit von Ereignissen

Das folgende Konzept sollte aus der Mittelschule (Gymnasium) bereits von den Wahr-

scheinlichkeitsbaumen / Ereignisbaumen her bekannt sein. Anschaulich und in der Model-

lierung bedeutet unabhangig, dass zwei Ereignisse von unabhangigen Mechanismen erzeugt

wurden.

5

WTS-Definition 1.6 [Unabhangigkeit von Ereignissen] Ereignisse A und B

sind (paarweise) unabhangig voneinander, wenn

P [A ∩B] = P [A]P [B].

Falls P [B] > 0 resp. P [A] > 0, so ist Unabhangigkeit von A und B gleichbedeutend mit

P [A|B] = P [A] (”who cares”−Variante)

resp. P [B|A] = P [B].

Bei mehr als 2 involvierten Ereignissen ist Vorsicht am Platz. Beginnen wir zuerst mit

der Definition: Die Ereignisse A1, . . . , An sind in der Gesamtheit unabhangig voneinander,

wenn fur beliebige Auswahl k = 1, . . . , n und 1 ≤ i1 < i2 < . . . < ik ≤ n gilt:

P [Ai1 ∩Ai2 ∩ . . . ∩Aik ] = P [Ai1 ]P [Ai2 ] . . . P [Aik ].

Aus der paarweisen Unabhangigkeit folgt jedoch nicht zwingend die (gesamtheitliche) Un-

abhangigkeit! Entwickeln Sie aus der folgenden Ausgangslage ein Gegenbeispiel dazu: Sei

Ω = ω1, ω2, ω3, ω4. Alle elementaren Ereignisse seien gleichwahrscheinlich (1/4). Un-

tersuchen Sie die Ereignisse A = ω1, ω2, B = ω1, ω3 und C = ω1, ω4 unter diesem

Gesichtspunkt.

WTS-1.4.7 Formel von Bayes

Angenommen wir kennen P [B|A], wollen aber eigentlich P [A|B] wissen.

P [A|B] =P [A ∩B]P [B]

=P [B|A]P [A]

P [B|A]P [A] + P [B|Ac]P [Ac].

6

WTS-1.4.8 Formel von der totalen Wahrscheinlichkeit FTW

WTS-Lemma 1.7 [Formel von der totalen Wahrscheinlichkeit FTW]

B1, B2, . . . sei eine Partition von Ω (die Bi’s sind disjunkt und ∪∞i=1Bi = Ω). Weiter

sei fur alle Bi, i ≥ 1, P [Bi] > 0 erfullt. Dann gilt fur jedes A ∈ A:

P [A] =∞∑

i=1

P [A|Bi]P [Bi]. (FTW )

Wie man am Beweis sieht, gilt ein analoges Resultat auch fur eine endliche Partition.

Wir fugen noch zwei miteinander eng verwandte Formeln hinzu:

WTS-Lemma 1.8 [limP [An] bei ab- oder aufsteigenden Folgen] Sei A1, A2, . . .

eine aufsteigende Folge von Ereignissen, d.h. A1 ⊆ A2 ⊆ A3 . . .. Wir definieren in dem

Fall

A := limi→∞

Ai := ∪i≥1Ai.

Dann gilt P [A] = limi→∞ P [Ai].

Analog gilt: Sei B1, B2, . . . eine absteigende Folge von Ereignissen, d.h. B1 ⊇ B2 ⊇ B3 . . ..

Wir definieren in dem Fall

B := limi→∞

Bi := ∩i≥1Bi.

Dann gilt P [B] = limi→∞ P [Bi].

WTS-2 Zufallsgrossen



* Krengel: 3.1 und 3.2 in § 3 und § 10 sowie 11.1, 11.2 und 11.3 in § 11.

7

WTS-2.1 Zufallsgrosse

WTS-Definition 2.1 [Zufallsgrosse X auf (Ω,A, P )] Eine Zufallsgrosse auf

(Ω,A, P ) ist eine Funktion X : Ω → R mit der Eigenschaft, dass ω ∈ Ω|X(ω) ≤ a ∈ Afur alle reellen a. Die geforderte Eigenschaft nennt man Messbarkeit.

WTS-2.1 - Zugabe: Wir schmeissen die gesamte Wahrscheinlichkeit auf die

reelle Achse

Es gilt bekanntlich P [Ω] = 1. Durch eine Zufallsgrosse X auf (Ω,A, P ) wird diese

ganze Wahrscheinlichkeit 1 auf die reelle Achse R ”hinubergeworfen”. Auf (R,B(R))

konnen wir wieder einen Wahrscheinlichkeitsraum (vgl. WTS-1.4.4) definieren: Sei A

eine beliebige Teilmenge von B(R). Wir definieren:

PX [A] := P [ω ∈ Ω|X(ω) ∈ A].

Wir erhalten also einen neuen Wahrscheinlichkeitsraum (R,B(R), PX), welcher von X

erzeugt wurde. X : Ω → R muss nicht surjektiv sein; das fuhrt zu keinen Problemen!

Man nennt PX auch die Verteilung oder das Verteilungsgesetz der Zufallsgrosse X; haufig

schreibt man einfach P statt PX .

WTS-2.2 Verteilungsfunktion

WTS-Definition 2.2 [Verteilungsfunktion F ] Die Verteilungsfunktion F einer

Zufallsgrosse X ist definiert als

F (a) := P [X ≤ a] := P [ω|X(ω) ≤ a].

Man schreibt manchmal fur die bessere Identifikation auch FX statt nur F , falls man

betonen will, dass die Verteilungsfunktion zu X gehort.

WTS-Lemma 2.3 [nutzliche Eigenschaften von F ] Es gelten folgende Aussagen:

a) lima→−∞ F (a) = 0 und lima→∞ F (a) = 1

b) F (a) ist monoton wachsend in a und rechtsstetig.

8

WTS-2.3 Diskrete und stetige Zufallsgrosse

WTS-Definition 2.4 [Diskrete und stetige Zufallsgrosse] Wenn eine Zufalls-

grosse X nur Werte auf einer abzahlbaren Teilmenge von R annehmen kann, nennen wir

sie diskret. Wir nennen eine Zufallsgrosse Y stetig, wenn Ihre Verteilungsfunktion FY sich

darstellen lasst als

FY (a) := P [Y ≤ a] =∫ a

−∞f(u)du,

wobei f eine nichtnegative, integrierbare Funktion auf R ist. Diese Funktion f erfullt

∫ ∞−∞

f(x)dx = 1.

Wir nennen f Dichte oder Dichtefunktion der Zufallsgrosse Y (eventuell mit fY bezeich-

net). Salopp gilt: diskret ist auf einzelnen Punkten und stetig ist auf durchgezogenen

Intervallen.

Wir wollen im Folgenden 4 Eigenschaften von stetigen Zufallsgrossen herausarbeiten

und am Beispiel der Normalverteilung veranschaulichen.

1. Fur a < b haben wir:

P [a < X ≤ b] = P [X ≤ b]− P [X ≤ a] = F (b)− F (a) =∫ b

a

f(x)dx.

2. Fur stetige Zufallsgrossen gilt: P [X = x0] =∫ x0

x0f(x)dx = 0.

3. Wegen 2. gilt insbesondere fur a < b:

P [a ≤ X ≤ b] = P [a < X ≤ b] = P [a < X < b] = P [a ≤ X < b]

= P [X ≤ b]− P [X ≤ a] = F (b)− F (a) =∫ b

a

f(x)dx.

4. Wenn F differenzierbar ist (mit gesundem Menschenverstand auch in den meisten

anderen Fallen) gilt:

F ′(x) = f(x).

9

WTS-2.4 Bivariate Verteilung

WTS-Definition 2.5 [gemeinsame Verteilungsfunktion von X und Y ]Seien

X und Y zwei Zufallsgrossen auf dem gleichen Wahrscheinlichkeitsraum. Die gemeinsame

Verteilungsfunktion wird dann definiert als

FX,Y (x, y) := P [ω|X(ω) ≤ x ∩ ω|Y (ω) ≤ y];

kurz schreibt man hierfur auch P [X ≤ x, Y ≤ y]. Das Komma ”,” ist dabei als ”und” zu

lesen.

Turnubungen

1. Fur diskrete Zufallsgrossen gilt wegen Eigenschaft c) von WTS-Definition 1.2:

FX,Y (x, y) =∑

xi≤x

∑

yj≤yP [X = xi, Y = yj ].

Fur stetige Zufallsgrossen:

FX,Y (x, y) =∫ x

−∞

∫ y

−∞fX,Y (u, v)dvdu,

wobei eine bivariate Zufallsgrosse als stetig bezeichnet wird, wenn eine solche Darstellung

mit Dichte fX,Y existiert.

2. X und Y seien diskrete Zufallsgrossen mit Werten (xi)i, (yj)j . Dann haben wir fur

beliebiges xi:

P [X = xi] =∑

j

P [X = xi, Y = yj ]

Stetig erhalt man analog

fX(x) =∫ ∞−∞

fX,Y (x, y)dy.

3. Bei multivariaten Situationen der Dimension 3 und mehr verfahrt man analog.

10

WTS-2.5 Unabhangigkeit von Zufallsgrossen

Anschaulich bedeutet fur uns ”X unabhangig von Y ” einfach, dass X und Y von unter-

schiedlichen Mechanismen erzeugt wurden.

Mathematisch exakt fuhrt man die Unabhangigkeit von Zufallsgrossen auf die Unabhangig-

keit von Ereignissen zuruck:

WTS-Definition 2.6 [Unabhangigkeit von Zufallsgrossen] Zufallsgrossen auf

einem gemeinsamen Wahrscheinlichkeitsraum X1, X2, . . . , Xn sind (gesamtheitlich) un-

abhangig voneinander, wenn

P [X1 ∈ B1, X2 ∈ B2, . . . , Xn ∈ Bn] = P [X1 ∈ B1]P [X2 ∈ B2] . . . P [Xn ∈ Bn] (I)

fur beliebige B1, . . . , Bn aus der Borel-σ-Algebra B(R).

Fur den diskreten Fall mag dies unproblematisch sein, da die einzelnen Werte, welche die

diskreten Zufallsgrossen annehmen konnen, sicher in der Borel-σ-Algebra B(R) enthalten

sind. Im stetigen Fall ist (I) aber ein wenig umstandlich. Gott sei Dank gibt es aquivalente

Bedingungen unter Benutzung der Verteilungsfunktionen resp. Dichten: X und Y sind

genau dann unabhangig voneinander, wenn fur beliebige a, b ∈ R gilt (analog fur mehr als

2 Zufallsgrossen):

FX,Y (a, b) = FX(a)FY (b), (II)

oder (wieder aquivalent):

fX,Y (a, b) = fX(a)fY (b). (III)

Jargon:

1. Das Wort ”gesamtheitlich” lassen wir in Zukunft weg: Wenn nicht anders angegeben,

ist immer die gesamtheitliche Unabhangigkeit gemeint (bei Ereignissen wie auch bei

Zufallsgrossen).

2. Bei 2 Zufallsgrossen vereinbaren wir weiter das Symbol: X∐Y , wenn X und Y un-

abhangig sind.

3. unabhangig, identisch verteilt = independent and identically distributed (iid)

11

WTS-3 Erwartungswerte



* Krengel: 3.3 und 3.5 in § 3 und 11.4 in § 11

WTS-3.1 Erwartungswert und Varianz einer diskreten und stetigen Zufallsgros-

se

WTS-Definition 3.1 [Erwartungswert einer diskreten und stetigen Zufalls-

grosse] Der Erwartungswert E[X] einer Zufallsgrosse X ist definiert als

E[X] :=∑

xixiP [X = xi] falls X diskret∫∞

−∞ xf(x)dx falls X stetig.

Sei g(x) eine Funktion von R nach R. Dann definieren wir:

E[g(X)] =∑

xig(xi)P [X = xi] falls X diskret∫∞

−∞ g(x)f(x)dx falls X stetig.

Diese Definitionen gelten, falls die Summe bzw. das Integral der Absolutwerte existiert.

Dabei wird jeweils uber den gesamten Wertebereich der Zufallsgrosse summiert respektive

integriert.

WTS-Definition 3.2 [Varianz/Standardabweichung einer diskreten und ste-

tigen Zufallsgrosse] Mit µX := E[X] definieren wir die Varianz V [X] einer Zufallsgrosse

X als

V [X] := E[(X − µX)2] =∑

xi(xi − µX)2P [X = xi] falls X diskret∫∞

−∞(x− µX)2f(x)dx falls X stetig.

Dabei wird auch hier uber den gesamten Wertebereich der Zufallsgrosse summiert respek-

tive integriert. Die Standardabweichung sd (Standard Deviation) ist die Wurzel aus der

Varianz:

sd[X] :=√V [X].

12

WTS-Definition 3.3 [Erwartungswert bei 2 involvierten Zufallsgrossen] Der

Erwartungswert E[g(X,Y )] (z.B. g(x, y) = xy) von 2 Zufallsgrossen X und Y auf dem

gleichen Wahrscheinlichkeitsraum ist definiert als

E[g(X,Y )] :=∑

xi

∑yjg(xi, yj)P [X = xi, Y = yj ] falls X,Y diskret∫

x

∫yg(x, y)f(x, y)dydx falls X,Y stetig.

Dabei wird auch hier uber den gesamten Wertebereich der Zufallsgrossen summiert respek-

tive integriert. Analog verfahrt man bei mehr als 2 Zufallsgrossen.

WTS-3.2 Einige wichtige Rechenregeln

WTS-Lemma 3.4 [Absolutbetrag ”vorher” und ”nachher”, Linearitat, In-

dikatorfunktion] Mit obiger Notation gelten (falls Summen und Integrale existieren):

a) |E[X]| ≤ E[|X|].

b) Linearitat des Erwartungswertes:

E[aX + bY ] = aE[X] + bE[Y ]

und damit unter anderem E[b] = b und E[0] = 0 (setze z.B. a = 0, Y = 1). Umgangssprach-

lich nennt man Teil b): ”Konstanten herausziehen” und ”Summen auseinanderziehen”.

c) Mit I Indikatorfunktion (d.h. IA(ω) = 1 gdw ω ∈ A, 0 sonst, wo A ∈ A) gilt:

E[IA] = P [IA = 1] = P [A].

Im Allgemeinen gilt nicht

E[g(X)] = g(E[X]);

aber es gilt die sogenannte Jensen-Ungleichung fur konvexe g:

13

WTS-Lemma 3.5 [Jensen-Ungleichung] Fur konvexe g gilt: E[g(X)] ≥ g(E[X]).

WTS-Lemma 3.6 [Alternative Berechnung des Erwartungswerts] Mit obiger

Notation gelten (falls Summen und Integrale existieren):

Falls X Werte auf 0, 1, 2, 3, . . . annimmt, dann gilt:

E[X] =∑

n≥1

P [X ≥ n].

Falls X eine stetige Zufallsgrosse auf (0,∞) mit Verteilungsfunktion F (t) ist, dann gilt

analog:

E[X] =∫ ∞

0

(1− F (t))dt =∫ ∞

0

P [X ≥ t]dt.

WTS-Lemma 3.7 [elementare Rechenregeln der Varianz] Mit obiger Notation

gelten:

a) V [aX + b] = a2V [X] fur a, b reelle Zahlen (”Konstante quadratisch raus”).

b) V [X] = E[X2]− (E[X])2

WTS-Lemma 3.8 [Unabhangigkeit von Zufallsgrossen und Erwartungswer-

te] Mit obiger Notation gelten (falls Summen und Integrale existieren):

a) Bei 2 Zufallsgrossen X und Y auf dem gleichen Wahrscheinlichkeitsraum gilt im Fall

von X∐Y , dass

E[XY ] = E[X]E[Y ]

(”Produkte auseinandernehmen”).

b) Sei (Xi)ni=1 eine Folge von unabhangigen Zufallsgrossen (die gleiche Verteilung wird

nicht gefordert!). Dann gilt:

V [n∑

i=1

Xi] =n∑

i=1

V [Xi]

(”Varianz der Summe ist die Summe der Varianzen”).

14

WTS-3.4 Kovarianz und Korrelation

WTS-Definition 3.9 [Kovarianz, Korrelationskoeffizient] Seien X,Y zwei Zu-

fallsgrossen auf dem gleichen Wahrscheinlichkeitsraum mit E[X2] <∞, E[Y 2] <∞.

a) Den Ausdruck Cov(X,Y ) := E[(X − E[X])(Y − E[Y ])] nennen wir Kovarianz von X

und Y .

b) Falls V [X] > 0, V [Y ] > 0, so bezeichnen wir

Cor(X,Y ) :=Cov(X,Y )√V [X]V [Y ]

als Korrelationskoeffizient von X und Y .

Es gilt:

a) Cov(X,Y ) := E[(X − E[X])(Y − E[Y ])] = E[X(Y − E[Y ])] = E[(X − E[X])Y ] =

E[XY ]− E[X]E[Y ]

b) Cov(aX + b, cY + d) = acCov(X,Y ) fur a, b, c, d ∈ R

c) |Cor(aX+b, cY+d)| = |Cor(X,Y )| fur a, b, c, d ∈ R (Skaleninvarianz dank Normierung!)

d) Cov(X,X) = V [X]

e) Wenn Cov(X,Y ) = Cor(X,Y ) = 0, so nennen wir 2 Zufallsgrossen unkorreliert. Wenn

Cor(X,Y ) > 0 sagen wir, X und Y seien positiv korreliert und wenn Cor(X,Y ) < 0 sagen

wir, X und Y seien negativ korreliert.

f) Bei Cov(X,Y ) = 0 gilt offenbar wegen a) auch E[XY ] = E[X]E[Y ]. Wir haben in WTS-

Lemma 3.8 a) gesehen, dass wenn 2 ZufallsgrossenX,Y unabhangig voneinander sind, dann

gilt auch E[XY ] = E[X]E[Y ]. Offenbar folgt also aus Unabhangigkeit Unkorreliertheit:

unabhangig⇒ unkorreliert

15

g) Das folgende Gegenbeispiel zeigt, dass Unabhangigkeit von X und Y starker ist als

Unkorreliertheit. Sei P [(X,Y ) = (−1, 1)] = 1/3, P [(X,Y ) = (0,−2)] = 1/3, P [(X,Y ) =

(1, 1)] = 1/3. Zeigen Sie: Cov(X,Y ) = 0; zeigen Sie mit WTS-Definition 2.6, dass X und

Y nicht unabhangig voneinander sind.

h) Wenn wir den Beweis von WTS-Lemma 3.8 b) nochmals durchgehen, sehen wir, dass

fur die Gultigkeit der Formel

V [n∑

i=1

Xi] =n∑

i=1

V [Xi]

die Unabhangigkeit der Zufallsgrossen nicht zwingend ist: Dank Bemerkung a) haben wir

mit Cov(X,Y ) = 0 auch E[XY ] = E[X]E[Y ] und damit reicht bereits die Unkorreliertheit!

WTS-Lemma 3.10 [Der Korrelationskoeffizient als Mass der linearen Ab-

hangigkeit] Seien X,Y zwei Zufallsgrossen auf dem gleichen Wahrscheinlichkeitsraum

mit

E[X2] <∞, E[Y 2] <∞. Dann gelten:

a) |Cor(X,Y )| ≤ 1

b) |Cor(X,Y )| = 1⇔ ∃ a, b ∈ R : X(ω) = a+ bY (ω) ∀ ω ∈ Ω\N,P [N ] = 0.

Bemerkungen zu WTS-Lemma 3.10 In b) finden wir den Ausdruck ”Ω\N,P [N ] = 0”.

Dies ist rein technisch (fast sicher, bis auf eine Nullmenge N). Wenn wir eine (endliche)

Stichprobe haben, ist es sogar ohne diesen Zusatz gultig.

WTS-3.5 Bedingte Verteilungen und Definition des bedingten Erwartungswer-

tes gegeben Y = y0

Um Verwechslungen zu vermeiden sei vorausgeschickt, dass eine allgemeine Definition

bedingter Erwartungswerte sehr aufwendig ist. Wir bedingen hier lediglich auf ein Ereignis

(gegeben Y = y0) - wir bedingen hier nicht auf eine Zufallsgrosse (E[X|Y ], mehr dazu in

einer allfalligen Vorlesung uber Mass- und Wahrscheinlichkeitstheorie). Zudem behandeln

wir hier nur die diskreten Zufallsgrossen und harmlose stetige Zufallsgrossen.

16

Wir mussen als Vorbereitung auf die bedingten Erwartungswerte noch bedingte Verteilun-

gen einfuhren: Fur bedingte Wahrscheinlichkeiten gilt

P [A|B] :=P [A ∩B]P [B]

.

Wir konnen dann im Fall diskreter Zufallsgrossen folgendermassen fortfahren: Mit

A := X = x, B := Y = y0 ist P [A|B] die Wahrscheinlichkeit, dass X = x ist, wenn

Y = y0 ist (falls X∐Y , ist dies einfach P [X = x]):

P [X = x|Y = y0] :=P [X = x ∩ Y = y0]

P [Y = y0] :=P [ω|X(ω) = x ∩ ω|Y (ω) = y0]

P [ω|Y (ω) = y0] .

Wir konnen jetzt noch x variieren und erhalten damit die Verteilung von ganz X|Y = y0

(zur Erinnerung an WTS-1.4.5: bedingte Wahrscheinlichkeiten sind auch Wahrschein-

lichkeiten).

Die Schwierigkeiten liegen im stetigen Fall: bei stetigen Zufallsgrossen X,Y gilt ja

P [X = x] = P [Y = y0] = 0, wenn x, y0 konkrete, feste, reelle Zahlen sind. Damit

hatten wir oben 0/0, was nicht definiert ist. Da sich Wahrscheinlichkeitsfunktionen und

Dichtefunktionen von der Bedeutung her entsprechen, ist man trotzdem versucht, bedingte

Dichtefunktionen folgendermassen zu definieren (und in vielen Lehrbuchern geschieht dies

auch diskussionslos):

fX|Y=y0(x) :=fX,Y (x, y0)fY (y0)

, (WTS − 3.2)

falls fY (y0) > 0. (WTS-3.2) konnen wir als Definition stehen lassen (sie ist sinnvoll),

wollen aber trotzdem mit einem Limesresultat noch begrunden, dass dies die Verteilung von

X|Y = y0 angibt. Diese Begrundung ist nicht Prufungsstoff sondern Honours-Programm.

17

Wir repetieren zuerst WTS-Definition 2.4 und betrachten dann den Ausdruck

P [X ≤ a|Y ∈ [y0 − h, y0 + h]] =P [X ≤ a, Y ∈ [y0 − h, y0 + h]]

P [Y ∈ [y0 − h, y0 + h]].

Jetzt sind Zahler und Nenner nicht mehr 0 - gehen aber in unteren Rechnungen gegen

0! Wir werden jetzt h 0 gehen lassen und benutzen zwei mal den Mittelwertsatz der

Integralrechnung (Forster Analysis I, Satz 8, § 18). Weiter setzen wir voraus, dass die

Dichten fX(x), fY (y) und fX,Y (x, y) stetige, beschrankte Funktionen sind (es geht auch

mit weniger starken Forderungen, aber wir haben das immer erfullt).

limh0

P [X ≤ a|Y ∈ [y0 − h, y0 + h]] = limh0

P [X ≤ a, Y ∈ [y0 − h, y0 + h]]P [Y ∈ [y0 − h, y0 + h]]

= limh0

∫ a−∞

∫ y0+h

y0−h fX,Y (x, y)dydx∫ y0+h

y0−h fY (y)dy

= limh0

∫ a−∞ 2hfX,Y (x, η(x, h))dx

2hfY (ξ(h))

= limh0

∫ a−∞ fX,Y (x, η(x, h))dx

fY (ξ(h))

=

∫ a−∞ fX,Y (x, y0)dx

fY (y0)

=∫ a

−∞

fX,Y (x, y0)fY (y0)

dx

Also konnen wir wegen WTS-Definition 2.4 den Ausdruck (WTS-3.2) als bedingte Dichte

von X|Y = y0 auffassen. Damit konnen wir einen wichtigen Begriff einfuhren:

WTS-Definition 3.11 [bedingter Erwartungswert gegeben Y = y0] Wir de-

finieren den bedingten Erwartungswert E[X|Y = y0] als:

E[X|Y = y0] :=∑

xixiP [X = xi|Y = y0] falls X diskret∫∞

−∞ xfX|Y=y0(x)dx falls X stetig.

Offenbar hangt dieser bedingte Erwartungswert von y0 ab. Bedingte Wahrscheinlichkeiten

sind selber auch Wahrscheinlichkeiten (ebenso Dichten!); wir haben also einfach einen

gewohnlichen Erwartungswert von X berechnet bedingt auf das Ereignis, dass Y = y0 ist.

18

Das nachfolgende Resultat ist ein Pendant auf der Ebene der Erwartungswerte zu WTS-

Lemma 1.7 (FTW) auf der Ebene der Wahrscheinlichkeiten:

WTS-Lemma 3.12 [Formel vom totalen Erwartungswert FTE] Mit obigen

Bezeichnungen gilt

E[X] =∑

yjE[X|Y = yj ]P [Y = yj ] falls X,Y diskret∫∞

−∞E[X|Y = y]fY (y)dy falls X,Y stetig.

19

WTS-4 Ausgewahlte Verteilungen

WTS-4.2 Diskrete Verteilungen

WTS-4.2.1 Bernoulli Be(p)

X kann 2 Werte annehmen: 0 und 1 (alternativ auch −1 und +1). P [X = 1] = p (Erfolg)

und P [X = 0] = 1 − p (Misserfolg). E[X] = p und V [X] = p(1 − p). R-Befehl: binom

mit n = 1. Mit 0 ≤ k ≤ 1 haben wir

P [X = k] = pk(1− p)1−k.

WTS-4.2.2 Binomial Bin(n,p); Krengel § 2: 2.4

Seien Xi, 1 ≤ i ≤ n, n iid Be(p)-Zufallsgrossen. Sei Y :=∑ni=1Xi. Dann hat Y per

Definitionem die Binomialverteilung mit Parametern n und p; Bin(n,p). E[Y ] = np (WTS-

Aufgabe 36 a)) und V [Y ] = np(1−p) (Bemerkung zu WTS-Lemma 3.8), R-Befehl: binom.

0 ≤ k ≤ n:

P [Y = k] =(n

k

)pk(1− p)n−k.

Einsatz: Anzahl Erfolge (k) bei n unabhangigen Versuchen mit Erfolgswahrscheinlichkeit

p.

WTS-4.2.3 Geometrisch Ge(p); Krengel § 2: 2.4

Seien wieder Xi, i ≥ 1, iid Be(p)-Zufallsgrossen. Wir interessieren uns fur den Zeitpunkt

des ersten Erfolgs: Z := mini|Xi = 1. Z ist eine Zufallsgrosse auf den naturlichen

Zahlen ohne die Null. Z hat per Definitionem eine geometrische Verteilung Ge(p) mit

Parameter p. Es gilt: E[Z] = 1/p und V [Z] = (1− p)/p2, R-Befehl: geom.

P [Z = k] = p(1− p)k−1.

20

Die Ge(p) hat die fur die angewandte Stochastik zentral wichtige Eigenschaft, dass sie die

einzige diskrete Zufallsgrosse ist, welche gedachtnislos ist: mit n > m > 0 gilt hier (vgl.

WTS-Aufgabenblatt 9)

P [Z > n|Z > m] = P [Z > (n−m)].

”Gegeben, es hat schon m = 1000 Wurfe ohne 6 (=Erfolg) gegeben, wie gross ist die

Wahrscheinlichkeit, dass es sogar insgesamt mindestens n = 1004 Wurfe ohne 6 geben

wird? Also dies ist nur noch von der Differenz n−m = 4 abhangig. Wie lange es bereits

keine 6 gegeben hat, ist egal!”

Es sei noch erwahnt, dass die geometrische Verteilung in gewissen Lehrbuchern so definiert

wird, dass man die Anzahl Misserfolge bis zum ersten Erfolg zahlt. Dann nimmt die Ge(p)

Werte auf den naturlichen Zahlen inklusive die 0 an. Die Resultate sind analog aber leicht

komplizierter - das selbe gilt auch fur eine alternative Definition der NB(n,p) nachfolgend.

WTS-4.2.4 Negativ Binomial NB(n,p); Krengel § 2: 2.4

Seien Zi, 1 ≤ i ≤ n, n iid Ge(p)-Zufallsgrossen. Sei W :=∑ni=1 Zi. Dann hat W

per Definitionem die Negativ-Binomialverteilung mit Parametern n und p; NB(n,p). Die

NB(n,p)-Verteilung beschreibt die Zeit, bis es n Erfolge gegeben hat. E[W ] = n/p (folgt

aus Linearitat des Erwartungswerts und WTS-4.2.3) und V [W ] = n(1 − p)/p2 (folgt aus

WTS-Lemma 3.8 b) und WTS-4.2.3), R-Befehl: nbinom. w ≥ n

P [W = w] =(w − 1n− 1

)pn(1− p)w−n.

4.2.5 WTS-Poisson Po(λ); Krengel § 5: 5.4

Die Motivation fur die Poissonverteilung kommt in Kapitel 8 dieser Vorlesung. Eine Zu-

fallsgrosse V ist poissonsch, wenn Sie Werte auf den naturlichen Zahlen inklusive 0 an-

nimmt und zwar mit folgenden Wahrscheinlichkeiten:

P [V = v] = e−λλv

v!.

Es gilt: E[V ] = V [V ] = λ, R-Befehl: pois.

21

WTS-4.3 Stetige Verteilungen

WTS-4.3.1 Uniform U [a, b]; Krengel § 10: 10.2

Die einfachste stetige Verteilung ist die Uniform-Verteilung: Eine Zufallsgrosse U ist per

Definitionem auf dem Intervall [a, b] uniform verteilt, wenn U folgende Dichtefunktion hat:

f(u) = (b− a)−1,

wobei dann naturlich a ≤ u ≤ b zu gelten hat. Ausserhalb von [a, b] ist die Dichte gleich

null. Es gilt E[U ] = (a+ b)/2 und V [U ] = (b− a)2/12, R-Befehl: unif.

WTS-4.3.2 (Negativ-) Exponential Exp(λ); Krengel § 10: 10.2

Eine Zufallsgrosse X mit Dichtefunktion

f(x) = λe−λx, x ≥ 0,

heisst exponentialverteilt mit Parameter λ; Exp(λ). Die gleiche Wahl des Parameters wie

bei der Poissonverteilung ist nicht zufallig! Es gilt E[X] = 1/λ und V [X] = 1/λ2 (WTS-

Aufgabe 37), R-Befehl: exp. Modell fur: radioaktiver Zerfall, ”wann geht eine Gluhbirne

kaputt?”, Zwischenzeit bei der Ankunft von KundInnen in einem Geschaft und vieles mehr;

mehr dazu in der Vorlesung ”Angewandte Stochastik”.

Die Exp(λ) hat die fur die angewandte Stochastik zentral wichtige Eigenschaft, dass sie

die einzige stetige Zufallsgrosse ist, welche gedachtnislos ist: mit t > s > 0 gilt hier (vgl.

WTS-Aufgabenblatt 9)

P [X > t|X > s] = P [X > (t− s)].

”Gegeben, es hat schon s = 1000 Sekunden keinen Atomzerfall gegeben, wie gross ist

die Wahrscheinlichkeit, dass es sogar insgesamt mindestens t = 1004 Sekunden keinen

Atomzerfall geben wird? Also dies ist nur noch von der Differenz t − s = 4 Sekunden

abhangig. Wie lange es bereits keinen Atomzerfall gegeben hat, ist egal!”

22

WTS-4.3.3 Gamma(n, λ); Krengel § 14: Anhang

Seien Xi, 1 ≤ i ≤ n, n iid Exp(λ)-Zufallsgrossen. Sei Y :=∑ni=1Xi. Dann hat Y per

Definitionem die Gammaverteilung mit Parametern n und λ; Gamma(n,λ). E[Y ] = n/λ

(folgt aus Linearitat des Erwartungswerts und WTS-4.3.2) und V [Y ] = n/λ2 (folgt aus

WTS-Lemma 3.8 b) und WTS-4.3.2), R-Befehl: gamma.

f(y) =yn−1e−λyλn

Γ(n), y ≥ 0.

Mit n = 1 wird dies in der Tat zu einer Exponentialverteilung. In Anbetracht von WTS-

4.3.2 ist das ein Modell fur ”wann zerfallt das n-te Atom?”, geht die n-te Gluhbirne

kaputt, kommt der n-te Kunde. In der Statistik hat man mit der Gamma-Verteilung auch

ein relativ flexibles Modell, um Einkommensverteilungen zu modellieren (2 frei wahlbare

Parameter n, λ).

WTS-4.3.4 Normal N(µ, σ2); Krengel § 10: 10.2 und § 5: 5.2; Tabelle II hinten

Wegen des zentralen Grenzwertsatzes ist die Normalverteilung sehr wichtig: Mit Dichte-

funktion

f(x) =1√2πσ

e−(x−µ)2

2σ2 , x ∈ R,

gilt E[X] = µ und V [X] = σ2, R-Befehl: norm.

ACHTUNG: FUR DIE FOLGENDEN BEIDEN RESULTATE SETZEN WIR NORMAL-

VERTEILUNG VORAUS!

1. “Z-Transform” [Beweis auf WTS-Ubungsblatt 9]: Wenn X eine N (µ, σ2)-Verteilung

hat, dann hatX − µσ

(Z− Transform)

eine N (0, 1)-Verteilung (welche in Buchern und Libraries von Statistik-Paketen abgelegt

ist). N (0, 1) nennen wir ”Standard-Normalverteilung”.

2. Approximative Formeln fur beliebige σ > 0: sei X eine N (0, σ2)-Zufallsgrosse. Dann

gelten

P [|X| > σ]=33%

23

und

P [|X| > 2σ]=5%.

Allgemein: Eine Normalverteilung hat 66 % ihrer Wahrscheinlichkeit innerhalb 1 Standard-

abweichung vom Mittelwert entfernt und sogar 95 % ihrer Wahrscheinlichkeit innerhalb

von 2 Standardabweichungen vom Mittelwert entfernt.

WTS-4.4 Zusammenhange bei Verteilungen I:∑

von unabhangigen Zufallsgros-

sen

WTS-4.4.1 Theoretische Grundlagen; Krengel § 11: 11.3

Wir werden uns in diesem Teil mit folgender Frage auseinandersetzen: ”Wenn X und Y

zwei unabhangige Zufallsgrossen sind, wie ist dann X + Y verteilt”?

WTS-4.4.1.1 Diskreter Fall

P [X + Y = a] =∑

i

P [X = a− i]P [Y = i]

WTS-4.4.1.2 Stetiger Fall

P [X + Y ≤ a] =∫ a

−∞

∫ ∞−∞

fX(x− y)fY (y)dydx

Also ist∫∞−∞ fX(a− y)fY (y)dy die Dichte von X + Y an der Stelle a.

WTS-4.4.2 Summen von Binomial, Geometrisch, Poisson, Exponential, Normal

Die Summanden in den folgenden Summen mussen immer unabhangig sein. Wenn nicht

anders erwahnt, fordern wir auch die gleiche Verteilung. Mit kompakten Formeln wie

n∑1

Be(p) = Bin(n, p)

24

weiter unten ist eigentlich gemeint: Seien X1, . . . , Xn iid Be(p)-verteilt. Dann hat Y :=∑n

1 Xi eine Bin(n,p)-Verteilung.

* Summe von Bernoulli ist Binomial

n∑1

Be(p) = Bin(n, p)

* Grosser Bruder hiervon: Summe von Binomial ist Binomial (p muss immer gleich sein!)

n∑1

Bin(ni, p) = Bin(n∑1

ni, p)

* Summe von Geometrisch ist Negativ Binomial

n∑1

Ge(p) = NB(n, p)

* Summe von Poisson ist Poisson (Summanden mussen nicht mal identisch verteilt sein)

n∑

i=1

Po(λi) = Po(n∑

i=1

λi)

* Summe von Exponential ist Gamma

n∑1

Exp(λ) = Gamma(n, λ)

* Summe von Normal ist Normal (Summanden mussen nicht mal identisch verteilt sein);

vgl. 4.4.1.2.n∑

i=1

N (µi, σ2i ) = N (

n∑

i=1

µi,

n∑

i=1

σ2i )

WTS-5 n→∞ (Konvergenz, LLN, CLT)


* Cartoon Guide: Kapitel 5, Seite 106 in Kapitel 6

* Krengel: 3.6 in § 3, § 5 und § 12

25

WTS-5.1 Ungleichung von Bienayme-Tschebyschew

WTS-Satz 5.1 [Ungleichung von Bienayme-Tschebyschew] Sei X eine Zu-

fallsgrosse mit E[|X|] <∞. Dann gilt fur ε > 0:

P [|X| ≥ ε] ≤ 1εE[|X|],

auch

P [|X − µ| ≥ ε] ≤ 1ε2V [X]. (WTS − 5.1)

WTS-5.2 LLN (Law of Large Numbers; Gesetz der grossen Zahlen)

Fragestellung: Was geschieht mit dem Ausdruck

1n

n∑

k=1

Xk

falls n→∞ und welche Voraussetzungen werden wir sinnvollerweise machen?

WTS-5.2.2 LLN

Das Gesetz der grossen Zahlen ist streng genommen kein Theorem, sondern eine Eigen-

schaft einer Folge (das Theorem folgt dann in WTS-Theorem 5.3).

WTS-Definition 5.2 [Gesetz der grossen Zahlen] Sei Xi, i ≥ 1, eine Folge von

identisch verteilten Zufallsgrossen mit Erwartungswert µ, sodass E[|X1|] <∞. Wir sagen,

dass die Folge von Zufallsgrossen Xi, i ≥ 1, dem Gesetz der grossen Zahlen genugt, wenn

fur jedes ε > 0 gilt:

limn→∞

P

[∣∣∣∣1n

n∑

i=1

Xi − µ∣∣∣∣> ε

]= 0.

Bemerkungen zu WTS-Definition 5.2: Diese Definition ist eigentlich ein Spezialfall

des Gesetzes der grossen Zahlen. Es ist nur das sogenannte schwache Gesetz der grossen

Zahlen im Fall von identisch verteilten Zufallsgrossen und die Konvergenz ist bei uns

ausschliesslich gegen eine konstante Zahl (den Erwartungswert).

26

Wir wissen noch nicht, wann eine Folge diesem Gesetz der grossen Zahlen genugt. Ein

schones Resultat dazu ist WTS-Theorem 5.3, welches nicht die Existenz der Varianz

fordert.

WTS-Theorem 5.3 [Satz von Kolmogoroff] Sei Xi, i ≥ 1, eine Folge von paar-

weise unabhangigen, identisch verteilten Zufallsgrossen mit Erwartungswert µ und

E[|X1|] < ∞. Dann genugt diese Folge dem Gesetz der grossen Zahlen; es gilt also fur

jedes ε > 0:

limn→∞

P

[∣∣∣∣1n

n∑

i=1

Xi − µ∣∣∣∣> ε

]= 0.

WTS-5.3 CLT (Central Limit Theorem; Zentraler Grenzwertsatz)

Fragestellung: Was geschieht mit dem Ausdruck

∑nk=1Xk − nµ√

nσ, (WTS − 5.6)

einfacherer Fall (µ = 0, σ = 1)1√n

n∑

k=1

Xk,

falls n→∞ und welche Voraussetzungen werden wir sinnvollerweise machen?

WTS-5.3.2 CLT

Der zentrale Grenzwertsatz (englisch Central Limit Theorem CLT) unterstreicht die grosse

Bedeutung der Normalverteilung:

WTS-Theorem 5.4 [Zentraler Grenzwertsatz] Sei Xk, k ≥ 1, eine Folge von iid

Zufallsgrossen mit E[X1] =: µ und 0 < V [X1] =: σ2 <∞. Dann gilt fur a ∈ R beliebig:

P

[∑nk=1Xk − nµ√

nσ≤ a

]−→ P [N (0, 1) ≤ a]

wenn n→∞.

27

Mit ”P [N (0, 1) ≤ a]” meinen wir die Wahrscheinlichkeit, dass eine Standard-Normal-

verteilte Zufallsgrosse Werte kleiner oder gleich a annimmt.

Die Verteilungsfunktion der zentrierten und normierten Summe (WTS-5.6) konvergiert

also in jedem Punkt gegen die Verteilungsfunktion der Standard-Normal-Verteilung.

Bemerkungen zu WTS-Theorem 5.4: 1. Wenn wir µ = 0, σ2 = 1 haben, sind wir in

Situation WTS-5.3.1.

3. Vorsicht: Man darf die Zentrierung und Normierung nicht ”auf die andere Seite” nehmen

in der Form: ”∑nk=1Xk konvergiert mit n→∞ in Verteilung gegen eine Zufallsgrosse mit

Verteilung N (nµ, nσ2)”. Dies ist ja nicht stabil, das darf man in der Analysis bei der

Konvergenz von Folgen ja auch nicht. In der Statistik wird dies jedoch als approximative

Methode benutzt.

4. Ausdruck (WTS-5.6) erinnert zu Recht an die Z-Transform aus WTS-Kapitel 4. Be-

trachten wir dazu den Ausdruck ∑nk=1Xk − nµ√

nσ

etwas genauer: mitn∑

k=1

Xk − nµ

haben wir in einem ersten Schritt offenbar einfach zentriert (den Erwartungswert abgezogen

- er ist jetzt 0), dann in einem zweiten Schritt mit√nσ normiert und dabei

∑nk=1Xk − nµ√

nσ

erhalten. Die Varianz ist jetzt 1. Zusammen nennt man diese beiden Schritte stan-

dardisieren.

And then a miracle occurs...,

denn das Ding hat am Schluss (bei n = ∞) eine Normalverteilung N (0, 1). Das Uber-

raschende am CLT ist, dass mit wenigen Voraussetzungen (v.a. keine uber die Verteilung

der Xk’s) immer eine Normalverteilung als Limesverteilung resultiert.

28

5. Ab welchem n ”darf” man die Normalverteilung brauchen? Nichttriviale, allgemeine

Fehler-Abschatzungen, welche nur von n abhangen und fur alle Verteilungen gelten,

existieren nicht. Wenn die Xk’s aber Be(p)-Zufallsgrossen sind, so sagt eine Praktikerregel,

dass np(1− p) ≥ 9 gelten sollte, damit man mit gutem Gewissen die Normalverteilung be-

nutzen darf. Seien Sie sich bewusst, dass dies von der konkreten Anwendung abhangt

und mathematisch unprazise ist (was wenn np(1 − p) = 8.9?). Wenn p nahe bei 0

oder nahe bei 1 ist, wendet man besser WTS-Satz 5.6 an. Eine kleine Verbesserung

der Approximation erreicht man im Fall von Summen diskreter Zufallsgrossen (also zum

Beispiel Bernoulli/Binomial) mit der sogenannten Diskretisierungs-Korrektur (englisch:

Continuity-Correction), siehe Cartoon-Guide Kapitel 5 oder Stahel 6.11 i.

WTS-5.4 Zusammenhange bei Verteilungen II: Stetiges Analogon einer dis-

kreten Verteilung und Limesverteilungen

In ”WTS-4.4 Zusammenhange bei Verteilungen I”, haben wir uns gefragt, wie Summen

von unabhangigen Zufallsgrossen verteilt sind. Jetzt wollen wir Paare von diskreten und

stetigen Verteilungen finden, welche ”etwas miteinander zu tun haben” (WTS-5.4.1 und

WTS-5.4.2) und untersuchen, ob gewisse Verteilungen zu anderen Verteilungen werden,

wenn wir gezielt einen Parameter gegen ∞ gehen lassen (WTS-5.4.3 und WTS-5.4.4).

WTS-5.4.1 Stetiges Analogon von Geometrisch ist Exponential

Bereits in der Analysis sieht man, dass geometrisches Wachstum cn, n ∈ N, und exponen-

tielles Wachstum ct, t ∈ R+, diskrete und stetige Pendants sind. Je nach Modellierungs-

gegenstand wird man das eine oder das andere wahlen. Auf WTS-Aufgabenblatt 9 ist

zu zeigen, dass geometrische und exponentielle Zufallsgrossen eine wichtige Eigenschaft

teilen, namlich die Gedachtnislosigkeit. Es drangt sich also fast auf, zu fragen, ob nicht

ein tieferer Zusammenhang zwischen diesen beiden Verteilungen besteht. Das ist der Fall;

wir prazisieren das in folgendem:

29

WTS-Satz 5.5 [Konvergenz der geometrischen- gegen die Exponential-Ver-

teilung] Sei T eine Exp(1)-Zufallsgrosse. Sei Xn, n ≥ 2, eine Folge von Ge(1/n)-Zufalls-

grossen, d.h. Xn habe eine Ge(1/n)-Verteilung. Dann gilt fur a ∈ R+:

P

[1nXn ≤ a

]−→ P [T ≤ a]

fur n→∞.

Bemerkung zu WTS-Satz 5.5 Der Erwartungswert von T ist 1. Der Erwartungswert

von Xn/n ist auch 1. Dies ist allgemein ein wichtiges Prinzip, wenn man solche Zusam-

menhange formulieren will (vgl. auch WTS-5.4.3): man normiert und/oder zentriert min-

destens derart, dass die Erwartungswerte der Limeszufallsgrosse (hier T ) und der kon-

vergierenden Zufallsgrossen (hier Xn) gleich sind (oder zumindest asymptotisch gleich

werden).

WTS-5.4.2 Stetiges Analogon von Negativ Binomial ist Gamma

In WTS-Kapitel 4 haben wir gesehen, dass bei Unabhangigkeit der Summanden

n∑1

Ge(p) = NB(n, p)

undn∑1

Exp(λ) = Γ(n, λ).

Deshalb ist es nach WTS-5.4.1 nicht uberraschend, dass das stetige Analogon von NB eine

Gamma-Zufallsgrosse ist. Wir verzichten hier aus Zeitgrunden auf Satz und entsprechen-

den Beweis.

WTS-5.4.3 Von Binomial zu Poisson

Wenn man die Wahrscheinlichkeitsfunktion (die Werte von P [X = k], k ≥ 0) einer Bino-

mial- und einer Poissonverteilung mit gleichem Erwartungswert vergleicht, so sieht man,

dass der Unterschied immer kleiner wird, je grosser n in der Binomial-Verteilung ist:

30

WTS-Satz 5.6 [Konvergenz der Binomial- gegen die Poisson-Verteilung] Sei

Xn eine Folge von Bin(n, pn)-Zufallsgrossen. Es gelte ∀n genugend gross: npn = λ > 0

(Erwartungswerte jeweils gleich). λ ist konstant! Dann gilt fur r ∈ N0 fest:

P [Xn = r] −→ e−λλr

r!

fur n→∞. Damit haben wir im Limes eine Poisson-Verteilung mit Parameter λ.

31

Documents

Angewandte Stochastik - Luchsinger Mathematics · Angewandte Stochastik Dr. C.J. Luchsinger 1 Repetition Wahrscheinlichkeitstheorie (WT) Bitte arbeiten Sie dieses Kapitel wenn notwendig