Upload
others
View
9
Download
0
Embed Size (px)
Citation preview
Angewandte Stochastik
Dr. C.J. Luchsinger
1 Repetition Wahrscheinlichkeitstheorie (WT)
Bitte arbeiten Sie dieses Kapitel wenn notwendig vor Semesterbeginn durch. Es ist eine
Zusammenfassung der aktuellsten Version von Kapitel 1-5 aus der Vorlesung ”Einfuhrung
in die Wahrscheinlichkeitstheorie und Statistik”. Die Bezeichnungen und Nummerierungen
fur Kapitel, Sektionen und Aussagen ist gleich belassen, um die Orientierung zu erleichtern;
hingegen steht immer ein ”WTS” (fur Wahrscheinlichkeitstheorie und Statistik) vor jedem
Satz/Kapitel etc.
WTS-1 Wahrscheinlichkeit
Literatur WTS-Kapitel 1
* Cartoon Guide: Kapitel 3
* Krengel: § 1 und 2
WTS-1.4 Das Konzept der Wahrscheinlichkeit P
Wir werden die naive Vorstellung von Wahrscheinlichkeit und Zufall formalisieren,
in die Sprache der Mathematik ubersetzen. Als erstes mussen wir, ohne die Wahrschein-
lichkeiten anzuschauen, Versuchsausgange formalisieren.
WTS-1.4.1 Ereignisraum (auch Menge der Versuchsausgange)
* Sei Ω eine nichtleere Menge.
* Sie steht fur die Menge der Versuchsausgange; wir nennen sie auch Ereignisraum. Es
findet jeweils in einem Experiment genau ein sogenanntes Elementarereignis statt, z.B.
ω1 ∈ Ω oder ω2 ∈ Ω etc.
1
* Bei einem Wurfel wird man sinnvollerweise mit Ω := 1, 2, 3, 4, 5, 6 die Menge der
moglichen Anzahl Augen wahlen.
* Bei Munzwurf wird man sinnvollerweise Ω := K,Z wahlen. k−facher Munzwurf:
Ω := K,Zk.
* Die Menge Ω kann von endlicher oder unendlicher Kardinalitat sein; sogar uberabzahlbar
unendlich:
* abzahlbar unendliches Ω: zufallige Zahl aus Ω := N
* uberabzahlbar unendliches Ω: Zeit bis Atom zerfallt ist im Intervall Ω := (0,∞)
und zufallig, zumindest in gewissen physikalischen Modellen. Unendlicher Munzwurf:
Ω := K,Z∞.
* Beim Wurfel konnen wir fortfahren mit: A ist mit A := 2, 4, 6 die Menge der geraden
Zahlen und B := 4, 5, 6 die Menge der Zahlen streng grosser 3.
* A bzw. B nennen wir ein Ereignis. Ereignisse sind allgemein Teilmengen von Ω. Dies ist
verwirrend. Es kann ja (Ereignis A) nicht gleichzeitig 2, 4 und 6 geworfen werden. Es gilt
nach wie vor, dass genau ein sogenanntes Elementarereignis stattfindet. Wenn dieses ω1
z.B. gleich 2 ist, so sagen wir: A ist eingetreten - es ist ja auch eine gerade Zahl geworfen
worden; eine reicht!
Wir fassen die mengentheoretischen Ausdrucke und ihre Bedeutung fur die Wahrschein-
lichkeitstheorie in folgender Tabelle zusammen:
Symbol Mengentheorie / Bedeutung fur die WT
Ω Menge / Ereignisraum, Menge der Versuchsausgange
ω Element von Ω / Elementarereignis, Versuchsausgang
A Teilmenge von Ω / Ereignis; falls ω ∈ A, sagt man, dass das Ereignis A
eingetreten ist
Ac Komplement von A / kein Elementarereignis aus A findet statt
2
A ∩B Schnittmenge von A und B / ein Elementarereignis aus A und B findet statt
A ∪B Vereinigung von A und B / ein Elementarereignis aus A oder B findet statt
A\B A ohne B / ein Elementarereignis aus A tritt ein, aber nicht aus B
A ⊂ B A ist Teilmenge von B / Wenn ein Elementarereignis aus A stattfindet, dann
immer auch ein Elementarereignis aus B
∅ leere Menge / unmogliches Ereignis
Ω ganze Menge / sicheres Ereignis (etwas muss passieren)
WTS-1.4.2 σ-Algebra
Wir wollen den Ereignissen (z.B. A aus Ω) spater eine Wahrscheinlichkeit (P [A]) zuordnen.
Wenn wir mehrere Ereignisse vorgegeben haben, wollen wir auch die Wahrscheinlichkeiten
von deren Vereinigungen, Durchschnitten oder Komplementen angeben konnen. An die
Menge der Teilmengen von Ω, welche wir untersuchen, stellen wir also ein paar wenige
Bedingungen:
Definition WTS-1.1 [σ-Algebra] Ein Teilmengensystem A von Ω heisst σ-Algebra,
wenn folgende 3 Bedingungen erfullt sind:
a) Ω ∈ A
b) A ∈ A ⇒ Ac ∈ A
c) A1, A2, . . . ∈ A ⇒ ∪n≥1An ∈ A.
Falls |Ω| = n < ∞, so hat die Potenzmenge von Ω bekanntlich Kardinalitat 2n, ist also
wiederum endlich. Wir werden im Fall |Ω| = n <∞ in dieser Vorlesung einfach als A die
Potenzmenge von Ω wahlen.
Nur nebenbei sei erwahnt, dass man z.B. im Fall Ω = R etliche Klippen uberwinden
muss(te), um sowohl diese Konzepte wie auch die dazugehorigen Wahrscheinlichkeitsmasse
P [.] korrekt und ohne Widerspruche zu definieren. Dies wird in der Masstheorie behandelt.
Wir gehen hier nicht weiter darauf ein, sondern prasentieren im Eilzugtempo: Wenn wir
3
Ω = R wahlen, dann ist die sogenannte Borel-σ-Algebra B(R) die kleinste σ-Algebra auf
R, welche z.B. alle geschlossenen Intervalle enthalt. Dieses Teil-Mengensystem enthalt
auch alle halboffenen und alle offenen Intervalle, auch ”fast alle” sonstigen Teilmengen von
R. Man muss aktiv und gezielt Mengen konstruieren, welche in dieser σ-Algebra nicht
enthalten sind!
WTS-1.4.3 Wahrscheinlichkeit P [.]
WTS-Definition 1.2 [Wahrscheinlichkeit P ] Eine Wahrscheinlichkeit P ist eine
reellwertige Funktion auf den Mengen aus A. Dabei mussen folgende 3 Bedingungen erfullt
sein:
a) A ∈ A ⇒ 0 ≤ P [A] ≤ 1
b) P [Ω] = 1
c) Sei Ai∞i=1 eine abzahlbare Folge von disjunkten Mengen aus A, dann muss gelten:
P [∪∞i=1Ai] =∞∑
i=1
P [Ai].
Man darf in WTS-Definition 1.2 c) z.B. auch Ai = ∅, i ≥ 3 wahlen!
Es gibt eine extrem praktische Interpretation von Wahrscheinlichkeiten und Pro-
portionen: Wir haben 7.5 Millionen EinwohnerInnen in der Schweiz. Wenn man jetzt
zufallig (jedeR EinwohnerIn hat gleiche Wahrscheinlichkeit, ausgewahlt zu werden, also
(1/7’500’000)) eineN EinwohnerIn herausgreift, so ist beispielsweise die Wahrscheinlichkeit,
einen Basler herauszugreifen, genau gleich der Proportion der Basler an der Schweizerischen
Bevolkerung. Wir werden diese Analogie in vielen Fallen einsetzen.
Aus WTS-Definition 1.2 lassen sich nutzliche Eigenschaften ableiten, welche wir im folgen-
den Lemma zusammenfassen.
4
WTS-Lemma 1.3 [nutzliche Eigenschaften von P ] Mit A,B ∈ A gelten folgende
Aussagen:
a) Prinzip der Gegenwahrscheinlichkeit: P [A] = 1− P [Ac]; v.a. P [∅] = 0
b) Sei Ai∞i=1 eine abzahlbare Folge von Mengen aus A, dann muss gelten:
P [∪∞i=1Ai] ≤∞∑
i=1
P [Ai].
c) A ⊆ B ⇒ P [B] = P [A] + P [B\A]
d) A ⊆ B ⇒ P [A] ≤ P [B]
e) P [A ∪B] = P [A] + P [B]− P [A ∩B].
WTS-1.4.4 Wahrscheinlichkeitsraum
WTS-Definition 1.4 [Wahrscheinlichkeitsraum (Ω,A, P )] Wir nennen ein Tripel
der Form (Ω,A, P ) Wahrscheinlichkeitsraum.
WTS-1.4.5 Bedingte Wahrscheinlichkeit P [A|B]
WTS-Definition 1.5 [Bedingte Wahrscheinlichkeit P [A|B]]
P [A|B] :=P [A ∩B]P [B]
,
falls P [B] > 0. Man nennt P [A|B] die bedingte Wahrscheinlichkeit von A gegeben B.
WTS-1.4.6 Unabhangigkeit von Ereignissen
Das folgende Konzept sollte aus der Mittelschule (Gymnasium) bereits von den Wahr-
scheinlichkeitsbaumen / Ereignisbaumen her bekannt sein. Anschaulich und in der Model-
lierung bedeutet unabhangig, dass zwei Ereignisse von unabhangigen Mechanismen erzeugt
wurden.
5
WTS-Definition 1.6 [Unabhangigkeit von Ereignissen] Ereignisse A und B
sind (paarweise) unabhangig voneinander, wenn
P [A ∩B] = P [A]P [B].
Falls P [B] > 0 resp. P [A] > 0, so ist Unabhangigkeit von A und B gleichbedeutend mit
P [A|B] = P [A] (”who cares”−Variante)
resp. P [B|A] = P [B].
Bei mehr als 2 involvierten Ereignissen ist Vorsicht am Platz. Beginnen wir zuerst mit
der Definition: Die Ereignisse A1, . . . , An sind in der Gesamtheit unabhangig voneinander,
wenn fur beliebige Auswahl k = 1, . . . , n und 1 ≤ i1 < i2 < . . . < ik ≤ n gilt:
P [Ai1 ∩Ai2 ∩ . . . ∩Aik ] = P [Ai1 ]P [Ai2 ] . . . P [Aik ].
Aus der paarweisen Unabhangigkeit folgt jedoch nicht zwingend die (gesamtheitliche) Un-
abhangigkeit! Entwickeln Sie aus der folgenden Ausgangslage ein Gegenbeispiel dazu: Sei
Ω = ω1, ω2, ω3, ω4. Alle elementaren Ereignisse seien gleichwahrscheinlich (1/4). Un-
tersuchen Sie die Ereignisse A = ω1, ω2, B = ω1, ω3 und C = ω1, ω4 unter diesem
Gesichtspunkt.
WTS-1.4.7 Formel von Bayes
Angenommen wir kennen P [B|A], wollen aber eigentlich P [A|B] wissen.
P [A|B] =P [A ∩B]P [B]
=P [B|A]P [A]
P [B|A]P [A] + P [B|Ac]P [Ac].
6
WTS-1.4.8 Formel von der totalen Wahrscheinlichkeit FTW
WTS-Lemma 1.7 [Formel von der totalen Wahrscheinlichkeit FTW]
B1, B2, . . . sei eine Partition von Ω (die Bi’s sind disjunkt und ∪∞i=1Bi = Ω). Weiter
sei fur alle Bi, i ≥ 1, P [Bi] > 0 erfullt. Dann gilt fur jedes A ∈ A:
P [A] =∞∑
i=1
P [A|Bi]P [Bi]. (FTW )
Wie man am Beweis sieht, gilt ein analoges Resultat auch fur eine endliche Partition.
Wir fugen noch zwei miteinander eng verwandte Formeln hinzu:
WTS-Lemma 1.8 [limP [An] bei ab- oder aufsteigenden Folgen] Sei A1, A2, . . .
eine aufsteigende Folge von Ereignissen, d.h. A1 ⊆ A2 ⊆ A3 . . .. Wir definieren in dem
Fall
A := limi→∞
Ai := ∪i≥1Ai.
Dann gilt P [A] = limi→∞ P [Ai].
Analog gilt: Sei B1, B2, . . . eine absteigende Folge von Ereignissen, d.h. B1 ⊇ B2 ⊇ B3 . . ..
Wir definieren in dem Fall
B := limi→∞
Bi := ∩i≥1Bi.
Dann gilt P [B] = limi→∞ P [Bi].
WTS-2 Zufallsgrossen
Literatur WTS-Kapitel 2
* Cartoon Guide: Kapitel 4
* Krengel: 3.1 und 3.2 in § 3 und § 10 sowie 11.1, 11.2 und 11.3 in § 11.
7
WTS-2.1 Zufallsgrosse
WTS-Definition 2.1 [Zufallsgrosse X auf (Ω,A, P )] Eine Zufallsgrosse auf
(Ω,A, P ) ist eine Funktion X : Ω → R mit der Eigenschaft, dass ω ∈ Ω|X(ω) ≤ a ∈ Afur alle reellen a. Die geforderte Eigenschaft nennt man Messbarkeit.
WTS-2.1 - Zugabe: Wir schmeissen die gesamte Wahrscheinlichkeit auf die
reelle Achse
Es gilt bekanntlich P [Ω] = 1. Durch eine Zufallsgrosse X auf (Ω,A, P ) wird diese
ganze Wahrscheinlichkeit 1 auf die reelle Achse R ”hinubergeworfen”. Auf (R,B(R))
konnen wir wieder einen Wahrscheinlichkeitsraum (vgl. WTS-1.4.4) definieren: Sei A
eine beliebige Teilmenge von B(R). Wir definieren:
PX [A] := P [ω ∈ Ω|X(ω) ∈ A].
Wir erhalten also einen neuen Wahrscheinlichkeitsraum (R,B(R), PX), welcher von X
erzeugt wurde. X : Ω → R muss nicht surjektiv sein; das fuhrt zu keinen Problemen!
Man nennt PX auch die Verteilung oder das Verteilungsgesetz der Zufallsgrosse X; haufig
schreibt man einfach P statt PX .
WTS-2.2 Verteilungsfunktion
WTS-Definition 2.2 [Verteilungsfunktion F ] Die Verteilungsfunktion F einer
Zufallsgrosse X ist definiert als
F (a) := P [X ≤ a] := P [ω|X(ω) ≤ a].
Man schreibt manchmal fur die bessere Identifikation auch FX statt nur F , falls man
betonen will, dass die Verteilungsfunktion zu X gehort.
WTS-Lemma 2.3 [nutzliche Eigenschaften von F ] Es gelten folgende Aussagen:
a) lima→−∞ F (a) = 0 und lima→∞ F (a) = 1
b) F (a) ist monoton wachsend in a und rechtsstetig.
8
WTS-2.3 Diskrete und stetige Zufallsgrosse
WTS-Definition 2.4 [Diskrete und stetige Zufallsgrosse] Wenn eine Zufalls-
grosse X nur Werte auf einer abzahlbaren Teilmenge von R annehmen kann, nennen wir
sie diskret. Wir nennen eine Zufallsgrosse Y stetig, wenn Ihre Verteilungsfunktion FY sich
darstellen lasst als
FY (a) := P [Y ≤ a] =∫ a
−∞f(u)du,
wobei f eine nichtnegative, integrierbare Funktion auf R ist. Diese Funktion f erfullt
∫ ∞−∞
f(x)dx = 1.
Wir nennen f Dichte oder Dichtefunktion der Zufallsgrosse Y (eventuell mit fY bezeich-
net). Salopp gilt: diskret ist auf einzelnen Punkten und stetig ist auf durchgezogenen
Intervallen.
Wir wollen im Folgenden 4 Eigenschaften von stetigen Zufallsgrossen herausarbeiten
und am Beispiel der Normalverteilung veranschaulichen.
1. Fur a < b haben wir:
P [a < X ≤ b] = P [X ≤ b]− P [X ≤ a] = F (b)− F (a) =∫ b
a
f(x)dx.
2. Fur stetige Zufallsgrossen gilt: P [X = x0] =∫ x0
x0f(x)dx = 0.
3. Wegen 2. gilt insbesondere fur a < b:
P [a ≤ X ≤ b] = P [a < X ≤ b] = P [a < X < b] = P [a ≤ X < b]
= P [X ≤ b]− P [X ≤ a] = F (b)− F (a) =∫ b
a
f(x)dx.
4. Wenn F differenzierbar ist (mit gesundem Menschenverstand auch in den meisten
anderen Fallen) gilt:
F ′(x) = f(x).
9
WTS-2.4 Bivariate Verteilung
WTS-Definition 2.5 [gemeinsame Verteilungsfunktion von X und Y ]Seien
X und Y zwei Zufallsgrossen auf dem gleichen Wahrscheinlichkeitsraum. Die gemeinsame
Verteilungsfunktion wird dann definiert als
FX,Y (x, y) := P [ω|X(ω) ≤ x ∩ ω|Y (ω) ≤ y];
kurz schreibt man hierfur auch P [X ≤ x, Y ≤ y]. Das Komma ”,” ist dabei als ”und” zu
lesen.
Turnubungen
1. Fur diskrete Zufallsgrossen gilt wegen Eigenschaft c) von WTS-Definition 1.2:
FX,Y (x, y) =∑
xi≤x
∑
yj≤yP [X = xi, Y = yj ].
Fur stetige Zufallsgrossen:
FX,Y (x, y) =∫ x
−∞
∫ y
−∞fX,Y (u, v)dvdu,
wobei eine bivariate Zufallsgrosse als stetig bezeichnet wird, wenn eine solche Darstellung
mit Dichte fX,Y existiert.
2. X und Y seien diskrete Zufallsgrossen mit Werten (xi)i, (yj)j . Dann haben wir fur
beliebiges xi:
P [X = xi] =∑
j
P [X = xi, Y = yj ]
Stetig erhalt man analog
fX(x) =∫ ∞−∞
fX,Y (x, y)dy.
3. Bei multivariaten Situationen der Dimension 3 und mehr verfahrt man analog.
10
WTS-2.5 Unabhangigkeit von Zufallsgrossen
Anschaulich bedeutet fur uns ”X unabhangig von Y ” einfach, dass X und Y von unter-
schiedlichen Mechanismen erzeugt wurden.
Mathematisch exakt fuhrt man die Unabhangigkeit von Zufallsgrossen auf die Unabhangig-
keit von Ereignissen zuruck:
WTS-Definition 2.6 [Unabhangigkeit von Zufallsgrossen] Zufallsgrossen auf
einem gemeinsamen Wahrscheinlichkeitsraum X1, X2, . . . , Xn sind (gesamtheitlich) un-
abhangig voneinander, wenn
P [X1 ∈ B1, X2 ∈ B2, . . . , Xn ∈ Bn] = P [X1 ∈ B1]P [X2 ∈ B2] . . . P [Xn ∈ Bn] (I)
fur beliebige B1, . . . , Bn aus der Borel-σ-Algebra B(R).
Fur den diskreten Fall mag dies unproblematisch sein, da die einzelnen Werte, welche die
diskreten Zufallsgrossen annehmen konnen, sicher in der Borel-σ-Algebra B(R) enthalten
sind. Im stetigen Fall ist (I) aber ein wenig umstandlich. Gott sei Dank gibt es aquivalente
Bedingungen unter Benutzung der Verteilungsfunktionen resp. Dichten: X und Y sind
genau dann unabhangig voneinander, wenn fur beliebige a, b ∈ R gilt (analog fur mehr als
2 Zufallsgrossen):
FX,Y (a, b) = FX(a)FY (b), (II)
oder (wieder aquivalent):
fX,Y (a, b) = fX(a)fY (b). (III)
Jargon:
1. Das Wort ”gesamtheitlich” lassen wir in Zukunft weg: Wenn nicht anders angegeben,
ist immer die gesamtheitliche Unabhangigkeit gemeint (bei Ereignissen wie auch bei
Zufallsgrossen).
2. Bei 2 Zufallsgrossen vereinbaren wir weiter das Symbol: X∐Y , wenn X und Y un-
abhangig sind.
3. unabhangig, identisch verteilt = independent and identically distributed (iid)
11
WTS-3 Erwartungswerte
Literatur WTS-Kapitel 3
* Cartoon Guide: Kapitel 4
* Krengel: 3.3 und 3.5 in § 3 und 11.4 in § 11
WTS-3.1 Erwartungswert und Varianz einer diskreten und stetigen Zufallsgros-
se
WTS-Definition 3.1 [Erwartungswert einer diskreten und stetigen Zufalls-
grosse] Der Erwartungswert E[X] einer Zufallsgrosse X ist definiert als
E[X] :=∑
xixiP [X = xi] falls X diskret∫∞
−∞ xf(x)dx falls X stetig.
Sei g(x) eine Funktion von R nach R. Dann definieren wir:
E[g(X)] =∑
xig(xi)P [X = xi] falls X diskret∫∞
−∞ g(x)f(x)dx falls X stetig.
Diese Definitionen gelten, falls die Summe bzw. das Integral der Absolutwerte existiert.
Dabei wird jeweils uber den gesamten Wertebereich der Zufallsgrosse summiert respektive
integriert.
WTS-Definition 3.2 [Varianz/Standardabweichung einer diskreten und ste-
tigen Zufallsgrosse] Mit µX := E[X] definieren wir die Varianz V [X] einer Zufallsgrosse
X als
V [X] := E[(X − µX)2] =∑
xi(xi − µX)2P [X = xi] falls X diskret∫∞
−∞(x− µX)2f(x)dx falls X stetig.
Dabei wird auch hier uber den gesamten Wertebereich der Zufallsgrosse summiert respek-
tive integriert. Die Standardabweichung sd (Standard Deviation) ist die Wurzel aus der
Varianz:
sd[X] :=√V [X].
12
WTS-Definition 3.3 [Erwartungswert bei 2 involvierten Zufallsgrossen] Der
Erwartungswert E[g(X,Y )] (z.B. g(x, y) = xy) von 2 Zufallsgrossen X und Y auf dem
gleichen Wahrscheinlichkeitsraum ist definiert als
E[g(X,Y )] :=∑
xi
∑yjg(xi, yj)P [X = xi, Y = yj ] falls X,Y diskret∫
x
∫yg(x, y)f(x, y)dydx falls X,Y stetig.
Dabei wird auch hier uber den gesamten Wertebereich der Zufallsgrossen summiert respek-
tive integriert. Analog verfahrt man bei mehr als 2 Zufallsgrossen.
WTS-3.2 Einige wichtige Rechenregeln
WTS-Lemma 3.4 [Absolutbetrag ”vorher” und ”nachher”, Linearitat, In-
dikatorfunktion] Mit obiger Notation gelten (falls Summen und Integrale existieren):
a) |E[X]| ≤ E[|X|].
b) Linearitat des Erwartungswertes:
E[aX + bY ] = aE[X] + bE[Y ]
und damit unter anderem E[b] = b und E[0] = 0 (setze z.B. a = 0, Y = 1). Umgangssprach-
lich nennt man Teil b): ”Konstanten herausziehen” und ”Summen auseinanderziehen”.
c) Mit I Indikatorfunktion (d.h. IA(ω) = 1 gdw ω ∈ A, 0 sonst, wo A ∈ A) gilt:
E[IA] = P [IA = 1] = P [A].
Im Allgemeinen gilt nicht
E[g(X)] = g(E[X]);
aber es gilt die sogenannte Jensen-Ungleichung fur konvexe g:
13
WTS-Lemma 3.5 [Jensen-Ungleichung] Fur konvexe g gilt: E[g(X)] ≥ g(E[X]).
WTS-Lemma 3.6 [Alternative Berechnung des Erwartungswerts] Mit obiger
Notation gelten (falls Summen und Integrale existieren):
Falls X Werte auf 0, 1, 2, 3, . . . annimmt, dann gilt:
E[X] =∑
n≥1
P [X ≥ n].
Falls X eine stetige Zufallsgrosse auf (0,∞) mit Verteilungsfunktion F (t) ist, dann gilt
analog:
E[X] =∫ ∞
0
(1− F (t))dt =∫ ∞
0
P [X ≥ t]dt.
WTS-Lemma 3.7 [elementare Rechenregeln der Varianz] Mit obiger Notation
gelten:
a) V [aX + b] = a2V [X] fur a, b reelle Zahlen (”Konstante quadratisch raus”).
b) V [X] = E[X2]− (E[X])2
WTS-Lemma 3.8 [Unabhangigkeit von Zufallsgrossen und Erwartungswer-
te] Mit obiger Notation gelten (falls Summen und Integrale existieren):
a) Bei 2 Zufallsgrossen X und Y auf dem gleichen Wahrscheinlichkeitsraum gilt im Fall
von X∐Y , dass
E[XY ] = E[X]E[Y ]
(”Produkte auseinandernehmen”).
b) Sei (Xi)ni=1 eine Folge von unabhangigen Zufallsgrossen (die gleiche Verteilung wird
nicht gefordert!). Dann gilt:
V [n∑
i=1
Xi] =n∑
i=1
V [Xi]
(”Varianz der Summe ist die Summe der Varianzen”).
14
WTS-3.4 Kovarianz und Korrelation
WTS-Definition 3.9 [Kovarianz, Korrelationskoeffizient] Seien X,Y zwei Zu-
fallsgrossen auf dem gleichen Wahrscheinlichkeitsraum mit E[X2] <∞, E[Y 2] <∞.
a) Den Ausdruck Cov(X,Y ) := E[(X − E[X])(Y − E[Y ])] nennen wir Kovarianz von X
und Y .
b) Falls V [X] > 0, V [Y ] > 0, so bezeichnen wir
Cor(X,Y ) :=Cov(X,Y )√V [X]V [Y ]
als Korrelationskoeffizient von X und Y .
Es gilt:
a) Cov(X,Y ) := E[(X − E[X])(Y − E[Y ])] = E[X(Y − E[Y ])] = E[(X − E[X])Y ] =
E[XY ]− E[X]E[Y ]
b) Cov(aX + b, cY + d) = acCov(X,Y ) fur a, b, c, d ∈ R
c) |Cor(aX+b, cY+d)| = |Cor(X,Y )| fur a, b, c, d ∈ R (Skaleninvarianz dank Normierung!)
d) Cov(X,X) = V [X]
e) Wenn Cov(X,Y ) = Cor(X,Y ) = 0, so nennen wir 2 Zufallsgrossen unkorreliert. Wenn
Cor(X,Y ) > 0 sagen wir, X und Y seien positiv korreliert und wenn Cor(X,Y ) < 0 sagen
wir, X und Y seien negativ korreliert.
f) Bei Cov(X,Y ) = 0 gilt offenbar wegen a) auch E[XY ] = E[X]E[Y ]. Wir haben in WTS-
Lemma 3.8 a) gesehen, dass wenn 2 ZufallsgrossenX,Y unabhangig voneinander sind, dann
gilt auch E[XY ] = E[X]E[Y ]. Offenbar folgt also aus Unabhangigkeit Unkorreliertheit:
unabhangig⇒ unkorreliert
15
g) Das folgende Gegenbeispiel zeigt, dass Unabhangigkeit von X und Y starker ist als
Unkorreliertheit. Sei P [(X,Y ) = (−1, 1)] = 1/3, P [(X,Y ) = (0,−2)] = 1/3, P [(X,Y ) =
(1, 1)] = 1/3. Zeigen Sie: Cov(X,Y ) = 0; zeigen Sie mit WTS-Definition 2.6, dass X und
Y nicht unabhangig voneinander sind.
h) Wenn wir den Beweis von WTS-Lemma 3.8 b) nochmals durchgehen, sehen wir, dass
fur die Gultigkeit der Formel
V [n∑
i=1
Xi] =n∑
i=1
V [Xi]
die Unabhangigkeit der Zufallsgrossen nicht zwingend ist: Dank Bemerkung a) haben wir
mit Cov(X,Y ) = 0 auch E[XY ] = E[X]E[Y ] und damit reicht bereits die Unkorreliertheit!
WTS-Lemma 3.10 [Der Korrelationskoeffizient als Mass der linearen Ab-
hangigkeit] Seien X,Y zwei Zufallsgrossen auf dem gleichen Wahrscheinlichkeitsraum
mit
E[X2] <∞, E[Y 2] <∞. Dann gelten:
a) |Cor(X,Y )| ≤ 1
b) |Cor(X,Y )| = 1⇔ ∃ a, b ∈ R : X(ω) = a+ bY (ω) ∀ ω ∈ Ω\N,P [N ] = 0.
Bemerkungen zu WTS-Lemma 3.10 In b) finden wir den Ausdruck ”Ω\N,P [N ] = 0”.
Dies ist rein technisch (fast sicher, bis auf eine Nullmenge N). Wenn wir eine (endliche)
Stichprobe haben, ist es sogar ohne diesen Zusatz gultig.
WTS-3.5 Bedingte Verteilungen und Definition des bedingten Erwartungswer-
tes gegeben Y = y0
Um Verwechslungen zu vermeiden sei vorausgeschickt, dass eine allgemeine Definition
bedingter Erwartungswerte sehr aufwendig ist. Wir bedingen hier lediglich auf ein Ereignis
(gegeben Y = y0) - wir bedingen hier nicht auf eine Zufallsgrosse (E[X|Y ], mehr dazu in
einer allfalligen Vorlesung uber Mass- und Wahrscheinlichkeitstheorie). Zudem behandeln
wir hier nur die diskreten Zufallsgrossen und harmlose stetige Zufallsgrossen.
16
Wir mussen als Vorbereitung auf die bedingten Erwartungswerte noch bedingte Verteilun-
gen einfuhren: Fur bedingte Wahrscheinlichkeiten gilt
P [A|B] :=P [A ∩B]P [B]
.
Wir konnen dann im Fall diskreter Zufallsgrossen folgendermassen fortfahren: Mit
A := X = x, B := Y = y0 ist P [A|B] die Wahrscheinlichkeit, dass X = x ist, wenn
Y = y0 ist (falls X∐Y , ist dies einfach P [X = x]):
P [X = x|Y = y0] :=P [X = x ∩ Y = y0]
P [Y = y0] :=P [ω|X(ω) = x ∩ ω|Y (ω) = y0]
P [ω|Y (ω) = y0] .
Wir konnen jetzt noch x variieren und erhalten damit die Verteilung von ganz X|Y = y0
(zur Erinnerung an WTS-1.4.5: bedingte Wahrscheinlichkeiten sind auch Wahrschein-
lichkeiten).
Die Schwierigkeiten liegen im stetigen Fall: bei stetigen Zufallsgrossen X,Y gilt ja
P [X = x] = P [Y = y0] = 0, wenn x, y0 konkrete, feste, reelle Zahlen sind. Damit
hatten wir oben 0/0, was nicht definiert ist. Da sich Wahrscheinlichkeitsfunktionen und
Dichtefunktionen von der Bedeutung her entsprechen, ist man trotzdem versucht, bedingte
Dichtefunktionen folgendermassen zu definieren (und in vielen Lehrbuchern geschieht dies
auch diskussionslos):
fX|Y=y0(x) :=fX,Y (x, y0)fY (y0)
, (WTS − 3.2)
falls fY (y0) > 0. (WTS-3.2) konnen wir als Definition stehen lassen (sie ist sinnvoll),
wollen aber trotzdem mit einem Limesresultat noch begrunden, dass dies die Verteilung von
X|Y = y0 angibt. Diese Begrundung ist nicht Prufungsstoff sondern Honours-Programm.
17
Wir repetieren zuerst WTS-Definition 2.4 und betrachten dann den Ausdruck
P [X ≤ a|Y ∈ [y0 − h, y0 + h]] =P [X ≤ a, Y ∈ [y0 − h, y0 + h]]
P [Y ∈ [y0 − h, y0 + h]].
Jetzt sind Zahler und Nenner nicht mehr 0 - gehen aber in unteren Rechnungen gegen
0! Wir werden jetzt h 0 gehen lassen und benutzen zwei mal den Mittelwertsatz der
Integralrechnung (Forster Analysis I, Satz 8, § 18). Weiter setzen wir voraus, dass die
Dichten fX(x), fY (y) und fX,Y (x, y) stetige, beschrankte Funktionen sind (es geht auch
mit weniger starken Forderungen, aber wir haben das immer erfullt).
limh0
P [X ≤ a|Y ∈ [y0 − h, y0 + h]] = limh0
P [X ≤ a, Y ∈ [y0 − h, y0 + h]]P [Y ∈ [y0 − h, y0 + h]]
= limh0
∫ a−∞
∫ y0+h
y0−h fX,Y (x, y)dydx∫ y0+h
y0−h fY (y)dy
= limh0
∫ a−∞ 2hfX,Y (x, η(x, h))dx
2hfY (ξ(h))
= limh0
∫ a−∞ fX,Y (x, η(x, h))dx
fY (ξ(h))
=
∫ a−∞ fX,Y (x, y0)dx
fY (y0)
=∫ a
−∞
fX,Y (x, y0)fY (y0)
dx
Also konnen wir wegen WTS-Definition 2.4 den Ausdruck (WTS-3.2) als bedingte Dichte
von X|Y = y0 auffassen. Damit konnen wir einen wichtigen Begriff einfuhren:
WTS-Definition 3.11 [bedingter Erwartungswert gegeben Y = y0] Wir de-
finieren den bedingten Erwartungswert E[X|Y = y0] als:
E[X|Y = y0] :=∑
xixiP [X = xi|Y = y0] falls X diskret∫∞
−∞ xfX|Y=y0(x)dx falls X stetig.
Offenbar hangt dieser bedingte Erwartungswert von y0 ab. Bedingte Wahrscheinlichkeiten
sind selber auch Wahrscheinlichkeiten (ebenso Dichten!); wir haben also einfach einen
gewohnlichen Erwartungswert von X berechnet bedingt auf das Ereignis, dass Y = y0 ist.
18
Das nachfolgende Resultat ist ein Pendant auf der Ebene der Erwartungswerte zu WTS-
Lemma 1.7 (FTW) auf der Ebene der Wahrscheinlichkeiten:
WTS-Lemma 3.12 [Formel vom totalen Erwartungswert FTE] Mit obigen
Bezeichnungen gilt
E[X] =∑
yjE[X|Y = yj ]P [Y = yj ] falls X,Y diskret∫∞
−∞E[X|Y = y]fY (y)dy falls X,Y stetig.
19
WTS-4 Ausgewahlte Verteilungen
WTS-4.2 Diskrete Verteilungen
WTS-4.2.1 Bernoulli Be(p)
X kann 2 Werte annehmen: 0 und 1 (alternativ auch −1 und +1). P [X = 1] = p (Erfolg)
und P [X = 0] = 1 − p (Misserfolg). E[X] = p und V [X] = p(1 − p). R-Befehl: binom
mit n = 1. Mit 0 ≤ k ≤ 1 haben wir
P [X = k] = pk(1− p)1−k.
WTS-4.2.2 Binomial Bin(n,p); Krengel § 2: 2.4
Seien Xi, 1 ≤ i ≤ n, n iid Be(p)-Zufallsgrossen. Sei Y :=∑ni=1Xi. Dann hat Y per
Definitionem die Binomialverteilung mit Parametern n und p; Bin(n,p). E[Y ] = np (WTS-
Aufgabe 36 a)) und V [Y ] = np(1−p) (Bemerkung zu WTS-Lemma 3.8), R-Befehl: binom.
0 ≤ k ≤ n:
P [Y = k] =(n
k
)pk(1− p)n−k.
Einsatz: Anzahl Erfolge (k) bei n unabhangigen Versuchen mit Erfolgswahrscheinlichkeit
p.
WTS-4.2.3 Geometrisch Ge(p); Krengel § 2: 2.4
Seien wieder Xi, i ≥ 1, iid Be(p)-Zufallsgrossen. Wir interessieren uns fur den Zeitpunkt
des ersten Erfolgs: Z := mini|Xi = 1. Z ist eine Zufallsgrosse auf den naturlichen
Zahlen ohne die Null. Z hat per Definitionem eine geometrische Verteilung Ge(p) mit
Parameter p. Es gilt: E[Z] = 1/p und V [Z] = (1− p)/p2, R-Befehl: geom.
P [Z = k] = p(1− p)k−1.
20
Die Ge(p) hat die fur die angewandte Stochastik zentral wichtige Eigenschaft, dass sie die
einzige diskrete Zufallsgrosse ist, welche gedachtnislos ist: mit n > m > 0 gilt hier (vgl.
WTS-Aufgabenblatt 9)
P [Z > n|Z > m] = P [Z > (n−m)].
”Gegeben, es hat schon m = 1000 Wurfe ohne 6 (=Erfolg) gegeben, wie gross ist die
Wahrscheinlichkeit, dass es sogar insgesamt mindestens n = 1004 Wurfe ohne 6 geben
wird? Also dies ist nur noch von der Differenz n−m = 4 abhangig. Wie lange es bereits
keine 6 gegeben hat, ist egal!”
Es sei noch erwahnt, dass die geometrische Verteilung in gewissen Lehrbuchern so definiert
wird, dass man die Anzahl Misserfolge bis zum ersten Erfolg zahlt. Dann nimmt die Ge(p)
Werte auf den naturlichen Zahlen inklusive die 0 an. Die Resultate sind analog aber leicht
komplizierter - das selbe gilt auch fur eine alternative Definition der NB(n,p) nachfolgend.
WTS-4.2.4 Negativ Binomial NB(n,p); Krengel § 2: 2.4
Seien Zi, 1 ≤ i ≤ n, n iid Ge(p)-Zufallsgrossen. Sei W :=∑ni=1 Zi. Dann hat W
per Definitionem die Negativ-Binomialverteilung mit Parametern n und p; NB(n,p). Die
NB(n,p)-Verteilung beschreibt die Zeit, bis es n Erfolge gegeben hat. E[W ] = n/p (folgt
aus Linearitat des Erwartungswerts und WTS-4.2.3) und V [W ] = n(1 − p)/p2 (folgt aus
WTS-Lemma 3.8 b) und WTS-4.2.3), R-Befehl: nbinom. w ≥ n
P [W = w] =(w − 1n− 1
)pn(1− p)w−n.
4.2.5 WTS-Poisson Po(λ); Krengel § 5: 5.4
Die Motivation fur die Poissonverteilung kommt in Kapitel 8 dieser Vorlesung. Eine Zu-
fallsgrosse V ist poissonsch, wenn Sie Werte auf den naturlichen Zahlen inklusive 0 an-
nimmt und zwar mit folgenden Wahrscheinlichkeiten:
P [V = v] = e−λλv
v!.
Es gilt: E[V ] = V [V ] = λ, R-Befehl: pois.
21
WTS-4.3 Stetige Verteilungen
WTS-4.3.1 Uniform U [a, b]; Krengel § 10: 10.2
Die einfachste stetige Verteilung ist die Uniform-Verteilung: Eine Zufallsgrosse U ist per
Definitionem auf dem Intervall [a, b] uniform verteilt, wenn U folgende Dichtefunktion hat:
f(u) = (b− a)−1,
wobei dann naturlich a ≤ u ≤ b zu gelten hat. Ausserhalb von [a, b] ist die Dichte gleich
null. Es gilt E[U ] = (a+ b)/2 und V [U ] = (b− a)2/12, R-Befehl: unif.
WTS-4.3.2 (Negativ-) Exponential Exp(λ); Krengel § 10: 10.2
Eine Zufallsgrosse X mit Dichtefunktion
f(x) = λe−λx, x ≥ 0,
heisst exponentialverteilt mit Parameter λ; Exp(λ). Die gleiche Wahl des Parameters wie
bei der Poissonverteilung ist nicht zufallig! Es gilt E[X] = 1/λ und V [X] = 1/λ2 (WTS-
Aufgabe 37), R-Befehl: exp. Modell fur: radioaktiver Zerfall, ”wann geht eine Gluhbirne
kaputt?”, Zwischenzeit bei der Ankunft von KundInnen in einem Geschaft und vieles mehr;
mehr dazu in der Vorlesung ”Angewandte Stochastik”.
Die Exp(λ) hat die fur die angewandte Stochastik zentral wichtige Eigenschaft, dass sie
die einzige stetige Zufallsgrosse ist, welche gedachtnislos ist: mit t > s > 0 gilt hier (vgl.
WTS-Aufgabenblatt 9)
P [X > t|X > s] = P [X > (t− s)].
”Gegeben, es hat schon s = 1000 Sekunden keinen Atomzerfall gegeben, wie gross ist
die Wahrscheinlichkeit, dass es sogar insgesamt mindestens t = 1004 Sekunden keinen
Atomzerfall geben wird? Also dies ist nur noch von der Differenz t − s = 4 Sekunden
abhangig. Wie lange es bereits keinen Atomzerfall gegeben hat, ist egal!”
22
WTS-4.3.3 Gamma(n, λ); Krengel § 14: Anhang
Seien Xi, 1 ≤ i ≤ n, n iid Exp(λ)-Zufallsgrossen. Sei Y :=∑ni=1Xi. Dann hat Y per
Definitionem die Gammaverteilung mit Parametern n und λ; Gamma(n,λ). E[Y ] = n/λ
(folgt aus Linearitat des Erwartungswerts und WTS-4.3.2) und V [Y ] = n/λ2 (folgt aus
WTS-Lemma 3.8 b) und WTS-4.3.2), R-Befehl: gamma.
f(y) =yn−1e−λyλn
Γ(n), y ≥ 0.
Mit n = 1 wird dies in der Tat zu einer Exponentialverteilung. In Anbetracht von WTS-
4.3.2 ist das ein Modell fur ”wann zerfallt das n-te Atom?”, geht die n-te Gluhbirne
kaputt, kommt der n-te Kunde. In der Statistik hat man mit der Gamma-Verteilung auch
ein relativ flexibles Modell, um Einkommensverteilungen zu modellieren (2 frei wahlbare
Parameter n, λ).
WTS-4.3.4 Normal N(µ, σ2); Krengel § 10: 10.2 und § 5: 5.2; Tabelle II hinten
Wegen des zentralen Grenzwertsatzes ist die Normalverteilung sehr wichtig: Mit Dichte-
funktion
f(x) =1√2πσ
e−(x−µ)2
2σ2 , x ∈ R,
gilt E[X] = µ und V [X] = σ2, R-Befehl: norm.
ACHTUNG: FUR DIE FOLGENDEN BEIDEN RESULTATE SETZEN WIR NORMAL-
VERTEILUNG VORAUS!
1. “Z-Transform” [Beweis auf WTS-Ubungsblatt 9]: Wenn X eine N (µ, σ2)-Verteilung
hat, dann hatX − µσ
(Z− Transform)
eine N (0, 1)-Verteilung (welche in Buchern und Libraries von Statistik-Paketen abgelegt
ist). N (0, 1) nennen wir ”Standard-Normalverteilung”.
2. Approximative Formeln fur beliebige σ > 0: sei X eine N (0, σ2)-Zufallsgrosse. Dann
gelten
P [|X| > σ]=33%
23
und
P [|X| > 2σ]=5%.
Allgemein: Eine Normalverteilung hat 66 % ihrer Wahrscheinlichkeit innerhalb 1 Standard-
abweichung vom Mittelwert entfernt und sogar 95 % ihrer Wahrscheinlichkeit innerhalb
von 2 Standardabweichungen vom Mittelwert entfernt.
WTS-4.4 Zusammenhange bei Verteilungen I:∑
von unabhangigen Zufallsgros-
sen
WTS-4.4.1 Theoretische Grundlagen; Krengel § 11: 11.3
Wir werden uns in diesem Teil mit folgender Frage auseinandersetzen: ”Wenn X und Y
zwei unabhangige Zufallsgrossen sind, wie ist dann X + Y verteilt”?
WTS-4.4.1.1 Diskreter Fall
P [X + Y = a] =∑
i
P [X = a− i]P [Y = i]
WTS-4.4.1.2 Stetiger Fall
P [X + Y ≤ a] =∫ a
−∞
∫ ∞−∞
fX(x− y)fY (y)dydx
Also ist∫∞−∞ fX(a− y)fY (y)dy die Dichte von X + Y an der Stelle a.
WTS-4.4.2 Summen von Binomial, Geometrisch, Poisson, Exponential, Normal
Die Summanden in den folgenden Summen mussen immer unabhangig sein. Wenn nicht
anders erwahnt, fordern wir auch die gleiche Verteilung. Mit kompakten Formeln wie
n∑1
Be(p) = Bin(n, p)
24
weiter unten ist eigentlich gemeint: Seien X1, . . . , Xn iid Be(p)-verteilt. Dann hat Y :=∑n
1 Xi eine Bin(n,p)-Verteilung.
* Summe von Bernoulli ist Binomial
n∑1
Be(p) = Bin(n, p)
* Grosser Bruder hiervon: Summe von Binomial ist Binomial (p muss immer gleich sein!)
n∑1
Bin(ni, p) = Bin(n∑1
ni, p)
* Summe von Geometrisch ist Negativ Binomial
n∑1
Ge(p) = NB(n, p)
* Summe von Poisson ist Poisson (Summanden mussen nicht mal identisch verteilt sein)
n∑
i=1
Po(λi) = Po(n∑
i=1
λi)
* Summe von Exponential ist Gamma
n∑1
Exp(λ) = Gamma(n, λ)
* Summe von Normal ist Normal (Summanden mussen nicht mal identisch verteilt sein);
vgl. 4.4.1.2.n∑
i=1
N (µi, σ2i ) = N (
n∑
i=1
µi,
n∑
i=1
σ2i )
WTS-5 n→∞ (Konvergenz, LLN, CLT)
Literatur WTS-Kapitel 5
* Cartoon Guide: Kapitel 5, Seite 106 in Kapitel 6
* Krengel: 3.6 in § 3, § 5 und § 12
25
WTS-5.1 Ungleichung von Bienayme-Tschebyschew
WTS-Satz 5.1 [Ungleichung von Bienayme-Tschebyschew] Sei X eine Zu-
fallsgrosse mit E[|X|] <∞. Dann gilt fur ε > 0:
P [|X| ≥ ε] ≤ 1εE[|X|],
auch
P [|X − µ| ≥ ε] ≤ 1ε2V [X]. (WTS − 5.1)
WTS-5.2 LLN (Law of Large Numbers; Gesetz der grossen Zahlen)
Fragestellung: Was geschieht mit dem Ausdruck
1n
n∑
k=1
Xk
falls n→∞ und welche Voraussetzungen werden wir sinnvollerweise machen?
WTS-5.2.2 LLN
Das Gesetz der grossen Zahlen ist streng genommen kein Theorem, sondern eine Eigen-
schaft einer Folge (das Theorem folgt dann in WTS-Theorem 5.3).
WTS-Definition 5.2 [Gesetz der grossen Zahlen] Sei Xi, i ≥ 1, eine Folge von
identisch verteilten Zufallsgrossen mit Erwartungswert µ, sodass E[|X1|] <∞. Wir sagen,
dass die Folge von Zufallsgrossen Xi, i ≥ 1, dem Gesetz der grossen Zahlen genugt, wenn
fur jedes ε > 0 gilt:
limn→∞
P
[∣∣∣∣1n
n∑
i=1
Xi − µ∣∣∣∣> ε
]= 0.
Bemerkungen zu WTS-Definition 5.2: Diese Definition ist eigentlich ein Spezialfall
des Gesetzes der grossen Zahlen. Es ist nur das sogenannte schwache Gesetz der grossen
Zahlen im Fall von identisch verteilten Zufallsgrossen und die Konvergenz ist bei uns
ausschliesslich gegen eine konstante Zahl (den Erwartungswert).
26
Wir wissen noch nicht, wann eine Folge diesem Gesetz der grossen Zahlen genugt. Ein
schones Resultat dazu ist WTS-Theorem 5.3, welches nicht die Existenz der Varianz
fordert.
WTS-Theorem 5.3 [Satz von Kolmogoroff] Sei Xi, i ≥ 1, eine Folge von paar-
weise unabhangigen, identisch verteilten Zufallsgrossen mit Erwartungswert µ und
E[|X1|] < ∞. Dann genugt diese Folge dem Gesetz der grossen Zahlen; es gilt also fur
jedes ε > 0:
limn→∞
P
[∣∣∣∣1n
n∑
i=1
Xi − µ∣∣∣∣> ε
]= 0.
WTS-5.3 CLT (Central Limit Theorem; Zentraler Grenzwertsatz)
Fragestellung: Was geschieht mit dem Ausdruck
∑nk=1Xk − nµ√
nσ, (WTS − 5.6)
einfacherer Fall (µ = 0, σ = 1)1√n
n∑
k=1
Xk,
falls n→∞ und welche Voraussetzungen werden wir sinnvollerweise machen?
WTS-5.3.2 CLT
Der zentrale Grenzwertsatz (englisch Central Limit Theorem CLT) unterstreicht die grosse
Bedeutung der Normalverteilung:
WTS-Theorem 5.4 [Zentraler Grenzwertsatz] Sei Xk, k ≥ 1, eine Folge von iid
Zufallsgrossen mit E[X1] =: µ und 0 < V [X1] =: σ2 <∞. Dann gilt fur a ∈ R beliebig:
P
[∑nk=1Xk − nµ√
nσ≤ a
]−→ P [N (0, 1) ≤ a]
wenn n→∞.
27
Mit ”P [N (0, 1) ≤ a]” meinen wir die Wahrscheinlichkeit, dass eine Standard-Normal-
verteilte Zufallsgrosse Werte kleiner oder gleich a annimmt.
Die Verteilungsfunktion der zentrierten und normierten Summe (WTS-5.6) konvergiert
also in jedem Punkt gegen die Verteilungsfunktion der Standard-Normal-Verteilung.
Bemerkungen zu WTS-Theorem 5.4: 1. Wenn wir µ = 0, σ2 = 1 haben, sind wir in
Situation WTS-5.3.1.
3. Vorsicht: Man darf die Zentrierung und Normierung nicht ”auf die andere Seite” nehmen
in der Form: ”∑nk=1Xk konvergiert mit n→∞ in Verteilung gegen eine Zufallsgrosse mit
Verteilung N (nµ, nσ2)”. Dies ist ja nicht stabil, das darf man in der Analysis bei der
Konvergenz von Folgen ja auch nicht. In der Statistik wird dies jedoch als approximative
Methode benutzt.
4. Ausdruck (WTS-5.6) erinnert zu Recht an die Z-Transform aus WTS-Kapitel 4. Be-
trachten wir dazu den Ausdruck ∑nk=1Xk − nµ√
nσ
etwas genauer: mitn∑
k=1
Xk − nµ
haben wir in einem ersten Schritt offenbar einfach zentriert (den Erwartungswert abgezogen
- er ist jetzt 0), dann in einem zweiten Schritt mit√nσ normiert und dabei
∑nk=1Xk − nµ√
nσ
erhalten. Die Varianz ist jetzt 1. Zusammen nennt man diese beiden Schritte stan-
dardisieren.
And then a miracle occurs...,
denn das Ding hat am Schluss (bei n = ∞) eine Normalverteilung N (0, 1). Das Uber-
raschende am CLT ist, dass mit wenigen Voraussetzungen (v.a. keine uber die Verteilung
der Xk’s) immer eine Normalverteilung als Limesverteilung resultiert.
28
5. Ab welchem n ”darf” man die Normalverteilung brauchen? Nichttriviale, allgemeine
Fehler-Abschatzungen, welche nur von n abhangen und fur alle Verteilungen gelten,
existieren nicht. Wenn die Xk’s aber Be(p)-Zufallsgrossen sind, so sagt eine Praktikerregel,
dass np(1− p) ≥ 9 gelten sollte, damit man mit gutem Gewissen die Normalverteilung be-
nutzen darf. Seien Sie sich bewusst, dass dies von der konkreten Anwendung abhangt
und mathematisch unprazise ist (was wenn np(1 − p) = 8.9?). Wenn p nahe bei 0
oder nahe bei 1 ist, wendet man besser WTS-Satz 5.6 an. Eine kleine Verbesserung
der Approximation erreicht man im Fall von Summen diskreter Zufallsgrossen (also zum
Beispiel Bernoulli/Binomial) mit der sogenannten Diskretisierungs-Korrektur (englisch:
Continuity-Correction), siehe Cartoon-Guide Kapitel 5 oder Stahel 6.11 i.
WTS-5.4 Zusammenhange bei Verteilungen II: Stetiges Analogon einer dis-
kreten Verteilung und Limesverteilungen
In ”WTS-4.4 Zusammenhange bei Verteilungen I”, haben wir uns gefragt, wie Summen
von unabhangigen Zufallsgrossen verteilt sind. Jetzt wollen wir Paare von diskreten und
stetigen Verteilungen finden, welche ”etwas miteinander zu tun haben” (WTS-5.4.1 und
WTS-5.4.2) und untersuchen, ob gewisse Verteilungen zu anderen Verteilungen werden,
wenn wir gezielt einen Parameter gegen ∞ gehen lassen (WTS-5.4.3 und WTS-5.4.4).
WTS-5.4.1 Stetiges Analogon von Geometrisch ist Exponential
Bereits in der Analysis sieht man, dass geometrisches Wachstum cn, n ∈ N, und exponen-
tielles Wachstum ct, t ∈ R+, diskrete und stetige Pendants sind. Je nach Modellierungs-
gegenstand wird man das eine oder das andere wahlen. Auf WTS-Aufgabenblatt 9 ist
zu zeigen, dass geometrische und exponentielle Zufallsgrossen eine wichtige Eigenschaft
teilen, namlich die Gedachtnislosigkeit. Es drangt sich also fast auf, zu fragen, ob nicht
ein tieferer Zusammenhang zwischen diesen beiden Verteilungen besteht. Das ist der Fall;
wir prazisieren das in folgendem:
29
WTS-Satz 5.5 [Konvergenz der geometrischen- gegen die Exponential-Ver-
teilung] Sei T eine Exp(1)-Zufallsgrosse. Sei Xn, n ≥ 2, eine Folge von Ge(1/n)-Zufalls-
grossen, d.h. Xn habe eine Ge(1/n)-Verteilung. Dann gilt fur a ∈ R+:
P
[1nXn ≤ a
]−→ P [T ≤ a]
fur n→∞.
Bemerkung zu WTS-Satz 5.5 Der Erwartungswert von T ist 1. Der Erwartungswert
von Xn/n ist auch 1. Dies ist allgemein ein wichtiges Prinzip, wenn man solche Zusam-
menhange formulieren will (vgl. auch WTS-5.4.3): man normiert und/oder zentriert min-
destens derart, dass die Erwartungswerte der Limeszufallsgrosse (hier T ) und der kon-
vergierenden Zufallsgrossen (hier Xn) gleich sind (oder zumindest asymptotisch gleich
werden).
WTS-5.4.2 Stetiges Analogon von Negativ Binomial ist Gamma
In WTS-Kapitel 4 haben wir gesehen, dass bei Unabhangigkeit der Summanden
n∑1
Ge(p) = NB(n, p)
undn∑1
Exp(λ) = Γ(n, λ).
Deshalb ist es nach WTS-5.4.1 nicht uberraschend, dass das stetige Analogon von NB eine
Gamma-Zufallsgrosse ist. Wir verzichten hier aus Zeitgrunden auf Satz und entsprechen-
den Beweis.
WTS-5.4.3 Von Binomial zu Poisson
Wenn man die Wahrscheinlichkeitsfunktion (die Werte von P [X = k], k ≥ 0) einer Bino-
mial- und einer Poissonverteilung mit gleichem Erwartungswert vergleicht, so sieht man,
dass der Unterschied immer kleiner wird, je grosser n in der Binomial-Verteilung ist:
30
WTS-Satz 5.6 [Konvergenz der Binomial- gegen die Poisson-Verteilung] Sei
Xn eine Folge von Bin(n, pn)-Zufallsgrossen. Es gelte ∀n genugend gross: npn = λ > 0
(Erwartungswerte jeweils gleich). λ ist konstant! Dann gilt fur r ∈ N0 fest:
P [Xn = r] −→ e−λλr
r!
fur n→∞. Damit haben wir im Limes eine Poisson-Verteilung mit Parameter λ.
31