Univ.-Prof. Dr. Walter GutjahrOskar-Morgenstern-Platz 1Tel. 4277 [email protected]
Univ.-Doz. Dr. Florian FrommletSpitalgasse 21Tel. 40400 [email protected]
1
Organisatorisches
âą Vorlesungstermine:
Mo 09.45 - 11.15 HS 6, wöchentlichDi 15.00 - 16.30 HS 6, wöchentlich
Letzter Vorlesungstermin:Di 13.12.2014
Achtung: Der Di-Termin am 22.11. wird einmalig einmal auf Mi(23.11., 13.15 - 14.45) verschoben.
âą Voraussichtliche PrĂŒfungstermine:1) Do 09.01.20152) Do 30.01.2015(Bitte Anmeldefristen beachten!!)
âą Ăbungsgruppen:Parallele Gruppen, Ort und Zeit laut Vorlesungsverzeichnis!
2
Tutorium
âą Tutor: Raphael Rath
Zeit und Ort: Mo 15.00 - 16.30 im HS 13
3
E-learning Plattform
Moodle Plattform
https://moodle.univie.ac.at
âą Generelle Information
âą Downloads der Folien
âą Forum
âą Noten
4
Inhalt der Vorlesung
1. EinfĂŒhrung
(a) Wahrscheinlichkeitsbegriff
(b) Einfaches Rechnen mit diskreten Wahrscheinlichkeiten
2. Diskrete Verteilungen
3. Stetige Verteilungen
4. Mehrdimensionale Verteilungen
5. Verteilungen von Stichprobenkennzahlen
6. GrenzwertsÀtze
Danksagung: FĂŒr Anregungen zum Inhalt danken wir Univ.-Prof. Dr. Karl
Schlag!
5
Literatur
Die Reihenfolge entspricht dem Grad an Relevanz speziell fĂŒrdiese Lehrveranstaltung
âą Karl Bosch: Elementare EinfĂŒhrung in dieWahrscheinlichkeitsrechnung
âą Sheldon Ross: A First Course in Probability
BĂŒcher gibt es mindestens 10 mal in Lehrbuchsammlung
âą Dimitri Bertsekas, John Tsitsiklis: Introduction to Probability
âą Brannath / Futschik: Statistik fĂŒr Wirtschaftswissenschafter
âą John Rice: Mathematical statistics and data analysis
âą Robert Hafner: Wahrscheinlichkeitsrechnung und Statistik
âą Walter Oberhofer: Wahrscheinlichkeitstheorie
âą Jim Pitmann: Probability
6
EinfĂŒhrung
Mathematische Modellierung
Deterministisch
Stochastisch (ZufÀlligkeit, Unsicherheit)
Experiment mit verschiedenen möglichen AusgĂ€ngen â Ereignisse
Wahrscheinlichkeitsmodelle haben nicht den Anspruch exakteVorhersagen zu liefern
Modell liefert Aussagen ĂŒber Wahrscheinlichkeit von Ereignissen
7
Beispiele
Konzeptionell einfach:
âą MĂŒnzwurf
âą WĂŒrfelspiele / Kartenspiele / Lotto
Konzeptionell etwas schwieriger:
âą Nicht faire MĂŒnze
Konzeptionell schwierig:
âą Wahlprognosen
âą KreditrĂŒckzahlung (Insolvenzprognoseverfahren)
âą Sportwetten
8
Interpretation von Wahrscheinlichkeit
1. Laplace: Endlich viele Ereignisse
Alle Ereignisse gleiche Wahrscheinlichkeit
2. Frequentistisch:
Idee: Experiment das beliebig oft wiederholt werden kann
Relative HĂ€ufigkeit: Anzahl des Auftretens eines Ereignissesbei n Wiederholungen des Experiments
Wahrscheinlichkeit: Relative HĂ€ufigkeit fĂŒr n â â
3. Subjektiv: Nicht immer taucht Wahrscheinlichkeit im Kontextvon beliebig oft wiederholbaren Ereignissen auf
Beispiel: Ărztliche Prognose, Sportwetten,Investitionsentscheidungen
9
Wahrscheinlichkeitsrechnung
UnabhÀngig von der Interpretation!
Axiomatische Wahrscheinlichkeitstheorie â Kolmogorov (1933)
âą Ergebnisraum Ω (die Elemente Ï â Ω heiĂen Ergebnisse)
⹠Menge A aller zulÀssigen Ereignisse A: jedes zulÀssigeEreignis A ist ein Teilmenge von Ω
âą Wahrscheinlichkeitsverteilung P : eine Funktion, die jedemEreignis A â A eine Wahrscheinlichkeit P (A) zuordnet.
Die Funktion A 7â P (A) hat folgende Eigenschaften
1. 0 †P (A) †1
2. P (â ) = 0, P (Ω) = 1
3. P (A âȘB) = P (A) + P (B) falls A â©B = â .
10
Beispiel 1: MĂŒnzwurf
Ergebnisraum: Ω = Kopf, Zahl
Ereignisse: â , Kopf, Zahl, Kopf oder Zahl
Wahrscheinlichkeitsverteilung: Falls faire MĂŒnze
P (Kopf) = 1/2, P (Zahl) = 1/2 (Elementarereignisse)
P (Kopf oder Zahl) = P (Kopf) + P (Zahl) = 1/2 + 1/2 = 1
P (weder Kopf noch Zahl) = P (â ) = 0
Interpretation: Laplaceâscher Wahrscheinlichkeitsbegriff
Elementarereignis: A â Ω mit |A| = 1
d.h. einelementige Teilmenge
11
Ăbungen
Fairer WĂŒrfel
Ergebnisraum:
Ereignisse:
Wahrscheinlichkeitsverteilung:
Zwei faire MĂŒnzen
Ergebnisraum:
Ereignisse:
Wahrscheinlichkeitsverteilung:
12
WahrscheinlichkeitsrechnungfĂŒr Statistik und VWLWS 2016/17
1 Grundbegriffe
1. Mengenlehre
2. Rechnen mit Wahrscheinlichkeiten
3. Kombinatorik
4. Bedingte Wahrscheinlichkeit
1
1.1 Mengenlehre
Ereignis: Teilmenge von Ω
Ac := Ω\A . . . KomplementA âȘB . . . VereinigungA â©B . . . DurchschnittA â©B = â . . . Disjunkte Mengen
A\B := A â©Bc
B â Ac â A\B =?
Venn Diagramm:
Ω
A
B
Indexschreibweise: Gegeben die Ereignisse A1, A2, . . . , An
ân
i=1 Ai = A1 âȘA2 âȘ · · · âȘ An
â
n
i=1 Ai = A1 â©A2 ⩠· · · â© An
2
Rechenregeln
âą Kommutativgesetz: A âȘB = B âȘA
âą Assoziativgesetz: (A âȘB) âȘ C = A âȘ (B âȘ C)
âą Distributivgesetz: (A âȘB) â© C = (A â© C) âȘ (B â© C)
âą de Morgan: (A âȘB)c = Ac â©Bc
Alle Regeln gelten auch wenn man âȘ und â© konsequentvertauscht!
Weiters gilt (Ăbung):
A â©Ac = A âȘ Ac =
A âȘ Ω = A ⩠Ω =
A âȘ â = A â© â =
A âȘA = A â©A =
3
Ăbung: Zwei WĂŒrfel
Es werden ein weisser und ein schwarzer WĂŒrfel geworfen.
⹠Ergebnisraum Ω:
âą Welche Teilmengen entsprechen den folgenden Ereignissen
A : = Ein WĂŒrfel zeigt 4, der andere 2
B : = der schwarze WĂŒrfel zeigt eine gerade Augenzahl derweisse eine ungerade
C := die Summe der Augenzahlen betrÀgt 8
âą Welche der genannten Ereignisse sind disjunkt?
âą Bilde (A âȘB)c â© C âȘ [A â© (B âȘ C)]
4
1.2 Rechnen mit Wahrscheinlichkeiten
1. 0 †P(A) †1
2. P(â ) = 0, P(Ω) = 1
3. P(A âȘB) = P(A) + P(B) falls A â©B = â .
Einfache Folgerungen:
âą A1, . . . , An paarweise disjunkt, dann gilt
P
(
nâ
i=1
Ai
)
=
nâ
i=1
P(Ai)
âą P(A âȘB) = P(A) + P(B)â P(A â©B) †P(A) + P(B)
âą B â A â P(B) †P(A)
âą P(A\B) = P(A)â P(B â©A) P(Ac) = 1â P(A)
5
Ăbung
A,B und C seien Ereignisse (Teilmengen von Ω) jeweils mitWahrscheinlichkeit P(A) = 0.8,P(B) = 0.3,P(C) = 0.7.
Weiters gelte
A âȘ C = Ω, B â A, B und C sind disjunkt
1. Berechne P(A â© C)
2. Welche der folgenden Aussagen sind richtig
(a) A â C?
(b) C â A?
(c) B âȘ C = Ω?
6
Ereignisse mit Wahrscheinlichkeit null
Der Formalismus der Wahrscheinlichkeitsrechnung erlaubt auchden Fall, dass ein Ereignis A, obwohl es logisch gesehen möglichist, dennoch Wahrscheinlichkeit null hat: Aus P(A) = 0 folgt nichtzwingend, dass A = â .
Beispiel: Wenn wir annehmen, dass ein Punkt X zufÀllig aus demIntervall [0, 1] gewÀhlt wird, ohne dass irgendein Teilbereich diesesIntervalls bei der Auswahl bevorzugt wird (wir werden spÀter vonGleichverteilung auf [0, 1] sprechen), hat z.B. das Ereignis X = 0.5
die Wahrscheinlichkeit null. Dennoch ist es nicht logisch unmöglich(sonst wĂ€re ĂŒberhaupt kein Ergebnis möglich!).
Der exakte Aufbau der Wahrscheinlichkeitsrechung wird durch dieBerĂŒcksichtigung von Ereignissen mit Wahrscheinlichkeit nullkomplizierter; viele Aussagen brauchen z.B. den Zusatz âmitWahrscheinlichkeit 1â.
7
Laplaceâsche Wahrscheinlichkeit
|Ω| = n < â . . . Ergebnisraum mit endlich vielen Elementen
Alle Elementarereignisse gleiche Wahrscheinlichkeit
â P(A) = |A|/n
Berechnung der Wahrscheinlichkeit durch ZĂ€hlen der Elementeeiner Menge â Kombinatorik
Beispiel : Urne mit 5 schwarzen und 6 weiĂen BĂ€llen
Wie groĂ ist die Wahrscheinlichkeit dass zwei gezogene BĂ€lle weiĂsind?
a) Mit ZurĂŒcklegen: P = 6/11 · 6/11 = 36/121 ⌠0.2975
b) Ohne ZurĂŒcklegen: P = 6/11 · 5/10 = 30/110 ⌠0.2727
8
1.3 Grundbegriffe der Kombinatorik
Permutation: Anzahl der möglichen Anordnungen von n
verschiedenen Elementen
n! = n · (nâ 1) · · · · 1
Beispiel: Auf wie viele verschieden Arten kann man abc anordnen?
abc, acb, bac, bca, cab, cba 3! = 3 · 2 · 1 = 6
Auf wie viele verschieden Arten kann man abcd anordnen?abcd, acbd, bacd, bcad, cabd, cbadabdc, acdb, badc, bcda, cadb, cbdaadbc, adcb, bdac, bdca, cdab, cdbadabc, dacb, dbac, dbca, dcab, dcba
4! = 4 · 3 · 2 · 1 = 24
Man definiert: 0! = 1
9
r - Permutation mit Wiederholung
Anzahl der Möglichkeiten r Elemente aus einer Gesamtheit von n
Elementen zu ziehen:
Mit zurĂŒcklegen, Reihenfolge wesentlich
Beispiel: n = 4, r = 2
aa, ab, ac, ad, ba, bb, bc, bd, ca, cb, cc, cd, da, db, dc, dd
n Möglichkeiten fĂŒr jede der r Positionen â nr Möglichkeiten
Ăbung: Wie viele Zahlen kann man mit allen 10-stelligenZiffernkombinationen im Dualsystem (Ziffern 0 und 1) darstellen?
10
r - Permutation ohne Wiederholung
Anzahl der Möglichkeiten r Elemente aus einer Gesamtheit von n
Elementen zu ziehen:
Ohne zurĂŒcklegen, Reihenfolge wesentlich
Beispiel: n = 4, r = 2 ab, ac, ad, ba, bc, bd, ca, cb, cd, da, db, dc
Nicht mehr relevant: aa, bb, cc, dd
n Möglichkeiten fĂŒr die erste Position, nâ 1 fĂŒr die zweite, . . .nâ r + 1 fĂŒr die râte Position
â n · (nâ 1) · · · (nâ r + 1) = n!(nâr)! Möglichkeiten
Bemerkung: Es muss gelten: r †n
r = n gibt als Spezialfall die normale Permutation
11
r - Kombination ohne Wiederholung
Anzahl der Möglichkeiten r Elemente aus einer Gesamtheit von n
Elementen zu ziehen:
Ohne zurĂŒcklegen, Reihenfolge egal
Beispiel: n = 4, r = 2 ab, ac, ad, bc, bd, cd
Nicht mehr relevant: ba, ca, da, cb, db, dc
Es gibt r! Möglichkeiten die Elemente innerhalb von einer Gruppeanzuordnen
â(
n
r
)
:= n·(nâ1)···(nâr+1)r! = n!
(nâr)!r! Möglichkeiten
Bemerkung: Es muss klarerweise wieder gelten: r †n
12
r - Kombination mit Wiederholung
Anzahl der Möglichkeiten r Elemente aus einer Gesamtheit von n
Elementen zu ziehen:
Mit zurĂŒcklegen, Reihenfolge egal
Beispiel: n = 4, r = 2 aa, ab, ac, ad, bb, bc, bd, cc, cd, dd
Hinzugekommen: aa, bb, cc, dd
Anzahl der Möglichkeiten:
(
n+râ1r
)
= (n+râ1)!(nâ1)! r! =
(n+râ1)···nr!
n = 4, r = 2 : 5!3! 2! =
5·42 = 10
13
Beispiel: r - Kombination mit Wiederholung
Hochzeitsgesellschaft, 30 GĂ€ste, 3 MenĂŒs zur Auswahl
Wieviele Möglichkeiten gibt es 30 MenĂŒs zu bestellen?
Eine Möglichkeit: 8 mal MenĂŒ A, 12 mal MenĂŒ B, 10 mal MenĂŒ C
AAAAAAAA | BBBBBBBBBBBB |CCCCCCCCCC
Durch die beiden Trennsymbole | wird diese Kombination eindeutigfestgelegt
Somit Fragestellung Àquivalent dazu, wie viele Möglichkeiten gibtes "zwei TrennwÀnde" zu setzen
WĂ€hle 2 (= nâ 1) von 32 (= n+ r â 1) Positionen, Reihenfolgeegal, ohne zurĂŒcklegen(
n+râ1nâ1
)
=(
n+râ1r
)
=(
322
)
= 31 · 16 = 496
14
Zusammenfassung
Anzahl der Möglichkeiten r Elemente aus einer Gesamtheit von n
Elementen zu ziehen:
Reihenfolge mit Wiederholung ohne Wiederholung (n â„ r)
relevant nr
n!/(nâ r)!
egal(
n+râ1r
) (
n
r
)
Faktorielle (auch FakultÀt):
n! = n · (nâ 1) · · · 1, 0! = 1
Binomialkoeffizient:(
n
r
)
= n·(nâ1)···(nâr+1)r! = n!
(nâr)! r!
15
Beispiel
8 MÀnner und 6 Frauen sollen eine Kommitee bestehend aus 3MÀnnern und 3 Frauen bilden. Wieviele mögliche Kommitees gibtes, wenna) 2 Frauen nicht kooperieren wollen?b) 2 MÀnner nicht kooperieren wollen?c) Ein Mann und eine Frau nicht kooperieren wollen?
Lösung :Ohne Konflikte:
(
83
)(
63
)
= 1120 KommiteesSubtrahiere davon jeweils die Anzahl der unmöglichen Komitees:a)
(
83
) [(
63
)
â 4]
= 896
b)(
63
) [(
83
)
â 6]
= 1000
c)(
83
)(
63
)
â(
72
)(
52
)
= 910
16
Ăbungsaufgabe (etwas schwierig)
In einem Dorf gibt es 4 Frisöre, und 4 verschiedene Personenwollen zu einem Frisör. Wie groà ist die Wahrscheinlichkeit, dassgenau i Frisöre einen Auftrag erhalten.
Lösung :
âą P(i = 1) = 1/64
âą P(i = 2) = 21/64
âą P(i = 3) = 36/64
âą P(i = 4) = 6/64
17
Einschub: Binomischer Lehrsatz
(x+ y)n =nâ
k=0
(
n
k
)
xkynâk
Beweis durch vollstÀndige Induktion:
1) n = 1 :(
10
)
x0y1â0 +(
11
)
x1y1â1 = x+ y
2) (nâ 1) â n : Angenommen der Satz ist richtig fĂŒr nâ 1.
Schreibe (x+ y)n = (x+ y)(x+ y)nâ1, verwende den binomischenLehrsatz fĂŒr (x+ y)nâ1 und zeige damit, dass sich die rechte Seite
tatsĂ€chlich alsnâ
k=0
(
n
k
)
xkynâk schreiben lĂ€Ăt.
Hilfreiche IdentitĂ€t fĂŒr den Beweis:(
n
r
)
=
(
nâ 1
r â 1
)
+
(
nâ 1
r
)
18
Einschub: Pascalsches Dreieck
Schema der Binomialkoeffizienten:
n = 0 1
n = 1 1 1
n = 2 1 2 1
n = 3 1 3 3 1
n = 4 1 4 6 4 1
n = 5 1 5 10 10 5 1
(x+ y)2 = x2 + 2xy + y
2
(x+ y)3 = x3 + 3x2
y + 3xy2 + y3
(x+ y)4 = x4 + 4x3
y + 6x2y2 + 4xy3 + y
4
19
Ăbungen
Zug mit 10 Waggons, Schaffner kontrolliert 2 davon; pro Waggonkontrolliert er 2 PersonenEinzigen 4 Schwarzfahrer in einem Waggon mit 12 FahrgÀsten
1. Wieviele Möglichkeiten hat Schaffner Waggons zu wÀhlen
2. Mit welcher Wahrscheinlichkeit erwischt er Waggon mit denSchwarzfahrern?
3. Mit welcher Wahrscheinlichkeit erwischt er mindestens einenSchwarzfahrer, wenn er ihren Waggon kennt?
4. Mit welcher Wahrscheinlichkeit erwischt er mindestens einenSchwarzfahrer, wenn er ihren Waggon nicht kennt?
20
1.4 Bedingte Wahrscheinlichkeit
Noch mal Beispiel der Urne mit 5 schwarzen und 6 weiĂen BĂ€llen.
Wahrscheinlichkeit dass zwei gezogene BĂ€lle weiĂ sind?
Ohne ZurĂŒcklegen: P = 6/11 · 5/10 = 30/110 ⌠0.2727
In Worten: 6/11 . . . Wahrscheinlichkeit, dass erste Kugel weiĂ
5/10 . . . Wahrscheinlichkeit, dass zweite Kugel weiĂ,
falls erste Kugel weiĂ war
Formal: A . . . erste Kugel weiĂ
B . . . zweite Kugel weiĂ
B|A . . .B wenn A, oder B unter der Bedingung A,
d.h. zweite Kugel weiĂ falls erste Kugel weiĂ
P(B â©A) = P(A)P(B|A)
21
Definition bedingte Wahrscheinlichkeit
P(B|A) = P(B â© A)/P(A)
Interpretation: Ω und P : Ω â [0, 1] reprĂ€sentieren Information zuBeginn eines Experiments, Ω enthĂ€lt alle möglichen Ereignisse
ZusĂ€tzliche Information â nur Ereignisse möglich, die Teilmengenvon A sind. A wird zum neuen (reduzierten) Ergebnisraum.
Die bedingte Wahrscheinlichkeit eines Ereignisses B entsprichtdem âAnteilâ von B an A.
Wir nennen fortan Ω gemeinsam mit P : Ω â [0, 1] einenWahrscheinlichkeitsraum(Bemerkung: Genaugenommen braucht man auch noch eine sog.Ï - Algebra A. Wir betrachten zunĂ€chst endlicheWahrscheinlichkeitsrĂ€ume, hier ist A die Potenzmenge von Ω.)
22
Fortsetzung: Bedingte Wahrscheinlichkeit
Die bedingte Wahrscheinlichkeit ist tatsÀchlich eineWahrscheinlichkeit:
Reduzierter Ergebnisraum A
P(A|A) = P(A â©A)/P(A) = 1
B â© C = â â P(B âȘ C|A) = P(B|A) + P(C|A)
Ăbung: In einer LVA gab es zwei Beurteilungstests. 50% derStudierenden bestanden den ersten Test und 35% bestandenbeide Tests. Wieviele Prozent der Studierenden die den erstenTest schafften scheiterten am zweiten Test?
23
Produktformel
Manchmal hilfreich:
P(ân
i=1Ai) = P(A1)P(A2|A1)P(A3|A1 â©A2) · · ·P(An|ânâ1
i=1 Ai)
Beweis: Iteratives Anwenden der Definition von bed. Wahrsch.
Ăbung: Ăbliches Set von Spielkarten zufĂ€llig in vier Stapel zu je13 Karten aufgeteilt
Berechne Wahrscheinlichkeit, dass in jedem Stapel ein As
Hinweis: Definiere die Ereignisse
A1 = Pik As befindet sich in irgendeinem Stapel A2 = Pik As und Herz As in verschiedenen Stapeln
A3 = Pik, Herz und Karo As in verschiedenen Stapeln
A4 = Alle Asse in verschiedenen Stapeln
Lösung: 0.1055
24
Satz von der totalen Wahrscheinlichkeit
Seien A1, A2, . . . , An disjunkte Ereignisse und Ω =nâ
i=1
Ai
Dann gilt
P(A) = P(A1)P(A|A1) + · · ·+ P(An)P(A|An)
Beweis:
Rechte Seite: P(A â©A1) + · · ·+ P(A â©An)
Ai disjunkt â R.S. = P
(
nâ
i=1
(A â©Ai)
)
Ai vollstĂ€ndig ânâ
i=1
(A â©Ai) = A
25
Satz von Bayes
Seien A und B Ereignisse mit positiver Wahrscheinlichkeit
Dann gilt:
P(A|B) = P(A)P(B|A)/P(B)
Beweis: P(A)P(B|A) = P(B)P(A|B) = P(A â©B)
Aufgrund des Satzes der totalen Wahrscheinlichkeit gilt auch
P(A|B) =P(A)P(B|A)
P(A)P(B|A) + P(Ac)P(B|Ac)
Typische Anwendung: Bayesianische Statistik
26
Ăbung Bayes, Totale Wahrscheinlichkeit
Versicherung teilt Autofahrer in 3 Klassen
Prozent P(Unfall im ersten Jahr)
schlecht 30 0.6
mittel 60 0.1
gut 10 0.01
a) Wahrscheinlichkeit fĂŒr Unfall im ersten Jahr von beliebigemAutofahrer?
Lösung: 0.241
b) Wahrscheinlichkeit, dass jemand der im ersten Jahr einen Unfallhat ein guter Autofahrer ist?
Lösung: 0.00415
27
Interpretation medizinischer Testergebnisse
Gigerenzer et al. (z.B. in âHelping doctors and patients make senseof health statisticsâ, 2008) zeigen, dass nicht nur Patienten,sondern sogar Ărzte die aus medizinischen Tests abgeleitetenWahrscheinlichkeiten hĂ€ufig völlig falsch einschĂ€tzen.
Beispiel: Ein Labortest auf HIV habe folgende Kennzahlen:
95% SensitivitÀt (Test positiv falls tatsÀchlich krank)99% SpezifitÀt (Test negativ falls gesund)
In der untersuchten Region sind 0.5% der Bevölkerung HIV-positiv.
a) SchÀtze die Wahrscheinlichkeit, dass jemand mit einempositiven Test tatsÀchlich erkrankt ist!
b) Berechne die Wahrscheinlichkeit, dass jemand mit einempositiven Test tatsÀchlich erkrankt ist!
28
UnabhÀngige Ereignisse
Noch mal Beispiel der Urne mit 5 schwarzen und 6 weiĂen BĂ€llen.
Wahrscheinlichkeit dass zwei gezogene BĂ€lle weiĂ sind?
Mit ZurĂŒcklegen: P = 6/11 · 6/11 = 36/121 ⌠0.2975
Durch das ZurĂŒcklegen werden die beiden EreignisseA = (erste Kugel weiĂ) und B = (zweite Kugel weiĂ)voneinander unabhĂ€ngig: P(B|A) = P(B) = 6/11
Das wissen um A liefert keine Information fĂŒr B
Allgemeine Definition: Zwei Ereignisse A und B unabhÀngig falls
P(A â©B) = P(A)P(B)
Beispiele: Mehrere WĂŒrfel, MĂŒnzen, etc.
29
Beispiel UnabhÀngigkeit
In einer Gruppe von Leuten befinden sich 8 Raucher und12 Raucherinnen, sowie 10 Nichtraucher.
Wieviele Nichtraucherinnen sind in der Gruppe, falls bei derzufÀlligen Wahl einer Person das Geschlecht vom RauchverhaltenunabhÀngig ist?
Lösung: Sei x die Zahl der Nichtraucherinnen
P(raucht) = 20/(30 + x) P(mÀnnlich) = 18/(30 + x)
P(raucht und mÀnnlich) = 8/(30 + x)
UnabhÀngigkeit: (20/(30 + x)) · (18/(30 + x)) = 8/(30 + x)
â 18 · 20 = 8 · (30 + x) â 45 = 30 + x
Somit x = 15 Nichtraucherinnen.
30
Multiple UnabhÀngigkeit
Drei Ereignisse A, B und C heissen unabhÀngig falls
1. alle 3 Ereignisse jeweils paarweise unabhÀngig
2. P(A â©B â© C) = P(A)P(B)P(C)
Aus paarweiser UnabhÀngigkeit folgt NICHT multipleUnabhÀngigkeit!
Ăbung: Zwei faire WĂŒrfel
Ereignis A: Erster WĂŒrfel fĂ€llt auf 4
Ereignis B: Zweiter WĂŒrfel fĂ€llt auf 3
Ereignis C: Summe der WĂŒrfel gibt 7
31
Ăbungen - Wiederholung
1. Urne mit 3 blauen und 2 roten Kugeln,
ziehe 3 mal mit zurĂŒcklegen
Mit welcher Wahrscheinlichkeit
âą ist die zweite gezogene Kugel blau?
âą sind alle gezogenen Kugeln rot?
âą sind alle gezogenen Kugeln blau?
âą werden 2 rote Kugeln gezogen?
2. Wie 1) aber ziehen ohne zurĂŒcklegen!
Hinweis:X . . . Anzahl der gezogenen roten Kugeln ist eine Zufallsvariable
32
Inverse Fallacy
Der falsche Umgang mit bedingten Wahrscheinlichkeiten gehört zuden hÀufigsten Fehlerquellen in der Anwendung derWahrscheinlichkeitsrechung. Ein verbreiteter Fehlertyp ist diesogenannte inverse fallacy, die intuitive Gleichsetzung von P (A|B)
mit P (B|A) (vgl. auch das obige Beispiel der Interpretationmedizinischer Testergebnisse).
Beispiel: Bei den meisten UnfĂ€llen ist das Unfallsopfer weniger als25 km von daheim entfernt. (IrrtĂŒmliche) Folgerung: Am sicherstenist man, wenn man so weit von daheim weg ist wie möglich.
P( Entfernung †25 | Unfall) > P( Entfernung > 25 | Unfall)
ist richtig, nicht aber
P( Unfall | Entfernung †25) > P( Unfall | Entfernung > 25).
33
Das Drei-TĂŒren-Problem
Ein weiterer Typ von Fehlern im Zusammenhang mit bedingtenWahrscheinlichkeiten resultiert aus der VernachlÀssigung desEinflusses neuer Informationen auf die bedingteWahrscheinlichkeit.
Das Drei-TĂŒren-Problem illustriert diesen Effekt. Marilyn vosSavant stellte in ihrer Kolumne im Magazin Parade im Jahr 1990folgende Frage:
âAngenommen Sie sind in einer Gewinnshow und haben die Wahl zwischen 3
TĂŒren: Hinter einer TĂŒr ist ein Auto, hinter den beiden anderen TĂŒren Ziegen. Sie
wĂ€hlen eine TĂŒr, sagen wir Nr. 1, und der Quizmaster, der weiss, was hinter den
TĂŒren ist, öffnet eine andere TĂŒr, sagen wir Nr. 3, die eine Ziege dahinter hat. Er
sagt dann zu Ihnen: âWollen Sie TĂŒr Nr. 2?â Ist es vorteilhaft zu wechseln?â
34
Drei-TĂŒren-Problem â Kontroverse
Antwort von vos Savant: Ja, man sollte wechseln.
Zahlreiche Leserbriefschreiber bestritten die Korrektheit derAntwort mit dem Argument: TĂŒren 1 und 2 haben dieselbeWahrscheinlichkeit, auf das Auto zu fĂŒhren. Was soll sich durchdas Ăffnen von TĂŒr 3 (hinter der kein Auto steht) daran Ă€ndern? Esbringt also nichts, die ursprĂŒngliche Entscheidung zu revidieren.
Dieses Argument ist falsch . Unter einschrĂ€nkendenVoraussetzungen (nĂ€chste Folie) kann gezeigt werden, dass dieWahrscheinlichkeit, durch Wechseln das Auto zu erhalten, 2/3betrĂ€gt, durch Beharren auf der ursprĂŒnglichen Wahl hingegennur 1/3.
35
Drei-TĂŒren â PrĂ€zisierung
Voraussetzungen:
1. Die Wahrscheinlichkeit, mit der das Quiz-Team vor der Showdas Auto hinter einer der TĂŒren versteckt, ist fĂŒr jede TĂŒrdieselbe.
2. Der Quizmaster öffnet in jedem Fall eine TĂŒr, die kein AutoenthĂ€lt, und wenn er dabei die Wahl zwischen zwei TĂŒren hat,gibt er beiden TĂŒren dieselbe Wahrscheinlichkeit.
Ohne diese Voraussetzungen ist das Problem wesentlichkomplexer (vgl. etwa Richard Gill 2010).
36
Drei-TĂŒren-Problem â Wahrscheinlichkeiten
Angenommen, der Kandidat wĂ€hlt TĂŒr Nr. 1.
A = Nr. der TĂŒr, hinter der das Auto ist
B = Nr. der TĂŒr, die der Quizmaster öffnet
Voraussetzung 1 besagt:
P(A = 1) = P(A = 2) = P(A = 3) = 1/3
Voraussetzung 2 besagt:
P(B = 2 |A = 1) = P(B = 3 |A = 1) = 1/2
P(B = 2 | A = 2) = P(B = 3 |A = 3) = 0
P(B = 3 | A = 2) = P(B = 2 |A = 3) = 1
37
Drei-TĂŒren-Problem â Lösung
Anwendung des Satzes von Bayes liefert:
P(A = 1 |B = 3) = P(B = 3 |A = 1) ·P(A = 1)
P(B = 3)=
1
2·
13
P(B = 3)
P(A = 2 |B = 3) = P(B = 3 |A = 2) ·P(A = 2)
P(B = 3)= 1 ·
13
P(B = 3)
also ist die Gewinnwahrscheinlichkeit bei Wechseln doppelt sogross wie bei Beharren auf der ersten Wahl.
(Anwendung des Satzes von der totalen Wahrscheinlichkeit liefertP(B = 3) = 1/2 und damit die Werte 1/3 bzw. 2/3 fĂŒr die beidenobigen Wahrscheinlichkeiten.)
38
WahrscheinlichkeitsrechnungfĂŒr Statistik und VWLWS 2016/17
2 Diskrete Verteilungen
1. EinfĂŒhrung
2. Erwartungswert und Varianz
3. Die Binomialverteilung
4. Die Poissonverteilung
5. Andere diskrete Verteilungen
1
2.1 EinfĂŒhrung
Beispiel: Fairer WĂŒrfel, Beobachtungen: 1, 2, 3, 4, 5, 6
Jede Augenzahl hat Wahrscheinlichkeit pi = 1/6 (i = 1, . . . , 6).
Beim WĂŒrfeln beobachten wir Realisierungen einerZufallsvariablen.
(Reelle) Zufallsvariable: Abbildung einesWahrscheinlichkeitsraums in die Menge der reellen Zahlen:
X : Ω â R
Im Beispiel:
Ω = 1, 2, 3, 4, 5, 6
X(i) = i
2
Fortsetzung Beispiel
Zwei faire WĂŒrfel, X = Summe der Augenzahlen.
Ω = 1, 2, 3, 4, 5, 6 à 1, 2, 3, 4, 5, 6.
Wahrscheinlichkeit pij fĂŒr (i, j) ist 1/36 fĂŒr jedes Paar (i, j).
Zufallsvariable X : Ω â R gegeben durch X(i, j) = i+ j.
P (2) = P (12) = 1/36
P (3) = P (11) = 2/36
P (4) = P (10) = 3/36
P (5) = P (9) = 4/36
P (6) = P (8) = 5/36
P (7) = 6/36
Wertebereich: X = X(Ω) = 2, . . . , 12.
3
Weiteres Beispiel
Faire MĂŒnze: Werfe entweder Kopf (K) oder Zahl (Z)
Ω = K,Z
Spiel: Bei Kopf Gewinn von 10 Euro, sonst 10 Euro Verlust
X : Ω â R
X(K) = 10, X(Z) = â10,
P (10) = P(X = 10) = P(K) = 0.5
P (â10) = P(X = â10) = P(Z) = 0.5
Wertebereich: X = X(Ω) = â10, 10.
Bemerkung: In den letzten beiden Beispielen wurden dieElementarereignisse in Ω nicht mit den möglichen Werten derZufallsvariable identifiziert!
4
Diskrete Zufallsvariable
Ergebnisraum Ω mit endlich oder abzÀhlbar vielen Elementen,
d.h. indizierbar mit 1, 2, . . .: Ω = Ï1, Ï2, Ï3, . . .
Eine (reelle) Zufallsvariable X ist eine Funktion der FormX : Ω â R
Der Zufallsvariablen X ist die Wahrscheinlichkeitsfunktion P = PX
wie folgt zugeordnet:
P : X â [0, 1], P (x) = P(X = x) =â
ÏâΩ:X(Ï)=x pÏ,
wobei pÏ die Wahrscheinlichkeit des Elementarereignisses Ï â Ω
ist.
Wahrscheinlichkeiten der Elementarereignisse beschreibenVerteilung einer diskreten Zufallsvariable vollstÀndig.
5
Verteilungsfunktion
Englisch: Cumulative distribution function (cdf)
F : R â [0, 1], F (x) = P(X †x) =â
xiâ€x P(X = xi)
Beispiel WĂŒrfel:
â2 0 2 4 6 8
0
0.2
0.4
0.6
0.8
1
F(x
) =
P(X
†x
)
x
6
Gleichverteilung
n mögliche Ereignisse mit gleicher Wahrscheinlichkeit
Ω = 1, . . . , n pi = 1/n
WÀhlen X(i) = i, d.h. X = Ω.
Verteilungsfunktion:
F (x) =
0, x < 1
i/n, i †x < i+ 1, i = 1, . . . , nâ 1
1, x â„ n
An den Stellen x â Ω springt Verteilungsfunktion um den Wert 1/n
Auch bei anderer Wahl der pi gilt folgender Zusammenhangzwischen Verteilungsfunktion und Wahrscheinlichkeitsfunktion:
P (i) = F (i)â F (iâ 1), falls i â Ω = 1, . . . , n
7
Eigenschaften der Verteilungsfunktion
FĂŒr diskrete Zufallsvariablen gilt:
Die Verteilungsfunktion ist eine monoton wachsendeTreppenfunktion mit Sprungstellen bei Ereignissen mit positiverWahrscheinlichkeit.
Es gilt allgemein fĂŒr Verteilungsfunktionen:
âą P (x) = F (x)â F (xâ), wobei F (xâ) = limhâx,h<x
F (h)
Folgt aus der Definition von F (x) = P(X †x)
âą P(a < X †b) = F (b)â F (a)
âą limaâââ
F (a) = 0, limbââ
F (b) = 1
âą F (x) monoton wachsend
8
Ăbung
Die Verteilungsfunktion einer Zufallsvariablen X sei
F (x) =
0, x < 1
1â 2âk, k †x < k + 1, k = 1, 2, . . .
1. Zeiche die Verteilungsfunktion im Bereich x â [0, 5]
2. Bestimme die Wahrscheinlichkeitsfunktion von X
3. Mit welcher Wahrscheinlichkeit ist X > 5?
9
2.2 Erwartungswert und Varianz
Wesentliche KenngröĂen von Verteilungen
Werden in der Praxis hÀufig verwendet
â Reduktion der Information von Daten
Erwartungswert ist ein MaĂ fĂŒr die zentrale Lage einer Verteilung,entspricht dem arithmetischen Mittel einer Stichprobe
Varianz ist ein MaĂ fĂŒr die Streuung einer Verteilung,entspricht den Abweichungen vom Mittelwert die man in einerStichprobe erwarten kann
Beide Kennzahlen basieren auf Momenten der Verteilung, und sindspeziell fĂŒr die Normalverteilung von groĂer Bedeutung
10
Erwartungswert
Diskrete Zufallsvariable X auf Ω mit Wahrscheinlichkeitsfunktion P
Definition Erwartungswert:
E(X) =â
xâX
xP (x)
wobei wieder X = X(Ω) = Wertebereich von X .
Gewichtete Summe der Werte, Gewichte sindWahrscheinlichkeiten.
Ăbliche Notation: ” = E(X)
Beispiel WĂŒrfel:
E(X) = 1 · 1/6 + 2 · 1/6 + · · ·+ 6 · 1/6
=1 + 2 + 3 + 4 + 5 + 6
6= 21/6 = 3.5
11
Median
Unter einem Median einer Zufallsvariablen X auf Ω versteht maneine Zahl m mit den Eigenschaften
P(X †m) ℠1/2, P(X ℠m) ℠1/2.
Der Median muss nicht eindeutig sein. Z.B. hat eine auf 1, . . . , 5gleichverteilte Zufallsvariable einen eindeutigen Median (m = 3).FĂŒr eine auf 1, . . . , 6 gleichverteilte Zufallsvariable hingegen istjede Zahl m mit 3 < m < 4 ein Median. Meist nimmt man in diesemFall den mittleren Wert (hier 3.5) als ReprĂ€sentaten.
Der Median kann sich vom Erwartungswert stark unterscheiden(typisches Beispiel: Einkommensverteilung!). FĂŒr eine auf4, 5, 6, 8, 13, 18, 93 gleichverteilte Zufallsvariable etwa ist derMedian 8, der Erwartungswert 21.
12
Funktionen von Zufallsvariablen
Erweitern eine Zufallsvariable X auf Ω durch VerknĂŒpfung mit einerFunktion g:
X : Ω â R, g : R â R.
Y (Ï) := (g X)(Ï) = g(X(Ï)).
Y : Ω â R, ist also wieder eine Zufallsvariable.
Die Wahrscheinlichkeitsfunktion von Y wird ganz analog gebildetwie die von X :
PY (y) = PY (Y = y) =â
ÏâΩ:Y (Ï)=y pÏ.
Der Wertebereich Y von Y ist Y = Y (Ω) = g(X(Ω)) = g(X ).
D.h. die Werte x werden transformiert zu Werten g(x).Wahrscheinlichkeiten addiert fĂŒr alle x mit gleichem Wert g(x).
13
Beispiele fĂŒr Funktionen von Zufallsvariablen
1. WĂŒrfel, Ω = 1, . . . , 6, X(Ï) = Ï, Funktion g(x) = x2
Die Zufallsvariable Y = X2 hat WertebereichY = 1, 4, 9, 16, 25, 36 und WF
PY (1) = PY (4) = PY (9) = PY (16) = PY (25) = PY (36) = 1/6
2. WĂŒrfel, Ω = 1, . . . , 6, Funktion g(x) = (xâ 3.5)2.
Die Zufallsvariable Z = (X â 3.5)2 hat WertebereichZ = 2.52, 1.52, 0.52 = 6.25, 2.25, 0.25 und WF
P (6.25) = p1 + p6 = 1/3
P (2.25) = p2 + p5 = 1/3
P (0.25) = p3 + p4 = 1/3
Ăbung: Ω = â1, 0, 1, X(Ï) = Ï,
P(X = â1) = P(X = 1) = 1/4, P(X = 0) = 1/2
Berechne WF von Y = X2 und Z = X
3
14
Erwartungswert von Funktionen
Beispiel: WĂŒrfel â Fortsetzung:
1) E(g(X)) = E(Y ) = 1 · 1/6 + 4 · 1/6 + · · ·+ 36 · 1/6
=1 + 4 + 9 + 16 + 25 + 36
6= 91/6 = 15.1667
2) E(g(X)) = E(Z) = 6.25/3 + 2.25/3 + 0.25/3 = 2.9167
Allgemein: Berechnung des Erwartungswerts von g(X):
E(g(X)) =â
xâX
g(x)P (x)
Alternative Darstellung:â
xâX
g(x)P (x) =â
yâY
yPY (y)
15
Anwendungsbeispiel: Erwartungsnutzentheorie
Wenn die Zufallsvariable X âGewinnâ reprĂ€sentiert, kann voneinem risikoneutralen EntscheidungstrĂ€ger vermutet werden,dass er/sie bestrebt ist, E(X) zu maximieren.
Menschen sind selten risikoneutral. Was hÀtten Sie lieber:
âą 1 000 000 Euro mit Sicherheit, oder
âą 2 000 001 Euro mit Wahrscheinlichkeit 0.5?
Ein klassischer ErklĂ€rungsansatz fĂŒr Risikoaversion liegt in derAnnahme, dass der EntscheidungstrĂ€ger nicht E(X) maximiert,sondern E(g(X)), wobei g eine konkave Nutzenfunktion ist(Expected Utility Theory).
16
Lineare Transformation
Allgemein gilt fĂŒr a, b â R:
E(aX + b) = aE(X) + b
Beweis:
E(aX + b) =â
xâX
(ax+ b)P (x)
= a
â
xâX
xP (x) + b
â
xâX
P (x)
= aE(X) + b
Speziell gilt: E(X â ”) = E(X â E(X)) = 0
17
Varianz
Definition : Var (X) := E(X â ”)2
Folgende Formel, die mitunter leichter zu berechnen ist alsE(X ⠔)2, ist Àquivalent:
Var (X) = E(X2)â ”2
Beweis:
E(X â ”)2 =â
xâX
(xâ ”)2P (x) =â
xâX
(x2 â 2”x+ ”2)P (x)
=â
xâX
x2P (x)â 2”
â
xâX
xP (x) + ”2â
xâX
P (x)
= E(X2)â 2”2 + ”2 = E(X2)â ”
2
Ăbung: Varianz Augenzahl WĂŒrfelwurf mit beiden Formeln
18
Beispiel zur Varianz
Drei Zufallsvariablen X1, X2, X3
X1 = 0 mit Wahrscheinlichkeit 1
X2 gleichverteilt auf â1, 0, 1
X3 gleichverteilt auf â50,â25, 0, 25, 50
Alle drei Zufallsvariabeln haben Erwartungswert 0
Var (X1) = 02 · P (0) = 0
Var (X2) = (â1)2 · 1/3 + 12 · 1/3 = 2/3
Var (X3) = (â50)2 · 1/5 + (â25)2 · 1/5 + 252 · 1/5 + 502 · 1/5 = 1250
Varianz plus MW gibt mehr Information ĂŒber Verteilung alsMittelwert allein
19
Eigenschaften der Varianz
Allgemein gilt fĂŒr a, b â R:
Var (aX + b) = a2Var (X)
Beweis :
Var (aX + b) = E(aX + bâ a”â b)2 = a2E(X â ”)2
Speziell: Var (âX) = Var (X)
Var (X + b) = Var (X)
Ăbliche Notation : Ï2 = Var (X)
Ï . . . Standardabweichung: SD(X) =â
Var (X)
20
Warum ist die Varianz ein gutes MaĂ?
Man kann sich fragen, weshalb nicht anstelle der Varianz diemittlere Absolutabweichung E(|X â ”|) als StreuungsmaĂgenommen wird.
Die Varianz hat jedoch mehrere thoretische und praktischeVorteile. Z.B. hĂ€tte man gerne, dass das MaĂ fĂŒr die Abweichungvon einem Wert ”âČ dann am niedrigsten ist, wenn ”
âČ derErwartungswert ” ist. Dies ist jedoch fĂŒr die mittlereAbsolutabweichung nicht der Fall: FĂŒr Gleichverteilung auf 0, 4, 5etwa ist ” = 3, aber E(|X â 3|) = 2 > 5/3 = E(|X â 4|).Quadrieren der Abweichungen erfĂŒllt die angegebene Forderung,denn
E((X â ”âČ)2) = E([(X â ”) + (”â ”
âČ)]2)
= Var (X) + (”â ”âČ)2 +2E((X â ”)(”â ”
âČ)) = Var (X) + (”â ”âČ)2.
21
Momente von Verteilungen
k-tes Moment einer Zufallsvariable: mk := E(Xk)
k-tes zentriertes Moment: zk = E((X â ”)k)
m1 . . . Mittelwert
z2 = m2 âm21 . . . Varianz
Weiters von Bedeutung sind das dritte und das vierte Moment
Schiefe: Îœ(X) := z3Ï3 = E(X3
â) wobei X
â:= (X â ”)/Ï
âą Îœ(X) = 0 . . . symmetrische Verteilung
âą Îœ(X) < 0 . . . linksschief
âą Îœ(X) > 0 . . . rechtsschief
Kurtosis: z4Ï4 = E(X4
â) (auch Wölbung)
22
Ăbung: Schiefe
Eine Zufallsvariable X habe folgende Wahrscheinlichkeits-verteilung:
P (1) = 0.05, P (2) = 0.1, P (3) = 0.3, P (4) = 0.5, P (5) = 0.05
Zeichne Wahrscheinlichkeitsfunktion und Verteilungsfunktion
Berechne die Schiefe!
Lösung: â0.6720.843/2 ⌠â0.8729
Wie lautet die Schiefe fĂŒr die folgende leicht verĂ€nderte Verteilung?
P (1) = 0.05, P (2) = 0.3, P (3) = 0.3, P (4) = 0.3, P (5) = 0.05
23
2.3 Binomialverteilung
Bernoulli - Experiment: Zwei mögliche Ergebnisse (0 oder 1)
P(X = 1) = p, P(X = 0) = q wobei q = 1â p
Zum Beispiel faire MĂŒnze: p = 1/2
Beispiel: Werfe unfaire MĂŒnze zwei mal. P(Kopf) = p = 0.7
Wahrscheinlichkeitsverteilung der Anzahl der Köpfe Z?
Ω = 0, 12, Wertebereich von Z ist Z = 0, 1, 2
Die beiden WĂŒrfe sind voneinander unabhĂ€ngig!
P(Z = 0) = P(X1=0, X2=0) = P(X1=0)P(X2=0) = 0.32 = 0.09
P(Z = 1) = P(X1=0, X2=1) + P(X1=1, X2=0) =
= 2 · P(X1=0)P(X2=1) = 2 · 0.3 · 0.7 = 0.42
P(Z = 2) = P(X1=1, X2=1) = P(X1=1)P(X2=1) = 0.72 = 0.49
24
Binomialverteilung
n unabhÀngige Bernoulli Experimente mit P(X = 1) = p
Y := Anzahl der Experimente mit Ausgang 1 binomialverteilt:
P(Y = k) =(
n
k
)
pkqnâk
Beweis: UnabhĂ€ngigkeit â Wahrscheinlichkeit fĂŒr jedeeinzelne Sequenz mit k mal 1 und nâ k mal 0 (in irgendeinerfesten Reihenfolge) ist pk(1â p)nâk
Anzahl der Sequenzen mit dieser Eigenschaft: k-Kombination ohneWiederholung
Notation: Y ⌠B(n, p)
Ăbung: FĂŒnf unabhĂ€ngige WĂŒrfe einer fairen MĂŒnze
Berechne Wahrscheinlichkeitsfunktion der Anzahl der Köpfe!
25
Beispiel Binomialverteilung
PrĂŒfung mit Durchfallsquote von 20%
Anzahl der Erfolge beim Antritt von 10 Studierenden?
P(X = 7) =
(
10
7
)
· 0.87 · 0.23 = 0.2013
0 1 2 3 4 5 6 7 8 9 100
0.05
0.1
0.15
0.2
0.25
0.3
0.35
26
Beispiele Binomialverteilung: n = 10
p = 0.1
0 1 2 3 4 5 6 7 8 9 100
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
0 1 2 3 4 5 6 7 8 9 100
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
p = 0.2
p = 0.3
0 1 2 3 4 5 6 7 8 9 100
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
0 1 2 3 4 5 6 7 8 9 100
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
p = 0.5
27
Anwendung: Ziehen mit ZurĂŒcklegen
Grundgesamtheit mit N Objekten
âą M der N Objekte erfĂŒllen Eigenschaft E
âą Ziehe n Objekte mit zurĂŒcklegen
Die Zahl X der gezogenen Objekte, die Eigenschaft E erfĂŒllen istbinomialverteilt:
X ⌠B(n,M/N)
Ăbung: Urne mit 3 schwarzen und 9 weiĂen Kugeln; ziehe 5Kugeln mit zurĂŒcklegen, X . . . Zahl der gezogenen schwarzenKugeln
âą Wahrscheinlichkeitsfunktion von X?
âą Erwartungswert von X?
28
Erwartungswert der Binomialverteilung
X ⌠B(n, p) â E(X) = np
Unter Verwendung von k(
n
k
)
= n(
nâ1kâ1
)
E(X) =nâ
k=1
k
(
n
k
)
pkqnâk = np
nâ
k=1
(
nâ 1
k â 1
)
pkâ1
qnâk
= np
nâ1â
i=0
(
nâ 1
i
)
piqnâ1âi
und aufgrund des binomischen Lehrsatzes
nâ1â
i=0
(
nâ 1
i
)
piqnâ1âi = (p+ q)nâ1 = 1
Alternativer Beweis: Differenziere (p+ q)n nach p
29
Varianz der Binomialverteilung
X ⌠B(n, p) â Var (X) = npq
Wiederum unter Verwendung von k(
nk
)
= n(
nâ1kâ1
)
E(X2) =
nâ
k=1
k2
(
n
k
)
pkqnâk = np
nâ
k=1
k
(
nâ 1
k â 1
)
pkâ1
qnâk
= np
nâ1â
i=0
(i+ 1)
(
nâ 1
i
)
piqnâ1âi = np (nâ 1)p+ 1
und daher
Var (X) = E(X2)â ”2 = np (nâ 1)p+ 1 â (np)2 = np(1â p)
Alternativer Beweis: Differenziere (p+ q)n zwei mal nach p
30
2.4 Die Poissonverteilung
Definition: X = N0 = 0, 1, 2, · · ·
P(X = k) = λk
k! eâλ
, λ > 0
Notation: X ⌠P(λ)
Poisson-verteilte Zufallsvariable kann im Prinzip beliebig groĂeWerte annehmen, allerdings mit sehr geringer Wahrscheinlichkeit
Beispiel: λ = 2
P(X †1) =20
0!eâ2 +
21
1!eâ2 = (1 + 2)eâ2 = 0.4060
P(X > 4) = 1â P(X †4) = 1â (1 + 2 +4
2+
8
6+
16
24)eâ2
= 1â 0.9473 = 0.0527
31
Beispiele Poissonverteilung
λ = 1
0 1 2 3 4 5 6 7 8 9 10 11 120
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
0 1 2 3 4 5 6 7 8 9 10 11 120
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
λ = 1.5
λ = 3
0 1 2 3 4 5 6 7 8 9 10 11 120
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
0 1 2 3 4 5 6 7 8 9 10 11 120
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
λ = 5
32
Anwendung
Modellierung von seltenen Ereignissen
Beispiele
âą Zahl der Kunden innerhalb eines bestimmten Zeitraums
âą Radioaktiver Zerfall
âą Zahl von Tippfehlern pro Folie
⹠Zahl von Menschen Àlter als 100 Jahre (pro 1 000 000)
âą Zahl von Fehlalarmen an einem Tag
âą etc.
Zusammenhang zwischen Poisson-verteilten Ereignissen und derWartezeit zwischen zwei Ereignissen â Exponentialverteilung
33
Erwartungswert und Varianz
X ⌠P(λ) â E(X) = λ
Beweis:
E(X) =
â
â
k=0
kλk
k!eâλ = e
âλ
â
â
k=1
λk
(k â 1)!= λe
âλ
â
â
j=0
λj
j!
X ⌠P(λ) â Var (X) = λ
Beweis:
E(X2)=â
â
k=0
k2λ
k
k!eâλ=e
âλ
â
â
k=1
kλk
(k â 1)!=λe
âλ
â
â
j=0
(j + 1)λj
j!=λ(λ+1)
E(X2)â E(X)2 = λ(λ+ 1)â λ2 = λ
34
Approximation der Binomialverteilung
X ⌠B(n, p), wobei n groĂ und p klein (z. Bsp. n > 10 und p < 0.05)
â X ⌠P(np) approximativ,d.h. X ist nĂ€herungsweise Poisson-verteilt mit Parameter λ = np
Motivation: Setze λ := np
P(X = k) =n!
k! (nâ k)!pkqnâk
=n(nâ 1) · · · (nâ k + 1)
k!·λk
nk·(1â λ/n)n
(1â λ/n)k
FĂŒr n groĂ und moderates λ (d.h. p klein) gilt
n(nâ 1) · · · (nâ k + 1)
nkâ 1 (1âλ/n)k â 1 (1âλ/n)n â e
âλ
und daher P(X = k) â λk
k! eâλ
35
Beispiel Poissonapproximation
Vergleich Poissonapproximation (λ = 0.5) mit exakterVerteilungsfunktion einer Binomialverteilung (n = 10, p = 0.05)
0 1 2 3 4 5 60.55
0.6
0.65
0.7
0.75
0.8
0.85
0.9
0.95
1
Blau: X ⌠B(10, 0.05)
GrĂŒn: X ⌠P(0.5)
Binomial:
P(X †3) = 0.9510 + 10 · 0.05 · 0.959
+ 45 · 0.052 · 0.958 + 120 · 0.053 · 0.957
= 0.99897150206211
Poissonapproximation:
P(X †3) =
â
(
1 + 0.5 +0.52
2+
0.53
6
)
eâ0.5
= 0.99824837744371
36
2.5 Andere diskrete Verteilungen
Wir werden behandeln:
âą Geometrisch
âą Hypergeometrisch
Weitere Verteilungen (hier nicht behandelt):
âą Negativ binomial
âą Verallgemeinerte Poisson
âą Zetaverteilung
âą etc.
37
Geometrische Verteilung
UnabhÀngige Bernoulli - Experimente mit Wahrscheinlichkeit p
X . . . Anzahl der Versuche bis zum ersten Erfolg
Es gilt: P(X = k) = qkâ1 p
k â 1 Miserfolge mit Wahrscheinlichkeit q = 1â p
Ăbung: Urne mit N weiĂen und M schwarzen BĂ€llen
Ziehen mit zurĂŒcklegen
a) Wahrscheinlichkeit, dass man exakt k Versuche braucht, biseine schwarze Kugel gezogen wird
b) Wahrscheinlichkeit, dass man höchstens k Versuche braucht,bis eine schwarze Kugel gezogen wird
38
Erwartungswert und Varianz
Beachte:ââ
k=0
qk = 11âq
und daherââ
k=1
qkâ1p = p
1âq= p
p= 1
Differenzieren liefert:ââ
k=1
kqkâ1 = d
dq
ââ
k=0
qk = 1
(1âq)2
E(X) =â
â
k=1
kqkâ1
p =p
(1â q)2=
1
p
Nochmals Differenzieren:ââ
k=1
k(k â 1)qkâ2 = d2
dq2
ââ
k=0
qk = 2
(1âq)3
E(X2) =â
â
k=1
k2qkâ1
p = pq
â
â
k=1
k(kâ1)qkâ2+p
â
â
k=1
kqkâ1 =
2pq
p3+
1
p
Und daher: Var (X) = E(X2)â E(X)2 = 2p2 â 1
pâ 1
p2 = 1âp
p2
39
Beispiel: Iterierte Spiele
FĂŒr die Theorie der Iterierten Spiele ist folgendes Beispielgrundlegend: Ein Spiel kann mehrere Runden hindurch fortgesetztwerden. Nach jeder Runde kommt es mit einer Wahrscheinlichkeitq < 1 zu einer weiteren Runde; andernfalls wird die Serieabgebrochen. In Runde k (k = 1, 2, . . .) erzielt der Spieler einenGewinn der Höhe ak. Wie hoch ist der erwartete Gesamtgewinn?
Offensichtlich ist die Anzahl der gespielten Runden geometrischverteilt. Die Wahrscheinlichkeit, dass Runde k zustandekommt, istqkâ1.
E(Gesamtgewinn) =â
â
k=1
akqkâ1 =
â
â
k=0
ak+1qk.
FĂŒr ak ⥠a ergibt das z.B. a/(1â q).
40
Beispiel: St.-Petersburg-Paradoxon
Das folgende klassische Beispiel, das ebenfalls auf dergeometrischen Verteilung beruht, weist auf die Grenzen desKonzepts âErwartungswertâ hin:
St.-Petersburg-Paradoxon. Ein Casino bietet eine SpielvariantegemÀà folgenden Regeln an: Eine MĂŒnze wird so lange geworfen,bis zum ersten Mal âKopfâ kommt. Sei K die Anzahl der dafĂŒrnötigen MĂŒnzwĂŒrfe. Der Spieler erhĂ€lt eine Auszahlung der HöheX = 2K .
Wieviel sollte der Spieler bereit sein zu bezahlen, um dieses Spielspielen zu dĂŒrfen?
41
St.-Petersburg-Paradoxon: Fortsetzung
Fair ist das Spiel offenbar dann, wenn der Einsatz des Spielersgerade den Erwartungswert der Auszahlung kompensiert. Dieserist jedoch
E(X) =
â
â
k=1
2k · (1/2)kâ1 · (1/2) =â
â
k=1
1 = â,
denn die Zufallsvariable K ist geometrisch verteilt mit q = 1/2.
Obwohl die tatsÀchlich resultierende Auszahlung mitWahrscheinlichkeit 1 nur endlich ist (da die geometrisch verteilteZufallsvariable K m.W. 1 einen endlichen Wert annimmt), scheintdas Spiel einen unendlich hohen Einsatz wert zu sein!
Konsequenz: Der Erwartungswert ist nur dann ein sinnvolles MaĂ,wenn er endlich ist.
42
Hypergeometrische Verteilung
Binomialverteilung: Ziehen aus einer Urne mit ZurĂŒcklegen
Ăbung: Urne, 3 Kugeln schwarz, 5 Kugeln weiĂ,Ziehe 4 Kugeln mit bzw. ohne ZurĂŒcklegen.
Berechne jeweils Verteilung der gezogenen schwarzen Kugeln!
0 1 2 3 40
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
0.45
Mit ZurĂŒcklegen
0 1 2 3 40
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
0.45
Ohne ZurĂŒcklegen
43
Hypergeometrische Verteilung
N Objekte von denen M eine Eigenschaft E erfĂŒllen. Ziehe n
Objekte ohne zurĂŒcklegen, X die Anzahl der gezogenen Objektemit Eigenschaft E .
P(X = k) =(Mk )(
NâMnâk )
(Nn)
Wir verwenden hier die Definition(
ab
)
= 0, falls a < b
Klarerweise gilt P(X = k) = 0 falls M < k
Ich kann nicht mehr schwarze Kugeln ziehen als vorhanden
Ebenfalls klar dass P(X = k) = 0 falls N âM < nâ k
Ich kann nicht mehr weiĂe Kugeln ziehen als vorhanden
Insgesamt: X = k : max(0, nâN +M) †k †min(n,M)
44
Erwartungswert und Varianz
Ohne Beweis gilt (Berechnungen nicht schwierig aber lÀnglich)
E(X) = nMN
, Var (X) = nMN
(1â MN)NânNâ1 ,
Definiere p := MN
und betrachte Ăhnlichkeit zurBinomialverteilung
E(X) = np gleiche Formel wie bei Binomial
Var (X) = np(1â p)NânNâ1 asymptotisch wie bei Binomial
NĂ€mlich limNââ
NânNâ1 = 1
Wenn N und M sehr groĂ im Vergleich zu n, dann giltnĂ€herungsweise X ⌠B(n, M
N) (ohne Beweis)
45
Beispiel Hypergeometrische Verteilung
QualitĂ€tskontrolle: Lieferung von 30 Kartons mit Eiern,10 Kartons enthalten zumindest ein zerbrochenes Ei,Stichprobe der GröĂe 6
âą Mit welcher Wahrscheinlichkeit enthalten zwei der sechsentnommenen Kartons kaputte Eier?
N = 30,M = 10, n = 6
P(X = 2) =
(
102
)(
204
)
(
306
) = 0.3672
âą Erwartungswert und Varianz fĂŒr die Anzahl der Kartons in derStichprobe mit kaputten Eiern?
E(X) = 6 · 1030 = 2; Var (X) = 6 · 1
3 · 23 · 24
29 = 1.1034
46
Ăbung Approximation durch Binomialverteilung
Lotterie mit 1000 Losen, davon 200 GewinnloseKaufe 5 Lose
1. Berechne die Wahrscheinlichkeit, dass mindestens ein Losgewinnt
Lösung: 0.6731
2. Berechne die Gewinnwahrscheinlichkeit von 1. mittelsBinomial-Approximation
Lösung: 0.6723
47
Zusammenfassung diskrete Verteilungen
âą Gleichverteilung: X = x1, . . . , xn , P(X = xk) = 1/n
âą Binomialverteilung: X ⌠B(n, p), P(X = k) =(
nk
)
pkqnâk
Es gilt E(X) = np, Var (X) = npq X = 0, . . . , n
âą Poissonverteilung: X ⌠P(λ), P(X = k) = λk
k! eâλ
Es gilt E(X) = λ, Var (X) = λ X = 0, 1, 2 . . .
âą Geometrische Verteilung: P(X = k) = p qkâ1
Es gilt E(X) = pâ1
, Var (X) = q pâ2 X = 1, 2 . . .
âą Hypergeometrische: P(X = k) =(
M
k
)(
NâM
nâk
)
/(
N
n
)
Es gilt E(X) = np, Var (X) = np(1â p)NânNâ1 , p = M
N
48
WahrscheinlichkeitsrechnungfĂŒr Statistik und VWLWS 2016/17
3 Stetige Verteilungen
1. EinfĂŒhrung
2. Exponentialverteilung
3. Normalverteilung
4. Normalverteilungsapproximation
5. Andere stetige Verteilungen
1
3.1 EinfĂŒhrung
Diskrete Zufallsvariable: Ω endlich oder abzÀhlbar
Stetige Zufallsvariable: Ω ist ein Intervall des Raums R (oder einkartesisches Produkt von Intervallen im Raum R
n)
Beispiele:
⹠Wartezeit auf den nÀchsten Kunden
âą GröĂe bzw. Alter einer Person
âą Umsatz einer Firma
âą Gewicht eines Gegenstandes
Reelle (auch: metrische) Variable: Wert lÀsst sich durch eine reelleZahl beschreiben
2
Verteilungsfunktion
Einer stetigen Zufallsvariable ist eine stetige Verteilungsfunktionzugeordnet:
F (x) = P(X †x) stetig in x
Beispiel: Gleichverteilung auf Intervall [0, 1]
â1 â0.5 0 0.5 1 1.5 2â1
â0.5
0
0.5
1
1.5
2
x
F(x
)
3
Berechnung von Wahrscheinlichkeiten
Wahrscheinlichkeit fĂŒr bestimmtes Ereignis immer gleich 0:
P(X = x) = F (x)â F (xâ) = 0 wegen Stetigkeit von F
Es macht mehr Sinn, nach Wahrscheinlichkeit zu fragen, mit der Xeinen Wert in einem Intervall [a, b] annimmt:
P(a †X †b) = F (b)â F (a)
So gilt fĂŒr eine gleichverteilte Zufallsvariable XId auf [0, 1], falls0 †a < b †1:
P(a < XId < b) = bâ a
Beachte: P(X †b) = P(X < b) + P(X = b) = P(X < b)
4
Dichtefunktion
Sei F (x) differenzierbar.
Definition: f(x) := FâČ(x) Dichtefunktion der Zufallsvariable X
Hauptsatz der Analysis:
F (x) =â«
f(x)dx+ c
und daher
P(a < X †b) = F (b)â F (a) =
bâ«
x=a
f(x)dx
Zum Vergleich: Bei diskreten Zufallsvariablen ist
P(a < X †b) = F (b)â F (a) =â
a<xâ€b
P (x)
5
Eigenschaften der Dichtefunktion
FĂŒr die Dichtefunktion (kurz Dichte) gilt
âą f(x) â„ 0, âx â R
âąââ«
x=ââ
f(x)dx = 1
Die Dichtefunktion f(x) ist nicht die Wahrscheinlichkeit dafĂŒr, dassX den Wert x annimmt!
FĂŒr kleines Ç« gilt
P(xâ Ç« < X †x+ Ç«) â f(x) · 2Ç«
6
Beispiele
1) X gleichverteilt auf dem Intervall [0, 1]
F (x) = x, x â [0, 1] â f(x) = 1, x â [0, 1]
2) X gleichverteilt auf dem Intervall [l, r], l < r, l, r â R
f(x) = c, x â [l, r]
Welchen Wert hat c?
3) X mit Dichte f(x) =
cx2, x â [0, 1]
0 sonst
Welchen Wert hat c?
Berechne P(0.25 < X < 0.75)
7
Erwartungswert und Varianz von stetigen ZV
Analog zur Definition bei diskreten ZV:
E(X) =ââ«
x=ââ
xf(x)dx
und
Var (X) =ââ«
x=ââ
(xâ ”)2f(x)dx
Es gilt wiederum: E(aX + b) = aE(X) + b
Var (aX + b) = a2Var (X)
Ăbung: X gleichverteilt auf [0, 1]. Berechne Erwartungswert undVarianz!
8
Erwartungswert von Funktionen von ZV
Analog zum Fall von diskreten ZV gilt fĂŒr stetige ZV (ohne Beweis):
E(g(X)) =ââ«
x=ââ
g(x)f(x)dx
Daher folgt: Var (X) = E(X â E(X))2
Und auch: Var (X) = E(X2)â E(X)2
ââ«
x=ââ
(xâ ”)2f(x)dx =
ââ«
x=ââ
(x2 â 2”x+ ”2)f(x)dx
=
ââ«
x=ââ
x2f(x)dxâ 2”
ââ«
x=ââ
xf(x)dx+ ”2
9
Funktionen von stetigen Zufallsvariablen
Sei g eine reellwertige Funktion g : X â R und g(X ) = Y.
Falls g streng monoton wachsend, existiert Umkehrabbildunggâ1 : Y â X
Verteilungsfunktion von Y = g(X) berechnet man wie folgt:
FY (y) = P(g(X) †y) = P(X †gâ1(y)) = F (gâ1(y))
Beispiel: X gleichverteilt auf [0, 1], Y := g(X) = eX
gâ1(y) = ln(y)
Y = g(X ) = [e0, e1] = [1, e]
FY (y) = P(Y †y) = FX(ln(y)) = ln(y), y â [1, e]
10
Funktionen von stetigen Zufallsvariablen
Interpretation: Koordinatenwechsel
Die Werte der Zufallsvariable werden transformiert
Bei streng monotoner Transformation bleiben dieWahrscheinlichkeiten der transformierten Intervalle gleich(vgl. diskrete Zufallsvariable)
â1 â0.5 0 0.5 1 1.5 2â1
â0.5
0
0.5
1
1.5
2
x
F(x
)
0.5 1 1.5 2 2.5 3â1
â0.5
0
0.5
1
1.5
2
y = g(x)
FY(y
)
11
Funktionen von stetigen Zufallsvariablen
Falls g streng monoton fallend â gâ1 existiert
P(g(X) †y) = P(X â„ gâ1(y)) = 1âP(X < g
â1(y)) = 1âF (gâ1(y))
Im allgemeinen Fall (keine Monotonie von g) wird der Urbildraumvon g zerlegt in Intervalle wo g monoton fÀllt bzw. monoton wÀchst
Beispiel: X gleichverteilt auf [0, 1], Y := g(X) = (X â 12 )
2
g ist m.f. auf [0, 12 ], m.w. auf [ 12 , 1] gâ1(y) = 1
2 屉y
P((X â ”)2 †y) = P(1/2âây †X †1/2 +
ây)
= FX(1/2 +ây)â FX(1/2â
ây)
12
Dichte von transformierten Zufallsvariablen
g streng monoton und differenzierbar
Wie lautet Dichte von Y = g(X)?
fY (y) =ddyFY (y) =
ddyF (gâ1(y)) = fX(gâ1(y)) · d
dygâ1(y)
(Differenzieren der transformierten Verteilungsfunktion unterBeachtung der Kettenregel!)
Beispiel: (Fortsetzung) X gleichverteilt auf [0, 1], Y = g(X) = eX
FY (y) = ln(y), y â [1, e] â fY (y) =1y, y â [1, e]
Oder mit Formel: fX(gâ1(y)) = 1 denn fX(x) ⥠1
d
dygâ1(y) =
1
y
13
3.2 Exponentialverteilung
Stetige Zufallsvariable X ist exponentialverteilt mit Parameterλ > 0 falls Dichte
f(x) =
λeâλx
, x â„ 0
0, x < 0
Zugehörige Verteilungsfunktion
F (x) =
1â eâλx
, x â„ 0
0, x < 0
Beweis: Einfache Integration
14
Plots Exponentialverteilung
Dichte und Verteilungsfunktion fĂŒr Parameter λ = 1, 2 und 3
0 0.5 1 1.5 2 2.5 30
0.5
1
1.5
2
2.5
3
x
f(x)
λ = 1λ = 2λ = 3
0 0.5 1 1.5 2 2.5 30
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
x
F(x
)
λ = 1λ = 2λ = 3
Je gröĂer λ desto schneller fĂ€llt die Dichtefunktion.
Wir vermuten daher: Je gröĂer λ desto kleiner ” und auch Ï.
15
Erwartungswert
X exponentialverteilt mit Parameter λ
Partielle Integrationâ«
uâČv = uv| ââ«
uvâČ anwenden.
E(X) =
ââ«
x=0
xλeâλx
dx = âxeâλxâŁ
âŁ
â
0+
ââ«
x=0
eâλx
dx
= 0âeâλx
λ
âŁ
âŁ
âŁ
âŁ
â
0
=1
λ
E(X2) =
ââ«
x=0
x2λe
âλxdx = âx2
eâλx
âŁ
âŁ
â
0+
ââ«
x=0
2xeâλxdx
= 0 +2
λE(X) =
2
λ2
und daher Var (X) = 2λ2 â
1λ2 = 1
λ2
16
Ăbung
Angenommen die LÀnge eines TelephongesprÀches in Minuten istexponentialverteilt und dauert im Mittel 10 Minuten. Du kommst zueiner Telephonzelle wo unmittelbar zuvor jemand ein GesprÀchbegonnen hat.
Wie groĂ ist die Wahrscheinlichkeit dass du
1. weniger als 10 Minuten
2. genau 10 Minuten
3. zwischen 10 und 20 Minuten
4. lÀnger als 20 Minuten
warten muĂt bis die Telephonzelle frei wird?
17
Zusammenhang mit Poissonverteilung
Die folgenden beiden Eigenschaften sind Àquivalent (o. Bew.):
⹠Die Zeit T zwischen dem Eintreffen zweieraufeinanderfolgender Ereignisse ist (unabhÀngig)exponentialverteilt mit Parameter λ.
âą FĂŒr jedes Zeitintervall [t1, t2] ist die HĂ€ufigkeit der wĂ€hrend[t1, t2] auftretenden Ereignisse poissonverteilt mit Parameterλ(t2 â t1).
t1 t2
x1
x2
T
Wartezeit zwischen zwei Ereignissen T ⌠Exp (λ),λ . . . erwartete Anzahl von Ereignissen fĂŒr Zeitraum der LĂ€nge 1.
18
Ăbung
X HÀufigkeit wie oft eine Maschine in bestimmtem ZeitraumausfÀllt (Maschinen laufen 24h durchgehend)
Im Mittel fallen 3 Maschinen pro Tag aus
Annahme X poissonverteilt
a) Verteilung der Zeit, die zwischen 2 AusfÀllen vergeht?
b) Mit welcher Wahrscheinlichkeit fĂ€llt fĂŒr mehr als 5 Stunden keineMaschine aus?
c) Mit welcher Wahrscheinlichkeit fallen innerhalb von 5 Stundenzwei Maschinen aus?
19
GedÀchtnislosigkeit
Die Verteilung von X ist gedÀchtnislos, wenn
P(X > s+ t|X > t) = P(X > s)
D.h. Vorgeschichte bietet keinerlei Information
Exponentialverteilung ist gedÀchtnislos:
Definition ist Àquivalent zu P(X > s+ t) = P(X > s)P(X > t)
und es gilt eâλ(s+t) = eâλseâλt
Exponentialverteilung ist einzige gedÀchtnislose stetige Verteilung!
Ăbung: Im diskreten Fall geometrische Verteilung gedĂ€chtnislos
(Diskretes Analogon zur Exponentialverteilung)
20
3.3 Normalverteilung
X ⌠N (”, Ï2) falls f(x) = 1â
2Ï Ïeâ(xâ”)2/2Ï2
Standardnormalverteilung N (0, 1):
â3 â2 â1 0 1 2 30
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
0.45
GauĂsche Glockenkurve
21
Normalverteilung
Wesentliche Bedeutung in Wahrscheinlichkeitsrechnung undStatistik aufgrund des zentralen Grenzwertsatzes!
f ist tatsÀchlich Wahrscheinlichkeitsdichte:
1â2Ï Ï
ââ«
x=ââ
eâ(xâ”)2/2Ï2
dx =1â2Ï
ââ«
z=ââ
eâz2/2
dz = 1
ZunĂ€chst Variablensubstitution z â xâ”
Ï
dann verschiedene Möglichkeiten zur Berechnung desuneigentlichen Integrals
Verteilungsfunktion F (x) =xâ«
y=ââ
f(y)dy lÀsst sich nicht in
geschlossener Form darstellen (keine einfache Formel)
â Tabellen fĂŒr die Normalverteilung
22
Standardnormalverteilung
X ⌠N (0, 1), ĂŒbliche Notation: Ί(x) := P(X †x)
Ï(x) := ΊâČ(x) =1â2Ï
eâx2/2
Tabellen von Ί(x) fĂŒr x â (0, 4) (z.B. Bosch-Buch oder Internet)
Grund: Ï ist symmetrisch und somit
Ï(âx) = Ï(x) â Ί(âx) = 1â Ί(x)
Beispiel: Wahrscheinlichkeit dass X zwischen -2 und 1 liegt
P(â1 †X †2) = P(X †2)â P(X < â1) = Ί(2)â 1â Ί(1)
= 0.9772â 1 + 0.8413 = 0.8186
Werte von Ί(2) und Ί(1) aus Tabelle
23
Verteilungsfunktion der SNV
Einige wesentliche Werte von Ί(x):
Ί(0) = 0.5; Ί(1.645) = 0.95; Ί(1.96) = 0.975
Der Graph von Ί(x):
â3 â2 â1 0 1 2 30
0.2
0.4
0.6
0.8
1
24
Erwartungswert
Sei X ⌠N (”, Ï2)
Substitution z â xâ”
Ïliefert
E(X) =1
â2Ï Ï
ââ«
x=ââ
xeâ(xâ”)2/2Ï2
dx
=1â2Ï
ââ«
z=ââ
(Ïz + ”)eâz2/2dz = ”
da g(z) := z eâz2/2 antisymmetrisch (d.h. g(âz) = âg(z))
und 1â
2Ï
ââ«
x=ââ
eâz2/2 dz = 1
25
Varianz
Wiederum Substitution z â xâ”
Ïund anschlieĂend partielle
Integration liefert
Var (X) =1
â2Ï Ï
ââ«
x=ââ
(xâ ”)2eâ(xâ”)2/2Ï2
dx
=Ï2
â2Ï
ââ«
z=ââ
z2eâz2/2
dz
=Ï2
â2Ï
âzeâz2/2âŁ
âŁ
âŁ
â
ââ
+
ââ«
z=ââ
eâz2/2
dz
= Ï2
Somit gezeigt: X ⌠N (”, Ï2) â E(X) = ”, Var (X) = Ï2
26
Lineare Transformation
Wesentliche Eigenschaft:
X ⌠N (”, Ï2) â Y := aX + b ⌠N (a”+ b, a2Ï2)
Beweis: Nehmen a > 0 an. (Fall a < 0 analog.)Transformationssatz fĂŒr Dichten:
fY (y) = fX(gâ1(y)) ·d
dygâ1(y)
Hier: g(x) = ax+ b â gâ1(y) = (y â b)/a, d
dygâ1(y) = 1/a
Und somit
fY (y) = fX((y â a)/b) · 1/a
=1
â2ÏÏa
eâ(yâa”âb)2/2a2Ï2
Dies ist die Dichte einer N (a”+ b, a2Ï2)
27
Normalisierung
Daraus folgt unmittelbar
X ⌠N (”, Ï2) â Z := Xâ”
Ï⌠N (0, 1)
Normalverteilung fĂŒr verschiedene ” und Ï
â5 â4 â3 â2 â1 0 1 2 3 4 50
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
0.45
” = 0” = â2 ” = 2
” . . . Mittelwert
â3 â2 â1 0 1 2 30
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
Ï = 1/2
Ï = 1
Ï = 2
Ï2 . . . Varianz
28
Beispiel
Sei X ⌠N (3, 9), berechne folgende Wahrscheinlichkeiten:
1. P(2 < X < 5)
2. P(X > 0)
3. P(|X â 3| > 6)
Lösungen
1) P
(
2â 3
3<
X â 3
3<
5â 3
3
)
= Ί
(
2
3
)
â Ί
(
â1
3
)
â 0.7486â (1â 0.6293) = 0.3779
2) P
(
0â 3
3<
X â 3
3
)
= Ί(1) â 0.8413
3) 2 · P
(
6â 3
3<
X â 3
3
)
= 2 · (1â Ί(2)) â 0.0456
29
Quantile der Normalverteilung
Definition: X habe Verteilungsfunktion F und Îł â [0, 1] sei eineWahrscheinlichkeit
Îł - Quantil xÎł jene Zahl fĂŒr die F (xÎł) = Îł
xÎł = Fâ1(Îł), wobei Fâ1 Umkehrabbildung der Verteilungsfunktion
Normalverteilung:explizite Berechnungnicht möglich
â Tabellen odermittels Computer
Standard-NV:xÎł = Ίâ1(Îł) â3 â2 â1 0 1 2 3
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
0.45
Îł
xÎł
30
Symmetrische Intervalle
X ⌠N (”, Ï2) â P(|X â ”| †x) = 2 · Ί( xÏ)â 1
Beweis:
P(âx+ ” †X †x+ ”) = 2 · P(X †x+ ”)â 1
Sei Îł eine vorgegebene Wahrscheinlichkeit, dann gilt:
P(|X â ”| †zÎł) = Îł fĂŒr zÎł = Ï ÎŠâ1(
1+Îł
2
)
Ăbung: Sei X normalverteilt mit Ï2 = 4
Bestimme x derart, dass P(X â ” †x) = 0.95
bzw. P(|X â ”| †x) = 0.95
31
3.4 Normalverteilungsapproximation
Betrachte fĂŒr groĂes n die Wahrscheinlichkeitsfunktion einerBinomialverteilung und vergleiche mit der Dichtefunktion derNormalverteilung
30 35 40 45 50 55 60 65 700
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
X ⌠B(100, 0.5)
â3 â2 â1 0 1 2 30
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
0.45
X ⌠N (0, 1)
32
Grenzwertsatz nach DeMoivre - Laplace
Sn . . . Anzahl der Erfolge bei n unabhÀngigen Versuchen mitErfolgswahrscheinlichkeit p.
Dann gilt fĂŒr a < b:
P
(
a †Snânpâ
npq†b
)
â Ί(b)â Ί(a) fĂŒr nââ
d.h. standardisierte Binomialverteilung (Sn â ”)/Ï konvergiertgegen Standardnormalverteilung
Beweis: Spezialfall des zentralen Grenzwertsatzes. ZentralerGrenzwertsatz gilt fĂŒr Summen unabhĂ€ngiger Zufallsvariablen. IstSn binomialverteilt, so ist es Summe unabhĂ€ngiger"Bernoulli-Variablen", d.h. Variablen X ⌠B(1, p).
Anwendbarkeit: npq â„ 9.
33
Stetigkeitskorrektur
B(n, p) diskret, d.h. Verteilungsfunktion ist eine Treppenfunktion
N (0, 1) stetig, d.h. Verteilungsfunktion ist stetig
â Stetigkeitskorrektur:
P (a †Sn †b) â Ί(
b+0.5ânpâ
npq
)
â Ί(
aâ0.5ânpâ
npq
)
blau: B(40, 0.5)grĂŒn: N (20, 10)
15 16 17 18 19 20 21 22 23 24 250
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
34
Ăbung
Angenommen 30% der Bevölkerung kennen ein Produkt.
Befragung von 200 Personen. Wie groĂ ist Wahrscheinlichkeitdass
1. genau 55 Personen das Produkt kennen
2. mehr als 55 Personen das Produkt kennen
3. 55 bis 64 Personen das Produkt kennen
Löse mit Normalverteilungsapproximation
Versuche 1. auch unmittelbar mit Binomialverteilung zu berechnenâ worin liegt das Problem?
35
Normalverteilungsapproximation fĂŒrhypergeometrische Verteilung
Analog zur Binomialverteilung gilt auch fĂŒr eine hypergeometrischverteilte Zufallsvariable mit Parametern N,M und n:
P (a †Sn †b) â Ί(
b+0.5â”
Ï
)
â Ί(
aâ0.5â”
Ï
)
wobei hier ” = nMN
und Ï2 = nMN(1â M
N)NânNâ1
Anwendbarkeit: Ï2 â„ 9 und N â„ 2n
Ăbung: Lieferung von 2500 Milchpackungen, 12 % verdorbenZufĂ€llige Stichprobe von 100 Packungen, p sei Anteil derentdeckten verdorbenen Packungen
Mit welcher Wahrscheinlichkeit liegt p zwischen 5% und 15%
36
3.5 Andere stetige Verteilungen
GroĂe Vielfalt an stetigen Verteilungen
Besprechen hier nur zwei wichtige Familien:
âą Gamma - Verteilung
Verallgemeinerung der Exponentialverteilung
âą Beta - Verteilung
Verteilungen mit TrÀger auf Intervall [0, 1]
Sowohl Beta- als auch Gamma - Verteilung hÀngt von zweiParametern ab
FĂŒr unterschiedliche Parameter ganz unterschiedliche Formâ Modellierung von verschiedenen Sachverhalten
37
Gamma - Verteilung
Exponentialverteilung ist ein Spezialfall der Gammaverteilung
X ist Î-verteilt mit Parametern t > 0 und λ > 0 falls Dichte
f(x) =
λeâλx(λx)tâ1
Î(t) , x â„ 0
0, x < 0
wobei Î(t) =ââ«
x=0
eâxxtâ1 dx
Diese Definition garantiert, dass f tatsÀchlich Dichtefunktion
t = 1 â Exponentialverteilung
t = n â N â Verteilung der Wartezeit bis n Ereignisseaufgetreten sind
38
Eigenschaften von Î - Funktion und Î - Verteilung
Î - Funktion: Î(t) =ââ«
x=0
eâx
xtâ1
dx
Partielle Integration liefert: Î(t) = (tâ 1)Î(tâ 1)
Spezialfall der Rekursionsformel fĂŒr t = n â N:
Î(n) = (nâ 1)Î(nâ 1) = · · · = (nâ 1)(nâ 2) · · ·Î(1) = (nâ 1)!
da ja Î(1) = 1
Notation: X ⌠Î(t, λ) . . .Î-Verteilung mit Parametern t und λ,
Mit Hilfe der Rekursionsformel zeigt man leicht
E(X) = tλ, Var (X) = t
λ2
39
Beispiele fĂŒr Gamma - Verteilung
âą Î(1, λ) . . . ExponentialverteilungÎ(n, λ) . . . Wartezeiten auf n Ereignisse
âą Î(n2 ,12 ) . . . Ï
2-Verteilung mit n Freiheitsgraden
0 1 2 3 4 50
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8t=1t=2t=3t=4t=6
t â N, λ = 1
0 1 2 3 4 50
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8t=1/2t=1t=3/2t=2t=3
2t â N, λ = 1/2
40
Beispiele fĂŒr Gamma - Verteilung 2
Î(t, 1) . . . Standard Î-Verteilung
Es gilt: X ⌠Î(t, λ) â λX ⌠Î(t, 1)
AbhÀngigkeit von t
0 0.5 1 1.50
0.5
1
1.5
2
2.5
3
3.5
4t=1t=2t=3t=4t=6
t â N, λ = 5
AbhÀngigkeit von λ
0 0.5 1 1.50
0.5
1
1.5
2
2.5
3
3.5
4λ=1λ=2λ=3λ=4λ=6
t = 4/3, λ â N
41
Beta - Verteilung
Famile von Verteilungen mit beschrÀnktem TrÀger
X ist B-verteilt mit Parametern a, b > 0 falls Dichte
f(x) =
xaâ1(1âx)bâ1
B(a,b) , 0 < x < 1
0, sonst
wobei B(a, b) =1â«
x=0
xaâ1(1â x)bâ1
dx
Diese Definition garantiert wiederum, dass f tatsÀchlichDichtefunktion
Zur Modellierung von Zufallsereignis Y im Bereich [l, r]
â Variablentransformation 0â l und 1â r d.h. X = Yâlrâl
42
Mittelwert und Varianz
Es gilt fĂŒr die B-Funktion
B(a, b) =Î(a)Î(b)
Î(a+ b)
(ohne Beweis)
Unter Verwendung der Eigenschaften der Î-Funktion oder mittelspartieller Intergration zeigt man leicht,
B(a+ 1, b) =a
a+ bB(a, b)
und fĂŒr X Beta-verteilt mit Parametern a und b gilt:
E(X) = aa+b
, Var (X) = ab(a+b)2(a+b+1)
43
Beispiele von Beta - Verteilungen
Falls a = b â symmetrische Verteilung
âą a = b = 1, . . . Gleichverteilung
âą a = b > 1, . . . Unimodal
⹠a = b < 1, . . . U - förmig
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10
0.5
1
1.5
2
2.5
3
3.5
4a=b=1a=b=2a=b=3a=b=4a=b=6
a = b â„ 1,
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10
0.5
1
1.5
2
2.5
3
3.5
4
a=b=1a=b=1/2a=b=1/3a=b=1/4a=b=1/6
a = b †1,
44
Weitere Beispiele von Beta - Verteilungenb = 1.5
a â„ 1
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10
0.5
1
1.5
2
2.5
3
3.5
4
a=1a=2a=3a=4a=6
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10
0.5
1
1.5
2
2.5
3
3.5
4a=1a=1/2a=1/3a=1/4a=1/6
a †1,
b â„ 1
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10
0.5
1
1.5
2
2.5
3
3.5
4b=1b=2b=3b=4b=6
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10
0.5
1
1.5
2
2.5
3
3.5
4b=1b=1/2b=1/3b=1/4b=1/6
b †1
a = 2
45
WahrscheinlichkeitsrechnungfĂŒr Statistik und VWLWS 2016/17
4 Mehrdimensionale Verteilungen
1. EinfĂŒhrung
2. UnabhÀngige Zufallsvariablen
3. Kovarianz, Korrelation
4. Bedingte Verteilung
5. Bivariate Normalverteilung
1
4.1 EinfĂŒhrung
Wahrscheinlichkeitsrechnung mit mehr als einer Zufallsvariablen
zwei Zufallsvariablen . . . bivariat
zwei oder mehr ZV . . . multivariat
Konzepte:
âą Gemeinsame Verteilungsfunktion
âą rein diskret: Gemeinsame Wahrscheinlichkeitsfunktion
âą rein stetig: Gemeinsame Dichte
2
Gemeinsame Verteilungsfunktion
ZunÀchst bivariat, Zufallsvariablen X und Y
Definiere die gemeinsame Verteilungsfunktion als
F (x, y) := P(X †x, Y †y), ââ < x, y <â
Bivariate Verteilung dadurch vollstÀndig charakterisiert
P(x1<Xâ€x2, y1<Yâ€y2) = F (x2, y2)âF (x1, y2)âF (x2, y1)+F (x1, y1)
fĂŒr x1 < x2 und y1 < y2
Randverteilung: FX(x) := P(X †x) = F (x,â)
Idee: P(X †x) = P(X †x, Y <â) = limyââ
F (x, y)
Analog FY (y) := P(Y †y) = F (â, y)
3
Bivariate stetige Zufallsvariable
X und Y heiĂen gemeinsam stetig falls gemeinsameDichtefunktion existiert:
f(x, y) =â2
âx âyF (x, y)
Gemeinsame Verteilungsfunktion ergibt sich mittels Integration
F (a, b) =
bâ«
y=ââ
aâ«
x=ââ
f(x, y) dxdy
Erhalte Dichte der Randverteilung durch Integrieren ĂŒber Y:
fX(x) =
ââ«
y=ââ
f(x, y) dy
Werden spÀter speziell bivariate Normalverteilung besprechen
4
Beispiel: Bivariate Gleichverteilung
X und Y bivariat gleichverteilt auf [0, 1]Ă [0, 1] â Dichte
f(x, y) = 1, 0 †x, y †1.
Gemeinsame Verteilungsfunktion
F (a, b) =
bâ«
y=0
aâ«
x=0
f(x, y) dxdy = a b, 0 †a, b †1.
Dichte der Randverteilung:
fX(x) =
ââ«
y=ââ
f(x, y) dy = 1, 0 †x †1
gibt Dichte der univariaten Gleichverteilung
5
Ăbung: Bivariate Gleichverteilung
X und Y bivariat gleichverteilt auf [â1, 1]Ă [â1, 1]
âą Berechne die Wahrscheinlichkeit, dass max|X |, |Y | < 1/2.
âą Berechne die Wahrscheinlichkeit, dass X2 + Y
2< 1.
Hinweis: Im Falle der bivariaten Gleichverteilung ist eine formaleIntegration nicht wirklich notwendig. Berechnung vonWahrscheinlichkeiten ergibt sich unmittelbar durch Vergleich vonFlÀchen.
6
Bivariate diskrete Zufallsvariable
X und Y beide diskret
Definiere die gemeinsame Wahrscheinlichkeitsfunktion
p(x, y) = P(X = x, Y = y)
Es gilt natĂŒrlichp(x, y) = F (x, y)â F (xâ, y)â F (x, yâ) + F (xâ, yâ)
Erhalte Wahrscheinlichkeitsfunktion von X durch SummierenĂŒber Y:
pX(x) = P(X = x) =â
yâY
p(x, y)
7
Beispiel
Urne mit 3 roten, 4 weiĂen und 5 blauen BĂ€llen;ziehe zufĂ€llig 3 BĂ€lle ohne ZurĂŒcklegen
X . . . Anzahl der roten gezogenen Kugeln
Y . . . Anzahl der weiĂen gezogenen Kugeln
z. Bsp.: p(0, 1) = P(0R, 1W, 2B) =(
30
)(
41
)(
52
)
/(
123
)
= 40/220
j
i 0 1 2 3 pX
0 10/220 40/220 30/220 4/220 84/220
1 30/220 60/220 18/220 0 108/220
2 15/220 12/220 0 0 27/220
3 1/220 0 0 0 1/220
pY 56/220 112/220 48/220 4/220 220/220
8
Multivariate Zufallsvariablen
Mehr als zwei Zuvallsvariablen
Gemeinsame Verteilungsfunktion fĂŒr n Zufallsvariablen
F (x1, . . . , xn) = P(X1 †x1, . . . , Xn †xn)
Diskret: Gemeinsame Wahrscheinlichkeitsfunktion:
p(x1, . . . , xn) = P(X1 = x1, . . . , Xn = xn)
Randverteilung wiederum durch Summieren ĂŒber alleKomponenten, die gerade nicht von Interesse, z. Bsp.
pX1(x1) =
â
x2âX2
· · ·â
xnâXn
p(x1, . . . , xn)
9
Multinomialverteilung
Eine der wichtigsten multivariaten diskreten Verteilungen
n unabhÀngige Experimente mit r möglichen AusgÀngen mitWahrscheinlichkeiten p1, . . . , pr
Sei Xi die Anzahl der Experimente mit Ausgang i, dann gilt
P(X1 = n1, . . . , Xr = nr) =n!
n1!···nr !pn1
1 · · · pnr
r
fallsâr
i=1 ni = n.
Verallgemeinerung der Binomialverteilung (r = 2)
Ăbung: Werfe 5 WĂŒrfel,
Wahrscheinlichkeit fĂŒr Strasse, Poker, bzw. Full House
10
4.2 UnabhÀngige Zufallsvariablen
Zwei Zufallsvariablen X und Y heiĂen unabhĂ€ngig falls fĂŒr alleEreignisse A und B gilt
P(X â A, Y â B) = P(X â A)P(Y â B)
Information ĂŒber den Wert von X Ă€ndert nicht die Verteilung von Y
X und Y genau dann unabhÀngig falls
P(X †a, Y †b) = P(X †a)P(Y †b)
d.h. F (a, b) = FX(a) FY (b) fĂŒr alle a, b.
Ebenfalls Ă€quivalent zu f(x, y) = fX(x) fY (y) im stetigen Fall undzu p(x, y) = pX(x) pY (y) im diskreten Fall fĂŒr alle x, y
11
Einfaches Beispiel
Seien X und Y unabhÀngig
X = 0, 1, P (X = 0) = 1/3, P (X = 1) = 2/3
Y = â1, 0, 1, P (Y =â1) = P (Y =1) = 1/4, P (Y =0) = 1/2
Die gemeinsame Wahrscheinlichkeitsfunktion lautet:
j
i â1 0 1 pX
0 1/12 1/6 1/12 1/3
1 2/12 2/6 2/12 2/3
pY 1/4 1/2 1/4 1
Beachte, dass sowohl die Spalten als auch die Zeilen jeweilsproportional zueinander sind â UnabhĂ€ngigkeit
12
Stetiges Beispiel: Gleichverteilung
Seien X und Y unabhÀngig, jeweils gleichverteilt auf [0, 1].
d.h. fX(x) = 1 fĂŒr 0 †x †1, fY (y) = 1 fĂŒr 0 †y †1,
Dann offensichtlich X und Y bivariat gleichverteilt auf [0, 1]Ă [0, 1]
Umkehrung
X und Y bivariat gleichverteilt auf [0, 1]Ă [0, 1] â Dichte
f(x, y) = 1, 0 †x, y †1.
Berechne die Randdichten fX(x) und fY (y)
Es folgt unmittelbar, dass X und Y jeweils gleichverteilt auf [0, 1],und auch dass die beiden unabhÀngig sind
Bemerkung: UnabhĂ€ngigkeit gilt fĂŒr Gleichverteilung aufRechtecken, nicht jedoch fĂŒr allgemeinere Bereiche.
13
Beispiel: Zwei WĂŒrfel
X, Y . . . gleichverteilt auf 1, . . . , 6
Aufgrund der UnabhÀngigkeit gilt p(x, y) = pX(x) pY (y) =136
Verteilungsfunktion:FX(x) = FY (x) = âxâ/6, falls 0 < x < 7
F (x, y) = FX(x)FY (y) =âxâ·âyâ
36
Welche Verteilung hat X + Y ?
P (X + Y = 2) = p(1, 1) = 1/36
P (X + Y = 3) = p(1, 2) + p(2, 1) = 2/36
P (X + Y = 4) = p(1, 3) + p(2, 2) + p(3, 1) = 3/36
P (X + Y = k) = p(1, k â 1) + p(2, k â 2) + · · ·+ p(k â 1, 1)
14
Summe von unabhÀngigen Verteilungen
Summe von Zufallsvariablen selbst wieder eine ZV
Berechnung der Verteilung mittels Faltung
Stetige Verteilungen:
fX+Y (x) =
ââ«
y=ââ
fX(xâ y)fY (y)dy
Diskrete Verteilungen:
P(X + Y = k) =â
x+y=k
pX(x)pY (y)
Ăbung: X1 ⌠P(λ1), X2 ⌠P(λ2) unabhĂ€ngig
â X1 +X2 ⌠P(λ1 + λ2)
15
Beispiel (Umkehrung)
Z ⌠P(λ) . . . Anzahl der Tippfehler pro Seite eines ManuskriptsLektor findet p Prozent der Fehler
X . . . Anzahl der gefundenen FehlerY . . . Anzahl der nicht gefundenen Fehler
Es gilt: X, Y unabhÀngig poissonverteilt mit Parameter pλ bzw. qλ
Lösung:
P(X= i, Y =j) = P(X= i, Y =j|X + Y = i+ j)P(X + Y = i+ j)
Per Definitionem:P(X= i, Y =j|X + Y = i+ j) =
(
i+ji
)
piqj
P(X + Y = i+ j) = eâλ λi+j
(i+j)!
Liefert insgesamt:
P(X= i, Y =j) = eâλ (λp)i
i!j! (λq)j = eâλp (λp)i
i! eâλq (λq)j
j!
16
Beispiel fĂŒr Faltung: stetiger Fall
X , Y unabhĂ€ngig, gleichverteilt auf [0, 1]i.e. f(x, y) = 1, (x, y) â [0, 1]Ă [0, 1]
fX(x) = 1, 0 †x †1, fY (y) = 1, 0 †y †1
Berechnung der Dichte Z := X + Y
fZ(x) =
ââ«
y=ââ
fX(xâ y)fY (y)dy
=
xâ«
y=0
dy = x, 0 < x †1
1â«
y=xâ1
dy = 2â x, 1 < x †2
Grund: fY (y) = 1 fĂŒr 0 †y †1
fX(xâ y) = 1 fĂŒr 0 †xâ y †1 â y †x †y + 1
17
Additionstheorem fĂŒr Î-Verteilung
X , Y unabhĂ€ngig, Îâverteilt mit Parametern t1, t2 und gleichem λ
fX(x) = λeâλx(λx)t1â1
Î(t1), fY (y) =
λeâλy(λy)t2â1
Î(t2), x, y â„ 0,
fZ(x) =
ââ«
y=ââ
fX(xâ y)fY (y)dy
=
xâ«
y=0
λeâλ(xây)(λ(xâ y))t1â1
Î(t1)
λeâλy(λy)t2â1
Î(t2)dy
=λt1+t2e
âλx
Î(t1)Î(t2)
xâ«
y=0
(xâ y)t1â1yt2â1
dy
=
âŁ
âŁ
âŁ
âŁ
âŁ
y = xz
dy = xdz
âŁ
âŁ
âŁ
âŁ
âŁ
=λe
âλx(λx)t1+t2â1
Î(t1 + t2)
18
Erwartungswert fĂŒr bivariate ZV, diskret
X und Y diskret mit gemeinsamer Wahrscheinlichkeitsfunktion
Wie im eindimensionalen gilt:
E(g(X, Y )) =â
xâX
â
yâY
g(x, y)p(x, y)
Ăbung:
Seien X und Y die Augenzahlen von zwei fairen WĂŒrfeln(unabhĂ€ngig)
Berechne den Erwartungswert der Differenz |X â Y |
19
Erwartungswert fĂŒr bivariate ZV, stetig
X und Y stetig mit gemeinsamer Dichte f(x, y)
Wie im eindimensionalen gilt:
E(g(X, Y )) =ââ«
y=ââ
ââ«
x=ââ
g(x, y)f(x, y) dx dy
Ăbung (optional):
Unfall auf einer StraĂe der LĂ€nge L, Unfallort X und Position Y
eines Krankenwagens unabhÀngig gleichverteilt
Berechne den Erwartungswert vom Abstand |X â Y | zwischenUnfallort und Krankenwagen
20
Erwartungswert der Summe zweier ZV
X und Y stetig mit gemeinsamer Dichte f(X, Y )
Mit g(x, y) = x+ y folgt
E(X + Y ) =ââ«
y=ââ
ââ«
x=ââ
(x+ y)f(x, y) dx dy = E(X) + E(Y )
Geht genau so fĂŒr den diskreten Fall:
E(X + Y ) =â
xâX
â
yâY
(x+ y)p(x, y) dx dy = E(X) + E(Y )
ACHTUNG: AdditivitĂ€t fĂŒr Varianzen im allgemeinen nicht richtig!
21
4.3 Kovarianz und Korrelation
MaĂzahlen fĂŒr die Beziehung zwischen zwei Zufallsvariablen
Definition Kovarianz:
Cov (X, Y ) = E[(X â E(X))(Y â E(Y ))]
Man schreibt mitunter ÏXY := Cov (X, Y )
Es gilt Ă€hnlich wie fĂŒr die Varianz
ÏXY = E(XY )â E(X)E(Y )
Definition Korrelation:
Ï(X, Y ) := ÏXY
ÏXÏY
22
Beispiel Korrelation
Ï = 0.9
â4 â3 â2 â1 0 1 2 3â3
â2
â1
0
1
2
3
â3 â2 â1 0 1 2 3â3
â2.5
â2
â1.5
â1
â0.5
0
0.5
1
1.5
2
Ï=â0.6
Ï = 0.3
â3 â2 â1 0 1 2 3â3
â2
â1
0
1
2
3
â3 â2 â1 0 1 2 3 4â3
â2
â1
0
1
2
3
4
Ï = 0.0
23
Beispiel Kovarianz
Diskrete bivariate Verteilung (X = Y = 0, 1, 2, 3) mit
j
i 0 1 2 3 pX
0 1/20 4/20 3/20 2/20 10/20
1 3/20 2/20 2/20 0 7/20
2 1/20 1/20 0 0 2/20
3 1/20 0 0 0 1/20
pY 6/20 7/20 5/20 2/20 20/20
Berechne Cov (X, Y )
Lösung : Cov (X, Y ) = E(XY )âE(X)E(Y ) = 820 â
1420 ·
2320 = â 162
400
24
Kovarianz fĂŒr unabhĂ€ngige ZV
X und Y unabhĂ€ngig â ÏXY = 0
folgt unmittelbar aus ÏXY = E(XY )â E(X)E(Y )
und E(XY ) =â«â«
xyf(x, y) =â«
xf(x)â«
yf(y)
Umkehrung ist falsch:
X gleichverteilt auf â1, 0, 1 und Y =
0, X 6= 0
1, X = 0
E(X) = 0
XY = 0 â E(XY ) = 0
daher Cov (X, Y ) = 0, obwohl X und Y nicht unabhÀngig:
z.Bsp. P(X = 1, Y = 0) = P(X = 1) = 1/3, P(Y = 0) = 2/3
25
Eigenschaften der Kovarianz
Offensichtlich gilt
Cov (X, Y ) = Cov (Y,X), und Cov (X,X) = Var (X)
Die Kovarianz ist eine Bilinearform:
Cov (aX, Y ) = a Cov (X, Y ), a â R
und
Cov
nâ
i=1
Xi,
mâ
j=1
Yj
=nâ
i=1
mâ
j=1
Cov (Xi, Yj)
Beweis durch ausrechnen . . .
26
Varianz von Summen
Aufgrund der zuvor gezeigten Eigenschaften gilt
Var
(
nâ
i=1
Xi
)
=nâ
i=1
nâ
j=1
Cov (Xi, Xj)
=nâ
i=1
Var (Xi) +nâ
i=1
â
j 6=i
Cov (Xi, Xj)
ExtremfÀlle:
⹠unabhÀngige ZV: Var(
nâ
i=1
Xi
)
=nâ
i=1
Var (Xi)
⹠X1 = X2 = · · · = Xn: Var(
nâ
i=1
Xi
)
= n2 Var (X1)
27
Korrelation
Definition: Ï(X, Y ) := ÏXY
ÏXÏY
Es gilt:
â1 †Ï(X, Y ) †1
Beweis:
0 †Var(
X
ÏX
+Y
ÏY
)
=Var (X)
Ï2X
+Var (Y )
Ï2Y
+2Cov (X, Y )
ÏXÏY
= 2[1 + Ï(X, Y )]
0 †Var(
X
ÏX
âY
ÏY
)
=Var (X)
Ï2X
+Var (Y )
Ï2Y
â2Cov (X, Y )
ÏXÏY
= 2[1â Ï(X, Y )]
28
Korrelation â Fortsetzung
Falls Ï(X, Y ) = 0, heiĂen X und Y unkorreliert . Dies ist offenbargleichbedeutend damit, dass Cov (X, Y ) = 0. Somit istâunabhĂ€ngigâ stĂ€rker als âunkorreliertâ.
Korrelationskoeefizienten, die sich (signifikant) von nullunterscheiden, lassen auf einen direkten oder indirektenZusammenhang zwischen den beiden Variablen schlieĂen.Einfachster Fall: Die beiden Variablen X und Y können zueinanderin einer Ursache-Wirkung-Beziehung stehen, wobei offen bleibt,welche Variable auf welche wirkt. Es können aber auchkomplexere Beziehungen bestehen, z.B. kann eine dritteVariable Z einen Einfluss sowohl auf X als auch auf Y ausĂŒben.
Beispiel: Es besteht eine Korrelation zwischen der Zahl derKindergeburten und der Zahl der Storchenpaare in einer Region.Ein direkter Kausalzusammenhang ist wohl nicht anzunehmen.
29
Ăbung Korrelation
Seien X und Y unabhÀngig gleichverteilt auf [0, 1]
Berechne die Korrelation zwischen X und Z fĂŒr
1. Z = X + Y
2. Z = X2 + Y
2
3. Z = (X + Y )2
30
4.4 Bedingte Verteilungen
Bedingte Wahrscheinlichkeit fĂŒr zwei Ereignisse A und B:
P(A|B) =P(AB)
P(B)
Entsprechende Definitionen fĂŒr Zufallsvariablen X und Y
Diskret: pX|Y (x|y) := P(X = x|Y = y) = p(x,y)pY (y)
Ăbung: Gegeben p(x, y) durch
p(0, 0) = 0.4, p(0, 1) = 0.2, p(1, 0) = 0.1, p(1, 1) = 0.3,
Berechne bedingte Wahrscheinlichkeitsfunktion von X wenn Y = 1
31
Diskrete bedingte Verteilungen
Bedingte Verteilungsfunktion:
FX|Y (x|y) := P(X †x|Y = y) =â
kâ€x
pX|Y (k|y)
Sind X und Y unabhÀngig so gilt pX|Y (x|y) = pX(x)
Beweis: Nachrechnen
Beispiel: Seien X ⌠P(λ1) und Y ⌠P(λ2) unabhĂ€ngig.
Berechne bedingte Verteilung von X , wenn X + Y = n
P(X = k|X + Y = n) = P(X=k)P(Y=nâk)P(X+Y=n) ,
X + Y ⌠P(λ1 + λ2) â X |(X + Y = n) ⌠B(
n,λ1
λ1+λ2
)
32
Stetige bedingte Verteilungen
Stetig: fX|Y (x|y) :=f(x,y)fY (y) fĂŒr fY (y) > 0
Definition im stetigen Fall lĂ€Ăt sich ĂŒber diskreten Fall motivieren(Wahrscheinlichkeiten fĂŒr kleine Umgebungen von x und y)
Berechne damit bedingte Wahrscheinlichkeiten:
P(X â A|Y = y) =
â«
A
fX|Y (x|y) dx
Bedingte Verteilungsfunktion:
FX|Y (a|y) := P(X â (ââ, a)|Y = y) =
aâ«
x=ââ
fX|Y (x|y) dx
33
Beispiel
Gemeinsame Dichte von X und Y gegeben durch
f(x, y) =
c x(2â xâ y), x â [0, 1], y â [0, 1],
0, sonst.
Berechne fX|Y (x|y) und die P(X < 1/2|Y = 1/3)
Lösung:
fY (y) = c
1â«
x=0
x(2â xâ y) dx = c( 23 ây
2 )
fX|Y (x|y) =f(x,y)fY (y) = x(2âxây)
2
3â
y
2
= 6x(2âxây)4â3y
P(X < 1/2|Y = 1/3) =1/2â«
x=0
6x(2âxâ1/3)4â3/3 dx = · · · = 1/3
34
Bedingter Erwartungswert
Berechnung mittels bedingter Wahrscheinlichkeitsfunktion bzw.bedingter Dichte
E(X |Y = y) =
ââ«
x=ââ
xfX|Y (x|y)dx
Beispiel: Fortsetzung
E(X |Y = y) =
1â«
x=0
6x2(2â xâ y)
4â 3ydx =
5/2â 2y
4â 3y
Speziell E(X |Y = 1/3) = 1118
35
Erwartungswert durch Konditionierung
E(X |Y = y) ist eine Funktion von y,kann somit als Zufallsvariable in y betrachtet werden
Es gilt: E(X) = E(E(X |Y ))
Beweis:
E(E(X |Y )) =
ââ«
y=ââ
E(X |Y = y)fY (y) dy
=
ââ«
y=ââ
ââ«
x=ââ
xfX|Y =y(x)fY (y) dx dy
=
ââ«
y=ââ
ââ«
x=ââ
xf(x, y)
fY (y)fY (y) dx dy = E(X)
Ăbung: Verifiziere die Formel fĂŒr obiges Beispiel
36
Bedingte Varianz
Formeln fĂŒr den diskreten Fall (mit bedingter WF):
E(X |Y = y) =â
xâX
xpX|Y (x|y)
Var (X |Y = y) =â
xâX
(xâ E(X |Y = y))2pX|Y (x|y)
Ăbung: Berechne Erwartungswert und Varianz von X wenn Y = j
j
i 0 1 2 3 pX
0 1/20 4/20 3/20 2/20 10/20
1 3/20 2/20 2/20 0 7/20
2 1/20 1/20 0 0 2/20
3 1/20 0 0 0 1/20
pY 6/20 7/20 5/20 2/20 20/20
37
Varianz mittels Konditionierung
Var (X) = E(Var (X |Y )) + Var (E(X |Y ))
Beweis: Wegen
Var (X |Y ) = E(X2|Y )â (E(X |Y ))2
gilt
E(Var (X |Y )) = E(E(X2|Y ))âE((E(X |Y ))2) = E(X2)âE(E(X |Y )2)
Andererseits
Var (E(X |Y )) = E(E(X |Y )2)â(E(E(X |Y )))2 = E(E(X |Y )2)âE(X)2
Die Summe beider AusdrĂŒcke liefert das Resultat
Formel wesentlich fĂŒr die Theorie der linearen Regression!
38
4.5 Bivariate Normalverteilung
Univariate Normalverteilung: f(x) = 1â
2Ï Ïeâ(xâ”)2/2Ï2
Standardnormalverteilung: Ï(x) = 1â
2Ïeâx2/2
X1 und X2 unabhĂ€ngig, jeweils normalverteilt N (”i, Ï2i ), i = 1, 2
â f(x1, x2) =1
2Ï Ï1Ï2eâ(x1â”1)
2/2Ï2
1â(x2â”2)
2/2Ï2
2
=1
2Ï |ÎŁ|1/2eâ(xâ”)TÎŁâ1(xâ”)/2
wobei x =(
x1
x2
)
, ” =(
”1
”2
)
, ÎŁ =(
Ï2
10
0 Ï2
2
)
39
Dichtefunktion allgemein (Vektorform)
X = (X1, X2) normalverteilt falls gemeinsame Dichtefunktion
f(x) = 12Ï |ÎŁ|
1/2eâ(xâ”)TÎŁâ1(xâ”)/2
Kovarianzmatrix: ÎŁ =
Ï21 Ï12
Ï12 Ï22
Notation: Ï := Ï12
Ï1Ï2
âą |ÎŁ| = Ï21Ï
22 â Ï2
12 = Ï21Ï
22(1â Ï2)
âą ÎŁâ1 = 1Ï2
1Ï2
2(1âÏ2)
Ï22 âÏÏ1Ï2
âÏÏ1Ï2 Ï21
40
Bivariate Normalverteilung
X und Y jeweils standardnormalverteilt N (0, 1), Ï = 0:
â2â1
01
2
â2
â1
0
1
20
0.05
0.1
0.15
0.2
41
Beispiel bivariate Normalverteilungens
x2 = 1, s
y2 = 1, Ï = 0
â2 â1.5 â1 â0.5 0 0.5 1 1.5 2â2
â1.5
â1
â0.5
0
0.5
1
1.5
2
sx2 = 1, s
y2 = 1, Ï = 0.5
â2 â1.5 â1 â0.5 0 0.5 1 1.5 2â2
â1.5
â1
â0.5
0
0.5
1
1.5
2
sx2 = 4, s
y2 = 1/4, Ï = 0
â2 â1.5 â1 â0.5 0 0.5 1 1.5 2â2
â1.5
â1
â0.5
0
0.5
1
1.5
2
sx2 = 4, s
y2 = 1/4, Ï = â0.5
â2 â1.5 â1 â0.5 0 0.5 1 1.5 2â2
â1.5
â1
â0.5
0
0.5
1
1.5
2
42
Beispiel Dichtefunktion
(X, Y ) bivariat normalverteilt mit ”i = 0, Ïi = 1 (i = 1, 2) undÏ = 1/2
Berechne die gemeinsame Dichte!
Lösung: ” =(
00
)
, ÎŁ =( 1 1/21/2 1
)
|ÎŁ| = 1â 1/4 = 3/4, ÎŁâ1 = 43
(
1 â1/2â1/2 1
)
(x, y)ÎŁâ1(
x
y
)
= 23 (x, y)
(
2xây
âx+2y
)
= 43 (x
2 â xy + y2)
f(x, y) =1â3Ï
eâ
2
3(x2
âxy+y2)
Ăquivalente Darstellung:
f(x, y) =1â2Ï
eâ
1
2x2 1â
2Ï 3/4eâ
(yâx/2)2
2·3/4
43
Beispiel Fortsezung
f(x, y) =1â2Ï
eâ
1
2x2 1â
2Ï 3/4eâ
(yâx/2)2
2·3/4
Gemeinsame Dichte ist Produkt der Dichte vonStandardnormalverteilung (in x) und Normalverteilung (in y) mitMittelwert x/2 und Varianz 3/4.
Berechne Dichte von X :
fX(x) =1â2Ï
eâ
1
2x2
ââ«
y=ââ
1â
2Ï 3/4eâ
(yâx/2)2
2·3/4 dy =1â2Ï
eâ
1
2x2
fX(x) ist Dichte von Standardnormalverteilung
Integral ergibt 1, weil wir ĂŒber eine Dichte integrieren!
44
Dichtefunktion allgemein
Von der Formel in Vektorform erhalten wir
f(x1, x2) =1
2ÏÏ1Ï2
â1âÏ2
exp
âz2
1â2Ïz1z2+z2
2
2(1âÏ2)
wobei z1 = x1â”1
Ï1
und z2 = x2â”2
Ï2
(vgl. Normalisierung)
Notation deutet darauf hin, dass ”i und Ï2i jeweils Erwartungswert
und Varianz von Xi, den beiden Randverteilungen,und dass Ï die Korrelation zwischen X1 und X2
Es gilt: f(x1, x2) =1
â
2ÏÏ1
eâ
z21
2 · 1â2Ï(1âÏ2)Ï2
eâ
(Ïz1âz2)2
2(1âÏ2)
ErgÀnzung auf vollstÀndiges Quadrat im Exponenten
45
Bedeutung von ”i, Ï2
i und Ï
Allgemein gilt fĂŒr bivariate Normalverteilung
1. X1 ⌠N (”1, Ï21) und X2 ⌠N (”2, Ï
22)
2. Korrelationskoeffizient Ï(X1, X2) =Ï12
Ï1Ï2
Beweis:
1.Bilde vollst. Quadrat im Exponenten und integriere:
fX1(x1)=
1â2ÏÏ1
eâ
z21
2
ââ«
x2=ââ
1â
2Ï(1â Ï2)Ï2
eâ
(Ïz1âz2)2
2(1âÏ2) dx2
=1
â2ÏÏ1
eâ
z21
2
ââ«
s=ââ
1â2Ï
eâ
(
Ïz1â
1âÏ2âs
)
2
2 ds =1
â2ÏÏ1
eâ
z21
2
mit Substitution sâ z2/â
1â Ï2 = (x2 â ”2)/(â
1â Ï2Ï2)
46
Fortsetzung Beweis
2. Wiederum Formel mit vollst. Quadrat und Substitutionz1 â (x1 â ”1)/Ï1, z2 â (x2 â ”2)/Ï2:
Cov (X1, X2) =
ââ«
x1=ââ
ââ«
x2=ââ
(x1 â ”1)(x2 â ”2)f(x1, x2) dx2dx1
=
ââ«
x1=ââ
x1 â ”1â2ÏÏ1
eâ
z21
2
ââ«
x2=ââ
x2 â ”2â
2Ï(1â Ï2)Ï2
eâ
(Ïz1âz2)2
2(1âÏ2) dx2dx1
=
â«
z1
z1Ï(z1)
â«
z2
z2â
1â Ï2Ï
(
Ïz1 â z2â
1â Ï2
)
Ï2dz2Ï1dz1
= Ï1Ï2
â«
z1
z1Ï(z1)Ïz1dz1 = Ï1Ï2Ï = Ï12
47
Bedingte Verteilung
Interpretation fĂŒr die Formel
f(x1, x2) =1
â
2ÏÏ1
eâz21
2 · 1â2Ï(1âÏ2)Ï2
eâ
(Ïz1âz2)2
2(1âÏ2)
f(x1, x2) = f1(x1)f2|1(x2|x1)
Aus (Ïz1âz2)2
(1âÏ2) = (”2+Ï2Ïz1âx2)2
Ï2
2(1âÏ2)
folgt:
Bedingte Verteilung ist wieder normalverteilt mit”2|1 = ”2 + Ï(x1 â ”1)
Ï2
Ï1
, Ï2|1 = Ï22(1â Ï2)
FĂŒr bivariate Normalverteilung: Ï = 0â UnabhĂ€ngigkeit
Ist im allgemeinen nicht richtig!
48
Summe von bivariat normalverteilten ZV
Sei X1, X2 bivariat normal mit ”1, ”2, Ï21 , Ï
22 , Ï12
Dann ist Z = X1 +X2 wieder normalverteilt, mit
X1 +X2 ⌠N (”1 + ”2, Ï21 + Ï
22 + 2Ï12)
Beweis: FĂŒr die Dichte der Summe gilt
fZ(z) =
ââ«
x2=ââ
f(z â x2, x2) dx2
Man erhÀlt das Resultat wieder durch VervollstÀndigung desQuadrats im Exponenten (etwas lÀngere Rechnung)
Intuition : Mittelwert und Varianz von Z entsprechen derallgemeinen Formel!
49
WahrscheinlichkeitsrechnungfĂŒr Statistik und VWLWS 2016/17
5 Verteilungen vonStichprobenkennzahlen
1. Stichprobe
2. Ï2 - Verteilung
3. t-Verteilung
4. F -Verteilung
1
5.1 Stichprobe
X1, . . . , Xn unabhÀngige ZV
P (X1 â A1, . . . , Xn â An) = P (X1 â A1) · · ·P (Xn â An)
fĂŒr jede beliebige Wahl von Ereignissen A1, . . . An.
Stichprobe . . .n unabhÀngige Zufallsvariablen, die alle gleichverteilt sind
Englisch: identically independently distributed (i.i.d)
Beispiel: Binomialverteilung B(n, p) erhalte ich als Summe von n
unabhÀngigen Bernoulli-Variablen
X =
nâ
i=1
Xi
wobei Xi ⌠B(1, p) i.i.d.
2
Mittelwert von Stichproben
X1, . . . , Xn i.i.d. wie X ,
Definition: X := 1n
nâ
i=1
Xi
Mit E(X) = ” und Var (X) = Ï2 gilt:
E(
X)
= ”, Var (X) = Ï2
n
Beweis:
E
(
nâ
i=1
Xi
)
=nâ
i=1
E(Xi)
Var(
nâ
i=1
Xi
)
=nâ
i=1
Var (Xi)
Letzte Gleichung wegen UnabhÀngigkeit der Beobachtungen
3
Normalverteilte Stichproben
X1, . . . , Xn i.i.d. N (”, Ï2) â X ⌠N (”, Ï2/n)
Zentraler Grenzwertsatz: Selbst fĂŒr nicht normalverteilteStichprobe X1, . . . , Xn ist X fĂŒr groĂe n nĂ€herungsweisenormalverteilt (Siehe Kapitel 6)
Beispiel: Gewicht X von Brotlaib einer BĂ€ckerei hat im Mittel 1kgbei einer Varianz von 0.1 kg, Annahme das Gewicht istnormalverteilt.Stichprobe von 10 Broten, welche Verteilung hat X?Mit welcher Wahrscheinlichkeit liegt X zwischen 0.95 und 1.05?
Ï2X
= Ï2X/10 = 0.01 â X ⌠N (1, 0.01)
P (0.95 †X †1.05) = Ί(
1.05â10.1
)
â Ί(
0.95â10.1
)
= 2Ί(0.5)â1=0.383
4
5.2 Ï2 - Verteilung
Motivation: Gegeben Stichprobe X1, . . . , Xn i.i.d.
X kann verwendet werden, um unbekanntes ” zu schÀtzen.
Typische andere statistische Fragestellungen:
Wie kann ich unbekanntes Ï schĂ€tzen?
Möglicher Zugang: Ï2 = E(X â ”)2
Somit könnten Quadratsummen der Stichprobe interessant sein:
⹠” bekannt:nâ
i=1
(Xi â ”)2
⹠” unbekannt:nâ
i=1
(Xi â X)2
Welche Verteilung haben diese Quadratsummen?
5
Mittelwerte von Quadratsummen
X1, . . . , Xn i.i.d. wie X , E(X) = ”, Var (X) = Ï2
Es gilt:
E
(
nâ
i=1
(Xi â ”)2)
= nÏ2
Beweis: Vertausche Summe und Erwartungswert
Weiters gilt:
E
(
nâ
i=1
(Xi â X)2)
= (nâ 1)Ï2
Beweis: Ăbung
6
Verteilung von Z2
Erinnerung: X ⌠Î(t, λ) . . . f(x) = λeâλx(λx)tâ1
Î(t) , fĂŒr x â„ 0
Es gilt:
Z ⌠N (0, 1) â Y = Z2 ⌠Î( 12 ,12 )
In Worten: Das Quadrat einer standardnormalverteiltenZufallsvariable ist Î-verteilt mit Parametern t = 1/2 und λ = 1/2.
Beweis: P (Y †y) = P (âây †Z â€
ây) = Ί(
ây)â Ί(â
ây)
â fY (y) = Ï(ây)
1
2ây+ Ï(â
ây)
1
2ây= Ï(
ây)
1ây
=1
â2Ïy
eây/2 =
12e
â
y
2 ( y2 )1
2â1
Î( 12 ), weil Î(
1
2) =
âÏ.
7
Additionstheorem fĂŒr ÎâVerteilung
Y1, . . . , Yn unabhĂ€ngig, Î(ti, λ), mit beliebigen ti
d.h. fYi(y) =
λeâλy(λy)tiâ1
Î(ti), fĂŒr y â„ 0
dann S :=nâ
i=1
Yi auch Îâverteilt, nĂ€mlich S ⌠Î(nâ
i=1
ti, λ)
d.h. fS(s) =λeâλs(λs)Tâ1
Î(T ), fĂŒr s â„ 0, mit T :=
nâ
i=1
ti
Beweis: Iteratives Anwenden der Faltungsformel fĂŒr dieÎâVerteilung (vgl. Beispiel im Kapitel 4)
Bemerkung: Vergleiche Additionstheorem fĂŒr Xi ⌠N (”i, Ï2i ) i.i.d.
8
Definition der Ï2 - Verteilung
Man bezeichnet Y ⌠Î(n2 ,12 ) als Ï
2-verteilt mit n Freiheitsgraden
Notation: Y ⌠Ï2n
0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 50
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
df=1df=2df=3df=4df=6
Dichte der Ï2-Verteilung fĂŒr verschiedene Freiheitsgrade
9
Verteilung der Quadratsumme, bekanntes ”
Wir haben gesehen: Z ⌠N (0, 1) â Z2 ⌠Î( 12 ,
12 ) = Ï
21
Aus dem Additionstheorem folgt unmittelbar:
Zi ⌠N (0, 1) i.i.d â Y :=nâ
i=1
Z2i ⌠Ï2
n
Damit können wir unsere erste Frage beantworten:FĂŒr eine Stichprobe der GröĂe n von normalverteiltenZufallsvariablen Xi ⌠N (”, Ï2) gilt:
nâ
i=1
(Xi â ”)2 = Ï2
nâ
i=1
(Xiâ”)2
Ï2 ⌠Ï2Ï2n
10
Verteilung der Quadratsumme, unbekanntes ”
Wenn wir ” durch X ersetzen so gilt (ohne Beweis):
nâ
i=1
(Xi â X)2 ⌠Ï2Ï2nâ1
Es gilt: Y ⌠Ï2nâ1 â E(Y ) = nâ 1
Daher ĂŒblicher SchĂ€tzer fĂŒr die Varianz S2 := 1nâ1
nâ
i=1
(Xi â X)2
Interpretation fĂŒr den Begriff Freiheitsgrad:
⹠” bekannt: Alle Xi zur SchĂ€tzung von Ï2 unabhĂ€ngig
â daher n Freiheitsgrade
⹠” unbekannt: Ein Parameter wird aus den Daten geschÀtzt
â daher nâ 1 Freiheitsgrade
11
5.3 t - Verteilung
Motivation:
1. Standardisierung fĂŒr X ⌠N (”, Ï2): Z = Xâ”
Ï
2. FĂŒr Stichprobe X1, . . . , Xn i.i.d. wie X ,
Standardisierung fĂŒr X: Xâ”
Ï/â
n
3. Ersetze Ï2 durch S2 = 1nâ1
nâ
i=1
(Xi â X)2
d.h. wir interessieren uns fĂŒr T :=ân
Xâ”
S
Es gilt: T =ân
1
n
nâ
i=1
Zi
â
1
nâ1
nâ
i=1
(Ziâ1
n
nâ
j=1
Zj)2wobei Zi =
Xiâ”
Ï
Beweis: Nachrechnen
12
Eigenschaften der T -Statistik
T =ânâ 1
1â
n
nâ
i=1
Zi
â
nâ
i=1
(Ziâ1
n
nâ
j=1
Zj)2wobei Zi = N (0, 1)
Wir wissen bereits:
Z := 1â
n
nâ
i=1
Zi ⌠N (0, 1),
Y :=nâ
i=1
(Zi â1n
nâ
j=1
Zj)2 ⌠Ï2
nâ1
Somit insgesamt
T =â
n(Xâ”)S
=ânâ 1 Z
â
Y
ZusÀtzlich gilt (ohne Beweis):
X und S2 sind unabhÀngige ZV, (daher auch Z und Y )
13
Definition der t-Verteilung
Seien Z ⌠N (0, 1), Y ⌠Ï2n unabhĂ€ngig, dann heiĂt
T :=ân
Zâ
YStudent- oder t-verteilt mit n Freiheitsgraden
Dichte der t-Verteilung fĂŒr verschiedene Freiheitsgrade
â3 â2 â1 0 1 2 30
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
0.45t=1t=2t=3t=4t=6
FĂŒr n groĂ nahezu standardnormalverteilt
14
5.4 F - Verteilung
Motivation:
HĂ€ufig in der Statistik von Interesse: Vergleich von Varianzen.Eine Möglichkeit â betrachte Quotienten Ï
21/Ï
22
Zum Beispiel zwei Gruppen, Stichproben X(1)1 , . . . , X
(1)n1
bzw.
X(2)1 , . . . , X
(2)n2
.
Seien Y1 und Y2 die jeweiligen Quadratsummen der Stichproben,sodass Yj = Ï
2j Yj mit Yj ⌠Ï
2njâ1 (j = 1, 2).
FĂŒr SchĂ€tzer von Ï2j gilt S2
j =Yj
njâ1 =Ï2
jYj
njâ1 .
Falls Ï1 = Ï2 (âNullhypotheseâ), gilt also fĂŒr den Quotienten derSchĂ€tzer
S21
S22
=Y1/(n1 â 1)
Y2/(n2 â 1)
15
Definition der F -Verteilung
Y1 ⌠Ï2n1
, Y2 ⌠Ï2n2
unabhĂ€ngig, dann heiĂt
Q := Y1/n1
Y2/n2
F -verteilt mit n1 und n2 Freiheitsgraden
Dichte der F -Verteilung fĂŒr verschiedene n1 und fĂŒr n2 = 25
0 0.5 1 1.5 2 2.50
0.5
1
1.5n
1=1
n1=2
n1=3
n1=4
n1=6
16
Eigenschaften der F - Verteilung
Sei Q ⌠F(n1, n2) F -verteilt mit Freiheitsgraden n1, n2.Dichte der F -Verteilung etwas kompliziert
⹠”F(n1,n2) =
n2
n2â2
Beweis als Ăbung.
âą 1Q
⌠F(n2, n1)
folgt unmittelbar aus Definition
âą Sei T Student-verteilt mit n Freiheitsgraden:
T 2 ⌠F(1, n)
aus der Darstellung T =ân
Zâ
Y, wobei Z ⌠N (0, 1), Y ⌠Ï2
n
folgt T2 = Z2/1
Y/nwobei Z
2 ⌠Ï21
17
Quantile
In der Praxis werden sehr hĂ€ufig die Quantile der Ï2-,t- undF -Verteilung benötigt
Nicht elementar berechenbar â Tabellen (oder Computer)
Zu beachten:
âą t-Verteilung mit unendlich vielen Freiheitsgraden entsprichtNormalverteilung
âą Îłp(n1, n2) sei p-Quantil von F(n1, n2), dann gilt:
Îłp(n1, n2) =1
Îł1âp(n2,n1)
Beweis: p = P (Q †γp(n1, n2)) wobei Q = Y1/n1
Y2/n2
1â p = P (Q > Îłp(n1, n2)) = P (Qâ1 <1
Îłp(n1,n2))
18
WahrscheinlichkeitsrechnungfĂŒr Statistik und VWLWS 2016/17
6 GrenzwertsÀtze
1. EinfĂŒhrung
2. Gesetze der groĂen Zahlen
3. Der Zentraler Grenzwertsatz
1
6.1 EinfĂŒhrung
GrenzwertsĂ€tze grundlegend fĂŒr Wahrscheinlichkeitstheorie
Zwei wesentliche Gruppen:
1. Gesetze der groĂen Zahl
Geben Bedingungen unter welchen Mittelwert einerZahlenfolge gegen theoretischen Erwartungswert konvergieren
2. Zentrale GrenzwertsÀtze
Bedingungen unter welchen die Summe einer groĂen Zahl vonVerteilungen gegen Normalverteilung konvergiert
Verschiedene Versionen, je nach Art der Konvergenz
2
Markov Ungleichung
X nichtnegative Zufallsvariable, d.h. X â R+0
Dann gilt fĂŒr jedes a > 0:
P (X ℠a) †1aE(X)
Beweis:
Definiere Y :=
1, X â„ a
0, X < a
X â„ 0 â Y †Xa
â E(Y ) †E(X)a
und E(Y ) = P (X â„ a)
3
Chebyshev Ungleichung
X Zufallsvariable mit E(X) = ” â R und Var (X) = Ï2< â,
dann gilt fĂŒr jedes k > 0
P (|X â ”| â„ k) †Ï2
k2
Beweis:
Anwendung der Markov Ungleichung fĂŒr (X â ”)2 â„ 0 und a = k2
P ((X â ”)2 â„ k2) â€
1
k2E(X â ”)2
Verwendung: AbschĂ€tzungen fĂŒr Zufallsvariablen, wenn nur ” undÏ2 bekannt.
4
6.2 Gesetze der groĂen Zahl
Das schwache Gesetz der groĂen Zahlen :
X1, X2, . . . i.i.d. Folge von Zufallsvariablen, E(Xi) = ”
Dann gilt fĂŒr jedes Δ > 0
P(âŁ
âŁ
X1+···+Xn
nâ ”
âŁ
⣠℠Δ)
â 0 fĂŒr n â â
Beweis: (Verwende zusĂ€tzlich Var (Xi) = Ï2 < â )
E(
X1+···+Xn
n
)
= ”, Var(
X1+···+Xn
n
)
= Ï2
n
Chebyshev Ungleichung:
P
(âŁ
âŁ
âŁ
âŁ
X1 + · · ·+Xn
nâ ”
âŁ
âŁ
âŁ
âŁ
℠Δ
)
â€Ï2
nΔ2
5
Das starke Gesetz der groĂen Zahlen
X1, X2, . . . i.i.d. Folge von Zufallsvariablen, E(Xi) = ”
Dann gilt mit Wahrscheinlichkeit 1, dass
X1+···+Xn
nâ ” fĂŒr n â â
Ohne Beweis
Starkes Gesetz tatsÀchlich stÀrker als schwaches Gesetz:
Mit Wahrscheinlichkeit 1 gibt es fĂŒr jedes Δ ein N(Δ), so dassâŁ
âŁ
X1+···+Xn
nâ ”
âŁ
⣠< Δ fĂŒr alle n > N(Δ)
d.h. ab einem gewissen Index N(Δ) sind (mit Wahrscheinlichkeit 1)alle weiteren Mittelwerte X1+···+Xn
nentsprechend nahe bei ”
Im Vergleich dazu lĂ€Ăt das schwache Gesetz die Möglichkeit offen,dass immer wieder ein Mittelwert X1+···+Xn
nweiter von ” entfernt
ist, aber mit immer kleiner werdender Wahrscheinlichkeit
6
6.3 Der zentrale Grenzwertsatz
X1, X2, . . . i.i.d. Folge von Zufallsvariablen,
E(Xi) = ”, Var (Xi) = Ï2, dann gilt
P
(
X1+···+Xnân”
Ïâ
n†a
)
â Ί(a) fĂŒr n â â
In Worten: Die Summe einer groĂen Anzahl von unabhĂ€ngigenidentisch verteilten Zufallsvariablen ist approximativ normalverteiltmit Mittelwert n” und Varianz nÏ
2
X1 + · · ·+Xn ⌠N (n”, nÏ2)
Ohne Beweis!
Literatur: Viele verschiedene Möglichkeiten diesen Satz zubeweisen
Spezialfall: Normalverteilungsapprox. der Binomialverteilung
7
AnnÀherung an Normalverteilung
0 10 20 30 40 50 60 70 80 90 1000
0.5
1
1.5
2
2.5x 10
4
0 10 20 30 40 50 60 70 80 90 1000
0.5
1
1.5
2
2.5x 10
4
0 10 20 30 40 50 60 70 80 90 1000
0.5
1
1.5
2
2.5x 10
4
0 10 20 30 40 50 60 70 80 90 1000
0.5
1
1.5
2
2.5x 10
4
Verteilungen der (normierten) Summenâ
n
i=1Xi mit Xi gleichverteilt, fĂŒr n = 1, 2
(oben) und n = 3, 10 (unten).
8
Konvergenzbegriffe
I. Falls P (|Xn â a| â„ Ç«) â 0 (n â â) fĂŒr jedes Ç« > 0, sagt man,dass die Folge Xn von Zufallsvariablen in Wahrscheinlichkeitgegen die Zahl a konvergiert. Man schreibt dann Xn
pâ a. Das
schwache Gesetz der groĂen Zahlen besagt somit, dass
Xnpâ ”.
II. Falls die Verteilungsfunktionen von Xn gegen dieVerteilungsfunktion einer bestimmte Verteilung D konvergieren,spricht man von schwacher Konvergenz. Man schreibt dannXn
wâ D. Der zentrale Grenzwertsatz besagt somit, dass (unter
den angegebenen Voraussetzungen)
Xn â ”
Ïâ
n
wâ N (0, 1).
9