Download pdf - Organisatorisches - univie.ac.at

Univ.-Prof. Dr. Walter GutjahrOskar-Morgenstern-Platz 1Tel. 4277 [email protected]

Univ.-Doz. Dr. Florian FrommletSpitalgasse 21Tel. 40400 [email protected]

1

Organisatorisches

• Vorlesungstermine:

Mo 09.45 - 11.15 HS 6, wöchentlichDi 15.00 - 16.30 HS 6, wöchentlich

Letzter Vorlesungstermin:Di 13.12.2014

Achtung: Der Di-Termin am 22.11. wird einmalig einmal auf Mi(23.11., 13.15 - 14.45) verschoben.

• Voraussichtliche Prüfungstermine:1) Do 09.01.20152) Do 30.01.2015(Bitte Anmeldefristen beachten!!)

• Übungsgruppen:Parallele Gruppen, Ort und Zeit laut Vorlesungsverzeichnis!

2

Tutorium

• Tutor: Raphael Rath

Zeit und Ort: Mo 15.00 - 16.30 im HS 13

3

E-learning Plattform

Moodle Plattform

https://moodle.univie.ac.at

• Generelle Information

• Downloads der Folien

• Forum

• Noten

4

Inhalt der Vorlesung

1. Einführung

(a) Wahrscheinlichkeitsbegriff

(b) Einfaches Rechnen mit diskreten Wahrscheinlichkeiten

2. Diskrete Verteilungen

3. Stetige Verteilungen

4. Mehrdimensionale Verteilungen

5. Verteilungen von Stichprobenkennzahlen

6. Grenzwertsätze

Danksagung: Für Anregungen zum Inhalt danken wir Univ.-Prof. Dr. Karl

Schlag!

5

Literatur

Die Reihenfolge entspricht dem Grad an Relevanz speziell fürdiese Lehrveranstaltung

• Karl Bosch: Elementare Einführung in dieWahrscheinlichkeitsrechnung

• Sheldon Ross: A First Course in Probability

Bücher gibt es mindestens 10 mal in Lehrbuchsammlung

• Dimitri Bertsekas, John Tsitsiklis: Introduction to Probability

• Brannath / Futschik: Statistik für Wirtschaftswissenschafter

• John Rice: Mathematical statistics and data analysis

• Robert Hafner: Wahrscheinlichkeitsrechnung und Statistik

• Walter Oberhofer: Wahrscheinlichkeitstheorie

• Jim Pitmann: Probability

6

Einführung

Mathematische Modellierung

Deterministisch

Stochastisch (Zufälligkeit, Unsicherheit)

Experiment mit verschiedenen möglichen Ausgängen – Ereignisse

Wahrscheinlichkeitsmodelle haben nicht den Anspruch exakteVorhersagen zu liefern

Modell liefert Aussagen über Wahrscheinlichkeit von Ereignissen

7

Beispiele

Konzeptionell einfach:

• Münzwurf

• Würfelspiele / Kartenspiele / Lotto

Konzeptionell etwas schwieriger:

• Nicht faire Münze

Konzeptionell schwierig:

• Wahlprognosen

• Kreditrückzahlung (Insolvenzprognoseverfahren)

• Sportwetten

8

Interpretation von Wahrscheinlichkeit

1. Laplace: Endlich viele Ereignisse

Alle Ereignisse gleiche Wahrscheinlichkeit

2. Frequentistisch:

Idee: Experiment das beliebig oft wiederholt werden kann

Relative Häufigkeit: Anzahl des Auftretens eines Ereignissesbei n Wiederholungen des Experiments

Wahrscheinlichkeit: Relative Häufigkeit für n → ∞

3. Subjektiv: Nicht immer taucht Wahrscheinlichkeit im Kontextvon beliebig oft wiederholbaren Ereignissen auf

Beispiel: Ärztliche Prognose, Sportwetten,Investitionsentscheidungen

9

Wahrscheinlichkeitsrechnung

Unabhängig von der Interpretation!

Axiomatische Wahrscheinlichkeitstheorie ⇒ Kolmogorov (1933)

• Ergebnisraum Ω (die Elemente ω ∈ Ω heißen Ergebnisse)

• Menge A aller zulässigen Ereignisse A: jedes zulässigeEreignis A ist ein Teilmenge von Ω

• Wahrscheinlichkeitsverteilung P : eine Funktion, die jedemEreignis A ∈ A eine Wahrscheinlichkeit P (A) zuordnet.

Die Funktion A 7→ P (A) hat folgende Eigenschaften

1. 0 ≤ P (A) ≤ 1

2. P (∅) = 0, P (Ω) = 1

3. P (A ∪B) = P (A) + P (B) falls A ∩B = ∅.

10

Beispiel 1: Münzwurf

Ergebnisraum: Ω = Kopf, Zahl

Ereignisse: ∅, Kopf, Zahl, Kopf oder Zahl

Wahrscheinlichkeitsverteilung: Falls faire Münze

P (Kopf) = 1/2, P (Zahl) = 1/2 (Elementarereignisse)

P (Kopf oder Zahl) = P (Kopf) + P (Zahl) = 1/2 + 1/2 = 1

P (weder Kopf noch Zahl) = P (∅) = 0

Interpretation: Laplace’scher Wahrscheinlichkeitsbegriff

Elementarereignis: A ⊂ Ω mit |A| = 1

d.h. einelementige Teilmenge

11

Übungen

Fairer Würfel

Ergebnisraum:

Ereignisse:

Wahrscheinlichkeitsverteilung:

Zwei faire Münzen

Ergebnisraum:

Ereignisse:

Wahrscheinlichkeitsverteilung:

12

Wahrscheinlichkeitsrechnungfür Statistik und VWLWS 2016/17

1 Grundbegriffe

1. Mengenlehre

2. Rechnen mit Wahrscheinlichkeiten

3. Kombinatorik

4. Bedingte Wahrscheinlichkeit

1

1.1 Mengenlehre

Ereignis: Teilmenge von Ω

Ac := Ω\A . . . KomplementA ∪B . . . VereinigungA ∩B . . . DurchschnittA ∩B = ∅ . . . Disjunkte Mengen

A\B := A ∩Bc

B ⊆ Ac ⇒ A\B =?

Venn Diagramm:

Ω

A

B

Indexschreibweise: Gegeben die Ereignisse A1, A2, . . . , An

⋃n

i=1 Ai = A1 ∪A2 ∪ · · · ∪ An

⋂

n

i=1 Ai = A1 ∩A2 ∩ · · · ∩ An

2

Rechenregeln

• Kommutativgesetz: A ∪B = B ∪A

• Assoziativgesetz: (A ∪B) ∪ C = A ∪ (B ∪ C)

• Distributivgesetz: (A ∪B) ∩ C = (A ∩ C) ∪ (B ∩ C)

• de Morgan: (A ∪B)c = Ac ∩Bc

Alle Regeln gelten auch wenn man ∪ und ∩ konsequentvertauscht!

Weiters gilt (Übung):

A ∩Ac = A ∪ Ac =

A ∪ Ω = A ∩ Ω =

A ∪ ∅ = A ∩ ∅ =

A ∪A = A ∩A =

3

Übung: Zwei Würfel

Es werden ein weisser und ein schwarzer Würfel geworfen.

• Ergebnisraum Ω:

• Welche Teilmengen entsprechen den folgenden Ereignissen

A : = Ein Würfel zeigt 4, der andere 2

B : = der schwarze Würfel zeigt eine gerade Augenzahl derweisse eine ungerade

C := die Summe der Augenzahlen beträgt 8

• Welche der genannten Ereignisse sind disjunkt?

• Bilde (A ∪B)c ∩ C ∪ [A ∩ (B ∪ C)]

4

1.2 Rechnen mit Wahrscheinlichkeiten

1. 0 ≤ P(A) ≤ 1

2. P(∅) = 0, P(Ω) = 1

3. P(A ∪B) = P(A) + P(B) falls A ∩B = ∅.

Einfache Folgerungen:

• A1, . . . , An paarweise disjunkt, dann gilt

P

(

n⋃

i=1

Ai

)

=

n∑

i=1

P(Ai)

• P(A ∪B) = P(A) + P(B)− P(A ∩B) ≤ P(A) + P(B)

• B ⊂ A ⇒ P(B) ≤ P(A)

• P(A\B) = P(A)− P(B ∩A) P(Ac) = 1− P(A)

5

Übung

A,B und C seien Ereignisse (Teilmengen von Ω) jeweils mitWahrscheinlichkeit P(A) = 0.8,P(B) = 0.3,P(C) = 0.7.

Weiters gelte

A ∪ C = Ω, B ⊂ A, B und C sind disjunkt

1. Berechne P(A ∩ C)

2. Welche der folgenden Aussagen sind richtig

(a) A ⊂ C?

(b) C ⊂ A?

(c) B ∪ C = Ω?

6

Ereignisse mit Wahrscheinlichkeit null

Der Formalismus der Wahrscheinlichkeitsrechnung erlaubt auchden Fall, dass ein Ereignis A, obwohl es logisch gesehen möglichist, dennoch Wahrscheinlichkeit null hat: Aus P(A) = 0 folgt nichtzwingend, dass A = ∅.

Beispiel: Wenn wir annehmen, dass ein Punkt X zufällig aus demIntervall [0, 1] gewählt wird, ohne dass irgendein Teilbereich diesesIntervalls bei der Auswahl bevorzugt wird (wir werden später vonGleichverteilung auf [0, 1] sprechen), hat z.B. das Ereignis X = 0.5

die Wahrscheinlichkeit null. Dennoch ist es nicht logisch unmöglich(sonst wäre überhaupt kein Ergebnis möglich!).

Der exakte Aufbau der Wahrscheinlichkeitsrechung wird durch dieBerücksichtigung von Ereignissen mit Wahrscheinlichkeit nullkomplizierter; viele Aussagen brauchen z.B. den Zusatz “mitWahrscheinlichkeit 1”.

7

Laplace’sche Wahrscheinlichkeit

|Ω| = n < ∞ . . . Ergebnisraum mit endlich vielen Elementen

Alle Elementarereignisse gleiche Wahrscheinlichkeit

⇒ P(A) = |A|/n

Berechnung der Wahrscheinlichkeit durch Zählen der Elementeeiner Menge ⇒ Kombinatorik

Beispiel : Urne mit 5 schwarzen und 6 weißen Bällen

Wie groß ist die Wahrscheinlichkeit dass zwei gezogene Bälle weißsind?

a) Mit Zurücklegen: P = 6/11 · 6/11 = 36/121 ∼ 0.2975

b) Ohne Zurücklegen: P = 6/11 · 5/10 = 30/110 ∼ 0.2727

8

1.3 Grundbegriffe der Kombinatorik

Permutation: Anzahl der möglichen Anordnungen von n

verschiedenen Elementen

n! = n · (n− 1) · · · · 1

Beispiel: Auf wie viele verschieden Arten kann man abc anordnen?

abc, acb, bac, bca, cab, cba 3! = 3 · 2 · 1 = 6

Auf wie viele verschieden Arten kann man abcd anordnen?abcd, acbd, bacd, bcad, cabd, cbadabdc, acdb, badc, bcda, cadb, cbdaadbc, adcb, bdac, bdca, cdab, cdbadabc, dacb, dbac, dbca, dcab, dcba

4! = 4 · 3 · 2 · 1 = 24

Man definiert: 0! = 1

9

r - Permutation mit Wiederholung

Anzahl der Möglichkeiten r Elemente aus einer Gesamtheit von n

Elementen zu ziehen:

Mit zurücklegen, Reihenfolge wesentlich

Beispiel: n = 4, r = 2

aa, ab, ac, ad, ba, bb, bc, bd, ca, cb, cc, cd, da, db, dc, dd

n Möglichkeiten für jede der r Positionen ⇒ nr Möglichkeiten

Übung: Wie viele Zahlen kann man mit allen 10-stelligenZiffernkombinationen im Dualsystem (Ziffern 0 und 1) darstellen?

10

r - Permutation ohne Wiederholung



Ohne zurücklegen, Reihenfolge wesentlich

Beispiel: n = 4, r = 2 ab, ac, ad, ba, bc, bd, ca, cb, cd, da, db, dc

Nicht mehr relevant: aa, bb, cc, dd

n Möglichkeiten für die erste Position, n− 1 für die zweite, . . .n− r + 1 für die r−te Position

⇒ n · (n− 1) · · · (n− r + 1) = n!(n−r)! Möglichkeiten

Bemerkung: Es muss gelten: r ≤ n

r = n gibt als Spezialfall die normale Permutation

11

r - Kombination ohne Wiederholung



Ohne zurücklegen, Reihenfolge egal

Beispiel: n = 4, r = 2 ab, ac, ad, bc, bd, cd

Nicht mehr relevant: ba, ca, da, cb, db, dc

Es gibt r! Möglichkeiten die Elemente innerhalb von einer Gruppeanzuordnen

⇒(

n

r

)

:= n·(n−1)···(n−r+1)r! = n!

(n−r)!r! Möglichkeiten

Bemerkung: Es muss klarerweise wieder gelten: r ≤ n

12

r - Kombination mit Wiederholung



Mit zurücklegen, Reihenfolge egal

Beispiel: n = 4, r = 2 aa, ab, ac, ad, bb, bc, bd, cc, cd, dd

Hinzugekommen: aa, bb, cc, dd

Anzahl der Möglichkeiten:

(

n+r−1r

)

= (n+r−1)!(n−1)! r! =

(n+r−1)···nr!

n = 4, r = 2 : 5!3! 2! =

5·42 = 10

13

Beispiel: r - Kombination mit Wiederholung

Hochzeitsgesellschaft, 30 Gäste, 3 Menüs zur Auswahl

Wieviele Möglichkeiten gibt es 30 Menüs zu bestellen?

Eine Möglichkeit: 8 mal Menü A, 12 mal Menü B, 10 mal Menü C

AAAAAAAA | BBBBBBBBBBBB |CCCCCCCCCC

Durch die beiden Trennsymbole | wird diese Kombination eindeutigfestgelegt

Somit Fragestellung äquivalent dazu, wie viele Möglichkeiten gibtes "zwei Trennwände" zu setzen

Wähle 2 (= n− 1) von 32 (= n+ r − 1) Positionen, Reihenfolgeegal, ohne zurücklegen(

n+r−1n−1

)

=(

n+r−1r

)

=(

322

)

= 31 · 16 = 496

14

Zusammenfassung



Reihenfolge mit Wiederholung ohne Wiederholung (n ≥ r)

relevant nr

n!/(n− r)!

egal(

n+r−1r

) (

n

r

)

Faktorielle (auch Fakultät):

n! = n · (n− 1) · · · 1, 0! = 1

Binomialkoeffizient:(

n

r

)

= n·(n−1)···(n−r+1)r! = n!

(n−r)! r!

15

Beispiel

8 Männer und 6 Frauen sollen eine Kommitee bestehend aus 3Männern und 3 Frauen bilden. Wieviele mögliche Kommitees gibtes, wenna) 2 Frauen nicht kooperieren wollen?b) 2 Männer nicht kooperieren wollen?c) Ein Mann und eine Frau nicht kooperieren wollen?

Lösung :Ohne Konflikte:

(

83

)(

63

)

= 1120 KommiteesSubtrahiere davon jeweils die Anzahl der unmöglichen Komitees:a)

(

83

) [(

63

)

− 4]

= 896

b)(

63

) [(

83

)

− 6]

= 1000

c)(

83

)(

63

)

−(

72

)(

52

)

= 910

16

Übungsaufgabe (etwas schwierig)

In einem Dorf gibt es 4 Frisöre, und 4 verschiedene Personenwollen zu einem Frisör. Wie groß ist die Wahrscheinlichkeit, dassgenau i Frisöre einen Auftrag erhalten.

Lösung :

• P(i = 1) = 1/64

• P(i = 2) = 21/64

• P(i = 3) = 36/64

• P(i = 4) = 6/64

17

Einschub: Binomischer Lehrsatz

(x+ y)n =n∑

k=0

(

n

k

)

xkyn−k

Beweis durch vollständige Induktion:

1) n = 1 :(

10

)

x0y1−0 +(

11

)

x1y1−1 = x+ y

2) (n− 1) → n : Angenommen der Satz ist richtig für n− 1.

Schreibe (x+ y)n = (x+ y)(x+ y)n−1, verwende den binomischenLehrsatz für (x+ y)n−1 und zeige damit, dass sich die rechte Seite

tatsächlich alsn∑

k=0

(

n

k

)

xkyn−k schreiben läßt.

Hilfreiche Identität für den Beweis:(

n

r

)

=

(

n− 1

r − 1

)

+

(

n− 1

r

)

18

Einschub: Pascalsches Dreieck

Schema der Binomialkoeffizienten:

n = 0 1

n = 1 1 1

n = 2 1 2 1

n = 3 1 3 3 1

n = 4 1 4 6 4 1

n = 5 1 5 10 10 5 1

(x+ y)2 = x2 + 2xy + y

2

(x+ y)3 = x3 + 3x2

y + 3xy2 + y3

(x+ y)4 = x4 + 4x3

y + 6x2y2 + 4xy3 + y

4

19

Übungen

Zug mit 10 Waggons, Schaffner kontrolliert 2 davon; pro Waggonkontrolliert er 2 PersonenEinzigen 4 Schwarzfahrer in einem Waggon mit 12 Fahrgästen

1. Wieviele Möglichkeiten hat Schaffner Waggons zu wählen

2. Mit welcher Wahrscheinlichkeit erwischt er Waggon mit denSchwarzfahrern?

3. Mit welcher Wahrscheinlichkeit erwischt er mindestens einenSchwarzfahrer, wenn er ihren Waggon kennt?

4. Mit welcher Wahrscheinlichkeit erwischt er mindestens einenSchwarzfahrer, wenn er ihren Waggon nicht kennt?

20

1.4 Bedingte Wahrscheinlichkeit

Noch mal Beispiel der Urne mit 5 schwarzen und 6 weißen Bällen.

Wahrscheinlichkeit dass zwei gezogene Bälle weiß sind?

Ohne Zurücklegen: P = 6/11 · 5/10 = 30/110 ∼ 0.2727

In Worten: 6/11 . . . Wahrscheinlichkeit, dass erste Kugel weiß

5/10 . . . Wahrscheinlichkeit, dass zweite Kugel weiß,

falls erste Kugel weiß war

Formal: A . . . erste Kugel weiß

B . . . zweite Kugel weiß

B|A . . .B wenn A, oder B unter der Bedingung A,

d.h. zweite Kugel weiß falls erste Kugel weiß

P(B ∩A) = P(A)P(B|A)

21

Definition bedingte Wahrscheinlichkeit

P(B|A) = P(B ∩ A)/P(A)

Interpretation: Ω und P : Ω → [0, 1] repräsentieren Information zuBeginn eines Experiments, Ω enthält alle möglichen Ereignisse

Zusätzliche Information ⇒ nur Ereignisse möglich, die Teilmengenvon A sind. A wird zum neuen (reduzierten) Ergebnisraum.

Die bedingte Wahrscheinlichkeit eines Ereignisses B entsprichtdem ‘Anteil’ von B an A.

Wir nennen fortan Ω gemeinsam mit P : Ω → [0, 1] einenWahrscheinlichkeitsraum(Bemerkung: Genaugenommen braucht man auch noch eine sog.σ - Algebra A. Wir betrachten zunächst endlicheWahrscheinlichkeitsräume, hier ist A die Potenzmenge von Ω.)

22

Fortsetzung: Bedingte Wahrscheinlichkeit

Die bedingte Wahrscheinlichkeit ist tatsächlich eineWahrscheinlichkeit:

Reduzierter Ergebnisraum A

P(A|A) = P(A ∩A)/P(A) = 1

B ∩ C = ∅ ⇒ P(B ∪ C|A) = P(B|A) + P(C|A)

Übung: In einer LVA gab es zwei Beurteilungstests. 50% derStudierenden bestanden den ersten Test und 35% bestandenbeide Tests. Wieviele Prozent der Studierenden die den erstenTest schafften scheiterten am zweiten Test?

23

Produktformel

Manchmal hilfreich:

P(⋂n

i=1Ai) = P(A1)P(A2|A1)P(A3|A1 ∩A2) · · ·P(An|⋂n−1

i=1 Ai)

Beweis: Iteratives Anwenden der Definition von bed. Wahrsch.

Übung: Übliches Set von Spielkarten zufällig in vier Stapel zu je13 Karten aufgeteilt

Berechne Wahrscheinlichkeit, dass in jedem Stapel ein As

Hinweis: Definiere die Ereignisse

A1 = Pik As befindet sich in irgendeinem Stapel A2 = Pik As und Herz As in verschiedenen Stapeln

A3 = Pik, Herz und Karo As in verschiedenen Stapeln

A4 = Alle Asse in verschiedenen Stapeln

Lösung: 0.1055

24

Satz von der totalen Wahrscheinlichkeit

Seien A1, A2, . . . , An disjunkte Ereignisse und Ω =n⋃

i=1

Ai

Dann gilt

P(A) = P(A1)P(A|A1) + · · ·+ P(An)P(A|An)

Beweis:

Rechte Seite: P(A ∩A1) + · · ·+ P(A ∩An)

Ai disjunkt ⇒ R.S. = P

(

n⋃

i=1

(A ∩Ai)

)

Ai vollständig ⇒n⋃

i=1

(A ∩Ai) = A

25

Satz von Bayes

Seien A und B Ereignisse mit positiver Wahrscheinlichkeit

Dann gilt:

P(A|B) = P(A)P(B|A)/P(B)

Beweis: P(A)P(B|A) = P(B)P(A|B) = P(A ∩B)

Aufgrund des Satzes der totalen Wahrscheinlichkeit gilt auch

P(A|B) =P(A)P(B|A)

P(A)P(B|A) + P(Ac)P(B|Ac)

Typische Anwendung: Bayesianische Statistik

26

Übung Bayes, Totale Wahrscheinlichkeit

Versicherung teilt Autofahrer in 3 Klassen

Prozent P(Unfall im ersten Jahr)

schlecht 30 0.6

mittel 60 0.1

gut 10 0.01

a) Wahrscheinlichkeit für Unfall im ersten Jahr von beliebigemAutofahrer?

Lösung: 0.241

b) Wahrscheinlichkeit, dass jemand der im ersten Jahr einen Unfallhat ein guter Autofahrer ist?

Lösung: 0.00415

27

Interpretation medizinischer Testergebnisse

Gigerenzer et al. (z.B. in “Helping doctors and patients make senseof health statistics”, 2008) zeigen, dass nicht nur Patienten,sondern sogar Ärzte die aus medizinischen Tests abgeleitetenWahrscheinlichkeiten häufig völlig falsch einschätzen.

Beispiel: Ein Labortest auf HIV habe folgende Kennzahlen:

95% Sensitivität (Test positiv falls tatsächlich krank)99% Spezifität (Test negativ falls gesund)

In der untersuchten Region sind 0.5% der Bevölkerung HIV-positiv.

a) Schätze die Wahrscheinlichkeit, dass jemand mit einempositiven Test tatsächlich erkrankt ist!

b) Berechne die Wahrscheinlichkeit, dass jemand mit einempositiven Test tatsächlich erkrankt ist!

28

Unabhängige Ereignisse

Noch mal Beispiel der Urne mit 5 schwarzen und 6 weißen Bällen.

Wahrscheinlichkeit dass zwei gezogene Bälle weiß sind?

Mit Zurücklegen: P = 6/11 · 6/11 = 36/121 ∼ 0.2975

Durch das Zurücklegen werden die beiden EreignisseA = (erste Kugel weiß) und B = (zweite Kugel weiß)voneinander unabhängig: P(B|A) = P(B) = 6/11

Das wissen um A liefert keine Information für B

Allgemeine Definition: Zwei Ereignisse A und B unabhängig falls

P(A ∩B) = P(A)P(B)

Beispiele: Mehrere Würfel, Münzen, etc.

29

Beispiel Unabhängigkeit

In einer Gruppe von Leuten befinden sich 8 Raucher und12 Raucherinnen, sowie 10 Nichtraucher.

Wieviele Nichtraucherinnen sind in der Gruppe, falls bei derzufälligen Wahl einer Person das Geschlecht vom Rauchverhaltenunabhängig ist?

Lösung: Sei x die Zahl der Nichtraucherinnen

P(raucht) = 20/(30 + x) P(männlich) = 18/(30 + x)

P(raucht und männlich) = 8/(30 + x)

Unabhängigkeit: (20/(30 + x)) · (18/(30 + x)) = 8/(30 + x)

⇒ 18 · 20 = 8 · (30 + x) ⇒ 45 = 30 + x

Somit x = 15 Nichtraucherinnen.

30

Multiple Unabhängigkeit

Drei Ereignisse A, B und C heissen unabhängig falls

1. alle 3 Ereignisse jeweils paarweise unabhängig

2. P(A ∩B ∩ C) = P(A)P(B)P(C)

Aus paarweiser Unabhängigkeit folgt NICHT multipleUnabhängigkeit!

Übung: Zwei faire Würfel

Ereignis A: Erster Würfel fällt auf 4

Ereignis B: Zweiter Würfel fällt auf 3

Ereignis C: Summe der Würfel gibt 7

31

Übungen - Wiederholung

1. Urne mit 3 blauen und 2 roten Kugeln,

ziehe 3 mal mit zurücklegen

Mit welcher Wahrscheinlichkeit

• ist die zweite gezogene Kugel blau?

• sind alle gezogenen Kugeln rot?

• sind alle gezogenen Kugeln blau?

• werden 2 rote Kugeln gezogen?

2. Wie 1) aber ziehen ohne zurücklegen!

Hinweis:X . . . Anzahl der gezogenen roten Kugeln ist eine Zufallsvariable

32

Inverse Fallacy

Der falsche Umgang mit bedingten Wahrscheinlichkeiten gehört zuden häufigsten Fehlerquellen in der Anwendung derWahrscheinlichkeitsrechung. Ein verbreiteter Fehlertyp ist diesogenannte inverse fallacy, die intuitive Gleichsetzung von P (A|B)

mit P (B|A) (vgl. auch das obige Beispiel der Interpretationmedizinischer Testergebnisse).

Beispiel: Bei den meisten Unfällen ist das Unfallsopfer weniger als25 km von daheim entfernt. (Irrtümliche) Folgerung: Am sicherstenist man, wenn man so weit von daheim weg ist wie möglich.

P( Entfernung ≤ 25 | Unfall) > P( Entfernung > 25 | Unfall)

ist richtig, nicht aber

P( Unfall | Entfernung ≤ 25) > P( Unfall | Entfernung > 25).

33

Das Drei-Türen-Problem

Ein weiterer Typ von Fehlern im Zusammenhang mit bedingtenWahrscheinlichkeiten resultiert aus der Vernachlässigung desEinflusses neuer Informationen auf die bedingteWahrscheinlichkeit.

Das Drei-Türen-Problem illustriert diesen Effekt. Marilyn vosSavant stellte in ihrer Kolumne im Magazin Parade im Jahr 1990folgende Frage:

“Angenommen Sie sind in einer Gewinnshow und haben die Wahl zwischen 3

Türen: Hinter einer Tür ist ein Auto, hinter den beiden anderen Türen Ziegen. Sie

wählen eine Tür, sagen wir Nr. 1, und der Quizmaster, der weiss, was hinter den

Türen ist, öffnet eine andere Tür, sagen wir Nr. 3, die eine Ziege dahinter hat. Er

sagt dann zu Ihnen: ‘Wollen Sie Tür Nr. 2?’ Ist es vorteilhaft zu wechseln?”

34

Drei-Türen-Problem – Kontroverse

Antwort von vos Savant: Ja, man sollte wechseln.

Zahlreiche Leserbriefschreiber bestritten die Korrektheit derAntwort mit dem Argument: Türen 1 und 2 haben dieselbeWahrscheinlichkeit, auf das Auto zu führen. Was soll sich durchdas Öffnen von Tür 3 (hinter der kein Auto steht) daran ändern? Esbringt also nichts, die ursprüngliche Entscheidung zu revidieren.

Dieses Argument ist falsch . Unter einschränkendenVoraussetzungen (nächste Folie) kann gezeigt werden, dass dieWahrscheinlichkeit, durch Wechseln das Auto zu erhalten, 2/3beträgt, durch Beharren auf der ursprünglichen Wahl hingegennur 1/3.

35

Drei-Türen – Präzisierung

Voraussetzungen:

1. Die Wahrscheinlichkeit, mit der das Quiz-Team vor der Showdas Auto hinter einer der Türen versteckt, ist für jede Türdieselbe.

2. Der Quizmaster öffnet in jedem Fall eine Tür, die kein Autoenthält, und wenn er dabei die Wahl zwischen zwei Türen hat,gibt er beiden Türen dieselbe Wahrscheinlichkeit.

Ohne diese Voraussetzungen ist das Problem wesentlichkomplexer (vgl. etwa Richard Gill 2010).

36

Drei-Türen-Problem – Wahrscheinlichkeiten

Angenommen, der Kandidat wählt Tür Nr. 1.

A = Nr. der Tür, hinter der das Auto ist

B = Nr. der Tür, die der Quizmaster öffnet

Voraussetzung 1 besagt:

P(A = 1) = P(A = 2) = P(A = 3) = 1/3

Voraussetzung 2 besagt:

P(B = 2 |A = 1) = P(B = 3 |A = 1) = 1/2

P(B = 2 | A = 2) = P(B = 3 |A = 3) = 0

P(B = 3 | A = 2) = P(B = 2 |A = 3) = 1

37

Drei-Türen-Problem – Lösung

Anwendung des Satzes von Bayes liefert:

P(A = 1 |B = 3) = P(B = 3 |A = 1) ·P(A = 1)

P(B = 3)=

1

2·

13

P(B = 3)

P(A = 2 |B = 3) = P(B = 3 |A = 2) ·P(A = 2)

P(B = 3)= 1 ·

13

P(B = 3)

also ist die Gewinnwahrscheinlichkeit bei Wechseln doppelt sogross wie bei Beharren auf der ersten Wahl.

(Anwendung des Satzes von der totalen Wahrscheinlichkeit liefertP(B = 3) = 1/2 und damit die Werte 1/3 bzw. 2/3 für die beidenobigen Wahrscheinlichkeiten.)

38


2 Diskrete Verteilungen

1. Einführung

2. Erwartungswert und Varianz

3. Die Binomialverteilung

4. Die Poissonverteilung

5. Andere diskrete Verteilungen

1

2.1 Einführung

Beispiel: Fairer Würfel, Beobachtungen: 1, 2, 3, 4, 5, 6

Jede Augenzahl hat Wahrscheinlichkeit pi = 1/6 (i = 1, . . . , 6).

Beim Würfeln beobachten wir Realisierungen einerZufallsvariablen.

(Reelle) Zufallsvariable: Abbildung einesWahrscheinlichkeitsraums in die Menge der reellen Zahlen:

X : Ω → R

Im Beispiel:

Ω = 1, 2, 3, 4, 5, 6

X(i) = i

2

Fortsetzung Beispiel

Zwei faire Würfel, X = Summe der Augenzahlen.

Ω = 1, 2, 3, 4, 5, 6 × 1, 2, 3, 4, 5, 6.

Wahrscheinlichkeit pij für (i, j) ist 1/36 für jedes Paar (i, j).

Zufallsvariable X : Ω → R gegeben durch X(i, j) = i+ j.

P (2) = P (12) = 1/36

P (3) = P (11) = 2/36

P (4) = P (10) = 3/36

P (5) = P (9) = 4/36

P (6) = P (8) = 5/36

P (7) = 6/36

Wertebereich: X = X(Ω) = 2, . . . , 12.

3

Weiteres Beispiel

Faire Münze: Werfe entweder Kopf (K) oder Zahl (Z)

Ω = K,Z

Spiel: Bei Kopf Gewinn von 10 Euro, sonst 10 Euro Verlust

X : Ω → R

X(K) = 10, X(Z) = −10,

P (10) = P(X = 10) = P(K) = 0.5

P (−10) = P(X = −10) = P(Z) = 0.5

Wertebereich: X = X(Ω) = −10, 10.

Bemerkung: In den letzten beiden Beispielen wurden dieElementarereignisse in Ω nicht mit den möglichen Werten derZufallsvariable identifiziert!

4

Diskrete Zufallsvariable

Ergebnisraum Ω mit endlich oder abzählbar vielen Elementen,

d.h. indizierbar mit 1, 2, . . .: Ω = ω1, ω2, ω3, . . .

Eine (reelle) Zufallsvariable X ist eine Funktion der FormX : Ω → R

Der Zufallsvariablen X ist die Wahrscheinlichkeitsfunktion P = PX

wie folgt zugeordnet:

P : X → [0, 1], P (x) = P(X = x) =∑

ω∈Ω:X(ω)=x pω,

wobei pω die Wahrscheinlichkeit des Elementarereignisses ω ∈ Ω

ist.

Wahrscheinlichkeiten der Elementarereignisse beschreibenVerteilung einer diskreten Zufallsvariable vollständig.

5

Verteilungsfunktion

Englisch: Cumulative distribution function (cdf)

F : R → [0, 1], F (x) = P(X ≤ x) =∑

xi≤x P(X = xi)

Beispiel Würfel:

−2 0 2 4 6 8

0

0.2

0.4

0.6

0.8

1

F(x

) =

P(X

≤ x

)

x

6

Gleichverteilung

n mögliche Ereignisse mit gleicher Wahrscheinlichkeit

Ω = 1, . . . , n pi = 1/n

Wählen X(i) = i, d.h. X = Ω.

Verteilungsfunktion:

F (x) =

0, x < 1

i/n, i ≤ x < i+ 1, i = 1, . . . , n− 1

1, x ≥ n

An den Stellen x ∈ Ω springt Verteilungsfunktion um den Wert 1/n

Auch bei anderer Wahl der pi gilt folgender Zusammenhangzwischen Verteilungsfunktion und Wahrscheinlichkeitsfunktion:

P (i) = F (i)− F (i− 1), falls i ∈ Ω = 1, . . . , n

7

Eigenschaften der Verteilungsfunktion

Für diskrete Zufallsvariablen gilt:

Die Verteilungsfunktion ist eine monoton wachsendeTreppenfunktion mit Sprungstellen bei Ereignissen mit positiverWahrscheinlichkeit.

Es gilt allgemein für Verteilungsfunktionen:

• P (x) = F (x)− F (x−), wobei F (x−) = limh→x,h<x

F (h)

Folgt aus der Definition von F (x) = P(X ≤ x)

• P(a < X ≤ b) = F (b)− F (a)

• lima→−∞

F (a) = 0, limb→∞

F (b) = 1

• F (x) monoton wachsend

8

Übung

Die Verteilungsfunktion einer Zufallsvariablen X sei

F (x) =

0, x < 1

1− 2−k, k ≤ x < k + 1, k = 1, 2, . . .

1. Zeiche die Verteilungsfunktion im Bereich x ∈ [0, 5]

2. Bestimme die Wahrscheinlichkeitsfunktion von X

3. Mit welcher Wahrscheinlichkeit ist X > 5?

9

2.2 Erwartungswert und Varianz

Wesentliche Kenngrößen von Verteilungen

Werden in der Praxis häufig verwendet

⇒ Reduktion der Information von Daten

Erwartungswert ist ein Maß für die zentrale Lage einer Verteilung,entspricht dem arithmetischen Mittel einer Stichprobe

Varianz ist ein Maß für die Streuung einer Verteilung,entspricht den Abweichungen vom Mittelwert die man in einerStichprobe erwarten kann

Beide Kennzahlen basieren auf Momenten der Verteilung, und sindspeziell für die Normalverteilung von großer Bedeutung

10

Erwartungswert

Diskrete Zufallsvariable X auf Ω mit Wahrscheinlichkeitsfunktion P

Definition Erwartungswert:

E(X) =∑

x∈X

xP (x)

wobei wieder X = X(Ω) = Wertebereich von X .

Gewichtete Summe der Werte, Gewichte sindWahrscheinlichkeiten.

Übliche Notation: µ = E(X)

Beispiel Würfel:

E(X) = 1 · 1/6 + 2 · 1/6 + · · ·+ 6 · 1/6

=1 + 2 + 3 + 4 + 5 + 6

6= 21/6 = 3.5

11

Median

Unter einem Median einer Zufallsvariablen X auf Ω versteht maneine Zahl m mit den Eigenschaften

P(X ≤ m) ≥ 1/2, P(X ≥ m) ≥ 1/2.

Der Median muss nicht eindeutig sein. Z.B. hat eine auf 1, . . . , 5gleichverteilte Zufallsvariable einen eindeutigen Median (m = 3).Für eine auf 1, . . . , 6 gleichverteilte Zufallsvariable hingegen istjede Zahl m mit 3 < m < 4 ein Median. Meist nimmt man in diesemFall den mittleren Wert (hier 3.5) als Repräsentaten.

Der Median kann sich vom Erwartungswert stark unterscheiden(typisches Beispiel: Einkommensverteilung!). Für eine auf4, 5, 6, 8, 13, 18, 93 gleichverteilte Zufallsvariable etwa ist derMedian 8, der Erwartungswert 21.

12

Funktionen von Zufallsvariablen

Erweitern eine Zufallsvariable X auf Ω durch Verknüpfung mit einerFunktion g:

X : Ω → R, g : R → R.

Y (ω) := (g X)(ω) = g(X(ω)).

Y : Ω → R, ist also wieder eine Zufallsvariable.

Die Wahrscheinlichkeitsfunktion von Y wird ganz analog gebildetwie die von X :

PY (y) = PY (Y = y) =∑

ω∈Ω:Y (ω)=y pω.

Der Wertebereich Y von Y ist Y = Y (Ω) = g(X(Ω)) = g(X ).

D.h. die Werte x werden transformiert zu Werten g(x).Wahrscheinlichkeiten addiert für alle x mit gleichem Wert g(x).

13

Beispiele für Funktionen von Zufallsvariablen

1. Würfel, Ω = 1, . . . , 6, X(ω) = ω, Funktion g(x) = x2

Die Zufallsvariable Y = X2 hat WertebereichY = 1, 4, 9, 16, 25, 36 und WF

PY (1) = PY (4) = PY (9) = PY (16) = PY (25) = PY (36) = 1/6

2. Würfel, Ω = 1, . . . , 6, Funktion g(x) = (x− 3.5)2.

Die Zufallsvariable Z = (X − 3.5)2 hat WertebereichZ = 2.52, 1.52, 0.52 = 6.25, 2.25, 0.25 und WF

P (6.25) = p1 + p6 = 1/3

P (2.25) = p2 + p5 = 1/3

P (0.25) = p3 + p4 = 1/3

Übung: Ω = −1, 0, 1, X(ω) = ω,

P(X = −1) = P(X = 1) = 1/4, P(X = 0) = 1/2

Berechne WF von Y = X2 und Z = X

3

14

Erwartungswert von Funktionen

Beispiel: Würfel – Fortsetzung:

1) E(g(X)) = E(Y ) = 1 · 1/6 + 4 · 1/6 + · · ·+ 36 · 1/6

=1 + 4 + 9 + 16 + 25 + 36

6= 91/6 = 15.1667

2) E(g(X)) = E(Z) = 6.25/3 + 2.25/3 + 0.25/3 = 2.9167

Allgemein: Berechnung des Erwartungswerts von g(X):

E(g(X)) =∑

x∈X

g(x)P (x)

Alternative Darstellung:∑

x∈X

g(x)P (x) =∑

y∈Y

yPY (y)

15

Anwendungsbeispiel: Erwartungsnutzentheorie

Wenn die Zufallsvariable X “Gewinn” repräsentiert, kann voneinem risikoneutralen Entscheidungsträger vermutet werden,dass er/sie bestrebt ist, E(X) zu maximieren.

Menschen sind selten risikoneutral. Was hätten Sie lieber:

• 1 000 000 Euro mit Sicherheit, oder

• 2 000 001 Euro mit Wahrscheinlichkeit 0.5?

Ein klassischer Erklärungsansatz für Risikoaversion liegt in derAnnahme, dass der Entscheidungsträger nicht E(X) maximiert,sondern E(g(X)), wobei g eine konkave Nutzenfunktion ist(Expected Utility Theory).

16

Lineare Transformation

Allgemein gilt für a, b ∈ R:

E(aX + b) = aE(X) + b

Beweis:

E(aX + b) =∑

x∈X

(ax+ b)P (x)

= a

∑

x∈X

xP (x) + b

∑

x∈X

P (x)

= aE(X) + b

Speziell gilt: E(X − µ) = E(X − E(X)) = 0

17

Varianz

Definition : Var (X) := E(X − µ)2

Folgende Formel, die mitunter leichter zu berechnen ist alsE(X − µ)2, ist äquivalent:

Var (X) = E(X2)− µ2

Beweis:

E(X − µ)2 =∑

x∈X

(x− µ)2P (x) =∑

x∈X

(x2 − 2µx+ µ2)P (x)

=∑

x∈X

x2P (x)− 2µ

∑

x∈X

xP (x) + µ2∑

x∈X

P (x)

= E(X2)− 2µ2 + µ2 = E(X2)− µ

2

Übung: Varianz Augenzahl Würfelwurf mit beiden Formeln

18

Beispiel zur Varianz

Drei Zufallsvariablen X1, X2, X3

X1 = 0 mit Wahrscheinlichkeit 1

X2 gleichverteilt auf −1, 0, 1

X3 gleichverteilt auf −50,−25, 0, 25, 50

Alle drei Zufallsvariabeln haben Erwartungswert 0

Var (X1) = 02 · P (0) = 0

Var (X2) = (−1)2 · 1/3 + 12 · 1/3 = 2/3

Var (X3) = (−50)2 · 1/5 + (−25)2 · 1/5 + 252 · 1/5 + 502 · 1/5 = 1250

Varianz plus MW gibt mehr Information über Verteilung alsMittelwert allein

19

Eigenschaften der Varianz

Allgemein gilt für a, b ∈ R:

Var (aX + b) = a2Var (X)

Beweis :

Var (aX + b) = E(aX + b− aµ− b)2 = a2E(X − µ)2

Speziell: Var (−X) = Var (X)

Var (X + b) = Var (X)

Übliche Notation : σ2 = Var (X)

σ . . . Standardabweichung: SD(X) =√

Var (X)

20

Warum ist die Varianz ein gutes Maß?

Man kann sich fragen, weshalb nicht anstelle der Varianz diemittlere Absolutabweichung E(|X − µ|) als Streuungsmaßgenommen wird.

Die Varianz hat jedoch mehrere thoretische und praktischeVorteile. Z.B. hätte man gerne, dass das Maß für die Abweichungvon einem Wert µ′ dann am niedrigsten ist, wenn µ

′ derErwartungswert µ ist. Dies ist jedoch für die mittlereAbsolutabweichung nicht der Fall: Für Gleichverteilung auf 0, 4, 5etwa ist µ = 3, aber E(|X − 3|) = 2 > 5/3 = E(|X − 4|).Quadrieren der Abweichungen erfüllt die angegebene Forderung,denn

E((X − µ′)2) = E([(X − µ) + (µ− µ

′)]2)

= Var (X) + (µ− µ′)2 +2E((X − µ)(µ− µ

′)) = Var (X) + (µ− µ′)2.

21

Momente von Verteilungen

k-tes Moment einer Zufallsvariable: mk := E(Xk)

k-tes zentriertes Moment: zk = E((X − µ)k)

m1 . . . Mittelwert

z2 = m2 −m21 . . . Varianz

Weiters von Bedeutung sind das dritte und das vierte Moment

Schiefe: ν(X) := z3σ3 = E(X3

∗) wobei X

∗:= (X − µ)/σ

• ν(X) = 0 . . . symmetrische Verteilung

• ν(X) < 0 . . . linksschief

• ν(X) > 0 . . . rechtsschief

Kurtosis: z4σ4 = E(X4

∗) (auch Wölbung)

22

Übung: Schiefe

Eine Zufallsvariable X habe folgende Wahrscheinlichkeits-verteilung:

P (1) = 0.05, P (2) = 0.1, P (3) = 0.3, P (4) = 0.5, P (5) = 0.05

Zeichne Wahrscheinlichkeitsfunktion und Verteilungsfunktion

Berechne die Schiefe!

Lösung: −0.6720.843/2 ∼ −0.8729

Wie lautet die Schiefe für die folgende leicht veränderte Verteilung?

P (1) = 0.05, P (2) = 0.3, P (3) = 0.3, P (4) = 0.3, P (5) = 0.05

23

2.3 Binomialverteilung

Bernoulli - Experiment: Zwei mögliche Ergebnisse (0 oder 1)

P(X = 1) = p, P(X = 0) = q wobei q = 1− p

Zum Beispiel faire Münze: p = 1/2

Beispiel: Werfe unfaire Münze zwei mal. P(Kopf) = p = 0.7

Wahrscheinlichkeitsverteilung der Anzahl der Köpfe Z?

Ω = 0, 12, Wertebereich von Z ist Z = 0, 1, 2

Die beiden Würfe sind voneinander unabhängig!

P(Z = 0) = P(X1=0, X2=0) = P(X1=0)P(X2=0) = 0.32 = 0.09

P(Z = 1) = P(X1=0, X2=1) + P(X1=1, X2=0) =

= 2 · P(X1=0)P(X2=1) = 2 · 0.3 · 0.7 = 0.42

P(Z = 2) = P(X1=1, X2=1) = P(X1=1)P(X2=1) = 0.72 = 0.49

24

Binomialverteilung

n unabhängige Bernoulli Experimente mit P(X = 1) = p

Y := Anzahl der Experimente mit Ausgang 1 binomialverteilt:

P(Y = k) =(

n

k

)

pkqn−k

Beweis: Unabhängigkeit ⇒ Wahrscheinlichkeit für jedeeinzelne Sequenz mit k mal 1 und n− k mal 0 (in irgendeinerfesten Reihenfolge) ist pk(1− p)n−k

Anzahl der Sequenzen mit dieser Eigenschaft: k-Kombination ohneWiederholung

Notation: Y ∼ B(n, p)

Übung: Fünf unabhängige Würfe einer fairen Münze

Berechne Wahrscheinlichkeitsfunktion der Anzahl der Köpfe!

25

Beispiel Binomialverteilung

Prüfung mit Durchfallsquote von 20%

Anzahl der Erfolge beim Antritt von 10 Studierenden?

P(X = 7) =

(

10

7

)

· 0.87 · 0.23 = 0.2013

0 1 2 3 4 5 6 7 8 9 100

0.05

0.1

0.15

0.2

0.25

0.3

0.35

26

Beispiele Binomialverteilung: n = 10

p = 0.1

0 1 2 3 4 5 6 7 8 9 100

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

0 1 2 3 4 5 6 7 8 9 100

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

p = 0.2

p = 0.3

0 1 2 3 4 5 6 7 8 9 100

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

0 1 2 3 4 5 6 7 8 9 100

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

p = 0.5

27

Anwendung: Ziehen mit Zurücklegen

Grundgesamtheit mit N Objekten

• M der N Objekte erfüllen Eigenschaft E

• Ziehe n Objekte mit zurücklegen

Die Zahl X der gezogenen Objekte, die Eigenschaft E erfüllen istbinomialverteilt:

X ∼ B(n,M/N)

Übung: Urne mit 3 schwarzen und 9 weißen Kugeln; ziehe 5Kugeln mit zurücklegen, X . . . Zahl der gezogenen schwarzenKugeln

• Wahrscheinlichkeitsfunktion von X?

• Erwartungswert von X?

28

Erwartungswert der Binomialverteilung

X ∼ B(n, p) ⇒ E(X) = np

Unter Verwendung von k(

n

k

)

= n(

n−1k−1

)

E(X) =n∑

k=1

k

(

n

k

)

pkqn−k = np

n∑

k=1

(

n− 1

k − 1

)

pk−1

qn−k

= np

n−1∑

i=0

(

n− 1

i

)

piqn−1−i

und aufgrund des binomischen Lehrsatzes

n−1∑

i=0

(

n− 1

i

)

piqn−1−i = (p+ q)n−1 = 1

Alternativer Beweis: Differenziere (p+ q)n nach p

29

Varianz der Binomialverteilung

X ∼ B(n, p) ⇒ Var (X) = npq

Wiederum unter Verwendung von k(

nk

)

= n(

n−1k−1

)

E(X2) =

n∑

k=1

k2

(

n

k

)

pkqn−k = np

n∑

k=1

k

(

n− 1

k − 1

)

pk−1

qn−k

= np

n−1∑

i=0

(i+ 1)

(

n− 1

i

)

piqn−1−i = np (n− 1)p+ 1

und daher

Var (X) = E(X2)− µ2 = np (n− 1)p+ 1 − (np)2 = np(1− p)

Alternativer Beweis: Differenziere (p+ q)n zwei mal nach p

30

2.4 Die Poissonverteilung

Definition: X = N0 = 0, 1, 2, · · ·

P(X = k) = λk

k! e−λ

, λ > 0

Notation: X ∼ P(λ)

Poisson-verteilte Zufallsvariable kann im Prinzip beliebig großeWerte annehmen, allerdings mit sehr geringer Wahrscheinlichkeit

Beispiel: λ = 2

P(X ≤ 1) =20

0!e−2 +

21

1!e−2 = (1 + 2)e−2 = 0.4060

P(X > 4) = 1− P(X ≤ 4) = 1− (1 + 2 +4

2+

8

6+

16

24)e−2

= 1− 0.9473 = 0.0527

31

Beispiele Poissonverteilung

λ = 1

0 1 2 3 4 5 6 7 8 9 10 11 120

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

0 1 2 3 4 5 6 7 8 9 10 11 120

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

λ = 1.5

λ = 3

0 1 2 3 4 5 6 7 8 9 10 11 120

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

0 1 2 3 4 5 6 7 8 9 10 11 120

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

λ = 5

32

Anwendung

Modellierung von seltenen Ereignissen

Beispiele

• Zahl der Kunden innerhalb eines bestimmten Zeitraums

• Radioaktiver Zerfall

• Zahl von Tippfehlern pro Folie

• Zahl von Menschen älter als 100 Jahre (pro 1 000 000)

• Zahl von Fehlalarmen an einem Tag

• etc.

Zusammenhang zwischen Poisson-verteilten Ereignissen und derWartezeit zwischen zwei Ereignissen ⇒ Exponentialverteilung

33

Erwartungswert und Varianz

X ∼ P(λ) ⇒ E(X) = λ

Beweis:

E(X) =

∞

∑

k=0

kλk

k!e−λ = e

−λ

∞

∑

k=1

λk

(k − 1)!= λe

−λ

∞

∑

j=0

λj

j!

X ∼ P(λ) ⇒ Var (X) = λ

Beweis:

E(X2)=∞

∑

k=0

k2λ

k

k!e−λ=e

−λ

∞

∑

k=1

kλk

(k − 1)!=λe

−λ

∞

∑

j=0

(j + 1)λj

j!=λ(λ+1)

E(X2)− E(X)2 = λ(λ+ 1)− λ2 = λ

34

Approximation der Binomialverteilung

X ∼ B(n, p), wobei n groß und p klein (z. Bsp. n > 10 und p < 0.05)

⇒ X ∼ P(np) approximativ,d.h. X ist näherungsweise Poisson-verteilt mit Parameter λ = np

Motivation: Setze λ := np

P(X = k) =n!

k! (n− k)!pkqn−k

=n(n− 1) · · · (n− k + 1)

k!·λk

nk·(1− λ/n)n

(1− λ/n)k

Für n groß und moderates λ (d.h. p klein) gilt

n(n− 1) · · · (n− k + 1)

nk≈ 1 (1−λ/n)k ≈ 1 (1−λ/n)n ≈ e

−λ

und daher P(X = k) ≈ λk

k! e−λ

35

Beispiel Poissonapproximation

Vergleich Poissonapproximation (λ = 0.5) mit exakterVerteilungsfunktion einer Binomialverteilung (n = 10, p = 0.05)

0 1 2 3 4 5 60.55

0.6

0.65

0.7

0.75

0.8

0.85

0.9

0.95

1

Blau: X ∼ B(10, 0.05)

Grün: X ∼ P(0.5)

Binomial:

P(X ≤ 3) = 0.9510 + 10 · 0.05 · 0.959

+ 45 · 0.052 · 0.958 + 120 · 0.053 · 0.957

= 0.99897150206211

Poissonapproximation:

P(X ≤ 3) =

≈

(

1 + 0.5 +0.52

2+

0.53

6

)

e−0.5

= 0.99824837744371

36

2.5 Andere diskrete Verteilungen

Wir werden behandeln:

• Geometrisch

• Hypergeometrisch

Weitere Verteilungen (hier nicht behandelt):

• Negativ binomial

• Verallgemeinerte Poisson

• Zetaverteilung

• etc.

37

Geometrische Verteilung

Unabhängige Bernoulli - Experimente mit Wahrscheinlichkeit p

X . . . Anzahl der Versuche bis zum ersten Erfolg

Es gilt: P(X = k) = qk−1 p

k − 1 Miserfolge mit Wahrscheinlichkeit q = 1− p

Übung: Urne mit N weißen und M schwarzen Bällen

Ziehen mit zurücklegen

a) Wahrscheinlichkeit, dass man exakt k Versuche braucht, biseine schwarze Kugel gezogen wird

b) Wahrscheinlichkeit, dass man höchstens k Versuche braucht,bis eine schwarze Kugel gezogen wird

38


Beachte:∞∑

k=0

qk = 11−q

und daher∞∑

k=1

qk−1p = p

1−q= p

p= 1

Differenzieren liefert:∞∑

k=1

kqk−1 = d

dq

∞∑

k=0

qk = 1

(1−q)2

E(X) =∞

∑

k=1

kqk−1

p =p

(1− q)2=

1

p

Nochmals Differenzieren:∞∑

k=1

k(k − 1)qk−2 = d2

dq2

∞∑

k=0

qk = 2

(1−q)3

E(X2) =∞

∑

k=1

k2qk−1

p = pq

∞

∑

k=1

k(k−1)qk−2+p

∞

∑

k=1

kqk−1 =

2pq

p3+

1

p

Und daher: Var (X) = E(X2)− E(X)2 = 2p2 − 1

p− 1

p2 = 1−p

p2

39

Beispiel: Iterierte Spiele

Für die Theorie der Iterierten Spiele ist folgendes Beispielgrundlegend: Ein Spiel kann mehrere Runden hindurch fortgesetztwerden. Nach jeder Runde kommt es mit einer Wahrscheinlichkeitq < 1 zu einer weiteren Runde; andernfalls wird die Serieabgebrochen. In Runde k (k = 1, 2, . . .) erzielt der Spieler einenGewinn der Höhe ak. Wie hoch ist der erwartete Gesamtgewinn?

Offensichtlich ist die Anzahl der gespielten Runden geometrischverteilt. Die Wahrscheinlichkeit, dass Runde k zustandekommt, istqk−1.

E(Gesamtgewinn) =∞

∑

k=1

akqk−1 =

∞

∑

k=0

ak+1qk.

Für ak ≡ a ergibt das z.B. a/(1− q).

40

Beispiel: St.-Petersburg-Paradoxon

Das folgende klassische Beispiel, das ebenfalls auf dergeometrischen Verteilung beruht, weist auf die Grenzen desKonzepts “Erwartungswert” hin:

St.-Petersburg-Paradoxon. Ein Casino bietet eine Spielvariantegemäß folgenden Regeln an: Eine Münze wird so lange geworfen,bis zum ersten Mal “Kopf” kommt. Sei K die Anzahl der dafürnötigen Münzwürfe. Der Spieler erhält eine Auszahlung der HöheX = 2K .

Wieviel sollte der Spieler bereit sein zu bezahlen, um dieses Spielspielen zu dürfen?

41

St.-Petersburg-Paradoxon: Fortsetzung

Fair ist das Spiel offenbar dann, wenn der Einsatz des Spielersgerade den Erwartungswert der Auszahlung kompensiert. Dieserist jedoch

E(X) =

∞

∑

k=1

2k · (1/2)k−1 · (1/2) =∞

∑

k=1

1 = ∞,

denn die Zufallsvariable K ist geometrisch verteilt mit q = 1/2.

Obwohl die tatsächlich resultierende Auszahlung mitWahrscheinlichkeit 1 nur endlich ist (da die geometrisch verteilteZufallsvariable K m.W. 1 einen endlichen Wert annimmt), scheintdas Spiel einen unendlich hohen Einsatz wert zu sein!

Konsequenz: Der Erwartungswert ist nur dann ein sinnvolles Maß,wenn er endlich ist.

42

Hypergeometrische Verteilung

Binomialverteilung: Ziehen aus einer Urne mit Zurücklegen

Übung: Urne, 3 Kugeln schwarz, 5 Kugeln weiß,Ziehe 4 Kugeln mit bzw. ohne Zurücklegen.

Berechne jeweils Verteilung der gezogenen schwarzen Kugeln!

0 1 2 3 40

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

0.45

Mit Zurücklegen

0 1 2 3 40

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

0.45

Ohne Zurücklegen

43

Hypergeometrische Verteilung

N Objekte von denen M eine Eigenschaft E erfüllen. Ziehe n

Objekte ohne zurücklegen, X die Anzahl der gezogenen Objektemit Eigenschaft E .

P(X = k) =(Mk )(

N−Mn−k )

(Nn)

Wir verwenden hier die Definition(

ab

)

= 0, falls a < b

Klarerweise gilt P(X = k) = 0 falls M < k

Ich kann nicht mehr schwarze Kugeln ziehen als vorhanden

Ebenfalls klar dass P(X = k) = 0 falls N −M < n− k

Ich kann nicht mehr weiße Kugeln ziehen als vorhanden

Insgesamt: X = k : max(0, n−N +M) ≤ k ≤ min(n,M)

44


Ohne Beweis gilt (Berechnungen nicht schwierig aber länglich)

E(X) = nMN

, Var (X) = nMN

(1− MN)N−nN−1 ,

Definiere p := MN

und betrachte Ähnlichkeit zurBinomialverteilung

E(X) = np gleiche Formel wie bei Binomial

Var (X) = np(1− p)N−nN−1 asymptotisch wie bei Binomial

Nämlich limN→∞

N−nN−1 = 1

Wenn N und M sehr groß im Vergleich zu n, dann giltnäherungsweise X ∼ B(n, M

N) (ohne Beweis)

45

Beispiel Hypergeometrische Verteilung

Qualitätskontrolle: Lieferung von 30 Kartons mit Eiern,10 Kartons enthalten zumindest ein zerbrochenes Ei,Stichprobe der Größe 6

• Mit welcher Wahrscheinlichkeit enthalten zwei der sechsentnommenen Kartons kaputte Eier?

N = 30,M = 10, n = 6

P(X = 2) =

(

102

)(

204

)

(

306

) = 0.3672

• Erwartungswert und Varianz für die Anzahl der Kartons in derStichprobe mit kaputten Eiern?

E(X) = 6 · 1030 = 2; Var (X) = 6 · 1

3 · 23 · 24

29 = 1.1034

46

Übung Approximation durch Binomialverteilung

Lotterie mit 1000 Losen, davon 200 GewinnloseKaufe 5 Lose

1. Berechne die Wahrscheinlichkeit, dass mindestens ein Losgewinnt

Lösung: 0.6731

2. Berechne die Gewinnwahrscheinlichkeit von 1. mittelsBinomial-Approximation

Lösung: 0.6723

47

Zusammenfassung diskrete Verteilungen

• Gleichverteilung: X = x1, . . . , xn , P(X = xk) = 1/n

• Binomialverteilung: X ∼ B(n, p), P(X = k) =(

nk

)

pkqn−k

Es gilt E(X) = np, Var (X) = npq X = 0, . . . , n

• Poissonverteilung: X ∼ P(λ), P(X = k) = λk

k! e−λ

Es gilt E(X) = λ, Var (X) = λ X = 0, 1, 2 . . .

• Geometrische Verteilung: P(X = k) = p qk−1

Es gilt E(X) = p−1

, Var (X) = q p−2 X = 1, 2 . . .

• Hypergeometrische: P(X = k) =(

M

k

)(

N−M

n−k

)

/(

N

n

)

Es gilt E(X) = np, Var (X) = np(1− p)N−nN−1 , p = M

N

48


3 Stetige Verteilungen

1. Einführung

2. Exponentialverteilung

3. Normalverteilung

4. Normalverteilungsapproximation

5. Andere stetige Verteilungen

1

3.1 Einführung

Diskrete Zufallsvariable: Ω endlich oder abzählbar

Stetige Zufallsvariable: Ω ist ein Intervall des Raums R (oder einkartesisches Produkt von Intervallen im Raum R

n)

Beispiele:

• Wartezeit auf den nächsten Kunden

• Größe bzw. Alter einer Person

• Umsatz einer Firma

• Gewicht eines Gegenstandes

Reelle (auch: metrische) Variable: Wert lässt sich durch eine reelleZahl beschreiben

2

Verteilungsfunktion

Einer stetigen Zufallsvariable ist eine stetige Verteilungsfunktionzugeordnet:

F (x) = P(X ≤ x) stetig in x

Beispiel: Gleichverteilung auf Intervall [0, 1]

−1 −0.5 0 0.5 1 1.5 2−1

−0.5

0

0.5

1

1.5

2

x

F(x

)

3

Berechnung von Wahrscheinlichkeiten

Wahrscheinlichkeit für bestimmtes Ereignis immer gleich 0:

P(X = x) = F (x)− F (x−) = 0 wegen Stetigkeit von F

Es macht mehr Sinn, nach Wahrscheinlichkeit zu fragen, mit der Xeinen Wert in einem Intervall [a, b] annimmt:

P(a ≤ X ≤ b) = F (b)− F (a)

So gilt für eine gleichverteilte Zufallsvariable XId auf [0, 1], falls0 ≤ a < b ≤ 1:

P(a < XId < b) = b− a

Beachte: P(X ≤ b) = P(X < b) + P(X = b) = P(X < b)

4

Dichtefunktion

Sei F (x) differenzierbar.

Definition: f(x) := F′(x) Dichtefunktion der Zufallsvariable X

Hauptsatz der Analysis:

F (x) =∫

f(x)dx+ c

und daher

P(a < X ≤ b) = F (b)− F (a) =

b∫

x=a

f(x)dx

Zum Vergleich: Bei diskreten Zufallsvariablen ist

P(a < X ≤ b) = F (b)− F (a) =∑

a<x≤b

P (x)

5

Eigenschaften der Dichtefunktion

Für die Dichtefunktion (kurz Dichte) gilt

• f(x) ≥ 0, ∀x ∈ R

•∞∫

x=−∞

f(x)dx = 1

Die Dichtefunktion f(x) ist nicht die Wahrscheinlichkeit dafür, dassX den Wert x annimmt!

Für kleines ǫ gilt

P(x− ǫ < X ≤ x+ ǫ) ≈ f(x) · 2ǫ

6

Beispiele

1) X gleichverteilt auf dem Intervall [0, 1]

F (x) = x, x ∈ [0, 1] ⇒ f(x) = 1, x ∈ [0, 1]

2) X gleichverteilt auf dem Intervall [l, r], l < r, l, r ∈ R

f(x) = c, x ∈ [l, r]

Welchen Wert hat c?

3) X mit Dichte f(x) =

cx2, x ∈ [0, 1]

0 sonst

Welchen Wert hat c?

Berechne P(0.25 < X < 0.75)

7

Erwartungswert und Varianz von stetigen ZV

Analog zur Definition bei diskreten ZV:

E(X) =∞∫

x=−∞

xf(x)dx

und

Var (X) =∞∫

x=−∞

(x− µ)2f(x)dx

Es gilt wiederum: E(aX + b) = aE(X) + b

Var (aX + b) = a2Var (X)

Übung: X gleichverteilt auf [0, 1]. Berechne Erwartungswert undVarianz!

8

Erwartungswert von Funktionen von ZV

Analog zum Fall von diskreten ZV gilt für stetige ZV (ohne Beweis):

E(g(X)) =∞∫

x=−∞

g(x)f(x)dx

Daher folgt: Var (X) = E(X − E(X))2

Und auch: Var (X) = E(X2)− E(X)2

∞∫

x=−∞

(x− µ)2f(x)dx =

∞∫

x=−∞

(x2 − 2µx+ µ2)f(x)dx

=

∞∫

x=−∞

x2f(x)dx− 2µ

∞∫

x=−∞

xf(x)dx+ µ2

9

Funktionen von stetigen Zufallsvariablen

Sei g eine reellwertige Funktion g : X → R und g(X ) = Y.

Falls g streng monoton wachsend, existiert Umkehrabbildungg−1 : Y → X

Verteilungsfunktion von Y = g(X) berechnet man wie folgt:

FY (y) = P(g(X) ≤ y) = P(X ≤ g−1(y)) = F (g−1(y))

Beispiel: X gleichverteilt auf [0, 1], Y := g(X) = eX

g−1(y) = ln(y)

Y = g(X ) = [e0, e1] = [1, e]

FY (y) = P(Y ≤ y) = FX(ln(y)) = ln(y), y ∈ [1, e]

10


Interpretation: Koordinatenwechsel

Die Werte der Zufallsvariable werden transformiert

Bei streng monotoner Transformation bleiben dieWahrscheinlichkeiten der transformierten Intervalle gleich(vgl. diskrete Zufallsvariable)

−1 −0.5 0 0.5 1 1.5 2−1

−0.5

0

0.5

1

1.5

2

x

F(x

)

0.5 1 1.5 2 2.5 3−1

−0.5

0

0.5

1

1.5

2

y = g(x)

FY(y

)

11


Falls g streng monoton fallend ⇒ g−1 existiert

P(g(X) ≤ y) = P(X ≥ g−1(y)) = 1−P(X < g

−1(y)) = 1−F (g−1(y))

Im allgemeinen Fall (keine Monotonie von g) wird der Urbildraumvon g zerlegt in Intervalle wo g monoton fällt bzw. monoton wächst

Beispiel: X gleichverteilt auf [0, 1], Y := g(X) = (X − 12 )

2

g ist m.f. auf [0, 12 ], m.w. auf [ 12 , 1] g−1(y) = 1

2 ±√y

P((X − µ)2 ≤ y) = P(1/2−√y ≤ X ≤ 1/2 +

√y)

= FX(1/2 +√y)− FX(1/2−

√y)

12

Dichte von transformierten Zufallsvariablen

g streng monoton und differenzierbar

Wie lautet Dichte von Y = g(X)?

fY (y) =ddyFY (y) =

ddyF (g−1(y)) = fX(g−1(y)) · d

dyg−1(y)

(Differenzieren der transformierten Verteilungsfunktion unterBeachtung der Kettenregel!)

Beispiel: (Fortsetzung) X gleichverteilt auf [0, 1], Y = g(X) = eX

FY (y) = ln(y), y ∈ [1, e] ⇒ fY (y) =1y, y ∈ [1, e]

Oder mit Formel: fX(g−1(y)) = 1 denn fX(x) ≡ 1

d

dyg−1(y) =

1

y

13

3.2 Exponentialverteilung

Stetige Zufallsvariable X ist exponentialverteilt mit Parameterλ > 0 falls Dichte

f(x) =

λe−λx

, x ≥ 0

0, x < 0

Zugehörige Verteilungsfunktion

F (x) =

1− e−λx

, x ≥ 0

0, x < 0

Beweis: Einfache Integration

14

Plots Exponentialverteilung

Dichte und Verteilungsfunktion für Parameter λ = 1, 2 und 3

0 0.5 1 1.5 2 2.5 30

0.5

1

1.5

2

2.5

3

x

f(x)

λ = 1λ = 2λ = 3

0 0.5 1 1.5 2 2.5 30

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

x

F(x

)

λ = 1λ = 2λ = 3

Je größer λ desto schneller fällt die Dichtefunktion.

Wir vermuten daher: Je größer λ desto kleiner µ und auch σ.

15

Erwartungswert

X exponentialverteilt mit Parameter λ

Partielle Integration∫

u′v = uv| −∫

uv′ anwenden.

E(X) =

∞∫

x=0

xλe−λx

dx = −xe−λx∣

∣

∞

0+

∞∫

x=0

e−λx

dx

= 0−e−λx

λ

∣

∣

∣

∣

∞

0

=1

λ

E(X2) =

∞∫

x=0

x2λe

−λxdx = −x2

e−λx

∣

∣

∞

0+

∞∫

x=0

2xe−λxdx

= 0 +2

λE(X) =

2

λ2

und daher Var (X) = 2λ2 −

1λ2 = 1

λ2

16

Übung

Angenommen die Länge eines Telephongespräches in Minuten istexponentialverteilt und dauert im Mittel 10 Minuten. Du kommst zueiner Telephonzelle wo unmittelbar zuvor jemand ein Gesprächbegonnen hat.

Wie groß ist die Wahrscheinlichkeit dass du

1. weniger als 10 Minuten

2. genau 10 Minuten

3. zwischen 10 und 20 Minuten

4. länger als 20 Minuten

warten mußt bis die Telephonzelle frei wird?

17

Zusammenhang mit Poissonverteilung

Die folgenden beiden Eigenschaften sind äquivalent (o. Bew.):

• Die Zeit T zwischen dem Eintreffen zweieraufeinanderfolgender Ereignisse ist (unabhängig)exponentialverteilt mit Parameter λ.

• Für jedes Zeitintervall [t1, t2] ist die Häufigkeit der während[t1, t2] auftretenden Ereignisse poissonverteilt mit Parameterλ(t2 − t1).

t1 t2

x1

x2

T

Wartezeit zwischen zwei Ereignissen T ∼ Exp (λ),λ . . . erwartete Anzahl von Ereignissen für Zeitraum der Länge 1.

18

Übung

X Häufigkeit wie oft eine Maschine in bestimmtem Zeitraumausfällt (Maschinen laufen 24h durchgehend)

Im Mittel fallen 3 Maschinen pro Tag aus

Annahme X poissonverteilt

a) Verteilung der Zeit, die zwischen 2 Ausfällen vergeht?

b) Mit welcher Wahrscheinlichkeit fällt für mehr als 5 Stunden keineMaschine aus?

c) Mit welcher Wahrscheinlichkeit fallen innerhalb von 5 Stundenzwei Maschinen aus?

19

Gedächtnislosigkeit

Die Verteilung von X ist gedächtnislos, wenn

P(X > s+ t|X > t) = P(X > s)

D.h. Vorgeschichte bietet keinerlei Information

Exponentialverteilung ist gedächtnislos:

Definition ist äquivalent zu P(X > s+ t) = P(X > s)P(X > t)

und es gilt e−λ(s+t) = e−λse−λt

Exponentialverteilung ist einzige gedächtnislose stetige Verteilung!

Übung: Im diskreten Fall geometrische Verteilung gedächtnislos

(Diskretes Analogon zur Exponentialverteilung)

20

3.3 Normalverteilung

X ∼ N (µ, σ2) falls f(x) = 1√

2π σe−(x−µ)2/2σ2

Standardnormalverteilung N (0, 1):

−3 −2 −1 0 1 2 30

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

0.45

Gaußsche Glockenkurve

21

Normalverteilung

Wesentliche Bedeutung in Wahrscheinlichkeitsrechnung undStatistik aufgrund des zentralen Grenzwertsatzes!

f ist tatsächlich Wahrscheinlichkeitsdichte:

1√2π σ

∞∫

x=−∞

e−(x−µ)2/2σ2

dx =1√2π

∞∫

z=−∞

e−z2/2

dz = 1

Zunächst Variablensubstitution z ← x−µ

σ

dann verschiedene Möglichkeiten zur Berechnung desuneigentlichen Integrals

Verteilungsfunktion F (x) =x∫

y=−∞

f(y)dy lässt sich nicht in

geschlossener Form darstellen (keine einfache Formel)

⇒ Tabellen für die Normalverteilung

22

Standardnormalverteilung

X ∼ N (0, 1), übliche Notation: Φ(x) := P(X ≤ x)

ϕ(x) := Φ′(x) =1√2π

e−x2/2

Tabellen von Φ(x) für x ∈ (0, 4) (z.B. Bosch-Buch oder Internet)

Grund: ϕ ist symmetrisch und somit

ϕ(−x) = ϕ(x) ⇒ Φ(−x) = 1− Φ(x)

Beispiel: Wahrscheinlichkeit dass X zwischen -2 und 1 liegt

P(−1 ≤ X ≤ 2) = P(X ≤ 2)− P(X < −1) = Φ(2)− 1− Φ(1)

= 0.9772− 1 + 0.8413 = 0.8186

Werte von Φ(2) und Φ(1) aus Tabelle

23

Verteilungsfunktion der SNV

Einige wesentliche Werte von Φ(x):

Φ(0) = 0.5; Φ(1.645) = 0.95; Φ(1.96) = 0.975

Der Graph von Φ(x):

−3 −2 −1 0 1 2 30

0.2

0.4

0.6

0.8

1

24

Erwartungswert

Sei X ∼ N (µ, σ2)

Substitution z ← x−µ

σliefert

E(X) =1

√2π σ

∞∫

x=−∞

xe−(x−µ)2/2σ2

dx

=1√2π

∞∫

z=−∞

(σz + µ)e−z2/2dz = µ

da g(z) := z e−z2/2 antisymmetrisch (d.h. g(−z) = −g(z))

und 1√

2π

∞∫

x=−∞

e−z2/2 dz = 1

25

Varianz

Wiederum Substitution z ← x−µ

σund anschließend partielle

Integration liefert

Var (X) =1

√2π σ

∞∫

x=−∞

(x− µ)2e−(x−µ)2/2σ2

dx

=σ2

√2π

∞∫

z=−∞

z2e−z2/2

dz

=σ2

√2π

−ze−z2/2∣

∣

∣

∞

−∞

+

∞∫

z=−∞

e−z2/2

dz

= σ2

Somit gezeigt: X ∼ N (µ, σ2) ⇒ E(X) = µ, Var (X) = σ2

26

Lineare Transformation

Wesentliche Eigenschaft:

X ∼ N (µ, σ2) ⇒ Y := aX + b ∼ N (aµ+ b, a2σ2)

Beweis: Nehmen a > 0 an. (Fall a < 0 analog.)Transformationssatz für Dichten:

fY (y) = fX(g−1(y)) ·d

dyg−1(y)

Hier: g(x) = ax+ b ⇒ g−1(y) = (y − b)/a, d

dyg−1(y) = 1/a

Und somit

fY (y) = fX((y − a)/b) · 1/a

=1

√2πσa

e−(y−aµ−b)2/2a2σ2

Dies ist die Dichte einer N (aµ+ b, a2σ2)

27

Normalisierung

Daraus folgt unmittelbar

X ∼ N (µ, σ2) ⇒ Z := X−µ

σ∼ N (0, 1)

Normalverteilung für verschiedene µ und σ

−5 −4 −3 −2 −1 0 1 2 3 4 50

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

0.45

µ = 0µ = −2 µ = 2

µ . . . Mittelwert

−3 −2 −1 0 1 2 30

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

σ = 1/2

σ = 1

σ = 2

σ2 . . . Varianz

28

Beispiel

Sei X ∼ N (3, 9), berechne folgende Wahrscheinlichkeiten:

1. P(2 < X < 5)

2. P(X > 0)

3. P(|X − 3| > 6)

Lösungen

1) P

(

2− 3

3<

X − 3

3<

5− 3

3

)

= Φ

(

2

3

)

− Φ

(

−1

3

)

≈ 0.7486− (1− 0.6293) = 0.3779

2) P

(

0− 3

3<

X − 3

3

)

= Φ(1) ≈ 0.8413

3) 2 · P

(

6− 3

3<

X − 3

3

)

= 2 · (1− Φ(2)) ≈ 0.0456

29

Quantile der Normalverteilung

Definition: X habe Verteilungsfunktion F und γ ∈ [0, 1] sei eineWahrscheinlichkeit

γ - Quantil xγ jene Zahl für die F (xγ) = γ

xγ = F−1(γ), wobei F−1 Umkehrabbildung der Verteilungsfunktion

Normalverteilung:explizite Berechnungnicht möglich

⇒ Tabellen odermittels Computer

Standard-NV:xγ = Φ−1(γ) −3 −2 −1 0 1 2 3

0

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

0.45

γ

xγ

30

Symmetrische Intervalle

X ∼ N (µ, σ2) ⇒ P(|X − µ| ≤ x) = 2 · Φ( xσ)− 1

Beweis:

P(−x+ µ ≤ X ≤ x+ µ) = 2 · P(X ≤ x+ µ)− 1

Sei γ eine vorgegebene Wahrscheinlichkeit, dann gilt:

P(|X − µ| ≤ zγ) = γ für zγ = σ Φ−1(

1+γ

2

)

Übung: Sei X normalverteilt mit σ2 = 4

Bestimme x derart, dass P(X − µ ≤ x) = 0.95

bzw. P(|X − µ| ≤ x) = 0.95

31

3.4 Normalverteilungsapproximation

Betrachte für großes n die Wahrscheinlichkeitsfunktion einerBinomialverteilung und vergleiche mit der Dichtefunktion derNormalverteilung

30 35 40 45 50 55 60 65 700

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0.08

0.09

X ∼ B(100, 0.5)

−3 −2 −1 0 1 2 30

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

0.45

X ∼ N (0, 1)

32

Grenzwertsatz nach DeMoivre - Laplace

Sn . . . Anzahl der Erfolge bei n unabhängigen Versuchen mitErfolgswahrscheinlichkeit p.

Dann gilt für a < b:

P

(

a ≤ Sn−np√

npq≤ b

)

→ Φ(b)− Φ(a) für n→∞

d.h. standardisierte Binomialverteilung (Sn − µ)/σ konvergiertgegen Standardnormalverteilung

Beweis: Spezialfall des zentralen Grenzwertsatzes. ZentralerGrenzwertsatz gilt für Summen unabhängiger Zufallsvariablen. IstSn binomialverteilt, so ist es Summe unabhängiger"Bernoulli-Variablen", d.h. Variablen X ∼ B(1, p).

Anwendbarkeit: npq ≥ 9.

33

Stetigkeitskorrektur

B(n, p) diskret, d.h. Verteilungsfunktion ist eine Treppenfunktion

N (0, 1) stetig, d.h. Verteilungsfunktion ist stetig

⇒ Stetigkeitskorrektur:

P (a ≤ Sn ≤ b) ≈ Φ(

b+0.5−np√

npq

)

− Φ(

a−0.5−np√

npq

)

blau: B(40, 0.5)grün: N (20, 10)

15 16 17 18 19 20 21 22 23 24 250

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

34

Übung

Angenommen 30% der Bevölkerung kennen ein Produkt.

Befragung von 200 Personen. Wie groß ist Wahrscheinlichkeitdass

1. genau 55 Personen das Produkt kennen

2. mehr als 55 Personen das Produkt kennen

3. 55 bis 64 Personen das Produkt kennen

Löse mit Normalverteilungsapproximation

Versuche 1. auch unmittelbar mit Binomialverteilung zu berechnen– worin liegt das Problem?

35

Normalverteilungsapproximation fürhypergeometrische Verteilung

Analog zur Binomialverteilung gilt auch für eine hypergeometrischverteilte Zufallsvariable mit Parametern N,M und n:

P (a ≤ Sn ≤ b) ≈ Φ(

b+0.5−µ

σ

)

− Φ(

a−0.5−µ

σ

)

wobei hier µ = nMN

und σ2 = nMN(1− M

N)N−nN−1

Anwendbarkeit: σ2 ≥ 9 und N ≥ 2n

Übung: Lieferung von 2500 Milchpackungen, 12 % verdorbenZufällige Stichprobe von 100 Packungen, p sei Anteil derentdeckten verdorbenen Packungen

Mit welcher Wahrscheinlichkeit liegt p zwischen 5% und 15%

36

3.5 Andere stetige Verteilungen

Große Vielfalt an stetigen Verteilungen

Besprechen hier nur zwei wichtige Familien:

• Gamma - Verteilung

Verallgemeinerung der Exponentialverteilung

• Beta - Verteilung

Verteilungen mit Träger auf Intervall [0, 1]

Sowohl Beta- als auch Gamma - Verteilung hängt von zweiParametern ab

Für unterschiedliche Parameter ganz unterschiedliche Form⇒ Modellierung von verschiedenen Sachverhalten

37

Gamma - Verteilung

Exponentialverteilung ist ein Spezialfall der Gammaverteilung

X ist Γ-verteilt mit Parametern t > 0 und λ > 0 falls Dichte

f(x) =

λe−λx(λx)t−1

Γ(t) , x ≥ 0

0, x < 0

wobei Γ(t) =∞∫

x=0

e−xxt−1 dx

Diese Definition garantiert, dass f tatsächlich Dichtefunktion

t = 1 ⇒ Exponentialverteilung

t = n ∈ N ⇒ Verteilung der Wartezeit bis n Ereignisseaufgetreten sind

38

Eigenschaften von Γ - Funktion und Γ - Verteilung

Γ - Funktion: Γ(t) =∞∫

x=0

e−x

xt−1

dx

Partielle Integration liefert: Γ(t) = (t− 1)Γ(t− 1)

Spezialfall der Rekursionsformel für t = n ∈ N:

Γ(n) = (n− 1)Γ(n− 1) = · · · = (n− 1)(n− 2) · · ·Γ(1) = (n− 1)!

da ja Γ(1) = 1

Notation: X ∼ Γ(t, λ) . . .Γ-Verteilung mit Parametern t und λ,

Mit Hilfe der Rekursionsformel zeigt man leicht

E(X) = tλ, Var (X) = t

λ2

39

Beispiele für Gamma - Verteilung

• Γ(1, λ) . . . ExponentialverteilungΓ(n, λ) . . . Wartezeiten auf n Ereignisse

• Γ(n2 ,12 ) . . . χ

2-Verteilung mit n Freiheitsgraden

0 1 2 3 4 50

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8t=1t=2t=3t=4t=6

t ∈ N, λ = 1

0 1 2 3 4 50

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8t=1/2t=1t=3/2t=2t=3

2t ∈ N, λ = 1/2

40

Beispiele für Gamma - Verteilung 2

Γ(t, 1) . . . Standard Γ-Verteilung

Es gilt: X ∼ Γ(t, λ) ⇒ λX ∼ Γ(t, 1)

Abhängigkeit von t

0 0.5 1 1.50

0.5

1

1.5

2

2.5

3

3.5

4t=1t=2t=3t=4t=6

t ∈ N, λ = 5

Abhängigkeit von λ

0 0.5 1 1.50

0.5

1

1.5

2

2.5

3

3.5

4λ=1λ=2λ=3λ=4λ=6

t = 4/3, λ ∈ N

41

Beta - Verteilung

Famile von Verteilungen mit beschränktem Träger

X ist B-verteilt mit Parametern a, b > 0 falls Dichte

f(x) =

xa−1(1−x)b−1

B(a,b) , 0 < x < 1

0, sonst

wobei B(a, b) =1∫

x=0

xa−1(1− x)b−1

dx

Diese Definition garantiert wiederum, dass f tatsächlichDichtefunktion

Zur Modellierung von Zufallsereignis Y im Bereich [l, r]

⇒ Variablentransformation 0← l und 1← r d.h. X = Y−lr−l

42

Mittelwert und Varianz

Es gilt für die B-Funktion

B(a, b) =Γ(a)Γ(b)

Γ(a+ b)

(ohne Beweis)

Unter Verwendung der Eigenschaften der Γ-Funktion oder mittelspartieller Intergration zeigt man leicht,

B(a+ 1, b) =a

a+ bB(a, b)

und für X Beta-verteilt mit Parametern a und b gilt:

E(X) = aa+b

, Var (X) = ab(a+b)2(a+b+1)

43

Beispiele von Beta - Verteilungen

Falls a = b ⇒ symmetrische Verteilung

• a = b = 1, . . . Gleichverteilung

• a = b > 1, . . . Unimodal

• a = b < 1, . . . U - förmig

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10

0.5

1

1.5

2

2.5

3

3.5

4a=b=1a=b=2a=b=3a=b=4a=b=6

a = b ≥ 1,

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10

0.5

1

1.5

2

2.5

3

3.5

4

a=b=1a=b=1/2a=b=1/3a=b=1/4a=b=1/6

a = b ≤ 1,

44

Weitere Beispiele von Beta - Verteilungenb = 1.5

a ≥ 1

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10

0.5

1

1.5

2

2.5

3

3.5

4

a=1a=2a=3a=4a=6

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10

0.5

1

1.5

2

2.5

3

3.5

4a=1a=1/2a=1/3a=1/4a=1/6

a ≤ 1,

b ≥ 1

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10

0.5

1

1.5

2

2.5

3

3.5

4b=1b=2b=3b=4b=6

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10

0.5

1

1.5

2

2.5

3

3.5

4b=1b=1/2b=1/3b=1/4b=1/6

b ≤ 1

a = 2

45


4 Mehrdimensionale Verteilungen

1. Einführung

2. Unabhängige Zufallsvariablen

3. Kovarianz, Korrelation

4. Bedingte Verteilung

5. Bivariate Normalverteilung

1

4.1 Einführung

Wahrscheinlichkeitsrechnung mit mehr als einer Zufallsvariablen

zwei Zufallsvariablen . . . bivariat

zwei oder mehr ZV . . . multivariat

Konzepte:

• Gemeinsame Verteilungsfunktion

• rein diskret: Gemeinsame Wahrscheinlichkeitsfunktion

• rein stetig: Gemeinsame Dichte

2

Gemeinsame Verteilungsfunktion

Zunächst bivariat, Zufallsvariablen X und Y

Definiere die gemeinsame Verteilungsfunktion als

F (x, y) := P(X ≤ x, Y ≤ y), −∞ < x, y <∞

Bivariate Verteilung dadurch vollständig charakterisiert

P(x1<X≤x2, y1<Y≤y2) = F (x2, y2)−F (x1, y2)−F (x2, y1)+F (x1, y1)

für x1 < x2 und y1 < y2

Randverteilung: FX(x) := P(X ≤ x) = F (x,∞)

Idee: P(X ≤ x) = P(X ≤ x, Y <∞) = limy→∞

F (x, y)

Analog FY (y) := P(Y ≤ y) = F (∞, y)

3

Bivariate stetige Zufallsvariable

X und Y heißen gemeinsam stetig falls gemeinsameDichtefunktion existiert:

f(x, y) =∂2

∂x ∂yF (x, y)

Gemeinsame Verteilungsfunktion ergibt sich mittels Integration

F (a, b) =

b∫

y=−∞

a∫

x=−∞

f(x, y) dxdy

Erhalte Dichte der Randverteilung durch Integrieren über Y:

fX(x) =

∞∫

y=−∞

f(x, y) dy

Werden später speziell bivariate Normalverteilung besprechen

4

Beispiel: Bivariate Gleichverteilung

X und Y bivariat gleichverteilt auf [0, 1]× [0, 1] ⇒ Dichte

f(x, y) = 1, 0 ≤ x, y ≤ 1.

Gemeinsame Verteilungsfunktion

F (a, b) =

b∫

y=0

a∫

x=0

f(x, y) dxdy = a b, 0 ≤ a, b ≤ 1.

Dichte der Randverteilung:

fX(x) =

∞∫

y=−∞

f(x, y) dy = 1, 0 ≤ x ≤ 1

gibt Dichte der univariaten Gleichverteilung

5

Übung: Bivariate Gleichverteilung

X und Y bivariat gleichverteilt auf [−1, 1]× [−1, 1]

• Berechne die Wahrscheinlichkeit, dass max|X |, |Y | < 1/2.

• Berechne die Wahrscheinlichkeit, dass X2 + Y

2< 1.

Hinweis: Im Falle der bivariaten Gleichverteilung ist eine formaleIntegration nicht wirklich notwendig. Berechnung vonWahrscheinlichkeiten ergibt sich unmittelbar durch Vergleich vonFlächen.

6

Bivariate diskrete Zufallsvariable

X und Y beide diskret

Definiere die gemeinsame Wahrscheinlichkeitsfunktion

p(x, y) = P(X = x, Y = y)

Es gilt natürlichp(x, y) = F (x, y)− F (x−, y)− F (x, y−) + F (x−, y−)

Erhalte Wahrscheinlichkeitsfunktion von X durch Summierenüber Y:

pX(x) = P(X = x) =∑

y∈Y

p(x, y)

7

Beispiel

Urne mit 3 roten, 4 weißen und 5 blauen Bällen;ziehe zufällig 3 Bälle ohne Zurücklegen

X . . . Anzahl der roten gezogenen Kugeln

Y . . . Anzahl der weißen gezogenen Kugeln

z. Bsp.: p(0, 1) = P(0R, 1W, 2B) =(

30

)(

41

)(

52

)

/(

123

)

= 40/220

j

i 0 1 2 3 pX

0 10/220 40/220 30/220 4/220 84/220

1 30/220 60/220 18/220 0 108/220

2 15/220 12/220 0 0 27/220

3 1/220 0 0 0 1/220

pY 56/220 112/220 48/220 4/220 220/220

8

Multivariate Zufallsvariablen

Mehr als zwei Zuvallsvariablen

Gemeinsame Verteilungsfunktion für n Zufallsvariablen

F (x1, . . . , xn) = P(X1 ≤ x1, . . . , Xn ≤ xn)

Diskret: Gemeinsame Wahrscheinlichkeitsfunktion:

p(x1, . . . , xn) = P(X1 = x1, . . . , Xn = xn)

Randverteilung wiederum durch Summieren über alleKomponenten, die gerade nicht von Interesse, z. Bsp.

pX1(x1) =

∑

x2∈X2

· · ·∑

xn∈Xn

p(x1, . . . , xn)

9

Multinomialverteilung

Eine der wichtigsten multivariaten diskreten Verteilungen

n unabhängige Experimente mit r möglichen Ausgängen mitWahrscheinlichkeiten p1, . . . , pr

Sei Xi die Anzahl der Experimente mit Ausgang i, dann gilt

P(X1 = n1, . . . , Xr = nr) =n!

n1!···nr !pn1

1 · · · pnr

r

falls∑r

i=1 ni = n.

Verallgemeinerung der Binomialverteilung (r = 2)

Übung: Werfe 5 Würfel,

Wahrscheinlichkeit für Strasse, Poker, bzw. Full House

10

4.2 Unabhängige Zufallsvariablen

Zwei Zufallsvariablen X und Y heißen unabhängig falls für alleEreignisse A und B gilt

P(X ∈ A, Y ∈ B) = P(X ∈ A)P(Y ∈ B)

Information über den Wert von X ändert nicht die Verteilung von Y

X und Y genau dann unabhängig falls

P(X ≤ a, Y ≤ b) = P(X ≤ a)P(Y ≤ b)

d.h. F (a, b) = FX(a) FY (b) für alle a, b.

Ebenfalls äquivalent zu f(x, y) = fX(x) fY (y) im stetigen Fall undzu p(x, y) = pX(x) pY (y) im diskreten Fall für alle x, y

11

Einfaches Beispiel

Seien X und Y unabhängig

X = 0, 1, P (X = 0) = 1/3, P (X = 1) = 2/3

Y = −1, 0, 1, P (Y =−1) = P (Y =1) = 1/4, P (Y =0) = 1/2

Die gemeinsame Wahrscheinlichkeitsfunktion lautet:

j

i −1 0 1 pX

0 1/12 1/6 1/12 1/3

1 2/12 2/6 2/12 2/3

pY 1/4 1/2 1/4 1

Beachte, dass sowohl die Spalten als auch die Zeilen jeweilsproportional zueinander sind ⇒ Unabhängigkeit

12

Stetiges Beispiel: Gleichverteilung

Seien X und Y unabhängig, jeweils gleichverteilt auf [0, 1].

d.h. fX(x) = 1 für 0 ≤ x ≤ 1, fY (y) = 1 für 0 ≤ y ≤ 1,

Dann offensichtlich X und Y bivariat gleichverteilt auf [0, 1]× [0, 1]

Umkehrung

X und Y bivariat gleichverteilt auf [0, 1]× [0, 1] ⇒ Dichte

f(x, y) = 1, 0 ≤ x, y ≤ 1.

Berechne die Randdichten fX(x) und fY (y)

Es folgt unmittelbar, dass X und Y jeweils gleichverteilt auf [0, 1],und auch dass die beiden unabhängig sind

Bemerkung: Unabhängigkeit gilt für Gleichverteilung aufRechtecken, nicht jedoch für allgemeinere Bereiche.

13

Beispiel: Zwei Würfel

X, Y . . . gleichverteilt auf 1, . . . , 6

Aufgrund der Unabhängigkeit gilt p(x, y) = pX(x) pY (y) =136

Verteilungsfunktion:FX(x) = FY (x) = ⌊x⌋/6, falls 0 < x < 7

F (x, y) = FX(x)FY (y) =⌊x⌋·⌊y⌋

36

Welche Verteilung hat X + Y ?

P (X + Y = 2) = p(1, 1) = 1/36

P (X + Y = 3) = p(1, 2) + p(2, 1) = 2/36

P (X + Y = 4) = p(1, 3) + p(2, 2) + p(3, 1) = 3/36

P (X + Y = k) = p(1, k − 1) + p(2, k − 2) + · · ·+ p(k − 1, 1)

14

Summe von unabhängigen Verteilungen

Summe von Zufallsvariablen selbst wieder eine ZV

Berechnung der Verteilung mittels Faltung

Stetige Verteilungen:

fX+Y (x) =

∞∫

y=−∞

fX(x− y)fY (y)dy

Diskrete Verteilungen:

P(X + Y = k) =∑

x+y=k

pX(x)pY (y)

Übung: X1 ∼ P(λ1), X2 ∼ P(λ2) unabhängig

⇒ X1 +X2 ∼ P(λ1 + λ2)

15

Beispiel (Umkehrung)

Z ∼ P(λ) . . . Anzahl der Tippfehler pro Seite eines ManuskriptsLektor findet p Prozent der Fehler

X . . . Anzahl der gefundenen FehlerY . . . Anzahl der nicht gefundenen Fehler

Es gilt: X, Y unabhängig poissonverteilt mit Parameter pλ bzw. qλ

Lösung:

P(X= i, Y =j) = P(X= i, Y =j|X + Y = i+ j)P(X + Y = i+ j)

Per Definitionem:P(X= i, Y =j|X + Y = i+ j) =

(

i+ji

)

piqj

P(X + Y = i+ j) = e−λ λi+j

(i+j)!

Liefert insgesamt:

P(X= i, Y =j) = e−λ (λp)i

i!j! (λq)j = e−λp (λp)i

i! e−λq (λq)j

j!

16

Beispiel für Faltung: stetiger Fall

X , Y unabhängig, gleichverteilt auf [0, 1]i.e. f(x, y) = 1, (x, y) ∈ [0, 1]× [0, 1]

fX(x) = 1, 0 ≤ x ≤ 1, fY (y) = 1, 0 ≤ y ≤ 1

Berechnung der Dichte Z := X + Y

fZ(x) =

∞∫

y=−∞

fX(x− y)fY (y)dy

=

x∫

y=0

dy = x, 0 < x ≤ 1

1∫

y=x−1

dy = 2− x, 1 < x ≤ 2

Grund: fY (y) = 1 für 0 ≤ y ≤ 1

fX(x− y) = 1 für 0 ≤ x− y ≤ 1 ⇔ y ≤ x ≤ y + 1

17

Additionstheorem für Γ-Verteilung

X , Y unabhängig, Γ−verteilt mit Parametern t1, t2 und gleichem λ

fX(x) = λe−λx(λx)t1−1

Γ(t1), fY (y) =

λe−λy(λy)t2−1

Γ(t2), x, y ≥ 0,

fZ(x) =

∞∫

y=−∞

fX(x− y)fY (y)dy

=

x∫

y=0

λe−λ(x−y)(λ(x− y))t1−1

Γ(t1)

λe−λy(λy)t2−1

Γ(t2)dy

=λt1+t2e

−λx

Γ(t1)Γ(t2)

x∫

y=0

(x− y)t1−1yt2−1

dy

=

∣

∣

∣

∣

∣

y = xz

dy = xdz

∣

∣

∣

∣

∣

=λe

−λx(λx)t1+t2−1

Γ(t1 + t2)

18

Erwartungswert für bivariate ZV, diskret

X und Y diskret mit gemeinsamer Wahrscheinlichkeitsfunktion

Wie im eindimensionalen gilt:

E(g(X, Y )) =∑

x∈X

∑

y∈Y

g(x, y)p(x, y)

Übung:

Seien X und Y die Augenzahlen von zwei fairen Würfeln(unabhängig)

Berechne den Erwartungswert der Differenz |X − Y |

19

Erwartungswert für bivariate ZV, stetig

X und Y stetig mit gemeinsamer Dichte f(x, y)

Wie im eindimensionalen gilt:

E(g(X, Y )) =∞∫

y=−∞

∞∫

x=−∞

g(x, y)f(x, y) dx dy

Übung (optional):

Unfall auf einer Straße der Länge L, Unfallort X und Position Y

eines Krankenwagens unabhängig gleichverteilt

Berechne den Erwartungswert vom Abstand |X − Y | zwischenUnfallort und Krankenwagen

20

Erwartungswert der Summe zweier ZV

X und Y stetig mit gemeinsamer Dichte f(X, Y )

Mit g(x, y) = x+ y folgt

E(X + Y ) =∞∫

y=−∞

∞∫

x=−∞

(x+ y)f(x, y) dx dy = E(X) + E(Y )

Geht genau so für den diskreten Fall:

E(X + Y ) =∑

x∈X

∑

y∈Y

(x+ y)p(x, y) dx dy = E(X) + E(Y )

ACHTUNG: Additivität für Varianzen im allgemeinen nicht richtig!

21

4.3 Kovarianz und Korrelation

Maßzahlen für die Beziehung zwischen zwei Zufallsvariablen

Definition Kovarianz:

Cov (X, Y ) = E[(X − E(X))(Y − E(Y ))]

Man schreibt mitunter σXY := Cov (X, Y )

Es gilt ähnlich wie für die Varianz

σXY = E(XY )− E(X)E(Y )

Definition Korrelation:

ρ(X, Y ) := σXY

σXσY

22

Beispiel Korrelation

ρ = 0.9

−4 −3 −2 −1 0 1 2 3−3

−2

−1

0

1

2

3

−3 −2 −1 0 1 2 3−3

−2.5

−2

−1.5

−1

−0.5

0

0.5

1

1.5

2

ρ=−0.6

ρ = 0.3

−3 −2 −1 0 1 2 3−3

−2

−1

0

1

2

3

−3 −2 −1 0 1 2 3 4−3

−2

−1

0

1

2

3

4

ρ = 0.0

23

Beispiel Kovarianz

Diskrete bivariate Verteilung (X = Y = 0, 1, 2, 3) mit

j

i 0 1 2 3 pX

0 1/20 4/20 3/20 2/20 10/20

1 3/20 2/20 2/20 0 7/20

2 1/20 1/20 0 0 2/20

3 1/20 0 0 0 1/20

pY 6/20 7/20 5/20 2/20 20/20

Berechne Cov (X, Y )

Lösung : Cov (X, Y ) = E(XY )−E(X)E(Y ) = 820 −

1420 ·

2320 = − 162

400

24

Kovarianz für unabhängige ZV

X und Y unabhängig ⇒ σXY = 0

folgt unmittelbar aus σXY = E(XY )− E(X)E(Y )

und E(XY ) =∫∫

xyf(x, y) =∫

xf(x)∫

yf(y)

Umkehrung ist falsch:

X gleichverteilt auf −1, 0, 1 und Y =

0, X 6= 0

1, X = 0

E(X) = 0

XY = 0 ⇒ E(XY ) = 0

daher Cov (X, Y ) = 0, obwohl X und Y nicht unabhängig:

z.Bsp. P(X = 1, Y = 0) = P(X = 1) = 1/3, P(Y = 0) = 2/3

25

Eigenschaften der Kovarianz

Offensichtlich gilt

Cov (X, Y ) = Cov (Y,X), und Cov (X,X) = Var (X)

Die Kovarianz ist eine Bilinearform:

Cov (aX, Y ) = a Cov (X, Y ), a ∈ R

und

Cov

n∑

i=1

Xi,

m∑

j=1

Yj

=n∑

i=1

m∑

j=1

Cov (Xi, Yj)

Beweis durch ausrechnen . . .

26

Varianz von Summen

Aufgrund der zuvor gezeigten Eigenschaften gilt

Var

(

n∑

i=1

Xi

)

=n∑

i=1

n∑

j=1

Cov (Xi, Xj)

=n∑

i=1

Var (Xi) +n∑

i=1

∑

j 6=i

Cov (Xi, Xj)

Extremfälle:

• unabhängige ZV: Var(

n∑

i=1

Xi

)

=n∑

i=1

Var (Xi)

• X1 = X2 = · · · = Xn: Var(

n∑

i=1

Xi

)

= n2 Var (X1)

27

Korrelation

Definition: ρ(X, Y ) := σXY

σXσY

Es gilt:

−1 ≤ ρ(X, Y ) ≤ 1

Beweis:

0 ≤ Var(

X

σX

+Y

σY

)

=Var (X)

σ2X

+Var (Y )

σ2Y

+2Cov (X, Y )

σXσY

= 2[1 + ρ(X, Y )]

0 ≤ Var(

X

σX

−Y

σY

)

=Var (X)

σ2X

+Var (Y )

σ2Y

−2Cov (X, Y )

σXσY

= 2[1− ρ(X, Y )]

28

Korrelation – Fortsetzung

Falls ρ(X, Y ) = 0, heißen X und Y unkorreliert . Dies ist offenbargleichbedeutend damit, dass Cov (X, Y ) = 0. Somit ist“unabhängig” stärker als “unkorreliert”.

Korrelationskoeefizienten, die sich (signifikant) von nullunterscheiden, lassen auf einen direkten oder indirektenZusammenhang zwischen den beiden Variablen schließen.Einfachster Fall: Die beiden Variablen X und Y können zueinanderin einer Ursache-Wirkung-Beziehung stehen, wobei offen bleibt,welche Variable auf welche wirkt. Es können aber auchkomplexere Beziehungen bestehen, z.B. kann eine dritteVariable Z einen Einfluss sowohl auf X als auch auf Y ausüben.

Beispiel: Es besteht eine Korrelation zwischen der Zahl derKindergeburten und der Zahl der Storchenpaare in einer Region.Ein direkter Kausalzusammenhang ist wohl nicht anzunehmen.

29

Übung Korrelation

Seien X und Y unabhängig gleichverteilt auf [0, 1]

Berechne die Korrelation zwischen X und Z für

1. Z = X + Y

2. Z = X2 + Y

2

3. Z = (X + Y )2

30

4.4 Bedingte Verteilungen

Bedingte Wahrscheinlichkeit für zwei Ereignisse A und B:

P(A|B) =P(AB)

P(B)

Entsprechende Definitionen für Zufallsvariablen X und Y

Diskret: pX|Y (x|y) := P(X = x|Y = y) = p(x,y)pY (y)

Übung: Gegeben p(x, y) durch

p(0, 0) = 0.4, p(0, 1) = 0.2, p(1, 0) = 0.1, p(1, 1) = 0.3,

Berechne bedingte Wahrscheinlichkeitsfunktion von X wenn Y = 1

31

Diskrete bedingte Verteilungen

Bedingte Verteilungsfunktion:

FX|Y (x|y) := P(X ≤ x|Y = y) =∑

k≤x

pX|Y (k|y)

Sind X und Y unabhängig so gilt pX|Y (x|y) = pX(x)

Beweis: Nachrechnen

Beispiel: Seien X ∼ P(λ1) und Y ∼ P(λ2) unabhängig.

Berechne bedingte Verteilung von X , wenn X + Y = n

P(X = k|X + Y = n) = P(X=k)P(Y=n−k)P(X+Y=n) ,

X + Y ∼ P(λ1 + λ2) ⇒ X |(X + Y = n) ∼ B(

n,λ1

λ1+λ2

)

32

Stetige bedingte Verteilungen

Stetig: fX|Y (x|y) :=f(x,y)fY (y) für fY (y) > 0

Definition im stetigen Fall läßt sich über diskreten Fall motivieren(Wahrscheinlichkeiten für kleine Umgebungen von x und y)

Berechne damit bedingte Wahrscheinlichkeiten:

P(X ∈ A|Y = y) =

∫

A

fX|Y (x|y) dx

Bedingte Verteilungsfunktion:

FX|Y (a|y) := P(X ∈ (−∞, a)|Y = y) =

a∫

x=−∞

fX|Y (x|y) dx

33

Beispiel

Gemeinsame Dichte von X und Y gegeben durch

f(x, y) =

c x(2− x− y), x ∈ [0, 1], y ∈ [0, 1],

0, sonst.

Berechne fX|Y (x|y) und die P(X < 1/2|Y = 1/3)

Lösung:

fY (y) = c

1∫

x=0

x(2− x− y) dx = c( 23 −y

2 )

fX|Y (x|y) =f(x,y)fY (y) = x(2−x−y)

2

3−

y

2

= 6x(2−x−y)4−3y

P(X < 1/2|Y = 1/3) =1/2∫

x=0

6x(2−x−1/3)4−3/3 dx = · · · = 1/3

34

Bedingter Erwartungswert

Berechnung mittels bedingter Wahrscheinlichkeitsfunktion bzw.bedingter Dichte

E(X |Y = y) =

∞∫

x=−∞

xfX|Y (x|y)dx

Beispiel: Fortsetzung

E(X |Y = y) =

1∫

x=0

6x2(2− x− y)

4− 3ydx =

5/2− 2y

4− 3y

Speziell E(X |Y = 1/3) = 1118

35

Erwartungswert durch Konditionierung

E(X |Y = y) ist eine Funktion von y,kann somit als Zufallsvariable in y betrachtet werden

Es gilt: E(X) = E(E(X |Y ))

Beweis:

E(E(X |Y )) =

∞∫

y=−∞

E(X |Y = y)fY (y) dy

=

∞∫

y=−∞

∞∫

x=−∞

xfX|Y =y(x)fY (y) dx dy

=

∞∫

y=−∞

∞∫

x=−∞

xf(x, y)

fY (y)fY (y) dx dy = E(X)

Übung: Verifiziere die Formel für obiges Beispiel

36

Bedingte Varianz

Formeln für den diskreten Fall (mit bedingter WF):

E(X |Y = y) =∑

x∈X

xpX|Y (x|y)

Var (X |Y = y) =∑

x∈X

(x− E(X |Y = y))2pX|Y (x|y)

Übung: Berechne Erwartungswert und Varianz von X wenn Y = j

j

i 0 1 2 3 pX

0 1/20 4/20 3/20 2/20 10/20

1 3/20 2/20 2/20 0 7/20

2 1/20 1/20 0 0 2/20

3 1/20 0 0 0 1/20

pY 6/20 7/20 5/20 2/20 20/20

37

Varianz mittels Konditionierung

Var (X) = E(Var (X |Y )) + Var (E(X |Y ))

Beweis: Wegen

Var (X |Y ) = E(X2|Y )− (E(X |Y ))2

gilt

E(Var (X |Y )) = E(E(X2|Y ))−E((E(X |Y ))2) = E(X2)−E(E(X |Y )2)

Andererseits

Var (E(X |Y )) = E(E(X |Y )2)−(E(E(X |Y )))2 = E(E(X |Y )2)−E(X)2

Die Summe beider Ausdrücke liefert das Resultat

Formel wesentlich für die Theorie der linearen Regression!

38

4.5 Bivariate Normalverteilung

Univariate Normalverteilung: f(x) = 1√

2π σe−(x−µ)2/2σ2

Standardnormalverteilung: φ(x) = 1√

2πe−x2/2

X1 und X2 unabhängig, jeweils normalverteilt N (µi, σ2i ), i = 1, 2

⇒ f(x1, x2) =1

2π σ1σ2e−(x1−µ1)

2/2σ2

1−(x2−µ2)

2/2σ2

2

=1

2π |Σ|1/2e−(x−µ)TΣ−1(x−µ)/2

wobei x =(

x1

x2

)

, µ =(

µ1

µ2

)

, Σ =(

σ2

10

0 σ2

2

)

39

Dichtefunktion allgemein (Vektorform)

X = (X1, X2) normalverteilt falls gemeinsame Dichtefunktion

f(x) = 12π |Σ|

1/2e−(x−µ)TΣ−1(x−µ)/2

Kovarianzmatrix: Σ =

σ21 σ12

σ12 σ22

Notation: ρ := σ12

σ1σ2

• |Σ| = σ21σ

22 − σ2

12 = σ21σ

22(1− ρ2)

• Σ−1 = 1σ2

1σ2

2(1−ρ2)

σ22 −ρσ1σ2

−ρσ1σ2 σ21

40

Bivariate Normalverteilung

X und Y jeweils standardnormalverteilt N (0, 1), ρ = 0:

−2−1

01

2

−2

−1

0

1

20

0.05

0.1

0.15

0.2

41

Beispiel bivariate Normalverteilungens

x2 = 1, s

y2 = 1, ρ = 0

−2 −1.5 −1 −0.5 0 0.5 1 1.5 2−2

−1.5

−1

−0.5

0

0.5

1

1.5

2

sx2 = 1, s

y2 = 1, ρ = 0.5

−2 −1.5 −1 −0.5 0 0.5 1 1.5 2−2

−1.5

−1

−0.5

0

0.5

1

1.5

2

sx2 = 4, s

y2 = 1/4, ρ = 0

−2 −1.5 −1 −0.5 0 0.5 1 1.5 2−2

−1.5

−1

−0.5

0

0.5

1

1.5

2

sx2 = 4, s

y2 = 1/4, ρ = −0.5

−2 −1.5 −1 −0.5 0 0.5 1 1.5 2−2

−1.5

−1

−0.5

0

0.5

1

1.5

2

42

Beispiel Dichtefunktion

(X, Y ) bivariat normalverteilt mit µi = 0, σi = 1 (i = 1, 2) undρ = 1/2

Berechne die gemeinsame Dichte!

Lösung: µ =(

00

)

, Σ =( 1 1/21/2 1

)

|Σ| = 1− 1/4 = 3/4, Σ−1 = 43

(

1 −1/2−1/2 1

)

(x, y)Σ−1(

x

y

)

= 23 (x, y)

(

2x−y

−x+2y

)

= 43 (x

2 − xy + y2)

f(x, y) =1√3π

e−

2

3(x2

−xy+y2)

Äquivalente Darstellung:

f(x, y) =1√2π

e−

1

2x2 1√

2π 3/4e−

(y−x/2)2

2·3/4

43

Beispiel Fortsezung

f(x, y) =1√2π

e−

1

2x2 1√

2π 3/4e−

(y−x/2)2

2·3/4

Gemeinsame Dichte ist Produkt der Dichte vonStandardnormalverteilung (in x) und Normalverteilung (in y) mitMittelwert x/2 und Varianz 3/4.

Berechne Dichte von X :

fX(x) =1√2π

e−

1

2x2

∞∫

y=−∞

1√

2π 3/4e−

(y−x/2)2

2·3/4 dy =1√2π

e−

1

2x2

fX(x) ist Dichte von Standardnormalverteilung

Integral ergibt 1, weil wir über eine Dichte integrieren!

44

Dichtefunktion allgemein

Von der Formel in Vektorform erhalten wir

f(x1, x2) =1

2πσ1σ2

√1−ρ2

exp

−z2

1−2ρz1z2+z2

2

2(1−ρ2)

wobei z1 = x1−µ1

σ1

und z2 = x2−µ2

σ2

(vgl. Normalisierung)

Notation deutet darauf hin, dass µi und σ2i jeweils Erwartungswert

und Varianz von Xi, den beiden Randverteilungen,und dass ρ die Korrelation zwischen X1 und X2

Es gilt: f(x1, x2) =1

√

2πσ1

e−

z21

2 · 1√2π(1−ρ2)σ2

e−

(ρz1−z2)2

2(1−ρ2)

Ergänzung auf vollständiges Quadrat im Exponenten

45

Bedeutung von µi, σ2

i und ρ

Allgemein gilt für bivariate Normalverteilung

1. X1 ∼ N (µ1, σ21) und X2 ∼ N (µ2, σ

22)

2. Korrelationskoeffizient ρ(X1, X2) =σ12

σ1σ2

Beweis:

1.Bilde vollst. Quadrat im Exponenten und integriere:

fX1(x1)=

1√2πσ1

e−

z21

2

∞∫

x2=−∞

1√

2π(1− ρ2)σ2

e−

(ρz1−z2)2

2(1−ρ2) dx2

=1

√2πσ1

e−

z21

2

∞∫

s=−∞

1√2π

e−

(

ρz1√

1−ρ2−s

)

2

2 ds =1

√2πσ1

e−

z21

2

mit Substitution s← z2/√

1− ρ2 = (x2 − µ2)/(√

1− ρ2σ2)

46

Fortsetzung Beweis

2. Wiederum Formel mit vollst. Quadrat und Substitutionz1 ← (x1 − µ1)/σ1, z2 ← (x2 − µ2)/σ2:

Cov (X1, X2) =

∞∫

x1=−∞

∞∫

x2=−∞

(x1 − µ1)(x2 − µ2)f(x1, x2) dx2dx1

=

∞∫

x1=−∞

x1 − µ1√2πσ1

e−

z21

2

∞∫

x2=−∞

x2 − µ2√

2π(1− ρ2)σ2

e−

(ρz1−z2)2

2(1−ρ2) dx2dx1

=

∫

z1

z1φ(z1)

∫

z2

z2√

1− ρ2φ

(

ρz1 − z2√

1− ρ2

)

σ2dz2σ1dz1

= σ1σ2

∫

z1

z1φ(z1)ρz1dz1 = σ1σ2ρ = σ12

47

Bedingte Verteilung

Interpretation für die Formel

f(x1, x2) =1

√

2πσ1

e−z21

2 · 1√2π(1−ρ2)σ2

e−

(ρz1−z2)2

2(1−ρ2)

f(x1, x2) = f1(x1)f2|1(x2|x1)

Aus (ρz1−z2)2

(1−ρ2) = (µ2+σ2ρz1−x2)2

σ2

2(1−ρ2)

folgt:

Bedingte Verteilung ist wieder normalverteilt mitµ2|1 = µ2 + ρ(x1 − µ1)

σ2

σ1

, σ2|1 = σ22(1− ρ2)

Für bivariate Normalverteilung: ρ = 0⇒ Unabhängigkeit

Ist im allgemeinen nicht richtig!

48

Summe von bivariat normalverteilten ZV

Sei X1, X2 bivariat normal mit µ1, µ2, σ21 , σ

22 , σ12

Dann ist Z = X1 +X2 wieder normalverteilt, mit

X1 +X2 ∼ N (µ1 + µ2, σ21 + σ

22 + 2σ12)

Beweis: Für die Dichte der Summe gilt

fZ(z) =

∞∫

x2=−∞

f(z − x2, x2) dx2

Man erhält das Resultat wieder durch Vervollständigung desQuadrats im Exponenten (etwas längere Rechnung)

Intuition : Mittelwert und Varianz von Z entsprechen derallgemeinen Formel!

49


5 Verteilungen vonStichprobenkennzahlen

1. Stichprobe

2. χ2 - Verteilung

3. t-Verteilung

4. F -Verteilung

1

5.1 Stichprobe

X1, . . . , Xn unabhängige ZV

P (X1 ∈ A1, . . . , Xn ∈ An) = P (X1 ∈ A1) · · ·P (Xn ∈ An)

für jede beliebige Wahl von Ereignissen A1, . . . An.

Stichprobe . . .n unabhängige Zufallsvariablen, die alle gleichverteilt sind

Englisch: identically independently distributed (i.i.d)

Beispiel: Binomialverteilung B(n, p) erhalte ich als Summe von n

unabhängigen Bernoulli-Variablen

X =

n∑

i=1

Xi

wobei Xi ∼ B(1, p) i.i.d.

2

Mittelwert von Stichproben

X1, . . . , Xn i.i.d. wie X ,

Definition: X := 1n

n∑

i=1

Xi

Mit E(X) = µ und Var (X) = σ2 gilt:

E(

X)

= µ, Var (X) = σ2

n

Beweis:

E

(

n∑

i=1

Xi

)

=n∑

i=1

E(Xi)

Var(

n∑

i=1

Xi

)

=n∑

i=1

Var (Xi)

Letzte Gleichung wegen Unabhängigkeit der Beobachtungen

3

Normalverteilte Stichproben

X1, . . . , Xn i.i.d. N (µ, σ2) ⇒ X ∼ N (µ, σ2/n)

Zentraler Grenzwertsatz: Selbst für nicht normalverteilteStichprobe X1, . . . , Xn ist X für große n näherungsweisenormalverteilt (Siehe Kapitel 6)

Beispiel: Gewicht X von Brotlaib einer Bäckerei hat im Mittel 1kgbei einer Varianz von 0.1 kg, Annahme das Gewicht istnormalverteilt.Stichprobe von 10 Broten, welche Verteilung hat X?Mit welcher Wahrscheinlichkeit liegt X zwischen 0.95 und 1.05?

σ2X

= σ2X/10 = 0.01 ⇒ X ∼ N (1, 0.01)

P (0.95 ≤ X ≤ 1.05) = Φ(

1.05−10.1

)

− Φ(

0.95−10.1

)

= 2Φ(0.5)−1=0.383

4

5.2 χ2 - Verteilung

Motivation: Gegeben Stichprobe X1, . . . , Xn i.i.d.

X kann verwendet werden, um unbekanntes µ zu schätzen.

Typische andere statistische Fragestellungen:

Wie kann ich unbekanntes σ schätzen?

Möglicher Zugang: σ2 = E(X − µ)2

Somit könnten Quadratsummen der Stichprobe interessant sein:

• µ bekannt:n∑

i=1

(Xi − µ)2

• µ unbekannt:n∑

i=1

(Xi − X)2

Welche Verteilung haben diese Quadratsummen?

5

Mittelwerte von Quadratsummen

X1, . . . , Xn i.i.d. wie X , E(X) = µ, Var (X) = σ2

Es gilt:

E

(

n∑

i=1

(Xi − µ)2)

= nσ2

Beweis: Vertausche Summe und Erwartungswert

Weiters gilt:

E

(

n∑

i=1

(Xi − X)2)

= (n− 1)σ2

Beweis: Übung

6

Verteilung von Z2

Erinnerung: X ∼ Γ(t, λ) . . . f(x) = λe−λx(λx)t−1

Γ(t) , für x ≥ 0

Es gilt:

Z ∼ N (0, 1) ⇒ Y = Z2 ∼ Γ( 12 ,12 )

In Worten: Das Quadrat einer standardnormalverteiltenZufallsvariable ist Γ-verteilt mit Parametern t = 1/2 und λ = 1/2.

Beweis: P (Y ≤ y) = P (−√y ≤ Z ≤

√y) = Φ(

√y)− Φ(−

√y)

⇒ fY (y) = ϕ(√y)

1

2√y+ ϕ(−

√y)

1

2√y= ϕ(

√y)

1√y

=1

√2πy

e−y/2 =

12e

−

y

2 ( y2 )1

2−1

Γ( 12 ), weil Γ(

1

2) =

√π.

7

Additionstheorem für Γ−Verteilung

Y1, . . . , Yn unabhängig, Γ(ti, λ), mit beliebigen ti

d.h. fYi(y) =

λe−λy(λy)ti−1

Γ(ti), für y ≥ 0

dann S :=n∑

i=1

Yi auch Γ−verteilt, nämlich S ∼ Γ(n∑

i=1

ti, λ)

d.h. fS(s) =λe−λs(λs)T−1

Γ(T ), für s ≥ 0, mit T :=

n∑

i=1

ti

Beweis: Iteratives Anwenden der Faltungsformel für dieΓ−Verteilung (vgl. Beispiel im Kapitel 4)

Bemerkung: Vergleiche Additionstheorem für Xi ∼ N (µi, σ2i ) i.i.d.

8

Definition der χ2 - Verteilung

Man bezeichnet Y ∼ Γ(n2 ,12 ) als χ

2-verteilt mit n Freiheitsgraden

Notation: Y ∼ χ2n

0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 50

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

df=1df=2df=3df=4df=6

Dichte der χ2-Verteilung für verschiedene Freiheitsgrade

9

Verteilung der Quadratsumme, bekanntes µ

Wir haben gesehen: Z ∼ N (0, 1) ⇒ Z2 ∼ Γ( 12 ,

12 ) = χ

21

Aus dem Additionstheorem folgt unmittelbar:

Zi ∼ N (0, 1) i.i.d ⇒ Y :=n∑

i=1

Z2i ∼ χ2

n

Damit können wir unsere erste Frage beantworten:Für eine Stichprobe der Größe n von normalverteiltenZufallsvariablen Xi ∼ N (µ, σ2) gilt:

n∑

i=1

(Xi − µ)2 = σ2

n∑

i=1

(Xi−µ)2

σ2 ∼ σ2χ2n

10

Verteilung der Quadratsumme, unbekanntes µ

Wenn wir µ durch X ersetzen so gilt (ohne Beweis):

n∑

i=1

(Xi − X)2 ∼ σ2χ2n−1

Es gilt: Y ∼ χ2n−1 ⇒ E(Y ) = n− 1

Daher üblicher Schätzer für die Varianz S2 := 1n−1

n∑

i=1

(Xi − X)2

Interpretation für den Begriff Freiheitsgrad:

• µ bekannt: Alle Xi zur Schätzung von σ2 unabhängig

⇒ daher n Freiheitsgrade

• µ unbekannt: Ein Parameter wird aus den Daten geschätzt

⇒ daher n− 1 Freiheitsgrade

11

5.3 t - Verteilung

Motivation:

1. Standardisierung für X ∼ N (µ, σ2): Z = X−µ

σ

2. Für Stichprobe X1, . . . , Xn i.i.d. wie X ,

Standardisierung für X: X−µ

σ/√

n

3. Ersetze σ2 durch S2 = 1n−1

n∑

i=1

(Xi − X)2

d.h. wir interessieren uns für T :=√n

X−µ

S

Es gilt: T =√n

1

n

n∑

i=1

Zi

√

1

n−1

n∑

i=1

(Zi−1

n

n∑

j=1

Zj)2wobei Zi =

Xi−µ

σ

Beweis: Nachrechnen

12

Eigenschaften der T -Statistik

T =√n− 1

1√

n

n∑

i=1

Zi

√

n∑

i=1

(Zi−1

n

n∑

j=1

Zj)2wobei Zi = N (0, 1)

Wir wissen bereits:

Z := 1√

n

n∑

i=1

Zi ∼ N (0, 1),

Y :=n∑

i=1

(Zi −1n

n∑

j=1

Zj)2 ∼ χ2

n−1

Somit insgesamt

T =√

n(X−µ)S

=√n− 1 Z

√

Y

Zusätzlich gilt (ohne Beweis):

X und S2 sind unabhängige ZV, (daher auch Z und Y )

13

Definition der t-Verteilung

Seien Z ∼ N (0, 1), Y ∼ χ2n unabhängig, dann heißt

T :=√n

Z√

YStudent- oder t-verteilt mit n Freiheitsgraden

Dichte der t-Verteilung für verschiedene Freiheitsgrade

−3 −2 −1 0 1 2 30

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

0.45t=1t=2t=3t=4t=6

Für n groß nahezu standardnormalverteilt

14

5.4 F - Verteilung

Motivation:

Häufig in der Statistik von Interesse: Vergleich von Varianzen.Eine Möglichkeit → betrachte Quotienten σ

21/σ

22

Zum Beispiel zwei Gruppen, Stichproben X(1)1 , . . . , X

(1)n1

bzw.

X(2)1 , . . . , X

(2)n2

.

Seien Y1 und Y2 die jeweiligen Quadratsummen der Stichproben,sodass Yj = σ

2j Yj mit Yj ∼ χ

2nj−1 (j = 1, 2).

Für Schätzer von σ2j gilt S2

j =Yj

nj−1 =σ2

jYj

nj−1 .

Falls σ1 = σ2 (“Nullhypothese”), gilt also für den Quotienten derSchätzer

S21

S22

=Y1/(n1 − 1)

Y2/(n2 − 1)

15

Definition der F -Verteilung

Y1 ∼ χ2n1

, Y2 ∼ χ2n2

unabhängig, dann heißt

Q := Y1/n1

Y2/n2

F -verteilt mit n1 und n2 Freiheitsgraden

Dichte der F -Verteilung für verschiedene n1 und für n2 = 25

0 0.5 1 1.5 2 2.50

0.5

1

1.5n

1=1

n1=2

n1=3

n1=4

n1=6

16

Eigenschaften der F - Verteilung

Sei Q ∼ F(n1, n2) F -verteilt mit Freiheitsgraden n1, n2.Dichte der F -Verteilung etwas kompliziert

• µF(n1,n2) =

n2

n2−2

Beweis als Übung.

• 1Q

∼ F(n2, n1)

folgt unmittelbar aus Definition

• Sei T Student-verteilt mit n Freiheitsgraden:

T 2 ∼ F(1, n)

aus der Darstellung T =√n

Z√

Y, wobei Z ∼ N (0, 1), Y ∼ χ2

n

folgt T2 = Z2/1

Y/nwobei Z

2 ∼ χ21

17

Quantile

In der Praxis werden sehr häufig die Quantile der χ2-,t- undF -Verteilung benötigt

Nicht elementar berechenbar ⇒ Tabellen (oder Computer)

Zu beachten:

• t-Verteilung mit unendlich vielen Freiheitsgraden entsprichtNormalverteilung

• γp(n1, n2) sei p-Quantil von F(n1, n2), dann gilt:

γp(n1, n2) =1

γ1−p(n2,n1)

Beweis: p = P (Q ≤ γp(n1, n2)) wobei Q = Y1/n1

Y2/n2

1− p = P (Q > γp(n1, n2)) = P (Q−1 <1

γp(n1,n2))

18


6 Grenzwertsätze

1. Einführung

2. Gesetze der großen Zahlen

3. Der Zentraler Grenzwertsatz

1

6.1 Einführung

Grenzwertsätze grundlegend für Wahrscheinlichkeitstheorie

Zwei wesentliche Gruppen:

1. Gesetze der großen Zahl

Geben Bedingungen unter welchen Mittelwert einerZahlenfolge gegen theoretischen Erwartungswert konvergieren

2. Zentrale Grenzwertsätze

Bedingungen unter welchen die Summe einer großen Zahl vonVerteilungen gegen Normalverteilung konvergiert

Verschiedene Versionen, je nach Art der Konvergenz

2

Markov Ungleichung

X nichtnegative Zufallsvariable, d.h. X ⊂ R+0

Dann gilt für jedes a > 0:

P (X ≥ a) ≤ 1aE(X)

Beweis:

Definiere Y :=

1, X ≥ a

0, X < a

X ≥ 0 ⇒ Y ≤ Xa

⇒ E(Y ) ≤ E(X)a

und E(Y ) = P (X ≥ a)

3

Chebyshev Ungleichung

X Zufallsvariable mit E(X) = µ ∈ R und Var (X) = σ2< ∞,

dann gilt für jedes k > 0

P (|X − µ| ≥ k) ≤ σ2

k2

Beweis:

Anwendung der Markov Ungleichung für (X − µ)2 ≥ 0 und a = k2

P ((X − µ)2 ≥ k2) ≤

1

k2E(X − µ)2

Verwendung: Abschätzungen für Zufallsvariablen, wenn nur µ undσ2 bekannt.

4

6.2 Gesetze der großen Zahl

Das schwache Gesetz der großen Zahlen :

X1, X2, . . . i.i.d. Folge von Zufallsvariablen, E(Xi) = µ

Dann gilt für jedes ε > 0

P(∣

∣

X1+···+Xn

n− µ

∣

∣ ≥ ε)

→ 0 für n → ∞

Beweis: (Verwende zusätzlich Var (Xi) = σ2 < ∞ )

E(

X1+···+Xn

n

)

= µ, Var(

X1+···+Xn

n

)

= σ2

n

Chebyshev Ungleichung:

P

(∣

∣

∣

∣

X1 + · · ·+Xn

n− µ

∣

∣

∣

∣

≥ ε

)

≤σ2

nε2

5

Das starke Gesetz der großen Zahlen

X1, X2, . . . i.i.d. Folge von Zufallsvariablen, E(Xi) = µ

Dann gilt mit Wahrscheinlichkeit 1, dass

X1+···+Xn

n→ µ für n → ∞

Ohne Beweis

Starkes Gesetz tatsächlich stärker als schwaches Gesetz:

Mit Wahrscheinlichkeit 1 gibt es für jedes ε ein N(ε), so dass∣

∣

X1+···+Xn

n− µ

∣

∣ < ε für alle n > N(ε)

d.h. ab einem gewissen Index N(ε) sind (mit Wahrscheinlichkeit 1)alle weiteren Mittelwerte X1+···+Xn

nentsprechend nahe bei µ

Im Vergleich dazu läßt das schwache Gesetz die Möglichkeit offen,dass immer wieder ein Mittelwert X1+···+Xn

nweiter von µ entfernt

ist, aber mit immer kleiner werdender Wahrscheinlichkeit

6

6.3 Der zentrale Grenzwertsatz

X1, X2, . . . i.i.d. Folge von Zufallsvariablen,

E(Xi) = µ, Var (Xi) = σ2, dann gilt

P

(

X1+···+Xn−nµ

σ√

n≤ a

)

→ Φ(a) für n → ∞

In Worten: Die Summe einer großen Anzahl von unabhängigenidentisch verteilten Zufallsvariablen ist approximativ normalverteiltmit Mittelwert nµ und Varianz nσ

2

X1 + · · ·+Xn ∼ N (nµ, nσ2)

Ohne Beweis!

Literatur: Viele verschiedene Möglichkeiten diesen Satz zubeweisen

Spezialfall: Normalverteilungsapprox. der Binomialverteilung

7

Annäherung an Normalverteilung

0 10 20 30 40 50 60 70 80 90 1000

0.5

1

1.5

2

2.5x 10

4

0 10 20 30 40 50 60 70 80 90 1000

0.5

1

1.5

2

2.5x 10

4

0 10 20 30 40 50 60 70 80 90 1000

0.5

1

1.5

2

2.5x 10

4

0 10 20 30 40 50 60 70 80 90 1000

0.5

1

1.5

2

2.5x 10

4

Verteilungen der (normierten) Summen∑

n

i=1Xi mit Xi gleichverteilt, für n = 1, 2

(oben) und n = 3, 10 (unten).

8

Konvergenzbegriffe

I. Falls P (|Xn − a| ≥ ǫ) → 0 (n → ∞) für jedes ǫ > 0, sagt man,dass die Folge Xn von Zufallsvariablen in Wahrscheinlichkeitgegen die Zahl a konvergiert. Man schreibt dann Xn

p→ a. Das

schwache Gesetz der großen Zahlen besagt somit, dass

Xnp→ µ.

II. Falls die Verteilungsfunktionen von Xn gegen dieVerteilungsfunktion einer bestimmte Verteilung D konvergieren,spricht man von schwacher Konvergenz. Man schreibt dannXn

w→ D. Der zentrale Grenzwertsatz besagt somit, dass (unter

den angegebenen Voraussetzungen)

Xn − µ

σ√

n

w→ N (0, 1).

9