356
Stochastik und Statistik Vorlesung Sommersemester 2012 Dienstag 12.00 – 14.00 (HGB M114) Donnerstag 12.00 – 14.00 (HGB M010) Matthias Schmid <[email protected]> Esther Herberich <[email protected]> Webseite: http://www.statistik.lmu.de/institut/ag/biostat/ vorlesungen/SS12/Stochastik/ Schein: Erwerb durch Klausur Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 1 / 57

Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

  • Upload
    doliem

  • View
    226

  • Download
    2

Embed Size (px)

Citation preview

Page 1: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Stochastik und Statistik

Vorlesung Sommersemester 2012Dienstag 12.00 – 14.00 (HGB M114)

Donnerstag 12.00 – 14.00 (HGB M010)

Matthias Schmid<[email protected]>

Esther Herberich<[email protected]>

Webseite:http://www.statistik.lmu.de/institut/ag/biostat/

vorlesungen/SS12/Stochastik/

Schein: Erwerb durch Klausur

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 1 / 57

Page 2: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Ubungen

Erste Ubungen:Mittwoch, den 02.05. um 14:00 (HGB A U117 und HGB B011) und

um 16:00 (HBG A U115)

Ab dem 08.05.:Dienstag um 14:00 in Richard-Wagner-Str. 10, Raum 109Mittwoch um 14:00 in HGB A U117Mittwoch um 16:00 in HGB A U115

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 2 / 57

Page 3: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Literatur

Held (2008): “Methoden der statistischen Inferenz. Likelihood undBayes”, Spektrum, 29,95 EUR (304 Seiten)

Dumbgen (2003): “Stochastik fur Informatiker”, Springer Verlag,30,79 EUR (268 Seiten)

Fahrmeir, Kunstler, Pigeot, Tutz (2010): “Statistik: Der Weg zurDatenanalyse”, 7. Auflage, Springer Verlag, 30,79 EUR (610 Seiten)

Georgii (2009): “Stochastik”, 4. Auflage, deGruyter, 29,95 EUR (404Seiten)

Grimmett, Stirzaker (2001): “Probability and Random Processes”, 3rdEdition, Oxford University Press, ca. 40 EUR (608 Seiten)

Ligges (2008): “Programmieren mit R”, 3. Auflage, Springer Verlag,33,87 EUR (251 Seiten)

Skript zur Vorlesung auf der Webseite

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 3 / 57

Page 4: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Software

Die Graphiken und Beispiele im Skript und in der Vorlesung wurden mit Rerstellt. Das Analysesystem R ist fur alle gangigen Betriebssysteme freierhaltlich unter

http://www.R-Project.org

Eine geeignete deutschsprachige Einfuhrung ist das Buch von Uwe Ligges“Programmieren mit R” (siehe Literaturliste). Auf der obigen Webseite sindelektronische Handbucher und diverse Einfuhrungen in dieseProgrammiersprache erhaltlich. Am Institut fur Statistik werdenVorlesungen und Kurse zu R angeboten.

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 4 / 57

Page 5: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Inhaltsverzeichnis

1 Einleitung

2 Laplace-Verteilungen und diskrete Modelle

3 Bedingte Wkeiten, stoch. Unabhangigkeit

4 Diskrete Zufallsvariablen

5 Erwartungswerte, Varianzen und Kovarianzen

6 Statistische Inferenz

7 Markov-Ketten

8 Stetige Zufallsvariablen

9 Statistische Inferenz II

10 Lineare Regression

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 5 / 57

Page 6: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

1. Einleitung

Stochastik =

WahrscheinlichkeitstheorieStatistik

Wahrscheinlichkeitstheorie: Mathematische Beschreibung vonzufalligen Phanomenen

Statistik:I Erhebung, Auswertung und Interpretation von DatenI Quantifizierung von Unsicherheit

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 6 / 57

Page 7: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Ist Stochastik fur die (Bio)Informatik wichtig?

Simulation von zufalligen Prozessen am ComputerBsp.: Verbreitung von Epidemien

Analyse von statistischen/randomisierten AlgorithmenBsp.: Quicksort

Statistische Analyse von Daten aus der Biologie und GenetikBsp.: Genexpression und Uberlebenszeit

Stochastische Modelle fur das Auftreten von DatenBsp.: Hardy-Weinberg-Gesetz

vgl. Journal Bioinformatics, Table of Contents

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 7 / 57

Page 8: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Wahrscheinlichkeit

Grundbegriff der Stochastik: Wahrscheinlichkeit P(A) fur das Auftreteneines bestimmten Ereignisses A

P(A) = 1 : A tritt mit Sicherheit einP(A) = 0 : A tritt mit Sicherheit nicht einP(A) = p ∈ (0, 1) : Ereignis A tritt mit Wahrscheinlichkeit

p ein

Interpretation?

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 8 / 57

Page 9: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Subjektivistische Interpretation

Wahrscheinlichkeit aus Wetteinsatz

Frage : ”Wie sicher bist Du, dass das Ereignis A eintre-ten wird?”

: ”Wie viel Einsatz E wirst Du maximal setzen,wenn beim Eintreten von A ein Gewinn G aus-gezahlt wird?”

; P(A) = EG

Wahrscheinlichkeit als Maß fur Deine Unsicherheit.

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 9 / 57

Page 10: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Beispiel: Spiel mit drei Bechern

Unter einen von drei gleichartigen Bechern wird eine weiche Kugel gelegt.Nun beginnt der Anbieter, die Becher vor den Augen des Spielers zuvertauschen.

Der Spieler muss nach einer gewissen Zeit sagen, unter welchem Becher dieKugel liegt. Wenn er die Kugel findet, gewinnt er den doppelten Einsatz.

Ereignis A: “Kugel gefunden”

Spieler glaubt: P(A) > 1/2, moglichst nahe bei Eins

Anbieter glaubt: P(A) < 1/2, im Idealfall P(A) = 1/3

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 10 / 57

Page 11: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Frequentistische Interpretation

“Haufigkeitsinterpretation”

Angenommen das Zufallsexperiment kann beliebig oft wiederholt werden,dann konvergiert die relative Haufigkeit des Eintretens des Ereignisses Agegen die Wahrscheinlichkeit P(A).

Klassisches Beispiel: Wiederholtes Werfen eines “fairen” Wurfels;Simulation durch Funktion sample() in R; Berechnung der kumuliertenrelativen Haufigkeiten von interessierenden Ereignissen.

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 11 / 57

Page 12: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

2. Laplace-Verteilungen und diskrete Modelle

Prinzip von Laplace (Pierre-Simon de Laplace [1749-1827]):

“Wenn nichts dagegen spricht, gehen wirdavon aus, dass alle Elementarereignissegleichwahrscheinlich sind.”

Frage: Was sind “Elementarereignisse”?

Ein Element ω einer Grundgesamtheit Ω nennt man Elementarereignis.

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 12 / 57

Page 13: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

2.1 Laplace Wahrscheinlichkeiten

Betrachte die endliche Grundgesamtheit von Elementarereignissen

Ω = ω1, ω2, . . . , ωn

Fur ein Ereignis A ⊂ Ω definiert man die Laplace-Wahrscheinlichkeit als die Zahl

P(A) :=|A||Ω| =

|A|n

wobei |A| die Anzahl der Elemente in A ist.

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 13 / 57

Page 14: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Folgerungen und Erweiterungen

Jedes Elementarereignis ωi , i = 1, . . . , n hat also dieWahrscheinlichkeit P(ωi) = 1

n .

Die Wahrscheinlichkeit von Ω ist P(Ω) = 1.

Die entsprechende Abbildung P(Ω)→ [0, 1] nennt man auchLaplace-Verteilung (oder diskrete Gleichverteilung) auf Ω.

Hierbei nennt man P(Ω) die Potenzmenge (Menge allerTeilmengen) von Ω (nicht zu verwechseln mit P(Ω)!).

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 14 / 57

Page 15: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Beispiel: Augensumme von zwei Wurfeln

Ω = (1, 1), (1, 2), . . . , (6, 5), (6, 6)|Ω| = n = 62 = 36

Sei Ak das Ereignis “Augensumme ist k”.Dann gilt:

P(Ak) =6− |k − 7|

36fur k = 2, . . . , 12

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 15 / 57

Page 16: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Beispiel: Skatspiel

Beim Skatspiel werden 32 verschiedene Karten, darunter 4 Buben an 3Spieler verteilt. Jeder Spieler erhalt 10 Karten. 2 Karten kommen in denSkat. Wie groß ist nun die Wahrscheinlichkeit der Ereignisse:

A1 := “Spieler 1 erhalt alle Buben”

A2 := “Jeder Spieler erhalt genau einen Buben”

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 16 / 57

Page 17: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Laplace-Verteilungen sind zu speziell!

Beispiele:

Unfairer Wurfel

Wahrscheinlichkeit fur Knabengeburt

Auftreten von Kopf oder Zahl bei 2-Euro Munze

; Elementarereignisse hier nicht gleichwahrscheinlich!

Ein weiteres Problem ist, dass manchmal |Ω| unendlich ist.

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 17 / 57

Page 18: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Beispiel fur unendliche Grundgesamtheiten

Man interessiere sich fur die Anzahl der Wurfe einer fairen Munze bis zumersten Mal Zahl eintritt.

Ω unendlich: Ω = ω1, ω2, ω3, ω4, . . . = 1, 2, 3, 4, . . . = N

Allgemein mit ωi = i :

P(ωi) = 12i i = 1, 2, 3, . . .

∞∑i=1

P(ωi) =∞∑i=1

12i = 1 (geom. Reihe) vgl. Analysis

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 18 / 57

Page 19: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

2.2 Diskrete Wahrscheinlichkeitsraume

Ein diskreter Wahrscheinlichkeitsraum ist ein Paar (Ω,P) wobei

Ω eine abzahlbare Grundgesamtheit ist und

P ein diskretes Wahrscheinlichkeitsmaß, das jeder Teilmenge A ⊂ Ωeine Wahrscheinlichkeit P(A) zuordnet.

Diese definiert man wieder uber die Wahrscheinlichkeiten P(ω) derElementarereignisse ω ∈ A:

P(A) =∑ω∈A

P(ω)

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 19 / 57

Page 20: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Diskrete Wahrscheinlichkeitsraume II

wobei fur P(ω) gelten muss:

0 ≤ P(ω) ≤ 1 fur alle ω

und∑

ω∈Ω

P(ω) = 1.

Beispiel fur unendlichen Wahrscheinlichkeitsraum: Ω = N; ωi = i

Betrachte z.B. P(ωi) = 1/(i(i + 1)) oder P(ωi) = 1/2i

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 20 / 57

Page 21: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

2.3 Axiome von Kolmogorov [1903-1987]

Wir betrachten eine beliebige (abzahlbare) Grundgesamtheit Ω und eineFunktion P auf der Potenzmenge P(Ω), die jedem Ereignis A ⊂ Ω eineWahrscheinlichkeit zuordnet.Wir nennen P eine Wahrscheinlichkeitsverteilung auf Ω, wenn siefolgende Eigenschaften erfullt:

A1) P(A) ≥ 0 fur beliebige A ⊂ Ω

A2) P(Ω) = 1

A3) P(A ∪ B) = P(A) + P(B) fur disjunkte EreignisseA,B ⊂ Ω

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 21 / 57

Page 22: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Folgerungen

P(∪ni=1 Ai ) =

n∑i=1

P(Ai )

fur paarweise disjunkte Ereignisse A1,A2, . . . ,An ⊂ Ω

P(A) ≤ P(B) falls A ⊂ B

Definiere das Komplement von A: A = Ω \ A.Dann gilt P(A) = 1− P(A)

P(A ∪ B) = P(A) + P(B)− P(A ∩ B) fur beliebige A,B ⊂ Ω

; Darstellung im Venn-Diagramm (John Venn [1834-1923])

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 22 / 57

Page 23: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Die Siebformel von Sylvester-Poincare

James Sylvester [1814-1897]Jules Henri Poincare [1854-1912]

Fur beliebiges n ∈ N und A1,A2, . . . ,An ⊂ Ω gilt:

P(A1 ∪ A2 ∪ . . . ∪ An) =∑

i

P(Ai )−∑i<j

P(Ai ∩ Aj)

+∑

i<j<k

P(Ai ∩ Aj ∩ Ak)

± . . .+ (−1)n+1 · P(A1 ∩ A2 ∩ . . . ∩ An)

Daher: P(A ∪ B ∪ C ) = ???

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 23 / 57

Page 24: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Bonferroni Ungleichungen

; Abschatzungen von P(A1 ∪ A2 ∪ . . . ∪ An)

Fur beliebige Ereignisse A1,A2, . . .An ist

P(∪ni=1Ai ) =

≤∑

iP(Ai )

≥∑i

P(Ai )−∑i<j

P(Ai ∩ Aj)

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 24 / 57

Page 25: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

3.1 Bedingte Wahrscheinlichkeiten

Fur Ereignisse A,B ⊂ Ω mit P(B) > 0 definiert man die bedingteWahrscheinlichkeit von A gegeben B als die Zahl

P(A|B) =P(A ∩ B)

P(B)

; Darstellung im Venn-Diagramm

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 25 / 57

Page 26: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Beispiel: Spiel mit drei Bechern

Spieler macht einen Trick und markiert einen der drei Becher.Sei

A := “Beobachter findet den richtigen Becher”B := “Spielanbieter legt die Kugel unter den markierten Becher”

Dann:

P(A|B) = 1P(A|B) = 1/2

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 26 / 57

Page 27: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Eigenschaften von bedingten Wahrscheinlichkeiten

P(B|B) = 1

P(B|B) = 0

P(A|B) ≥ 0 fur beliebige A ⊂ Ω

P((A1 ∪ A2)|B) = P(A1|B) + P(A2|B)

fur A1 und A2 disjunkt

Daher:

Als Funktion von A ⊂ Ω ist P(A|B) (bei festem B!) eineWahrscheinlichkeitsverteilung

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 27 / 57

Page 28: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Beispiel: Skat

Sei

A := “Mindestens eine der acht Karokarten liegt im Skat”B := “Spieler 1 erhalt beim Austeilen keine der acht Karokarten”

Berechne P(A) und P(A|B) und vergleiche diese.

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 28 / 57

Page 29: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Multiplikationssatz

Fur beliebige Ereignisse A1,A2, . . . ,An mit P(A1 ∩ A2 ∩ . . . ∩ An) > 0 gilt:

P(A1 ∩ A2 ∩ . . . ∩ An)

= P(A1) · P(A2|A1) · P(A3|A1 ∩ A2) · . . . · P(An|A1 ∩ . . . ∩ An−1)

wobei man die rechte Seite offensichtlich auch in jeder anderen moglichenReihenfolge faktorisieren kann.Wir schreiben im Folgenden auch gerne P(A1,A2) := P(A1 ∩ A2) etc.Insbesondere gilt also

P(A1,A2) = P(A1) · P(A2|A1)

P(A1,A2,A3) = P(A1) · P(A2|A1) · P(A3|A1,A2)

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 29 / 57

Page 30: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Satz der totalen Wahrscheinlichkeit

Sei B1,B2, . . . ,Bn eine disjunkte Zerlegung von Ω:

1 B1,B2, . . . ,Bn paarweise disjunkt: Bi ∩ Bj = ∅ ∀i 6= j

2 B1 ∪ B2 ∪ . . . ∪ Bn = Ω

Falls zusatzlich P(Bi ) > 0 fur i = 1, . . . , n so gilt fur jedes A ⊂ Ω:

P(A) =n∑

i=1

P(A|Bi ) · P(Bi )

→ Illustration im Venn-Diagramm

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 30 / 57

Page 31: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Ein wichtiger Spezialfall

Insbesondere gilt

P(A) = P(A|B)P(B) + P(A|B)P(B)

da B, B eine disjunkte Zerlegung von Ω ist.

Beweis?

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 31 / 57

Page 32: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

3.2 Der Satz von Bayes I

Thomas Bayes [1701-1761]

Dieser Satz beruht auf der Asymmetrie der Definition von bedingtenWahrscheinlichkeiten:

P(A|B) =P(A ∩ B)

P(B)⇒ P(A ∩ B) = P(A|B)P(B)

P(B|A) =P(A ∩ B)

P(A)⇒ P(A ∩ B) = P(B|A)P(A)

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 32 / 57

Page 33: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Der Satz von Bayes II

P(B|A) =P(A|B)P(B)

P(A)

totale W’keit=

P(A|B)P(B)

P(A|B)P(B) + P(A|B)P(B)

Allgemeiner gilt fur eine disjunkte Zerlegung B1, . . . ,Bn

P(Bi |A) =P(A|Bi )P(Bi )∑ni=1 P(A|Bi )P(Bi )

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 33 / 57

Page 34: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Interpretation

P(Bi ) “a-priori-Wahrscheinlichkeiten”P(Bi |A) “a-posteriori-Wahrscheinlichkeiten”

Nach Beobachtung von A andert sich die Wahrscheinlichkeit von Bi vonP(Bi ) zu P(Bi |A)

Beispiel: Skatspiel

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 34 / 57

Page 35: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Beispiel: Diagnostischer Test

K := “Person ist krank”

T := “Test auf Krankheit ist positiv”

Ublicherweise kennt man die:

Sensitivitat P(T |K ) ⇒ P(T |K ) = 1− P(T |K )

Spezifitat P(T |K ) ⇒ P(T |K ) = 1− P(T |K )

P(K ) heißt Pravalenz

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 35 / 57

Page 36: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Beispiel: Diagnostischer Test II

Zahlenbeispiel:

P(T |K ) = 0.222 P(T |K ) = 0.993 P(K ) = 0.0264

Es ergibt sich

P(T ) ≈ 0.012676

P(K |T ) ≈ 0.462

P(K |T ) ≈ 0.979

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 36 / 57

Page 37: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Beispiel: Creutzfeldt-Jakob

CJD14-3-3 + - Total

+ 126 7 133- 8 97 105Total 134 104 238

Die Sensitivitat ist P(14-3-3 = +|CJD = +) = 126/134 = 0.94 und dieSpezifitat ist P(14-3-3 = −|CJD = −) = 97/104 = 0.93.

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 37 / 57

Page 38: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Chancen

Oft ist es einfacher, W’keiten als Chancen, im Sinne von Wettchancen(etwa 1:10), engl. “odds” aufzufassen. Fur eine W’keit π besteht zurChance γ der Zusammenhang

γ =π

1− ππ =

γ

1 + γ

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 38 / 57

Page 39: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Eine Version vom Satz von Bayes

Eine elementare Umformung liefert

P(B|A)

P(B|A)=

P(B)

P(B)· P(A|B)

P(A|B)

Posterior Odds = Prior Odds · Likelihood Ratio

Posteriori Chance = Priori Chance · Likelihood Quotient

Im Beispiel ergibt sich:

Priori Chance: 0.027Likelihood Quotient: 31.7

; Posteriori Chance: 0.858

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 39 / 57

Page 40: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Beispiel: O.J. Simpson Prozess

O.J. Simpson gab zu, seine Frau missbraucht zu haben.

Er gab aber nie zu, seine Frau ermordet zu haben.

Einer seiner Verteidiger sagte, die Wkeit, dass jemand, der seine Fraumissbraucht, auch ermordet, ist 1/1000.

Aber: Das Gericht ist mehr interessiert an der Wkeit, dass O.J. Simpsonder Morder seiner Frau ist, gegeben er hat sie missbraucht und sie istermordet worden.

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 40 / 57

Page 41: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Beispiel: O.J. Simpson Prozess II

Zwei Ansatze zur Losung! Sei

A : “Ein Mann hat seine Frau missbraucht”

M : “Die Frau wurde ermordet”

G : “Der Mann ist des Mordes schuldig”

P(G |A,M)

P(G |A,M)=

P(G |M)

P(G |M)· P(A|G ,M)

P(A|G ,M)(1)

aber auch =P(G |A)

P(G |A)· P(M|G ,A)

P(M|G ,A)(2)

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 41 / 57

Page 42: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Beispiel: O.J. Simpson Prozess III

Ansatz (1) liefert (unter geeigneter Vorinformation)

P(G |A,M)

P(G |A,M)= 4.08

Ansatz (2) liefert (unter anderer Vorinformation)

P(G |A,M)

P(G |A,M)= 1.0

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 42 / 57

Page 43: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Beachte:

Alle Aussagen fur Wahrscheinlichkeiten gelten auch fur bedingteWahrscheinlichkeiten (bei fester Bedingung C mit P(C ) > 0).Daher z.B.

P(A ∪ B|C ) = P(A|C ) + P(B|C )− P(A ∩ B|C )

und eben auch:

P(G |A,M)

P(G |A,M)=

P(G |M)

P(G |M)· P(A|G ,M)

P(A|G ,M)

undP(G |A,M)

P(G |A,M)=

P(G |A)

P(G |A)· P(M|G ,A)

P(M|G ,A)

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 43 / 57

Page 44: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

3.3 Stochastische Unabhangigkeit

Frage: Wann sind 2 Ereignisse A,B unabhangig?→ Illustration im Venn-Diagramm

Motivation uber bedingte Wahrscheinlichkeiten:

Zwei Ereignisse A,B sind unabhangig, wenn

P(A|B)︸ ︷︷ ︸P(A∩B)

P(B)

= P(A)

bzw. P(B|A)︸ ︷︷ ︸P(A∩B)

P(A)

= P(B)

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 44 / 57

Page 45: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Definition und Folgerungen

Zwei Ereignisse A,B sind unabhangig, wenn

P(A ∩ B) = P(A) · P(B)

gilt.Beachte: Voraussetzung P(B) > 0 und P(A) > 0 hier nicht notig.

Folgerungen:

Sind A und B unabhangig, dann sind auch A und B, A und Bund auch A und B unabhangig. Beweis?

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 45 / 57

Page 46: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Beispiel: Zweimaliges Wurfeln

Ein fairer Wurfel wird zweimal hintereinander geworfen. Sei

A : “Beim 1. Wurfelwurf eine Sechs”

B : “Beim 2. Wurfelwurf eine Sechs”

Bei jeden Wurfelwurf ist die Grundgesamtheit Ω = 1, 2, 3, 4, 5, 6.Nach Laplace gilt P(A) = P(B) = 1/6.

Bei “unabhangigem” Werfen gilt somit

P(A ∩ B) = P(A) · P(B) = 1/36

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 46 / 57

Page 47: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Beispiel: Zweimaliges Wurfeln mit Tricks

Angenommen der Wurfelwerfer ist besonders am Werfen von einem Paschinteressiert. Er kann den zweiten Wurf ein wenig steuern und wurfelt mitW’keit 1/2 das gleiche wie beim ersten Wurf. Die anderen Ergebnisse seiendann gleichverteilt mit W’keit 0.1 .

Dann ist zwar P(A) = 1/6 und auch P(B) = 1/6, aber

P(A ∩ B) = 1/12 > 1/36

Die Ereignisse A und B sind also abhangig, da

P(A ∩ B) 6= P(A) · P(B)

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 47 / 57

Page 48: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Unabhangigkeit von mehr als zwei Ereignissen

Allgemeiner lasst sich die Unabhangigkeit von mehr als zwei Ereignissendefinieren:

Die Ereignisse A1,A2, . . . ,An sind (stochastisch) unabhangig, wenn furalle Teilmengen I ⊂ 1, 2, . . . , n mit I = i1, i2, . . . , ik gilt:

P(Ai1 ∩ Ai2 ∩ . . . ∩ Aik ) = P(Ai1) · P(Ai2) · . . . · P(Aik )

Bemerkung: Aus der paarweisen Unabhangigkeit folgt nicht dieUnabhangigkeit von mehr als zwei Ereignissen.

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 48 / 57

Page 49: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Beispiel zur paarweisen Unabhangigkeit

Ω = 0, 1, 2, 3 Laplace-WahrscheinlichkeitsraumAi = 0 ∪ i mit i = 1, 2, 3

(etwa einmaliges Ziehen aus einer Urne). Dann gilt:P(Ai ) = 1

2 und P(Ai ∩ Aj) = 14 = P(Ai ) · P(Aj) fur alle i 6= j .

Aber:P(A1 ∩ A2 ∩ A3) = 1

4und

P(A1) · P(A2) · P(A3) = 18

A1,A2,A3 sind also nicht unabhangig.

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 49 / 57

Page 50: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Bedingte Unabhangigkeit

Sei C ein beliebiges Ereignis mit P(C ) > 0. Zwei Ereignisse A und Bnennt man bedingt unabhangig gegeben C , wenn

P(A ∩ B|C ) = P(A|C ) · P(B|C )

gilt.Man uberzeugt sich leicht, dass weder aus unbedingter Unabhangigkeitbedingte Unabhangigkeit (bzgl. einem Ereignis C ), noch aus bedingterUnabhangigkeit bzgl. einem Ereignis C unbedingte Unabhangigkeit folgt.

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 50 / 57

Page 51: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

3.4 Das Hardy-Weinberg-Gesetz

Population von diploiden Organismen; zwei Allele a und b

Drei Genotypen aa, ab und bb, Wahrscheinlichkeitsverteilungpaa, pab, pbb sei unabhangig vom Geschlecht

Unter bestimmten weiteren Voraussetzungen (“zufallige” Paarung vonIndividuen, keine Selektion, keine Mutation etc.) gilt, dass dieWahrscheinlichkeitsverteilung der drei Genotypen uber Generationenhinweg konstant bleibt.

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 51 / 57

Page 52: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Das Hardy-Weinberg-Gleichgewicht

Sei x ∈ aa, ab, bb der Genotyp eines zufallig ausgewahlten Individuums.Ist die Population im H-W-Gleichgewicht, so gilt:

px =

q2 fur x = aa

2q(1− q) fur x = ab(1− q)2 fur x = bb

mit q ∈ [0, 1]. Der Parameter q ist die Haufigkeit des Allels a.

Beachte: Im Allgemeinen beschreiben zwei Parameter eine diskreteWahrscheinlichkeitsverteilung mit drei moglichen Auspragungen, dasH-W-Gleichgewicht wird jedoch nur von einem Parameter beschrieben.

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 52 / 57

Page 53: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Das Hardy-Weinberg-Gleichgewicht

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

q

P

aaabbb

Hardy-Weinberg-Gleichgewicht fur die Genotypen aa, bb und ab.

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 53 / 57

Page 54: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Beweisskizze

Starte mit beliebigen Wahrscheinlichkeiten paa, pab und pbb

(mit paa + pab + pbb = 1).

Berechne die bedingten Wahrscheinlichkeiten fur das Auftreten einesbestimmten Genotyps eines Nachkommen in Abhangigkeit vom Genotypder Eltern.

Satz der totalen Wahrscheinlichkeit liefert H-W-Gleichgewicht mitq = paa + pab/2.

Neustart im H-W-Gleichgewicht liefert wieder H-W-Gleichgewicht!

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 54 / 57

Page 55: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Anwendungsbeispiel

Genotyp bb verursacht bestimmte Krankheit, aa und ab sind aberaußerlich nicht erkennbar.

Aus Kenntnis der relativen Haufigkeit/Wahrscheinlichkeit pbb lassen sich(unter der Annahme, dass die Population im H-W-Gleichgewicht ist) dieanderen Wahrscheinlichkeiten berechnen:

paa = (1−√pbb)2

pab = 2(1−√pbb)√

pbb

Beispiel: pbb = 0.0001 ; paa = 0.9801 und pab = 0.0198

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 55 / 57

Page 56: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Das Hardy-Weinberg-Ungleichgewicht

Allgemeinere Formulierung mit zwei Parametern:

px =

q2+d fur x = aa

2q(1− q)−2d fur x = ab(1− q)2+d fur x = bb

mit Ungleichgewichtskoeffizienten d .

Problem: Beschrankter Wertebereich fur q und d

Spater:

Statistische Schatzung von q und d

Statistischer Test auf “Nullhypothese”H0 : d = 0

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 56 / 57

Page 57: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Das Hardy-Weinberg-Ungleichgewicht (d = 0.1)

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

q

P

aaabbb

Hardy-Weinberg-Ungleichgewicht mit d = 0.1 fur die Genotypen aa, bbund ab.

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 57 / 57

Page 58: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

4.1 Diskrete Zufallsvariablen: Einleitung

Ergebnisse von Zufallsvorgangen sind nicht notwendigerweise Zahlen

Oft ist es aber hilfreich diese durch Zahlen zu reprasentieren, um mitihnen rechnen zu konnen

Beispiel: 4-maliger Wurf einer Munze

Ω = Wappen,Zahl = W ,Z4

|Ω| = 24 = 16 z. B. ω = W ,Z ,Z ,W

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 1 / 52

Page 59: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Eine diskrete Zufallsvariable

Angenommen man interessiert sich fur

X :=“Anzahl von Wappen”

Dann nennt man X eine Zufallsvariable (ZV) mit reellen Auspragungenbzw. Realisierungen x ∈ R. Man schreibt kurz X = x , wenn dieAuspragung x der ZV X eingetreten ist.

X ist also eine Abbildung von Ω nach R.

Die Menge der moglichen Auspragungen 0,1,2,3,4 heißt Trager T derZV X .

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 2 / 52

Page 60: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Vorteile von Zufallsvariablen

1 Man kann mit X “rechnen”:

z. B. P(X ≤ a) oder P(X 2 > b)

Oder: Welche Zahl erhalten wir “im Mittel”?

2 Ursprunglicher Wahrscheinlichkeitsraum (Ω,P) wird letztendlich nichtmehr benotigt.

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 3 / 52

Page 61: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Definition

Eine ZV X heißt diskret, falls sie nur endliche oder abzahlbar unendlichviele Werte x1, x2, . . . annehmen kann. Die Menge T = x1, x2, . . . dermoglichen Auspragungen (d.h. alle xi mit Pxi > 0) von X heißt Tragerder ZV X .

Die Wahrscheinlichkeitsfunktion von X ist durch

f (xi ) = P(X = xi ) = P (ω ∈ Ω : X (ω) = xi)

fur xi ∈ R gegeben. Die Wahrscheinlichkeitsfunktion f (xi ) heißt auchWahrscheinlichkeitsdichte.

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 4 / 52

Page 62: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Folgerungen

1 Fur x 6∈ T ist f (x) = P∅ = 0.

2 Als Funktion von B ∈ R ist also

P(X ∈ B) = Pω ∈ Ω : X (ω) ∈ B

eine Wahrscheinlichkeitsverteilung auf R. Man nennt diese dieVerteilung der Zufallsvariable X . Diese wird durch die Abbildung Xund die Wahrscheinlichkeitsverteilung P induziert.

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 5 / 52

Page 63: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Die Verteilungsfunktion

Die Verteilungsfunktion einer diskreten ZV ist definiert als

F (x) = P(X ≤ x) =∑

i :xi≤x

f (xi )

Kennt man also die Wahrscheinlichkeitsfunktion f (x) fur alle x ∈ T , sokennt man auch die Verteilungsfunktion F (x) (dies gilt auch umgekehrt).

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 6 / 52

Page 64: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Eigenschaften der Verteilungsfunktion

F (x) ist monoton wachsend (“Treppenfunktion”)

F (x) ist stuckweise konstant mit Sprungstellen an Werten xi mitf (xi ) > 0, d.h. an allen Realisierungen xi ∈ T

limx→∞F (x) = 1

limx→−∞F (x) = 0

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 7 / 52

Page 65: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Beispiel: 4-maliger Wurf einer Munze

X :=“Anzahl Kopf”, T = 0, 1, 2, 3, 4

f (0) = 1/16f (1) = 4/16f (2) = 6/16f (3) = 4/16f (4) = 1/16

⇒ F (x) =

0 : x < 01/16 : 0 ≤ x < 15/16 : 1 ≤ x < 2

11/16 : 2 ≤ x < 315/16 : 3 ≤ x < 4

1 : x ≥ 4

Beachte: f (x) = 0 fur alle x /∈ T

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 8 / 52

Page 66: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Wahrscheinlichkeits- und Verteilungsfunktion

0 1 2 3 4

0.0

0.2

0.4

0.6

0.8

1.0

x

f(x)

−1 0 1 2 3 4 5

0.0

0.2

0.4

0.6

0.8

1.0

x

F(x

)

Wahrscheinlichkeitsfunktion (links) und Verteilungsfunktion (rechts) furden viermaligen Munzwurf

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 9 / 52

Page 67: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Spezielle Verteilungen

Man unterscheidet nun bestimmte “gangige” Verteilungen, die haufig vonweiteren Parametern abhangen.

Das einfachste Beispiel ist die Bernoulli-Verteilung. EineBernoulli-verteilte ZV kann nur die Werte 0 und 1 annehmen:

P(X = 1) = f (1) = πP(X = 0) = f (0) = 1− π

π ∈ [0, 1] ist der Parameter der Bernoulli-Verteilung.

Man schreibt kurz: X ∼ B(π).

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 10 / 52

Page 68: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Die diskrete Gleichverteilung

Die allgemeine diskrete Gleichverteilung hat einen endlichen TragerT = x1, x2, . . . , xk, wobei

P(X = xi ) = f (xi ) =1

k

mit i = 1, . . . , k gilt.

Haufig sind alle naturlichen Zahlen zwischen a ∈ N und b ∈ N Element desTragers T . Die Grenzen a und b sind dann die Parameter der diskretenGleichverteilung.

Beispiel: Augenzahl beim fairen Wurfelwurf

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 11 / 52

Page 69: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Die geometrische Verteilung

Ein Zufallsvorgang, bei dem mit Wahrscheinlichkeit π ein Ereignis Aeintritt, wird unabhangig voneinander so oft wiederholt, bis zum erstenMal A eintritt.

Sei X die ZV “Anzahl der Versuche bis zum ersten Mal A eintritt”. Dannist T = N und die Wahrscheinlichkeitsfunktion von X lautet:

f (x) = (1− π)x−1 · π x = 1, 2, 3, . . .

π ∈ (0, 1) ist der Parameter der geometrischen Verteilung.

Man schreibt kurz: X ∼ G(π).

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 12 / 52

Page 70: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Eine Variante der geometrischen Verteilung

Sei Y := “Anzahl der Versuche bevor das erste mal A eintritt”, d.h.Y = X − 1. Dann ist

T = 0, 1, 2, . . .f (y) = (1− π)y · π

Fur diese Form gibt es folgende Funktionen in R:

dgeom() berechnet Wahrscheinlichkeitsfunktionpgeom() berechnet Verteilungsfunktionrgeom() berechnet Zufallszahlen aus der geom. Verteilung

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 13 / 52

Page 71: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Wahrscheinlichkeits- und Verteilungsfunktion

0 2 4 6 8 10

0.0

0.2

0.4

0.6

0.8

1.0

x

f(x)

π = 0.5π = 0.3

0 2 4 6 8 10

0.0

0.2

0.4

0.6

0.8

1.0

xF(x

)

π = 0.5π = 0.3

Vergleich der geometrischen Wahrscheinlichkeitsfunktionen (links) undVerteilungsfunktionen (rechts) fur die beiden Parameter π = 0.3 und

π = 0.5

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 14 / 52

Page 72: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Quantile

Sei X eine diskrete ZV mit Verteilungsfunktion F (x), x ∈ R.

Sei p ∈ [0, 1]. Jeder Wert x , fur den

P(X ≤ x) ≥ p und

P(X ≥ x) ≥ 1− p

gilt, heisst p-Quantil xp der Verteilung von X .

Problem: Definition nicht immer eindeutig.

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 15 / 52

Page 73: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Quantile II

Um Eindeutigkeit zu erreichen, definiert man:

Das p-Quantil xp der Verteilung von X ist definiert als der kleinste Wertx fur den F (x) ≥ p gilt.

Somit gilt P(X ≤ x) = F (xp) ≥ p und daher “xp = F−1(p)”(“Inversion der Verteilungsfunktion”).

Speziell nennt man das 0.5-Quantil den Median xmed der Verteilung.

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 16 / 52

Page 74: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Interpretation vom Median und von Quantilen

Beim Median xmed gilt:

P(X ≤ xmed) ≥ 0.5

P(X ≥ xmed) ≥ 0.5

Allgemeiner gilt fur das p-Quantil xp:

P(X ≤ xp) ≥ p

P(X ≥ xp) ≥ 1− p

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 17 / 52

Page 75: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Numerische Bestimmung von Quantilen

Bei Kenntnis der Verteilungsfunktion F (x) und endlichem Trager T :

1 Berechne F (x) fur alle x ∈ T .

2 Dann gilt fur das p-Quantil xp:

xp = minx : F (x) ≥ p

3 in R: verwende Funktion which

Nicht so einfach, siehe Dokumentation ?quantile.

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 18 / 52

Page 76: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Beispiel: geometrische Verteilung

Funktion qgeom() berechnet Quantilfunktion der geometrischenVerteilung.

0.95-Quantil x0.95: In 95% aller Falle muss man maximal x0.95 Versucheunternehmen, bevor zum ersten mal A eintritt.

π x0.95 xmed

0.01 298 680.1 28 60.5 4 00.9 1 0

0.99 0 0

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 19 / 52

Page 77: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

4.2 Unabhangigkeit von diskreten Zufallsvariablen

Betrachte zwei ZV X und Y auf dem Wahrscheinlichkeitsraum (Ω,P)mit Trager TX = x1, x2, . . . und TY = y1, y2, . . . undWahrscheinlichkeitsfunktionen fX (x) und fY (y).

Die Funktion

fX ,Y (x , y) = P(X = x und Y = y) = P(X = x ,Y = y)

heißt gemeinsame Wahrscheinlichkeitsfunktion der zweiZufallsvariablen X und Y .

Unter Unabhangigkeit kann man diese zuruckfuhren auf die beidenWahrscheinlichkeitsfunktionen fX (x) und fY (y).

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 20 / 52

Page 78: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Definition

X und Y heißen unabhangig, wenn

P(X = x ,Y = y) = P(X = x) · P(Y = y)

d.h. fX ,Y (x , y) = fX (x) · fY (y)

fur alle x ∈ TX und y ∈ TY gilt.

X1,X2, . . . ,Xn heißen unabhangig, falls

P(X1 = x1, . . . ,Xn = xn) =n∏

i=1

P(Xi = xi ) =n∏

i=1

fXi(xi )

fur alle x1, x2, . . . , xn aus den entsprechenden Tragern gilt.

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 21 / 52

Page 79: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Beispiel: Bernoulli-Kette

Sind X1,X2, . . . ,Xn Bernoulli-verteilt mit Parameter π und unabhangig, soheißt X = (X1,X2, . . . ,Xn) Bernoulli-Folge.

Beispiel:

n = 3, π = 16 ; wegen der Unabhangigkeit gilt z. B.

P(X1 = 1,X2 = 0,X3 = 0) =1

6·(

5

6

)2

=25

216

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 22 / 52

Page 80: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Die Binomialverteilung

Bei einer Bernoulli-Folge interessiert man sich haufig nur fur die AnzahlX :=

∑ni=1 Xi , wie oft Xi = 1 aufgetreten ist.

Diese ZV X heißt binomialverteilt mit Parametern n ∈ N, π ∈ [0, 1] undhat den Trager T = 0, 1, . . . , n sowie die Wahrscheinlichkeitsfunktion:

P(X = x) = f (x) =

(n

x

)· πx(1− π)n−x fur x ∈ T

Man schreibt kurz X ∼ B(n, π) und es gilt B(1, π) = B(π).

Funktionen in R:dbinom(), pbinom(), qbinom(), rbinom()

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 23 / 52

Page 81: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Wahrscheinlichkeits- und Verteilungsfunktion

0 2 4 6 8 10

0.00

0.05

0.10

0.15

0.20

0.25

0.30

n = 10

x

f(x)

π = 0.5π = 0.3

10 20 30 40 50 60 70

0.00

0.05

0.10

0.15

0.20

0.25

0.30

n = 100

x

f(x)

π = 0.5π = 0.3

0 2 4 6 8 10

0.0

0.2

0.4

0.6

0.8

1.0

n = 10

x

F(x

)

π = 0.5π = 0.3

10 20 30 40 50 60 70

0.0

0.2

0.4

0.6

0.8

1.0

n = 100

x

F(x

)

π = 0.5π = 0.3

Vergleich der binomialen Wahrscheinlichkeitsfunktionen (oben) undVerteilungsfunktionen (unten) fur X ∼ B(n, π) mit n = 10 (links) und

n = 100 (rechts) und jeweils π = 0.5 und π = 0.3)

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 24 / 52

Page 82: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Beispiele

Anzahl der 6-er bei n-maligem Wurfeln: Berechne

Modus (wahrscheinlichster Wert) und

Median

in Abhangigkeit von n.

Das Urnenmodell: Zufalliges Ziehen mit Zurucklegen einer Stichprobevon n Kugeln aus einer Urne mit N Kugeln, darunter M markierte.Sei X : “Anzahl der markierten Kugeln in der Stichprobe”. Dann:

X ∼ B(n,M/N).

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 25 / 52

Page 83: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Die hypergeometrische Verteilung

Haufig wird jedoch im Urnenmodell ohne Zurucklegen gezogen, d. h. die“Auswahlwahrscheinlichkeiten” andern sich von Ziehung zu Ziehung(Beispiel: Meinungsforschung).

Die Verteilung von X (Anzahl der markierten Kugeln) nennt man dannhypergeometrisch. Sie hat den Trager

T = max(0, n − (N −M)), . . . ,min(n,M)

und die Wahrscheinlichkeitsfunktion

f (x) =

(Mx

)(N−Mn−x

)(Nn

) fur x ∈ T .

Man schreibt kurz: X ∼ H(n,N,M)

Funktionen in R: dpqrhyper()

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 26 / 52

Page 84: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Ziehen mit und ohne Zurucklegen

0 2 4 6 8

0.0

0.1

0.2

0.3

0.4

0.5

n = 10, M = 20, N = 100

x

f(x)

BinomialHypergeometrisch

0 2 4 6 8 10 12

0.0

0.1

0.2

0.3

0.4

0.5

n = 20, M = 20, N = 100

x

f(x)

BinomialHypergeometrisch

0 5 10 15

0.0

0.1

0.2

0.3

0.4

0.5

n = 30, M = 20, N = 100

x

f(x)

BinomialHypergeometrisch

0 5 10 15 20

0.0

0.1

0.2

0.3

0.4

0.5

n = 40, M = 20, N = 100

x

f(x)

BinomialHypergeometrisch

Vergleich der hypergeometrischen und binomialenWahrscheinlichkeitsfunktionen

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 27 / 52

Page 85: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Ziehen mit und ohne Zurucklegen II

0 1 2 3 4 5

0.0

0.1

0.2

0.3

0.4

0.5

n = 5, M = 5, N = 25

x

f(x)

BinomialHypergeometrisch

0 2 4 6 8

0.0

0.1

0.2

0.3

0.4

0.5

n = 10, M = 5, N = 25

x

f(x)

BinomialHypergeometrisch

0 2 4 6 8 10

0.0

0.1

0.2

0.3

0.4

0.5

n = 15, M = 5, N = 25

x

f(x)

BinomialHypergeometrisch

0 2 4 6 8 10 12

0.0

0.1

0.2

0.3

0.4

0.5

n = 20, M = 5, N = 25

x

f(x)

BinomialHypergeometrisch

Vergleich der hypergeometrischen und binomialenWahrscheinlichkeitsfunktionen

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 28 / 52

Page 86: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Approximation der hypergeometrischen Verteilung

Fur N “groß” und n “klein” laßt sich die hypergeometrische Verteilung gutdurch die Binomialverteilung approximieren:

H(n,M,N) ≈ B(

n, π =M

N

)

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 29 / 52

Page 87: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Beispiel: Capture-Recapture-Experiment

Frage: Wie viele Fische schwimmen in einem See?

Idee : Fange M Fische, markiere diese und wirf sie dann wieder (le-bendig) in den See zuruck. Spater werden n Fische gefangen.

Die ZV X :=“Anzahl der markierten Fische”ist idealerweisehypergeometrisch verteilt mit Parametern N,M und n:

X ∼ H(n,N,M)

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 30 / 52

Page 88: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Beispiel: Capture-Recapture-Experiment II

Statistisches Problem: Wie groß ist N?

Naiver Ansatz zur Konstruktion eines Schatzers N von N:

N

M≈ n

x⇒ N ≈ n

x·M

Probleme:

Im Allgemeinen N /∈ NKeine Angaben uber die Genauigkeit der Schatzung

Spater mehr dazu.

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 31 / 52

Page 89: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

4.3 Die Poisson-Verteilung

Simeon Poisson [1781-1840]

Haufig gibt es zufallige Vorgange, bei denen es keine naturliche obereGrenze fur die Anzahl an Ereignissen gibt, z.B.:

Die Anzahl an Telefonanrufen in einem “Call-Center” pro Stunde

Die Anzahl der Tore in einem Bundesligaspiel

Anzahl von Todesfallen durch Hufschlag in der Preußischen Armee(L. von Bortkiewicz, 1893)

Die einfachste Verteilung fur solche Phanomene ist die Poisson-Verteilung.

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 32 / 52

Page 90: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Die Poisson-Verteilung II

Eine Zufallsvariable X folgt einer Poisson-Verteilung, wenn sie TragerT = N0 und Wahrscheinlichkeitsfunktion

f (x) =λx

x!· exp(−λ)

hat. Der Parameter λ ∈ R+ ist die durchschnittliche Rate oder dieIntensitat, mit der die Ereignisse in dem zugrundeliegenden Zeitintervalleintreffen.

Man schreibt kurz: X ∼ P(λ)

Funktionen in R: dpqrpois

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 33 / 52

Page 91: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Wahrscheinlichkeits- und Verteilungsfunktion

0 2 4 6 8 10

0.0

0.1

0.2

0.3

0.4

x

f(x)

λ = 3λ = 1

0 2 4 6 8 10

0.0

0.2

0.4

0.6

0.8

1.0

xF(x

)

λ = 3λ = 1

Vergleich der Wahrscheinlichkeitsfunktionen (links) undVerteilungsfunktionen (rechts) fur eine poissonverteilte Zufallsvariable mit

dem Parameter λ = 1 bzw. λ = 3

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 34 / 52

Page 92: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Approximation der Binomialverteilung

Die Binomialverteilung B(n, π) kann fur “großes n” und “kleines π” gutdurch die Poisson-Verteilung mit λ = n · π approximiert werden.

B(n, π) ≈ P(λ = n · π)

Je großer n ist und je kleiner π, desto besser ist die Approximation.

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 35 / 52

Page 93: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Vergleich von Binomial- und Poissonverteilung

0 2 4 6 8 10

0.0

0.1

0.2

0.3

0.4

π = 0.8

x

f(x)

PoissonBinomial

0 2 4 6 8 10

0.0

0.1

0.2

0.3

0.4

π = 0.5

x

f(x)

PoissonBinomial

0 2 4 6 8 10

0.0

0.1

0.2

0.3

0.4

π = 0.3

x

f(x)

PoissonBinomial

0 1 2 3 4 5 6 7

0.0

0.1

0.2

0.3

0.4

π = 0.1

x

f(x)

PoissonBinomial

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 36 / 52

Page 94: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Vergleich von Binomial- und Poissonverteilung

50 60 70 80 90 100

0.00

0.04

0.08

0.12

π = 0.8

x

f(x)

PoissonBinomial

30 40 50 60 70 80

0.00

0.04

0.08

0.12

π = 0.5

x

f(x)

PoissonBinomial

10 20 30 40 50

0.00

0.04

0.08

0.12

π = 0.3

x

f(x)

PoissonBinomial

0 5 10 15 20 25

0.00

0.04

0.08

0.12

π = 0.1

x

f(x)

PoissonBinomial

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 37 / 52

Page 95: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

4.4 Faltungen

Sind X und Y unabhangige ZV mit Wahrscheinlichkeitsfunktionen fX (x)und fY (y), so gilt fur die Summe Z = X + Y :

P(X + Y = z) =∑x

P(X = x , x + Y = z)

=∑x

P(X = x ,Y = z − x)

unabh.=

∑x

P(X = x) · P(Y = z − x)

=∑x

fX (x) · fY (z − x)

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 38 / 52

Page 96: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Faltungen II

Man nennt die Wahrscheinlichkeitsverteilung von Z = X + Y

P(X + Y = z) =∑x

fX (x) · fY (z − x)

=∑y

fX (z − y) · fY (y)

die Faltung von X und Y .

Beispiel:Ist X ∼ P(λ1) und Y ∼ P(λ2) unabhangig, so ist die Faltung von X undY wieder Poisson-verteilt mit Parameter λ1 + λ2:

X + Y ∼ P(λ1 + λ2)

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 39 / 52

Page 97: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Faltung von zwei geometrischen ZV

Seien X ∼ G(π) und Y ∼ G(π) unabhangig.

Berechne Trager und Wahrscheinlichkeitsfunktion der Summe Z = X + Y .

Wie kann man Z interpretieren?

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 40 / 52

Page 98: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Die negative Binomialverteilung

Betrachte die Summe von n unabhangigen geometrischen ZV X1, . . . ,Xn:X = X1 + . . .+ Xn.

Dann hat X eine negative Binomialverteilung mit Parameter n ∈ N undπ ∈ (0, 1) und Wahrscheinlichkeitsfunktion

f (x) =

(x − 1

n − 1

)πn(1− π)x−n fur x = n, n + 1, . . .

Funktionen in R:dnbinom(...), pnbinom(...), qnbinom(...), rnbinom(...)

Beachte: Unterschiedliche Definition in R! Trager immer gleich N0

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 41 / 52

Page 99: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

4.4 Die Verteilung von Zufallsvektoren

Betrachte zwei diskrete ZV X und Y definiert auf demWahrscheinlichkeitsraum (Ω,P).

Wie kann man Information uber ihr gemeinsames stochastischesVerhalten quantifizieren?

Idee: Betrachte Zufallsvektor (X ,Y ) als Abbildung von Ω nach R2.

Die gemeinsame Verteilung von X und Y enthalt i. A. mehrInformation als in den Randverteilungen von X und Y steckt!

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 42 / 52

Page 100: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Gemeinsame Verteilungs- und Wahrscheinlichkeitsfunktion

Seien X ,Y zwei diskrete ZV auf (Ω,P).

Die gemeinsame Wahrscheinlichkeitsfunktion von X und Y lautet

fX ,Y (x , y) = P(X = x ,Y = y)

Die gemeinsame Verteilungsfunktion von X und Y lautet

FX ,Y (x , y) = P(X ≤ x ,Y ≤ y)

Beide sind also Funktion von R2 nach [0, 1]. Meist wird nur fX ,Y (x , y)angegeben.

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 43 / 52

Page 101: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Beispiel

Ein Lehrer bittet seine Schuler, eine (faire) Munze zweimal zu werfen, unddas Ergebnis (“Kopf” = 0, “Zahl” = 1) fur jeden Wurf zu notieren. Sei Xdas Ergebnis des ersten Wurfes und Y das Ergebnis des zweiten Wurfes.

Ein gewissenhafter Schuler folgt genau den Anweisungen des Lehrersund notiert das Ergebnis XG und YG . Ein fauler Schuler wirft nur eineMunze und notiert das erzielte Ergebnis zweimal: XF und YF .

Berechne die gemeinsame Wahrscheinlichkeitsfunktion von (XG ,YG )und von (XF ,YF ).

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 44 / 52

Page 102: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Randverteilungen

Gemeinsame Wahrscheinlichkeitsfunktion bzw. Verteilungsfunktioncharakterisieren die gemeinsame Verteilung von (X ,Y ) vollstandig.

Insbesondere kann man die Wahrscheinlichkeitsfunktion derRandverteilung von X bzw. Y durch Summation berechnen:

fX (x) =∑y

fX ,Y (x , y)

fY (y) =∑x

fX ,Y (x , y)

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 45 / 52

Page 103: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Bedingte Verteilungen

Die bedingte Verteilungsfunktion und bedingte Wahrscheinlich-keitsfunktion von X , gegeben Y = y , sind definiert fur alle y mitP(Y = y) > 0:

FX |Y (x |y) = P(X ≤ x |Y = y) =P(X ≤ x ,Y = y)

P(Y = y)

fX |Y (x |y) = P(X = x |Y = y) =P(X = x ,Y = y)

P(Y = y)

=fX ,Y (x , y)

fY (y)

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 46 / 52

Page 104: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Folgerungen

Es gilt immer:

fX ,Y (x , y) = fX |Y (x |y) · fY (y)

= fY |X (y |x) · fX (x)

Es folgt: X und Y sind genau dann unabhangig wenn

fX |Y (x |y) = fX (x)

oder fY |X (y |x) = fY (y)

fur alle x und y gilt.

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 47 / 52

Page 105: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Beispiel

fX ,Y (x , y) y = −1 y = 0 y = 2

x = 1 118

318

218

x = 2 218 0 3

18

x = 3 0 418

318

Man berechne die Randverteilungen fX (x) und fY (y), die bedingtenVerteilungen fX |Y (x |y) und fY |X (y |x) und untersuche X und Y aufUnabhangigkeit.

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 48 / 52

Page 106: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Beispiel II

Betrachte zwei unabhangige ZV X und Y , die beide Poisson-verteiltsind mit Parameter λ bzw. µ.

Definiere Z = X + Y .

Man zeige: Die bedingte Verteilung von X |Z = z ist binomial mitParametern n = z und π = λ/(λ+ µ):

X |Z = z ∼ B(z , π = λ/(λ+ µ))

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 49 / 52

Page 107: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Allgemeine Zufallsvektoren

Allgemeiner kann man naturlich auch einen Zufallsvektor X = (X1, . . . ,Xn)der Dimension n betrachten.

Dieser hat dann die Wahrscheinlichkeitsfunktion

fX(x) = fX1,...,Xn(x1, . . . , xn)

und die Randverteilungen

fXi(xi ) =

∑xj :j 6=i

fX1,...,Xn(x1, . . . , xn)

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 50 / 52

Page 108: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Die Trinomialverteilung

Ein Experiment, bei dem ein von drei moglichen Ereignissen mitWahrscheinlichkeit π1, π2 und π3 (π1 + π2 + π3 = 1) auftritt, wirdunabhangig voneinander n-mal wiederholt. Sei X ein drei-dimensionalerZufallsvektor, dessen i-te Komponente angibt, wie oft das i-te Ereigniseingetreten ist.

Beispiel:In einer Population mit Haufigkeiten π1, π2 und π3 der Genotypen aa, abund bb wird eine Stichprobe vom Umfang n gezogen. Die Anzahlen X1, X2

und X3 der drei Genotypen ist dann trinomialverteilt.

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 51 / 52

Page 109: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Die Trinomialverteilung II

Ein drei-dimensionaler diskreter Zufallsvektor X heißt trinomialverteilt,falls er Trager

T = x = (x1, x2, x3) : xi ∈ 0, 1, . . . , n und x1 + x2 + x3 = n

und Wahrscheinlichkeitsfunktion

fX(x) = fX1,X2,X3(x1, x2, x3) =n!

x1!x2!x3!πx1

1 πx22 πx3

3

besitzt.

Man schreibt kurz: X ∼M3(n,π = (π1, π2, π3))Hierbei steht M3 fur Multinomialverteilung der Dimension 3.

Man kann zeigen, dass fur die Randverteilungen gilt: Xi ∼ B(n, πi )

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 52 / 52

Page 110: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

5. Erwartungswerte, Varianzen und Kovarianzen

Zur Charakterisierung von Verteilungen unterscheidet man

LagemaßeI Erwartungswert (“mittlerer Wert”)I ModusI Median

und StreuungsmaßeI Varianz und StandardabweichungI mittlere absolute Abweichung

Am einfachsten mathematisch zu handhaben sind Erwartungswerte undVarianzen, da diese immer eindeutig und meist leicht zu berechnen sind.

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 1 / 21

Page 111: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

5.1 Der Erwartungswert einer diskreten ZV

Der Erwartungswert E(X ) = EX einer diskreten ZV X mit Trager T istdefiniert als

E(X ) =∑x∈T

x · P(X = x) =∑x∈T

x · f (x)

wenn diese Summe absolut konvergent ist.

Beachte: Man konnte die Summe auch uber alle x ∈ R laufen lassen.

Beispiele fur Erwartungswerte:

Bernoulli-Verteilung: Fur X ∼ B(π) ist E(X ) = π.

Poisson-Verteilung: Fur X ∼ P(λ) ist E(X ) = λ.

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 2 / 21

Page 112: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Eigenschaften des Erwartungswertes

1 Sei X = a mit Wahrscheinlichkeit 1 (deterministische ZV).Dann gilt:

EX = a

2 Seien a, b ∈ R und X ,Y beliebige ZV. Dann gilt:

E(a · X + b · Y ) = a · EX + b · EY

“Linearitat des Erwartungswertes”

3 Fur beliebige a, b ∈ R gilt daher

E(aX + b) = a · E(X ) + b

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 3 / 21

Page 113: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Folgerungen

Allgemeiner gilt dann naturlich auch fur beliebige a1, . . . , an ∈ R undbeliebige ZV X1, . . . ,Xn:

E

(n∑

i=1

aiXi

)=

n∑i=1

ai · E(Xi )

Daher gilt fur X ∼ B(n, π): E(X ) = nπ

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 4 / 21

Page 114: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Erwartungswert von ZVn mit Trager N

Hat X den Trager T = N, so gilt:

E(X ) =∞∑

k=1

P(X ≥ k)

Anwendung: Erwartungswert der geometrischen Verteilung:Ist X ∼ G (π) so gilt:

E(X ) =1

π

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 5 / 21

Page 115: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Transformationsregel fur Erwartungswerte

Sei X diskrete ZV und g(x) eine reelle Funktion. Dann gilt fur Y = g(X ):

E(Y ) = E(g(X )) =∑x∈T

g(x) f (x)

Beachte: Im Allgemeinen gilt nicht: E(g(X )) = g(E(X )) !

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 6 / 21

Page 116: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Beispiel

Sei X eine ZV mit folgender Wahrscheinlichkeitsfunktion

f (x) =

1/4 fur x = −21/8 fur x = −11/4 fur x = 13/8 fur x = 3

Berechne den Erwartungswert von E(X 2)

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 7 / 21

Page 117: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Transformationsregel fur Erwartungswerte II

Transformationsregel gilt auch fur Zufallsvektoren (X ,Y ):Seien X und Y zwei ZV mit gemeinsamer WahrscheinlichkeitsfunktionfXY (x , y). Sei g(x , y) eine reellwertige Funktion.Dann gilt fur Z = g(X ,Y )

E(Z ) = E(g(X ,Y )) =∑x

∑y

g(x , y) fX ,Y (x , y).

Speziell gilt daher:

E(X · Y ) =∑x

∑y

x · y · fX ,Y (x , y)

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 8 / 21

Page 118: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

5.2 Varianzen und Standardabweichungen

Die Varianz Var(X ) (auch V(X )) einer diskreten ZV ist definiert als:

Var(X ) = E[(X − EX )2]

“Erwartete quadratische Abweichung vom Erwartungswert”Zur einfacheren Berechnung kann man haufig den Verschiebungssatzverwenden:

Var(X ) = E(X 2)− [E(X )]2

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 9 / 21

Page 119: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Eigenschaften von Varianzen

1 Var(aX + b) = a2 · Var(X ) fur alle a, b ∈ R

2 Sind X und Y unabhangig, so gilt:

Var(X + Y ) = Var(X ) + Var(Y )

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 10 / 21

Page 120: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Die Standardabweichung

Die Standardabweichung einer diskreten ZV X ist definiert als die Wurzelaus der Varianz:

σ = σ(X ) = +√

Var(X )

Im Gegensatz zur Varianz gilt fur die Standardabweichung:

σ(aX + b) = |a| · σ(X )

Bemerkung:Die mittlere absolute Abweichung E(|X − EX |) erscheint als Streuungsmaßintuitiver, ist aber deutlich schwerer mathematisch zu handhaben.

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 11 / 21

Page 121: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Beispiel: Binomialverteilung

Ist X ∼ B(n, π), so gilt fur die Varianz:

Var(X ) = n · π · (1− π)

0.0 0.2 0.4 0.6 0.8 1.0

0.00

0.05

0.10

0.15

0.20

0.25

π

π(1

−π)

Varianz der Bernoulliverteilung als Funktion von π

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 12 / 21

Page 122: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Ungleichung von Tschebyscheff

Als Maß fur die Streuung einer Verteilung ist die Varianzbzw. Standardabweichung einer ZV X schwer direkt zu interpretieren.Es gilt aber zumindest folgende Ungleichung:

P(|X − E(X )| ≥ c) ≤ Var(X )

c2

Beispiel:

Sei E(X ) beliebig und Var(X ) = 1. Dann ist

P(|X − E(X )| ≥ 1) ≤ 1

P(|X − E(X )| ≥ 2) ≤ 1

4

P(|X − E(X )| ≥ 3) ≤ 1

9

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 13 / 21

Page 123: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

5.3 Kovarianzen und Korrelationen

Als Maße fur die lineare stochastische Abhangigkeit von zwei ZVn X undY definiert man die Kovarianz

Cov(X ,Y ) = E[(X − EX )(Y − EY )]

und die Korrelation

ρ = ρ(X ,Y ) =Cov(X ,Y )√

Var(X ) ·√Var(Y )

unter der Voraussetzung, dass Var(X ) > 0 und Var(Y ) > 0 gilt.Beachte: Cov(X ,X ) = Var(X )

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 14 / 21

Page 124: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Der Verschiebungssatz fur die Kovarianz

Es gilt zudem:Cov(X ,Y ) = E(XY )− EX · EY

Beachte:E(XY ) kann mit Transformationssatz fur Erwartungswerte leicht uber diegemeinsame Wahrscheinlichkeitsfunktion fXY (x , y) von X und Yberechnet werden.

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 15 / 21

Page 125: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Beispiel “revisited”

fX ,Y (x , y) y = −1 y = 0 y = 2 fX (x)

x = 1 118

318

218

618

x = 2 218 0 3

18518

x = 3 0 418

318

718

fY (y) 318

718

818

Es ergibt sich:

E(XY ) = 2918

EX = 3718

EY = 1318

Cov(X ,Y ) = 29

18 − 3718 · 13

18 = 41324

ρ = 41√107413

= 0.125

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 16 / 21

Page 126: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Unkorreliertheit

X und Y heißen unkorreliert, wenn

Cov(X ,Y ) = 0 bzw. ρ(X ,Y ) = 0

d.h. wennE(X · Y ) = EX · EY

gilt.Beachte: Aus Unabhangigkeit folgt Unkorreliertheit aber der Um-

kehrschluss gilt im Allgemeinen nicht!Man sagt:X und Y sind positiv/negativ korreliert falls

ρ(X ,Y ) > 0 bzw. ρ(X ,Y ) < 0

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 17 / 21

Page 127: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Beispiel

Seien X ∼ B(π = 12) und Y ∼ B(π = 1

2) unabhangig.Betrachte

Z1 = X + Y =

0 mit Wkeit 1

4

1 mit Wkeit 12

2 mit Wkeit 14

Z2 = X − Y =

−1 mit Wkeit 1

4

0 mit Wkeit 12

1 mit Wkeit 14

Dann sind Z1 und Z2 zwar unkorreliert aber nicht unabhangig!

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 18 / 21

Page 128: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Eigenschaften von Korrelationen

Fur alle ZVn X und Y gilt:

−1 ≤ ρ(X ,Y ) ≤ 1

|ρ(X ,Y )| = 1 gilt genau dann, wenn perfekte lineare Abhangigkeitzwischen X und Y besteht:

Y = a + b · X fur bestimmte a, b ∈ R mit b 6= 0

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 19 / 21

Page 129: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Lineare Transformationen

Seien a, b, c, d ∈ R mit b · d > 0 und X ,Y beliebige ZVn. Dann gilt:

Cov(a + bX , c + dY ) = b · d · Cov(X ,Y )

Daher gilt:

ρ(a + bX , c + dY ) = ρ(X ,Y )

d.h. die Korrelation ist invariant bzgl. linearer Transformationen

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 20 / 21

Page 130: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Die Varianz der Summe von zwei ZVn

Seien X und Y beliebige ZVn. Dann gilt fur X + Y :

Var(X + Y ) = Var(X ) + Var(Y ) + 2 · Cov(X ,Y )

Daher gilt speziell fur unabhangige X und Y :

Var(X + Y ) = Var(X ) + Var(Y )

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 21 / 21

Page 131: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

6. Elemente Statistischer Inferenz

Ziel der Statistik ist es, unter bestimmten Annahmen Aussagen uberunbekannte Parameter θ ∈ Θ zu machen, nachdem Beobachtungen Xgemacht wurden.Dabei unterscheidet man

Punktschatzungen:Was ist der “beste” Schatzwert θ fur den unbekannten Parameter θ?

Intervallschatzungen:Angabe eines Vertrauensintervalls

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 1 / 51

Page 132: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Vertrauensintervalle

Zwei Arten:

Konfidenzintervalle uberdecken mit einer gewissen Sicherheit denunbekannten Parameter θ (bei hypothetischer Wiederholung desZufallsexperiments).Beachte: θ fest, X zufallig

→ frequentistischer Wahrscheinlichkeitsbegriff

In einem Kredibilitatsintervall liegt der unbekannte Parameter miteiner gewissen Wahrscheinlichkeit.Beachte: θ zufallig, X fest

→ subjektivistischer Wahrscheinlichkeitsbegriff

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 2 / 51

Page 133: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Beispiele

1 Sei X ∼ B(n, π). Man beobachtet X = 7 bei n = 10 Versuchen.

I Was ist der “beste” Schatzer π fur den unbekannten Parameter θ = π?I Wie lautet ein 95%-Vertrauensintervall?

2 Capture-Recapture Experiment:Angenommen M = 100, n = 50 und X = 33.

I Was ist der “beste” Schatzer N fur den unbekannten Parameter θ = N?Beachte: N ≥ Nmin = max(M + n − x , n)

Beispiel 1: θ ∈ Θ = [0, 1] stetigBeispiel 2: θ ∈ Θ = Nmin,Nmin + 1, . . . diskret

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 3 / 51

Page 134: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

6.1 Likelihood-Inferenz

Wir haben die Wahrscheinlichkeitsfunktion f (x) einer ZV X inAbhangigkeit von einem Parameter θ kennengelernt.Beispiel:

X ∼ B(n, π) ⇒ f (x)︸︷︷︸f (x ; θ=π)

=

(n

x

)πx(1− π)n−x

Betrachte nun f (x ; θ) als Funktion von θ fur festes X = x :

L(θ) = f (x , θ) heißt Likelihoodfunktionl(θ) = log L(θ) heißt Log-Likelihoodfunktion

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 4 / 51

Page 135: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Der Maximum-Likelihood-Schatzer

Idee: Je großer die (Log-)Likelihoodfunktion L(θ) bzw. l(θ) alsFunktion von θ bei gegebenen Daten X = x ist, desto“plau-sibler” ist der entsprechende Wert von θ.

Optimal ist somit der Maximum-Likelihood (ML)-Schatzer θML, fur dengelten soll:

L(θML) = max L(θ) θ ∈ Θ

bzw. l(θML) = max l(θ) θ ∈ Θ

Der (ML)-Schatzer θML maximiert also die (Log-)Likelihoodfunktion L(θ)bzw. l(θ).

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 5 / 51

Page 136: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Zur Berechnung des ML-Schatzers

in einfacheren Modellen analytisch moglich:Ableitung der Log-Likelihood gleich Null setzen

Beispiel:Binomialverteilung (in Vorlesung): πML = x/n

ansonsten Verwendung numerischer Algorithmen:

I Optimierung, z.B. Funktionen optim() und optimize() in R

I EM-Algorithmus

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 6 / 51

Page 137: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

ML-Inferenz im Capture-Recapture-Experiment I

Im Capture-Recapture Beispiel lautet die Wahrscheinlichkeitsfunktion:

f (x) =

(Mx

)(N−Mn−x

)(Nn

)Dabei sind M und n bekannt. Bei beobachteter Stichprobe X = x lautetdie Likelihoodfunktion fur den unbekannten Parameter N

L(θ = N) =

(Mx

)(N−Mn−x

)(Nn

)unter der Restriktion, dass N ≥ max(M + n − x , n).Im Unterschied zum vorhergehenden Abschnitt ist der unbekannteParameter N nun ganzzahlig.

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 7 / 51

Page 138: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

ML-Inferenz im Capture-Recapture-Experiment II

Man kann zeigen, dass fur x > 0 und Nnaive = Mnx 6∈ N gilt:

NML = trunc

Mn

x

= trunc

Nnaive

Im Fall Nnaive ∈ N ist der ML-Schatzer i.A. nicht eindeutig: dann wird dieLikelihood sowohl durch Nnaive als auch durch Nnaive − 1 maximiert.Den“naiven”Schatzer Nnaive kann man als ML-Schatzer unter Verwendungder Binomialapproximation zur hypergeometrischen Verteilung herleiten.→ Vorlesung

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 8 / 51

Page 139: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

ML-Inferenz im Capture-Recapture-Experiment III

Zahlenbeispiele:M n x NML Nnaive

100 50 33 151 151.51100 50 41 121 121.95

7 23 4 40 40.2525 30 10 74 und 75 7513 10 5 25 und 26 26

In den beiden Extremfallen erhalt man:M n x NML Nnaive

100 50 0 ∞ ∞100 50 50 100 100

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 9 / 51

Page 140: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Invarianz des ML-Schatzers

Wichtige und nutzliche Eigenschaft des ML-Schatzers!Sei θML der ML-Schatzer fur θ und ϕ = ϕ(θ) eine beliebige (eineindeutige)Funktion von θ. Dann ist der ML-Schatzer von ϕ:

ϕML = ϕ(θML)

Beispiel: Bestimmung des ML-Schatzers fur die Chance γ = π1−π im

Binomialexperiment:

γML =πML

1− πML=

xn

1− xn

=x

n − x

Dies konnte man auch direkt zeigen! Dauert aber viel langer.

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 10 / 51

Page 141: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Das Testproblem

Wir sind nun daran interessiert, Aussagen daruber zu treffen, in welchenTeilmengen des Parameterraumes Θ sich der feste, aber unbekannte,Parameter θ ∈ Θ mutmaßlich befindet.Dazu unterteilen wir den Parameterraum Θ in zwei disjunkte TeilmengenΘ0 und Θ1 mit Θ = Θ0 ∪Θ1, wobei Θ0 ∩Θ1 = ∅. Es ist nun eineEntscheidungsregel gesucht, fur welche der beiden Zustande θ ∈ Θ0 oderθ ∈ Θ1 wir uns basierend auf einem Experiment (also DatenX = (X1, . . . ,Xn)) entscheiden sollen.Θ0 heißt Hypothese oder Null-Hypothese. Θ1 heißt Alternative. DieFormulierung

H0 : θ ∈ Θ0 vs. H1 : θ ∈ Θ1

heißt Testproblem.

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 11 / 51

Page 142: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Der statistische Test

Eine Entscheidungsregel, uns zwischen H0 bzw. H1 zu entscheiden, nenntman einen statistischen Test.Eine Funktion ψ : Rn → 0, 1 heißt Test fur H0 gegen H1. Wenn fur denErwartungswert der Funktion ψ gilt: E(ψ) = P(ψ = 1) ≤ α, α ∈ [0, 1], furalle θ ∈ Θ0 (also in der Null-Hypothese), so heißt ψ Niveau-α-Test.

Fehlerarten:

H0 richtig und ψ = 0: OK!

H1 richtig und ψ = 1: OK!

H0 richtig und ψ = 1: Fehler 1. Art!

H1 richtig und ψ = 0: Fehler 2. Art!

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 12 / 51

Page 143: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Test und Teststatistik

Ein Test ψ ist von der Form

ψ(X) = I (T (X) ∈ C)

Die Funktion T : Rn → R heißt Teststatistik und die Menge C heißtkritische Region (Ablehnungsbereich) des Tests.Der kritische Bereich kann so bestimmt werden, dass ψ ein Niveau-α-Testist. Es gilt:

E0(ψ(X) = 1) = P0(ψ(X) = 1) = I (T (X) ∈ C) ≤ α.

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 13 / 51

Page 144: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Ablehnungsbereich

In der Regel lautet der Test ψ:

ψ(X) = I (T (X) > c1−α) falls große Werte von T (X) gegen H0 sprechen.

ψ(X) = I (T (X) < cα) falls kleine Werte von T (X) gegen H0 sprechen.

ψ(X) = I (T (X) < cα/2 oder T (X) > c1−α/2)

falls große und kleine Werte von T (X) gegen H0 sprechen.

Die Schranken sind die Quantile der Verteilung von T (X) wenn θ ∈ Θ0.c1−α: 1− α-Quantil.cα: α-Quantilcα/2: α/2-Quantilc1−α/2: 1− α/2-Quantil

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 14 / 51

Page 145: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Beispiel: Faire Munze

H0 : π =1

2vs. H1 : π 6= 1

2

Teststatistik T (x) = x ; lehne die Null-Hypothese ab, wenn x zu groß oderzu klein ist (zweiseitiger Test).Der Ausgang unseres Experimentes sei x = 7 bei n = 10. Wir bestimmenjetzt das α/2-Quantil und das 1− α/2-Quantil der Verteilung von T (x)unter H0, also der Verteilung B(n, 0.5) fur α = 0.05:

> qbinom(0.05/2, size = 10, prob = 0.5)

[1] 2

> qbinom(1 - 0.05/2, size = 10, prob = 0.5)

[1] 8

Damit konnen wir H0 nicht ablehnen, da x = 7 weder zu klein (kleiner 2)noch zu groß (großer 8) ist.

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 15 / 51

Page 146: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Likelihood-Quotienten-Tests

Eine formale Moglichkeit, Teststatistiken zu konstruieren, ist dieAnwendung des Likelihood-Quotienten-Prinzips: Der Quotient

maxΘ0

L(θ)

maxΘ

L(θ)=

maxΘ0

L(θ)

L(θML)

heißt Likelihood-Quotient und steht in engem Zusammenhang zurnormierten (Log)-Likelihoodfunktion.

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 16 / 51

Page 147: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Die normierte Likelihoodfunktion

Den Wert der (Log-) Likelihoodfunktion L(θ) bzw. l(θ) am ML-Schatzerkann man nicht interpretieren. Daher verwendet man gerne die normierte(Log-) Likelihoodfunktion:

L(θ) =L(θ)

L(θML)

l(θ) = l(θ)− l(θML)

Es gilt: 0 ≤ L(θ) ≤ 1 und −∞ ≤ l(θ) ≤ 0

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 17 / 51

Page 148: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Likelihood-Intervalle

Zur Bestimmung von Konfidenzintervallen muss man nun entscheiden,welche Werte von l(θ) zu “unplausibel” sind.Man kann unter bestimmten Annahmen zeigen, dass fur einen bestimmtenSchwellenwert c = c(α)

θ : l(θ) ≥ cbzw. θ : L(θ) ≥ exp(c)

ein Konfidenzintervall fur θ (Likelihood-Intervall) zum approximativenNiveau 1− α ist.Interpretation: Bei hypothetischer Wiederholung des zugrundeliegendenZufallsexperiments uberdecken die so konstruierten Likelihood-Intervalle inungefahr (1− α) · 100% aller Falle den unbekannten Parameter θ.

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 18 / 51

Page 149: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Likelihood-Intervalle II

Die Werte von c sind folgender Tabelle zu entnehmen:

1− α c exp(c)0.9 −1.33 0.259

0.95 −1.92 0.1470.99 −3.32 0.036

Die Bestimmung von Likelihood-Intervallen ist nur numerisch moglich, dortaber einfach durchzufuhren.Likelihood-Intervalle sind (wie der ML-Schatzer) invariant bzgl. monotonenTransformationen des Parameters.

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 19 / 51

Page 150: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Beispiel: Binomialverteilung

Sei X ∼ B(n, π) mit n = 10 und x = 7.Damit erhalt man als ML-Schatzer: πML = 0.7

1− α Likelihood-Intervall fur π

0.9 [0.44; 0.89]0.95 [0.39; 0.92]0.99 [0.30; 0.95]

Beachte: Die Konfidenzintervalle sind i.A. nicht symmetrisch um πML.

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 20 / 51

Page 151: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Beispiel: Binomialverteilung (n = 10, x = 7)

0.2 0.4 0.6 0.8 1.0

0.00

0.05

0.10

0.15

0.20

0.25

π

L(π)

0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

πL~(π

)

α = 0.1α = 0.05α = 0.01

0.4 0.6 0.8

−6

−5

−4

−3

−2

π

l(π)

0.2 0.4 0.6 0.8 1.0

−6

−5

−4

−3

−2

−1

0

π

l~(π

)

α = 0.1α = 0.05α = 0.01

Likelihood (oben links), normierte Likelihood(oben rechts), Loglikelihood (unten links) und

normierte Loglikelihood (unten rechts)

Linien verdeutlichenLikelihood-Intervalle zuunterschiedlichen Niveaus.

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 21 / 51

Page 152: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Beispiel: Binomialverteilung (n = 100, x = 70)

0.2 0.4 0.6 0.8 1.0

0.00

0.02

0.04

0.06

0.08

π

L(π)

0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

πL~(π

)

α = 0.1α = 0.05α = 0.01

0.60 0.65 0.70 0.75 0.80

−6.

0−

5.0

−4.

0−

3.0

π

l(π)

0.55 0.60 0.65 0.70 0.75 0.80 0.85

−6

−5

−4

−3

−2

−1

0

π

l~(π

)

α = 0.1α = 0.05α = 0.01

Likelihood (oben links), normierte Likelihood(oben rechts), Loglikelihood (unten links) und

normierte Loglikelihood (unten rechts)

Linien verdeutlichenLikelihood-Intervalle zuunterschiedlichen Niveaus.

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 22 / 51

Page 153: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Beispiel: Binomialverteilung (n = 1000, x = 700)

0.2 0.4 0.6 0.8 1.0

0.00

00.

010

0.02

0

π

L(π)

0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

πL~(π

)

α = 0.1α = 0.05α = 0.01

0.67 0.68 0.69 0.70 0.71 0.72 0.73

−6.

0−

5.5

−5.

0−

4.5

−4.

0−

3.5

π

l(π)

0.66 0.68 0.70 0.72 0.74

−6

−5

−4

−3

−2

−1

0

π

l~(π

)

α = 0.1α = 0.05α = 0.01

Likelihood (oben links), normierte Likelihood(oben rechts), Loglikelihood (unten links) und

normierte Loglikelihood (unten rechts)

Linien verdeutlichenLikelihood-Intervalle zuunterschiedlichen Niveaus.

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 23 / 51

Page 154: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Quadratische Approximation der Log-Likelihood

Man kann mit Hilfe einer Taylorreihendarstellung um θML zeigen, dass dienormierte Loglikelihoodfunktion l(θ) approximativ eine quadratischeFunktion ist:

l(θ) ≈ 1

2· l ′′(θML) · (θ − θML)2

Hier ist l ′′(θML) (= l ′′(θML)!) die zweite Ableitung (die Krummung) vonl(θ), ausgewertet am ML-Schatzer.

Beachte: Die quadratische Approximation wird umso besser, je mehrDaten der Likelihood zugrundeliegen.

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 24 / 51

Page 155: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Beispiel: Binomialverteilung

0.2 0.4 0.6 0.8 1.0

−6

−5

−4

−3

−2

−1

0

(7, 10)

π

0.55 0.60 0.65 0.70 0.75 0.80 0.85

−6

−5

−4

−3

−2

−1

0

(70, 100)

π

0.66 0.68 0.70 0.72 0.74

−6

−5

−4

−3

−2

−1

0

(700, 1000)

π

0.685 0.690 0.695 0.700 0.705 0.710 0.715

−6

−5

−4

−3

−2

−1

0

(7000, 10000)

π

Vergleich der normierten Loglikelihood mit der quadratischenApproximation fur X ∼ B(n, π):

n = 10,X = 7 (oben links), n = 100,X = 70 (oben rechts),n = 1000,X = 700 (unten links) und n = 10000,X = 7000 (unten rechts)

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 25 / 51

Page 156: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Der Standardfehler

Durch Einsetzen der quadratischen Approximation fur l(θ) in

θ : l(θ) ≥ c

erhalt man

θML ±√−2c ·

√[−l ′′(θML)

]−1

als Konfidenzintervall (Wald-Intervall) zum approximativen Niveau 1− α.Daher definiert man den Standardfehler (“Standard Error”) als

SE (θML) :=

√[−l ′′(θML)

]−1

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 26 / 51

Page 157: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Wald-Intervalle

Das Wald-Intervall zum Niveau 1− α ist also:

θML ± d · SE (θML)

Die Werte von d sind folgender Tabelle zu entnehmen:

1− α c d =√−2c

0.9 −1.33 1.650.95 −1.92 1.960.99 −3.32 2.58

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 27 / 51

Page 158: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Standardfehler

Der Standardfehler des ML-Schatzers

SE (θML) :=

√[−l ′′(θML)

]−1

kann als Schatzung der Standardabweichung des ML-Schatzers (imfrequentistischen Sinne) angesehen werden.

Ebenso ist[−l ′′(θML)

]−1eine Schatzung der Varianz des ML-Schatzers.

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 28 / 51

Page 159: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Eigenschaften von Wald-Intervallen

Wald-Intervalle sind immer symmetrisch um den ML-Schatzer;Invarianzeigenschaft geht verloren

Wald-Intervalle sind einfacher zu berechnen als Likelihood-Intervalle,haben aber (leicht) schlechtere theoretische Eigenschaften

im Beispiel (nachste Folie):offensichtliches Problem fur 1− α = 0.99: obere Grenze ist großer als1!

fur n groß werden Wald-Intervalle Likelihood-Intervallen immerahnlicher

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 29 / 51

Page 160: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Beispiel: Binomialverteilung

Es ergibt sich

SE (πML) =

√πML(1− πML)

n

Beispiel: Fur X = 7 und n = 10 ergibt sich: SE (πML) = 0.145; Tabelle mit Wald-Intervallen:

1− α Wald-Intervall

0.9 [0.46; 0.94]0.95 [0.42; 0.98]0.99 [0.33; 1.07]

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 30 / 51

Page 161: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

6.2 Erwartungstreue

Eine wunschenswerte Eigenschaft von Punktschatzern (im frequentis-tischen Sinne) ist die Erwartungstreue:Ein Schatzer θ (als Funktion der zufalligen Stichprobe X ) heißterwartungstreu oder unverzerrt fur einen unbekannten Parameter θ,falls gilt:

E (θ) = θ

Beispiel: Die relative Haufigkeit π = X/n ist ein erwartungstreuerSchatzer der Wahrscheinlichkeit π im Binomialverteilungs-modell.(Herleitung in Vorlesung)

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 31 / 51

Page 162: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Bemerkungen zur Erwartungstreue

Die Erwartungstreue ist nicht invariant bzgl. monotonenTransformationen! Das heißt, ist θ erwartungstreu fur θ, so ist g(θ)im Allgemeinen nicht erwartungstreu fur g(θ).

Die Existenz von erwartungstreuen Schatzern ist nicht gesichert.

Erwartungstreue Schatzer sind nicht notwendigerweise Element desParameterraums Θ.

ML-Schatzer sind nicht immer erwartungstreu, zumindest aberasymptotisch erwartungstreu, d.h. fur wachsenden Stichprobenumfangim Grenzwert erwartungstreu.

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 32 / 51

Page 163: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Beispiel: Taxis in Lubeck I

Alle Taxis in Lubeck seien von 1, . . . ,N durchnummeriert. Ein Besuchersieht an einem Taxistand n = 3 Taxis und fragt nach deren Nummern:

Y = Y1, . . . ,Yn

Wie kann er daraus einen erwartungstreuen Schatzer fur θ = N berechnen?Betrachte X = max(Y ).Man kann zeigen (Vorlesung), dass

N =n + 1

nmax(Y )− 1

ein erwartungstreuer Schatzer fur N ist.

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 33 / 51

Page 164: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Beispiel: Taxis in Lubeck II

Die Likelihoodfunktion ist

L(N) = const · (N − n)!

N!fur N = x , x + 1, . . .

Diese wird maximiert fur N = x! Das heißt der ML-Schatzer fur N istmax(Y ), der kleinstmogliche Wert!

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 34 / 51

Page 165: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

6.3 Bayes-Inferenz

alternativer Ansatz zur statistischen Inferenz

basiert auf subjektivistischem Wahrscheinlichkeitskonzept

unbekannter Parameter θ ist nun eine Zufallsvariable, versehen miteiner Wahrscheinlichkeitsfunktion f (θ)

wir konnen zunachst nur diskrete Parameter behandeln

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 35 / 51

Page 166: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Satz von Bayes fur Wahrscheinlichkeitsfunktionen

Seien X und Y zwei Zufallsvariablen mit gemeinsamerWahrscheinlichkeitsfunktion fX ,Y (x , y) und daraus abgeleitetenWahrscheinlichkeitsfunktionen fX (x), fY (y), fX |Y (x |y) und fY |X (y |x).Dann gilt fur alle x und alle y mit f (y) > 0:

fX |Y (x |y) =fY |X (y |x)fX (x)

fY (y)=

fY |X (y |x)fX (x)∑x fY |X (y |x)fX (x)

Dies folgt direkt aus der Definition der bedingten Wahrscheinlichkeits-funktion.

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 36 / 51

Page 167: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Bayes-Inferenz

Sei X = x eine Beobachtung eines Zufallsexperiments, das von einemunbekannten Parameter θ ∈ Θ abhangt, wobei Θ abzahlbar sei.Dann gilt mit dem Satz von Bayes fur Wahrscheinlichkeitsfunktionen:

f (θ|x) =f (x |θ)f (θ)

f (x)=

f (x |θ)f (θ)∑θ f (x |θ)f (θ)

Beachte: Da X = x beobachtet wurde, muss automatischP(X = x) > 0 gelten.

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 37 / 51

Page 168: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Beispiel: Posteriori-Verteilung im Binomialexperiment

Angenommen wir interessieren uns fur den Parameter θ = π, nehmen aberan, dass nur Werte in Π = 0.00, 0.02, 0.04, . . . , 0.98, 1.00 erlaubt sind.Als Priori-Verteilung f (π) konnen wir z.B. eine Gleichverteilung auf den51 Elementen von Π wahlen, also f (π) = 1/51 fur alle π ∈ Π.Nach der Beobachtung X = x aus einer B(n, π)-Verteilung ergibt sich diePosteriori-Verteilung

f (π|x) =f (x |π)f (π)∑π f (x |π)f (π)

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 38 / 51

Page 169: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Beispiel: Binomialverteilung (n = 5)

0.0 0.2 0.4 0.6 0.8 1.0

0.00

0.04

0.08

0.12

π

Dic

hte

PosterioriPriori

X = 0

0.0 0.2 0.4 0.6 0.8 1.0

0.00

0.04

0.08

0.12

π

Dic

hte

PosterioriPriori

X = 1

0.0 0.2 0.4 0.6 0.8 1.0

0.00

0.04

0.08

0.12

π

Dic

hte

PosterioriPriori

X = 2

0.0 0.2 0.4 0.6 0.8 1.0

0.00

0.04

0.08

0.12

π

Dic

hte

PosterioriPriori

X = 3

0.0 0.2 0.4 0.6 0.8 1.0

0.00

0.04

0.08

0.12

π

Dic

hte

PosterioriPriori

X = 4

0.0 0.2 0.4 0.6 0.8 1.0

0.00

0.04

0.08

0.12

π

Dic

hte

PosterioriPriori

X = 5

Posteriori-Verteilung im Binomialexperiment fur X ∼ B(5, π) beiPriori-Gleichverteilung.

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 39 / 51

Page 170: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Eine Dreiecksverteilung als Priori-Verteilung

Idee: favorisiere Werte von π nahe bei 0.5

Wahle z.B.

f (π) =1

C26− 25 · |2 · π − 1|

fur π ∈ 0.00, 0.02, 0.04, . . . , 0.98, 1.00 und C = 1676 .

Bemerkung: C ist so gewahlt, dass∑

π f (π) = 1 gilt.

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 40 / 51

Page 171: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Beispiel: Binomialverteilung (n = 5)

0.0 0.2 0.4 0.6 0.8 1.0

0.00

0.02

0.04

0.06

0.08

π

Dic

hte

PosterioriPriori

X = 0

0.0 0.2 0.4 0.6 0.8 1.0

0.00

0.02

0.04

0.06

0.08

π

Dic

hte

PosterioriPriori

X = 1

0.0 0.2 0.4 0.6 0.8 1.0

0.00

0.02

0.04

0.06

0.08

π

Dic

hte

PosterioriPriori

X = 2

0.0 0.2 0.4 0.6 0.8 1.0

0.00

0.02

0.04

0.06

0.08

π

Dic

hte

PosterioriPriori

X = 3

0.0 0.2 0.4 0.6 0.8 1.0

0.00

0.02

0.04

0.06

0.08

π

Dic

hte

PosterioriPriori

X = 4

0.0 0.2 0.4 0.6 0.8 1.0

0.00

0.02

0.04

0.06

0.08

π

Dic

hte

PosterioriPriori

X = 5

Posteriori-Verteilung im Binomialexperiment fur X ∼ B(5, π) beiPriori-Dreiecksverteilung.

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 41 / 51

Page 172: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Bayesianische Punktschatzer

Als Punktschatzer bietet sich nun ein Lageparameter derPosteriori-Verteilung an, z.B. der

Posteriori-Erwartungswert θErw = E (θ|x) =∑θ∈Θ

θf (θ|x)

Posteriori-Modus θMod = arg maxθ∈Θ

f (θ|x)

Posteriori-Median θMed = minθ ∈ Θ : F (θ|x) ≥ 0.5wobei F (θ|x) die Verteilungsfunktion der Posteriori-Verteilung mitWahrscheinlichkeitsfunktion f (θ|x) ist.

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 42 / 51

Page 173: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Posteriori-Modus bei Priori-Gleichverteilung

Bei Priori-Gleichverteilung ist der Posteriori-Modus θMod gleich demML-Schatzer θML, da

f (θ|x) =f (x |θ)f (θ)∑θ f (x |θ)f (θ)

=f (x |θ)∑θ f (x |θ)

Da der Nenner∑

θ f (x |θ) nicht von θ abhangt, folgt:

θMod = arg maxθ∈Θ

f (θ|x) = arg maxθ∈Θ

f (x |θ) = θML

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 43 / 51

Page 174: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Bayesianische Punktschatzer im Beispiel

Bei Priori-Gleichverteilung (G) bzw. Dreiecksverteilung (D) ergeben sichfolgende Punktschatzer bei Beobachtung von X = x Erfolgen bei n = 5Versuchen:

Erwartungswert Modus Medianx G D G D G D

0.00 0.13 0.23 0.00 0.16 0.10 0.221.00 0.29 0.35 0.20 0.32 0.26 0.342.00 0.43 0.45 0.40 0.50 0.42 0.463.00 0.57 0.55 0.60 0.50 0.58 0.544.00 0.71 0.65 0.80 0.68 0.74 0.665.00 0.87 0.77 1.00 0.84 0.90 0.78

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 44 / 51

Page 175: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Bayesianische Intervallschatzer

Prinzipiell ist jede Teilmenge A des Tragers Θ, fur die gilt∑θ∈A

f (θ|x) ≥ 1− α

eine Kredibilitatsregion (bzw. -intervall) zum Niveau 1− α.

Zusatzlich kann man noch fordern, dass fur alle θ1 ∈ A undθ2 ∈ Θ \ A gelten muss:

f (θ1|x) ≥ f (θ2|x)

⇒“highest posterior density region” (HPD-Region)

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 45 / 51

Page 176: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Berechnung von HPD-Regionen

1 Sortiere die Werte der Posteriori-Verteilung f (θ|x) der Großenach (absteigend).

2 Summiere die Werte kumulativ auf (Funktion cumsum() in R),bis die Summe großer als das Niveau 1− α ist.

⇒ Die entsprechenden Werte von θ definieren dann eine HPD-Region.

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 46 / 51

Page 177: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

HPD-Regionen im Beispiel

Bei Priori-Gleichverteilung (G) bzw. Dreiecksverteilung (D) ergeben sichfolgende 95% HPD-Regionen bei Beobachtung von X = x Erfolgen bein = 5 Versuchen:

95% HPD-Region fur πx G D

0 [0.00;0.36] [0.00;0.46]1 [0.02;0.56] [0.08;0.60]2 [0.12;0.74] [0.18;0.72]3 [0.26;0.88] [0.28;0.82]4 [0.44;0.98] [0.40;0.92]5 [0.64;1.00] [0.54;1.00]

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 47 / 51

Page 178: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Beispiel: Capture-Recapture-Experiment

Betrachte den unbekannten Parameter θ = N als diskrete ZV mit Trager

T = M,M + 1, . . . ,Ymax

Beachte: Vor der Beobachtung X = x (bei bekanntem n!) weiss mannur, dass mindestens M Fische im See schwimmen.

Lege nun eine Priori-Verteilung fest, z.B. eine Gleichverteilung

f (N) fur N ∈ T

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 48 / 51

Page 179: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Posteriori-Verteilung im Capture-Recapture-Experiment

Berechne Posteriori-Wahrscheinlichkeitsfunktion:

f (N|x) =f (x |N)f (N)

f (x)=

f (x |N)f (N)∑N f (x |N)f (N)

Beachte: Erst nach der Beobachtung X = x weiss man, dass mindes-tens M +n−x Fische im See schwimmen, da die Likelihoodf (x |N) = 0 ist fur x < M + n−N, also fur N < M + n− x .Weiterhin muss n ≤ N gelten.

Also hat die Posteriori-Verteilung f (θ|x) den Trager

T = max(M + n − x , n),max(M + n − x , n) + 1, . . . ,Ymax

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 49 / 51

Page 180: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Graphische Darstellung der Posteriori-Verteilung

Priori-Verteilung:

Gleichverteilung

Berechnet:I Modus,

I Median und

I Erwartungswert

der Posteriori-Verteilung und die HPD-Region, die hier ein Intervall ist.

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 50 / 51

Page 181: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Beispiel

0 50 100 150 200 250

0.00

00.

010

0.02

0

N

Prio

ri

Priori Verteilung

0 50 100 150 200 250

0.00

00.

010

0.02

0

N

Pos

terio

ri

Mod Erw Med

Posteriori Verteilung

Bei der Posteriori-Verteilungwerden folgendePunktschatzer durch Linienverdeutlicht. Die95%-HPD-Region stellen dieaußeren Linien dar.

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 51 / 51

Page 182: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

7. Markov-Ketten

Benannt nach Andrei A. Markov [1856-1922]Einige Stichworte:

Markov-Ketten

I Definition

I Eigenschaften

I Konvergenz

Hidden Markov Modelle

I Motivation und Inferenz

I Baum-Welch-Algorithmus

I Viterbi-Algorithmus

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 1 / 55

Page 183: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

7.1 Definition und Eigenschaften von Markov-Ketten

Sei X = (X0,X1,X2, . . .) eine Folge von diskreten Zufallsvariablen, die alleAuspragungen in einer endlichen bzw. abzahlbaren Menge S haben.S heißt der Zustandsraum und s ∈ S ein Zustand.X heißt Markov-Kette (MK), falls

P(Xn = s|X0 = x0,X1 = x1, . . . ,Xn−1 = xn−1)

= P(Xn = s|Xn−1 = xn−1)

fur alle n ≥ 1 und alle s, x0, x1, . . . , xn−1 ∈ S .

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 2 / 55

Page 184: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Interpretation

Bedingt auf die gesamte Vergangenheit X0,X1, . . . ,Xn−1 des Prozesses Xhangt Xn nur vom letzten Wert Xn−1 ab.Darstellung mit Pfeilen in einem graphischen Modell:

X0 → X1 → X2 → . . .→ Xn−1 → Xn

Anders ausgedruckt:

Bedingt auf die Gegenwart (Xn−1) ist die Zukunft des Prozesses(Xn,Xn+1, . . .) unabhangig von seiner Vergangenheit (X0,X1, . . . ,Xn−2).→ Begriff der bedingten Unabhangigkeit

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 3 / 55

Page 185: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Bedingt unabhangige Zufallsvariablen

Zwei diskrete Zufallsvariablen X und Y heißen bedingt unabhangiggegeben Z , wenn fur die entsprechend definiertenWahrscheinlichkeitsfunktionen gilt:

fX ,Y |Z (x , y |z) = fX |Z (x |z) · fY |Z (y |z)

fur alle x , y und z .

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 4 / 55

Page 186: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Ubergangswahrscheinlichkeiten

Die Entwicklung einer Markov-Kette X ist gekennzeichnet durch die(Ein-Schritt) Ubergangswahrscheinlichkeiten

P(Xn+1 = j |Xn = i)

fur alle i , j ∈ S .Man nennt eine Markov-Kette homogen, wenn diese nicht von nabhangen und definiert

pij = P(Xn+1 = j |Xn = i) = P(X1 = j |X0 = i)

fur alle n ≥ 1 und alle i , j ∈ S .

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 5 / 55

Page 187: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Die Ubergangsmatrix

Die Werte pij werden in einer |S | × |S |-Matrix P zusammengefasst, dersogenannten Ubergangsmatrix. P beschreibt also die Kurzzeitentwicklungeiner homogenen Markov-Kette X.P ist eine stochastische Matrix, d.h. sie hat folgende Eigenschaften:

1 pij ≥ 0 fur alle i , j ∈ S

2∑

j pij = 1 fur alle i ∈ S ⇒“Zeilensummen gleich eins”

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 6 / 55

Page 188: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Beispiele

1.Beispiel: Telephon besetzt / frei mit S = 0, 1 und

P =

(0.9 0.10.4 0.6

)2.Beispiel: Der Zustandsraum umfasst die vier Basen der DNA (Adenin,

Cytosin, Guanin, Thymin): S = A,C ,G ,T.Die geschatzte Ubergangsmatrix beim “Ablaufen” der DNAist

P =

0.300 0.205 0.285 0.2100.322 0.298 0.078 0.3020.248 0.246 0.298 0.2080.177 0.239 0.292 0.292

Durbin et al. (1998) “Biological sequence analysis”, p. 50

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 7 / 55

Page 189: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Die n-Schritt-Ubergangsmatrix

Die Langzeitentwicklung einer Markov-Kette X ist durch die n-Schritt-Ubergangsmatrix P(m,m + n) mit Elementen

pij(m,m + n) = P(Xm+n = j |Xm = i)

bzw. pij(n) = P(Xn = j |X0 = i)

gegeben, wobei die letzte Gleichung fur homogene Markov-Ketten gilt.In diesem Fall ergibt sich naturlich

P(m,m + 1) = P

und wir schreiben Pn = P(m,m + n).

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 8 / 55

Page 190: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Die Chapman-Kolmogorov-Gleichungen

Fur eine homogene Markov-Kette X gilt:

pij(m,m + n + r) =∑k

pik(m,m + n)pkj(m + n,m + n + r) (1)

P(m,m + n + r) = P(m,m + n)P(m + n,m + n + r) (2)

Pn = P(m,m + n) = Pn (3)

Dabei ist (2) nur (1) in Matrizenform und (3) folgt durch Iteration.Pn bezeichnet die n-te Potenz von P.Beweis zu (1) in Vorlesung.

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 9 / 55

Page 191: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Fortsetzung des 1. Beispiels

Zwei-Schritt-Ubergangsmatrix:

P2 = P2 =

(0.9 0.10.4 0.6

)(0.9 0.10.4 0.6

)=

(0.85 0.150.6 0.4

)Zum Beispiel ist also der Eintrag p21(2) in P2 gleich

p21(2) = P(Xn+2 = 1|Xn = 2)

= P(Xn+1 = 2|Xn = 2) · P(Xn+2 = 1|Xn+1 = 2)

+ P(Xn+1 = 1|Xn = 2) · P(Xn+2 = 1|Xn+1 = 1)

= 0.6 · 0.4 + 0.4 · 0.9 = 0.6

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 10 / 55

Page 192: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Die Zeit bis zum Zustandswechsel

Eine Markov-Kette X mit Ubergangsmatrix P sei zu einem Zeitpunkt t imZustand i ∈ S .Dann ist die Dauer bis zum nachsten Zustandswechsel Zi geometrischverteilt mit Parameter 1− pii .

Vergleiche: Gedachtnislosigkeit der geometrischen Verteilung:

P(Zi = n + k|Zi > n) = P(Zi = k)

Nutzliche Eigenschaft zum Test auf Modellanpassung:Vergleich der beobachteten und theoretischen Dauern bis zum nachstenZustandswechsel.

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 11 / 55

Page 193: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Die Anfangsverteilung

Schließlich hat jede Markov-Kette auch eine Anfangsverteilung fur X0.Die entsprechende Wahrscheinlichkeitsfunktion bezeichnet man mit demZeilenvektor µ(0) mit Elementen

µ(0)i = P(X0 = i).

Die (unbedingte) Wahrscheinlichkeitsfunktion von Xn fasst manentsprechend in dem Zeilenvektor µ(n) zusammen und es gilt:

µ(m+n) = µ(m) · Pn und daher

µ(n) = µ(0) · Pn

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 12 / 55

Page 194: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Folgerung

Durch µ(0) und P ist also die Entwicklung einer Markov-Kette vollstandigbestimmt.Die gemeinsame Wahrscheinlichkeitsverteilung (wichtig furLikelihood-Inferenz!) von X0, . . . ,Xn ist gegeben durch

P(X0 = x0,X1 = x1, . . . ,Xn = xn)

= P(X0 = x0)n∏

t=1

P(Xt = xt |Xt−1 = xt−1)

= µ(0)x0

n∏t=1

pxt−1,xt

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 13 / 55

Page 195: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Beispiel: Inzucht

Eine Pflanze mit Genotyp aus S = aa, ab, bb wird mit sich selbstgekreuzt. Die Zufallsvariable Xn gibt den Genotyp in der n-ten Generationan. Daher:

P =

1 0 014

12

14

0 0 1

Pn =

1 0 0

12 −

(12

)n+1 (12

)n 12 −

(12

)n+1

0 0 1

n→∞−→

1 0 012 0 1

2

0 0 1

⇒ Letztendlich bleiben nur die Genotypen aa und bb ubrig, die sich danndeterministisch reproduzieren.

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 14 / 55

Page 196: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Beispiel: Genhaufigkeit in Population konstanter Große N

Xn = i : Anzahl der Individuen einer Population mit bestimmtem Ge-notyp zum Zeitpunkt n

Einfaches Modell:Zu jedem Zeitpunkt stirbt ein zufallig ausgewahltes Mitglied. Das“nachruckende” Mitglied hat den Genotyp mit Wahrscheinlichkeit i

N .

; pij =

i(N−i)

N2 fur j = i ± 1

1− 2 i(N−i)N2 fur j = i

0 sonst

Beachte: P ist “tridiagonal”. Formulierung beinhaltet GrenzfalleXn = 0 und Xn = N.

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 15 / 55

Page 197: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Beispiel: Modelle fur Epidemien → Verzweigungsprozesse

Xn := Anzahl der Infizierten in einer Generation nS = 0, 1, . . .

Idee: Jeder Infizierte“erzeugt”(unabhangig von den anderen) einezufallige Anzahl Infizierter in der nachsten Generation mitErwartungswert λ.Die Anzahl konnte z.B. Poissonverteilt sein. Dann istXn|Xn−1 ∼ P(λ · Xn−1).

Theorem:

Fur λ < 1 wird die Epidemie mit Wahrscheinlichkeit 1 irgendwannaussterben.

Fur λ > 1 ist die Wahrscheinlichkeit, dass die Epidemie explodiert,echt großer 0.

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 16 / 55

Page 198: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

7.2 Klassifikation von Zustanden und Markov-Ketten

Ein Zustand i ∈ S heißt rekurrent oder auch persistent, falls fur dieRekurrenzzeit Ti = minn : Xn = i |X0 = i gilt

P(Ti <∞) = 1

Wenn P(Ti <∞) < 1 heißt der Zustand transient. Eine Markov-Kette Xkehrt also in einen rekurrenten Zustand mit Wahrscheinlichkeit 1 zuruck.Ein Zustand i heißt absorbierend, falls dieser nicht mehr verlassen werdenkann, also pii = 1.

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 17 / 55

Page 199: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Beispiel

Betrachte den Poisson-Verzweigungsprozess

Xn|Xn−1 ∼ P(λ · Xn−1)

Dann ist der Zustand 0 rekurrent, ja sogar absorbierend, da X diesenZustand nie verlaßt.Alle anderen Zustande sind transient.

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 18 / 55

Page 200: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Die erwartete Rekurrenzzeit

Man definiert die erwartete Rekurrenzzeit eines Zustands i wie folgt:

µi = E (Ti ) =

∑n nfi (n) falls i rekurrent ist

∞ falls i transient ist

mit fi (n) = P(X1 6= i , ...,Xn−1 6= i ,Xn = i |X0 = i). Ein rekurrenterZustand i heißt nicht-leer, falls seine erwartete Rekurrenzzeit endlich ist.Ansonsten heißt er leer.

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 19 / 55

Page 201: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Zusammenhang zu den Ubergangswahrscheinlichkeiten

Ein rekurrenter Zustand i ist genau dann leer, wenn

pii (n)→ 0 fur n→∞

Dann gilt sogar

pji (n)→ 0 fur n→∞ fur alle j ∈ S

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 20 / 55

Page 202: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Die Periode

Die Periode eines Zustandes i ist der großte gemeinsame Teiler der Menge

n : pii (n) > 0

Man nennt den Zustand i periodisch, falls dessen Periode großer eins ist,ansonsten heißt i aperiodisch.Haben alle Zustande einer Markov-Kette Periode 1, so heißt sieaperiodisch.Ein Zustand i heißt ergodisch, falls er rekurrent nicht-leer und aperiodischist. Sind alle Zustande von X ergodisch, so heißt X ergodisch.

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 21 / 55

Page 203: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Beispiel

Eine Markov-Kette habe die folgende Ubergangsmatrix:

P =

0 1 00 0 11 0 0

Es gilt nun:

jeder Zustand hat Periode 3

die Markov-Kette ist nicht aperiodisch

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 22 / 55

Page 204: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Irreduzible Zustande

Zwei Zustande i 6= j einer Markov-Kette X kommunizieren miteinander,falls fij > 0 und fji > 0 (Schreibweise: i ↔ j) mit

fij =∞∑

n=1

fij(n)

=∞∑

n=1

P(X1 6= j ,X2 6= j , . . . ,Xn−1 6= j ,Xn = j |X0 = i)

Ein Zustand i kommuniziert per definitionem immer mit sich selber: i ↔ iEine Menge C ⊂ S heißt irreduzibel, falls i ↔ j fur alle i , j ∈ C .Eine Menge C ⊂ S heißt geschlossen, falls pij = 0 fur alle i ∈ C undj ∈ C .

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 23 / 55

Page 205: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Beispiele

Markov-Ketten mit reduziblem Zustandsraum S

P1 =

12

12 0

12

12 0

0 0 1

P2 =

13

13

13

13

13

13

0 0 1

Im folgenden Beispiel ist S irreduzibel:

P3 =

13

13

13

13

13

13

0 12

12

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 24 / 55

Page 206: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Der Zerlegungssatz

Der Zustandsraum S einer Markov-Kette X lasst sich zerlegen in

1 eine Menge T mit transienten Zustanden

2 Mengen Ck , die irreduzibel und geschlossen sind

⇒ S = T ∪ C1 ∪ C2 ∪ . . .Ferner gilt folgendes Lemma:

Wenn S endlich ist, dann ist mindestens ein Zustand rekurrent und allerekurrenten Zustande sind nicht-leer.

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 25 / 55

Page 207: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Beispiel

Eine Markov-Kette mit Zustandsraum S = 1, 2, 3, 4, 5, 6 habe dieUbergangsmatrix

P =

0.5 0.5 0 0 0 00.25 0.75 0 0 0 00.25 0.25 0.25 0.25 0 00.25 0 0.25 0.25 0 0.25

0 0 0 0 0.5 0.50 0 0 0 0.5 0.5

Man bestimme:

die Periode jedes Zustands

die Zerlegung des Zustandsraumes

transiente Zustande

ergodische Zustande

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 26 / 55

Page 208: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

7.3 Die stationare Verteilung und das Grenzwerttheorem

Eine Wahrscheinlichkeitsverteilung π (Zeilenvektor) mit Eintragen(πj : j ∈ S) heißt stationare Verteilung einer Markov-Kette X mitUbergangsmatrix P, falls gilt:

πj =∑

i

πipij

oder in Matrixnotation:π = π · P

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 27 / 55

Page 209: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Interpretation der stationaren Verteilung

Hat die Markov-Kette X die Verteilung π zu einem gewissen Zeitpunkt n,dann auch im nachsten Zeitpunkt n + 1 und sogar in allen nachfolgendenZeitpunkten i = n + 2, n + 3, . . .Betrachte z.B. i = n + 2:

π · P2 = (πP)P = πP = π

Oft wahlt man fur die Anfangsverteilung µ0 die stationare Verteilung,d.h. µ0 = π.Im Folgenden betrachten wir ausschließlich irreduzible Markov-Ketten,d.h. Markov-Ketten mit irreduziblem Zustandsraum S .

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 28 / 55

Page 210: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Satz uber die stationare Verteilung

Eine irreduzible Markov-Ketten hat eine stationare Verteilung π genaudann, wenn alle Zustande nicht-leer rekurrent sind.Dann ist π eindeutig und gegeben durch

πi = 1/µi

wobei µi die erwartete Rekurrenzzeit des Zustands i ist.Unter diesen Voraussetzungen gilt bei endlichem Zustandsraum:

π = 1(I− P + U)−1

wobei I die Einheitsmatrix und 1 ein Zeilenvektor mit Einsen ist und U nurElemente gleich eins hat.

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 29 / 55

Page 211: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Bestimmung der stationaren Verteilung bei |S | = 2

Stationare Verteilung und Ubergangsmatrix haben bei Markov-Ketten mitzwei Zustanden folgende allgemeine Formen:

π = (π1, 1− π1) P =

(1− p12 p12

p21 1− p21

)Die erste Spalte der Gleichung π = π · P ist

π1 = π1 − π1 · p12 + p21 − π1 · p21

⇒ π1 =p21

p12 + p21und π2 =

p12

p12 + p21

Die zweite Spalte ergibt die gleiche Losung.

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 30 / 55

Page 212: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Beispiel

Wie lautet die stationare Verteilung fur die Markov-Kette mit folgenderUbergangsmatrix:

P =

(0.9 0.10.4 0.6

)Mit der eben bestimmten Formel erhalt man:

π = (π1, π2) =

(0.4

0.5,

0.1

0.5

)= (0.8 , 0.2)

Die erwarteten Rekurrenzzeiten sind demnach µ1 = 5/4 fur Zustand 1 undµ2 = 5 fur Zustand 2.Wie verhalt es sich bei

P =

0 1 00 0 11 0 0

?

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 31 / 55

Page 213: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Reversible Markov-Ketten

Sei X = (X0, . . . ,XN) eine regulare Markov-Kette mit Ubergangsmatrix Pund stationarer Verteilung π, die X auch zu jedem Zeitpunktn = 0, . . . ,N besitze.Definiere nun Y = (XN , . . . ,X0) mit Yn = XN−n.Dann ist Y auch eine Markov-Kette mit Ubergangswahrscheinlichkeiten

P(Yn+1 = j |Yn = i) = (πj/πi )pji

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 32 / 55

Page 214: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Reversible Markov-Ketten II

Man sagt nun X ist reversibel, falls X und Y identischeUbergangswahrscheinlichkeiten haben, d.h. falls

πipij = πjpji

fur alle i , j ∈ S gilt.

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 33 / 55

Page 215: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Beispiele fur reversible Markov-Ketten

1 Alle irreduziblen Markov-Ketten mit zwei Zustanden sind reversibel(Beweis in Vorlesung).

2 Markov-Ketten mit tri-diagonaler Ubergangsmatrix P sind reversibel,z.B.

I der random walk auf endlichem Zustandsraum S = 0, 1, . . . , bI der Prozess aus Beispiel 2 (Stichwort: Genhaufigkeit)

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 34 / 55

Page 216: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Satz uber die stationare Verteilung

Sei X eine irreduzible Markov-Kette mit Ubergangsmatrix P. Ferner gebees eine Verteilung π mit πipij = πjpji fur alle i , j ∈ S .Dann ist π die stationare Verteilung und X ist bzgl. π reversibel.Beweis: ∑

i

πipij =∑

i

πjpji = πj

∑i

pji = πj

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 35 / 55

Page 217: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Das Grenzwerttheorem

Eine irreduzible und aperiodische Markov-Kette konvergiert gegen ihrestationare Verteilung π

pij(n) −→ πj = µ−1j fur n→∞ und alle i

bzw.

Pn = Pn −→

· · · π · · ·· · · π · · ·

......

...· · · π · · ·

Daher gilt µ(0)Pn −→ π fur alle µ(0).

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 36 / 55

Page 218: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Ein Gegenbeispiel

Eine Markov-Kette X mit Ubergangsmatrix

P =

0 1 00 0 11 0 0

hat zwar die stationare Verteilung π = (1/3, 1/3, 1/3), konvergiert abernicht gegen diese, da die Kette periodisch ist.

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 37 / 55

Page 219: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

7.4 Inferenz fur Markov-Ketten

Schatzung der Ubergangswahrscheinlichkeiten

Test auf Modellanpassung

Allgemeinere Markov-Modelle:

I Markov-Ketten hoherer Ordnung

I Hidden-Markov Modelle

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 38 / 55

Page 220: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Schatzung der Ubergangswahrscheinlichkeiten

Ziel: Schatzung der Ubergangswahrscheinlichkeiten basierend aufeiner (oder mehrerer) Realisationen einer Markov-Kette X.

Es erscheint plausibel, die Ubergangswahrscheinlichkeiten pij durch dieentsprechenden Ubergangshaufigkeiten

pij =nij

ni

zu schatzen, wobei nij die Anzahl der beobachteten Ubergange von i nachj ist und ni =

∑j nij .

Im Folgenden zeigen wir, dass dies auch die ML-Schatzer sind.

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 39 / 55

Page 221: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

ML-Schatzung der Ubergangswahrscheinlichkeiten

Grundlage: Realisation X0 = x0,X1 = x1, . . . ,XN = xN einerMarkov-Kette X.

Die Likelihood ist somit (vergleiche Folie S. 13)

L(P) = µ(0)x0

n∏t=1

pxt−1,xt = µ(0)x0

∏i ,j

pnij

ij

wobei nij die Anzahl der beobachteten Ubergange von i nach j ist.Die Log-Likelihood ist dann

l(P) = log(µ(0)x0 ) +

∑i ,j

nij log(pij)

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 40 / 55

Page 222: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

ML-Schatzung der Ubergangswahrscheinlichkeiten II

Problem: Es sind mehrerer Parameter in θ = P durch Maximierungder Log-Likelihood l(P) zu schatzen, wobei noch die Re-striktion ∑

j

pij = 1

fur alle i zu berucksichtigen ist.⇒ Lagrangesche Multiplikatorenmethode:

Maximiere

l∗(P) = log(µ(0)x0 ) +

∑i ,j

nij log(pij)−∑

i

λi

∑j

pij − 1

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 41 / 55

Page 223: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

ML-Schatzung der Ubergangswahrscheinlichkeiten III

Die partiellen Ableitungen nach pij sind somit

dl∗(P)

pij=

nij

pij− λi

Nullsetzen liefert nij = λipij . Durch Summation uber j folgt

λi =∑

j

nij = ni

und schließlichpij =

nij

ni.

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 42 / 55

Page 224: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Beispiel: Regen bei den Snoqualmie Wasserfallen

Uber eine Zeitreihe von N = 13149 Tagen wurde an den SnoqualmieWasserfallen registriert, ob es am jeweiligen Tag geregnet hat oder nicht.Erstellung eines Markov-Modells:

Der Zustandsraum ist S = 0, 1 mit

0 : Kein Regen1 : Regen

am Tag t = 1, . . . ,N

Es ergibt sich n0 = 6229 (Tage ohne Regen) und n1 = 6920.Ubergangsmatrix mit relativen Ubergangshaufigkeiten (ML-Schatzer):

P =

(0.713 0.2870.258 0.742

)Frage: Passt sich das Markov-Modell den Daten gut an?→ Betrachtung der “Verweildauern” (Wartezeiten bis zum nachsten

Zustandswechsel)

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 43 / 55

Page 225: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Verweildauern bei den Snoqualmie Wasserfallen

0 2 4 6 8

100

200

300

400

500

600

Zeit bis zum Zustandswechsel

Hae

ufig

keit

Verweildauer im Zustand 0 (kein Regen)

theoretischempirisch

0 2 4 6 8

100

200

300

400

500

Zeit bis zum Zustandswechsel

Hae

ufig

keit

theoretischempirisch

Verweildauer im Zustand 1 (Regen)

Theoretische (schwarz) und empirische (rot) Verweildauern in den beidenZustanden.

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 44 / 55

Page 226: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Markov-Ketten hoherer Ordnung

Zum Beispiel Markov-Kette zweiter Ordnung:

Die Regenwahrscheinlichkeit hangt nun von den letzten zwei Tagen ab.Die Ubergangswahrscheinlichkeiten sind

P(Xn = s|Xn−1 = xn−1,Xn−2 = xn−2).

Diese Markov-Kette kann auch als Markov-Kette erster Ordnungdargestellt werden, indem man den Zustandsraum zu S = 00, 01, 10, 11erweitert, wobei der erste Eintrag xn−2 und der zweite Eintrag xn−1

darstellt.→ In der Ubergangsmatrix ergeben sich dann strukturelle Nullen.

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 45 / 55

Page 227: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Strukturelle Nullen

Im Beispiel ergibt sich:

P =

00 01 10 11

00 0 001 0 010 0 011 0 0

da z.B. auf Xn−2 = 0 und Xn−1 = 0 nicht Xn−1 = 1 und Xn = 0 folgenkann etc.→ die Anzahl der Spalten kann reduziert werden

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 46 / 55

Page 228: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Regen bei den Snoqualmie Wasserfallen

Mit reduzierten Spalten ergibt sich im Beispiel

P =

0 1

00 0.749 0.25101 0.277 0.72310 0.624 0.37611 0.252 0.748

Alternativer Ansatz: Hidden Markov-Modell

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 47 / 55

Page 229: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

7.5 Hidden Markov Modelle

Mischverteilungsmodell mit zusatzlichem Zeitreihencharakter

Anwendungen in verschiedenen Bereichen:

I Okonometrie,

I Genetik (DNA-Sequenzierung, Stammbaumanalyse),

I Spracherkennung, ...

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 48 / 55

Page 230: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Das Modell

Latente Parameter X = (X1, . . . ,XN) folgen einer (homogenen)Markov-Kette mit diskretem Zustandsraum S :

Ubergangsmatrix P mit pij = P(Xt = j |Xt−1 = i)

Anfangsverteilung π mit πi = P(X0 = i)(oft impliziert durch π = πP)

Die Beobachtungen yt |xt = s sind bedingt unabhangig aus einerVerteilung mit Wahrscheinlichkeitsfunktion fs(yt) mit Parametern θs .Beispielsweise:

diskret mit Missklassifizierungswahrscheinlichkeiten ps

Poisson mit Raten λs

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 49 / 55

Page 231: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Beispiel: Ein verrauschtes binares Signal

Daten:y = (2 2 2 1 2 2 1 1 1 1 1 2 1 1 1 2 1 2 2 2)

|S | = 2N = 20

P =

(0.75 0.250.25 0.75

)π =

(0.50.5

)

f (yt = 1|xt = 1) = 0.8 f (yt = 1|xt = 2) = 0.2

f (yt = 2|xt = 1) = 0.2 f (yt = 2|xt = 2) = 0.8

Ziel der statistischen Inferenz: Restauration der Sequenz X

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 50 / 55

Page 232: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Inferenz bei festen Hyperparametern

Hyperparameter: P, π, θ fest

Ziel: Schatzung der latenten Zustande x = (x1, . . . , xN)

Posteriori-Verteilung f (x|y) = f (x, y)/f (y) mit:

f (x|y) ∝ f (x, y) = πx1

N∏t=2

pxt−1xt︸ ︷︷ ︸f (x)

·N∏

t=1

fxt (yt)︸ ︷︷ ︸f (y|x)

Problem: Es gibt SN (!) unterschiedliche Sequenzen x.

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 51 / 55

Page 233: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Posteriori-Modus Schatzung

Viterbi-Algorithmus [Viterbi (1967)]

I Rekursiver Algorithmus zur Maximierung von f (x, y) bzgl. x

I liefert (einen) MAP-(posteriori Modus)-Schatzer von f (x|y) ∝ f (x, y)

I Algorithmus ist numerisch effizient: O(|S |2 · N)

Simulated annealing [Kirkpatrick, Gelatt & Vecchi (1983)]

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 52 / 55

Page 234: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Rekonstruktion des verrauschten binaren Signals

Das empfangene Signal war

y = (2 2 2 1 2 2 1 1 1 1 1 2 1 1 1 2 1 2 2 2)

Daraus kann man Schatzer fur das zugrundeliegende Signal x berechnen:

Schatzer von x post. Wkeit P(x|y)

xMAP1 = (2 2 2 2 2 2 1 1 1 1 1 1 1 1 1 1 1 2 2 2) 0.0304xMAP2 = (2 2 2 2 2 2 1 1 1 1 1 1 1 1 1 2 2 2 2 2) 0.0304xMPM = (2 2 2 2 2 2 1 1 1 1 1 1 1 1 1 2 1 2 2 2) 0.0135

y = (2 2 2 1 2 2 1 1 1 1 1 2 1 1 1 2 1 2 2 2) 0.0027

Hierbei bezeichnet xMPM den marginalen Posteriori Modus, d.h. jedes xi ,

i = 1, . . . , 20, in xMPM hat marginale Posteriori-Wahrscheinlichkeit P(xi |y) > 0.5.

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 53 / 55

Page 235: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Inferenz bei unbekannten Hyperparametern

Seinen nun bestimmte Hyperparameter θ unbekannt, wie beispielsweise dieUbergangsmatrix P oder die Verteilung f (yi |xi ).

Klassische Likelihood-Ansatze maximieren die (marginale) LikelihoodL(θ) = f (y|θ) bezuglich θ, z.B. mit dem Baum-Welch-Algorithmus,der einen Spezialfall des EM-Algorithmus darstellt.

Problem: Berechnung von f (y|θ) =∑x

f (x, y|θ)

Bayesianische Ansatze verwenden zusatzliche priori-Verteilungenf (θ) und simulieren aus der posteriori-Verteilung

f (x,θ|y) ∝ f (x, y|θ) · f (θ)

mit Markov-Ketten Monte Carlo (MCMC) Verfahren.

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 54 / 55

Page 236: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Beispiel zur Likelihood-InferenzSeinen nun die Eintrage der Ubergangsmatrix P unbekannt. Die marginaleLikelihood L(p11, p22) der Diagonalelemente p11 und p22 ist in folgenderGraphik dargestellt. Die ML-Schatzungen sind p11 = 0.85 und p22 = 0.78.

p11

p 22

2e−07

2e−

07

4e−07

4e−

07

6e−07

8e−07

1e−06

1.2e−06

1.4e−06

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 55 / 55

Page 237: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

8. Stetige Zufallsvariablen

Idee: Eine Zufallsvariable X ist stetig, falls ihr Trager eine uberab-zahlbare Teilmenge der reellen Zahlen R ist.

Beispiel: Glucksrad mit stetigem Wertebereich [0, 2π]

Von Interesse ist die Zufallsvariable, die den exakten Winkelangibt, an dem das Glucksrad stehen bleibt.

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 1 / 65

Page 238: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

8.1 Definition von stetigen Zufallsvariablen

Eine Zufallsvariable X heißt stetig, wenn es eine Funktion f (x) ≥ 0 gibt,so dass sich die Verteilungsfunktion F (x) = P(X ≤ x) von X wie folgtdarstellen lasst:

F (x) =

∫ x

−∞f (u) du

Die Funktion f (x) heißt Wahrscheinlichkeitsdichte (kurz: Dichte oderDichtefunktion) von X. Der Trager T von X ist die Menge aller Elementex ∈ R fur die f (x) > 0 gilt.Beachte den Unterschied zu diskreten Zufallsvariablen! Hier gilt:

F (x) =∑

i :xi≤x

f (xi )

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 2 / 65

Page 239: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Einige Folgerungen

P(X = x) = 0 fur alle x ∈ R

P(X ∈ [a, b]) =

∫ b

af (x) dx

+∞∫−∞

f (x) dx = 1

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 3 / 65

Page 240: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Beispiel: Die stetige Gleichverteilung

Eine Zufallsvariable X heißt stetig gleichverteilt auf dem Intervall [a, b],falls ihre Dichtefunktion die folgende Form hat:

f (x) =

1

b−a fur x ∈ [a, b]

0 sonst

Der Trager von X ist also T = [a, b].Die Verteilungsfunktion F (x) von X ergibt sich zu

F (x) =

0 x < ax−ab−a x ∈ [a, b]

1 x > b

Man schreibt kurz: X ∼ U(a, b)

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 4 / 65

Page 241: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Beispiel: Die stetige Gleichverteilung II

2 3 4 5 6

0.00

0.05

0.10

0.15

0.20

0.25

x

f(x)

2 3 4 5 6

0.0

0.2

0.4

0.6

0.8

1.0

x

F(x

)

Dichtefunktion (links) und Verteilungsfunktion (rechts) der stetigenGleichverteilung fur a = 2 und b = 6

Funktionen in R:

dunif(...) berechnet die Dichtefunktionpunif(...) berechnet die Verteilungsfunktionqunif(...) berechnet die Quantilsfunktionrunif(...) erzeugt Zufallszahlen

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 5 / 65

Page 242: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Eigenschaften der Verteilungsfunktion

1 limx→−∞F (x) = 0 und lim

x→∞F (x) = 1

2 An allen Stetigkeitsstellen von f (x) gilt: F ′(x) = f (x)

3 P(a ≤ X ≤ b) = F (b)− F (a)

4 P(X > a) = 1− F (a)etc.

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 6 / 65

Page 243: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Allgemeine Definition von stetigen ZVn

Frage: Fur welche Mengen B ist die Aussage

P(X ∈ B) =

∫B

f (x)dx

uberhaupt sinnvoll?

Sei F die Mengenfamilie aller offenen Intervalle in R. Dann gibt es einesogenannte σ-Algebra (eine spezielle Mengenfamilie) σ(F), die F enthalt.

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 7 / 65

Page 244: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

σ-Algebren

Fur eine σ-Algebra σ(F) muss gelten:

1 ∅ und Ω ∈ σ(F)

2 Fur A,B ∈ σ(F) ist auch B \ A ∈ σ(F).

3 Fur A1,A2, . . . ∈ σ(F) ist auch

I∞⋃

n=1An ∈ σ(F) und

I∞⋂

n=1An ∈ σ(F).

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 8 / 65

Page 245: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Axiome von Kolmogorov

Ein Wahrscheinlichkeitsmaß P auf Ω wird nun mittels σ(F) definiert:Fur alle paarweise disjunkten Mengen A1,A2, . . . ∈ σ(F) soll gelten(vgl. Axiom A3, Abschnitt 2.3):

P(∪∞n=1An) =∞∑

n=1

P(An)

Ferner mussen naturlich auch A1 und A2 erfullt sein:

P(∅) = 0

P(Ω) = 1

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 9 / 65

Page 246: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

8.2 Wichtige stetige Verteilungen

Im Folgenden werden wir nun wichtige stetige Verteilungen kennenlernen.Stetige Verteilungen hangen wie diskrete Verteilungen von einem odermehreren Parametern ab.Zur Charakterisierung werden wir meist die Dichtefunktion und denTrager angeben.Eine Verteilung haben wir schon kennengelernt, die stetige Gleichver-teilung mit Parametern a ∈ R und b ∈ R (a < b). Sie hat dieDichtefunktion

f (x) =1

b − a

und den Trager T = [a, b].

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 10 / 65

Page 247: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Die Exponentialverteilung

Eine stetige Zufallsvariable X mit positivem Trager T = R+ heißtexponentialverteilt mit Parameter λ ∈ R+, wenn sie die Dichte

f (x) =

λ exp(−λx) fur x ≥ 00 sonst

besitzt. Die Verteilungsfunktion ergibt sich zu

F (x) =

1− exp(−λx) fur x ≥ 00 fur x < 0

Notation: X ∼ E(λ)

Funktionen in R: dexp(), etc.

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 11 / 65

Page 248: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Die Exponentialverteilung II

0 2 4 6 8 10

0.0

0.2

0.4

0.6

0.8

x

f(x) λ = 0.9

λ = 0.5λ = 0.3

0 2 4 6 8 10

0.0

0.2

0.4

0.6

0.8

1.0

x

F(x

)

λ = 0.9λ = 0.5λ = 0.3

Dichtefunktion (links) und Verteilungsfunktion (rechts) derExponentialverteilung mit verschiedenen Raten

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 12 / 65

Page 249: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Die Gammaverteilung

Die Gammaverteilung ist eine Verallgemeinerung der Exponential-verteilung. Sie hat auch den positiven Trager T = R+, aber einenParameter mehr:Eine stetige Zufallsvariable X heißt gammaverteilt mit Parameternα ∈ R+ und β ∈ R+ (Notation: X ∼ G(α, β) ), falls sie die Dichte

f (x) =

βα

Γ(α) xα−1 exp(−βx) fur x > 0

0 sonst

besitzt. Hierbei ist Γ(α) die Gammafunktion

Γ(α) =

∫ ∞0

xα−1 exp(−x) dx

wobei Γ(x + 1) = x! fur x = 0, 1, 2, . . . gilt.

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 13 / 65

Page 250: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Die Gammaverteilung II

0.0 0.2 0.4 0.6 0.8 1.0

01

23

4

x

f(x)

α, β = (2, 3)α, β = (1.2, 3)α, β = (2, 6)α, β = (1.2, 6)

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

x

F(x

)

Dichtefunktion (links) und Verteilungsfunktion (rechts) derGammaverteilung mit verschiedenen Werten fur α und β

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 14 / 65

Page 251: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Eigenschaften der Gammaverteilung

Fur α = 1 ergibt sich die Exponentialverteilung mit Parameter λ = β.

Fur α = d/2 mit d ∈ N und β = 12 ergibt sich die sogenannte

χ2-Verteilung mit d Freiheitsgraden.

Notation: X ∼ χ2(d)

Funktionen in R:

I Gammaverteilung: dgamma(x, shape = α, rate = β), etc.

I χ2-Verteilung: dchisq(x, df = Freiheitsgrade), etc.

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 15 / 65

Page 252: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Wieso ist bei der Gammaverteilung∫

f (u)du = 1?

Verwendung der Substitutionsregel:∫f (g(x)) · g ′(x) dx =

∫f (z) dz

mit g(x) = β · x :

f (x) =βα

Γ(α)xα−1 exp(−βx)

Γ(α)g(x)α−1 exp(−g(x))

=1

Γ(α)g(x)α−1 exp(−g(x)) β︸︷︷︸

g ′(x)

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 16 / 65

Page 253: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Die Normalverteilung

“Gaußsche Glockenkurve”

Eine Zufallsvariable X mit Trager T = R und Parametern µ ∈ R undσ2 ∈ R+ heißt normalverteilt, falls sie die Dichtefunktion

f (x) =1√2π

1

σexp

(−1

2

(x − µ)2

σ2

)fur x ∈ R

hat. Fur µ = 0 und σ2 = 1 nennt man die Zufallsvariable standardnor-malverteilt.Man schreibt kurz: X ∼ N (µ, σ2)

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 17 / 65

Page 254: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Die Normalverteilung II

−5 0 5

0.0

0.1

0.2

0.3

0.4

x

f(x)

−6 −4 −2 0 2 4 6

0.0

0.2

0.4

0.6

0.8

1.0

x

F(x

)

µ, σ = (0, 1)µ, σ = (2, 1)µ, σ = (0, 2)

Dichtefunktion (links) und Verteilungsfunktion (rechts) derNormalverteilung mit verschiendenen Werten fur µ und σ

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 18 / 65

Page 255: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Mehr zur Normalverteilung

Funktionen in R:

dnorm(...) berechnet die Dichtefunktionpnorm(...) berechnet die Verteilungsfunktionqnorm(...) berechnet die Quantilsfunktionrnorm(...) erzeugt Zufallszahlen

Beachte:

F (x) =

∫ x

−∞f (u) du

ist nicht analytisch zuganglich (d.h. man findet keine Stammfunktion undbraucht numerische Integration).

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 19 / 65

Page 256: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Wieso ist bei der Normalverteilung∫

f (u)du = 1?

Man weiß aus der Analysis, dass fur a > 0 gilt:∫ ∞−∞

exp(−a2x2) dx =

√π

a

Ferner kann man leicht zeigen, dass∫exp

(−1

2

(x − µ)2

σ2

)dx =

∫exp

(− x2

2σ2

)dx

fur alle µ ∈ R gilt.

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 20 / 65

Page 257: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Die Betaverteilung

Eine Zufallsvariable X mit Trager T = (0, 1) und Parametern α ∈ R+ undβ ∈ R+ heißt betaverteilt (X ∼ Be(α, β) ), falls sie die Dichtefunktion

f (x) =

1

B(α,β) xα−1(1− x)β−1 fur 0 < x < 1

0 sonst

besitzt. Hierbei ist die Betafunktion B(α, β) gerade so definiert, dass die

Dichtefunktion die Normierungseigenschaft1∫

0

f (x) dx = 1 besitzt:

B(α, β) =Γ(α)Γ(β)

Γ(α + β)=

∫ 1

0xα−1(1− x)β−1 dx

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 21 / 65

Page 258: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Die Betaverteilung II

0.0 0.2 0.4 0.6 0.8 1.0

01

23

4

x

f(x)

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

x

F(x

)

α, β = (2, 3)α, β = (1.2, 3)α, β = (2, 6)α, β = (1.2, 6)

Dichtefunktion (links) und Verteilungsfunktion (rechts) derBetaverteilung mit verschiedenen Werten fur α und β

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 22 / 65

Page 259: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Die Betaverteilung III

Beachte: Fur α = β = 1 erhalt man die Gleichverteilung auf demIntervall [0, 1].

Funktionen in R:

dbeta(...) berechnet Dichtefunktionpbeta(...) berechnet Verteilungsfunktionqbeta(...) berechnet Quantilsfunktionrbeta(...) erzeugt Zufallszahlen

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 23 / 65

Page 260: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

8.3 Lageparameter von stetigen Zufallsvariablen

Man unterscheidet wieder

den Erwartungswert (existiert meistens, ist dann auch eindeutig)

den Median (existiert immer, ist immer eindeutig, solange der Tragervon X ein Intervall ist)

den Modus (existiert nicht immer, ist auch nicht immer eindeutig)

Diese sind nun aber anders definiert.

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 24 / 65

Page 261: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Der Erwartungswert von stetigen Zufallsvariablen

Der Erwartungswert einer stetigen Zufallsvariable X ist definiert als

EX =

∫ ∞−∞

x · f (x) dx

unter der Voraussetzung, dass die Funktion x · f (x) absolut integrierbarist: ∫ ∞

−∞|xf (x)| dx =

∫ ∞−∞|x |f (x) dx <∞

Andernfalls sagt man, der Erwartungswert von X existiert nicht bzw. istunendlich.

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 25 / 65

Page 262: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Eigenschaften des Erwartungswertes

Wir setzen hier die Existenz des Erwartungswertes voraus.

1 E[g(X )] =

∫ ∞−∞

g(x)f (x) dx fur eine beliebige Funktion g : R→ R

2 E(a · X + b) = aE(X ) + b “Linearitat”

3 E(X + Y ) = E(X ) + E(Y ) “Additivitat”

4 Ist f (x) symmetrisch um einen Punkt c, d.h.

f (c − x) = f (c + x) ∀x ∈ R

dann ist E(X ) = c.

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 26 / 65

Page 263: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Beispiele fur Erwartungswerte stetiger Verteilungen

1 Der Erwartungswert der Betaverteilung ist α/(α + β).

2 Der Erwartungswert der stetigen Gleichverteilung ist (a + b)/2.

3 Der Erwartungswert der Exponentialverteilung ist 1/λ.

Beweis uber partielle Integration:∫u(x)v ′(x) dx = u(x)v(x)−

∫u′(x)v(x) dx

4 Die Cauchy-Verteilung mit Dichtefunktion

f (x) =1

π· 1

1 + x2fur x ∈ R

hat keinen (endlichen) Erwartungswert.

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 27 / 65

Page 264: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Quantile von stetigen Zufallsvariablen

Wir nehmen an, dass der Trager der stetigen Zufallsvariable X ein Intervallist. Somit ist die Umkehrfunktion F−1(p) der Verteilungsfunktion F (x)von X eindeutig definiert.Das p-Quantil der Verteilung von X ist definiert als der Wert xp fur denF (x) = p gilt. Somit gilt xp = F−1(p).

Speziell erhalt man fur p = 0.5 den Median xMed .

Ist f (x) symmetrisch um einen Punkt c, so ist xMed = c.

Beispiel: Bei einer normalverteilten Zufallsvariable X ∼ N (µ, σ2) istxMed = µ.

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 28 / 65

Page 265: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Der Modus von stetigen Zufallsvariablen

Ein Modus einer stetigen Zufallsvariable X ist ein Wert xMod , fur denfur alle x ∈ R gilt:

f (xMod) ≥ f (x)

Der Modus ist nicht notwendigerweise eindeutig, noch muss er existieren.

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 29 / 65

Page 266: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Beispiele

1 Der Modus der Betaverteilung ist fur α > 1 und β > 1 eindeutiggleich

xMod =α− 1

α + β − 2

2 Der Modus der Exponentialverteilung ist gleich Null.

3 Der Modus der Normalverteilung ist µ.

4 Der Modus der Gammaverteilung ist fur α > 1 eindeutig gleich

xMod =α− 1

β

Fur α < 1 existieren keine Modi.

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 30 / 65

Page 267: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Die Varianz einer stetigen Zufallsvariable

Die Varianz einer stetigen Zufallsvariable definiert man analog zumdiskreten Fall:

Var(X ) = E[X − E(X )]2 = E[X − µ]2 =

∫ ∞−∞

(x − µ)2f (x) dx

mit µ = E(X ). Die Standardabweichung ist ebenfalls wie im diskretenFall definiert:

σ =√

Var(X )

Beachte: Auch die Varianz kann nicht existieren, d.h. unendlich sein.Existiert der Erwartungswert nicht, so existiert auch die Va-rianz nicht.

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 31 / 65

Page 268: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Eigenschaften der Varianz

Es gelten dieselben Eigenschaften wie im diskreten Fall:

Verschiebungssatz: Var(X ) = E(X 2)− [E(X )]2

Lineare Transformationen:

Fur Y = a · X + b gilt: Var(Y ) = a2 · Var(X )

Sind X und Y unabhangig, so gilt:

Var(X + Y ) = Var(X ) + Var(Y )

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 32 / 65

Page 269: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Beispiel: Varianz der stetigen Gleichverteilung

Zunachst gilt

E(X 2) =1

3· b3 − a3

b − a

und mit dem Verschiebungssatz ergibt sich:

Var(X ) = EX 2 − (EX )2 =(b − a)2

12

Die Varianz wachst also quadratisch und die Standardabweichung somitlinear mit der Breite b − a des Tragers.

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 33 / 65

Page 270: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Erwartungswerte und Varianzen stetiger Verteilungen

Name Symbol E(X ) Var(X )

Gleichverteilung X ∼ U(a, b) a+b2

(b−a)2

12

Exponentialverteilung X ∼ E(λ) 1λ

1λ2

Gammaverteilung X ∼ G(α, β) αβ

αβ2

Normalverteilung X ∼ N (µ, σ2) µ σ2

Betaverteilung X ∼ Be(α, β) αα+β

α·β(α+β)2(α+β+1)

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 34 / 65

Page 271: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

8.4 Das Gesetz der großen Zahlen

Das Gesetz der großen Zahlen ist eine Aussage uber das arithmetischeMittel

Xn =1

n

n∑i=1

Xi

fur n→∞, wobei die Xi (i = 1, . . . , n) unabhangig und identisch verteilteZufallsvariablen (engl.: iid = “independent and identically distributed”) auseiner Verteilung mit Erwartungswert µ und Varianz σ2 sind.Es gilt: E(Xn) = µ und Var(Xn) = 1

n σ2

Daher folgt sofort fur n→∞: Xn → µ und Var(Xn)→ 0⇒ Das arithmetische Mittel konvergiert gegen den Erwartungswert.Dies funktioniert nicht bei der Cauchy-Verteilung!

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 35 / 65

Page 272: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Beispiel: Normalverteilung

0 2000 4000 6000 8000 10000

−0.

4−

0.2

0.0

0.2

0.4

n

Arit

hmet

isch

es M

ittel

Arithmetisches Mittel fur 10000 standardnormalverteilte ZV

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 36 / 65

Page 273: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Beispiel: Cauchyverteilung

0 2000 4000 6000 8000 10000

−8

−6

−4

−2

02

4

n

Arit

hmet

isch

es M

ittel

Arithmetisches Mittel fur 10000 cauchyverteilte ZV

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 37 / 65

Page 274: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

8.5 Der Transformationssatz fur Dichten

Sei X eine stetige Zufallsvariable mit Dichte fX (x). Betrachte nun dieZufallsvariable Y = g(X ), wobei z.B. Y = exp(X ),Y = X 2, . . .Frage: Wie lautet die Dichte fY (y) von Y ?Fur eine streng monotone und differenzierbare Funktion g gilt derTransformationssatz fur Dichten:

fY (y) = fX (g−1(y)) ·∣∣∣∣dg−1(y)

dy

∣∣∣∣︸ ︷︷ ︸g−1′(y)

Beweis uber die Verteilungsfunktion FY (y) von Y in der Vorlesung.

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 38 / 65

Page 275: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Beispiel: Das Quadrat einer Standardnormalverteilung

Wie lautet die Dichte von Y = X 2, falls X ∼ N (0, 1)?Betrachte zunachst Z = |X |. Z hat offensichtlich die Dichte

f (z) =2√2π

exp(− 1

2z2) fur z > 0 und 0 sonst

Nun ist X 2 = Y = Z 2 = g(Z ) und g monoton wachsend auf demWertebereich R+. Es ergibt sich (y = z2 ⇔ z =

√y)

f (y) =1√2π

y−12 · exp(− 1

2y)

Dies entspricht der Dichte einer G(0.5, 0.5), also einer χ2-Verteilung mit1 Freiheitsgrad: Y = X 2 ∼ χ2

1

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 39 / 65

Page 276: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Beispiel: Erzeugung exponentialverteilter Zufallsvariablen

Betrachte X ∼ U [0, 1] und Y = − log(X ), also g(x) = − log(X ). DieUmkehrfunktion und deren Ableitung lauten:

g−1(y) = exp(−y)dg−1(y)

dy= − exp(−y)

Durch Anwendung des Transformationssatzes fur Dichten erhalt man:

fY (y) = 1 · |− exp(−y)| = exp(−y)

Es gilt: Y ∼ E(λ = 1)! Dies ist also eine einfache Art, exponentialverteilteZufallsvariablen zu erzeugen!Allgemeiner liefert Y = − 1

λ log(x) Zufallszahlen aus einer Exponential-

verteilung mit Parameter λ : Y ∼ E(λ)

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 40 / 65

Page 277: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Die Inversions-Methode

Allgemeiner kann man die Inversions-Methode zur Erzeugung vonZufallszahlen aus einer beliebigen stetigen Verteilung mit Verteilungs-funktion F (x) verwenden:

Erzeuge stetig gleichverteilte Zufallsvariablen U1, . . . ,Un auf demIntervall [0, 1].

Dann sindXi = F−1(Ui ), i = 1, . . . , n

Zufallszahlen aus der gewunschten Verteilung.

Beweis: Die Dichte von Xi ergibt sich zu:

fX (x) = fU(F (x))︸ ︷︷ ︸=1

·F ′(x)︸ ︷︷ ︸f (x)

= f (x)

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 41 / 65

Page 278: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Beispiel: Zufallszahlen aus der Cauchy-Verteilung

Dichte- und Verteilungsfunktion der Cauchy-Verteilung sind:

f (x) =1

π· 1

1 + x2und F (x) =

1

2+

arctan(x)

π

Die inverse Verteilungsfunktion ist somit:

F−1(y) = tan

(y − 1

2

)]Zufallszahlen aus der Cauchy-Verteilung lassen sich also leicht erzeugen,indem man U1, . . . ,Un aus ∼ U [0, 1] erzeugt und tan

[π(Ui − 1

2

)]berechnet.

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 42 / 65

Page 279: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

8.6 Der zentrale Grenzwertsatz

Aussage, dass - unter Regularitatsbedingungen - das arithmetischeMittel, geeignet standardisiert,von beliebigen unabhangig und identisch verteilten Zufallsvariablengegen die Standardnormalverteilung konvergiert.

Begrundet die zentrale Rolle der Normalverteilung in der Stochastik.

Zunachst mussen wir noch standardisierte Zufallsvariablen definieren.

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 43 / 65

Page 280: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Standardisierte Zufallsvariablen

Jede Zufallsvariable X mit endlichem Erwartungswert µ = E(X ) undendlicher Varianz σ2 = Var(X ) kann man derart linear transformieren,dass sie Erwartungswert 0 und Varianz 1 besitzt:

X =X − µσ

Dann gilt:

E(X ) =1

σ(E(X )− µ) = 0

Var(X ) =1

σ2Var(X ) = 1

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 44 / 65

Page 281: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Standardisierung von Summen von iid ZVn

Betrachte iid Zufallsvariablen X1,X2, . . . ,Xn mit endlichem Erwartungs-wert µ = E(Xi ) und endlicher Varianz σ2 = Var(Xi ).Fur die Summe Yn = X1 + X2 + . . .+ Xn gilt offensichtlich:

E(Yn) = n · µVar(Yn) = n · σ2

Fur die standardisierte Summe

Zn =Yn − nµ√

n · σ =1√n

n∑i=1

Xi − µσ

gilt somit E(Zn) = 0 und Var(Zn) = 1.

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 45 / 65

Page 282: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Der zentrale Grenzwertsatz (ZGWS)

Die Verteilungsfunktion Fn(z) von Zn konvergiert fur n→∞ an jederStelle z ∈ R gegen die Verteilungsfunktion Φ(z) der Standardnormal-verteilung.

Schreibweise: Fn(z)→ Φ(z) fur n→∞ und alle z ∈ Rbzw. kurz Zn

a∼ N (0, 1) (a = “asymptotisch”)In der Praxis kann man also die Verteilung von Zn fur große n gut durcheine Standardnormalverteilung approximieren.

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 46 / 65

Page 283: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Bemerkungen

der ZGWS gilt sowohl fur stetige als auch fur diskrete ZV Xi

Xi kann beliebig ”schiefe” Verteilungen haben, z.B.

Xi ∼ E(λ)

Die Standardisierung ist nicht notwendig zur Formulierung desZGWS. Alternativ kann man auch direkt Yn = X1 + . . .+ Xn

betrachten. Dann gilt

Yna∼ N (n · µ, n · σ2)

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 47 / 65

Page 284: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Beispiel: Bernoulliverteilung

Seien Xi ∼ B(π), i = 1, . . . , n und unabhangig.Dann ist Yn =

∑ni=1 Xi ∼ B(n, π) und asymptotisch gilt:

Yn − n · π√n · π(1− π)

a∼ N (0, 1)

bzw.Yn

a∼ N (n · π, n · π(1− π))

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 48 / 65

Page 285: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

8.7 Die gemeinsame Verteilung zweier stetiger ZVn

Die gemeinsame Verteilungsfunktion zweier stetiger Zufallsvariablen Xund Y ist die Funktion

F (x , y) = P(X ≤ x und Y ≤ y)

Alternativ kann man die gemeinsame Verteilung von X und Y auch uberderen gemeinsame Dichtefunktion f (x , y) definieren, wobei

F (x , y) =

∫ y

v=−∞

∫ x

u=−∞f (u, v) du dv

fur alle x , y ∈ R gelten muss.

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 49 / 65

Page 286: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Eigenschaften

Fur f (x , y) stetig gilt:d2F (x , y)

dx dy= f (x , y)

f (x , y) ist normiert: ∫ +∞

−∞

∫ +∞

−∞f (x , y) dx dy = 1

Bemerkung: Manchmal schreiben wir explizit FX ,Y fur F und fX ,Y fur f .

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 50 / 65

Page 287: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Randverteilung und Erwartungswert einer Funktion

Die Dichten der Randverteilungen sind gegeben durch:

fX (x) =

∫ +∞

−∞f (x , y) dy

bzw. fY (y) =

∫ +∞

−∞f (x , y) dx

Sei g : R2 → R eine reellwertige Funktion, so ist

E(g(X ,Y )) =

∫ +∞

−∞

∫ +∞

−∞g(x , y) · f (x , y) dx dy

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 51 / 65

Page 288: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Unabhangigkeit

X ,Y heißen unabhangig, genau dann, wenn

FX ,Y (x , y) = FX (x) FY (y)

bzw. fX ,Y (x , y) = fX (x) fY (y) ∀x , y ∈ R

Allgemeiner gilt:

X1,X2, . . . ,Xn sind genau dann unabhangig, wenn gilt:

f (x1, x2, . . . , xn) = f (x1) · f (x2) · . . . · f (xn)

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 52 / 65

Page 289: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Kovarianz und Korrelation

Man definiert analog zum diskreten Fall:

die Kovarianz Cov(X ,Y ) = E[(X − EX )(Y − EY )]

die Korrelation ρ(X ,Y ) = Cov(X ,Y )√Var(X )

√Var(Y )

Es gilt wieder der Verschiebungssatz fur die Kovarianz:

Cov(X ,Y ) = E(XY )− E(X ) · E(Y )

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 53 / 65

Page 290: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Beispiel

Betrachte

fX ,Y (x , y) =

1x fur 0 ≤ y ≤ x ≤ 1

0 sonst

Die Randverteilungen von X und Y ergeben sich zu

fX (x) =

∫ x

0

1

xdy = 1 fur 0 ≤ x ≤ 1

fY (y) =

∫ 1

y

1

xdx = log (1/y) fur 0 ≤ y ≤ 1

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 54 / 65

Page 291: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Beispiel

Man uberpruft leicht, dass∫ 1

0 f (x) dx = 1 und∫ 1

0 f (y) dy = 1 und daher∫ ∫f (x , y) dy dx = 1

Die Korrelation zwischen X und Y ergibt sich zu ρ(X ,Y ) ≈ 0.65 .

(Details in Vorlesung)

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 55 / 65

Page 292: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Die bivariate Standardnormalverteilung

Die bivariate (“zweidimensionale”) Standardnormalverteilung mitParameter ρ (|ρ| < 1) hat die Dichtefunktion

f (x , y) =1

2π√

1− ρ2exp

(− 1

2 (1− ρ2)(x2 − 2ρxy + y 2)

)

Die Randverteilungen von X und Y sind (fur jedes ρ)standard-normalverteilt.

Die Korrelation zwischen X und Y ist gleich ρ.

Aus Unkorreliertheit von X und Y folgt hier auch die Unabhangigkeitvon X und Y .

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 56 / 65

Page 293: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Hohenlinien der bivariaten Standardnormalverteilung

x

y

0.02

0.04

0.06

0.08

0.1

0.12

0.14

−3 −2 −1 0 1 2 3

−3

−2

−1

01

23

xy

0.02

0.04

0.06

0.08

0.1

0.12

0.14

0.16

0.18

0.2

0.22

−3 −2 −1 0 1 2 3

−3

−2

−1

01

23

x

y

0.02

0.04

0.06

0.08

0.1

0.12

0.14

0.16

0.18

−3 −2 −1 0 1 2 3

−3

−2

−1

01

23

Hohenlinien der Dichtefunktion der bivariaten Standardnormalverteilungmit jeweils 500 Stichproben fur ρ = 0 (links), ρ = 0.7 (Mitte) und

ρ = −0.5 (rechts)

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 57 / 65

Page 294: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Die bivariate Normalverteilung

Die allgemeine bivariate Normalverteilung erhalt man durch die linearenTransformationen einer bivariaten Standardnormalverteilung:

X → µX + σX · XY → µY + σY · Y

Insgesamt funf Parameter: µX , µY , σ2X , σ

2Y , ρ

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 58 / 65

Page 295: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

8.8 Bedingte Verteilungen

Betrachte die Zufallsvariablen X und Y mit gemeinsamer DichtefX ,Y (x , y). Wir interessieren uns fur die bedingte Verteilung vonX gegeben Y = y .

Problem: Es gilt P(Y = y) = 0 fur alle y . Daher ist

P(X ≤ x |Y = y) =P(X ≤ x und Y = y)

P(Y = y)

nicht definiert.

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 59 / 65

Page 296: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Bedingte Verteilungs- und Dichtefunktion

Man geht nun anders vor und betrachtet

P(X ≤ x |y ≤ Y ≤ y + dy)

=P(X ≤ x und y ≤ Y ≤ y + dy)

P(y ≤ Y ≤ y + dy)

≈∫ x−∞ fX ,Y (u, y) dy du

fY (y) dy

=

∫ x

−∞

fX ,Y (u, y)

fY (y)︸ ︷︷ ︸(∗)

du

(∗) Dichtefunktion der bedingten Verteilung von X geg. Y = y

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 60 / 65

Page 297: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Bedingte Verteilungs- und Dichtefunktion II

Man definiert nun:

Die bedingte Verteilungsfunktion von X , gegeben Y = y ist

FX |Y (x |y) =

∫ x

−∞

fX ,Y (u, y)

fY (y)du

fur alle y mit fY (y) > 0. Die bedingte Dichte von X , gegeben Y = yist somit

fX |Y (x |y) =fX ,Y (x , y)

fY (y)

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 61 / 65

Page 298: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Beispiel

Betrachten wir wieder die Zufallsvariablen X und Y mit gemeinsamerDichte

fX ,Y (x , y) =

1x fur 0 ≤ y ≤ x ≤ 1

0 sonst

Fur die bedingten Dichten von Y , gegeben X = x ergibt sich:

fY |X (y |x) =

1x fur 0 ≤ y ≤ x

0 sonst

d.h. Y |X = x ist gleichverteilt auf [0, x ].

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 62 / 65

Page 299: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Beispiel II

Fur die bedingten Dichten von X , gegeben Y = y ergibt sich:

fX |Y (x |y) =1x

log( 1y )

fur y ≤ x ≤ 1

=

−1/(x log(y)) fur y ≤ x ≤ 1

0 sonst

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 63 / 65

Page 300: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Simulation uber bedingte Verteilungen

Bedingte Verteilungen sind sehr nutzlich zum Simulieren aus gemeinsamenVerteilungen. Wegen

fX ,Y (x , y) = fX |Y (x |y) · fY (y) (1)

kann man zunachst eine Zufallsvariable Y = y aus der RandverteilungfY (y) ziehen, und dann bedingt auf Y = y eine Zufallszahl aus derbedingten Verteilung fX |Y (x |y) ziehen. Oder andersherum:

fX ,Y (x , y) = fY |X (y |x) · fX (x) (2)

Im Beispiel ist Version (2) einfacher zu implementieren.

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 64 / 65

Page 301: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Beispiel: Standardnormalverteilung

Angenommen X und Y sind bivariat standardnormalverteilt. Dann ist

fX |Y (x |y) =

12π

1√1−ρ2

exp(−1

21

(1−ρ2)(x2 − 2ρxy + y 2)

)1√2π

exp(−1

2 y 2)

=1√2π

1√1− ρ2

exp

(−1

2

(x − ρy)2

(1− ρ2)

)also X |Y = y ∼ N(ρ · y , 1− ρ2)

Analog erhalt man Y |X = x ∼ N(ρ · x , 1− ρ2)→ Simulation aus der bivariaten Standardnormalverteilung

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 65 / 65

Page 302: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

9. Elemente Statistischer Inferenz II

Uberblick

Likelihood-Inferenz fur stetige Zufallsvariablen

Tests auf Modellanpassung (“goodness of fit tests”)

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 1 / 25

Page 303: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

9.1 Likelihood-Inferenz fur stetige ZVn

Likelihood-Inferenz lasst sich analog zu diskreten Zufallsvariablen auch beistetigen Zufallsvariablen anwenden.Beispiel:

X1,X2, . . . ,Xn seien unabhangige Beobachtungen aus einer E(λ)-Vertei-lung. Wie lautet der ML-Schatzer von θ = λ und dessen Standardfehler?Fur x =

∑ni=1

xin ergibt sich (Herleitung in Vorlesung):

λML = 1/x

SE (λML) = 1/(√

n x) = λML/√

n

→ 95% Wald-Intervall fur λ: 1/x ± 1.96 · 1/(√

n x)

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 2 / 25

Page 304: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Wie gut ist die Approximation?

Dazu wird eine Simulationsstudie mit wahrem Wert θ = λ undvariierendem n durchgefuhrt:

Berechnung von m Konfidenzintervallen, jeweils basierend auf nexponentialverteilten Zufallsvariablen

Berechnung der empirischen Verteilung des ML-Schatzers und derUberdeckungshaufigkeit (Anteil der Konfidenzintervalle, die denwahren Wert beinhalten)

Woher kommt die offensichtlich sehr gute Approximation?

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 3 / 25

Page 305: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Asymptotische Eigenschaften des ML-Schatzers

Man kann zeigen, dass (unter Regularitatsbedingungen) asymptotisch(fur großen Stichprobenumfang) gilt:

θMLa∼ N (µ = θ, σ2 = SE (θML)2)

Nach Standardisierung erhalt man:

θML =θML − θSE (θML)

a∼ N (0, 1)

D.h., der ML-Schatzer ist asymptotisch unverzerrt und normalverteiltmit Standardabweichung gleich dem Standardfehler.

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 4 / 25

Page 306: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Motivation von Wald-Intervallen

Sei xα = Φ−1(α) das α-Quantil der Standardnormalverteilung. Dann giltmit einer Wahrscheinlichkeit von β = 1− α, dass θML asymptotisch imIntervall [xα/2, x1−α/2] ist.Beachte: Wegen der Symmetrie der Normalverteilung ist xα/2 = −x1−α/2Nun kann der Faktor d in der Formel

θML ± d · SE (θML)

fur Wald-Intervalle von θ zum Niveau β (vgl. Abschnitt 6.1) motiviertwerden. Es gilt d = x1−α/2.

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 5 / 25

Page 307: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Mehr zur Asymptotik des ML-Schatzers

Betrachte wieder exemplarisch die unabhangigen X1,X2, . . . ,Xn auseiner E(λ)-Verteilung. Es gilt:

µ = E(Xi ) = 1/λ

Var(Xi ) = 1/λ2

Wir wollen nun µ = 1/λ durch Maximum Likelihood schatzen. Es ergibtsich:

µML = x (wegen Invarianzeigenschaft)

SE (µML) = x/√

n = µML/√

n (ohne Beweis)

→ 95% Wald-Intervall fur µ: x ± 1.96 · x/√n

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 6 / 25

Page 308: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Der ML-Schatzer als Zufallsvariable

Betrachte X = 1n

∑Xi mit unabhangigen Xi ∼ E(λ). Es folgt:

E(X ) = µ

Var(X ) = µ2/n = (µ/√

n)2

d.h. der ML-Schatzer X ist erwartungstreu mit Standardabweichung µ/√

n.Daher gilt wegen dem zentralen Grenzwertsatz (ZGWS):

Xa∼ N (µ, σ2 = µ2/n)

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 7 / 25

Page 309: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Konfidenzintervall basierend auf dem ZGWS

Ein 95%-Konfidenzintervall fur µ basierend auf dem ZGWS ist daher

x ± 1.96 · µ/√n

Problem:

µ ist unbekannt und deshalb verwendet man eine “plug-in”-Schatzung vonµ durch µML = x . Damit erhalt man:

x ± 1.96 · x/√n

Dieses Intervall ist identisch zu dem Wald-Intervall, welches auf demStandardfehler basiert!

Also: Der Standardfehler ist ein empirischer Schatzer der Standard-abweichung des ML-Schatzers.

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 8 / 25

Page 310: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Bemerkungen

exakte Analogie funktioniert nicht immer:

z.B. fur λML = 1/x mit SE (λML) = λML/√

n gilt (ohne Beweis):

E(1/X ) = λ · n

n − 1

Var(1/X ) =λ2

(n − 2)· n2

(n − 1)2

die Analogie gilt aber zumindest asymptotisch!

in folgenden Beispielen gilt die Analogie exakt:

I Binomialexperiment: πML = x

I ML-Schatzung des Parameters q im Hardy-Weinberg-Gleichgewicht(wird in den nachsten Folien skizziert)

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 9 / 25

Page 311: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

ML-Inferenz im H-W-Gleichgewicht

Angenommen wir beobachten x = (x1, x2, x3) = (600, 320, 80) bein = 1000.Ziel:

ML-Schatzung des Parameters q = π1 + π2/2 unter Annahme einerTrinomialverteilung mit Wahrscheinlichkeiten π1 = q2, π2 = 2q(1− q) undπ3 = (1− q)2 (H-W-Gleichgewicht)Wir wissen:

Die ML-Schatzer von π1 und π2 sind π1 = x1/n und π2 = x2/n. Wegender Invarianzeigenschaft gilt:

qML =x1 + x2/2

n

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 10 / 25

Page 312: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

ML-Inferenz im H-W-Gleichgewicht II

Man kann zeigen, dass die zugehorige Zufallsvariable X1+X2/2n die

Varianz 12 q (1− q) hat.

Andererseits kann gezeigt werden, dass der Standardfehler von qML

folgenden Wert hat:

SE (qML) =

√1

2qML (1− qML)

Auch hier erhalt man den Standardfehler durch “plug-in” des ML-Schatzersin die Formel fur die Varianz des ML-Schatzers.

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 11 / 25

Page 313: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

ML-Inferenz im H-W-Gleichgewicht III

Fur die Daten x = (x1, x2, x3) = (600, 320, 80) und n = 1000 gilt also:

qML =600 + 320/2

1000= 0.76

Daraus lassen sich die erwarteten Anzahlen berechnen:

E = n · (q2ML, 2qML(1− qML), (1− qML)2) = (577.6, 364.8, 57.6)

Frage: Ist der Unterschied zwischen erwarteten und beobachtetenAnzahlen “zufallig” oder deutet er darauf hin, dass die Po-pulation nicht im H-W-Gleichgewicht ist?

Diese Frage wird in Abschnitt 9.2 beantwortet.

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 12 / 25

Page 314: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Wiederholung: Quadrat einer Standardnormalverteilung

Wie lautet die Dichte von Y = X 2, falls X ∼ N (0, 1)?Es wurde berechnet, dass

f (y) =1√2π

y−12 · exp(− 1

2y)

Dies entspricht der Dichte einer G(.5, .5), also einer χ2-Verteilung mit 1Freiheitsgrad: Y = X 2 ∼ χ2

1

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 13 / 25

Page 315: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Motivation von Likelihood-Intervallen

Betrachte die Taylor-Approximation der Log-Likelihood:

l(θ) ≈ l(θML)− 1

2

(θML − θ)2

SE (θML)2= l(θML)− 1

2θ2ML

Wegen θMLa∼ N (0, 1) folgt:

2 logL(θML)

L(θ)= −2l(θ)

a∼ χ21

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 14 / 25

Page 316: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Motivation von Likelihood-Intervallen II

Die kritischen Werte c in den Formeln zur Berechnung von Likelihood-Intervallen

θ : l(θ) ≥ cbzw. θ : L(θ) ≥ exp(c)

ergeben sich einfach durch Transformation der entsprechenden Quantilexα = F−1(α) der χ2

1-Verteilung:

c = − x1−α2

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 15 / 25

Page 317: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

9.2 Modellanpassung

Haufig ist es von Interesse die Anpassung eines bestimmten stochastischenModells an vorliegende Daten zu studieren. Dies ist insbesondere beikategorialen Daten der Fall.Beispiele:

1. Ist eine Population im Hardy-Weinberg-Gleichgewicht?

Untersuche N Individuen und berechne die empirischen Haufigkeitender Genotypen aa, ab, bb. Die beobachtete Genotypverteilung ist z.B.x = (600, 320, 80).

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 16 / 25

Page 318: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Fortsetzung der Beispiele

2. Sind zwei Variablen unabhangig?

Hier wird untersucht, ob es eine Abhangigkeit zwischen Geschlechtund Promotionsinteresse gibt. Die vorliegenden Daten sind:

InteresseJa Nein

5 12 17 6 5 11

11 17 28

3. Im 19. Jahrhundert wurden in Sachsen Daten zur Haufigkeit vonmannlichen Nachkommen bei 6115 Familien mit jeweils (!) 12Kindern erhoben:

# Jungen 0 1 2 3 4 5 6 7 8 9 10 11 12# Familien 3 24 104 286 670 1033 1343 1112 829 478 181 45 7

Folgt die Verteilung einer Binomialverteilung?

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 17 / 25

Page 319: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Das saturierte Modell

In allen drei Beispielen mochte man ein bestimmtes Modell (“Null-Modell”,“Null-Hypothese”) mit dem allgemeinen Modell (“saturiertes” Modell) unterder Annahme einer Multinomialverteilung Mp(n, π) vergleichen.

Beispiel Null-Modell Anzahl der Anzahl derParameter p Kategorien K

1 Population ist im H-W Gleichgewicht 1 32 Variablen sind unabhangig 2 43 Daten sind binomial verteilt 1 13

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 18 / 25

Page 320: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Test auf Modellanpassung

Zum statistischen Testen der “Null-Hypothese” (H0) geht man nachfolgendem Schema vor:

ML-Schatzung der unbekannten Parameter im Null-Modell

Beispiel 1: q =600+ 320

21000 = 0.76

Beispiel 2: π = 1728

πInteresse = 1128

Beispiel 3: π = 0·3+1·24+ ...+12·76115·12 = 0.519215

Berechnung der erwarteten Anzahl Ei an Fallen in Kategorie i unterAnnahme des Null-Modells

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 19 / 25

Page 321: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Test auf Modellanpassung IIBerechnung des Pearsonschen χ2-Maßes

χ2 =K∑

i=1

r2i =

K∑i=1

(Xi − Ei )2

Ei

als Gesamtmaß fur die Abweichung, wobei Xi die tatsachlichbeobachteten Anzahlen in Kategorie i sind

Unter der Annahme, dass H0 wahr ist, hat χ2 eine (asymptotische)χ2-Verteilung mit k = K − 1− p Freiheitsgraden (mit K Anzahl derKategorien und p Anzahl der Modellparameter).

Ermittelung des p-Wertes:

Wahrscheinlichkeit unter H0 ein solches oder noch extremeresResultat zu beobachten.

→ Berechnung uber Quantile der χ2-Verteilung mit k Freiheitsgraden

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 20 / 25

Page 322: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Bemerkungen

Die χ2-Verteilung gilt nur asymptotisch (fur n→∞).

Faustregel: Es muss gelten, dass alle Ei > 1 und mindestens80% der Ei > 5 sind.

Alternativ bietet sich auch die Berechnung der Devianz D an:

D = 2 ·K∑

i=1

Xi log

(Xi

Ei

)

Diese besitzt unter H0 die gleiche Verteilung wie χ2.

Unter H0 sind die χ2-Residuen ri approximativ und asymptotischstandardnormalverteilt, d.h. Residuen mit |ri | > 2 deuten aufschlechte Modellanpassung hin.

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 21 / 25

Page 323: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Berechnung der erwarteten Anzahlen in Beispiel 1

Unter Annahme des Hardy-Weinberg-Gleichgewichts erhalt man:

π1 = q2 = 0.5776

π2 = 2q(1− q) = 0.3648

π3 = (1− q)2 = 0.0576

Daher ergeben sich als erwartete Anzahlen bei n = 1000 Individuen:

E1 = n · π1 = 577.6

E2 = n · π2 = 364.8

E3 = n · π3 = 57.6

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 22 / 25

Page 324: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Berechnung der erwarteten Anzahlen in Beispiel 2

Unter Unabhangigkeit gilt z.B. fur den Eintrag(, Promotionsinteresse = Ja):

π1 = π · πInteresse =17

28· 11

28

Fur die erwartete Anzahl folgt:

E1 = n · π1 = 28 · 17

28· 11

28=

17 · 11

28≈ 6.68

Die Werte der anderen Falle erhalt man analog (erwartete Anzahl inKlammern): Ja Nein

5 (6.68) 12 (10.32) 17 6 (4.32) 5 (6.68) 11

11 17 28

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 23 / 25

Page 325: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Berechnung der erwarteten Anzahlen in Beispiel 3

Hier ergeben sich unter Verwendung der Wahrscheinlichkeit

P(X = x) mit x = 0, . . . , 12

bei Vorliegen einer Binomialverteilung mit n = 12 und π = 0.519215folgende erwartete Haufigkeiten:

Ei = P(X = i) · 6115

Tabelle mit beobachteten und erwarteten Anzahlen:

0 1 2 3 . . . 11 12

Xi 3 24 104 286 . . . 45 7

Ei 0.9 12.1 71.8 258.5 . . . 26.1 2.3

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 24 / 25

Page 326: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Vergleich von χ2 und Devianz in den 3 Beispielen

Bsp. χ2 K p k p-Wert D p-Wert

1 15,08 3 1 1 0,0001 14,36 0,00015

2 1,769 4 2 1 0,18 1,765 0,18

3 110,5 13 1 11 0 97,0 6, 66 · 10−16

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 25 / 25

Page 327: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

10. Lineare Regression

0.0 0.2 0.4 0.6 0.8 1.0

3.0

3.5

4.0

4.5

x

y

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 1 / 30

Page 328: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

KQ-Schatzung

Es ist eine Gerade y = β1 + β2x gesucht, welche die Punktwolke in derAbbildung ‘bestmoglichst’ approximiert.Dazu betrachten wir eine bivariate Zufallsvariable (Y ,X ) mitBeobachtungen (yi , xi ), i = 1, . . . , n und definieren den Schatzer fur dieParameter der Gerade als

(β1, β2) = argminβ1,β2

n∑i=1

(yi − β1 − β2xi )2.

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 2 / 30

Page 329: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

KQ-Schatzung

Dieser Schatzer (β1, β2) heißt (aus offensichtlichen Grunden)Kleinster-Quadrate-Schatzer und reprasentiert diejenige Gerade durch diePunktwolke, welche den quadratischen vertikalen Abstand jederBeobachtung zur Geraden minimiert. Andere Kriterien sind denkbar, wieetwa

(β1, β2) = argminβ1,β2

n∑i=1

|yi − β1 − β2xi |.

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 3 / 30

Page 330: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Zielgroße

Y =

Y1

Y2...

Yn

∈ Rn

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 4 / 30

Page 331: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Einflussgroßen

X j =

X j

1

X j2

...

X jn

, j = 1, . . . , k

welche wir in einer Matrix X = (X 1,X 2, . . . ,X k) ∈ Rn,k aggregieren.

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 5 / 30

Page 332: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Modellparameter

Die Parameter der Geraden (k = 1) bzw. Hyperebenen (k > 2) sind durch

β =

β1

β2...βk

∈ Rk

gegeben und wir betrachten das Modell Y = Xβ.Gesucht ist nach dem Kriterium der Kleinsten Quadrate ein Schatzer β,sodass ||Y − Xβ||2 ≤ ||Y − Xβ||2∀β ∈ Rk .

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 6 / 30

Page 333: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

KQ-Schatzung

Sei der Rang von X gleich k. Dann gilt:

β = argminβ||Y − Xβ|| = (X>X)−1X>Y

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 7 / 30

Page 334: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

KQ-Schatzung

0.2 0.4 0.6 0.8

3.0

3.5

4.0

4.5

x

y

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 8 / 30

Page 335: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Das Lineare Regressionsmodell

Das ModellY = Xβ + U

heißt lineares Regressionsmodell. Dabei ist

U =

U1

U2...

Un

∈ Rn

ein n-dimensionaler Zufallsvektor.

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 9 / 30

Page 336: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Eigenschaften

gegeben sind mehrere stetige Merkmale Y ,X 1, . . . ,X k

X 1, . . . ,X k verursachen Y und nicht umgekehrt

der Zusammenhang ist linear, also Yi =∑k

j=1 βjXji + Ui

die X -Variablen heißen unabhangige Variable, Regressoren, exogeneVariable oder Design-Variable

die Y -Variable heißt abhangige Variable, Regressant, endogeneVariable oder Response-Variable

U sind nicht beobachtbare Storgroßen.

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 10 / 30

Page 337: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Annahmen

Zudem treffen wir drei Annahmen:A1) X ist eine feste (nicht zufallige) n × k Matrix mit vollem Spaltenrang,also Rang(X) = k.A2) U ist ein Zufallsvektor mit E (U) = (E (U1),E (U2), . . . ,E (Un))> = 0.A3) Die Komponenten von U sind paarweise unkorreliert und haben alledie gleiche Varianz σ2, formal: Cov(U) = σ2diag(n).

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 11 / 30

Page 338: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Korperfettmessung

Garcia et al. (2005, Obesity Research) untersuchten n = 71 Frauen underhoben (unter anderem) k = 5 Einflussgroßen (Alter, Bauchumfang,Huftumfang, Ellenbogenbreite und Kniebreite), um deren Einfluss auf dieZielgroße, den Korperfettanteil gemessen mittels Dual Energy X-RayAbsorptiometry (DXA), zu untersuchen.Es stellen sich folgende Fragen: Welche der unabhangigen Variablen habentatsachlich einen Einfluss auf den Korperfettanteil? Welche haben einenpositiven und welche einen negativen Einfluss? Kann man aus denunabhangigen Variablen auf den Korperfettanteil schließen? Diese Fragenkonnen mittels eines linearen Regressionsmodells beantwortet werden.

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 12 / 30

Page 339: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Korperfettmessung

1020

3040

5060

DE

Xfa

t

20 30 40 50 60

1020

3040

5060

age

DE

Xfa

t

70 80 90 100 110

1020

3040

5060

waistcircD

EX

fat

90 100 110 120 130

1020

3040

5060

hipcirc

DE

Xfa

t

5.5 6.0 6.5 7.0

1020

3040

5060

elbowbreadth

DE

Xfa

t

8 9 10 11

1020

3040

5060

kneebreadthD

EX

fat

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 13 / 30

Page 340: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Schatzung in R

> bodyfat_lm <- lm(DEXfat ~ age + waistcirc + hipcirc +

+ elbowbreadth + kneebreadth, data = bodyfat)

> round(coef(bodyfat_lm), 4)

(Intercept) age waistcirc hipcirc elbowbreadth-59.5732 0.0638 0.3204 0.4340 -0.3012

kneebreadth1.6538

was aquivalent (aber numerisch stabiler ist) zu

> X <- bodyfat[,c("age", "waistcirc", "hipcirc",

+ "elbowbreadth", "kneebreadth")]

> X <- cbind(1, as.matrix(X))

> Y <- bodyfat$DEXfat

> round(drop(tcrossprod(solve(crossprod(X, X)), X) %*% Y), 4)

age waistcirc hipcirc elbowbreadth-59.5732 0.0638 0.3204 0.4340 -0.3012

kneebreadth1.6538

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 14 / 30

Page 341: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Eigenschaften der KQ-Methode

Unter A1, A2 und A3 ist β ein erwartungstreuer Schatzer fur β mitKovarianzmatrix Cov(β) = σ2(X>X)−1.Sei Y ∈ Rn ein beliebiger Zufallsvektor mit E (Y ) = (E (Y1), . . . ,E (Yn))>

und

Cov(Y ) =

Var(Y1) Cov(Y1,Y2)

Cov(Y2,Y1) Var(Y2) Cov(Y2,Y3)...

. . .. . .

Var(Yn)

mit Cov(Y ) = Cov(Y )> = E ((Y − E (Y ))(Y − E (Y ))>).

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 15 / 30

Page 342: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Eigenschaften der KQ-Methode

Es gilt

1 Cov(Y ) is positiv semidefinit

2 E (AY ) = AE (Y )

3 Cov(AY ) = ACov(Y )A>

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 16 / 30

Page 343: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Lineare Funktionen

Unter Umstanden sind wir an Linearkombinationen des Parametervektorsβ interessiert (welche auch ‘Kontraste’ genannt werden). Sei c ∈ Rk einVektor von Konstanten. Dann ist c>β eine erwartungstreue Schatzung vonc>β mit Kovarianzmatrix σ2c>(X>X)−1c.

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 17 / 30

Page 344: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Optimalitat der KQ-Methode

Ein Schatzer β heißt linear, wenn eine Matrix C ∈ Rk,n existiert, sodassβ = CY .Gauß-Markov-Theorem:Unter A1-A3 gilt:

1 β ist der beste lineare erwartungstreue Schatzer (BLUE) fur β, d.h.Cov(β) ≤ Cov(β) im Sinne der Lowner-Halbordnung (d.h.Cov(β)− Cov(β) psd).

2 BLUE ist eindeutig.

Desweiteren: Unter A1-A3 ist c>β der BLUE fur c>β.

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 18 / 30

Page 345: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Prognose mit KQ

Gegeben sei Y und X 1, . . . ,X k mit Beobachtungen(yi , xi = (x1

i , . . . , xki )), i = 1, . . . , n sowie xn+1. Gesucht sei yn+1. Bekannt

ist, dass Yn+1 = x>n+1β + Un+1. Da die Storgroßen U nicht beobachtbarsind, jedoch per Annahme einen Erwartungswert gleich 0 haben, schatzenwir Yn+1 = x>n+1β.

Es gilt: Unter A1-A3 ist E (Yn+1 − Yn+1) = 0.

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 19 / 30

Page 346: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Korperfettmessung

Fur die 45jahrige Emma mit Baumumfang 90cm, Huftumfang 110cm,Ellenbogenbreite 7cm und Kniebreite 10cm ist der vorhergesagteKorperfettanteil

> emma <- c(intercept = 1, age = 45, waistcirn = 90,

+ hipcirc = 110, ellbowbreadth = 7,

+ kneebreadth = 10)

> emma %*% coef(bodyfat_lm)

[,1][1,] 34.30292

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 20 / 30

Page 347: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Schatzung von Varianz und Kovarianz

Es fehlen noch Schatzer fur σ2 und Cov(β). Dazu betrachten wir dieResiduen

U = Y − Xβ

als Ersatz fur die nicht beobachtbaren Storgroßen U.

1 U = MY = MU mit M = diag(n)−H, wobei die sogenannteHat-Matrix H gegeben ist durch H = X(X>X)−1X> und Y = HY(H setzt dem Y den Hut auf).

2 M ist orthogonaler Projektor mit Rang (gleich Spur) n − k.

Unter A1-A3 gilt

σ2 =U>U

n − k

ist eine erwartungstreue Schatzung fur σ2.

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 21 / 30

Page 348: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Kovarianzschatzung

Damit konnen wir also auch die Kovarianzmatrix Cov(β) schatzen, undzwar als

σ2(X>X)−1.

Desweiteren ist es moglich, die geschatzten Koeffizienten zustandardisieren, um sie miteinander vergleichen zu konnen:

βj

σ√

diag((X>X)−1)

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 22 / 30

Page 349: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

KorperfettmessungHier sind die standardisierten Regressionskoeffizienten gegeben durch

> U <- bodyfat$DEXfat - X %*% coef(bodyfat_lm)

> n <- nrow(bodyfat)

> k <- length(coef(bodyfat_lm))

> sigma2 <- crossprod(U) / (n - k)

> sdbeta <- sqrt(sigma2) * sqrt(diag(solve(crossprod(X))))

> round(coef(bodyfat_lm) / sdbeta, 4)

(Intercept) age waistcirc hipcirc elbowbreadth-7.0471 1.7061 4.3469 4.5365 -0.2474

kneebreadth1.9178

oder einfacher

> round(coef(bodyfat_lm) / sqrt(diag(vcov(bodyfat_lm))), 4)

(Intercept) age waistcirc hipcirc elbowbreadth-7.0471 1.7061 4.3469 4.5365 -0.2474

kneebreadth1.9178

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 23 / 30

Page 350: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Das Lineare Regressionsmodell unter Normalverteilung

Bisher haben wir außer dem Erwartungswert (A2) und der Kovarianzmatrix(A3) nichts uber die Verteilung der Storgroßen U angenommen. In diesemAbschnitt betrachten wir zusatzlich

A4) Ui ∼ N (0, σ2).

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 24 / 30

Page 351: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Eigenschaften der Normalverteilung

Eine n-dimensionale Zufallsvariable Z folgt einer multivariatenNormalverteilung mit Erwartungswertvektor µ ∈ Rn und KovarianzmatrixΣ ∈ Rn,n (symmetrisch und pd), symbolisch

Z ∼ N (µ,Σ).

Es gilt

1 Z ∼ N (µ,Σ)⇒ E(Z ) = µ,Cov(Z ) = Σ und Zi ∼ N (µi ,Σii).

2 Sei A ∈ Rp,n mit Rang gleich p und b ∈ Rp, dannAZ + b ∼ N (Aµ+ b,AΣA>).

3 Die Komponenten von Z sind stochastisch unabhangig ⇐⇒Σ = diag(σ2

ii ).

4 A ∈ Rp,n,B ∈ Rq,n,AΣB> = 0⇒ AZ ,BZ sind stochastischunabhangig.

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 25 / 30

Page 352: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

KQ- und Varianzschatzung

Es gilt

Y = Xβ + U ∼ N (Xβ, σ2diag(n))

β = (X>X)−1X>Y ∼ N (β, σ2(X>X)−1)

Unter A1 - A4 sind β und σ2 stochastisch unabhangig.Unter A1 - A4 ist β die ML-Schatzung fur β.Unter A1 - A4 ist σ2

ML = U>U/n die ML-Schatzung fur σ2.

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 26 / 30

Page 353: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Konfidenzintervalle und Tests fur βWir mochten nun Hypothesen der Form

H0 : d>β = 0 vs. H1 : d>β 6= 0

testen oder Konfidenzintervalle fur den Parameter d>β herleiten. Dabei istd ∈ Rk beliebig.Unter A1 - A4 gilt

d>β − d>β√σ2d>(X>X)−1d

∼ tn−k ,

wobei tn−k die t-Verteilung mit n − k Freiheitsgraden bezeichnet.Damit lautet die Testentscheidung: Lehne H0 ab, wenn

T =|d>β|√

σ2d>(X>X)−1d> tn−k,1−α/2

und ein (1− α)× 100% Konfidenzintervall fur d>β ist

d>β ± tn−k,1−α/2√σ2d>(X>X)−1d .

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 27 / 30

Page 354: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

KorperfettmessungJetzt konnen wir fur jede der Einflussgroßen die Teststatistik ausrechnen,dabei ist d der Einheitsvektor, sodass d>β = βj :

> T <- coef(bodyfat_lm) / sdbeta

> round(T, 4)

(Intercept) age waistcirc-7.0471 1.7061 4.3469hipcirc elbowbreadth kneebreadth4.5365 -0.2474 1.9178

und die zweiseitigen P-Werte aus der t-Verteilung ablesen

> p <- (1 - pt(abs(T), df = nrow(bodyfat) - length(T))) * 2

> round(p, 4)

(Intercept) age waistcirc0.0000 0.0928 0.0000hipcirc elbowbreadth kneebreadth0.0000 0.8054 0.0595

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 28 / 30

Page 355: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Korperfettmessung

> summary(bodyfat_lm)

Call:lm(formula = DEXfat ~ age + waistcirc + hipcirc + elbowbreadth +

kneebreadth, data = bodyfat)

Residuals:Min 1Q Median 3Q Max

-9.1782 -2.4973 0.2089 2.5496 11.6504

Coefficients:Estimate Std. Error t value Pr(>|t|)

(Intercept) -59.57320 8.45359 -7.047 1.43e-09 ***age 0.06381 0.03740 1.706 0.0928 .waistcirc 0.32044 0.07372 4.347 4.96e-05 ***hipcirc 0.43395 0.09566 4.536 2.53e-05 ***elbowbreadth -0.30117 1.21731 -0.247 0.8054kneebreadth 1.65381 0.86235 1.918 0.0595 .---Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 3.988 on 65 degrees of freedomMultiple R-squared: 0.8789, Adjusted R-squared: 0.8696F-statistic: 94.34 on 5 and 65 DF, p-value: < 2.2e-16

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 29 / 30

Page 356: Stochastik und Statistik - biostat.userweb.mwn.debiostat.userweb.mwn.de/vorlesungen/SS12/Stochastik/Stochastik_fuer_In... · Stochastik und Statistik Vorlesung Sommersemester 2012

Korperfettmessung

Und als Abschluss noch die Konfidenzintervalle

> confint(bodyfat_lm)

2.5 % 97.5 %(Intercept) -76.45619185 -42.6902064age -0.01088410 0.1385129waistcirc 0.17321558 0.4676638hipcirc 0.24291126 0.6249985elbowbreadth -2.73231557 2.1299704kneebreadth -0.06842371 3.3760367

Wir sehen also, dass hauptsachlich der Bauch- und Huftumfang informativfur den Korperfettanteil sind.

Esther Herberich und Matthias Schmid () Stochastik und Statistik SS 2012 30 / 30