View
2
Download
0
Category
Preview:
Citation preview
Von Kernkraftwerken zu Space ShuttlesStatistische Methoden in Forschung und Alltag
Johannes Hain
Lehrstuhl für Mathematik VIII – StatistikUniversität Würzburg
01.03.2011
Von Kernkraftwerken zu Space Shuttles Lehrstuhl für Mathematische VIII – Statistik
Das erwartet einen Mathematik-Studenten auf der Uni...
Von Kernkraftwerken zu Space Shuttles Lehrstuhl für Mathematische VIII – Statistik
... oder das hier:
Definition: (Ω,A,P) sei ein Wahrscheinlichkeitsraum und (Ω′,A
′) ein
messbarer Raum. f : Ω→ Ω′
heißt A,A′′
-messbar, falls f−1(A′) ⊆ A, d.h.
falls für alle A′∈ A
′gilt:
f−1(A′) ∈ A.
Satz: Seien (Ω,A), (Ω′,A
′), (Ω
′′,A
′′) messbare Räume und
f : (Ω,A)→ (Ω′,A
′),g : (Ω
′,A
′)→ (Ω
′′,A
′′). Dann gilt:
g f : Ω→ Ω′′
ist A,A′′
-messbar.
Beweis: Sei A′′∈ A
′′, dann:
(g f )−1(A′′
) = f−1(g−1(A′′
)︸ ︷︷ ︸∈A′
) ∈ A.
Von Kernkraftwerken zu Space Shuttles Lehrstuhl für Mathematische VIII – Statistik
Erste Zweifel tun sich auf...
Völlig zurecht stellt man sich während des Studiums dann unteranderem die folgenden Fragen:
Wozu soll ich denn das alles brauchen?
Kann man damit überhaupt irgend etwas anfangen?
Die Antwort lautet: JA!
Von Kernkraftwerken zu Space Shuttles Lehrstuhl für Mathematische VIII – Statistik
Mathematik und Statistik im Alltag
−→ Viele Alltagsphänomene folgen wahrscheinlichkeitstheoretischenGesetzmäßigkeiten und können somit mathematisch untersuchtwerden.
−→ Das Grundprinzip besteht darin, mathematischeWahrscheinlichkeitsmodelle zu erstellen, die den Alltag möglichstgenau erklären.
Hier einige Beispiele:
Gewinnwahrscheinlichkeiten beim Lotto oder anderenGlücksspielen
Börsenkurse
Flutkatastrophen
Krankheitsverläufe
...
Von Kernkraftwerken zu Space Shuttles Lehrstuhl für Mathematische VIII – Statistik
Zwei weitere Beispiele im Detail
Was haben die beiden folgenden Bilder gemeinsam?
Von Kernkraftwerken zu Space Shuttles Lehrstuhl für Mathematische VIII – Statistik
Das Challenger-Unglück 1986
→ Wie konnte es zu diesem Unglück kommen?
Von Kernkraftwerken zu Space Shuttles Lehrstuhl für Mathematische VIII – Statistik
Nach dem Unglück: Ursachenforschung
Nach der Katastrophe soll eine Untersuchungskommission dieUrsache für die Explosion ermitteln.
→ Schnell wird klar: Ein Dichungsring (O-Ring) in einem der beidenFesttreibstoff-Tanks hatte versagt.
Von Kernkraftwerken zu Space Shuttles Lehrstuhl für Mathematische VIII – Statistik
Nach dem Unglück: Ursachenforschung
Der NASA und den Herstellern der O-Ringe lagen bereits Berichte überKomplikationen mit den O-Ringen bei anderen Flügen vor.
Temperaturen bei Flügen mit Komplikationen
Temperatur12°C 14°C 16°C 18°C 20°C 22°C 24°C
⇒ Bei Betrachtung dieser Daten liegt der Schluss nahe, dass eskeinen Zusammenhang zwischen der Temperatur und demO-Ring-Versagen gibt.
Von Kernkraftwerken zu Space Shuttles Lehrstuhl für Mathematische VIII – Statistik
Der fatale Fehler
Es lagen zusätzlich noch weitere Daten von Flügen vor, bei denenkeine Komplikationen mit den O-Ringen auftraten.
→ Um ein Gesamtbild zu erhalten müssen diese Daten ebenfallsberücksichtigt werden.
Temperaturen bei Flügen mit und ohne Komplikationen
Temperatur10°C 15°C 20°C 25°C 30°C
Komplikationenkeine Komplikationen
Von Kernkraftwerken zu Space Shuttles Lehrstuhl für Mathematische VIII – Statistik
Mathematische Modellbildung
Ziel: Beschreibung des Zusammenhangs der Wahrscheinlichkeiteiner Komplikation des O-Rings und der Temperatur.
Definiere hierzu:
Zufallsgröße Z =
0 keine Komplikationen1 mind. ein O-Ring defekt
Außentemperatur X in Celsius.
⇒ Von Interesse ist nun die Komplikationswahrscheinlichkeit bei einergegebenen Außentemperatur x , also
P(Z = 1|X = x).
Von Kernkraftwerken zu Space Shuttles Lehrstuhl für Mathematische VIII – Statistik
Das Logit-Modell
Man entscheidet sich hier für ein sogenanntes Logit-Modell, d.h.
P(Z = 1|X = x) =exp(β0 + β1x)
1 + exp(β0 + β1x),
wobei β0, β1 ∈ R die beiden unbekannten Parameter dieserWahrscheinlichkeitsverteilung sind.
Hat man keinerlei Informationen über das Modell, gilt β0 = β1 = 0 undsomit
P(Z = 1|X = x) = P(Z = 1) =exp(0)
1 + exp(0)=
12
= P(Z = 0).
Von Kernkraftwerken zu Space Shuttles Lehrstuhl für Mathematische VIII – Statistik
Verschiedene Verläufe der logistischen Verteilung
Angenommen, β0 = 7. Dann erhält man für verschiedene Werte von β1
unterschiedliche Verläufe der Wahrscheinlichkeitsverteilung:
Verläufe der Logistischen Wahrscheinlichkeitsverteilung für β0 = 7
Temperatur0°C 10°C 20°C 30°C 40°C
0.0
0.2
0.4
0.6
0.8
1.0
β1 = − 1β1 = − 0.7β1 = − 0.4β1 = − 0.2β1 = − 0.1
Von Kernkraftwerken zu Space Shuttles Lehrstuhl für Mathematische VIII – Statistik
Das Maximum-Likelihood-Verfahren (ML-Verfahren)
Aus den Daten liegen nun 23 Beobachtungen über das Verhalten derO-Ringe zu bestimmten Außentemperaturen vor.
Die Wahrscheinlichkeit für das Eintreffen genau dieser Ereignisse ist dasProdukt der 23 Einzelwahrscheinlichkeiten:
L(β0, β1) =23∏i=1
P(Z = zi |X = xi), zi ∈ 0, 1.
Die Funktion L(β0, β1) ist die Likelihood-Funktion.
Die beiden unbekannten Parameter β0 und β1 sollen jetzt so bestimmtwerden, dass der Wert von L(β0, β1) maximal wird. Dieses Vorgehenbezeichnet man in der Statistik auch als dasMaximum-Likelihood-Prinzip.
Von Kernkraftwerken zu Space Shuttles Lehrstuhl für Mathematische VIII – Statistik
Das Maximum-Likelihood-Verfahren (ML-Verfahren)
Es soll also folgendes Problem gelöst werden:
maxβ0,β1
L(β0, β1) = maxβ0,β1
23∏i=1
P(Z = zi |X = xi)
⇔ maxβ0,β1
23∑i=1
log (P(Z = zi |X = xi))
→ Dies ist eine nichtlineare Gleichung (und somit nicht mitelementaren Methoden zu lösen).
→ Lösung mit Hilfe eines numerischen Algorithmus (macht derComputer für uns!).
Von Kernkraftwerken zu Space Shuttles Lehrstuhl für Mathematische VIII – Statistik
Das Maximum-Likelihood-Verfahren (ML-Verfahren)
Als Lösung erhält man den Vektor (β0, β1) = (7.6137,−0.4179).
Zurück zum Space-Shuttle: Am Tag des Starts betrug dieAußentemperatur −1 C.
⇒ Die Wahrscheinlichkeit für ein O-Ring-Versagen beim Start derChallenger können wir nun mit dem Logit-Modell bestimmen:
P(Z = 1|X = −1) =exp(β0 + β1 · (−1))
1 + exp(β0 + β1 · (−1))
=exp(7.6137 + 0.4179 · 1)
1 + exp(7.6137 + 0.4179 · 1)
= 0.999675 ≈ 99.97
⇒ Die Challenger hätte also auf keinen Fall starten dürfen!
Von Kernkraftwerken zu Space Shuttles Lehrstuhl für Mathematische VIII – Statistik
Die Kinderkrebsstudie von 2007
Gedankensprung in ein völlig anderes Themengebiet: VerursachenKernkraftwerke erhöhtes Krebsrisiko?
→ Die verwendeten mathematischen Verfahren sind aber dieselben!
Von Kernkraftwerken zu Space Shuttles Lehrstuhl für Mathematische VIII – Statistik
Ein anderes Anwendungsbeispiel
Die Ergebnisse der „Kinderkrebsstudie“ wurden im Jahr 2007veröffentlicht und sorgten bundesweit für jede Menge Gespächsstoff –sogar das Bundesumweltministerium nahm dazu Stellung.
Ziel der Studie war, die folgende Hypothese zu untersuchen:
Es besteht ein Zusammenhang zwischen der Nähe desWohnorts zu einem Kernkraftwerk und dem Risiko bis zum 5.Lebensjahr an Krebs zu erkranken. Fälle wohnen tendenziellhäufiger in der Nähe eines Kernkraftwerks.
→ Wie geht man hier vor?
Von Kernkraftwerken zu Space Shuttles Lehrstuhl für Mathematische VIII – Statistik
Das Studiendesign
Alle Kinder, die vor dem 5. Lebensjahr an Krebs erkrankt sind undzum Zeitpunkt der Diagnose in der Nähe eines Kernkraftwerkeswohnten, wurden in die Studie aufgenommen.
Zusätzlich wurden zu jedem erkrankten Kind 3 Kinder gleicherAltersstruktur aus dem Landkreis des erkrankten Kindes gezogen(„Kontrollfälle“).→ Matched Case-Control StudyEs ergaben sich auf diese Weise 1592 erkrankte Kinder und 4735Kontrollfälle.
→ Um den Einfluss der Lage des Wohnorts zu untersuchen, wurde vonjedem der 6327 Kinder die Entfernung x vom Kernkraftwerk zumWohnhaus gemessen.
Von Kernkraftwerken zu Space Shuttles Lehrstuhl für Mathematische VIII – Statistik
Mathematische Modellbildung
Die Modellbildung verläuft aufgrund des unterschiedlichenStudiendesigns anders als im Beispiel mit dem Space Shuttle.
Ziel: Modellierung des Odds Ratio für erkrankte und gesundeStudienteilnehmer in Abhängigkeit von der Entfernung desWohnorts zum Kernkraftwerk.
Von Kernkraftwerken zu Space Shuttles Lehrstuhl für Mathematische VIII – Statistik
Odds und Odds Ratio
Was sind Odds?Übersetzt ins Deutsche: Chancen
Odds = Zahl der EreignisseZahl der Nicht-Ereignisse
→ Beispiele:Würfelwurf: Die Odds für eine Sechs sind 1:5Sportwetten/Pferdewetten: Siegquote von 1:10
Was ist der Odds Ratio?Übersetzt ins Deutsche: Chancenverhältnis
Odds Ratio = Odds von Gruppe1Odds von Gruppe 2
Typischerweise: Gruppe1 = Behandlungsgruppe, Gruppe2 =Kontrollgruppe
→ Beispiel Raucher vs. Nichtraucher: Das Odds Ratio für das Eintreteneiner Lungenkrebserkrankung beträgt 3.5⇒ Die Chance an Lungenkrebs zu erkanken ist für Raucher 3.5 mal so
hoch wie für Nichtraucher.
Von Kernkraftwerken zu Space Shuttles Lehrstuhl für Mathematische VIII – Statistik
Zurück zur Studie
Für die Kinderkrebsstudie wird zur Modellierung des Odds Ratiofolgendes Modell zugrunde gelegt:
Odds Ratio(x) = exp(β
1x
),
wobei β ∈ R wieder der zu schätzende Parameter ist.
→ Hat man β optimal bestimmt, kann man für jede Entfernung zumKraftwerk das Odds Ratio bestimmen.
→ Beträgt das Odds Ratio bei einer Entfernung x0 beispielsweise denWert 2, bedeutet dies, dass die Chance an Krebs zu erkranken beidieser Entfernung zum Kraftwerk doppelt so hoch „wie normal“ ist.
Von Kernkraftwerken zu Space Shuttles Lehrstuhl für Mathematische VIII – Statistik
Verläufe des Odds Ratio
Ja nach Wert von β, verläuft die Kurve des Odds Ratio ein weniganders:
1 2 3 4 5 6 7 8
Verläufe des Odds−Ratio
Entfernung zum Kraftwerk (km)
1
2
3
4
5
6
7
8
9
10
β = 1β = 1.5β = 2β = 2.5
Von Kernkraftwerken zu Space Shuttles Lehrstuhl für Mathematische VIII – Statistik
Bestimmung des ML-Schätzers
Der optimale Wert von β soll wieder wie im Space-Shuttle-Beispiel miteinem Maximum-Likelihood-Ansatz bestimmt werden. Hierzu wird dieLikelihood-Funktion L(β) des Odds-Ratio aufgestellt und in demParameter β maximiert:
maxβ
L(β)⇔ maxβ
log(L(β))
⇔ maxβ
1592∑i=1
log
(exp
(β 1
xi
)exp
(β 1
xi
)+ 3
)
→ Der Beweis der obigen Äquivalenz ist sehr technisch, weshalb wiran dieser Stelle darauf verzichten wollen.
Von Kernkraftwerken zu Space Shuttles Lehrstuhl für Mathematische VIII – Statistik
Interpretation der Lösung
Als Lösung für das Maximierungsproblem ergibt sich ein optimaler Wertvon β = 1.18. Nun kann man mit der Formel
Odds Ratio(x) = exp(1.18
x
)die Odds Ratios für Krebserkrankungen für verschiedene x berechnen:
x (in km) 1.0 1.5 2.5 5 10 20 50
Odds Ratio 3.25 2.20 1.60 1.27 1.13 1.06 1.02
⇒ Wohnt man also 1.5 km von einem Kraftwerk entfernt ist das Risikofür Kinder an Krebs zu erkranken mehr als doppelt so hoch.
Wohnt man nur einen Kilometer von einen Kraftwerk entfernt, istdas Risiko sogar mehr als dreimal so hoch wie gewöhnlich!
Von Kernkraftwerken zu Space Shuttles Lehrstuhl für Mathematische VIII – Statistik
Zusammenfassung
Dies waren zwei Anwendungsbei-spiele für die logistische Regression.
⇓
Die logistische Regression als statistisches Analyseverfahren wird aberauch noch in vielen anderen Bereichen verwendet:
Komplikationswahrscheinlichkeit bei einer Operation
Auftreten von weiteren Metastasen bei einer Krebserkrankung
Modellierung des Kaufverhaltens bei einem Produkt
Vorhersage des Verhaltens eines Wählers bei einer Bundestags-oder Landtagswahl
...
Von Kernkraftwerken zu Space Shuttles Lehrstuhl für Mathematische VIII – Statistik
Recommended