28
Von Kernkraftwerken zu Space Shuttles Statistische Methoden in Forschung und Alltag Johannes Hain Lehrstuhl für Mathematik VIII – Statistik Universität Würzburg 01.03.2011 Von Kernkraftwerken zu Space Shuttles Lehrstuhl für Mathematische VIII – Statistik

Von Kernkraftwerken zu Space Shuttles - uni-wuerzburg.de · Von Kernkraftwerken zu Space Shuttles Statistische Methoden in Forschung und Alltag Johannes Hain Lehrstuhl für Mathematik

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

Von Kernkraftwerken zu Space ShuttlesStatistische Methoden in Forschung und Alltag

Johannes Hain

Lehrstuhl für Mathematik VIII – StatistikUniversität Würzburg

01.03.2011

Von Kernkraftwerken zu Space Shuttles Lehrstuhl für Mathematische VIII – Statistik

Das erwartet einen Mathematik-Studenten auf der Uni...

Von Kernkraftwerken zu Space Shuttles Lehrstuhl für Mathematische VIII – Statistik

... oder das hier:

Definition: (Ω,A,P) sei ein Wahrscheinlichkeitsraum und (Ω′,A

′) ein

messbarer Raum. f : Ω→ Ω′

heißt A,A′′

-messbar, falls f−1(A′) ⊆ A, d.h.

falls für alle A′∈ A

′gilt:

f−1(A′) ∈ A.

Satz: Seien (Ω,A), (Ω′,A

′), (Ω

′′,A

′′) messbare Räume und

f : (Ω,A)→ (Ω′,A

′),g : (Ω

′,A

′)→ (Ω

′′,A

′′). Dann gilt:

g f : Ω→ Ω′′

ist A,A′′

-messbar.

Beweis: Sei A′′∈ A

′′, dann:

(g f )−1(A′′

) = f−1(g−1(A′′

)︸ ︷︷ ︸∈A′

) ∈ A.

Von Kernkraftwerken zu Space Shuttles Lehrstuhl für Mathematische VIII – Statistik

Erste Zweifel tun sich auf...

Völlig zurecht stellt man sich während des Studiums dann unteranderem die folgenden Fragen:

Wozu soll ich denn das alles brauchen?

Kann man damit überhaupt irgend etwas anfangen?

Die Antwort lautet: JA!

Von Kernkraftwerken zu Space Shuttles Lehrstuhl für Mathematische VIII – Statistik

Mathematik und Statistik im Alltag

−→ Viele Alltagsphänomene folgen wahrscheinlichkeitstheoretischenGesetzmäßigkeiten und können somit mathematisch untersuchtwerden.

−→ Das Grundprinzip besteht darin, mathematischeWahrscheinlichkeitsmodelle zu erstellen, die den Alltag möglichstgenau erklären.

Hier einige Beispiele:

Gewinnwahrscheinlichkeiten beim Lotto oder anderenGlücksspielen

Börsenkurse

Flutkatastrophen

Krankheitsverläufe

...

Von Kernkraftwerken zu Space Shuttles Lehrstuhl für Mathematische VIII – Statistik

Zwei weitere Beispiele im Detail

Was haben die beiden folgenden Bilder gemeinsam?

Von Kernkraftwerken zu Space Shuttles Lehrstuhl für Mathematische VIII – Statistik

Das Challenger-Unglück 1986

→ Wie konnte es zu diesem Unglück kommen?

Von Kernkraftwerken zu Space Shuttles Lehrstuhl für Mathematische VIII – Statistik

Nach dem Unglück: Ursachenforschung

Nach der Katastrophe soll eine Untersuchungskommission dieUrsache für die Explosion ermitteln.

→ Schnell wird klar: Ein Dichungsring (O-Ring) in einem der beidenFesttreibstoff-Tanks hatte versagt.

Von Kernkraftwerken zu Space Shuttles Lehrstuhl für Mathematische VIII – Statistik

Nach dem Unglück: Ursachenforschung

Der NASA und den Herstellern der O-Ringe lagen bereits Berichte überKomplikationen mit den O-Ringen bei anderen Flügen vor.

Temperaturen bei Flügen mit Komplikationen

Temperatur12°C 14°C 16°C 18°C 20°C 22°C 24°C

⇒ Bei Betrachtung dieser Daten liegt der Schluss nahe, dass eskeinen Zusammenhang zwischen der Temperatur und demO-Ring-Versagen gibt.

Von Kernkraftwerken zu Space Shuttles Lehrstuhl für Mathematische VIII – Statistik

Der fatale Fehler

Es lagen zusätzlich noch weitere Daten von Flügen vor, bei denenkeine Komplikationen mit den O-Ringen auftraten.

→ Um ein Gesamtbild zu erhalten müssen diese Daten ebenfallsberücksichtigt werden.

Temperaturen bei Flügen mit und ohne Komplikationen

Temperatur10°C 15°C 20°C 25°C 30°C

Komplikationenkeine Komplikationen

Von Kernkraftwerken zu Space Shuttles Lehrstuhl für Mathematische VIII – Statistik

Mathematische Modellbildung

Ziel: Beschreibung des Zusammenhangs der Wahrscheinlichkeiteiner Komplikation des O-Rings und der Temperatur.

Definiere hierzu:

Zufallsgröße Z =

0 keine Komplikationen1 mind. ein O-Ring defekt

Außentemperatur X in Celsius.

⇒ Von Interesse ist nun die Komplikationswahrscheinlichkeit bei einergegebenen Außentemperatur x , also

P(Z = 1|X = x).

Von Kernkraftwerken zu Space Shuttles Lehrstuhl für Mathematische VIII – Statistik

Das Logit-Modell

Man entscheidet sich hier für ein sogenanntes Logit-Modell, d.h.

P(Z = 1|X = x) =exp(β0 + β1x)

1 + exp(β0 + β1x),

wobei β0, β1 ∈ R die beiden unbekannten Parameter dieserWahrscheinlichkeitsverteilung sind.

Hat man keinerlei Informationen über das Modell, gilt β0 = β1 = 0 undsomit

P(Z = 1|X = x) = P(Z = 1) =exp(0)

1 + exp(0)=

12

= P(Z = 0).

Von Kernkraftwerken zu Space Shuttles Lehrstuhl für Mathematische VIII – Statistik

Verschiedene Verläufe der logistischen Verteilung

Angenommen, β0 = 7. Dann erhält man für verschiedene Werte von β1

unterschiedliche Verläufe der Wahrscheinlichkeitsverteilung:

Verläufe der Logistischen Wahrscheinlichkeitsverteilung für β0 = 7

Temperatur0°C 10°C 20°C 30°C 40°C

0.0

0.2

0.4

0.6

0.8

1.0

β1 = − 1β1 = − 0.7β1 = − 0.4β1 = − 0.2β1 = − 0.1

Von Kernkraftwerken zu Space Shuttles Lehrstuhl für Mathematische VIII – Statistik

Das Maximum-Likelihood-Verfahren (ML-Verfahren)

Aus den Daten liegen nun 23 Beobachtungen über das Verhalten derO-Ringe zu bestimmten Außentemperaturen vor.

Die Wahrscheinlichkeit für das Eintreffen genau dieser Ereignisse ist dasProdukt der 23 Einzelwahrscheinlichkeiten:

L(β0, β1) =23∏i=1

P(Z = zi |X = xi), zi ∈ 0, 1.

Die Funktion L(β0, β1) ist die Likelihood-Funktion.

Die beiden unbekannten Parameter β0 und β1 sollen jetzt so bestimmtwerden, dass der Wert von L(β0, β1) maximal wird. Dieses Vorgehenbezeichnet man in der Statistik auch als dasMaximum-Likelihood-Prinzip.

Von Kernkraftwerken zu Space Shuttles Lehrstuhl für Mathematische VIII – Statistik

Das Maximum-Likelihood-Verfahren (ML-Verfahren)

Es soll also folgendes Problem gelöst werden:

maxβ0,β1

L(β0, β1) = maxβ0,β1

23∏i=1

P(Z = zi |X = xi)

⇔ maxβ0,β1

23∑i=1

log (P(Z = zi |X = xi))

→ Dies ist eine nichtlineare Gleichung (und somit nicht mitelementaren Methoden zu lösen).

→ Lösung mit Hilfe eines numerischen Algorithmus (macht derComputer für uns!).

Von Kernkraftwerken zu Space Shuttles Lehrstuhl für Mathematische VIII – Statistik

Das Maximum-Likelihood-Verfahren (ML-Verfahren)

Als Lösung erhält man den Vektor (β0, β1) = (7.6137,−0.4179).

Zurück zum Space-Shuttle: Am Tag des Starts betrug dieAußentemperatur −1 C.

⇒ Die Wahrscheinlichkeit für ein O-Ring-Versagen beim Start derChallenger können wir nun mit dem Logit-Modell bestimmen:

P(Z = 1|X = −1) =exp(β0 + β1 · (−1))

1 + exp(β0 + β1 · (−1))

=exp(7.6137 + 0.4179 · 1)

1 + exp(7.6137 + 0.4179 · 1)

= 0.999675 ≈ 99.97

⇒ Die Challenger hätte also auf keinen Fall starten dürfen!

Von Kernkraftwerken zu Space Shuttles Lehrstuhl für Mathematische VIII – Statistik

Die Kinderkrebsstudie von 2007

Gedankensprung in ein völlig anderes Themengebiet: VerursachenKernkraftwerke erhöhtes Krebsrisiko?

→ Die verwendeten mathematischen Verfahren sind aber dieselben!

Von Kernkraftwerken zu Space Shuttles Lehrstuhl für Mathematische VIII – Statistik

Ein anderes Anwendungsbeispiel

Die Ergebnisse der „Kinderkrebsstudie“ wurden im Jahr 2007veröffentlicht und sorgten bundesweit für jede Menge Gespächsstoff –sogar das Bundesumweltministerium nahm dazu Stellung.

Ziel der Studie war, die folgende Hypothese zu untersuchen:

Es besteht ein Zusammenhang zwischen der Nähe desWohnorts zu einem Kernkraftwerk und dem Risiko bis zum 5.Lebensjahr an Krebs zu erkranken. Fälle wohnen tendenziellhäufiger in der Nähe eines Kernkraftwerks.

→ Wie geht man hier vor?

Von Kernkraftwerken zu Space Shuttles Lehrstuhl für Mathematische VIII – Statistik

Das Studiendesign

Alle Kinder, die vor dem 5. Lebensjahr an Krebs erkrankt sind undzum Zeitpunkt der Diagnose in der Nähe eines Kernkraftwerkeswohnten, wurden in die Studie aufgenommen.

Zusätzlich wurden zu jedem erkrankten Kind 3 Kinder gleicherAltersstruktur aus dem Landkreis des erkrankten Kindes gezogen(„Kontrollfälle“).→ Matched Case-Control StudyEs ergaben sich auf diese Weise 1592 erkrankte Kinder und 4735Kontrollfälle.

→ Um den Einfluss der Lage des Wohnorts zu untersuchen, wurde vonjedem der 6327 Kinder die Entfernung x vom Kernkraftwerk zumWohnhaus gemessen.

Von Kernkraftwerken zu Space Shuttles Lehrstuhl für Mathematische VIII – Statistik

Übersichtskarte

Von Kernkraftwerken zu Space Shuttles Lehrstuhl für Mathematische VIII – Statistik

Mathematische Modellbildung

Die Modellbildung verläuft aufgrund des unterschiedlichenStudiendesigns anders als im Beispiel mit dem Space Shuttle.

Ziel: Modellierung des Odds Ratio für erkrankte und gesundeStudienteilnehmer in Abhängigkeit von der Entfernung desWohnorts zum Kernkraftwerk.

Von Kernkraftwerken zu Space Shuttles Lehrstuhl für Mathematische VIII – Statistik

Odds und Odds Ratio

Was sind Odds?Übersetzt ins Deutsche: Chancen

Odds = Zahl der EreignisseZahl der Nicht-Ereignisse

→ Beispiele:Würfelwurf: Die Odds für eine Sechs sind 1:5Sportwetten/Pferdewetten: Siegquote von 1:10

Was ist der Odds Ratio?Übersetzt ins Deutsche: Chancenverhältnis

Odds Ratio = Odds von Gruppe1Odds von Gruppe 2

Typischerweise: Gruppe1 = Behandlungsgruppe, Gruppe2 =Kontrollgruppe

→ Beispiel Raucher vs. Nichtraucher: Das Odds Ratio für das Eintreteneiner Lungenkrebserkrankung beträgt 3.5⇒ Die Chance an Lungenkrebs zu erkanken ist für Raucher 3.5 mal so

hoch wie für Nichtraucher.

Von Kernkraftwerken zu Space Shuttles Lehrstuhl für Mathematische VIII – Statistik

Zurück zur Studie

Für die Kinderkrebsstudie wird zur Modellierung des Odds Ratiofolgendes Modell zugrunde gelegt:

Odds Ratio(x) = exp(β

1x

),

wobei β ∈ R wieder der zu schätzende Parameter ist.

→ Hat man β optimal bestimmt, kann man für jede Entfernung zumKraftwerk das Odds Ratio bestimmen.

→ Beträgt das Odds Ratio bei einer Entfernung x0 beispielsweise denWert 2, bedeutet dies, dass die Chance an Krebs zu erkranken beidieser Entfernung zum Kraftwerk doppelt so hoch „wie normal“ ist.

Von Kernkraftwerken zu Space Shuttles Lehrstuhl für Mathematische VIII – Statistik

Verläufe des Odds Ratio

Ja nach Wert von β, verläuft die Kurve des Odds Ratio ein weniganders:

1 2 3 4 5 6 7 8

Verläufe des Odds−Ratio

Entfernung zum Kraftwerk (km)

1

2

3

4

5

6

7

8

9

10

β = 1β = 1.5β = 2β = 2.5

Von Kernkraftwerken zu Space Shuttles Lehrstuhl für Mathematische VIII – Statistik

Bestimmung des ML-Schätzers

Der optimale Wert von β soll wieder wie im Space-Shuttle-Beispiel miteinem Maximum-Likelihood-Ansatz bestimmt werden. Hierzu wird dieLikelihood-Funktion L(β) des Odds-Ratio aufgestellt und in demParameter β maximiert:

maxβ

L(β)⇔ maxβ

log(L(β))

⇔ maxβ

1592∑i=1

log

(exp

(β 1

xi

)exp

(β 1

xi

)+ 3

)

→ Der Beweis der obigen Äquivalenz ist sehr technisch, weshalb wiran dieser Stelle darauf verzichten wollen.

Von Kernkraftwerken zu Space Shuttles Lehrstuhl für Mathematische VIII – Statistik

Interpretation der Lösung

Als Lösung für das Maximierungsproblem ergibt sich ein optimaler Wertvon β = 1.18. Nun kann man mit der Formel

Odds Ratio(x) = exp(1.18

x

)die Odds Ratios für Krebserkrankungen für verschiedene x berechnen:

x (in km) 1.0 1.5 2.5 5 10 20 50

Odds Ratio 3.25 2.20 1.60 1.27 1.13 1.06 1.02

⇒ Wohnt man also 1.5 km von einem Kraftwerk entfernt ist das Risikofür Kinder an Krebs zu erkranken mehr als doppelt so hoch.

Wohnt man nur einen Kilometer von einen Kraftwerk entfernt, istdas Risiko sogar mehr als dreimal so hoch wie gewöhnlich!

Von Kernkraftwerken zu Space Shuttles Lehrstuhl für Mathematische VIII – Statistik

Zusammenfassung

Dies waren zwei Anwendungsbei-spiele für die logistische Regression.

Die logistische Regression als statistisches Analyseverfahren wird aberauch noch in vielen anderen Bereichen verwendet:

Komplikationswahrscheinlichkeit bei einer Operation

Auftreten von weiteren Metastasen bei einer Krebserkrankung

Modellierung des Kaufverhaltens bei einem Produkt

Vorhersage des Verhaltens eines Wählers bei einer Bundestags-oder Landtagswahl

...

Von Kernkraftwerken zu Space Shuttles Lehrstuhl für Mathematische VIII – Statistik

Vielen Dank für Eure Aufmerksamkeit

und (vielleicht) bis bald!

Von Kernkraftwerken zu Space Shuttles Lehrstuhl für Mathematische VIII – Statistik