28
Marcus Paulat Christoph Gebhardt Entwicklung einer statistischen Nachbearbeitung von Niederschlagswahrscheinlichkeiten DACH Bonn 24.09.2010 DACH Bonn 24.September 2010 Marcus Paulat Christoph Gebhardt Ensemblesystem auf Basis des COSMO-DE, Teil II: Entwicklung einer statistischen Nachbearbeitung von Niederschlagswahrscheinlichkeiten

Entwicklung einer statistischen Nachbearbeitung von ... · Marcus Paulat Christoph Gebhardt Entwicklung einer statistischen Nachbearbeitung von Niederschlagswahrscheinlichkeiten

Embed Size (px)

Citation preview

Page 1: Entwicklung einer statistischen Nachbearbeitung von ... · Marcus Paulat Christoph Gebhardt Entwicklung einer statistischen Nachbearbeitung von Niederschlagswahrscheinlichkeiten

Marcus Paulat Christoph Gebhardt

Entwicklung einer statistischen Nachbearbeitung von Niederschlagswahrscheinlichkeiten

DACH Bonn 24.09.2010

DACH Bonn 24.September 2010

Marcus Paulat Christoph Gebhardt

Ensemblesystem auf Basis des COSMO-DE, Teil II:

Entwicklung einer

statistischen Nachbearbeitung von

Niederschlagswahrscheinlichkeiten

Page 2: Entwicklung einer statistischen Nachbearbeitung von ... · Marcus Paulat Christoph Gebhardt Entwicklung einer statistischen Nachbearbeitung von Niederschlagswahrscheinlichkeiten

Marcus Paulat Christoph Gebhardt

Entwicklung einer statistischen Nachbearbeitung von Niederschlagswahrscheinlichkeiten

DACH Bonn 24.09.2010

• Allgemeines zur Nachbearbeitung (Kalibrierung,Postprocessing)

• Methode der Logistischen Regression

• Datengrundlage

• Qualität der einfachen Kalibrierung

• Vorbehandlung („Pre-Processing“) der Daten

• Verifikation

• Ausblick / offene Fragen

Übersicht

Page 3: Entwicklung einer statistischen Nachbearbeitung von ... · Marcus Paulat Christoph Gebhardt Entwicklung einer statistischen Nachbearbeitung von Niederschlagswahrscheinlichkeiten

Marcus Paulat Christoph Gebhardt

Entwicklung einer statistischen Nachbearbeitung von Niederschlagswahrscheinlichkeiten

DACH Bonn 24.09.2010

Postprocessing (Motivation und Allgemeines)

� Verbesserung der Vorhersagequalität

� Angleichung der Vorhersage-Statistik an die Beobachtungs-Statistik

� z.B. Anpassung von Erwartungswert, Variabilität, Quantilen, Überschreitungswahrscheinlichkeiten

Vorhersage Obs

kalibrierteVorhersage

historische Daten

Page 4: Entwicklung einer statistischen Nachbearbeitung von ... · Marcus Paulat Christoph Gebhardt Entwicklung einer statistischen Nachbearbeitung von Niederschlagswahrscheinlichkeiten

Marcus Paulat Christoph Gebhardt

Entwicklung einer statistischen Nachbearbeitung von Niederschlagswahrscheinlichkeiten

DACH Bonn 24.09.2010

• für Niederschlag mit guten Ergebnissen: globale Skala, Vorhersagezeitraum mehrere Tage (Hamill 2004, Wilks und Hamill 2007, Hamill et al. 2008)

• zu kalibrierende Variable muss nicht normalverteilt sein

• verschiedene Prädiktoren möglich (Ensemblemean, Probs etc.)

• Ergebnis ist Wahrscheinlichkeit (Prädiktand)

• mathematischer / statistischer Hintergrund: Poster 10 von Sabrina Bentzien

Methode: Logistische Regression

Page 5: Entwicklung einer statistischen Nachbearbeitung von ... · Marcus Paulat Christoph Gebhardt Entwicklung einer statistischen Nachbearbeitung von Niederschlagswahrscheinlichkeiten

Marcus Paulat Christoph Gebhardt

Entwicklung einer statistischen Nachbearbeitung von Niederschlagswahrscheinlichkeiten

DACH Bonn 24.09.2010

Methode: Logistische Regression

z: Prädiktor

f(z): Wahrscheinlichkeit, dass ein Ereignis eintrifftals parametrische Funktion

Ziel: Schätzung der Koeffizienten / Parameter von f(z )

∞∞ z

f(z)

-

Que

lle:

wik

iped

ia

Page 6: Entwicklung einer statistischen Nachbearbeitung von ... · Marcus Paulat Christoph Gebhardt Entwicklung einer statistischen Nachbearbeitung von Niederschlagswahrscheinlichkeiten

Marcus Paulat Christoph Gebhardt

Entwicklung einer statistischen Nachbearbeitung von Niederschlagswahrscheinlichkeiten

DACH Bonn 24.09.2010

• stündliche Niederschlagsdaten (COSMO-DE Ensemble, RADAR Komposit)

• Kombination von Physik und Randstörungen: 20.Mai - 30.September 2009

• Fokus (zunächst) auf Tagessummen

• Verfügbarkeit - 15 Member-Ensemble :

20.Mai – 13.Juni

14 Tage = 54 %

Trainingsdaten Verifikationsdaten

� relativ wenig Daten

Verwendete Datensätze

14.Juni – 30 September

55 Tage = 50 %

Page 7: Entwicklung einer statistischen Nachbearbeitung von ... · Marcus Paulat Christoph Gebhardt Entwicklung einer statistischen Nachbearbeitung von Niederschlagswahrscheinlichkeiten

Marcus Paulat Christoph Gebhardt

Entwicklung einer statistischen Nachbearbeitung von Niederschlagswahrscheinlichkeiten

DACH Bonn 24.09.2010

Kurvenfit für Prädiktor „Wahrscheinlichkeit“

EPS Wahrscheinlichkeit

WS

: OB

S >

Sch

wel

lenw

ert

EPS Wahrscheinlichkeit

0.1 mm/24h

Häu

figke

it 0.1 mm/24h

EPS Wahrscheinlichkeit

5 mm/24h

EPS Wahrscheinlichkeit

5 mm/24h

Page 8: Entwicklung einer statistischen Nachbearbeitung von ... · Marcus Paulat Christoph Gebhardt Entwicklung einer statistischen Nachbearbeitung von Niederschlagswahrscheinlichkeiten

Marcus Paulat Christoph Gebhardt

Entwicklung einer statistischen Nachbearbeitung von Niederschlagswahrscheinlichkeiten

DACH Bonn 24.09.2010

Verifikation: unkalibriert gegen kalibriert

rela

tive

Häu

figke

it: R

adar

EPS Wahrscheinlichkeit EPS Wahrscheinlichkeit

0.1 mm/24h 5 mm/24h

unkalibriertes Ensemble

Page 9: Entwicklung einer statistischen Nachbearbeitung von ... · Marcus Paulat Christoph Gebhardt Entwicklung einer statistischen Nachbearbeitung von Niederschlagswahrscheinlichkeiten

Marcus Paulat Christoph Gebhardt

Entwicklung einer statistischen Nachbearbeitung von Niederschlagswahrscheinlichkeiten

DACH Bonn 24.09.2010

Verifikation: unkalibriert gegen kalibriert

rela

tive

Häu

figke

it: R

adar

EPS Wahrscheinlichkeit EPS Wahrscheinlichkeit

0.1 mm/24h 5 mm/24h

unkalibriertes Ensemble

kalibriertes Ensemble

Page 10: Entwicklung einer statistischen Nachbearbeitung von ... · Marcus Paulat Christoph Gebhardt Entwicklung einer statistischen Nachbearbeitung von Niederschlagswahrscheinlichkeiten

Marcus Paulat Christoph Gebhardt

Entwicklung einer statistischen Nachbearbeitung von Niederschlagswahrscheinlichkeiten

DACH Bonn 24.09.2010

Verifikation: unkalibriert gegen kalibriert

rela

tive

Häu

figke

it: R

adar

EPS Wahrscheinlichkeit EPS Wahrscheinlichkeit

0.1 mm/24h 5 mm/24h

unkalibriertes Ensemble

kalibriertes Ensemble

Pre-Processing

der Prädiktor-Daten

Page 11: Entwicklung einer statistischen Nachbearbeitung von ... · Marcus Paulat Christoph Gebhardt Entwicklung einer statistischen Nachbearbeitung von Niederschlagswahrscheinlichkeiten

Marcus Paulat Christoph Gebhardt

Entwicklung einer statistischen Nachbearbeitung von Niederschlagswahrscheinlichkeiten

DACH Bonn 24.09.2010

Pre-Processing der Daten ���� Transformation der Prädiktordaten

Wahrscheinlichkeit ∈∈∈∈ [0,...,1], aber Logistische Regression ∈∈∈∈ ]-∞,...,∞[

Lässt sich Transformation besser parametrisch approximieren ?

Prädiktor „Wahrscheinlichkeit“ P ���� Prädiktor „f( P)“

f(P) = tan[g( P)]

∞∞ z-

Que

lle:

wik

iped

ia

Page 12: Entwicklung einer statistischen Nachbearbeitung von ... · Marcus Paulat Christoph Gebhardt Entwicklung einer statistischen Nachbearbeitung von Niederschlagswahrscheinlichkeiten

Marcus Paulat Christoph Gebhardt

Entwicklung einer statistischen Nachbearbeitung von Niederschlagswahrscheinlichkeiten

DACH Bonn 24.09.2010

0.1 mm/24h 5 mm/24h

WS

: OB

S >

Sch

wel

lenw

ert

Trafo EPS Wahrscheinlichkeit Trafo EPS Wahrscheinlichkeit

WS

: OB

S >

Sch

wel

lenw

ert

EPS Wahrscheinlichkeit

0.1 mm/24h

EPS Wahrscheinlichkeit

5 mm/24h

vorher

nachher

Page 13: Entwicklung einer statistischen Nachbearbeitung von ... · Marcus Paulat Christoph Gebhardt Entwicklung einer statistischen Nachbearbeitung von Niederschlagswahrscheinlichkeiten

Marcus Paulat Christoph Gebhardt

Entwicklung einer statistischen Nachbearbeitung von Niederschlagswahrscheinlichkeiten

DACH Bonn 24.09.2010

0.1 mm/24h 5 mm/24h

WS

: OB

S >

Sch

wel

lenw

ert

Trafo EPS Wahrscheinlichkeit Trafo EPS Wahrscheinlichkeit

WS

: OB

S >

Sch

wel

lenw

ert

EPS Wahrscheinlichkeit

0.1 mm/24h

EPS Wahrscheinlichkeit

5 mm/24h

vorher

nachher

Page 14: Entwicklung einer statistischen Nachbearbeitung von ... · Marcus Paulat Christoph Gebhardt Entwicklung einer statistischen Nachbearbeitung von Niederschlagswahrscheinlichkeiten

Marcus Paulat Christoph Gebhardt

Entwicklung einer statistischen Nachbearbeitung von Niederschlagswahrscheinlichkeiten

DACH Bonn 24.09.2010

Pre-Processing der Daten ���� Häufigkeitsverteilung „tunen“

� Kurvenfit dominiert von „0“ (und „1“) - Kategorie!

� Sichtweise: alle Kategorien sind gleich wichtig

� Häufigkeit je Kategorie gleichsetzen, Wahrscheinlichkeit festhalten

0.1 mm/24h 0.1 mm/24h

Trafo EPS Wahrscheinlichkeit Trafo EPS Wahrscheinlichkeit

WS

: OB

S >

Sch

wel

lenw

ert

WS

: OB

S >

Sch

wel

lenw

ert

Page 15: Entwicklung einer statistischen Nachbearbeitung von ... · Marcus Paulat Christoph Gebhardt Entwicklung einer statistischen Nachbearbeitung von Niederschlagswahrscheinlichkeiten

Marcus Paulat Christoph Gebhardt

Entwicklung einer statistischen Nachbearbeitung von Niederschlagswahrscheinlichkeiten

DACH Bonn 24.09.2010

Pre-Processing der Daten ���� Maskierung von „Nullen“

• Problem: Prob(Precip) ≈ 0 in Regionen mit unsicherer Lokalisierung desNiederschlags ⇒ starkes Potential für Fehlvorhersagen mit „Wirkung“

Wirkung hängt vom Betrachter / Nutzer ab

• Ursache: unzureichende Darstellung der Unsicherheit in der Ensemble-Vorhersage (Unterdispersivität)über viele Fälle betrachtet und/oder im Einzelfall

• Problem eventuell verstärkt durch Eigenschaften des Trainingsdatensatzes

Page 16: Entwicklung einer statistischen Nachbearbeitung von ... · Marcus Paulat Christoph Gebhardt Entwicklung einer statistischen Nachbearbeitung von Niederschlagswahrscheinlichkeiten

Marcus Paulat Christoph Gebhardt

Entwicklung einer statistischen Nachbearbeitung von Niederschlagswahrscheinlichkeiten

DACH Bonn 24.09.2010

Pre-Processing der Daten ���� Maskierung von „Nullen“

• Problem: Prob(Precip) ≈ 0 in Regionen mit unsicherer Lokalisierung desNiederschlags ⇒ starkes Potential für Fehlvorhersagen mit „Wirkung“

Wirkung hängt vom Betrachter / Nutzer ab

• Ursache: unzureichende Darstellung der Unsicherheit in der Ensemble-Vorhersage (Unterdispersivität)über viele Fälle betrachtet und/oder im Einzelfall

• Problem eventuell verstärkt durch Eigenschaften des Trainingsdatensatzes

Es gibt Wettersituation, in denen die (Thermo)dynamik der Atmosphäre großflächig keinen Niederschlag erlaubt (in Beob. und Ensemble)

Viele solcher Situationen in den Trainingsdaten begünstigen kalib. Prob ≈ 0, wenn alle Member ein Ereignis nicht vorhersagen

Sollten diese Daten in Schätzung und Anwendung der Kalibrierungsfunktion berücksichtigt werden?

Page 17: Entwicklung einer statistischen Nachbearbeitung von ... · Marcus Paulat Christoph Gebhardt Entwicklung einer statistischen Nachbearbeitung von Niederschlagswahrscheinlichkeiten

Marcus Paulat Christoph Gebhardt

Entwicklung einer statistischen Nachbearbeitung von Niederschlagswahrscheinlichkeiten

DACH Bonn 24.09.2010

Pre-Processing der Daten ���� Maskierung von „Nullen“

• (vorläufige) Entscheidung: Ausschluss solcher Daten in Training undAnwendung der Kalibrierung

• Ausschluss-Kriterium unklar, gewähltes Kriterium subjektiv

• heuristisch (mathematisch nicht fundiert)

• positiver und wichtiger Effekt auf die Qualität der kalibriertenNiederschlagswahrscheinlichkeiten

• schnelles Verfahren

Page 18: Entwicklung einer statistischen Nachbearbeitung von ... · Marcus Paulat Christoph Gebhardt Entwicklung einer statistischen Nachbearbeitung von Niederschlagswahrscheinlichkeiten

Marcus Paulat Christoph Gebhardt

Entwicklung einer statistischen Nachbearbeitung von Niederschlagswahrscheinlichkeiten

DACH Bonn 24.09.2010

Pre-Processing der Daten ���� Maskierung von „Nullen“

Suboptimales Kriterium für suboptimale Maskierung:

EPS-mean > 0

+ N Gitterpunkte Umgebung

Nach Kalibrierung:

Prob > 0 in Umgebung von (lokalen) Niederschlägen

Prob = 0, wo großräumig in allen Membern kein Niederschlag vorhergesagt

EPS-mean

Maskierung

1

0

Page 19: Entwicklung einer statistischen Nachbearbeitung von ... · Marcus Paulat Christoph Gebhardt Entwicklung einer statistischen Nachbearbeitung von Niederschlagswahrscheinlichkeiten

Marcus Paulat Christoph Gebhardt

Entwicklung einer statistischen Nachbearbeitung von Niederschlagswahrscheinlichkeiten

DACH Bonn 24.09.2010

„Finale“ Verifikation 0.1 mm/24h 5 mm/24h

unkalibriertes Ensemble

kalibriertes Ensemble ohne Pre-Processing

kalibriertes Ensemble mit Pre-processing

EPS Wahrscheinlichkeit EPS Wahrscheinlichkeit

rela

tive

Häu

figke

it: R

adar

Page 20: Entwicklung einer statistischen Nachbearbeitung von ... · Marcus Paulat Christoph Gebhardt Entwicklung einer statistischen Nachbearbeitung von Niederschlagswahrscheinlichkeiten

Marcus Paulat Christoph Gebhardt

Entwicklung einer statistischen Nachbearbeitung von Niederschlagswahrscheinlichkeiten

DACH Bonn 24.09.2010

Verifikation – „Brier Skill Score“

unkalibriert

Brie

r S

kill

Sco

re

0

0.1

0.2

0.4

Schwellenwert in mm/24h

0.1 0.5 1 2 5 10

0.3

einfach kalibriert

kalibriert mit Pre-Processing

Referenz:

deterministisches COSMO-DE

Page 21: Entwicklung einer statistischen Nachbearbeitung von ... · Marcus Paulat Christoph Gebhardt Entwicklung einer statistischen Nachbearbeitung von Niederschlagswahrscheinlichkeiten

Marcus Paulat Christoph Gebhardt

Entwicklung einer statistischen Nachbearbeitung von Niederschlagswahrscheinlichkeiten

DACH Bonn 24.09.2010

Verifikation – „Brier Skill Score“B

rier

Ski

ll S

core

0

0.04

0.08

0.12

Schwellenwert in mm/24h

0.1 0.5 1 2 5 10

Referenz: unkalibriertes EPS

einfach kalibriert

Page 22: Entwicklung einer statistischen Nachbearbeitung von ... · Marcus Paulat Christoph Gebhardt Entwicklung einer statistischen Nachbearbeitung von Niederschlagswahrscheinlichkeiten

Marcus Paulat Christoph Gebhardt

Entwicklung einer statistischen Nachbearbeitung von Niederschlagswahrscheinlichkeiten

DACH Bonn 24.09.2010

Verifikation – „Brier Skill Score“B

rier

Ski

ll S

core

0

0.04

0.08

0.12

Schwellenwert in mm/24h

0.1 0.5 1 2 5 10

Referenz: unkalibriertes EPS

Maskierung

einfach kalibriert

Page 23: Entwicklung einer statistischen Nachbearbeitung von ... · Marcus Paulat Christoph Gebhardt Entwicklung einer statistischen Nachbearbeitung von Niederschlagswahrscheinlichkeiten

Marcus Paulat Christoph Gebhardt

Entwicklung einer statistischen Nachbearbeitung von Niederschlagswahrscheinlichkeiten

DACH Bonn 24.09.2010

Verifikation – „Brier Skill Score“B

rier

Ski

ll S

core

0

0.04

0.08

0.12

Schwellenwert in mm/24h

0.1 0.5 1 2 5 10

Referenz: unkalibriertes EPS

Maskierung

+ Transformation

einfach kalibriert

Page 24: Entwicklung einer statistischen Nachbearbeitung von ... · Marcus Paulat Christoph Gebhardt Entwicklung einer statistischen Nachbearbeitung von Niederschlagswahrscheinlichkeiten

Marcus Paulat Christoph Gebhardt

Entwicklung einer statistischen Nachbearbeitung von Niederschlagswahrscheinlichkeiten

DACH Bonn 24.09.2010

Verifikation – „Brier Skill Score“B

rier

Ski

ll S

core

0

0.04

0.08

0.12

Schwellenwert in mm/24h

0.1 0.5 1 2 5 10

Referenz: unkalibriertes EPS

Maskierung

+ Gleichgewichtung

+ Transformation

einfach kalibriert

Page 25: Entwicklung einer statistischen Nachbearbeitung von ... · Marcus Paulat Christoph Gebhardt Entwicklung einer statistischen Nachbearbeitung von Niederschlagswahrscheinlichkeiten

Marcus Paulat Christoph Gebhardt

Entwicklung einer statistischen Nachbearbeitung von Niederschlagswahrscheinlichkeiten

DACH Bonn 24.09.2010

Ausblick / offene Fragen

• Datensatz vergrößern

• Was ist ein geeigneter Trainingsdatensatz?

• Eigenschaften der kalibrierten WahrscheinlichkeitsFELDER

• Bootstrapping (Bsp.: 200 Schritte mit je 80 % der Daten)⇒ Fehlerbalken für Regressionskoeffizienten

• Anwendung auf kleinere Akkumulationszeiträume (12h, 6h, 3h, 1h)

• Andere Schwellenwerte

• Regionalisierung

• Kooperation im Rahmen der universitären Forschung Uni Bonn (Poster 10, S. Bentzien)Uni Heidelberg

Page 26: Entwicklung einer statistischen Nachbearbeitung von ... · Marcus Paulat Christoph Gebhardt Entwicklung einer statistischen Nachbearbeitung von Niederschlagswahrscheinlichkeiten

Marcus Paulat Christoph Gebhardt

Entwicklung einer statistischen Nachbearbeitung von Niederschlagswahrscheinlichkeiten

DACH Bonn 24.09.2010

Ausblick / offene Fragen

• Datensatz vergrößern

• Was ist ein geeigneter Trainingsdatensatz?

• Eigenschaften der kalibrierten WahrscheinlichkeitsFELDER

• Bootstrapping (Bsp.: 200 Schritte mit je 80 % der Daten)⇒ Fehlerbalken für Regressionskoeffizienten

• Anwendung auf kleinere Akkumulationszeiträume (12h, 6h, 3h, 1h)

• Andere Schwellenwerte

• Regionalisierung

• Kooperation im Rahmen der universitären Forschung Uni Bonn (Poster 10, S. Bentzien)Uni Heidelberg

Page 27: Entwicklung einer statistischen Nachbearbeitung von ... · Marcus Paulat Christoph Gebhardt Entwicklung einer statistischen Nachbearbeitung von Niederschlagswahrscheinlichkeiten

Marcus Paulat Christoph Gebhardt

Entwicklung einer statistischen Nachbearbeitung von Niederschlagswahrscheinlichkeiten

DACH Bonn 24.09.2010

Zusammenfassung• Kalibrierung für Niederschlag: Methode der Logistischen Regression

• 24h-Summen: nur 14 Tage Training, 55 Tage Verifikation

• Verifikation einfach kalibriert gegen unkalibriert zeigt kaum Verbesserungen

• Pre-Processing der Prädiktor-Daten

- Maskierung von „Nullen“

- Transformation (Wertebereich)

- Gleichgewichtung

• Kurvenfit wesentlich besser (alle Schwellenwerte)

• Verifikationsergebnisse zeigen deutlichen Qualitätsgewinn

Page 28: Entwicklung einer statistischen Nachbearbeitung von ... · Marcus Paulat Christoph Gebhardt Entwicklung einer statistischen Nachbearbeitung von Niederschlagswahrscheinlichkeiten

Marcus Paulat Christoph Gebhardt

Entwicklung einer statistischen Nachbearbeitung von Niederschlagswahrscheinlichkeiten

DACH Bonn 24.09.2010

Vielen Dank!