27
Regressionsanalyse in der Ökosystemmodellierung und Paläoumweltrekonstruktion – Ausgewählte Probleme aus der Praxis Seminar für fortgeschrittene Studenten und Graduierte Dr. Lars Kutzbach und Barnim Thees WS 2007/08

Regressionsanalyse in der Ökosystemmodellierung und Paläoumweltrekonstruktion – Ausgewählte Probleme aus der Praxis Seminar für fortgeschrittene Studenten

Embed Size (px)

Citation preview

Page 1: Regressionsanalyse in der Ökosystemmodellierung und Paläoumweltrekonstruktion – Ausgewählte Probleme aus der Praxis Seminar für fortgeschrittene Studenten

Regressionsanalyse in der Ökosystemmodellierung und Paläoumweltrekonstruktion

– Ausgewählte Probleme aus der Praxis

Seminar für fortgeschrittene Studenten und Graduierte

Dr. Lars Kutzbach und Barnim Thees

WS 2007/08

Page 2: Regressionsanalyse in der Ökosystemmodellierung und Paläoumweltrekonstruktion – Ausgewählte Probleme aus der Praxis Seminar für fortgeschrittene Studenten

Beispiel: Der „Hockey-Stick“ - Prominenz

Mann, M.E., R.S. Bradley, and M.K. Hughes, 1999: Northern Hemisphere Temperatures During the Past Millennium: Inferences, Uncertainties, and Limitations. Geophys. Res. Lett., 26, 759-762.

Page 3: Regressionsanalyse in der Ökosystemmodellierung und Paläoumweltrekonstruktion – Ausgewählte Probleme aus der Praxis Seminar für fortgeschrittene Studenten

Beispiel: Der „Hockey-Stick“ - Kritik

Storch et al., 2004

Page 4: Regressionsanalyse in der Ökosystemmodellierung und Paläoumweltrekonstruktion – Ausgewählte Probleme aus der Praxis Seminar für fortgeschrittene Studenten

Beispiel: Der „Hockey-Stick“ - Kritik

McIntyre and McKitrick, 2005

Page 5: Regressionsanalyse in der Ökosystemmodellierung und Paläoumweltrekonstruktion – Ausgewählte Probleme aus der Praxis Seminar für fortgeschrittene Studenten

Beispiel: Der „Hockey-Stick“ - Prüfung

2006Report for the US Congress by the Committee on „Surface Temperature Reconstructions for the Last 2,000 Years“Board on Atmospheric Sciences and ClimateDivision on Earth and Life StudiesNational Research Council of the US National Academy of Science

2006Hearing of the Committee of Energy and Commerce of the U.S. House of Representatives

„Questions Surrounding the ‘Hockey Stick’ Temperature Studies: Implications for Climate Change Assessments“

„Wegmann-Report“: Ad Hoc Committee Report on the ‚Hockey Stick‘ Global Climate Reconstruction“

Page 6: Regressionsanalyse in der Ökosystemmodellierung und Paläoumweltrekonstruktion – Ausgewählte Probleme aus der Praxis Seminar für fortgeschrittene Studenten

Der „Hockey-Stick“: Schlussfolgerungen

Eine wissenschaftlich und politisch wichtige Fragestellung wurde mit einer komplizierten statistischen Reressionsmethode bearbeitet.

Diese Methode wurde nicht vollkommen richtig durchdacht und leider FALSCH angewendet.

Es wurden unhaltbare Aussagen über das Paläoklima der letzten 1000 Jahre gemacht und an prominenter Stelle veröffentlicht (Nature, 1998; IPCC, 2001).

Die Studie hat die Arbeit der betreffenden Wissenschaftlter aber auch der Klimawissenschaft insgesamt sowie diedes IPCC in Misskredit gebracht.

Page 7: Regressionsanalyse in der Ökosystemmodellierung und Paläoumweltrekonstruktion – Ausgewählte Probleme aus der Praxis Seminar für fortgeschrittene Studenten

Der „Hockey-Stick“: Schlussfolgerungen

Seminartermin Di, 20.11.07:

Zum Problem verrauschter Daten in Regressions-modellen (Überschätzung der Amplituden bei derMethode der kleinsten Quadrate der Residuen)

Page 8: Regressionsanalyse in der Ökosystemmodellierung und Paläoumweltrekonstruktion – Ausgewählte Probleme aus der Praxis Seminar für fortgeschrittene Studenten

Seminarthemen

Themen:

1. Di, 06.11.07: Motivation: Brisanz von falsch angewendeten / nicht vollständig verstandenen Regressionsmethoden für die Ökosystemmodellierung und Paläoumweltrekonstruktion

2. Fr, 16.11.07: Was ist überhaupt ein Model? Modelltypen und Modellfehler aus Sicht der statistischen

Lerntheorie

3. Di, 20.11.07: Zum Problem verrauschter Daten in Regressions-Modellen (Unterschätzung der Amplituden bei der Methode der kleinsten Quadrate der Residuen)

4. Di, 27.11.07: Über die falsche Anwendung von r2 bei Kalibrierung

und Modellabsicherung (Beispiel Haubenmessungen von CH4- und CO2-Flüssen)

Page 9: Regressionsanalyse in der Ökosystemmodellierung und Paläoumweltrekonstruktion – Ausgewählte Probleme aus der Praxis Seminar für fortgeschrittene Studenten

Seminarthemen

Themen:

5. Di, 04.12.07: Abbildende Modelle versus erklärende Modelle – Ein schrittweises Verfahren zur Reduktion eines multiplen linearen Regressionsmodells zu Bestimmung von signifikanten

unabhängigen Modellparametern

6. Di, 11.12.07: Zum Problem einer möglichen Zeitverschiebung zwischen Regressoren und Regressanden für Regressionsmodelleinsbesondere für die Paläoumweltrekonstruktion

7. Di, 18.12.07: Zeit für Vertiefungen nach Bedarf

________________________________________________Zu Termin 4. und 5. Übungen

Page 10: Regressionsanalyse in der Ökosystemmodellierung und Paläoumweltrekonstruktion – Ausgewählte Probleme aus der Praxis Seminar für fortgeschrittene Studenten

2. Was sind überhaupt Modelle ?

• Klassische deterministische Modelle- analytische Modelle- numerische Modelle

• Statistische Modelle- rein abbildende Modelle- erklärende Modelle

• Kombinierte deterministisch-statistische Modelle- statistisch-optimierte deterministische Modelle (Grey Box)- Inverse Modelle- Model-Output-Statistics

Page 11: Regressionsanalyse in der Ökosystemmodellierung und Paläoumweltrekonstruktion – Ausgewählte Probleme aus der Praxis Seminar für fortgeschrittene Studenten

Modellers and field researchers:Modellers and field researchers:…different ways of working and thinking…different ways of working and thinking

- simple-minded,

- ignorant of mathematics

- out of touch with reality

11

Empirische Daten –> Statistische Modelle

Deterministische Modelle

Kombinierte statistisch-deterministische Modelle

Page 12: Regressionsanalyse in der Ökosystemmodellierung und Paläoumweltrekonstruktion – Ausgewählte Probleme aus der Praxis Seminar für fortgeschrittene Studenten

2. Was sind überhaupt Modelle ?

Abbildungsgüte von Modellen

Fehlermaße und statistische Tests

Vorhersagekraft von Modellen

Möglichkeit der Abschätzung über die statistische Lerntheorie

Page 13: Regressionsanalyse in der Ökosystemmodellierung und Paläoumweltrekonstruktion – Ausgewählte Probleme aus der Praxis Seminar für fortgeschrittene Studenten

3. Verrauschte Daten und Amplitudenunterschätzung von Regressionsmodellen

Simulation zum Rauscheffekt auf die Amplitude des Regressionsmodels:Rein deterministische Sinus-Kurve plus künstliches weißes Rauschen (B. Thees)

Page 14: Regressionsanalyse in der Ökosystemmodellierung und Paläoumweltrekonstruktion – Ausgewählte Probleme aus der Praxis Seminar für fortgeschrittene Studenten

3. Verrauschte Daten und Amplitudenunterschätzung von Regressionsmodellen

yx

yxxy

yx

xy

SN

SNSNSN

S

SSc

)1(2

))1((4))1()1((

2

222222

*

x

y

s

src Unkorrigierte Steigung:

Korrigierte Steigung:

Seminar: mathematische Herleitung dieser Korrekturformel

Die korrekte Steigung kann nur bei vollkommen rauschfreien x- und y- Werten mit der Methode der kleinsten Quadrate der Residuen bestimmt werden !

Page 15: Regressionsanalyse in der Ökosystemmodellierung und Paläoumweltrekonstruktion – Ausgewählte Probleme aus der Praxis Seminar für fortgeschrittene Studenten

4. Die flache Anwendung von r2

Page 16: Regressionsanalyse in der Ökosystemmodellierung und Paläoumweltrekonstruktion – Ausgewählte Probleme aus der Praxis Seminar für fortgeschrittene Studenten

4. Die falsche Anwendung von R2

0 20 40 60 80 100 120

335

340

345

350

355

360

365

370

375

0 20 40 60 80 100 120

340

345

350

355

360

365

370

0 20 40 60 80 100 120

395

400

405

410

415

420

0 20 40 60 80 100 120

395

400

405

0 20 40 60 80 100 120 140 160

365

370

375

380

385

0 20 40 60 80 100 120

348

350

352

354

A B

FE

DC

c(t) c(t)

c(t) c(t)

c(t) c(t)

t t

s s

ppmppm

ppm

ppm

ppm ppm

s s

s s

R2lin = 0.994 R2

exp = 0.998 PF(Vexp<Vlin) < 0.0001

fluxexp/fluxlin = 1.26

R2lin = 0.979 R2

exp = 0.992 PF(Vexp<Vlin) < 0.0001

fluxexp/fluxlin = 1.54

R2lin = 0.992 R2

exp = 0.9989 PF(Vexp<Vlin) < 0.0001

fluxexp/fluxlin = 1.34

Page 17: Regressionsanalyse in der Ökosystemmodellierung und Paläoumweltrekonstruktion – Ausgewählte Probleme aus der Praxis Seminar für fortgeschrittene Studenten

4. Die falsche Anwendung von R2

0.2 0.4 0.6 0.8 1.0 1.2 ppm 1.60.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1.0

-0.6 -0.4 -0.2 0.0 0.2 0.40.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1.0

95% percentile of s

yx B

syx

A

R2

fexp

'(t0)

R2

ppm s

R2 als Screening-Kriterium entfernt fälschlicherweise die niedrigen Flüsse, nicht die gestörten

Page 18: Regressionsanalyse in der Ökosystemmodellierung und Paläoumweltrekonstruktion – Ausgewählte Probleme aus der Praxis Seminar für fortgeschrittene Studenten

4. Die falsche Anwendung von R2

-500

-400

-300

-200

-100

0

100

200

300

10:00 12:00 14:00 16:00 18:00 20:00 22:00 00:00 02:00 04:00 06:00

integral area F

net by f

lin'

integral area Fnet

by fexp

'

5 August

mg h-1m-2

4 August

Fnet

Effekt der ungeeigneten Anwendung linearer Regression auf die diurnale CO2-Bilanzierung: Fluxexp/Fluxlin = 1.5 !

Page 19: Regressionsanalyse in der Ökosystemmodellierung und Paläoumweltrekonstruktion – Ausgewählte Probleme aus der Praxis Seminar für fortgeschrittene Studenten

4. Die falsche Anwendung von R2

• R2 ist ein Maß für die durch ein Modell erklärte Streuung von Daten.

• R2 allein ist jedoch kein geeignetes Maß um die Gültigkeit eines Modells zu beurteilen !

• R2 ist auch kein gutes Screening-Kriterium für Experimente hinsichtlich ihres Rauschens oder groben Störungen.

• Besser: RSME, Standardabweichung der Residuen, Reduktion der Varianz, Chi2-Tests, Akaike Information Criterion, F-Test zum Vergleich der Varianz der Residuen zweier Modelle, VC-Dimension

• Anwendung von als „abgesichert gedachter“ linearer Regression kann zu starken Verzerrungen von C-Fluss-Bilanzierungen führen!

Page 20: Regressionsanalyse in der Ökosystemmodellierung und Paläoumweltrekonstruktion – Ausgewählte Probleme aus der Praxis Seminar für fortgeschrittene Studenten

4. Die falsche Anwendung von R2

Verschiedene Methoden:

1970er: Mikrometeorologische und Erntemethoden: Tundra C-Senke (keine lineare Regression involviert)

1980er: Haubemethode: Tundra C-Quelle (lineare Regression involviert)

Wie aussagekräftig ist eine solche Studie ???

Page 21: Regressionsanalyse in der Ökosystemmodellierung und Paläoumweltrekonstruktion – Ausgewählte Probleme aus der Praxis Seminar für fortgeschrittene Studenten

5. Abbildende versus erklärende Modelle – Ein schrittweises Verfahren zur Reduktion eines multiplen linearen Regressionsmodells zur Bestimmung von signifikanten unabhängigen Modellparametern

Dimension des Modells: Radj, VC-Dimension

Multicollinearitäts-Test

t-Test ob Parameter signifikant <> 0

F-Test ob R2 > 0

Statistik der Residuen: Autokorrelation, Homoskedastizität, Normalverteilung?

Zeitverschiebungseffekte?

Nichtlineare Effekte?

pp xc...xcxccy 22110

Page 22: Regressionsanalyse in der Ökosystemmodellierung und Paläoumweltrekonstruktion – Ausgewählte Probleme aus der Praxis Seminar für fortgeschrittene Studenten

5. Abbildende versus erklärende Modelle – Ein schrittweises Verfahren zur Reduktion eines multiplen linearen Regressionsmodells zur Bestimmung von signifikanten unabhängigen Modellparametern

Page 23: Regressionsanalyse in der Ökosystemmodellierung und Paläoumweltrekonstruktion – Ausgewählte Probleme aus der Praxis Seminar für fortgeschrittene Studenten

6. Zum Problem einer möglichen Zeitverschiebung zwischen Regressoren und Regressanden für Regressionsmodelle insbesondere für die Paläoumweltrekonstruktion

7. Zeit für Vertiefungen nach Bedarf

Page 24: Regressionsanalyse in der Ökosystemmodellierung und Paläoumweltrekonstruktion – Ausgewählte Probleme aus der Praxis Seminar für fortgeschrittene Studenten

Grundsätzliche Gedanken zum Schluss:

Am Anfang jeder Modellbildung sollten die Daten stehen, erst später sollten „vorgefertigte“ deterministische Ideen einbezogen werden.

Von „Kochbuch“-Statistik“ ist abzuraten.

Die theoretischen Grundvorraussetzungen der Regressionsanalyse sind nicht nebensächlich !

Falsch angewendete Statistik kann zu stark verzerrten

Ergebnissen führen.

Die Einarbeitung in die mathematischen Grundlagen der Regressionsmethoden erlaubt eine bessere Beurteilung eigener und fremder Forschungsergebnisse.

Page 25: Regressionsanalyse in der Ökosystemmodellierung und Paläoumweltrekonstruktion – Ausgewählte Probleme aus der Praxis Seminar für fortgeschrittene Studenten

Literaturtipp:

C. Wunsch. 2007. Extremes, Patterns, and Other Structures in Oceanographic and Climate Records. Aha Hulika'a Hawaiin Winter Workshop on Extreme Events. In press.

“My eye is better than any statistical test.”Well-known paleoceanographer, circa 2001.

pdf here:

http://ocean.mit.edu/~cwunsch/papersonline/wunschaha2007.pdf

Page 26: Regressionsanalyse in der Ökosystemmodellierung und Paläoumweltrekonstruktion – Ausgewählte Probleme aus der Praxis Seminar für fortgeschrittene Studenten
Page 27: Regressionsanalyse in der Ökosystemmodellierung und Paläoumweltrekonstruktion – Ausgewählte Probleme aus der Praxis Seminar für fortgeschrittene Studenten

S. McIntyre 2007: http://www.climateaudit.org/?p=2245

IPCC, 2007: Box 6.4