View
110
Download
1
Category
Preview:
Citation preview
Ausgleichungsrechnung IIGerhard Navratil
Geostatistik
• Einführung
• Statistische Grundbegriffe
• Geostatistische Begriffe
• Variogramm
• Explorative Datenanalyse
• Prädiktion und Krigen
Ausgleichungsrechnung IIGerhard Navratil
Was ist Geostatistik?
• Statistik, die sich auf die Erde bezieht• Problem: Erde hält sich nicht immer an
mathematisch wünschenswerte Eigenschaften (Stetigkeit)
• In verschiedenen Geowissenschaften ange-wendet (Geographie, Geologie, Geophysik etc.)
• Noel Cressie: Statistische Theorie im Zusam-menhang mit Prozessen, die mit räumlichen Indizes behaftet sind.
Ausgleichungsrechnung IIGerhard Navratil
Definition Geostatistik (1)
• Modellierung von Daten als Realisierung eines Zufallsprozesses{Z(x):xD}wobei D der d-dimensionale Raum ist und x darin variieren kann.
• In der Praxis: Schätzungen aufgrund weniger Proben
Ausgleichungsrechnung IIGerhard Navratil
Definition Geostatistik (2)
• Zeitlich-räumlicher Prozess: Dann definiert über{Z(x,t):xD, tT}
• Im folgenden: Datenbereich rein räumlich, auch wenn über größerer Zeitraum erhoben
• Gezeigt wird: Schließen von Daten an bekannten Orten auf den Prozess
Ausgleichungsrechnung IIGerhard Navratil
Definition Geostatistik (3)
• Geostatistik = Anwendung stochastischer Prozesse in den Geowissenschaften
• Dient Analyse und Modellierung raum-bezogener Daten
• Bei ‚einfacher‘ Ausgleichungsrechnung Raumbezug nicht verwendet
Ausgleichungsrechnung IIGerhard Navratil
Geostatistik = Arbeit im Team
• Daten verschiedenster Herkunft Teamarbeit, z.B. Geologe, Montanist, Finanzmanager, Statistiker
• Aufgaben des Statistikers– Erstellen eines Probenplanes– Zusammenfassen/Visualisieren der Daten– Suche nach Ausreißern/räuml. Strukturen– Schätzen von Gesamt-/Durchschnittswerten– Inter- und Extrapolation
Ausgleichungsrechnung IIGerhard Navratil
Beispiele
• Exploration von Erzlagerstätten oder Erdölvorkommen
• Analyse von Bodenverunreinigungen
• Niederschlagsmengen/Temperaturwerte prädizieren
• Grundwassermodellierung
Ausgleichungsrechnung IIGerhard Navratil
Datengewinnung
z.B.
• Entnahme von Bodenproben
• Erfassung mittels Messgeräten
• Direkte Beobachtung
Ausgleichungsrechnung IIGerhard Navratil
Verwendetes Beispiel
• Aus Cressie: Statistics for Spatial Data
• Messungen des Kohlengehaltes auf dem Gelände der Robena-Mine (Pennsylvania)
• Nahezu regelmäßiger Raster mit einer Maschenweite von 2500ft (~750m)
• Kein rechteckiges Gebiet
Ausgleichungsrechnung IIGerhard Navratil
Statistische Grundbegriffe
• Momente einer Verteilung
• Quartil
• Median
• Interquartiler Bereich
• Quantile
Ausgleichungsrechnung IIGerhard Navratil
Momente einer Verteilung
• Mittelwert (Moment 1. Ordnung)
• Streuung oder Standardabweichung (zentrales Moment 2. Ordnung)
• Schiefe (zentrales Moment 3. Ordnung)
• Normalverteilung charakterisiert durch Mittelwert und Streuung – nicht robust!
Ausgleichungsrechnung IIGerhard Navratil
Quantil
• Wert, der den -Anteil der Daten von den übrigen (1-) Daten abtrennt: -Quantil
• Angabe in Prozent: Perzentil
• Median: 50%-Perzentil oder 0,5-Quantil
• Quartile:– Unteres Quartil = 0,25-Quantil – Oberes Quartil = 0,75-Quantil
Ausgleichungsrechnung IIGerhard Navratil
Interquartiler Bereich
• Bereich zwischen unterem und oberem Quartil (0,75-Quantil – 0,25-Quantil)
• Umfasst 50% der Daten
• Vergleichbar mit Streuung – hohe Stabilität
• Bei exakter Normalverteilung gilt
1,394
Bereichilerinterquartapprox
Ausgleichungsrechnung IIGerhard Navratil
Geostatistische Begriffe
• Regionalisierte Zufallsvariable– Zufallsvariable– Zufallsprozess– Regionalisierte Zufallsvariable– Realisierung einer Zufallsvariable
• Stationarität
Ausgleichungsrechnung IIGerhard Navratil
Zufallsvariable Z
• Ist eine (veränderliche) Größe
• Wird in einem zufälligen Versuch untersucht
• Nimmt verschiedene Werte an
• Hat eine Verteilung (also Erwartungswert, Streuung, etc.)
Ausgleichungsrechnung IIGerhard Navratil
Zufallsprozess Z(t)
• Ist eine Zufallsvariable
• Nach einem Parameter t geordnet (meist nach der Zeit)
• Besitzt somit statistische Verteilung und zeitliche Struktur (=Abhängigkeit)
• Abhängigkeit beschrieben durch Kovarianzfunktion
Ausgleichungsrechnung IIGerhard Navratil
Regionalisierte Zufallsvariable
• Auch: Räumlicher Zufallsprozess Z(x)• Zufallsvariable mit räumlicher Struktur• Parameter x ist ein Ortsvektor im d-
dimensionalen Raum• Besitzt somit statistische Verteilung und
räumliche Struktur (=Abhängigkeit)• Abhängigkeit beschrieben durch Variogramm
bzw. Kovariogramm• Keine Vergangenheit/Gegenwart/Zukunft• Dimension (theoretisch) nicht beschränkt
Ausgleichungsrechnung IIGerhard Navratil
Realisierung einer Zufallsvariablen
• Ist im allgemeinen ein skalarer Wert z(x)
• Kann ein geometrischer Messwert sein
• Aber auch: Schadstoffgehalt der Luft, Gesteinsdichte, Lärmpegel, etc.
Ausgleichungsrechnung IIGerhard Navratil
Geostatistik
• Statistische Untersuchung von Daten-sätzen, die mit Orten verknüpft sind, also regionalisierte Zufallsvariablen
• Annahme: Bestimmte Struktur, also Korrelation zwischen z(x) und z(x+h)
• Beschrieben durch Variogramm/Kovario-gramm
Ausgleichungsrechnung IIGerhard Navratil
Stationarität
• Bestimmung der Parameter der Ver-teilungsfunktion: Mehrere Datensätze an jedem Punkt nötig
• Ist meist nicht möglich (mehrere Boden-proben?) oder zu teuer
• Annahme: Eigenschaften ändern sich nicht mit dem Ort – ist meist erfüllt wenn vorausgehende Transformationen erlaubt (Elimination des Trend)
Ausgleichungsrechnung IIGerhard Navratil
Intrinsische Stationarität (1)
• Für jedes Z(x) existiert ein Erwartungswert E(Z(x)), der unabhängig vom Ort x ist
• Insbesondere gilt auchalso frei von einem Trend
• Erwartungswert geschätzt aus Proben zu
xx ZE
0 hxx ZZE
n
iiz
nZEm
1
1
Ausgleichungsrechnung IIGerhard Navratil
Intrinsische Stationarität (2)
• Für jedes Z(x) existiert eine Varianz Var(Z(x)), die unabhängig vom Ort x ist
• Varianz kann aus empirischen Proben geschätzt werden zu
xx 2ZVar
n
ii mz
nZEs
1
222
1
1
Ausgleichungsrechnung IIGerhard Navratil
Intrinsische Stationarität (3)
• Die Varianz der Differenz Z(x1)–Z(x2) ist nur von der relativen Lage der Orte abhängig
mit h=x1–x2
• Wenn alle drei Bedingungen erfüllt: homogen und isotrop
21212
21 ,)()( xxhxxxx CCZZE
Ausgleichungsrechnung IIGerhard Navratil
Variogramm (1)
• Beschreibt die Korrelation zwischen räumlich strukturierten Realisierungen einer regionalisierten Zufallsvariablen
• Für homogene, isotrope Felder definiert als
• Aus empirischen Daten für Abstand h (lag) geschätzt als
2212121 )(2)(2 xxxxhxx ZZEZZVar
hN
iii hxZxZ
hNh
1
21)(2
Anzahl der Messwertpaare mit Abstand h
Ausgleichungsrechnung IIGerhard Navratil
Variogramm (2)
• Praktische Berechnung: Oft Einteilung in Abstandsklassen - Aus n Werten alle n(n-1)/2 Paare gebildet, für jedes Paar Abstand und Quadrat der Messwertdifferenz gebildet in äquidistente Klassen geteilt
• Variogrammwert dann
• Variogramm definiert als 2, Semi-Variogramm ist das halbe Variogramm
hN
ijim ZZ
hNh
1
21)(2
Ausgleichungsrechnung IIGerhard Navratil
Eigenschaften (1)
• Verhalten im Bereich des Ursprungs: (0)=0• In der Praxis: Bei Messwerten mit kleinem
Abstand tritt Differenz auf= Nugget Effekt
• Ursachen: Letzte Information zu Nullpunkt extrapoliert, Medium hat kleinste Körnung (Microscale Effect), Messgenauigkeit
• Microscale und Messgenauigkeit als stochastisch unabhängig modelliert
0lim 2
0
F hh
Ausgleichungsrechnung IIGerhard Navratil
Eigenschaften (2)
• Varianz des Zufallsfeldes
• Mit wachsendem h steigt das Variogramm
• Oft ab Schwellenwert konstant (Kovarianz gleich Null)
• Korrelationsweite (range): Ab hier Differenz zwischen Funktionswert und Varianz kleiner als gewählter Wert
• Grenzwert: Schwellenwert (sill)
22222IFMEMS
Ausgleichungsrechnung IIGerhard Navratil
Ausgleichungsrechnung IIGerhard Navratil
Theoretische Variogramme (1)
• Nugget Effekt aus kürzesten Paaren er-mittelt, über Paare in bestimmtem Abstand diskrete Funktionswerte für 2, aber keine eindeutige Funktion!
• Ergebnis kann sich mit anderen Klassen-größen erheblich ändern
• Funktion muss bestimmte Bedingungen erfüllen, unterschiedliche Modelle entwickelt
Ausgleichungsrechnung IIGerhard Navratil
Theoretische Variogramme (2)
• Lineares Modellkein Schwellenwert
• Sphärisches Modell
• Exponentielles Modell
Schwellenwert
0h
0h
hh
c20
0
a
aaa
s
s
h
hhh
0h
h
220
3
220 0
2
1
2
3
0
0h
0h
hh
ae e1
0
220
220 e
Ausgleichungsrechnung IIGerhard Navratil
Theoretische Variogramme (3)
• Rational-quadratisches Modell
• Wellen-Modell
• Potenz-Modell
0hh
h
0h
h
a
r2
2220
1
0
0h
h
h0h
h aa
w
sin1
0
220
0h
0h
hh
220
0
p
Ausgleichungsrechnung IIGerhard Navratil
LinearSpärisch
ExponentiellRational-quadratisch
WellenPotenz
Ausgleichungsrechnung IIGerhard Navratil
Anisotrope Variogramme
• Bisher h immer Vektor – sinnvoll, wenn ab-hängig von Richtung (Staubimmissionen und Wind)
• Anisotropie oft mit Transformationen behebbar
• Im Allgemeinen: Isotrope Variogramme
mit (d,d)-Matrix A zur Transformation geometrische Anisotropie
hh A022
Ausgleichungsrechnung IIGerhard Navratil
Kovariogramm/Korrelogramm (1)
• Kovariogramm beschreibt wie Variogramm die räumliche Struktur. Bei Stationarität definiert durch
• Entspricht Autokovarianzfunktion bei Zeitprozessen
• Korrelogramm: Normieren, also
hxxh ZZC ,cov
0C
C hh
Ausgleichungsrechnung IIGerhard Navratil
Kovariogramm/Korrelogramm (2)
• Beziehungen
• Variogramm und Kovariogramm können ineinander übergeführt werden, wenn stationär
10
hh
hh CC
Ausgleichungsrechnung IIGerhard Navratil
Explorative Datenanalyse
• Datenmaterial prüfen auf– Ausreißer– Verteilung– räumliche Struktur
• Grundsätzlich: Daten, die nicht zum Modell passen, sollen erkannt werden
• Modell meist Gauß‘sches Modell• Ausreißer über bekannte Tests• Räumlicher Modellanteil: Daten die nicht zu
ihren Nachbarn passen
Ausgleichungsrechnung IIGerhard Navratil
Visualisierung
• Einfache Methoden: Histogramme, Stamm-und-Blatt Darstellung, Box-Plot
• Kandidaten für Ausreißer über Betrachten der Darstellung
• Nächster Schritt: Visualisierung der räumlichen Struktur – z.B. Lageplots der Messpunkte, Tabellen mit Messwerten, axonometrische 3D-Darstellung Stationarität, Trend
Ausgleichungsrechnung IIGerhard Navratil
6
6
7 003
7 66678888899
8 00111222222234
8 56666666788888899999999
9 000000001111122222223333333444444
9 555555666666666778888888888999999999
10 000000001111111222222333334444444
10 56666667777788888899999
11 0000011122222223344
11 5666689
12
12 568
13 11
13
14
14
15
15
16
16
17
17 6
Unterscheidet sich stark von denÜbrigen Werten – Ausreißer?
Ausgleichungsrechnung IIGerhard Navratil
Ausgleichungsrechnung IIGerhard Navratil
Ausreißer fastnicht sichtbar!
Ausgleichungsrechnung IIGerhard Navratil
Trendermittlung (1)
• Bisherige Methoden: Veranschaulichung
• Reihen- und spaltenweises Ermitteln von Mittelwert und Median: Trend bzw. nicht stationäre Stellen
• Stationär: Median = Mittelwert
• Ausreißer: Überdurchschnittlich große Differenz
Ausgleichungsrechnung IIGerhard Navratil
Trendermittlung (2)
• Annahme: Werte unabhängig und gleich-verteilt, Erwartungswert , Varianz , Dichtefunktion f
• Mittelwert:
• Median:
• Es gilt undnormiert die Differenz
iYn
Y1
f
Y
nY i
2
sign1~
1
2
~var
2 n
YY7555,0
~YY
nu
Ausgleichungsrechnung IIGerhard Navratil
Anscheinend Trend inOst-West-Richtung
In einigen Zeilen/SpaltenAbstand Mittelwert-MedianGroß – Ausreißer?
Ausgleichungsrechnung IIGerhard Navratil
Bivariater Scatter-Plot (1)
• Methode um Ausreißer sichtbar zu machen
• X-Achse: Werte z(x)
• Y-Achse: Werte z(x+h)
• Ausreißer fallen deutlich aus dem Schema
Ausgleichungsrechnung IIGerhard Navratil
Bivariater Scatter-Plot (2)
Ausgleichungsrechnung IIGerhard Navratil
Prädiktion und Krigen (1)
• Bisher Daten an vorhandenen Stellen beurteilt
• Jetzt: Schätzen von Daten an Stellen, an denen nicht gemessen wurde
• Ausgang: Zufallsprozess von dem n Daten z(xi) erhoben wurden, Daten werden verwendet um Prozess zu beschreiben
• Ziel: Prädiktion einer bekannten Funktion g
Ausgleichungsrechnung IIGerhard Navratil
Prädiktion und Krigen (2)
• Einfachster Fall: Punktschätzung
• Häufig auch: Schätzen des Durchschnittes eines Blocks
• Gestaltung der Funktion ermöglicht Glättung, Filterung und Prädiktion
• Krigen: Prädiktionsform, abgeleitet von Methode der kleinsten Quadrate
B
B
dxZV
Zg x1
0xZFg
Ausgleichungsrechnung IIGerhard Navratil
Prädiktion und Krigen (3)
• Best: wirksam
• Linear: lineare Schätzfunktion
• Unbiased: erwartungstreu
• Estimator: Schätzer
• Kollokation war ähnlich aber ohne Erwartungstreue
Ausgleichungsrechnung IIGerhard Navratil
Prädiktor (1)
• Prädiktor p(Z;x0) schätzt Wert Z(x0) auf-grund der Daten Z=(Z(x1), …, Z(xn))
• Verlustfunktion (loss function) L(Z(x0),p(Z;x0)) Abweichung tatsächlicher Wert – prädizierter Wert
• Optimaler Prädiktor, wenn Bayes‘sches Risiko E{L} minimal
• Häufige Verlustfunktion: Quadratfehler-verlust (squared-error loss)
Ausgleichungsrechnung IIGerhard Navratil
Prädiktor (2)
• Lineare und nicht-lineare Ansätze möglich
• Im Folgenden: Linear, also
• Parameter l1, …, ln, k so zu bestimmen, dass Erwartungswert minimal
• Eingesetzt in Verlustfunktion: Bayes‘sches Risiko wird
iiZlkp xxZ 0;
200
2
0
var
iiii
ii
lkxZlxZ
ZlkxZE
xx
x
Ausgleichungsrechnung IIGerhard Navratil
Prädiktor (3)
• Mit und mit erhalten wir
• Minimaler Prädiktionsfehler:
• Diese Form der Prädiktion:Simple Kriging (einfaches Krigen) – nicht erwartungstreu aber geringster Prädiktionsfehler
iilxk x 01 Σcl TT
TnCC xxxxc ,, 010 0
100; xZΣcxZlxZ TTp
cΣcxx 100
2 TSK C
Ausgleichungsrechnung IIGerhard Navratil
Gewöhnliches Krigen (1)
• Wieder Daten an n Punkten bekannt, Prädiktionsfunktion wie vorher
• Weitere Annahmen:
• 1. Bed.: Mittelwert für alle Werte gleich stationärer Zufallsprozess, Beschreibung durch Variogramm
• 2. Bed.: Erwartungstreue
1; 0
iii mitZp
Z
xxZ
xx
Ausgleichungsrechnung IIGerhard Navratil
Gewöhnliches Krigen (2)
• Verlustfunktion wie vorher
• Zu minimieren ist
• Unter der Bedingung können wir schreiben
122
0 iii mZxZE x
iii
i jjiji
ii
ZZZZ
ZZ
20
2
2
0
2
1xxxx
xx
1 i
Ausgleichungsrechnung IIGerhard Navratil
Gewöhnliches Krigen (3)
• Wenn das Modell gilt, können wir schreiben
• Ableitung nach i und m gleich Null gesetzt gibt
122
12
02
2
0
ii
iii j
jii
iii
m
mZZE
xxxx
xx
ss Z
1
00
i
ijii m
xxxx
Ausgleichungsrechnung IIGerhard Navratil
Gewöhnliches Krigen (4)
• In Vektorform
• Aufgelöst nach i ergibt sich
• Ergebnis ändert sich nicht, wenn statt Variogramm (h) das Variogramm (h)+c verwendet wird (ev. stabilere Numerik)
• Mittlerer Prädiktionsfehler (Krige-Varianz)
000
01
00
ll
lxx
1
211
0002 1
T
TT
jiT
K m
Ausgleichungsrechnung IIGerhard Navratil
A-priori-Prädiktion
• Wenn Variogramm bekannt, kann ein geplanter Probenplan a priori untersucht werden
• Notwendige Koeffizienten ergeben sich aus Abstand der Punkte und Variogramm
Ausgleichungsrechnung IIGerhard Navratil
Einfluss des Nugget-Effektes (1)
• Aufgliederung notwendig:
• Abweichungen (x) setzen sich zusammen aus stationärem Prozess und Messrauschen:
• Wenn Z(x) mit dem vorigen Formelapparat prädiziert, dann Wert mit Störeinflüssen
eigentlich nur erlaubt wenn (x)=0
222IF
Anteil aufgrund einesstationären Prozesses
Anteil aufgrund desMessrauschens
xxx
Ausgleichungsrechnung IIGerhard Navratil
Einfluss des Nugget-Effektes (2)
• Richtiger: Messfehlerfreie Version von Z prädizieren (richtiger Wert ist gesucht!)
• Es giltoder
• Dann gilt
• Zu minimieren ist also
• Und man kommt auf
000 xxx SZ xx 0S
1; 0 iii mitZp xxZ
122
0 iii mZSE xx
*0
100
Ausgleichungsrechnung IIGerhard Navratil
Universal Kriging
• Erweitert die Theorie des Ordinary Kriging• Statt neue Annahme
• Summe: Linearkombination aus bekannten Werten mit unbekannten Parametern, die den Mittelwert beschreibt
• Besteht aus beliebigen Funktionen p, daher sehr universell
xx Z
xxx
1
111
p
jjifZ
Ausgleichungsrechnung IIGerhard Navratil
ENDE
Recommended