14
Friedrich-Schiller-Universität Jena Institut für Geographie HptS: Analyse und Modellierung räumlicher Daten WS 2004/05 Leitung: Dr. Martin Herold Die „Weights of Evidence“ Methode Theorie und konzeptionelle Grunglagen in GIS Stephan Sonntag Matr.Nr.: 58127 Studiengang: Geographie (Diplom) Semester: 6

Die „Weights of Evidence“ Methode Theorie und ...c5hema/gis_ws04/ha/sonntag.pdf · Ein evidential theme ist laut Arc-WofE User-Guide (1998:1) ein Kartenlayer, der für die Vorhersage

Embed Size (px)

Citation preview

Friedrich-Schiller-Universität Jena Institut für Geographie HptS: Analyse und Modellierung räumlicher Daten WS 2004/05 Leitung: Dr. Martin Herold

Die „Weights of Evidence“ Methode Theorie und konzeptionelle Grunglagen in GIS

Stephan Sonntag Matr.Nr.: 58127

Studiengang: Geographie (Diplom) Semester: 6

Inhalt 1 Einleitung 2 Vorhersage von Mineralvorkommen 3 Umgang mit der Weights of Evidence Methode

3.1 Binary evidential themes

3.2 Berechnung der weights

3.3 Binäre Reklassifizierung

3.4 Bayes Theorem 4 Abschließende Betrachtung Literatur

1 Einleitung Die „Weights of Evidence“ Methode ermöglicht Wahrscheinlichkeiten im Licht verschiedener Themen (evidences), die durch Analyse oder Beobachtung gewonnen werden, zu bemessen (weight). Die Methode wurde laut Arc-WofE User-Guide (1998:1) ursprünglich für eine nicht-räumliche Anwendung entwickelt. So wurden in der medizinischen Diagnose die Symptome einer bestimmten Krankheit als Informationen (evidences) verstanden und die zugehörige Hypothese lautete: „Dieser Patient hat die Krankheit X“. Für jedes Symptom wurde ein Paar von so genannten Gewichtungen (weights) festgelegt, ein für das Vorhandensein und eine für das Nicht-Vorhandensein des Symptoms. Somit konnte in einer großen Gruppe von Patienten eine Verbindung zwischen der Häufigkeit von Symptomen und einem bestimmte Erkrankungsmuster festgestellt werden. Die errechneten weights konnten dann dafür verwendet werden, um einzuschätzen ob ein neuer Patient diese Krankheit hat, basiert auf dem Vorhandensein oder Nicht-Vorhandensein von Symptomen. 1980 wurde die „Weights of Evidence“ Methode für die Darstellung möglicher Mineralvorkommen mit Hilfe von GIS angepasst. Dabei bestehen die Themen „Evidences“ aus einer Reihe von untersuchten Datensätzen (Karten) und die Hypothese lautet: „Ist in diesem Gebiet das Vorkommen von Ablagerung X möglich“. Die weights werden durch die Zusammenhänge zwischen Bekannten Mineralvorkommen und den Werten in den Karten, die dabei als Vorhersagewerte dienen, abgeschätzt. Die Hypothese ist dann für alle möglichen Orte auf der Karte bewiesen, auf der die weights of evidence der verschiedenen Kartenlayer übereinstimmen. 2 Vorhersage von Mineralvorkommen Die physikalischen und chemischen Grundlagen, die die Bildung von Mineralvorkommen bestimmen sind zu komplex um damit Vorhersagen in mathematischer Form zu treffen. Die Vorhersage von Mineralvorkommen muss daher laut BONHAM-CARTER (1994:252) in empirischer Form geschehen mit Hilfe von deskriptiven Ablagerungsmodellen. Die Beschreibung eines Ablagerungsmodells beinhaltet eine Bewertung der chemischen und physikalischen Prozesse die die Ablagerung bestimmen. Bei der Benutzung von GIS zur Berechnung von potentiellen Mineralvorkommen, spielen so genannte Ablagerungsmodelle (deposit models) eine Rolle. Diese werden dazu benötigt, um Karten zu selektieren und abzuleiten, die gute Vorhersagen über bestimmte Ablagerungstypen treffen können und die Gewichtungen (weights) in den Vorhersagekarten (predictor map) festlegen. Die Zuweisung von Gewichtungen kann entweder in Form von statistischen Kriterien geschehen oder durch die Einschätzung aufgrund der Meinung von Experten. Bei der statistischen Methode wird versucht ein räumlicher Zusammenhang zwischen der Vorhersagekarte und der Ergebniskarte (response map) aufgrund bekannter Mineralvorkommen zu bestimmen.

Diese beiden Typen werden in datenbasierte (data-driven) und wissensbasierte (knowledge-driven) Modelle unterschieden. In Abbildung 1 sind diese beiden Typen dargestellt. In datenbasierter Modellierung werden die verschiedenen Inputkarten mit Hilfe von Modellen, wie „logistic regression“, „weights of evidence“ oder „neural network analysis“ verbunden. Bei der wissensbasierten Modellierung wird mit „fuzzy logic“, Bayesian probability“ und „Dempster-Shafer belief theory“ gearbeitet.

Abb. 1: Modelle zur Bestimmung möglicher Mineralvorkommen (Quelle: BONHAM-CARTER 1994:254) 3 Umgang mit der Weights of Evidence Methode BONHAM-CARTER 1994:317) nennt folgende Schritte die beim Umgang mit der Weights of Evidence Methode durzuführen sind:

1. Eine Anzahl von Karten muss ausgewählt werden, die brauchbare Themen (evidences) für die gegebene Fragestellung liefert (in diesem Fall die Suche nach mineralischen Ablagerungen)

2. Jede Karte, deren Thema durch eine größere Zahl von Klassen gegeben ist muss eine optimale Reklassifizierung gewählt werden um sie in binäre Form umzuwandeln. Dabei muss ein starker räumlicher Zusammenhang zwischen der Karte und den Ablagerungen gegeben sein. Die binäre Reklassifizierung soll im weiteren Verlauf der Arbeit noch diskutiert werden.

3. Untersuchung nach paarweiser Korrelation zwischen den binären Karten. Dabei müssen „problematische“ Karten gelöscht werden, die zu anderen Karten keine Korrelation aufweisen. Oder es werden verschiedene binäre Karten kombiniert um die Korrelation zu erhöhen.

4. Die unter Punkt zwei entstandenen binären Karten müssen mit einer Gleichung, deren Herleitung in dieser Arbeit beschrieben wird, verrechnet werden.

5. Eine Karte muss erstellt, die das Ergebnis der Berechnung darstellt.

Die einzelnen hier angeführten Schritte erfordern sehr viel mehr computerisierte Berechnungen als die subjektive Festlegung der weights mit anderen Methoden. Der Vorteil der Methode besteht aber darin, dass objektive Einschätzungen der weights

gegeben werden, die räumliche Zusammenhänge zwischen Kartenmustern und bekannten Vorkommen berücksichtigen. 3.1 Binary evidential themes Ein evidential theme ist laut Arc-WofE User-Guide (1998:1) ein Kartenlayer, der für die Vorhersage eines bestimmten punktuellen Objektes, zum Beispiel mineralogischen Vorkommen, dient. Die evidential themes bestehen jeweils aus zwei oder mehr Klassen. Die Weights of Evidence Methode ist nur für binarär Klassifikation geeignet, wodurch es erforderlich wird multi-class evidential themes in zwei Klassen zu generalisieren. In Abbildung 2 ist ein rechteckiger View mit einem evidential theme in zwei Klassen dargestellt. Dabei ist in der Attributtabelle der Wert 2 für Anwesenheit des Themas und für Nicht-Anwesenheit 1. Zusätzlich ist eine Anzahl von Trainingspunkten gegeben. Der Arc-WofE User-Guide (1998:1) beschreibt Trainingspunkte als Punkt-Layer, der aus Orten besteht, an deren Stelle die Objekte bekannt sind die dort vorkommen. Im Fall von geologischen Explorationsarbeiten sind die Trainingsunkte die Vorkommen bestimmter Stoffe, die bereits von Minengesellschaften und Prospektoren entdeckt worden sind. In anderen geologischen Fachgebieten könnten die Trainingspunkte Orte mit seismischer Aktivität, Störungen oder Klüfte darstellen. Die Serie von Punkten dient dazu, die Gewichtungen für jedes einzelne Thema zu berechnen. Dabei ist in der Attributtabelle der Punkte nur vermerkt, ob dort das Thema vorkommt oder nicht. Es wird nicht nach der Größe oder Ergiebigkeit der Vorkommen unterschieden. In Figur 2A sind die Grenzen der Basiskarte (Boundary of base map) dargestellt und in Figur 2B ist nur noch die Basiskarte, in der ein Teil des Themas und einige Trainingspunkte fehlen, abgebildet.

Abb. 2: A: binary evidential theme mit Trainingspunkten. B: Ausschnitt aus A (Quelle: Arc-WofE User-Guide 1998:3) Das Gebiet eines unit cell´s ist mit u km2 gegeben. Ein unit cell ist laut Arc-WofE User-Guide (1998:1) ein kleines Gebiet, dass einen zugehörigen Trainingspunkt umgibt. Die Größe dieses Gebiet muss festgelegt werden. Denn das Ergebnis der Weights of Evidence Methode ist eine Karte, in der die Wahrscheinlichkeit berechnet ist, dass ein Gebiet (unit area) einen bestimmten Trainingspunkt beinhaltet oder nicht. Folglich verändert sich die Wahrscheinlichkeit mit der gewählten unit cell Größe. Die Größe wird am Anfang des Computerprogramms gesetzt und ist für alle evidential themes und alle Trainingspunkte gleich groß. 3.2 Berechnung der weights Die folgende Berechnung der weights geschieht auf Grundlage des Arc-WofE User-Guide (1998:3-5). Die Größe der base map aus Abbildung 2 ist A(T)/u = N(T) in unit cells, wobei T die base map ist, A() das Gebiet (area) und N() die Anzahl der unit cells. Die Anzahl der Trainingspunkte innerhalb der base map ist N(D). Angenommen das evidential theme ist B, dann ist A(B)/u = N(B) in unit cells das Gebiet in dem B (zum Beispiel ein bestimmtes Mineral) vorhanden ist. Der Wert für B kann zum Beispiel 2 sein. Dementsprechend ist A( )/u = N( ) das Gebiet in dem B nicht vorhanden ist. Bei

ist dann zum Beispiel der Wert 1 anzunehmen. Wenn keine unbekannten Bereiche vorhanden sind gilt folgendes:

N(B) + N( ) = N(T).

Sind Regionen in T, wo B wegen nicht-kompletter Erkundung unbekannt ist, entsteht eine dritte Klasse mit dem Wert 0. Die Gleichung lautet dann:

N(B) + N( ) + N(missing) = N(T).

Wenn GIS verwendet wird, kann N(T), N(B) und N( ) leicht ermittelt werden. Auch die Anzahl der Trainingspunkte von B und , geschrieben als N(Bn B) und N( n D), kann leicht ermittelt werden. Die weights liefern ein Maß für den räumlichen Zusammenhang zwischen den Trainingspunkten und dem evidential theme. Ein weight muss für jede Klasse des evidential theme bestimmt werden. Ein positiver Wert bedeutet, dass mehr Punkte innerhalb der Klasse liegen als normal Wahrscheinlich sind. Umgekehrt bedeutet ein negativer Wert, dass weniger Punkte als erwartet in der Klasse vorkommen. Ein Wert von Null oder nahe Null bedeutet, dass die Trainingspunkte in der Klasse zufällig verteilt sind. Bei binären Karten, die ja aus zwei Klassen bestehen, wird W+ für ein weight benutzt, bei dem das evidential theme anwesend ist (Wert 2). W- wird dann demenstsprechend für Abwesenheit des evidential themes verwendet. Die Differenz zwischen den weights ist der Kontrast C. Also gilt: C = W+ - W-. Der Kontrast ist ein gesamtes Maß für den räumlichen Zusammenhang zwischen den Trainingspunkten und dem evidential theme, indem er die Effekte der beiden weights kombiniert. Werte für die weights zwischen 0 und 0,5 sind wenig vorhersagend, Werte zwischen 0,5 und 1 sind mäßig vorhersagend, zwischen 1 und 2 stark vorhersagend und über 2 extrem stark. Die weights für binäre Themen sind durch den Zusammenhang folgenden bedingte Wahrscheinlichkeiten gegeben: P(B¦ D) W+ = ln P(B¦ ) und P( ¦ D) W- = ln P( ¦ ) P() ist dabei das Zeichen für Wahrscheinlichkeit. Vorausgesetzt, es besteht eein einfaches Verhältnis zwischen den Gebieten, dann ist: N(Bn D) P(B¦ D) = N(D) , N(Bn ) P(B¦ ) = N( ) ,

N( n D) P( ¦ D) = N(D) und N( n ) P( ¦ ) = N( ) . N(Bn D) ist dabei die Anzahl der Trainingspunkte in Thema B. Somit ergibt sich für o. g. Gleichung: N(Bn D) / N(D) W+ = ln [N(B) - N(Bn D)] / [N(T) – N(D)] Für W- wird genauso verfahren. Die weights für die einzelnen evidential themes sind somit berechnet. 3.3 Binäre Reklassifizierung Die Konvertierung von Karten mit mehreren Klassen zu einer binären Form kann nach

BONHAM-CARTER (1994:319-320) auf zwei Arten geschehen. Zum einen subjektiv, in dem man geologische beurteilt oder aber statistisch. Bei letzterem wird die Schwelle des maximalen räumlichen Zusammenhangs zwischen der resultierenden binären Karte und dem Muster der Trainingspunkte bestimmte.

Abb. 3: Karte mit Antiklinalen und Orten bekannten Goldvorkommens (Quelle: BONHAM-CARTER 1994:319) In Abbildung 3 ist eine Karte der Antiklinalen mit mehreren Klassen dargestellt, in der auch die Punkte mit bekannten Mineralvorkommen eingetragen sind. Auch ohne

statistisches Wissen ist zu erkennen, dass die Punkte dazu tendieren in der Nähe der Antiklinalen zu liegen. Wenn aus diesem Thema (evidence) eine binäre Karte entstehen soll, besteht die Frage darin, in welcher Entfernung von den Antklinalen die beste Distanz ist um einen Schnitt zu machen. Innerhalb dieser Grenze wird das Vorkommen als Wahrscheinlich angesehen, außerhalb nicht. Wenn die Distanz zu kurz gerät wird das Gebiet kleiner und die Gefahr besteht, dass einige der Punkte mit bekannten Vorkommen nicht darin liegen. Wird die Distanz jedoch zu lang gewählt geht der Effekt, die Suche in dem Gebiet einzuengen, fast vollständig verloren. Anders als in der Abbildung dargestellt, hat die Karte 24 Buffer die in einem Intervall von 250 Metern unterteilt sind.

Abb. 4: Tabelle für die Karte der Antiklinalen (Quelle: BONHAM-CARTER 1994:322) In Abbildung 4 sind alle Klassen mit Entfernung, Größe und den dazugehörigen Trainingspunkten dargestellt. Der Kontrast in der letzten Spalte ist ein Maß für den räumlichen Zusammenhang zwischen den Punkten mit bekannten Goldvorkommen und den antiklinalen Faltenachsen. Aus der Distanz und dem Kontrast lässt sich ein Diagramm formieren, dass in Abbildung 5 dargestellt ist. In diesem Beispiel ist ein eindeutiger Zusammenhang zwischen der Karte mit den Antiklinalen und bekannten

Goldvorkommen festzustellen. Bei einer Entfernung von 1.25 km sind 51 der insgesamt 68 Vorkommen vertreten. Die Grenze auf der Karte liegt also bei 1,25 km. An dieser Stelle ergibt sich das beste Ergebnis für die Vorhersage weiterer Vorkommen. Es besteht aber auch die Möglichkeit, dass kein so klares Ergebnis aus dem Diagramm hervorgeht, weil die Trainingspunkt vielleicht nicht so eindeutig verteilt sind. In solchen Fällen muss zusätzlich eine subjektive Beurteilung unter zu Hilfenahme von fachspezifischen Kenntnissen erfolgen.

Abb. 5: Graph mit den Schwankungen des Kontrasts mit der Entfernung (Quelle: BONHAM-CARTER 1994:320)

3.4 Bayes Theorem Diese Weights of Evidence Methode basiert auf der Wahrscheinlichkeitstheorie nach Bayes. Das Bayes Theorem erlaubt in gewissem Sinne das Umkehren von Schlussfolgerungen. Vereinfacht ausgedrückt können bei bekannten Ursachen mit Hilfe des Theorems die Wahrscheinlichkeit des Auftretens eines Ereignisses berechnet werden. Das Bayes Theorem gibt an, wie man mit bedingten Wahrscheinlichkeiten rechnet. Für zwei Ergebnisse B und D lautet es: P(B¦ D) * P(D) P(D¦ B) = P(B) Hierbei ist P(D) die A-Priori-Wahrscheinlichkeit für ein Ereignis A und P(B¦ D) die Wahrscheinlichkeit für ein Ereignis B unter der Bedingung, dass D auftritt. Die A-Priori-Wahrscheinlichkeit ist in den Naturwissenschaften ein Wahrscheinlichkeitswert, der aufgrund von Vorwissen (zum Beispiel symmetrische Eigenschaften eines Würfels) gewonnen wird.

BONHAM-CARTER ET AL (1998:173) transformiert dabei den Ausdruck der Wahrscheinlichkeit in die logarhitmische Form loge. Wenn nun L() für den Logarithmus geschrieben wird, ergibt sich für den A-Posteriori-Logarhitmus (das Ergebnis der Methode) für nur ein evidential theme folgende Gleichung: L(D¦ B) = L(D) + W+ bei Vorhandensein des Themas oder: L(D¦ ) = L(D) + W-

bei Nicht-Vorhandensein des Themas. Es wird nun davon gesprochen, dass der A-Priori-Logarhitmus durch die evidences zum A-Posteriori-Logarhitmus „aktualisiert“ („updated“) wird. Dies ist nun die logarithmische Form des Bayes Theorem. Wenn zwei binäre evidential themes (B1 und B2) gegeben sind, führt das zu vier möglichen Situationen, in die sie kombiniert sein können: L(D¦ B1 n B2) = L(D) + W1

++ W2+ ,

L(D¦ 1 n B2) = L(D) + W1

-+ W2+ ,

L(D¦ B1 n 2) = L(D) + W1

+ + W2- und

L(D¦ 1 n 2) = L(D) + W1

- + W2- .

Drei oder mehreren evedential themes werden ähnlich kombiniert, indem die angemessenen weights der Themen zusätzlich addiert werden. Die abschließende Gleichung, die das Ergebnis der weights of evidence Methode liefert lautet dann: L(D¦ B1n B2n B3…Bn} = L(D) + S W+

i .

Wie bereits weiter oben beschrieben ist diese Gleichung in die Computertools integriert, die sich mit Weights of Evidence befassen. 4 Abschließende Betrachtung An dieser Stelle werden einige Vor- und Nachteile der Weights of Evidence Methode angesprochen. Die prinzipiellen Vorteile sind:

1. Die Methode ist objektiv und vermeidet eine subjektive Auswahl der Gewichtungsfaktoren (weighting factors), wie es zum Beispiel in der „Index Overlay“ Methode der Fall ist.

2. Verschiedene Kartenmuster können mit einem Modell kombiniert werden, dass relativ einfach als Computertool bedient werden kann.

3. Inputkarten mit fehlenden Daten (lückenhafte Oberfläche) können in das Modell eingefügt werden.

Zwei Nachteile der „Weights of Evidence“ Methode sind:

1. Die Kombination der Inputkarten setzt voraus, dass die Karten in Bezug auf ihre einzelnen Themen unabhängig sind.

2. „Weights of Evidence“ gemeinsam mit anderen datenbasierten Methoden ist nur in solchen Regionen zu gebrauchen, wo die Ausgangsvariable (in diesem Fall das Vorhandensein von bekannten Lagerstätten) einigermaßen gut bekannt ist.

Literatur Arc-WofE User-Guide (1998) http://ntserv.gis.nrcan.gc.ca/wofe/project.htm. Zugriff

22.11.2004. BONHAM-CARTER, G.F. (1994): Geographic Information Systems for Geoscientists:

Modeling with GIS. New York. BONHAM-CARTER, G.F., F.P. AGTERBERG & D.F. WRIGHT (1989): Weights of evidence

modeling: a new approach to mapping mineral potential. In: Statistical Applications in the Earth Sciences. Geological Survey of Canada. Nr. 89-9, 171-183.