14
Statistische Methoden in der Wirtschafts- und Sozialgeographie Ort: Multimediapool Rechenzentrum Zeit: Mittwoch 10.15-11-45 Uhr Material: http://www.geomodellierung.de Thema: Beschreibung und Analyse Wirtschafts- und Sozialgeographischen Datenmaterials mit multivariaten Statistikmethoden wie Regressions-, Faktor-, Cluster- oder Diskriminanzanalyse. Einblick in Schätz-, Test- und Modellierungstheorie Statistische Methoden WS2002/2003 Tim Hoffmann Folie 1

Statistische Methoden in der Wirtschafts- und Sozialgeographie Ort: Multimediapool Rechenzentrum Zeit: Mittwoch 10.15-11-45 Uhr Material:

Embed Size (px)

Citation preview

Page 1: Statistische Methoden in der Wirtschafts- und Sozialgeographie Ort: Multimediapool Rechenzentrum Zeit: Mittwoch 10.15-11-45 Uhr Material:

Statistische Methoden in der Wirtschafts- und Sozialgeographie

Ort: Multimediapool Rechenzentrum

Zeit: Mittwoch 10.15-11-45 Uhr

Material: http://www.geomodellierung.de

Thema: Beschreibung und Analyse Wirtschafts- und Sozialgeographischen Datenmaterials mit multivariaten Statistikmethoden wie Regressions-, Faktor-, Cluster- oder Diskriminanzanalyse. Einblick in Schätz-, Test- und Modellierungstheorie

Statistische Methoden WS2002/2003 Tim Hoffmann Folie 1

Page 2: Statistische Methoden in der Wirtschafts- und Sozialgeographie Ort: Multimediapool Rechenzentrum Zeit: Mittwoch 10.15-11-45 Uhr Material:

Inhalt 11. Lehrveranstaltung

11 Clusteranalyse

11.0 Problem 11.1 Voraussetzungen und Ziel11.2 Grundidee11.3 Distanzmaße11.4 Fusionsprozess11.5 Linkage-Methoden11.6 Interpretation der Ergebnisse11.7 Methode zur Bestimmung der Anzahl der Cluster11.8 Ausführung mit SPSS

Statistische Methoden WS2002/2003 Tim Hoffmann Folie 2 / LV11

Page 3: Statistische Methoden in der Wirtschafts- und Sozialgeographie Ort: Multimediapool Rechenzentrum Zeit: Mittwoch 10.15-11-45 Uhr Material:

Statistische Methoden WS2002/2003 Tim Hoffmann Folie 3 / LV11

11 Clusteranalyse

11.0 Problem

Ein wichtige Aufgabe der Statistiker ist die Klassifizierung. Ihr Ziel ist es, die Untersuchungsobjekte in sinnvolle Gruppen zusammenzufassen. Diese Gruppen (Klassen, Cluster) sollen sich durch gemeinsame Eigenschaften auszeichnen. Doch wie „misst“ man diese Gemeinsamkeiten?

Die Clusteranalyse steht somit im Gegensatz zur Faktorenanalyse. In ihr werden Fälle gruppiert, in der Faktorenanalyse fasst man die Variablen zusammen.

Page 4: Statistische Methoden in der Wirtschafts- und Sozialgeographie Ort: Multimediapool Rechenzentrum Zeit: Mittwoch 10.15-11-45 Uhr Material:

11.1 Voraussetzungen und Ziel

Hauptkomponenten- und Faktorenanalyse

Zahl der Variablen: eins, zwei oder mehr (multivariates Verfahren)

Art der Skalierung: intervalls- oder ordinalskalierte Variablen

Erhebung: Stichproben- oder Vollerhebung

Ziel: Klassifizierung (Clusterung) der Merkmalsträger (Fälle)

Statistische Methoden WS2002/2003 Tim Hoffmann Folie 4 / LV11

Page 5: Statistische Methoden in der Wirtschafts- und Sozialgeographie Ort: Multimediapool Rechenzentrum Zeit: Mittwoch 10.15-11-45 Uhr Material:

11.2 Grundidee

Statistische Methoden WS2002/2003 Tim Hoffmann Folie 4 / LV11

Gegeben sei eine Menge von n Variablen. Die Menge der Variablen spannen einen n-dimensionalen Raum auf.

Einzelne Merkmalsträger sind Punkte (oder Vektoren) in diesem Zustandsraum.

Merkmalsträger mit ähnlichen Eigenschaften, liegen in dem Raum „dicht“ beieinander.

1.Frage: Wie misst man den Abstand der Objekte im Zustandsraum? -> Distanzmaß

Mit einem bestimmten Verfahren können „dicht“ liegende Objekte zusammengefasst werden.

2.Frage: Mit welchem Algorithmus werden die Cluster gebildet? -> Fusionsprozess

Page 6: Statistische Methoden in der Wirtschafts- und Sozialgeographie Ort: Multimediapool Rechenzentrum Zeit: Mittwoch 10.15-11-45 Uhr Material:

11.3 Distanzmaße

Statistische Methoden WS2002/2003 Tim Hoffmann Folie 6 / LV11

In der Mathematik werden Distanzmaße als Metrik bezeichnet. Zwei Punkten in einem Koordinatensystem X(x1,..,xn), Z(z1,..,zn) werden mit Hilfe der Metrik ein Abstand zugewiesen. Die bekannteste ist wohl die Euklidische Metrik:

2222

211 )(...)()( nn zxzxzxd

x1

x2

x

Z

d

City-Block-Metrik (r = 1):

nn zxzxzxd ...2211

x1

x2

x

Z

d

allgemein: Minkowski-Metrik

rr

nn

rrzxzxzxd ...2211

(sinnvoll für intervallskalierte

Variablen)

(sinnvoll für Rangordnungs-

variablen)

Euklidische Metrik (r = 2):

Page 7: Statistische Methoden in der Wirtschafts- und Sozialgeographie Ort: Multimediapool Rechenzentrum Zeit: Mittwoch 10.15-11-45 Uhr Material:

11.4 Fusionsprozess

Die Abstandsfrage ist nun geklärt, wie werden die die Cluster zusammengefasst?

1. Methode : Hierarchische Clusteranalyse:

1. Startcluster sind die einzelnen Merkmalsträger.

2. Nun werden mit einer bestimmten Linkage-Methode benachbarte Cluster erkannt und solange zusammengefasst, bis nur noch ein Cluster existiert.

3. Analysiert man die Reihenfolge der Clusterung, kann man ähnlich, wie bei der Abschätzung der Anzahl der Faktoren bei der Faktoranalyse Aussagen zur besten Anzahl von Clustern treffen!

2. Methode : Cluster-Zentren-Analyse:

• Startcluster sind besondere für die spätere Gruppe sehr typische Fälle. (Cluster-Zentrum).

• Für jeden Fall wird jetzt untersucht, welches das nächste Clusterzentrum ist und diesem zugeordnet

Statistische Methoden WS2002/2003 Tim Hoffmann Folie 7 / LV11

Page 8: Statistische Methoden in der Wirtschafts- und Sozialgeographie Ort: Multimediapool Rechenzentrum Zeit: Mittwoch 10.15-11-45 Uhr Material:

Bestehen zwei Cluster aus mehreren Fällen, gibt es verschiedene Möglichkeiten, den Abstand D der Cluster zu bestimmen:

Zentroid-Clustering:

D ist Abstand zwischen den Mittelpunkten der Cluster.

Single Linkage („Nearest Neighbor“) Minimums-Methode :

D ist der kleinste aller möglichen Abstände zwischen den Clusterbestandteilen. Es entstehen im allgemeinen lang gezogene Cluster. Gute Methode zum Ausschluss von Ausreißern!

Aber: Tendenz zur Bildung von wenigen großen Gruppen denen viele kleine Gruppen gegenüberstehen.

Complete Linkage („Nearest Neighbor“) Maximums-Methode :

D ist der größte aller möglichen Abstände zwischen den Clusterbestandteilen. Es entstehen im allgemeinen runde Cluster. Es entstehen sehr homogene Cluster!

Aber: Homogene Cluster sind manchmal nicht erwünscht!

11.5 Linkage-Methoden (Abstandsmaße für Cluster)

Statistische Methoden WS2002/2003 Tim Hoffmann Folie 8 / LV11

Page 9: Statistische Methoden in der Wirtschafts- und Sozialgeographie Ort: Multimediapool Rechenzentrum Zeit: Mittwoch 10.15-11-45 Uhr Material:

Statistische Methoden WS2002/2003 Tim Hoffmann Folie 9 / LV11

11.5 Linkage-Methoden (Fortsetzung - Auszug aus SPSS Online Hilfe)

Linkage zwischen den Gruppen: Kombiniert Cluster, um die Durchschnittsdistanz zwischen allen Itempaaren zu verkleinern, in denen ein Teil des Paares aus jeweils einem Cluster stammt. Diese Methode verwendet Informationen über alle Distanzpaare, nicht nur das nächstgelegene oder das Entfernteste.

Linkage innerhalb der Gruppen: Kombiniert Cluster auf die Art, dass die Durchschnittsdistanz zwischen allen Items innerhalb des entstandenen Clusters so klein wie möglich ist. Die Distanz zwischen zwei Clustern wird dann als Durchschnittswert aller Distanzen zwischen allen möglichen Fallpaaren des Clusters genommen, der entstehen würde, wenn sie kombiniert wären.

Median-Clustering: Die beiden kombinierten Cluster werden bei der Berechnung des Zentroidwerts gleich gewichtet; dabei spielt es keine Rolle, wie viele Fälle jeder enthält. Auf diese Weise können kleine Gruppen bei der Charakterisierung größerer Cluster, in die sie integriert werden, gleich große Effekte haben.

Wards Methode: Mit dieser Methode werden zuerst die Mittelwerte für jede Variable innerhalb der einzelnen Cluster berechnet. Anschließend wird für jeden Fall die Quadrierte Euklidische Distanz zu den Cluster-Mittelwerten berechnet. Diese Distanzen werden für alle Fälle summiert. Bei jedem Schritt sind die beiden zusammengeführten Cluster diejenigen, die die geringste Zunahme in der Gesamtsumme der quadrierten Distanzen innerhalb der Gruppen ergeben.

Page 10: Statistische Methoden in der Wirtschafts- und Sozialgeographie Ort: Multimediapool Rechenzentrum Zeit: Mittwoch 10.15-11-45 Uhr Material:

Statistische Methoden WS2002/2003 Tim Hoffmann Folie 10 / LV11

11.6 Interpretation der Ergebnisse

11.6.1 Distanzmatrix

Proximity Matrix

0 3675 45445 18937 7265 13441 59283 42473 8085

3675 0 28930 11874 18038 9010 39114 25746 18746

45445 28930 0 8948 78804 16948 39676 3792 83798

18937 11874 8948 0 37144 2736 40068 13356 41346

7265 18038 78804 37144 0 29304 90020 79596 2146

13441 9010 16948 2736 29304 0 31564 16412 29218

59283 39114 39676 40068 90020 31564 0 25812 79010

42473 25746 3792 13356 79596 16412 25812 0 79438

8085 18746 83798 41346 2146 29218 79010 79438 0

Case1:Annaberg-Buchholz

2:Aue

3:Auerbach

4:Brand-Erbisdorf

5:Chemnitz-Land

6:Flöha

7:Freiberg

8:Glauchau

9:Hainichen

1:Annaberg-Buchholz 2:Aue 3:Auerbach

4:Brand-Erbisdorf

5:Chemnitz-Land 6:Flöha 7:Freiberg 8:Glauchau 9:Hainichen

Squared Euclidean Distance

This is a dissimilarity matrix

Page 11: Statistische Methoden in der Wirtschafts- und Sozialgeographie Ort: Multimediapool Rechenzentrum Zeit: Mittwoch 10.15-11-45 Uhr Material:

Statistische Methoden WS2002/2003 Tim Hoffmann Folie 11 / LV11

11.6.2 Tabelle der Aglomerationsschritte

Agglomeration Schedule

5 9 1073 0 0 5

4 6 2441 0 0 6

1 2 4279 0 0 5

3 8 6175 0 0 6

1 5 17753 3 1 8

3 4 30037 4 2 7

3 7 54351 6 0 8

1 3 131022 5 7 0

Stage1

2

3

4

5

6

7

8

Cluster 1 Cluster 2

Cluster Combined

Coefficients Cluster 1 Cluster 2

Stage Cluster FirstAppears

Next Stage

Zeigt an, in welchem Schritt welche Cluster verbunden werden!

Mit Hilfe der Werte in der Spalte Koeffizienten (Gesamtabstand in den Clustern) wird später der Scree-Plot erstellt!

Page 12: Statistische Methoden in der Wirtschafts- und Sozialgeographie Ort: Multimediapool Rechenzentrum Zeit: Mittwoch 10.15-11-45 Uhr Material:

Statistische Methoden WS2002/2003 Tim Hoffmann Folie 12 / LV11

11.6.3 Dendrogramm

Page 13: Statistische Methoden in der Wirtschafts- und Sozialgeographie Ort: Multimediapool Rechenzentrum Zeit: Mittwoch 10.15-11-45 Uhr Material:

Scree-Test

Statistische Methoden WS2002/2003 Tim Hoffmann Folie 13 / LV11

Am schwierigsten ist jedoch, den einzelnen Clustern eine Bedeutung zuzuweisen -> das ist die wahre Kunst des Statistikers !!

11.7 Methode zur Bestimmung der Anzahl der Cluster

Scree-Plott

0

20000

40000

60000

80000

100000

120000

140000

87654321

Anzahl der Cluster

Ges

amta

bst

and

in

den

Clu

ster

n

Ziel:

Möglichst wenige Cluster mit möglichst geringem Gesamtabstand!

Page 14: Statistische Methoden in der Wirtschafts- und Sozialgeographie Ort: Multimediapool Rechenzentrum Zeit: Mittwoch 10.15-11-45 Uhr Material:

11.8 Ausführung mit SPSS

Analyse-> Klassifizierung -> Hierarchische Clusteranalyse

Variablen auswählen und Optionen festlegen!

Wichtig: Variablen sollten standardisiert werden, falls die Skalenausprägung unterschiedlich ist !!!

-> Muell.sav

Statistische Methoden WS2002/2003 Tim Hoffmann Folie 14 / LV11