33
Clusteranalyse von Maria Eickhold und Tobias Töpfer

Clusteranalyse von Maria Eickhold und Tobias Töpfer

Embed Size (px)

Citation preview

Page 1: Clusteranalyse von Maria Eickhold und Tobias Töpfer

Clusteranalyse

von

Maria Eickhold

und

Tobias Töpfer

Page 2: Clusteranalyse von Maria Eickhold und Tobias Töpfer

Gliederung

1. Einführung

2. Vorstellen des Beispiels

3. Proximitätsmaße

4. Methoden zur Clusterbildung

5. Homogenitätsbeurteilung

6. Zusammenfassung

Page 3: Clusteranalyse von Maria Eickhold und Tobias Töpfer

1. Einführung

• „Clusteranalyse“ ist Sammelbegriff für verschiedene Verfahren Objekte auf Grund verschiedener Merkmale zu Klassen/ Clustern zusammen zu fassen

• Andere Methode: Schwellenwerte weniger objektiv

• Klassen sollen in sich möglichst homogen sein, untereinander aber maximal unähnliche Ausprägungen der herangezogenen Merkmale aufweisen

Page 4: Clusteranalyse von Maria Eickhold und Tobias Töpfer

Anwendung in der Geographie:

• Hier dient die Clusteranalyse hauptsächlich dazu, Raumeinheiten sinnvoll zu gliedern um sie vergleichbar zu machen.

• Durch Clusterung wird eine große Menge von Einzel-Daten überschaubar

Page 5: Clusteranalyse von Maria Eickhold und Tobias Töpfer

Vorraussetzungen zur Durchführung einer Clusteranalyse

• Verschiedene Merkmale haben verschiedene Maßeinheiten Standardisieren :

• unabhängige (orthogolnale) Variablen • Variablen sollten auf ein Ziel/ Zweck

abgestimmt sein • Faktorenanalyse zum herausfiltern der

wichtigsten Variablen bietet sich an

x

ii S

XXZ

(Rosner 2001: 21)

Page 6: Clusteranalyse von Maria Eickhold und Tobias Töpfer

http://dev.lib.utexas.edu/maps/africa/tunisia_pol_1990.jpg(Stand: 09.06.2002)

2. Tunesien-Beispiel

Klimastation

Page 7: Clusteranalyse von Maria Eickhold und Tobias Töpfer

3. Proximitäts-/ Ähnlichkeitsmaße

3.1.1. Manhattan-/ City-Block Distanz

MD

m

ijkd

1ikij xx

djk: Distanz der Objekte „j“ u. „k"

xi: herangezogenes Merkmal

xij: Ausprägung des Merkmals

„i“ bei Objekt „j“

Entfernung entlang der Koordinatenachsen

x1j x1k

x2k

x2j

(Bahrenberg et al. 1992: 282)

Page 8: Clusteranalyse von Maria Eickhold und Tobias Töpfer

3.1.2 Quadratische euklidische Distanz

EDQ

m

ijkd

1

2ikij )x(x

Große Entfernungen (>1) werden stärker gewichtet, als kleine (<1)

Euklidische Distanz

EDjkm

i

d 1

2ikij )x(x

Luftlinienentfernung

x2j

x2k

x1j x1k x1

x2

(Bahrenberg et al. 1992: 282)

(Bahrenberg et al. 1992: 282)

Page 9: Clusteranalyse von Maria Eickhold und Tobias Töpfer

3.1.3 Korrelationskoeffizient zwischen

zwei VariablencosCORjkr

rjk: Korrelationskoeffizient

zwischen den Objekten „j“ u. „k";

mögliche Werte zwischen +1 u.-1 (je größer der Wert, desto größer die Ähnlichkeit)

x1

x2

(Bahrenberg et al. 1992: 282)

Page 10: Clusteranalyse von Maria Eickhold und Tobias Töpfer

Ähnlichkeitsmatrix QED(Tunesien-Beispiel)

Erstellt mit SPSSGrundlage: Standardisierte Werte für Temperatur und

geographische Breite

Page 11: Clusteranalyse von Maria Eickhold und Tobias Töpfer

3.2 Proximitätsmaße bei Objekten mit nominal skalierten Merkmalen

Beispiele: weiblich/männlich

Nationalität

Voraussetzung: Binäre Variablenstruktur

Ergebnis: Ähnlichkeitsmaße

Wert 0 = absolute Unähnlichkeit

Wert 1 = absolute Ähnlichkeit

Page 12: Clusteranalyse von Maria Eickhold und Tobias Töpfer

Objekt1

Objekt 2

Eigenschaft vorhanden

Eigenschaft nicht vorhanden

Zeilensumme

Eigenschaft vorhanden

a c a + c

Eigenschaft nicht vorhanden

b d b + d

Spaltensumme a + b c + d a + b + c + d = m

Nach: Backhaus et al. 1994: 265 (verändert)

3.2 Proximitätsmaße bei Objekten mit

nominal skalierten Merkmalen

Kombinationsmöglichkeiten binärer Variablen

Page 13: Clusteranalyse von Maria Eickhold und Tobias Töpfer

3.2 Beispiel-Datenmatrix für Proximitäts- maße

Eigenschaft

  

Personen

weiblich Rentner Schüler Monatl. Eink.

> 1000 €

Max 0 1 0 1

Helmut 0 0 0 1

Vivian 1 0 1 0

Melanie 1 0 0 1

Jörg 0 1 0 1

(0: Eigenschaft nicht vorhanden; 1: Eigenschaft vorhanden)

Page 14: Clusteranalyse von Maria Eickhold und Tobias Töpfer

3.2.1 Simple-Matching-Koeffizient (M-K.):

3.2 Proximitätsmaße bei Objekten mit nominal skalierten Merkmalen

(Backhaus et al. 1994: 266)

mit: Sjk : Ähnlichkeit zwischen den Objekten j u. k

m

daS jk

Page 15: Clusteranalyse von Maria Eickhold und Tobias Töpfer

3.2.1 Beispiel für Simple-Matching- Koeffizient (M-K.)

  Max Helmut Vivian Melanie Jörg

Max 1        

Helmut 0,75 1      

Vivian 0 0,25 1    

Melanie 0,5 0,75 0,5 1  

Jörg 1 0,75 0 0,5 1

Page 16: Clusteranalyse von Maria Eickhold und Tobias Töpfer

3.2.2 Tanimoto- bzw. Jaccard-Koeffizient:

3.2 Proximitätsmaße bei Objekten mit nominal skalierten Merkmalen

cba

aS jk

(Backhaus et al. 1994: 266)

mit: Sjk : Ähnlichkeit zwischen den Objekten j u. k

Page 17: Clusteranalyse von Maria Eickhold und Tobias Töpfer

3.2.2 Beispiel für Tanimoto- bzw. Jaccard-Koeffizient  Max Helmut Vivian Melanie Jörg

Max 1        

Helmut 0,5 1      

Vivian 0 0 1    

Melanie 0,5 0,5 0,33 1  

Jörg 1 0,5 0 0,33 1

Page 18: Clusteranalyse von Maria Eickhold und Tobias Töpfer

4. Methoden zur ClusterbildungA

us: Rosner 2001:

65

Page 19: Clusteranalyse von Maria Eickhold und Tobias Töpfer

4.1 Complete Linkage

CskCrjdMaxd jkCsCr ,,,

Als Entfernung zwischen 2 Clustern wird die Distanz ihrer äußersten Punkte gemessen. Fusioniert werden die Cluster mit der geringsten Distanz.

Eigenschaften:

Zur Zuordnung sehr nahe liegender Objekte neigend Kleinere, homogenere Cluster

(Bahrenberg et al. 1992: 285)

Page 20: Clusteranalyse von Maria Eickhold und Tobias Töpfer

Durchführung des Complete-Linkage- Verfahrens mit QED Beispiel Tunesien

1. Ausgabe der Ähnlichkeitsmatrix

2. Zuordnungsübersicht

3. Linkage Tree

4. Elbow-Diagramm zur Festlegung der Anzahl der Cluster

Vorstellung der SPSS Komponenten

Page 21: Clusteranalyse von Maria Eickhold und Tobias Töpfer

Zuordnungsübersicht

5 7 5,982E-03 0 0 5

3 11 9,266E-03 0 0 3

1 3 1,952E-02 0 2 4

1 13 2,037E-02 3 0 6

4 5 3,092E-02 0 1 6

1 4 3,992E-02 4 5 12

16 17 5,905E-02 0 0 13

21 22 6,454E-02 0 0 19

6 12 9,563E-02 0 0 17

18 23 ,121 0 0 14

8 14 ,158 0 0 18

1 2 ,206 6 0 15

15 16 ,296 0 7 20

18 19 ,454 10 0 16

1 10 ,494 12 0 17

18 20 ,628 14 0 19

1 6 ,906 15 9 20

8 9 1,171 11 0 21

18 21 1,275 16 8 22

1 15 1,543 17 13 21

1 8 3,731 20 18 22

1 18 7,506 21 19 0

Schritt1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

Cluster 1 Cluster 2

ZusammengeführteCluster

Koeffizienten Cluster 1 Cluster 2

Erstes Vorkommendes Clusters Nächster

Schritt

Zuordnungs-übersicht

Complete-Linkage; QED

Ähnlich-keitsmatrix

QED

Page 22: Clusteranalyse von Maria Eickhold und Tobias Töpfer

Zuordnungsübersicht

5 7 5,982E-03 0 0 5

3 11 9,266E-03 0 0 3

1 3 1,952E-02 0 2 4

1 13 2,037E-02 3 0 6

4 5 3,092E-02 0 1 6

1 4 3,992E-02 4 5 12

16 17 5,905E-02 0 0 13

21 22 6,454E-02 0 0 19

6 12 9,563E-02 0 0 17

18 23 ,121 0 0 14

8 14 ,158 0 0 18

1 2 ,206 6 0 15

15 16 ,296 0 7 20

18 19 ,454 10 0 16

1 10 ,494 12 0 17

18 20 ,628 14 0 19

1 6 ,906 15 9 20

8 9 1,171 11 0 21

18 21 1,275 16 8 22

1 15 1,543 17 13 21

1 8 3,731 20 18 22

1 18 7,506 21 19 0

Schritt1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

Cluster 1 Cluster 2

ZusammengeführteCluster

Koeffizienten Cluster 1 Cluster 2

Erstes Vorkommendes Clusters Nächster

Schritt

Linkage-Tree

Page 23: Clusteranalyse von Maria Eickhold und Tobias Töpfer

Elbow- Diagramm (Festlegung der Anzahl der Cluster)Zuordnungsübersicht

5 7 5,982E-03 0 0 5

3 11 9,266E-03 0 0 3

1 3 1,952E-02 0 2 4

1 13 2,037E-02 3 0 6

4 5 3,092E-02 0 1 6

1 4 3,992E-02 4 5 12

16 17 5,905E-02 0 0 13

21 22 6,454E-02 0 0 19

6 12 9,563E-02 0 0 17

18 23 ,121 0 0 14

8 14 ,158 0 0 18

1 2 ,206 6 0 15

15 16 ,296 0 7 20

18 19 ,454 10 0 16

1 10 ,494 12 0 17

18 20 ,628 14 0 19

1 6 ,906 15 9 20

8 9 1,171 11 0 21

18 21 1,275 16 8 22

1 15 1,543 17 13 21

1 8 3,731 20 18 22

1 18 7,506 21 19 0

Schritt1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

Cluster 1 Cluster 2

ZusammengeführteCluster

Koeffizienten Cluster 1 Cluster 2

Erstes Vorkommendes Clusters Nächster

Schritt

Ähnlichkeiten

0

1

2

3

4

5

6

7

8

Distanzen

Schritte

Page 24: Clusteranalyse von Maria Eickhold und Tobias Töpfer

Z-Wert(TEMP)

210-1-2-3

Z-W

ert

(GE

OB

RE

)

1,5

1,0

,5

0,0

-,5

-1,0

-1,5

-2,0

Clusterung mit QED und Complete Linkage

am Tunesien-

Beispiel

mit 2 Clustern O

mit 3 Clustern O

Mit 4 Clustern O

Page 25: Clusteranalyse von Maria Eickhold und Tobias Töpfer

Als Entfernung zwischen 2 Clustern wird die Distanz ihrer sich am nächsten liegenden Punkte gemessen. Fusioniert werden die Cluster mit der geringsten Distanz.

CskCrjdMind jkCsCr ,,,

Eigenschaften:

Neigt dazu, entferntere Objekte zuzuordnen Entstehung wenigerer größerer Cluster

Ausreißer

Neigt zur Verkettung von Objekten

4.2 Single Linkage

(Bahrenberg et al. 1992: 285)

Page 26: Clusteranalyse von Maria Eickhold und Tobias Töpfer

Alle Distanzen zwischen allen Objekten eines Clusters und allen Objekten eines anderen Clusters werden addiert und durch die Anzahl aller betreffenden Objekte dividiert.

jkCskCrjsr

CsCr dnn

d

11

, (Bahrenberg et al. 1992: 285)

4.3 Average-Linkage

Page 27: Clusteranalyse von Maria Eickhold und Tobias Töpfer

Streudiagramm mit Klimastationsnummern

47

1

3: zwischen 4 und 1

11

5

213

21

22

2318

20

19

17

1615

10

126

9

148

33

33,5

34

34,5

35

35,5

36

36,5

37

37,5

38

14 15 16 17 18 19 20 21 22

Jahresdurchschnittstemperatur in °C

Ge

og

rap

hisc

he B

reite

in °

4.3 Clusterung mit QED und Average-Linkage

am Tunesien-

Beispiel

mit 2 Clustern O

mit 3 Clustern O

Mit 4 Clustern O

Page 28: Clusteranalyse von Maria Eickhold und Tobias Töpfer

Als Entfernung zwischen 2 Clustern wird die Distanz ihrer immer neu berechneten Mittelpunkte (Zentroide) gemessen. Fusioniert werden die Cluster mit der geringsten Distanz.

4.4 Zentroid Linkage

ZsZrCsCr dd ,, Z: Zentroid(Bahrenberg et al. 1992: 285)

Page 29: Clusteranalyse von Maria Eickhold und Tobias Töpfer

Fusionskriterium: geringe Streuung (Varianz)

Voraussetzung: quadrierte euklidische Distanzen

Ziel: möglichst homogene Cluster

4.5 Ward-Verfahren

Vorgehen: 1. Bestimmung der Clustervarianz

2. Bestimmung der Gesamtvarianz

3. Zusammenfassung von Clustern unter der

Bedingung minimaler Steigerung der

Gesamtvarianz

Eigenschaften: - ordnet Objekte „richtig“ den Gruppen zu

- bildet in etwa gleich große Cluster

Page 30: Clusteranalyse von Maria Eickhold und Tobias Töpfer

4. 5 Clusterung mit QED und Ward

am Tunesien-

Beispiel

mit 2 Clustern O

mit 3 Clustern O

Mit 4 Clustern O

Streudiagramm mit Klimastationsnummern

47

1

3: zwischen 4 und 1

11

5

213

21

22

2318

20

19

17

1615

10

126

9

148

33

33,5

34

34,5

35

35,5

36

36,5

37

37,5

38

14 15 16 17 18 19 20 21 22

Jahresdurchschnittstemperatur in °C

Ge

og

rap

hisc

he B

reite

in °

Page 31: Clusteranalyse von Maria Eickhold und Tobias Töpfer

4.6. Übersicht über die Ergebnisse mit den Verschiedenen Clusterbildungsverfahren

Z-Wert(TEMP)

210-1-2-3

Z-W

ert

(GE

OB

RE

)

1,5

1,0

,5

0,0

-,5

-1,0

-1,5

-2,0

Z-Wert(TEMP)

210-1-2-3

Z-W

ert

(GE

OB

RE

)

1,5

1,0

,5

0,0

-,5

-1,0

-1,5

-2,0

Z-Wert(TEMP)

210-1-2-3

Z-W

ert

(GE

OB

RE

)

1,5

1,0

,5

0,0

-,5

-1,0

-1,5

-2,0

Zentroid

Zentroid

Single

Ward Z-Wert(TEMP)

210-1-2-3

Z-W

ert

(GE

OB

RE

)

1,5

1,0

,5

0,0

-,5

-1,0

-1,5

-2,0

Average

mit 2 Clustern O

mit 3 Clustern O

Mit 4 Clustern O

Page 32: Clusteranalyse von Maria Eickhold und Tobias Töpfer

5. Homogenitätsbeurteilung

)(

),(

JV

GJVF

mit: V(J,G): Varianz der Variablen J in Cluster GV(J): Varianz der Variablen J in der Erhebungs-gesamtheit

(Backhaus et al. 1994: 310)F-Wert:

Verfahren: F-Werte für alle Variablen bestimmen

Ergebnis: wenn alle F-Werte < 1, dann gilt Cluster als vollkommen homogen

Page 33: Clusteranalyse von Maria Eickhold und Tobias Töpfer

6. Zusammenfassung

• Clusteranalyse dient der Gruppenbildung

• Vielfältige Methoden – welche, abhängig von Frage und Objekten

• Manipulationsmöglichkeiten;

Stichwort: Herbeiclustern

• Dokumentation der Methoden

• Gruppenbildung Generalisierung

Informationsverlust

• Cluster verbal interpretieren und charakterisieren