Clusteranalyse von Maria Eickhold und Tobias Töpfer

Preview:

Citation preview

Clusteranalyse

von

Maria Eickhold

und

Tobias Töpfer

Gliederung

1. Einführung

2. Vorstellen des Beispiels

3. Proximitätsmaße

4. Methoden zur Clusterbildung

5. Homogenitätsbeurteilung

6. Zusammenfassung

1. Einführung

• „Clusteranalyse“ ist Sammelbegriff für verschiedene Verfahren Objekte auf Grund verschiedener Merkmale zu Klassen/ Clustern zusammen zu fassen

• Andere Methode: Schwellenwerte weniger objektiv

• Klassen sollen in sich möglichst homogen sein, untereinander aber maximal unähnliche Ausprägungen der herangezogenen Merkmale aufweisen

Anwendung in der Geographie:

• Hier dient die Clusteranalyse hauptsächlich dazu, Raumeinheiten sinnvoll zu gliedern um sie vergleichbar zu machen.

• Durch Clusterung wird eine große Menge von Einzel-Daten überschaubar

Vorraussetzungen zur Durchführung einer Clusteranalyse

• Verschiedene Merkmale haben verschiedene Maßeinheiten Standardisieren :

• unabhängige (orthogolnale) Variablen • Variablen sollten auf ein Ziel/ Zweck

abgestimmt sein • Faktorenanalyse zum herausfiltern der

wichtigsten Variablen bietet sich an

x

ii S

XXZ

(Rosner 2001: 21)

http://dev.lib.utexas.edu/maps/africa/tunisia_pol_1990.jpg(Stand: 09.06.2002)

2. Tunesien-Beispiel

Klimastation

3. Proximitäts-/ Ähnlichkeitsmaße

3.1.1. Manhattan-/ City-Block Distanz

MD

m

ijkd

1ikij xx

djk: Distanz der Objekte „j“ u. „k"

xi: herangezogenes Merkmal

xij: Ausprägung des Merkmals

„i“ bei Objekt „j“

Entfernung entlang der Koordinatenachsen

x1j x1k

x2k

x2j

(Bahrenberg et al. 1992: 282)

3.1.2 Quadratische euklidische Distanz

EDQ

m

ijkd

1

2ikij )x(x

Große Entfernungen (>1) werden stärker gewichtet, als kleine (<1)

Euklidische Distanz

EDjkm

i

d 1

2ikij )x(x

Luftlinienentfernung

x2j

x2k

x1j x1k x1

x2

(Bahrenberg et al. 1992: 282)

(Bahrenberg et al. 1992: 282)

3.1.3 Korrelationskoeffizient zwischen

zwei VariablencosCORjkr

rjk: Korrelationskoeffizient

zwischen den Objekten „j“ u. „k";

mögliche Werte zwischen +1 u.-1 (je größer der Wert, desto größer die Ähnlichkeit)

x1

x2

(Bahrenberg et al. 1992: 282)

Ähnlichkeitsmatrix QED(Tunesien-Beispiel)

Erstellt mit SPSSGrundlage: Standardisierte Werte für Temperatur und

geographische Breite

3.2 Proximitätsmaße bei Objekten mit nominal skalierten Merkmalen

Beispiele: weiblich/männlich

Nationalität

Voraussetzung: Binäre Variablenstruktur

Ergebnis: Ähnlichkeitsmaße

Wert 0 = absolute Unähnlichkeit

Wert 1 = absolute Ähnlichkeit

Objekt1

Objekt 2

Eigenschaft vorhanden

Eigenschaft nicht vorhanden

Zeilensumme

Eigenschaft vorhanden

a c a + c

Eigenschaft nicht vorhanden

b d b + d

Spaltensumme a + b c + d a + b + c + d = m

Nach: Backhaus et al. 1994: 265 (verändert)

3.2 Proximitätsmaße bei Objekten mit

nominal skalierten Merkmalen

Kombinationsmöglichkeiten binärer Variablen

3.2 Beispiel-Datenmatrix für Proximitäts- maße

Eigenschaft

  

Personen

weiblich Rentner Schüler Monatl. Eink.

> 1000 €

Max 0 1 0 1

Helmut 0 0 0 1

Vivian 1 0 1 0

Melanie 1 0 0 1

Jörg 0 1 0 1

(0: Eigenschaft nicht vorhanden; 1: Eigenschaft vorhanden)

3.2.1 Simple-Matching-Koeffizient (M-K.):

3.2 Proximitätsmaße bei Objekten mit nominal skalierten Merkmalen

(Backhaus et al. 1994: 266)

mit: Sjk : Ähnlichkeit zwischen den Objekten j u. k

m

daS jk

3.2.1 Beispiel für Simple-Matching- Koeffizient (M-K.)

  Max Helmut Vivian Melanie Jörg

Max 1        

Helmut 0,75 1      

Vivian 0 0,25 1    

Melanie 0,5 0,75 0,5 1  

Jörg 1 0,75 0 0,5 1

3.2.2 Tanimoto- bzw. Jaccard-Koeffizient:

3.2 Proximitätsmaße bei Objekten mit nominal skalierten Merkmalen

cba

aS jk

(Backhaus et al. 1994: 266)

mit: Sjk : Ähnlichkeit zwischen den Objekten j u. k

3.2.2 Beispiel für Tanimoto- bzw. Jaccard-Koeffizient  Max Helmut Vivian Melanie Jörg

Max 1        

Helmut 0,5 1      

Vivian 0 0 1    

Melanie 0,5 0,5 0,33 1  

Jörg 1 0,5 0 0,33 1

4. Methoden zur ClusterbildungA

us: Rosner 2001:

65

4.1 Complete Linkage

CskCrjdMaxd jkCsCr ,,,

Als Entfernung zwischen 2 Clustern wird die Distanz ihrer äußersten Punkte gemessen. Fusioniert werden die Cluster mit der geringsten Distanz.

Eigenschaften:

Zur Zuordnung sehr nahe liegender Objekte neigend Kleinere, homogenere Cluster

(Bahrenberg et al. 1992: 285)

Durchführung des Complete-Linkage- Verfahrens mit QED Beispiel Tunesien

1. Ausgabe der Ähnlichkeitsmatrix

2. Zuordnungsübersicht

3. Linkage Tree

4. Elbow-Diagramm zur Festlegung der Anzahl der Cluster

Vorstellung der SPSS Komponenten

Zuordnungsübersicht

5 7 5,982E-03 0 0 5

3 11 9,266E-03 0 0 3

1 3 1,952E-02 0 2 4

1 13 2,037E-02 3 0 6

4 5 3,092E-02 0 1 6

1 4 3,992E-02 4 5 12

16 17 5,905E-02 0 0 13

21 22 6,454E-02 0 0 19

6 12 9,563E-02 0 0 17

18 23 ,121 0 0 14

8 14 ,158 0 0 18

1 2 ,206 6 0 15

15 16 ,296 0 7 20

18 19 ,454 10 0 16

1 10 ,494 12 0 17

18 20 ,628 14 0 19

1 6 ,906 15 9 20

8 9 1,171 11 0 21

18 21 1,275 16 8 22

1 15 1,543 17 13 21

1 8 3,731 20 18 22

1 18 7,506 21 19 0

Schritt1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

Cluster 1 Cluster 2

ZusammengeführteCluster

Koeffizienten Cluster 1 Cluster 2

Erstes Vorkommendes Clusters Nächster

Schritt

Zuordnungs-übersicht

Complete-Linkage; QED

Ähnlich-keitsmatrix

QED

Zuordnungsübersicht

5 7 5,982E-03 0 0 5

3 11 9,266E-03 0 0 3

1 3 1,952E-02 0 2 4

1 13 2,037E-02 3 0 6

4 5 3,092E-02 0 1 6

1 4 3,992E-02 4 5 12

16 17 5,905E-02 0 0 13

21 22 6,454E-02 0 0 19

6 12 9,563E-02 0 0 17

18 23 ,121 0 0 14

8 14 ,158 0 0 18

1 2 ,206 6 0 15

15 16 ,296 0 7 20

18 19 ,454 10 0 16

1 10 ,494 12 0 17

18 20 ,628 14 0 19

1 6 ,906 15 9 20

8 9 1,171 11 0 21

18 21 1,275 16 8 22

1 15 1,543 17 13 21

1 8 3,731 20 18 22

1 18 7,506 21 19 0

Schritt1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

Cluster 1 Cluster 2

ZusammengeführteCluster

Koeffizienten Cluster 1 Cluster 2

Erstes Vorkommendes Clusters Nächster

Schritt

Linkage-Tree

Elbow- Diagramm (Festlegung der Anzahl der Cluster)Zuordnungsübersicht

5 7 5,982E-03 0 0 5

3 11 9,266E-03 0 0 3

1 3 1,952E-02 0 2 4

1 13 2,037E-02 3 0 6

4 5 3,092E-02 0 1 6

1 4 3,992E-02 4 5 12

16 17 5,905E-02 0 0 13

21 22 6,454E-02 0 0 19

6 12 9,563E-02 0 0 17

18 23 ,121 0 0 14

8 14 ,158 0 0 18

1 2 ,206 6 0 15

15 16 ,296 0 7 20

18 19 ,454 10 0 16

1 10 ,494 12 0 17

18 20 ,628 14 0 19

1 6 ,906 15 9 20

8 9 1,171 11 0 21

18 21 1,275 16 8 22

1 15 1,543 17 13 21

1 8 3,731 20 18 22

1 18 7,506 21 19 0

Schritt1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

Cluster 1 Cluster 2

ZusammengeführteCluster

Koeffizienten Cluster 1 Cluster 2

Erstes Vorkommendes Clusters Nächster

Schritt

Ähnlichkeiten

0

1

2

3

4

5

6

7

8

Distanzen

Schritte

Z-Wert(TEMP)

210-1-2-3

Z-W

ert

(GE

OB

RE

)

1,5

1,0

,5

0,0

-,5

-1,0

-1,5

-2,0

Clusterung mit QED und Complete Linkage

am Tunesien-

Beispiel

mit 2 Clustern O

mit 3 Clustern O

Mit 4 Clustern O

Als Entfernung zwischen 2 Clustern wird die Distanz ihrer sich am nächsten liegenden Punkte gemessen. Fusioniert werden die Cluster mit der geringsten Distanz.

CskCrjdMind jkCsCr ,,,

Eigenschaften:

Neigt dazu, entferntere Objekte zuzuordnen Entstehung wenigerer größerer Cluster

Ausreißer

Neigt zur Verkettung von Objekten

4.2 Single Linkage

(Bahrenberg et al. 1992: 285)

Alle Distanzen zwischen allen Objekten eines Clusters und allen Objekten eines anderen Clusters werden addiert und durch die Anzahl aller betreffenden Objekte dividiert.

jkCskCrjsr

CsCr dnn

d

11

, (Bahrenberg et al. 1992: 285)

4.3 Average-Linkage

Streudiagramm mit Klimastationsnummern

47

1

3: zwischen 4 und 1

11

5

213

21

22

2318

20

19

17

1615

10

126

9

148

33

33,5

34

34,5

35

35,5

36

36,5

37

37,5

38

14 15 16 17 18 19 20 21 22

Jahresdurchschnittstemperatur in °C

Ge

og

rap

hisc

he B

reite

in °

4.3 Clusterung mit QED und Average-Linkage

am Tunesien-

Beispiel

mit 2 Clustern O

mit 3 Clustern O

Mit 4 Clustern O

Als Entfernung zwischen 2 Clustern wird die Distanz ihrer immer neu berechneten Mittelpunkte (Zentroide) gemessen. Fusioniert werden die Cluster mit der geringsten Distanz.

4.4 Zentroid Linkage

ZsZrCsCr dd ,, Z: Zentroid(Bahrenberg et al. 1992: 285)

Fusionskriterium: geringe Streuung (Varianz)

Voraussetzung: quadrierte euklidische Distanzen

Ziel: möglichst homogene Cluster

4.5 Ward-Verfahren

Vorgehen: 1. Bestimmung der Clustervarianz

2. Bestimmung der Gesamtvarianz

3. Zusammenfassung von Clustern unter der

Bedingung minimaler Steigerung der

Gesamtvarianz

Eigenschaften: - ordnet Objekte „richtig“ den Gruppen zu

- bildet in etwa gleich große Cluster

4. 5 Clusterung mit QED und Ward

am Tunesien-

Beispiel

mit 2 Clustern O

mit 3 Clustern O

Mit 4 Clustern O

Streudiagramm mit Klimastationsnummern

47

1

3: zwischen 4 und 1

11

5

213

21

22

2318

20

19

17

1615

10

126

9

148

33

33,5

34

34,5

35

35,5

36

36,5

37

37,5

38

14 15 16 17 18 19 20 21 22

Jahresdurchschnittstemperatur in °C

Ge

og

rap

hisc

he B

reite

in °

4.6. Übersicht über die Ergebnisse mit den Verschiedenen Clusterbildungsverfahren

Z-Wert(TEMP)

210-1-2-3

Z-W

ert

(GE

OB

RE

)

1,5

1,0

,5

0,0

-,5

-1,0

-1,5

-2,0

Z-Wert(TEMP)

210-1-2-3

Z-W

ert

(GE

OB

RE

)

1,5

1,0

,5

0,0

-,5

-1,0

-1,5

-2,0

Z-Wert(TEMP)

210-1-2-3

Z-W

ert

(GE

OB

RE

)

1,5

1,0

,5

0,0

-,5

-1,0

-1,5

-2,0

Zentroid

Zentroid

Single

Ward Z-Wert(TEMP)

210-1-2-3

Z-W

ert

(GE

OB

RE

)

1,5

1,0

,5

0,0

-,5

-1,0

-1,5

-2,0

Average

mit 2 Clustern O

mit 3 Clustern O

Mit 4 Clustern O

5. Homogenitätsbeurteilung

)(

),(

JV

GJVF

mit: V(J,G): Varianz der Variablen J in Cluster GV(J): Varianz der Variablen J in der Erhebungs-gesamtheit

(Backhaus et al. 1994: 310)F-Wert:

Verfahren: F-Werte für alle Variablen bestimmen

Ergebnis: wenn alle F-Werte < 1, dann gilt Cluster als vollkommen homogen

6. Zusammenfassung

• Clusteranalyse dient der Gruppenbildung

• Vielfältige Methoden – welche, abhängig von Frage und Objekten

• Manipulationsmöglichkeiten;

Stichwort: Herbeiclustern

• Dokumentation der Methoden

• Gruppenbildung Generalisierung

Informationsverlust

• Cluster verbal interpretieren und charakterisieren

Recommended