Upload
ortrun-ebsen
View
107
Download
0
Embed Size (px)
Citation preview
Clusteranalyse
von
Maria Eickhold
und
Tobias Töpfer
Gliederung
1. Einführung
2. Vorstellen des Beispiels
3. Proximitätsmaße
4. Methoden zur Clusterbildung
5. Homogenitätsbeurteilung
6. Zusammenfassung
1. Einführung
• „Clusteranalyse“ ist Sammelbegriff für verschiedene Verfahren Objekte auf Grund verschiedener Merkmale zu Klassen/ Clustern zusammen zu fassen
• Andere Methode: Schwellenwerte weniger objektiv
• Klassen sollen in sich möglichst homogen sein, untereinander aber maximal unähnliche Ausprägungen der herangezogenen Merkmale aufweisen
Anwendung in der Geographie:
• Hier dient die Clusteranalyse hauptsächlich dazu, Raumeinheiten sinnvoll zu gliedern um sie vergleichbar zu machen.
• Durch Clusterung wird eine große Menge von Einzel-Daten überschaubar
Vorraussetzungen zur Durchführung einer Clusteranalyse
• Verschiedene Merkmale haben verschiedene Maßeinheiten Standardisieren :
• unabhängige (orthogolnale) Variablen • Variablen sollten auf ein Ziel/ Zweck
abgestimmt sein • Faktorenanalyse zum herausfiltern der
wichtigsten Variablen bietet sich an
x
ii S
XXZ
(Rosner 2001: 21)
http://dev.lib.utexas.edu/maps/africa/tunisia_pol_1990.jpg(Stand: 09.06.2002)
2. Tunesien-Beispiel
Klimastation
3. Proximitäts-/ Ähnlichkeitsmaße
3.1.1. Manhattan-/ City-Block Distanz
MD
m
ijkd
1ikij xx
djk: Distanz der Objekte „j“ u. „k"
xi: herangezogenes Merkmal
xij: Ausprägung des Merkmals
„i“ bei Objekt „j“
Entfernung entlang der Koordinatenachsen
x1j x1k
x2k
x2j
(Bahrenberg et al. 1992: 282)
3.1.2 Quadratische euklidische Distanz
EDQ
m
ijkd
1
2ikij )x(x
Große Entfernungen (>1) werden stärker gewichtet, als kleine (<1)
Euklidische Distanz
EDjkm
i
d 1
2ikij )x(x
Luftlinienentfernung
x2j
x2k
x1j x1k x1
x2
(Bahrenberg et al. 1992: 282)
(Bahrenberg et al. 1992: 282)
3.1.3 Korrelationskoeffizient zwischen
zwei VariablencosCORjkr
rjk: Korrelationskoeffizient
zwischen den Objekten „j“ u. „k";
mögliche Werte zwischen +1 u.-1 (je größer der Wert, desto größer die Ähnlichkeit)
x1
x2
(Bahrenberg et al. 1992: 282)
Ähnlichkeitsmatrix QED(Tunesien-Beispiel)
Erstellt mit SPSSGrundlage: Standardisierte Werte für Temperatur und
geographische Breite
3.2 Proximitätsmaße bei Objekten mit nominal skalierten Merkmalen
Beispiele: weiblich/männlich
Nationalität
Voraussetzung: Binäre Variablenstruktur
Ergebnis: Ähnlichkeitsmaße
Wert 0 = absolute Unähnlichkeit
Wert 1 = absolute Ähnlichkeit
Objekt1
Objekt 2
Eigenschaft vorhanden
Eigenschaft nicht vorhanden
Zeilensumme
Eigenschaft vorhanden
a c a + c
Eigenschaft nicht vorhanden
b d b + d
Spaltensumme a + b c + d a + b + c + d = m
Nach: Backhaus et al. 1994: 265 (verändert)
3.2 Proximitätsmaße bei Objekten mit
nominal skalierten Merkmalen
Kombinationsmöglichkeiten binärer Variablen
3.2 Beispiel-Datenmatrix für Proximitäts- maße
Eigenschaft
Personen
weiblich Rentner Schüler Monatl. Eink.
> 1000 €
Max 0 1 0 1
Helmut 0 0 0 1
Vivian 1 0 1 0
Melanie 1 0 0 1
Jörg 0 1 0 1
(0: Eigenschaft nicht vorhanden; 1: Eigenschaft vorhanden)
3.2.1 Simple-Matching-Koeffizient (M-K.):
3.2 Proximitätsmaße bei Objekten mit nominal skalierten Merkmalen
(Backhaus et al. 1994: 266)
mit: Sjk : Ähnlichkeit zwischen den Objekten j u. k
m
daS jk
3.2.1 Beispiel für Simple-Matching- Koeffizient (M-K.)
Max Helmut Vivian Melanie Jörg
Max 1
Helmut 0,75 1
Vivian 0 0,25 1
Melanie 0,5 0,75 0,5 1
Jörg 1 0,75 0 0,5 1
3.2.2 Tanimoto- bzw. Jaccard-Koeffizient:
3.2 Proximitätsmaße bei Objekten mit nominal skalierten Merkmalen
cba
aS jk
(Backhaus et al. 1994: 266)
mit: Sjk : Ähnlichkeit zwischen den Objekten j u. k
3.2.2 Beispiel für Tanimoto- bzw. Jaccard-Koeffizient Max Helmut Vivian Melanie Jörg
Max 1
Helmut 0,5 1
Vivian 0 0 1
Melanie 0,5 0,5 0,33 1
Jörg 1 0,5 0 0,33 1
4. Methoden zur ClusterbildungA
us: Rosner 2001:
65
4.1 Complete Linkage
CskCrjdMaxd jkCsCr ,,,
Als Entfernung zwischen 2 Clustern wird die Distanz ihrer äußersten Punkte gemessen. Fusioniert werden die Cluster mit der geringsten Distanz.
Eigenschaften:
Zur Zuordnung sehr nahe liegender Objekte neigend Kleinere, homogenere Cluster
(Bahrenberg et al. 1992: 285)
Durchführung des Complete-Linkage- Verfahrens mit QED Beispiel Tunesien
1. Ausgabe der Ähnlichkeitsmatrix
2. Zuordnungsübersicht
3. Linkage Tree
4. Elbow-Diagramm zur Festlegung der Anzahl der Cluster
Vorstellung der SPSS Komponenten
Zuordnungsübersicht
5 7 5,982E-03 0 0 5
3 11 9,266E-03 0 0 3
1 3 1,952E-02 0 2 4
1 13 2,037E-02 3 0 6
4 5 3,092E-02 0 1 6
1 4 3,992E-02 4 5 12
16 17 5,905E-02 0 0 13
21 22 6,454E-02 0 0 19
6 12 9,563E-02 0 0 17
18 23 ,121 0 0 14
8 14 ,158 0 0 18
1 2 ,206 6 0 15
15 16 ,296 0 7 20
18 19 ,454 10 0 16
1 10 ,494 12 0 17
18 20 ,628 14 0 19
1 6 ,906 15 9 20
8 9 1,171 11 0 21
18 21 1,275 16 8 22
1 15 1,543 17 13 21
1 8 3,731 20 18 22
1 18 7,506 21 19 0
Schritt1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
Cluster 1 Cluster 2
ZusammengeführteCluster
Koeffizienten Cluster 1 Cluster 2
Erstes Vorkommendes Clusters Nächster
Schritt
Zuordnungs-übersicht
Complete-Linkage; QED
Ähnlich-keitsmatrix
QED
Zuordnungsübersicht
5 7 5,982E-03 0 0 5
3 11 9,266E-03 0 0 3
1 3 1,952E-02 0 2 4
1 13 2,037E-02 3 0 6
4 5 3,092E-02 0 1 6
1 4 3,992E-02 4 5 12
16 17 5,905E-02 0 0 13
21 22 6,454E-02 0 0 19
6 12 9,563E-02 0 0 17
18 23 ,121 0 0 14
8 14 ,158 0 0 18
1 2 ,206 6 0 15
15 16 ,296 0 7 20
18 19 ,454 10 0 16
1 10 ,494 12 0 17
18 20 ,628 14 0 19
1 6 ,906 15 9 20
8 9 1,171 11 0 21
18 21 1,275 16 8 22
1 15 1,543 17 13 21
1 8 3,731 20 18 22
1 18 7,506 21 19 0
Schritt1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
Cluster 1 Cluster 2
ZusammengeführteCluster
Koeffizienten Cluster 1 Cluster 2
Erstes Vorkommendes Clusters Nächster
Schritt
Linkage-Tree
Elbow- Diagramm (Festlegung der Anzahl der Cluster)Zuordnungsübersicht
5 7 5,982E-03 0 0 5
3 11 9,266E-03 0 0 3
1 3 1,952E-02 0 2 4
1 13 2,037E-02 3 0 6
4 5 3,092E-02 0 1 6
1 4 3,992E-02 4 5 12
16 17 5,905E-02 0 0 13
21 22 6,454E-02 0 0 19
6 12 9,563E-02 0 0 17
18 23 ,121 0 0 14
8 14 ,158 0 0 18
1 2 ,206 6 0 15
15 16 ,296 0 7 20
18 19 ,454 10 0 16
1 10 ,494 12 0 17
18 20 ,628 14 0 19
1 6 ,906 15 9 20
8 9 1,171 11 0 21
18 21 1,275 16 8 22
1 15 1,543 17 13 21
1 8 3,731 20 18 22
1 18 7,506 21 19 0
Schritt1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
Cluster 1 Cluster 2
ZusammengeführteCluster
Koeffizienten Cluster 1 Cluster 2
Erstes Vorkommendes Clusters Nächster
Schritt
Ähnlichkeiten
0
1
2
3
4
5
6
7
8
Distanzen
Schritte
Z-Wert(TEMP)
210-1-2-3
Z-W
ert
(GE
OB
RE
)
1,5
1,0
,5
0,0
-,5
-1,0
-1,5
-2,0
Clusterung mit QED und Complete Linkage
am Tunesien-
Beispiel
mit 2 Clustern O
mit 3 Clustern O
Mit 4 Clustern O
Als Entfernung zwischen 2 Clustern wird die Distanz ihrer sich am nächsten liegenden Punkte gemessen. Fusioniert werden die Cluster mit der geringsten Distanz.
CskCrjdMind jkCsCr ,,,
Eigenschaften:
Neigt dazu, entferntere Objekte zuzuordnen Entstehung wenigerer größerer Cluster
Ausreißer
Neigt zur Verkettung von Objekten
4.2 Single Linkage
(Bahrenberg et al. 1992: 285)
Alle Distanzen zwischen allen Objekten eines Clusters und allen Objekten eines anderen Clusters werden addiert und durch die Anzahl aller betreffenden Objekte dividiert.
jkCskCrjsr
CsCr dnn
d
11
, (Bahrenberg et al. 1992: 285)
4.3 Average-Linkage
Streudiagramm mit Klimastationsnummern
47
1
3: zwischen 4 und 1
11
5
213
21
22
2318
20
19
17
1615
10
126
9
148
33
33,5
34
34,5
35
35,5
36
36,5
37
37,5
38
14 15 16 17 18 19 20 21 22
Jahresdurchschnittstemperatur in °C
Ge
og
rap
hisc
he B
reite
in °
4.3 Clusterung mit QED und Average-Linkage
am Tunesien-
Beispiel
mit 2 Clustern O
mit 3 Clustern O
Mit 4 Clustern O
Als Entfernung zwischen 2 Clustern wird die Distanz ihrer immer neu berechneten Mittelpunkte (Zentroide) gemessen. Fusioniert werden die Cluster mit der geringsten Distanz.
4.4 Zentroid Linkage
ZsZrCsCr dd ,, Z: Zentroid(Bahrenberg et al. 1992: 285)
Fusionskriterium: geringe Streuung (Varianz)
Voraussetzung: quadrierte euklidische Distanzen
Ziel: möglichst homogene Cluster
4.5 Ward-Verfahren
Vorgehen: 1. Bestimmung der Clustervarianz
2. Bestimmung der Gesamtvarianz
3. Zusammenfassung von Clustern unter der
Bedingung minimaler Steigerung der
Gesamtvarianz
Eigenschaften: - ordnet Objekte „richtig“ den Gruppen zu
- bildet in etwa gleich große Cluster
4. 5 Clusterung mit QED und Ward
am Tunesien-
Beispiel
mit 2 Clustern O
mit 3 Clustern O
Mit 4 Clustern O
Streudiagramm mit Klimastationsnummern
47
1
3: zwischen 4 und 1
11
5
213
21
22
2318
20
19
17
1615
10
126
9
148
33
33,5
34
34,5
35
35,5
36
36,5
37
37,5
38
14 15 16 17 18 19 20 21 22
Jahresdurchschnittstemperatur in °C
Ge
og
rap
hisc
he B
reite
in °
4.6. Übersicht über die Ergebnisse mit den Verschiedenen Clusterbildungsverfahren
Z-Wert(TEMP)
210-1-2-3
Z-W
ert
(GE
OB
RE
)
1,5
1,0
,5
0,0
-,5
-1,0
-1,5
-2,0
Z-Wert(TEMP)
210-1-2-3
Z-W
ert
(GE
OB
RE
)
1,5
1,0
,5
0,0
-,5
-1,0
-1,5
-2,0
Z-Wert(TEMP)
210-1-2-3
Z-W
ert
(GE
OB
RE
)
1,5
1,0
,5
0,0
-,5
-1,0
-1,5
-2,0
Zentroid
Zentroid
Single
Ward Z-Wert(TEMP)
210-1-2-3
Z-W
ert
(GE
OB
RE
)
1,5
1,0
,5
0,0
-,5
-1,0
-1,5
-2,0
Average
mit 2 Clustern O
mit 3 Clustern O
Mit 4 Clustern O
5. Homogenitätsbeurteilung
)(
),(
JV
GJVF
mit: V(J,G): Varianz der Variablen J in Cluster GV(J): Varianz der Variablen J in der Erhebungs-gesamtheit
(Backhaus et al. 1994: 310)F-Wert:
Verfahren: F-Werte für alle Variablen bestimmen
Ergebnis: wenn alle F-Werte < 1, dann gilt Cluster als vollkommen homogen
6. Zusammenfassung
• Clusteranalyse dient der Gruppenbildung
• Vielfältige Methoden – welche, abhängig von Frage und Objekten
• Manipulationsmöglichkeiten;
Stichwort: Herbeiclustern
• Dokumentation der Methoden
• Gruppenbildung Generalisierung
Informationsverlust
• Cluster verbal interpretieren und charakterisieren