Clusteranalyse von Maria Eickhold und Tobias Töpfer

Clusteranalyse

Maria Eickhold

Tobias Töpfer

Gliederung

1. Einführung

2. Vorstellen des Beispiels

3. Proximitätsmaße

4. Methoden zur Clusterbildung

5. Homogenitätsbeurteilung

6. Zusammenfassung

1. Einführung

• „Clusteranalyse“ ist Sammelbegriff für verschiedene Verfahren Objekte auf Grund verschiedener Merkmale zu Klassen/ Clustern zusammen zu fassen

• Andere Methode: Schwellenwerte weniger objektiv

• Klassen sollen in sich möglichst homogen sein, untereinander aber maximal unähnliche Ausprägungen der herangezogenen Merkmale aufweisen

Anwendung in der Geographie:

• Hier dient die Clusteranalyse hauptsächlich dazu, Raumeinheiten sinnvoll zu gliedern um sie vergleichbar zu machen.

• Durch Clusterung wird eine große Menge von Einzel-Daten überschaubar

Vorraussetzungen zur Durchführung einer Clusteranalyse

• Verschiedene Merkmale haben verschiedene Maßeinheiten Standardisieren :

• unabhängige (orthogolnale) Variablen • Variablen sollten auf ein Ziel/ Zweck

abgestimmt sein • Faktorenanalyse zum herausfiltern der

wichtigsten Variablen bietet sich an

(Rosner 2001: 21)

http://dev.lib.utexas.edu/maps/africa/tunisia_pol_1990.jpg(Stand: 09.06.2002)

2. Tunesien-Beispiel

Klimastation

3. Proximitäts-/ Ähnlichkeitsmaße

3.1.1. Manhattan-/ City-Block Distanz

1ikij xx

djk: Distanz der Objekte „j“ u. „k"

xi: herangezogenes Merkmal

xij: Ausprägung des Merkmals

„i“ bei Objekt „j“

Entfernung entlang der Koordinatenachsen

x1j x1k

(Bahrenberg et al. 1992: 282)

3.1.2 Quadratische euklidische Distanz

2ikij )x(x

Große Entfernungen (>1) werden stärker gewichtet, als kleine (<1)

Euklidische Distanz

2ikij )x(x

Luftlinienentfernung

x1j x1k x1

3.1.3 Korrelationskoeffizient zwischen

zwei VariablencosCORjkr

rjk: Korrelationskoeffizient

zwischen den Objekten „j“ u. „k";

mögliche Werte zwischen +1 u.-1 (je größer der Wert, desto größer die Ähnlichkeit)

Ähnlichkeitsmatrix QED(Tunesien-Beispiel)

Erstellt mit SPSSGrundlage: Standardisierte Werte für Temperatur und

geographische Breite

3.2 Proximitätsmaße bei Objekten mit nominal skalierten Merkmalen

Beispiele: weiblich/männlich

Nationalität

Voraussetzung: Binäre Variablenstruktur

Ergebnis: Ähnlichkeitsmaße

Wert 0 = absolute Unähnlichkeit

Wert 1 = absolute Ähnlichkeit

Objekt1

Objekt 2

Eigenschaft vorhanden

Eigenschaft nicht vorhanden

Zeilensumme

Eigenschaft vorhanden

a c a + c

Eigenschaft nicht vorhanden

b d b + d

Spaltensumme a + b c + d a + b + c + d = m

Nach: Backhaus et al. 1994: 265 (verändert)

3.2 Proximitätsmaße bei Objekten mit

nominal skalierten Merkmalen

Kombinationsmöglichkeiten binärer Variablen

3.2 Beispiel-Datenmatrix für Proximitäts- maße

Eigenschaft

Personen

weiblich Rentner Schüler Monatl. Eink.

> 1000 €

Max 0 1 0 1

Helmut 0 0 0 1

Vivian 1 0 1 0

Melanie 1 0 0 1

Jörg 0 1 0 1

(0: Eigenschaft nicht vorhanden; 1: Eigenschaft vorhanden)

3.2.1 Simple-Matching-Koeffizient (M-K.):

(Backhaus et al. 1994: 266)

mit: Sjk : Ähnlichkeit zwischen den Objekten j u. k

daS jk

3.2.1 Beispiel für Simple-Matching- Koeffizient (M-K.)

Max Helmut Vivian Melanie Jörg

Helmut 0,75 1

Vivian 0 0,25 1

Melanie 0,5 0,75 0,5 1

Jörg 1 0,75 0 0,5 1

3.2.2 Tanimoto- bzw. Jaccard-Koeffizient:

(Backhaus et al. 1994: 266)

mit: Sjk : Ähnlichkeit zwischen den Objekten j u. k

3.2.2 Beispiel für Tanimoto- bzw. Jaccard-Koeffizient Max Helmut Vivian Melanie Jörg

Helmut 0,5 1

Vivian 0 0 1

Melanie 0,5 0,5 0,33 1

Jörg 1 0,5 0 0,33 1

4. Methoden zur ClusterbildungA

us: Rosner 2001:

4.1 Complete Linkage

CskCrjdMaxd jkCsCr ,,,

Als Entfernung zwischen 2 Clustern wird die Distanz ihrer äußersten Punkte gemessen. Fusioniert werden die Cluster mit der geringsten Distanz.

Eigenschaften:

Zur Zuordnung sehr nahe liegender Objekte neigend Kleinere, homogenere Cluster

Durchführung des Complete-Linkage- Verfahrens mit QED Beispiel Tunesien

1. Ausgabe der Ähnlichkeitsmatrix

2. Zuordnungsübersicht

3. Linkage Tree

4. Elbow-Diagramm zur Festlegung der Anzahl der Cluster

Vorstellung der SPSS Komponenten

Zuordnungsübersicht

5 7 5,982E-03 0 0 5

3 11 9,266E-03 0 0 3

1 3 1,952E-02 0 2 4

1 13 2,037E-02 3 0 6

4 5 3,092E-02 0 1 6

1 4 3,992E-02 4 5 12

16 17 5,905E-02 0 0 13

21 22 6,454E-02 0 0 19

6 12 9,563E-02 0 0 17

18 23 ,121 0 0 14

8 14 ,158 0 0 18

1 2 ,206 6 0 15

15 16 ,296 0 7 20

18 19 ,454 10 0 16

1 10 ,494 12 0 17

18 20 ,628 14 0 19

1 6 ,906 15 9 20

8 9 1,171 11 0 21

18 21 1,275 16 8 22

1 15 1,543 17 13 21

1 8 3,731 20 18 22

1 18 7,506 21 19 0

Schritt1

Cluster 1 Cluster 2

ZusammengeführteCluster

Koeffizienten Cluster 1 Cluster 2

Erstes Vorkommendes Clusters Nächster

Schritt

Zuordnungs-übersicht

Complete-Linkage; QED

Ähnlich-keitsmatrix

Zuordnungsübersicht

5 7 5,982E-03 0 0 5

3 11 9,266E-03 0 0 3

1 3 1,952E-02 0 2 4

1 13 2,037E-02 3 0 6

4 5 3,092E-02 0 1 6

1 4 3,992E-02 4 5 12

16 17 5,905E-02 0 0 13

21 22 6,454E-02 0 0 19

6 12 9,563E-02 0 0 17

18 23 ,121 0 0 14

8 14 ,158 0 0 18

1 2 ,206 6 0 15

15 16 ,296 0 7 20

18 19 ,454 10 0 16

1 10 ,494 12 0 17

18 20 ,628 14 0 19

1 6 ,906 15 9 20

8 9 1,171 11 0 21

18 21 1,275 16 8 22

1 15 1,543 17 13 21

1 8 3,731 20 18 22

1 18 7,506 21 19 0

Schritt1

Cluster 1 Cluster 2

Schritt

Linkage-Tree

Elbow- Diagramm (Festlegung der Anzahl der Cluster)Zuordnungsübersicht

5 7 5,982E-03 0 0 5

3 11 9,266E-03 0 0 3

1 3 1,952E-02 0 2 4

1 13 2,037E-02 3 0 6

4 5 3,092E-02 0 1 6

1 4 3,992E-02 4 5 12

16 17 5,905E-02 0 0 13

21 22 6,454E-02 0 0 19

6 12 9,563E-02 0 0 17

18 23 ,121 0 0 14

8 14 ,158 0 0 18

1 2 ,206 6 0 15

15 16 ,296 0 7 20

18 19 ,454 10 0 16

1 10 ,494 12 0 17

18 20 ,628 14 0 19

1 6 ,906 15 9 20

8 9 1,171 11 0 21

18 21 1,275 16 8 22

1 15 1,543 17 13 21

1 8 3,731 20 18 22

1 18 7,506 21 19 0

Schritt1

Cluster 1 Cluster 2

Schritt

Ähnlichkeiten

Distanzen

Schritte

Z-Wert(TEMP)

210-1-2-3

Clusterung mit QED und Complete Linkage

am Tunesien-

Beispiel

mit 2 Clustern O

mit 3 Clustern O

Mit 4 Clustern O

Als Entfernung zwischen 2 Clustern wird die Distanz ihrer sich am nächsten liegenden Punkte gemessen. Fusioniert werden die Cluster mit der geringsten Distanz.

CskCrjdMind jkCsCr ,,,

Eigenschaften:

Neigt dazu, entferntere Objekte zuzuordnen Entstehung wenigerer größerer Cluster

Ausreißer

Neigt zur Verkettung von Objekten

4.2 Single Linkage

Alle Distanzen zwischen allen Objekten eines Clusters und allen Objekten eines anderen Clusters werden addiert und durch die Anzahl aller betreffenden Objekte dividiert.

jkCskCrjsr

CsCr dnn

, (Bahrenberg et al. 1992: 285)

4.3 Average-Linkage

Streudiagramm mit Klimastationsnummern

3: zwischen 4 und 1

14 15 16 17 18 19 20 21 22

Jahresdurchschnittstemperatur in °C

4.3 Clusterung mit QED und Average-Linkage

am Tunesien-

Beispiel

mit 2 Clustern O

mit 3 Clustern O

Mit 4 Clustern O

Als Entfernung zwischen 2 Clustern wird die Distanz ihrer immer neu berechneten Mittelpunkte (Zentroide) gemessen. Fusioniert werden die Cluster mit der geringsten Distanz.

4.4 Zentroid Linkage

ZsZrCsCr dd ,, Z: Zentroid(Bahrenberg et al. 1992: 285)

Fusionskriterium: geringe Streuung (Varianz)

Voraussetzung: quadrierte euklidische Distanzen

Ziel: möglichst homogene Cluster

4.5 Ward-Verfahren

Vorgehen: 1. Bestimmung der Clustervarianz

2. Bestimmung der Gesamtvarianz

3. Zusammenfassung von Clustern unter der

Bedingung minimaler Steigerung der

Gesamtvarianz

Eigenschaften: - ordnet Objekte „richtig“ den Gruppen zu

- bildet in etwa gleich große Cluster

4. 5 Clusterung mit QED und Ward

am Tunesien-

Beispiel

mit 2 Clustern O

mit 3 Clustern O

Mit 4 Clustern O

Streudiagramm mit Klimastationsnummern

3: zwischen 4 und 1

14 15 16 17 18 19 20 21 22

Jahresdurchschnittstemperatur in °C

4.6. Übersicht über die Ergebnisse mit den Verschiedenen Clusterbildungsverfahren

Z-Wert(TEMP)

210-1-2-3

Z-Wert(TEMP)

210-1-2-3

Z-Wert(TEMP)

210-1-2-3

Zentroid

Single

Ward Z-Wert(TEMP)

210-1-2-3

Average

mit 2 Clustern O

mit 3 Clustern O

Mit 4 Clustern O

5. Homogenitätsbeurteilung

mit: V(J,G): Varianz der Variablen J in Cluster GV(J): Varianz der Variablen J in der Erhebungs-gesamtheit

(Backhaus et al. 1994: 310)F-Wert:

Verfahren: F-Werte für alle Variablen bestimmen

Ergebnis: wenn alle F-Werte < 1, dann gilt Cluster als vollkommen homogen

6. Zusammenfassung

• Clusteranalyse dient der Gruppenbildung

• Vielfältige Methoden – welche, abhängig von Frage und Objekten

• Manipulationsmöglichkeiten;

Stichwort: Herbeiclustern

• Dokumentation der Methoden

• Gruppenbildung Generalisierung

Informationsverlust

• Cluster verbal interpretieren und charakterisieren

Clusteranalyse von Maria Eickhold und Tobias Töpfer

Documents

Raimund Fraas Tobias Ott · Tobias Ott Meer Fotografie (Serie von 24 Fotos + Video) 12 x 16 cm 2011/12. Tobias Ott Leuchtkasten Mittelformat-Dia in Betonquader 6 x 6 cm 2012. Tobias

Clusteranalyse von Malware basierend auf Installationsgraphen

Tobias Grau Präsentation XT_A_LED

Bestimmung der optimalen Clusterzahl in der empirischen ... · Methode – Nach der Einführung in die Clusteranalyse und deren unterschiedlichen Clusteralgorithmen, beschäftigt

Tobias Pohl - Wirtschaft der DDR - Foliensatz 1 ©Tobias Pohl Pohl, Tobias: Foliensatz. Grundlagen der DDR-Wirtschaft. Erster Teil. Grundlagen der Wirtschaft

Abschiedfete vom Tobias

Prognos Langfassung Branchen- und Clusteranalyse ...stadtentwicklungsverband.ulm.de/fileadmin/user... · $nwxdolvlhuxqj %udqfkhq xqg &oxvwhudqdo\vh i u glh :luwvfkdiwvuhjlrq 8op 1hx

Herausgegeben von Tobias Hübner

Grundlagen Immobilien Asset- und Risikomanagement · Asset Management: Entwicklung von Asset-Management-Strategien Grundlage: Bestandsaufnahme und -analyse Clusteranalyse als Schnittstelle

8 Clusteranalyse - TU Dortmunddvogel/Multivariate/Skript/08... · Relief in der Apadana von Persepolis (Sudiran): 24 steinerne persische¨ Bogenschutzen mit leichten Unterschieden

Tobias schneebaum

Tobias Wolters

Hypoallergene - babymarkt.de TÖPFER Lactana Pre HA... · Shampoo • Waschgel • Bodymilk • Pflegeöl • Pflegecreme • Hier aufreißen EAN 40 06303 001 160 Platzhalter für

HELIOS Kliniken GmbH 10. Januar 2005 Dr. Tobias Witter Schock Tobias Witter

1 5. Diskriminanzanalyse 5.1 Idee der Diskriminanzanalyse Im Unterschied zur die Clusteranalyse geht die Diskriminanzanalyse von einer ge- gebenen Gruppenzugehörigkeit

Clusteranalyse – Softwareeinsatz anhand eines konkreten ... · Thomas Nirschl M.A., 02. April 2008 Stadt Nürnberg Amt für Stadtforschung und Statistik Clusteranalyse – Softwareeinsatz

Multivariate AnalyseverfahrenÜberblick - dr-preuss.comdr-preuss.com/Multivariate_Analyseverfahren.pdf · Faktorenanalyse Korrespondenzanalyse Optimal Scaling Clusteranalyse MDS strukturenprüfend

© Tobias Scholz Praktikum am TZI Tobias Scholz von 03.07. bis 28.07.2006

Viertes Nachwuchswissenschaftlerforum 2011ocs.julius-kuehn.de/public/conferences/3/... · Florian Schwander, Rudolf Eibach, Eva Zyprian, Reinhard Töpfer | Berichte JKI p. 23 | 10.40

Durchführung einer hierarchischen Clusteranalyse Dateneingabe und Anforderung: