18
24.06.2009 1 methodenlehre ll – Clusteranalyse Clusteranalyse Thomas Schäfer | SS 2009 1 methodenlehre ll – Clusteranalyse Grundidee gliche Anwendungsgebiete Die Clusteranalyse Vorgehensweise Beispiele Thomas Schäfer | SS 2009 2

methodenlehre ll – Clusteranalyse · 24.06.2009 3 methodenlehre ll – Clusteranalyse Clusteranalyse: Vorgehensweise Bestimmung der Ähnlichkeit Prüfung der Merkmalsausprägung

  • Upload
    dotuyen

  • View
    219

  • Download
    0

Embed Size (px)

Citation preview

Page 1: methodenlehre ll – Clusteranalyse · 24.06.2009 3 methodenlehre ll – Clusteranalyse Clusteranalyse: Vorgehensweise Bestimmung der Ähnlichkeit Prüfung der Merkmalsausprägung

24.06.2009

1

methodenlehre ll – Clusteranalyse

• Clusteranalyse

Thomas Schäfer | SS 2009 1

methodenlehre ll – Clusteranalyse

• Grundidee

• Mögliche Anwendungsgebiete

Die Clusteranalyse

g g g

• Vorgehensweise

• Beispiele

Thomas Schäfer | SS 2009 2

Page 2: methodenlehre ll – Clusteranalyse · 24.06.2009 3 methodenlehre ll – Clusteranalyse Clusteranalyse: Vorgehensweise Bestimmung der Ähnlichkeit Prüfung der Merkmalsausprägung

24.06.2009

2

methodenlehre ll – Clusteranalyse

Grundidee:Eine heterogene Gesamtheit von „Fällen“ (Personen/Objekte) soll in homogene Gruppen oder Cluster aufgeteilt werden

Die Clusteranalyse

soll in homogene Gruppen oder Cluster aufgeteilt werden. Dabei wird die Ähnlichkeit der Fälle auf allen relevanten Variablen berücksichtigt

Die zwei zentralen Fragen:

• Wie wird Ähnlichkeit von Fällen bestimmt?

Thomas Schäfer | SS 2009

• Wie wird die Gruppenaufteilung vorgenommen, wenn die Ähnlichkeit zwischen Fällen bekannt ist?

3

Analyse einer heterogenen Gesamtheit von Objekten, mit dem Ziel, homogene Teilmengen zu identifizieren.

methodenlehre ll – Clusteranalyse

• Aufteilung von Personen/Objekten in Subgruppen

• Erstellen von Typologien

Clusteranalyse: mögliche Anwendungen

yp g

• Marktforschung (Konsumentengruppen, Kaufverhalten, Produktanalyse)

• Differenzieren von Bevölkerungsgruppen

Thomas Schäfer | SS 2009 4

Page 3: methodenlehre ll – Clusteranalyse · 24.06.2009 3 methodenlehre ll – Clusteranalyse Clusteranalyse: Vorgehensweise Bestimmung der Ähnlichkeit Prüfung der Merkmalsausprägung

24.06.2009

3

methodenlehre ll – Clusteranalyse

Clusteranalyse: Vorgehensweise

Bestimmung der ÄhnlichkeitPrüfung der Merkmalsausprägung für je 2 Personen oder Objekte und Messung der  Unterschiede/ ÜÜbereinstimmungen mit Hilfe eines Zahlenwertes (Proximitätsmaß)  

Auswahl des Fusionierungsalgorithmus

Personen/Objekte werden aufgrund ihrer Ähnlichkeitswerte zu Gruppen zusammengefasst. 

Bestimmung der ClusterzahlEntscheidung über Clusteranzahl, Zielkonflikt:  Handhabbarkeit (geringe Clusteranzahl) &  hohe Lösungsgüte (hohe Clusterzahl)

Thomas Schäfer | SS 2009 5

g g ( )

Interpretation der Cluster und Überprüfen der Güte

Inhaltliche Interpretation der resultierenden Cluster

methodenlehre ll – Clusteranalyse

Bestimmung der ÄhnlichkeitVariable1 Variable2 … Variable j

Objekt1

Objekt2j.::

Objekt k

Objekt1 Objekt2 … Objekt kObjekt1

Rohdatenmatrix

Thomas Schäfer | SS 2009 6

Objekt2.::

Objekt k

Distanz‐ oder Ähnlichkeitsmatrix

Page 4: methodenlehre ll – Clusteranalyse · 24.06.2009 3 methodenlehre ll – Clusteranalyse Clusteranalyse: Vorgehensweise Bestimmung der Ähnlichkeit Prüfung der Merkmalsausprägung

24.06.2009

4

methodenlehre ll – Clusteranalyse

Proximitätsmaße

(Ähnlichkeits‐ bzw. Distanzmaße)

Auswahl eines Ähnlichkeits‐/Distanzmaßes

bei Nominal‐Skalen bei metrischen SkalenTanimoto‐KoeffizientM‐KoeffizientKulczynski‐KoeffizientRR‐KoeffizientDice‐Koeffizient

L1 ‐ Norm L2 ‐ NormQ‐Korrelations‐KoeffizientMahalanobis‐Distanz…

Thomas Schäfer | SS 2009 7

….

methodenlehre ll – Clusteranalyse

Auswahl eines Ähnlichkeits‐/Distanzmaßes

Rohdatenmatrix

α β γ δ ε ζ

Objekt 1

Objekt 2

Objekt 3 1 1 1 0 0 0

1 1 0 1 0 0

0 1 0 1 1 1

Thomas Schäfer | SS 2009 8

Objekt 4 1 0 0 0 1 0

0 – nicht vorhanden1 – vorhanden

Page 5: methodenlehre ll – Clusteranalyse · 24.06.2009 3 methodenlehre ll – Clusteranalyse Clusteranalyse: Vorgehensweise Bestimmung der Ähnlichkeit Prüfung der Merkmalsausprägung

24.06.2009

5

methodenlehre ll – Clusteranalyse

Auswahl eines Ähnlichkeits‐/Distanzmaßes

ZeilensummeObjekt 1

Ei h ft i htEi h ft

Objekt 2

Eigenschaft nicht vorhanden (0)

Eigenschaft  vorhanden (1)

Eigenschaft vorhanden (1)

Eigenschaft nichth d (0)

a

b

c

d

a+c

b+d

Thomas Schäfer | SS 2009 9

Spaltensumme

vorhanden (0) b d

a+b c+d

b+d

m

methodenlehre ll – Clusteranalyse

Auswahl eines Ähnlichkeits‐/Distanzmaßes

Rohdatenmatrix

α β γ δ ε ζ

Objekt 1

Objekt 2

Objekt 3 1 1 1 0 0 0

1 1 0 1 0 0

0 1 0 1 1 1

b

Thomas Schäfer | SS 2009 10

Objekt 4 1 0 0 0 1 0ab c

Page 6: methodenlehre ll – Clusteranalyse · 24.06.2009 3 methodenlehre ll – Clusteranalyse Clusteranalyse: Vorgehensweise Bestimmung der Ähnlichkeit Prüfung der Merkmalsausprägung

24.06.2009

6

methodenlehre ll – Clusteranalyse

Auswahl eines Ähnlichkeits‐/Distanzmaßes

Fall x

Fall y + ‐

Nichtübereinstimmung soll keine Rolle spielen Fall y

+ a c

‐ b d

z. B. Tanimoto‐Koeffizient:

cbaaKoeffTanimoto++

=− .

Nichtübereinstimmung soll berücksichtigt werden (z. B. bei „echt‐dichotomen“ Daten)

+ Eigenschaft vorhanden‐ Eigenschaft nicht vorhandena: Anzahl der Variablen, in denen für beide Fälle die

Thomas Schäfer | SS 2009 11

( „ )z. B. M‐Koeffizient (Simple Matching):

dcbadaM+++

+=

denen für beide Fälle die Eigenschaft vorhanden istb: Anzahl der Variablen, in denen die Eigenschaft für Fall xvorhanden ist, aber für Fall ynichtusw.

methodenlehre ll – Clusteranalyse

Auswahl eines Ähnlichkeits‐/Distanzmaßes

Aufbau der Distanz‐ oder ÄhnlichkeitsmatrixObjekt 1 Objekt 2 Objekt 3   …    Objekt k

Objekt 1

Objekt 2

Objekt 3

1 ‐ ‐ ‐

? 1 ‐ ‐

? ? 1 ‐

Thomas Schäfer | SS 2009 12

Objekt 3:

Objekt k

? ?  1 ‐

? ? ? 1

Page 7: methodenlehre ll – Clusteranalyse · 24.06.2009 3 methodenlehre ll – Clusteranalyse Clusteranalyse: Vorgehensweise Bestimmung der Ähnlichkeit Prüfung der Merkmalsausprägung

24.06.2009

7

methodenlehre ll – Clusteranalyse

Auswahl eines Ähnlichkeits‐/Distanzmaßes

• „echte“ Ähnlichkeitsmaße – z.B. Q‐Korrelationskoeffizient(wenn Kovariation inhaltlich wichtig ist)

• Abstandsmaße – z. B. Minkowski‐Metriken(wenn absoluter Abstand inhaltlich wichtig ist)

z.B. City‐Block‐Metrik (L1 – Norm), Euklidische Distanz (L2 –Norm)

Thomas Schäfer | SS 2009 13

methodenlehre ll – Clusteranalyse

Auswahl eines Ähnlichkeits‐/Distanzmaßes

Ähnlichkeitsermittlung bei metrischer Variablenstrukturam häufigsten angewandte Distanznorm: Minkowski‐Metriken

Euklidische Distanz: r = 2

City‐Block‐Metrik: r = 1:

∑ −==

J

jbjajba XXd

1,

Thomas Schäfer | SS 2009 14

(oft auch quadriert):

∑ −==

J

jba X bjX ajd

1

2,

x     , x    :Wert der Variablen j bei den Objekten k,l (j=1,2,…J)

d    : Distanz der Objekte k und l

r > 1 : Minkowski‐Konstante

k,l

k,j l,j

_

Page 8: methodenlehre ll – Clusteranalyse · 24.06.2009 3 methodenlehre ll – Clusteranalyse Clusteranalyse: Vorgehensweise Bestimmung der Ähnlichkeit Prüfung der Merkmalsausprägung

24.06.2009

8

methodenlehre ll – Clusteranalyse

Auswahl eines Ähnlichkeits‐/Distanzmaßes

k

Variable 2

-

Xk,2

l,2

 4     5      6      7

Thomas Schäfer | SS 2009

Variable 1

l

X - Xk,1 l,1

X k

1      2      3      4     5      6      7      8

1      2      3     

15

methodenlehre ll – Clusteranalyse

Zur Messung der Ähnlichkeit zwischen Objekten sind

Auswahl eines Ähnlichkeits‐/Distanzmaßes

• Distanzmaße immer dann geeignet, wenn der absolute Abstand zwischen Objekten von Interesse ist und die Unähnlichkeit dann als um so größer anzusehen ist, wenn zwei Objekte weit entfernt voneinander liegen.

• Ähnlichkeitsmaße immer dann geeignet, wenn der primäre 

Thomas Schäfer | SS 2009

ß g g , pÄhnlichkeitsaspekt im Gleichlauf zweier Profile zu sehen ist, unabhängig davon, auf welchem Niveau die Objekte liegen.

16

Page 9: methodenlehre ll – Clusteranalyse · 24.06.2009 3 methodenlehre ll – Clusteranalyse Clusteranalyse: Vorgehensweise Bestimmung der Ähnlichkeit Prüfung der Merkmalsausprägung

24.06.2009

9

methodenlehre ll – Clusteranalyse

Auswahl eines Ähnlichkeits‐/Distanzmaßes

Unternehmen A Unternehmen BJahr

Gewinn

2006

2003

2000

Thomas Schäfer | SS 2009 17

die Profile beider Unternehmen sind gleich, ein Ähnlichkeitsmaß würde einen hohenWert liefern

die beiden Unternehmen haben aber absolut gesehen einen großen Abstand, ein Distanzmaß würde daher einen kleinenWert liefern

methodenlehre ll – Clusteranalyse

Clusteralgorithmen

Clusterverfahren

Hierarchische Verfahren

agglomerativ divisiv

GraphentheoretischeVerfahren

Partitionierende Verfahren

Austausch‐verfahren

Optimierungs‐verfahren

Iteriertes Minimaldistanz‐

Verfahren

Thomas Schäfer | SS 2009 18

Single‐Linkage

WardComplete‐Linkage

Average‐Linkage

Centroid Median

Page 10: methodenlehre ll – Clusteranalyse · 24.06.2009 3 methodenlehre ll – Clusteranalyse Clusteranalyse: Vorgehensweise Bestimmung der Ähnlichkeit Prüfung der Merkmalsausprägung

24.06.2009

10

methodenlehre ll – Clusteranalyse

Partitionierende Verfahren• Anfangsgruppierung vorgeben

S k i V l Obj kt i d G

Clusteralgorithmen

• Sukzessive Verlagerung von Objekten in andere Gruppen• Zielkriterium: Minimierung der Varianz innerhalb der 

Gruppen(Gruppeneinteilung reversibel)

Hierarchische Verfahren

a) agglomerativ: anfangs so viele Gruppen wie Fälle, 

Thomas Schäfer | SS 2009

sukzessives Zusammenfassen der Gruppen

b) divisiv: anfangs alle Fälle in einer Gruppe, sukzessives Aufteilen der Fälle in Gruppen(Gruppeneinteilung nicht reversibel)

19

methodenlehre ll – Clusteranalyse

Algorithmen für hierarchische Clusteranalyse

Single linkage

(nächster Nachbar)

Complete linkage

(entferntester Nachbar)(nächster Nachbar) (entferntester Nachbar)

Thomas Schäfer | SS 2009 20

Average linkage: mittlere Distanz aller Fälle eines Clusters von allen Fällen des anderen Clusters

Page 11: methodenlehre ll – Clusteranalyse · 24.06.2009 3 methodenlehre ll – Clusteranalyse Clusteranalyse: Vorgehensweise Bestimmung der Ähnlichkeit Prüfung der Merkmalsausprägung

24.06.2009

11

methodenlehre ll – Clusteranalyse

Algorithmen für hierarchische Clusteranalyse

Single LinkageDas Single Linkage Verfahren neigt zur Kettenbildung und kann daher Ausreißer ausfindig machen. Nachdem man diese entfernt hat, kann man mit Verfahren fortfahren, die schöne homogene Cluster bilden, z.B. Average Linkage oder Ward.

Thomas Schäfer | SS 2009 21

Ward – VerfahrenVereinige diejenigen Objekte, die die Streuung in einer Gruppe am wenigsten erhöhen (homogene Cluster).

methodenlehre ll – Clusteranalyse

• nach statistischen Kriterien

– z.B. Entwicklung des Heterogenitätsmaßes( hl )

Bestimmung der Clusterzahl

(z.B. per Fehlerquadratsumme)

– Dendrogramm

• durch sachlogisch Überlegungen 

– Konflikt zwischen der „Heterogenitätsanforderung der Clusterzahl“ und der „Handhabbarkeit der Clusterlösung“

– auf die Clusterzahl beschränken (nicht nach den in den

Thomas Schäfer | SS 2009

auf die Clusterzahl beschränken (nicht nach den in den Clustern zusammengefassten Fällen gehen)

22

Page 12: methodenlehre ll – Clusteranalyse · 24.06.2009 3 methodenlehre ll – Clusteranalyse Clusteranalyse: Vorgehensweise Bestimmung der Ähnlichkeit Prüfung der Merkmalsausprägung

24.06.2009

12

methodenlehre ll – Clusteranalyse

Das Heterogenitätsmaß gibt die durchschnittliche Unähnlichkeit der Objekte in den Clustern an. Diese steigt natürlich je weniger Cluster man wählt Günstig ist es nach

Bestimmung der Clusterzahl

natürlich, je weniger Cluster man wählt. Günstig ist es, nach einem „Sprung“ in diesem Maß zu suchen.

Es gibt immer einen Schritt weniger als ursprüngliche Fälle.

Von der Gesamtzahl der Fälle zieht man den Schritt vor dem Sprung 

Thomas Schäfer | SS 2009 23

mögliche Sprünge

a de Sc tt o de Sp u gab, um die Anzahl der Cluster zu bestimmen. Hier z.B. 16 – 11 = 5

methodenlehre ll – Clusteranalyse

Das Dendrogramm gibt das Heterogenitätsmaß gewissermaßen grafisch wieder und hilft so, die Anzahl von Clustern zu bestimmen

Bestimmung der Clusterzahl

Clustern zu bestimmen.

Man sucht sozusagen die größte Distanz, auf der nichts passiert.

Thomas Schäfer | SS 2009 24

Page 13: methodenlehre ll – Clusteranalyse · 24.06.2009 3 methodenlehre ll – Clusteranalyse Clusteranalyse: Vorgehensweise Bestimmung der Ähnlichkeit Prüfung der Merkmalsausprägung

24.06.2009

13

methodenlehre ll – Clusteranalyse

• Nach der Bestimmung der Clusterzahl müssen die Cluster interpretiert werden. 

• Dazu schaut man, welche Werte die Fälle 

Interpretation der Cluster

in den Clustern nun auf den Ausgangsvariablen haben, mit denen die Analyse gemacht wurde.

• Weiterhin kann man sich überlegen, was die Fälle in den Clustern verbinden könnte.

• Eine Möglichkeit dafür ist, dass man sich potenzielle Variablen – die für die Clusterung verantwortlich sein könnten –

Thomas Schäfer | SS 2009

ganzeigen lässt (Label – immer als String).

• So könnte man z.B. finden, dass bei zwei Clustern das eine Cluster aus Frauen, das andere aus Männern besteht.

25

methodenlehre ll – Clusteranalyse

• Clusteranalyse mit den 4 Entscheidungsstilen des DMQ (Vigilance, Hypervigilance, Buckpassing, Procrastination)

• aufgrund dieser Variablen sollen Cluster von Studierenden gesucht

Beispiel

aufgrund dieser Variablen sollen Cluster von Studierenden gesucht werden, die sich ähnlich sind

• betrachten wir 20 Studierende (Fälle) und beginnen zunächst mit dem Single Linkage Verfahren (nächster Nachbar), um mögliche Ausreißer zu entdecken

Thomas Schäfer | SS 2009 26

Ausreißer

Page 14: methodenlehre ll – Clusteranalyse · 24.06.2009 3 methodenlehre ll – Clusteranalyse Clusteranalyse: Vorgehensweise Bestimmung der Ähnlichkeit Prüfung der Merkmalsausprägung

24.06.2009

14

methodenlehre ll – Clusteranalyse

• nach Entfernen der Ausreißer suchen wir mit dem Ward‐Verfahren nach homogenen Clustern

Beispiel

Thomas Schäfer | SS 2009 27

methodenlehre ll – Clusteranalyse

• für die gefundenen Cluster sehen wir uns die Werte der enthaltenen Personen auf den Ausgangsvariablen an, um zu sehen, wie genau sie sich unterscheiden (z.B. mit Boxplots)

Beispiel

( p )

Thomas Schäfer | SS 2009 28

Page 15: methodenlehre ll – Clusteranalyse · 24.06.2009 3 methodenlehre ll – Clusteranalyse Clusteranalyse: Vorgehensweise Bestimmung der Ähnlichkeit Prüfung der Merkmalsausprägung

24.06.2009

15

methodenlehre ll – Clusteranalyse

• die gefundenen Cluster können anhand der Ausgangsvariablen näher beschrieben werden

k h h l h h

Beispiel

• sie können von nun an hinsichtlich verschiedener Anwendungen einzeln betrachtet oder untersucht werden (z.B. für Forschungszwecke)

• untersucht man zusätzlich, ob die Cluster sich durch bestimmte Merkmale (Label) systematisch unterscheiden, kann man auch das als weiteres Forschungsergebnis benutzen

Thomas Schäfer | SS 2009 29

methodenlehre ll – Clusteranalyse

• Studie von Jankowski und Zill (2009)• Lassen sich Bands (bspw. Korn, Metallica) nach bestimmten Kriterien 

(bspw. Anzahl der Mitglieder, Liedanzahl, amerikanisch oder nicht, 

Beispiel 2

( p g , , ,Bewertung) zu Clustern gruppieren?

• 13 Versuchspersonen (in verschiedene Alben hineingehört)

Thomas Schäfer | SS 2009 30

Page 16: methodenlehre ll – Clusteranalyse · 24.06.2009 3 methodenlehre ll – Clusteranalyse Clusteranalyse: Vorgehensweise Bestimmung der Ähnlichkeit Prüfung der Merkmalsausprägung

24.06.2009

16

methodenlehre ll – Clusteranalyse

Beispiel 2

Thomas Schäfer | SS 2009 31

diese Informationen könnte man z.B. nutzen, um CDs im Geschäft nach Ähnlichkeit zu gruppieren

methodenlehre ll – Clusteranalyse

Wie lassen sich die Stadtteile von Chemnitz zu homogenen Clustern zusammenfassen?

Variablen: Alt t kt

Beispiel 3

‐ Altersstruktur‐ Geschlecht‐ Familienstand‐ Ausländeranteil‐ Bevölkerungsdichte‐ Bevölkerungsentwicklung‐ Haushalte (Größen, Formen)‐ Mobilität/Wanderungen‐ Hilfebedürftigkeit

Thomas Schäfer | SS 2009

‐ Flächen im Stadtteil‐ Struktur der Wohngebäude‐ Wohnungsgrößen‐ Bausubstanzen‐ Wahlergebnisse Bundestagswahl 2005

32

Chempirica (http://www.chempirica.de/stadtteilanalyse.htm)

Page 17: methodenlehre ll – Clusteranalyse · 24.06.2009 3 methodenlehre ll – Clusteranalyse Clusteranalyse: Vorgehensweise Bestimmung der Ähnlichkeit Prüfung der Merkmalsausprägung

24.06.2009

17

methodenlehre ll – Clusteranalyse

Clusteranalyse mit SPSS I

Thomas Schäfer | SS 2009 33

methodenlehre ll – Clusteranalyse

Clusteranalyse mit SPSS II

Thomas Schäfer | SS 2009 34

Page 18: methodenlehre ll – Clusteranalyse · 24.06.2009 3 methodenlehre ll – Clusteranalyse Clusteranalyse: Vorgehensweise Bestimmung der Ähnlichkeit Prüfung der Merkmalsausprägung

24.06.2009

18

methodenlehre ll – Clusteranalyse

Vergleich Faktorenanalyse – Clusteranalyse 

Variablen

FälleGemeinsame Ausgangsbasis FälleAusgangsbasis

(meist) Variablen

(meist) Variablen

(meist) Fälle

(meist)Fälle

Korrelations‐matrix

Distanz‐/Ähnlichkeit‐matrix

Thomas Schäfer | SS 2009 35

Variablen Fälle matrix

ZIEL Dimensionsreduktion Gruppenbildung