Clusteranalyse SPSS-Treff: Einführung in die Einführung in ... · PDF fileStunden pro Woche sie für Sport, Medien, Hobbies ... •* * H I E R A R C H I C A L C L U S T E R A N A

SPSS-Treff: Einführung in die Clusteranalyse

11. Juli 2003

Dr. Carina Ortseifen, URZ Heidelberg 1

Einführung in die Cluster-Analyse mit SPSS

SPSS-Benutzertreffen am URZCarina Ortseifen11. Juli 2003

Inhalt

1. Clusteranalyse im allgemeinenDefinition, Distanzmaße, Gruppierung,Kriterien

2. Clusteranalyse mit SPSSa) Hierarchische Clusteranalyse

Prozedur Clusterb) Clusterzentrenanalyse

Prozedur Quick Cluster

3. Literatur

1. Cluster (dt.: Traube, Haufen)

heuristisches Verfahren zur systematischen Klassifizierung von Beobachtungen, z.B. Personen, Autos, Schallplatten)

Ziel: Auffinden von Gruppen, in denen sich Beobachtungen befinden, die innerhalb der Gruppe möglichst ähnlich sind und extern (zwischen den Gruppen) verschieden.

Anwendungsgebiete: Sozialwissenschaften, Biologie, Wirtschaftswissenschaften, Marktforschung

Ähnlichkeit / Unähnlichkeit

Die Ähnlichkeit bzw. Unähnlichkeit wird auf der Basis von Merkmalen definiert.Z.B. gleiches Alter, gleiche Haarfarbe.

Andere Begriffe für Unähnlichkeit: DistanzÄhnlichkeit: Proximität

Beispiel

Zehn Fälle, zwei stetige Merkmale A/B

A

B

Euklidische Distanz c: a2 + b2 = c2

a

bc

Euklidische Distanz allgemein

d x xii ij

i

p

i j′

=

′= −

∑ ( )

/

1

21 2

Beispiel für 2 Fälle A und B, 7 Merkmale: A: 5 7 8 1 3 2 5B: 9 5 8 2 7 8 2

d ab = − + − + − =(5 ) ( ) . . . . . . (5 ) ,9 7 5 2 9 0 5 52 2 2

P Merkmale:


11. Juli 2003


Distanzmaße für metrische Variabl.

Euklidische DistanzCity Block-Distanz

Summe der absoluten Differenzen

= Spezialfälle der Minkowski-DistanzHohe Unterschiede werden stark gewichtet.Maße sind translationsinvariant, aber nicht skaleninvariant. (Einkommen in Dollar oder Euro)

Distanzmaße für metrische Var. (2)

Mahalanobis-Distanz

dij=(xi-xj)‘ S-1 (xi-xj)

wobei S-1 die Inverse der Stich-proben-Varianz-Kovarianzmatrixder p Merkmale ist.

Translations- und Skaleninvariant

Dichotome Merkmale (Beispiel)

Zwei Beobachtungen, A und B, 9 Merkmale, die angeben, ob ein Sachverhalt gegeben ist oder nicht

A: 0 0 1 1 0 0 1 1 1B: 1 0 1 0 0 0 0 1 1

BA 1 0

1 3 2

0 1 3

a b

c d

Ähnlichkeitskoeffizient von Jaccard

pij=a / (a+b+c) (d spielt keine Rolle)

Das entsprechende Distanzmaß ist:dij=1- pij = (b+c) / (a+b+c)

pij nimmt Werte zwischen 0 und 1 an.

Für das Beispiel: pAB= 3/6 = 0.5.

Distanzmaße für binäre Merkmale

(Simple) Matching Koeffizientpij=a+d / (a+b+c+d)

Jaccard- (Tanimoto-) Koeffizientpij=a / (a+b+c)

RR-Koeffizientpij=a / (a+b+c+d)

Dice-Koeffizientpij=2 a / (2 a+b+c)

Mögliche Probleme

Ungleiche Skala Standardisierung

Ungleiches Skalenniveau der Merkmalebinäre Merkmale als metrische betrachtenmetrische Merkmale binär kodierenAggregation der verschiedenen Distanzmaße

Merkmale sind korreliertBerechnung von Faktorwerten Mahalanobis-Distanz

Ordinalskalierte MerkmaleMerkmale am Median dichotomisierenMerkmale als metrische Daten behandeln


11. Juli 2003


Cluster-Analyse-Verfahren Hierarchische

Verfahren

Nicht-hierarchische Verfahren(*)

Start feinste Partionierung, jedes Objekt bildet ein eigenes Cluster

Vorgabe einer Startgruppierung

Cluster-bildung

Fusionierung von Clustern

Verschieben der Objekte

Ziel Das zuvor festgelegte Kriterium ist erfüllt.

Das zuvor festgelegte Kriterium ist erfüllt.

* Auch: Partitionierendes Cluster-Analyse Verfahren, Clusterzentrenanalyse

Nicht-Hierarchische Verfahren

Objekte werden solange in verschiedene Gruppen sortiert, bis die beste Lösung im Sinne des Kriteriums gefunden ist.Problem: enormer Arbeits- und Zeitaufwand (bei 10 Objekten gibt es schon 115 975 verschiedene Möglichkeiten), deshalb sind meist nur Annäherungen möglich.

Hierarchische Verfahren

1. Berechnung der Distanzen zwischen den Clustern

2. Fusionierung der beiden Cluster, die die geringste Distanz zueinander haben

3. Berechnung des Ende-KriteriumsWenn erfüllt, dann Ende; sonst weiter.

4. Berechnung der neuen Distanzen5. Zurück zu Punkt 2

Beispiel

Zehn Fälle, zwei stetige Merkmale A/B

A

B

SingleLinkage

CompleteL.

Average Linkage

Zentroid

Distanzen zwischen den Clustern

Single Linkage: Nächst gelegener Nachbar Kleinste Distanz zwischen einem Objekt des einen Clusters und einem Objekt des anderen Clusters

Ketten-Tendenz

Complete Linkage: Entferntester Nachbargrößte Distanz zwischen einem Objekt des einen Clusters und einem Objekt des anderen Clusters

anfällig für Ausreißer

Distanzen zwischen Clustern (2)

Average Linkage: Linkage zwischen den GruppenDurchschnitt aller Distanz zwischen den Objekten der beiden betrachteten Cluster

tendiert dazu Cluster mit kleinen Varianzen zu verbinden, neigt zu Clustern mit gleicher Varianz

Linkage innerhalb der GruppenZentroid: Zentroid Clustering

Quadrierte Euklidische Distanz zwischen Cluster-Mittelwerten

nur für metrische Merkmale, robust gegenüber Ausreißern)


11. Juli 2003


Distanzen zwischen Clustern: Ward

Distanz ist die Anova-Quadratsummezwischen zwei Clustern (nur für intervallskalierte normalverteilte Daten)vereinigt diejenigen Elemente, deren Fusion die Gesamtvarianz innerhalb der Cluster am geringsten erhöhtfindet Cluster mit annährend gleicher Besetzungszahlanfällig für Ausreißer

Bewertungskriterium

Distanz zwischen zwei Clustern

Bestimmtheitsmaß r2 (RSQ) Semipartielles BestimmheitsmaßPseudo-FPseudo-t2

Überprüfung der Cluster-Lösung

Inhaltliche Interpretation Deskriptive Unterschiede zwischen den Clustern auf weiteren Variablen

Diskriminanzanalytische ÜberprüfungClustervariable als Gruppenvariable

Graphische VeranschaulichungEiszapfen, Dendogramm, Plot

2. Cluster-Analyse in SPSS

Prozeduren für Cluster-Analysen:Analysieren > Klassifizieren

CLUSTER (hierarchische Methoden)QUICK CLUSTER (besonders für große

Tabellen, nicht-hierarchisch, k-means)

TWO STEP CLUSTER (für sehr große Tabellen, verarbeitet gleichzeitig unterschiedlich skalierte Variablen)

a. Hierarchische Clusteranalyse

5 Probanden wurden gefragt, wie viele Stunden pro Woche sie für Sport, Medien, Hobbies aufbringen.

data list free /nr sport medien hobbies.begin data1 1 5 3 2 0 6 3 3 2 2 84 5 3 15 5 4 0end data.formats nr, sport, medien, hobbies (f1.0).

Variablen-auswahl

ClusterverfahrenDistanzmaß

Transformation

DendrogrammEiszapfendiagramm

DistanzmatrixZuordnung

Clusterzugehörigkeit

Clusterzugehörigkeit als neue Variable


11. Juli 2003


Verarbeitete Fällea

5 100,0 0 ,0 5 100,0N Prozent N Prozent N Prozent

Gültig Fehlend GesamtFälle

Single Linkagea.

Ergebnisse

Näherungsmatrix

,000 2,000 35,000 24,000 26,0002,000 ,000 45,000 38,000 38,000

35,000 45,000 ,000 59,000 77,00024,000 38,000 59,000 ,000 2,00026,000 38,000 77,000 2,000 ,000

Fall12345

1 2 3 4 5 Quadriertes euklidisches Distanzmaß

Dies ist eine Unähnlichkeitsmatrix

Zuordnungsübersicht

4 5 2,000 0 0 31 2 2,000 0 0 31 4 24,000 2 1 41 3 35,000 3 0 0

Schritt1234

Cluster 1 Cluster 2

ZusammengeführteCluster

Koeffizienten Cluster 1 Cluster 2

Erstes Vorkommendes Clusters Nächster

Schritt

Cluster-Zugehörigkeit

11233

Fall12345

3 ClusterBewertungskriterium= Quadrierte Eukl. Distanz

Diagramme

•* * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * *•Dendrogram using Single Linkage

Rescaled Distance Cluster CombineC A S E 0 5 10 15 20 25Label Num +---------+---------+---------+---------+---------+

4 òûòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòø5 ò÷ ùòòòòòòòòòòòòòòòø1 òûòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòò÷ ó2 ò÷ ó3 òòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòò÷

Vertikales Eiszapfendiagramm

X X X X X X X X XX X X X X X X XX X X X X X XX X X X X X

Anzahl der Cluster1234

3 5 4 2 1

Fall

Plot der Cluster-Lösung

MEDIEN

7654321

SP

OR

T

6

5

4

3

2

1

0

-1

Single Linkage

3

2

1

Syntax der Prozedur Cluster

wird fast vollständig von der Dialog-box abgedeckt.Ausnahme: Matrix In|OutEinlesen bzw. Rausschreiben von Distanz-/ÄhnlichkeitsmatrizenBeispiel: CLUSTER sport medien hobbies

/METHOD SINGLE/MEASURE= SEUCLID/PRINT SCHEDULE CLUSTER(3)/PRINT DISTANCE/PLOT DENDROGRAM VICICLE/SAVE CLUSTER(3)/MATRIX OUT("d:\test.sav") .

b. Clusterzentrenanalyse

Prozedur Quick ClusterNearest Centroid Sorting-Verfahren

Distanzmaß: Quadr. eukl. Distanz1. Schritt: Festlegung der Startwerte (n Beobachtungen mit Mindestdistanz)2. Schritt: Zuordnung der übrigen Beobachtungen zu den StartwertenEvtl. 3. Schritt: Berechnung der Zentroide und erneute Zuordnung4. Schritt: Wiederholung der Schritte 1- 3bis sich Zentroide nicht mehr ändern


11. Juli 2003


Beispiel

Cluster-ZugehörigkeitDistanz von Clusterzentrum

Statistiken (Anfängl. Clusterzentren, ANOVA- Tabelle, Clusterinformation)

Behandlung fehlender Werte

Anfängliche Clusterzentren

5 0 24 6 20 3 8

SPORTMEDIENHOBBIES

1 2 3Cluster

Iterationsprotokolla

,707 ,707 ,000,000 ,000 ,000

Iteration12

1 2 3Änderung in Clusterzentren

Konvergenz wurde aufgrund geringer oder keinerÄnderungen der Clusterzentren erreicht. Diemaximale Änderung der absoluten Koordinatenfür jedes Zentrum ist ,000. Die aktuelle Iterationlautet 2. Der Mindestabstand zwischen denanfänglichen Zentren beträgt 6,164.

a.

Cluster-Zugehörigkeit

1 2 ,7072 2 ,7073 3 ,0004 1 ,7075 1 ,707

Fallnummer12345

NR Cluster Distanz

Clusterzentren der endgültigen Lösung

5 1 24 6 21 3 8

SPORTMEDIENHOBBIES

1 2 3Cluster

Distanz zwischen Clusterzentren der endgültigen Lösung

5,523 8,2165,523 6,2858,216 6,285

Cluster123

1 2 3

ANOVA

10,350 2 ,250 2 41,400 ,0244,500 2 ,500 2 9,000 ,100

18,750 2 ,250 2 75,000 ,013

SPORTMEDIENHOBBIES

Mittel derQuadrate df

ClusterMittel derQuadrate df

Fehler

F Sig.

Die F-Tests sollten nur für beschreibende Zwecke verwendet werden, da die Cluster sogewählt wurden, daß die Differenzen zwischen Fällen in unterschiedlichen Clusternmaximiert werden. Dabei werden die beobachteten Signifikanzniveaus nicht korrigiert undkönnen daher nicht als Tests für die Hypothese der Gleichheit der Clustermittelwerteinterpretiert werden.

Anzahl der Fälle in jedem Cluster

2,0002,0001,0005,000

,000

123

Cluster

GültigFehlend

Literatur

SPSSBASE.PDF (Online Doku, SPSS-Systemordner)The SPSS TwoStep Cluster Component.White Paper – Technical Report von www.spss.comA. Bühl, P. Zöfel: SPSS Version 10.Addison-Wesley, 2000.F. Brosius: SPSS 8.mitp, 1998.E. Bellgardt: Statistik mit SPSS.Verlag Vahlen, 1997.Bortz, J. : Statistik für Sozialwissenschaftler Springer Lehrbuch, 4.Aufl. 1993.Späth, H. :Cluster-Analyse-Algorithmen zur Objektklassifizierung und Datenreduktion. Oldenbourg, 1977.Backhaus et.al.: Multivariate AnalysemethodenSpringer Lehrbuch, 8. Auflage, 1996.

Documents

Clusteranalyse SPSS-Treff: Einführung in die Einführung in ... · PDF fileStunden pro Woche sie für Sport, Medien, Hobbies ... •* * H I E R A R C H I C A L C L U S T E R A N A