Click here to load reader
Upload
dangnhu
View
213
Download
1
Embed Size (px)
Citation preview
SPSS-Treff: Einführung in die Clusteranalyse
11. Juli 2003
Dr. Carina Ortseifen, URZ Heidelberg 1
Einführung in die Cluster-Analyse mit SPSS
SPSS-Benutzertreffen am URZCarina Ortseifen11. Juli 2003
Inhalt
1. Clusteranalyse im allgemeinenDefinition, Distanzmaße, Gruppierung,Kriterien
2. Clusteranalyse mit SPSSa) Hierarchische Clusteranalyse
Prozedur Clusterb) Clusterzentrenanalyse
Prozedur Quick Cluster
3. Literatur
1. Cluster (dt.: Traube, Haufen)
heuristisches Verfahren zur systematischen Klassifizierung von Beobachtungen, z.B. Personen, Autos, Schallplatten)
Ziel: Auffinden von Gruppen, in denen sich Beobachtungen befinden, die innerhalb der Gruppe möglichst ähnlich sind und extern (zwischen den Gruppen) verschieden.
Anwendungsgebiete: Sozialwissenschaften, Biologie, Wirtschaftswissenschaften, Marktforschung
Ähnlichkeit / Unähnlichkeit
Die Ähnlichkeit bzw. Unähnlichkeit wird auf der Basis von Merkmalen definiert.Z.B. gleiches Alter, gleiche Haarfarbe.
Andere Begriffe für Unähnlichkeit: DistanzÄhnlichkeit: Proximität
Beispiel
Zehn Fälle, zwei stetige Merkmale A/B
A
B
Euklidische Distanz c: a2 + b2 = c2
a
bc
Euklidische Distanz allgemein
d x xii ij
i
p
i j′
=
′= −
∑ ( )
/
1
21 2
Beispiel für 2 Fälle A und B, 7 Merkmale: A: 5 7 8 1 3 2 5B: 9 5 8 2 7 8 2
d ab = − + − + − =(5 ) ( ) . . . . . . (5 ) ,9 7 5 2 9 0 5 52 2 2
P Merkmale:
SPSS-Treff: Einführung in die Clusteranalyse
11. Juli 2003
Dr. Carina Ortseifen, URZ Heidelberg 2
Distanzmaße für metrische Variabl.
Euklidische DistanzCity Block-Distanz
Summe der absoluten Differenzen
= Spezialfälle der Minkowski-DistanzHohe Unterschiede werden stark gewichtet.Maße sind translationsinvariant, aber nicht skaleninvariant. (Einkommen in Dollar oder Euro)
Distanzmaße für metrische Var. (2)
Mahalanobis-Distanz
dij=(xi-xj)‘ S-1 (xi-xj)
wobei S-1 die Inverse der Stich-proben-Varianz-Kovarianzmatrixder p Merkmale ist.
Translations- und Skaleninvariant
Dichotome Merkmale (Beispiel)
Zwei Beobachtungen, A und B, 9 Merkmale, die angeben, ob ein Sachverhalt gegeben ist oder nicht
A: 0 0 1 1 0 0 1 1 1B: 1 0 1 0 0 0 0 1 1
BA 1 0
1 3 2
0 1 3
a b
c d
Ähnlichkeitskoeffizient von Jaccard
pij=a / (a+b+c) (d spielt keine Rolle)
Das entsprechende Distanzmaß ist:dij=1- pij = (b+c) / (a+b+c)
pij nimmt Werte zwischen 0 und 1 an.
Für das Beispiel: pAB= 3/6 = 0.5.
Distanzmaße für binäre Merkmale
(Simple) Matching Koeffizientpij=a+d / (a+b+c+d)
Jaccard- (Tanimoto-) Koeffizientpij=a / (a+b+c)
RR-Koeffizientpij=a / (a+b+c+d)
Dice-Koeffizientpij=2 a / (2 a+b+c)
Mögliche Probleme
Ungleiche Skala Standardisierung
Ungleiches Skalenniveau der Merkmalebinäre Merkmale als metrische betrachtenmetrische Merkmale binär kodierenAggregation der verschiedenen Distanzmaße
Merkmale sind korreliertBerechnung von Faktorwerten Mahalanobis-Distanz
Ordinalskalierte MerkmaleMerkmale am Median dichotomisierenMerkmale als metrische Daten behandeln
SPSS-Treff: Einführung in die Clusteranalyse
11. Juli 2003
Dr. Carina Ortseifen, URZ Heidelberg 3
Cluster-Analyse-Verfahren Hierarchische
Verfahren
Nicht-hierarchische Verfahren(*)
Start feinste Partionierung, jedes Objekt bildet ein eigenes Cluster
Vorgabe einer Startgruppierung
Cluster-bildung
Fusionierung von Clustern
Verschieben der Objekte
Ziel Das zuvor festgelegte Kriterium ist erfüllt.
Das zuvor festgelegte Kriterium ist erfüllt.
* Auch: Partitionierendes Cluster-Analyse Verfahren, Clusterzentrenanalyse
Nicht-Hierarchische Verfahren
Objekte werden solange in verschiedene Gruppen sortiert, bis die beste Lösung im Sinne des Kriteriums gefunden ist.Problem: enormer Arbeits- und Zeitaufwand (bei 10 Objekten gibt es schon 115 975 verschiedene Möglichkeiten), deshalb sind meist nur Annäherungen möglich.
Hierarchische Verfahren
1. Berechnung der Distanzen zwischen den Clustern
2. Fusionierung der beiden Cluster, die die geringste Distanz zueinander haben
3. Berechnung des Ende-KriteriumsWenn erfüllt, dann Ende; sonst weiter.
4. Berechnung der neuen Distanzen5. Zurück zu Punkt 2
Beispiel
Zehn Fälle, zwei stetige Merkmale A/B
A
B
SingleLinkage
CompleteL.
Average Linkage
Zentroid
Distanzen zwischen den Clustern
Single Linkage: Nächst gelegener Nachbar Kleinste Distanz zwischen einem Objekt des einen Clusters und einem Objekt des anderen Clusters
Ketten-Tendenz
Complete Linkage: Entferntester Nachbargrößte Distanz zwischen einem Objekt des einen Clusters und einem Objekt des anderen Clusters
anfällig für Ausreißer
Distanzen zwischen Clustern (2)
Average Linkage: Linkage zwischen den GruppenDurchschnitt aller Distanz zwischen den Objekten der beiden betrachteten Cluster
tendiert dazu Cluster mit kleinen Varianzen zu verbinden, neigt zu Clustern mit gleicher Varianz
Linkage innerhalb der GruppenZentroid: Zentroid Clustering
Quadrierte Euklidische Distanz zwischen Cluster-Mittelwerten
nur für metrische Merkmale, robust gegenüber Ausreißern)
SPSS-Treff: Einführung in die Clusteranalyse
11. Juli 2003
Dr. Carina Ortseifen, URZ Heidelberg 4
Distanzen zwischen Clustern: Ward
Distanz ist die Anova-Quadratsummezwischen zwei Clustern (nur für intervallskalierte normalverteilte Daten)vereinigt diejenigen Elemente, deren Fusion die Gesamtvarianz innerhalb der Cluster am geringsten erhöhtfindet Cluster mit annährend gleicher Besetzungszahlanfällig für Ausreißer
Bewertungskriterium
Distanz zwischen zwei Clustern
Bestimmtheitsmaß r2 (RSQ) Semipartielles BestimmheitsmaßPseudo-FPseudo-t2
Überprüfung der Cluster-Lösung
Inhaltliche Interpretation Deskriptive Unterschiede zwischen den Clustern auf weiteren Variablen
Diskriminanzanalytische ÜberprüfungClustervariable als Gruppenvariable
Graphische VeranschaulichungEiszapfen, Dendogramm, Plot
2. Cluster-Analyse in SPSS
Prozeduren für Cluster-Analysen:Analysieren > Klassifizieren
CLUSTER (hierarchische Methoden)QUICK CLUSTER (besonders für große
Tabellen, nicht-hierarchisch, k-means)
TWO STEP CLUSTER (für sehr große Tabellen, verarbeitet gleichzeitig unterschiedlich skalierte Variablen)
a. Hierarchische Clusteranalyse
5 Probanden wurden gefragt, wie viele Stunden pro Woche sie für Sport, Medien, Hobbies aufbringen.
data list free /nr sport medien hobbies.begin data1 1 5 3 2 0 6 3 3 2 2 84 5 3 15 5 4 0end data.formats nr, sport, medien, hobbies (f1.0).
Variablen-auswahl
ClusterverfahrenDistanzmaß
Transformation
DendrogrammEiszapfendiagramm
DistanzmatrixZuordnung
Clusterzugehörigkeit
Clusterzugehörigkeit als neue Variable
SPSS-Treff: Einführung in die Clusteranalyse
11. Juli 2003
Dr. Carina Ortseifen, URZ Heidelberg 5
Verarbeitete Fällea
5 100,0 0 ,0 5 100,0N Prozent N Prozent N Prozent
Gültig Fehlend GesamtFälle
Single Linkagea.
Ergebnisse
Näherungsmatrix
,000 2,000 35,000 24,000 26,0002,000 ,000 45,000 38,000 38,000
35,000 45,000 ,000 59,000 77,00024,000 38,000 59,000 ,000 2,00026,000 38,000 77,000 2,000 ,000
Fall12345
1 2 3 4 5 Quadriertes euklidisches Distanzmaß
Dies ist eine Unähnlichkeitsmatrix
Zuordnungsübersicht
4 5 2,000 0 0 31 2 2,000 0 0 31 4 24,000 2 1 41 3 35,000 3 0 0
Schritt1234
Cluster 1 Cluster 2
ZusammengeführteCluster
Koeffizienten Cluster 1 Cluster 2
Erstes Vorkommendes Clusters Nächster
Schritt
Cluster-Zugehörigkeit
11233
Fall12345
3 ClusterBewertungskriterium= Quadrierte Eukl. Distanz
Diagramme
•* * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * *•Dendrogram using Single Linkage
Rescaled Distance Cluster CombineC A S E 0 5 10 15 20 25Label Num +---------+---------+---------+---------+---------+
4 òûòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòø5 ò÷ ùòòòòòòòòòòòòòòòø1 òûòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòò÷ ó2 ò÷ ó3 òòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòò÷
Vertikales Eiszapfendiagramm
X X X X X X X X XX X X X X X X XX X X X X X XX X X X X X
Anzahl der Cluster1234
3 5 4 2 1
Fall
Plot der Cluster-Lösung
MEDIEN
7654321
SP
OR
T
6
5
4
3
2
1
0
-1
Single Linkage
3
2
1
Syntax der Prozedur Cluster
wird fast vollständig von der Dialog-box abgedeckt.Ausnahme: Matrix In|OutEinlesen bzw. Rausschreiben von Distanz-/ÄhnlichkeitsmatrizenBeispiel: CLUSTER sport medien hobbies
/METHOD SINGLE/MEASURE= SEUCLID/PRINT SCHEDULE CLUSTER(3)/PRINT DISTANCE/PLOT DENDROGRAM VICICLE/SAVE CLUSTER(3)/MATRIX OUT("d:\test.sav") .
b. Clusterzentrenanalyse
Prozedur Quick ClusterNearest Centroid Sorting-Verfahren
Distanzmaß: Quadr. eukl. Distanz1. Schritt: Festlegung der Startwerte (n Beobachtungen mit Mindestdistanz)2. Schritt: Zuordnung der übrigen Beobachtungen zu den StartwertenEvtl. 3. Schritt: Berechnung der Zentroide und erneute Zuordnung4. Schritt: Wiederholung der Schritte 1- 3bis sich Zentroide nicht mehr ändern
SPSS-Treff: Einführung in die Clusteranalyse
11. Juli 2003
Dr. Carina Ortseifen, URZ Heidelberg 6
Beispiel
Cluster-ZugehörigkeitDistanz von Clusterzentrum
Statistiken (Anfängl. Clusterzentren, ANOVA- Tabelle, Clusterinformation)
Behandlung fehlender Werte
Anfängliche Clusterzentren
5 0 24 6 20 3 8
SPORTMEDIENHOBBIES
1 2 3Cluster
Iterationsprotokolla
,707 ,707 ,000,000 ,000 ,000
Iteration12
1 2 3Änderung in Clusterzentren
Konvergenz wurde aufgrund geringer oder keinerÄnderungen der Clusterzentren erreicht. Diemaximale Änderung der absoluten Koordinatenfür jedes Zentrum ist ,000. Die aktuelle Iterationlautet 2. Der Mindestabstand zwischen denanfänglichen Zentren beträgt 6,164.
a.
Cluster-Zugehörigkeit
1 2 ,7072 2 ,7073 3 ,0004 1 ,7075 1 ,707
Fallnummer12345
NR Cluster Distanz
Clusterzentren der endgültigen Lösung
5 1 24 6 21 3 8
SPORTMEDIENHOBBIES
1 2 3Cluster
Distanz zwischen Clusterzentren der endgültigen Lösung
5,523 8,2165,523 6,2858,216 6,285
Cluster123
1 2 3
ANOVA
10,350 2 ,250 2 41,400 ,0244,500 2 ,500 2 9,000 ,100
18,750 2 ,250 2 75,000 ,013
SPORTMEDIENHOBBIES
Mittel derQuadrate df
ClusterMittel derQuadrate df
Fehler
F Sig.
Die F-Tests sollten nur für beschreibende Zwecke verwendet werden, da die Cluster sogewählt wurden, daß die Differenzen zwischen Fällen in unterschiedlichen Clusternmaximiert werden. Dabei werden die beobachteten Signifikanzniveaus nicht korrigiert undkönnen daher nicht als Tests für die Hypothese der Gleichheit der Clustermittelwerteinterpretiert werden.
Anzahl der Fälle in jedem Cluster
2,0002,0001,0005,000
,000
123
Cluster
GültigFehlend
Literatur
SPSSBASE.PDF (Online Doku, SPSS-Systemordner)The SPSS TwoStep Cluster Component.White Paper – Technical Report von www.spss.comA. Bühl, P. Zöfel: SPSS Version 10.Addison-Wesley, 2000.F. Brosius: SPSS 8.mitp, 1998.E. Bellgardt: Statistik mit SPSS.Verlag Vahlen, 1997.Bortz, J. : Statistik für Sozialwissenschaftler Springer Lehrbuch, 4.Aufl. 1993.Späth, H. :Cluster-Analyse-Algorithmen zur Objektklassifizierung und Datenreduktion. Oldenbourg, 1977.Backhaus et.al.: Multivariate AnalysemethodenSpringer Lehrbuch, 8. Auflage, 1996.