44
Michael Stelzer Eine Einführung in die Hierarchische Clusteranalyse (HCA)  

Eine Einführung in die Hierarchische Clusteranalyse …cleve/vorl/projects/dm/ss13/Hierar...Ablaufschritte der agglomerativen hierarchischen Clusterverfahren Ende Alle Untersu chungsobjekte

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Eine Einführung in die Hierarchische Clusteranalyse …cleve/vorl/projects/dm/ss13/Hierar...Ablaufschritte der agglomerativen hierarchischen Clusterverfahren Ende Alle Untersu chungsobjekte

Michael Stelzer

Eine Einführung in die

Hierarchische Clusteranalyse (HCA) 

Page 2: Eine Einführung in die Hierarchische Clusteranalyse …cleve/vorl/projects/dm/ss13/Hierar...Ablaufschritte der agglomerativen hierarchischen Clusterverfahren Ende Alle Untersu chungsobjekte

Inhalt

1. Problemstellung

2. Agglomerationsmethoden    und Algorithmen

3. Anwendungsbeispiele

4. Zusammenfassung 

Page 3: Eine Einführung in die Hierarchische Clusteranalyse …cleve/vorl/projects/dm/ss13/Hierar...Ablaufschritte der agglomerativen hierarchischen Clusterverfahren Ende Alle Untersu chungsobjekte

Problemstellung

­ Cluster: dt.: Traube, Haufen

­ heuristisches Verfahren: systematische Klassifizierung von Beobachtungen (Personen, Autos, CD‘s ...)   heterogene Gesamtheit        homogene Teilmenge von Objekten

­ Anwendung: Sozial­ + Wirtschaftswissenschaft, Marktforschung, Biologie

­ Rohdatenmatrix        Distanz­/Ähnlichkeitsmatrix

­ Ähnlichkeit/Unähnlichkeit durch Merkmale wie z.B. Alter, Haarfarbe definiert   ­ Unähnlichkeit = Distanz (distance): absoluter Abstand   ­ Ähnlichkeit = Proximität (similarity): primärer Ähnlichkeitsaspekt

­ Dendrogramm: binär verzweigter Verwandtschaftsstammbaum         Hierarchie

­ Clusterzahl (CZ): Handhabbarkeit (geringe CZ)   Homogenitätsanforderung (große CZ)

­ Unterscheidung nach Zahl verwendeter Variablen:­ monothetische Verfahren: nur 1 Variable herangezogen

  ­ polythetische Verfahren: mehrere Variablen eingesetzt

 

Page 4: Eine Einführung in die Hierarchische Clusteranalyse …cleve/vorl/projects/dm/ss13/Hierar...Ablaufschritte der agglomerativen hierarchischen Clusterverfahren Ende Alle Untersu chungsobjekte

Überblick über ausgewählte Cluster­Algorithmen

Clusterverfahren

Hierarchische

Verfahren

PartitionierendeVerfahren

Optimierungs­verfahren

divisivagglomerativ

Single­

Linkage

Complete­

Linkage

Average­

Linkage

Centroid Median Ward

Graphentheoretische

Verfahren

Iteriertes

Minimaldistanz­

verfahren

Austausch­verfahren

Backhaus, Erichson, Plinke, Weiber (2003): Multivariate Analysemethoden, 10. Auflage

Page 5: Eine Einführung in die Hierarchische Clusteranalyse …cleve/vorl/projects/dm/ss13/Hierar...Ablaufschritte der agglomerativen hierarchischen Clusterverfahren Ende Alle Untersu chungsobjekte

Ablaufschritte und Entscheidungsprobleme der Clusteranalyse

Bestimmung der zu klassi­fizierenden Objekte

Konkretisierung der Problem­stellung der Untersuchung

Analyse und Interpretationder Ergebnisse

Durchführung des Gruppie­rungsvorganges

Bestimmung derGruppenzahl

­ Wie unterscheiden sich die ermittelten Cluster?­ Lassen sich die Ergebnisse sinnvoll interpretieren?

­ Wie viele Gruppen sollen gebildet werden?­ Wie verändern sich die Ergebnisse bei verschiedener Gruppenzahl?

­ Soll ein hierarchisches oder ein partitionierendes Verfahren gewählt werden?­ Welche Auswirkungen hat ein Wechsel des Algorithmus?

­ Welches Ähnlichkeits­ bzw. Distanzmaß soll gewählt werden?­ Wie sind gemischte Variable zu behandeln?

­ Sollen qualitative u./o. quant. Merkmale herangezogen werden?­ Wie groß soll die Zahl der Variablen sein?­ Ist eine Standardisierung sinnvoll?

­ Wie lassen sich die Untersuchungsobjekte beschreiben?­ Wie viele Objekte sollen berücksichtigt werden?

­ Was ist das Ziel der Untersuchung?­ Welche Hypothesen sollen getestet werden?

Auswahl derVariablen

Festlegung eines Ähnlich­keits bzw. Distanzmaßes

Auswahl eines Algorithmuszur Gruppierung

Backhaus, Erichson, Plinke, Weiber (2003)Multivariate Analysemethoden, 10. Auflage

Page 6: Eine Einführung in die Hierarchische Clusteranalyse …cleve/vorl/projects/dm/ss13/Hierar...Ablaufschritte der agglomerativen hierarchischen Clusterverfahren Ende Alle Untersu chungsobjekte

Ablaufschritte der agglomerativen hierarchischen Clusterverfahren

Ende

Alle Untersu­chungsobjekte

in einerGruppe

Berechnung neuer Abständeund Veränderung der Distanzmatrix

Suche nach den beiden Objekten/Clustern mit der geringsten Distanz

Berechnung derAusgangsdatenmatrix

Start mit der feinstenPartition

Zusammenfassung der ähnlichsten Objekte/Cluster zu einer Gruppe

NEIN

JABackhaus, Erichson, Plinke, Weiber (2003)

 Multivariate Analysemethoden, 10. Auflage

Page 7: Eine Einführung in die Hierarchische Clusteranalyse …cleve/vorl/projects/dm/ss13/Hierar...Ablaufschritte der agglomerativen hierarchischen Clusterverfahren Ende Alle Untersu chungsobjekte

Charakterisierung agglomerativer Clusterverfahren (WinSTAT®)

­ Einfache Verbindung (Single/Simple Linkage): Distanz zweier Gruppen = Distanz beider am dichtesten benachbarten Objekte    kontrahierend: viele kleine, wenige große Gruppen + Kettenbildung + Ausreißer

­ Durchschnittsverbindung (Average Linkage):Distanz zweier Gruppen = mittlere Distanz aller mögl. Verbindungen der Objekte    konservativ + Tendenz zur Verbindung Cluster kleiner Varianz        gleiche Var. 

­ Zentroidverbindung (Centroid Linkage):Distanz zweier Gruppen = Distanz der Gruppenschwerpunkte    konservativ + robust gegenüber Ausreißern

­ Ward­Methode (Incremental Sums of Squares) (1963): Distanz zweier Gruppen ~ Änderung der ∑2 der Distanzen innerhalb der Gruppen,die sich bei Zusammenschluss ergeben würde            konservativ + homogene, gleich große Cluster + anfällig für Ausreißer

­ Komplette Verbindung (Complete Linkage):Distanz zweier Gruppen = Distanz beider am weitesten entfernten Objekte    dilatierend: kleine, gleich große kompakte Cluster + anfällig für Ausreißer

Page 8: Eine Einführung in die Hierarchische Clusteranalyse …cleve/vorl/projects/dm/ss13/Hierar...Ablaufschritte der agglomerativen hierarchischen Clusterverfahren Ende Alle Untersu chungsobjekte

Charakterisierung agglomerativer Clusterverfahren (XLstat©)

­ Unweighted Pair Group Method with Arithmetic Mean:Unähnlichkeit zwischen zwei Gruppen ist Mittel der Unähnlichkeiten zwischen denObjekten beider Gruppen         guter Kompromiss zwischen Simple u. CompleteLinkage + faire Darstellung der Datenraummöglichkeiten

­ Weighted Pair Group Method with Arithmetic Mean:mittlere Unähnlichkeit zwischen Objekten zweier Gruppen ist ∑ gewichteterUnähnlichkeiten          beiden Gruppen gleiche Gewichtung zugewiesen + ehrlicheRepräsentation des Datensatzes

­ Flexible Linkage: ß­Parameter [­1,+1];  ß = 0        WPGMA;  ß nahe 1        kettenartige  Cluster; ß < 0        Ausdehnung des Datensatzes 

­ Strong Linkage:verwendet mittlere Distanzen innerhalb jeder Gruppe + zwischen allen Gruppen        sehr kompakte Cluster

Page 9: Eine Einführung in die Hierarchische Clusteranalyse …cleve/vorl/projects/dm/ss13/Hierar...Ablaufschritte der agglomerativen hierarchischen Clusterverfahren Ende Alle Untersu chungsobjekte

Vergleich agglomerativer Clusterverfahren

SPSS®

Page 10: Eine Einführung in die Hierarchische Clusteranalyse …cleve/vorl/projects/dm/ss13/Hierar...Ablaufschritte der agglomerativen hierarchischen Clusterverfahren Ende Alle Untersu chungsobjekte

SPSS®

Die Euklidische Distanz

Quadrierte ED:große Differenzwerte stärker berücksichtigt alskleine Werte          Gewichtung

Page 11: Eine Einführung in die Hierarchische Clusteranalyse …cleve/vorl/projects/dm/ss13/Hierar...Ablaufschritte der agglomerativen hierarchischen Clusterverfahren Ende Alle Untersu chungsobjekte

Distanzberechnung bei ausgewählten agglomerativen Verfahren

NPNPNQ

NPNPNQ

NQNPNQ

NQNPNQ

−NP⋅NQ

NPNQ 2

NRNPNRNPNQ

NRNQNRNPNQ

−NRNRNPNQ

1NPNQ

{NP⋅DR,P NQ DR,Q }

1NPNQ

{NP⋅D R,P NQ DR,Q }−NP⋅NQ

NPNQ 2⋅DP,Q

NRNP ⋅DR,P NRNQ ⋅DR,Q ¿

1NRNPNQ

{¿−NR⋅DP,Q }

¿

Gleichung X: D(R,P + Q) = A∙D(R,P) + B∙D(R,Q) + E∙D(P,Q) + G∙|D(R,P) ­ D(R,Q)|

D(R,P): Distanz zw. Gruppen R + PD(R,Q): Distanz zw. Gruppen R + QD(P,Q): Distanz zw. Gruppen P + Q

NR: Zahl der Objekte in Gruppe RNP: Zahl der Objekte in Gruppe PNQ: Zahl der Objekte in Gruppe Q

Backhaus, Erichson, Plinke, Weiber (2003) Multivariate Analysemethoden, 10. Auflage

Distanzberechnung (D(R;P + Q)) nach Gleichung X):                                                  Konstante              A                               B                                E                     G

Verfahren

0Ward

0,5 (D(R,P) + D(R,Q)) ­ 0,25 ∙ D(P,Q)0­0,250,50,5Median

0Centroid

00Average Linkage (gewichtet)

0,5 ∙{D(R,P) + D(R,Q)000,50,5Average Linkage (ungewichtet)

0,5 ∙{D(R,P) + D(R,Q) + |D(R,P) ­ (R,Q)|}0,500,50,5Complete Linkage

0,5 ∙{D(R,P) + D(R,Q) ­ |D(R,P) ­ D(R,Q)|}­0,500,50,5Single Linkage

Page 12: Eine Einführung in die Hierarchische Clusteranalyse …cleve/vorl/projects/dm/ss13/Hierar...Ablaufschritte der agglomerativen hierarchischen Clusterverfahren Ende Alle Untersu chungsobjekte

­ XLstat©: Vers. 5.1, Addinsoft, Dr. Thierry Fahmy, Paris, Frankreich (Windows)

­ WinSTAT®: Vers. 1999.3, R. Fitch Software, Staufen, Deutschland (Windows) ­ Pirouette®: Vers. 3.11, Infometrix Software Inc., Dr. E. Riverside, U.S.A. (Windows)

­ SPSS®: Vers. 13, SPSS Inc., U.S.A. (Windows + Linux?)

­ R: Vers. 2.0.1 (15.11.2004) The R Foundation for Statistical Computing, R. Gentleman       + R. Ihaka R&R of the Statistics Department Univ. of Auckland (Windows + Linux)

­ GelCompar® II: Applied­Maths B/BA, Belgien (Windows)

­ Unistat: Vers. 5, Additive GmbH, Deutschland (Windows)­ ...­ ... 

Programmpakete

Page 13: Eine Einführung in die Hierarchische Clusteranalyse …cleve/vorl/projects/dm/ss13/Hierar...Ablaufschritte der agglomerativen hierarchischen Clusterverfahren Ende Alle Untersu chungsobjekte

Vorgehensweise in WinSTAT® (I)A

o1A

o2A

o3G

s1G

s2G

s3E

r1E

r2E

r3Fc

1Fc

3Fc

2C

c1C

c3C

c2A

n1A

n2A

n3T

h1T

h3T

h2M

f1M

f3M

f2M

m1

Mm

2M

m3

Tv1

Tv3

Tv2

Hs1

Hs3

Hs2

Af1

Af2

Af3

Vc1

Vc2

Vc3

Mr1

Mr2

Mr3

Tr1

Tr2

Tr3

Pn1

Pn3

Pn2

Ba1

Ba2

Ba3

Or1

Or2

Or3

Pl1

Pl3

Pl2

Pfu1

Pfu3

Pfu2

Pc1

Pc3

Pc2

Sb1

Sb2

Sb3

Pf a

1Pf

 b3

Pf b

2Pf

 a2

Pf a

3Pf

 b1

Pf c

1Pf

 c2

Pf c

3A

s1A

s2A

s3H

v1H

v2H

v3C

h1C

h3C

h2Sc

1Sc

2Sc

3

0100200300400500600700800

Dis

tanz

Einstellungen Dialog Clusteranalyse

Ergebnisse Blatt Cluster

Einstellungen Dialog Clustertrennung(1)

(2)

(3)

Page 14: Eine Einführung in die Hierarchische Clusteranalyse …cleve/vorl/projects/dm/ss13/Hierar...Ablaufschritte der agglomerativen hierarchischen Clusterverfahren Ende Alle Untersu chungsobjekte

ClusteranalyseMeßvariable:mm/24hMeanGrayUMeanRedUMeanGreenUMeanBlueUHueTypicalUMeanSaturationUMeanBrightnessUMeanDensityUMeanGrayRMeanRedRMeanGreenRMeanBlueRHueTypicalRMeanSaturationRGrayVariationRMeanBrightnessRBrightVariationRMeanDensityR

Vorgehensweise in WinSTAT® (II)

verbinde mitSchritt Cluster 1 Größe 1 Cluster 2 Größe 2 Distanz

1 Gs2 1 Gs3 1 02 Cc1 1 Cc3 1 03 Vc1 1 Vc2 1 04 Tr1 1 Tr2 1 0,015 Mr2 1 Mr3 1 0,016 Mm1 1 Mm2 1 0,017 Tv1 1 Tv3 1 0,018 Af1 1 Af2 1 0,019 Pl1 1 Pl3 1 0,0110 Ao2 1 Ao3 1 0,0111 Sc1 1 Sc2 1 0,0112 Pc1 1 Pc3 1 0,0113 Mm1 2 Mm3 1 0,0114 Mf1 1 Mf3 1 0,0115 Th1 1 Th3 1 0,0216 Pf a1 1 Pf b3 1 0,0217 Mf1 2 Mf2 1 0,0218 Ba2 1 Ba3 1 0,0219 Er1 1 Er2 1 0,0220 Pf c1 1 Pf c2 1 0,0221 Ao1 1 Ao2 2 0,0222 Fc1 1 Fc3 1 0,0223 As2 1 As3 1 0,02

Agglomerations­methode: Ward

Page 15: Eine Einführung in die Hierarchische Clusteranalyse …cleve/vorl/projects/dm/ss13/Hierar...Ablaufschritte der agglomerativen hierarchischen Clusterverfahren Ende Alle Untersu chungsobjekte

Vorgehensweise in WinSTAT® (III)

27 Ch1 1 Ch3 1 0,0228 Ba1 1 Ba2 2 0,0229 Gs1 1 Gs2 2 0,0330 An1 1 An2 1 0,0331 Hv2 1 Hv3 1 0,0332 Th1 2 Th2 1 0,0333 Tv1 2 Tv2 1 0,0334 Hs1 1 Hs3 1 0,0335 Sb2 1 Sb3 1 0,0436 Cc1 2 Cc2 1 0,0437 Sb1 1 Sb2 2 0,0438 Af1 2 Af3 1 0,0439 Tr1 2 Tr3 1 0,0440 Or2 1 Or3 1 0,0541 Fc1 2 Fc2 1 0,0542 Pfu1 1 Pfu3 1 0,0543 Pn1 1 Pn3 1 0,0544 Pf a1 2 Pf b2 1 0,0545 As1 1 As2 2 0,0646 Pf a2 1 Pf a3 1 0,0747 Pn1 2 Pn2 1 0,0748 Hs1 2 Hs2 1 0,0749 Pc1 2 Pc2 1 0,0850 Vc1 2 Vc3 1 0,0851 Er1 2 Er3 1 0,0952 Pfu1 2 Pfu2 1 0,153 Ch1 2 Ch2 1 0,12

57 Pf a1 3 Pf a2 2 0,1858 Pf a1 5 Pf b1 1 0,3159 An1 2 An3 1 0,3960 Pf a1 6 Pf c1 3 0,8261 Th1 3 Mf1 3 1,1262 Hv1 3 Ch1 3 1,663 Pc1 3 Sb1 3 1,6864 Vc1 3 Mr1 3 2,2165 Th1 6 Mm1 3 2,7166 Pn1 3 Ba1 3 3,5367 Th1 9 Tv1 3 4,1568 Pn1 6 Or1 3 4,5869 Vc1 6 Tr1 3 7,370 Th1 12 Hs1 3 7,3271 Ao1 3 Gs1 3 8,1772 Pfu1 3 Pc1 6 9,6773 Ao1 6 Er1 3 13,2674 As1 3 Hv1 6 13,7975 Af1 3 Vc1 9 15,6376 Ao1 9 Fc1 3 26,977 Pfu1 9 Pf a1 9 28,5578 Af1 12 Pn1 9 33,5779 Ao1 12 Cc1 3 44,6180 Pl1 3 Pfu1 18 47,2581 Th1 15 Af1 21 54,0882 An1 3 Th1 36 118,1183 As1 9 Sc1 3 124,84

verbinde mitSchritt Cluster 1 Größe 1 Cluster 2 Größe 2 Distanz

verbinde mitSchritt Cluster 1 Größe 1 Cluster 2 Größe 2 Distanz

Page 16: Eine Einführung in die Hierarchische Clusteranalyse …cleve/vorl/projects/dm/ss13/Hierar...Ablaufschritte der agglomerativen hierarchischen Clusterverfahren Ende Alle Untersu chungsobjekte

Ao1

Ao2

Ao3

Th1

Th3

Th2

Mm

1M

m2

Mm

3M

f1M

f3M

f2T

v1T

v3T

v2H

s1H

s3H

s2Pn

1Pn

3Pn

2B

a1B

a2B

a3O

r1O

r2O

r3V

c1V

c2V

c3M

r1M

r2M

r3T

r1T

r2Tr

3A

f1A

f2A

f3Pf

u1Pf

u3Pf

u2Pc

1Pc

3Pc

2Sb

1Sb

2Sb

3Pf

 a1

Pf b

3Pf

 b2

Pf a

2Pf

 a3

Pf b

1Pf

 c1

Pf c

2Pf

 c3

Er1

Er2

Er3

Gs1

Gs2

Gs3

Pl1

Pl3

Pl2

Fc1

Fc3

Fc2

Cc1

Cc3

Cc2

As1

As2

As3

Hv1

Hv2

Hv3

Ch1

Ch3

Ch2

An1

An2

An3

Sc1

Sc2

Sc3

0

10

20

30

40

50

60

Dis

tanz

Einfache Verbindung (Single/Simple Linkage)

WinSTAT®

Page 17: Eine Einführung in die Hierarchische Clusteranalyse …cleve/vorl/projects/dm/ss13/Hierar...Ablaufschritte der agglomerativen hierarchischen Clusterverfahren Ende Alle Untersu chungsobjekte

Ao1

Ao2

Ao3

Gs1

Gs2

Gs3

Er1

Er2

Er3

Cc1

Cc3

Cc2

Th1

Th3

Th2

Mf1

Mf3

Mf2

Tv1

Tv3

Tv2

Mm

1M

m2

Mm

3H

s1H

s3H

s2Pn

1Pn

3Pn

2B

a1B

a2B

a3O

r1O

r2O

r3A

f1A

f2A

f3V

c1V

c2V

c3M

r1M

r2M

r3T

r1T

r2T

r3Fc

1Fc

3Fc

2A

n1A

n2A

n3Pl

1Pl

3Pl

2Pf

u1Pf

u3Pf

u2Pc

1Pc

3Pc

2Sb

1Sb

2Sb

3Pf

 a1

Pf b

3Pf

 b2

Pf b

1Pf

 a2

Pf a

3Pf

 c1

Pf c

2Pf

 c3

As1

As2

As3

Hv1

Hv2

Hv3

Ch1

Ch3

Ch2

Sc1

Sc2

Sc3

0

50

100

150

200

250

300

Dis

tanz

Komplette Verbindung (Complete Linkage)

WinSTAT®

Page 18: Eine Einführung in die Hierarchische Clusteranalyse …cleve/vorl/projects/dm/ss13/Hierar...Ablaufschritte der agglomerativen hierarchischen Clusterverfahren Ende Alle Untersu chungsobjekte

Ao1

Ao2

Ao3

Gs1

Gs2

Gs3

Er1

Er2

Er3

Fc1

Fc3

Fc2

Th1

Th3

Th2

Mf1

Mf3

Mf2

Mm

1M

m2

Mm

3T

v1T

v3T

v2H

s1H

s3H

s2Pn

1Pn

3Pn

2B

a1B

a2B

a3O

r1O

r2O

r3V

c1V

c2V

c3M

r1M

r2M

r3T

r1T

r2T

r3A

f1A

f2A

f3Pl

1Pl

3Pl

2Pf

u1Pf

u3Pf

u2Pc

1Pc

3Pc

2Sb

1Sb

2Sb

3Pf

 a1

Pf b

3Pf

 b2

Pf a

2Pf

 a3

Pf c

1Pf

 c2

Pf c

3Pf

 b1

An1

An2

An3

Cc1

Cc3

Cc2

As1

As2

As3

Hv1

Hv2

Hv3

Ch1

Ch3

Ch2

Sc1

Sc2

Sc3

0

20

40

60

80

100

Dis

tanz

Durchschnittsverbindung (Average Linkage)

WinSTAT®

Page 19: Eine Einführung in die Hierarchische Clusteranalyse …cleve/vorl/projects/dm/ss13/Hierar...Ablaufschritte der agglomerativen hierarchischen Clusterverfahren Ende Alle Untersu chungsobjekte

Ao1

Ao2

Ao3

Gs1

Gs2

Gs3

Er1

Er2

Er3

Fc1

Fc3

Fc2

Th1

Th3

Th2

Mf1

Mf3

Mf2

Mm

1M

m2

Mm

3T

v1T

v3T

v2H

s1H

s3H

s2Pn

1Pn

3Pn

2B

a1B

a2B

a3O

r1O

r2O

r3V

c1V

c2V

c3M

r1M

r2M

r3T

r1T

r2T

r3A

f1A

f2A

f3Pl

1Pl

3Pl

2Pf

u1Pf

u3Pf

u2Pc

1Pc

3Pc

2Sb

1Sb

2Sb

3Pf

 a1

Pf b

3Pf

 b2

Pf a

2Pf

 a3

Pf c

1Pf

 c2

Pf c

3Pf

 b1

An1

An2

An3

Cc1

Cc3

Cc2

As1

As2

As3

Hv1

Hv2

Hv3

Ch1

Ch3

Ch2

Sc1

Sc2

Sc3

0

1020

30

40

5060

70

Dis

tanz

Zentroidverbindung (Centroid Linkage)

WinSTAT®

Page 20: Eine Einführung in die Hierarchische Clusteranalyse …cleve/vorl/projects/dm/ss13/Hierar...Ablaufschritte der agglomerativen hierarchischen Clusterverfahren Ende Alle Untersu chungsobjekte

Ao1

Ao2

Ao3

Gs1

Gs2

Gs3

Er1

Er2

Er3

Fc1

Fc3

Fc2

Cc1

Cc3

Cc2

An1

An2

An3

Th1

Th3

Th2

Mf1

Mf3

Mf2

Mm

1M

m2

Mm

3T

v1T

v3T

v2H

s1H

s3H

s2A

f1A

f2A

f3V

c1V

c2V

c3M

r1M

r2M

r3T

r1T

r2T

r3Pn

1Pn

3Pn

2B

a1B

a2B

a3O

r1O

r2O

r3Pl

1Pl

3Pl

2Pf

u1Pf

u3Pf

u2Pc

1Pc

3Pc

2Sb

1Sb

2Sb

3Pf

 a1

Pf b

3Pf

 b2

Pf a

2Pf

 a3

Pf b

1Pf

 c1

Pf c

2Pf

 c3

As1

As2

As3

Hv1

Hv2

Hv3

Ch1

Ch3

Ch2

Sc1

Sc2

Sc3

0100200300400500600700800

Dis

tanz

Ward­Methode (Incremental Sums of Squares)

WinSTAT®

Page 21: Eine Einführung in die Hierarchische Clusteranalyse …cleve/vorl/projects/dm/ss13/Hierar...Ablaufschritte der agglomerativen hierarchischen Clusterverfahren Ende Alle Untersu chungsobjekte

AoGsEr Fc CcAnThMfMm

TvHsAfVcMrTr

Pn BaOrPl PfuPc Sb Pf a + b

Pf cAsHv

ChSc

0,00,10,20,30,40,50,60,70,80,91,0

Distanz

Alternaria sp., As; Aspergillus flavus, Af; Aspergillus niger, An; Aspergillus ochraceus, Ao; Botrytis allii, Ba; Cladosporium cucumerinum, Cc; Cladosporium  herbarum, Ch; Eurotium repens, Er; Fusarium culmorum, Fc; Gliocladium sp., Gs; Hormodendrum violaceum, Hv; Hypomyces sp., Hs; Mortierella ramanniana, Mr; Mucor flavus, Mf; Mucor mucedo, Mm; Oidiodendron rhodogenum, Or; Paecilomyces lilacinus, Pl; Penicillium camemberti, Pc; Penicillium funiculosum, Pfu; Penicillium fellutanum (Isolat 1), Pf a; Penicillium fellutanum (Isolat 2), Pf b; Penicillium fellutanum (Isolat 3), Pf c; Penicillium notatum (Fleming Stamm), Pn; Scopulariopsis brevicaulis, Sb; Stachybotrys chartarum, Sc; Trichoderma harzianum, Th; Trichoderma viride, Tv; Trichothecium roseum, Tr; Verticillium cinnabarinum, Vc

Dendrogramm geclusterter Bilddaten von 29 Pilzstämmen (Ward) 

WinSTAT®

P. fellutanum

Page 22: Eine Einführung in die Hierarchische Clusteranalyse …cleve/vorl/projects/dm/ss13/Hierar...Ablaufschritte der agglomerativen hierarchischen Clusterverfahren Ende Alle Untersu chungsobjekte

Unweighted Pair Group Method with Arithmetic Mean

XLstat©

Page 23: Eine Einführung in die Hierarchische Clusteranalyse …cleve/vorl/projects/dm/ss13/Hierar...Ablaufschritte der agglomerativen hierarchischen Clusterverfahren Ende Alle Untersu chungsobjekte

 Weighted Pair Group Method with Arithmetic Mean

XLstat©

Page 24: Eine Einführung in die Hierarchische Clusteranalyse …cleve/vorl/projects/dm/ss13/Hierar...Ablaufschritte der agglomerativen hierarchischen Clusterverfahren Ende Alle Untersu chungsobjekte

Flexible Linkage

XLstat©

Page 25: Eine Einführung in die Hierarchische Clusteranalyse …cleve/vorl/projects/dm/ss13/Hierar...Ablaufschritte der agglomerativen hierarchischen Clusterverfahren Ende Alle Untersu chungsobjekte

Strong Linkage

XLstat©

Page 26: Eine Einführung in die Hierarchische Clusteranalyse …cleve/vorl/projects/dm/ss13/Hierar...Ablaufschritte der agglomerativen hierarchischen Clusterverfahren Ende Alle Untersu chungsobjekte

Beispiel für die Erstellung eines rooted trees durch aufeinanderfolgende Clusterung von Sequenzen (UPGMA) 

I II

III IV

t1=t2=0,5d12

0,5d68t3=0,5d37

t4=t5=0,5d45

Durbin, Eddy, Krogh, Mitchison (2003)Biological sequence analysis, 8. Auflage

d = distance t = edge lengths

Page 27: Eine Einführung in die Hierarchische Clusteranalyse …cleve/vorl/projects/dm/ss13/Hierar...Ablaufschritte der agglomerativen hierarchischen Clusterverfahren Ende Alle Untersu chungsobjekte

Observations (axis F1 and F2: 73 %)

Ao1Ao2Ao3

An1An2An3

Cc1Cc2Cc3

Gs1Gs2Gs3

Th1Th2Th3Af1Af2Af3 As1As2As3Pn1Pn2Pn3

Mm1Mm2Mm3

Fc1Fc2Fc3

Pl1Pl2Pl3

Mf1Mf2Mf3

Hv1Hv2Hv3

Pfu1Pfu2Pfu3

Or1Or2Or3

Hs1Hs2Hs3 Vc1Vc2Vc3

Pc1Pc2Pc3Er1Er2Er3

Pf a1Pf a2Pf a3

Ch1Ch2Ch3Pf b1Pf b2Pf b3

Ba1Ba2Ba3Pf c1Pf c2Pf c3

Tr1Tr2Tr3Sb1Sb2Sb3 Mr1Mr2Mr3

Tv1Tv2Tv3

Sc1Sc2Sc3

­5

­4

­3

­2

­1

0

1

2

3

4

5

­8 ­6 ­4 ­2 0 2 4 6 8 10

­­ axis F1 (59 %) ­­>

­­ a

xis 

F2 (

14 %

) ­­

>

Hauptkomponentenanalyse (Principal Components Analysis)

XLstat©

Page 28: Eine Einführung in die Hierarchische Clusteranalyse …cleve/vorl/projects/dm/ss13/Hierar...Ablaufschritte der agglomerativen hierarchischen Clusterverfahren Ende Alle Untersu chungsobjekte

Ober­ und Unterseite von Pilzkolonien unterschiedlicher Gattung

Alternaria sp.  Gliocladium sp. 

Paecilomyces lilacinus  Penicillium fellutanum 

Page 29: Eine Einführung in die Hierarchische Clusteranalyse …cleve/vorl/projects/dm/ss13/Hierar...Ablaufschritte der agglomerativen hierarchischen Clusterverfahren Ende Alle Untersu chungsobjekte

Makroskopische Bestimmung der Diversität von Pilzen

Drei Möglichkeiten der Einordnung:

a) subjektive Betrachtung lebender Kulturen (auf Röhrchen/Platten)

b) subjektive Betrachtung von Fotografien oder digitalen Bildern der Kulturen

c) objektive Auswertung von Bilddaten (Werte für Wachstum und Farben)    durch Hauptkomponenten­ oder Clusteranalyse mit Ausgabe 2­ oder    3­ dimensionaler Diagramme bzw. von Dendrogrammen

    Voraussetzungen für die  Clusteranalyse von Bilddaten:

­ simultane Analyse zu vergleichender Datensätze (z.B. aus zwei Böden)­ Festlegung der optimalen Clusterebene:  nachträgliche Zusammenführung kleiner Cluster sinnvoller als Trennung

                  großer Cluster    

Page 30: Eine Einführung in die Hierarchische Clusteranalyse …cleve/vorl/projects/dm/ss13/Hierar...Ablaufschritte der agglomerativen hierarchischen Clusterverfahren Ende Alle Untersu chungsobjekte

Vergleich der Unterscheidungskraft verwendeter Meßgrößen

1,0 0,60,8 0,4

Density Variation ­ UBright Variation ­ UGray Variation ­ UMean Density ­ UMean Brightness ­ UMean Density ­ OMean Brightness ­ OMean Saturation ­ OMean Saturation ­ UHue Typical ­ UHue Typical ­ OMean Blue ­ UMean Green ­ UMean Gray ­ UMean Red ­ OMean Blue ­ OMean Green ­ OMean Gray ­ OMean Red ­ Umm/24h

Ähnlichkeit

Pirouette®

Page 31: Eine Einführung in die Hierarchische Clusteranalyse …cleve/vorl/projects/dm/ss13/Hierar...Ablaufschritte der agglomerativen hierarchischen Clusterverfahren Ende Alle Untersu chungsobjekte

Elbow­Kriterium zur Bestimmung der Clusteranzahl

0

100

200

300

400

500

600

700

1 3 5 7 9 11 13 15 17 19 21 23 25

Anzahl der Cluster

Fehl

erqu

adra

tsum

me

0

e

55

Elbow

Backhaus, Erichson, Plinke, Weiber (2003): Multivariate Analysemethoden, 10. Auflage

Heterogenitätsmaß: Varianzkriterium = Fehlerquadratsumme

Page 32: Eine Einführung in die Hierarchische Clusteranalyse …cleve/vorl/projects/dm/ss13/Hierar...Ablaufschritte der agglomerativen hierarchischen Clusterverfahren Ende Alle Untersu chungsobjekte

Ermittlung der geeigneten Clusterebene: relative Distanz [%] in Dendrogrammen und evenness von Bildtypen in Stichproben

0 , 8 90 , 9 00 , 9 10 , 9 20 , 9 30 , 9 40 , 9 50 , 9 60 , 9 70 , 9 80 , 9 91 , 0 0

0 , 0 0 0 , 2 5 0 , 5 0 0 , 7 5 1 , 0 0 1 , 2 5 1 , 5 0 1 , 7 5 2 , 0 0

R e l a t i v e   D i s t a n z   [ % ]

even

ness

04 08 01 2 01 6 02 0 02 4 02 8 0

Zahl

 der

 Bil

dtyp

en

e v e n n e s sZ a h l   d e r   B i l d t y p e n

00

Page 33: Eine Einführung in die Hierarchische Clusteranalyse …cleve/vorl/projects/dm/ss13/Hierar...Ablaufschritte der agglomerativen hierarchischen Clusterverfahren Ende Alle Untersu chungsobjekte

Cluster I Cluster II

H250 H274

H285 H297

R367 R381

R388

H252 H254

H258 H283

H290 H291

H311 R368

Überprüfung der korrekten Gruppierung vonBilddaten anhand der zugehörigen Aufnahmen I

Page 34: Eine Einführung in die Hierarchische Clusteranalyse …cleve/vorl/projects/dm/ss13/Hierar...Ablaufschritte der agglomerativen hierarchischen Clusterverfahren Ende Alle Untersu chungsobjekte

Similarity

1.0 0

XLstat©

Überprüfung der korrekten Gruppierung vonBilddaten anhand der zugehörigen Aufnahmen II

Page 35: Eine Einführung in die Hierarchische Clusteranalyse …cleve/vorl/projects/dm/ss13/Hierar...Ablaufschritte der agglomerativen hierarchischen Clusterverfahren Ende Alle Untersu chungsobjekte

Lucia D®, LaboratoryIMaging

Page 36: Eine Einführung in die Hierarchische Clusteranalyse …cleve/vorl/projects/dm/ss13/Hierar...Ablaufschritte der agglomerativen hierarchischen Clusterverfahren Ende Alle Untersu chungsobjekte

Lucia D®, LaboratoryIMaging

Page 37: Eine Einführung in die Hierarchische Clusteranalyse …cleve/vorl/projects/dm/ss13/Hierar...Ablaufschritte der agglomerativen hierarchischen Clusterverfahren Ende Alle Untersu chungsobjekte

Abschätzung der katabolischen Vielseitigkeit von Bodenpilzen aus der Verteilung aromatenspezifischer Vermehrungseinheiten (CFU)

Bodenpaar I: Ackerböden (A), wb = wenig belastet, b = belastet.Bodenpaar II: Wald­ (W) und Haldenboden (H), ub = unbelastet, b = belastet.CFU = colony forming units.

H b

2H

 b1

H b

3W

 ub3

W u

b2

A w

b3A 

b3A 

b2A 

b1A 

wb2

W u

b1

A w

b1

0

20

40

60

80

100

120

Dis

tanz

0,0

0,5

1,0

1,5

2,0

2,5

Acker wb Acker b Wald ub Halde b

Kat

abol

isch

e Vi

else

itig

keit

CFU

Page 38: Eine Einführung in die Hierarchische Clusteranalyse …cleve/vorl/projects/dm/ss13/Hierar...Ablaufschritte der agglomerativen hierarchischen Clusterverfahren Ende Alle Untersu chungsobjekte

Abschätzung der katabolischen Vielseitigkeit von Böden durchVerrechnung der reziproken Abbauzeiten aromatischer Säuren

Bodenpaar I: Ackerböden (A), wb = wenig belastet, b = belastet.Bodenpaar II: Wald­ (W) und Haldenboden (H), ub = unbelastet, b = belastet.

H b

3H

 b2

H b

1A 

b3A 

b2A 

b1W

 ub3

W u

b2W

 ub1

A w

b3A 

wb2

A w

b1

0

20

40

60

80

100

120D

ista

nz0,0

0,5

1,0

1,5

2,0

2,5

Acker wb Acker b Wald ub Halde b

Kat

abol

isch

e Vi

else

itig

keit

Resp

irom

etrie

Page 39: Eine Einführung in die Hierarchische Clusteranalyse …cleve/vorl/projects/dm/ss13/Hierar...Ablaufschritte der agglomerativen hierarchischen Clusterverfahren Ende Alle Untersu chungsobjekte

Ähnlichkeit [%]

Vergleich der Pilzvielfalt von Rhizosphären­ und Endophyten­Gemeinschaften bei Raps und Erdbeere am Standort BS (DGGE)

DGGE: Denaturierende Gradienten              Gel ElektrophoreseSuper­St.: Banden­Standard,                  bestehend aus 11 PilzisolatenBS6: 6. Probenahme BSW1,3,6,8: Wurzelproben RapsW2,4,5,7: Wurzelproben ErdbeereE: Endophytische PilzeR: Rhizosphärische Pilze

Ward­Methode

GelCompar®

Page 40: Eine Einführung in die Hierarchische Clusteranalyse …cleve/vorl/projects/dm/ss13/Hierar...Ablaufschritte der agglomerativen hierarchischen Clusterverfahren Ende Alle Untersu chungsobjekte

­ Im Dendrogramm gesamte Gruppierungs­  information enthalten  Problem: Findung geeigneter Clusterebene

­ Ward­Methode als Einstieg: sehr gut 

­ Problem: enormer Arbeits­ + Zeitaufwand, daher  meist nur Annäherungen möglich        bei 10  Objekten 115 975 verschiedene Möglichkeiten

Zusammenfassung

Hierarchische Verfahren Nicht­hierarchische Verfahren        (Partitionierendes Cluster­Verfahren, Clusterzentrenanalyse)

­ Start feinste Partitionierung,  Vorgabe Startgruppierungjedes Objekt = 1 Cluster

­ Clusterbildung Fusionierung von Clustern  Verschieben/Sortieren der Objekte

­ Ziel Kriterium erfüllt  Kriterium erfüllt

­Testung verschiedener Verfahren empfohlen 

  Gefahr der geschönten Darstellung von Daten

  bzw. Verzerrung

Page 41: Eine Einführung in die Hierarchische Clusteranalyse …cleve/vorl/projects/dm/ss13/Hierar...Ablaufschritte der agglomerativen hierarchischen Clusterverfahren Ende Alle Untersu chungsobjekte
Page 42: Eine Einführung in die Hierarchische Clusteranalyse …cleve/vorl/projects/dm/ss13/Hierar...Ablaufschritte der agglomerativen hierarchischen Clusterverfahren Ende Alle Untersu chungsobjekte

Korrekter Vergleich des Artenreichtumsvon Stichproben durch rarefaction

0

10

20

30

40

50

60

70

0 25 50 75 100 125 150 175Zahl der Isolate

Zahl

 der

 Bil

dtyp

en

unbelastetbelastet

= 49,75

= 38,81

Page 43: Eine Einführung in die Hierarchische Clusteranalyse …cleve/vorl/projects/dm/ss13/Hierar...Ablaufschritte der agglomerativen hierarchischen Clusterverfahren Ende Alle Untersu chungsobjekte

Artenreichtum:

Diversität:                                             Shannon­Index   (Shannon und Weaver, 1963)

              = Vielfalt; Artenzahl in Lebensgemeinschaft,

wobei       S = Zahl der Arten (Bildtypen)               N = Zahl der Individuen (Isolate)

   ni = Zahl der Individuen je Art bzw. Bildtyp,        = Bedeutungswert der Art.

evenness:                                       (Pielou, 1966)     

                        = Gleichmäßigkeit der Verteilung (z.B. von Arten, katabol. Fähigkeiten),

 wobei             = Shannon­Index, A = Zahl der angebotenen Substrate. 

Ökologische Indices

ni

N

d=SN

e=H

log A

H

H=−∑ ni

N × log ni

N

Page 44: Eine Einführung in die Hierarchische Clusteranalyse …cleve/vorl/projects/dm/ss13/Hierar...Ablaufschritte der agglomerativen hierarchischen Clusterverfahren Ende Alle Untersu chungsobjekte

Beispielrechnung Diversität und evenness

Modelle gleicher Arten­ und Individuenzahl, aber unterschiedlicher Arten­

IndividuenzahlBedeutung ­log Bedeutung Produkt

3 1 0,0048 2,3222 0,01114 1 0,0048 2,3222 0,01114 1 0,0048 2,3222 0,01115 1 0,0048 2,3222 0,01115 2 0,0095 2,0212 0,01926 2 0,0095 2,0212 0,01926 3 0,0143 1,8451 0,02647 3 0,0143 1,8451 0,02648 4 0,0190 1,7202 0,03289 5 0,0238 1,6232 0,03869 6 0,0286 1,5441 0,0441

10 8 0,0381 1,4191 0,054112 9 0,0429 1,3680 0,058613 12 0,0571 1,2430 0,071014 14 0,0667 1,1761 0,078415 17 0,0810 1,0918 0,088417 22 0,1048 0,9798 0,102619 26 0,1238 0,9072 0,112321 33 0,1571 0,8037 0,126323 40 0,1905 0,7202 0,1372

Summe N 210 Diversität (Summe) 1,0799n = 20 log Artenzahl (20) 1,3010

0,8301

verteilung: Berechnung von Diversität und evenness

ni ni ni/N ­log (ni/N) ­(ni/N) log (ni/N)

e = 0,95 e = 0,83 evenness (D/log AZ)

Abbauzeit [h] Bedeutung ­log Bedeutung Produkt

19 0,0244 1,6131 0,039322,3 0,0286 1,5436 0,044223 0,0295 1,5301 0,0451

51,5 0,0661 1,1801 0,078021,8 0,0280 1,5534 0,043459,5 0,0763 1,1174 0,085344 0,0564 1,2484 0,0705

30,3 0,0389 1,4104 0,054831,5 0,0404 1,3936 0,056334,3 0,0440 1,3566 0,059730,5 0,0391 1,4076 0,055164,3 0,0825 1,0837 0,089440,3 0,0517 1,2866 0,066548,3 0,0620 1,2079 0,074833 0,0423 1,3734 0,0581

32,3 0,0414 1,3827 0,057310,8 0,0139 1,8584 0,025741,3 0,0530 1,2759 0,067648,8 0,0626 1,2035 0,075359,8 0,0767 1,1152 0,085533 0,0423 1,3734 0,0581

Summe F 779,6 Diversität (Summe) 1,2901n = 21 log 21 1,3222

0,9757

fi fi/F ­log (fi/F) ­(fi/F) log (fi/F) 

evenness (D/log 21)