40
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Maschinelles Lernen II Clustering 2 Christoph Sawade/Niels Landwehr Tobias Scheffer

Maschinelles Lernen II Clustering 2 - Universität Potsdam Clustering.pdf · Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Maschinelles Lernen II Clustering

  • Upload
    ngodien

  • View
    216

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Maschinelles Lernen II Clustering 2 - Universität Potsdam Clustering.pdf · Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Maschinelles Lernen II Clustering

Universität Potsdam Institut für Informatik

Lehrstuhl Maschinelles Lernen

Maschinelles Lernen II

Clustering 2

Christoph Sawade/Niels Landwehr

Tobias Scheffer

Page 2: Maschinelles Lernen II Clustering 2 - Universität Potsdam Clustering.pdf · Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Maschinelles Lernen II Clustering

Saw

ade/L

andw

ehr/S

cheffe

r, Maschin

elle

s L

ern

en II

Überblick

Zuletzt:

K-means

Mixture of Gaussians

Hierarchisches Clustern

Bottom Up

Top Down

Graphen-basiertes Clustern

Ähnlichkeitsgraph

Minimaler Schnitt

2

Page 3: Maschinelles Lernen II Clustering 2 - Universität Potsdam Clustering.pdf · Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Maschinelles Lernen II Clustering

Saw

ade/L

andw

ehr/S

cheffe

r, Maschin

elle

s L

ern

en II

Clustern

Geg.

Objekte

Distanzfunktion oder

Ähnlichkeitsfunktion

Erwartete Clusteranzahl

Ziel: Partition , wobei mit…

hoher intra-cluster-Ähnlichkeit

niedriger inter-cluster-Ähnlichkeit

3

1 nV x ,...,x

k

ij i jw sim x ,x 0

1 kP ,...Pi j i

i 1...n

P P , P V

i jdist x ,x 0

Page 4: Maschinelles Lernen II Clustering 2 - Universität Potsdam Clustering.pdf · Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Maschinelles Lernen II Clustering

Saw

ade/L

andw

ehr/S

cheffe

r, Maschin

elle

s L

ern

en II

Inter-Cluster Metriken

Einfacher Abstand

Kompletter Abstand

Durchschnittsabstand

Abstand der Zentroide

4

jmin i j v P,w Pd P ,P min dist v,w

i jmax i j v P ,w Pd P ,P max dist v,w

i

cent i j

v P v Pji j

1 1d P ,P dist v, v

P P

i

mean i j

v P w Pji j

1d P ,P dist v,w

P P

Page 5: Maschinelles Lernen II Clustering 2 - Universität Potsdam Clustering.pdf · Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Maschinelles Lernen II Clustering

Saw

ade/L

andw

ehr/S

cheffe

r, Maschin

elle

s L

ern

en II

Optimales Clustering

Berechnung des globalen Optimum bzgl. inter- und

intra-cluster-Ähnlichkeit ist nicht effizient

Vgl. k-means:

Bestimmung eines lokalen Optimums

EM-Algorithmus (siehe letzte VL)

Heuristik (Hierarchisches Clustering)

Relaxation (Spectral Clustering)

5

n k2

r ij i j

i 1 j 1

min r x

Page 6: Maschinelles Lernen II Clustering 2 - Universität Potsdam Clustering.pdf · Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Maschinelles Lernen II Clustering

Saw

ade/L

andw

ehr/S

cheffe

r, Maschin

elle

s L

ern

en II

Überblick

Hierarchisches Clustern

Bottom Up

Top Down

Graphen-basiertes Clustern

Ähnlichkeitsgraph

Minimaler Schnitt

6

Page 7: Maschinelles Lernen II Clustering 2 - Universität Potsdam Clustering.pdf · Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Maschinelles Lernen II Clustering

Saw

ade/L

andw

ehr/S

cheffe

r, Maschin

elle

s L

ern

en II

Hierarchisches Clustern

Bottom Up

Agglomerative Nesting (Agnes)

Top Down

Divisive Analysis (Diana)

7

Page 8: Maschinelles Lernen II Clustering 2 - Universität Potsdam Clustering.pdf · Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Maschinelles Lernen II Clustering

Saw

ade/L

andw

ehr/S

cheffe

r, Maschin

elle

s L

ern

en II

Hierarchisches Clustern Agnes (Algorithmus)

Geg.: Objekte , Inter-Cluster Metrik

Setze

Solange unterschiedliche Cluster existieren

berechne min. Distanz über alle

Setze

Liefere zurück

8

V d

0C x | x V

v w v w

v,w i v,ws, t argmin d c ,c ; D min d c ,c

v w

i 1c ,c C

v s t

iC c | v s, t c c

0 1C ,C ,...

Page 9: Maschinelles Lernen II Clustering 2 - Universität Potsdam Clustering.pdf · Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Maschinelles Lernen II Clustering

Saw

ade/L

andw

ehr/S

cheffe

r, Maschin

elle

s L

ern

en II

Hierarchisches Clustern Agglomerative Coefficient

Sei , wobei das Cluster ist, mit dem

im i-ten Schritt verschmolzen wurde

Agglomerative Coefficient :

Ein Maß für die Qualität eines Clusterings

Nicht geeignet um Datensätze unterschiedlicher

Größe zu vergleichen

9

v s

i kC c | v s, t c x

s

k km d c , x sc kx

n

i

i 1 final

1 mAC 1 0,1

n D

Page 10: Maschinelles Lernen II Clustering 2 - Universität Potsdam Clustering.pdf · Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Maschinelles Lernen II Clustering

Saw

ade/L

andw

ehr/S

cheffe

r, Maschin

elle

s L

ern

en II

Überblick

Hierarchisches Clustern

Bottom Up

Top Down

Graphen-basiertes Clustern

Ähnlichkeitsgraph

Minimaler Schnitt

10

Page 11: Maschinelles Lernen II Clustering 2 - Universität Potsdam Clustering.pdf · Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Maschinelles Lernen II Clustering

Saw

ade/L

andw

ehr/S

cheffe

r, Maschin

elle

s L

ern

en II

Hierarchisches Clustern Diana

Bottom up: alle möglichen Fusionen werden

betrachtet

Top down: mögliche Splits

11

n

2

n 12 1

Page 12: Maschinelles Lernen II Clustering 2 - Universität Potsdam Clustering.pdf · Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Maschinelles Lernen II Clustering

Saw

ade/L

andw

ehr/S

cheffe

r, Maschin

elle

s L

ern

en II

Hierarchisches Clustern Diana (Algorithmus)

Geg.: Objekte , Inter-Cluster Metrik

Setze

Solange mehr-elementige Cluster existieren

Bestimme Cluster mit höchsten Durchmesser

Bestimme unähnlichstes Element

und setze

Solange , wobei

Setze

Liefere zurück 12

V d

0C V

v cs argmax vd v,c

i 1c C s,t cc argmax max d s, t

c s

v c c

max D v 0

c c t

v cc

t argmax D v

0 1C ,C ,...

i i 1C C c c c c

D v d v,c cvc d ,

Page 13: Maschinelles Lernen II Clustering 2 - Universität Potsdam Clustering.pdf · Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Maschinelles Lernen II Clustering

Saw

ade/L

andw

ehr/S

cheffe

r, Maschin

elle

s L

ern

en II

Hierarchisches Clustern Divisive Coefficient

Sei , der Durchmesser des Cluster aus dem das

Objekt zu letzt herausgelöst wurde (bis es

einzeln war)

Divisive Coefficient:

Ein Maß für die Qualität eines Clusterings

Nicht geeignet um Datensätze unterschiedlicher

Größe zu vergleichen

13

n

i

i 1

1DC dia

n

idia

iv

Page 14: Maschinelles Lernen II Clustering 2 - Universität Potsdam Clustering.pdf · Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Maschinelles Lernen II Clustering

Saw

ade/L

andw

ehr/S

cheffe

r, Maschin

elle

s L

ern

en II

Überblick

Hierarchisches Clustern

Bottom Up

Top Down

Graphen-basiertes Clustern

Ähnlichkeitsgraph

Minimaler Schnitt

14

Page 15: Maschinelles Lernen II Clustering 2 - Universität Potsdam Clustering.pdf · Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Maschinelles Lernen II Clustering

Saw

ade/L

andw

ehr/S

cheffe

r, Maschin

elle

s L

ern

en II

Graphen-basiertes Clustern Ähnlichkeitsgraph

Ähnlichkeit zwischen Datenpunkten

(Knoten) bilden gewichtete Kanten:

15

V

Page 16: Maschinelles Lernen II Clustering 2 - Universität Potsdam Clustering.pdf · Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Maschinelles Lernen II Clustering

Saw

ade/L

andw

ehr/S

cheffe

r, Maschin

elle

s L

ern

en II

Graphen-basiertes Clustern Ähnlichkeitsgraph

Ähnlichkeit zwischen Datenpunkten

(Knoten) bilden gewichtete Kanten:

Vollständiger Graph: Kantengewichte = Ähnlichkeit

knn-Graph: Kante, wenn

Knoten i (oder j) einer der k

nächsten Nachbarn von j (bzw. i)

-Nachbarschaftsgraph:

Kante, wenn

16

V

i jdist v ,v

Page 17: Maschinelles Lernen II Clustering 2 - Universität Potsdam Clustering.pdf · Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Maschinelles Lernen II Clustering

Saw

ade/L

andw

ehr/S

cheffe

r, Maschin

elle

s L

ern

en II

Graphen-basiertes Clustern Definitionen

Gewichtete Adjazenzmatrix

Knotengrad-Matrix

Laplace-Matrix

unnormalisiert

Symmetrisch normalisiert

17

1

1

0

0

n

i ij

j

n

d

d w

d

D

11 1n

1n nn

w w

w w

W

un

1/2 1/2

sym

L D W

L I D WD

Page 18: Maschinelles Lernen II Clustering 2 - Universität Potsdam Clustering.pdf · Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Maschinelles Lernen II Clustering

Saw

ade/L

andw

ehr/S

cheffe

r, Maschin

elle

s L

ern

en II

Beobachtung

Zusammenhängende Teilgraphen…

entspricht Anzahl Eigenwerte von L mit Wert 0.

zugehörige (unnormierte) Eigenvektoren enthalten

Indikatorvektoren der Teilgraphen.

Erkenntnis für schwach zusammenhäng. Teilgraphen?

18

1 2

3

1

3

2

3

2

1

0

f 1,...1,0,...0,0,...0 /

f 0,...0,1,.

#Bsp. in C

#Bsp. in..1,0,...0 /

f 0,...0,0,...0,1,.

C

#Bsp...1 n C/ i

n

2T T T

un i, j i j

i, j 1

1f L f f Df f Wf w f f

2

Page 19: Maschinelles Lernen II Clustering 2 - Universität Potsdam Clustering.pdf · Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Maschinelles Lernen II Clustering

Saw

ade/L

andw

ehr/S

cheffe

r, Maschin

elle

s L

ern

en II

Betrachten Ähnlichkeitsgraphen mit zwei

unterschiedlichen ausgezeichneten Knoten

Ein s-t-Schnitt ist eine Partitionierung der Knoten,

wobei und mit

Minimaler Schnitt Spezialfall k=2

19

s P t P V P

st

s, t V

i j

s,t

ij

v P,v P

s P,t P

Cut (P) w

Page 20: Maschinelles Lernen II Clustering 2 - Universität Potsdam Clustering.pdf · Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Maschinelles Lernen II Clustering

Saw

ade/L

andw

ehr/S

cheffe

r, Maschin

elle

s L

ern

en II

Der minimale s-t-Schnitt

ist

Problem ist in polynomieller

Laufzeit lösbar (Ford/Fulkerson; Dinic)

Der minimale Schnitt ist der minimale

s-t-Schnitt über alle s-t-Schnitte:

Problem ist in polynomieller Laufzeit lösbar

Minimaler Schnitt Spezialfall k=2

20

2nm n logn

* s,t

P VP argmin Cut (P)s

t

i jijv P,v P

Cut(P) w

Page 21: Maschinelles Lernen II Clustering 2 - Universität Potsdam Clustering.pdf · Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Maschinelles Lernen II Clustering

Saw

ade/L

andw

ehr/S

cheffe

r, Maschin

elle

s L

ern

en II

Minimaler Schnitt Balanzierung

Problem: MinCut-Lösung separiert häufig einzelne

Knoten

21

Page 22: Maschinelles Lernen II Clustering 2 - Universität Potsdam Clustering.pdf · Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Maschinelles Lernen II Clustering

Saw

ade/L

andw

ehr/S

cheffe

r, Maschin

elle

s L

ern

en II

Minimaler Schnitt Balanzierung

Problem: MinCut-Lösung separiert häufig einzelne

Knoten

Balanzierung:

wobei Anzahl der Knoten in

, wobei

Balanziertes MinCut-Problem ist NP-hart

22

Cut(P)

RatioCut PP

Cut(P)

Ncut Pvol(P)

i

i

v P

vol P d

P P

Page 23: Maschinelles Lernen II Clustering 2 - Universität Potsdam Clustering.pdf · Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Maschinelles Lernen II Clustering

Saw

ade/L

andw

ehr/S

cheffe

r, Maschin

elle

s L

ern

en II

Minimaler Schnitt Balanzierung

Lemma 1: Sei

dann gilt

Lemma 2: Sei

dann gilt

23

T

unV RatioCut P f L f

T

symvol(V) NCut P f L f

i

i

P / P , wenn v P

P / P , sons

f

t

i

i

vol P / vol P , wenn v P

vol P / vol P , sonst

f

Page 24: Maschinelles Lernen II Clustering 2 - Universität Potsdam Clustering.pdf · Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Maschinelles Lernen II Clustering

Saw

ade/L

andw

ehr/S

cheffe

r, Maschin

elle

s L

ern

en II

Spectral-Clustering (unnormalisiert) Relaxation

RatioCut

24

n nT 2

i iP V

i 1 i 1

minf Lf , wobei f 0, f n

Page 25: Maschinelles Lernen II Clustering 2 - Universität Potsdam Clustering.pdf · Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Maschinelles Lernen II Clustering

Saw

ade/L

andw

ehr/S

cheffe

r, Maschin

elle

s L

ern

en II

Spectral-Clustering (unnormalisiert) Relaxation

RatioCut

25

n nT 2

i iP V

i 1 i 1

minf Lf , wobei f 0, f n

kann nur 2 Werte annehmen if

i

i

P / P , wenn v P

P / P , sons

f

t

Page 26: Maschinelles Lernen II Clustering 2 - Universität Potsdam Clustering.pdf · Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Maschinelles Lernen II Clustering

Saw

ade/L

andw

ehr/S

cheffe

r, Maschin

elle

s L

ern

en II

Spectral-Clustering (unnormalisiert) Relaxation

RatioCut

(Unnormalisiertes) Spectral-Clustering

26

n nT 2

i iP V

i 1 i 1

minf Lf , wobei f 0, f n

n

n nT 2

i if

i 1 i 1

minf Lf , wobei f 0, f n

NP-hart

Eigenwertproblem

Page 27: Maschinelles Lernen II Clustering 2 - Universität Potsdam Clustering.pdf · Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Maschinelles Lernen II Clustering

Saw

ade/L

andw

ehr/S

cheffe

r, Maschin

elle

s L

ern

en II

Spectral-Clustering (unnormalisiert) Relaxation

RatioCut

(Unnormalisiertes) Spectral-Clustering

Diskretisierung:

27

n nT 2

i iP V

i 1 i 1

minf Lf , wobei f 0, f n

n

n nT 2

i if

i 1 i 1

minf Lf , wobei f 0, f n

isign(f )

NP-hart

Eigenwertproblem

Page 28: Maschinelles Lernen II Clustering 2 - Universität Potsdam Clustering.pdf · Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Maschinelles Lernen II Clustering

Saw

ade/L

andw

ehr/S

cheffe

r, Maschin

elle

s L

ern

en II

Spectral-Clustering (unnormalisiert) Verallgemeinerung auf k>2

28

1 k i

i 1...k

1Cut(P ,...P ) Cut P

2

1 k i

i 1...k

1RatioCut(P ,...P ) RatioCut P

2

1 k i

i 1...k

1Ncut(P ,...P ) Ncut P

2

Page 29: Maschinelles Lernen II Clustering 2 - Universität Potsdam Clustering.pdf · Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Maschinelles Lernen II Clustering

Saw

ade/L

andw

ehr/S

cheffe

r, Maschin

elle

s L

ern

en II

Spectral-Clustering (unnormalisiert) Verallgemeinerung auf k>2

29

1 k i

i 1...k

1Cut(P ,...P ) Cut P

2

1 k i

i 1...k

1RatioCut(P ,...P ) RatioCut P

2

1 k i

i 1...k

1Ncut(P ,...P ) Ncut P

2

j i j

ij

j

1/ P , wenn v P

1/ P , sonst

F

i

i

P / P , wenn v P

P / P , sons

f

t

T

1 kRatioCut(P ,...P ) Tr F LF

Page 30: Maschinelles Lernen II Clustering 2 - Universität Potsdam Clustering.pdf · Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Maschinelles Lernen II Clustering

Saw

ade/L

andw

ehr/S

cheffe

r, Maschin

elle

s L

ern

en II

Spectral-Clustering (unnormalisiert) Relaxierung (k>2)

RatioCut

(Unnormalisiertes) Spectral-Clustering

30

1 k

T T

P ,...,Pmin Tr F LF , wobei F F I

NP-hart

Eigenwertproblem

n k

T T

F

min Tr F LF , wobei F F I

Page 31: Maschinelles Lernen II Clustering 2 - Universität Potsdam Clustering.pdf · Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Maschinelles Lernen II Clustering

Saw

ade/L

andw

ehr/S

cheffe

r, Maschin

elle

s L

ern

en II

Spectral-Clustering (unnormalisiert) Relaxierung (k>2)

RatioCut

(Unnormalisiertes) Spectral-Clustering

Diskretisierung: k-means auf

31

1 k

T T

P ,...,Pmin Tr F LF , wobei F F I

NP-hart

Eigenwertproblem

n k

T T

F

min Tr F LF , wobei F F I

iF

Page 32: Maschinelles Lernen II Clustering 2 - Universität Potsdam Clustering.pdf · Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Maschinelles Lernen II Clustering

Saw

ade/L

andw

ehr/S

cheffe

r, Maschin

elle

s L

ern

en II

Spectral-Clustering Beispiel

Daten: Mixture of gaussian

32

Page 33: Maschinelles Lernen II Clustering 2 - Universität Potsdam Clustering.pdf · Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Maschinelles Lernen II Clustering

Saw

ade/L

andw

ehr/S

cheffe

r, Maschin

elle

s L

ern

en II

Spectral-Clustering Beispiel

sim: RBF mit

Eigenwerte der zugehörigen

Laplacematrix (fully connected Graph)

33

1

Page 34: Maschinelles Lernen II Clustering 2 - Universität Potsdam Clustering.pdf · Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Maschinelles Lernen II Clustering

Saw

ade/L

andw

ehr/S

cheffe

r, Maschin

elle

s L

ern

en II

Spectral-Clustering Beispiel

34

Page 35: Maschinelles Lernen II Clustering 2 - Universität Potsdam Clustering.pdf · Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Maschinelles Lernen II Clustering

Saw

ade/L

andw

ehr/S

cheffe

r, Maschin

elle

s L

ern

en II

Spectral-Clustering (unnormalisiert) Algorithmus

Geg.: Adjazenzmatrix , Clusteranzahl

Berechne zugehörige Laplacematrix

Berechne die kleinsten Eigenvektoren

von

Setze

Berechne Cluster aus Datenpunkte

Liefere zurück

35

n n

0W

k

unL

k

unL

n

iu

1

1 k

n

x | |

u ... u

x | |

jC

ixjC

Page 36: Maschinelles Lernen II Clustering 2 - Universität Potsdam Clustering.pdf · Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Maschinelles Lernen II Clustering

Saw

ade/L

andw

ehr/S

cheffe

r, Maschin

elle

s L

ern

en II

Approximationsgüte Balanzierte Schnitte

Polynomieller Algorithmus mit konstanter

Approximationsgüte existiert nicht

Cockroach Graph (Guattery & Miller 1998)

36

| P | | P | 2k

cut P,P 2

optimal

Page 37: Maschinelles Lernen II Clustering 2 - Universität Potsdam Clustering.pdf · Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Maschinelles Lernen II Clustering

Saw

ade/L

andw

ehr/S

cheffe

r, Maschin

elle

s L

ern

en II

Approximationsgüte Balanzierte Schnitte

Polynomieller Algorithmus mit konstanter

Approximationsgüte existiert nicht

Cockroach Graph (Guattery & Miller 1998)

37

| P | | P | 2k

cut P,P k

Un. Spectral Clustering

Page 38: Maschinelles Lernen II Clustering 2 - Universität Potsdam Clustering.pdf · Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Maschinelles Lernen II Clustering

Saw

ade/L

andw

ehr/S

cheffe

r, Maschin

elle

s L

ern

en II

Anmerkungen

Ncut führt zum verallgemeinerten Eigenvektorproblem

(norm. Spectral clustering)

Probabilistische Motivation…

38

Page 39: Maschinelles Lernen II Clustering 2 - Universität Potsdam Clustering.pdf · Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Maschinelles Lernen II Clustering

Saw

ade/L

andw

ehr/S

cheffe

r, Maschin

elle

s L

ern

en II

Anmerkungen

Ncut führt zum verallgemeinerten Eigenvektorproblem

(norm. Spectral clustering)

Probabilistische Motivation…

Page-Rank: Sortieren der Beispiele nach

entsprechendem Eintrag des größten Eigenvektors

(bzgl. Eigenwert)

Quelle:

U. von Luxburg: A Tutorial on Spectral Clustering; 2007

39

Page 40: Maschinelles Lernen II Clustering 2 - Universität Potsdam Clustering.pdf · Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Maschinelles Lernen II Clustering

Saw

ade/L

andw

ehr/S

cheffe

r, Maschin

elle

s L

ern

en II

Evaluation von Clusterings

Unüberwacht (nur heuristisch):

z.B. Agglomerativer Koeffizient, Divisive Coefficient

Überwacht: Evaluationsdaten gegeben

Relative Entropie

Durchschnittliches F-measure / Recall / Precision

Rand-Index

40

* *

c '

* *

2*c

' H

c c ' c1

Hc '

c 'n

c 'c '

c ' c 'loH log

g

* *

1 1

* *

i j i

l

j

k,C ,

x i, j : x C x C x i, j :

R C , , C , C

x, | x x C x C, x, x, | x, x,

n

2

*