133
Data Mining Tutorial E. Schubert, A. Zimek Aufgabe 10-1 Aufgabe 10-2 Aufgabe 10-3 Data Mining Tutorial Kernel, Regression, Evaluation Erich Schubert, Arthur Zimek Ludwig-Maximilians-Universität München 2013-07-05 — KDD Übung

Data Mining Tutorial - Kernel, Regression, Evaluation

  • Upload
    others

  • View
    6

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Data Mining Tutorial - Kernel, Regression, Evaluation

Data MiningTutorial

E. Schubert,A. Zimek

Aufgabe 10-1

Aufgabe 10-2

Aufgabe 10-3

Data Mining TutorialKernel, Regression, Evaluation

Erich Schubert, Arthur Zimek

Ludwig-Maximilians-Universität München

2013-07-05 — KDD Übung

Page 2: Data Mining Tutorial - Kernel, Regression, Evaluation

Data MiningTutorial

E. Schubert,A. Zimek

Aufgabe 10-1

Aufgabe 10-2

Aufgabe 10-3

Kernel-Fukctionen

“Kernel” kann mehrdeutig sein! Unterscheidet zwischen:

I Kernel function (diese Aufgabe)I Kernel density function (in der Statistik)I Kernel matrix (oftmals: eine vorberechnete

Distanz-Matrix – z.B. mit Kernelfunktion)I Positiv (semi-) definite Matrix A in d(x, x) := xTAx ≥ 0

Positiv definite Matrix A⇒ xTAy ist eine Kernel-Funktion.

Aber nicht jede Kernelfunktion ist als positiv definiteMatrix repräsentierbar!

Page 3: Data Mining Tutorial - Kernel, Regression, Evaluation

Data MiningTutorial

E. Schubert,A. Zimek

Aufgabe 10-1

Aufgabe 10-2

Aufgabe 10-3

Kernel-Fukctionen

“Kernel” kann mehrdeutig sein! Unterscheidet zwischen:

I Kernel function (diese Aufgabe)I Kernel density function (in der Statistik)I Kernel matrix (oftmals: eine vorberechnete

Distanz-Matrix – z.B. mit Kernelfunktion)I Positiv (semi-) definite Matrix A in d(x, x) := xTAx ≥ 0

Positiv definite Matrix A⇒ xTAy ist eine Kernel-Funktion.

Aber nicht jede Kernelfunktion ist als positiv definiteMatrix repräsentierbar!

Page 4: Data Mining Tutorial - Kernel, Regression, Evaluation

Data MiningTutorial

E. Schubert,A. Zimek

Aufgabe 10-1

Aufgabe 10-2

Aufgabe 10-3

Kernel-Fukctionen

“Kernel” kann mehrdeutig sein! Unterscheidet zwischen:

I Kernel function (diese Aufgabe)I Kernel density function (in der Statistik)I Kernel matrix (oftmals: eine vorberechnete

Distanz-Matrix – z.B. mit Kernelfunktion)I Positiv (semi-) definite Matrix A in d(x, x) := xTAx ≥ 0

Positiv definite Matrix A⇒ xTAy ist eine Kernel-Funktion.

Aber nicht jede Kernelfunktion ist als positiv definiteMatrix repräsentierbar!

Page 5: Data Mining Tutorial - Kernel, Regression, Evaluation

Data MiningTutorial

E. Schubert,A. Zimek

Aufgabe 10-1

Aufgabe 10-2

Aufgabe 10-3

Kernel-Funktionen

Positiv semi-definit↔ Generalisierte Skalarprodukte

Standardskalarprodukt: 〈x, y〉 =∑

i xiyi

Generalisiertes Skalarprodukt: 〈x, y〉A = xT · A · y

Matrix E so dass xT · E · y = 〈x, y〉?

〈x, y〉 =∑

i

∑j

eij · xi · yj

eij =

{1 i = j0 i 6= j

Das ist die Einheitsmatrix!

Page 6: Data Mining Tutorial - Kernel, Regression, Evaluation

Data MiningTutorial

E. Schubert,A. Zimek

Aufgabe 10-1

Aufgabe 10-2

Aufgabe 10-3

Kernel-Funktionen

Positiv semi-definit↔ Generalisierte Skalarprodukte

Standardskalarprodukt: 〈x, y〉 =∑

i xiyi

Generalisiertes Skalarprodukt: 〈x, y〉A = xT · A · y

Matrix E so dass xT · E · y = 〈x, y〉?

〈x, y〉 =∑

i

∑j

eij · xi · yj

eij =

{1 i = j0 i 6= j

Das ist die Einheitsmatrix!

Page 7: Data Mining Tutorial - Kernel, Regression, Evaluation

Data MiningTutorial

E. Schubert,A. Zimek

Aufgabe 10-1

Aufgabe 10-2

Aufgabe 10-3

Kernel-Funktionen

Positiv semi-definit↔ Generalisierte Skalarprodukte

Standardskalarprodukt: 〈x, y〉 =∑

i xiyi

Generalisiertes Skalarprodukt: 〈x, y〉A = xT · A · y

Matrix E so dass xT · E · y = 〈x, y〉?

〈x, y〉 =∑

i

∑j

eij · xi · yj

eij =

{1 i = j0 i 6= j

Das ist die Einheitsmatrix!

Page 8: Data Mining Tutorial - Kernel, Regression, Evaluation

Data MiningTutorial

E. Schubert,A. Zimek

Aufgabe 10-1

Aufgabe 10-2

Aufgabe 10-3

Kernel-Funktionen

Positiv semi-definit↔ Generalisierte Skalarprodukte

Standardskalarprodukt: 〈x, y〉 =∑

i xiyi

Generalisiertes Skalarprodukt: 〈x, y〉A = xT · A · y

Matrix E so dass xT · E · y = 〈x, y〉?

〈x, y〉 =∑

i

∑j

eij · xi · yj

eij =

{1 i = j0 i 6= j

Das ist die Einheitsmatrix!

Page 9: Data Mining Tutorial - Kernel, Regression, Evaluation

Data MiningTutorial

E. Schubert,A. Zimek

Aufgabe 10-1

Aufgabe 10-2

Aufgabe 10-3

Kernel-Funktionen

Beweise für ein paar Kernel-Funktionen:

0) k0(x, y) = 〈x, y〉 = xT · y

k0(x, x) = 〈x, x〉 =∑

i xixi =∑

i x2i ≥ 0 offensichtlich

A) k1(x, y) = 1 = c+ für nicht-negative Konstante c+ ∈ R0+

k1(x, x) = c+ ≥ 0 trivial.

Page 10: Data Mining Tutorial - Kernel, Regression, Evaluation

Data MiningTutorial

E. Schubert,A. Zimek

Aufgabe 10-1

Aufgabe 10-2

Aufgabe 10-3

Kernel-Funktionen

Beweise für ein paar Kernel-Funktionen:

0) k0(x, y) = 〈x, y〉 = xT · yk0(x, x) = 〈x, x〉 =

∑i xixi

=∑

i x2i ≥ 0 offensichtlich

A) k1(x, y) = 1 = c+ für nicht-negative Konstante c+ ∈ R0+

k1(x, x) = c+ ≥ 0 trivial.

Page 11: Data Mining Tutorial - Kernel, Regression, Evaluation

Data MiningTutorial

E. Schubert,A. Zimek

Aufgabe 10-1

Aufgabe 10-2

Aufgabe 10-3

Kernel-Funktionen

Beweise für ein paar Kernel-Funktionen:

0) k0(x, y) = 〈x, y〉 = xT · yk0(x, x) = 〈x, x〉 =

∑i xixi =

∑i x2

i

≥ 0 offensichtlich

A) k1(x, y) = 1 = c+ für nicht-negative Konstante c+ ∈ R0+

k1(x, x) = c+ ≥ 0 trivial.

Page 12: Data Mining Tutorial - Kernel, Regression, Evaluation

Data MiningTutorial

E. Schubert,A. Zimek

Aufgabe 10-1

Aufgabe 10-2

Aufgabe 10-3

Kernel-Funktionen

Beweise für ein paar Kernel-Funktionen:

0) k0(x, y) = 〈x, y〉 = xT · yk0(x, x) = 〈x, x〉 =

∑i xixi =

∑i x2

i ≥ 0 offensichtlich

A) k1(x, y) = 1 = c+ für nicht-negative Konstante c+ ∈ R0+

k1(x, x) = c+ ≥ 0 trivial.

Page 13: Data Mining Tutorial - Kernel, Regression, Evaluation

Data MiningTutorial

E. Schubert,A. Zimek

Aufgabe 10-1

Aufgabe 10-2

Aufgabe 10-3

Kernel-Funktionen

Beweise für ein paar Kernel-Funktionen:

0) k0(x, y) = 〈x, y〉 = xT · yk0(x, x) = 〈x, x〉 =

∑i xixi =

∑i x2

i ≥ 0 offensichtlich

A) k1(x, y) = 1

= c+ für nicht-negative Konstante c+ ∈ R0+

k1(x, x) = c+ ≥ 0 trivial.

Page 14: Data Mining Tutorial - Kernel, Regression, Evaluation

Data MiningTutorial

E. Schubert,A. Zimek

Aufgabe 10-1

Aufgabe 10-2

Aufgabe 10-3

Kernel-Funktionen

Beweise für ein paar Kernel-Funktionen:

0) k0(x, y) = 〈x, y〉 = xT · yk0(x, x) = 〈x, x〉 =

∑i xixi =

∑i x2

i ≥ 0 offensichtlich

A) k1(x, y) = 1 = c+ für nicht-negative Konstante c+ ∈ R0+

k1(x, x) = c+ ≥ 0 trivial.

Page 15: Data Mining Tutorial - Kernel, Regression, Evaluation

Data MiningTutorial

E. Schubert,A. Zimek

Aufgabe 10-1

Aufgabe 10-2

Aufgabe 10-3

Kernel-Funktionen

Beweise für ein paar Kernel-Funktionen:

0) k0(x, y) = 〈x, y〉 = xT · yk0(x, x) = 〈x, x〉 =

∑i xixi =

∑i x2

i ≥ 0 offensichtlich

A) k1(x, y) = 1 = c+ für nicht-negative Konstante c+ ∈ R0+

k1(x, x) = c+ ≥ 0 trivial.

Page 16: Data Mining Tutorial - Kernel, Regression, Evaluation

Data MiningTutorial

E. Schubert,A. Zimek

Aufgabe 10-1

Aufgabe 10-2

Aufgabe 10-3

Kernel functions

Beweise für ein paar Kernel-Funktionen:

B) k2(x, y) = 3 · xT · y

= c+ · k0(x, y)k2(x, x) = c+︸︷︷︸ · k0(x, x)︸ ︷︷ ︸C) k3(x, y) = 3 · xT · y + 5 = c+ · k0(x, y) + d+

Genauso! Im allgemeinen: ein beliebiges Polynom ausnicht-negativen Faktoren und positiv semi-definitenKernel-Funktionen ist wiederum positiv semi-definit!Beispiel: 2k0(x, y) · k1(x, y) + k0(x, y)2 + k1(x, y)2 + 7

Page 17: Data Mining Tutorial - Kernel, Regression, Evaluation

Data MiningTutorial

E. Schubert,A. Zimek

Aufgabe 10-1

Aufgabe 10-2

Aufgabe 10-3

Kernel functions

Beweise für ein paar Kernel-Funktionen:

B) k2(x, y) = 3 · xT · y = c+ · k0(x, y)

k2(x, x) = c+︸︷︷︸ · k0(x, x)︸ ︷︷ ︸C) k3(x, y) = 3 · xT · y + 5 = c+ · k0(x, y) + d+

Genauso! Im allgemeinen: ein beliebiges Polynom ausnicht-negativen Faktoren und positiv semi-definitenKernel-Funktionen ist wiederum positiv semi-definit!Beispiel: 2k0(x, y) · k1(x, y) + k0(x, y)2 + k1(x, y)2 + 7

Page 18: Data Mining Tutorial - Kernel, Regression, Evaluation

Data MiningTutorial

E. Schubert,A. Zimek

Aufgabe 10-1

Aufgabe 10-2

Aufgabe 10-3

Kernel functions

Beweise für ein paar Kernel-Funktionen:

B) k2(x, y) = 3 · xT · y = c+ · k0(x, y)k2(x, x) = c+︸︷︷︸ · k0(x, x)︸ ︷︷ ︸

C) k3(x, y) = 3 · xT · y + 5 = c+ · k0(x, y) + d+

Genauso! Im allgemeinen: ein beliebiges Polynom ausnicht-negativen Faktoren und positiv semi-definitenKernel-Funktionen ist wiederum positiv semi-definit!Beispiel: 2k0(x, y) · k1(x, y) + k0(x, y)2 + k1(x, y)2 + 7

Page 19: Data Mining Tutorial - Kernel, Regression, Evaluation

Data MiningTutorial

E. Schubert,A. Zimek

Aufgabe 10-1

Aufgabe 10-2

Aufgabe 10-3

Kernel functions

Beweise für ein paar Kernel-Funktionen:

B) k2(x, y) = 3 · xT · y = c+ · k0(x, y)k2(x, x) = c+︸︷︷︸

≥0

· k0(x, x)︸ ︷︷ ︸≥0

≥ 0

C) k3(x, y) = 3 · xT · y + 5 = c+ · k0(x, y) + d+

Genauso! Im allgemeinen: ein beliebiges Polynom ausnicht-negativen Faktoren und positiv semi-definitenKernel-Funktionen ist wiederum positiv semi-definit!Beispiel: 2k0(x, y) · k1(x, y) + k0(x, y)2 + k1(x, y)2 + 7

Page 20: Data Mining Tutorial - Kernel, Regression, Evaluation

Data MiningTutorial

E. Schubert,A. Zimek

Aufgabe 10-1

Aufgabe 10-2

Aufgabe 10-3

Kernel functions

Beweise für ein paar Kernel-Funktionen:

B) k2(x, y) = 3 · xT · y = c+ · k0(x, y)k2(x, x) = c+︸︷︷︸

≥0

· k(x, x)︸ ︷︷ ︸≥0

≥ 0

C) k3(x, y) = 3 · xT · y + 5 = c+ · k0(x, y) + d+

Genauso! Im allgemeinen: ein beliebiges Polynom ausnicht-negativen Faktoren und positiv semi-definitenKernel-Funktionen ist wiederum positiv semi-definit!Beispiel: 2k0(x, y) · k1(x, y) + k0(x, y)2 + k1(x, y)2 + 7

Page 21: Data Mining Tutorial - Kernel, Regression, Evaluation

Data MiningTutorial

E. Schubert,A. Zimek

Aufgabe 10-1

Aufgabe 10-2

Aufgabe 10-3

Kernel functions

Beweise für ein paar Kernel-Funktionen:

B) k2(x, y) = 3 · xT · y = c+ · k0(x, y)k2(x, x) = c+︸︷︷︸

≥0

· k(x, x)︸ ︷︷ ︸≥0

≥ 0

C) k3(x, y) = 3 · xT · y + 5

= c+ · k0(x, y) + d+

Genauso! Im allgemeinen: ein beliebiges Polynom ausnicht-negativen Faktoren und positiv semi-definitenKernel-Funktionen ist wiederum positiv semi-definit!Beispiel: 2k0(x, y) · k1(x, y) + k0(x, y)2 + k1(x, y)2 + 7

Page 22: Data Mining Tutorial - Kernel, Regression, Evaluation

Data MiningTutorial

E. Schubert,A. Zimek

Aufgabe 10-1

Aufgabe 10-2

Aufgabe 10-3

Kernel functions

Beweise für ein paar Kernel-Funktionen:

B) k2(x, y) = 3 · xT · y = c+ · k0(x, y)k2(x, x) = c+︸︷︷︸

≥0

· k(x, x)︸ ︷︷ ︸≥0

≥ 0

C) k3(x, y) = 3 · xT · y + 5 = c+ · k0(x, y) + d+

Genauso! Im allgemeinen: ein beliebiges Polynom ausnicht-negativen Faktoren und positiv semi-definitenKernel-Funktionen ist wiederum positiv semi-definit!Beispiel: 2k0(x, y) · k1(x, y) + k0(x, y)2 + k1(x, y)2 + 7

Page 23: Data Mining Tutorial - Kernel, Regression, Evaluation

Data MiningTutorial

E. Schubert,A. Zimek

Aufgabe 10-1

Aufgabe 10-2

Aufgabe 10-3

Kernel functions

Beweise für ein paar Kernel-Funktionen:

B) k2(x, y) = 3 · xT · y = c+ · k0(x, y)k2(x, x) = c+︸︷︷︸

≥0

· k(x, x)︸ ︷︷ ︸≥0

≥ 0

C) k3(x, y) = 3 · xT · y + 5 = c+ · k0(x, y) + d+

Genauso! Im allgemeinen: ein beliebiges Polynom ausnicht-negativen Faktoren und positiv semi-definitenKernel-Funktionen ist wiederum positiv semi-definit!Beispiel: 2k0(x, y) · k1(x, y) + k0(x, y)2 + k1(x, y)2 + 7

Page 24: Data Mining Tutorial - Kernel, Regression, Evaluation

Data MiningTutorial

E. Schubert,A. Zimek

Aufgabe 10-1

Aufgabe 10-2

Aufgabe 10-3

Lineare Regressionsanalyse

Eingabedaten:

x 3 8 9 13 3 6 11 21 1 16y 30 57 64 72 36 43 59 90 20 83

Lineare Regression⇔ beste Ausgleichsgerade!

AllgemeineGerade: y = α · x + β.Benötigt also: α (Steigung), β (Achsenabschnitt).

Optimale Steigung: Cov(X,Y)/Var(X)(Kleinste-Quadrate-Schätzer, siehe math. Statistik)

Optimaler Achsenabschnitt:Für Mittelwerte x, y und α.

Also als Erstes: Mittelwerte berechnen, Daten zentrieren.

Mittelwerte: x = 9.1, y = 55.4

Page 25: Data Mining Tutorial - Kernel, Regression, Evaluation

Data MiningTutorial

E. Schubert,A. Zimek

Aufgabe 10-1

Aufgabe 10-2

Aufgabe 10-3

Lineare Regressionsanalyse

Eingabedaten:

x 3 8 9 13 3 6 11 21 1 16y 30 57 64 72 36 43 59 90 20 83

Allgemeine Gerade: y = α · x + β.Benötigt also: α (Steigung), β (Achsenabschnitt).

Optimale Steigung: Cov(X,Y)/Var(X)(Kleinste-Quadrate-Schätzer, siehe math. Statistik)

Optimaler Achsenabschnitt:Für Mittelwerte x, y und α.

Also als Erstes: Mittelwerte berechnen, Daten zentrieren.

Mittelwerte: x = 9.1, y = 55.4

Page 26: Data Mining Tutorial - Kernel, Regression, Evaluation

Data MiningTutorial

E. Schubert,A. Zimek

Aufgabe 10-1

Aufgabe 10-2

Aufgabe 10-3

Lineare Regressionsanalyse

Eingabedaten:

x 3 8 9 13 3 6 11 21 1 16y 30 57 64 72 36 43 59 90 20 83

Allgemeine Gerade: y = α · x + β.Benötigt also: α (Steigung), β (Achsenabschnitt).

Optimale Steigung: Cov(X,Y)/Var(X)(Kleinste-Quadrate-Schätzer, siehe math. Statistik)

Optimaler Achsenabschnitt:Für Mittelwerte x, y und α.

Also als Erstes: Mittelwerte berechnen, Daten zentrieren.

Mittelwerte: x = 9.1, y = 55.4

Page 27: Data Mining Tutorial - Kernel, Regression, Evaluation

Data MiningTutorial

E. Schubert,A. Zimek

Aufgabe 10-1

Aufgabe 10-2

Aufgabe 10-3

Lineare Regressionsanalyse

Eingabedaten:

x 3 8 9 13 3 6 11 21 1 16y 30 57 64 72 36 43 59 90 20 83

Allgemeine Gerade: y = α · x + β.Benötigt also: α (Steigung), β (Achsenabschnitt).

Optimale Steigung: Cov(X,Y)/Var(X)(Kleinste-Quadrate-Schätzer, siehe math. Statistik)

Optimaler Achsenabschnitt: y = αx + β

Für Mittelwerte x, y und α.

Also als Erstes: Mittelwerte berechnen, Daten zentrieren.

Mittelwerte: x = 9.1, y = 55.4

Page 28: Data Mining Tutorial - Kernel, Regression, Evaluation

Data MiningTutorial

E. Schubert,A. Zimek

Aufgabe 10-1

Aufgabe 10-2

Aufgabe 10-3

Lineare Regressionsanalyse

Eingabedaten:

x 3 8 9 13 3 6 11 21 1 16y 30 57 64 72 36 43 59 90 20 83

Allgemeine Gerade: y = α · x + β.Benötigt also: α (Steigung), β (Achsenabschnitt).

Optimale Steigung: Cov(X,Y)/Var(X)(Kleinste-Quadrate-Schätzer, siehe math. Statistik)

Optimaler Achsenabschnitt: β = y− αxFür Mittelwerte x, y und α.

Also als Erstes: Mittelwerte berechnen, Daten zentrieren.

Mittelwerte: x = 9.1, y = 55.4

Page 29: Data Mining Tutorial - Kernel, Regression, Evaluation

Data MiningTutorial

E. Schubert,A. Zimek

Aufgabe 10-1

Aufgabe 10-2

Aufgabe 10-3

Lineare Regressionsanalyse

Eingabedaten:

x 3 8 9 13 3 6 11 21 1 16y 30 57 64 72 36 43 59 90 20 83

Allgemeine Gerade: y = α · x + β.Benötigt also: α (Steigung), β (Achsenabschnitt).

Optimale Steigung: Cov(X,Y)/Var(X)(Kleinste-Quadrate-Schätzer, siehe math. Statistik)

Optimaler Achsenabschnitt: β = y− αxFür Mittelwerte x, y und α.

Also als Erstes: Mittelwerte berechnen, Daten zentrieren.

Mittelwerte: x = 9.1, y = 55.4

Page 30: Data Mining Tutorial - Kernel, Regression, Evaluation

Data MiningTutorial

E. Schubert,A. Zimek

Aufgabe 10-1

Aufgabe 10-2

Aufgabe 10-3

Lineare Regressionsanalyse

Eingabedaten:

x 3 8 9 13 3 6 11 21 1 16y 30 57 64 72 36 43 59 90 20 83

Allgemeine Gerade: y = α · x + β.Benötigt also: α (Steigung), β (Achsenabschnitt).

Optimale Steigung: Cov(X,Y)/Var(X)(Kleinste-Quadrate-Schätzer, siehe math. Statistik)

Optimaler Achsenabschnitt: β = y− αxFür Mittelwerte x, y und α.

Also als Erstes: Mittelwerte berechnen, Daten zentrieren.

Mittelwerte: x = 9.1, y = 55.4

Page 31: Data Mining Tutorial - Kernel, Regression, Evaluation

Data MiningTutorial

E. Schubert,A. Zimek

Aufgabe 10-1

Aufgabe 10-2

Aufgabe 10-3

Lineare Regressionsanalyse

Zentrierte Daten:

x = 9.1 x− x -6.1 -1.1 -0.1 3.9 -6.1 -3.1 1.9 11.9 -8.1 6.9y = 55.4 y− y -25.4 1.6 8.6 16.6 -19.4 -12.4 3.6 34.6 -35.4 27.6

(x− x) · (y− y) 154.94 -1.76 -0.86 64.74 118.34 38.44 6.84 411.74 286.74 190.44(x− x)2 37.21 1.21 0.01 15.21 37.21 9.61 3.61 141.61 65.61 47.61

αx + β ≈ 33.82 51.51 55.05 69.20 33.82 44.43 62.12 97.50 26.74 79.81reales y 30. 57. 64. 72. 36. 43. 59. 90. 20. 83.

(αx + β − y)2 ≈ 14.60 30.15 80.17 7.86 4.75 2.06 9.74 56.19 45.51 10.19

Cov(X,Y)

Var(X)=

∑(x− x)(y− y)∑(x− x)(x− x)

=1269.6358.9

≈ 3.53747562 = α

β = y− αx ≈ 23.2089719

Summe quadratischer Fehler: ≈ 261.220Wurzel aus mittlerem quadratischen Fehler: ≈ 5.11097

Page 32: Data Mining Tutorial - Kernel, Regression, Evaluation

Data MiningTutorial

E. Schubert,A. Zimek

Aufgabe 10-1

Aufgabe 10-2

Aufgabe 10-3

Lineare Regressionsanalyse

Zentrierte Daten:

x = 9.1 x− x -6.1 -1.1 -0.1 3.9 -6.1 -3.1 1.9 11.9 -8.1 6.9y = 55.4 y− y -25.4 1.6 8.6 16.6 -19.4 -12.4 3.6 34.6 -35.4 27.6(x− x) · (y− y) 154.94 -1.76 -0.86 64.74 118.34 38.44 6.84 411.74 286.74 190.44

(x− x)2 37.21 1.21 0.01 15.21 37.21 9.61 3.61 141.61 65.61 47.61

αx + β ≈ 33.82 51.51 55.05 69.20 33.82 44.43 62.12 97.50 26.74 79.81reales y 30. 57. 64. 72. 36. 43. 59. 90. 20. 83.

(αx + β − y)2 ≈ 14.60 30.15 80.17 7.86 4.75 2.06 9.74 56.19 45.51 10.19

Cov(X,Y)

Var(X)=

∑(x− x)(y− y)∑(x− x)(x− x)

=1269.6358.9

≈ 3.53747562 = α

β = y− αx ≈ 23.2089719

Summe quadratischer Fehler: ≈ 261.220Wurzel aus mittlerem quadratischen Fehler: ≈ 5.11097

Page 33: Data Mining Tutorial - Kernel, Regression, Evaluation

Data MiningTutorial

E. Schubert,A. Zimek

Aufgabe 10-1

Aufgabe 10-2

Aufgabe 10-3

Lineare Regressionsanalyse

Zentrierte Daten:

x = 9.1 x− x -6.1 -1.1 -0.1 3.9 -6.1 -3.1 1.9 11.9 -8.1 6.9y = 55.4 y− y -25.4 1.6 8.6 16.6 -19.4 -12.4 3.6 34.6 -35.4 27.6(x− x) · (y− y) 154.94 -1.76 -0.86 64.74 118.34 38.44 6.84 411.74 286.74 190.44

(x− x)2 37.21 1.21 0.01 15.21 37.21 9.61 3.61 141.61 65.61 47.61

αx + β ≈ 33.82 51.51 55.05 69.20 33.82 44.43 62.12 97.50 26.74 79.81reales y 30. 57. 64. 72. 36. 43. 59. 90. 20. 83.

(αx + β − y)2 ≈ 14.60 30.15 80.17 7.86 4.75 2.06 9.74 56.19 45.51 10.19

Cov(X,Y)

Var(X)=

∑(x− x)(y− y)∑(x− x)(x− x)

=1269.6358.9

≈ 3.53747562 = α

β = y− αx ≈ 23.2089719

Summe quadratischer Fehler: ≈ 261.220Wurzel aus mittlerem quadratischen Fehler: ≈ 5.11097

Page 34: Data Mining Tutorial - Kernel, Regression, Evaluation

Data MiningTutorial

E. Schubert,A. Zimek

Aufgabe 10-1

Aufgabe 10-2

Aufgabe 10-3

Lineare Regressionsanalyse

Zentrierte Daten:

x = 9.1 x− x -6.1 -1.1 -0.1 3.9 -6.1 -3.1 1.9 11.9 -8.1 6.9y = 55.4 y− y -25.4 1.6 8.6 16.6 -19.4 -12.4 3.6 34.6 -35.4 27.6(x− x) · (y− y) 154.94 -1.76 -0.86 64.74 118.34 38.44 6.84 411.74 286.74 190.44

(x− x)2 37.21 1.21 0.01 15.21 37.21 9.61 3.61 141.61 65.61 47.61

αx + β ≈ 33.82 51.51 55.05 69.20 33.82 44.43 62.12 97.50 26.74 79.81reales y 30. 57. 64. 72. 36. 43. 59. 90. 20. 83.

(αx + β − y)2 ≈ 14.60 30.15 80.17 7.86 4.75 2.06 9.74 56.19 45.51 10.19

Cov(X,Y)

Var(X)=

1n−1

∑(x− x)(y− y)

1n−1

∑(x− x)(x− x)

=1269.6358.9

≈ 3.53747562 = α

β = y− αx ≈ 23.2089719

Summe quadratischer Fehler: ≈ 261.220Wurzel aus mittlerem quadratischen Fehler: ≈ 5.11097

Page 35: Data Mining Tutorial - Kernel, Regression, Evaluation

Data MiningTutorial

E. Schubert,A. Zimek

Aufgabe 10-1

Aufgabe 10-2

Aufgabe 10-3

Lineare Regressionsanalyse

Zentrierte Daten:

x = 9.1 x− x -6.1 -1.1 -0.1 3.9 -6.1 -3.1 1.9 11.9 -8.1 6.9y = 55.4 y− y -25.4 1.6 8.6 16.6 -19.4 -12.4 3.6 34.6 -35.4 27.6(x− x) · (y− y) 154.94 -1.76 -0.86 64.74 118.34 38.44 6.84 411.74 286.74 190.44

(x− x)2 37.21 1.21 0.01 15.21 37.21 9.61 3.61 141.61 65.61 47.61

αx + β ≈ 33.82 51.51 55.05 69.20 33.82 44.43 62.12 97.50 26.74 79.81reales y 30. 57. 64. 72. 36. 43. 59. 90. 20. 83.

(αx + β − y)2 ≈ 14.60 30.15 80.17 7.86 4.75 2.06 9.74 56.19 45.51 10.19

Cov(X,Y)

Var(X)=

∑(x− x)(y− y)∑(x− x)(x− x)

=1269.6358.9

≈ 3.53747562 = α

β = y− αx ≈ 23.2089719

Summe quadratischer Fehler: ≈ 261.220Wurzel aus mittlerem quadratischen Fehler: ≈ 5.11097

Page 36: Data Mining Tutorial - Kernel, Regression, Evaluation

Data MiningTutorial

E. Schubert,A. Zimek

Aufgabe 10-1

Aufgabe 10-2

Aufgabe 10-3

Lineare Regressionsanalyse

Zentrierte Daten:

x = 9.1 x− x -6.1 -1.1 -0.1 3.9 -6.1 -3.1 1.9 11.9 -8.1 6.9y = 55.4 y− y -25.4 1.6 8.6 16.6 -19.4 -12.4 3.6 34.6 -35.4 27.6(x− x) · (y− y) 154.94 -1.76 -0.86 64.74 118.34 38.44 6.84 411.74 286.74 190.44

(x− x)2 37.21 1.21 0.01 15.21 37.21 9.61 3.61 141.61 65.61 47.61

αx + β ≈ 33.82 51.51 55.05 69.20 33.82 44.43 62.12 97.50 26.74 79.81reales y 30. 57. 64. 72. 36. 43. 59. 90. 20. 83.

(αx + β − y)2 ≈ 14.60 30.15 80.17 7.86 4.75 2.06 9.74 56.19 45.51 10.19

Cov(X,Y)

Var(X)=

∑(x− x)(y− y)∑(x− x)(x− x)

=1269.6358.9

≈ 3.53747562 = α

β = y− αx ≈ 23.2089719

Summe quadratischer Fehler: ≈ 261.220Wurzel aus mittlerem quadratischen Fehler: ≈ 5.11097

Page 37: Data Mining Tutorial - Kernel, Regression, Evaluation

Data MiningTutorial

E. Schubert,A. Zimek

Aufgabe 10-1

Aufgabe 10-2

Aufgabe 10-3

Lineare Regressionsanalyse

Zentrierte Daten:

x = 9.1 x− x -6.1 -1.1 -0.1 3.9 -6.1 -3.1 1.9 11.9 -8.1 6.9y = 55.4 y− y -25.4 1.6 8.6 16.6 -19.4 -12.4 3.6 34.6 -35.4 27.6(x− x) · (y− y) 154.94 -1.76 -0.86 64.74 118.34 38.44 6.84 411.74 286.74 190.44

(x− x)2 37.21 1.21 0.01 15.21 37.21 9.61 3.61 141.61 65.61 47.61αx + β ≈ 33.82 51.51 55.05 69.20 33.82 44.43 62.12 97.50 26.74 79.81

reales y 30. 57. 64. 72. 36. 43. 59. 90. 20. 83.(αx + β − y)2 ≈ 14.60 30.15 80.17 7.86 4.75 2.06 9.74 56.19 45.51 10.19

Cov(X,Y)

Var(X)=

∑(x− x)(y− y)∑(x− x)(x− x)

=1269.6358.9

≈ 3.53747562 = α

β = y− αx ≈ 23.2089719

Summe quadratischer Fehler: ≈ 261.220Wurzel aus mittlerem quadratischen Fehler: ≈ 5.11097

Page 38: Data Mining Tutorial - Kernel, Regression, Evaluation

Data MiningTutorial

E. Schubert,A. Zimek

Aufgabe 10-1

Aufgabe 10-2

Aufgabe 10-3

Lineare Regressionsanalyse

Zentrierte Daten:

x = 9.1 x− x -6.1 -1.1 -0.1 3.9 -6.1 -3.1 1.9 11.9 -8.1 6.9y = 55.4 y− y -25.4 1.6 8.6 16.6 -19.4 -12.4 3.6 34.6 -35.4 27.6(x− x) · (y− y) 154.94 -1.76 -0.86 64.74 118.34 38.44 6.84 411.74 286.74 190.44

(x− x)2 37.21 1.21 0.01 15.21 37.21 9.61 3.61 141.61 65.61 47.61αx + β ≈ 33.82 51.51 55.05 69.20 33.82 44.43 62.12 97.50 26.74 79.81reales y 30. 57. 64. 72. 36. 43. 59. 90. 20. 83.

(αx + β − y)2 ≈ 14.60 30.15 80.17 7.86 4.75 2.06 9.74 56.19 45.51 10.19

Cov(X,Y)

Var(X)=

∑(x− x)(y− y)∑(x− x)(x− x)

=1269.6358.9

≈ 3.53747562 = α

β = y− αx ≈ 23.2089719

Summe quadratischer Fehler: ≈ 261.220Wurzel aus mittlerem quadratischen Fehler: ≈ 5.11097

Page 39: Data Mining Tutorial - Kernel, Regression, Evaluation

Data MiningTutorial

E. Schubert,A. Zimek

Aufgabe 10-1

Aufgabe 10-2

Aufgabe 10-3

Lineare Regressionsanalyse

Zentrierte Daten:

x = 9.1 x− x -6.1 -1.1 -0.1 3.9 -6.1 -3.1 1.9 11.9 -8.1 6.9y = 55.4 y− y -25.4 1.6 8.6 16.6 -19.4 -12.4 3.6 34.6 -35.4 27.6(x− x) · (y− y) 154.94 -1.76 -0.86 64.74 118.34 38.44 6.84 411.74 286.74 190.44

(x− x)2 37.21 1.21 0.01 15.21 37.21 9.61 3.61 141.61 65.61 47.61αx + β ≈ 33.82 51.51 55.05 69.20 33.82 44.43 62.12 97.50 26.74 79.81reales y 30. 57. 64. 72. 36. 43. 59. 90. 20. 83.

(αx + β − y)2 ≈ 14.60 30.15 80.17 7.86 4.75 2.06 9.74 56.19 45.51 10.19

Cov(X,Y)

Var(X)=

∑(x− x)(y− y)∑(x− x)(x− x)

=1269.6358.9

≈ 3.53747562 = α

β = y− αx ≈ 23.2089719

Summe quadratischer Fehler: ≈ 261.220Wurzel aus mittlerem quadratischen Fehler: ≈ 5.11097

Page 40: Data Mining Tutorial - Kernel, Regression, Evaluation

Data MiningTutorial

E. Schubert,A. Zimek

Aufgabe 10-1

Aufgabe 10-2

Aufgabe 10-3

Lineare Regressionsanalyse

Prognose:

Formel: y = 3.53747562 · x + 23.2089719

A) x = 20⇒ y ≈ 93.9585B) x = 8⇒ y ≈ 51.5088C) x = 11⇒ y ≈ 62.1212

Page 41: Data Mining Tutorial - Kernel, Regression, Evaluation

Data MiningTutorial

E. Schubert,A. Zimek

Aufgabe 10-1

Aufgabe 10-2

Aufgabe 10-3

Lineare Regressionsanalyse

Prognose:

Formel: y = 3.53747562 · x + 23.2089719

A) x = 20

⇒ y ≈ 93.9585B) x = 8⇒ y ≈ 51.5088C) x = 11⇒ y ≈ 62.1212

Page 42: Data Mining Tutorial - Kernel, Regression, Evaluation

Data MiningTutorial

E. Schubert,A. Zimek

Aufgabe 10-1

Aufgabe 10-2

Aufgabe 10-3

Lineare Regressionsanalyse

Prognose:

Formel: y = 3.53747562 · x + 23.2089719

A) x = 20⇒ y ≈ 93.9585B) x = 8

⇒ y ≈ 51.5088C) x = 11⇒ y ≈ 62.1212

Page 43: Data Mining Tutorial - Kernel, Regression, Evaluation

Data MiningTutorial

E. Schubert,A. Zimek

Aufgabe 10-1

Aufgabe 10-2

Aufgabe 10-3

Lineare Regressionsanalyse

Prognose:

Formel: y = 3.53747562 · x + 23.2089719

A) x = 20⇒ y ≈ 93.9585B) x = 8⇒ y ≈ 51.5088C) x = 11

⇒ y ≈ 62.1212

Page 44: Data Mining Tutorial - Kernel, Regression, Evaluation

Data MiningTutorial

E. Schubert,A. Zimek

Aufgabe 10-1

Aufgabe 10-2

Aufgabe 10-3

Lineare Regressionsanalyse

Prognose:

Formel: y = 3.53747562 · x + 23.2089719

A) x = 20⇒ y ≈ 93.9585B) x = 8⇒ y ≈ 51.5088C) x = 11⇒ y ≈ 62.1212

Page 45: Data Mining Tutorial - Kernel, Regression, Evaluation

Data MiningTutorial

E. Schubert,A. Zimek

Aufgabe 10-1

Aufgabe 10-2

Aufgabe 10-3

Lineare Regressionsanalyse

0 5 10 15 20 2520

30

40

50

60

70

80

90

100

110

Page 46: Data Mining Tutorial - Kernel, Regression, Evaluation

Data MiningTutorial

E. Schubert,A. Zimek

Aufgabe 10-1

Aufgabe 10-2

Aufgabe 10-3

Lineare Regressionsanalyse

0 5 10 15 20 2520

30

40

50

60

70

80

90

100

110

Page 47: Data Mining Tutorial - Kernel, Regression, Evaluation

Data MiningTutorial

E. Schubert,A. Zimek

Aufgabe 10-1

Aufgabe 10-2

Aufgabe 10-3

Lineare Regressionsanalyse

0 5 10 15 20 2520

30

40

50

60

70

80

90

100

110

Page 48: Data Mining Tutorial - Kernel, Regression, Evaluation

Data MiningTutorial

E. Schubert,A. Zimek

Aufgabe 10-1

Aufgabe 10-2

Aufgabe 10-3

Regression in NumPy

import numpy as npx = np.array([ 3, 8, 9, 13, 3, 6, 11, 21, 1, 16])y = np.array([30, 57, 64, 72, 36, 43, 59, 90, 20, 83])

x.mean(), y.mean()# (9.0999999999999996, 55.399999999999999)

x-x.mean()# array([ -6.1, -1.1, -0.1, 3.9, -6.1, ...

(x-x.mean())*(y-y.mean())# array([ 154.94, -1.76, -0.86, 64.74, ...

(x-x.mean())**2# array([ 3.72100000e+01, 1.21000000e+00, ...

sum((x-x.mean())*(y-y.mean())), sum((x-x.mean())**2)# (1269.6000000000001, 358.90000000000003)

Page 49: Data Mining Tutorial - Kernel, Regression, Evaluation

Data MiningTutorial

E. Schubert,A. Zimek

Aufgabe 10-1

Aufgabe 10-2

Aufgabe 10-3

Regression in NumPy

alpha=sum((x-x.mean())*(y-y.mean()))/sum((x-x.mean())**2)beta =y.mean() - alpha * x.mean()alpha, beta# (3.5374756199498467, 23.208971858456394)

alpha * x + beta# array([ 33.82139872, 51.50877682, 55.04625244, ...

(alpha * x + beta - y) ** 2# array([ 14.60308816, 30.15353203, 80.1695954 , ...

sum(((alpha * x + beta - y) ** 2))# 261.22095291167477

np.sqrt(sum(((alpha * x + beta - y) ** 2))/len(x))# 5.1109779192604101

np.array([20, 8, 11]) * alpha + beta# array([ 93.95848426, 51.50877682, 62.12120368])

(The first two lines are the actual regression, the last is prediction!)

Page 50: Data Mining Tutorial - Kernel, Regression, Evaluation

Data MiningTutorial

E. Schubert,A. Zimek

Aufgabe 10-1

Aufgabe 10-2

Aufgabe 10-3

Regression

Es gibt zahlreiche Varianten von Regression!Hier: ein optimaler KQ-Schätzer bekannt.Oftmals: numerische Suche nach lokalem Maximum!

I quadratischer Fehler vs linearer FehlerI Polynome statt linearen FunktionenI Regularisierung, um Overfitting zu vermeidenI RANSAC – RANdom SAmple Consensus, robuster

gegen AusreißerI Gradient descent für differenzierbare FunktionenI u.v.m.

Mehr in der Vorlesung “Maschinelles Lernen”, dennRegression braucht Trainingsdaten, und “lernt”!

Page 51: Data Mining Tutorial - Kernel, Regression, Evaluation

Data MiningTutorial

E. Schubert,A. Zimek

Aufgabe 10-1

Aufgabe 10-2

Aufgabe 10-3

Evaluation von Clusterings

A1 A2 A3 A4 A5

B1 2 1 11 0 13B2 0 10 0 3 1B3 15 0 4 0 0B4 0 0 2 8 1

Page 52: Data Mining Tutorial - Kernel, Regression, Evaluation

Data MiningTutorial

E. Schubert,A. Zimek

Aufgabe 10-1

Aufgabe 10-2

Aufgabe 10-3

Evaluation von Clusterings

A1 A2 A3 A4 A5 |Bj|B1 2 1 11 0 13 27B2 0 10 0 3 1 14B3 15 0 4 0 0 19B4 0 0 2 8 1 11

|Ai| 17 11 17 11 15 71

Page 53: Data Mining Tutorial - Kernel, Regression, Evaluation

Data MiningTutorial

E. Schubert,A. Zimek

Aufgabe 10-1

Aufgabe 10-2

Aufgabe 10-3

Evaluation von ClusteringsSet Matching

A1 A2 A3 A4 A5 |Bj|B1 2 1 11 0 13 27B2 0 10 0 3 1 14B3 15 0 4 0 0 19B4 0 0 2 8 1 11

|Ai| 17 11 17 11 15 71

“Precision”: Summe Maxima in Zeilen:

(13 + 10 + 15 + 8)/71 ≈ 0.6479“Recall”: Summe Maxima in Spalten:(15 + 10 + 11 + 8 + 13)/71 ≈ 0.8028

F-Measure: ≈ 0.7171

Page 54: Data Mining Tutorial - Kernel, Regression, Evaluation

Data MiningTutorial

E. Schubert,A. Zimek

Aufgabe 10-1

Aufgabe 10-2

Aufgabe 10-3

Evaluation von ClusteringsSet Matching

A1 A2 A3 A4 A5 |Bj|B1 2 1 11 0 13 27B2 0 10 0 3 1 14B3 15 0 4 0 0 19B4 0 0 2 8 1 11

|Ai| 17 11 17 11 15 71

“Precision”: Summe Maxima in Zeilen:(13 + 10 + 15 + 8)/71 ≈ 0.6479

“Recall”: Summe Maxima in Spalten:(15 + 10 + 11 + 8 + 13)/71 ≈ 0.8028

F-Measure: ≈ 0.7171

Page 55: Data Mining Tutorial - Kernel, Regression, Evaluation

Data MiningTutorial

E. Schubert,A. Zimek

Aufgabe 10-1

Aufgabe 10-2

Aufgabe 10-3

Evaluation von ClusteringsSet Matching

A1 A2 A3 A4 A5 |Bj|B1 2 1 11 0 13 27B2 0 10 0 3 1 14B3 15 0 4 0 0 19B4 0 0 2 8 1 11

|Ai| 17 11 17 11 15 71

“Precision”: Summe Maxima in Zeilen:(13 + 10 + 15 + 8)/71 ≈ 0.6479“Recall”: Summe Maxima in Spalten:

(15 + 10 + 11 + 8 + 13)/71 ≈ 0.8028

F-Measure: ≈ 0.7171

Page 56: Data Mining Tutorial - Kernel, Regression, Evaluation

Data MiningTutorial

E. Schubert,A. Zimek

Aufgabe 10-1

Aufgabe 10-2

Aufgabe 10-3

Evaluation von ClusteringsSet Matching

A1 A2 A3 A4 A5 |Bj|B1 2 1 11 0 13 27B2 0 10 0 3 1 14B3 15 0 4 0 0 19B4 0 0 2 8 1 11

|Ai| 17 11 17 11 15 71

“Precision”: Summe Maxima in Zeilen:(13 + 10 + 15 + 8)/71 ≈ 0.6479“Recall”: Summe Maxima in Spalten:(15 + 10 + 11 + 8 + 13)/71 ≈ 0.8028

F-Measure: ≈ 0.7171

Page 57: Data Mining Tutorial - Kernel, Regression, Evaluation

Data MiningTutorial

E. Schubert,A. Zimek

Aufgabe 10-1

Aufgabe 10-2

Aufgabe 10-3

Evaluation von ClusteringsSet Matching

A1 A2 A3 A4 A5 |Bj|B1 2 1 11 0 13 27B2 0 10 0 3 1 14B3 15 0 4 0 0 19B4 0 0 2 8 1 11

|Ai| 17 11 17 11 15 71

“Precision”: Summe Maxima in Zeilen:(13 + 10 + 15 + 8)/71 ≈ 0.6479“Recall”: Summe Maxima in Spalten:(15 + 10 + 11 + 8 + 13)/71 ≈ 0.8028

F-Measure: ≈ 0.7171

Page 58: Data Mining Tutorial - Kernel, Regression, Evaluation

Data MiningTutorial

E. Schubert,A. Zimek

Aufgabe 10-1

Aufgabe 10-2

Aufgabe 10-3

Evaluation von ClusteringsAverage Precision

A1 A2 A3 A4 A5 |Bj|B1 2 1 11 0 13 27B2 0 10 0 3 1 14B3 15 0 4 0 0 19B4 0 0 2 8 1 11

|Ai| 17 11 17 11 15 71

Mittlere Precision Zeilen:

(13/27 + 10/14 + 15/19 + 8/11)/4 ≈ 0.6781Mittlere Precision Spalten:(15/17 + 10/11 + 11/17 + 8/11 + 13/15)/5 ≈ 0.8065

F-Measure: ≈ 0.7368

Page 59: Data Mining Tutorial - Kernel, Regression, Evaluation

Data MiningTutorial

E. Schubert,A. Zimek

Aufgabe 10-1

Aufgabe 10-2

Aufgabe 10-3

Evaluation von ClusteringsAverage Precision

A1 A2 A3 A4 A5 |Bj|B1 2 1 11 0 13 27B2 0 10 0 3 1 14B3 15 0 4 0 0 19B4 0 0 2 8 1 11

|Ai| 17 11 17 11 15 71

Mittlere Precision Zeilen:

(

13/27

+ 10/14 + 15/19 + 8/11)/4 ≈ 0.6781Mittlere Precision Spalten:(15/17 + 10/11 + 11/17 + 8/11 + 13/15)/5 ≈ 0.8065

F-Measure: ≈ 0.7368

Page 60: Data Mining Tutorial - Kernel, Regression, Evaluation

Data MiningTutorial

E. Schubert,A. Zimek

Aufgabe 10-1

Aufgabe 10-2

Aufgabe 10-3

Evaluation von ClusteringsAverage Precision

A1 A2 A3 A4 A5 |Bj|B1 2 1 11 0 13 27B2 0 10 0 3 1 14B3 15 0 4 0 0 19B4 0 0 2 8 1 11

|Ai| 17 11 17 11 15 71

Mittlere Precision Zeilen:

(

13/27 + 10/14

+ 15/19 + 8/11)/4 ≈ 0.6781Mittlere Precision Spalten:(15/17 + 10/11 + 11/17 + 8/11 + 13/15)/5 ≈ 0.8065

F-Measure: ≈ 0.7368

Page 61: Data Mining Tutorial - Kernel, Regression, Evaluation

Data MiningTutorial

E. Schubert,A. Zimek

Aufgabe 10-1

Aufgabe 10-2

Aufgabe 10-3

Evaluation von ClusteringsAverage Precision

A1 A2 A3 A4 A5 |Bj|B1 2 1 11 0 13 27B2 0 10 0 3 1 14B3 15 0 4 0 0 19B4 0 0 2 8 1 11

|Ai| 17 11 17 11 15 71

Mittlere Precision Zeilen:

(

13/27 + 10/14 + 15/19

+ 8/11)/4 ≈ 0.6781Mittlere Precision Spalten:(15/17 + 10/11 + 11/17 + 8/11 + 13/15)/5 ≈ 0.8065

F-Measure: ≈ 0.7368

Page 62: Data Mining Tutorial - Kernel, Regression, Evaluation

Data MiningTutorial

E. Schubert,A. Zimek

Aufgabe 10-1

Aufgabe 10-2

Aufgabe 10-3

Evaluation von ClusteringsAverage Precision

A1 A2 A3 A4 A5 |Bj|B1 2 1 11 0 13 27B2 0 10 0 3 1 14B3 15 0 4 0 0 19B4 0 0 2 8 1 11

|Ai| 17 11 17 11 15 71

Mittlere Precision Zeilen:

(

13/27 + 10/14 + 15/19 + 8/11

)/4 ≈ 0.6781Mittlere Precision Spalten:(15/17 + 10/11 + 11/17 + 8/11 + 13/15)/5 ≈ 0.8065

F-Measure: ≈ 0.7368

Page 63: Data Mining Tutorial - Kernel, Regression, Evaluation

Data MiningTutorial

E. Schubert,A. Zimek

Aufgabe 10-1

Aufgabe 10-2

Aufgabe 10-3

Evaluation von ClusteringsAverage Precision

A1 A2 A3 A4 A5 |Bj|B1 2 1 11 0 13 27B2 0 10 0 3 1 14B3 15 0 4 0 0 19B4 0 0 2 8 1 11

|Ai| 17 11 17 11 15 71

Mittlere Precision Zeilen:(13/27 + 10/14 + 15/19 + 8/11)/4 ≈ 0.6781

Mittlere Precision Spalten:(15/17 + 10/11 + 11/17 + 8/11 + 13/15)/5 ≈ 0.8065

F-Measure: ≈ 0.7368

Page 64: Data Mining Tutorial - Kernel, Regression, Evaluation

Data MiningTutorial

E. Schubert,A. Zimek

Aufgabe 10-1

Aufgabe 10-2

Aufgabe 10-3

Evaluation von ClusteringsAverage Precision

A1 A2 A3 A4 A5 |Bj|B1 2 1 11 0 13 27B2 0 10 0 3 1 14B3 15 0 4 0 0 19B4 0 0 2 8 1 11

|Ai| 17 11 17 11 15 71

Mittlere Precision Zeilen:(13/27 + 10/14 + 15/19 + 8/11)/4 ≈ 0.6781Mittlere Precision Spalten:

(15/17 + 10/11 + 11/17 + 8/11 + 13/15)/5 ≈ 0.8065

F-Measure: ≈ 0.7368

Page 65: Data Mining Tutorial - Kernel, Regression, Evaluation

Data MiningTutorial

E. Schubert,A. Zimek

Aufgabe 10-1

Aufgabe 10-2

Aufgabe 10-3

Evaluation von ClusteringsAverage Precision

A1 A2 A3 A4 A5 |Bj|B1 2 1 11 0 13 27B2 0 10 0 3 1 14B3 15 0 4 0 0 19B4 0 0 2 8 1 11

|Ai| 17 11 17 11 15 71

Mittlere Precision Zeilen:(13/27 + 10/14 + 15/19 + 8/11)/4 ≈ 0.6781Mittlere Precision Spalten:

(

15/17

+ 10/11 + 11/17 + 8/11 + 13/15)/5 ≈ 0.8065

F-Measure: ≈ 0.7368

Page 66: Data Mining Tutorial - Kernel, Regression, Evaluation

Data MiningTutorial

E. Schubert,A. Zimek

Aufgabe 10-1

Aufgabe 10-2

Aufgabe 10-3

Evaluation von ClusteringsAverage Precision

A1 A2 A3 A4 A5 |Bj|B1 2 1 11 0 13 27B2 0 10 0 3 1 14B3 15 0 4 0 0 19B4 0 0 2 8 1 11

|Ai| 17 11 17 11 15 71

Mittlere Precision Zeilen:(13/27 + 10/14 + 15/19 + 8/11)/4 ≈ 0.6781Mittlere Precision Spalten:

(

15/17 + 10/11

+ 11/17 + 8/11 + 13/15)/5 ≈ 0.8065

F-Measure: ≈ 0.7368

Page 67: Data Mining Tutorial - Kernel, Regression, Evaluation

Data MiningTutorial

E. Schubert,A. Zimek

Aufgabe 10-1

Aufgabe 10-2

Aufgabe 10-3

Evaluation von ClusteringsAverage Precision

A1 A2 A3 A4 A5 |Bj|B1 2 1 11 0 13 27B2 0 10 0 3 1 14B3 15 0 4 0 0 19B4 0 0 2 8 1 11

|Ai| 17 11 17 11 15 71

Mittlere Precision Zeilen:(13/27 + 10/14 + 15/19 + 8/11)/4 ≈ 0.6781Mittlere Precision Spalten:

(

15/17 + 10/11 + 11/17

+ 8/11 + 13/15)/5 ≈ 0.8065

F-Measure: ≈ 0.7368

Page 68: Data Mining Tutorial - Kernel, Regression, Evaluation

Data MiningTutorial

E. Schubert,A. Zimek

Aufgabe 10-1

Aufgabe 10-2

Aufgabe 10-3

Evaluation von ClusteringsAverage Precision

A1 A2 A3 A4 A5 |Bj|B1 2 1 11 0 13 27B2 0 10 0 3 1 14B3 15 0 4 0 0 19B4 0 0 2 8 1 11

|Ai| 17 11 17 11 15 71

Mittlere Precision Zeilen:(13/27 + 10/14 + 15/19 + 8/11)/4 ≈ 0.6781Mittlere Precision Spalten:

(

15/17 + 10/11 + 11/17 + 8/11

+ 13/15)/5 ≈ 0.8065

F-Measure: ≈ 0.7368

Page 69: Data Mining Tutorial - Kernel, Regression, Evaluation

Data MiningTutorial

E. Schubert,A. Zimek

Aufgabe 10-1

Aufgabe 10-2

Aufgabe 10-3

Evaluation von ClusteringsAverage Precision

A1 A2 A3 A4 A5 |Bj|B1 2 1 11 0 13 27B2 0 10 0 3 1 14B3 15 0 4 0 0 19B4 0 0 2 8 1 11

|Ai| 17 11 17 11 15 71

Mittlere Precision Zeilen:(13/27 + 10/14 + 15/19 + 8/11)/4 ≈ 0.6781Mittlere Precision Spalten:

(

15/17 + 10/11 + 11/17 + 8/11 + 13/15

)/5 ≈ 0.8065

F-Measure: ≈ 0.7368

Page 70: Data Mining Tutorial - Kernel, Regression, Evaluation

Data MiningTutorial

E. Schubert,A. Zimek

Aufgabe 10-1

Aufgabe 10-2

Aufgabe 10-3

Evaluation von ClusteringsAverage Precision

A1 A2 A3 A4 A5 |Bj|B1 2 1 11 0 13 27B2 0 10 0 3 1 14B3 15 0 4 0 0 19B4 0 0 2 8 1 11

|Ai| 17 11 17 11 15 71

Mittlere Precision Zeilen:(13/27 + 10/14 + 15/19 + 8/11)/4 ≈ 0.6781Mittlere Precision Spalten:(15/17 + 10/11 + 11/17 + 8/11 + 13/15)/5 ≈ 0.8065

F-Measure: ≈ 0.7368

Page 71: Data Mining Tutorial - Kernel, Regression, Evaluation

Data MiningTutorial

E. Schubert,A. Zimek

Aufgabe 10-1

Aufgabe 10-2

Aufgabe 10-3

Evaluation von ClusteringsAverage Precision

A1 A2 A3 A4 A5 |Bj|B1 2 1 11 0 13 27B2 0 10 0 3 1 14B3 15 0 4 0 0 19B4 0 0 2 8 1 11

|Ai| 17 11 17 11 15 71

Mittlere Precision Zeilen:(13/27 + 10/14 + 15/19 + 8/11)/4 ≈ 0.6781Mittlere Precision Spalten:(15/17 + 10/11 + 11/17 + 8/11 + 13/15)/5 ≈ 0.8065

F-Measure: ≈ 0.7368

Page 72: Data Mining Tutorial - Kernel, Regression, Evaluation

Data MiningTutorial

E. Schubert,A. Zimek

Aufgabe 10-1

Aufgabe 10-2

Aufgabe 10-3

Evaluation von ClusteringsAverage F-Measure

Was ist das F-Measure einer Zelle?

Precision: cij/|Ai|Recall: cij/|Bj|

F-Measure daraus:

F1(cij,Ai,Bj)

Page 73: Data Mining Tutorial - Kernel, Regression, Evaluation

Data MiningTutorial

E. Schubert,A. Zimek

Aufgabe 10-1

Aufgabe 10-2

Aufgabe 10-3

Evaluation von ClusteringsAverage F-Measure

Was ist das F-Measure einer Zelle?

Precision: cij/|Ai|Recall: cij/|Bj|

F-Measure daraus:

F1(cij,Ai,Bj)

Page 74: Data Mining Tutorial - Kernel, Regression, Evaluation

Data MiningTutorial

E. Schubert,A. Zimek

Aufgabe 10-1

Aufgabe 10-2

Aufgabe 10-3

Evaluation von ClusteringsAverage F-Measure

Was ist das F-Measure einer Zelle?

Precision: cij/|Ai|Recall: cij/|Bj|

F-Measure daraus:

F1(cij,Ai,Bj) =2 · cij|Ai| ·

cij|Bj|

cij|Ai| +

cij|Bj|

Page 75: Data Mining Tutorial - Kernel, Regression, Evaluation

Data MiningTutorial

E. Schubert,A. Zimek

Aufgabe 10-1

Aufgabe 10-2

Aufgabe 10-3

Evaluation von ClusteringsAverage F-Measure

Was ist das F-Measure einer Zelle?

Precision: cij/|Ai|Recall: cij/|Bj|

F-Measure daraus:

F1(cij,Ai,Bj) =2 · cij|Ai|·|Bj|

|Bj|+|Ai||Ai|·|Bj|

Page 76: Data Mining Tutorial - Kernel, Regression, Evaluation

Data MiningTutorial

E. Schubert,A. Zimek

Aufgabe 10-1

Aufgabe 10-2

Aufgabe 10-3

Evaluation von ClusteringsAverage F-Measure

Was ist das F-Measure einer Zelle?

Precision: cij/|Ai|Recall: cij/|Bj|

F-Measure daraus:

F1(cij,Ai,Bj) =2 · cij

|Bj|+ |Ai|

Page 77: Data Mining Tutorial - Kernel, Regression, Evaluation

Data MiningTutorial

E. Schubert,A. Zimek

Aufgabe 10-1

Aufgabe 10-2

Aufgabe 10-3

Evaluation von ClusteringsAverage F-Measure

A1 A2 A3 A4 A5 |Bj|B1 2 1 11 0 13 27B2 0 10 0 3 1 14B3 15 0 4 0 0 19B4 0 0 2 8 1 11

|Ai| 17 11 17 11 15 71

A1 A2 A3 A4 A5

B1444

238

2244 0 26

42B2 0 20

25 0 625

229

B33036 0 8

36 0 0B4 0 0 4

281622

226

Zeilenmaxima:(13/21 + 4/5 + 5/6 + 8/11)/4 ≈ 0.7222

Spaltenmaxima:(5/6 + 4/5 + 1/2 + 8/11 + 13/21)/5 ≈ 0.6959

Mittelwert daraus: ≈ 0.7091F-Measure daraus: ≈ 0.7088

Page 78: Data Mining Tutorial - Kernel, Regression, Evaluation

Data MiningTutorial

E. Schubert,A. Zimek

Aufgabe 10-1

Aufgabe 10-2

Aufgabe 10-3

Evaluation von ClusteringsAverage F-Measure

A1 A2 A3 A4 A5 |Bj|B1 2 1 11 0 13 27B2 0 10 0 3 1 14B3 15 0 4 0 0 19B4 0 0 2 8 1 11

|Ai| 17 11 17 11 15 71

A1 A2 A3 A4 A5

B1444

238

2244 0 26

42B2 0 20

25 0 625

229

B33036 0 8

36 0 0B4 0 0 4

281622

226

Zeilenmaxima:(13/21 + 4/5 + 5/6 + 8/11)/4 ≈ 0.7222

Spaltenmaxima:(5/6 + 4/5 + 1/2 + 8/11 + 13/21)/5 ≈ 0.6959

Mittelwert daraus: ≈ 0.7091F-Measure daraus: ≈ 0.7088

Page 79: Data Mining Tutorial - Kernel, Regression, Evaluation

Data MiningTutorial

E. Schubert,A. Zimek

Aufgabe 10-1

Aufgabe 10-2

Aufgabe 10-3

Evaluation von ClusteringsAverage F-Measure

A1 A2 A3 A4 A5 |Bj|B1 2 1 11 0 13 27B2 0 10 0 3 1 14B3 15 0 4 0 0 19B4 0 0 2 8 1 11

|Ai| 17 11 17 11 15 71

A1 A2 A3 A4 A5

B1444

238

2244 0 26

42B2 0 20

25 0 625

229

B33036 0 8

36 0 0B4 0 0 4

281622

226

Zeilenmaxima:

(13/21 + 4/5 + 5/6 + 8/11)/4 ≈ 0.7222

Spaltenmaxima:(5/6 + 4/5 + 1/2 + 8/11 + 13/21)/5 ≈ 0.6959

Mittelwert daraus: ≈ 0.7091F-Measure daraus: ≈ 0.7088

Page 80: Data Mining Tutorial - Kernel, Regression, Evaluation

Data MiningTutorial

E. Schubert,A. Zimek

Aufgabe 10-1

Aufgabe 10-2

Aufgabe 10-3

Evaluation von ClusteringsAverage F-Measure

A1 A2 A3 A4 A5 |Bj|B1 2 1 11 0 13 27B2 0 10 0 3 1 14B3 15 0 4 0 0 19B4 0 0 2 8 1 11

|Ai| 17 11 17 11 15 71

A1 A2 A3 A4 A5

B1444

238

2244 0 26

42B2 0 20

25 0 625

229

B33036 0 8

36 0 0B4 0 0 4

281622

226

Zeilenmaxima:(13/21 + 4/5 + 5/6 + 8/11)/4

≈ 0.7222

Spaltenmaxima:(5/6 + 4/5 + 1/2 + 8/11 + 13/21)/5 ≈ 0.6959

Mittelwert daraus: ≈ 0.7091F-Measure daraus: ≈ 0.7088

Page 81: Data Mining Tutorial - Kernel, Regression, Evaluation

Data MiningTutorial

E. Schubert,A. Zimek

Aufgabe 10-1

Aufgabe 10-2

Aufgabe 10-3

Evaluation von ClusteringsAverage F-Measure

A1 A2 A3 A4 A5 |Bj|B1 2 1 11 0 13 27B2 0 10 0 3 1 14B3 15 0 4 0 0 19B4 0 0 2 8 1 11

|Ai| 17 11 17 11 15 71

A1 A2 A3 A4 A5

B1444

238

2244 0 26

42B2 0 20

25 0 625

229

B33036 0 8

36 0 0B4 0 0 4

281622

226

Zeilenmaxima:(13/21 + 4/5 + 5/6 + 8/11)/4 ≈ 0.7222

Spaltenmaxima:(5/6 + 4/5 + 1/2 + 8/11 + 13/21)/5 ≈ 0.6959

Mittelwert daraus: ≈ 0.7091F-Measure daraus: ≈ 0.7088

Page 82: Data Mining Tutorial - Kernel, Regression, Evaluation

Data MiningTutorial

E. Schubert,A. Zimek

Aufgabe 10-1

Aufgabe 10-2

Aufgabe 10-3

Evaluation von ClusteringsAverage F-Measure

A1 A2 A3 A4 A5 |Bj|B1 2 1 11 0 13 27B2 0 10 0 3 1 14B3 15 0 4 0 0 19B4 0 0 2 8 1 11

|Ai| 17 11 17 11 15 71

A1 A2 A3 A4 A5

B1444

238

2244 0 26

42B2 0 20

25 0 625

229

B33036 0 8

36 0 0B4 0 0 4

281622

226

Zeilenmaxima:(13/21 + 4/5 + 5/6 + 8/11)/4 ≈ 0.7222

Spaltenmaxima:

(5/6 + 4/5 + 1/2 + 8/11 + 13/21)/5 ≈ 0.6959

Mittelwert daraus: ≈ 0.7091F-Measure daraus: ≈ 0.7088

Page 83: Data Mining Tutorial - Kernel, Regression, Evaluation

Data MiningTutorial

E. Schubert,A. Zimek

Aufgabe 10-1

Aufgabe 10-2

Aufgabe 10-3

Evaluation von ClusteringsAverage F-Measure

A1 A2 A3 A4 A5 |Bj|B1 2 1 11 0 13 27B2 0 10 0 3 1 14B3 15 0 4 0 0 19B4 0 0 2 8 1 11

|Ai| 17 11 17 11 15 71

A1 A2 A3 A4 A5

B1444

238

2244 0 26

42B2 0 20

25 0 625

229

B33036 0 8

36 0 0B4 0 0 4

281622

226

Zeilenmaxima:(13/21 + 4/5 + 5/6 + 8/11)/4 ≈ 0.7222

Spaltenmaxima:(5/6 + 4/5 + 1/2 + 8/11 + 13/21)/5

≈ 0.6959

Mittelwert daraus: ≈ 0.7091F-Measure daraus: ≈ 0.7088

Page 84: Data Mining Tutorial - Kernel, Regression, Evaluation

Data MiningTutorial

E. Schubert,A. Zimek

Aufgabe 10-1

Aufgabe 10-2

Aufgabe 10-3

Evaluation von ClusteringsAverage F-Measure

A1 A2 A3 A4 A5 |Bj|B1 2 1 11 0 13 27B2 0 10 0 3 1 14B3 15 0 4 0 0 19B4 0 0 2 8 1 11

|Ai| 17 11 17 11 15 71

A1 A2 A3 A4 A5

B1444

238

2244 0 26

42B2 0 20

25 0 625

229

B33036 0 8

36 0 0B4 0 0 4

281622

226

Zeilenmaxima:(13/21 + 4/5 + 5/6 + 8/11)/4 ≈ 0.7222

Spaltenmaxima:(5/6 + 4/5 + 1/2 + 8/11 + 13/21)/5 ≈ 0.6959

Mittelwert daraus: ≈ 0.7091F-Measure daraus: ≈ 0.7088

Page 85: Data Mining Tutorial - Kernel, Regression, Evaluation

Data MiningTutorial

E. Schubert,A. Zimek

Aufgabe 10-1

Aufgabe 10-2

Aufgabe 10-3

Evaluation von ClusteringsAverage F-Measure

A1 A2 A3 A4 A5 |Bj|B1 2 1 11 0 13 27B2 0 10 0 3 1 14B3 15 0 4 0 0 19B4 0 0 2 8 1 11

|Ai| 17 11 17 11 15 71

A1 A2 A3 A4 A5

B1444

238

2244 0 26

42B2 0 20

25 0 625

229

B33036 0 8

36 0 0B4 0 0 4

281622

226

Zeilenmaxima:(13/21 + 4/5 + 5/6 + 8/11)/4 ≈ 0.7222

Spaltenmaxima:(5/6 + 4/5 + 1/2 + 8/11 + 13/21)/5 ≈ 0.6959

Mittelwert daraus: ≈ 0.7091

F-Measure daraus: ≈ 0.7088

Page 86: Data Mining Tutorial - Kernel, Regression, Evaluation

Data MiningTutorial

E. Schubert,A. Zimek

Aufgabe 10-1

Aufgabe 10-2

Aufgabe 10-3

Evaluation von ClusteringsAverage F-Measure

A1 A2 A3 A4 A5 |Bj|B1 2 1 11 0 13 27B2 0 10 0 3 1 14B3 15 0 4 0 0 19B4 0 0 2 8 1 11

|Ai| 17 11 17 11 15 71

A1 A2 A3 A4 A5

B1444

238

2244 0 26

42B2 0 20

25 0 625

229

B33036 0 8

36 0 0B4 0 0 4

281622

226

Zeilenmaxima:(13/21 + 4/5 + 5/6 + 8/11)/4 ≈ 0.7222

Spaltenmaxima:(5/6 + 4/5 + 1/2 + 8/11 + 13/21)/5 ≈ 0.6959

Mittelwert daraus: ≈ 0.7091F-Measure daraus: ≈ 0.7088

Page 87: Data Mining Tutorial - Kernel, Regression, Evaluation

Data MiningTutorial

E. Schubert,A. Zimek

Aufgabe 10-1

Aufgabe 10-2

Aufgabe 10-3

Evaluation von ClusteringsPair Counting

Intuition:

Cluster haben 1 gemeinsames PaarGeringe Überlappung ≈ wenig Paare gemeinsamAnzahl Paare in einer Menge von n Elementen:(n

2

)= n(n−1)

2 (“jedes mit jedem anderen, aber nicht doppelt”)

Page 88: Data Mining Tutorial - Kernel, Regression, Evaluation

Data MiningTutorial

E. Schubert,A. Zimek

Aufgabe 10-1

Aufgabe 10-2

Aufgabe 10-3

Evaluation von ClusteringsPair Counting

Intuition:

Cluster haben 1 gemeinsames PaarGeringe Überlappung ≈ wenig Paare gemeinsamAnzahl Paare in einer Menge von n Elementen:(n

2

)= n(n−1)

2 (“jedes mit jedem anderen, aber nicht doppelt”)

Page 89: Data Mining Tutorial - Kernel, Regression, Evaluation

Data MiningTutorial

E. Schubert,A. Zimek

Aufgabe 10-1

Aufgabe 10-2

Aufgabe 10-3

Evaluation von ClusteringsPair Counting

Intuition:

Cluster haben 1 gemeinsames PaarGeringe Überlappung ≈ wenig Paare gemeinsamAnzahl Paare in einer Menge von n Elementen:(n

2

)= n(n−1)

2 (“jedes mit jedem anderen, aber nicht doppelt”)

Page 90: Data Mining Tutorial - Kernel, Regression, Evaluation

Data MiningTutorial

E. Schubert,A. Zimek

Aufgabe 10-1

Aufgabe 10-2

Aufgabe 10-3

Evaluation von ClusteringsPair Counting

Intuition:

Cluster haben 1 gemeinsames PaarGeringe Überlappung ≈ wenig Paare gemeinsamAnzahl Paare in einer Menge von n Elementen:(n

2

)= n(n−1)

2 (“jedes mit jedem anderen, aber nicht doppelt”)

Page 91: Data Mining Tutorial - Kernel, Regression, Evaluation

Data MiningTutorial

E. Schubert,A. Zimek

Aufgabe 10-1

Aufgabe 10-2

Aufgabe 10-3

Evaluation von ClusteringsPair Counting

Intuition:

Cluster haben 1 gemeinsames PaarGeringe Überlappung ≈ wenig Paare gemeinsamAnzahl Paare in einer Menge von n Elementen:(n

2

)= n(n−1)

2 (“jedes mit jedem anderen, aber nicht doppelt”)

Page 92: Data Mining Tutorial - Kernel, Regression, Evaluation

Data MiningTutorial

E. Schubert,A. Zimek

Aufgabe 10-1

Aufgabe 10-2

Aufgabe 10-3

Evaluation von ClusteringsPair Counting

Intuition:

Cluster haben 1 gemeinsames PaarGeringe Überlappung ≈ wenig Paare gemeinsam

Anzahl Paare in einer Menge von n Elementen:(n2

)= n(n−1)

2 (“jedes mit jedem anderen, aber nicht doppelt”)

Page 93: Data Mining Tutorial - Kernel, Regression, Evaluation

Data MiningTutorial

E. Schubert,A. Zimek

Aufgabe 10-1

Aufgabe 10-2

Aufgabe 10-3

Evaluation von ClusteringsPair Counting

Intuition:

Cluster haben 1 gemeinsames PaarGeringe Überlappung ≈ wenig Paare gemeinsamAnzahl Paare in einer Menge von n Elementen:

(n2

)= n(n−1)

2 (“jedes mit jedem anderen, aber nicht doppelt”)

Page 94: Data Mining Tutorial - Kernel, Regression, Evaluation

Data MiningTutorial

E. Schubert,A. Zimek

Aufgabe 10-1

Aufgabe 10-2

Aufgabe 10-3

Evaluation von ClusteringsPair Counting

Intuition:

Cluster haben 1 gemeinsames PaarGeringe Überlappung ≈ wenig Paare gemeinsamAnzahl Paare in einer Menge von n Elementen:(n

2

)

= n(n−1)2 (“jedes mit jedem anderen, aber nicht doppelt”)

Page 95: Data Mining Tutorial - Kernel, Regression, Evaluation

Data MiningTutorial

E. Schubert,A. Zimek

Aufgabe 10-1

Aufgabe 10-2

Aufgabe 10-3

Evaluation von ClusteringsPair Counting

Intuition:

Cluster haben 1 gemeinsames PaarGeringe Überlappung ≈ wenig Paare gemeinsamAnzahl Paare in einer Menge von n Elementen:(n

2

)= n(n−1)

2 (“jedes mit jedem anderen, aber nicht doppelt”)

Page 96: Data Mining Tutorial - Kernel, Regression, Evaluation

Data MiningTutorial

E. Schubert,A. Zimek

Aufgabe 10-1

Aufgabe 10-2

Aufgabe 10-3

Evaluation von ClusteringsPair Counting

A1 A2 A3 A4 A5 |Bj|B1 2 1 11 0 13 27B2 0 10 0 3 1 14B3 15 0 4 0 0 19B4 0 0 2 8 1 11

|Ai| 17 11 17 11 15 71

(cij2

)A1 A2 A3 A4 A5

(|Bj|2

)B1 1 0 55 0 78 351B2 0 45 0 3 0 91B3 105 0 6 0 0 171B4 0 0 1 28 0 55(|Aj|2

)136 55 136 55 105

Summe Konfusionsmatrix:∑i,j

(cij2

)= 322 (“Übereinstimmungen”, a)

Summe Zeilen Σj(|Bj|

2

)= 668 (“Paare in B”, a + c)

Summe Spalten Σi(|Ai|

2

)= 487 (“Paare in A”, a + b)

Gesamtzahl (möglicher) Paare:(n

2

)= 2485 (M)

Page 97: Data Mining Tutorial - Kernel, Regression, Evaluation

Data MiningTutorial

E. Schubert,A. Zimek

Aufgabe 10-1

Aufgabe 10-2

Aufgabe 10-3

Evaluation von ClusteringsPair Counting

A1 A2 A3 A4 A5 |Bj|B1 2 1 11 0 13 27B2 0 10 0 3 1 14B3 15 0 4 0 0 19B4 0 0 2 8 1 11

|Ai| 17 11 17 11 15 71

(cij2

)A1 A2 A3 A4 A5

(|Bj|2

)B1 1 0 55 0 78 351B2 0 45 0 3 0 91B3 105 0 6 0 0 171B4 0 0 1 28 0 55(|Aj|2

)136 55 136 55 105

Achtung: Nicht mehr die Summen in der letzten Spalte/Zeile!

Summe Konfusionsmatrix:∑i,j

(cij2

)= 322 (“Übereinstimmungen”, a)

Summe Zeilen Σj(|Bj|

2

)= 668 (“Paare in B”, a + c)

Summe Spalten Σi(|Ai|

2

)= 487 (“Paare in A”, a + b)

Gesamtzahl (möglicher) Paare:(n

2

)= 2485 (M)

Page 98: Data Mining Tutorial - Kernel, Regression, Evaluation

Data MiningTutorial

E. Schubert,A. Zimek

Aufgabe 10-1

Aufgabe 10-2

Aufgabe 10-3

Evaluation von ClusteringsPair Counting

A1 A2 A3 A4 A5 |Bj|B1 2 1 11 0 13 27B2 0 10 0 3 1 14B3 15 0 4 0 0 19B4 0 0 2 8 1 11

|Ai| 17 11 17 11 15 71

(cij2

)A1 A2 A3 A4 A5

(|Bj|2

)B1 1 0 55 0 78 351B2 0 45 0 3 0 91B3 105 0 6 0 0 171B4 0 0 1 28 0 55(|Aj|2

)136 55 136 55 105

Summe Konfusionsmatrix:

∑i,j

(cij2

)= 322 (“Übereinstimmungen”, a)

Summe Zeilen Σj(|Bj|

2

)= 668 (“Paare in B”, a + c)

Summe Spalten Σi(|Ai|

2

)= 487 (“Paare in A”, a + b)

Gesamtzahl (möglicher) Paare:(n

2

)= 2485 (M)

Page 99: Data Mining Tutorial - Kernel, Regression, Evaluation

Data MiningTutorial

E. Schubert,A. Zimek

Aufgabe 10-1

Aufgabe 10-2

Aufgabe 10-3

Evaluation von ClusteringsPair Counting

A1 A2 A3 A4 A5 |Bj|B1 2 1 11 0 13 27B2 0 10 0 3 1 14B3 15 0 4 0 0 19B4 0 0 2 8 1 11

|Ai| 17 11 17 11 15 71

(cij2

)A1 A2 A3 A4 A5

(|Bj|2

)B1 1 0 55 0 78 351B2 0 45 0 3 0 91B3 105 0 6 0 0 171B4 0 0 1 28 0 55(|Aj|2

)136 55 136 55 105

Summe Konfusionsmatrix:∑i,j

(cij2

)= 322 (“Übereinstimmungen”, a)

Summe Zeilen Σj(|Bj|

2

)= 668 (“Paare in B”, a + c)

Summe Spalten Σi(|Ai|

2

)= 487 (“Paare in A”, a + b)

Gesamtzahl (möglicher) Paare:(n

2

)= 2485 (M)

Page 100: Data Mining Tutorial - Kernel, Regression, Evaluation

Data MiningTutorial

E. Schubert,A. Zimek

Aufgabe 10-1

Aufgabe 10-2

Aufgabe 10-3

Evaluation von ClusteringsPair Counting

A1 A2 A3 A4 A5 |Bj|B1 2 1 11 0 13 27B2 0 10 0 3 1 14B3 15 0 4 0 0 19B4 0 0 2 8 1 11

|Ai| 17 11 17 11 15 71

(cij2

)A1 A2 A3 A4 A5

(|Bj|2

)B1 1 0 55 0 78 351B2 0 45 0 3 0 91B3 105 0 6 0 0 171B4 0 0 1 28 0 55(|Aj|2

)136 55 136 55 105

Summe Konfusionsmatrix:∑i,j

(cij2

)= 322 (“Übereinstimmungen”, a)

Summe Zeilen Σj(|Bj|

2

)=

668 (“Paare in B”, a + c)

Summe Spalten Σi(|Ai|

2

)= 487 (“Paare in A”, a + b)

Gesamtzahl (möglicher) Paare:(n

2

)= 2485 (M)

Page 101: Data Mining Tutorial - Kernel, Regression, Evaluation

Data MiningTutorial

E. Schubert,A. Zimek

Aufgabe 10-1

Aufgabe 10-2

Aufgabe 10-3

Evaluation von ClusteringsPair Counting

A1 A2 A3 A4 A5 |Bj|B1 2 1 11 0 13 27B2 0 10 0 3 1 14B3 15 0 4 0 0 19B4 0 0 2 8 1 11

|Ai| 17 11 17 11 15 71

(cij2

)A1 A2 A3 A4 A5

(|Bj|2

)B1 1 0 55 0 78 351B2 0 45 0 3 0 91B3 105 0 6 0 0 171B4 0 0 1 28 0 55(|Aj|2

)136 55 136 55 105

Summe Konfusionsmatrix:∑i,j

(cij2

)= 322 (“Übereinstimmungen”, a)

Summe Zeilen Σj(|Bj|

2

)= 668 (“Paare in B”, a + c)

Summe Spalten Σi(|Ai|

2

)= 487 (“Paare in A”, a + b)

Gesamtzahl (möglicher) Paare:(n

2

)= 2485 (M)

Page 102: Data Mining Tutorial - Kernel, Regression, Evaluation

Data MiningTutorial

E. Schubert,A. Zimek

Aufgabe 10-1

Aufgabe 10-2

Aufgabe 10-3

Evaluation von ClusteringsPair Counting

A1 A2 A3 A4 A5 |Bj|B1 2 1 11 0 13 27B2 0 10 0 3 1 14B3 15 0 4 0 0 19B4 0 0 2 8 1 11

|Ai| 17 11 17 11 15 71

(cij2

)A1 A2 A3 A4 A5

(|Bj|2

)B1 1 0 55 0 78 351B2 0 45 0 3 0 91B3 105 0 6 0 0 171B4 0 0 1 28 0 55(|Aj|2

)136 55 136 55 105

Summe Konfusionsmatrix:∑i,j

(cij2

)= 322 (“Übereinstimmungen”, a)

Summe Zeilen Σj(|Bj|

2

)= 668 (“Paare in B”, a + c)

Summe Spalten Σi(|Ai|

2

)=

487 (“Paare in A”, a + b)Gesamtzahl (möglicher) Paare:

(n2

)= 2485 (M)

Page 103: Data Mining Tutorial - Kernel, Regression, Evaluation

Data MiningTutorial

E. Schubert,A. Zimek

Aufgabe 10-1

Aufgabe 10-2

Aufgabe 10-3

Evaluation von ClusteringsPair Counting

A1 A2 A3 A4 A5 |Bj|B1 2 1 11 0 13 27B2 0 10 0 3 1 14B3 15 0 4 0 0 19B4 0 0 2 8 1 11

|Ai| 17 11 17 11 15 71

(cij2

)A1 A2 A3 A4 A5

(|Bj|2

)B1 1 0 55 0 78 351B2 0 45 0 3 0 91B3 105 0 6 0 0 171B4 0 0 1 28 0 55(|Aj|2

)136 55 136 55 105

Summe Konfusionsmatrix:∑i,j

(cij2

)= 322 (“Übereinstimmungen”, a)

Summe Zeilen Σj(|Bj|

2

)= 668 (“Paare in B”, a + c)

Summe Spalten Σi(|Ai|

2

)= 487 (“Paare in A”, a + b)

Gesamtzahl (möglicher) Paare:(n

2

)= 2485 (M)

Page 104: Data Mining Tutorial - Kernel, Regression, Evaluation

Data MiningTutorial

E. Schubert,A. Zimek

Aufgabe 10-1

Aufgabe 10-2

Aufgabe 10-3

Evaluation von ClusteringsPair Counting

A1 A2 A3 A4 A5 |Bj|B1 2 1 11 0 13 27B2 0 10 0 3 1 14B3 15 0 4 0 0 19B4 0 0 2 8 1 11

|Ai| 17 11 17 11 15 71

(cij2

)A1 A2 A3 A4 A5

(|Bj|2

)B1 1 0 55 0 78 351B2 0 45 0 3 0 91B3 105 0 6 0 0 171B4 0 0 1 28 0 55(|Aj|2

)136 55 136 55 105

Summe Konfusionsmatrix:∑i,j

(cij2

)= 322 (“Übereinstimmungen”, a)

Summe Zeilen Σj(|Bj|

2

)= 668 (“Paare in B”, a + c)

Summe Spalten Σi(|Ai|

2

)= 487 (“Paare in A”, a + b)

Gesamtzahl (möglicher) Paare:(n

2

)= 2485 (M)

Page 105: Data Mining Tutorial - Kernel, Regression, Evaluation

Data MiningTutorial

E. Schubert,A. Zimek

Aufgabe 10-1

Aufgabe 10-2

Aufgabe 10-3

Evaluation von ClusteringsPair Counting

D.h. a = 322, a + c = 668, a + b = 487, M = 2485

d = M − (a + b + c) = 2485− (668 + 487− 322) = 1652

Precision: a/(a + c) ≈ 0.66119Recall: a/(a + b) ≈ 0.48204F-Measure daraus: ≈ 0.55758

Rand Index: a+da+b+c+d = 322+1652

2485 ≈ 0.7944

Adjusted Rand: Erwartungswert: E = (a+c)·(a+b)M ≈ 130.91

ARI = a−E(a+c)+(a+b)

2 −E≈ 0.4279

Jaccard Index: J = aa+b+c = 322

487+668−322 ≈ 0.3866

Page 106: Data Mining Tutorial - Kernel, Regression, Evaluation

Data MiningTutorial

E. Schubert,A. Zimek

Aufgabe 10-1

Aufgabe 10-2

Aufgabe 10-3

Evaluation von ClusteringsPair Counting

D.h. a = 322, a + c = 668, a + b = 487, M = 2485d = M − (a + b + c) = 2485− (668 + 487− 322) = 1652

Precision:

a/(a + c) ≈ 0.66119Recall: a/(a + b) ≈ 0.48204F-Measure daraus: ≈ 0.55758

Rand Index: a+da+b+c+d = 322+1652

2485 ≈ 0.7944

Adjusted Rand: Erwartungswert: E = (a+c)·(a+b)M ≈ 130.91

ARI = a−E(a+c)+(a+b)

2 −E≈ 0.4279

Jaccard Index: J = aa+b+c = 322

487+668−322 ≈ 0.3866

Page 107: Data Mining Tutorial - Kernel, Regression, Evaluation

Data MiningTutorial

E. Schubert,A. Zimek

Aufgabe 10-1

Aufgabe 10-2

Aufgabe 10-3

Evaluation von ClusteringsPair Counting

D.h. a = 322, a + c = 668, a + b = 487, M = 2485d = M − (a + b + c) = 2485− (668 + 487− 322) = 1652

Precision: a/(a + c)

≈ 0.66119Recall: a/(a + b) ≈ 0.48204F-Measure daraus: ≈ 0.55758

Rand Index: a+da+b+c+d = 322+1652

2485 ≈ 0.7944

Adjusted Rand: Erwartungswert: E = (a+c)·(a+b)M ≈ 130.91

ARI = a−E(a+c)+(a+b)

2 −E≈ 0.4279

Jaccard Index: J = aa+b+c = 322

487+668−322 ≈ 0.3866

Page 108: Data Mining Tutorial - Kernel, Regression, Evaluation

Data MiningTutorial

E. Schubert,A. Zimek

Aufgabe 10-1

Aufgabe 10-2

Aufgabe 10-3

Evaluation von ClusteringsPair Counting

D.h. a = 322, a + c = 668, a + b = 487, M = 2485d = M − (a + b + c) = 2485− (668 + 487− 322) = 1652

Precision: a/(a + c) ≈ 0.66119Recall:

a/(a + b) ≈ 0.48204F-Measure daraus: ≈ 0.55758

Rand Index: a+da+b+c+d = 322+1652

2485 ≈ 0.7944

Adjusted Rand: Erwartungswert: E = (a+c)·(a+b)M ≈ 130.91

ARI = a−E(a+c)+(a+b)

2 −E≈ 0.4279

Jaccard Index: J = aa+b+c = 322

487+668−322 ≈ 0.3866

Page 109: Data Mining Tutorial - Kernel, Regression, Evaluation

Data MiningTutorial

E. Schubert,A. Zimek

Aufgabe 10-1

Aufgabe 10-2

Aufgabe 10-3

Evaluation von ClusteringsPair Counting

D.h. a = 322, a + c = 668, a + b = 487, M = 2485d = M − (a + b + c) = 2485− (668 + 487− 322) = 1652

Precision: a/(a + c) ≈ 0.66119Recall: a/(a + b)

≈ 0.48204F-Measure daraus: ≈ 0.55758

Rand Index: a+da+b+c+d = 322+1652

2485 ≈ 0.7944

Adjusted Rand: Erwartungswert: E = (a+c)·(a+b)M ≈ 130.91

ARI = a−E(a+c)+(a+b)

2 −E≈ 0.4279

Jaccard Index: J = aa+b+c = 322

487+668−322 ≈ 0.3866

Page 110: Data Mining Tutorial - Kernel, Regression, Evaluation

Data MiningTutorial

E. Schubert,A. Zimek

Aufgabe 10-1

Aufgabe 10-2

Aufgabe 10-3

Evaluation von ClusteringsPair Counting

D.h. a = 322, a + c = 668, a + b = 487, M = 2485d = M − (a + b + c) = 2485− (668 + 487− 322) = 1652

Precision: a/(a + c) ≈ 0.66119Recall: a/(a + b) ≈ 0.48204F-Measure daraus:

≈ 0.55758

Rand Index: a+da+b+c+d = 322+1652

2485 ≈ 0.7944

Adjusted Rand: Erwartungswert: E = (a+c)·(a+b)M ≈ 130.91

ARI = a−E(a+c)+(a+b)

2 −E≈ 0.4279

Jaccard Index: J = aa+b+c = 322

487+668−322 ≈ 0.3866

Page 111: Data Mining Tutorial - Kernel, Regression, Evaluation

Data MiningTutorial

E. Schubert,A. Zimek

Aufgabe 10-1

Aufgabe 10-2

Aufgabe 10-3

Evaluation von ClusteringsPair Counting

D.h. a = 322, a + c = 668, a + b = 487, M = 2485d = M − (a + b + c) = 2485− (668 + 487− 322) = 1652

Precision: a/(a + c) ≈ 0.66119Recall: a/(a + b) ≈ 0.48204F-Measure daraus: ≈ 0.55758

Rand Index:

a+da+b+c+d = 322+1652

2485 ≈ 0.7944

Adjusted Rand: Erwartungswert: E = (a+c)·(a+b)M ≈ 130.91

ARI = a−E(a+c)+(a+b)

2 −E≈ 0.4279

Jaccard Index: J = aa+b+c = 322

487+668−322 ≈ 0.3866

Page 112: Data Mining Tutorial - Kernel, Regression, Evaluation

Data MiningTutorial

E. Schubert,A. Zimek

Aufgabe 10-1

Aufgabe 10-2

Aufgabe 10-3

Evaluation von ClusteringsPair Counting

D.h. a = 322, a + c = 668, a + b = 487, M = 2485d = M − (a + b + c) = 2485− (668 + 487− 322) = 1652

Precision: a/(a + c) ≈ 0.66119Recall: a/(a + b) ≈ 0.48204F-Measure daraus: ≈ 0.55758

Rand Index: a+da+b+c+d

= 322+16522485 ≈ 0.7944

Adjusted Rand: Erwartungswert: E = (a+c)·(a+b)M ≈ 130.91

ARI = a−E(a+c)+(a+b)

2 −E≈ 0.4279

Jaccard Index: J = aa+b+c = 322

487+668−322 ≈ 0.3866

Page 113: Data Mining Tutorial - Kernel, Regression, Evaluation

Data MiningTutorial

E. Schubert,A. Zimek

Aufgabe 10-1

Aufgabe 10-2

Aufgabe 10-3

Evaluation von ClusteringsPair Counting

D.h. a = 322, a + c = 668, a + b = 487, M = 2485d = M − (a + b + c) = 2485− (668 + 487− 322) = 1652

Precision: a/(a + c) ≈ 0.66119Recall: a/(a + b) ≈ 0.48204F-Measure daraus: ≈ 0.55758

Rand Index: a+da+b+c+d = 322+1652

2485 ≈ 0.7944

Adjusted Rand:

Erwartungswert: E = (a+c)·(a+b)M ≈ 130.91

ARI = a−E(a+c)+(a+b)

2 −E≈ 0.4279

Jaccard Index: J = aa+b+c = 322

487+668−322 ≈ 0.3866

Page 114: Data Mining Tutorial - Kernel, Regression, Evaluation

Data MiningTutorial

E. Schubert,A. Zimek

Aufgabe 10-1

Aufgabe 10-2

Aufgabe 10-3

Evaluation von ClusteringsPair Counting

D.h. a = 322, a + c = 668, a + b = 487, M = 2485d = M − (a + b + c) = 2485− (668 + 487− 322) = 1652

Precision: a/(a + c) ≈ 0.66119Recall: a/(a + b) ≈ 0.48204F-Measure daraus: ≈ 0.55758

Rand Index: a+da+b+c+d = 322+1652

2485 ≈ 0.7944

Adjusted Rand: Erwartungswert: E = (a+c)·(a+b)M

≈ 130.91ARI = a−E

(a+c)+(a+b)2 −E

≈ 0.4279

Jaccard Index: J = aa+b+c = 322

487+668−322 ≈ 0.3866

Page 115: Data Mining Tutorial - Kernel, Regression, Evaluation

Data MiningTutorial

E. Schubert,A. Zimek

Aufgabe 10-1

Aufgabe 10-2

Aufgabe 10-3

Evaluation von ClusteringsPair Counting

D.h. a = 322, a + c = 668, a + b = 487, M = 2485d = M − (a + b + c) = 2485− (668 + 487− 322) = 1652

Precision: a/(a + c) ≈ 0.66119Recall: a/(a + b) ≈ 0.48204F-Measure daraus: ≈ 0.55758

Rand Index: a+da+b+c+d = 322+1652

2485 ≈ 0.7944

Adjusted Rand: Erwartungswert: E = (a+c)·(a+b)M ≈ 130.91

ARI = a−E(a+c)+(a+b)

2 −E≈ 0.4279

Jaccard Index: J = aa+b+c = 322

487+668−322 ≈ 0.3866

Page 116: Data Mining Tutorial - Kernel, Regression, Evaluation

Data MiningTutorial

E. Schubert,A. Zimek

Aufgabe 10-1

Aufgabe 10-2

Aufgabe 10-3

Evaluation von ClusteringsPair Counting

D.h. a = 322, a + c = 668, a + b = 487, M = 2485d = M − (a + b + c) = 2485− (668 + 487− 322) = 1652

Precision: a/(a + c) ≈ 0.66119Recall: a/(a + b) ≈ 0.48204F-Measure daraus: ≈ 0.55758

Rand Index: a+da+b+c+d = 322+1652

2485 ≈ 0.7944

Adjusted Rand: Erwartungswert: E = (a+c)·(a+b)M ≈ 130.91

ARI = a−E(a+c)+(a+b)

2 −E

≈ 0.4279

Jaccard Index: J = aa+b+c = 322

487+668−322 ≈ 0.3866

Page 117: Data Mining Tutorial - Kernel, Regression, Evaluation

Data MiningTutorial

E. Schubert,A. Zimek

Aufgabe 10-1

Aufgabe 10-2

Aufgabe 10-3

Evaluation von ClusteringsPair Counting

D.h. a = 322, a + c = 668, a + b = 487, M = 2485d = M − (a + b + c) = 2485− (668 + 487− 322) = 1652

Precision: a/(a + c) ≈ 0.66119Recall: a/(a + b) ≈ 0.48204F-Measure daraus: ≈ 0.55758

Rand Index: a+da+b+c+d = 322+1652

2485 ≈ 0.7944

Adjusted Rand: Erwartungswert: E = (a+c)·(a+b)M ≈ 130.91

ARI = a−E(a+c)+(a+b)

2 −E≈ 0.4279

Jaccard Index:

J = aa+b+c = 322

487+668−322 ≈ 0.3866

Page 118: Data Mining Tutorial - Kernel, Regression, Evaluation

Data MiningTutorial

E. Schubert,A. Zimek

Aufgabe 10-1

Aufgabe 10-2

Aufgabe 10-3

Evaluation von ClusteringsPair Counting

D.h. a = 322, a + c = 668, a + b = 487, M = 2485d = M − (a + b + c) = 2485− (668 + 487− 322) = 1652

Precision: a/(a + c) ≈ 0.66119Recall: a/(a + b) ≈ 0.48204F-Measure daraus: ≈ 0.55758

Rand Index: a+da+b+c+d = 322+1652

2485 ≈ 0.7944

Adjusted Rand: Erwartungswert: E = (a+c)·(a+b)M ≈ 130.91

ARI = a−E(a+c)+(a+b)

2 −E≈ 0.4279

Jaccard Index: J = aa+b+c

= 322487+668−322 ≈ 0.3866

Page 119: Data Mining Tutorial - Kernel, Regression, Evaluation

Data MiningTutorial

E. Schubert,A. Zimek

Aufgabe 10-1

Aufgabe 10-2

Aufgabe 10-3

Evaluation von ClusteringsPair Counting

D.h. a = 322, a + c = 668, a + b = 487, M = 2485d = M − (a + b + c) = 2485− (668 + 487− 322) = 1652

Precision: a/(a + c) ≈ 0.66119Recall: a/(a + b) ≈ 0.48204F-Measure daraus: ≈ 0.55758

Rand Index: a+da+b+c+d = 322+1652

2485 ≈ 0.7944

Adjusted Rand: Erwartungswert: E = (a+c)·(a+b)M ≈ 130.91

ARI = a−E(a+c)+(a+b)

2 −E≈ 0.4279

Jaccard Index: J = aa+b+c = 322

487+668−322 ≈ 0.3866

Page 120: Data Mining Tutorial - Kernel, Regression, Evaluation

Data MiningTutorial

E. Schubert,A. Zimek

Aufgabe 10-1

Aufgabe 10-2

Aufgabe 10-3

Evaluation von ClusteringsZusammenfassung

Name Preciosion and Recall F / WertSet Matching 0.8028 0.6479 0.7171Average Prec. 0.8065 0.6781 0.7368Cell-F-Measure 0.7222 0.6959 0.7088Pair-Counting 0.6612 0.4820 0.5576

Rand 0.7944ARI 0.4279Jaccard 0.3866

Es gibt nicht “das” Maß aller Dinge. Populär sind vorallem: ARI und Pair-Counting-F-Measure.Absolute Werte sind nicht besonders aussagekräftig,insbesondere wenn sie nicht “corrected for chance” sind.Aber: Aussagen wie B1 ist ähnlicher zu A als B2 zu A sind meistdennoch möglich (und i.d.R. bei allen Indizes gleich).

Page 121: Data Mining Tutorial - Kernel, Regression, Evaluation

Data MiningTutorial

E. Schubert,A. Zimek

Aufgabe 10-1

Aufgabe 10-2

Aufgabe 10-3

Evaluation von ClusteringsZusammenfassung

Name Preciosion and Recall F / WertSet Matching 0.8028 0.6479 0.7171Average Prec. 0.8065 0.6781 0.7368Cell-F-Measure 0.7222 0.6959 0.7088Pair-Counting 0.6612 0.4820 0.5576

Rand 0.7944ARI 0.4279Jaccard 0.3866

Es gibt nicht “das” Maß aller Dinge. Populär sind vorallem: ARI und Pair-Counting-F-Measure.

Absolute Werte sind nicht besonders aussagekräftig,insbesondere wenn sie nicht “corrected for chance” sind.Aber: Aussagen wie B1 ist ähnlicher zu A als B2 zu A sind meistdennoch möglich (und i.d.R. bei allen Indizes gleich).

Page 122: Data Mining Tutorial - Kernel, Regression, Evaluation

Data MiningTutorial

E. Schubert,A. Zimek

Aufgabe 10-1

Aufgabe 10-2

Aufgabe 10-3

Evaluation von ClusteringsZusammenfassung

Name Preciosion and Recall F / WertSet Matching 0.8028 0.6479 0.7171Average Prec. 0.8065 0.6781 0.7368Cell-F-Measure 0.7222 0.6959 0.7088Pair-Counting 0.6612 0.4820 0.5576

Rand 0.7944ARI 0.4279Jaccard 0.3866

Es gibt nicht “das” Maß aller Dinge. Populär sind vorallem: ARI und Pair-Counting-F-Measure.Absolute Werte sind nicht besonders aussagekräftig,insbesondere wenn sie nicht “corrected for chance” sind.

Aber: Aussagen wie B1 ist ähnlicher zu A als B2 zu A sind meistdennoch möglich (und i.d.R. bei allen Indizes gleich).

Page 123: Data Mining Tutorial - Kernel, Regression, Evaluation

Data MiningTutorial

E. Schubert,A. Zimek

Aufgabe 10-1

Aufgabe 10-2

Aufgabe 10-3

Evaluation von ClusteringsZusammenfassung

Name Preciosion and Recall F / WertSet Matching 0.8028 0.6479 0.7171Average Prec. 0.8065 0.6781 0.7368Cell-F-Measure 0.7222 0.6959 0.7088Pair-Counting 0.6612 0.4820 0.5576

Rand 0.7944ARI 0.4279Jaccard 0.3866

Es gibt nicht “das” Maß aller Dinge. Populär sind vorallem: ARI und Pair-Counting-F-Measure.Absolute Werte sind nicht besonders aussagekräftig,insbesondere wenn sie nicht “corrected for chance” sind.Aber: Aussagen wie B1 ist ähnlicher zu A als B2 zu A sind meistdennoch möglich (und i.d.R. bei allen Indizes gleich).

Page 124: Data Mining Tutorial - Kernel, Regression, Evaluation

Data MiningTutorial

E. Schubert,A. Zimek

Aufgabe 10-1

Aufgabe 10-2

Aufgabe 10-3

EvaluationFazit

Eine gute Evaluierung von “unsupervised” Methoden istüberraschend schwierig!

I Es gibt zahlreiche Maße, ohne klare VorteileI Vergleich mit bekannten Labels (“supervised”)

I Bestraft echt neues Wissen!

I Interne EvaluierungI Misst die Ähnlichkeit Methode↔ Maß?

I Manuelle Evaluierung durch ExpertenI Aufwendig und subjektiv

I Indirekte Evaluierung?I Bewertung durch Verbesserung der Ergebnisse

anderer Methoden?

Page 125: Data Mining Tutorial - Kernel, Regression, Evaluation

Data MiningTutorial

E. Schubert,A. Zimek

Aufgabe 10-1

Aufgabe 10-2

Aufgabe 10-3

EvaluationFazit

Eine gute Evaluierung von “unsupervised” Methoden istüberraschend schwierig!

I Es gibt zahlreiche Maße, ohne klare Vorteile

I Vergleich mit bekannten Labels (“supervised”)I Bestraft echt neues Wissen!

I Interne EvaluierungI Misst die Ähnlichkeit Methode↔ Maß?

I Manuelle Evaluierung durch ExpertenI Aufwendig und subjektiv

I Indirekte Evaluierung?I Bewertung durch Verbesserung der Ergebnisse

anderer Methoden?

Page 126: Data Mining Tutorial - Kernel, Regression, Evaluation

Data MiningTutorial

E. Schubert,A. Zimek

Aufgabe 10-1

Aufgabe 10-2

Aufgabe 10-3

EvaluationFazit

Eine gute Evaluierung von “unsupervised” Methoden istüberraschend schwierig!

I Es gibt zahlreiche Maße, ohne klare VorteileI Vergleich mit bekannten Labels (“supervised”)

I Bestraft echt neues Wissen!

I Interne EvaluierungI Misst die Ähnlichkeit Methode↔ Maß?

I Manuelle Evaluierung durch ExpertenI Aufwendig und subjektiv

I Indirekte Evaluierung?I Bewertung durch Verbesserung der Ergebnisse

anderer Methoden?

Page 127: Data Mining Tutorial - Kernel, Regression, Evaluation

Data MiningTutorial

E. Schubert,A. Zimek

Aufgabe 10-1

Aufgabe 10-2

Aufgabe 10-3

EvaluationFazit

Eine gute Evaluierung von “unsupervised” Methoden istüberraschend schwierig!

I Es gibt zahlreiche Maße, ohne klare VorteileI Vergleich mit bekannten Labels (“supervised”)

I Bestraft echt neues Wissen!

I Interne EvaluierungI Misst die Ähnlichkeit Methode↔ Maß?

I Manuelle Evaluierung durch ExpertenI Aufwendig und subjektiv

I Indirekte Evaluierung?I Bewertung durch Verbesserung der Ergebnisse

anderer Methoden?

Page 128: Data Mining Tutorial - Kernel, Regression, Evaluation

Data MiningTutorial

E. Schubert,A. Zimek

Aufgabe 10-1

Aufgabe 10-2

Aufgabe 10-3

EvaluationFazit

Eine gute Evaluierung von “unsupervised” Methoden istüberraschend schwierig!

I Es gibt zahlreiche Maße, ohne klare VorteileI Vergleich mit bekannten Labels (“supervised”)

I Bestraft echt neues Wissen!

I Interne Evaluierung

I Misst die Ähnlichkeit Methode↔ Maß?

I Manuelle Evaluierung durch ExpertenI Aufwendig und subjektiv

I Indirekte Evaluierung?I Bewertung durch Verbesserung der Ergebnisse

anderer Methoden?

Page 129: Data Mining Tutorial - Kernel, Regression, Evaluation

Data MiningTutorial

E. Schubert,A. Zimek

Aufgabe 10-1

Aufgabe 10-2

Aufgabe 10-3

EvaluationFazit

Eine gute Evaluierung von “unsupervised” Methoden istüberraschend schwierig!

I Es gibt zahlreiche Maße, ohne klare VorteileI Vergleich mit bekannten Labels (“supervised”)

I Bestraft echt neues Wissen!

I Interne EvaluierungI Misst die Ähnlichkeit Methode↔ Maß?

I Manuelle Evaluierung durch ExpertenI Aufwendig und subjektiv

I Indirekte Evaluierung?I Bewertung durch Verbesserung der Ergebnisse

anderer Methoden?

Page 130: Data Mining Tutorial - Kernel, Regression, Evaluation

Data MiningTutorial

E. Schubert,A. Zimek

Aufgabe 10-1

Aufgabe 10-2

Aufgabe 10-3

EvaluationFazit

Eine gute Evaluierung von “unsupervised” Methoden istüberraschend schwierig!

I Es gibt zahlreiche Maße, ohne klare VorteileI Vergleich mit bekannten Labels (“supervised”)

I Bestraft echt neues Wissen!

I Interne EvaluierungI Misst die Ähnlichkeit Methode↔ Maß?

I Manuelle Evaluierung durch Experten

I Aufwendig und subjektiv

I Indirekte Evaluierung?I Bewertung durch Verbesserung der Ergebnisse

anderer Methoden?

Page 131: Data Mining Tutorial - Kernel, Regression, Evaluation

Data MiningTutorial

E. Schubert,A. Zimek

Aufgabe 10-1

Aufgabe 10-2

Aufgabe 10-3

EvaluationFazit

Eine gute Evaluierung von “unsupervised” Methoden istüberraschend schwierig!

I Es gibt zahlreiche Maße, ohne klare VorteileI Vergleich mit bekannten Labels (“supervised”)

I Bestraft echt neues Wissen!

I Interne EvaluierungI Misst die Ähnlichkeit Methode↔ Maß?

I Manuelle Evaluierung durch ExpertenI Aufwendig und subjektiv

I Indirekte Evaluierung?I Bewertung durch Verbesserung der Ergebnisse

anderer Methoden?

Page 132: Data Mining Tutorial - Kernel, Regression, Evaluation

Data MiningTutorial

E. Schubert,A. Zimek

Aufgabe 10-1

Aufgabe 10-2

Aufgabe 10-3

EvaluationFazit

Eine gute Evaluierung von “unsupervised” Methoden istüberraschend schwierig!

I Es gibt zahlreiche Maße, ohne klare VorteileI Vergleich mit bekannten Labels (“supervised”)

I Bestraft echt neues Wissen!

I Interne EvaluierungI Misst die Ähnlichkeit Methode↔ Maß?

I Manuelle Evaluierung durch ExpertenI Aufwendig und subjektiv

I Indirekte Evaluierung?

I Bewertung durch Verbesserung der Ergebnisseanderer Methoden?

Page 133: Data Mining Tutorial - Kernel, Regression, Evaluation

Data MiningTutorial

E. Schubert,A. Zimek

Aufgabe 10-1

Aufgabe 10-2

Aufgabe 10-3

EvaluationFazit

Eine gute Evaluierung von “unsupervised” Methoden istüberraschend schwierig!

I Es gibt zahlreiche Maße, ohne klare VorteileI Vergleich mit bekannten Labels (“supervised”)

I Bestraft echt neues Wissen!

I Interne EvaluierungI Misst die Ähnlichkeit Methode↔ Maß?

I Manuelle Evaluierung durch ExpertenI Aufwendig und subjektiv

I Indirekte Evaluierung?I Bewertung durch Verbesserung der Ergebnisse

anderer Methoden?