Clustering - Gruppieren von Datenpunkten

Clustering

Gruppieren von DatenpunktenProgrammiererversion

Nicco Kunzmann nicco @gmail.comJugend Hackt 2014

kunzmann

Clustering

kunzmann

Clustering

kunzmann

● Datamining

– Unsupervised Learning● Clustering

● Statistik● Information Retrieval (Film: „Brazil“)

Name Alter vegetarier Geschwister

Benni 12.4 ja 1

Horst 14.2 nein 0

Irmel 16.0 nein 5

Lichtintensität

4 Features

Abstand

Wer gehört zusammen?

Abstand

Was ist sinnvoll?

Abstand

Euklidischer Abstand

Abstand

Manhattan

Abstand

Manhattan

Stellt euch an dieser Stelle ein 10-Dimensionales Bild vor.

A ja ja ja ja X ja ja ja ja ja

B X ja ja ja X ja X ja X ja

C X X X X X X X X X X

Abstand

Maximum

Abstand

Cosinus

Abstand

Es gibt auch noch - Pearson correlation für Lineare Abhängigkeit- Jaccard similarity für Mengen (Buchstaben)

Algorithmen

● Single Link● Complete Link● K-Means● Mean Shift● Connected Components● Gaussian Mixture Model● DB-Scan

Single Link & Complete Link

➢ Jeder Punkt in einen neuen Cluster➢ Bis es wenig Cluster gibt, tue:

➢ Finde die beiden Cluster mit min. dist(c1, c2)➢ Erzeuge einen neuen Cluster aus c1 + c2

Single Link: dist(c1, c2) = min({dist(x1, x2) | x1 c1, x2 c2})∈ ∈Complete Link:dist(c1, c2) = max({dist(x1, x2) | x1 c1, x2 c2})∈ ∈

Single Link & Complete Link

Single Link

Complete Link

Complete Link & Single Link

Problem: Ich will 2 Cluster

K-Means

➢ Platziere eine Anzahl an Mittelpunkten zufällig➢ Bis sich nichts ändert, tue:

➢ Erzeuge für jeden Mittelpunkt einen leeren Cluster

➢ Füge die Punkte in den Cluster vom nächstliegendsten Mittelpunkt

➢ Bilde die Mittelpunkte aus den Clustern

K-Means

● Probleme

Mean-Shift

Row 1 Row 2 Row 3 Row 40

Column 1

Column 2

Column 3

Mean-Shift

für Maxima & Minima

Mean-Shift

➢ Verteile zufällig Punkte➢ Solange sich was ändert, tue:

➢ Für jeden Mittelpunkt p, tue:➢ p := Durchschnitt aus allen Daten nahe p

Gewichteter Durchschnitt für Normalverteilte Daten

Mean-Shift

● Probleme

Algorithmen

● Single Link● Complete Link● K-Means● Mean Shift● Connected Components (für Bilder)● Gaussian Mixture Model (besseres K-Means)● DB-Scan

Featureanpassung

Beispiel: Lichtsensorwerte:

– Weiß: 1-6– Grau: 7-100– Schwarz: 101 - 10000

Feature := log(Lichtsensorwert)

Daten anpassen, da Algorithmen doofe Annahmen treffen.

Implementieren

● Implementierung := Algorithmus + Featureauswahl + Featureanpassung + Abstandsfunktion + Leere Cluster behandeln

Quellen

● Vorlesung Datamining 2013/14 am HPI– I. H. Witten, E. Frank, M. A. Hall: Data Mining - Practical

Machine Learning Tools and Techniques (Chapters 1 – 6)

– C. Bishop: Pattern Recognition and Machine Learning (Chapters 1 – 4, 8, 9)

– T. M. Mitchell: Machine Learning (Chapters 3 – 6, 8, 10)

– P. Flach: Machine Learning – The Art and Science of Algorithms that make Sense of Data (Chapters 1 – 3, 5 – 11)

– D. J. C. MacKay: Information Theory, Inference and Learning Algorithms (Chapters 1 – 6)

Clustering - Gruppieren von Datenpunkten

Engineering

Kapitel 12: Clustering - dbs.ifi.lmu.deKapitel 12: Clustering. 2 Motivation Phone Company Astronomy Credit Card Retail • Big data sets are collected in databases • Manual analysis

Text-Mining: Clustering - Philosophische Fakultät · Clustering im TM Flaches Clustering Hierarchisches Clustering Erweiterungen, LabelingLiteratur Cluster-Hypothese \Documents in

Dichtebasiertes Clustering - dbs.ifi.lmu.de · DATABASE SYSTEMS GROUP Dichtebasiertes Clustering Grundlagen Idee •Cluster als Gebiete im . d-dimensionalen Raum, in denen die Objekte

Clustering - ifis.uni-luebeck.de fileEinführung in Web-und Data-Science Clustering Prof. Dr. Ralf Möller Universität zu Lübeck Institut für Informationssysteme Tanya Braun (Übungen)

Kapitel 5: Clustering - uni-muenchen.de€¦ · 178 5.1 Einleitung Ziel des Clustering • Identifikation einer endlichen Menge von Kategorien, Klassen oder Gruppen (Cluster) in den

5.3 Dichtebasiertes Clustering - dbs.ifi.lmu.de · 226 5.3 Dichtebasiertes Clustering SNN-Clustering Algorithmus [Ertöz, Steinbach, Kumar 03] Eingabe: k, ε, minPts 1. Berechne Ähnlichkeitsmatrix

Clustering - ifis.uni-luebeck.de · Einführung in Web-und Data-Science Clustering Prof. Dr. Ralf Möller Universität zu Lübeck Institut für Informationssysteme Tanya Braun (Übungen)

Inkrementelles hierarchisches Clustering · Institut f”ur Informatik Lehr- und Forschungseinheit f”ur Datenbanksysteme Diplomarbeit Inkrementelles hierarchisches Clustering Elke

Hinrich Schütze and Christina Lioma Lecture 16: Flat Clustering

Clustering in Sensornetzwerken - ITI Algorithmik I · Seminar Algorithmen fur Sensornetzwerke Clustering in Sensornetzwerken Marcus Krug Universit at Karlsruhe (TH) Fakult at fur

Clustering - stat.ethz.ch · Seminar für Statistik | | Ziel von Clustering Finde Gruppen, sodas Elemente innerhalb der gleichen Gruppe möglichst ähnlich sind und Elemente von

Stream Mining: Clustering von Streamdaten fileMatthias Biehl Stream Mining: Clustering von Streamdaten- 2 Stream Mining Beispiele Herkömmliches Clustering Stream Clustering-Eigenschaften-Lösungsansatz

3. Clustering - kde.cs.uni-kassel.de file3 3.1 Einleitung Ziel des Clustering • Identifikation einer endlichen Menge von Kategorien, Klassen oder Gruppen (Cluster) in den Daten •

Spree SoSe 2011 Automatisches Clustering und automatische Klassifikation Quelle:

Symbolisierung und Clustering von Zeitreihen als neue ... · Bachelorarbeit Symbolisierung und Clustering von Zeitreihen als neue Operatoren im ValueSeries Plugin von Rapidminer Christian

The Art of Clustering - German Edition

Optimum Clustering Framework - Institute WeST fileInhalt •Vorwissen •Grundlagen des OCF •Cluster-Qualität •Perfektes vs. optimales Clustering •Bestandteile des OCF •Zusammenfassung

9. Classification, Clustering, and Learning to Rank€¦ · IR & WS, Lecture 9: Classification, Clustering, and Learning to Rank 20.4.2020. LSI reduction –example This leaves us

Klassiﬁzierung von Dokumenten mit Clustering- und ... fileKlassiﬁzierung von Dokumenten mit Clustering- und Machinelearning-Verfahren Jan-Ole Esleben esleben@cl.uni-heidelberg.de

Efficient document clustering using graphic processing units