SS 2009Maschinelles Lernen und Neural Computation 107 Kapitel 6: Unüberwachtes Lernen

SS 2009 Maschinelles Lernen und Neural Computation

Kapitel 6: Unüberwachtes Lernen

Clustering

• Gegeben: eine Menge von Punkten (Beispielen), „ungelabelt“ (i.e. Klasse unbekannt)

• Gesucht: eine Menge von Clustern (Cluster-Zentren), die die Daten möglichst gut beschreiben („Vektorquantisierung“)

minimiere

(Summe der Abstände zu allen Zentren, quadratischer Quantisierungsfehler)

i Cxjij

K-means Clustering

• Gradientenverfahren

• Neues Cluster-Zentrum ist Mittelwert der Punkte im Cluster

• Mehrere Iterationen notwendig

new 10 xww

Clustering als NC: Competitive Learning

• Architektur wie Perceptron

iijij wxfx

f ... Gauss; wie RBFN

Wähle „Gewinner“(am stärksten aktivierte Unit)

Setze „Gewinner“ auf 1,alle anderen auf 0

• „winner-take-all“• Gewinner lernt (Instar Regel): ijiij wxw

Geometrische Interpretation• Gewichtsvektoren

und Inputs sind Punkte im Raum

Input• Gewinner wählen = finde nähesten Gewichstvektor

• Resultat: Gruppen in den Daten werden gefunden

• Instar: Ziehe Gewichtsvektor zu Input hin

• stochastische Variante von k-means!

Matlab>demos>neural networks>other demos>chapter 14>competitive learning

Eigenschaften

• Clustering nach k-means ist Gauss‘sches Clustering (symmetrische Streuung)

• Aufteilung des Raumes: Voronoi Tesselation

• Mögliche Probleme:– Lokale Minima

(bei schlechter Initialisierung)

– Verzerrung durch Ausreisser

Gaussian Mixtures als Clustering• Clustering wird als Dichteschätzung betrachtet

• Anschreibbar wie Klassifikationsproblem:

• EM-Algorithmus (max. Likelihood):

iijji xp

Posterior des Clusters iGaussverteilung Prior (i)

Dichte (GMM)

Gewichteter Mittelwert, analog zu k-means

Netlab>demgmm1.m

Vorteile der GMM

• Vorteile:– Probabilitischer Rahmen– Zugehörigkeit zu Clustern angebbar

(Posterior)– Ausgeprägtheit von

Clustern bestimmbar– Modellauswahl möglich

(anhand der Likelihood)k-means: optimale Anzahl der Clusters nicht leicht bestimmbar

Erweiterungen

• Erweiterung auf beliebige Gauss-Verteilungen möglich

• K-means: entspricht „Mahalonobis Distanz“(berücksichtigt Varianzen innerhalb der Cluster)

Netlab>demgmm3.m, demgmm4.m

Gewöhnliche (sphärische) Gauss-FunktionenBeliebige Gauss-Funktionen

Nicht-Gauss‘sches Clustering

• Nur als Mixture von Gauss‘schen Zentren beschreibbar

• Wenn „natürliche“ Cluster gefunden werden sollen: Nur parametrisch möglich (d.h. Form der Cluster bekannt)

• Ansonsten: Identifikationsproblem

Andere Formen des Clustering

• Andere Distanz-(Ähnlichkeits-)Maßez.B. Manhattan-Distanz, Ranking

• Andere Fehler-(Kriteriums-)Funktionenz.B. Kohäsion innerhalb des Clusters, Entropie

• Hierarchisches Clustering– Dendrogramme– ART mit verschiedenen

Vigilanzen

Selforganizing Maps (SOM)

• Kohonen (1981, 1990)

• Nachbarschaft definiert• Wie CL: winner-take-all, Instar• Aber Nachbarn lernen mit

ijijij wxxxnw win,

Nachbarschaftsfunktion,wird im Laufe des TrainingsKleiner (Stabilisierung)

SOM: Geometrische Interpretation

• Topologische Beziehung der Clusters bleibt weitgehend bestehen

• Benachbarte Units entsprechen benachbarten Clustern

• Datenraum wird auf die 2-dim. Struktur abgebildet („Karte“)

• Dient zur Visualisierung hochdimensionaler Daten

• 2-dim. Struktur wird in den hochdimensionalen Raum eingepasst - Projektion

3x3 SOM

Vienet2>uebung4.exe; Matlab>demos>2dim. selforganizing map

Beispiel: politische Konflikte

• Daten: Konflikte und Vermittlungsversuche seit 1945 (Bercovitch & Langely 1993)

• 6 Dimensionen:– Dauer– Politische Macht A– Politische Macht B– Politische Rechte B– Initiator– Vermittlunsgerfolg

• 2 dim. Visualisierung

http://websom.hut.fi

• Durch schlechte Initaliseriung kann k-means zu sub-otpimalen Lösungen führen (lokales Minimum)

• SOM: durch Mitziehen der Nachbarn wird der Datenraum besser abgedeckt (lokale Minima können vermieden werden)

• Zusätzlich: – Topologische Beziehung– Mehr Zentren in Bereichen hoher

Dichte

Multidimensionale Skalierung

• Aufgabe: Bilde hochdimensionale (n-d) Daten auf niedrige Dimensionalität (k-d) ab, sodaß Abstände zwischen den Punkten annähernd gleich bleiben (Dimensionsreduktion)

• Funktioniert gut, wenn Daten auf k-dim. Mannigfaltigkeit liegen (z.B. gekrümmte Fläche)

SOM als MDS

• MDS entspricht dem Prinzip der topologischen Erhaltung in der SOM

SOM ist Clustering + MDS (mit Verzerrung abh. von Dichte)!

Bereich 1

Bereich 2

Topologische Darstellung

• Zwischenzustände durch Gewichtung mittels Distanz zu Zentren

• Ausgeprägte Grenzen darstellbar (U-Map, Ultsch)

Alternative: Sammon Mapping

• Minimiere Differenz aller Abstände:

• Nachteil: hoher Berechnungsaufwand• Lösung: zuerst Clustering, dann Sammon

Mapping (weniger Punkte); Flexer 1996• Aber: Gleiche Probleme mit lokalen Minima wie

k-means

i ij ji

~,~, 2

Abstand OriginalpunktePunkte in der Map

Normalisierung

Probleme der SOM

• Keine probabilistische Beschreibung• Konvergenz nicht garantiert• Es gibt keine Fehlerfunktion, die minimiert wird!• Clustering und MDS beeinflussen einander (beides kann

suboptimal sein) • Es ist schwer abschätzbar, ob SOM gut ist oder nicht Empfehlung:

– SOM nur zur Visualisierung einsetzen!(nicht zum Clustering oder für überwachte Probleme)

– Genau überlegen, was Kriterium ist; Alternativen suchen

Generative Topographic Mapping (GTM)

• Bishop et al. (1996)• Nichtlineares Mapping von

einer Gitterstruktur auf eine Gaussian Mixture(z.B. durch MLP)

• GMM mit Randbedingungen• Probabilistische

Formulierung, umgeht viele der Probleme der SOM

Aus Bishop et al. (1996), Neural Computation 10(1), 215-235

Aus Netlab Demo demgtm2.m

Netlab>demgtm1.m, demgtm2.m

W,xtWx,t

Zentrum abh. vonGitterpunkt

Praktische Aspekte• Auch für unüberwachte Verfahren gelten im

wesentlichen die 7 Schritte:1. Sichtung (Ausreißer)2. Vorverarbeitung:

Skalierung der Merkmale beeinflusst die Distanz Normalisierung

3. Merkmalsselektion:irrelevante Merkmalekönnen Clusteringerschweren:

Kreuzvalidierung für unüberwachtes Lernen

4. Modellschätzung mittels Kreuzvalidierung:bei k-means problematischbei GMM: Likelihood-Funktion als Fehlerfunktion

(„Loss“-Funktion)

Kombination von überwachtem mit unüberwachtem Lernen

• Unüberwachte Verfahren alleine eignen sich nur für unüberwachte Probleme!

• Bei überwachtem Problem (gelabelte Daten) kann unüberwachtes Verfahren eingesetzt werden als– Initialisierung– Vorstrukturierung

• Beispiele:– SOM oder GTM als Initialisierung eines RBFN– Learning Vector Quantization– ARTMAP

Learning Vector Quantization (LVQ)• Kohonen (1990)

Ordne Units Klassen zu

nearest neighbor Verfahren mit Vektorquantisierung (nicht jeder Trainingspunkt gespeichert)

• Vergleichbar mit Dichteschätzung der class-conditionals

kxcwxw

hinbewegen, wenn richtige Klasse

wegbewegen, wenn falsche Klasse

Zusammenfassung

• Unüberwachte neuronale Netz-Verfahren reihen sich ebenfalls nahtlos in die Statistik

• Competitive Learning = k-means• GMM als probabilistisches Clusteringverfahren• SOM als Multidimensionale Skalierung +

Clustering, aber mit Problemen

SS 2009Maschinelles Lernen und Neural Computation 107 Kapitel 6: Unüberwachtes Lernen

Documents

Computation of Mutual Information Metric for Image Registration on Multiple GPUs

Algorithms for the computation of Sato's b-functions in ...Daniel.Andres/bfct.pdf · Algorithms for the computation of Sato’s b-functions in algebraic D-module theory Daniel Andres

Maschinelles Lernen und Neural Computation

CoLex T SS2008 - cl.uni-heidelberg.de fileCoLex SS08, Tutorium 04.07.2008 7 Zwei-Ebenen-Morphologie Kimmo Koskenniemi, Dissertation (1983): Two-Level Morphology: A General Computation

Computation of custom made photonic crystalsdocuments.epfl.ch/.../www/PhotonicCrystals/Report.pdfComputation of custom made photonic crystals Lausanne, June 25, 2002 Leutenegger Marcel

Computation of the Thermoacoustic Driving Capability of ... · Technische Universität München Institut für Energietechnik Lehrstuhl für Thermodynamik Computation of the Thermoacoustic

Theory - ACE Engineering Academy · (Finite automata, Regular expression, regular grammar) 2 Theory of Computation ACE Engineering Publications Hyderabad • Delhi • Bhopal •

Hanzi, Concept and Computation: A Preliminary Survey of ... · PDF fileHanzi, Concept and Computation: A Preliminary Survey of Chinese Characters as a Knowledge Resource in NLP von

Quantum Computation - · • Information ist physikalische Große (Landauer Prinzip 1970)¨ • Reversible Computer sind moglich (Bennett 1973, Fredkin/Toffoli 1981)¨ • Quantensysteme

Vorlesung 10 Unüberwachtes Lernen II - Universität Ulm · M. Giese: Lernmethoden in Computervision und Computer Grafik 14 December 2002 Vorlesung 10 Unüberwachtes Lernen II Martin

SS 2009Maschinelles Lernen und Neural Computation 150 Kapitel 8: Kernel-Methoden

Computation of Con uent Hypergeometric Functions and …ub-dok.uni-trier.de/diss/diss55/20011005/20011005.pdf · 2001-10-10 · 8 1 Introduction In this thesis we focus on the computation

Qbit Layouts for Quantum Computation Using Non-Abelian Anyons

Überblick Model-Checking CTL Computation Tree Logic (CTL ... · PDF fileModel-Checking CTL BaumautomatenKomplementierungSchlussbemerkungen CTL exakt Trennung von Zustands- und Pfadformeln:

Startseite - Lehrstuhl für Computation in Engineering

Biomedical Engineering (Bachelor) - oth-regensburg.de · B-MSC Musculoskeletal Computation B-MW Materialwissenschaften B-PA Projektarbeit ... Praktikum medizinische Physik (Laboratory

Vorlesung 9 Unüberwachtes Lernen I - Universität · PDF filezOptimaler Decoder: ... Theorie Lloyd-Max-Bedingungen (Forts.) zFeste Eingangssignale x i, Optimierung der Regionen R

Computation of multivalued traveltimes in three ...ediss.sub.uni-hamburg.de/volltexte/2004/1175/pdf/dissertation.pdf · Computation of multivalued traveltimes in three-dimensional

Computation of Voronoi Diagrams of Circular Arcs and ...3Di erent transliterations exists, in particular Georgij Voronoj and Georgi Woronoi. 4Geographic Information System. 6 CHAPTER

Österreichische Akademie der WissenschaftenIn der AG „Symbolic Computation“ geleitet von J. Schicho, wurde das Gebiet "Symbolic Functional Analysis" durch die Bewilligung des