Upload
hacong
View
224
Download
0
Embed Size (px)
Citation preview
Technische Universität München
Proseminar - Data Mining
SCCS, Fakultät für Informatik
Technische Universität München
SS 2013
SCCS: Proseminar - Data Mining
, SS 2013 1
Technische Universität München
Data Mining Pipeline
Planung Aufbereitung Modellbildung Auswertung
Wir wollen nützliches Wissen aus Daten extrahieren• Planung. Finden des Problems. Was soll gemacht werden?
Dafür nötige Daten sammeln.• Aufbereitung. Rohdaten (unvollständig, redundant,
verschiedene Formate, Einheiten, etc.) werden in einebrauchbare Form gebracht.
• Modellbildung. Daten werden mit verschiedenen Methoden(Regression, Klassifikation, Clustering, etc.) analysiert.
• Auswertung. Interpretation und Auswertung der Ergebnisse.
SCCS: Proseminar - Data Mining
, SS 2013 2
Technische Universität München
Warum Data Mining?
• “We are drowning in information and starving for knowledge.”(Rutherford D. Roger)
• “The future belongs to the companies and people that turn datainto products.” (Mike Loukides, O’Reilly)
• Rank 5 in Computerworld’s “Top IT skills wanted for 2012”• Rank 1 in Computerworld’s “IT skills that employers can’t say no
to”
SCCS: Proseminar - Data Mining
, SS 2013 3
Technische Universität München
Beispiele (1)
• Handschrifterkennung (Klassifikation)
SCCS: Proseminar - Data Mining
, SS 2013 4
Technische Universität München
Beispiele (2)
• Image Segmentation (Clustering)
SCCS: Proseminar - Data Mining
, SS 2013 5
Technische Universität München
Beispiele (3)
• Ähnliche Gene (Clustering)
[Hastie et al.]
SCCS: Proseminar - Data Mining
, SS 2013 6
Technische Universität München
Beispiele (4)
• Ähnliche Verschiebungen bei Crash (Clustering)
SCCS: Proseminar - Data Mining
, SS 2013 7
Technische Universität München
Themen (1)
• Überblick• Genauere Darstellung der Data Mining Pipeline• Beispiele wo Data Mining verwendet wird
• Einsatz von Data Mining in Industrie• Software: Matlab und R• Software: Weka• Software: RapidMiner• Software: Google Prediction API• Überblick: Data at Scale
• Wie große Datenmengen speichern und verwalten? WelcherEinsatzbereich?
• Hadoop, Cassandra, BigTable, ...• Aufbereitung von Daten, Pre-Processing
SCCS: Proseminar - Data Mining
, SS 2013 8
Technische Universität München
Themen (2)
• Lineare Modelle für Regression• Was sind lineare Modelle? Wieso lineare Modelle? Welche?• Was ist Regression? Beispiele.
• Lineare Modelle und Logistische Regression für Klassifikation• Klassifikation mit Thresholding• Vergleich mit z.B. k -nearest Neighbor
• Entscheidungsbäume• Merkmale in Reihenfolge der Wichtigkeit überprüfen• Es entsteht ein Baum
SCCS: Proseminar - Data Mining
, SS 2013 9
Technische Universität München
Themen (3)
• Association Rules• Finde gemeinsame Belegung von Variablen die möglichst oft
in Datenbank auftritt• Z.B.: Bier und Windeln werden of zusammen gekauft
• Clustering• Finde Struktur in Daten, kein “outcome” vorhanden• k -means, mixture of gaussians
• Dichteschätzung• Schätzen der Dichte P eines gegebenen Datensatzes
X = {x1, . . . , xM}.• Histogram, Kerndichteschätzer, etc.
• Reinforcement Learning• Das System bekommt sofort Feedback und reagiert darauf• Welche Verfahren gibt es? Anwendungsbeispiele?
SCCS: Proseminar - Data Mining
, SS 2013 10
Technische Universität München
Themen (4)
• Neuronale Netze I• Neuronale Netze II• Ensemble Learning
• Verbinde mehrere verschiedene Algorithmen• Gewichte einzelne Antworten entsprechend
• AdaBoost• Kann als Ensemble Methode angesehen werden• Verwendet optimale Gewicht (bzgl. exp. loss)
SCCS: Proseminar - Data Mining
, SS 2013 11
Technische Universität München
Themen (5)
• Hauptkomponentenanalyse• Natural Language Processing
• Latent Semantic Indexing• Latent Dirichlet allocation
• Big Learning• Stochastic Gradient Descent• Map-Reduce Parallelization
• Spam Filtering with Naive Bayes Classifier• Recommender Systems with Colaborative Filtering• Sequential Data
SCCS: Proseminar - Data Mining
, SS 2013 12
Technische Universität München
Tipps zur Recherche
1. Google Scholar und Google (filetype:pdf)2. eAccess Zugriff mit MyTUM Account
http://www.ub.tum.de/eaccess#Bookmarklet%20f%C3%BCr%
20eAccess
Funktioniert für Springer, ACM, IEEE (nicht Computer Society!),etc.
3. Zeitschriften/Proceedings über EZB suchenhttp://www.ub.tum.de/ejournals
4. Manche Bücher elektronisch über OPAC-Katalog abrufbar(„Volltext“ Button)
SCCS: Proseminar - Data Mining
, SS 2013 13
Technische Universität München
Organisatorisches
• Jedem Teilnehmer wird ein Betreuer zugewiesen• Vortrag: ca. 20min + Diskussion• Ausarbeitung: 5 Seiten (LATEX) im IEEE Format (Webseite), excl.
Quellenangaben.• Vortragstermin wird (geblockt) zugeteilt• Kein Vortrag vor dem 01. Juli 2013!• Webseite:
http://www5.in.tum.de/wiki/index.php/Proseminar_Data_Mining_-_Summer_13
oderhttp://www5.in.tum.de → Teaching → Summer 13 → Proseminar - Data Mining
SCCS: Proseminar - Data Mining
, SS 2013 14