15
Technische Universität München Proseminar - Data Mining SCCS, Fakultät für Informatik Technische Universität München SS 2012 SCCS: Proseminar - Data Mining , SS 2012 1

Proseminar - Data Mining - TUM...AdaBoost Kann als Ensemble Methode angesehen werden Verwendet optimale Gewicht (bzgl. exp. loss) SCCS: Proseminar - Data Mining, SS 2012 11 Technische

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Proseminar - Data Mining - TUM...AdaBoost Kann als Ensemble Methode angesehen werden Verwendet optimale Gewicht (bzgl. exp. loss) SCCS: Proseminar - Data Mining, SS 2012 11 Technische

Technische Universität München

Proseminar - Data Mining

SCCS, Fakultät für Informatik

Technische Universität München

SS 2012

SCCS: Proseminar - Data Mining

, SS 2012 1

Page 2: Proseminar - Data Mining - TUM...AdaBoost Kann als Ensemble Methode angesehen werden Verwendet optimale Gewicht (bzgl. exp. loss) SCCS: Proseminar - Data Mining, SS 2012 11 Technische

Technische Universität München

Data Mining Pipeline

 

 

 

   

Planung Aufbereitung Modellbildung Auswertung

Wir wollen nützliches Wissen aus Daten extrahieren• Planung. Finden des Problems. Was soll gemacht werden?

Dafür nötige Daten sammeln.• Aufbereitung. Rohdaten (unvollständig, redundant,

verschiedene Formate, Einheiten, etc.) werden in einebrauchbare Form gebracht.

• Modellbildung. Daten werden mit verschiedenen Methoden(Regression, Klassifikation, Clustering, etc.) analysiert.

• Auswertung. Interpretation und Auswertung der Ergebnisse.

SCCS: Proseminar - Data Mining

, SS 2012 2

Page 3: Proseminar - Data Mining - TUM...AdaBoost Kann als Ensemble Methode angesehen werden Verwendet optimale Gewicht (bzgl. exp. loss) SCCS: Proseminar - Data Mining, SS 2012 11 Technische

Technische Universität München

Warum Data Mining?

• “We are drowning in information and starving for knowledge.”(Rutherford D. Roger)

• “The future belongs to the companies and people that turn datainto products.” (Mike Loukides, O’Reilly)

• Rank 5 in Computerworld’s “Top IT skills wanted for 2012”• Rank 1 in Computerworld’s “IT skills that employers can’t say no

to”

SCCS: Proseminar - Data Mining

, SS 2012 3

Page 4: Proseminar - Data Mining - TUM...AdaBoost Kann als Ensemble Methode angesehen werden Verwendet optimale Gewicht (bzgl. exp. loss) SCCS: Proseminar - Data Mining, SS 2012 11 Technische

Technische Universität München

Beispiele (1)

• Handschrifterkennung (Klassifikation)

SCCS: Proseminar - Data Mining

, SS 2012 4

Page 5: Proseminar - Data Mining - TUM...AdaBoost Kann als Ensemble Methode angesehen werden Verwendet optimale Gewicht (bzgl. exp. loss) SCCS: Proseminar - Data Mining, SS 2012 11 Technische

Technische Universität München

Beispiele (2)

• Image Segmentation (Clustering)

SCCS: Proseminar - Data Mining

, SS 2012 5

Page 6: Proseminar - Data Mining - TUM...AdaBoost Kann als Ensemble Methode angesehen werden Verwendet optimale Gewicht (bzgl. exp. loss) SCCS: Proseminar - Data Mining, SS 2012 11 Technische

Technische Universität München

Beispiele (3)

• Ähnliche Gene (Clustering)

[Hastie et al.]

SCCS: Proseminar - Data Mining

, SS 2012 6

Page 7: Proseminar - Data Mining - TUM...AdaBoost Kann als Ensemble Methode angesehen werden Verwendet optimale Gewicht (bzgl. exp. loss) SCCS: Proseminar - Data Mining, SS 2012 11 Technische

Technische Universität München

Beispiele (4)

• Ähnliche Verschiebungen bei Crash (Clustering)

SCCS: Proseminar - Data Mining

, SS 2012 7

Page 8: Proseminar - Data Mining - TUM...AdaBoost Kann als Ensemble Methode angesehen werden Verwendet optimale Gewicht (bzgl. exp. loss) SCCS: Proseminar - Data Mining, SS 2012 11 Technische

Technische Universität München

Themen (1)

• Überblick• Genauere Darstellung der Data Mining Pipeline• Beispiele wo Data Mining verwendet wird

• Einsatz von Data Mining in Industrie• Software: Matlab und R• Software: Weka• Software: RapidMiner• Software: Google Prediction API• Überblick: Data at Scale

• Wie große Datenmengen speichern und verwalten? WelcherEinsatzbereich?

• Hadoop, Cassandra, BigTable, ...• Aufbereitung von Daten, Pre-Processing

SCCS: Proseminar - Data Mining

, SS 2012 8

Page 9: Proseminar - Data Mining - TUM...AdaBoost Kann als Ensemble Methode angesehen werden Verwendet optimale Gewicht (bzgl. exp. loss) SCCS: Proseminar - Data Mining, SS 2012 11 Technische

Technische Universität München

Themen (2)

• Lineare Modelle für Regression• Was sind lineare Modelle? Wieso lineare Modelle? Welche?• Was ist Regression? Beispiele.

• Lineare Modelle und Logistische Regression für Klassifikation• Klassifikation mit Thresholding• Vergleich mit z.B. k -nearest Neighbor

• Entscheidungsbäume• Merkmale in Reihenfolge der Wichtigkeit überprüfen• Es entsteht ein Baum

SCCS: Proseminar - Data Mining

, SS 2012 9

Page 10: Proseminar - Data Mining - TUM...AdaBoost Kann als Ensemble Methode angesehen werden Verwendet optimale Gewicht (bzgl. exp. loss) SCCS: Proseminar - Data Mining, SS 2012 11 Technische

Technische Universität München

Themen (3)

• Association Rules• Finde gemeinsame Belegung von Variablen die möglichst oft

in Datenbank auftritt• Z.B.: Bier und Windeln werden of zusammen gekauft

• Clustering• Finde Struktur in Daten, kein “outcome” vorhanden• k -means, mixture of gaussians

• Dichteschätzung• Schätzen der Dichte P eines gegebenen Datensatzes

X = {x1, . . . , xM}.• Histogram, Kerndichteschätzer, etc.

• Reinforcement Learning• Das System bekommt sofort Feedback und reagiert darauf• Welche Verfahren gibt es? Anwendungsbeispiele?

SCCS: Proseminar - Data Mining

, SS 2012 10

Page 11: Proseminar - Data Mining - TUM...AdaBoost Kann als Ensemble Methode angesehen werden Verwendet optimale Gewicht (bzgl. exp. loss) SCCS: Proseminar - Data Mining, SS 2012 11 Technische

Technische Universität München

Themen (4)

• Neuronale Netze I• Neuronale Netze II• Ensemble Learning

• Verbinde mehrere verschiedene Algorithmen• Gewichte einzelne Antworten entsprechend

• AdaBoost• Kann als Ensemble Methode angesehen werden• Verwendet optimale Gewicht (bzgl. exp. loss)

SCCS: Proseminar - Data Mining

, SS 2012 11

Page 12: Proseminar - Data Mining - TUM...AdaBoost Kann als Ensemble Methode angesehen werden Verwendet optimale Gewicht (bzgl. exp. loss) SCCS: Proseminar - Data Mining, SS 2012 11 Technische

Technische Universität München

Themen (5)

• Hauptkomponentenanalyse• Natural Language Processing

• Latent Semantic Indexing• Latent Dirichlet allocation

• Big Learning• Stochastic Gradient Descent• Map-Reduce Parallelization

• Spam Filtering with Naive Bayes Classifier• Recommender Systems with Colaborative Filtering• Sequential Data

SCCS: Proseminar - Data Mining

, SS 2012 12

Page 13: Proseminar - Data Mining - TUM...AdaBoost Kann als Ensemble Methode angesehen werden Verwendet optimale Gewicht (bzgl. exp. loss) SCCS: Proseminar - Data Mining, SS 2012 11 Technische

Technische Universität München

Themen (6)

• Support Vector Machines• Classification with Sparse Grids• Semi-Supervised Learning• Time Series• Non-Linear Clustering• Non-Linear Dimensionality Reduction (1) (Kernel PCA, ICA)• Non-Linear Dimensionality Reduction (2) (Spectral Methods)

SCCS: Proseminar - Data Mining

, SS 2012 13

Page 14: Proseminar - Data Mining - TUM...AdaBoost Kann als Ensemble Methode angesehen werden Verwendet optimale Gewicht (bzgl. exp. loss) SCCS: Proseminar - Data Mining, SS 2012 11 Technische

Technische Universität München

Tipps zur Recherche

1. Google Scholar und Google (filetype:pdf)2. eAccess Zugriff mit MyTUM Account

http://www.ub.tum.de/eaccess#Bookmarklet%20f%C3%BCr%

20eAccess

Funktioniert für Springer, ACM, IEEE (nicht Computer Society!),etc.

3. Zeitschriften/Proceedings über EZB suchenhttp://www.ub.tum.de/ejournals

4. Manche Bücher elektronisch über OPAC-Katalog abrufbar(„Volltext“ Button)

SCCS: Proseminar - Data Mining

, SS 2012 14

Page 15: Proseminar - Data Mining - TUM...AdaBoost Kann als Ensemble Methode angesehen werden Verwendet optimale Gewicht (bzgl. exp. loss) SCCS: Proseminar - Data Mining, SS 2012 11 Technische

Technische Universität München

Organisatorisches

• Jedem Teilnehmer wird ein Betreuer zugewiesen• Vortrag: ca. 20min + Diskussion• Ausarbeitung: 5 Seiten (LATEX) im IEEE Format (Webseite), excl.

Quellenangaben.• Vortragstermin wird (geblockt) zugeteilt• Kein Vortrag vor dem 15. Juni 2012!• Webseite:

http://www5.in.tum.de/wiki/index.php/Proseminar_Data_Mining_-_Summer_12

oderhttp://www5.in.tum.de → Teaching → Summer 12 → Proseminar - Data Mining

SCCS: Proseminar - Data Mining

, SS 2012 15