Upload
phamnhu
View
216
Download
0
Embed Size (px)
Citation preview
- 1 -
Vorlesung
„Computergestützte Statistik“
WS 16/17
Dr. Uwe Ligges
Buch: Foundations of Statistical Algorithms (Weihs, Mersmann, Ligges)
Taylor & Francis, 2014
- 2 -
Inhalt
Kapitel 1: Berechnung
1.1 Was kann ein Computer berechnen?
1.2 Wie rechnet ein Computer?
1.3 Wie genau rechnet ein Computer?
Kapitel 2: Verifikation
2.1 Kondition des Linearen Modells
2.2 Testen von Algorithmen
Kapitel 3: Iteration
3.1 Univariate Optimierung
3.2 Multivariate Optimierung (Nichtlineares Kleinste-Quadrate Problem)
3.3 Beispiel: Neuronale Netze
3.4 Optimierung unter Nebenbedingungen (L1-Regression, SVM)
3.5 Evolutionäre Optimierung
Kapitel 4: Herleitung theoretischer Eigenschaften
4.1 Das PLS-Verfahren
4.2 Der EM-Algorithmus
- 3 -
Kapitel 5: Randomisierung
5.1 Kalkulierter Zufall: Erzeugung univariater Zufallszahlen
5.2 Markov-Chain-Monte-Carlo Methoden
5.3 Eine Fallstudie zu MCMC-Methoden
Kapitel 6: Wiederholung
6.1 Modellwahl bei Regression und Klassifikation
6.2 Resampling Verfahren: Bootstrap und Kreuzvalidierung
6.3 Neuronale Netze: Größe der versteckten Schicht
6.4 PLS: Anzahl latente Variablen
Kapitel 7: Skalierbarkeit und Parallelisierung (Große Datenmengen)
Es folgt ein kurzer Einblick in den Inhalt.
- 4 -
Kapitel 1: Berechnung
1.1 Was kann ein Computer berechnen?
1.1.1 Algorithmen (nach dem usbekischen Mathematiker Ben Musa al-Chwarizmi, 9. Jh.)
Definition 1.1 (Algorithmus)
Ein Algorithmus ist ein Verfahren, mit dem man die Antwort auf Fragen eines gewis-
sen Fragenkomplexes nach einer vorgeschriebenen Methode erhält. Er muss bis in
die letzten Einzelheiten eindeutig angegeben sein. Insbesondere muss die Vorschrift,
die den Algorithmus angibt, durch einen Text endlicher Länge gegeben sein.
Oft sieht man Algorithmen kaum an, was sie berechnen!
Wie konstruiert und liest man Algorithmen?
1.1.2 Komplexität von Algorithmen
Oft gibt es schnelle und langsame Algorithmen zur Lösung eines Problems.
Komplexitätsmaße und was sie aussagen.
- 5 -
1.1.3 Beispiel: Sortieralgorithmen
Kennen Sie wichtige Sortier-Anwendungen in der Statistik?
Komplexität verschiedener Sortieralgorithmen.
1.2 Wie rechnet ein Computer?
Welche Operation ist auf dem Computer fehleranfälliger: Multiplikation oder
Addition ?
Definition von Gleitkommazahlen und -operationen.
1.3 Wie genau rechnet ein Computer?
Rundungsfehler und sog. Konditionszahlen: (a + b) + c ≠ a + (b + c) !!!!
1.3.3 Berechnung der empirischen Varianz
Jeder weiß doch, wie man die empirische Varianz berechnet, oder doch nicht?
Verschiedene Algorithmen, ihre Kondition und eine „optimale“ Kombination.
- 7 -
Was ist Klassifikation?
Vorhersageregel: X Y Features Klassen Wir definieren diese Regeln nicht selbst, sondern „lernen“ sie auto-matisch aus beobachteten Daten. Wir behandeln nur sogenanntes „überwachtes Lernen“.
- 8 -
Was ist Klassifikation? Diese Klassifikationsregeln sollen möglichst
automatisch
genau
schnell
verständlich
sein.
- 9 -
Wofür ist Klassifikation nützlich?
Prognostische Modelle in der Medizin:
Hat diese Person eine bestimmte Krankheit?
Marketing:
Sollen wir dieser Person eine bestimmte Werbung schicken oder zeigen?
Kredit-Scoring: Sollen wir dieser Person einen Kredit geben?
Automatische Kategorisierung von Bilddaten:
Ist auf diesem Bild eine kranke Zelle?
Textkategorisierung: Ist diese Mail Spam?
Schrifterkennnung: Was steht denn da auf dem Briefumschlag?
Spracherkennung: Jeder liebt sprachgesteuerte Telefonmenüs!
Und noch vieles mehr!
- 10 -
Inhalte
A: Klassifikationsverfahren und ihr Verhalten bei Big Data Datenunabhängige Verfahren
Bayes-Verfahren (Näherungen: kNN, naive Bayes)
Diskriminanzanalyse (LDA, QDA, RDA)
Logistische Regression
Support Vector Machine (SVM)
Entscheidungsbäume
Random Forest (Bagging)
Boosting (ADA-, Gradient-)
Neuronale Netze
B: Variablenselektion und Dimensionsreduktion DiSCo (Different Subspace Classfication)
allgemeine Variablenselektion
Fisher Diskriminanzanalyse
OSP (Optimal Separation Projection)
allgemeine Dimensionsreduktion
- 11 -
C: Evaluationsmethoden Theorie der Qualitätsmaße und dazugehörige Tests
Resampling Methode
Konfusionsmaße
Interpretation
Datencharakterisierung
CRISP Methode
D: Erweiterungen von einfachen Klassifikationsmethoden Tuning von Verfahrensparametern
lokale Modelle (Lokalisierung von globalen Methoden)
- 12 -
Organisation, Voraussetzungen und Übungen
Vorlesung:
Skript vorhanden
Voraussetzungen:
Diplom- / Bachelor- / Master-Studiengänge sind alle ok
VMR / Analysis
Lineare Modelle
R programmieren können
Übungen:
Wöchentlich 2 Stunden und Gruppenabgaben
Mischung aus theoretischen Aufgaben und Praxis in R
- 13 -
Vorlesung „Musikdatenanalyse“
Prof. Dr. Claus Weihs
Sommersemester 2016 !!!
Vorlesung und Übungen (2V + 1Ü)
Fakultät Statistik, Fakultät Informatik, Institut für Musik und
Musikwissenschaft, Fakultät für Elektrotechnik und Informa-
tionstechnik (RUB)
Buch: Music Data Analysis; 25 Autoren (erscheint Herbst 2016!)
- 14 -
Gliederung
1. Einführung, Das Music-Signal I (Weihs, Ebeling)
2. Das Music-Signal II; Musikalische Strukturen (Ebeling)
3. Digitale Signal-Verarbeitung I (Martin)
4. Digitale Signal-Verarbeitung II, Signal basierte Merkmale (Martin, Nagathil)
5. Digitale Darstellung von Musik, Weitere Musikdaten (Rudolph, Vatolkin)
6. Statistik in der Musik (Weihs)
7. Unüberwachtes Lernen (Weihs)
8. Überwachte Klassifikation (Weihs)
9. Bewertung von Modellen (Weihs)
10. Merkmalsbearbeitung (Vatolkin)
11. Merkmalsauswahl (Vatolkin)
12. Transkription (Vernotung) (Ligges)
13. Segmentierung (Ligges)
14. Instrumentenerkennung, Rückschau (Weihs)
- 15 -
Eine Woche als Block (8-9 Schulstunden pro Tag mit Präsenzübungen)
Termin: 26.9. - 30.9.2016, Raum: TU Dortmund, CDI 121
Block-Aufteilung:
1. Tag – Einführung, Musik: 1, 2;
2. Tag – Technische Grundlagen: 3, 4, 5;
3. Tag – Statistische Grundlagen: 6, 7, 8;
4. Tag – Modellauswahl: 9, 10, 11;
5. Tag – Anwendungen, Abschluss: 12, 13, 14.
Alle Beispiele und Präsenzübungen aus der Musikdatenanalyse.
Voraussetzungen: Mathematik-Grundlagen
Teilnehmerbeschränkung: max. 30 Teilnehmer (wg. Computerarbeitsplätzen)
Studierende im Bachelor und im Master willkommen!
- 16 -
Die (Lean) Six Sigma Methode
Prof. Dr. C. Weihs
Winter 2016/17 (2V + 1Ü)
für Maschinenbau und Statistik
Analyze Control Improve Measure Define
- 17 -
Übersicht: DMAIC
1. Einführung in Lean Six Sigma
2. Define: Projektdefinition & Prozessverständnis
3. Measure: Prozessverhalten dokumentieren
4. Analyze: Ist-Analyse – Prozessmodell erstellen
5. Improve: Lösungen finden und bewerten
6. Control: Umsetzen der besten Lösung
Praxisprojekt für Green-Belt maximal für die 10 Besten der Klausur: Master Black Belt: Dr. Dietmar Stemann (Statistiker)
- 18 -
Definition: Lean Six Sigma
Lean Six Sigma ist eine anerkannte Managementmethode, die Unternehmen
hilft, ihre Produkte und Leistungen in nahezu fehlerfreier Qualität anzubieten
und damit die Anforderungen des Kunden vollständig und profitabel zu erfül-
len.
• Die zu erreichende Qualität von Prozessen und/oder Produkten wird zu
Projektbeginn über messbare Kennzahlen definiert.
• Der Erfolg ist schon während der Projektphasen messbar.
• Die messbare Realisierung der Verbesserung ist statistisch abgesi-
chert und nachhaltig nachgewiesen am Ende des Projektes.
• Die Orientierung auf Daten, Fakten und Kennzahlen, weg vom reinen
Bauchgefühl!
• Die hohe Erfolgsquote der Projekte durch Coaching von erfahrenem
Lean Six Sigma Master Black Belts (mit Branchenerfahrung).
• Die Nachhaltigkeit nach Projektende durch Messung der relevanten sta-
tistischen Kennzahlen
- 19 -
Statistische Methoden
Grundlagen (Measure)
Deskription (Grafiken, Ishikawa-Diagramm)
Regression und Tests (Konfidenzintervall)
Charakterisierung vorhandener Daten (Measure)
Messsystemanalyse (Varianzanalyse; Kontingenzanalyse)
Prozessfähigkeitsindizes
Kontrollkarten
Erhebung neuer Daten (Analyze)
Fallzahlplanung
Statistische Versuchsplanung
Voraussetzungen: Studierende im Bachelor und Master willkommen