57
Oberseminar Datenbanken Carsten Severin Tobias Sorgatz Datamining

Oberseminar Datenbanken Carsten Severin Tobias Sorgatz Datamining

Embed Size (px)

Citation preview

Page 1: Oberseminar Datenbanken Carsten Severin Tobias Sorgatz Datamining

Oberseminar DatenbankenCarsten Severin Tobias Sorgatz

Datamining

Page 2: Oberseminar Datenbanken Carsten Severin Tobias Sorgatz Datamining

Oberseminar Datenbanken: Datamining, Severin, Sorgatz

ÜberblickÜberblick 1. Einleitung 2. Eingaben 3. Ausgaben 4. Algorithmen 5. Glaubwürdigkeit 6. Maschinelles

Lernen in der Praxis

Page 3: Oberseminar Datenbanken Carsten Severin Tobias Sorgatz Datamining

Oberseminar Datenbanken: Datamining, Severin, Sorgatz

1.0. Beispiele1.0. Beispiele

Beispiel 1: Künstliche Befruchtung Eigenschaften definieren, die größte

Überlebenschance garantieren

Page 4: Oberseminar Datenbanken Carsten Severin Tobias Sorgatz Datamining

Oberseminar Datenbanken: Datamining, Severin, Sorgatz

1.1. Beispiele1.1. Beispiele

Beispiel 2: Vieh wird geschlachtet Gesundheit Lebenserwartung Fruchtbarkeit Gewicht

Page 5: Oberseminar Datenbanken Carsten Severin Tobias Sorgatz Datamining

Oberseminar Datenbanken: Datamining, Severin, Sorgatz

1.2. Situation1.2. Situation

Immer mehr Daten werden gespeichert Internet Preiswerte Speichermedien Mehr Anwendungen: Bilder, Filme Alle 20 Monate Verdopplung

der Daten

Page 6: Oberseminar Datenbanken Carsten Severin Tobias Sorgatz Datamining

Oberseminar Datenbanken: Datamining, Severin, Sorgatz

1.3. Lösung: Data Mining1.3. Lösung: Data Mining

Es ist eine Möglichkeit gesucht, dieDatenflut zu analysieren

Daten sollen ausgewertet werden Lösung: Data Mining

Page 7: Oberseminar Datenbanken Carsten Severin Tobias Sorgatz Datamining

Oberseminar Datenbanken: Datamining, Severin, Sorgatz

1.4.1. Datamining1.4.1. Datamining

Verarbeitung elektronisch gespeicherter Daten

Lernen: Wissen durch Studium aneignen Prozess der autom. oder halbautom.

Mustererkennung Maschinelles Lernen: Lernen

automatisieren

Page 8: Oberseminar Datenbanken Carsten Severin Tobias Sorgatz Datamining

Oberseminar Datenbanken: Datamining, Severin, Sorgatz

1.4.2. Data Mining1.4.2. Data Mining

Aneignen von Wissen Fähigkeit es zu verwenden Gezielte Suche in Datenbanken Analyse bereits vorhandener Daten Suche nach Mustern Ergebnisse ein weiteres Handeln

einbeziehen

Page 9: Oberseminar Datenbanken Carsten Severin Tobias Sorgatz Datamining

Oberseminar Datenbanken: Datamining, Severin, Sorgatz

1.5. Data Mining und Ethik1.5. Data Mining und Ethik

problematisch sind rassische und sexuelle Informationen

Undurchschaubarkeit von Daten (unvorhersehbare Auswertungen)

Viele Daten werden für neue Analysen zusammengefasst

Page 10: Oberseminar Datenbanken Carsten Severin Tobias Sorgatz Datamining

Oberseminar Datenbanken: Datamining, Severin, Sorgatz

1.6. Bias: Lernverfahren1.6. Bias: Lernverfahren

Zur Bestimmung des Lernverfahrens Sprachbias:

Ist die Beschreibung universal? Wird domänenwissen genutzt

Suchbias: bestmögliche Beschreibung finden

Bias zur Vermeidung der Überanpassung

Page 11: Oberseminar Datenbanken Carsten Severin Tobias Sorgatz Datamining

Oberseminar Datenbanken: Datamining, Severin, Sorgatz

2. Eingabe2. Eingabe

Wie werden die Daten zur Analyse eingegeben?

Page 12: Oberseminar Datenbanken Carsten Severin Tobias Sorgatz Datamining

Oberseminar Datenbanken: Datamining, Severin, Sorgatz

2.1. Eingabe der Daten2.1. Eingabe der Daten

Konzepte Instanzen Attribute

Page 13: Oberseminar Datenbanken Carsten Severin Tobias Sorgatz Datamining

Oberseminar Datenbanken: Datamining, Severin, Sorgatz

2.1.1. Konzepte2.1.1. Konzepte

Unabhängig von Art des Lernens Beschreibt was gelernt werden soll

Ausgabe des Lernverfahrens: Baum Regelmenge

Page 14: Oberseminar Datenbanken Carsten Severin Tobias Sorgatz Datamining

Oberseminar Datenbanken: Datamining, Severin, Sorgatz

2.1.2. Instanzen2.1.2. Instanzen

Jede Instanz ist ein eigenes Beispiel Zeile in einer Tabelle

Page 15: Oberseminar Datenbanken Carsten Severin Tobias Sorgatz Datamining

Oberseminar Datenbanken: Datamining, Severin, Sorgatz

2.1.3.1. Attribute2.1.3.1. Attribute

Attribut ist Spalte einer Tabelle Problem: Instanzen mit unterschiedlichen

Attributen -> Möglichst viele Attribute

Page 16: Oberseminar Datenbanken Carsten Severin Tobias Sorgatz Datamining

Oberseminar Datenbanken: Datamining, Severin, Sorgatz

2.1.3.2. Attribute2.1.3.2. Attribute

Numerische Attribute Nominale Attribute Ordinale Attribute

Page 17: Oberseminar Datenbanken Carsten Severin Tobias Sorgatz Datamining

Oberseminar Datenbanken: Datamining, Severin, Sorgatz

2.2. Beispiel2.2. Beispiel

Wie sehen einzulesende Datenmengen aus? Wie sehen Regelmengen aus?

Page 18: Oberseminar Datenbanken Carsten Severin Tobias Sorgatz Datamining

Oberseminar Datenbanken: Datamining, Severin, Sorgatz

2.2.1. Beispiel: Datensatz2.2.1. Beispiel: Datensatz

Page 19: Oberseminar Datenbanken Carsten Severin Tobias Sorgatz Datamining

Oberseminar Datenbanken: Datamining, Severin, Sorgatz

2.2.2. Beispiel: Baum2.2.2. Beispiel: Baum

Page 20: Oberseminar Datenbanken Carsten Severin Tobias Sorgatz Datamining

Oberseminar Datenbanken: Datamining, Severin, Sorgatz

2.2.3. Beispiel: Regelmenge2.2.3. Beispiel: Regelmenge

Page 21: Oberseminar Datenbanken Carsten Severin Tobias Sorgatz Datamining

Oberseminar Datenbanken: Datamining, Severin, Sorgatz

2.3. Aufbereitung 2.3. Aufbereitung

Aufbereitung der Eingabedaten Integration von verschiedenen Datenquellen Datacleaning Data Warehousing ARFF-Dateien

Page 22: Oberseminar Datenbanken Carsten Severin Tobias Sorgatz Datamining

Oberseminar Datenbanken: Datamining, Severin, Sorgatz

2.3.1. Data Warehousing2.3.1. Data Warehousing

Zusammenfassung von Datenquellen Unternehmensweite Datenbankintegration Keine Abteilungsgrenzen Aggregation von Daten

Page 23: Oberseminar Datenbanken Carsten Severin Tobias Sorgatz Datamining

Oberseminar Datenbanken: Datamining, Severin, Sorgatz

2.4. Eingabe: Fehlende Daten2.4. Eingabe: Fehlende Daten

Einträge außerhalb Gültigkeit (-1) Unterscheidung von fehlenden Daten(-1,-2) Wegen verändertes Experiment Wegen Messfehlern Wegen Verweigerung Ist Auftreten zufällig oder wichtig für

Analyse?

Page 24: Oberseminar Datenbanken Carsten Severin Tobias Sorgatz Datamining

Oberseminar Datenbanken: Datamining, Severin, Sorgatz

2.5. Eingabe: Genauigkeit2.5. Eingabe: Genauigkeit

Daten für andere Zwecke gespeichert Ungenauigkeiten plötzlich von anderer

Bedeutung Schreibfehler (sind Daten gleich?) Bewusste Manipulation

Page 25: Oberseminar Datenbanken Carsten Severin Tobias Sorgatz Datamining

Oberseminar Datenbanken: Datamining, Severin, Sorgatz

2.6. Arten des Lernens2.6. Arten des Lernens

Klassifizierendes Lernen Vorhandene Daten in Klassen fassen

Numerische Vorhersage Numerische statt diskrete Werte

Clustering Gruppieren von Instanzen

Page 26: Oberseminar Datenbanken Carsten Severin Tobias Sorgatz Datamining

Oberseminar Datenbanken: Datamining, Severin, Sorgatz

3. Ausgabe3. Ausgabe

3.1 Entscheidungstabellen

3.2 Entscheidungsbäume

3.3 Klassifikationsregeln

3.4 Assoziationsregeln

3.5 Regeln mit Ausnahmen

3.6 Bäume für numerische Vorhersage

3.7 Instanzbasierte Darstellung

3.8 Cluster

Page 27: Oberseminar Datenbanken Carsten Severin Tobias Sorgatz Datamining

Oberseminar Datenbanken: Datamining, Severin, Sorgatz

3.1 Entscheidungstabellen3.1 Entscheidungstabellen

Einfachste, elementarste Methode weniger einfach bei spezieller Auswahl von

Attributen Kompliziert: Auswahl der die Entscheidung

nicht beeinflussenden Attribute

Page 28: Oberseminar Datenbanken Carsten Severin Tobias Sorgatz Datamining

Oberseminar Datenbanken: Datamining, Severin, Sorgatz

3.2 Entscheidungsbäume3.2 Entscheidungsbäume

Ansatz: Teile und Herrsche Knoten eines Baumes bedingen

Auswertung eines Attributs Blätter stellen Klassifikationen dar

Page 29: Oberseminar Datenbanken Carsten Severin Tobias Sorgatz Datamining

Oberseminar Datenbanken: Datamining, Severin, Sorgatz

3.3 Klassifikationsregeln3.3 Klassifikationsregeln

Anwendung einer Regel verlangt Auswertung einer Menge von Attributen

Allgemein logische UND Verknüpfung der Bedingungen

Aus Baum: pro Blatt eine Regel, Auswertung jeder Regel eines Knotens auf dem Pfad von Wurzel zu Blatt

Page 30: Oberseminar Datenbanken Carsten Severin Tobias Sorgatz Datamining

Oberseminar Datenbanken: Datamining, Severin, Sorgatz

3.4 Assoziationsregeln3.4 Assoziationsregeln

Können nicht nur Klassen vorhersagen, sondern auch Attribute

Damit Vorhersage beliebiger Attributkombinationen

if temperatur =kalt then luftfeuchtigkeit = normal

Page 31: Oberseminar Datenbanken Carsten Severin Tobias Sorgatz Datamining

Oberseminar Datenbanken: Datamining, Severin, Sorgatz

3.5 Regeln mit Ausnahmen3.5 Regeln mit Ausnahmen

Vermeidung falscher Klassifikation durch Zulassen von Ausnahmen

Schaffen einer neuen Entscheidungsebene Bei Fortsetzung erhält man Baumstruktur if stimme = hoch then Frau except if eunuch then Mann

Page 32: Oberseminar Datenbanken Carsten Severin Tobias Sorgatz Datamining

Oberseminar Datenbanken: Datamining, Severin, Sorgatz

3.6 Bäume für numerische 3.6 Bäume für numerische VorhersagenVorhersagen

Auswertung eines numerischen Attributes

Page 33: Oberseminar Datenbanken Carsten Severin Tobias Sorgatz Datamining

Oberseminar Datenbanken: Datamining, Severin, Sorgatz

3.7 Instanzbasierte 3.7 Instanzbasierte DarstellungDarstellung

Auswendiglernen durch Merken von Trainingsinstanzen

Neue Instanz wird mit vorhandenen verglichen und der Klasse der ähnlichsten vorhandenen Instanz zugeordnet

BSP: Buchstabenerkennung

Page 34: Oberseminar Datenbanken Carsten Severin Tobias Sorgatz Datamining

Oberseminar Datenbanken: Datamining, Severin, Sorgatz

3.8 Cluster3.8 Cluster

Ausgabe eines Diagramms: Anzeige der in die Cluster eingeordneten Instanzen

Einfachster Fall: Zuweisung einer Clusternummer zu jeder Instanz

Page 35: Oberseminar Datenbanken Carsten Severin Tobias Sorgatz Datamining

Oberseminar Datenbanken: Datamining, Severin, Sorgatz

4. Algorithmen4. Algorithmen

4.1 Ableitung elementarer Regeln

4.2 statistische Modellierung

4.3 Teile und Herrsche

4.4 Abdeckungs- algorithmen

Page 36: Oberseminar Datenbanken Carsten Severin Tobias Sorgatz Datamining

Oberseminar Datenbanken: Datamining, Severin, Sorgatz

4.1 Ableitung elementarer 4.1 Ableitung elementarer RegelnRegeln

Baum auf einer Ebene Auswertung einer Regelmenge eines

Attributes für jedes attribut für jeden wert des attributes

zählen, wie oft jede klasse erscheint klasse mit häufigsten auftreten ermitteln regel aufstellen die diesem attributwert klasse zuordenet

fehlerrate der regeln berechnen regelmenge mit kleinsten fehler auswählen

Page 37: Oberseminar Datenbanken Carsten Severin Tobias Sorgatz Datamining

Oberseminar Datenbanken: Datamining, Severin, Sorgatz

4.2 Statistische Modellierung4.2 Statistische Modellierung

Nutzung aller Attribute Gewichtung für alle Attribute gleich Attribute werden als unabhängig

voneinander angesehen Rechnen mit Wahrscheinlichkeiten Auswertung von Hypothesen und

zugehörigen Ereignissen

Page 38: Oberseminar Datenbanken Carsten Severin Tobias Sorgatz Datamining

Oberseminar Datenbanken: Datamining, Severin, Sorgatz

4.3 Teile und Herrsche4.3 Teile und Herrsche Wahl eines Wurzelattributes Anlegen einer Verzweigung für jeden Wert Zerlegung der Beispielmenge in

Untermengen, eine für jeden Wert des Attr. Rekursive Anwendung für jede Verzweigung,

nur Instanzen die Verzweigung erreichen Alle Instanzen eines Knotens gleiche Klasse:

Konstruktion des Baumabschn. fertig

Page 39: Oberseminar Datenbanken Carsten Severin Tobias Sorgatz Datamining

Oberseminar Datenbanken: Datamining, Severin, Sorgatz

4.4 Abdeckungs-Algorithmen4.4 Abdeckungs-Algorithmen

Betrachtung einzelner Klassen nacheinander

Abdeckung aller Instanzen Auschluss klassenfremder Instanzen Ableitung einer Regel in jedem Schritt die

einige Instanzen abdeckt

Page 40: Oberseminar Datenbanken Carsten Severin Tobias Sorgatz Datamining

Oberseminar Datenbanken: Datamining, Severin, Sorgatz

5. Glaubwürdigkeit5. Glaubwürdigkeit

5.1 Trainieren und Testen 5.2 Leistungsvorhersage 5.3 Kreuzvalidierung 5.3.1 Leave one out 5.4 Vorhersage von Wahrscheinlichkeiten

Page 41: Oberseminar Datenbanken Carsten Severin Tobias Sorgatz Datamining

Oberseminar Datenbanken: Datamining, Severin, Sorgatz

5.1 Trainieren und Testen5.1 Trainieren und Testen

Bei richtiger Klassifikation: Erfolg Andernfalls : Fehler Angabe des Verhältnisses zwischen Erfolg

und Fehler: Gesamtleistung des Klassifizierers

Nicht effektiv, da mit alten Daten gearbeitet wird, Vorhersage schwer möglich

Page 42: Oberseminar Datenbanken Carsten Severin Tobias Sorgatz Datamining

Oberseminar Datenbanken: Datamining, Severin, Sorgatz

5.2 Leistungsvorhersage5.2 Leistungsvorhersage

Fehlerrate (fr) sei bestimmt (5.1) Bestimmung von Erfolgsrate (er): 1-fr Mit Mitteln der

Wahrscheinlichkeitsrechnung Bestimmung der Wahrscheinlichkeit von er.

Bei grossen Testreihen: Normalverteilung

Page 43: Oberseminar Datenbanken Carsten Severin Tobias Sorgatz Datamining

Oberseminar Datenbanken: Datamining, Severin, Sorgatz

5.35.3 KreuzvalidierungKreuzvalidierung

Aufteilung der Datenmenge in Test und Trainingsmenge, feste Partitionen (Bsp3)

Garantiert beste Mischung der Beispiele aller Klassen

Nacheinander Ausführung von: Testen einer Partition, trainieren mit den zwei

Anderen

Page 44: Oberseminar Datenbanken Carsten Severin Tobias Sorgatz Datamining

Oberseminar Datenbanken: Datamining, Severin, Sorgatz

5.3.1 Leave-one-out5.3.1 Leave-one-out N-fache Kreuzvalidierung N ist Anzahl der Instanzen in der

Datenmenge Nacheinander:

Weglassen einer Instanz Training mit restlichen Instanzen

Auswertung aller N Ergebnisse durch Mittelwertbildung

Page 45: Oberseminar Datenbanken Carsten Severin Tobias Sorgatz Datamining

Oberseminar Datenbanken: Datamining, Severin, Sorgatz

5.4 Vorhersage von 5.4 Vorhersage von WahrscheinlichkeitenWahrscheinlichkeiten

Bisheriges Ziel: hohe Erfolgsrate für Vorhersage

Nicht mehr wahr oder falsch (Vorhersage hat tatsächlichen Wert der Instanz)

Einführung beliebig vieler Abstufungen Verschiedene Gewichtung von

unterschiedlichen Vorhersageergebnissen

Page 46: Oberseminar Datenbanken Carsten Severin Tobias Sorgatz Datamining

Oberseminar Datenbanken: Datamining, Severin, Sorgatz

6. Maschinelles Lernen in der 6. Maschinelles Lernen in der PraxisPraxis

Algorithmen sind in Praxis viel komplexer Behandlung realer Probleme Schwerpunkte: numerische Attribute

Fehlerbehandlung Anwendung von Statistiken

Page 47: Oberseminar Datenbanken Carsten Severin Tobias Sorgatz Datamining

Oberseminar Datenbanken: Datamining, Severin, Sorgatz

6.1 Entscheidunsbäume6.1 Entscheidunsbäume

Erweiterung des Teile-und-herrsche Algo: Behandlung numerischer und fehlender Werte Beschneidung (wegen Überanpassung) Umwandlung der Entscheidungsäume in

Klassifikationsregeln

Page 48: Oberseminar Datenbanken Carsten Severin Tobias Sorgatz Datamining

Oberseminar Datenbanken: Datamining, Severin, Sorgatz

6.1.1 Numerische Werte6.1.1 Numerische Werte

Anpassung an nominale (boolsche) Struktur Beispiel: Temperaturabfrage

noyesyesnonoyesnoyesyesyesnoyes

858381807572717069686564

Page 49: Oberseminar Datenbanken Carsten Severin Tobias Sorgatz Datamining

Oberseminar Datenbanken: Datamining, Severin, Sorgatz

6.1.2 Fehlende Werte6.1.2 Fehlende Werte

Zerlegung der Instanz, unter Verwendung numerischer Gewichtung, und Bearbeitung mit allen Verzweigungen des Baumes

Bei Erreichen eines Blattknotens: Zusammenfügen der Entscheidungen des Blattknotens unter Verwendung der Gewichtung, die mit “durchgesickert” ist

Page 50: Oberseminar Datenbanken Carsten Severin Tobias Sorgatz Datamining

Oberseminar Datenbanken: Datamining, Severin, Sorgatz

6.1.3 Pruning6.1.3 Pruning

6.1.3.1 Postpruning:Nachträgliches Beschneiden des fertigen

Baumes („usammengehörige Attribute“

6.1.3.2 Prepruning Beschneidung während der Baumbildung (Arbeitseinsparung)

Page 51: Oberseminar Datenbanken Carsten Severin Tobias Sorgatz Datamining

Oberseminar Datenbanken: Datamining, Severin, Sorgatz

6.1.4 Von Bäumen zu Regeln6.1.4 Von Bäumen zu Regeln

Pro Blatt eine Regel Alle Auswertungen von Wurzel zum Blatt

werden UND-verknüpft Löschen von Bedingungen, die keinen, oder

schlechten, Einfluß auf Regel haben Entfernen von Regelduplikaten

Page 52: Oberseminar Datenbanken Carsten Severin Tobias Sorgatz Datamining

Oberseminar Datenbanken: Datamining, Severin, Sorgatz

6.2 Clustering6.2 Clustering

Ziel: Einteilung der Instanzen in natürliche Gruppen

Arten von Clustern: Ausschliessende Überlappende Wahrscheinlichkeitsverteilte Hierarchisch (Vererbungsebenen)

Page 53: Oberseminar Datenbanken Carsten Severin Tobias Sorgatz Datamining

Oberseminar Datenbanken: Datamining, Severin, Sorgatz

6.2.1 k-Mittelwert Clustering6.2.1 k-Mittelwert Clustering

Bildung von k Clustern in numerischen Domänen, durch Aufteilung der Instanzen in disjunkte (elementefremd) Cluster

Wahl von Zentren und Zuweisung der Instanzen zum nächstliegenden Zentrum

Mittelwertbildung aller Instanzen-neues Zentrum Wiederholung bis keine neuen Zentren entstehen

Page 54: Oberseminar Datenbanken Carsten Severin Tobias Sorgatz Datamining

Oberseminar Datenbanken: Datamining, Severin, Sorgatz

6.2.2 inkrementelles 6.2.2 inkrementelles ClusteringClustering

Hierarchische Gruppierung der Instanzen aufgrund eines „Quallitätsmasses

“(auch Kategorienützlichkeit) für Cluster Inkrementell (feinere Aufteilung Instanz für

Instanz)

Page 55: Oberseminar Datenbanken Carsten Severin Tobias Sorgatz Datamining

Oberseminar Datenbanken: Datamining, Severin, Sorgatz

6.2.3 Statistisches Clustering6.2.3 Statistisches Clustering

Mischmodell aus verschiedenen Wahrscheinlichkeitsverteilungen

Eine Verteilung pro Cluster Jede Verteilung gibt Wahrscheinlichkeit für

Clusterzugehörigkeit einer Instanz an (jede Instanz genau zu einem Cluster)

Page 56: Oberseminar Datenbanken Carsten Severin Tobias Sorgatz Datamining

Oberseminar Datenbanken: Datamining, Severin, Sorgatz

Vielen Dank für die Vielen Dank für die AufmerksamkeitAufmerksamkeit

Wir wünschen ein allseits schönes Wochenende.

Noch Fragen? (rhetorische Frage)

Page 57: Oberseminar Datenbanken Carsten Severin Tobias Sorgatz Datamining

Oberseminar Datenbanken: Datamining, Severin, Sorgatz

QuellenQuellen

Titel: Data Mining Praktische Werkzeuge und Techniken

für das maschinelles Lernen

Autoren: Ian H. Witten, Eibe Frank